CN107577755B - 一种搜索方法 - Google Patents
一种搜索方法 Download PDFInfo
- Publication number
- CN107577755B CN107577755B CN201710772609.4A CN201710772609A CN107577755B CN 107577755 B CN107577755 B CN 107577755B CN 201710772609 A CN201710772609 A CN 201710772609A CN 107577755 B CN107577755 B CN 107577755B
- Authority
- CN
- China
- Prior art keywords
- search
- matching
- keywords
- retrieval
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及一种搜索方法,包括:终端设备接收用户输入的字符串信息,生成检索关键词;生成搜索请求并发送给服务器;服务器从获取检索关键词;根据检索关键词的字符类型确定匹配优先级,并将检索关键词按照匹配优先级与词库中的关键词按类别进行一次匹配;如果一次匹配失败,将检索关键词进行纠错处理,生成纠错检索关键词,并与词库中的关键词进行二次匹配;如果二次匹配失败,将检索关键词进行拆分处理,生成拆分检索关键词,并与词库中的关键词进行三次匹配;如果任意一次匹配成功,则得到检索结果信息;将检索结果信息进行分类,得到分类检索信息;将分类检索信息进行排序,得到排序分类信息;服务器将排序分类信息发送给终端设备。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种搜索方法。
背景技术
随着互联网技术的发展,用户在客户端输入关键词可以很方便地搜索到与关键词相关的信息。
但是现有的搜索方法中,对关键词进行全类别匹配,从而造成搜索时间长,占用内存较多,搜索结果只有广度而没有精度,搜索命中率不能达到用户满意。
发明内容
本发明的目的是提供一种搜索方法,能够将关键词进行分类整理,归纳到不同的类别中进行匹配,从而在搜索过程中降低搜索时长,改善分词系统;通过建立词与词之间关系,提高站内搜索精度和召回率,提高推荐的相关性。
为实现上述目的,本发明提供了一种搜索方法,包括:
终端设备接收用户输入的字符串信息,根据所述字符串信息生成检索关键词;
生成搜索请求并发送给服务器;所述搜索请求包括所述终端设备的终端ID和所述检索关键词;
所述服务器从所述搜索请求中获取所述检索关键词;
根据所述检索关键词的字符类型确定匹配优先级,并将所述检索关键词按照所述匹配优先级与词库中的关键词按类别进行一次匹配;
如果一次匹配失败,将所述检索关键词进行纠错处理,生成纠错检索关键词,并按所述匹配优先级与所述词库中的关键词进行二次匹配;
如果所述二次匹配失败,将所述检索关键词进行拆分处理,生成拆分检索关键词,并按所述匹配优先级与所述词库中的关键词进行三次匹配;
如果所述一次匹配、二次匹配或三次匹配中任意一次匹配成功,则得到检索结果信息;
将所述检索结果信息进行分类,得到分类检索信息;
将所述分类检索信息进行排序,得到排序分类信息;
所述服务器根据所述终端ID,将所述排序分类信息发送给对应的所述终端设备。
优选的,所述根据所述检索关键词的字符类型确定匹配优先级具体为:
所述服务器根据所述检索关键词的字符长度确定所述词库中优先匹配的类别。
优选的,所述根据所述检索关键词的字符类型确定匹配优先级具体为:
所述服务器根据所述检索关键词的字符类别确定所述词库中优先匹配的类别;所述字符类别包括:数字字符和字母字符。
优选的,所述方法还包括:建立所述检索关键词的字符类型特征库;所述字符类型特征库包括规定的字符类别。
进一步优选的,所述方法还包括:
建立所述字符类型特征库与所述词库中关键词的类别的对应关系。
优选的,所述拆分检索关键词的字符数不小于2。
进一步优选的,当所述拆分检索关键词为中文字符时,所述拆分检索关键词的字符数不小于4。
本发明实施例提供的搜索方法,能够将关键词进行分类整理,归纳到不同的类别中进行匹配,从而在搜索过程中降低搜索时长,改善分词系统;通过建立词与词之间关系,提高站内搜索精度和召回率,提高推荐的相关性。
附图说明
图1为本发明实施例提供的搜索方法流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明提供一种搜索方法流程图,能够将关键词进行分类整理,归纳到不同的类别中进行匹配,从而在搜索过程中降低搜索时长,改善分词系统;通过建立词与词之间关系,提高站内搜索精度和召回率,提高推荐的相关性。
图1为本发明实施例提供的搜索方法流程图,以下结合图1所示,对本发明实施例提供的搜索方法进行说明。
本发明实施例提供的搜索方法包括如下步骤:
步骤101,终端设备接收用户输入的字符串信息,根据字符串信息生成检索关键词。
具体的,终端设备可以为智能手机、平板电脑等加载有搜索应用的设备。
字符串信息可以为用户在终端设备输入的想要搜索的关键词信息,例如:“sun”,“计算机”等。终端设备接受到字符串信息,将字符串信息转换为检索关键词。
步骤102,终端设备根据检索关键词生成搜索请求并发送给服务器。
具体的,搜索请求包括终端设备的终端ID和检索关键词。
步骤103,服务器从搜索请求中获取到检索关键词。
具体的,服务器在接收到搜索请求之后,对搜索请求进行解析,得到检索关键词。
步骤104,服务器根据检索关键词的字符类型确定匹配优先级,并将检索关键词按照匹配优先级与词库中的关键词按类别进行一次匹配。
具体的,服务器根据检索关键词的字符类别和长度,确定匹配优先级。其中字符类别包括:数字字符和字母字符。
服务器中存储有预先建立的字符类型特征库,字符类型特征库中包括规定的字符类别,例如,包括:作者类、表演者类、特征类、年代类、时长类等。字符类型特征库是根据预先建立的字符类型特征库与词库中关键词的类别的对应关系建立的。例如,关键词“王小明”归属于作者类特征库,关键词“运算速度快”归属于特征类特征库。
服务器按照匹配优先级,将检索关键词与词库中的关键词进行匹配。
在一个具体的例子中,服务器根据检索关键词的字符类型确定匹配优先级,并将检索关键词按照匹配优先级与词库中的关键词按类别进行一次匹配,可以按照以下步骤来执行。
服务器获取到检索关键词之后,确定检索关键词的字符类别是否为数字字符。
如果检索关键词的字符类别为数字字符,则将此检索关键词优先与词库中的年代类关键词进行匹配。例如检索关键词是‘2017’,确定其字符类别为数字字符,将‘2017’先与年代类关键词进行匹配。
如果确定检索关键词的字符类别为非数字字符,则继续确定检索关键词的字符长度,并根据字符长度,确定匹配优先级。
在一个具体的例子中,字符长度大于3的检索关键词优先与特征类关键词进行匹配,字符长度小于或等于3的检索关键词优先与作者类关键词或表演者类关键词进行匹配。例如,服务器获取到的检索关键词是“运算速度快”,确定检索关键词的字符长度为‘5’,,则把“运算速度快”先与特征类关键词信息进行匹配。又例如,服务器获取到的检索关键词是“王小明”,确定检索关键词的字符长度为‘3’,则把“王小明”先与作者类关键词信息进行匹配,其次再与表演者类进行匹配。
步骤105,确定一次匹配是否成功。
如果一次匹配失败,执行步骤106,否则执行步骤111-步骤114。
步骤106,将所述检索关键词进行纠错处理,生成纠错检索关键词,并按匹配优先级与词库中的关键词进行二次匹配。
具体的,如果检索关键词与词库中的关键词的一次匹配失败,则服务器对检索关键词进行纠错处理,生成纠错检索关键词。其具体实施方式包括:(1)不区分检索关键词大小写。例如,服务器对检索关键词“Sun”进行纠错处理,生成纠错检索关键词“sun”。(2)模糊检索关键词中的前后字符。例如,服务器对检索关键词“sun”进行纠错处理,生成纠错检索关键词“sunday”,“sunlight”,“sunshine”,“run”等。(3)配置检索关键词的同义词。其中检索关键词的同义词为预先设定的,例如,预先设定“计算机”,“电脑”与“computer”互为同义词,则服务器对检索关键词“计算机”进行纠错处理,生成纠错检索关键词“电脑”与“computer”,对检索关键词“computer”进行纠错处理,则生成纠错检索关键词“电脑”与“计算机”。进行纠错处理时,方式(1),(2),(3)可以均实施,也可以实施其中的一种,当然也可以实施其中的两种。例如服务器对检索关键词“sun”进行纠错处理,生成纠错检索关键词“Sunday”,“Sunlight”,“Sunshine”,“Run”等。
在一个优选的实施例中,服务器对数字类型的检索关键词不进行纠错处理。
服务器将纠错检索关键词与词库中的关键词按匹配优先级进行二次匹配。
步骤107,确定二次匹配是否成功。
如果二次匹配失败,执行步骤108,否则执行步骤111-步骤114。
步骤108,将检索关键词进行拆分,生成拆分检索关键词,并按匹配优先级与词库中的关键词进行三次匹配。
具体的,如果纠错检索关键词与词库中的关键词二次匹配失败,则服务器对检索关键词进行拆分。例如,服务器获取到的检索关键词是“run电脑”,此检索关键词与词库中的关键词一次匹配失败,服务器对“run电脑”进行纠错处理,生成纠错检索关键词“Sun电脑”和“Run电脑”。服务器将纠错检索关键词“Sun电脑”和“Run电脑”与词库中的关键词进行二次匹配。如果二次匹配失败,服务器对检索关键词“run电脑”进行拆分,生成拆分检索关键词“run”和“电脑”。服务器将拆分检索关键词“run”和“电脑”与词库中的关键词进行三次匹配。
在一个优选的实施例中,拆分检索关键词的字符数不小于2,当拆分检索关键词为中文字符时,所述拆分检索关键词的字符数不小于4,即不将检索关键词拆成单字,以提高命中率,提升搜索精度。
步骤109,确定三次匹配是否成功。
如果三次匹配失败,执行步骤110,生成检索失败提示信息,根据终端ID发送给对应的终端设备。否则执行步骤111-步骤114。
在一个优选的实施例中,如果三次匹配失败,服务器还可以对拆分检索关键词进行纠错处理,生成拆分纠错检索关键词,并与词库中的关键词进行四次匹配。例如,服务器获取到的检索关键词是“run电脑”,如果三次匹配失败,服务器还可以对拆分检索关键词“run”和“电脑”进行纠错,生成拆分纠错检索关键词“sun”和“computer”。服务器将拆分纠错检索关键词“sun”和“computer”与词库中的关键词进行四次匹配。
步骤111,得到检索结果信息。
具体的,如果任意一次匹配成功,则服务器获得与检索关键词相对应的检索结果信息,检索结果信息可以是文章,资讯等。
步骤112,将检索结果信息进行分类,得到分类检索信息。
具体的,服务器根据预先设定的分类方式对检索结果信息进行分类,例如将检索结果信息按作者类、表演者类、特征类、年代类、时长类分成不同类别的检索结果信息,得到分类检索信息。
步骤113,将分类检索信息进行排序,得到排序分类信息。
具体的,服务器根据预先设定的排序方式对分类检索信息进行排序,例如将作者类检索结果信息、表演者类检索结果信息、特征类检索结果信息、年代类检索结果信息、时长类检索结果信息,排成作者类检索结果信息、表演者类检索结果信息、年代类检索结果信息、特征类检索结果信息、时长类检索结果信息的先后顺序。
步骤114,根据终端ID,将排序分类信息发送给对应的终端设备。
具体的,服务器根据终端设备的终端ID,将检索关键词所对应的排序分类信息发送给终端设备,终端设备可以对此排序分类信息进行显示。
本发明实施例提供的搜索方法,能够将关键词进行分类整理,归纳到不同的类别中进行匹配,从而在搜索过程中降低搜索时长,改善分词系统;通过建立词与词之间关系,提高站内搜索精度和召回率,提高推荐的相关性。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种搜索方法,其特征在于,所述搜索方法包括:
终端设备接收用户输入的字符串信息,根据所述字符串信息生成检索关键词;
生成搜索请求并发送给服务器;所述搜索请求包括所述终端设备的终端ID和所述检索关键词;
所述服务器从所述搜索请求中获取所述检索关键词;
根据所述检索关键词的字符类型确定匹配优先级,并将所述检索关键词按照所述匹配优先级与词库中的关键词按类别进行一次匹配;
如果一次匹配失败,将所述检索关键词进行纠错处理,生成纠错检索关键词,并按所述匹配优先级与所述词库中的关键词进行二次匹配;
如果所述二次匹配失败,将所述检索关键词进行拆分处理,生成拆分检索关键词,并按所述匹配优先级与所述词库中的关键词进行三次匹配;
如果一次匹配、二次匹配或三次匹配中任意一次的匹配成功,则得到检索结果信息;
将所述检索结果信息进行分类,得到分类检索信息;
将所述分类检索信息进行排序,得到排序分类信息;
所述服务器根据所述终端ID,将所述排序分类信息发送给对应的所述终端设备。
2.根据权利要求1所述的搜索方法,其特征在于,所述根据所述检索关键词的字符类型确定匹配优先级具体为:
所述服务器根据所述检索关键词的字符类别确定所述词库中优先匹配的类别;所述字符类别包括:数字字符和字母字符。
3.根据权利要求1所述的搜索方法,其特征在于,所述方法还包括:建立所述检索关键词的字符类型特征库;所述字符类型特征库包括规定的字符类别。
4.根据权利要求3所述的搜索方法,其特征在于,所述方法还包括:
建立所述字符类型特征库与所述词库中关键词的类别的对应关系。
5.根据权利要求1所述的搜索方法,其特征在于,所述拆分检索关键词的字符数不小于2。
6.根据权利要求5所述的搜索方法,其特征在于,当所述拆分检索关键词为中文字符时,所述拆分检索关键词的字符数不小于4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710772609.4A CN107577755B (zh) | 2017-08-31 | 2017-08-31 | 一种搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710772609.4A CN107577755B (zh) | 2017-08-31 | 2017-08-31 | 一种搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107577755A CN107577755A (zh) | 2018-01-12 |
CN107577755B true CN107577755B (zh) | 2020-06-19 |
Family
ID=61030695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710772609.4A Active CN107577755B (zh) | 2017-08-31 | 2017-08-31 | 一种搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107577755B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388464B (zh) * | 2018-03-07 | 2021-05-18 | 山东超越数控电子股份有限公司 | 一种基于局部刷新的高级分类检索方法 |
CN111291171B (zh) * | 2020-01-21 | 2023-05-16 | 南方电网能源发展研究院有限责任公司 | 一种危大工程风险数据搜索方法 |
CN113538082A (zh) * | 2020-04-21 | 2021-10-22 | 江苏工电宝信息科技有限公司 | 一种产品搜索系统及方法 |
CN112035599B (zh) * | 2020-11-06 | 2021-08-27 | 南京星云数字技术有限公司 | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 |
CN112597180A (zh) * | 2020-11-20 | 2021-04-02 | 深圳市世强元件网络有限公司 | 电子元件售卖平台服务项目搜索方法、装置及计算机设备 |
CN112612945B (zh) * | 2020-12-21 | 2024-04-12 | 网娱互动科技(北京)股份有限公司 | 一种分类搜索的方法和装置 |
CN114817265B (zh) * | 2022-04-28 | 2023-08-18 | 深圳市领航财富教育科技有限公司 | 一种利用大数据服务器的金融信息获取方法 |
CN117235345B (zh) * | 2023-11-16 | 2024-03-26 | 福昕鲲鹏(北京)信息科技有限公司 | 开放版式文档ofd搜索方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1908935A (zh) * | 2006-08-01 | 2007-02-07 | 华为技术有限公司 | 一种自然语言的搜索方法及系统 |
CN103064880A (zh) * | 2012-11-23 | 2013-04-24 | 覃文浩 | 一种基于搜索信息向用户提供网站选择的方法、装置和系统 |
CN103886081A (zh) * | 2014-03-26 | 2014-06-25 | 海信集团有限公司 | 一种信息发送方法及系统 |
CN104881497A (zh) * | 2015-06-17 | 2015-09-02 | 郑州悉知信息技术有限公司 | 一种搜索方法及客户端 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101255557B1 (ko) * | 2008-12-22 | 2013-04-17 | 한국전자통신연구원 | 음절 분리에 기반한 문자열 검색 시스템 및 그 방법 |
-
2017
- 2017-08-31 CN CN201710772609.4A patent/CN107577755B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1908935A (zh) * | 2006-08-01 | 2007-02-07 | 华为技术有限公司 | 一种自然语言的搜索方法及系统 |
CN103064880A (zh) * | 2012-11-23 | 2013-04-24 | 覃文浩 | 一种基于搜索信息向用户提供网站选择的方法、装置和系统 |
CN103886081A (zh) * | 2014-03-26 | 2014-06-25 | 海信集团有限公司 | 一种信息发送方法及系统 |
CN104881497A (zh) * | 2015-06-17 | 2015-09-02 | 郑州悉知信息技术有限公司 | 一种搜索方法及客户端 |
Also Published As
Publication number | Publication date |
---|---|
CN107577755A (zh) | 2018-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107577755B (zh) | 一种搜索方法 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
US8335787B2 (en) | Topic word generation method and system | |
WO2016179938A1 (zh) | 题目推荐方法和题目推荐装置 | |
WO2017219696A1 (zh) | 文本信息处理方法、装置及终端 | |
CN111159363A (zh) | 一种基于知识库的问题答案确定方法及装置 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
Sharma et al. | NIRMAL: Automatic identification of software relevant tweets leveraging language model | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN110929125A (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN110866102A (zh) | 检索处理方法 | |
CN113204953A (zh) | 基于语义识别的文本匹配方法、设备及设备可读存储介质 | |
CN109948154A (zh) | 一种基于邮箱名的人物获取及关系推荐系统和方法 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
CN110781673B (zh) | 文档验收方法、装置、计算机设备及存储介质 | |
US11379527B2 (en) | Sibling search queries | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN115292478A (zh) | 一种推荐搜索内容的方法、装置、设备和存储介质 | |
CN112800314B (zh) | 搜索引擎询问自动补全的方法、系统、存储介质及设备 | |
CN114242047A (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
CN110222156B (zh) | 发现实体的方法和装置、电子设备、计算机可读介质 | |
WO2021051587A1 (zh) | 基于语意识别的搜索结果排序方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200917 Address after: 100020 Beijing, East Third Ring Road, North Road, a building, floor 1702, room 17, room 26 Patentee after: Beijing Borui Tongyun Technology Co.,Ltd. Address before: 330000 Jiangxi province Nanchang City Airport Economic Zone Confucianism Le Hu Street No. 399 Patentee before: JIANGXI BORUITONGYUN TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |