CN108733757B - 文本搜索方法及系统 - Google Patents

文本搜索方法及系统 Download PDF

Info

Publication number
CN108733757B
CN108733757B CN201810322657.8A CN201810322657A CN108733757B CN 108733757 B CN108733757 B CN 108733757B CN 201810322657 A CN201810322657 A CN 201810322657A CN 108733757 B CN108733757 B CN 108733757B
Authority
CN
China
Prior art keywords
text
input text
processing result
acquiring
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810322657.8A
Other languages
English (en)
Other versions
CN108733757A (zh
Inventor
汪元
桂洪冠
纪达麒
陈运文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Co ltd
Original Assignee
Datagrand Information Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datagrand Information Technology Shanghai Co ltd filed Critical Datagrand Information Technology Shanghai Co ltd
Priority to CN201810322657.8A priority Critical patent/CN108733757B/zh
Publication of CN108733757A publication Critical patent/CN108733757A/zh
Application granted granted Critical
Publication of CN108733757B publication Critical patent/CN108733757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本搜索方法及系统。该文本搜索方法包括获取输入文本;根据预设的文本改写规则获得所述输入文本对应的候选文本;获取所述候选文本的搜索结果。本申请解决了相关技术中由于无法准确理解用户搜索意图导致无法得到准确匹配结果的技术问题。

Description

文本搜索方法及系统
技术领域
本申请涉及网络通信技术领域,具体而言,涉及一种文本搜索方法及系统。
背景技术
搜索引擎的的搜索过程主要包含两个阶段:匹配和排序。匹配阶段是指根据用户的查询条件,尽可能多的返回相关的文档,因此匹配阶段也称为粗排序阶段。排序阶段是指对已匹配到的文档进行精排,把最符合用户意图的文档排在前面。但在匹配的过程中,普遍的存在着“语义鸿沟”的问题,也即用户的查询与文档并不一定显性相关。以用户查询“Gucci手提包”为例,文档库中只包含“古驰女士包”的文档是和用户查询相关的内容,但搜索引擎中常规的倒排索引是无法命中该文档的。因此为了更好地理解用户的搜索意图,我们需要对用户的原始查询进行改写,从而得到更加丰富和更加准确的匹配结果。
针对上述搜索过程中存在的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本搜索方法及系统,以解决相关技术中由于无法准确理解用户搜索意图导致无法得到准确匹配结果的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种文本搜索方法。
根据本申请的文本搜索方法包括:获取输入文本;根据预设的文本改写规则获得所述输入文本对应的候选文本;获取所述候选文本的搜索结果。
进一步的,所述根据预设的文本改写规则获得所述输入文本对应的候选文本包括:获取所述输入文本的词处理结果;对所述输入文本进行分词得到各词;在所述序列候选集中获取所述各词所对应的的词处理结果。
进一步的,所述根据预设的文本改写规则获得所述输入文本对应的候选文本包括:对所述输入文本进行分词得到各词;在所述序列候选集中获取所述各词所对应的的词处理结果。
进一步的,所述获取所述输入文本的句处理结果的方法包括:在所述序列候选集中获取所述输入文本所对应的的句处理结果。
进一步的,所述序列候选集的构建方法包括:根据训练语料的特征向量获取相似候选集;对所述相似候选集进行模型训练获得序列候选集。
进一步的,获取所述候选文本的搜索结果包括:获取输入文本的词处理结果的预搜索结果;判断所述输入文本的词处理结果的预搜索结果是否达到预设的终结条件;如果输入文本的句处理结果的预搜索结果未达到预设的终结条件,则获取输入文本的句处理结果;获取所述输入文本的句处理结果的搜索结果。
进一步的,获取输入文本的句处理结果的搜索结果还包括:判断输入文本的句处理结果的预搜索结果是否达到预设的终结条件;如果输入文本的句处理结果的预搜索结果未达到预设的终结条件,则处理输入文本的句处理结果;获取所述句处理结果的整体结构处理结果;获取所述整体结构处理结果的搜索结果。
进一步的,所述获取所述输入文本的整体结构处理结果的方法包括:根据意图识别结果与丢词处理结果获得所述结构处理结果。
进一步的,优选获取输入文本的句处理结果的预搜索结果前,还包括对输入文本的句处理结果进行词处理。
为了实现上述目的,根据本申请的另一方面,提供了一种文本搜索系统,其特征在于,包括:文本改写模块,用于根据预设改写规则对输入文本进行改写得到候选文本;搜索及结果评分模块,用于对所述候选文本进行搜索并对其搜索结果进行评分。
进一步的,本申请的文本搜索系统还包括:用于为文本改写模块提供序列候选集的查询扩展模块;用于对输入文本进行丢词处理的查询剪裁模块;用于识别输入文本搜索意图的意图识别模块;用于对搜索频次较高的输入文本进行缓存的缓存模块;用于比较原始搜索结果和改写搜索结果的质量,并返回质量较高者的结果组装模块。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现根据本发明的一个方面的一种文本搜索方法。
根据本发明的再一个方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现根据本发明的一个方面的一种文本搜索方法。
在本申请实施例中,在字符、词短语、句子、整体结构四个层次对输入文本进行改写,并根据不同层次的搜索结果判断是否进行进一步的搜索,提高了搜索结果的准确性,进而解决了相关技术中由于无法准确理解用户搜索意图导致无法得到准确匹配结果的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是第一实施例文本搜索方法流程示意图;
图2是第二实施例文本搜索方法流程示意图;
图3是第三实施例文本搜索方法流程示意图;
图4是第四实施例文本搜索方法流程示意图;
图5是第五实施例文本搜索方法流程示意图;
图6是第六实施例文本搜索方法流程示意图;
图7是第七实施例文本搜索方法流程示意图;
图8是第八实施例文本搜索方法流程示意图;以及
图9是文本搜索系统结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,根据本申请的一种文本搜索方法,该文本搜索方法包括步骤S101至步骤S103。
步骤S101,获取输入文本;
步骤S102,根据预设的文本改写规则获取所述输入文本对应的候选文本;在本步骤中,通过对输入文本按照预设的文本改写规则对输入文本进行改写,获得候选文本。
步骤S102,获取所述候选文本的搜索结果。
如图2所示,所述步骤S102,根据预设的文本改写规则获得所述输入文本对应的候选文本,具体包括步骤S201至S204。
步骤S201,获取输入文本;
步骤S202,获取所述输入文本的字符归一化处理结果;本步骤中对输入文本进行字符级别的归一化处理,如去特殊符号、简繁转换、大小写统一等。
经步骤S202处理后,步骤S203与步骤S204并行进行。
步骤S203,获取所述输入文本的句处理结果。本步骤中对所述归一化处理结果进行分词、词性标注、同义词扩展、需求词识别等词级别处理。
步骤S204,获取所述输入文本的词处理结果。本步骤中对所述归一化处理结果进行纠错处理、相关搜索等不依赖分词的处理。
如图3所示,所述步骤S203,获取所述输入文本的句处理结果,具体包括步骤S301至步骤S302。
步骤S301,对所述输入文本进行分词得到各词。
步骤S302,在所述序列候选集中获取所述各词所对应的的词处理结果。
如图4所示,步骤S204,获取所述输入文本的词处理结果,具体包括步骤S401。
步骤S401,在所述序列候选集中获取所述输入文本所对应的的句处理结果。
如图5所示,步骤S302与步骤S401中所述序列候选集的构建方法包括S501至S505。
步骤S501,构造用户输入文本与用户点击链接的矩阵通过协同过滤算法计算输入文本相似度。通过用户以往的搜索行为,获取用户的行为特征,通过构建用户输入文本与用户点击链接之间的矩阵,获得各输入文本之间的相似度。
步骤S502,通过训练语料训练word2vec模型,将所得的词向量根据词性加权叠加得到输入文本语义相似度。通过爬虫的方式,获取互联网公开语料作为训练语料,训练word2vec模型。由于词自身所具有的词性差异,因此设定词性所对应的权重,通过加权叠加得到输入文本语义相似度。
步骤S503,根据业务逻辑构造输入文本特征相似度。根据业务逻辑,构造文档的类目、热度、标签等特征相似度。
步骤S504,整合上述各维度相似度,得到相似候选集。
步骤S505,对相似候选集进行样本标注,并将得到的第一文本序列输入LambdaMart模型中训练,获得序列候选集。
如图6所示,步骤S103,获取所述候选文本的搜索结果,具体包括步骤S601至步骤S604。
步骤S601,获取输入文本的词处理结果的预搜索结果;在本步骤中,对经处理过后的候选文本通过搜索引擎进行搜索,并对获得的搜索结果进行评分。
步骤S602,判断所述输入文本的词处理结果的预搜索结果是否达到预设的终结条件;
步骤S603,如果输入文本的句处理结果的预搜索结果未达到预设的终结条件,则获取输入文本的句处理结果;
步骤S604,获取所述输入文本的句处理结果的搜索结果。
如图7所示,步骤S102,获取所述候选文本的搜索结果,还包括步骤S701至步骤S704。
步骤S701,判断所述输入文本的句处理结果的预搜索结果是否达到预设的终结条件;
步骤S702,如果输入文本的句处理结果的预搜索结果未达到预设的终结条件,则处理输入文本的句处理结果;
步骤S703,获取所述句处理结果的整体结构处理结果;
步骤S704,获取所述整体结构处理结果的搜索结果。
通过判断句处理结果的预搜索结果可以在预搜索结果较好时,及时将搜索结果返回,也避免进一步的搜索所造成的时间延长。为进一步提高搜索的准确性,在步骤S702前可以对句处理结果进行词处理。
如图8所示,步骤S701所述整体结构处理的方法包括:
步骤S801,对句处理结果进行意图识别,获得意图识别结果;
步骤S802,对意图识别结果进行丢词处理。
意图识别的目的是准确的缩小用户搜索范围。通过收集用户行为特征、文本语义相似度和业务逻辑,并整合上述特征输入进朴素贝叶斯模型进行分类,获得输入文本的所在领域。对于特定领域下普遍的意图,可进一步调试特征,获取更多的标注数据后,进行更进一步的的文本分类;而对于业务强相关的意图,可以通过配置规则,以保证精确识别。
丢词处理是主动丢弃用户查询中的部分词语,已获得更好的搜索结果。首先识别互信息冗余词并删除,使文本的搜索意图更加明显;之后删除文本中的语法结构修饰词,进一步避免修饰词对搜索意图造成的影响;最后对文本进行词语普遍重要性的度量,对预设的阈值相比较,仅保留重要的词语以保证搜索结果的准确性。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请的另一方面,提供了一种文本搜索系统,如图9所示,该系统包括:
文本改写模块1,用于根据预设改写规则对输入文本进行改写得到候选文本;
搜索及结果评分模块2,用于对所述候选文本进行搜索并对其搜索结果进行评分。
如图9所示,文本搜索系统还包括:
用于为文本改写模块提供序列候选集的查询扩展模块3;
用于对输入文本进行丢词处理的查询剪裁模块4;
用于识别输入文本搜索意图的意图识别模块5;
用于对搜索频次较高的输入文本进行缓存的缓存模块6;
用于比较原始搜索结果和改写搜索结果的质量,并返回质量较高者的结果组装模块7。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (5)

1.一种文本搜索方法,其特征在于,包括:
获取输入文本;
根据预设的文本改写规则获得所述输入文本对应的候选文本;
所述根据预设的文本改写规则获得所述输入文本对应的候选文本包括:获取输入文本;获取所述输入文本的字符归一化处理结果;获取所述输入文本的句处理结果;获取所述输入文本的词处理结果;
所述获取所述输入文本的词处理结果包括:对所述输入文本进行分词得到各词;在所述序列候选集中获取所述各词所对应的词处理结果;
所述序列候选集的构建方法包括:
构造用户输入文本与用户点击链接的矩阵通过协同过滤算法计算输入文本相似度;
通过训练语料训练word2vec模型,将所得的词向量根据词性加权叠加得到输入文本语义相似度;
根据业务逻辑构造输入文本特征相似度,所述文本特征相似度包括但不限于;文档的类目特征相似度、热度特征相似度、标签特征相似度;
整合各维度相似度,得到相似候选集;
对相似候选集进行样本标注,并将得到的第一文本序列输入LambdaMart模型中训练,获得序列候选集;
获取所述候选文本的搜索结果;
获取所述候选文本的搜索结果包括:
获取输入文本的词处理结果的预搜索结果;
判断所述输入文本的词处理结果的预搜索结果是否达到预设的终结条件;
如果输入文本的词处理结果的预搜索结果未达到预设的终结条件,则获取输入文本的句处理结果;
获取所述输入文本的句处理结果的预搜索结果;
判断所述输入文本的句处理结果的预搜索结果是否达到预设的终结条件;
如果输入文本的句处理结果的预搜索结果未达到预设的终结条件,则处理输入文本的句处理结果;
获取所述句处理结果的整体结构处理结果;
获取所述整体结构处理结果的搜索结果。
2.根据权利要求1所述的文本搜索方法,其特征在于,所述序列候选集的构建方法包括:
根据训练语料的特征向量获取相似候选集;
对所述相似候选集进行模型训练获得序列候选集。
3.一种文本搜索系统,其特征在于,包括:
文本改写模块,用于根据预设改写规则对输入文本进行改写得到候选文本;
所述根据预设的文本改写规则获得所述输入文本对应的候选文本包括:获取输入文本;获取所述输入文本的字符归一化处理结果;获取所述输入文本的句处理结果;获取所述输入文本的词处理结果;
所述获取所述输入文本的词处理结果包括:对所述输入文本进行分词得到各词;在所述序列候选集中获取所述各词所对应的词处理结果;
所述序列候选集的构建方法包括:
构造用户输入文本与用户点击链接的矩阵通过协同过滤算法计算输入文本相似度;
通过训练语料训练word2vec模型,将所得的词向量根据词性加权叠加得到输入文本语义相似度;
根据业务逻辑构造输入文本特征相似度,所述文本特征相似度包括但不限于;文档的类目特征相似度、热度特征相似度、标签特征相似度;
整合各维度相似度,得到相似候选集;
对相似候选集进行样本标注,并将得到的第一文本序列输入LambdaMart模型中训练,获得序列候选集;
搜索及结果评分模块,用于对所述候选文本进行搜索并对其搜索结果进行评分;
获取所述候选文本的搜索结果包括:
获取输入文本的词处理结果的预搜索结果;
判断所述输入文本的词处理结果的预搜索结果是否达到预设的终结条件;
如果输入文本的词处理结果的预搜索结果未达到预设的终结条件,则获取输入文本的句处理结果;
获取所述输入文本的句处理结果的预搜索结果;
判断所述输入文本的句处理结果的预搜索结果是否达到预设的终结条件;
如果输入文本的句处理结果的预搜索结果未达到预设的终结条件,则处理输入文本的句处理结果;
获取所述句处理结果的整体结构处理结果;
获取所述整体结构处理结果的搜索结果。
4.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至2中任一项所述的方法。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至2中任一项所述的方法。
CN201810322657.8A 2018-04-11 2018-04-11 文本搜索方法及系统 Active CN108733757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810322657.8A CN108733757B (zh) 2018-04-11 2018-04-11 文本搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810322657.8A CN108733757B (zh) 2018-04-11 2018-04-11 文本搜索方法及系统

Publications (2)

Publication Number Publication Date
CN108733757A CN108733757A (zh) 2018-11-02
CN108733757B true CN108733757B (zh) 2022-04-19

Family

ID=63940791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810322657.8A Active CN108733757B (zh) 2018-04-11 2018-04-11 文本搜索方法及系统

Country Status (1)

Country Link
CN (1) CN108733757B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806510B (zh) * 2021-09-22 2024-06-28 中国科学院深圳先进技术研究院 一种法律条文检索方法、终端设备及计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207968A (zh) * 2011-06-08 2011-10-05 北京百度网讯科技有限公司 一种基于检索结果相关性判断的检索方法及装置
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN103207871A (zh) * 2012-01-17 2013-07-17 深圳市腾讯计算机系统有限公司 对搜索系统的查询串改写效果进行评测的方法和装置
CN104484380A (zh) * 2014-12-09 2015-04-01 百度在线网络技术(北京)有限公司 个性化搜索方法及装置
CN105045875A (zh) * 2015-07-17 2015-11-11 北京林业大学 个性化信息检索方法及装置
CN106095912A (zh) * 2016-06-08 2016-11-09 北京百度网讯科技有限公司 用于生成扩展查询词的方法和装置
CN106156357A (zh) * 2016-07-27 2016-11-23 成都四象联创科技有限公司 文本数据定向搜索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653738B (zh) * 2016-03-01 2020-05-22 北京百度网讯科技有限公司 基于人工智能的搜索结果播报方法和装置
CN106407311B (zh) * 2016-08-30 2020-07-24 北京百度网讯科技有限公司 获取搜索结果的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN102207968A (zh) * 2011-06-08 2011-10-05 北京百度网讯科技有限公司 一种基于检索结果相关性判断的检索方法及装置
CN103207871A (zh) * 2012-01-17 2013-07-17 深圳市腾讯计算机系统有限公司 对搜索系统的查询串改写效果进行评测的方法和装置
CN104484380A (zh) * 2014-12-09 2015-04-01 百度在线网络技术(北京)有限公司 个性化搜索方法及装置
CN105045875A (zh) * 2015-07-17 2015-11-11 北京林业大学 个性化信息检索方法及装置
CN106095912A (zh) * 2016-06-08 2016-11-09 北京百度网讯科技有限公司 用于生成扩展查询词的方法和装置
CN106156357A (zh) * 2016-07-27 2016-11-23 成都四象联创科技有限公司 文本数据定向搜索方法

Also Published As

Publication number Publication date
CN108733757A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN112069298B (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
WO2020244073A1 (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
Jabbar et al. Empirical evaluation and study of text stemming algorithms
US10783877B2 (en) Word clustering and categorization
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
US10521510B2 (en) Computer-readable recording medium, retrieval device, and retrieval method
CN114416942A (zh) 一种基于深度学习的自动化问答方法
US20220180317A1 (en) Linguistic analysis of seed documents and peer groups
CN112966079A (zh) 一种用于对话系统的面向事件画像的文本分析方法
CN110990532A (zh) 一种处理文本的方法和装置
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN112966068A (zh) 基于网页信息的简历识别方法和装置
Babhulgaonkar et al. Language identification for multilingual machine translation
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN115525763A (zh) 基于改进so-pmi算法和融合词向量的情感分析方法
Nehar et al. Rational kernels for Arabic root extraction and text classification
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN115062621A (zh) 标签提取方法、装置、电子设备和存储介质
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN111274366A (zh) 搜索推荐方法及装置、设备、存储介质
CN111078874B (zh) 基于随机子空间的决策树分类的对外汉语难度评估方法
CN108733757B (zh) 文本搜索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Patentee after: Daguan Data Co.,Ltd.

Address before: Room 515, building Y1, No. 112, liangxiu Road, Pudong New Area, Shanghai 201203

Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.

CP03 Change of name, title or address