CN108733757B

CN108733757B - 文本搜索方法及系统

Info

Publication number: CN108733757B
Application number: CN201810322657.8A
Authority: CN
Inventors: 汪元; 桂洪冠; 纪达麒; 陈运文
Original assignee: Datagrand Information Technology Shanghai Co ltd
Current assignee: Daguan Data Co ltd
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2022-04-19
Anticipated expiration: 2038-04-11
Also published as: CN108733757A

Abstract

本申请公开了一种文本搜索方法及系统。该文本搜索方法包括获取输入文本；根据预设的文本改写规则获得所述输入文本对应的候选文本；获取所述候选文本的搜索结果。本申请解决了相关技术中由于无法准确理解用户搜索意图导致无法得到准确匹配结果的技术问题。

Description

文本搜索方法及系统

技术领域

本申请涉及网络通信技术领域，具体而言，涉及一种文本搜索方法及系统。

背景技术

搜索引擎的的搜索过程主要包含两个阶段：匹配和排序。匹配阶段是指根据用户的查询条件，尽可能多的返回相关的文档，因此匹配阶段也称为粗排序阶段。排序阶段是指对已匹配到的文档进行精排，把最符合用户意图的文档排在前面。但在匹配的过程中，普遍的存在着“语义鸿沟”的问题，也即用户的查询与文档并不一定显性相关。以用户查询“Gucci手提包”为例，文档库中只包含“古驰女士包”的文档是和用户查询相关的内容，但搜索引擎中常规的倒排索引是无法命中该文档的。因此为了更好地理解用户的搜索意图，我们需要对用户的原始查询进行改写，从而得到更加丰富和更加准确的匹配结果。

针对上述搜索过程中存在的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种文本搜索方法及系统，以解决相关技术中由于无法准确理解用户搜索意图导致无法得到准确匹配结果的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种文本搜索方法。

根据本申请的文本搜索方法包括：获取输入文本；根据预设的文本改写规则获得所述输入文本对应的候选文本；获取所述候选文本的搜索结果。

进一步的，所述根据预设的文本改写规则获得所述输入文本对应的候选文本包括：获取所述输入文本的词处理结果；对所述输入文本进行分词得到各词；在所述序列候选集中获取所述各词所对应的的词处理结果。

进一步的，所述根据预设的文本改写规则获得所述输入文本对应的候选文本包括：对所述输入文本进行分词得到各词；在所述序列候选集中获取所述各词所对应的的词处理结果。

进一步的，所述获取所述输入文本的句处理结果的方法包括：在所述序列候选集中获取所述输入文本所对应的的句处理结果。

进一步的，所述序列候选集的构建方法包括：根据训练语料的特征向量获取相似候选集；对所述相似候选集进行模型训练获得序列候选集。

进一步的，获取所述候选文本的搜索结果包括：获取输入文本的词处理结果的预搜索结果；判断所述输入文本的词处理结果的预搜索结果是否达到预设的终结条件；如果输入文本的句处理结果的预搜索结果未达到预设的终结条件，则获取输入文本的句处理结果；获取所述输入文本的句处理结果的搜索结果。

进一步的，获取输入文本的句处理结果的搜索结果还包括：判断输入文本的句处理结果的预搜索结果是否达到预设的终结条件；如果输入文本的句处理结果的预搜索结果未达到预设的终结条件，则处理输入文本的句处理结果；获取所述句处理结果的整体结构处理结果；获取所述整体结构处理结果的搜索结果。

进一步的，所述获取所述输入文本的整体结构处理结果的方法包括：根据意图识别结果与丢词处理结果获得所述结构处理结果。

进一步的，优选获取输入文本的句处理结果的预搜索结果前，还包括对输入文本的句处理结果进行词处理。

为了实现上述目的，根据本申请的另一方面，提供了一种文本搜索系统，其特征在于，包括：文本改写模块，用于根据预设改写规则对输入文本进行改写得到候选文本；搜索及结果评分模块，用于对所述候选文本进行搜索并对其搜索结果进行评分。

进一步的，本申请的文本搜索系统还包括：用于为文本改写模块提供序列候选集的查询扩展模块；用于对输入文本进行丢词处理的查询剪裁模块；用于识别输入文本搜索意图的意图识别模块；用于对搜索频次较高的输入文本进行缓存的缓存模块；用于比较原始搜索结果和改写搜索结果的质量，并返回质量较高者的结果组装模块。

为了实现上述目的，根据本申请的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现根据本发明的一个方面的一种文本搜索方法。

根据本发明的再一个方面，还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现根据本发明的一个方面的一种文本搜索方法。

在本申请实施例中，在字符、词短语、句子、整体结构四个层次对输入文本进行改写，并根据不同层次的搜索结果判断是否进行进一步的搜索，提高了搜索结果的准确性，进而解决了相关技术中由于无法准确理解用户搜索意图导致无法得到准确匹配结果的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是第一实施例文本搜索方法流程示意图；

图2是第二实施例文本搜索方法流程示意图；

图3是第三实施例文本搜索方法流程示意图；

图4是第四实施例文本搜索方法流程示意图；

图5是第五实施例文本搜索方法流程示意图；

图6是第六实施例文本搜索方法流程示意图；

图7是第七实施例文本搜索方法流程示意图；

图8是第八实施例文本搜索方法流程示意图；以及

图9是文本搜索系统结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，根据本申请的一种文本搜索方法，该文本搜索方法包括步骤S101至步骤S103。

步骤S101，获取输入文本；

步骤S102，根据预设的文本改写规则获取所述输入文本对应的候选文本；在本步骤中，通过对输入文本按照预设的文本改写规则对输入文本进行改写，获得候选文本。

步骤S102，获取所述候选文本的搜索结果。

如图2所示，所述步骤S102，根据预设的文本改写规则获得所述输入文本对应的候选文本，具体包括步骤S201至S204。

步骤S201，获取输入文本；

步骤S202，获取所述输入文本的字符归一化处理结果；本步骤中对输入文本进行字符级别的归一化处理，如去特殊符号、简繁转换、大小写统一等。

经步骤S202处理后，步骤S203与步骤S204并行进行。

步骤S203，获取所述输入文本的句处理结果。本步骤中对所述归一化处理结果进行分词、词性标注、同义词扩展、需求词识别等词级别处理。

步骤S204，获取所述输入文本的词处理结果。本步骤中对所述归一化处理结果进行纠错处理、相关搜索等不依赖分词的处理。

如图3所示，所述步骤S203，获取所述输入文本的句处理结果，具体包括步骤S301至步骤S302。

步骤S301，对所述输入文本进行分词得到各词。

步骤S302，在所述序列候选集中获取所述各词所对应的的词处理结果。

如图4所示，步骤S204，获取所述输入文本的词处理结果，具体包括步骤S401。

步骤S401，在所述序列候选集中获取所述输入文本所对应的的句处理结果。

如图5所示，步骤S302与步骤S401中所述序列候选集的构建方法包括S501至S505。

步骤S501，构造用户输入文本与用户点击链接的矩阵通过协同过滤算法计算输入文本相似度。通过用户以往的搜索行为，获取用户的行为特征，通过构建用户输入文本与用户点击链接之间的矩阵，获得各输入文本之间的相似度。

步骤S502，通过训练语料训练word2vec模型，将所得的词向量根据词性加权叠加得到输入文本语义相似度。通过爬虫的方式，获取互联网公开语料作为训练语料，训练word2vec模型。由于词自身所具有的词性差异，因此设定词性所对应的权重，通过加权叠加得到输入文本语义相似度。

步骤S503，根据业务逻辑构造输入文本特征相似度。根据业务逻辑，构造文档的类目、热度、标签等特征相似度。

步骤S504，整合上述各维度相似度，得到相似候选集。

步骤S505，对相似候选集进行样本标注，并将得到的第一文本序列输入LambdaMart模型中训练，获得序列候选集。

如图6所示，步骤S103，获取所述候选文本的搜索结果，具体包括步骤S601至步骤S604。

步骤S601，获取输入文本的词处理结果的预搜索结果；在本步骤中，对经处理过后的候选文本通过搜索引擎进行搜索，并对获得的搜索结果进行评分。

步骤S602，判断所述输入文本的词处理结果的预搜索结果是否达到预设的终结条件；

步骤S603，如果输入文本的句处理结果的预搜索结果未达到预设的终结条件，则获取输入文本的句处理结果；

步骤S604，获取所述输入文本的句处理结果的搜索结果。

如图7所示，步骤S102，获取所述候选文本的搜索结果，还包括步骤S701至步骤S704。

步骤S701，判断所述输入文本的句处理结果的预搜索结果是否达到预设的终结条件；

步骤S702，如果输入文本的句处理结果的预搜索结果未达到预设的终结条件，则处理输入文本的句处理结果；

步骤S703，获取所述句处理结果的整体结构处理结果；

步骤S704，获取所述整体结构处理结果的搜索结果。

通过判断句处理结果的预搜索结果可以在预搜索结果较好时，及时将搜索结果返回，也避免进一步的搜索所造成的时间延长。为进一步提高搜索的准确性，在步骤S702前可以对句处理结果进行词处理。

如图8所示，步骤S701所述整体结构处理的方法包括：

步骤S801，对句处理结果进行意图识别，获得意图识别结果；

步骤S802，对意图识别结果进行丢词处理。

意图识别的目的是准确的缩小用户搜索范围。通过收集用户行为特征、文本语义相似度和业务逻辑，并整合上述特征输入进朴素贝叶斯模型进行分类，获得输入文本的所在领域。对于特定领域下普遍的意图，可进一步调试特征，获取更多的标注数据后，进行更进一步的的文本分类；而对于业务强相关的意图，可以通过配置规则，以保证精确识别。

丢词处理是主动丢弃用户查询中的部分词语，已获得更好的搜索结果。首先识别互信息冗余词并删除，使文本的搜索意图更加明显；之后删除文本中的语法结构修饰词，进一步避免修饰词对搜索意图造成的影响；最后对文本进行词语普遍重要性的度量，对预设的阈值相比较，仅保留重要的词语以保证搜索结果的准确性。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请的另一方面，提供了一种文本搜索系统，如图9所示，该系统包括：

文本改写模块1，用于根据预设改写规则对输入文本进行改写得到候选文本；

搜索及结果评分模块2，用于对所述候选文本进行搜索并对其搜索结果进行评分。

如图9所示，文本搜索系统还包括：

用于为文本改写模块提供序列候选集的查询扩展模块3；

用于对输入文本进行丢词处理的查询剪裁模块4；

用于识别输入文本搜索意图的意图识别模块5；

用于对搜索频次较高的输入文本进行缓存的缓存模块6；

用于比较原始搜索结果和改写搜索结果的质量，并返回质量较高者的结果组装模块7。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本搜索方法，其特征在于，包括：

获取输入文本；

根据预设的文本改写规则获得所述输入文本对应的候选文本；

所述根据预设的文本改写规则获得所述输入文本对应的候选文本包括：获取输入文本；获取所述输入文本的字符归一化处理结果；获取所述输入文本的句处理结果；获取所述输入文本的词处理结果；

所述获取所述输入文本的词处理结果包括：对所述输入文本进行分词得到各词；在所述序列候选集中获取所述各词所对应的词处理结果；

所述序列候选集的构建方法包括：

构造用户输入文本与用户点击链接的矩阵通过协同过滤算法计算输入文本相似度；

通过训练语料训练word2vec模型，将所得的词向量根据词性加权叠加得到输入文本语义相似度；

根据业务逻辑构造输入文本特征相似度，所述文本特征相似度包括但不限于；文档的类目特征相似度、热度特征相似度、标签特征相似度；

整合各维度相似度，得到相似候选集；

对相似候选集进行样本标注，并将得到的第一文本序列输入LambdaMart模型中训练，获得序列候选集；

获取所述候选文本的搜索结果；

获取所述候选文本的搜索结果包括：

获取输入文本的词处理结果的预搜索结果；

判断所述输入文本的词处理结果的预搜索结果是否达到预设的终结条件；

如果输入文本的词处理结果的预搜索结果未达到预设的终结条件，则获取输入文本的句处理结果；

获取所述输入文本的句处理结果的预搜索结果；

判断所述输入文本的句处理结果的预搜索结果是否达到预设的终结条件；

如果输入文本的句处理结果的预搜索结果未达到预设的终结条件，则处理输入文本的句处理结果；

获取所述句处理结果的整体结构处理结果；

获取所述整体结构处理结果的搜索结果。

2.根据权利要求1所述的文本搜索方法，其特征在于，所述序列候选集的构建方法包括：

根据训练语料的特征向量获取相似候选集；

对所述相似候选集进行模型训练获得序列候选集。

3.一种文本搜索系统，其特征在于，包括：

文本改写模块，用于根据预设改写规则对输入文本进行改写得到候选文本；