CN112800314A

CN112800314A - 搜索引擎询问自动补全的方法、系统、存储介质及设备

Info

Publication number: CN112800314A
Application number: CN202110102008.9A
Authority: CN
Inventors: 孙晓飞; 孟昱先
Original assignee: Zhejiang Xiangnong Huiyu Technology Co ltd
Current assignee: Zhejiang Xiangnong Huiyu Technology Co ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-14
Anticipated expiration: 2041-01-26
Also published as: CN112800314B

Abstract

本申请公开了一种搜索引擎询问自动补全的方法、系统、存储介质及设备，属于文本生成领域。该方法主要包括数据库向量匹配步骤，计算输入的部分询问与数据库中完整句子的相似度，根据相似度大小，在完整句子中选取多个相似句子，并获取多个相似句子各自对应的相似度得分；语言模型得分计算步骤，通过语言模型分别计算多个相似句子与部分询问的真实性得分，根据相似度得分和真实性得分分别计算多个相似句子与部分询问的最终得分；结果反馈步骤，对最终得分从高到低进行排序，根据排序结果在多个相似句子中选取一定数量的相似句子作为最终结果进行反馈。本申请采用语言模型和数据库向量匹配，提高了询问推荐的准确率与效率。

Description

搜索引擎询问自动补全的方法、系统、存储介质及设备

技术领域

本申请涉及文本生成领域，特别是一种搜索引擎询问自动补全的方法、系统、存储介质及设备。

背景技术

现代搜索引擎都有一个重要的功能，即询问补全。用户在完整输入自己想要询问的内容的过程中，搜索引擎会智能地根据当前用户已经输入的部分补全剩下的可能的内容，从而用户可以直接点击相关问题，减少打字时间，给予用户更好的使用体验。

尽管现在的大多数搜索引擎都提高了询问补全功能，但它们的实现机制各不相同，其中大都基于单纯的关键词匹配技术。所谓关键词匹配，就是在用户输入的过程中，实时检测用户所输入不完整询问文本中的关键词，然后把这些关键词和历史数据库进行对比，从而找到几个出现频率较高的询问反馈给用户。这种方法的效率很低，因为用户每次更新输入，搜索引擎都需要在整个数据库中重新检索关键词，这就相当于进行了多次硬查询，速度很慢。

发明内容

本申请主要是提供一种搜索引擎询问自动补全的方法、系统、存储介质及设备，以解决现有技术中的搜索引擎需多次重复检索关键词，效率低下，检索准确度低的问题。

为了解决上述问题，本申请采用的一个技术方案是：提供一种搜索引擎询问自动补全的方法，其包括：数据库向量匹配步骤，计算输入的部分询问与数据库中完整句子的相似度，根据相似度大小，在完整句子中选取多个相似句子，并获取多个相似句子各自对应的相似度得分；语言模型得分计算步骤，通过语言模型分别计算多个相似句子与部分询问的真实性得分，根据相似度得分和真实性得分分别计算多个相似句子与部分询问的最终得分；结果反馈步骤，对最终得分从高到低进行排序，根据排序结果在多个相似句子中选取一定数量的相似句子作为最终结果进行反馈。

本申请采用的另一个技术方案是：提供一种搜索引擎询问自动补全系统，其包括，数据库向量匹配模块，用于计算输入的部分询问与数据库中完整句子的相似度，根据相似度大小，在完整句子中选取多个相似句子，并获取多个相似句子各自对应的相似度得分；语言模型得分计算模块，用于通过语言模型分别计算多个相似句子与部分询问的真实性得分，根据相似度得分和真实性得分分别计算多个相似句子与部分询问的最终得分；结果反馈模块，用于对最终得分从高到低进行排序，根据排序结果在多个相似句子中选取一定数量的相似句子作为最终结果进行反馈。

本申请采用的另一个技术方案是：提供一种计算机可读存储介质，其存储有计算机指令，计算机指令被操作以执行方案一中的搜索引擎询问自动补全的方法。

本申请采用的另一个技术方案是：提供一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中处理器操作计算机指令以执行方案一中的搜索引擎询问自动补全的方法。

本申请的技术方案可以达到的有益效果是：本申请提供了一种搜索引擎询问自动补全的方法、系统、存储介质及设备。本申请使用语言模型和数据库向量匹配的方法，既提高了自动询问补全的准确度，又避免了多次重复检索关键词，提高了数据库查询的效率。

附图说明

图1是本申请一种搜索引擎询问自动补全的方法的一个具体实施方式的示意图；

图2是本申请一种搜索引擎询问自动补全的方法的一个具体实例的示意图；

图3是本申请一种搜索引擎询问自动补全的系统的一个具体实施方式的示意图。

具体实施方式

下面结合附图对本申请的较佳实施例进行详细阐述，以使本申请的优点和特征能更易于被本领域技术人员理解，从而对本申请的保护范围做出更为清楚明确的界定。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1示出了本申请一种搜索引擎询问自动补全的方法的一个具体实施方式。

在该具体实施方式中，搜索引擎询问自动补全的方法主要包括数据库向量匹配步骤S101，该步骤包括计算输入的部分询问与数据库中完整句子的相似度，根据相似度大小，在完整句子中选取多个相似句子，并获取多个相似句子各自对应的相似度得分。

在本申请的一个具体实施例中，数据库向量匹配步骤S101进一步包括，分别获取部分询问的第一句向量和数据库中完整句子的第二句向量，对第一句向量与每个第二句向量进行相似度计算，得到部分询问与数据库中完整句子的相似度。利用部分询问和完整句子对应的句向量计算相似度使得计算更加简单便捷。

在本申请的一个具体实施例中，预先计算数据库中的每个完整句子的句向量，并保存在数据库中，可以实现每个完整句子的随取随用，这样提高了数据库的查询效率。

在本申请的一个具体实例中，若要搜索引擎的下拉框中反映出从数据库中选取与用户当前的输入部分询问相似的完整句子，这就需要借助数据库中的过去一段时间内的全网历史搜索记录，把用户当前的输入部分询问和数据库中所有的历史询问进行比较，抽取其中最相似的进行推荐，但是如何度量完整句子“相似”是一个问题。传统方法是找出用户输入部分询问的关键词，然后基于关键词进行全数据库检索，需要遍历整个数据库的每个完整句子并对每个完整句子计算正则表达式，这种传统方法的效率很低。

在本申请的一个具体实例中，本申请使用句向量的方法可以有效提高传统方法的效率。句向量就是把一个句子编码为一个长度固定的向量，其中，长度为多少就在向量中有多少个对应的数值，比如可以将句子“我爱北京”编码成一个长度为5的向量[0.1,2,0.5,2,0.3]。句向量的优点在于它计算简单，只需要进行向量的点乘就可以判别两个完整句子之间或者部分询问与完整句子之间的相似度。假设完整句子1的向量为v1，完整句子2的向量为v2，那么这两个完整句子的相似度就是它们对应向量的余弦值。使用这种方法，预先计算好数据库中每个完整句子的句向量，并且保存在数据库中，就可以在用户输入部分询问的时候从数据库中随取随用，不需要再对数据库中的完整句子进行处理，进而可以提高效率。

在本申请的一个具体实施例中，根据相似度大小，在完整句子选取多个相似句子的过程进一步包括，将相似度大小在预设阈值范围内的完整句子作为相似句子。这为在数据库中的相似句子的查询设定了查询标准。

在该具体实施例中，将部分询问的第一句向量与数据库中的每个完整句子的第二句向量计算余弦相似度，设置阈值范围，将余弦相似度在阈值范围内的完整句子作为相似句子。这样使得与输入部分询问相似的句子得到筛选，从而得到数量有限的相似句子。

在本申请的一个具体实例中，第一句向量和第二句向量的余弦值的范围在[-1,1]，余弦值越接近0，表示第一句向量和第二句向量越相似，设定阈值范围为[-0.1,0.1]。假设用户输入的部分询问“我爱”的句向量为v0，数据库中的完整句子“我爱北京”的句向量为v1，数据库中的完整句子“我爱上海”的句向量为v2，数据库中的完整句子“早饭吃什么”的句向量为v3，依次计算部分询问与完整句子之间的相似度，即v0与v1的余弦值，v0和v2的余弦值，v0和v3的余弦值，那么符合阈值范围[-0.1,0.1]只有v0与v1的余弦值，v0和v2的余弦值，即与v0相似的完整句子为v1和v2。

在本申请的一个具体实施方式中，搜索引擎询问自动补全的方法还包括语言模型得分计算步骤S102，该步骤包括通过语言模型分别计算多个相似句子与部分询问的真实性得分，根据相似度得分和真实性得分分别计算多个相似句子与部分询问的最终得分。

在本申请的一个具体实施例中，通过语言模型分别计算多个相似句子与部分询问的真实性得分的过程包括，通过语言模型对各个相似句子对应的组成词进行分析，获得各个组成词的真实性概率，真实性概率为各个组成词在对应的相似句子中出现的概率，以及根据各个组成词的真实性概率计算各个组成词对应的相似句子的真实性得分。这有利于判断相似句子的真实性。

在本申请的一个具体实施例中，通过语言模型对各个相似句子对应的组成词进行分析，获得各个组成词的真实性概率的过程包括，若当前组成词为对应的相似句子中的第一个词，则当前组成词对应的真实性概率为当前组成词在语言模型中单独出现的概率；以及若当前组成词为对应的相似句子中除第一个词以外的其他词，则当前组成词对应的真实性概率为当前组成词之前的所有词出现后，当前组成词出现的概率。在语言模型中，判断一个相似句子是否真实，需要在第一个词生成后，第二个词出现的概率为在第一个词已生成的基础下出现的概率，第三个词出现的概率为在第一个词和第二个词已生成的基础下出现的概率。

在本申请的一个具体实例中，相似句子由多个词组成，多个词中每一个词都有其对应的概率，每一个相似句子的真实性得分为多个词中每一个词对应的概率的乘积。概率的乘积越大，相似句子就越流畅，越真实。

在本申请的一个具体实施方式中，搜索引擎询问自动补全的方法还包括结果反馈步骤S103，该步骤包括对最终得分从高到低进行排序，根据排序结果在多个相似句子中选取一定数量的相似句子作为最终结果进行反馈。

在本申请的一个具体实施例中，根据排序结果选择一定数量的相似句子作为最终结果进行反馈的过程包括，一定数量不大于搜索引擎的下拉框所能包含句子的最大数量。

在本申请的一个具体实例中，得分最高的句子可能有很多个，也可能只有几个。在得分最高的句子多于搜索引擎的下拉框所能包含句子的最大数量的情况下，只需要按得分从高到低选取满足最大数量的句子排列在搜索引擎的下拉框中，其中，得分越高的句子排列在搜索引擎的下拉框的越上层。

图2示出了本申请一种搜索引擎询问自动补全的系统的一个具体实例。

在本申请的一个具体实例中，用户输入部分询问X，如X＝“肚子痛”，通过数据库向量匹配，利用句向量的方法在数据库中搜索到20个最相似句子，即图2所示的TOP-N个最相似句子，记为x₁，x₂，……，x₂₀。这20个最相似句子每一个最相似句子都与用户输入部分询问之间有一个余弦相似度得分，即S(X，x_i)。语言模型根据用户输入部分询问X计算每一个最相似句子的真实性得分P(x_i)。每一个最相似句子的余弦相似度得分S(X，x_i)与其对应的真实性得分P(x_i)相乘，得到每一个最相似句子的最终得分，将这20个最相似句子根据其对应的最终得分按照从高到低的顺序进行排列，由于百度的搜索引擎的下拉框只能展示给用户10个反馈结果，所以选取10个得分高的最真实句子，即TOP-K个最真实句子，也是询问自动补全结果Y，将其显示在搜索引擎的下拉框中，反馈给用户，供用户点击选择。

图3示出了本申请一种搜索引擎询问自动补全的系统的一个具体实施方式。

在该具体实施方式中，搜索引擎询问自动补全的系统主要包括数据库向量匹配模块301，该模块用于计算输入的部分询问与数据库中完整句子的相似度，根据相似度大小，在完整句子中选取多个相似句子，并获取多个相似句子各自对应的相似度得分。

在本申请的一个具体实施例中，数据库向量匹配模块301进一步用于，分别获取部分询问的第一句向量和数据库中完整句子的第二句向量，对第一句向量与每个第二句向量进行相似度计算，得到部分询问与数据库中完整句子的相似度。利用部分询问和完整句子对应的句向量计算相似度使得计算更加简单便捷。

在本申请的一个具体实施例中，在数据库向量匹配模块301中，该模块不仅用于根据相似度大小，在完整句子选取多个相似句子，该模块还进一步用于将相似度大小在预设阈值范围内的完整句子作为相似句子。这为在数据库中的相似句子的查询设定了查询标准。

在本申请的一个具体实施方式中，搜索引擎询问自动补全的系统还包括语言模型得分计算模块302，该模块用于通过语言模型分别计算多个相似句子与部分询问的真实性得分，根据相似度得分和真实性得分分别计算多个相似句子与部分询问的最终得分。

在本申请的一个具体实施例中，在语言模型得分计算模块302中，在该模块用于通过语言模型分别计算多个相似句子与部分询问的真实性得分中，该模块还进一步用于通过语言模型对各个相似句子对应的组成词进行分析，获得各个组成词的真实性概率，真实性概率为各个组成词在对应的相似句子中出现的概率，以及根据各个组成词的真实性概率计算各个组成词对应的相似句子的真实性得分。这有利于判断相似句子的真实性。

在本申请的一个具体实施例中，在该模块用于通过语言模型对各个相似句子对应的组成词进行分析，获得各个组成词的真实性概率中，若当前组成词为对应的相似句子中的第一个词，则当前组成词对应的真实性概率为当前组成词在语言模型中单独出现的概率；以及若当前组成词为对应的相似句子中除第一个词以外的其他词，则当前组成词对应的真实性概率为当前组成词之前的所有词出现后，当前组成词出现的概率。在语言模型中，判断一个相似句子是否真实，需要在第一个词生成后，第二个词出现的概率为在第一个词已生成的基础下出现的概率，第三个词出现的概率为在第一个词和第二个词在现有顺序下已生成的基础下出现的概率。

在本申请的一个具体实施方式中，搜索引擎询问自动补全的系统还包括结果反馈模块303，该模块用于对最终得分从高到低进行排序，根据排序结果在多个相似句子中选取一定数量的相似句子作为最终结果进行反馈。

本申请提供的搜索引擎询问自动补全的系统，可用于执行上述任一实施例描述的搜索引擎询问自动补全的方法，其实现原理和技术效果类似，在此不再赘述。

在本申请的一个具体实施例中，本申请一种搜索引擎询问自动补全的系统中数据库向量匹配模块、语言模型得分计算模块以及结果反馈模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。

处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)、现场可编程门阵列(英文：Field Programmable Gate Array，简称：FPGA)或其它可编程逻辑系统、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。

在本申请的另一个具体实施方式中，一种计算机可读存储介质，其存储有计算机指令，计算机指令被操作以执行任一实施例描述的搜索引擎询问自动补全的方法。

在本申请的另一个具体实施方式中，一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中处理器操作计算机指令以执行方案一中的搜索引擎询问自动补全的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上描述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种搜索引擎询问自动补全的方法，其特征在于，包括：

数据库向量匹配步骤，计算输入的部分询问与数据库中完整句子的相似度，根据所述相似度大小，在所述完整句子中选取多个相似句子，并获取所述多个相似句子各自对应的相似度得分；

语言模型得分计算步骤，通过语言模型分别计算所述多个相似句子与所述部分询问的真实性得分，根据所述相似度得分和所述真实性得分分别计算所述多个相似句子与所述部分询问的最终得分；

结果反馈步骤，对所述最终得分从高到低进行排序，根据排序结果在所述多个相似句子中选取一定数量的相似句子作为最终结果进行反馈。

2.如权利要求1所述的搜索引擎询问自动补全的方法，其特征在于，所述通过语言模型分别计算所述多个相似句子与所述部分询问的真实性得分的过程，包括：

通过所述语言模型对各个所述相似句子对应的组成词进行分析，获得各个所述组成词的真实性概率，其中所述真实性概率为各个所述组成词在对应的所述相似句子中出现的概率；以及

根据各个所述组成词的所述真实性概率计算各个所述组成词对应的所述相似句子的真实性得分。

3.如权利要求2所述的搜索引擎询问自动补全的方法，其特征在于，所述通过所述语言模型对各个所述相似句子对应的组成词进行分析，获得各个所述组成词的真实性概率的过程包括：

若当前组成词为对应的所述相似句子中的第一个词，则所述当前组成词对应的所述真实性概率为所述当前组成词在所述语言模型中单独出现的概率；以及

若当前组成词为对应的所述相似句子中除第一个词以外的其他词，则所述当前组成词对应的所述真实性概率为在所述语言模型中，所述当前组成词之前的所有词出现后，所述当前组成词出现的概率。

4.如权利要求1所述的搜索引擎询问自动补全的方法，其特征在于，所述数据库向量匹配步骤进一步包括：

分别获取所述部分询问的第一句向量和所述数据库中完整句子的第二句向量；

对所述第一句向量与每个所述第二句向量进行相似度计算，得到所述部分询问与数据库中完整句子的相似度。

5.如权利要求1所述的搜索引擎询问自动补全的方法，其特征在于，所述根据所述相似度大小，在所述完整句子选取多个相似句子的过程，进一步包括：

将所述相似度大小在预设阈值范围内的所述完整句子作为所述相似句子。

6.如权利要求1所述的搜索引擎询问自动补全的方法，其特征在于，预先计算所述数据库中的每个完整句子的句向量，并保存在所述数据库中。

7.如权利要求1所述的搜索引擎询问自动补全的方法，其特征在于，所述根据排序结果选择一定数量的相似句子作为最终结果进行反馈的过程，包括：

所述一定数量不大于所述搜索引擎的下拉框所能包含句子的最大数量。

8.一种搜索引擎询问自动补全系统，其特征在于，包括：

数据库向量匹配模块，用于计算输入的部分询问与数据库中完整句子的相似度，根据所述相似度大小，在所述完整句子选取多个相似句子，并获取所述多个相似句子对应的相似度得分；

语言模型得分计算模块，用于通过语言模型分别计算所述多个相似句子与所述部分询问的真实性得分，根据所述相似度得分和所述真实性得分分别计算所述多个相似句子与所述部分询问的最终得分；

结果反馈模块，用于对所述最终得分从高到低进行排序，根据排序结果选择一定数量的相似句子作为最终结果进行反馈。

9.一种计算机可读存储介质，其存储有计算机指令，其特征在于，所述计算机指令被操作以执行权利要求1-7中任一项所述的搜索引擎询问自动补全的方法。

10.一种计算机设备，其包括处理器和存储器，所述存储器存储有计算机指令，其中所述处理器操作所述计算机指令以执行权利要求1-7中任一项所述的搜索引擎询问自动补全的方法。