CN115357691B

CN115357691B - 一种语义检索方法及系统、设备和计算机可读存储介质

Info

Publication number: CN115357691B
Application number: CN202211290756.5A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-04-07
Anticipated expiration: 2042-10-21
Also published as: CN115357691A

Abstract

本发明涉及语义检索技术领域，具体而言，涉及一种语义检索方法及系统、设备和计算机可读存储介质，所述方法包括步骤：以无监督数据和有监督数据训练召回模型；以所述召回模型抽取文档的语义向量，以所述语义向量和所述文档建立语义索引库；以所述召回模型通过计算余弦相似度完成用户输入查询的召回操作，且依据所述余弦相似度以及关键字匹配进行召回粗排；进行精排模型建模且对所述粗排结果完成精排；使用了无监督数据和有监督数据训练召回模型，还进行了以关键字匹配为基础的召回，粗排和精排组合的新的完整过程能够使语义检索相比现有的效果，检索结果更准确更完整。

Description

一种语义检索方法及系统、设备和计算机可读存储介质

技术领域

本发明涉及语义检索技术领域，具体而言，涉及一种融合深度学习和特征工程的语义检索方法。

背景技术

信息爆炸是当今信息社会的一大特点，当前信息检索技术面临着网络信息更新越来越快，用户检索结果要求越来越精确的严重挑战，如何快速有效地找到所需信息成为了一个关键问题。

随着自然语言处理技术的发展，语义检索研究自上世纪末以来快速发展，它可以有效解决上述问题，返回给用户要求的结果。

语义检索是通过用户输入查询识别出用户检索目的，继而向用户返回相关检索结果。检索技术主要分为两类：一是通过查询关键词，与文档建立字面文本匹配，搜索出相关文档；二是基于深度神经网络建立模型，将文本转化为向量，建模句子之间的语义相似度，即将高维稀疏的向量映射成为一个低维稠密的向量，随后在同一个向量空间中既表示用户查询又表示候选集文档，从而计算两者的相似度。尽管语义检索有不同的方法，但其本质都是对信息资源的语义处理实现效率更高的检索。

语义检索技术在取得极大进展的同时，也面临诸多难点和问题。

比如，现有技术CN114662668A 神经网络训练方法、语义相似度计算方法及语义检索系统公开方案中提到的现有方法，其具体方案为：（1）对句子进行标注；（2）将标注好的句子输入神经网络模型；（3）设置损失函数；（4）根据损失函数的损失值，对神经网络进行训练；（5）基于神经网络进行向量预测，计算余弦相似度，返回余弦相似度得分最高的前N条句子。

该方案中，通过深度神经网络的方法对句子进行深度语义联合，可以找到深度语义匹配的配对，但只有一路深度语义模型召回，召回结果较为单一，存在召回不全、准确率不高的问题。

发明内容

为了解决背景技术中提到的现有技术的问题，以及优化方案本身，我们提供了一种新的语义检索方法，包括步骤：

以无监督数据和有监督数据训练召回模型；

以所述召回模型抽取文档的语义向量，以所述语义向量和所述文档建立语义索引库；

以所述召回模型通过计算余弦相似度完成用户输入查询的召回操作，且依据所述余弦相似度以及关键字匹配进行召回粗排；

进行精排模型建模且对所述粗排结果完成精排。

该方案同时使用了无监督数据和有监督数据训练召回模型，使模型进一步提升准确度，其次，除了依据召回模型计算余弦相似度进行召回外，还进行了以关键字匹配为基础的召回，解决召回结果较为单一，召回不全、准确率不高的问题，同时，粗排是新加入的部分过程，放在了精排和召回模型训练之间，组合的新的完整过程能够使语义检索相比现有的效果，检索结果更准确更完整。

进一步的，公开了技术特征：所述无监督数据为文档的特征内容，所述有监督数据为用户查询数据与用户最终选中的文档数据，以及所述用户查询数据与用户最终选中的文档数据的对应关系，解决召回模型的选择和训练时，由于有监督数据不足，无法充分利用无监督数据的问题，优化后既利用大量无监督数据进行预训练，也利用少量有监督数据来进行微调，对数据的利用率更高的同时也使模型进一步提升准确度。

进一步的，公开了技术特征：所述召回模型的训练过程中，先使用无监督数据进行数据增强训练，再使用有监督数据进行精化训练，且均通过所述余弦相似度进行反向传播更新梯度完成收敛，这里的增强训练也就是前面提到的预训练，微调则是前面提到的精化训练，使用无监督数据训练后再用有监督数据进行调整，是模型训练结果更优，模型输出结果更准确。

进一步的，公开了技术特征：所述粗排过程中的关键字匹配包括广泛匹配、短语匹配或精确匹配，使召回路径更丰富，结果更全面。

进一步的，公开了技术特征：所述精排模型采用pair-wise结构，输入空间中样本是（同一查询对应的）两个文档（和对应查询）构成的两个特征向量，这样就考虑到了同一个查询下不同文档间的关系，使同一类别文档能够有效区分。

进一步的，公开了技术特征：所述训练过程中，若干所述余弦相似度组成相似度矩阵，同批次内的每个向量与批次内其余向量都计算余弦相似度（所述向量为：对训练用的数据中的文本编码后得到的向量），得到相似度矩阵，再通过计算损失函数反向传播更新梯度，不断优化相似度矩阵，进一步训练模型。

其次，本发明提供一种语义检索系统，其包括：

模型构建模块，以无监督数据和有监督数据训练召回模型；

语义索引建库模块，以所述召回模型抽取文档的语义向量，以所述语义向量和所述文档建立语义索引库；

粗排模块，以所述召回模型通过计算余弦相似度完成用户输入查询的召回操作，且依据所述余弦相似度以及关键字匹配进行粗排；

精排模块，进行精排模型建模且对所述粗排结果完成精排。

本系统同时使用了无监督数据和有监督数据训练召回模型，使模型进一步提升准确度，其次，除了依据召回模型计算余弦相似度进行召回外，还进行了以关键字匹配为基础的召回，解决召回结果较为单一，召回不全、准确率不高的问题，同时，粗排是新加入的部分过程，放在了精排和召回模型训练之间，组合的新的完整过程能够使语义检索相比现有的效果，检索结果更准确更完整。

其次，本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述语义检索方法。

其次，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述语义检索方法。

本发明的有益效果如下：

该发明方案同时使用了无监督数据和有监督数据训练召回模型，使模型进一步提升准确度，其次，除了依据召回模型计算余弦相似度进行召回外，还进行了以关键字匹配为基础的召回，解决召回结果较为单一，召回不全、准确率不高的问题，同时，粗排是新加入的部分过程，放在了精排和召回模型训练之间，组合的新的完整过程能够使语义检索相比现有的效果，检索结果更准确更完整。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是根据本发明的实施例1所述语义检索方法的示意图。

图2是根据本发明的实施例1所述步骤2中的所述随机丢弃神经网络节点方法处理文本的示意图。

图3是根据本发明的实施例1所述步骤2中的所述相似度矩阵示意图。

图4是发明的实施例1所述3.21步骤示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

同样应当理解的是，为了简化本发明揭示的表述，从而帮助对至少一个发明实施例的理解，前文对本发明实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本发明对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

实施例1

本实施例提供一种语义检索方法，如图1所示，左侧为召回模块范围，右侧为排序模块范围，左侧核心为语义向量抽取，右侧核心为文本规则匹配粗排与精排模块，这里区分范围只是为了更清楚的说明大致思路；

包括步骤：（1）训练召回模型，用于语料库进行语义向量抽取；（2）创建语义索引库（向量库）并导入步骤（1）中抽取的语料库的语义向量；（3）对于用户查询，用步骤（1）中训练好的模型进行语义向量抽取，在语义索引库中查询得到与其语义最相似的m条语料库向量，即top_m候选集；（4）基于特征工程方法粗排这m条语料后传给下游排序模块；（5）训练排序模型，在m条语料中找出与用户查询语义最相似的n（n<m）条语料作为检索结果集，即top_n展示结果。

详细步骤为：

步骤1.以无监督数据和有监督数据训练召回模型，所述无监督数据为文档的特征内容，所述有监督数据为用户查询数据与用户最终选中的文档数据，以及所述用户查询数据与用户最终选中的文档数据的对应关系。

无监督数据，构造过程为：提取文本的特征内容（标题、摘要、关键字等），构造无标签数据集，每一行文本代表某一篇语料的某一个特征内容。

监督数据，构造过程为：用户查询Q与用户最终选中的文档P构造文本对，文档P使用特征内容（标题、摘要、关键字等）构造，每一行文本代表用户查询Q与文档的特征内容文本。

步骤2.所述召回模型的训练过程中，先使用无监督数据进行数据增强训练，再使用有监督数据进行精化训练，且均通过所述余弦相似度进行反向传播更新梯度完成收敛，以所述召回模型抽取文档的语义向量，以所述语义向量和所述文档建立语义索引库。

以所述召回模型通过计算余弦相似度完成用户输入查询的召回操作，且依据所述余弦相似度以及关键字匹配进行召回粗排，所述粗排过程中的关键字匹配包括广泛匹配、短语匹配或精确匹配，具体过程如下：

使用无监督数据进行初步的数据增强训练，如图2所示，带Dropout的编码模型，通过随机丢弃神经网络节点方法把同一个文本（这里举例为句子）变成正样本（对于输入做两次前向传播，但是因为丢弃神经网络节点时有随机因素，所以产生的向量不一样，但是本质上还是表示同一句子），把同一批次中其他句子变成负样本（图中＋号和-号区分）。SENT_i表示监督数据中的每一行文本内容（文档P），如图2中SENT_1 、SENT_2、SENT_3、SENT_4，通过随机丢弃神经网络节点方法对每行文本进行两次编码，输出向量、，如图2中、、、、、、、，它们代表的是同一个句子的不同向量。

然后按照公式（1）：

（1）

计算余弦相似度，其中分子部分为两个向量的内积，内积越大，说明两个向量在方向上越相似，分母是为了排除向量长度的影响。同批次内的每个向量与批次内其余向量都用上述公式（1）计算余弦相似度，得到相似度矩阵，如图3所示，在相似度矩阵的对角线上是同一个句子（加粗字体所示），即正例，在非对角线位置上是同一批次里的负样本。

使用如下公式（2）、（3）计算损失函数：

（2）

（3）

利用公式（1）计算得出的余弦相似度的值，cos_ic为相似度矩阵每个位置上的余弦值，sim_i,c为矩阵行归一化结果；根据公式（3）计算损失值，L_i代表样本i的损失值，N代表样本数，y_ic为标签（0或1），当i=c时，y_ic取1 （即相似矩阵对角线上的元素为1），否则取 0，

反向传播更新梯度，依据余弦相似度的值调整相关参数，不断优化相似度矩阵，直到收敛完成训练（损失函数输出的损失值稳定不再波动即收敛完成）。

无监督数据训练完成后，使用有监督数据对召回模型进行精化训练，其过程与上述无监督数据训练过程类似，主要训练步骤为：

①取出小批量数据（每行文本数据为用户查询Q、与此查询相关的文档P），输入到模型中做前向传播；

②求得损失函数，损失函数与上述求取方法保持一致；

③反向传播更新梯度，不断优化。

无监督数据较多可以进行初步的数据增强预训练，有监督数据训练利用无监督训练得到的模型参数继续训练，进一步提升模型精度。

上述模型训练过程，利用训练好的召回模型，对新给出的文档，抽取其语义向量，部署并搭建向量库，将抽取到的语义向量和文本全部导入向量库完成语义索引建库。

建库完成后，进行召回粗排，根据输入查询，获得粗排结果，如下步骤a、步骤b：

a.输入查询，召回语义索引库中文档。

对于用户输入查询，实时用训练好的召回模型推理出语义向量，使用近似最近邻方法查询语义索引库中与查询语义最相似的m条文本，计算出它们之间的余弦相似度，完成召回操作；

b.对于a中的m条文本，采用特征工程方法进行匹配粗排，具体如下：

b1.步骤a中得到的m条文本与查询进行关键字匹配，具体包括：

广泛匹配：①用户查询（Q）与召回文档；（D）首字相同的匹配方法；②Q与D的拼音缩写相同的匹配方法；③Q与D首字母相同的匹配方法；

短语匹配：Q的文本内容是D文本内容子集，或D的文本内容是Q文本内容子集的匹配方法；

精确匹配：①Q与D拼音完全相同的匹配方法；②Q与D文字内容完全相同的匹配方法；

根据匹配情况只要满足上述三种匹配方式中任意一种的任意一条则计1分，两条则计2分，以此类推，否则不计分，根据此计分规则计算匹配总分；

b2.匹配得分与模型计算出的余弦相似度进行融合打分：令模型召回得到查询和文档匹配的分数（余弦相似度）为s1,关键字匹配后得到的查询-文档分数为s2，s1和s2都按从小到大排列，进行相同累积分布及归一化处理，处理后得到的分数为s1_cdf和s2_cdf，根据如下公式（4）计算最后的匹配分值：

Score_final=s1_cdf+s2_cdf（4）

按照Score_final从大到小重新排列。

步骤3.进行精排模型建模且对所述粗排结果完成精排，所述精排模型采用pair-wise结构，具体流程如下：

3.1数据准备

每一行数据为一个三元组，即查询-正例-负例，其中正例为用户查询后得到确认的文档，负例为用户查询后为其展示但未获确认的文档。

3.2精排模型构建

3.2.1如图4所示，排序模型采用pair-wise结构，查询和文档标题正样本经过编码器得到一个输出的相似度S₁，查询和文档标题负样本经过编码器得到一个输出的相似度S₂；

3.2.2模型根据S₁和S₂按照如下公式（5）计算损失值：

Loss=max(S₂-S₁+k, 0) （5）

k为一个大于0的常数，设置它的目的是避免用户查询与正样本和负样本的语义向量很接近，这样很难区分，同时也可以避免使模型学习为S₂等于S₁的情况。当S₂小于S₁-k时，损失为0；当S₂大于S₁-k但小于S₁时，此时损失小于k；当S₂大于S₁时，此时损失最大，大于k；

3.2.3计算损失后反向传播更新梯度，最终增大查询和正例的相似度，减小查询和负例的相似度达到一个重新排序的目的。

本实施例提到的粗排和精排，在方案中只有前后执行顺序的关系，在前执行的排列定义为粗，在后执行的排列定义为精，也可以定义为，第一次排列和第二次排列，所以“粗”和“精”之间并没有程度的高低之分。

步骤4.模型推理

对于步骤2得到的m条文档和用户查询运用步骤3训练好的精排模型进行预测推理得到最相关的n（n<m）条文档，这n条文档即为输入查询的语义检索结果。

实施例2

本实施例提供一种语义检索系统，其包括：

模型构建模块，以无监督数据和有监督数据训练召回模型；

精排模块，进行精排模型建模且对所述粗排结果完成精排。

在本实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

实施例3

本实施例提供了一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述语义检索方法。

本实施例提供的计算机设备可以实现执行实施例1所述的方法，为避免重复，在此不再赘述。

实施例4

本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述语义检索方法。

本实施例提供的计算机可读存储介质可以实现执行实施例1所述的方法，为避免重复，在此不再赘述。

其中，所述处理器可以是中央处理器（CPU，Central Processing Unit），还可以是其他通用处理器、数字信号处理器（digital signal processor）、专用集成电路（Application Specific Integrated Circuit）、现成可编程门阵列（Field programmablegate array）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的数据，实现发明中语义检索系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等。此外，存储器可以包括高速随机存取存储器、还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

语义检索系统如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序可存储于一计算机可读存介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

本发明已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

Claims

1.一种语义检索方法，其特征在于，包括步骤：

以无监督数据和有监督数据训练召回模型，所述无监督数据为文档的特征内容，所述有监督数据为用户查询数据与用户最终选中的文档数据，以及所述用户查询数据与用户最终选中的文档数据的对应关系；

进行精排模型建模且对所述粗排结果完成精排；

所述召回模型的训练过程中，先使用无监督数据进行数据增强训练，再使用有监督数据进行精化训练，且均通过所述余弦相似度进行反向传播更新梯度完成收敛；

所述粗排过程中的关键字匹配包括广泛匹配、短语匹配或精确匹配，具体过程如下：

使用无监督数据进行初步的数据增强训练，通过随机丢弃神经网络节点方法把同一个句子变成正样本，把同一批次中其他句子变成负样本，通过随机丢弃神经网络节点方法对每行文本进行两次编码，输出向量

它们代表的是同一个句子的不同向量，然后按照公式(1)：

计算余弦相似度，其中分子部分为两个向量的内积，同批次内的每个向量与批次内其余向量都用上述公式计算余弦相似度，得到相似度矩阵，在相似度矩阵的对角线上是同一个句子，在非对角线位置上是同一批次里的负样本；

使用如下公式(2)、(3)计算损失函数：

利用公式(1)计算得出的余弦相似度的值，cos_ic为相似度矩阵每个位置上的余弦值，sim_ic为矩阵行归一化结果；根据公式(3)计算损失值，L_i代表样本i的损失值，N代表样本数，y_ic为标签，当i＝c时,y_ic取1，否则取0；

反向传播更新梯度，依据余弦相似度的值调整相关参数，不断优化相似度矩阵，直到收敛完成训练。

2.根据权利要求1所述的语义检索方法，其特征在于，所述有监督数据为用户查询数据与用户最终选中的文档数据，以及所述用户查询数据与用户最终选中的文档数据的对应关系。

3.根据权利要求1所述的语义检索方法，其特征在于，所述精排模型采用pair-wise结构。

4.根据权利要求2所述的语义检索方法，其特征在于，所述训练过程中，若干所述余弦相似度组成相似度矩阵。

5.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述语义检索方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4中任一项所述语义检索方法。