CN115329749B

CN115329749B - 一种语义检索的召回和排序联合训练方法及系统

Info

Publication number: CN115329749B
Application number: CN202211257869.5A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-10
Anticipated expiration: 2042-10-14
Also published as: CN115329749A

Abstract

本发明提供一种语义检索的召回和排序联合训练方法及系统，涉及信息检索技术领域，所述方法包括：基于查询文本和检索文本建立召回和排序联合模型，使双塔模型和单塔模型输出分布拟合；基于查询文本对召回和排序联合模型进行无监督训练；基于查询文本和检索文本对召回和排序联合模型进行有监督训练；通过召回和排序联合模型的双塔模型生成负样本；迭代训练召回和排序联合模型。本发明通过双塔模型和单塔模型的联合训练，拟合双塔模型和单塔模型的数据输出分布，提升语义检索中双塔模型的查全率；通过提升查全率，在查全率相同的情况下，减少单塔模型的计算量，提升语义检索性能。

Description

一种语义检索的召回和排序联合训练方法及系统

技术领域

本发明涉及信息检索技术领域，具体而言，涉及一种语义检索的召回和排序联合训练方法及系统。

背景技术

传统的信息检索主要基于关键词，从字面意义上进行搜索。语义检索是指检索引擎的工作不再局限于用户所输入请求语句的字面本身，而是准确捕捉用户输入的真正意图，并以此进行检索，从而更准确地向用户返回最符合其需求的检索结果。

目前语义检索主要采用神经网络模型，包含交互型模型（单塔模型）和表示型模型（双塔模型）。交互型模型需要将两个待匹配的文本拼接作为神经网络的输入，因此每次检索时需要将检索文本与库内海量查询文本依次组合进行计算；表示型模型则可以离线计算库内所有文本的特征向量，并构建索引，每次检索时仅需要将检索文本进行神经网络的计算，从而节约大量时间。交互式模型因为在训练的过程中有信息交互，所以效果表现不错，缺点是计算时间长；表示型模型因为可以提前离线计算，计算时间短，也因模型底层无信息交互，因此效果较差。根据两种模型的优缺点，语义检索通常采用双塔模型在海量数据中召回一批数据，再对召回数据通过单塔模型进行排序。如果召回数据太多，也会影响检索性能。

发明内容

本发明实施例提供了一种语义检索的召回和排序联合训练方法及系统，由于双塔模型查全率比排序模型低，通过双塔模型和单塔模型的联合训练，拟合双塔模型和单塔模型的数据输出分布，提升语义检索中双塔模型的查全率；并且通过提升查全率，在查全率相同的情况下，减少单塔模型的计算量，提升语义检索性能。

在第一方面，本发明实施例中提供一种语义检索的召回和排序联合训练方法，所述方法包括以下步骤：

（1）获取查询文本和检索文本；

（2）基于查询文本和检索文本建立召回和排序联合模型，使召回和排序联合模型的双塔模型和单塔模型输出分布拟合；

（3）基于查询文本对召回和排序联合模型进行无监督训练；

（4）基于查询文本和检索文本对召回和排序联合模型进行有监督训练；

（5）将查询文本输入有监督训练之后的召回和排序联合模型，通过召回和排序联合模型的双塔模型生成正样本和负样本；

（6）基于正样本和负样本迭代训练召回和排序联合模型。

作为本申请一些可选实施方式，使召回和排序联合模型的双塔模型和单塔模型输出分布拟合的流程如下：

（2.1）通过双塔模型对查询文本q=Text1和检索文本p= Text2分别进行文本特征提取，得到文本特征

、

；

（2.2）计算查询文本q=Text1和检索文本p= Text2的双塔模型相似度

：

其中，

为查询文本q=Text1和检索文本p= Text2的向量内积，

为激活函数；

（2.3）通过单塔模型对查询文本q=Text1和检索文本p= Text2进行特殊字符拼接，并且对特殊字符拼接结果Text1+ Text2进行文本特征提取，得到文本特征

；

（2.4）计算查询文本和检索文本的单塔模型相似度

：

其中，

为特殊字符拼接结果Text1+ Text2的1维向量，

为激活函数；

（2.5）基于双塔模型相似度

和单塔模型相似度

计算召回和排序联合模型的总损失

，使得双塔模型和单塔模型输出分布拟合。

作为本申请一些可选实施方式，计算召回和排序联合模型的总损失

的流程如下：

（2.51）计算双塔模型的模型损失

：

（2.52）计算单塔模型的模型损失

：

（2.53）计算双塔模型和单塔模型的输出分布的欧拉距离

：

（2.54）基于模型损失

、模型损失

以及欧拉距离

计算总损失

，并且进行模型反向传播：

其中，N表示训练样本的数量，

表示与查询文本q相关的检索文本，

表示与查询文本q不相关的检索文本；

（0，1）表示边界，Q表示查询样本q的数量，即为N，

表示对应检索文本的数量。

作为本申请一些可选实施方式，基于查询文本对召回和排序联合模型进行无监督训练的流程如下：

（3.1）将两个查询文本q=Text1=Text2输入双塔模型，并且通过双塔模型对查询文本Text1、Text2分别进行文本特征提取，得到文本特征

、

；

（3.2）计算查询文本Text1、Text2的双塔模型相似度

，如果两个查询文本Text1、Text2相同，则对应的两个查询文本Text1、Text2为正样本，反之，则对应的两个查询Text1、Text2文本为负样本；

（3.3）将两个查询文本Text1、Text2进行特殊字符拼接，并且对特殊字符拼接结果Text1+ Text2进行文本特征提取，得到文本特征

；

（3.4）计算两个查询文本Text1、Text2的单塔模型相似度

；

（3.5）基于正样本和负样本计算双塔模型的模型损失

以及单塔模型的模型损失

，并且进行模型反向传播。

作为本申请一些可选实施方式，基于查询文本和检索文本对召回和排序联合模型进行有监督训练的流程如下：

（4.1）将查询文本q、与查询文本q相关的检索文本

作为正样本，将查询文本q、与查询文本q不相关的检索文本

作为负样本；

（4.2）基于正样本和负样本计算双塔模型的模型损失

以及单塔模型的模型损失

，并且进行模型反向传播。

作为本申请一些可选实施方式，通过召回和排序联合模型的双塔模型生成正样本和负样本的流程如下：

（5.1）通过双塔模型对检索文本p进行文本特征提取，得到文本特征

、

、…、

；

（5.2）通过双塔模型对查询文本q进行文本特征提取，得到文本特征

；

（5.3）分别计算查询文本q与若干检索文本p的向量内积

、

、…、

，并且对若干向量内积进行排序；

（5.4）基于向量内积的排序选取前

的检索文本

、

、…、

，将查询文本q和检索文本

、

、…、

分别组合，作为负样本。

作为本申请一些可选实施方式，基于正样本和负样本迭代训练召回和排序联合模型的流程如下：

（6.1）将查询文本q、与查询文本q相关的检索文本

作为正样本，将查询文本q和检索文本

、

、…、

分别组合，作为负样本；

（6.2）基于正样本和负样本计算双塔模型的模型损失

以及单塔模型的模型损失

；

（6.3）重复进行步骤（6.1）和步骤（6.2），迭代训练召回和排序联合模型。

在第二方面，本发明提供一种语义检索的召回和排序联合训练系统，所述系统包括：

数据获取单元，所述数据获取单元用于获取查询文本和检索文本；

输出分布拟合单元，所述输出分布拟合单元基于查询文本和检索文本建立召回和排序联合模型，使召回和排序联合模型的双塔模型和单塔模型输出分布拟合；

有监督训练单元，所述有监督训练单元基于查询文本对召回和排序联合模型进行无监督训练；

无监督训练单元，所述无监督训练单元基于查询文本和检索文本对召回和排序联合模型进行有监督训练；

负样本生成单元，所述负样本生成单元训练通过召回和排序联合模型的双塔模型生成正样本和负样本；

联合训练单元，所述联合训练单元基于正样本和负样本迭代训练召回和排序联合模型。

在第三方面，本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述一种语义检索的召回和排序联合训练方法。

在第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述一种语义检索的召回和排序联合训练方法。

本发明的有益效果如下：

（1）由于召双塔模型查全率比单塔模型低，通过双塔模型和单塔模型的联合训练，拟合双塔模型和双塔模型的数据输出分布，提升语义检索中双塔模型的查全率。

（2）由于双塔模型的查全率得到提升，在查全率相同的情况下，减少单塔模型的计算量，提升语义检索性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是根据本发明的一些实施例所述语义检索的召回和排序联合训练方法的步骤图。

图2是根据本发明的一些实施例所述召回和排序联合模型的结构框图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

同样应当理解的是，为了简化本发明揭示的表述，从而帮助对至少一个发明实施例的理解，前文对本发明实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本发明对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

实施例1

本发明提供一种语义检索的召回和排序联合训练方法，请参阅图1，所述方法包括以下步骤：

（1）获取查询文本和检索文本；

即获取大量的查询文本，例如：文档的关键词、标题、部分段落、问题等无标注数据作为查询文本q，检索文本p一般为若干关键词，其中，查询文本q与对应的若干检索文本p相关；

（2）基于查询文本和检索文本建立召回和排序联合模型，使召回和排序联合模型的双塔模型和单塔模型输出分布拟合；其中，所述召回和排序联合模型包括双塔模型（召回模型）和单塔模型（排序模型）；

于本发明实施例中，使召回和排序联合模型的双塔模型和单塔模型输出分布拟合的流程如下：

①对于双塔模型：

、

，请参阅图2，左侧为双塔模型，即召回模型，右侧为单塔模型，即排序模型；

其中，双塔模型由预训练模型（如BERT、ERNIE等）、dropout层、线性层组成，预训练模型主要提取文本特征，dropout层随机丢弃部分特征，线性层把预训练模型提取的高维特征进行降维；

：

其中，

为查询文本q=Text1和检索文本p= Text2的向量内积，

为激活函数，将相似度放缩到[0,1]区间；

②对于单塔模型：

；

其中，单塔模型由预训练模型（如BERT、ERNIE等）、dropout层、线性层组成，预训练模型主要提取文本特征，dropout层随机丢弃部分特征，线性层输出Text1+Text2的1维特征；

（2.4）计算查询文本和检索文本的单塔模型相似度

：

其中，

为特殊字符拼接结果Text1+ Text2的1维向量，

为激活函数；

（2.5）基于双塔模型相似度

和单塔模型相似度

计算召回和排序联合模型的总损失

，使得双塔模型和单塔模型输出分布拟合。

于本发明实施例中，计算召回和排序联合模型的总损失

的流程如下：

（2.51）计算双塔模型的模型损失

：

（2.52）计算单塔模型的模型损失

：

（2.53）计算双塔模型和单塔模型的输出分布的欧拉距离

：

（2.54）基于模型损失

、模型损失

以及欧拉距离

计算总损失

，并且进行模型反向传播：

其中，N表示训练样本的数量，

表示与查询文本q相关的检索文本，

表示与查询文本q不相关的检索文本；

（0，1）表示边界，Q表示查询样本q的数量，即为N，

表示对应检索文本的数量；当查询文本q和检索文本

、

的相似度

大于相似度

，并且（

）大于

时，模型损失

为0，优化目标是使得正样本的相似度大于负样本及负样本的相似度，同理计算

；

为双塔模型与单塔模型数据分布的欧式距离，优化目标是使双塔模型输出分布动态拟合单塔模型输出分布。

（3）基于查询文本对召回和排序联合模型进行无监督训练；

于本发明实施例中，无监督训练的流程如下：

①对于双塔模型：

、

；

（3.2）计算查询文本Text1、Text2的双塔模型相似度

其中，

为查询文本Text1、 Text2的向量内积，

为激活函数；

②对于单塔模型：

；

（3.4）计算两个查询文本Text1、Text2的单塔模型相似度

；

其中，

为特殊字符拼接结果Text1+ Text2的1维向量，

为激活函数；

（3.5）基于正样本和负样本计算双塔模型的模型损失

以及单塔模型的模型损失

，并且进行模型反向传播；

其中，N表示训练样本的数量，

和

表示正样本，

和

表示正样本；

1表示边界（0，1）。

于本发明实施例中，有监督训练的流程如下：

（4.1）将查询文本q、与查询文本q相关的检索文本

作为正样本，将查询文本q、与查询文本q不相关的检索文本

作为负样本；

（4.2）基于正样本和负样本计算双塔模型的模型损失

以及单塔模型的模型损失

，并且进行模型反向传播；

其中，模型损失

、模型损失

的计算公式与

、模型损失

相同，因此不再赘述。

于本发明实施例中，生成负样本的流程如下：

、

、…、

；

；

（5.3）分别计算查询文本q与若干检索文本p的向量内积

、

、…、

，并且对若干向量内积进行排序；

（5.4）基于向量内积的排序选取前

的检索文本

、

、…、

，将查询文本q和检索文本

、

、…、

分别组合，作为负样本。

（6）基于正样本和负样本迭代训练召回和排序联合模型。

于本发明实施例中，迭代训练召回和排序联合模型的流程如下：

（6.1）将查询文本q、与查询文本q相关的检索文本

作为正样本，将查询文本q和检索文本

、

、…、

分别组合，作为负样本；

（6.2）基于正样本和负样本计算双塔模型的模型损失

以及单塔模型的模型损失

；

其中，模型损失

、模型损失

的计算公式与

、模型损失

相同，因此不再赘述。

（6.3）重复进行步骤（6.1）和步骤（6.2），直到得到较好的召回和排序联合模型。

实施例2

本发明提供一种语义检索的召回和排序联合训练系统，所述系统包括：

实施例3

本发明提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器运行时执行实施例1所述的语义检索的召回和排序联合训练方法。

本实施例提供的计算机设备可以实现执行实施例1所述的方法，为避免重复，在此不再赘述。

实施例4

本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述的语义检索的召回和排序联合训练方法。

本实施例提供的计算机可读存储介质可以实现执行实施例1所述的方法，为避免重复，在此不再赘述。

其中，所述处理器可以是中央处理器（CPU，Central Processing Unit），还可以是其他通用处理器、数字信号处理器（digital signal processor）、专用集成电路（Application Specific Integrated Circuit）、现成可编程门阵列（Field programmablegate array）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的数据，实现发明中语义检索的召回和排序联合训练系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等。此外，存储器可以包括高速随机存取存储器、还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

语义检索的召回和排序联合训练系统如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序可存储于一计算机可读存介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

本发明已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

Claims

1.一种语义检索的召回和排序联合训练方法，其特征在于，所述方法包括以下步骤：

基于查询文本和检索文本建立召回和排序联合模型，其中，召回和排序联合模型包括双塔模型和单塔模型，并且使召回和排序联合模型的双塔模型和单塔模型输出分布拟合；

基于查询文本对召回和排序联合模型进行无监督训练；

基于查询文本和检索文本对召回和排序联合模型进行有监督训练；

将查询文本输入有监督训练之后的召回和排序联合模型，通过召回和排序联合模型的双塔模型生成正样本和负样本；

基于正样本和负样本迭代训练召回和排序联合模型。

2.根据权利要求1所述的一种语义检索的召回和排序联合训练方法，其特征在于，使召回和排序联合模型的双塔模型和单塔模型输出分布拟合的流程如下：

通过双塔模型对查询文本q=Text1和检索文本p= Text2分别进行文本特征提取，得到文本特征

、

；

计算查询文本q=Text1和检索文本p= Text2的双塔模型相似度

：

其中，

为查询文本q=Text1和检索文本p= Text2的向量内积，

为激活函数；

通过单塔模型对查询文本q=Text1和检索文本p= Text2进行特殊字符拼接，并且对特殊字符拼接结果Text1+ Text2进行文本特征提取，得到文本特征

；

计算查询文本和检索文本的单塔模型相似度

：

其中，

为特殊字符拼接结果Text1+ Text2的1维向量，

为激活函数；

基于双塔模型相似度

和单塔模型相似度

计算召回和排序联合模型的总损失

，使得双塔模型和单塔模型输出分布拟合。

3.根据权利要求2所述的一种语义检索的召回和排序联合训练方法，其特征在于，计算召回和排序联合模型的总损失

的流程如下：

计算双塔模型的模型损失

：

计算单塔模型的模型损失

：

计算双塔模型和单塔模型的输出分布的欧拉距离

：

基于模型损失

、模型损失

以及欧拉距离

计算总损失

，并且进行模型反向传播：

其中，N表示训练样本的数量，

表示与查询文本q相关的检索文本，

表示与查询文本q不相关的检索文本；

表示边界（0，1），Q表示查询样本q的数量，即为N，

表示对应检索文本的数量。

4.根据权利要求1所述的一种语义检索的召回和排序联合训练方法，其特征在于，基于查询文本对召回和排序联合模型进行无监督训练的流程如下：

将两个查询文本q=Text1=Text2输入双塔模型，并且通过双塔模型对查询文本Text1、Text2分别进行文本特征提取，得到文本特征

、

；

计算查询文本Text1、Text2的双塔模型相似度

将两个查询文本Text1、Text2进行特殊字符拼接，并且对特殊字符拼接结果Text1+Text2进行文本特征提取，得到文本特征

；

计算两个查询文本Text1、Text2的单塔模型相似度

；

基于正样本和负样本计算双塔模型的模型损失

以及单塔模型的模型损失

，并且进行模型反向传播。

5.根据权利要求1所述的一种语义检索的召回和排序联合训练方法，其特征在于，基于查询文本和检索文本对召回和排序联合模型进行有监督训练的流程如下：

将查询文本q、与查询文本q相关的检索文本

作为正样本，将查询文本q、与查询文本q不相关的检索文本

作为负样本；

基于正样本和负样本计算双塔模型的模型损失

以及单塔模型的模型损失

，并且进行模型反向传播。

6.根据权利要求1所述的一种语义检索的召回和排序联合训练方法，其特征在于，通过召回和排序联合模型的双塔模型生成正样本和负样本的流程如下：

通过双塔模型对检索文本p进行文本特征提取，得到文本特征

、

、…、

；

通过双塔模型对查询文本q进行文本特征提取，得到文本特征

；

分别计算查询文本q与若干检索文本p的向量内积

、

、…、

，并且对若干向量内积进行排序；

基于向量内积的排序选取前

的检索文本

、

、…、

，将查询文本q和检索文本

、

、…、

分别组合，作为负样本。

7.根据权利要求6所述的一种语义检索的召回和排序联合训练方法，其特征在于，基于正样本和负样本迭代训练召回和排序联合模型的流程如下：

将查询文本q、与查询文本q相关的检索文本

作为正样本，将查询文本q和检索文本

、

、…、

分别组合，作为负样本；

基于正样本和负样本计算双塔模型的模型损失

以及单塔模型的模型损失

；

重复训练召回和排序联合模型。

8.一种语义检索的召回和排序联合训练系统，其特征在于，所述系统包括：

输出分布拟合单元，所述输出分布拟合单元基于查询文本和检索文本建立召回和排序联合模型，其中，召回和排序联合模型包括双塔模型和单塔模型，并且使召回和排序联合模型的双塔模型和单塔模型输出分布拟合；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述一种语义检索的召回和排序联合训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述一种语义检索的召回和排序联合训练方法。