CN115344672A

CN115344672A - 文档检索模型训练方法、检索方法及存储介质

Info

Publication number: CN115344672A
Application number: CN202211275087.4A
Authority: CN
Inventors: 刘明童; 沈田浩; 周明
Original assignee: Beijing Lanzhou Technology Co ltd
Current assignee: Beijing Lanzhou Technology Co ltd
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2022-11-15
Anticipated expiration: 2042-10-18
Also published as: CN115344672B

Abstract

本发明涉及自然语言处理技术领域，特别涉及一种文档检索模型训练方法、检索方法及存储介质，训练方法包括以下步骤：获取数据库和当前批次中的查询，在数据库中对应各查询分别检索获得样本，样本包括与各查询对应的正样本以及难负样本；对于其中一查询，以该批次中的除该查询对应的正样本之外的其余正样本以及难负样本作为批次内负样本；添加负样本缓存队列用于储存样本，对批次内负样本以及储存在负样本缓存队列中的样本进行过滤得到负样本；基于查询以及其对应的负样本以及正样本对文档检索模型进行训练；训练完成后，该批次训练用的负样本以及正样本储存于负样本缓存队列中。通过添加负样本缓存队列存储负样本以增加训练时的负样本数量。

Description

文档检索模型训练方法、检索方法及存储介质

技术领域

本发明涉及自然语言处理技术领域，其特别涉及一种文档检索模型训练方法、检索方法及存储介质。

背景技术

文档检索是信息检索领域的一项重要任务，它通过用户查询从数据库中匹配相关的文档。随着自然语言处理技术的不断发展，它也被用来解决许多自然语言处理的核心问题，例如开放领域问答、事实检查等。随着大规模预训练语言模型的研究逐渐深入，基于向量表示的稠密文档检索成为主流的研究方向。稠密文档检索模型通常采用双编码器架构，其中一个编码器用于编码用户查询，另一个编码器用于学习文档表示，并使用基于正负样本的对比学习损失进行训练。这使得数据库中文档的表示可以离线计算，提高了线上检索服务的速度。另一方面，多语言预训练语言模型已经表现出跨语言的泛化能力和从高资源语言到低资源语言的知识转移能力，为了使一个文档检索模型能够同时服务于多种语言，以往的多语言文档建模模型一般沿用单语言的检索模型结构，然后直接使用多语言预训练模型取代单语言预训练模型。这样的多语言设置在一定程度上对于没有足够训练数据的语言是有用的。

然而，在现有的多语言文档检索模型中，负样本没有得到有效的利用，尤其是难负样本和伪负样本。难负样本是与正样本相似的负样本，其相较普通的负样本更不容易辨别，因此如果能在检索时针对难负样本进行训练，能够有效增强检索模型对文档的细粒度辨别能力。例如，对于用户查询：“NBA（美国职业男子篮球联赛）比赛时间有多长”，关于女子篮球联赛比赛时间的文档就可以视作难负样本。而伪负样本是实际为正样本的负样本，由于目前的检索数据集一般只有极少量的正样本有人工标注，而其余的样本都被视为负样本，这会导致模型学习到错误的标注信息，同样会降低模型对文档的辨别能力。对于上面的例子，那么数据库中同样关于NBA比赛时间的未标注文档就是伪负样本。

目前的多语言文档检索模型为每种语言独立维护难负样本，这使得模型无法在不同语言间共享难以区分的文档的共同特征。其次，为了增加负样本的数量，一些研究工作在稠密检索模型中使用了批次内负样本技术，即对于某一样本而言，同一批次内其它样本均视为负样本。然而，研究表明对比学习需要较大的负样本量才能获得较好的效果，而负样本的不断增加将很快耗尽显存，因此很难进一步增加负样本的数量。第三，文档检索的候选数据规模往往十分庞大，能够达到百万甚至千万级别，而在标注数据时，标注人员只能标注一部分相关文档（即正样本），而其它未标注的相关文档在训练时就被当成负样本处理了。这一部分样本就被称为伪负样本，它的数量将会与批次内负样本数量同步增加。由于伪负样本实际上是正样本，这将误导模型的优化方向，导致训练更难收敛。

发明内容

为了解决现有技术中对多语言文档检索模型训练时的负样本未能有效利用的问题，本发明提供一种文档检索模型训练方法、检索方法及存储介质。

本发明为解决上述技术问题，提供如下的技术方案：一种文档检索模型训练方法，包括以下步骤：

获取数据库和当前批次中的查询，在数据库中对应各查询分别检索获得样本，样本包括与各查询对应的正样本以及难负样本；

对于该批次中的其中一查询，以该批次中的除该查询对应的正样本之外的其余正样本以及难负样本作为批次内负样本；

添加负样本缓存队列用于储存样本，当负样本缓存队列存储有样本时，对批次内负样本以及储存在负样本缓存队列中的样本进行过滤得到该查询对应的负样本；当负样本缓存队列未存储有样本时，对批次内负样本进行过滤得到该查询对应的负样本；

基于该批次中查询以及其对应的负样本以及正样本对文档检索模型进行训练；

该批次训练完成后，该批次训练用的负样本以及正样本储存于负样本缓存队列中用于后续训练。

优选地，在数据库中对应各查询分别检索获得样本，样本包括与各查询正样本以及难负样本包括以下步骤：

基于BM25算法获得数据库中与各查询对应的相关文档；

对应各查询将至少部分相关文档标记为正样本作为该批次中对应查询的正样本；

对应查询选择至少部分数据集中的除标注为正样本之外的其余文档作为该查询对应的难负样本；

将查询翻译获得不同语言的查询，获得各自语言查询的难负样本后，合并得到多语言共享的难负样本。

优选地，基于BM25算法计算查询与数据集中的每个文档的分数；具体计算公式为：

，

其中Q表示查询，d表示一个候选文档，q_i表示查询中的某一单词，W_i表示当前的单词的权重，以查询中所有的单词和文档的相似度的和来表示这个文档和查询的分数；将分数在预设范围内的文档作为相关文档。

优选地，在得到多语言共享的难负样本之后还包括以下步骤：

对查询以及难负样本进行编码，得到各自的向量表示；

将查询与难负样本进行随机混合得到混合后的表示；

对混合得到的表示进行归一化得到混合后的难负样本表示。

优选地，对批次内负样本以及储存在负样本缓存队列中的样本进行过滤得到负样本包括以下步骤：

对于批次中的查询，将其对应的正样本、批次内负样本以及负样本缓存队列中的样本合并为一个文档集合；

基于K-means算法将这些文档分成至少一个簇；

为每个文档随机分配伪标签，其中每个伪标签的概率是文档表示与每个簇中心表示的标准化相似度；

将与正样本具有相同伪标签的文档视为伪负样本，并将它们从批次内负样本以及负样本缓存队列中的样本排除得到负样本。

优选地，从批次内负样本以及负样本缓存队列中的样本排除的伪负样本加入到正样本中作为正样本使用。

优选地，训练时，采用NCE对比损失来优化文档检索模型，具体为：

，

其中q_i表示查询、d_i ⁺和d_i ^-分别表示查询对应的正样本和负样本，L_i是q_i对应的正样本的伪标签。

优选地，向负样本缓存队列存储样本时，如果负样本缓存队列已满，负样本缓存队列中最早加入的样本将被去除。

本发明为解决上述技术问题，提供又一技术方案如下：一种文档检索方法，包括以下步骤：

获取文档检索模型，文档检索模型采用前述所述的文档检索模型训练方法训练；

输入查询至文档检索模型，通过文档检索模型在数据库中检索出相关的文档。

本发明为解决上述技术问题，提供又一技术方案如下：一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述所述的一种文档检索方法。

与现有技术相比，本发明所提供的一种文档检索模型训练方法、检索方法及存储介质具有如下的有益效果：

1.本发明实施例提供的一种多语言检索模型训练方法，将查询在数据集中检索获得对应的正样本以及难负样本后，通过采用当前批次中的其他样本作为批次内负样本，从而以很少的训练成本充分利用训练数据；为了进一步增加多语言环境下的负样本数量，提出了一个负样本缓存队列，

将此前在缓存队列中存储的样本取出，与当前批次内的负样本一起进行过滤，得到真正的负样本。最后基于正样本和真正的负样本计算对比学习损失。训练完成后，当前批次使用的所有样本会被用于更新负样本缓存队列；相较于传统的文档检索模型，通过多语言负样本缓存队列存储负样本，提高训练中可使用的负样本数量；最后通过过滤掉伪负样本，在加快训练收敛速度的同时提高模型的多语言文档检索能力。

2.本发明实施例提供的一种多语言检索模型训练方法，通过选取数据集中的除标注为正样本之外的其余文档作为该查询对应的难负样本，并基于每种语言的查询都得到各自的难负样本后混合得到多语言共享的难度样本，这样可以使难负样例在各个语言间共享，使模型能够更好捕捉难以区分的样例的特征。

3.本发明实施例提供的一种多语言检索模型训练方法，将难负样本和查询进行随机线性混合，构造出新的难负样本，使检索模型能够更好地学习难以区分的文档之间的细微差异。

4.本发明实施例提供的一种多语言检索模型训练方法，通过将伪负样本过滤掉，避免使模型错误地尝试让查询的表示远离这些伪负样本，使得训练难以收敛。

5.本发明实施例提供的一种文档检索方法，具有和前述的一种多语言检索模型训练方法训练获得的多语言检索模型相同的有益效果，再次不做赘述。

6.本发明实施例提供的一种计算机存储介质，具有和前述的一种文档检索方法相同的有益效果，再次不做赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种文档检索模型训练方法的步骤流程图。

图2是本发明第一实施例提供的一种文档检索模型训练方法之步骤S1的步骤流程图。

图3是本发明第一实施例提供的一种文档检索模型训练方法之步骤S14之后的步骤流程图。

图4是本发明第一实施例提供的一种文档检索模型训练方法之步骤S3的步骤流程图。

图5是本发明第二实施例提供的一种文档检索方法的步骤流程图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明第一实施例提供一种文档检索模型训练方法，包括以下步骤：

S1：获取数据库和当前批次中的查询，在数据库中对应各查询分别检索获得样本，样本包括与各查询对应的正样本以及难负样本；

S2：对于该批次中的其中一查询，以该批次中的除该查询对应的正样本之外的其余正样本以及难负样本作为批次内负样本；

S3：添加负样本缓存队列用于储存样本，当负样本缓存队列存储有样本时，对批次内负样本以及储存在负样本缓存队列中的样本进行过滤得到负样本；当负样本缓存队列未存储有样本时，对批次内负样本进行过滤得到该查询对应的负样本；

S4：基于该批次中的查询以及其对应的负样本以及正样本对文档检索模型进行训练；

S5：该批次训练完成后，该批次训练用的负样本以及正样本储存于负样本缓存队列中用于后续训练。

需要说明的是，数据集中包含各种语言的语料库，其中对于某一种语言的语料库而言，可将其翻译至其他目标语言来达到扩充语料库的目的，因此数据集是一个很大的单位，一般在百万量级、甚至千万量级，查询可理解为检索文档时输入的关键词，句等。

在检索时对于查询是在其对应的语言的语料库中进行检索以获得各查询对应的正样本以及难负样本；其中一个批次就是训练时的一个batch，每个batch里都有多个不同的查询，以及该查询对应的正样本和难负样本；在实际训练模型时，会组织成若干个这样的batch用于训练模型；批次中的样本相当于是数据集中的一个子集，是一个较小的量级单位，在训练时，只访问该批次中的样本，进而达到更快的训练速度；其中可根据不同语言构建多种语言的batch以训练模型，使模型能够同时服务于多种语言。

此外，本实施例采用批次内负样本技术使检索模型能够使用当前批次中的其他样本作为负样本使用，从而以很少的训练成本充分利用训练数据，为了进一步增加训练时的负样本数量，对每种语言都添加了相应的负样本缓存队列，当使用某种语言的训练数据训练文档检索模型时，同时采用该批次内的样本以及储存在负样本缓存队列中的样本进行训练，训练完成后，训练用的数据都将被储存在负样本缓存队列中用于之后的训练。

由于负样本的数量取决于批次的大小，而批次的大小是由GPU内存来限制的，考虑到语言的数量可能很多，为了保持多语言的可扩展性，将这些负样本缓存队列维护在RAM的锁页内存 (pinned memory) 而不是GPU内存中，这使得GPU设备可以绕过CPU直接获取缓存的表示，以提高训练速度。可以理解地，这种负样本缓存队列大大增加了训练时负样本的数量。其中每种语言的负样本缓存队列的大小被设定为一个容量阈值，这个阈值取决于内存大小，它可以远远大于批次大小。在当前批次训练完成之后，该批次中的样本将被添加进负样本缓存队列中；

进一步地，当向负样本缓存队列存储样本时，如果负样本缓存队列已满，负样本缓存队列中最早加入的样本将被去除，以实现滚动更新；具体地，这个队列的长度是固定的，在更新时，把最早的样本表示从队列头部去掉，然后把新的样本表示添加到队列尾部，

需要说明的是，这个负样本缓存队列在训练最开始的时候为空，也即队列中没有样本，等在训练过程中队列中储存有样本的时候，再利用负样本缓存队列中的样本进行训练。

进一步地，请参阅图2，在步骤S1“数据库中对应各查询分别检索获得样本，样本包括与各查询正样本以及难负样本”包括以下步骤：

S11：基于BM25算法获得数据库中与各查询对应的相关文档；

S12：对应各查询将至少部分相关文档标记为正样本作为该批次中对应查询的正样本；

S13：对应查询选择至少部分数据集中的除标注为正样本之外的其余文档作为该查询对应的难负样本；

S14：将查询翻译获得不同语言的查询，获得各自语言查询的难负样本后，合并得到多语言共享的难负样本。

可以理解地，首先基于算法获得数据集中的与查询较为相关的若干文档，之后在步骤S12中，本实施例中采用人工标注的方式标注获得正样本，这样获得的正样本相较于机器标注来说得到的正样本质量更好，更符合查询，但是由于数据集中文档数量较多，甚至是千万级别的数量，获得的相关文档也就数量较多，人工标注是不能够把所有的正样本全部标注出来，因此在未标注的样本中会存在一部分实际上为正样本的伪负样本；

对于难负样本的选取，是在数据集中除去标注为正样本的样本中进行选取，这就使得难负样本的选取可能会选取到实际为正样本的伪负样本，而在本实施例中，并不需要选取的难负样本是完全正确的负样本，只需要让它相比随机的样本更难区分即可；而在后面步骤S3中，会对批次内负样本进行筛选，就是为了将伪负样本过滤掉从而获得真正的负样本。

进一步地，为了保证难负样本的跨语言共享，因此对于某个查询，将其翻译成其他语言获得不同语言的查询，且对于不同语言的查询都在其对应的语言语料库中获得难负样本，最后对难负样本合并即得到多语言共享的难负样本；由于每个语言查询检索得到的难负样例有一定差异，合并获得的大难负样本可以在各个语言间共享，使模型能够更好捕捉难以区分的样例的特征。

具体地，在本实施例中，采用MarianNMT作为翻译工具对查询进行翻译，而前述的扩充语料库时也可基于该翻译工具翻译。

具体地，基于BM25算法计算查询与数据集中的每个文档的分数；具体计算公式为：

，

进一步地，请参阅图3，在步骤S14“得到多语言共享的难负样本”之后还包括以下步骤：

S15：对查询以及难负样本进行编码，得到各自的向量表示；

S16：将查询与难负样本进行随机混合得到混合后的表示；

S17：对混合得到的表示进行归一化得到混合后的难负样本表示。

在训练时，通过mBERT模型对查询以及难负样本进行编码得到各自的向量表示，由于后续训练采用各自的向量表示进行计算，因此正样本也通过该模型获得向量表示，为了对难负样本进行编码和表示增强，进一步增加难负样本的数量和多样性，将查询和难负样本进行随机混合得到混合后的表示：

，

其中Q表示查询，p_i和p_j分别表示两个随机选择的难负样本，E_q和E_p分别表示查询编码器和文档编码器，α、β、γ分别表示查询和两个难负样本进行随机混合时的权重；之后再进行归一化处理，获得的表示将用于后续的训练，这样可以在实现数据增强的同时提高辨别难负样本的难度，使模型能够更好地区分有细微差异的文档。

进一步地，请参阅图4，步骤S3中“对批次内负样本以及储存在负样本缓存队列中的样本进行过滤得到负样本”包括以下步骤：

S31：对于批次中的查询，将其对应的正样本、批次内负样本以及负样本缓存队列中的样本合并为一个文档集合；

S32：基于K-means算法将这些文档分成至少一个簇；

S33：为每个文档随机分配伪标签，其中每个伪标签的概率是文档表示与每个簇中心表示的标准化相似度；

S34：将与正样本具有相同伪标签的文档视为伪负样本，并将它们从批次内负样本以及负样本缓存队列中的样本排除得到负样本。

具体地，本实施例中设计了一个伪负样本过滤器来过滤掉负样本，在数据集中，被标注出来的正样本只占一小部分，大量实际的正样本没有被标注，因此一般会被视为伪负样本，这会使模型错误地尝试让查询的表示远离这些伪负样本，使得训练难以收敛，因此在训练之前需要将这些伪负样本过滤掉，获得真正的负样本用于训练。

具体地，先将批次中的查询，将其对应的正样本、批次内负样本以及负样本缓存队列中的样本合并为一个文档集合，若负样本缓存队列中为空，则只需要对批次内负样本进行过滤即可，之后采用K-means算法对这些文档进行聚类处理分成多个簇，通过分配伪标签将与正样本具有相同伪标签的文档视为伪负样本，并排除掉。

其中标准化相似度为：

，

其中c_t为簇中心表示，d表示文档，C_j表示第j个簇的簇中心表示。

具体地，在训练时，从批次内负样本以及负样本缓存队列中的样本排除的伪负样本加入到正样本中作为正样本使用。

在一具体实施例中，由于在训练的开始阶段，文档表示尚未得到优化，聚类的置信度是相对较低的。因此，我们只在训练到一定时间后，如20%的训练步数后，才在损失函数中将伪负样本作为正样本使用。

具体地，训练时，采用NCE对比损失来优化文档检索模型，具体对比损失函数为：

，

请参阅图5，本发明第二实时例还提供一种文档检索方法，包括以下步骤：

S100：获取文档检索模型，其中文档检索模型采用如第一实施例所述的文档检索模型训练方法训练；

S200：输入查询至文档检索模型，通过文档检索模型在数据库中检索出相关的文档。

该检索方法具有第一实施例所述文档检索模型训练方法训练获得的多语言检索模型的具有相同的有益效果，在此不做赘述。

本发明第三实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如前述第二实施例所述的一种文档检索方法。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明的附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方案中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，在此基于涉及的功能而确定。需要特别注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

与现有技术相比，本发明所提供的一种文档检索模型训练方法、检索方法及存储介质，具有如下的有益效果：

将此前在缓存队列中存储的负样本取出，与当前批次内的负样本一起进行过滤，得到真正的负样本。最后基于正样本和真正的负样本计算对比学习损失。训练完成后，当前批次使用的所有样本会被用于更新负样本缓存队列；相较于传统的文档检索模型，通过多语言负样本缓存队列存储负样本，提高训练中可使用的负样本数量；最后通过过滤掉伪负样本，在加快训练收敛速度的同时提高模型的多语言文档检索能力。

以上对本发明实施例公开的一种文档检索模型训练方法、检索方法及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。

Claims

1.一种文档检索模型训练方法，其特征在于：包括以下步骤：

基于该批次中的查询以及其对应的负样本和正样本对文档检索模型进行训练；

该批次训练完成后，将该批次训练用的负样本以及正样本储存于负样本缓存队列中用于后续训练。

2.如权利要求1所述的文档检索模型训练方法，其特征在于：在数据库中对应各查询分别检索获得样本，样本包括与各查询正样本以及难负样本包括以下步骤：

基于BM25算法获得数据库中与各查询对应的相关文档；

3.如权利要求2所述的文档检索模型训练方法，其特征在于：基于BM25算法计算查询与数据集中的每个文档的分数；具体计算公式为：

，

4.如权利要求2所述的文档检索模型训练方法，其特征在于：在得到多语言共享的难负样本之后还包括以下步骤：

对查询以及难负样本进行编码，得到各自的向量表示；

将查询与难负样本进行随机混合得到混合后的表示；

对混合得到的表示进行归一化得到混合后的难负样本表示。

5.如权利要求1所述的文档检索模型训练方法，其特征在于：对批次内负样本以及储存在负样本缓存队列中的样本进行过滤得到负样本包括以下步骤：

基于K-means算法将这些文档分成至少一个簇；

6.如权利要求5所述的文档检索模型训练方法，其特征在于：从批次内负样本以及负样本缓存队列中的样本排除的伪负样本加入到正样本中作为正样本使用。

7.如权利要求5所述的文档检索模型训练方法，其特征在于：训练时，采用NCE对比损失来优化文档检索模型，具体为：

，

8.如权利要求1所述的文档检索模型训练方法，其特征在于：向负样本缓存队列存储样本时，如果负样本缓存队列已满，负样本缓存队列中最早加入的样本将被去除。

9.一种文档检索方法，其特征在于：包括以下步骤：

获取文档检索模型，文档检索模型采用权利要求1-8任一项所述的文档检索模型训练方法训练；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求9所述的一种文档检索方法。