CN117131383A

CN117131383A - 一种提高双塔模型搜索精排性能的方法

Info

Publication number: CN117131383A
Application number: CN202310859637.5A
Authority: CN
Inventors: 闫琰; 闵鹏浩; 张博文
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-11-28

Abstract

一种提高双塔模型搜索精排性能的方法包括以下步骤：获取数据集，并对所述数据集进行预处理；搭建双塔模型，设定模型参数，并改进所述双塔模型的损失函数层；将所述步骤1中预处理后的数据集按照比例划分为训练集和测试集；将所述训练集应用至改进后的双塔模型，输出搜索精排结果；其中，所述数据集预处理的方法具体包括：语料库清洗，创建索引，建立答案文档，召回粗排，标签标注；所述改进双塔模型中的损失函数层的方法为在双塔模型损失函数层使用平衡所述数据集中正负样本比例的损失函数。本方法对原始双塔模型的损失函数层进行改造，使得所述双塔模型能够平衡数据集的正负样本，最大程度的提升双塔模型在精排任务中的精确度。

Description

一种提高双塔模型搜索精排性能的方法

技术领域：

本发明涉及自然语言处理技术领域，具体涉及一种提高双塔模型搜索精排性能的方法。

背景技术：

搜索精排通过将搜索查询与大规模的索引文档进行匹配和比较，以确定最相关的搜索结果。其目标是根据查询的意图和用户需求，以及文档的内容和相关度，对搜索结果进行排序。双塔模型是一种常用于搜索精排的深度学习模型，它由两个相同或不同的神经网络组成，将输入的问题进行语义编码，捕捉问题的关键特征和语义信息。同时对待排序文档进行编码，以揭示文档的内在语义结构。通过将问题和文档映射到共享的低维向量空间，双塔模型能够计算它们之间的相似度。

双塔模型的优点在于它能够利用深度学习的能力，自动地学习和提取问题和文档的语义特征，从而更好地捕捉它们之间的相关性。此外，双塔模型的可扩展性也很强，可以通过增加网络的深度、调整网络架构或引入注意力机制等方式来进一步提升模型的性能。近年来，随着深度学习技术取得了突破性进展，许多模型被用来构建双塔模型，例如MatchPyramid。MatchPyramid模型是一种借鉴了图像处理领域中卷积神经网络和动态池化层的思想，对问题和文档进行建模的方法。然而，MatchPyramid模型在问答精排任务上仍然存在一些问题和不足。其中一个主要问题是数据集样本不平衡问题。由于部分数据集中正样本(即与问题相关的文档)数量远远小于负样本(即与问题无关的文档)数量，导致MatchPyramid模型在训练过程中容易受到负样本的影响，从而忽略了正样本的重要性，降低了模型对正样本的识别能力。

发明内容：

针对上述问题，本发明提供了一种提高双塔模型搜索精排性能的方法以克服正负样本不平衡所导致的双塔模型在完成精排任务时精确度低的缺陷。

一种提高双塔模型搜索精排性能的方法，所述方法包括以下步骤：

步骤1：获取数据集，并对所述数据集进行预处理；数据集通过开源的数据集平台获取，如git-hub，具体数据集获取的类型根据本方法实施的具体场景需求选择，数据集选取的不同，其对应的答案文档也不同，但所有的类型的数据集均适用于本方法；

步骤2：搭建双塔模型，设定模型参数，并改进所述双塔模型的损失函数层；

步骤3：将所述步骤1中预处理后的数据集按照7:3的比例划分为训练集和测试集；

步骤4：将所述训练集应用至改进后的双塔模型，输出搜索精排结果；

其中，所述数据集预处理的方法具体包括：语料库清洗，创建索引，建立答案文档，召回粗排，标签标注；

所述改进双塔模型中的损失函数层的方法为在双塔模型损失函数层使用平衡所述数据集中正负样本比例的损失函数。

优选的，所述语料库清洗的方法具体为将数据集中数据保存为JSON文件；创建索引的方法具体为使用信息检索工具包在语料库清洗后的数据集上建立索引文件；所述建立答案文档的方法具体为在所述数据集对应的答案文献数据库中提取出所述数据集中每个问题所对应的答案文档；所述召回粗排的方法具体为对所述数据集中的问题进行查询处理，每一个问题返回其相关的召回结果及文档与问题的相关性分数排名最高的前N个文档，作为召回文档；所述标签标注的方法具体为对所述召回文档中的样本进行标签标注，正样本标注为1，负样本标注为0，将召回文档整理为问题与文档对应的短文本语义匹配输入数据集。

优选的，所述双塔模型为MatchPyramid双塔模型，MatchPyramid是一种利用卷积神经网络实现文本匹配的技术，它具体实现的方法为：输入两个文本，如一个查询和一个文档，并用词向量表示每个单词，词向量可以是预训练的或者自行训练的；计算两个文本的交互矩阵，即每对单词之间的相似度，相似度可以用余弦相似度或者内积来计算；将交互矩阵视为一张图片，并用卷积层和池化层提取匹配特征，卷积层和池化层可以有不同的大小，以捕捉不同的匹配模式；将提取的特征展平为一个向量，并用全连接层和激活函数输出匹配分数。

优选的，平衡所述数据集中正负样本比例的损失函数为Focal loss函数或加权交叉熵损失函数中的一种。

优选的，所述信息检索工具包为Lucindri，其中Lucindri是一种利用Lucene搜索引擎实现Indri搜索逻辑和结构化查询语言的开源技术。Lucindri包括索引器和搜索器两个组件。索引器模块接受一个属性文件作为输入参数，用于指定索引的相关设置。搜索器模块接受一个查询文件和一个输出文件作为输入参数，用于执行查询并输出结果。

优选的，所述召回粗排进一步包括使用Lucindri检索工具对所述数据集中的问题进行检索，使用Indri查询语言构造查询表达式，对索引进行检索，返回相关性分数最高的前N个文档，所述相关性分数是在检索的过程中，由检索器自动生成，N的具体取值根据应用的具体场景，由本领域技术人员进行取值，但取值的变化不影响本方法的实施效果。

本发明公开的一种提高双塔模型搜索精排性能的方法，对原始双塔模型的损失函数层进行改造，使得所述双塔模型能够平衡数据集的正负样本，最大程度的提升双塔模型在精排任务中的精确度，同时，本发明使用MatchPyramid模型作为双塔模型对问题和文档进行编码和匹配，能够有效地捕捉问题和文档之间的局部和全局的语义相似度，提高模型的匹配能力和性能。

具体实施方式：

为了使本发明技术方案更容易理解，现结合具体实施例的方式对本发明公开的一种提高双塔模型搜索精排性能的方法进行清晰、完整的描述。

本实施例采用BioASQ官网提供的Training v.2022dataset作为数据集，BioASQ是一个专门针对生物医学领域的问答系统评测任务，旨在评估不同类型的问答系统在处理生物医学问题时的性能和效果。BioASQ任务分为两个部分：TaskA和TaskB。TaskA是一个大规模事实抽取任务，目标是从给定的分类中抽取相关的概念或实体，并将它们与给定的术语或片段进行匹配。TaskB是一个基于文档和段落的问答任务，目标是根据用户提出的自然语言问题，在PubMed收录的生物医学文献中检索相关的文档和段落。本实施例主要关注TaskB中的精排阶段。

PubMed是一个免费的在线数据库，收录了超过3200万篇生物医学文献，是生物医学领域最权威和最全面的信息资源之一。PubMed中的文献以XML格式存储，包含了多个数据字段，如PMID、DateCompleted、DateRevised、Journal、ArticleTitle、Pagination、AbstractText等。其中，PMID是PubMed唯一标识号(PubMedID)，是一种用于标识PubMed数据库中每篇文献记录的数字编号。DateCompleted标签是论文发表的日期，DateRevised标签是论文修改的日期，Journal标签描述了期刊的相关信息，ArticleTitle则描述了论文的标题，Pagination标签是关于文章在Medline数据库中的页码范围以及AbstractText标签是描述论文的摘要信息。

一种提高双塔模型搜索精排性能的方法，所述方法包括：

步骤100：获取BioASQ官网提供的Trainingv.2022dataset数据集，该数据集由多个questions组成，每个question含有多个字段，以下列出其中部分字段：

Documents：“documents”字段表示的是当前question对应的正确文档的网址链接，其中的网址则链接向对应的PubMed文章，网址最后的数字则是PMID值，即每一行网址对应PMID代表的PubMed文章，也就是question的正确答案代表的PubMed文章，documents可以有多个文档；

Snippets：“snippets”字段表示的是与question相关的文本段落的列表，每个段落包括文本内容、段落开始和结束位置、段落类型和与之关联的document，即PubMed文章链接；

Body：“body”字段存储的是当前question的内容，也就是查询话题，是由医学专家专门标定的医学问题；

ID：“ID”字段是当前question的唯一标识，ID值是唯一的；

对所述数据集进行预处理：

PubMed语料库清洗：将原始的PubMed文献进行下载至服务器，并进行数据清洗等操作将语料库变成更方便操作和管理的文档集。具体地，对原始XML文档按照PMID号进行拆分，即每一个PMID所对应的文献为一个单独的文档；对于每个PubMed文献，抽取出5个数据字段，分别是PMID、DateCompleted、DateRevised、ArticleTitle以及AbstractText字段；将所抽取出的数据字段保存为JSON文件，文件名为PMID值。JSON文件结构简单、易于理解，使用简单的键值对表示数据信息，而且由于JSON文件的结构简单，因此它的解析速度会比XML快得多。

索引创建：使用Lucindri信息检索工具包在PubMed语料库上建立索引文件，方便更加快速的进行检索文档。Lucindri是一个开源的项目，它使用Lucene搜索引擎实现了Indri搜索逻辑和结构化查询语言。Lucindri由两个组件组成：索引器和搜索器。索引器可以将不同格式的文档数据转换为Lucene索引。搜索器可以使用Indri查询语言对Lucene索引进行检索。

建立答案文档：对BioASQ官网提供的Trainingv.2022dataset建立答案文档，即提取出每个question与其所对应的正确答案的文档。具体地，提取documents字段中的数字部分，也就是PMID值以及提取ID字段，整理成每个question的ID所对应的正确文档documents，也就是答案文档。

召回粗排：对于Training v.2022dataset中的question进行查询处理，每一个question返回其相关的召回结果及按文档与question相关性分数排名的前1000名文档，作为召回文档。具体地，使用Lucindri搜索器对question进行检索，使用Indri查询语言构造查询表达式，根据问题的内容和类型选择合适的查询操作符和权重参数，对Lucene索引进行检索，并返回相关性分数最高的前1000个文档，其中相关性分数是在检索的过程中，由搜索器进行自动生成。

标签标注：对召回文档进行标签标注(根据BioASQ官网提供的问题及对应答案进行标签标注，若召回文档在对应问题的答案中，则为正样本，否则为负样本)，能够构建一个适用于短文本语义匹配的输入数据集。具体地，本发明对召回文档中的样本进行标签标注，正样本label为1，负样本label为0，将结果整理为question与文档对应的短文本语义匹配输入数据集。

表1展示了所述数据集经过处理后得到的格式，其中每条数据由三个字段组成：第一个字段是BioASQ question，即专门针对医学领域知识或现象提出的问题；第二个字段是检索文献(document)，即从PubMed语料库中检索出来与问题相关的文献摘要；第三个字段是答案标签(label)，即表示检索文献是否是问题正确答案的二值标签，其中1表示正确，0表示错误。

表1预处理后的数据集

步骤110：搭建双塔模型，设定模型参数，并改进所述双塔模型的损失函数层；

MatchPyramid使用多层CNN逐层处理匹配矩阵，包括卷积操作用于提取局部匹配模式，池化操作用于降低维度和增加不变性，以及非线性激活操作用于增加非线性和表达能力。最后一层CNN的输出通过多层感知机转化为匹配分数。

MatchPyramid的输入是两个文本序列，通常是问题和答案，可以是预处理后的词嵌入矩阵。其核心是一个卷积层，输入是两个文本序列的嵌入矩阵，输出是表示两个文本序列相似度的矩阵。

MatchPyramid模型的卷积层采用不同尺寸的卷积核，其宽度为k，深度为d，尺寸为k*d。由于文本序列是一维的，因此MatchPyramid使用1D卷积核提取文本特征。1D卷积核在文本序列的一个维度上进行卷积计算，具体的，MatchPyramid使用包含多个滤波器(卷积核)的卷积层，滤波器以相同长度(通常为词或字符的个数)在文本序列中滑动进行卷积计算，因此称为1D卷积核。通过这种方式，MatchPyramid能够利用卷积层提取的文本特征捕捉文本之间的相似性信息，计算它们的相似度得分。这些卷积核通过滑动窗口对文本进行卷积操作，学习文本间的匹配信息，计算卷积核与输入矩阵的点积。卷积核的深度d等于输入矩阵的深度，表示卷积核可以同时考虑多个特征。通过这种方式，MatchPyramid能够在卷积层中提取丰富的文本特征，计算文本间的相似度得分。

MatchPyramid使用一种特殊的池化卷积操作，称为HadamardProduct，它在卷积后使用一种特殊的池化方式对结果进行降维。HadamardProduct池化操作将卷积结果的每个元素相乘，得到一个标量作为池化结果。MatchPyramid的输出是一个矩阵，其中每个元素表示两个文本序列在相应位置的相似度。并使用Softmax匹配将该矩阵归一化为概率分布，表示两个文本序列的匹配概率。

卷积神经网络层旨在从匹配矩阵中提取有意义的匹配模式，并将它们组合成最终的匹配分数Matchingscore。Matchingscore的计算公式如下：

Score＝(s₀,s₁)^T＝W₂σ(W₁z+b₁)+b₂

其中，s₀是预测为负样本的概率大小，s₁是预测为正样本的概率大小，z是分层卷积的输出，b_i表示第i个MLP层的偏置(bias)，W_i是第i个MLP层的权重，σ表示激活函数。

本实施例设置的MatchPyramid双塔模型参数如表2所示：

表2：本实施例设置的MatchPyramid双塔模型参数

模型参数	值	模型参数	值
				batch_size	256	lr	0.0001
n_epochs	50	dim_embedding	300
				dim_output	2	conv₁_size	5_5_8
pool1_size	10_10	conv₂_size	3_3_16
				pool2_size	5_5	mp_hidden	128

MatchPyramid模型的第一层卷积层使用8个5×5的卷积核；第一层池化层使用10×10的池化窗口；第二层卷积层使用16个3×3的卷积核；第二层池化层使用5×5的池化窗口；匹配矩阵经过卷积和池化后输入全连接层之前的隐藏层大小为128；词嵌入的维度为300。并使用准确率Acc、召回率Recall、精确率Precision以及F1值四个指标来评价模型性能，其中，Recall反映预测正确的正样本占所有正样本的比重，Precision则是衡量预测为正的样本中真正为正样本的比例，F1值则是精确率和召回率的调和平均值，具体的计算公式为：其中，TP是指模型将正类样本正确预测为正类的数量，TN是指模型将负类样本正确预测为负类的数量；FP是指模型将负类样本错误预测为正类的数量；FN是指模型将正类样本错误预测为负类的数量。

本实施例采用Focal loss函数对所述双塔模型进行改造，给定模型输出y和真实标签t，设类别数为K，样本数为N，Focal loss可表示为：

其中，t_i代表第i个样本的实际标签，而y_i则代表模型将第i个样本预测为正类的概率，γ表示用于调整难易样本权重的参数，通常取值在[0,1]之间，γ参数则通过调整难易样本的权重，来提高模型对难以分类的样本的关注度。具体来说，当γ>0时，表示样本比重占总数更少的那部分数据会变成模型关注的重点；当γ<0时，则相反，使得模型更加关注样本比重占总数更多的那部分数据；当γ＝0时，则表示所有样本的权重是相等的，不考虑难易样本的区别。

步骤120：将所述步骤100中预处理后的数据集按照7:3的比例划分为训练集和测试集；

步骤130：将所述训练集应用至改进后的双塔模型，输出搜索精排结果；

表3中是针对BioASQ问题“Do wefindbacteriophages in thegut？”对应的5个答案文档的排名结果。从表3中可以看出，改进后的MatchPyramid双塔模型可以将正确答案文档(34560321)的排名从原始MatchPyramid模型的第7位提升到第2位，这说明改进后的MatchPyramid模型可以更准确地识别出与问题相关性最高的答案文档，并将其排在前列，同时，改进后的MatchPyramid双塔模型可以召回一些Lucindri粗排方法未能召回的答案文档(33176252、33465423和33171009)，并且给出较高的排名(分别为第3位、第20位和第180位)，而原始MatchPyramid模型则给出较低的排名(分别为第94位、第266位和第433位)。这说明改进后的MatchPyramid双塔模型可以更全面地检索出与问题相关的答案文档，并且更好地捕捉文本之间的语义相似度。因此，在搜索精排任务中，改进后的MatchPyramid双塔模型在BioASQ问题中表现出显著的优势。

表3：排名结果比较

应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理和宗旨的的前提下，还可以做出若干改进、替换、变型和润饰，这些改进、替换、变型和润饰也应视为本发明的保护范围。

Claims

1.一种提高双塔模型搜索精排性能的方法，其特征在于，所述方法包括以下步骤：

步骤1：获取数据集，并对所述数据集进行预处理；

步骤3：将所述步骤1中预处理后的数据集按照比例划分为训练集和测试集；

2.如权利要求1所述的一种提高双塔模型搜索精排性能的方法，其特征在于，所述语料库清洗的方法具体为将数据集中数据保存为JSON文件；创建索引的方法具体为使用信息检索工具包在语料库清洗后的数据集上建立索引文件；所述建立答案文档的方法具体为在所述数据集对应的答案文献数据库中提取出所述数据集中每个问题所对应的答案文档；所述召回粗排的方法具体为对所述数据集中的问题进行查询处理，每一个问题返回其相关的召回结果及文档与问题的相关性分数排名最高的前N个文档，作为召回文档；所述标签标注的方法具体为对所述召回文档中的样本进行标签标注，正样本标注为1，负样本标注为0，将召回文档整理为问题与文档对应的短文本语义匹配输入数据集。

3.如权利要求1所述的一种提高双塔模型搜索精排性能的方法，其特征在于，所述双塔模型为MatchPyramid双塔模型。

4.如权利要求1所述的一种提高双塔模型搜索精排性能的方法，其特征在于，平衡所述数据集中正负样本比例的损失函数为Focal loss函数或加权交叉熵损失函数中的一种。

5.如权利要求2所述的一种提高双塔模型搜索精排性能的方法，其特征在于，所述信息检索工具包为Lucindri。

6.如权利要求2所述的一种提高双塔模型搜索精排性能的方法，其特征在于，所述召回粗排进一步包括使用Lucindri检索工具对所述数据集中的问题进行检索，使用Indri查询语言构造查询表达式，对索引进行检索，返回相关性分数最高的前N个文档。