CN112732864B

CN112732864B - 一种基于稠密伪查询向量表示的文档检索方法

Info

Publication number: CN112732864B
Application number: CN202011559159.9A
Authority: CN
Inventors: 唐弘胤; 金蓓弘
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-11-09
Anticipated expiration: 2040-12-25
Also published as: CN112732864A

Abstract

本发明公开了一种基于稠密伪查询向量表示的文档检索方法，属于自然语言处理技术领域，在文档编码阶段使用编码器对已有文档集合中的文档进行编码，对每个文档生成多个伪查询向量，这些伪查询向量模拟了多种可能针对该文档所提出的查询的语义信息。在文档检索阶段，对每个查询文本生成一个查询向量，然后利用查询向量和文档中的多个向量进行相似度计算，并且通过该相似度来聚合文档的多个向量。最终计算查询向量和聚合后的文档向量的相似度，作为查询和文档的匹配分数。提高了在文档检索任务中，针对同一文档的多种语义信息进行查询的查询准确性，并且在提高查询准确性的同时，降低了该方法的时间和空间消耗，提高了效率。

Description

一种基于稠密伪查询向量表示的文档检索方法

技术领域

本发明属于自然语言处理技术领域，特别设计了一种基于稠密伪查询向量表示的文档检索方法。

背景技术

文档检索是信息检索领域中的基本任务。给定一个查询，文档检索模型在已有的文档库中检索出和查询最为匹配的文档。早期的信息检索模型所使用的文本表示形式一般是基于词袋的稀疏表示形式(例如，BM25)。然而，这种表示非常依赖文档和查询之间的精确匹配，很大程度上影响了检索的准确性。随着神经网络和深度学习的发展，使用神经网络将文本编码为稠密向量表示的方法得到了广泛的应用(Lee Xiong,Chenyan Xiong,Ye Li,Kwok-Fung Tang,Jialin Liu,Paul Bennett,Junaid Ahmed,and ArnoldOverwijk.2020.Approximate nearest neighbor negative contrastive learning fordense text retrieval)。这类方法通过卷积神经网络等结构将文本映射为连续的稠密的向量表示，文档和查询之间的匹配分数由两部分的向量的相似度函数定义。随着预训练语言模型的发展，很多研究者开始使用预训练语言模型对文档中的每个字符位置进行上下文相关的编码，最后将整个文档的表示映射为一个向量，并且保存编码后的文档向量。在检索时，将查询同样映射为一个向量，计算该向量和文档集合中每个文档的向量的相似度。然而，由于查询的长度较短，而文档的长度较长，查询所包含的文本信息可能只对应目标文档中的一部分，但文档可能包含多种语义信息，可以作为多个不同查询的目标文档。因此，在使用模型对文档进行编码时，如果只将文档保存为一个向量可能会忽略文档蕴含的多种语义信息，在应对不同的查询时，会极大影响文档检索的准确度。相反，对一篇文档保存所有字符位置的文档编码又会影响检索效率。

在文档检索任务中，可能会出现多个不同的查询对应同一个文档的情况，这说明文档可能蕴涵多种语义信息。如果将文档编码为一个向量，可能会造成编码只能保留少量的某种语义信息而丢失其他蕴涵在文档中的语义信息，使得文档无法匹配丢失语义对应的查询，极大的降低了文档检索模型对于这类查询的准确度。另外，如果将文档中所有的字符位置的编码都保存，虽然可以最大程度上保留文档所蕴涵的语义信息，但是会占用非常大的记忆空间，并且在计算查询和文档的相似度时，会产生非常大的时间消耗。因此，如何在保证文档检索的准确率的同时，减少时间和空间的消耗，是文档检索任务所面临的重大挑战。

发明内容

本发明的目的是提供一种基于神经网络编码的稠密向量表示的文档检索方法，在文档的编码过程中模拟在检索过程中可能出现的对应该文档的不同查询，提高了在文档检索任务中，针对同一文档的多种语义信息进行查询的查询准确性，并且在提高查询准确性的同时，降低了该方法的时间和空间消耗，提高了效率。

为实现上述目的，本发明采用的技术方案如下：

一种基于稠密伪查询向量表示的文档检索方法，包含两个阶段：

第一阶段是文档编码阶段，其目的是将文档的文本内容编码到多个编码向量之中，保留文档中尽量多的语义信息，包括以下步骤：

(1)利用预训练语言模型作为编码器，对文档进行编码，得到文档中每个字符位置的编码向量；

(2)将随机若干个文档中每个字符位置的编码向量作为初始伪查询向量，并且迭代更新伪查询向量，使其模拟文档检索过程中潜在出现的对应该文档中不同语义信息的多个查询向量，得到每个文档的多个伪查询向量；

方法的第二阶段是文档检索阶段，在第二阶段中，模型需要从文档集合中检索出用户给定的查询所对应的文档，包括以下步骤：

(3)利用预训练语言模型作为编码器，对给定的查询文本进行编码，得到包含语义信息的查询向量；

(4)利用所述每个文档的多个伪查询向量和所述包含语义信息的查询向量，计算每个文档的多个伪查询向量的相似度分数，使用所述包含语义信息的查询向量和同一个文档的多个向量的相似度分数的最大值作为每个文档的相似度得分，筛选出相似度得分最大的前若干个文档作为候选文档；

(5)利用上述相似度分数来聚合每个文档的多个伪查询向量，生成最终的文档向量表示；

(6)利用所述最终的文档向量表示和所述包含语义信息的查询向量计算相似度，以该相似度作为最终的查询匹配分数，对所述候选文档进行排序，实现最终的文档检索。

进一步地，步骤(1)中，首先将文档截断或使用占位符(如“[PAD]”)补足成共含有n个字符的文本，然后输入到编码器中进行编码，再然后保留编码器的最后一层所得到的每个字符位置输出的编码向量

其中d_i表示第i个字符的编码向量。

进一步地，步骤(1)中，通过WordPiece算法对文档的文本进行分词。

进一步地，步骤(2)中，随机选取k个编码向量

形成

作为初始伪查询向量(多个)。

进一步地，步骤(2)中，计算伪查询向量

和文档每个字符位置输出的编码向量

的距离，利用相距伪查询向量一定距离内的多个字符编码向量，更新多个伪查询向量，使其对应文档中不同的语义信息，迭代进行多次。

进一步地，步骤(2)中，迭代更新伪查询向量，直至伪查询向量的变化值小于一设定阈值，然后保留每个文档的k个伪查询向量，作为文档的表示向量，在检索阶段使用。

进一步地，通过k-means算法迭代更新伪查询向量。

进一步地，所述预训练语言模型采用BERT结构，BERT包括嵌入层和堆叠的多个Transformer层，每个transformer层包含一个多头注意力层以及一个前向传播网络层，其中多头注意力层的定义如下式所示：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

其中，Q，K，V表示输入向量，W_i ^Q，W_i ^K，W_i ^V，W^O为可训练的参数，d_k为编码的维度数量，Concat(·)表示对括号中的各个向量进行拼接，MultiHead表示多头注意力向量拼接函数、Attention表示注意力机制函数、softmax表示归一化函数、T表示矩阵转置；BERT中使用的注意力层为自注意力层，即Q＝K＝V，输入为上一层的输入向量。

进一步地，步骤(1)和(3)中利用预训练语言模型进行编码的步骤包括：

令输入为长度为n的文本序列x₁，...，x_n，每个输入单元对应一个单词；

BERT通过查找词表，通过嵌入层将每个单词转换为对应的词向量E_w，将每个单词的位置转换为对应的位置向量E_pos，将每个单词所属的段转换为对应的段向量E_seg；

将三种向量相加，得到每个单词的输入向量E，即：

E＝E_w+E_pos+E_seg

将每个单词的输入向量E输入到BERT的注意力层，得到向量后进入到一个前向传播网络中，定义如下式所示：

FFNN(x)＝max(0，xW₁+b₁)W₂+b₂

其中，W₁，W₂，b₁，b₂为可训练的参数；FFNN表示前向传播神经网络、x表示输入到神经网络中的向量；

由前向传播网络处理得到向量，然后进入到BERT中的下一个tranformer层中进行计算，得到下一层中每个单词所对应的编码，直到得到最后一层中的最终编码。

进一步地，步骤(4)中利用函数softmax或argmax计算相似度分数。

进一步地，步骤(6)中直接对所述最终的文档向量表示和所述包含语义信息的查询向量进行点积来计算相似度。

文档检索任务需要首先将已有的文档集合中的文档进行编码并保存，在检索给定的查询时，计算文档编码与查询的相似度，将与查询相似度较高的文档检索出来。然而，由于在编码过程中，模型并不能提前知道未来的查询的目标是针对文档的哪部分语义，单一的文档编码可能会丢失语义信息。为了解决这个问题，本发明提出的方法首先利用文档本身模拟其可能对应的多个查询向量，称为伪查询向量，并将这些向量作为文档的表示向量保存到文档集合中。在检索过程中，将查询进行编码，和每个文档的多个表示向量进行相似度的计算。

具体地，本发明在文档编码阶段使用编码器对已有文档集合中的文档进行编码，对每个文档生成多个伪查询向量，这些伪查询向量模拟了多种可能针对该文档所提出的查询的语义信息。在文档检索阶段，对每个查询文本生成一个查询向量，然后利用查询向量和文档中的多个向量进行相似度计算，并且通过该相似度来聚合文档的多个向量。最终计算查询向量和聚合后的文档向量的相似度，作为查询和文档的匹配分数。

本发明与现有技术相比的优点在于：

(1)本发明对每个文档生成多个伪查询向量，分别对应文档中的不同语义信息。这些伪查询向量的目标是模拟针对当前文档可能出现的真实的查询。因此，相对于只保存单一文档编码向量的方法，在检索过程中，本发明所生成的编码可以提高同一文档对不同的查询匹配准确度。

(2)本发明在检索阶段采用两阶段的匹配分数计算方法，利用计算相似度进行筛选，目可以缩小排序的范围，降低方法本身的时间和空间占用，可以高效地对包含大量文档的集合进行排序。

附图说明

图1是本发明的基于稠密伪查询向量表示的文档检索方法对文档编码的流程图。

图2是本发明的基于稠密伪查询向量表示的文档检索方法对文档检索的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图及实施例对本发明作进一步的详细描述。

本实施例提供了一种基于神经网络编码的稠密向量表示的文档检索方法，包括两个阶段，

第一阶段如图1所示，对文档产生多个编码向量，步骤包括：

(1)将文档处理为长度为n的固定长度文本，通过WordPiece算法对文本进行分词。在文本的开头和结尾分别加入“[CLS]”和“[SEP]”占位符。

(2)将文本中的每个单词通过BERT的嵌入层(embedding层)映射成向量E_w，另外加上每个位置的位置向量E_pos，以及每个单词所属的段对应的段向量E_seg，组成E＝E_w+E_pos+E_seg输入到BERT编码器中，BERT编码器中的每一层通过如下多头注意力机制来对输入进行编码：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

其中，Q，K，V在BERT中是同一个编码，表示每个词在当前层的编码。W_i ^Q，W_i ^K，W_i ^V，W^O为当前层的参数。d_k为编码的维度数量。Concat(·)表示对括号中的各个向量进行拼接。

(3)从BERT的最后一层总得到不同字符位置的编码向量

从中随机抽取出k个编码向量，组成初始的伪查询向量

通过k-means算法迭代的更新这些伪查询向量。

(4)对于文档中每个位置的向量，通过以下公式得到和它距离最近的伪查询向量。

其中，t表示迭代的步数，

表示迭代到第t步时，距离向量d_i最近的伪查询向量。

(5)通过以下公式来更新伪查询向量：

其中，

表示伪查询向量；

表示距离第j个伪查询向量最近的向量的个数；

表示距离第j个伪查询向量最近的向量相加的和所组成的向量。

(6)迭代执行步骤(4)-(5)，直到相邻两步的伪查询向量

的变化量小于一定的阈值。

(7)将最终的多个伪查询向量作为文档的表示向量保存起来。

第二阶段是文档检索阶段，如图2所示，模型将查询编码为同量，并与文档集合中的同量进行相似度计算，具体步骤如下：

(8)将查询文本通过步骤(4)-(5)编码为向量，取[CLS]位置的向量作为查询的表示向量E_q。

(9)将查询向量E_q和文档集合中的伪查询向量cj进行如下公式的点积相似度计算，得到相似度分数a_qj，

a_qj＝softmax(E_q·c_j)

(10)利用相似度分数聚合文档的多个伪查询向量，得到最终的文档向量表示E_d，

(11)根据最终的文档向量表示和查询向量进行点积相似度计算，得到查询和整个文档的相似度分数y，

y＝E_q·E_d

以上步骤(9)-(11)需要对文档集合中的所有文档的所有向量进行聚合。然而，实践中可能有很多的文档的所有表示向量和查询向量的相似度较低，可以直接排除掉这些文档，只在包含某一个相似度较高的表示向量的文档中进行后续的聚合操作。基于此，本发明另外提出一种更佳的实施方式，来提高(9)-(11)步骤效率的方法，即使用argmax替代softmax，将如下公式中的

替代(9)中的aqj，即

上述式子的含义为，利用文档的多个表示向量中，和查询向量相似度最高的向量的相似度分数作为查询和整个文档的相似度分数。

使用

作为匹配度分数，筛选出分数最高的前T个文档。

在这些筛选出的文档中，执行步骤(9)-(11)。

对本发明提出的方法进行测试，测试结果如下：

在公开的文档检索数据集MSMARCO中，本发明提出的方法(CL-BERT)相较于已有的一些方法在准确度上(评测标准包含MRR@100和NDCG@10)有所提升，见如下表1。

表1

另外，在三个以wikipedia作为文档的公开文档检索数据集中，本发明提出的方法(CL-BERT)在准确度上(评测标准为前20/100个返回结果的准确率)同样可以取得较大的提升，见如下表2。

表2

在检索阶段，对比未经过优化的检索过程，本发明提出的方法可以极大的减少检索过程所占用的时间，见如下表3的最后两行的对比。

表3

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，本发明的保护范围以权利要求所述为准。

Claims

1.一种基于稠密伪查询向量表示的文档检索方法，包括以下步骤：

(6)利用所述最终的文档向量表示和所述包含语义信息的查询向量计算相似度，以该相似度作为最终的查询匹配分数，对所述候选文档进行排序，实现最终的文档检索；

所述预训练语言模型采用BERT结构，BERT包括嵌入层和堆叠的多个Transformer层，每个Transformer层包含一个多头注意力层以及一个前向传播网络层，该多头注意力层为自注意力层，输入为上一层的输入向量；步骤(1)和(3)中利用预训练语言模型进行编码的步骤包括：查找词表，通过嵌入层将每个单词转换为对应的词向量E_w，将每个单词的位置转换为对应的位置向量E_pos，将每个单词所属的段转换为对应的段向量E_seg；将三种向量相加，得到每个单词的输入向量E；将每个单词的输入向量E输入到BERT的多头注意力层，得到向量后进入到一个前向传播网络中；由前向传播网络处理得到向量，然后进入到BERT中的下一个Tranformer层中进行计算，得到下一层中每个单词所对应的编码，直到得到最后一层中的最终编码。

2.如权利要求1所述的方法，其特征在于，步骤(1)中，将文档截断或使用占位符补足成共含有多个字符的文本，输入到编码器中进行编码，保留编码器的最后一层所得到的每个字符位置输出的编码向量。

3.如权利要求1所述的方法，其特征在于，步骤(2)中，计算伪查询向量和文档每个字符位置输出的编码向量的距离，利用相距伪查询向量一定距离内的多个字符编码向量，该一定距离是指相距伪查询向量最近的向量个数，更新多个伪查询向量，使其对应文档中不同的语义信息，迭代进行多次。

4.如权利要求1或3所述的方法，其特征在于，步骤(2)中，迭代更新伪查询向量，直至伪查询向量的变化值小于一设定阈值，然后保留每个文档的多个伪查询向量。

5.如权利要求1所述的方法，其特征在于，通过k-means算法迭代更新伪查询向量。

6.如权利要求1所述的方法，其特征在于，多头注意力层的表达式如下：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O；

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)；

其中，Q，K，V表示输入向量，Q＝K＝V；W_i ^Q，W_i ^K，W_i ^V，W^O为可训练的参数，d_k为编码的维度数量，Concat(·)表示对括号中的各个向量进行拼接，MultiHead表示多头注意力向量拼接函数，Attention表示注意力机制函数，softmax表示归一化函数，T表示矩阵转置。

7.如权利要求1所述的方法，其特征在于，步骤(4)中利用函数softmax或argmax计算相似度分数。

8.如权利要求1所述的方法，其特征在于，步骤(6)中直接对所述最终的文档向量表示和所述包含语义信息的查询向量进行点积来计算相似度。