CN116204622A

CN116204622A - 一种跨语言稠密检索中的查询表示增强方法

Info

Publication number: CN116204622A
Application number: CN202310157691.5A
Authority: CN
Inventors: 戴新宇; 宗文智; 吴震; 何亮; 张建兵; 黄书剑; 陈家骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-06-02

Abstract

本发明提出了一种跨语言稠密检索中的查询表示增强方法，包括：从跨语言检索系统的搜索日志中，收集用户输入的源语言查询以及对应的查询结果即目标语言候选文档中用户点击的目标语言文档，构建有标注的数据；检索出与用户输入的源语言查询相似度分数最高的前K个查询，将检索出的前K个查询分别对应的K个相关文档作为反馈文档；训练跨语言稠密检索模型，并根据K个反馈文档和用户输入的源语言查询获得稠密表示向量并进行融合，得到增强后的源语言查询表示；计算得到查询与文档的相似度；对目标语言候选文档进行排序，输出排序后的结果作为最终的检索结果。

Description

一种跨语言稠密检索中的查询表示增强方法

技术领域

本发明涉及一种跨语言稠密检索中的查询表示增强方法，特别是一种跨语言稠密检索中的查询表示增强方法。

背景技术

随着互联网应用在全球的高速发展，越来越多的应用需要提供跨语言服务，比如服务多国用户的视频平台、海外购物平台、多语言新闻网站等。海外用户可能需要用母语去检索另一种语言的资源。因此，跨语言检索技术变得至关重要。相比传统基于稀疏匹配的检索方法，稠密向量检索能够将不同语言的文本映射到同一表示空间中，这使得稠密向量检索可以摆脱对翻译模型的依赖。所以稠密向量检索是跨语言检索中的关键技术。

稠密向量检索为查询和文档生成固定维度的表示向量，在检索中通过计算表示之间的相似度来为文档进行排序。虽然稠密向量检索模型能够将不同语言的查询和文档映射到同一向量空间中，但是由于查询和文档使用不同的语言和词汇，模型生成的表示向量仍然存在语言间的空间分布差异。

在跨语言信息检索中，基于伪相关性反馈的方法通常需要在一轮预先检索中获取相关反馈文档。源语言查询和目标语言文档之间的语言、词汇的不匹配使得这一轮检索的结果不佳。从结果来看，这会导致初检文档中包含大量与原始查询不相关的文档。而利用不相关的反馈文档修改查询，会使得查询的语义或表示更加偏离原始查询，并最终对检索系统的性能产生负面影响。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种跨语言稠密检索中的查询表示增强方法。

为了解决上述技术问题，本发明公开了一种跨语言稠密检索中的查询表示增强方法，包括以下步骤：

步骤1，从跨语言检索系统的搜索日志中，收集用户输入的源语言查询以及对应的查询结果即目标语言候选文档中用户点击的目标语言文档，构建有标注的数据；

步骤2，从有标注的数据中，检索出与用户输入的源语言查询相似度分数最高的前K个查询，将检索出的前K个查询分别对应的K个相关文档作为反馈文档；

步骤3，利用有标注的数据训练跨语言稠密检索模型，并根据K个反馈文档和用户输入的源语言查询获得稠密表示向量并进行融合，得到增强后的源语言查询表示；

步骤4，利用增强后的源语言查询表示与目标语言候选文档的表示向量计算点积作为相似度，得到查询与文档的相似度；

步骤5，使用步骤4中计算得到的查询与文档的相似度对目标语言候选文档进行排序，输出排序后的结果作为最终的检索结果。

有益效果：

从技术层面来说，本发明的技术方案(1)利用输入的源语言查询来检索与之相似的其他源语言查询，并从检索到的相似查询所标注的相关目标语言文档中获取反馈文档。这一过程取代了传统PRF方法中对目标语言文档进行的预先一轮的跨语言检索。这能够规避初检过程中源语言查询检索目标语言文档所遇到的词汇不匹配、语义漂移等问题，从而获得更高质量的相关反馈文档。(2)使用基于表示向量加权融合的查询表示增强方法，拉近源语言查询与相关目标语言文档在表示空间中的距离，从而提升跨语言稠密检索的结果。

从应用层面来说，本发明的技术方案(1)能够利用对相似查询的单语言检索，摆脱跨语言检索中获取相关反馈文档步骤对翻译资源的依赖，降低跨语言检索系统的应用门槛。(2)将与原始查询相似的查询所标注的相关文档作为高质量的反馈文本并用其增强查询表示，使得用户的能够检索到与查询更相关的目标语言文档，提升多语种用户体验。这在多语言web应用、跨语言搜索引擎中有较好的应用前景。(3)利用向量加权融合的方式对查询表示进行修改，不需要对稠密检索模型进行重新训练，在提升检索结果的前提下，降低检索系统构建的复杂度。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为跨语言稠密检索模型执行流程示意图。

图2为利用相似查询获取反馈文档的流程示意图。

图3为目标语言候选文档集合的表示向量获取流程示意图。

具体实施方式

本发明利用单语言检索方法，首先从标注的<源语言查询，目标语言文档>数据中，获得与原始查询相似的查询。其次，取初检得到的相似查询所对应的目标语言文档作为反馈文档，利用反馈文档的稠密表示对输入的源语言查询的稠密表示进行修改，最后使用修改后的增强查询表示向量重新检索目标语言文档候选集并输出检索结果。

本发明提出的一种跨语言稠密检索中的查询表示增强方法，如图1所示，包括以下步骤：

所述的跨语言稠密检索模型，使用基于多语言预训练模型XLM-R作为编码器。

所述的得到增强后的源语言查询表示，即向所述跨语言稠密检索模型中输入K个反馈文档和原始源语言查询，分别获得K个反馈文档和原始源语言查询的稠密表示向量，将得到的稠密表示向量进行融合后得到增强后的源语言查询表示，具体包括：

步骤3-1，获取稠密表示向量，具体方法包括：

通过跨语言稠密检索模型中的编码器分别对K个反馈文档和原始源语言查询进行编码，得到原始源语言查询的稠密表示向量和K个反馈文档的稠密表示向量。

步骤3-2，融合稠密表示向量，具体方法包括：

对K个反馈文档的稠密表示向量的均值求和，得到聚合的反馈文档表示向量；将用户输入的源语言查询的稠密表示向量和聚合后的反馈文档的表示向量进行加权求和，得到扩展后的查询表示V_{q_new}，具体表示如下：

V_{q_new}＝α*V_q+(1-α)*V_{d_agg}

其中，α表示向量融合的权重，V_q表示源语言查询的稠密表示向量，V_{d_agg}表示聚合后的反馈文档的表示向量。

所述的目标语言候选文档的表示向量，利用跨语言稠密检索模型中的编码器编码得到。

所述的目标语言候选文档的表示向量，在后续的检索中继续复用，所述的候选文档的表示向量只离线计算一次。

步骤2中所述的检索数量K，在实际应用中进行调整。

步骤3-2中所述的向量融合的权重α，在实际应用中进行调整。

步骤2中所述的检索出与用户输入的源语言查询相似度分数最高的前K个查询，采用BM25方法。

实施例：

本发明提出的一种跨语言稠密检索中的查询表示增强方法，通过对相似查询的检索，获得相似查询对应的相关文档作为反馈文档；聚合反馈文档的稠密表示向量，并与初始查询向量加权融合，增强源语言查询的稠密表示，具体流程如图1所示，包括以下步骤：

步骤101，输入源语言查询，指的是使用源语言书写的查询文本。本检索系统的目标是从目标语言候选文档集合中检索出与源语言查询相关的结果。

步骤102，从有标注的<源语言查询-目标语言文档>数据中，使用BM25方法检索出与原始查询最相似的前K个查询，将检索出的前K个查询对应的共K个相关文档作为反馈文档。其中，BM25方法是信息检索领域通用的单语言检索方法，其基于词频信息计算文本间的相似度。另外，K的取值可以在实际应用场景的验证集中验证后确定。有标注的数据从跨语言检索系统的搜索日志中，通过收集用户输入的源语言查询以及对应的用户点击的目标语言文档来构建。

步骤103，输入K个目标语言的反馈文档和初始源语言查询，利用跨语言稠密检索模型分别获得对应的稠密表示向量，并融合得到增强后的源语言查询表示。其中，跨语言稠密检索模型使用多语言预训练模型XLM-R作为跨语言编码器(参考：Unsupervised Cross-lingual Representation Learning at Scale.https://arxiv.org/pdf/1911.02116.pdf)。XLM-R是基于Transformer结构的多语言预训练模型，能够将不同语言的文本映射到同一表示空间。取输入到编码器中的第一个token<s>在模型最后一层的输出结果作为编码器输出的文本表示向量。定义相似度计算函数如下：

Sim(q,d)＝dot(Encoder_Q(q),Encoder_D(d))

其中Encoder_Q与Encoder_D分别为查询编码器和文档编码器，dot为点积计算函数。在训练阶段，正样本采用标注数据中与查询相关的文档，负样本采用随机负采样方法从目标语言候选文档集合中为每个查询对应的一个正样本随机选取一个负样本，以此来构建训练数据中的正负样本对。与单语言检索中的稠密检索模型DPR类似(参考：Dense PassageRetrieval for Open-Domain Question Answering.https://arxiv.org/pdf/2004.04906v3.pdf)，本方法使用In-batch负采样增加负样本，并计算负对数似然损失在反向传播过程中更新模型参数。损失函数具体形式为：

其中，q_i为输入的源语言查询，d⁺与d^-分别为正负样本，n为一个训练批次中负样本的总个数，包括文档集合中随机采样的负样本以及In-batch负采样方法得到的负样本。。该步骤具体的执行流程如图2所示：

步骤301，输入K个目标语言反馈文档以及用户输入的源语言查询。

步骤302，通过跨语言稠密检索模型的编码器编码得到源语言查询的表示向量V_q和K个目标语言反馈文档的表示向量{V_d1,V_d2,…,V_dK}。

步骤303，对K个反馈文档的表示向量均值求和得到一个聚合的反馈文档表示向量，即V_{d_agg}＝Average(V_d1,V_d2,…,V_dK)，其中，V_{d_agg}为聚合后的反馈文档的表示向量。将源语言查询的表示向量和聚合的反馈文档的表示向量加权求和，得到扩展后的查询表示。将该过程形式化为：V_{q_new}＝α*V_q+(1-α)*V_{d_agg}，其中，V_{q_new}为修改后的查询表示向量，V_q为用户输入的源语言查询的表示向量。向量融合的权重α可以在实际应用中的验证集上经过验证调整到合适的值。

步骤104，将融合后的查询表示与目标语言候选文档的表示向量计算点积相似度，其中目标语言候选文档集合的表示向量的获取流程如图3所示：

步骤401，输入目标语言候选文档。

步骤402，利用跨语言稠密检索模型的编码器编码得到目标语言候选文档的表示向量。

步骤403，输出目标语言候选文档的表示向量。这一步得到的表示向量在之后的检索中继续复用，所有的候选文档的表示向量只需要离线计算一次。

步骤105，使用计算得到的查询与文档的相似度对候选文档按降序排序，输出排序后的结果作为最终的检索结果。

具体实现中，本申请提供计算机存储介质以及对应的数据处理单元，其中，该计算机存储介质能够存储计算机程序，所述计算机程序通过数据处理单元执行时可运行本发明提供的一种跨语言稠密检索中的查询表示增强方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来，该计算机程序软件产品可以存储在存储介质中，包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机，服务器，单片机，MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明提供了一种跨语言稠密检索中的查询表示增强方法的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种跨语言稠密检索中的查询表示增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种跨语言稠密检索中的查询表示增强方法，其特征在于，步骤3中所述的得到增强后的源语言查询表示，即向所述跨语言稠密检索模型中输入K个反馈文档和原始源语言查询，分别获得K个反馈文档和原始源语言查询的稠密表示向量，将得到的稠密表示向量进行融合后得到增强后的源语言查询表示，具体包括：

步骤3-1，获取稠密表示向量；

步骤3-2，融合稠密表示向量。

3.根据权利要求2所述的一种跨语言稠密检索中的查询表示增强方法，其特征在于，步骤3-1中所述的获取稠密表示向量，具体方法包括：

4.根据权利要求3所述的一种跨语言稠密检索中的查询表示增强方法，其特征在于，步骤3-2中所述的融合稠密表示向量，具体方法包括：

V_{q_new}＝α*V_q+(1-α)*V_{d_agg}

5.根据权利要求4所述的一种跨语言稠密检索中的查询表示增强方法，其特征在于，步骤4所述的目标语言候选文档的表示向量，利用跨语言稠密检索模型中的编码器编码得到。

6.根据权利要求5所述的一种跨语言稠密检索中的查询表示增强方法，其特征在于，步骤4所述的目标语言候选文档的表示向量，在后续的检索中继续复用，所述的候选文档的表示向量只离线计算一次。

7.根据权利要求6所述的一种跨语言稠密检索中的查询表示增强方法，其特征在于，步骤2中所述的检索数量K，在实际应用中进行调整。

8.根据权利要求7所述的一种跨语言稠密检索中的查询表示增强方法，其特征在于，步骤3中所述的跨语言稠密检索模型，使用基于多语言预训练模型XLM-R作为编码器。

9.根据权利要求8所述的一种跨语言稠密检索中的查询表示增强方法，其特征在于，步骤3-2中所述的向量融合的权重α，在实际应用中进行调整。

10.根据权利要求9所述的一种跨语言稠密检索中的查询表示增强方法，其特征在于，步骤2中所述的检索出与用户输入的源语言查询相似度分数最高的前K个查询，采用BM25方法。