CN113076398A

CN113076398A - 基于双语词典映射指导的跨语言信息检索方法

Info

Publication number: CN113076398A
Application number: CN202110344892.7A
Authority: CN
Inventors: 余正涛; 李岩; 郭军军; 线岩团; 黄于欣; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-07-06
Anticipated expiration: 2041-03-30
Also published as: CN113076398B

Abstract

本发明涉及基于双语词典映射指导的跨语言信息检索方法。包括：构建并预处理汉越CLIR数据集；预处理英法、英菲、英斯三种CLIR公共数据集；构建的双语映射词典并基于词级映射分别构造查询辅助句；利用共享Transformer分别获取查询、辅助句及文档的上下文表示，同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示；最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。本发明利用双语映射词典实现跨语言沟通，缓解了缺乏查询‑文档对齐语料及语言差异性给信息检索带来的影响。本发明相比跨语言信息检索主流方法，MAP指标明显提升。且本方法在差异性不同的语言对上都具有明显的优势。

Description

基于双语词典映射指导的跨语言信息检索方法

技术领域

本发明涉及双语映射词典指导的跨语言信息检索方法，属于自然语言处理领域。

背景技术

在自然语言处理中，跨语言信息检索(Cross-language information retrieval，CLIR)即用一种语言的查询检索出用另一种语言的相关文档信息，也就是一种跨越语言界限进行检索的问题。然而，由于查询和文档属于不同的语言，如何实现不同语言的句子在公共语义空间的语义对齐进而实现文本匹配就成为了CLIR的核心难点。

跨语言信息检索(CLIR)目前已经成为了国内外的一个研究热点。学者们针对如何在源语言和目标语言之间建立沟通桥梁进行了一系列研究和讨论。传统的跨语言信息检索算法大都基于机器翻译的思想，通常包括机器翻译和单语信息检索两部分,即首先基于机器翻译实现跨语言的语义对齐，然后在单一语义空间中完成信息检索。基于机器翻译CLIR方法属于一种管道式(pipeline)的方法，该方法很容易受到翻译误差的累积影响，特别是对于低资源语言或者差异性比较大的语言对，机器翻译误差累积会为后续的检索造成较大的影响，甚至导致检索的失败。Robert Litschko等提出了一个完全无监督的跨语言信息检索框架，它不需要使用任何双语数据，该框架利用共享的跨语言词嵌入空间来表示查询和文档。该方法优于单词级对齐的跨语言词嵌入基线模型。另外，对于低资源跨语言信息检索，Zhao,L等提出了一种弱监督神经模型；该模型不需要任何相关标注信息，而是基于从机器翻译的语料库中抽取弱监督样本，利用预先训练的跨语言词嵌入表征平行句对，以此训练深度模型。然后该模型通过计算外文文档中每一个句子与输入查询的相关概率来实现跨语言信息检索。上述基于CLE的方法需要昂贵的标注成本，对于跨语言情况下的低资源语言对或者差异性比较大的语言对来说，这是很难实现的。除此之外，Shota Sasaki等人基于CNN对查询和文档分别编码，利用二者的句子向量计算相似度，实现跨语言检索。但是，该方法没有考虑不同语言之间的差异性问题，所以该方法也不是很好的选择。

发明内容

本发明提供了基于双语词典映射指导的跨语言信息检索方法，即首先利用词映射生成查询辅助句实现跨语言的语义对齐，然后利用双语交互注意力来获取查询的跨语言特征表示，进而实现跨语言检索，缓解了缺乏查询-文档对齐语料及语言差异性给信息检索带来的影响。

发明技术方案：基于双语词典映射指导的跨语言信息检索方法，首先利用词映射生成查询辅助句实现跨语言的语义对齐，然后利用双语交互注意力来获取查询的跨语言特征表示，最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。所述方法的具体步骤如下：

Step1、调用谷歌翻译的接口将英-越CLIR公共数据集中的英语查询翻译为汉语查询，通过人工筛选和校对构建汉越CLIR数据集。同时对英法、英菲、英斯三种CLIR公共数据集进行一系列预处理。

Step2、将Step1预处理过的数据利用预先构建的双语映射词典，基于词级映射分别构造查询辅助句；然后利用共享Transformer分别获取查询、辅助句及文档的上下文表示，同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示；最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、调用谷歌翻译的接口将英-越CLIR公共数据集中的英语查询翻译为汉语查询，通过人工筛选和校对，将翻译质量比较差以及翻译错误的查询句进行删除；

Step1.2、为了防止任务变成一个简单的关键字匹配问题，将汉语查询中的主题词删除，并根据实际情况将每个文档长度限制在文章的前250个词以内，同时将查询和文档中的乱码符号以及停用词进行删除；

Step1.3、经过一系列数据整理和预处理，根据查询和文档对应的编号以及相关性标签r，其中r∈{0，1}，获得英法、英菲、英斯、汉越四种CLIR数据集的三元组：(查询，正样本发明档，负样本发明档)；

作为本发明的优选方案，所述步骤Step2的具体步骤如下：

Step2.1、查询辅助句的生成：由于传统的基于句子级机器翻译的方法在差异性比较大的语言对上翻译质量很差，所以没有办法基于翻译系统来进行单语检索。为此，本发明使用双语映射词典基于词级映射来生成查询辅助句，进而保留查询中大部分关键词的准确信息，如公式(1)所示。

其中，D表示双语映射词典；map()表示词级映射函数；x_i表示查询中的第i个词；y_i表示词映射之后查询辅助句中的第i个词。

Step2.2、给定一个查询q_zh＝(x₁,x₂,…,x_|q|)和文档d＝(z₁,z₂,…,z_|d|)，其中，|q|和|d|表示查询和文档的长度。首先根据Step2.1利用双语映射词典基于词级映射生成查询辅助句的q_vi＝(y₁,y₂,…,y_|q|)。然后将每个句子的每个单词表示成n维词向量，如公式(2)-(4)所示：

Q_z＝[E_qz(x₁)；E_qz(x₂)；…；E_qz(x_|q|)] (2)

Q_v＝[E_qv(y₁)；E_qv(y₂)；…；E_qv(y_|q|)] (3)

D＝[E_d(z₁)；E_d(z₂)；…；E_d(z_|d|)] (4)

其中，Q_z∈R^n×|q|、Q_z∈R^n×|q|和D∈R^n×|d|，分别表示查询、查询辅助句和文档的嵌入特征表示矩阵；x_i、y_i和z_i表示查询、查询辅助句及文档的第i个词；E_qz、E_qv和E_d分别表示查询、查询辅助句及文档的嵌入函数，它可以将每一个输入序列中的每个词转化为对应的n维词向量；“分号”表示连接操作符；

Step2.3、本发明为了获得查询、查询辅助句及文档的上下文表示，使用了基于Transformer的共享编码模块。该编码模块共由6个相同的层堆叠在一起，每一层又分为两个子层。第一个子层是一个多头的自注意力机制，第二个子层是一个简单的全连接前馈网络。在两个子层外面都添加了一个残差连接，然后进行了层归一化的操作。具体对查询、辅助句及文档的编码过程如公式(5)-(7)所示。

其中，

及

分别表示查询、文档及查询辅助句的上下文特征表示序列；Transforme rEncoder()表示对输入序列的编码映射函数。

获取到查询、文档及查询辅助句的上下文特征表示之后，将上下文表示进行归一化，使得每个特征向量都成为等于1的L2范数，这样使得任何两个特征向量的内积等于他们的余弦相似度。

Step2.4、本发明为了语义上对齐两个句子，使得两种语言的嵌入空间尽可能接近。具体地，在查询和辅助句之间定义了一个双语交互注意力机制，该机制使得查询每一个词的特征表征通过只关注来自辅助句的相关词的特征表征来表示。基于Transformer的共享编码模块可以获取到查询和辅助句的特征表示序列

和

然后利用辅助句的每一个特征表示

的加权平均值来表示查询的第i个词的跨语言特征表示c_i，计算如公式(8)所示：

其中，c_i表示查询的第i个词的跨语言特征表示；注意力权重α_i，j表示查询辅助句的第j个词与查询中第i个词的注意力权重，它是通过在相应的匹配分数m_i，j上计算softmax函数而获得的，如公式(9)所示。

匹配分数m_i，j又是基于特征向量

和

的双线性乘积来计算的，具体计算过程如公式(10)所示：

其中，W∈R^|q|×|q|和b∈R是可训练的注意力参数。

在跨语言任务中使用双语交互注意力机制，将一种语言的句子放在另一种语言的上下文嵌入中，从而得到这种语言的跨语言特征表示，以此达到语义上对齐两种语言的目的。

Step2.5、考虑到使跨语言表征之后的查询拥有更多的句内语义信息，本发明基于双语交互注意力机制得到查询句中每一个词的跨语言特征表示c_i之后，使用多头自注意力机制进行特征再提取。具体如公式(11)所示。

其中，self_attention()表示多头自注意力机制的映射函数；

表示查询的第i个词的跨语言上下文特征表示。

利用多头自注意力机制来获取一个序列的上下文特征表示时，使用点积注意来获取注意分数，具体计算方式如公式(12)所示。

其中，Q∈R^l×n，K∈R^l×n，V∈R^l×n分别表示查询矩阵，键矩阵，值矩阵。l表示输入查询句的序列长度，n表示特征维度。

具体来说，多头注意力机制分别对d_q维的查询、d_k维的键和d_v维的值进行线性投影。在每个查询、键和值的投影上并行地执行点积注意，最后将这些注意力的结果拼接起来，并再次进行线性投影，从而获取到新的上下文特征表示。多头注意力机制如公式(13)(14)所示：

其中，

W⁰∈R^dvh×n，d_q＝d_k＝d_v＝n/h，h表示头的数量。

Step2.6、给定查询经过双语交互注意力机制之后的表示矩阵，以及文档经过共享transformer编码之后的上下文表示矩阵，本发明模型通过双语交互排序模块计算查询和文档之间的匹配关联得分，如图1中双语排序模型所示，关联得分通过最大相似度(MaxSim)操作符的总和求得。

利用两个表示矩阵

和

交互排序来估计查询和文档的匹配得分，记为score_q，d，这是每一个查询词和文档词最大相似度的总和，如公式(15)所示。

Step2.7、本发明通过成对排名网络损失最大化相关文档和不相关文档之间的分数差异来训练跨语言深度关联匹配模型。

本发明的有益效果是：

本发明首次创造性的提出一种基于双语词典映射指导的跨语言信息检索方法，首先利用双语词典基于词级映射生成查询辅助句实现跨语言的语义对齐，然后本发明设计了一种基于双语交互注意力机制的查询辅助句融合的跨语言深度关联匹配模型，该模型基于共享Transformer分别获取查询、辅助句以及文档的上下文表示，同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示，最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。

本发明在英法、英菲、英斯三种CLIR公共数据集和构建的汉越数据集上，利用双语词典基于词级映射生成查询辅助句实现跨语言的语义对齐可以有效的提升不同语言的查询文档对的相关性，且在差异性不同的语言对上都具有明显的优势，实验结果表明本发明提出方法的有效性。

附图说明

图1为本发明中的模型示意图；

图2为本发明基于Transformer的共享编码模块图；

图3为本发明提出的双语交互注意力结构示意图；

图4为本发明中的不同数据集上的NDRG结果折线图。

具体实施方式

实施例1：如图1所示，基于双语词典映射指导的跨语言信息检索方法，所述方法的具体步骤如下：

Step1.2、为了防止任务变成一个简单的关键字匹配问题，将汉语查询中的主题词删除，并根据实际情况将每个文档长度限制在文章的前250个词以内，同时将查询和文档中的乱码符号以及停用词进行删除，汉越数据集样例如表1所示：

表1汉越CLIR数据样例

Step1.3、经过一系列数据整理和预处理，根据查询和文档对应的编号以及相关性标签r，其中r∈{0，1}，获得英法、英菲、英斯、汉越四种CLIR数据集的三元组：(查询，正样本发明档，负样本发明档)，其中包括自制的汉语-越南语(zh-vi)数据集，以及英语-法语(en-fr)，英语-菲律宾语(en-tl)，英语-斯瓦希里语(en-sw)三对公共语言对数据集。数据集规模如表2所示：

表2 CLIR数据集统计信息

Step2.2、给定一个查询q_zh＝(x₁，x₂，…,x_|q|)和文档d＝(z₁，z₂，…，z_d)，其中，|q|和|d|表示查询和文档的长度。首先根据Step2.1利用双语映射词典基于词级映射生成查询辅助句的q_vi＝(y₁，y₂，…，y_|q|)。然后将每个句子的每个单词表示成n维词向量，如公式(2)-(4)所示：

Q_z＝[E_qz(x₁)；E_qz(x₂)；…；E_qz(x_|q|)] (2)

Q_v＝[E_qv(y₁)；E_qv(y₂)；…；E_qv(y_|q|)] (3)

D＝[E_d(z₁)；E_d(z₂)；…；E_d(z_|d|)] (4)

Step2.3、本发明为了获得查询、查询辅助句及文档的上下文表示，使用了基于Transformer的共享编码模块，如图2所示。该编码模块共由6个相同的层堆叠在一起，每一层又分为两个子层。第一个子层是一个多头的自注意力机制，第二个子层是一个简单的全连接前馈网络。在两个子层外面都添加了一个残差连接，然后进行了层归一化的操作。具体对查询、辅助句及文档的编码过程如公式(5)-(7)所示。

其中，

及

Step2.4、本发明为了语义上对齐两个句子，使得两种语言的嵌入空间尽可能接近。具体地，在查询和辅助句之间定义了一个双语交互注意力机制，如图3所示，该机制使得查询每一个词的特征表征通过只关注来自辅助句的相关词的特征表征来表示。基于Transformer的共享编码模块可以获取到查询和辅助句的特征表示序列

和

然后利用辅助句的每一个特征表示

匹配分数m_i,j又是基于特征向量

和

的双线性乘积来计算的，具体计算过程如公式(10)所示：

其中，W∈R^|q|×|q|和b∈R是可训练的注意力参数。

其中，self_attention()表示多头自注意力机制的映射函数；

表示查询的第i个词的跨语言上下文特征表示。

具体来说，多头注意力机制分别对d_q维的查询、d_k维的键和d_v维的值进行线性投影。在每个查询、键和值的投影上并行地执行点积注意，最后将这些注意力的结果拼接起来，并再次进行线性投影，从而获取到新的上下文特征表示。多头注意力机制如公式(13)、(14)所示：

其中，

W⁰∈R^dvh×n，d_q＝d_k＝d_v＝n/h，h表示头的数量。

利用两个表示矩阵

和

交互排序来估计查询和文档的匹配得分，记为score_q,d，这是每一个查询词和文档词最大相似度的总和，如公式(15)所示。

为了验证本发明的有效性，以下介绍评价指标、实验的详细参数设置及对比的基准模型，并对实验结果进行分析和讨论。

1.由于本发明数据集查询长度大多集中在30到40之间，文档长度大多集中在180到250之间，所以设置最大查询长度和文档长度分别为40和200。针对本发明的深度关联匹配模型，可调参数设置如下表3所示。

本发明的评价指标主要采用MRR(Mean Reciprocal Rank)、P@1(Precision at1)、R@k(Recall at k)、MAP(Mean Average Precision)以及NDRG@k(NormalizedDiscounted Reciprocal Gain)。

表3可调参数设置

2.本发明选取以下4个模型作为基准模型，包括基于查询翻译的CLIR方法、基于文档翻译的CLIR方法、基于余弦模型的匹配检索方法和基于深度模型的匹配检索方法。所有基准模型的训练数据和测试数据均与本发明相同，均使用英语-法语(en-fr)，英语-菲律宾语(en-tl)，英语-斯瓦希里语(en-sw)三对公共语言对数据集。

(1)基于查询翻译的CLIR方法(CLIR-TQ)：将本发明的模型和基于机器翻译的CLIR进行了比较，这种方法首先使用Transformer将查询翻译，然后执行单语检索。

(2)基于文档翻译的CLIR方法(CLIR-TD)：这种方法首先使用Transformer将文档翻译，然后与(1)相同，执行单语检索。

(3)基于余弦模型的匹配检索方法(CLIR-S-COS)：在此模型中，使用CNN对查询和文档进行特征提取，然后获得查询和文档的句子特征表示

和

最后利用余弦模型计算二者的匹配得分。

(4)基于深度模型的匹配检索方法(CLIR-S-DEEP)：在此模型中，同样使用CNN对查询和文档进行特征提取。然后获得查询和文档的句子特征表示

和

最后利用深度模型计算二者的匹配得分S，如公式(16)所示。

深度模型根据深度分为CLIR-S-DEEP300、CLIR-S-DEEP400、CLIR-S-DEEP500。

(5)(sh)本发明模型：本发明实现的最优跨语言深度关联匹配模型。

3.为了验证本发明的基于双语词典映射指导的跨语言信息检索方法在公共数据集的有效性，本发明使用英语-法语(en-fr)，英语-菲律宾语(en-tl)，英语-斯瓦希里语(en-sw)三对公共语言对数据集和性能最优的“(sh)本发明模型”，与上述基准模型的性能作对比，对比实验结果见表4、表5和表6。

表4 en-fr数据集实验结果

表5 en-sw数据集实验结果

表6 en-tl数据集实验结果

分析表4、表5和表6可知，本发明模型在三种语言对上的P@1值和MAP值均超过所有对比模型。从表中可以看出，传统的基于机器翻译的基线模型都取得了不错的效果，但是与各深度学习模型还存在一定的差距。其中，与传统方法中效果比较好的查询翻译相比，在en-fr数据集上，本发明模型的P@1值和MAP值分别提升了23.9％和21.9％；在en-sw数据集上，P@1值和MAP值分别提升了11.5％和17.0％；在en-tl数据集上，P@1值和MAP值分别提升了13.1％和15.8％；与深度模型中效果最好的基线模型CLIR-S-DEEP500相比，在en-fr数据集上，本发明模型的P@1值和MAP值分别提升了0.2％和0.4％；在en-sw数据集上，P@1值略有下降，但是MAP值提升了1.4％；在en-tl数据集上，P@1值和MAP值分别提升了4.7％和7.5％。实验结果表明基于双语交互注意力融合查询辅助句在上述三个语言对的CLIR数据集上具有明显优势，证明了本发明方法的有效性。为了进一步证明该模型在差异性不同的语言对上的优势，增加评价指标NDRG@k，并得到NDRG@k的结果折线图，如图4所示。

从图4中折线图中可以看出，在三种语言对的数据集上，本发明方法的NDRG@1、NDRG@3、NDRG@5、NDRG@7和mNDRG相比于基准模型取得了更好的结果，在en-sw和en-tl两个数据集上提升比较明显。这些实验结果表明的模型不仅可以泛化到高资源语言对上，而且在菲律宾语等低资源语言训练数据不充足的情况下，本发明方法在跨语言信息检索的任务中同样具有明显的优势。

4.为验证本发明模型中每一模块对于整体有效，设计了以下对比及消融实验。

(1)融合查询辅助句的有效性分析

为了证明本发明提出的融合查询辅助句来指导跨语言信息检索对模型的有效性，本发明在自制的汉越CLIR数据集上进行了一组简单的消融实验，并用MRR(MeanReciprocal Rank)和R@k(Recall at k)作为评价指标，实验结果如表7所示，特别说明，“(-)查询辅助句”表示未使用查询辅助句来指导跨语言信息检索，直接使用单语检索的方式来实现。

表7为消融实验结果

由表9可以看出，在本发明模型中，当使用查询辅助句来指导跨语言信息检索时，MRR、R@3、R@5和R@10分别提升了9.45％、10.73％、10.65％、10.53％，由此证明基于双语词典映射的查询辅助句的构建和融入在汉越这种低资源语言对上是有效的，它可以在一定程度上拉近汉越两种语言的语义空间。

(2)共享编码器的有效性分析

为了证明共享编码器是否对本发明模型有影响，本发明同样在汉越CLIR数据集上进行了对比实验，实验结果如表8所示。

表8共享编码器有效性分析结果

由表8可知在本发明模型中，当使用共享编码器时，MRR、R@3、R@5和R@10分别提升了0.29％、0.12％、1.92％、3.40％，由此证明在跨语言任务当中，共享编码器也可以在一定程度上拉近不同语言的语义空间。通过此对比实验，也得到了本发明的最优模型。

(3)双语交互注意力机制的有效性分析

为了证明本发明提出的双语交互注意力机制的有效性，同时得到本发明模型中效果最优的双语交互策略。制定了三种不同的交互策略来选择最优的模型架构：

策略一(CLIR+MTL)：本发明利用联合多任务的思想，利用查询辅助句作为辅助约束，使得查询句的语义和查询辅助句的语义相似度尽可能接近，然后来辅助跨语言信息检索这个主任务。

策略二(CLIR+concat)：首先将查询句和查询辅助句对应位置的特征表示直接拼接，以此认为两种语言的语义空间被拉近，然后利用拼接特征去检索文档特征。

策略三(CLIR+c_att)：引入双语交互注意力机制，利用查询辅助句中所有词的特征表示的加权求和来表示查询中的每一个词的特征，之后使用多头自注意力来丰富查询句内的语义信息，以此拉近双语的语言差异性。

针对上述的三种策略，本发明利用构建的汉越CLIR数据集做了实验对比，实验结果如表9所示：

表9双语交互注意力机制有效性分析结果

在本发明中，利用双语交互注意力机制来融合查询辅助句，以此来拉近两种语言之间的语义鸿沟，从表9可知，三种不同的融合策略会直接导致不同的检索性能。其中，与策略一(CLIR+MTL)相比，使用本发明的双语交互注意力机制时，MRR值、R@3值、R@5值和R@10值分别提升了9.39％、10.50％、10.62％、9.86％；与策略二(CLIR+concat)相比，双语交互注意力机制分别提升了7.30％、8.10％、8.40％、7.82％。由此可见，双语交互注意力机制是本发明模型的重要一环，它可以利用查询辅助句的指导作用来拉近两种语言的嵌入空间，进而有效地改善模型跨语言信息检索的性能。

(4)双语交互排序模型的有效性分析

为了证明本发明提出的双语交互排序的有效性，为本发明模型选择最优的排序方式，使用双语交互排序模型与基线模型中的排序方式来作对比。其中，第一种方式是利用平均池化的方式得到查询和文档的句子向量，直接利用句子向量计算余弦相似度得到排序分数(CLIR-sent_cos)。第二种方式是本发明使用的双语交互排序方式。对比实验结果如表10所示：

表10双语交互排序模型有效性分析结果

从表10可知，针对两种排序方式的比较中，本发明提出的双语交互排序模型具有很明显的优势。其中，与传统的直接利用句子向量的余弦相似度排序的方法相比，本发明模型的MRR值、R@3值、R@5值和R@10值分别提升了24.91％、30.12％、31.02％、29.44％。由此可见，不一样的排序方式也会直接影响检索的准确率。由于查询和文档的长度差距比较大，文档句子又过长，直接利用句子的表征去计算匹配得分会大大的丢失关键语义信息，从而导致准确率的下降。而本发明的双语交互排序模型可以从词级粒度出发，更为全面的计算短查询和长文档的相似性，所以本发明排序模型具有明显优势。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于双语词典映射指导的跨语言信息检索方法，其特征在于：首先利用词映射生成查询辅助句实现跨语言的语义对齐，然后利用双语交互注意力来获取查询的跨语言特征表示，最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。

2.根据权利要求1所述的基于双语词典映射指导的跨语言信息检索方法，其特征在于：所述方法的具体步骤如下：

Step1、将英越CLIR公共数据集中的英语查询翻译为汉语查询，通过人工筛选和校对构建汉越CLIR数据集；同时对英法、英菲、英斯三种CLIR公共数据集进行预处理；

3.根据权利要求2所述的基于双语词典映射指导的跨语言信息检索方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.1、利用谷歌翻译的接口将英-越CLIR公共数据集中的英语查询翻译为汉语查询，通过人工筛选和校对，将翻译质量差以及翻译错误的查询句进行删除；

Step1.2、将汉语查询中的主题词删除，将每个文档长度限制在文章的前250个词以内，同时将查询和文档中的乱码符号以及停用词进行删除；

Step1.3、根据查询和文档对应的编号以及相关性标签r，其中r∈{0，1}，获得英法、英菲、英斯、汉越四种CLIR数据集的三元组包括：查询、正样本发明档、负样本发明档。

4.根据权利要求2所述的基于双语词典映射指导的跨语言信息检索方法，其特征在于：所述步骤Step2包括：

Step2.1、查询辅助句的生成：使用双语映射词典基于词级映射来生成查询辅助句，进而保留查询中大部分关键词的准确信息，如公式(1)所示：

其中，D表示双语映射词典；map()表示词级映射函数；x_i表示查询中的第i个词；y_i表示词映射之后查询辅助句中的第i个词；

Step2.2、给定一个查询q_zh＝(x₁，x₂，…，x_|q|)和文档d＝(z₁，z₂，…，z_|d|)，其中，|q|和|d|表示查询和文档的长度；首先根据Step2.1利用双语映射词典基于词级映射生成查询辅助句的q_vi＝(y₁，y₂，…，y_|q|)；然后将每个句子的每个单词表示成n维词向量，如公式(2)-(4)所示：

Q_z＝[E_qz(x₁)；E_qz(x₂)；…；E_qz(x_|q|)] (2)

Q_v＝[E_qv(y₁)；E_qv(y₂)；…；E_qv(y_|q|)] (3)

D＝[E_d(z₁)；E_d(z₂)；…；E_d(z_|d|)] (4)

其中，Q_z∈R^n×|q|、Q_z∈R^n×|q|和D∈R^n×|d|，分别表示查询、查询辅助句和文档的嵌入特征表示矩阵；x_i、y_i和z_i表示查询、查询辅助句及文档的第i个词；E_qz、E_qv和E_d分别表示查询、查询辅助句及文档的嵌入函数，嵌入函数能将每一个输入序列中的每个词转化为对应的n维词向量；“分号”表示连接操作符；

Step2.3、为了获得查询、查询辅助句及文档的上下文表示，使用了基于Transformer的共享编码模块；该编码模块共由6个相同的层堆叠在一起，每一层又分为两个子层；第一个子层是一个多头的自注意力机制，第二个子层是一个全连接前馈网络；在两个子层外面都添加了一个残差连接，然后进行了层归一化的操作；具体对查询、辅助句及文档的编码过程如公式(5)-(7)所示。