CN113076398A - 基于双语词典映射指导的跨语言信息检索方法 - Google Patents
基于双语词典映射指导的跨语言信息检索方法 Download PDFInfo
- Publication number
- CN113076398A CN113076398A CN202110344892.7A CN202110344892A CN113076398A CN 113076398 A CN113076398 A CN 113076398A CN 202110344892 A CN202110344892 A CN 202110344892A CN 113076398 A CN113076398 A CN 113076398A
- Authority
- CN
- China
- Prior art keywords
- query
- bilingual
- document
- cross
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000003993 interaction Effects 0.000 claims abstract description 41
- 230000007246 mechanism Effects 0.000 claims abstract description 40
- 230000014509 gene expression Effects 0.000 claims abstract description 12
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000013519 translation Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 230000001915 proofreading effect Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 2
- 102000011324 NDRG Human genes 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001172 regenerating effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 108050001500 NDRG Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于双语词典映射指导的跨语言信息检索方法。包括:构建并预处理汉越CLIR数据集;预处理英法、英菲、英斯三种CLIR公共数据集;构建的双语映射词典并基于词级映射分别构造查询辅助句;利用共享Transformer分别获取查询、辅助句及文档的上下文表示,同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示;最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。本发明利用双语映射词典实现跨语言沟通,缓解了缺乏查询‑文档对齐语料及语言差异性给信息检索带来的影响。本发明相比跨语言信息检索主流方法,MAP指标明显提升。且本方法在差异性不同的语言对上都具有明显的优势。
Description
技术领域
本发明涉及双语映射词典指导的跨语言信息检索方法,属于自然语言处理领域。
背景技术
在自然语言处理中,跨语言信息检索(Cross-language information retrieval,CLIR)即用一种语言的查询检索出用另一种语言的相关文档信息,也就是一种跨越语言界限进行检索的问题。然而,由于查询和文档属于不同的语言,如何实现不同语言的句子在公共语义空间的语义对齐进而实现文本匹配就成为了CLIR的核心难点。
跨语言信息检索(CLIR)目前已经成为了国内外的一个研究热点。学者们针对如何在源语言和目标语言之间建立沟通桥梁进行了一系列研究和讨论。传统的跨语言信息检索算法大都基于机器翻译的思想,通常包括机器翻译和单语信息检索两部分,即首先基于机器翻译实现跨语言的语义对齐,然后在单一语义空间中完成信息检索。基于机器翻译CLIR方法属于一种管道式(pipeline)的方法,该方法很容易受到翻译误差的累积影响,特别是对于低资源语言或者差异性比较大的语言对,机器翻译误差累积会为后续的检索造成较大的影响,甚至导致检索的失败。Robert Litschko等提出了一个完全无监督的跨语言信息检索框架,它不需要使用任何双语数据,该框架利用共享的跨语言词嵌入空间来表示查询和文档。该方法优于单词级对齐的跨语言词嵌入基线模型。另外,对于低资源跨语言信息检索,Zhao,L等提出了一种弱监督神经模型;该模型不需要任何相关标注信息,而是基于从机器翻译的语料库中抽取弱监督样本,利用预先训练的跨语言词嵌入表征平行句对,以此训练深度模型。然后该模型通过计算外文文档中每一个句子与输入查询的相关概率来实现跨语言信息检索。上述基于CLE的方法需要昂贵的标注成本,对于跨语言情况下的低资源语言对或者差异性比较大的语言对来说,这是很难实现的。除此之外,Shota Sasaki等人基于CNN对查询和文档分别编码,利用二者的句子向量计算相似度,实现跨语言检索。但是,该方法没有考虑不同语言之间的差异性问题,所以该方法也不是很好的选择。
发明内容
本发明提供了基于双语词典映射指导的跨语言信息检索方法,即首先利用词映射生成查询辅助句实现跨语言的语义对齐,然后利用双语交互注意力来获取查询的跨语言特征表示,进而实现跨语言检索,缓解了缺乏查询-文档对齐语料及语言差异性给信息检索带来的影响。
发明技术方案:基于双语词典映射指导的跨语言信息检索方法,首先利用词映射生成查询辅助句实现跨语言的语义对齐,然后利用双语交互注意力来获取查询的跨语言特征表示,最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。所述方法的具体步骤如下:
Step1、调用谷歌翻译的接口将英-越CLIR公共数据集中的英语查询翻译为汉语查询,通过人工筛选和校对构建汉越CLIR数据集。同时对英法、英菲、英斯三种CLIR公共数据集进行一系列预处理。
Step2、将Step1预处理过的数据利用预先构建的双语映射词典,基于词级映射分别构造查询辅助句;然后利用共享Transformer分别获取查询、辅助句及文档的上下文表示,同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示;最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、调用谷歌翻译的接口将英-越CLIR公共数据集中的英语查询翻译为汉语查询,通过人工筛选和校对,将翻译质量比较差以及翻译错误的查询句进行删除;
Step1.2、为了防止任务变成一个简单的关键字匹配问题,将汉语查询中的主题词删除,并根据实际情况将每个文档长度限制在文章的前250个词以内,同时将查询和文档中的乱码符号以及停用词进行删除;
Step1.3、经过一系列数据整理和预处理,根据查询和文档对应的编号以及相关性标签r,其中r∈{0,1},获得英法、英菲、英斯、汉越四种CLIR数据集的三元组:(查询,正样本发明档,负样本发明档);
作为本发明的优选方案,所述步骤Step2的具体步骤如下:
Step2.1、查询辅助句的生成:由于传统的基于句子级机器翻译的方法在差异性比较大的语言对上翻译质量很差,所以没有办法基于翻译系统来进行单语检索。为此,本发明使用双语映射词典基于词级映射来生成查询辅助句,进而保留查询中大部分关键词的准确信息,如公式(1)所示。
其中,D表示双语映射词典;map()表示词级映射函数;xi表示查询中的第i个词;yi表示词映射之后查询辅助句中的第i个词。
Step2.2、给定一个查询qzh=(x1,x2,…,x|q|)和文档d=(z1,z2,…,z|d|),其中,|q|和|d|表示查询和文档的长度。首先根据Step2.1利用双语映射词典基于词级映射生成查询辅助句的qvi=(y1,y2,…,y|q|)。然后将每个句子的每个单词表示成n维词向量,如公式(2)-(4)所示:
Qz=[Eqz(x1);Eqz(x2);…;Eqz(x|q|)] (2)
Qv=[Eqv(y1);Eqv(y2);…;Eqv(y|q|)] (3)
D=[Ed(z1);Ed(z2);…;Ed(z|d|)] (4)
其中,Qz∈Rn×|q|、Qz∈Rn×|q|和D∈Rn×|d|,分别表示查询、查询辅助句和文档的嵌入特征表示矩阵;xi、yi和zi表示查询、查询辅助句及文档的第i个词;Eqz、Eqv和Ed分别表示查询、查询辅助句及文档的嵌入函数,它可以将每一个输入序列中的每个词转化为对应的n维词向量;“分号”表示连接操作符;
Step2.3、本发明为了获得查询、查询辅助句及文档的上下文表示,使用了基于Transformer的共享编码模块。该编码模块共由6个相同的层堆叠在一起,每一层又分为两个子层。第一个子层是一个多头的自注意力机制,第二个子层是一个简单的全连接前馈网络。在两个子层外面都添加了一个残差连接,然后进行了层归一化的操作。具体对查询、辅助句及文档的编码过程如公式(5)-(7)所示。
获取到查询、文档及查询辅助句的上下文特征表示之后,将上下文表示进行归一化,使得每个特征向量都成为等于1的L2范数,这样使得任何两个特征向量的内积等于他们的余弦相似度。
Step2.4、本发明为了语义上对齐两个句子,使得两种语言的嵌入空间尽可能接近。具体地,在查询和辅助句之间定义了一个双语交互注意力机制,该机制使得查询每一个词的特征表征通过只关注来自辅助句的相关词的特征表征来表示。基于Transformer的共享编码模块可以获取到查询和辅助句的特征表示序列和然后利用辅助句的每一个特征表示的加权平均值来表示查询的第i个词的跨语言特征表示ci,计算如公式(8)所示:
其中,ci表示查询的第i个词的跨语言特征表示;注意力权重αi,j表示查询辅助句的第j个词与查询中第i个词的注意力权重,它是通过在相应的匹配分数mi,j上计算softmax函数而获得的,如公式(9)所示。
其中,W∈R|q|×|q|和b∈R是可训练的注意力参数。
在跨语言任务中使用双语交互注意力机制,将一种语言的句子放在另一种语言的上下文嵌入中,从而得到这种语言的跨语言特征表示,以此达到语义上对齐两种语言的目的。
Step2.5、考虑到使跨语言表征之后的查询拥有更多的句内语义信息,本发明基于双语交互注意力机制得到查询句中每一个词的跨语言特征表示ci之后,使用多头自注意力机制进行特征再提取。具体如公式(11)所示。
利用多头自注意力机制来获取一个序列的上下文特征表示时,使用点积注意来获取注意分数,具体计算方式如公式(12)所示。
其中,Q∈Rl×n,K∈Rl×n,V∈Rl×n分别表示查询矩阵,键矩阵,值矩阵。l表示输入查询句的序列长度,n表示特征维度。
具体来说,多头注意力机制分别对dq维的查询、dk维的键和dv维的值进行线性投影。在每个查询、键和值的投影上并行地执行点积注意,最后将这些注意力的结果拼接起来,并再次进行线性投影,从而获取到新的上下文特征表示。多头注意力机制如公式(13)(14)所示:
Step2.6、给定查询经过双语交互注意力机制之后的表示矩阵,以及文档经过共享transformer编码之后的上下文表示矩阵,本发明模型通过双语交互排序模块计算查询和文档之间的匹配关联得分,如图1中双语排序模型所示,关联得分通过最大相似度(MaxSim)操作符的总和求得。
Step2.7、本发明通过成对排名网络损失最大化相关文档和不相关文档之间的分数差异来训练跨语言深度关联匹配模型。
本发明的有益效果是:
本发明首次创造性的提出一种基于双语词典映射指导的跨语言信息检索方法,首先利用双语词典基于词级映射生成查询辅助句实现跨语言的语义对齐,然后本发明设计了一种基于双语交互注意力机制的查询辅助句融合的跨语言深度关联匹配模型,该模型基于共享Transformer分别获取查询、辅助句以及文档的上下文表示,同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示,最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。
本发明在英法、英菲、英斯三种CLIR公共数据集和构建的汉越数据集上,利用双语词典基于词级映射生成查询辅助句实现跨语言的语义对齐可以有效的提升不同语言的查询文档对的相关性,且在差异性不同的语言对上都具有明显的优势,实验结果表明本发明提出方法的有效性。
附图说明
图1为本发明中的模型示意图;
图2为本发明基于Transformer的共享编码模块图;
图3为本发明提出的双语交互注意力结构示意图;
图4为本发明中的不同数据集上的NDRG结果折线图。
具体实施方式
实施例1:如图1所示,基于双语词典映射指导的跨语言信息检索方法,所述方法的具体步骤如下:
Step1.1、调用谷歌翻译的接口将英-越CLIR公共数据集中的英语查询翻译为汉语查询,通过人工筛选和校对,将翻译质量比较差以及翻译错误的查询句进行删除;
Step1.2、为了防止任务变成一个简单的关键字匹配问题,将汉语查询中的主题词删除,并根据实际情况将每个文档长度限制在文章的前250个词以内,同时将查询和文档中的乱码符号以及停用词进行删除,汉越数据集样例如表1所示:
表1汉越CLIR数据样例
Step1.3、经过一系列数据整理和预处理,根据查询和文档对应的编号以及相关性标签r,其中r∈{0,1},获得英法、英菲、英斯、汉越四种CLIR数据集的三元组:(查询,正样本发明档,负样本发明档),其中包括自制的汉语-越南语(zh-vi)数据集,以及英语-法语(en-fr),英语-菲律宾语(en-tl),英语-斯瓦希里语(en-sw)三对公共语言对数据集。数据集规模如表2所示:
表2 CLIR数据集统计信息
Step2.1、查询辅助句的生成:由于传统的基于句子级机器翻译的方法在差异性比较大的语言对上翻译质量很差,所以没有办法基于翻译系统来进行单语检索。为此,本发明使用双语映射词典基于词级映射来生成查询辅助句,进而保留查询中大部分关键词的准确信息,如公式(1)所示。
其中,D表示双语映射词典;map()表示词级映射函数;xi表示查询中的第i个词;yi表示词映射之后查询辅助句中的第i个词。
Step2.2、给定一个查询qzh=(x1,x2,…,x|q|)和文档d=(z1,z2,…,zd),其中,|q|和|d|表示查询和文档的长度。首先根据Step2.1利用双语映射词典基于词级映射生成查询辅助句的qvi=(y1,y2,…,y|q|)。然后将每个句子的每个单词表示成n维词向量,如公式(2)-(4)所示:
Qz=[Eqz(x1);Eqz(x2);…;Eqz(x|q|)] (2)
Qv=[Eqv(y1);Eqv(y2);…;Eqv(y|q|)] (3)
D=[Ed(z1);Ed(z2);…;Ed(z|d|)] (4)
其中,Qz∈Rn×|q|、Qz∈Rn×|q|和D∈Rn×|d|,分别表示查询、查询辅助句和文档的嵌入特征表示矩阵;xi、yi和zi表示查询、查询辅助句及文档的第i个词;Eqz、Eqv和Ed分别表示查询、查询辅助句及文档的嵌入函数,它可以将每一个输入序列中的每个词转化为对应的n维词向量;“分号”表示连接操作符;
Step2.3、本发明为了获得查询、查询辅助句及文档的上下文表示,使用了基于Transformer的共享编码模块,如图2所示。该编码模块共由6个相同的层堆叠在一起,每一层又分为两个子层。第一个子层是一个多头的自注意力机制,第二个子层是一个简单的全连接前馈网络。在两个子层外面都添加了一个残差连接,然后进行了层归一化的操作。具体对查询、辅助句及文档的编码过程如公式(5)-(7)所示。
获取到查询、文档及查询辅助句的上下文特征表示之后,将上下文表示进行归一化,使得每个特征向量都成为等于1的L2范数,这样使得任何两个特征向量的内积等于他们的余弦相似度。
Step2.4、本发明为了语义上对齐两个句子,使得两种语言的嵌入空间尽可能接近。具体地,在查询和辅助句之间定义了一个双语交互注意力机制,如图3所示,该机制使得查询每一个词的特征表征通过只关注来自辅助句的相关词的特征表征来表示。基于Transformer的共享编码模块可以获取到查询和辅助句的特征表示序列和然后利用辅助句的每一个特征表示的加权平均值来表示查询的第i个词的跨语言特征表示ci,计算如公式(8)所示:
其中,ci表示查询的第i个词的跨语言特征表示;注意力权重αi,j表示查询辅助句的第j个词与查询中第i个词的注意力权重,它是通过在相应的匹配分数mi,j上计算softmax函数而获得的,如公式(9)所示。
其中,W∈R|q|×|q|和b∈R是可训练的注意力参数。
在跨语言任务中使用双语交互注意力机制,将一种语言的句子放在另一种语言的上下文嵌入中,从而得到这种语言的跨语言特征表示,以此达到语义上对齐两种语言的目的。
Step2.5、考虑到使跨语言表征之后的查询拥有更多的句内语义信息,本发明基于双语交互注意力机制得到查询句中每一个词的跨语言特征表示ci之后,使用多头自注意力机制进行特征再提取。具体如公式(11)所示。
利用多头自注意力机制来获取一个序列的上下文特征表示时,使用点积注意来获取注意分数,具体计算方式如公式(12)所示。
其中,Q∈Rl×n,K∈Rl×n,V∈Rl×n分别表示查询矩阵,键矩阵,值矩阵。l表示输入查询句的序列长度,n表示特征维度。
具体来说,多头注意力机制分别对dq维的查询、dk维的键和dv维的值进行线性投影。在每个查询、键和值的投影上并行地执行点积注意,最后将这些注意力的结果拼接起来,并再次进行线性投影,从而获取到新的上下文特征表示。多头注意力机制如公式(13)、(14)所示:
Step2.6、给定查询经过双语交互注意力机制之后的表示矩阵,以及文档经过共享transformer编码之后的上下文表示矩阵,本发明模型通过双语交互排序模块计算查询和文档之间的匹配关联得分,如图1中双语排序模型所示,关联得分通过最大相似度(MaxSim)操作符的总和求得。
Step2.7、本发明通过成对排名网络损失最大化相关文档和不相关文档之间的分数差异来训练跨语言深度关联匹配模型。
为了验证本发明的有效性,以下介绍评价指标、实验的详细参数设置及对比的基准模型,并对实验结果进行分析和讨论。
1.由于本发明数据集查询长度大多集中在30到40之间,文档长度大多集中在180到250之间,所以设置最大查询长度和文档长度分别为40和200。针对本发明的深度关联匹配模型,可调参数设置如下表3所示。
本发明的评价指标主要采用MRR(Mean Reciprocal Rank)、P@1(Precision at1)、R@k(Recall at k)、MAP(Mean Average Precision)以及NDRG@k(NormalizedDiscounted Reciprocal Gain)。
表3可调参数设置
2.本发明选取以下4个模型作为基准模型,包括基于查询翻译的CLIR方法、基于文档翻译的CLIR方法、基于余弦模型的匹配检索方法和基于深度模型的匹配检索方法。所有基准模型的训练数据和测试数据均与本发明相同,均使用英语-法语(en-fr),英语-菲律宾语(en-tl),英语-斯瓦希里语(en-sw)三对公共语言对数据集。
(1)基于查询翻译的CLIR方法(CLIR-TQ):将本发明的模型和基于机器翻译的CLIR进行了比较,这种方法首先使用Transformer将查询翻译,然后执行单语检索。
(2)基于文档翻译的CLIR方法(CLIR-TD):这种方法首先使用Transformer将文档翻译,然后与(1)相同,执行单语检索。
(4)基于深度模型的匹配检索方法(CLIR-S-DEEP):在此模型中,同样使用CNN对查询和文档进行特征提取。然后获得查询和文档的句子特征表示和最后利用深度模型计算二者的匹配得分S,如公式(16)所示。
深度模型根据深度分为CLIR-S-DEEP300、CLIR-S-DEEP400、CLIR-S-DEEP500。
(5)(sh)本发明模型:本发明实现的最优跨语言深度关联匹配模型。
3.为了验证本发明的基于双语词典映射指导的跨语言信息检索方法在公共数据集的有效性,本发明使用英语-法语(en-fr),英语-菲律宾语(en-tl),英语-斯瓦希里语(en-sw)三对公共语言对数据集和性能最优的“(sh)本发明模型”,与上述基准模型的性能作对比,对比实验结果见表4、表5和表6。
表4 en-fr数据集实验结果
表5 en-sw数据集实验结果
表6 en-tl数据集实验结果
分析表4、表5和表6可知,本发明模型在三种语言对上的P@1值和MAP值均超过所有对比模型。从表中可以看出,传统的基于机器翻译的基线模型都取得了不错的效果,但是与各深度学习模型还存在一定的差距。其中,与传统方法中效果比较好的查询翻译相比,在en-fr数据集上,本发明模型的P@1值和MAP值分别提升了23.9%和21.9%;在en-sw数据集上,P@1值和MAP值分别提升了11.5%和17.0%;在en-tl数据集上,P@1值和MAP值分别提升了13.1%和15.8%;与深度模型中效果最好的基线模型CLIR-S-DEEP500相比,在en-fr数据集上,本发明模型的P@1值和MAP值分别提升了0.2%和0.4%;在en-sw数据集上,P@1值略有下降,但是MAP值提升了1.4%;在en-tl数据集上,P@1值和MAP值分别提升了4.7%和7.5%。实验结果表明基于双语交互注意力融合查询辅助句在上述三个语言对的CLIR数据集上具有明显优势,证明了本发明方法的有效性。为了进一步证明该模型在差异性不同的语言对上的优势,增加评价指标NDRG@k,并得到NDRG@k的结果折线图,如图4所示。
从图4中折线图中可以看出,在三种语言对的数据集上,本发明方法的NDRG@1、NDRG@3、NDRG@5、NDRG@7和mNDRG相比于基准模型取得了更好的结果,在en-sw和en-tl两个数据集上提升比较明显。这些实验结果表明的模型不仅可以泛化到高资源语言对上,而且在菲律宾语等低资源语言训练数据不充足的情况下,本发明方法在跨语言信息检索的任务中同样具有明显的优势。
4.为验证本发明模型中每一模块对于整体有效,设计了以下对比及消融实验。
(1)融合查询辅助句的有效性分析
为了证明本发明提出的融合查询辅助句来指导跨语言信息检索对模型的有效性,本发明在自制的汉越CLIR数据集上进行了一组简单的消融实验,并用MRR(MeanReciprocal Rank)和R@k(Recall at k)作为评价指标,实验结果如表7所示,特别说明,“(-)查询辅助句”表示未使用查询辅助句来指导跨语言信息检索,直接使用单语检索的方式来实现。
表7为消融实验结果
由表9可以看出,在本发明模型中,当使用查询辅助句来指导跨语言信息检索时,MRR、R@3、R@5和R@10分别提升了9.45%、10.73%、10.65%、10.53%,由此证明基于双语词典映射的查询辅助句的构建和融入在汉越这种低资源语言对上是有效的,它可以在一定程度上拉近汉越两种语言的语义空间。
(2)共享编码器的有效性分析
为了证明共享编码器是否对本发明模型有影响,本发明同样在汉越CLIR数据集上进行了对比实验,实验结果如表8所示。
表8共享编码器有效性分析结果
由表8可知在本发明模型中,当使用共享编码器时,MRR、R@3、R@5和R@10分别提升了0.29%、0.12%、1.92%、3.40%,由此证明在跨语言任务当中,共享编码器也可以在一定程度上拉近不同语言的语义空间。通过此对比实验,也得到了本发明的最优模型。
(3)双语交互注意力机制的有效性分析
为了证明本发明提出的双语交互注意力机制的有效性,同时得到本发明模型中效果最优的双语交互策略。制定了三种不同的交互策略来选择最优的模型架构:
策略一(CLIR+MTL):本发明利用联合多任务的思想,利用查询辅助句作为辅助约束,使得查询句的语义和查询辅助句的语义相似度尽可能接近,然后来辅助跨语言信息检索这个主任务。
策略二(CLIR+concat):首先将查询句和查询辅助句对应位置的特征表示直接拼接,以此认为两种语言的语义空间被拉近,然后利用拼接特征去检索文档特征。
策略三(CLIR+c_att):引入双语交互注意力机制,利用查询辅助句中所有词的特征表示的加权求和来表示查询中的每一个词的特征,之后使用多头自注意力来丰富查询句内的语义信息,以此拉近双语的语言差异性。
针对上述的三种策略,本发明利用构建的汉越CLIR数据集做了实验对比,实验结果如表9所示:
表9双语交互注意力机制有效性分析结果
在本发明中,利用双语交互注意力机制来融合查询辅助句,以此来拉近两种语言之间的语义鸿沟,从表9可知,三种不同的融合策略会直接导致不同的检索性能。其中,与策略一(CLIR+MTL)相比,使用本发明的双语交互注意力机制时,MRR值、R@3值、R@5值和R@10值分别提升了9.39%、10.50%、10.62%、9.86%;与策略二(CLIR+concat)相比,双语交互注意力机制分别提升了7.30%、8.10%、8.40%、7.82%。由此可见,双语交互注意力机制是本发明模型的重要一环,它可以利用查询辅助句的指导作用来拉近两种语言的嵌入空间,进而有效地改善模型跨语言信息检索的性能。
(4)双语交互排序模型的有效性分析
为了证明本发明提出的双语交互排序的有效性,为本发明模型选择最优的排序方式,使用双语交互排序模型与基线模型中的排序方式来作对比。其中,第一种方式是利用平均池化的方式得到查询和文档的句子向量,直接利用句子向量计算余弦相似度得到排序分数(CLIR-sent_cos)。第二种方式是本发明使用的双语交互排序方式。对比实验结果如表10所示:
表10双语交互排序模型有效性分析结果
从表10可知,针对两种排序方式的比较中,本发明提出的双语交互排序模型具有很明显的优势。其中,与传统的直接利用句子向量的余弦相似度排序的方法相比,本发明模型的MRR值、R@3值、R@5值和R@10值分别提升了24.91%、30.12%、31.02%、29.44%。由此可见,不一样的排序方式也会直接影响检索的准确率。由于查询和文档的长度差距比较大,文档句子又过长,直接利用句子的表征去计算匹配得分会大大的丢失关键语义信息,从而导致准确率的下降。而本发明的双语交互排序模型可以从词级粒度出发,更为全面的计算短查询和长文档的相似性,所以本发明排序模型具有明显优势。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (4)
1.基于双语词典映射指导的跨语言信息检索方法,其特征在于:首先利用词映射生成查询辅助句实现跨语言的语义对齐,然后利用双语交互注意力来获取查询的跨语言特征表示,最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。
2.根据权利要求1所述的基于双语词典映射指导的跨语言信息检索方法,其特征在于:所述方法的具体步骤如下:
Step1、将英越CLIR公共数据集中的英语查询翻译为汉语查询,通过人工筛选和校对构建汉越CLIR数据集;同时对英法、英菲、英斯三种CLIR公共数据集进行预处理;
Step2、将Step1预处理过的数据利用预先构建的双语映射词典,基于词级映射分别构造查询辅助句;然后利用共享Transformer分别获取查询、辅助句及文档的上下文表示,同时借助查询与辅助句之间的双语交互注意力机制获得查询的跨语言特征表示;最后利用双语交互排序模型获得查询和文档的匹配分数实现跨语言信息检索。
3.根据权利要求2所述的基于双语词典映射指导的跨语言信息检索方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、利用谷歌翻译的接口将英-越CLIR公共数据集中的英语查询翻译为汉语查询,通过人工筛选和校对,将翻译质量差以及翻译错误的查询句进行删除;
Step1.2、将汉语查询中的主题词删除,将每个文档长度限制在文章的前250个词以内,同时将查询和文档中的乱码符号以及停用词进行删除;
Step1.3、根据查询和文档对应的编号以及相关性标签r,其中r∈{0,1},获得英法、英菲、英斯、汉越四种CLIR数据集的三元组包括:查询、正样本发明档、负样本发明档。
4.根据权利要求2所述的基于双语词典映射指导的跨语言信息检索方法,其特征在于:所述步骤Step2包括:
Step2.1、查询辅助句的生成:使用双语映射词典基于词级映射来生成查询辅助句,进而保留查询中大部分关键词的准确信息,如公式(1)所示:
其中,D表示双语映射词典;map()表示词级映射函数;xi表示查询中的第i个词;yi表示词映射之后查询辅助句中的第i个词;
Step2.2、给定一个查询qzh=(x1,x2,…,x|q|)和文档d=(z1,z2,…,z|d|),其中,|q|和|d|表示查询和文档的长度;首先根据Step2.1利用双语映射词典基于词级映射生成查询辅助句的qvi=(y1,y2,…,y|q|);然后将每个句子的每个单词表示成n维词向量,如公式(2)-(4)所示:
Qz=[Eqz(x1);Eqz(x2);…;Eqz(x|q|)] (2)
Qv=[Eqv(y1);Eqv(y2);…;Eqv(y|q|)] (3)
D=[Ed(z1);Ed(z2);…;Ed(z|d|)] (4)
其中,Qz∈Rn×|q|、Qz∈Rn×|q|和D∈Rn×|d|,分别表示查询、查询辅助句和文档的嵌入特征表示矩阵;xi、yi和zi表示查询、查询辅助句及文档的第i个词;Eqz、Eqv和Ed分别表示查询、查询辅助句及文档的嵌入函数,嵌入函数能将每一个输入序列中的每个词转化为对应的n维词向量;“分号”表示连接操作符;
Step2.3、为了获得查询、查询辅助句及文档的上下文表示,使用了基于Transformer的共享编码模块;该编码模块共由6个相同的层堆叠在一起,每一层又分为两个子层;第一个子层是一个多头的自注意力机制,第二个子层是一个全连接前馈网络;在两个子层外面都添加了一个残差连接,然后进行了层归一化的操作;具体对查询、辅助句及文档的编码过程如公式(5)-(7)所示。
获取到查询、文档及查询辅助句的上下文特征表示之后,将上下文表示进行归一化,使得每个特征向量都成为等于1的L2范数,这样使得任何两个特征向量的内积等于他们的余弦相似度;
Step2.4、在查询和辅助句之间定义了一个双语交互注意力机制,该机制使得查询每一个词的特征表征通过只关注来自辅助句的相关词的特征表征来表示;基于Transformer的共享编码模块获取到查询和辅助句的特征表示序列和然后利用辅助句的每一个特征表示的加权平均值来表示查询的第i个词的跨语言特征表示ci,计算如公式(8)所示:
其中,ci表示查询的第i个词的跨语言特征表示;注意力权重αi,j表示查询辅助句的第j个词与查询中第i个词的注意力权重,它是通过在相应的匹配分数mi,j上计算softmax函数而获得的,如公式(9)所示。
其中,W∈R|q|×|q|和b∈R是可训练的注意力参数;
Step2.5、基于双语交互注意力机制得到查询句中每一个词的跨语言特征表示ci之后,使用多头自注意力机制进行特征再提取;具体如公式(11)所示:
利用多头自注意力机制来获取一个序列的上下文特征表示时,使用点积注意来获取注意分数,具体计算方式如公式(12)所示:
其中,Q∈Rl×n,K∈Rl×n,V∈Rl×n分别表示查询矩阵,键矩阵,值矩阵;l表示输入查询句的序列长度,n表示特征维度;
具体来说,多头注意力机制分别对dq维的查询、dk维的键和dv维的值进行线性投影。在每个查询、键和值的投影上并行地执行点积注意,最后将这些注意力的结果拼接起来,并再次进行线性投影,从而获取到新的上下文特征表示;多头注意力机制如公式(13)、(14)所示:
headi=Attention(QWi Q,KWi K,VWi V) (13)
Step2.6、给定查询经过双语交互注意力机制之后的表示矩阵,以及文档经过共享transformer编码之后的上下文表示矩阵,通过双语交互排序模块计算查询和文档之间的匹配关联得分,关联得分通过最大相似度MaxSim操作符的总和求得;
Step2.7、通过成对排名网络损失最大化相关文档和不相关文档之间的分数差异来训练跨语言深度关联匹配模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110344892.7A CN113076398B (zh) | 2021-03-30 | 2021-03-30 | 基于双语词典映射指导的跨语言信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110344892.7A CN113076398B (zh) | 2021-03-30 | 2021-03-30 | 基于双语词典映射指导的跨语言信息检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113076398A true CN113076398A (zh) | 2021-07-06 |
CN113076398B CN113076398B (zh) | 2022-07-29 |
Family
ID=76611794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110344892.7A Active CN113076398B (zh) | 2021-03-30 | 2021-03-30 | 基于双语词典映射指导的跨语言信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076398B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689548A (zh) * | 2021-08-02 | 2021-11-23 | 华东师范大学 | 一种基于互注意力Transformer的医学影像三维重建方法 |
CN113761890A (zh) * | 2021-08-17 | 2021-12-07 | 汕头市同行网络科技有限公司 | 一种基于bert上下文感知的多层级语义信息检索方法 |
CN113935329A (zh) * | 2021-10-13 | 2022-01-14 | 昆明理工大学 | 基于自适应特征识别与去噪的非对称文本匹配方法 |
CN116680420A (zh) * | 2023-08-02 | 2023-09-01 | 昆明理工大学 | 基于知识表示增强的低资源跨语言文本检索方法及装置 |
CN116719910A (zh) * | 2023-08-08 | 2023-09-08 | 山东正云信息科技有限公司 | 一种基于人工智能技术的文本查询方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101271461A (zh) * | 2007-03-19 | 2008-09-24 | 株式会社东芝 | 跨语言检索请求的转换及跨语言信息检索方法和系统 |
CN106372187A (zh) * | 2016-08-31 | 2017-02-01 | 中译语通科技(北京)有限公司 | 一种面向大数据的跨语言检索方法 |
CN106570191A (zh) * | 2016-11-11 | 2017-04-19 | 浙江大学 | 基于维基百科的中英文跨语言实体匹配方法 |
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
CN110083826A (zh) * | 2019-03-21 | 2019-08-02 | 昆明理工大学 | 一种基于Transformer模型的老汉双语对齐方法 |
US20200050638A1 (en) * | 2018-08-12 | 2020-02-13 | Parker Douglas Hancock | Systems and methods for analyzing the validity or infringment of patent claims |
CN111310480A (zh) * | 2020-01-20 | 2020-06-19 | 昆明理工大学 | 一种基于英语枢轴的弱监督汉越双语词典构建方法 |
CN111753557A (zh) * | 2020-02-17 | 2020-10-09 | 昆明理工大学 | 融合emd最小化双语词典的汉-越无监督神经机器翻译方法 |
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN112287695A (zh) * | 2020-09-18 | 2021-01-29 | 昆明理工大学 | 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 |
CN112287694A (zh) * | 2020-09-18 | 2021-01-29 | 昆明理工大学 | 基于共享编码器的汉越无监督神经机器翻译方法 |
CN112287688A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
US20210049236A1 (en) * | 2019-08-15 | 2021-02-18 | Salesforce.Com, Inc. | Systems and methods for a transformer network with tree-based attention for natural language processing |
CN112507732A (zh) * | 2020-11-05 | 2021-03-16 | 昆明理工大学 | 融入双语词典的无监督汉-越神经机器翻译方法 |
-
2021
- 2021-03-30 CN CN202110344892.7A patent/CN113076398B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101271461A (zh) * | 2007-03-19 | 2008-09-24 | 株式会社东芝 | 跨语言检索请求的转换及跨语言信息检索方法和系统 |
CN106372187A (zh) * | 2016-08-31 | 2017-02-01 | 中译语通科技(北京)有限公司 | 一种面向大数据的跨语言检索方法 |
CN106570191A (zh) * | 2016-11-11 | 2017-04-19 | 浙江大学 | 基于维基百科的中英文跨语言实体匹配方法 |
US20200050638A1 (en) * | 2018-08-12 | 2020-02-13 | Parker Douglas Hancock | Systems and methods for analyzing the validity or infringment of patent claims |
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
CN110083826A (zh) * | 2019-03-21 | 2019-08-02 | 昆明理工大学 | 一种基于Transformer模型的老汉双语对齐方法 |
US20210049236A1 (en) * | 2019-08-15 | 2021-02-18 | Salesforce.Com, Inc. | Systems and methods for a transformer network with tree-based attention for natural language processing |
CN111310480A (zh) * | 2020-01-20 | 2020-06-19 | 昆明理工大学 | 一种基于英语枢轴的弱监督汉越双语词典构建方法 |
CN111753557A (zh) * | 2020-02-17 | 2020-10-09 | 昆明理工大学 | 融合emd最小化双语词典的汉-越无监督神经机器翻译方法 |
CN112287688A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
CN112287695A (zh) * | 2020-09-18 | 2021-01-29 | 昆明理工大学 | 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 |
CN112287694A (zh) * | 2020-09-18 | 2021-01-29 | 昆明理工大学 | 基于共享编码器的汉越无监督神经机器翻译方法 |
CN112257453A (zh) * | 2020-09-23 | 2021-01-22 | 昆明理工大学 | 融合关键词和语义特征的汉越文本相似度计算方法 |
CN112507732A (zh) * | 2020-11-05 | 2021-03-16 | 昆明理工大学 | 融入双语词典的无监督汉-越神经机器翻译方法 |
Non-Patent Citations (3)
Title |
---|
杨辉 等: "基于词典的英汉双向跨语言信息检索方法", 《计算机工程》, vol. 35, no. 16, 20 August 2009 (2009-08-20), pages 273 * |
车万金 等: "融入分类词典的汉越混合网络神经机器翻译集外词处理方法", 《中文信息学报》, vol. 33, no. 12, 15 December 2019 (2019-12-15), pages 67 - 75 * |
马路佳: "蒙汉跨语言信息检索模型研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》, no. 01, 15 January 2019 (2019-01-15), pages 138 - 5636 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689548A (zh) * | 2021-08-02 | 2021-11-23 | 华东师范大学 | 一种基于互注意力Transformer的医学影像三维重建方法 |
CN113689548B (zh) * | 2021-08-02 | 2023-06-23 | 华东师范大学 | 一种基于互注意力Transformer的医学影像三维重建方法 |
CN113761890A (zh) * | 2021-08-17 | 2021-12-07 | 汕头市同行网络科技有限公司 | 一种基于bert上下文感知的多层级语义信息检索方法 |
CN113761890B (zh) * | 2021-08-17 | 2024-04-16 | 汕头市同行网络科技有限公司 | 一种基于bert上下文感知的多层级语义信息检索方法 |
CN113935329A (zh) * | 2021-10-13 | 2022-01-14 | 昆明理工大学 | 基于自适应特征识别与去噪的非对称文本匹配方法 |
CN116680420A (zh) * | 2023-08-02 | 2023-09-01 | 昆明理工大学 | 基于知识表示增强的低资源跨语言文本检索方法及装置 |
CN116680420B (zh) * | 2023-08-02 | 2023-10-13 | 昆明理工大学 | 基于知识表示增强的低资源跨语言文本检索方法及装置 |
CN116719910A (zh) * | 2023-08-08 | 2023-09-08 | 山东正云信息科技有限公司 | 一种基于人工智能技术的文本查询方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113076398B (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113076398B (zh) | 基于双语词典映射指导的跨语言信息检索方法 | |
CN109271505B (zh) | 一种基于问题答案对的问答系统实现方法 | |
CN117573843B (zh) | 一种基于知识校准和检索增强的医疗辅助问答方法及系统 | |
CN115033670B (zh) | 多粒度特征融合的跨模态图文检索方法 | |
CN113377897B (zh) | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 | |
CN114020768A (zh) | 中文自然语言的sql语句生成模型的构建方法及应用 | |
CN112256847B (zh) | 融合事实文本的知识库问答方法 | |
Legrand et al. | Neural network-based word alignment through score aggregation | |
CN115761753A (zh) | 一种融合知识图谱的检索式知识前缀引导视觉问答方法 | |
CN111428443A (zh) | 一种基于实体上下文语义交互的实体链接方法 | |
Agić et al. | Baselines and test data for cross-lingual inference | |
CN116414962A (zh) | 一种基于注意力机制的问答匹配方法 | |
Zhong et al. | Evaluating token-level and passage-level dense retrieval models for math information retrieval | |
CN114648024A (zh) | 基于多类型词信息引导的汉越跨语言摘要生成方法 | |
CN114997181A (zh) | 一种基于用户反馈修正的智能问答方法及系统 | |
CN110502759B (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 | |
CN116049422A (zh) | 基于联合抽取模型的包虫病知识图谱构建方法及其应用 | |
CN115034221A (zh) | 基于BiLSTM结合全局指针的重叠关系抽取系统 | |
CN117633148A (zh) | 一种基于融合多策略对比学习的医学术语标准化方法 | |
CN116956944A (zh) | 一种融合句法信息的濒危语言翻译模型方法 | |
CN103235833B (zh) | 一种借助统计机器翻译的答案检索方法及装置 | |
Zhang et al. | Self-supervised bilingual syntactic alignment for neural machine translation | |
CN115238705A (zh) | 语义解析结果重排序方法及系统 | |
Jia et al. | Bilingual terminology extraction from comparable e-commerce corpora | |
CN111428499A (zh) | 一种融合近义词信息用于自动问答系统的成语压缩表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |