CN114239612A - 一种多模态神经机器翻译方法、计算机设备及存储介质 - Google Patents

一种多模态神经机器翻译方法、计算机设备及存储介质 Download PDF

Info

Publication number
CN114239612A
CN114239612A CN202111501164.9A CN202111501164A CN114239612A CN 114239612 A CN114239612 A CN 114239612A CN 202111501164 A CN202111501164 A CN 202111501164A CN 114239612 A CN114239612 A CN 114239612A
Authority
CN
China
Prior art keywords
visual
visual entity
source language
translation
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111501164.9A
Other languages
English (en)
Inventor
熊德意
王德鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Publication of CN114239612A publication Critical patent/CN114239612A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种多模态神经机器翻译方法,构建包括视觉实体检测器、编码器和解码器的多模态神经机器翻译模型;编码器包括依次连接的双向GRU模块及视觉实体与源语言注意力模块;解码器包括依次连接的多头注意力层和单向GRU模块;视觉实体检测器用于识别并提取图像中视觉实体特征向量,其将提取的视觉实体特征向量分别输出至双向GRU模块及视觉实体与源语言注意力模块;将双向GRU模块及视觉实体与源语言注意力模块的输出,用序列特征平均池化法聚合成混合模态的源语言特征向量,并将聚合后的源语言特征向量输入至解码器。本发明还公开一种配合实施的计算机设备及存储介质。本发明提升了视觉实体与文本之间细粒度的匹配效果及翻译效果。

Description

一种多模态神经机器翻译方法、计算机设备及存储介质
技术领域
本发明涉及一种机器翻译方法,特别涉及一种多模态神经机器翻译方法、计算机设备及存储介质。
背景技术
目前,多模态神经机器翻译(Multimodal neural Machine Translation,简称为MMT),旨在将与其他模态(例如口语翻译中的音频或视觉引导翻译中的图像视频)配对的句子翻译成目标语言文字。其中,基于图像的MMT是最为广泛的应用之一。
与仅文本的神经机器翻译(NMT)相比,MMT的特征在于它存在以下假设:基于文本的含义,附加的图像提供了额外的上下文信息来帮助改善翻译。具体而言,基于图像的MMT利用视觉信息,能够辅助完成翻译过程的语义消歧(如中心词翻译为更准确的性别倾向的词语)、更正源语言中的错别单词等。
然而,自从第一个基于图像的视觉-文本双模态MMT数据集Multi30K被提出以来,将视觉信息和语言视觉有效地交互集成到机器翻译中一直被视为巨大的挑战。最新的研究和探测实验发现,仅使用现有的多模态神经机器翻译数据集来训练的翻译模型中,视觉模态所带来的翻译效果提升并不明显,主要原因在于:仅有的基于图像的MMT训练集Multi30K规模太小,且高频词的共现形式单一、重复率高,仅仅利用文本信息足够达到较小的训练损失,以至于模型在训练中倾向于从文本组合学习翻译知识而忽略视觉信息,导致无法学习到细粒度的跨模态对齐信息;此外,数据集中词汇分布呈现长尾分布,也会导致低频词的翻译不理想。
发明内容
本发明为解决公知技术中存在的技术问题而提供一种高效的利用实体掩码改进的多模态神经机器翻译方法、计算机设备及存储介质。
本发明为解决公知技术中存在的技术问题所采取的技术方案是:一种多模态神经机器翻译方法,构建包括视觉实体检测器、编码器和解码器的多模态神经机器翻译模型;编码器包括依次连接的双向GRU模块及视觉实体与源语言注意力模块;解码器包括依次连接的源语言与目标语言注意力模块和单向GRU模块;视觉实体检测器用于识别并提取图像中的视觉实体特征向量;视觉实体与源语言注意力模块用于学习视觉实体与源语言文本的关联性;源语言与目标语言注意力模块用于学习源语言文本与目标语言文本的关联性;视觉实体检测器将提取的视觉实体特征向量分别输出至双向GRU模块及视觉实体与源语言注意力模块;将源语言的文本向量序列输入至双向GRU模块;将双向GRU模块及视觉实体与源语言注意力模块的输出,采用序列特征平均池化方法,聚合成混合模态的源语言特征向量,并将聚合后的源语言特征向量输入至源语言与目标语言注意力模块;最后由单向GRU模块输出对应的目标语言向量序列。
进一步地,视觉实体检测器识别并提取图像中的视觉实体特征向量的方法包括:视觉实体检测器对图像中的实体进行提取并附加预先定义好的实体类别;实体类别所对应的含义均用文本分词表示;设源语言由n个文本分词组成,从与源语言对应的图像中提取出m个视觉实体;通过文本预训练语言模型对视觉实体与源语言的文本分词进行匹配,m个实体对应匹配m个文本分词,得到对应m个视觉实体的静态词嵌入向量序列,记为:Om={o1,o2,o3,…,om};对源语言采用同一文本预训练语言模型进行提取,得到源语言的静态词嵌入向量序列,记为:
Figure BDA0003401682380000021
遍历
Figure BDA0003401682380000022
和Om之间所有静态词嵌入向量并两两组合,计算得到
Figure BDA0003401682380000023
和OM两两组合文本词嵌入余弦相似度矩阵。
进一步地,文本预训练语言模型对视觉实体与源语言的文本分词进行匹配时,第i个视觉实体与源语言文本分词的相关性的计算公式如下:
OSSi=maxSi,1:n,i=1,2,…,m;
式中,OSSi表示第i个视觉实体与源语言的相关性,Si,1:n表示第i个视觉实体与源语言的第1个文本分词至第n个文本分词的语义相似度;
使用经验阈值γ判断每个视觉实体和源语言是否相关,记为二元符号序列D={d1,d2,…,dm},设di=0时表示第i个视觉实体和源语言无关,di=1时表示第i个视觉实体和源语言有关,当OSSi≥γ时,di=1;当OSSi<γ时,di=0。
进一步地,视觉实体检测器为提取的每个视觉实体特征向量设置一个二元掩码标志位,记为mask;该掩码标志位控制不同的视觉实体特征向量是否被输入到编码器;每个样本的mask向量是单个样本的所有mask拼接的结果;mask的取值集合为{0,1},设当mask=1时,该mask对应的视觉实体会参与模型的前向传播;当mask=0时,该mask对应的视觉实体不会参与模型的前向传播。
进一步地,在不改变源语言词向量序列输入的情况下,分别计算当不同掩码的视觉实体输入词向量序列作为模型输入时的翻译交叉熵损失;设当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lo;设当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lr;设当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lir;设Lm为综合视觉实体掩码损失,Lm的计算公式如下:
Lm=-(Lr-Lo)+(Lir-Lo)2
进一步地,设目标语言由r个文本分词组成,采用视觉信息对目标语言中每个文本分词翻译损失进行重新加权,将重新加权后的翻译损失称为视觉加权翻译损失:设Lv为视觉加权翻译损失,则Lv的计算公式如下:
Figure BDA0003401682380000031
Figure BDA0003401682380000032
TSVj=maxS′j,1:n,j=1,2,…,r。
上述式中,qj为对应目标语言的第j个文本分词的加权因子;
Figure BDA0003401682380000035
是目标语言中第j个文本分词的翻译交叉熵损失;TSVj为目标语言的第j个文本分词和源语言的相关性;S′j,1:n表示目标语言的第j个文本分词与源语言的第1个文本分词至第n个文本分词的语义相似度;fj是目标语言中第j个文本分词在训练集中的词频。
进一步地,在不改变源语言词向量序列输入的情况下,分别计算当不同掩码的视觉实体输入词向量序列作为模型输入时的翻译交叉熵损失;设当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lo;设当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lr;设当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lir;设Lm为综合视觉实体掩码损失,Lm的计算公式如下:
Lm=-(Lr-Lo)+(Lir-Lo)2
设目标语言由r个文本分词组成,采用视觉信息对目标语言中每个文本分词翻译损失进行重新加权,将重新加权后的翻译损失称为视觉加权翻译损失:设Lv为视觉加权翻译损失,则Lv的计算公式如下:
Figure BDA0003401682380000033
Figure BDA0003401682380000034
TSVj=maxS′j,1:n,j=1,2,…,r。
式中,qj为对应目标语言的第j个文本分词的加权因子;
Figure BDA0003401682380000042
是目标语言中第j个文本分词的翻译交叉熵损失;TSVj为目标语言的第j个文本分词和源语言的相关性;S′j,1:n表示目标语言的第j个文本分词与源语言的第1个文本分词至第n个文本分词的语义相似度;fj是目标语言中第j个文本分词在训练集中的词频;
将综合视觉实体掩码损失与视觉加权翻译损失集成为综合训练损失函数,设Lovc为综合训练损失函数,其计算公式如下:
Figure BDA0003401682380000041
其中,α和β分别是Lm和Lv的加权因子。
进一步地,训练集采用Multi30K样本集,采用数据集分割方式处理Multi30K,得到20000~29000个训练集样本;开发集从Multi30K样本集中抽取1014~2000个样本,且开发集和训练集没有重合样本;测试集采用2种测试集,一种测试集从与Multi30K属于相同领域的WMT17 MMT测试集中抽取1000~2000个人工去重的样本,一种测试集从与Multi30K属于不同领域的COCO测试集中抽取500~700个人工去重的样本。
本发明还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上所述的多模态神经机器翻译方法步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时,实现如上所述的多模态神经机器翻译方法步骤。
本发明具有的优点和积极效果是:本发明的多模态神经机器翻译模型具有更好的跨模态匹配能力以及更好的翻译能力,我们在现有的MMT开源基准数据集上进行了多项实验,并与已有的MMT模型进行对比;实验和分析结果表明:本发明的多模态神经机器翻译模型有效地提升了视觉实体与文本之间细粒度的匹配效果,并提升了翻译效果。
采用本发明所提出的两种附加损失函数训练,本发明的多模态神经机器翻译模型优于现有的基于Transformer和基于RNN的MMT模型;平均提高0.25个BLEU值和0.10个METEOR值。
在配备了本发明所提出的综合视觉实体掩码损失函数和视觉加权翻译损失函数后,本发明的多模态神经机器翻译模型优于图像级和视觉实体级MMT模型。使用附加的综合视觉实体掩码损失函数,平均提高了0.4~0.6个BLEU和0.3~0.5个METEOR,而使用附加的视觉加权翻译损失函数,提高了0.1~0.7个BLEU和0.2~0.5个METEOR,这表明本发明的目标函数促进了模态融合,增强OVC的视觉-文本跨模态建模能力。
综合视觉实体掩码损失函数和视觉加权翻译损失函数的改善在源语言词汇抽离实验中所带来的翻译提升更大。综合视觉实体掩码损失函数平均提高了3.35个BLEU和3.08个METEOR;视觉加权翻译损失函数平均提高了0.255个BLEU和0.655个METEOR。
附图说明
图1是本发明的一种多模态神经机器翻译模型结构示意图。
图2是本发明的一种源语言视觉词汇抽离工作流程示意图。
图3是本发明的源语言视觉词汇抽离实验的视觉实体-源语言注意力矩阵可视化示意图。
图中:
VASR表示被视觉实体表征关注后的源语言文本表征。
SAV表示文本向量序列。
SSV表示混合模态的源语言表征向量。
Lo为当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失。
Lr为当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失。
Lir为当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失。
Lm为综合视觉实体掩码损失。
Lv为视觉加权翻译损失。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹列举以下实施例,并配合附图详细说明如下:
本发明涉及的部分英文及缩写的中文注释如下:
MMT模型:多模态神经机器翻译模型。
Object-level Visual Context Modeling MMT framework:对象级情境多模态建模框架,简称OVC。
Teacher-force方式:一种用来快速而有效地训练循环神经网络模型的方法,这种方法以上一时刻的输出作为下一时刻的输入。
Adam优化器:深度学习中最流行的优化器之一。它适用于很多种问题,包括带稀疏或带噪声梯度的模型。Adam优化器结合AdaGrad优化器和RMSProp优化器的优点,其易于精调的特性使得它能够快速获得很好的结果。
Kaiming归一法:由Kaiming于《Delving deep into rectifiers:Surpassinghuman-levelperformance on ImageNet classification》一文中提出的深度学习模型参数初始化方法。
query矩阵:查询矩阵。
key矩阵:键矩阵。
value矩阵:值矩阵。
Mask:掩码。
Object-masking Loss:视觉实体掩码损失。
Vision-weighted Translation Loss:视觉加权翻译损失。
Object-to-Source Similarity:视觉实体对源语言语句相关性,简称OSS。
GRU模块,即门控循环单元神经网络模块,最适合语音识别、自然语言处理和机器翻译。与LSTM一起,它们在长序列问题领域表现优良。
请参见图1至图3,一种多模态神经机器翻译方法,构建包括视觉实体检测器、编码器和解码器的多模态神经机器翻译模型;编码器包括依次连接的双向GRU模块及视觉实体与源语言注意力模块;解码器包括依次连接的源语言与目标语言注意力模块和单向GRU模块;视觉实体检测器用于识别并提取图像中的视觉实体特征向量;视觉实体与源语言注意力模块用于学习视觉实体与源语言文本的关联性;源语言与目标语言注意力模块用于学习源语言文本与目标语言文本的关联性;视觉实体检测器将提取的视觉实体特征向量分别输出至双向GRU模块及视觉实体与源语言注意力模块;将源语言的文本向量序列输入至双向GRU模块;将双向GRU模块及视觉实体与源语言注意力模块的输出,采用序列特征平均池化方法,聚合成混合模态的源语言特征向量,并将聚合后的源语言特征向量输入至源语言与目标语言注意力模块;最后由单向GRU模块输出对应的目标语言向量序列。双向GRU模块输入源语言的文本向量序列及来自视觉实体检测器的视觉实体特征向量;视觉实体与源语言注意力模块输入来自双向GRU模块的输出及来自视觉实体检测器的视觉实体特征向量;双向GRU模块及视觉实体与源语言注意力模块,这两者的输出采用序列特征平均池化方法,聚合成混合模态的源语言特征向量,输入至源语言与目标语言注意力模块,源语言与目标语言注意力模块的输出,输入至单向GRU模块,单向GRU模块输出对应的目标语言向量序列。
GRU模块,即门控循环单元神经网络模块,最适合语音识别、自然语言处理和机器翻译。与LSTM一起,它们在长序列问题领域表现优良。
双向GRU模块可用于提取源语言的双向语义特征,并输出隐藏状态和文本向量序列;视觉实体与源语言注意力模块可用于提取被视觉实体表征关注后的源语言文本特征。
进一步地,视觉实体检测器可对图像中的实体进行提取并附加预先定义好的实体类别;实体类别所对应的含义均可用文本分词表示;可设源语言由n个文本分词组成,从与源语言对应的图像中提取出m个视觉实体;可通过文本预训练语言模型对视觉实体与源语言的文本分词进行匹配,m个实体对应匹配m个文本分词,可得到对应m个视觉实体的静态词嵌入向量序列,记为:Om={o1,o2,o3,…,om};可对源语言采用同一文本预训练语言模型进行提取,得到源语言的静态词嵌入向量序列,记为:
Figure BDA0003401682380000071
Figure BDA0003401682380000072
可遍历
Figure BDA0003401682380000073
和Om之间所有静态词嵌入向量并两两组合,计算得到
Figure BDA0003401682380000074
和OM两两组合文本词嵌入余弦相似度矩阵。
进一步地,文本预训练语言模型对视觉实体与源语言的文本分词进行匹配时,第i个视觉实体与源语言文本分词的相关性的计算公式可如下:
OSSi=maxSi,1:n,i=1,2,…,m。
式中,OSSi表示第i个视觉实体与源语言的相关性,Si,1:n表示第i个视觉实体与源语言的第1个文本分词至第n个文本分词的语义相似度。视觉实体和源语言的相关性计算方法可采用现有技术中的计算方法,
可使用经验阈值γ判断每个视觉实体和源语言是否相关,可取γ=0.48,可记为二元符号序列D={d1,d2,…,dm},可设di=0时表示第i个视觉实体和源语言无关,di=1时表示第i个视觉实体和源语言有关,当OSSi≥γ时,di=1;当OSSi<γ时,di=0。
进一步地,视觉实体检测器可为提取的每个视觉实体特征向量设置一个二元掩码标志位,记为mask;该掩码标志位可控制不同的视觉实体特征向量是否被输入到编码器;每个样本的mask向量是单个样本的所有mask拼接的结果;mask的取值集合为{0,1},设当mask=1时,该mask对应的视觉实体会参与模型的前向传播;当mask=0时,该mask对应的视觉实体不会参与模型的前向传播。
进一步地,可采用多种与翻译过程相联系的视觉实体输入词向量序列,用来训练模型:视觉实体输入序列包括:包含所有视觉实体的视觉实体输入词向量序列;去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列;去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列。
进一步地,在不改变源语言词向量序列输入的情况下,可分别计算当不同掩码的视觉实体输入词向量序列作为模型输入时的翻译交叉熵损失;可设当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lo;可设当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lr;可设当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lir;可设Lm为综合视觉实体掩码损失,Lm的计算公式可如下:
Lm=-(Lr-Lo)+(Lir-Lo)2
进一步地,可设目标语言由r个文本分词组成,采用视觉信息对目标语言中每个文本分词翻译损失进行重新加权,可将重新加权后的翻译损失称为视觉加权翻译损失:可设Lv为视觉加权翻译损失,则Lv的计算公式如下:
Figure BDA0003401682380000081
Figure BDA0003401682380000082
TSVj=maxS′j,1:n,j=1,2,…,r。
式中,qj为对应目标语言的第j个文本分词的加权因子;
Figure BDA0003401682380000083
是目标语言中第j个文本分词的翻译交叉熵损失;TSVj为目标语言的第j个文本分词和源语言的相关性;S′j,1:n表示目标语言的第j个文本分词与源语言的第1个文本分词至第n个文本分词的语义相似度;fj是目标语言中第j个文本分词在训练集中的词频。
进一步地,以不同掩码造成的翻译损失表征不同视觉输入所导致的翻译效果,以翻译损失之间的差异表征翻译效果的差异,整合成对实体掩码敏感的实体掩码损失,来优化多模态神经机器翻译模型。
在不改变源语言词向量序列输入的情况下,可分别计算当不同掩码的视觉实体输入词向量序列作为模型输入时的翻译交叉熵损失;可设当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lo;可设当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lr;可设当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lir;可设Lm为综合视觉实体掩码损失,Lm的计算公式如下:
Lm=-(Lr-Lo)+(Lir-Lo)2
可设目标语言由r个文本分词组成,采用视觉信息对目标语言中每个文本分词翻译损失进行重新加权,可将重新加权后的翻译损失称为视觉加权翻译损失:可设Lv为视觉加权翻译损失,则Lv的计算公式如下:
Figure BDA0003401682380000091
Figure BDA0003401682380000092
TSVj=maxS′j,1:n,j=1,2,…,r。
式中,qj为对应目标语言的第j个文本分词的加权因子;
Figure BDA0003401682380000094
是目标语言中第j个文本分词的翻译交叉熵损失;TSVj为目标语言的第j个文本分词和源语言的相关性;S′j,1:n表示目标语言的第j个文本分词与源语言的第1个文本分词至第n个文本分词的语义相似度;fj是目标语言中第j个文本分词在训练集中的词频;
可将综合视觉实体掩码损失与视觉加权翻译损失集成为综合训练损失函数,设Lovc为综合训练损失函数,其计算公式可如下:
Figure BDA0003401682380000093
其中,α和β分别是Lm和Lv的加权因子。α可取值为0.1~0.2,β可取值为0.1~0.2。
进一步地,训练集可采用Multi30K样本集,可采用数据集分割方式处理Multi30K,得到20000~29000个训练集样本;开发集可从Multi30K样本集中抽取1014~2000个样本,且开发集和训练集没有重合样本;测试集可采用2种测试集,一种测试集从与Multi30K属于相同领域的WMT17 MMT测试集中抽取1000~2000个人工去重的样本,一种测试集从与Multi30K属于不同领域的COCO测试集中抽取500~700个人工去重的样本。
本发明还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上所述的多模态神经机器翻译方法步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时,实现如上所述的多模态神经机器翻译方法步骤。
下面以本发明的一个优选实施例来进一步说明本发明的工作流程及工作原理:
针对现有多模态神经机器翻译模型(简称MMT模型),难以利用视觉信息的问题,从提升视觉实体-文本配对能力的角度,设置2种新的损失函数。基于这2个损失函数,继而提出一种新的多模态神经机器翻译模型建模框架,称之为Object-level Visual ContextModeling MMT framework,中文释义为对象级情境多模态建模框架,以下简称为OVC。
在本发明的OVC中,MMT模型所采用的视觉基础建模单元是检测出的视觉实体,文本基础建模单元是文本分词。可假设源语言由n个文本分词组成,目标语言由r个文本分词组成,对应的图像中被检测出m个视觉实体。令Om={o1,o2,o3,…,om}表示一张图片中视觉实体检测器提取的视觉表示,其中om表示视觉实体检测器所提取的第m个视觉实体的特征向量。令
Figure BDA0003401682380000101
表示从MMT模型源语言端抽取的源语言文本分词的词嵌入向量序列。
Figure BDA0003401682380000102
表示从MMT模型源语言端抽取的第i个源语言文本分词。
一、建立多模态神经机器翻译模型。
基于GRU和注意力机制模型,构建包括视觉实体检测器、编码器和解码器的多模态神经机器翻译模型,多模态神经机器翻译模型框架图见图1。
其中,编码器由一个双向的GRU模块
Figure BDA0003401682380000103
串联一个视觉实体与源语言注意力模块构成。
Figure BDA0003401682380000104
学习源语言的双向语义信息,注解成隐藏状态
Figure BDA0003401682380000105
和文本向量序列(即图1的SAV),记为
Figure BDA0003401682380000106
Figure BDA0003401682380000107
MultiHead0是流行的多头注意力层,在编码层中学习被视觉实体表征关注后的源语言文本表征VASR。用Multihead(Q,K,V)公式表示多头注意力的查询(query)矩阵、键(key)矩阵和值(value)矩阵的计算过程,VASR表示为:
Figure BDA0003401682380000108
接着,使用序列特征平均池化操作(记为AP)将VASR和
Figure BDA0003401682380000109
聚合成一个混合模态的源语言表征向量SSV,作为本发明的OVC的解码器输入特征。
Figure BDA00034016823800001010
多模态神经机器翻译模型的解码器由多头注意力层Multihead1和单向GRU模块组成,具体实践过程中,单向GRU模块含有两个单层的GRU层(
Figure BDA0003401682380000111
Figure BDA0003401682380000112
)。在第i+1步解码过程中,定义
Figure BDA0003401682380000113
Figure BDA0003401682380000114
当次解码产生的中间状态。
Figure BDA0003401682380000115
整合前一次解码的隐层状态作为历史状态,将前一次的解码词的词嵌入作为特征输入,生成
Figure BDA0003401682380000116
Figure BDA0003401682380000117
接着,将
Figure BDA0003401682380000118
作为query、VASR作为key和value,输入到多头注意力层Multihead1进行前向计算,获得基于视觉信息增强的状态向量Ti+1
Figure BDA0003401682380000119
基于此,
Figure BDA00034016823800001110
进一步整合
Figure BDA00034016823800001111
作为历史状态、Ti+1作为特征输入,生成当次的隐藏状态
Figure BDA00034016823800001112
和学习的特征
Figure BDA00034016823800001113
Figure BDA00034016823800001114
最后,
Figure BDA00034016823800001115
经过一层线性层与softmax逻辑回归模型映射为词表上每个词的概率分布。而关于解码的初始化,使用SSV作为解码生成第一个词的初始特征T0。设[sos](Start Of Sentence symbol)为输入解码器的第一个文本分词:
Figure BDA00034016823800001116
Figure BDA00034016823800001117
二、设置损失函数,设置的损失函数包含两种,一种为视觉实体掩码损失,另一种为视觉加权翻译损失函数。
1、视觉实体掩码损失的计算方法。
视觉实体掩码损失(Object-masking Loss),是基于视觉实体掩码与视觉实体-文本相关性所构成的三种视觉特征输入所造成的翻译误差,而建立的新型MMT损失函数。
关于视觉实体掩码、视觉实体-文本相关性和三种视觉特征输入的定义如下:
视觉实体掩码:
在MMT建模过程中,本发明为每个视觉实体设置一个二元掩码(mask)标志位,记为mask。该掩码控制不同的视觉实体是否被输入到模型的输入端。每个样本的MASK向量是单个样本的所有mask拼接的结果。mask的取值集合为{0,1},并且有如下规定:
当mask=1时,该mask对齐的视觉实体会参与模型的前向传播。
当mask=0时,该mask对齐的视觉实体不会参与模型的前向传播。
对齐可以解释为关联性。每个视觉实体和每个文本分词都有一个加权系数,权重大表示关联性强,即对齐的可能性大。
按照注意力机制计算的概率作为对齐加权分数,而不是强行分配严格的零一对齐,即为软对齐;
注意力机制,即为一种深度学习的基础模块;注意力机制是通过配对的Query和Key计算Query-Key注意力分数,并对对应的Value实现注意力融合的机制。具体实现为:点积运算计算Query和Key两者元素之间的相关程度并经过softmax后,作为归一化的Query-Key注意力分数,再点乘Value,完成软加权。
视觉实体-文本相关性:
视觉实体-文本相关性用来度量从图像中提取的视觉实体与文本模态的文字之间的相关程度,比如要求小猫图像与单词“cat”有高度相关性,而小猫图像与单词“plane”有低相关性。
为了实现这个目的,本发明采用基于神经网络的视觉实体检测器,为每张图像抽取出视觉实体并附加人为预先定义好的实体类别。这些类别所对应的含义均可用文本分词表示。比如,一张图像中的多只猫会被统一检测并标记为规整的“cat”类。m个视觉实体单独配对了m个规整的文字类别。借助文本预训练语言模型,本发明抽取出这m个文本分词的静态词嵌入向量序列,记为集合Om,Om={o1,o2,o3,…,om}。
对待源语言,借助同一预训练语言模型,所有源语言文本分词被抽取形成静态词嵌入向量序列,记为:
Figure BDA0003401682380000121
接着,遍历
Figure BDA0003401682380000122
和Om之间所有词嵌入向量的两两组合,计算出m*n种组合的文本词嵌入余弦相似度构成矩阵,记为矩阵Sm*n
一个视觉实体和源语言语句的相关性表述了一个视觉实体是否被该语句提及。基于此假设,进一步将视觉实体和源语言语句的相关性,定义为视觉实体对源语言语句相关性(Object-to-Source Similarity),简称OSS,OSS表示为一个视觉实体和源语言语句中所有文本分词的最大语义相似度,公式表示为:
OSSi=maxSi,1:n,i=1,2,…,m。
OSSi表示第i个视觉实体与源语言的相关性;基于OSS,使用经验阈值γ判断每个视觉实体和源语言是否相关,记为二元符号序列D={d1,d2,…,dm},0值表示无关,1值表示有关:
di=1if OSSi>γotherwise 0,i=1,2,…,m。
三类视觉实体输入序列:
基于前文所定义的视觉实体与源语言是否相关,定义了三类与翻译过程相联系的视觉实体输入序列,用来训练模型:
第一种视觉实体输入序列,记为om:所有视觉实体都参与模型计算,这是最典型的MMT视觉特征输入。
第二种视觉实体输入序列,记为
Figure BDA0003401682380000131
表示人为控制部分与翻译有关的视觉实体不参与模型计算,即存在di=1且maski=0的情况。
第三种视觉实体输入序列,记为
Figure BDA0003401682380000132
表示人为控制部分与翻译无关的视觉实体不参与模型计算,即存在di=0且maski=0的情况。
设置视觉实体掩码损失的设置原理:
基于既定的事实“源语言直接决定了翻译过程所涉及的视觉实体”,本发明借鉴人类沟通的视觉指代现象,得出以下假设:和全部视觉实体都参与计算的翻译结果相比,与翻译不相关的视觉实体不参与计算时,不会产生明显的翻译变化;相反,如果与翻译相关的部分视觉实体不参与计算时,将导致翻译效果显著恶化。
借助前文定义的视觉实体掩码MASK,以不同掩码造成的翻译损失表征不同视觉输入所导致的翻译效果,以翻译损失之间的差异表征翻译效果的差异,整合成对视觉实体掩码敏感的视觉实体掩码损失,来优化MMT模型。
设置视觉实体掩码损失的目的有两个:
强制MMT模型惩罚与翻译相关的视觉实体不参与计算的情况。这强调了只有源语言中对应视觉的文本分词和图像中对应的视觉实体同时参与计算,才能得到好的翻译结果。
奖励与翻译不相关的视觉实体不参与计算的情况。这要求与翻译无关的视觉实体不会对翻译带来负面影响。
视觉实体掩码损失的计算过程:
传统的MMT翻译损失计算了所有目标语言文本分词预测的交叉熵损失,该损失的计算过程可以描述为L(Om,Wn),表示基于给定的视觉实体输入序列和源语言词向量序列,所造成的翻译交叉熵损失。本发明使用L(Om,Wn)作为损失基础,并拓展成视觉实体掩码损失。
第一类视觉实体序列和源语言语句作为输入情况下所造成的翻译损失,记为
Lo=L(Om,Wn)。
第二类视觉实体序列和源语言语句作为输入情况下所造成的翻译损失,记为
Figure BDA0003401682380000133
第三类视觉实体序列和源语言语句作为输入情况下所造成的翻译损失,记为
Figure BDA0003401682380000141
旨在最小化视觉实体掩码损失,将上述三种视觉实体序列和源语言语句作为输入情况下所造成的翻译损失进行综合,设Lm表示综合视觉实体掩码损失:
Lm=-(Lr-Lo)+(Lir-Lo)2
式中,Om表示所有视觉实体都参与模型计算时输入模型的视觉实体的静态词嵌入向量序列;
Figure BDA0003401682380000142
表示人为控制部分与翻译有关的视觉实体不参与模型计算时输入模型的视觉实体的静态词嵌入向量序列;
Figure BDA0003401682380000143
表示人为控制部分与翻译无关的视觉实体不参与模型计算时输入模型的视觉实体的静态词嵌入向量序列;WM表示源语言文本分词的词嵌入向量序列。
Lm分为两个部分。第一个部分-(Lr-Lo)代表第二类视觉实体序列输入理应造成比第一类视觉实体序列输入更差的翻译效果。第二个部分(Lir-Lo)2代表第三类视觉实体序列输入和第一类视觉实体输入应该造成相近的翻译效果。
2、视觉加权翻译损失函数(Vision-weighted Translation Loss)的计算方法:
为了提升视觉实体-文本的对齐效果,从生成目标语言的视觉信息与源语言视觉信息应具有一致性的角度,提出了视觉加权的翻译损失函数,使用视觉信息对目标句子中每个文本分词翻译损失重新加权。将之称为Vision-weighted Translation Loss。
和OSS相似,在训练时,提前利用预训练语言模型词表征,计算了源语言文本分词和目标语言句子文本分词之间的维度为r*n的文本相似度矩阵S',将参考S'来得到突出视觉信息的权重。
接着,整理出源语言中和视觉实体无关的文本分词,并按照它们在句子中的位置,将S'中对应列的元素均置为0。
此后,计算出每个目标文本分词和源语言的相似度向量,记为TSV:
TSVj=maxS′j,1:n,j=1,2,…,r。
式中,TSVj为目标语言的第j个文本分词和源语言的相关性;S′j,1:n表示目标语言的第j个文本分词与源语言的第1个文本分词至第n个文本分词的语义相似度。
最后,为了减少过拟合情况的发生(防止高频词的加权过重、改善对低频词的关注程度),使用统计词频对TSV进行归一化,得出目标句子中每个文本分词的加权因子:
Figure BDA0003401682380000144
其中,fj是目标语言句子中第j个文本分词在训练集中的词频。
至此,得到了Vision-weighted Translation Loss视觉权重翻译损失,视觉权重翻译损失设为Lv
Figure BDA0003401682380000151
其中,qj为对应目标语言的第j个文本分词的加权因子;
Figure BDA0003401682380000153
是目标语言中第j个文本分词的翻译交叉熵损失。
集成的训练损失函数记为Lovc
Figure BDA0003401682380000152
其中,α和β分别是Lm和Lv的加权因子。
预训练文本模型的选择:Multilingual-Cased-Base-BERT。对于含有多个分词的文本分词,将它的所有分词的词嵌入向量做平均加权作为该文本分词的词嵌入表示。注意:预训练文本模型只被用来计算文本之间的相似度,因此,使用其他合适的文本相似度计算工具或者预训练语言模型也可以替代本方案。
文本预处理:直接引用VAG-NMT预处理的数据集分词结果。英语词表大小为8.5K,德语词表大小为9.4K,法语词表大小为8.7K。
视觉实体检测器:选用基于从下至上注意力模型(bottom-up-attention)和从上至下注意力模型(up-down-attention)机制训练的Resnet1011。在每张图片中抽取视觉实体时,设置每张图片检测出32个最大概率的视觉实体,接着,过滤了在所有给定视觉类别概率中最大值小于0.4的视觉实体;最后,选择Resnet101的池化5层输出的2048维特征向量作为MMT模型输入的单个视觉实体特征向量。
γ的设定:通过在训练集中随机采样与观察,设置上文中判断每个视觉实体和源语言是否相关的经验值γ=0.48。
视觉实体掩码损失中的权重设置为:α=0.1,β=0.1。
优化器选择Adam优化器,初始学习率设置为0.001,权重衰减率设置为0.00001。
模型参数初始化采用kaiming归一法进行初始化。
训练所采用的批尺寸设置为32。解码过程采用束搜索,束宽度为12。
训练时,本发明的OVC所采用的解码方式为Teacher-force方式。
本发明的OVC中,源语言和目标语言学习独立的词嵌入表示,两者词嵌入表示均设置为256维;编码器中的所有隐藏状态都设置为512维;解码器中的2个GRU输入维度为256维和512维,输出维度均为512维。
整个训练过程在1块2080ti卡上进行。
为了验证本发明提出的本发明的OVC框架具有更好的跨模态匹配能力以及更好的翻译能力,在现有的MMT开源基准数据集上进行了多项实验,并与已有的MMT模型进行对比;此外,还进行了一系列实验分析。实验和分析结果表明提出的本发明的OVC框架有效地提升了视觉实体与文本之间细粒度的匹配效果,并提升了翻译效果。
实验所使用的数据集:
训练集:Multi30K,该开源数据集从Flickr30K数据集中抽取图像并人为为每张图片标注了一句英语图像描述;基于该英语描述,标注人员进行人工翻译得到对齐的德语版本和法语版本图像描述。Multi30K含有31k个MMT样本。关于训练集具体的划分,沿用2018年VAG-NMT模型实验中采用的数据集分割方式处理Multi30K,得到29000个MMT训练集样本作为训练集。
开发集:WMT 2017MMT任务官方开源的开发集,抽取自Multi30K,共1014个样本。注意:该开发集和上述训练集没有重合样本。
测试集:WMT 2017MMT任务中所使用的2个官方测试集,分别是和Multi30K属于同领域的WMT17 MMT测试集(1000个人工去重的样本)和不同领域的Ambiguous COCO(461个人工去重的样本)。
实验设置:设置了两种多模态机器翻译实验,来验证所设置的方法的有效性。
标准实验:对于此实验,保留源语言文本的所有单词,并将它们作为文本输入给所有MMT模型以进行训练和推理。
源语言视觉词汇抽离实验:在这个实验中,参考了人工标记Flickr30K-Entities。Flickr30K-Entities人为标记了Multi30K训练集中英语视觉词汇在每个MMT样本中的位置和9类类型标签。9类标签分别为:[people]类、[scene]类、[clothing]类、[instruments]类、[animals]类、[body-parts]类、[vehicles]类、[other]类和[not-visual]类。通过将已标记的视觉词汇替换成所对应的类别标签,抽离出了英语句子中具体的视觉信息。由于类别在图片中不可见,无法从图像中得到该类词的信息,会对文本-视觉匹配能力的验证造成误导,所以,不对[not-visual]类词汇进行替换。除此之外,为了对源语言中的视觉词汇剥夺得更彻底,进一步将颜色词统一替换为[color]标签。由于该实验测试时需要上述9类标签信息,而没有WMT 2017MMT任务测试集的标签信息,因此,只在开发集上进行性能测试。
对比的基准模型:现有MMT模型分为两大类,分别是基于Transformer模型和基于RNN模型。分别和这两类基准MMT模型的翻译效果进行了对比。为了公平起见,所有模型都只使用Multi30K作为训练集,没有使用额外的训练数据。在标准实验中,将本发明的OVC与这些基准模型进行了比较,这些基准模型的翻译性能均取自各自的原始论文。用来对比的基准模型如下:
2017年Transformer:基于自关注力机制的神经机器翻译基准模型。
2017年Imagination:基于RNN的Sequence-to-Sequence(从序列到序列的转换模型)MMT系统,它在编码器端隐式地对齐视觉特征空间和源语言特征空间。
2018年VAG-NMT:基于RNN和注意力机制的MMT系统,它使用视觉到文本的注意力层来获得带有视觉信息的文本表示,作为解码器的初始隐藏状态。
2019年VMMT:基于RNN的MMT系统,在KL散度上增加了约束来提高中间潜在变量和原始输入之间的互信息。
2020年GMMT:基于Transformer改写的多层图网络堆叠的MMT模型,它使用了预训练的文本-视觉定位解析器来得到不同视觉实体和文本之间的对齐关系。
2020年VAR-MMT:基于注意力机制的MMT模型,它使用了额外的单词对齐工具获得源语言到目标语言的对齐信息,并基于此对齐信息增加翻译过程的视觉信息一致性约束。
表1:本发明与几种基准模型的实验结果对比:
表1中,
Figure BDA0003401682380000172
代表text-only模型,_i代表使用图像的全局特征作为视觉特征,_o代表
Figure BDA0003401682380000171
使用图像的局部视觉实体特征作为视觉特征,表示基于RNN的模型,表示基于Transformer的模型。
在标准实验中,定义图像的全局特征为image-level feature,局部视觉实体特征为object-level feature。为了使的实验在统计意义上更加可靠,将本发明的OVC框架的每个变体在每类实验上运行3次,并报告3次运行的统计均值方差。采用本发明所提出的两种附加损失函数训练的本发明的OVC或者优于现有的基于Transformer和基于RNN的MMT模型,或者取得了与之相近的结果;平均提高0.25个BLEU值和0.10个METEOR值。
与现有的图像级MMT模型相比,基础的本发明的OVC在翻译准确性上没有优势。例如,在大多数情况下,在WMT17 MMTtestset和AmbiguousCOCO上,基础的本发明的OVC并不优于VAG-NMT_i。推测由于Multi30K数据集小且文本重复率高,而视觉实体级视觉特征包含大量与机器翻译无关的信息,这使得视觉实体级MMT模型很难从仅有的样本中学习细粒度的基础对齐。然而,在配备了本发明所提出的2类目标函数后,本发明的OVC优于图像级和视觉实体级MMT模型。采用本发明所提出的2类目标函数Lm和Lv后,平均提高了0.4~0.6个BLEU和0.3~0.5个METEOR,而使用附加Lm,本发明的OVC提高了0.1~0.7个BLEU和0.2~0.5个METEOR,这表明提出的目标函数促进了模态融合,增强本发明的OVC的视觉-文本跨模态建模能力。
源语言视觉词汇抽离实验结果:
在源语言视觉词汇抽离实验中,使用不同的目标函数作为本发明的OVC模型的变体。同时,训练了纯文本设置下的本发明的OVC_t,在该设定中,去除了本发明的OVC编码器的源注意层,VASR被
Figure BDA0003401682380000181
替换,SSV改写为
Figure BDA0003401682380000182
的平均池化计算结果。实验结果见表2。
表2、源语言视觉词汇抽离实验翻译效果对比。
Figure BDA0003401682380000191
_t代表纯文本模型,_i代表使用图像的全局特征作为视觉特征,_o代表使用图像的局部视觉实体特征作为视觉特征,HM表示硬掩码方法。
根据表2,具有图像级特征(image-level feature)的本发明的OVC优于纯文本版本。在视觉实体级特征(object-level feature)下,本发明的OVC在英法翻译中的表现通常比图像级特征(image-level feature)差,甚至比纯文本本发明的OVC差。这再次证实了本发明相比于现有的MMT模型,在源语言词汇抽离实验中所带来的翻译提升更大。Lm平均提高了3.35个BLEU和3.08个METEOR;Lv平均提高了0.255个BLEU和0.655个METEOR。
为了深入理解视觉实体掩码(MASK)所产生影响,进一步比较硬掩码的方案,记为本发明的OVC_o+HM,即根据预先定义的相似度阈值,从输入端删除与源语言无关的视觉实体,而不采用前述的软掩码方式进行训练。本发明的OVC_o+HM与本发明的OVC_o之间、本发明的OVC_o+Lm与本发明的OVC_o+HM之间的稳定提升表明,掩蔽无关对象的训练方法有助于MMT模型学习到更好的跨模态组合信息。由于Lm与HM的唯一区别是Lm惩罚了与源语言相关的视觉实体被掩码的情况,所以Lm相比于HM的翻译性能提升表明了所提出的Lm是一种更全面有效的视觉-文本建模训练方法。
为了验证本发明所提出的两种新的训练目标函数:综合视觉实体掩码损失和视觉加权翻译损失,是否帮助本发明的OVC框架改进跨模态信息,在源语言视觉词汇抽离实验中,随机抽取了WMT 2017开发集中的样本并可视化了源语言-视觉实体注意力矩阵,如图3所示。每个方格的颜色代表一个被检测出的视觉实体和一个源语言文本分词的关注分数,颜色越暗代表所对应的视觉实体和文本分词的关注程度越高。每行的关注分数之和等于1。根据图3,基础本发明的OVC原型(不使用Lm和Lv)倾向于为4个与翻译不相关的视觉实体(“Bald head”,“Ear”和2个“Fingers”)分配不合理的过大关注分数。此外,这4个视觉实体所对应的列方格多被描绘为相似的颜色,这表明这4个视觉实体对于不同的词有几乎相近的关注程度。猜想这是因为基础本发明的OVC原型对部分视觉特征过拟合,以至于不能得到合适的源语言-视觉实体关系。本发明的OVC+Lv局部改善了和源语言相关的视觉实体的匹配关系(“White man”和“Man”),然而一些被遮盖的词(比如[color]和[bodyparts])依然没有很好的匹配到对应的视觉实体,这可能是因为训练集比较小、[people]类出现的频次要远高于[clothing]类和[bodyparts]类。所以,和人物相关的单词会被赋予更大的视觉加权损失,迫使本发明的OVC更自然地为其他类分配更小的关注分数。
另一方面,使用视觉实体-掩码损失帮助本发明的OVC分辨和源语言无关的视觉实体,因此它帮助本发明的OVC匹配到了更细节的视觉实体(比如[body-parts]和“Up hand”视觉实体有更大的关注分数).最后,使用联合的Lv+Lm进行训练的本发明的OVC在源语言-视觉实体attention矩阵中得到了四种训练方式里最好的文本分词-视觉实体匹配结果
此外,从WMT 2017MMT任务英语-德语开发集中随机抽取例子进行案例分析,在这案例中,本发明所提出的vision-weighted loss和视觉实体-掩码损失改善了MMT模型对[gender]类、[color]类、[clothing]类和[scene]类遮掩视觉词汇的翻译。然而,发现当一个短句子中存在多个复合的同类视觉遮掩词时,本发明的OVC框架依然很难同时准确翻译出这些词。这个挑战的难度不仅仅局限于MMT中基础的视觉-文本匹配,而且紧密联系着潜在的视觉实体候选项之间的组合(空间组合、属性组合等)与遮掩词之间的关系。
以上所述的实施例仅用于说明本发明的技术思想及特点,其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施,不能仅以本实施例来限定本发明的发明范围,即凡本发明所揭示的精神所作的同等变化或修饰,仍落在本发明的发明范围内。

Claims (10)

1.一种多模态神经机器翻译方法,其特征在于,构建包括视觉实体检测器、编码器和解码器的多模态神经机器翻译模型;编码器包括依次连接的双向GRU模块及视觉实体与源语言注意力模块;解码器包括依次连接的源语言与目标语言注意力模块和单向GRU模块;视觉实体检测器用于识别并提取图像中的视觉实体特征向量;视觉实体与源语言注意力模块用于学习视觉实体与源语言文本的关联性;源语言与目标语言注意力模块用于学习源语言文本与目标语言文本的关联性;视觉实体检测器将提取的视觉实体特征向量分别输出至双向GRU模块及视觉实体与源语言注意力模块;将源语言的文本向量序列输入至双向GRU模块;将双向GRU模块及视觉实体与源语言注意力模块的输出,采用序列特征平均池化方法,聚合成混合模态的源语言特征向量,并将聚合后的源语言特征向量输入至源语言与目标语言注意力模块;最后由单向GRU模块输出对应的目标语言向量序列。
2.根据权利要求1所述的多模态神经机器翻译方法,其特征在于,视觉实体检测器识别并提取图像中的视觉实体特征向量的方法包括:视觉实体检测器对图像中的实体进行提取并附加预先定义好的实体类别;实体类别所对应的含义均用文本分词表示;设源语言由n个文本分词组成,从与源语言对应的图像中提取出m个视觉实体;通过文本预训练语言模型对视觉实体与源语言的文本分词进行匹配,m个实体对应匹配m个文本分词,得到对应m个视觉实体的静态词嵌入向量序列,记为:OM={o1,o2,o3,…,om};对源语言采用同一文本预训练语言模型进行提取,得到源语言的静态词嵌入向量序列,记为:
Figure FDA0003401682370000011
遍历
Figure FDA0003401682370000012
和OM之间所有静态词嵌入向量并两两组合,计算得到
Figure FDA0003401682370000013
和OM两两组合文本词嵌入余弦相似度矩阵。
3.根据权利要求2所述的多模态神经机器翻译方法,其特征在于,文本预训练语言模型对视觉实体与源语言的文本分词进行匹配时,第i个视觉实体与源语言文本分词的相关性的计算公式如下:
OSSi=maxSi,1:n,i=1,2,…,m;
式中,OSSi表示第i个视觉实体与源语言的相关性,Si,1:n表示第i个视觉实体与源语言的第1个文本分词至第n个文本分词的语义相似度;
使用经验阈值γ判断每个视觉实体和源语言是否相关,记为二元符号序列D={d1,d2,…,dm},设di=0时表示第i个视觉实体和源语言无关,di=1时表示第i个视觉实体和源语言有关,当OSSi≥γ时,di=1;当OSSi<γ时,di=0。
4.根据权利要求1所述的多模态神经机器翻译方法,其特征在于,视觉实体检测器为提取的每个视觉实体特征向量设置一个二元掩码标志位,记为mask;该掩码标志位控制不同的视觉实体特征向量是否被输入到编码器;每个样本的mask向量是单个样本的所有mask拼接的结果;mask的取值集合为{0,1},设当mask=1时,该mask对应的视觉实体会参与模型的前向传播;当mask=0时,该mask对应的视觉实体不会参与模型的前向传播。
5.根据权利要求1所述的多模态神经机器翻译方法,其特征在于,在不改变源语言词向量序列输入的情况下,分别计算当不同掩码的视觉实体输入词向量序列作为模型输入时的翻译交叉熵损失;设当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lo;设当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lr;设当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lir;设Lm为综合视觉实体掩码损失,Lm的计算公式如下:
Lm=-(Lr-Lo)+(Lir-Lo)2
6.根据权利要求1所述的多模态神经机器翻译方法,其特征在于,设目标语言由r个文本分词组成,采用视觉信息对目标语言中每个文本分词翻译损失进行重新加权,将重新加权后的翻译损失称为视觉加权翻译损失:设Lv为视觉加权翻译损失,则Lv的计算公式如下:
Figure FDA0003401682370000021
Figure FDA0003401682370000022
TSVj=maxS′j,1:n,j=1,2,…,r;
式中,qj为对应目标语言的第j个文本分词的加权因子;LOj是目标语言中第j个文本分词的翻译交叉熵损失;TSVj为目标语言的第j个文本分词和源语言的相关性;S′j,1:n表示目标语言的第j个文本分词与源语言的第1个文本分词至第n个文本分词的语义相似度;fj是目标语言中第j个文本分词在训练集中的词频。
7.根据权利要求1所述的多模态神经机器翻译方法,其特征在于,在不改变源语言词向量序列输入的情况下,分别计算当不同掩码的视觉实体输入词向量序列作为模型输入时的翻译交叉熵损失;设当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lo;设当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lr;设当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为Lir;设Lm为综合视觉实体掩码损失,Lm的计算公式如下:
Lm=-(Lr-Lo)+(Lir-Lo)2
设目标语言由r个文本分词组成,采用视觉信息对目标语言中每个文本分词翻译损失进行重新加权,将重新加权后的翻译损失称为视觉加权翻译损失:设Lv为视觉加权翻译损失,则Lv的计算公式如下:
Figure FDA0003401682370000031
Figure FDA0003401682370000032
TSVj=maxS′j,1:n,j=1,2,…,r;
式中,qj为对应目标语言的第j个文本分词的加权因子;LOj是目标语言中第j个文本分词的翻译交叉熵损失;TSVj为目标语言的第j个文本分词和源语言的相关性;S′j,1:n表示目标语言的第j个文本分词与源语言的第1个文本分词至第n个文本分词的语义相似度;fj是目标语言中第j个文本分词在训练集中的词频;
将综合视觉实体掩码损失与视觉加权翻译损失集成为综合训练损失函数,设Lovc为综合训练损失函数,其计算公式如下:
Figure FDA0003401682370000033
其中,α和β分别是Lm和Lv的加权因子。
8.根据权利要求1所述的多模态神经机器翻译方法,其特征在于,训练集采用Multi30K样本集,采用数据集分割方式处理Multi30K,得到20000~29000个训练集样本;开发集从Multi30K样本集中抽取1014~2000个样本,且开发集和训练集没有重合样本;测试集采用2种测试集,一种测试集从与Multi30K属于相同领域的WMT17 MMT测试集中抽取1000~2000个人工去重的样本,一种测试集从与Multi30K属于不同领域的COCO测试集中抽取500~700个人工去重的样本。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至8中任一项所述的多模态神经机器翻译方法步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:该计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的多模态神经机器翻译方法步骤。
CN202111501164.9A 2021-06-10 2021-12-09 一种多模态神经机器翻译方法、计算机设备及存储介质 Pending CN114239612A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110649492 2021-06-10
CN2021106494927 2021-06-10

Publications (1)

Publication Number Publication Date
CN114239612A true CN114239612A (zh) 2022-03-25

Family

ID=80754403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111501164.9A Pending CN114239612A (zh) 2021-06-10 2021-12-09 一种多模态神经机器翻译方法、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114239612A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034965A (zh) * 2023-08-08 2023-11-10 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置
CN117372936A (zh) * 2023-12-07 2024-01-09 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统
CN117474019A (zh) * 2023-12-27 2024-01-30 天津大学 一种视觉引导的目标端未来语境翻译方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN111783478A (zh) * 2020-08-18 2020-10-16 Oppo广东移动通信有限公司 机器翻译质量估计方法、装置、设备及存储介质
CN112016604A (zh) * 2020-08-19 2020-12-01 华东师范大学 一种运用视觉信息的零资源机器翻译方法
CN112800785A (zh) * 2021-04-13 2021-05-14 中国科学院自动化研究所 多模态机器翻译方法、装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN111783478A (zh) * 2020-08-18 2020-10-16 Oppo广东移动通信有限公司 机器翻译质量估计方法、装置、设备及存储介质
CN112016604A (zh) * 2020-08-19 2020-12-01 华东师范大学 一种运用视觉信息的零资源机器翻译方法
CN112800785A (zh) * 2021-04-13 2021-05-14 中国科学院自动化研究所 多模态机器翻译方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DEXIN WANG: ""Efficient Object-Level Visual Context Modeling for Multimodal Machine Translation: Masking Irrelevant Objects Helps Grounding"", 《ARXIV》, 18 December 2020 (2020-12-18), pages 2 - 7 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034965A (zh) * 2023-08-08 2023-11-10 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置
CN117034965B (zh) * 2023-08-08 2024-03-22 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置
CN117372936A (zh) * 2023-12-07 2024-01-09 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统
CN117372936B (zh) * 2023-12-07 2024-03-22 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统
CN117474019A (zh) * 2023-12-27 2024-01-30 天津大学 一种视觉引导的目标端未来语境翻译方法
CN117474019B (zh) * 2023-12-27 2024-05-24 天津大学 一种视觉引导的目标端未来语境翻译方法

Similar Documents

Publication Publication Date Title
Pang et al. Text matching as image recognition
Wieting et al. Charagram: Embedding words and sentences via character n-grams
CN108804530B (zh) 对图像的区域加字幕
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
CN112100351A (zh) 一种通过问题生成数据集构建智能问答系统的方法及设备
Fang et al. From captions to visual concepts and back
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
CN112560478B (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN110390363A (zh) 一种图像描述方法
CN113033438B (zh) 一种面向模态非完全对齐的数据特征学习方法
CN108595546B (zh) 基于半监督的跨媒体特征学习检索方法
CN113657425A (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN113297369A (zh) 基于知识图谱子图检索的智能问答系统
CN113723103A (zh) 融合多源知识的中文医学命名实体和词性联合学习方法
CN113743099A (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN114254645A (zh) 一种人工智能辅助写作系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination