CN114239612A

CN114239612A - 一种多模态神经机器翻译方法、计算机设备及存储介质

Info

Publication number: CN114239612A
Application number: CN202111501164.9A
Authority: CN
Inventors: 熊德意; 王德鑫
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-06-10
Filing date: 2021-12-09
Publication date: 2022-03-25

Abstract

本发明公开了一种多模态神经机器翻译方法，构建包括视觉实体检测器、编码器和解码器的多模态神经机器翻译模型；编码器包括依次连接的双向GRU模块及视觉实体与源语言注意力模块；解码器包括依次连接的多头注意力层和单向GRU模块；视觉实体检测器用于识别并提取图像中视觉实体特征向量，其将提取的视觉实体特征向量分别输出至双向GRU模块及视觉实体与源语言注意力模块；将双向GRU模块及视觉实体与源语言注意力模块的输出，用序列特征平均池化法聚合成混合模态的源语言特征向量，并将聚合后的源语言特征向量输入至解码器。本发明还公开一种配合实施的计算机设备及存储介质。本发明提升了视觉实体与文本之间细粒度的匹配效果及翻译效果。

Description

一种多模态神经机器翻译方法、计算机设备及存储介质

技术领域

本发明涉及一种机器翻译方法，特别涉及一种多模态神经机器翻译方法、计算机设备及存储介质。

背景技术

目前，多模态神经机器翻译(Multimodal neural Machine Translation，简称为MMT),旨在将与其他模态(例如口语翻译中的音频或视觉引导翻译中的图像视频)配对的句子翻译成目标语言文字。其中，基于图像的MMT是最为广泛的应用之一。

与仅文本的神经机器翻译(NMT)相比，MMT的特征在于它存在以下假设：基于文本的含义，附加的图像提供了额外的上下文信息来帮助改善翻译。具体而言，基于图像的MMT利用视觉信息，能够辅助完成翻译过程的语义消歧(如中心词翻译为更准确的性别倾向的词语)、更正源语言中的错别单词等。

然而，自从第一个基于图像的视觉-文本双模态MMT数据集Multi30K被提出以来，将视觉信息和语言视觉有效地交互集成到机器翻译中一直被视为巨大的挑战。最新的研究和探测实验发现，仅使用现有的多模态神经机器翻译数据集来训练的翻译模型中，视觉模态所带来的翻译效果提升并不明显，主要原因在于：仅有的基于图像的MMT训练集Multi30K规模太小，且高频词的共现形式单一、重复率高，仅仅利用文本信息足够达到较小的训练损失，以至于模型在训练中倾向于从文本组合学习翻译知识而忽略视觉信息，导致无法学习到细粒度的跨模态对齐信息；此外，数据集中词汇分布呈现长尾分布，也会导致低频词的翻译不理想。

发明内容

本发明为解决公知技术中存在的技术问题而提供一种高效的利用实体掩码改进的多模态神经机器翻译方法、计算机设备及存储介质。

本发明为解决公知技术中存在的技术问题所采取的技术方案是：一种多模态神经机器翻译方法，构建包括视觉实体检测器、编码器和解码器的多模态神经机器翻译模型；编码器包括依次连接的双向GRU模块及视觉实体与源语言注意力模块；解码器包括依次连接的源语言与目标语言注意力模块和单向GRU模块；视觉实体检测器用于识别并提取图像中的视觉实体特征向量；视觉实体与源语言注意力模块用于学习视觉实体与源语言文本的关联性；源语言与目标语言注意力模块用于学习源语言文本与目标语言文本的关联性；视觉实体检测器将提取的视觉实体特征向量分别输出至双向GRU模块及视觉实体与源语言注意力模块；将源语言的文本向量序列输入至双向GRU模块；将双向GRU模块及视觉实体与源语言注意力模块的输出，采用序列特征平均池化方法，聚合成混合模态的源语言特征向量，并将聚合后的源语言特征向量输入至源语言与目标语言注意力模块；最后由单向GRU模块输出对应的目标语言向量序列。

进一步地，视觉实体检测器识别并提取图像中的视觉实体特征向量的方法包括：视觉实体检测器对图像中的实体进行提取并附加预先定义好的实体类别；实体类别所对应的含义均用文本分词表示；设源语言由n个文本分词组成，从与源语言对应的图像中提取出m个视觉实体；通过文本预训练语言模型对视觉实体与源语言的文本分词进行匹配，m个实体对应匹配m个文本分词，得到对应m个视觉实体的静态词嵌入向量序列，记为：O^m＝{o¹,o²,o³,…,o^m}；对源语言采用同一文本预训练语言模型进行提取，得到源语言的静态词嵌入向量序列，记为：

遍历

和O^m之间所有静态词嵌入向量并两两组合，计算得到

和O^M两两组合文本词嵌入余弦相似度矩阵。

进一步地，文本预训练语言模型对视觉实体与源语言的文本分词进行匹配时，第i个视觉实体与源语言文本分词的相关性的计算公式如下：

OSS_i＝maxS_i,1:n,i＝1,2,…,m；

式中，OSS_i表示第i个视觉实体与源语言的相关性，S_i,1:n表示第i个视觉实体与源语言的第1个文本分词至第n个文本分词的语义相似度；

使用经验阈值γ判断每个视觉实体和源语言是否相关，记为二元符号序列D＝{d₁,d₂,…,d_m}，设d_i＝0时表示第i个视觉实体和源语言无关，d_i＝1时表示第i个视觉实体和源语言有关，当OSS_i≥γ时，d_i＝1；当OSS_i＜γ时，d_i＝0。

进一步地，视觉实体检测器为提取的每个视觉实体特征向量设置一个二元掩码标志位，记为mask；该掩码标志位控制不同的视觉实体特征向量是否被输入到编码器；每个样本的mask向量是单个样本的所有mask拼接的结果；mask的取值集合为{0,1}，设当mask＝1时，该mask对应的视觉实体会参与模型的前向传播；当mask＝0时，该mask对应的视觉实体不会参与模型的前向传播。

进一步地，在不改变源语言词向量序列输入的情况下，分别计算当不同掩码的视觉实体输入词向量序列作为模型输入时的翻译交叉熵损失；设当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_o；设当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_r；设当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_ir；设L_m为综合视觉实体掩码损失，L_m的计算公式如下：

L_m＝-(L_r-L_o)+(L_ir-L_o)²。

进一步地，设目标语言由r个文本分词组成，采用视觉信息对目标语言中每个文本分词翻译损失进行重新加权，将重新加权后的翻译损失称为视觉加权翻译损失：设L_v为视觉加权翻译损失，则L_v的计算公式如下：

TSV_j＝maxS′_j,1:n,j＝1,2,…,r。

上述式中，q_j为对应目标语言的第j个文本分词的加权因子；

是目标语言中第j个文本分词的翻译交叉熵损失；TSV_j为目标语言的第j个文本分词和源语言的相关性；S′_j,1:n表示目标语言的第j个文本分词与源语言的第1个文本分词至第n个文本分词的语义相似度；f_j是目标语言中第j个文本分词在训练集中的词频。

L_m＝-(L_r-L_o)+(L_ir-L_o)²。

设目标语言由r个文本分词组成，采用视觉信息对目标语言中每个文本分词翻译损失进行重新加权，将重新加权后的翻译损失称为视觉加权翻译损失：设L_v为视觉加权翻译损失，则L_v的计算公式如下：

TSV_j＝maxS′_j,1:n,j＝1,2,…,r。

式中，q_j为对应目标语言的第j个文本分词的加权因子；

是目标语言中第j个文本分词的翻译交叉熵损失；TSV_j为目标语言的第j个文本分词和源语言的相关性；S′_j,1:n表示目标语言的第j个文本分词与源语言的第1个文本分词至第n个文本分词的语义相似度；f_j是目标语言中第j个文本分词在训练集中的词频；

将综合视觉实体掩码损失与视觉加权翻译损失集成为综合训练损失函数，设L_ovc为综合训练损失函数，其计算公式如下：

其中，α和β分别是L_m和L_v的加权因子。

进一步地，训练集采用Multi30K样本集，采用数据集分割方式处理Multi30K，得到20000～29000个训练集样本；开发集从Multi30K样本集中抽取1014～2000个样本，且开发集和训练集没有重合样本；测试集采用2种测试集，一种测试集从与Multi30K属于相同领域的WMT17 MMT测试集中抽取1000～2000个人工去重的样本，一种测试集从与Multi30K属于不同领域的COCO测试集中抽取500～700个人工去重的样本。

本发明还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上所述的多模态神经机器翻译方法步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时，实现如上所述的多模态神经机器翻译方法步骤。

本发明具有的优点和积极效果是：本发明的多模态神经机器翻译模型具有更好的跨模态匹配能力以及更好的翻译能力，我们在现有的MMT开源基准数据集上进行了多项实验，并与已有的MMT模型进行对比；实验和分析结果表明：本发明的多模态神经机器翻译模型有效地提升了视觉实体与文本之间细粒度的匹配效果，并提升了翻译效果。

采用本发明所提出的两种附加损失函数训练，本发明的多模态神经机器翻译模型优于现有的基于Transformer和基于RNN的MMT模型；平均提高0.25个BLEU值和0.10个METEOR值。

在配备了本发明所提出的综合视觉实体掩码损失函数和视觉加权翻译损失函数后，本发明的多模态神经机器翻译模型优于图像级和视觉实体级MMT模型。使用附加的综合视觉实体掩码损失函数，平均提高了0.4～0.6个BLEU和0.3～0.5个METEOR，而使用附加的视觉加权翻译损失函数，提高了0.1～0.7个BLEU和0.2～0.5个METEOR，这表明本发明的目标函数促进了模态融合，增强OVC的视觉-文本跨模态建模能力。

综合视觉实体掩码损失函数和视觉加权翻译损失函数的改善在源语言词汇抽离实验中所带来的翻译提升更大。综合视觉实体掩码损失函数平均提高了3.35个BLEU和3.08个METEOR；视觉加权翻译损失函数平均提高了0.255个BLEU和0.655个METEOR。

附图说明

图1是本发明的一种多模态神经机器翻译模型结构示意图。

图2是本发明的一种源语言视觉词汇抽离工作流程示意图。

图3是本发明的源语言视觉词汇抽离实验的视觉实体-源语言注意力矩阵可视化示意图。

图中：

VASR表示被视觉实体表征关注后的源语言文本表征。

SAV表示文本向量序列。

SSV表示混合模态的源语言表征向量。

L_o为当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失。

L_r为当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失。

L_ir为当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失。

L_m为综合视觉实体掩码损失。

L_v为视觉加权翻译损失。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹列举以下实施例，并配合附图详细说明如下：

本发明涉及的部分英文及缩写的中文注释如下：

MMT模型：多模态神经机器翻译模型。

Object-level Visual Context Modeling MMT framework：对象级情境多模态建模框架，简称OVC。

Teacher-force方式：一种用来快速而有效地训练循环神经网络模型的方法，这种方法以上一时刻的输出作为下一时刻的输入。

Adam优化器：深度学习中最流行的优化器之一。它适用于很多种问题，包括带稀疏或带噪声梯度的模型。Adam优化器结合AdaGrad优化器和RMSProp优化器的优点，其易于精调的特性使得它能够快速获得很好的结果。

Kaiming归一法：由Kaiming于《Delving deep into rectifiers:Surpassinghuman-levelperformance on ImageNet classification》一文中提出的深度学习模型参数初始化方法。

query矩阵：查询矩阵。

key矩阵：键矩阵。

value矩阵：值矩阵。

Mask：掩码。

Object-masking Loss：视觉实体掩码损失。

Vision-weighted Translation Loss：视觉加权翻译损失。

Object-to-Source Similarity：视觉实体对源语言语句相关性，简称OSS。

GRU模块，即门控循环单元神经网络模块，最适合语音识别、自然语言处理和机器翻译。与LSTM一起，它们在长序列问题领域表现优良。

请参见图1至图3，一种多模态神经机器翻译方法，构建包括视觉实体检测器、编码器和解码器的多模态神经机器翻译模型；编码器包括依次连接的双向GRU模块及视觉实体与源语言注意力模块；解码器包括依次连接的源语言与目标语言注意力模块和单向GRU模块；视觉实体检测器用于识别并提取图像中的视觉实体特征向量；视觉实体与源语言注意力模块用于学习视觉实体与源语言文本的关联性；源语言与目标语言注意力模块用于学习源语言文本与目标语言文本的关联性；视觉实体检测器将提取的视觉实体特征向量分别输出至双向GRU模块及视觉实体与源语言注意力模块；将源语言的文本向量序列输入至双向GRU模块；将双向GRU模块及视觉实体与源语言注意力模块的输出，采用序列特征平均池化方法，聚合成混合模态的源语言特征向量，并将聚合后的源语言特征向量输入至源语言与目标语言注意力模块；最后由单向GRU模块输出对应的目标语言向量序列。双向GRU模块输入源语言的文本向量序列及来自视觉实体检测器的视觉实体特征向量；视觉实体与源语言注意力模块输入来自双向GRU模块的输出及来自视觉实体检测器的视觉实体特征向量；双向GRU模块及视觉实体与源语言注意力模块，这两者的输出采用序列特征平均池化方法，聚合成混合模态的源语言特征向量，输入至源语言与目标语言注意力模块，源语言与目标语言注意力模块的输出，输入至单向GRU模块，单向GRU模块输出对应的目标语言向量序列。

双向GRU模块可用于提取源语言的双向语义特征，并输出隐藏状态和文本向量序列；视觉实体与源语言注意力模块可用于提取被视觉实体表征关注后的源语言文本特征。

进一步地，视觉实体检测器可对图像中的实体进行提取并附加预先定义好的实体类别；实体类别所对应的含义均可用文本分词表示；可设源语言由n个文本分词组成，从与源语言对应的图像中提取出m个视觉实体；可通过文本预训练语言模型对视觉实体与源语言的文本分词进行匹配，m个实体对应匹配m个文本分词，可得到对应m个视觉实体的静态词嵌入向量序列，记为：O^m＝{o¹,o²,o³,…,^om}；可对源语言采用同一文本预训练语言模型进行提取，得到源语言的静态词嵌入向量序列，记为：

可遍历

和O^m之间所有静态词嵌入向量并两两组合，计算得到

和O^M两两组合文本词嵌入余弦相似度矩阵。

进一步地，文本预训练语言模型对视觉实体与源语言的文本分词进行匹配时，第i个视觉实体与源语言文本分词的相关性的计算公式可如下：

OSS_i＝maxS_i,1:n,i＝1,2,…,m。

式中，OSS_i表示第i个视觉实体与源语言的相关性，S_i,1:n表示第i个视觉实体与源语言的第1个文本分词至第n个文本分词的语义相似度。视觉实体和源语言的相关性计算方法可采用现有技术中的计算方法，

可使用经验阈值γ判断每个视觉实体和源语言是否相关，可取γ＝0.48，可记为二元符号序列D＝{d₁,d₂,…,d_m}，可设d_i＝0时表示第i个视觉实体和源语言无关，d_i＝1时表示第i个视觉实体和源语言有关，当OSS_i≥γ时，d_i＝1；当OSS_i＜γ时，d_i＝0。

进一步地，视觉实体检测器可为提取的每个视觉实体特征向量设置一个二元掩码标志位，记为mask；该掩码标志位可控制不同的视觉实体特征向量是否被输入到编码器；每个样本的mask向量是单个样本的所有mask拼接的结果；mask的取值集合为{0,1}，设当mask＝1时，该mask对应的视觉实体会参与模型的前向传播；当mask＝0时，该mask对应的视觉实体不会参与模型的前向传播。

进一步地，可采用多种与翻译过程相联系的视觉实体输入词向量序列，用来训练模型：视觉实体输入序列包括：包含所有视觉实体的视觉实体输入词向量序列；去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列；去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列。

进一步地，在不改变源语言词向量序列输入的情况下，可分别计算当不同掩码的视觉实体输入词向量序列作为模型输入时的翻译交叉熵损失；可设当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_o；可设当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_r；可设当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_ir；可设L_m为综合视觉实体掩码损失，L_m的计算公式可如下：

L_m＝-(L_r-L_o)+(L_ir-L_o)²。

进一步地，可设目标语言由r个文本分词组成，采用视觉信息对目标语言中每个文本分词翻译损失进行重新加权，可将重新加权后的翻译损失称为视觉加权翻译损失：可设L_v为视觉加权翻译损失，则L_v的计算公式如下：

TSV_j＝maxS′_j,1:n,j＝1,2,…,r。

式中，q_j为对应目标语言的第j个文本分词的加权因子；

进一步地，以不同掩码造成的翻译损失表征不同视觉输入所导致的翻译效果，以翻译损失之间的差异表征翻译效果的差异，整合成对实体掩码敏感的实体掩码损失，来优化多模态神经机器翻译模型。

在不改变源语言词向量序列输入的情况下，可分别计算当不同掩码的视觉实体输入词向量序列作为模型输入时的翻译交叉熵损失；可设当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_o；可设当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_r；可设当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_ir；可设L_m为综合视觉实体掩码损失，L_m的计算公式如下：

L_m＝-(L_r-L_o)+(L_ir-L_o)²；

可设目标语言由r个文本分词组成，采用视觉信息对目标语言中每个文本分词翻译损失进行重新加权，可将重新加权后的翻译损失称为视觉加权翻译损失：可设L_v为视觉加权翻译损失，则L_v的计算公式如下：

TSV_j＝maxS′_j,1:n,j＝1,2,…,r。

式中，q_j为对应目标语言的第j个文本分词的加权因子；

可将综合视觉实体掩码损失与视觉加权翻译损失集成为综合训练损失函数，设L_ovc为综合训练损失函数，其计算公式可如下：

其中，α和β分别是L_m和L_v的加权因子。α可取值为0.1～0.2，β可取值为0.1～0.2。

进一步地，训练集可采用Multi30K样本集，可采用数据集分割方式处理Multi30K，得到20000～29000个训练集样本；开发集可从Multi30K样本集中抽取1014～2000个样本，且开发集和训练集没有重合样本；测试集可采用2种测试集，一种测试集从与Multi30K属于相同领域的WMT17 MMT测试集中抽取1000～2000个人工去重的样本，一种测试集从与Multi30K属于不同领域的COCO测试集中抽取500～700个人工去重的样本。

下面以本发明的一个优选实施例来进一步说明本发明的工作流程及工作原理：

针对现有多模态神经机器翻译模型(简称MMT模型)，难以利用视觉信息的问题，从提升视觉实体-文本配对能力的角度，设置2种新的损失函数。基于这2个损失函数，继而提出一种新的多模态神经机器翻译模型建模框架，称之为Object-level Visual ContextModeling MMT framework，中文释义为对象级情境多模态建模框架，以下简称为OVC。

在本发明的OVC中，MMT模型所采用的视觉基础建模单元是检测出的视觉实体，文本基础建模单元是文本分词。可假设源语言由n个文本分词组成，目标语言由r个文本分词组成，对应的图像中被检测出m个视觉实体。令O^m＝{o¹,o²,o³,…,o^m}表示一张图片中视觉实体检测器提取的视觉表示，其中o^m表示视觉实体检测器所提取的第m个视觉实体的特征向量。令

表示从MMT模型源语言端抽取的源语言文本分词的词嵌入向量序列。

表示从MMT模型源语言端抽取的第i个源语言文本分词。

一、建立多模态神经机器翻译模型。

基于GRU和注意力机制模型，构建包括视觉实体检测器、编码器和解码器的多模态神经机器翻译模型，多模态神经机器翻译模型框架图见图1。

其中，编码器由一个双向的GRU模块

串联一个视觉实体与源语言注意力模块构成。

学习源语言的双向语义信息，注解成隐藏状态

和文本向量序列(即图1的SAV)，记为

MultiHead₀是流行的多头注意力层，在编码层中学习被视觉实体表征关注后的源语言文本表征VASR。用Multihead(Q,K,V)公式表示多头注意力的查询(query)矩阵、键(key)矩阵和值(value)矩阵的计算过程，VASR表示为：

接着，使用序列特征平均池化操作(记为AP)将VASR和

聚合成一个混合模态的源语言表征向量SSV，作为本发明的OVC的解码器输入特征。

多模态神经机器翻译模型的解码器由多头注意力层Multihead₁和单向GRU模块组成，具体实践过程中，单向GRU模块含有两个单层的GRU层(

和

)。在第i+1步解码过程中，定义

是

当次解码产生的中间状态。

整合前一次解码的隐层状态作为历史状态，将前一次的解码词的词嵌入作为特征输入，生成

接着，将

作为query、VASR作为key和value，输入到多头注意力层Multihead₁进行前向计算，获得基于视觉信息增强的状态向量Tⁱ⁺¹。

基于此，

进一步整合

作为历史状态、Tⁱ⁺¹作为特征输入，生成当次的隐藏状态

和学习的特征

最后，

经过一层线性层与softmax逻辑回归模型映射为词表上每个词的概率分布。而关于解码的初始化，使用SSV作为解码生成第一个词的初始特征T⁰。设[sos](Start Of Sentence symbol)为输入解码器的第一个文本分词：

二、设置损失函数，设置的损失函数包含两种，一种为视觉实体掩码损失，另一种为视觉加权翻译损失函数。

1、视觉实体掩码损失的计算方法。

视觉实体掩码损失(Object-masking Loss)，是基于视觉实体掩码与视觉实体-文本相关性所构成的三种视觉特征输入所造成的翻译误差，而建立的新型MMT损失函数。

关于视觉实体掩码、视觉实体-文本相关性和三种视觉特征输入的定义如下：

视觉实体掩码：

在MMT建模过程中，本发明为每个视觉实体设置一个二元掩码(mask)标志位，记为mask。该掩码控制不同的视觉实体是否被输入到模型的输入端。每个样本的MASK向量是单个样本的所有mask拼接的结果。mask的取值集合为{0,1}，并且有如下规定：

当mask＝1时，该mask对齐的视觉实体会参与模型的前向传播。

当mask＝0时，该mask对齐的视觉实体不会参与模型的前向传播。

对齐可以解释为关联性。每个视觉实体和每个文本分词都有一个加权系数，权重大表示关联性强，即对齐的可能性大。

按照注意力机制计算的概率作为对齐加权分数，而不是强行分配严格的零一对齐，即为软对齐；

注意力机制，即为一种深度学习的基础模块；注意力机制是通过配对的Query和Key计算Query-Key注意力分数，并对对应的Value实现注意力融合的机制。具体实现为：点积运算计算Query和Key两者元素之间的相关程度并经过softmax后，作为归一化的Query-Key注意力分数，再点乘Value，完成软加权。

视觉实体-文本相关性：

视觉实体-文本相关性用来度量从图像中提取的视觉实体与文本模态的文字之间的相关程度，比如要求小猫图像与单词“cat”有高度相关性，而小猫图像与单词“plane”有低相关性。

为了实现这个目的，本发明采用基于神经网络的视觉实体检测器，为每张图像抽取出视觉实体并附加人为预先定义好的实体类别。这些类别所对应的含义均可用文本分词表示。比如，一张图像中的多只猫会被统一检测并标记为规整的“cat”类。m个视觉实体单独配对了m个规整的文字类别。借助文本预训练语言模型，本发明抽取出这m个文本分词的静态词嵌入向量序列，记为集合^Om，O^m＝{o¹,o²,o³,…,o^m}。

对待源语言，借助同一预训练语言模型，所有源语言文本分词被抽取形成静态词嵌入向量序列，记为：

接着，遍历

和O^m之间所有词嵌入向量的两两组合，计算出m*n种组合的文本词嵌入余弦相似度构成矩阵，记为矩阵S^m*n。

一个视觉实体和源语言语句的相关性表述了一个视觉实体是否被该语句提及。基于此假设，进一步将视觉实体和源语言语句的相关性，定义为视觉实体对源语言语句相关性(Object-to-Source Similarity)，简称OSS，OSS表示为一个视觉实体和源语言语句中所有文本分词的最大语义相似度，公式表示为：

OSS_i＝maxS_i,1:n,i＝1,2,…,m。

OSS_i表示第i个视觉实体与源语言的相关性；基于OSS，使用经验阈值γ判断每个视觉实体和源语言是否相关，记为二元符号序列D＝{d₁,d₂,…,d_m}，0值表示无关，1值表示有关：

d_i＝1if OSS_i>γotherwise 0,i＝1,2,…,m。

三类视觉实体输入序列：

基于前文所定义的视觉实体与源语言是否相关，定义了三类与翻译过程相联系的视觉实体输入序列，用来训练模型：

第一种视觉实体输入序列，记为o^m：所有视觉实体都参与模型计算，这是最典型的MMT视觉特征输入。

第二种视觉实体输入序列，记为

表示人为控制部分与翻译有关的视觉实体不参与模型计算，即存在d_i＝1且mask_i＝0的情况。

第三种视觉实体输入序列，记为

表示人为控制部分与翻译无关的视觉实体不参与模型计算，即存在d_i＝0且mask_i＝0的情况。

设置视觉实体掩码损失的设置原理：

基于既定的事实“源语言直接决定了翻译过程所涉及的视觉实体”，本发明借鉴人类沟通的视觉指代现象，得出以下假设：和全部视觉实体都参与计算的翻译结果相比，与翻译不相关的视觉实体不参与计算时，不会产生明显的翻译变化；相反，如果与翻译相关的部分视觉实体不参与计算时，将导致翻译效果显著恶化。

借助前文定义的视觉实体掩码MASK，以不同掩码造成的翻译损失表征不同视觉输入所导致的翻译效果，以翻译损失之间的差异表征翻译效果的差异，整合成对视觉实体掩码敏感的视觉实体掩码损失，来优化MMT模型。

设置视觉实体掩码损失的目的有两个：

强制MMT模型惩罚与翻译相关的视觉实体不参与计算的情况。这强调了只有源语言中对应视觉的文本分词和图像中对应的视觉实体同时参与计算，才能得到好的翻译结果。

奖励与翻译不相关的视觉实体不参与计算的情况。这要求与翻译无关的视觉实体不会对翻译带来负面影响。

视觉实体掩码损失的计算过程：

传统的MMT翻译损失计算了所有目标语言文本分词预测的交叉熵损失，该损失的计算过程可以描述为L(O^m,Wⁿ)，表示基于给定的视觉实体输入序列和源语言词向量序列，所造成的翻译交叉熵损失。本发明使用L(O^m,Wⁿ)作为损失基础，并拓展成视觉实体掩码损失。

第一类视觉实体序列和源语言语句作为输入情况下所造成的翻译损失，记为

L_o＝L(O^m,Wⁿ)。

第二类视觉实体序列和源语言语句作为输入情况下所造成的翻译损失，记为

第三类视觉实体序列和源语言语句作为输入情况下所造成的翻译损失，记为

旨在最小化视觉实体掩码损失，将上述三种视觉实体序列和源语言语句作为输入情况下所造成的翻译损失进行综合，设L_m表示综合视觉实体掩码损失：

L_m＝-(L_r-L_o)+(L_ir-L_o)²。

式中，Om表示所有视觉实体都参与模型计算时输入模型的视觉实体的静态词嵌入向量序列；

表示人为控制部分与翻译有关的视觉实体不参与模型计算时输入模型的视觉实体的静态词嵌入向量序列；

表示人为控制部分与翻译无关的视觉实体不参与模型计算时输入模型的视觉实体的静态词嵌入向量序列；W^M表示源语言文本分词的词嵌入向量序列。

L_m分为两个部分。第一个部分-(L_r-L_o)代表第二类视觉实体序列输入理应造成比第一类视觉实体序列输入更差的翻译效果。第二个部分(L_ir-L_o)²代表第三类视觉实体序列输入和第一类视觉实体输入应该造成相近的翻译效果。

2、视觉加权翻译损失函数(Vision-weighted Translation Loss)的计算方法：

为了提升视觉实体-文本的对齐效果，从生成目标语言的视觉信息与源语言视觉信息应具有一致性的角度，提出了视觉加权的翻译损失函数，使用视觉信息对目标句子中每个文本分词翻译损失重新加权。将之称为Vision-weighted Translation Loss。

和OSS相似，在训练时，提前利用预训练语言模型词表征，计算了源语言文本分词和目标语言句子文本分词之间的维度为r*n的文本相似度矩阵S'，将参考S'来得到突出视觉信息的权重。

接着，整理出源语言中和视觉实体无关的文本分词，并按照它们在句子中的位置，将S'中对应列的元素均置为0。

此后，计算出每个目标文本分词和源语言的相似度向量，记为TSV：

TSV_j＝maxS′_j,1:n,j＝1,2,…,r。

式中，TSV_j为目标语言的第j个文本分词和源语言的相关性；S′_j,1:n表示目标语言的第j个文本分词与源语言的第1个文本分词至第n个文本分词的语义相似度。

最后，为了减少过拟合情况的发生(防止高频词的加权过重、改善对低频词的关注程度)，使用统计词频对TSV进行归一化，得出目标句子中每个文本分词的加权因子：

其中，f_j是目标语言句子中第j个文本分词在训练集中的词频。

至此，得到了Vision-weighted Translation Loss视觉权重翻译损失，视觉权重翻译损失设为L_v：

其中，q_j为对应目标语言的第j个文本分词的加权因子；

是目标语言中第j个文本分词的翻译交叉熵损失。

集成的训练损失函数记为L_ovc：

其中，α和β分别是L_m和L_v的加权因子。

预训练文本模型的选择：Multilingual-Cased-Base-BERT。对于含有多个分词的文本分词，将它的所有分词的词嵌入向量做平均加权作为该文本分词的词嵌入表示。注意：预训练文本模型只被用来计算文本之间的相似度，因此，使用其他合适的文本相似度计算工具或者预训练语言模型也可以替代本方案。

文本预处理：直接引用VAG-NMT预处理的数据集分词结果。英语词表大小为8.5K，德语词表大小为9.4K，法语词表大小为8.7K。

视觉实体检测器：选用基于从下至上注意力模型(bottom-up-attention)和从上至下注意力模型(up-down-attention)机制训练的Resnet1011。在每张图片中抽取视觉实体时，设置每张图片检测出32个最大概率的视觉实体，接着，过滤了在所有给定视觉类别概率中最大值小于0.4的视觉实体；最后，选择Resnet101的池化5层输出的2048维特征向量作为MMT模型输入的单个视觉实体特征向量。

γ的设定：通过在训练集中随机采样与观察，设置上文中判断每个视觉实体和源语言是否相关的经验值γ＝0.48。

视觉实体掩码损失中的权重设置为：α＝0.1,β＝0.1。

优化器选择Adam优化器，初始学习率设置为0.001，权重衰减率设置为0.00001。

模型参数初始化采用kaiming归一法进行初始化。

训练所采用的批尺寸设置为32。解码过程采用束搜索，束宽度为12。

训练时，本发明的OVC所采用的解码方式为Teacher-force方式。

本发明的OVC中，源语言和目标语言学习独立的词嵌入表示，两者词嵌入表示均设置为256维；编码器中的所有隐藏状态都设置为512维；解码器中的2个GRU输入维度为256维和512维，输出维度均为512维。

整个训练过程在1块2080ti卡上进行。

为了验证本发明提出的本发明的OVC框架具有更好的跨模态匹配能力以及更好的翻译能力，在现有的MMT开源基准数据集上进行了多项实验，并与已有的MMT模型进行对比；此外，还进行了一系列实验分析。实验和分析结果表明提出的本发明的OVC框架有效地提升了视觉实体与文本之间细粒度的匹配效果，并提升了翻译效果。

实验所使用的数据集:

训练集：Multi30K，该开源数据集从Flickr30K数据集中抽取图像并人为为每张图片标注了一句英语图像描述；基于该英语描述，标注人员进行人工翻译得到对齐的德语版本和法语版本图像描述。Multi30K含有31k个MMT样本。关于训练集具体的划分，沿用2018年VAG-NMT模型实验中采用的数据集分割方式处理Multi30K，得到29000个MMT训练集样本作为训练集。

开发集：WMT 2017MMT任务官方开源的开发集，抽取自Multi30K，共1014个样本。注意：该开发集和上述训练集没有重合样本。

测试集：WMT 2017MMT任务中所使用的2个官方测试集，分别是和Multi30K属于同领域的WMT17 MMT测试集(1000个人工去重的样本)和不同领域的Ambiguous COCO(461个人工去重的样本)。

实验设置：设置了两种多模态机器翻译实验，来验证所设置的方法的有效性。

标准实验：对于此实验，保留源语言文本的所有单词，并将它们作为文本输入给所有MMT模型以进行训练和推理。

源语言视觉词汇抽离实验：在这个实验中，参考了人工标记Flickr30K-Entities。Flickr30K-Entities人为标记了Multi30K训练集中英语视觉词汇在每个MMT样本中的位置和9类类型标签。9类标签分别为：[people]类、[scene]类、[clothing]类、[instruments]类、[animals]类、[body-parts]类、[vehicles]类、[other]类和[not-visual]类。通过将已标记的视觉词汇替换成所对应的类别标签，抽离出了英语句子中具体的视觉信息。由于类别在图片中不可见，无法从图像中得到该类词的信息，会对文本-视觉匹配能力的验证造成误导，所以，不对[not-visual]类词汇进行替换。除此之外，为了对源语言中的视觉词汇剥夺得更彻底，进一步将颜色词统一替换为[color]标签。由于该实验测试时需要上述9类标签信息，而没有WMT 2017MMT任务测试集的标签信息，因此，只在开发集上进行性能测试。

对比的基准模型：现有MMT模型分为两大类，分别是基于Transformer模型和基于RNN模型。分别和这两类基准MMT模型的翻译效果进行了对比。为了公平起见，所有模型都只使用Multi30K作为训练集，没有使用额外的训练数据。在标准实验中，将本发明的OVC与这些基准模型进行了比较，这些基准模型的翻译性能均取自各自的原始论文。用来对比的基准模型如下：

2017年Transformer:基于自关注力机制的神经机器翻译基准模型。

2017年Imagination：基于RNN的Sequence-to-Sequence(从序列到序列的转换模型)MMT系统，它在编码器端隐式地对齐视觉特征空间和源语言特征空间。

2018年VAG-NMT：基于RNN和注意力机制的MMT系统，它使用视觉到文本的注意力层来获得带有视觉信息的文本表示，作为解码器的初始隐藏状态。

2019年VMMT：基于RNN的MMT系统，在KL散度上增加了约束来提高中间潜在变量和原始输入之间的互信息。

2020年GMMT：基于Transformer改写的多层图网络堆叠的MMT模型，它使用了预训练的文本-视觉定位解析器来得到不同视觉实体和文本之间的对齐关系。

2020年VAR-MMT：基于注意力机制的MMT模型，它使用了额外的单词对齐工具获得源语言到目标语言的对齐信息，并基于此对齐信息增加翻译过程的视觉信息一致性约束。

表1：本发明与几种基准模型的实验结果对比：

表1中，

代表text-only模型，_i代表使用图像的全局特征作为视觉特征，_o代表

使用图像的局部视觉实体特征作为视觉特征，表示基于RNN的模型，表示基于Transformer的模型。

在标准实验中，定义图像的全局特征为image-level feature，局部视觉实体特征为object-level feature。为了使的实验在统计意义上更加可靠，将本发明的OVC框架的每个变体在每类实验上运行3次，并报告3次运行的统计均值方差。采用本发明所提出的两种附加损失函数训练的本发明的OVC或者优于现有的基于Transformer和基于RNN的MMT模型，或者取得了与之相近的结果；平均提高0.25个BLEU值和0.10个METEOR值。

与现有的图像级MMT模型相比，基础的本发明的OVC在翻译准确性上没有优势。例如，在大多数情况下，在WMT17 MMTtestset和AmbiguousCOCO上，基础的本发明的OVC并不优于VAG-NMT_i。推测由于Multi30K数据集小且文本重复率高，而视觉实体级视觉特征包含大量与机器翻译无关的信息，这使得视觉实体级MMT模型很难从仅有的样本中学习细粒度的基础对齐。然而，在配备了本发明所提出的2类目标函数后，本发明的OVC优于图像级和视觉实体级MMT模型。采用本发明所提出的2类目标函数L_m和L_v后，平均提高了0.4～0.6个BLEU和0.3～0.5个METEOR，而使用附加L_m，本发明的OVC提高了0.1～0.7个BLEU和0.2～0.5个METEOR，这表明提出的目标函数促进了模态融合，增强本发明的OVC的视觉-文本跨模态建模能力。

源语言视觉词汇抽离实验结果：

在源语言视觉词汇抽离实验中，使用不同的目标函数作为本发明的OVC模型的变体。同时，训练了纯文本设置下的本发明的OVC_t，在该设定中，去除了本发明的OVC编码器的源注意层，VASR被

替换，SSV改写为

的平均池化计算结果。实验结果见表2。

表2、源语言视觉词汇抽离实验翻译效果对比。

_t代表纯文本模型，_i代表使用图像的全局特征作为视觉特征，_o代表使用图像的局部视觉实体特征作为视觉特征，HM表示硬掩码方法。

根据表2，具有图像级特征(image-level feature)的本发明的OVC优于纯文本版本。在视觉实体级特征(object-level feature)下，本发明的OVC在英法翻译中的表现通常比图像级特征(image-level feature)差，甚至比纯文本本发明的OVC差。这再次证实了本发明相比于现有的MMT模型，在源语言词汇抽离实验中所带来的翻译提升更大。L_m平均提高了3.35个BLEU和3.08个METEOR；L_v平均提高了0.255个BLEU和0.655个METEOR。

为了深入理解视觉实体掩码(MASK)所产生影响，进一步比较硬掩码的方案,记为本发明的OVC_o+HM，即根据预先定义的相似度阈值，从输入端删除与源语言无关的视觉实体，而不采用前述的软掩码方式进行训练。本发明的OVC_o+HM与本发明的OVC_o之间、本发明的OVC_o+L_m与本发明的OVC_o+HM之间的稳定提升表明，掩蔽无关对象的训练方法有助于MMT模型学习到更好的跨模态组合信息。由于L_m与HM的唯一区别是L_m惩罚了与源语言相关的视觉实体被掩码的情况，所以L_m相比于HM的翻译性能提升表明了所提出的L_m是一种更全面有效的视觉-文本建模训练方法。

为了验证本发明所提出的两种新的训练目标函数：综合视觉实体掩码损失和视觉加权翻译损失，是否帮助本发明的OVC框架改进跨模态信息，在源语言视觉词汇抽离实验中，随机抽取了WMT 2017开发集中的样本并可视化了源语言-视觉实体注意力矩阵，如图3所示。每个方格的颜色代表一个被检测出的视觉实体和一个源语言文本分词的关注分数，颜色越暗代表所对应的视觉实体和文本分词的关注程度越高。每行的关注分数之和等于1。根据图3，基础本发明的OVC原型(不使用L_m和L_v)倾向于为4个与翻译不相关的视觉实体(“Bald head”,“Ear”和2个“Fingers”)分配不合理的过大关注分数。此外，这4个视觉实体所对应的列方格多被描绘为相似的颜色，这表明这4个视觉实体对于不同的词有几乎相近的关注程度。猜想这是因为基础本发明的OVC原型对部分视觉特征过拟合，以至于不能得到合适的源语言-视觉实体关系。本发明的OVC+L_v局部改善了和源语言相关的视觉实体的匹配关系(“White man”和“Man”)，然而一些被遮盖的词(比如[color]和[bodyparts])依然没有很好的匹配到对应的视觉实体，这可能是因为训练集比较小、[people]类出现的频次要远高于[clothing]类和[bodyparts]类。所以，和人物相关的单词会被赋予更大的视觉加权损失，迫使本发明的OVC更自然地为其他类分配更小的关注分数。

另一方面，使用视觉实体-掩码损失帮助本发明的OVC分辨和源语言无关的视觉实体，因此它帮助本发明的OVC匹配到了更细节的视觉实体(比如[body-parts]和“Up hand”视觉实体有更大的关注分数).最后，使用联合的L_v+L_m进行训练的本发明的OVC在源语言-视觉实体attention矩阵中得到了四种训练方式里最好的文本分词-视觉实体匹配结果

此外，从WMT 2017MMT任务英语-德语开发集中随机抽取例子进行案例分析，在这案例中，本发明所提出的vision-weighted loss和视觉实体-掩码损失改善了MMT模型对[gender]类、[color]类、[clothing]类和[scene]类遮掩视觉词汇的翻译。然而，发现当一个短句子中存在多个复合的同类视觉遮掩词时，本发明的OVC框架依然很难同时准确翻译出这些词。这个挑战的难度不仅仅局限于MMT中基础的视觉-文本匹配，而且紧密联系着潜在的视觉实体候选项之间的组合(空间组合、属性组合等)与遮掩词之间的关系。

以上所述的实施例仅用于说明本发明的技术思想及特点，其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施，不能仅以本实施例来限定本发明的发明范围，即凡本发明所揭示的精神所作的同等变化或修饰，仍落在本发明的发明范围内。

Claims

1.一种多模态神经机器翻译方法，其特征在于，构建包括视觉实体检测器、编码器和解码器的多模态神经机器翻译模型；编码器包括依次连接的双向GRU模块及视觉实体与源语言注意力模块；解码器包括依次连接的源语言与目标语言注意力模块和单向GRU模块；视觉实体检测器用于识别并提取图像中的视觉实体特征向量；视觉实体与源语言注意力模块用于学习视觉实体与源语言文本的关联性；源语言与目标语言注意力模块用于学习源语言文本与目标语言文本的关联性；视觉实体检测器将提取的视觉实体特征向量分别输出至双向GRU模块及视觉实体与源语言注意力模块；将源语言的文本向量序列输入至双向GRU模块；将双向GRU模块及视觉实体与源语言注意力模块的输出，采用序列特征平均池化方法，聚合成混合模态的源语言特征向量，并将聚合后的源语言特征向量输入至源语言与目标语言注意力模块；最后由单向GRU模块输出对应的目标语言向量序列。

2.根据权利要求1所述的多模态神经机器翻译方法，其特征在于，视觉实体检测器识别并提取图像中的视觉实体特征向量的方法包括：视觉实体检测器对图像中的实体进行提取并附加预先定义好的实体类别；实体类别所对应的含义均用文本分词表示；设源语言由n个文本分词组成，从与源语言对应的图像中提取出m个视觉实体；通过文本预训练语言模型对视觉实体与源语言的文本分词进行匹配，m个实体对应匹配m个文本分词，得到对应m个视觉实体的静态词嵌入向量序列，记为：O^M＝{o¹,o²,o³,…,o^m}；对源语言采用同一文本预训练语言模型进行提取，得到源语言的静态词嵌入向量序列，记为：

遍历

和O^M之间所有静态词嵌入向量并两两组合，计算得到

和O^M两两组合文本词嵌入余弦相似度矩阵。

3.根据权利要求2所述的多模态神经机器翻译方法，其特征在于，文本预训练语言模型对视觉实体与源语言的文本分词进行匹配时，第i个视觉实体与源语言文本分词的相关性的计算公式如下：

OSS_i＝maxS_i,1:n,i＝1,2,…,m；

使用经验阈值γ判断每个视觉实体和源语言是否相关，记为二元符号序列D＝{d₁,d₂,…,d_m}，设d_i＝0时表示第i个视觉实体和源语言无关，d_i＝1时表示第i个视觉实体和源语言有关，当OSSi≥γ时，d_i＝1；当OSSi＜γ时，d_i＝0。

4.根据权利要求1所述的多模态神经机器翻译方法，其特征在于，视觉实体检测器为提取的每个视觉实体特征向量设置一个二元掩码标志位，记为mask；该掩码标志位控制不同的视觉实体特征向量是否被输入到编码器；每个样本的mask向量是单个样本的所有mask拼接的结果；mask的取值集合为{0,1}，设当mask＝1时，该mask对应的视觉实体会参与模型的前向传播；当mask＝0时，该mask对应的视觉实体不会参与模型的前向传播。

5.根据权利要求1所述的多模态神经机器翻译方法，其特征在于，在不改变源语言词向量序列输入的情况下，分别计算当不同掩码的视觉实体输入词向量序列作为模型输入时的翻译交叉熵损失；设当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_o；设当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_r；设当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_ir；设L_m为综合视觉实体掩码损失，L_m的计算公式如下：

L_m＝-(L_r-L_o)+(L_ir-L_o)²。

6.根据权利要求1所述的多模态神经机器翻译方法，其特征在于，设目标语言由r个文本分词组成，采用视觉信息对目标语言中每个文本分词翻译损失进行重新加权，将重新加权后的翻译损失称为视觉加权翻译损失：设L_v为视觉加权翻译损失，则L_v的计算公式如下：

TSV_j＝maxS′_j,1:n,j＝1,2,…,r；

式中，q_j为对应目标语言的第j个文本分词的加权因子；L_Oj是目标语言中第j个文本分词的翻译交叉熵损失；TSV_j为目标语言的第j个文本分词和源语言的相关性；S′_j,1:n表示目标语言的第j个文本分词与源语言的第1个文本分词至第n个文本分词的语义相似度；f_j是目标语言中第j个文本分词在训练集中的词频。

7.根据权利要求1所述的多模态神经机器翻译方法，其特征在于，在不改变源语言词向量序列输入的情况下，分别计算当不同掩码的视觉实体输入词向量序列作为模型输入时的翻译交叉熵损失；设当包含所有视觉实体的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_o；设当去除部分与翻译过程有关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_r；设当去除部分与翻译过程无关的视觉实体后得到的视觉实体输入词向量序列作为输入时的翻译交叉熵损失为L_ir；设L_m为综合视觉实体掩码损失，L_m的计算公式如下：

L_m＝-(L_r-L_o)+(L_ir-L_o)²；

TSV_j＝maxS′_j,1:n,j＝1,2,…,r；

式中，q_j为对应目标语言的第j个文本分词的加权因子；L_Oj是目标语言中第j个文本分词的翻译交叉熵损失；TSV_j为目标语言的第j个文本分词和源语言的相关性；S′_j,1:n表示目标语言的第j个文本分词与源语言的第1个文本分词至第n个文本分词的语义相似度；f_j是目标语言中第j个文本分词在训练集中的词频；

其中，α和β分别是L_m和L_v的加权因子。

8.根据权利要求1所述的多模态神经机器翻译方法，其特征在于，训练集采用Multi30K样本集，采用数据集分割方式处理Multi30K，得到20000～29000个训练集样本；开发集从Multi30K样本集中抽取1014～2000个样本，且开发集和训练集没有重合样本；测试集采用2种测试集，一种测试集从与Multi30K属于相同领域的WMT17 MMT测试集中抽取1000～2000个人工去重的样本，一种测试集从与Multi30K属于不同领域的COCO测试集中抽取500～700个人工去重的样本。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至8中任一项所述的多模态神经机器翻译方法步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：该计算机程序被处理器执行时，实现如权利要求1至8中任一项所述的多模态神经机器翻译方法步骤。