CN112800785A

CN112800785A - 多模态机器翻译方法、装置、电子设备和存储介质

Info

Publication number: CN112800785A
Application number: CN202110392717.5A
Authority: CN
Inventors: 宗成庆; 黄鑫; 张家俊; 周玉
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-05-14
Anticipated expiration: 2041-04-13
Also published as: CN112800785B

Abstract

本发明提供一种多模态机器翻译方法、装置、电子设备和存储介质，所述方法包括：确定待翻译的源语言文本；将源语言文本输入至翻译模型中，得到翻译模型输出的目标语言文本；翻译模型是基于样本源语言文本和样本目标语言文本，以及与样本源语言文本匹配的样本图像，联合重建模型训练得到的；翻译模型与重建模型共用特征编码层，模型训练过程中特征编码层用于编码第一序列和第二序列，翻译模型基于第一序列的编码进行翻译，重建模型基于第二序列的编码进行重建，第一序列基于样本源语言文本确定，第二序列基于样本源语言文本中的各实体在样本图像中的区域图像和样本源语言文本的非实体确定，提高了质量提升的可解释性并且降低了翻译的复杂度。

Description

多模态机器翻译方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种多模态机器翻译方法、装置、电子设备和存储介质。

背景技术

多模态机器翻译是指利用文本信息以外的模态信息来帮助文本翻译，如利用图像来帮助提升图像描述的翻译质量。这种做法的前提假设是认为图像相比于单个句子包含着更完整的信息。

一般的多模态机器翻译模型是为了文本语言模态和静态图像模态的多模态环境而设计的，数据形式为一张图片配一句图像描述和图像描述的翻译，所采用的语义融合方式通常可分为以下两类：一类是将视觉信息以整张图片的卷积神经网络全局特征作为待翻译句子的上下文输入到翻译系统，可以作为初始化翻译模型的组件或表现为一个完整的语义作为模型的输入等；另一类方法则是在提取卷积神经网络特征时保留了图像内的相对空间信息的局部特征，从而将所提取的特征输入到翻译模型中时，即可使用注意力机制关注到图像中更细粒度的信息。这两类方法都可以实现翻译质量的提升，然而这些方法在使用视觉信息的过程中使得图像中的信息是如何作用到提升句子翻译质量的变得难以解释，这极大地限制了多模态翻译模型研究的发展。

发明内容

本发明提供一种多模态机器翻译方法、装置、电子设备和存储介质，用以解决现有技术中在翻译性能提升上缺乏可解释性的缺陷，实现提高翻译质量提升的可解释性。

本发明提供一种多模态机器翻译方法，该方法包括：

确定待翻译的源语言文本；

将所述源语言文本输入至翻译模型中，得到所述翻译模型输出的目标语言文本；

所述翻译模型是基于样本源语言文本和样本目标语言文本，以及与所述样本源语言文本匹配的样本图像，联合重建模型训练得到的；

所述翻译模型与所述重建模型共用特征编码层，模型训练过程中所述特征编码层用于编码第一序列和第二序列，所述翻译模型基于所述第一序列的编码进行翻译，所述重建模型基于所述第二序列的编码进行重建，所述第一序列基于所述样本源语言文本确定，所述第二序列基于所述样本源语言文本中的各实体在所述样本图像中的区域图像和所述样本源语言文本的非实体确定。

根据本发明提供的多模态机器翻译方法，所述第二序列是基于如下步骤确定的：

确定所述样本源语言文本中的各实体；

以所述各实体为目标在所述样本图像中进行目标检测，得到各实体的区域图像；

基于所述样本源语言文本中的非实体的文本表示，以及所述各实体的区域图像的图像表示，确定所述第二序列。

根据本发明提供的多模态机器翻译方法，所述基于所述样本源语言文本中的非实体的文本表示，以及所述各实体的区域图像的图像表示，确定所述第二序列，包括：

将所述各实体的区域图像的图像表示映射到与所述文本表示相同的语义空间中，得到各实体的实体表示；

基于所述样本源语言文本中各分词的排列顺序，拼接所述样本源语言文本中的非实体的文本表示，以及所述各实体的实体表示，得到所述第二序列。

根据本发明提供的多模态机器翻译方法，所述翻译模型还包括翻译解码层，所述重建模型还包括重建解码层；

所述翻译解码层用于基于所述第一序列的编码进行翻译，所述重建解码层用于基于所述第二序列的编码进行重建；

所述翻译解码层和所述重建解码层的参数共享或相互独立。

根据本发明提供的多模态机器翻译方法，所述将所述源语言文本输入至翻译模型中，得到所述翻译模型输出的目标语言文本，包括：

将所述源语言文本的文本序列输入至所述特征编码层，得到所述特征编码层输出的所述文本序列的编码，所述文本序列是所述源语言文本中各分词的文本表示序列；

将所述文本序列的编码输入至所述翻译解码层，得到所述翻译解码层输出的所述目标语言文本。

根据本发明提供的多模态机器翻译方法，所述翻译模型的损失函数是基于翻译损失函数和重建损失函数确定的；

所述翻译损失函数表征所述样本目标语言文本与所述翻译模型输出的预测目标语言文本之间的差异，所述重建损失函数表征所述样本源语言文本与所述重建模型输出的重建文本之间的差异。

根据本发明提供的多模态机器翻译方法，所述实体为名词实体或名词短语实体。

本发明还提供一种多模态机器翻译装置，该装置包括：

确定模块，用于确定待翻译的源语言文本；

翻译模块，用于将所述源语言文本输入至翻译模型中，得到所述翻译模型输出的目标语言文本；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多模态机器翻译方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多模态机器翻译方法的步骤。

本发明实施例提供的多模态机器翻译方法、装置、电子设备和存储介质，通过在训练阶段采用文本信息与视觉信息融合方法得到第二序列，并作为重建模型的特征编码层的输入，并且，翻译模型与重建模型共享特征编码层的参数并进行联合训练，保证重建模型所学习到的多模态信息对翻译模型是有用的，从而实现在翻译模型的应用阶段不需要输入额外的图片，就可得到翻译质量较好的目标语言文本，降低了翻译任务的复杂度，此外，仅针对文本中的实体融合视觉信息就可以实现很好的性能提升，可以很容易的发现性能提升的主要原因是实体词的翻译结果更好，因此提高了翻译质量提升的可解释性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的多模态机器翻译方法的流程示意图；

图2是本发明实施例提供的翻译模型训练过程的流程示意图；

图3是本发明实施例提供的不同翻译模型对不同类型的词的相对翻译准确率对比结果的示意图；

图4是本发明实施例提供的多模态机器翻译装置的结构示意图；

图5是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了让多模态翻译模型在具备翻译质量提升的同时具有更好的可解释性，本申请各实施例摒弃了现有技术所采用的句子级别的多模态融合方式，介绍了一种基于实体级别的跨模态信息融合的多模态机器翻译方法，仅针对句子中的实体融入图像中相对应的视觉目标信息，并通过一个多任务的框架将跨模态信息融合方法与翻译模型相结合，以实现翻译质量的提升。

图1是本发明实施例提供的多模态机器翻译方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待翻译的源语言文本。

此处，源语言文本即需要进行翻译的文本，源语言文本所应用的语言即源语言，进行翻译后得到文本所应用的语言即目标语言，对应得到的翻译结果为目标语言文本。此处的源语言文本可以是用户直接输入的，也可以是将采集所得的音频进行语音转写后得到的，还可以是通过扫描仪、手机、相机等图像采集设备采集得到图像，并对图像进行目标检测得到的。源语言文本可以是一个句子，也可以是多个句子的组合，本发明实施例对此不作具体限定。

步骤120，将源语言文本输入至翻译模型中，得到翻译模型输出的目标语言文本；

翻译模型是基于样本源语言文本和样本目标语言文本，以及与样本源语言文本匹配的样本图像，联合重建模型训练得到的；

翻译模型与重建模型共用特征编码层，模型训练过程中特征编码层用于编码第一序列和第二序列，翻译模型基于第一序列的编码进行翻译，重建模型基于第二序列的编码进行重建，第一序列基于样本源语言文本确定，第二序列基于样本源语言文本中的各实体在样本图像中的区域图像和样本源语言文本的非实体确定。

具体地，源语言文本的翻译任务可以通过翻译模型实现，翻译模型可以对输入的源语言文本进行翻译，并输出翻译所得的目标语言文本。此处，翻译模型可以是单一神经网络模型，也可以是多个神经网络模型的组合。

不同于传统的翻译模型仅应用样本源语言文本和样本目标语言文本进行模型训练，本发明实施例在翻译模型的训练阶段引入多模态的样本图像，并且联合重建模型对两者共用的特征编码层进行训练优化。

此处，样本目标语言文本即样本源语言文本对应的译文，样本图像即与样本源语言文本语义相同的图像，例如，样本源语言文本为“a girl running with outstretchedarms .”，样本目标语言可以为“ein mädchen läuft mit ausgestreckten armen .”，样本图像为伸出双臂奔跑的女孩图像。样本源语言文本对应的源语言可以是待翻译的源语言文本所对应的源语言，也可以是包括待翻译的源语言文本所对应的源语言的多种源语言；样本目标语言文本对应的目标语言可以是目标语言文本所对应的目标语言，也可以是包括目标语言文本所对应的目标语言的多种目标语言。重建模型的任务是实现文本重建，具体要重建的目标文本Z可以是样本源语言文本X，也可以是样本目标语言文本Y，本发明实施例对此不作具体限定。

在联合训练过程中，翻译模型与重建模型共用特征编码层。针对于翻译任务，特征编码层可以对基于样本源语言文本确定的纯文本的第一序列进行编码，再由翻译模型内置的解码器对于第一序列的编码进行解码翻译；针对于重建任务，特征编码层可以对基于样本源语言文本中的各实体在样本图像中的区域图像和样本源语言文本的非实体确定的多模态的第二序列进行编码，再由重建模型内置的解码器对于第二序列的编码进行解码重建。此处，特征编码层可以是基于RNN（Recurrent Neural Networks，循环神经网络）的深层编码器，也可以是基于Transformer的深层编码器。第一序列的编码即第一序列的隐层表示，第二序列的编码即第二序列的隐层表示。

进一步地，第一序列获得的方式可以是：将样本源语言文本输入到源语言词嵌入层，得到样本源语言文本的词向量表示并作为第一序列。在联合训练过程中，可以根据联合训练损失函数，翻译模型的输出结果，重建模型的输出结果，以及样本源语言文本和样本目标语言文本，不断更新优化翻译模型和重建模型的参数，最终得到训练完成后的翻译模型。

联合训练使得特征编码层能够学习到以实体为单元构建的第二序列中多模态的信息，提高特征编码层对于文本编码的特征表征能力。在此基础上，翻译模型即可实现在应用阶段与一般的纯文本的机器翻译保持一致，只需要输入源语言文本，并不需要输入与源语言文本匹配的图像，就可得到翻译质量较好的目标语言文本。

本发明实施例提供的方法，通过在训练阶段采用文本信息与视觉信息融合方法得到第二序列，并作为重建模型的特征编码层的输入，并且，翻译模型与重建模型共享特征编码层的参数并进行联合训练，保证重建模型所学习到的多模态信息对翻译模型是有用的，从而实现在翻译模型的应用阶段不需要输入额外的图片，就可得到翻译质量较好的目标语言文本，降低了翻译任务的复杂度，此外，仅针对文本中的实体融合视觉信息就可以实现很好的性能提升，可以很容易的发现性能提升的主要原因是实体词的翻译结果更好，因此提高了翻译质量提升的可解释性。

基于上述任一实施例，第二序列是基于如下步骤确定的：

确定样本源语言文本中的各实体；

以各实体为目标在样本图像中进行目标检测，得到各实体的区域图像；

基于样本源语言文本中的非实体的文本表示，以及各实体的区域图像的图像表示，确定第二序列。

具体地，在训练阶段，首先需要将样本源语言文本输入到句法分析工具中进行句法分析，得到分析结果，并从分析结果中提取出样本源语言文本中的各实体，例如，样本源语言文本为“a girl running with outstretched arms .”，各实体可以是“girl”,“arms”。可选的，句法分析工具可以是spaCy句法分析工具。

接着，将各实体作为目标，并与样本图像一起输入到目标检测工具中，检测出各实体在样本图像中所对应的区域，并进行图像裁剪得到所检测出的区域所对应的区域图像，即各实体的视觉目标，例如，将实体“A girl”和对应的样本图像输入到目标检测工具中，即可检测到女孩在样本图像中所对应的区域，并通过裁剪得到女孩所对应的区域图像“<E0>”。可选的，目标检测工具可以是one-stage目标检测工具。

在提取出样本源语言文本中的各实体之后，即可得到样本源语言文本中的非实体，即样本源语言文本中除了各实体之外的分词。在此基础上，即可将样本源语言文本中的非实体输入到重建模型中的源语言端词嵌入层，得到样本源语言文本中的非实体对应的各词向量，并作为样本源语言文本中的非实体的文本表示。

另外，将上述步骤获得的区域图像输入到重建模型中的特征提取网络，得到各区域图像对应的图像特征，并作为各实体的区域图像的图像表示，从而可以用各实体的区域图像的图像表示替换各实体的文本表示，与非实体的文本表示组成第二序列。可选的，特征提取网络可以是CNN（Convolutional Neural Network，卷积神经网络）。

基于上述任一实施例，基于样本源语言文本中的非实体的文本表示，以及各实体的区域图像的图像表示，确定第二序列，包括：

将各实体的区域图像的图像表示映射到与文本表示相同的语义空间中，得到各实体的实体表示；

基于样本源语言文本中各分词的排列顺序，拼接样本源语言文本中的非实体的文本表示，以及各实体的实体表示，得到第二序列。

具体地，在得到样本源语言文本中的非实体的文本表示，以及各实体的区域图像的图像表示之后，具体可以通过如下步骤得到第二序列：将各实体的区域图像的图像表示输入到重建模型中的特征映射网络，从而将各实体的区域图像的图像表示映射到与文本表示相同的语义空间中，得到映射后的各区域图像的图像特征，并作为各实体的实体表示。可选的，特征映射网络可以是FNN（Feedforward Neural Network，前馈神经网络）。

接着，根据样本源语言文本中各分词的排列顺序，拼接样本源语言文本中的非实体的文本表示，以及各实体的实体表示，从而得到第二序列，例如，样本源语言文本为“a girl running with outstretched arms .”，各实体为“girl”,“arms”，对应的各实体的实体表示为

，

，非实体则“a”,“running”，“with”，“outstretched”，“.”，对应的非实体的文本表示为

，

，则第二序列为

。

基于上述任一实施例，翻译模型还包括翻译解码层，重建模型还包括重建解码层；

翻译解码层用于基于第一序列的编码进行翻译，重建解码层用于基于第二序列的编码进行重建；

翻译解码层和重建解码层的参数共享或相互独立。

具体地，翻译模型通过特征编码层得到第一序列的编码，因此本发明实施例中的翻译模型还需要包括翻译解码层，从而可以根据第一序列的编码进行翻译。类似的，重建模型通过特征编码层得到第二序列的编码，因此本发明实施例中的重建模型还需要包括重建解码层，从而可以根据第二序列的编码进行重建。当重建模型所要重建的目标文本Z为样本源语言文本X时，翻译解码层的参数

和重建解码层的参数

可以相互独立，即

，也可以共享，即

，此时需要重建模型的源端与目标端共享词表和词嵌入层，从而实现共享解码层可以支持两种语言的解码，即解码到源语言用于重建，解码到目标语言用于翻译。当重建模型的目标文本Z为样本目标语言文本Y时，则翻译解码层和重建解码层的参数同样可以相互独立，也可以共享，此时相当于重建任务直接使用了翻译任务的解码器。

进一步地，当Z为X时，由于解码的目标序列对应的源语言与翻译模型的输入X所对应的源语言相同，因此，重建解码层所用到的词嵌入层即为翻译模型中的源语言词嵌入层。当Z为Y时，重建解码层所用到的词嵌入层应为目标语言所对应的词嵌入层。在重建模型与翻译模型进行联合优化之前，需要设置二者共享的特征编码层的参数

，以及翻译解码层的参数

和重建解码层的参数

。

基于上述任一实施例，步骤120包括：

将源语言文本的文本序列输入至特征编码层，得到特征编码层输出的文本序列的编码，文本序列是源语言文本中各分词的文本表示序列；

将文本序列的编码输入至翻译解码层，得到翻译解码层输出的目标语言文本。

具体地，在得到训练完成的翻译模型之后，可以通过如下步骤实现翻译模型的应用：首先，将源语言文本输入至对应的源语言词嵌入层，得到源语言文本的文本序列，此处的文本序列是源语言文本中各分词的文本表示序列，例如，源语言文本为“a dog in the trunk.”，则文本序列可以是（

），其中的

，

分别对应“a”， “dog”，“in”，“the”，“trunk”，“.”。接着，将源语言文本的文本序列输入至特征编码层，得到特征编码层输出的文本序列的编码，即该文本序列的隐层表示。最后，将文本序列的编码输入至翻译解码层，得到翻译解码层输出的目标语言文本，从而完成翻译任务。进一步地，翻译解码层可以采用柱搜索算法、采样算法或贪婪算法解码出目标语言文本。

基于上述任一实施例，翻译模型的损失函数是基于翻译损失函数和重建损失函数确定的；

翻译损失函数表征样本目标语言文本与翻译模型输出的预测目标语言文本之间的差异，重建损失函数表征样本源语言文本与重建模型输出的重建文本之间的差异。

此处，翻译模型的损失函数即上述步骤中的联合训练损失函数，可以根据翻译损失函数和重建损失函数得到。例如，翻译损失函数即翻译模型的优化目标函数为：

其中，

为样本目标语言文本，

为样本源语言文本，

为特征编码层的参数，

为翻译解码层的参数。

重建损失函数即重建模型的优化目标函数为：

其中，

为重建模型的输入数据，即各区域图像和样本源语言文本的非实体所组成的多模态序列，

为重建解码层的参数。

则翻译模型的损失函数可以是：

其中，

为权重超参数，用于表示当前小批量的数据中用于优化翻译模型的数据所占的比例，取值范围为(0,1]，例如，

为50%，则表示用于优化翻译模型的数据占当前小批量数据的一半；

也为1，则表示该优化方法将退化为一般的纯文本翻译任务。

可选的，可以采用Adam优化算法优化翻译模型的损失函数，从而得到更优的翻译模型的网络参数，提高翻译质量。

需要说明的是，本发明实施例中的重建模型为重建的目标文本Z为样本源语言文本X的情况，对应的，当Z为Y时，重建损失函数表征样本目标语言文本与重建模型输出的重建文本之间的差异，例如：

本发明实施例提供的方法，采用多任务学习框架，并通过在翻译模型的损失函数中引入一个权重超参数，来随机地优化重构模型和翻译模型的参数，提高灵活性。

基于上述任一实施例，实体为名词实体或名词短语实体。

具体地，在训练阶段中，将将样本源语言文本输入到句法分析工具中得到分析结果后，可以从分析结果中提取出样本源语言文本中的各名词实体，也可以从分析结果中提取出样本源语言文本中的各名词短语实体。例如，样本源语言文本为“a girl runningwith outstretched arms .”，各实体可以是名词短语实体P=(“A girl”,“outstretchedarms”)，也可以名词实体W=(“girl”,“arms”)。

基于上述任一实施例，当Z为X时，图2是本发明实施例提供的翻译模型训练过程的流程示意图，如图2所示，重建模型和翻译模型共享特征编码层，重建模型和翻译模型进行联合训练最终得到训练完成的翻译模型，训练完成的翻译模型可以在后续应用阶段，实现不需要输入视觉信息，即可得到翻译质量较高的目标语言文本。

在训练过程中，将样本源语言文本的非实体和各实体在样本图像中的区域图像输入到重建模型中，非实体经过对应的源语言词嵌入层得到非实体的文本表示，区域图像经过CNN得到各实体的区域图像的图像表示，并经过FNN映射到与文本表示相同的语义空间中，得到各实体的实体表示，从而可以按照样本源语言文本中各分词的排列顺序，将非实体的文本表示以及各实体的实体表示进行拼接后输入至特征编码层中，从而得到第二序列的编码，接着重建解码层根据第二序列的编码进行重建。另外，将样本源语言文本输入翻译模型中对应的源语言词嵌入层，得到第一序列并将第一序列输入至特征编码层，从而得到第一序列的编码，翻译解码层根据第一序列的编码进行翻译。

基于上述任一实施例，本发明实施例在数据集Multi30K上测试翻译模型的性能，其中测试集为Multi30K 2016/2017测试集，以及Ambiguous MSCOCO 2017测试集。表1为在不同的模型设置下，在不同的测试集上的BLEU（Bilingual Evaluation Understudy，双语评估替补）值和METEOR值结果，表中的B即对应BLEU，M即对应METEOR值，SR代表重建到源语言并利用独立的解码层参数，SS代表重建到源语言并利用共享的解码层参数，T代表重建到目标语言并利用共享的解码层参数，Word代表名词替换规则，Phrase代表名词短语替换规则，NMT（Neural Machine Translation，神经机器翻译）代表未使用任何视觉信息的纯文本基线模型，所有模型是基于RNN所实现的，特征编码层为单层的双向LSTM（Long-Short TermMemory RNN，长短期记忆模型循环神经网络），翻译解码层为单层LSTM，翻译解码层中采用了注意力机制。

表1

从表1中可看出，大多数翻译模型相较于基线模型NMT有一定程度的性能提升，其中在重建到源语言的配置中取得的效果更高。

表2为对抗实验的结果，VO代表使用正确的样本图像作为输入，RO代表将样本图像进行随机打乱，RW代表将原本应该替换为视觉目标的位置，替换为随机的词。

表2

从表2中可以看出，RO和RW的结果一般要比表1中的NMT的结果要好，但是使用正确图片的实验结果都要比使用随机图片和随机词的结果更好。

图3为本发明实施例提供的不同翻译模型对不同类型的词的相对翻译准确率对比结果的示意图，相对翻译准确率为翻译模型对词的翻译准确率减去基线模型对词的翻译准确率，相对翻译准确率能够体现多模态信息对不同类型的词的贡献，此处的不同类型的词包括实体词，非实体词，以及所有词。如图3所示的结果，图3左侧为采用正确图片的实验结果，图3右侧为采用随机图片的实验结果。从实验结果中可以看出，采用正确图片的实验结果相比于随机图片，实体词的结果更能够接近所有词的结果。结合表2中使用随机图片同样可以获得性能提升的结果，图3的结果说明这种实体级跨模态学习方法可以更好的利用视觉目标信息，使得实体词的翻译更好，说明本发明实施例提供的方法在获得性能提升的同时，具备更好的可解释性。

基于上述任一方法实施例，图4是本发明实施例提供的多模态机器翻译装置的结构示意图，如图4所示，该装置包括确定模块410和翻译模块420。

其中，确定模块410，用于确定待翻译的源语言文本；

翻译模块420，用于将所述源语言文本输入至翻译模型中，得到所述翻译模型输出的目标语言文本；

本发明实施例提供的装置，通过在训练阶段采用文本信息与视觉信息融合方法得到第二序列，并作为重建模型的特征编码层的输入，并且，翻译模型与重建模型共享特征编码层的参数并进行联合训练，保证重建模型所学习到的多模态信息对翻译模型是有用的，从而实现在翻译模型的应用阶段不需要输入额外的图片，就可得到翻译质量较好的目标语言文本，降低了翻译任务的复杂度，此外，仅针对文本中的实体融合视觉信息就可以实现很好的性能提升，可以很容易的发现性能提升的主要原因是实体词的翻译结果更好，因此提高了翻译质量提升的可解释性。

基于上述任一实施例，第二序列是基于如下步骤确定的：

确定样本源语言文本中的各实体；

翻译解码层和重建解码层的参数共享或相互独立。

基于上述任一实施例，翻译模块420具体包括：

基于上述任一实施例，实体为名词实体或名词短语实体。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行多模态机器翻译方法，该方法包括：确定待翻译的源语言文本；将源语言文本输入至翻译模型中，得到翻译模型输出的目标语言文本；翻译模型是基于样本源语言文本和样本目标语言文本，以及与样本源语言文本匹配的样本图像，联合重建模型训练得到的；翻译模型与重建模型共用特征编码层，模型训练过程中特征编码层用于编码第一序列和第二序列，翻译模型基于第一序列的编码进行翻译，重建模型基于第二序列的编码进行重建，第一序列基于样本源语言文本确定，第二序列基于样本源语言文本中的各实体在样本图像中的区域图像和样本源语言文本的非实体确定。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的多模态机器翻译方法，该方法包括：确定待翻译的源语言文本；将源语言文本输入至翻译模型中，得到翻译模型输出的目标语言文本；翻译模型是基于样本源语言文本和样本目标语言文本，以及与样本源语言文本匹配的样本图像，联合重建模型训练得到的；翻译模型与重建模型共用特征编码层，模型训练过程中特征编码层用于编码第一序列和第二序列，翻译模型基于第一序列的编码进行翻译，重建模型基于第二序列的编码进行重建，第一序列基于样本源语言文本确定，第二序列基于样本源语言文本中的各实体在样本图像中的区域图像和样本源语言文本的非实体确定。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的多模态机器翻译方法，该方法包括：确定待翻译的源语言文本；将源语言文本输入至翻译模型中，得到翻译模型输出的目标语言文本；翻译模型是基于样本源语言文本和样本目标语言文本，以及与样本源语言文本匹配的样本图像，联合重建模型训练得到的；翻译模型与重建模型共用特征编码层，模型训练过程中特征编码层用于编码第一序列和第二序列，翻译模型基于第一序列的编码进行翻译，重建模型基于第二序列的编码进行重建，第一序列基于样本源语言文本确定，第二序列基于样本源语言文本中的各实体在样本图像中的区域图像和样本源语言文本的非实体确定。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多模态机器翻译方法，其特征在于，包括：

确定待翻译的源语言文本；

2.根据权利要求1所述的多模态机器翻译方法，其特征在于，所述第二序列是基于如下步骤确定的：

确定所述样本源语言文本中的各实体；

3.根据权利要求2所述的多模态机器翻译方法，其特征在于，所述基于所述样本源语言文本中的非实体的文本表示，以及所述各实体的区域图像的图像表示，确定所述第二序列，包括：

4.根据权利要求1所述的多模态机器翻译方法，其特征在于，所述翻译模型还包括翻译解码层，所述重建模型还包括重建解码层；

所述翻译解码层和所述重建解码层的参数共享或相互独立。

5.根据权利要求4所述的多模态机器翻译方法，其特征在于，所述将所述源语言文本输入至翻译模型中，得到所述翻译模型输出的目标语言文本，包括：

6.根据权利要求1所述的多模态机器翻译方法，其特征在于，所述翻译模型的损失函数是基于翻译损失函数和重建损失函数确定的；

7.根据权利要求1至6中任一项所述的多模态机器翻译方法，其特征在于，所述实体为名词实体或名词短语实体。

8.一种多模态机器翻译装置，其特征在于，包括：

确定模块，用于确定待翻译的源语言文本；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述多模态机器翻译方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述多模态机器翻译方法的步骤。