CN111967277B

CN111967277B - 基于多模态机器翻译模型的翻译方法

Info

Publication number: CN111967277B
Application number: CN202010816635.4A
Authority: CN
Inventors: 苏劲松; 林欢; 尹永竞; 周楚伦; 姚俊峰
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2022-07-19
Anticipated expiration: 2040-08-14
Also published as: CN111967277A

Abstract

本发明提出了一种基于多模态机器翻译模型的翻译方法，包括获取源端句子和对应的翻译图像，并对源端句子和翻译图像进行预处理，以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征；建立多模态机器翻译模型，并根据对多模态机器翻译模型进行训练，其中，多模态机器翻译模型包括编码器和解码器，解码器包括上下文指导的胶囊网络；基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译，以生成待翻译的源端句子对应的目标端句子；由此，通过在多模态机器翻译模型的解码器引入上下文指导胶囊网络进行翻译，能够在动态生成丰富的多模态表示的同时，避免引入大量参数，从而有效提升多模态机器翻译的性能。

Description

基于多模态机器翻译模型的翻译方法

技术领域

本发明涉及机器翻译技术领域，特别涉及一种基于多模态机器翻译模型的翻译方法、一种计算机可读存储介质和一种计算机设备。

背景技术

相关技术中，现有的多模态机器翻译方法通常将待翻译的图像特征作为全局信息，采用注意力机制动态提取图像上下文特征，以进行学习多模态联合表示，但是将图像特征作为全局信息以及学习多模态联合表示的方法均无法捕捉到翻译过程中动态生成的特性；且单注意力机制无法胜任复杂的多模态翻译任务，而多注意力机制又面临着参数过多的问题，从而出现过拟合问题，进而大大降低了多模态机器的翻译性能。

发明内容

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此，本发明的一个目的在于提出一种基于多模态机器翻译模型的翻译方法，该方法采用具有上下文指导胶囊网络的多模态机器翻译模型进行翻译，基于上下文指导的胶囊网络能够在动态生成丰富的多模态表示的同时，避免引入大量参数，从而有效提升多模态机器翻译的性能。

本发明的第二个目的在于提出一种计算机可读存储介质。

本发明的第三个目的在于提出一种计算机设备。

为达到上述目的，本发明第一方面实施例提出了一种基于多模态机器翻译模型的翻译方法，该方法包括以下步骤：获取源端句子和对应的翻译图像，并对所述源端句子和所述翻译图像进行预处理，以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征；建立多模态机器翻译模型，并根据处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征对所述多模态机器翻译模型进行训练，其中，所述多模态机器翻译模型包括编码器和解码器，所述解码器包括上下文指导的胶囊网络；基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译，以生成所述待翻译的源端句子对应的目标端句子。

根据本发明实施例的基于多模态机器翻译模型的翻译方法，首先获取源端句子和对应的翻译图像，并对源端句子和翻译图像进行预处理，以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征，接着建立多模态机器翻译模型，并根据处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征对多模态机器翻译模型进行训练，其中，多模态机器翻译模型包括编码器和解码器，解码器包括上下文指导的胶囊网络，然后基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译，以生成待翻译的源端句子对应的目标端句子；由此，通过在多模态机器翻译模型的解码器中引入上下文指导胶囊网络进行翻译，能够在动态生成丰富的多模态表示的同时，避免引入大量参数，从而有效提升多模态机器翻译的性能。

另外，根据本发明上述实施例提出的基于多模态机器翻译模型的翻译方法还可以具有如下附加的技术特征：

可选地，基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译，以生成所述待翻译的源端句子对应的目标端句子，包括：将处理后的待翻译的源端句子输入到所述多模态机器翻译模型中的编码器进行编码，以获得所述处理后的待翻译的源端句子对应的隐状态表示；将所述隐状态表示、待翻译图像的全局特征和待翻译图像的局部特征输入到所述多模态机器翻译模型中的解码器，并通过所述解码器端的上下文指导的胶囊网络提取上下文相关的多模态特征，以及根据所述上下文相关的多模态特征生成目标端句子。

可选地，所述编码器包括L_e个编码层，所述编码器通过以下公式获得所述处理后的待翻译的源端句子对应的隐状态表示：

其中，1≤l≤L_e；

表示第l层的编码器隐状态；MultiHead(*)为多头注意力机制函数；S^(l-1)表示编码器第l-1层的源端句子隐状态表示；S^(l)表示编码器第l层的源端句子隐状态表示；FFN(*)为位置前馈函数。

可选地，所述解码器包括L_d个解码层，每个解码层具有三个子层，所述上下文指导的胶囊网络位于所述解码器的第L_d个解码层的第二子层与第三子层之间。

可选地，所述上下文指导的胶囊网络包括第一上下文指导的胶囊网络和第二上下文指导的胶囊网络，其中，所述第一上下文指导的胶囊网络用于提取翻译图像的全局特征对应的上下文相关的多模态特征，所述第二上下文指导的胶囊网络用于提取翻译图像的局部特征对应的上下文相关的多模态特征。

可选地，所述上下文指导的胶囊网络根据以下公式提取上下文相关的多模态特征：

其中，

表示第L_d层的解码器隐状态；

表示解码器第L_d-1层输出的隐状态表示；

表示编码器第L_e层的隐状态表示；

表示t时刻解码器第L_d层的上下文向量；I_g表示翻译图像的全局特征；I_r表示翻译图像的局部特征；

表示翻译图像的全局特征对应的上下文相关的多模态特征；

表示翻译图像的局部特征对应的上下文相关的多模态特征。

可选地，根据所述上下文相关的多模态特征生成目标端句子，包括：采用门结构对翻译图像的全局特征对应的上下文相关的多模态特征和翻译图像的局部特征对应的上下文相关的多模态特征进行融合；将融合后的多模态特征输入到所述解码器的第L_d个解码层的第三子层，以得到解码器第L_d层的目标端句子表示；根据所述目标端句子表示生成概率分布，以生成目标端句子。

可选地，根据以下公式计算解码器第L_d层的目标端句子表示：

其中，

为第L_d层的目标端句子表示；

为t时刻融合后的上下文相关的多模态特征；W_g和W_r为模型参数；Sigmoid为激活函数。

为达到上述目的，本发明第二方面实施例提出了一种计算机可读存储介质，其上存储有基于多模态机器翻译模型的翻译程序，该基于多模态机器翻译模型的翻译程序被处理器执行时实现如上述的基于多模态机器翻译模型的翻译方法。

根据本发明实施例的计算机可读存储介质，通过存储有多模态机器翻译模型的翻译程序，这样多模态机器翻译模型的翻译程序被处理器执行时实现上述的多模态机器翻译模型的翻译方法，由此，通过在多模态机器翻译模型中引入上下文指导胶囊网络进行翻译，能够在动态生成丰富的多模态表示的同时，避免引入大量参数，从而有效提升多模态机器翻译的性能。

为达到上述目的，本发明第三方面实施例提出了一种计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述的基于多模态机器翻译模型的翻译方法。

根据本发明实施例的计算机设备，通过存储器存储基于多模态机器翻译模型的翻译程序，这样基于多模态机器翻译模型的翻译程序被处理器执行时实现上述的基于多模态机器翻译模型的翻译方法，由此，通过在多模态机器翻译模型中引入上下文指导胶囊网络进行翻译，能够在动态生成丰富的多模态表示的同时，避免引入大量参数，从而有效提升多模态机器翻译的性能。

附图说明

图1为根据本发明实施例的基于多模态机器翻译模型的翻译方法的流程示意图；

图2为根据本发明实施例的总体网络结构示意图；

图3为根据本发明实施例的上下文指导的动态路由示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

图1为根据本发明实施例的基于多模态机器翻译模型的翻译方法的流程示意图，如图1所示，本发明实施例的基于多模态机器翻译模型的翻译方法包括以下步骤：

步骤101，获取源端句子和对应的翻译图像，并对源端句子和翻译图像进行预处理，以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征。

作为一个实施例，首先获取源端句子和对应的翻译图像，对获取的源端句子进行分词、大小写统一等预处理，以及采用预先训练好的ResNet-50和bottom-up-attention工具分别获得翻译图像的全局特征和局部特征。

步骤102，建立多模态机器翻译模型，并根据处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征对多模态机器翻译模型进行训练，其中，多模态机器翻译模型包括编码器和解码器，解码器包括上下文指导的胶囊网络。

作为一个实施例，在训练阶段，根据多模态机器翻译模型的损失函数更新模型参数，迭代训练过程，直至达到指定轮次，进而获得多模态机器翻译模型。

步骤103，基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译，以生成待翻译的源端句子对应的目标端句子。

作为一个实施例，将处理后的待翻译的源端句子输入到多模态机器翻译模型中的编码器进行编码，以获得处理后的待翻译的源端句子对应的隐状态表示；将隐状态表示、待翻译图像的全局特征和待翻译图像的局部特征输入到多模态机器翻译模型中的解码器，并通过解码器端的上下文指导的胶囊网络提取上下文相关的多模态特征，以及根据上下文相关的多模态特征生成目标端句子。

其中，作为一个实施例，如图2所示，编码器包括L_e个编码层，编码器通过以下公式获得处理后的待翻译的源端句子对应的隐状态表示：

其中，1≤l≤L_e；

作为一个具体实施例，L_e个编码层中的每个编码层分为两个子层，第一子层是多头自注意力层(multi-head self-attention layer)，输入为上一层编码器得到的源端句子隐状态表示，输出为当前层的编码器隐状态；第二子层是位置全连接层(position-wisefully connected layer)，输入当前层的编码器隐状态，输出当前层的源端句子隐状态表示。

需要说明的是，每个子层后均有残差连接(residual connection)和层正则化(layer normalization)。

其中，作为一个实施例，如图2所示，解码器包括L_d个解码层，每个解码层具有三个子层，上下文指导的胶囊网络位于所述解码器的第L_d个解码层的第二子层和第三子层之间。

作为一个具体实施例，解码器的L_d个解码层中的前L_d-1层解码器有三个子层。

其中，第一个子层是多头自注意力层，输入为上一层解码器输出的隐状态T^(l-1)，输出当前层隐状态

计算公式如下：

第二个子层是多头注意力层，用当前隐状态

对源端表示

计算注意力，得到当前上下文表示C^(l)：

第三个子层是位置全连接层(position-wise fully connected layer)，输入当前层的上下文表示C^(l)，输出当前层的句子表示T^(l)。

T^(l)＝FFN(C^(l))1≤l≤L_d-1

在第L_d层解码器，第一子层和第二子层与上述相同，通过第一子层以下公式输出第L_d层的解码器隐状态

第二子层通过以下公式输出表示t时刻解码器第L_d层的上下文向量

在第二子层与第三子层之间引入两个上下文指导的胶囊网络，分别提取全局图像特征I_g和局部图像特征I_r以获得对应的上下文相关的多模态特征。

也就是说，在第二子层与第三子层之间设有第一上下文指导的胶囊网络和第二上下文指导的胶囊网络，其中，第一上下文指导的胶囊网络用于提取翻译图像的全局特征对应的上下文相关的多模态特征，第二上下文指导的胶囊网络用于提取翻译图像的局部特征对应的上下文相关的多模态特征。

通过以下公式获得对应的上下文相关的多模态特征

和

其中，CapsuleNet(*)表示上下文指导的动态路由函数；

表示t时刻解码器第L_d层的上下文向量；I_g表示翻译图像的全局特征；Ir表示翻译图像的局部特征；

表示翻译图像的全局特征对应的上下文相关的多模态特征；

表示翻译图像的局部特征对应的上下文相关的多模态特征。

接着，通过门结构对翻译图像的全局特征对应的上下文相关的多模态特征和翻译图像的局部特征对应的上下文相关的多模态特征进行融合：

其中，

为t时刻融合后的上下文相关的多模态特征；W_g和W_r为模型参数；Sigmoid为激活函数；α为门结构的权重，即分配给

和

的权重。

再接着，将融合后的多模态特征输入到解码器的第L_d个解码层的第三子层，通过第L_d层解码器的第三子层得到第L_d层的目标端句子表示

最后，用目标端句子表示

生成概率分布，然后从概率分布采集得到目标端句子：

Y_<t是已生成的目标词序列，W是模型参数，

V_y是目标词序列词汇表；X为源端句子。

需要说明的是，作为一个具体实施例，如图3所示，上下文指导的胶囊网络(Dynamic Context-guided Capsule Network，DCCN)结构由以下几部分构成：

底层胶囊

用于编码图像特征；高层胶囊

用于编码抽取到的图像上下文；多模态胶囊

用于编码多模态特征。

胶囊网络的计算流程如下：

输入：图像特征矩阵I；用图像特征矩阵I初始化底层胶囊

用上下文向量

初始化多模态胶囊

用变换矩阵W_ij将第i个底层胶囊转换为中间变量

用皮尔逊相关系数(Pearson Correlation Coefficients，PCC)计算底层胶囊和多模态胶囊的相关度ρ_ij，计算公式如下：

其中，PCC(*)表示皮尔逊相关系数，W_m是网络参数，cov是协方差计算，σ是标准差计算；

接下来进行N_itr次动态路由的循环计算来捕获上下文相关的图像信息，每轮循环内容如下：中间变量b_ij初始化为0；对b_ij按列计算Softmax值，得到相关系数c_ij；用c_ij与ρ_ij的和加权求和

得到高层胶囊v_i；用v_i更新多模态胶囊得到m_j；每轮路由循环结束后，用m_j更新ρ_ij；用ρ_ij更新b_ij；最后将N_v个多模态胶囊融合成一个，得到多模态上下文表示

需要说明的是，作为一个实施例，在进行英语翻译成德语的过程中，由于存在一些具有歧义的源端句子或复杂的句子，就需要借助图像信息进行正确的翻译，而本发明在对图像进行提取时，引入了胶囊网络，利用特定的时间步长对源端句子的上下文向量动态指导进行抽取以得到不同时间段的视觉特征，其中语义交互两种模式之间可以通过上下文指导的动态路由机制。

终上所述，根据本发明实施例的基于多模态机器翻译模型的翻译方法，首先获取源端句子和对应的翻译图像，并对源端句子和翻译图像进行预处理，以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征，接着建立多模态机器翻译模型，并根据处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征对多模态机器翻译模型进行训练，其中，多模态机器翻译模型包括编码器和解码器，解码器包括上下文指导的胶囊网络，然后基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译，以生成待翻译的源端句子对应的目标端句子；由此，通过在多模态机器翻译模型中引入上下文指导胶囊网络进行翻译，能够在动态生成丰富的多模态表示的同时，避免引入大量参数，从而有效提升多模态机器翻译的性能。

另外，本发明实施例还提出了一种计算机可读存储介质，其上存储有基于多模态机器翻译模型的翻译程序，该基于多模态机器翻译模型的翻译程序被处理器执行时实现如上述的基于多模态机器翻译模型的翻译方法。

另外，本发明实施例还提出了一种计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述的基于多模态机器翻译模型的翻译方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于多模态机器翻译模型的翻译方法，其特征在于，包括以下步骤：

获取源端句子和对应的翻译图像，并对所述源端句子和所述翻译图像进行预处理，以获得处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征；

建立多模态机器翻译模型，并根据处理后的源端句子、翻译图像的全局特征和翻译图像的局部特征对所述多模态机器翻译模型进行训练，其中，所述多模态机器翻译模型包括编码器和解码器，所述解码器包括上下文指导的胶囊网络；

基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译，以生成所述待翻译的源端句子对应的目标端句子；

其中，基于训练好的多模态机器翻译模型对处理后的待翻译的源端句子和对应的翻译图像进行翻译，以生成所述待翻译的源端句子对应的目标端句子，包括：

将处理后的待翻译的源端句子输入到所述多模态机器翻译模型中的编码器进行编码，以获得所述处理后的待翻译的源端句子对应的隐状态表示；

将所述隐状态表示、待翻译图像的全局特征和待翻译图像的局部特征输入到所述多模态机器翻译模型中的解码器，并通过所述解码器端的上下文指导的胶囊网络提取上下文相关的多模态特征，以及根据所述上下文相关的多模态特征生成目标端句子；

其中，所述编码器包括L_e个编码层，所述编码器通过以下公式获得所述处理后的待翻译的源端句子对应的隐状态表示：

其中，1≤l≤L_e；

2.如权利要求1所述的基于多模态机器翻译模型的翻译方法，其特征在于，所述解码器包括L_d个解码层，每个解码层具有三个子层，所述上下文指导的胶囊网络位于所述解码器的第L_d个解码层的第二子层和第三子层之间。

3.如权利要求2所述的基于多模态机器翻译模型的翻译方法，其特征在于，所述上下文指导的胶囊网络包括第一上下文指导的胶囊网络和第二上下文指导的胶囊网络，其中，所述第一上下文指导的胶囊网络用于提取翻译图像的全局特征对应的上下文相关的多模态特征，所述第二上下文指导的胶囊网络用于提取翻译图像的局部特征对应的上下文相关的多模态特征。

4.如权利要求3所述的基于多模态机器翻译模型的翻译方法，其特征在于，所述上下文指导的胶囊网络根据以下公式提取上下文相关的多模态特征：