CN117474019A

CN117474019A - 一种视觉引导的目标端未来语境翻译方法

Info

Publication number: CN117474019A
Application number: CN202311810908.4A
Authority: CN
Inventors: 熊德意; 朱少林; 李上杰; 雷易锟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-01-30
Anticipated expiration: 2043-12-27
Also published as: CN117474019B

Abstract

本发明提供了一种视觉引导的目标端未来语境翻译方法。该方法包括：利用文本编码器提取源句子中待翻译文本对象的语义和语法特征，得到文本语义信息；利用预先训练的语言模型估计待翻译文本对象和视觉对象之间的语义相似度，根据对齐阈值和语义相似度构建多模态图；利用多模态编码器对待翻译文本对象的文本语义信息和多模态图进行合并处理，得到多模态融合信息；利用多模态解码器对多模态融合信息进行解码操作，得到多模态隐藏信息，利用目标端未来上下文预测器处理多模态隐藏信息和多模态融合信息，得到未来上下文信息；利用动态更新门将待翻译文本对象的未来上下文信息和多模态隐藏信息进行合并处理，得到待翻译文本对象的预测翻译。

Description

一种视觉引导的目标端未来语境翻译方法

技术领域

本发明涉及自然语言处理和机器翻译技术领域，特别涉及一种视觉引导的目标端未来语境翻译方法、电子设备以及存储介质。

背景技术

多模态机器翻译（Multimodal Machine Translation，MMT）旨在将来自多个模态（机器翻译的视觉或语音）的信息融合到翻译中，其动机是假设额外的模态（特别是本文的视觉模态）可能包含可替代文本输入数据的有用信息。MMT系统的主要焦点是将与输入文本相关的视觉信号整合到传统的纯文本神经机器翻译（Neural Machine Translation，NMT）中，以提高翻译质量。因此，它有望比纯文本机器翻译更健壮，因为视觉特征在许多情况下提供了补充信息，而文本上下文本身不足以正确翻译（例如，歧义词、语法性别）。

通常，翻译是逐字生成的（即自回归机器翻译），根据源句子和最近在目标端生成的部分假设来预测目标词。由于缺乏对未来的全局信息，这种自动回归的机器翻译可能会导致翻译不足（即翻译过度和翻译不足问题）。一个有希望的方向是在每个解码步骤中跟踪源句子的已翻译（过去）和未翻译（将来）部分。然而，一个潜在的问题是：纯文本NMT解码器在推理期间无法访问目标端翻译的未来上下文。

发明内容

鉴于上述问题，本发明提供了一种视觉引导的目标端未来语境翻译方法，以期至少能够解决上述问题之一。

根据本发明的第一个方面，提供了一种视觉引导的目标端未来语境翻译方法，包括：

利用文本编码器提取源句子中待翻译文本对象的语义和语法特征，得到待翻译文本对象的文本语义信息；

利用预先训练的语言模型估计待翻译文本对象和与待翻译文本对象存在上下文关联关系的视觉对象之间的语义相似度，并根据预定义的对齐阈值和语义相似度构建多模态图；

利用基于图的多模态编码器通过具有逐元素操作的门控机制对待翻译文本对象的文本语义信息和多模态图进行合并处理，得到多模态融合信息；

利用多模态解码器对多模态融合信息进行解码操作，得到多模态隐藏信息，并利用目标端未来上下文预测器通过引导动态路由方法处理多模态隐藏信息和多模态融合信息，得到待翻译文本对象的未来上下文信息；

利用动态更新门将待翻译文本对象的未来上下文信息和多模态隐藏信息进行合并处理，得到待翻译文本对象的预测翻译。

根据本发明的实施例，上述利用预先训练的语言模型估计待翻译文本对象和与待翻译文本对象存在上下文关联关系的视觉对象之间的语义相似度，并根据预定义的对齐阈值和语义相似度构建多模态图包括：

利用预先训练的语言模型估计待翻译文本对象和视觉对象之间的语义相似度，并将语义相似度与预定义的对齐阈值进行比较，得到比较结果；

在比较结果是语义相似度大于预定义的对齐阈值的情况下，将待翻译文本对象与视觉对象之间建立连接，得到具有待翻译文本对象节点、视觉对象节点以及节点连接关系的多模态图。

根据本发明的实施例，上述利用基于图的多模态编码器通过具有逐元素操作的门控机制对待翻译文本对象的文本语义信息和多模态图进行合并处理，得到多模态融合信息包括：

将待翻译文本对象的文本语义信息、多模态图中与待翻译文本对象连接关系的视觉对象以及可训练的第一权重矩阵进行运算；

利用基于图的多模态编码器对运算结果进行激活处理，并将激活结果和多模态图中与待翻译文本对象连接关系的视觉对象进行相乘，得到多模态表示；

利用基于图的多模态编码器将待翻译文本对象的文本语义信息和多模态表示通过门控机制进行逐元素相加运算，得到多模态融合信息。

根据本发明的实施例，上述利用多模态解码器对多模态融合信息进行解码操作，得到多模态隐藏信息，并利用目标端未来上下文预测器通过引导动态路由方法处理多模态隐藏信息和多模态融合信息，得到待翻译文本对象的未来上下文信息包括：

将多模态隐藏信息与可训练的第二权重矩阵进行相乘，得到待翻译文本对象的转换结果；

利用待翻译文本对象的当前路由概率，通过协议迭代动态路由过程得到权重分配矩阵；

将待翻译文本对象的转换结果与权重分配矩阵进行相乘，得到待翻译文本对象的加权和；

将待翻译文本对象的加权和通过非线性挤压函数进行计算，得到待翻译文本对象的未来上下文信息。

根据本发明的实施例，上述利用待翻译文本对象的当前路由概率，通过协议迭代动态路由过程得到权重分配矩阵包括：

将待翻译文本对象的转换结果、多模态隐藏信息与待翻译文本对象的未来上下文信息进行向量串联操作，得到向量串联结果；

将向量串联结果先后与可训练的第三权重矩阵、可训练的第四权重矩阵进行运算；

将运算结果与待翻译文本对象的当前路由概率进行相加运算进而更新待翻译文本对象的当前路由概率；

将更新后的待翻译文本对象的当前路由概率经过激活处理后，得到权重分配矩阵。

根据本发明的实施例，上述目标端未来上下文预测器通过以下操作训练得到：

基于全局上下文信息和可训练的第四权重矩阵，利用目标端未来上下文预测器进行双曲正切运算、线性运算以及分类运算，得到文本信息中未翻译词的预测概率；

利用未来损失函数处理预测概率、多模态融合信息以及多模态隐藏信息，得到未来损失值；

基于目标视觉多模式图的相似性评分计算全局上下文信息与视觉对象之间的相似性评分；

利用目标视觉一致性损失函数处理相似性评分，得到一致性损失值；

根据一致性损失值和未来损失值，对目标端未来上下文预测器的参数进行优化；

迭代进行上述操作，直到满足第一预设条件，得到训练完成的目标端未来上下文预测器。

根据本发明的实施例，上述利用动态更新门将待翻译文本对象的未来上下文信息和多模态隐藏信息进行合并处理，得到待翻译文本对象的预测翻译包括：

利用动态更新门的第一全连接层处理可训练的第五权重矩阵、待翻译文本对象的未来上下文信息和多模态隐藏信息，得到第一处理结果；

利用动态更新门的全连接层的激活函数对第一处理结果进行激活处理，得到门权重矩阵；

利用动态更新门的第二全连接层处理待翻译文本对象的未来上下文信息，得到第二处理结果；

将第二处理结果与门权重矩阵进行矩阵相乘运算，并将相乘运算结果与多模态隐藏信息进行运算，得到更新的多模态隐藏信息；

基于更新的多模态隐藏信息，得到待翻译文本对象的动态翻译预测，并基于动态翻译预测对待翻译文本对象进行预测翻译。

根据本发明的实施例，上述动态更新门通过以下操作训练得到：

将多模态隐藏信息与预定义的多模态隐藏权重矩阵进行运算，并将运算结果经由动态更新门全连接层进行处理，得到门值矩阵；

利用动态更新门的归一化函数处理门值矩阵，得到待翻译文本对象的翻译预测概率；

利用平移损失函数处理翻译预测概率，得到平移损失值，并根据平移损失值对动态更新门的参数进行优化；

迭代进行上述操作，直到满足第二预设条件，得到训练完成的动态更新门。

根据本发明的第二个方面，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行一种视觉引导的目标端未来语境翻译方法。

根据本发明的第二个方面，提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行一种视觉引导的目标端未来语境翻译方法。

本发明提供的上述视觉引导的目标端未来语境翻译方法，通过将视频中待翻译文本对象与视觉对象进行语义相似度计算，并基于语义相似度构建多模态图，利用基于图的多模态编码器将待翻译文本对象的语义信息和多模态图进行融合，得到多模态融合信息，同时将多模态融合信息和文本的语义信息通过目标端未来上下文预测器进行处理，得到待翻译文本对象的上下文信息，并利用动态更新门将语义信息和上下文信息进行融合，得到待翻译文本对象的预测翻译。本发明提供的上述视觉引导的目标端未来语境翻译方法由于融合了与待翻译文本对象存在上下文关联关系的视觉对象的信息，有效解决了视频翻译中文本对象与视觉对象互相独立的问题，有效地将视觉对象上下文信息融合到文本对象的翻译中，充分考虑到了视频翻译中文本对象翻译所在的场景，降低了文本对象翻译的歧义问题，从而提高了视频翻译中文本对象翻译的准确性。

附图说明

图1是根据本发明实施例的视觉引导的目标端未来语境翻译方法的流程图；

图2是根据本发明实施例的视觉引导的目标端未来语境翻译方法的架构图示意图；

图3示意性示出了根据本发明实施例的适于实现视觉引导的目标端未来语境翻译方法的电子设备的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

在现有的视频翻译技术方案中，视频中的文本对象的翻译通常与视觉对象相互独立，导致文本对象的翻译通常无法考虑视频所包含的场景信息等，使得文本对象的翻译无法有效融合视觉对象所包含的上下文信息，从而影响了视频中文本对象翻译的准确性。

为了解决现有技术中的问题，本发明一种视觉引导的目标端未来语境翻译方法，通过基于图的多模态编码器将视觉对象和文本对象进行融合，利用目标端未来上下文预测器获取与文本对象相关联的视觉对象的信息进而预测文本对象的上下文信息，并利用动态更新门将上下文信息与文本对象的语义信息相融合，得到文本对象更准确的预测翻译。

图1是根据本发明实施例的视觉引导的目标端未来语境翻译方法的流程图。

如图1所示，上述视觉引导的目标端未来语境翻译方法包括操作S110~操作S150。

在操作S110，利用文本编码器提取源句子中待翻译文本对象的语义和语法特征，得到待翻译文本对象的文本语义信息。

在操作S120，利用预先训练的语言模型估计待翻译文本对象和与待翻译文本对象存在上下文关联关系的视觉对象之间的语义相似度，并根据预定义的对齐阈值和语义相似度构建多模态图。

上述待翻译文本对象（或文本节点、文本对象）与视觉对象存在一定的关联性，待翻译文本对象与视觉对象来自同一个视频文件，并且视觉对象所包含的信息有助于待翻译文本对象的翻译。

在操作S130，利用基于图的多模态编码器通过具有逐元素操作的门控机制对待翻译文本对象的文本语义信息和多模态图进行合并处理，得到多模态融合信息。

在操作S140，利用多模态解码器对多模态融合信息进行解码操作，得到多模态隐藏信息，并利用目标端未来上下文预测器通过引导动态路由方法处理多模态隐藏信息和多模态融合信息，得到待翻译文本对象的未来上下文信息。

在操作S150，利用动态更新门将待翻译文本对象的未来上下文信息和多模态隐藏信息进行合并处理，得到待翻译文本对象的预测翻译。

本发明提供的上述视觉引导的目标端未来语境翻译方法由于融合了与待翻译文本对象存在上下文关联关系的视觉对象的信息，有效解决了视频翻译中文本对象与视觉对象互相独立的问题，有效地将视觉对象上下文信息融合到文本对象的翻译中，充分考虑到了视频翻译中文本对象翻译所在的场景，降低了文本对象翻译的歧义问题，从而提高了视频翻译中文本对象翻译的准确性。

根据本发明的实施例，上述利用预先训练的语言模型估计待翻译文本对象和与待翻译文本对象存在上下文关联关系的视觉对象之间的语义相似度，并根据预定义的对齐阈值和语义相似度构建多模态图包括：利用预先训练的语言模型估计待翻译文本对象和视觉对象之间的语义相似度，并将语义相似度与预定义的对齐阈值进行比较，得到比较结果；在比较结果是语义相似度大于预定义的对齐阈值的情况下，将待翻译文本对象与视觉对象之间建立连接，得到具有待翻译文本对象节点、视觉对象节点以及节点连接关系的多模态图。

根据本发明的实施例，上述利用基于图的多模态编码器通过具有逐元素操作的门控机制对待翻译文本对象的文本语义信息和多模态图进行合并处理，得到多模态融合信息包括：将待翻译文本对象的文本语义信息、多模态图中与待翻译文本对象连接关系的视觉对象以及可训练的第一权重矩阵进行运算；利用基于图的多模态编码器对运算结果进行激活处理，并将激活结果和多模态图中与待翻译文本对象连接关系的视觉对象进行相乘，得到多模态表示；利用基于图的多模态编码器将待翻译文本对象的文本语义信息和多模态表示通过门控机制进行逐元素相加运算，得到多模态融合信息。

为了更好地说明基于图的多模态编码器的作用，下面结合图2以及具体实施例对本发明提供的上述基于图的多模态编码器做进一步详细地说明。

图2是根据本发明实施例的视觉引导的目标端未来语境翻译方法的架构图示意图。

在图2所示的视觉引导的目标端未来语境翻译方法的架构示意图中，基于图的多模态编码器主要作用是完成多模态图与待翻译文本对象的语义信息的融合。

如果直接对整个图像进行编码，可能会给翻译带来噪声。因此，本发明使用与文本语义相关的视觉对象，只对视觉特征进行编码，避免引入大量的噪声。在本发明中，首先通过计算对象词相似度来构造一个多模态图，对源句子和视觉上下文之间的关系进行编码。在构造的多模态图中，/>中的每个节点要么是文本词/>，要么是视觉对象/>。如果文本对象节点与视觉对象节点对齐，那么这两个节点在/>中用一条边连接。通常，本发明通过借助预先训练的语言模型估计对象与文本单词之间的语义相似性来计算对象与文本词的对齐分数的程度。使用阈值/>（一个预定义的参数）来确定源词是否连接到多模态图中的对象，如公式（1）所示：

（1），

如果得分score高于，就在两点之间创建边/>。本发明使用具有逐元素操作的门控机制来合并所构建的多模式图的语义信息。具体地，本发明使用如公式（2）和（3）所示的公式获得文本对象节点/>的视觉融合表示/>：

（2），

（3），

其中是/>的视觉节点的集合。如果文本对象节点/>和视觉节点/>之间的得分/>大于预设阈值/>，则设置/>。如果/>和视觉节点之间的得分/>低于预设阈值/>，则设置/>，0是零向量。/>是一个可训练的权重矩阵。/>是文本编码器的第/>个文本/>对象隐藏状态表示。将/>和相加以获得多模态表示/>，/>，其中，。

根据本发明的实施例，上述利用多模态解码器对多模态融合信息进行解码操作，得到多模态隐藏信息，并利用目标端未来上下文预测器通过引导动态路由方法处理多模态隐藏信息和多模态融合信息，得到待翻译文本对象的未来上下文信息包括：将多模态隐藏信息与可训练的第二权重矩阵进行相乘，得到待翻译文本对象的转换结果；

利用待翻译文本对象的当前路由概率，通过协议迭代动态路由过程得到权重分配矩阵；将待翻译文本对象的转换结果与权重分配矩阵进行相乘，得到待翻译文本对象的加权和；将待翻译文本对象的加权和通过非线性挤压函数进行计算，得到待翻译文本对象的未来上下文信息。

根据本发明的实施例，上述利用待翻译文本对象的当前路由概率，通过协议迭代动态路由过程得到权重分配矩阵包括：将待翻译文本对象的转换结果、多模态隐藏信息与待翻译文本对象的未来上下文信息进行向量串联操作，得到向量串联结果；将向量串联结果先后与可训练的第三权重矩阵、可训练的第四权重矩阵进行运算；将运算结果与待翻译文本对象的当前路由概率进行相加运算进而更新待翻译文本对象的当前路由概率；将更新后的待翻译文本对象的当前路由概率经过激活处理后，得到权重分配矩阵。

下面结合具体实施例方式以及附图2对上述目标端未来上下文预测器做进一步详细地说明。

如图2所示，如图2所示，上述目标端未来上下文预测器主要作用是获取与待翻译文本对象存在关联关系的视觉对象的上下文信息，其中，softmax表示归一化指数函数；图2中引导动态路由上面的数学符号分别是、/>、/>以及/>；图2中引导动态路由下面的数学符号是/>；图2中动态更新门坐标的数学符号是/>；图2中“a rhythmicGymnast in a blue and pink outfit performs a ribbon routine”表示待翻译文本，待翻译文本下面是数学符号从左至右分别是/>、/>、/>、/>和/>；图2中多模态图所示的数学符号从上到下、从左至右依次为/>、/>、/>、/>、/>、/>、/>、/>。

为了学习目标侧的未来上下文，本发明将引导动态路由（GDR）方法应用于视觉引导的目标端未来语境翻译方法。GDR是胶囊网络的核心，胶囊网络是一个神经元向量，代表来自输入的同一实体的不同属性。GDR在解决将部分分配给整体的问题方面显示出了其优越性。在本发明中，将多模态编码器的隐藏输出状态传输到胶囊网络。然后，本发明提出了一种引导动态路由的变体，以推断由外部信息引导的胶囊网络的未翻译信息。在视觉引导的目标端未来语境翻译方法中，本发明将基于图的多模式编码器的输出状态/>作为胶囊网络G的输入。所提出的新GDR用于从解码器隐藏状态/>引导的G的输出推断目标侧未来信息。具体地，在引入的GDR中，在时间步长/>中，G的输出（/>）被视为推断的未来上下文的隐藏状态，其是用非线性挤压函数计算的，如公式（4）和（5）所示：

（4），

（5），

其中，是所有向量/>上的加权和。/>是从第/>个文本节点的视觉融合表示（）转换而来的，该/>由基于图的语义模型编码器学习。/>是分配权重（即，在多大程度上应该考虑/>来预测目标侧的未来上下文），通过协议迭代动态路由过程进行调整，如公式（6）和（7）所示：

（6），

（7），

其中，路由概率被初始化为0向量，通过在解码器状态/>的指导下测量向量/>和/>之间的一致性来迭代更新。对于/>，本发明使用令牌“[sos]”的特殊表示作为解码器的初始状态/>。/>和/>是可训练的权重矩阵。/>表示串联。通过解码器隐藏状态/>和由基于图形的多模态编码器编码的全局上下文，基于GDR的预测器能够通过区分已经翻译的内容和将要翻译的内容来捕获未来的上下文。

根据本发明的实施例，上述目标端未来上下文预测器通过以下操作训练得到：基于全局上下文信息和可训练的第四权重矩阵，利用目标端未来上下文预测器进行双曲正切运算、线性运算以及分类运算，得到文本信息中未翻译词的预测概率；利用未来损失函数处理预测概率、多模态融合信息以及多少多模态隐藏状态信息，得到未来损失值；基于目标视觉多模式图的相似性评分计算全局上下文信息与视觉对象之间的相似性评分；利用目标视觉一致性损失函数处理相似性评分，得到一致性损失值；根据一致性损失值和未来损失值，对目标端未来上下文预测器的参数进行优化；迭代进行上述操作，直到满足第一预设条件，得到训练完成的目标端未来上下文预测器。

为了训练目标方的未来上下文预测器，本发明引入了两个额外的训练目标（和）来帮助学习过程。首先，本发明将/>放入到softmax层中，以在下一步近似真实目标词/>的概率，如公式（8）~（10）所示：

（8），

（9），

（10），

其中是全连接线性层，/>是可训练的。其次，上述目标视觉一致性原则要求/>应该与视觉对象在语义上相关。在本发明中，引入了一种基于目标视觉多模式图的相似性评分，以保持目标视觉的一致性，如公式（11）~（13）所示：

（11），

（12），

（13），

其中是引入的目标视觉一致性损失。本发明优化/>以使最大化，从而将/>推向其相关的视觉对象，并使最小化，从而从无关的视觉对象中拉出/>。由于是一种中间状态，本发明无法知道视觉对象是否与/>有关。因此，本发明使用的地面实况目标词/>来获得如下与/>相关的一组视觉对象对象，如公式（14）所示：

（14），

本发明定义了一个阈值来确定视觉对象是否与/>相关。如果/>大于阈值/>，本发明将视觉对象/>添加到集合/>。

根据本发明的实施例，上述利用动态更新门将待翻译文本对象的未来上下文信息和多模态隐藏信息进行合并处理，得到待翻译文本对象的预测翻译包括：利用动态更新门的第一全连接层处理可训练的第五权重矩阵、待翻译文本对象的未来上下文信息和多模态隐藏信息，得到第一处理结果；利用动态更新门的全连接层的激活函数对第一处理结果进行激活处理，得到门权重矩阵；利用动态更新门的第二全连接层处理待翻译文本对象的未来上下文信息，得到第二处理结果；将第二处理结果与门权重矩阵进行矩阵相乘运算，并将相乘运算结果与多模态隐藏信息进行运算，得到更新的多模态隐藏信息；基于更新的多模态隐藏信息，得到待翻译文本对象的动态翻译预测，并基于动态翻译预测对待翻译文本对象进行预测翻译。

根据本发明的实施例，上述动态更新门通过以下操作训练得到：将多模态隐藏信息与预定义的多模态隐藏权重矩阵进行运算，并将运算结果经由动态更新门全连接层进行处理，得到门值矩阵；利用动态更新门的归一化函数处理门值矩阵，得到待翻译文本对象的翻译预测概率；利用平移损失函数处理翻译预测概率，得到平移损失值，并根据平移损失值对动态更新门的参数进行优化；迭代进行上述操作，直到满足第二预设条件，得到训练完成的动态更新门。

如图2所示，动态更新门主要将待翻译文本对象的语义信息与未来上下文信息进行融合，得到待翻译文本对象的预测翻译，其中，softmax表示归一化指数函数。

对于预测的目标侧未来上下文，本发明进一步提出了一个sigmoid更新门，将其合并到解码器中，本发明在时间步长生成目标端未来上下文表示/>。因此，本发明将使用/>来利用所学习的未来上下文信息来辅助在时间步长/>处的目标词预测。形式上，首先将学习到的目标侧未来上下文与解码器隐藏状态/>连接，以如公式（15）计算门/>：

（15），

其中，是一个全连接层，用于将/>的维度转换为与/>相同。/>是一个可训练的权重矩阵。/>是sigmoid函数，并且使用/>来加权目标侧未来上下文信息的预期重要性，以更新/>，如公式（16）所示：

（16），

未来感知解码器状态被馈送到softmax层中，以计算时间步长/>处的转换概率，如公式（17）~（19）所示：

（17），

（18），

（19），

其中是可训练的权重矩阵。/>是翻译平移损失。本发明将每个样本的翻译平移损失/>、额外监督的未来损失/>和目标视觉一致性损失/>汇总，如公式（20）所示：

（20）。

如图3所示，根据本发明实施例的电子设备300包括处理器301，其可以根据存储在只读存储器（ROM）302中的程序或者从存储部分308加载到随机访问存储器（RAM）903中的程序而执行各种适当的动作和处理。处理器301例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器301还可以包括用于缓存用途的板载存储器。处理器301可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 303中，存储有电子设备300操作所需的各种程序和数据。处理器 301、ROM302以及RAM 303通过总线304彼此相连。处理器301通过执行ROM 302和/或RAM 303中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM302和RAM 303以外的一个或多个存储器中。处理器301也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备300还可以包括输入/输出（I/O）接口305，输入/输出（I/O）接口305也连接至总线304。电子设备300还可以包括连接至I/O接口305的以下部件中的一项或多项：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 302和/或RAM 303和/或ROM 302和RAM 303以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视觉引导的目标端未来语境翻译方法，其特征在于，包括：

利用文本编码器提取源句子中待翻译文本对象的语义和语法特征，得到所述待翻译文本对象的文本语义信息；

利用预先训练的语言模型估计所述待翻译文本对象和与所述待翻译文本对象存在上下文关联关系的视觉对象之间的语义相似度，并根据预定义的对齐阈值和所述语义相似度构建多模态图；

利用基于图的多模态编码器通过具有逐元素操作的门控机制对所述待翻译文本对象的文本语义信息和所述多模态图进行合并处理，得到多模态融合信息；

利用多模态解码器对所述多模态融合信息进行解码操作，得到多模态隐藏信息，并利用目标端未来上下文预测器通过引导动态路由方法处理所述多模态隐藏信息和所述多模态融合信息，得到所述待翻译文本对象的未来上下文信息；

利用动态更新门将所述待翻译文本对象的未来上下文信息和所述多模态隐藏信息进行合并处理，得到所述待翻译文本对象的预测翻译。

2.根据权利要求1所述的方法，其特征在于，利用预先训练的语言模型估计所述待翻译文本对象和与所述待翻译文本对象存在上下文关联关系的视觉对象之间的语义相似度，并根据预定义的对齐阈值和所述语义相似度构建多模态图包括：

利用所述预先训练的语言模型估计所述待翻译文本对象和视觉对象之间的语义相似度，并将所述语义相似度与所述预定义的对齐阈值进行比较，得到比较结果；

在所述比较结果是所述语义相似度大于所述预定义的对齐阈值的情况下，将所述待翻译文本对象与所述视觉对象之间建立连接，得到具有所述待翻译文本对象节点、所述视觉对象节点以及节点连接关系的多模态图。

3.根据权利要求1所述的方法，其特征在于，利用基于图的多模态编码器通过具有逐元素操作的门控机制对所述待翻译文本对象的文本语义信息和所述多模态图进行合并处理，得到多模态融合信息包括：

将所述待翻译文本对象的文本语义信息、所述多模态图中与所述待翻译文本对象连接关系的视觉对象以及可训练的第一权重矩阵进行运算；

利用所述基于图的多模态编码器对运算结果进行激活处理，并将激活结果和所述多模态图中与所述待翻译文本对象连接关系的视觉对象进行相乘，得到多模态表示；

利用所述基于图的多模态编码器将所述待翻译文本对象的文本语义信息和所述多模态表示通过门控机制进行逐元素相加运算，得到所述多模态融合信息。

4.根据权利要求1所述的方法，其特征在于，利用多模态解码器对所述多模态融合信息进行解码操作，得到多模态隐藏信息，并利用目标端未来上下文预测器通过引导动态路由方法处理所述多模态隐藏信息和所述多模态融合信息，得到所述待翻译文本对象的未来上下文信息包括：

将所述多模态隐藏信息与可训练的第二权重矩阵进行相乘，得到所述待翻译文本对象的转换结果；

利用所述待翻译文本对象的当前路由概率，通过协议迭代动态路由过程得到权重分配矩阵；

将所述待翻译文本对象的转换结果与权重分配矩阵进行相乘，得到所述待翻译文本对象的加权和；

将所述待翻译文本对象的加权和通过非线性挤压函数进行计算，得到所述待翻译文本对象的未来上下文信息。

5.根据权利要求4所述的方法，其特征在于，利用所述待翻译文本对象的当前路由概率，通过协议迭代动态路由过程得到权重分配矩阵包括：

将所述待翻译文本对象的转换结果、所述多模态隐藏信息与所述待翻译文本对象的未来上下文信息进行向量串联操作，得到向量串联结果；

将所述向量串联结果先后与可训练的第三权重矩阵、可训练的第四权重矩阵进行运算；

将运算结果与所述待翻译文本对象的当前路由概率进行相加运算进而更新所述待翻译文本对象的当前路由概率；

将更新后的所述待翻译文本对象的当前路由概率经过激活处理后，得到所述权重分配矩阵。

6.根据权利要求4所述的方法，其特征在于，所述目标端未来上下文预测器通过以下操作训练得到：

基于全局上下文信息和可训练的第四权重矩阵，利用所述目标端未来上下文预测器进行双曲正切运算、线性运算以及分类运算，得到文本信息中未翻译词的预测概率；

利用未来损失函数处理所述预测概率、所述多模态融合信息以及多少多模态隐藏状态信息，得到未来损失值；

基于目标视觉多模式图的相似性评分计算所述全局上下文信息与所述视觉对象之间的相似性评分；

利用目标视觉一致性损失函数处理所述相似性评分，得到一致性损失值；

根据所述一致性损失值和所述未来损失值，对所述目标端未来上下文预测器的参数进行优化；

7.根据权利要求1所述的方法，其特征在于，利用动态更新门将所述待翻译文本对象的未来上下文信息和所述多模态隐藏信息进行合并处理，得到所述待翻译文本对象的预测翻译包括：

利用所述动态更新门的第一全连接层处理可训练的第五权重矩阵、所述待翻译文本对象的未来上下文信息和所述多模态隐藏信息，得到第一处理结果；

利用所述动态更新门的全连接层的激活函数对所述第一处理结果进行激活处理，得到门权重矩阵；

利用所述动态更新门的第二全连接层处理所述待翻译文本对象的未来上下文信息，得到第二处理结果；

将所述第二处理结果与所述门权重矩阵进行矩阵相乘运算，并将相乘运算结果与所述多模态隐藏信息进行运算，得到更新的多模态隐藏信息；

基于所述更新的多模态隐藏信息，得到所述待翻译文本对象的动态翻译预测，并基于所述动态翻译预测对所述待翻译文本对象进行预测翻译。

8.根据权利要求7所述的方法，其特征在于，所述动态更新门通过以下操作训练得到：

将多模态隐藏信息与预定义的多模态隐藏权重矩阵进行运算，并将运算结果经由所述动态更新门全连接层进行处理，得到门值矩阵；

利用所述动态更新门的归一化函数处理所述门值矩阵，得到所述待翻译文本对象的翻译预测概率；

利用平移损失函数处理所述翻译预测概率，得到平移损失值，并根据所述平移损失值对所述动态更新门的参数进行优化；

9.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1~8中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1~8中任一项所述的方法。