CN112016332B

CN112016332B - 基于变分推理和多任务学习的多模态机器翻译方法

Info

Publication number: CN112016332B
Application number: CN202010867461.4A
Authority: CN
Inventors: 孙仕亮; 刘啸; 赵静; 张楠
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2021-05-07
Anticipated expiration: 2040-08-26
Also published as: CN112016332A

Abstract

本发明公开了一种基于变分推理和多任务学习的多模态机器翻译方法，该方法具备翻译能力前，首先得用变分推理理论对图像、文本等多模态信息进行多任务建模，然后在给定足量训练集的情况下，训练得到变分多模态机器翻译模型，由此获得机器翻译能力。最后本方法通过束搜索和最大似然来预测出多个翻译文本。本发明的创新点在于创建并使用了一种能够将图像等多模态信息融入机器翻译的模型：变分多模态机器翻译。本发明的变分模型构建了一套混淆图像和文本语义的特征提取神经网络框架，同时推导出了建模过程和自我学习更新过程，给出了详细的推导算法，并指导性的给出了应用方法。

Description

基于变分推理和多任务学习的多模态机器翻译方法

技术领域

本发明涉及计算机技术领域，涉及机器翻译技术，特别涉及一种基于变分推理和多任务学习的多模态机器翻译方法。

背景技术

背景技术涉及四大块：变分推理与变分编码器-解码器框架，信息瓶颈理论，多任务学习，神经机器翻译。

1)变分推理与变分编码器-解码器(Variational Inference and VariationalEncoder-Decoder)

变分推理是一种常见的近似推理技术。变分编码器-解码器是其在机器翻译领域的一个重要应用。变分编码器-解码器由变分自编码器(Variational Auto Encoder)推广而来，将输入数据x映射为不同的输出数据y。与一般的编码器-解码器框架不同，变分编码器-解码器将x编码后会经过一个变分层再解码成y，这样相当于为x增加了一个噪声，有助于增加模型的鲁棒性。

变分编码器-解码器的框架图如图2所示，这里以正态分布做变分后验分布为例。经编码器编码后的特征会分别经过一个全连接层，转换成潜在语义表示z变分分布的均值μ_z和方差σ_z，然后再从正态分布N(μ_z，σ_z)中采样得到z，最后输入解码器解码成y。这里的正态分布就是对真实后验分布p(z|x，y)的近似。

给定变分分布的数学形式，变分推理通过最小化变分分布和真实分布的KL散度得到真实后验分布的近似。直接优化这个KL散度是困难的，变分推理通过它与证据(evidence)的关系得到证据下界(Evidence lower bound，ELBO)作为优化目标，推导如下，

log p(x，y)＝KL[q(z|x，y)，p(z|x，y)]+logp(x，y|z)-KL[q(z|x，y)，p(z)]

≥log p(x，y|z)-KL[q(z|x，y)，p(z)]

其中log p(x，y)即证据，q(z|x，y)和p(z|x，y)分别是变分后验分布和真实后验分布，log p(x，y|z)可以表示模型的似然，KL[q(z|x，y)，p(z)]是KL正则项，它们共同组成了证据下界。从上式看，最小化变分分布和真实后验之间的KL散度即最大化证据下界。

在深度学习中，通常使用重参数化技巧求得变分分布参数的梯度，然后采取基于梯度的优化方法最大化证据下界。

变分机器翻译模型通常近似后验分布p(z|x，y)，其中x是源语言句子，y是目标语言句子。在变分分布的计算中，需要同时知道x和y。然而在推理过程中，y是不知道的，这导致变分机器翻译在推理过程中引入了额外的网络结构或是特殊的推理算法，导致整个模型的复杂度增高。

2)信息瓶颈理论(Information Bottleneck Theory)

信息瓶颈理论认为应该找到输入数据x的一个压缩映射，这个映射会尽可能地保留有用的信息并过滤冗余信息。信息瓶颈理论以互信息为度量，将优化目标设为如下形式，

argmax_z I(z，y)s.t.I(x，z)≤I_c.

其中I(·)代表互信息，I_c是一个常量，表示需要保留的最大信息量。这个优化问题的拉格朗日函数为：

J_IB＝I(z，y)-βI(x，z).

这里引入了拉格朗日乘子β，它是一个超参数。直观上看，第一项帮助潜在语义编码z尽可能保留与y相关的信息，用以预测y，而第二项强迫z尽可能地“忘记”关于x的信息，β控制着两者的平衡。从本质上来说，这个优化目标迫使编码器忽略无关信息并尽可能保留与y相关的信息。

然而，互信息的计算是困难的，但可以求它的变分下界，称作变分信息瓶颈(Variational Information Bottleneck，VIB)，其形式如下：

其中q(z|x)是一个变分分布，用以近似真实后验分布p(z|x)，r(z)是边际分布p(z)的近似。将上式子写为期望的形式，变分信息瓶颈的优化目标为：

证明如下，由于y是离散变量，那么H(y)≥0，I(y，z)有

用r(z)近似边际分布p(z)，

因此，I(x，z)有

综上所述，可得信息瓶颈目标的变分下界：

证毕。

通常，为了方便优化，将r(z)设置为一个固定的分布，这相当于变分自编码器中z的先验分布p(z)。在这种情况下，变分信息瓶颈与变分编码器-解码器十分相似，除了前者近似的是后验分布p(z|x)，而后者近似后验分布p(z|x，y)。

3)多任务学习(Multi-task learning)

单任务学习可能会忽略一些相关任务中科恩那个提升目标任务的潜在星系，通过在不同任务之间进行一定程度上的参数共享，可能会使目标任务的泛化性能更好，因此引入多任务学习。多任务学习通常具有多个损失函数。

参数共享机制分为两种：硬参数共享和软参数共享。硬参数共享指在所有任务中共享一些参数，在特定任务层使用自己独有的参数。相对于不共享参数，这种方法过拟合的可能性更低，过拟合的几率与任务数量呈线性关系。软参数共享指每个任务都有自己的参数，但增加约束使不同任务的参数之间的差异尽可能小，用来表达相似性，常用的约束方法有L2，trace norm等。目前，硬参数共享是多任务学习的主流方法。

如何平衡多任务学习的多个损失函数是一个问题，目前尚未形成有效的、有完备理论基础的方法。

4)神经机器翻译(Neural Machine Translation)

神经机器翻译指利用神经网络来实现的端到端机器翻译系统。神经机器翻译系统主要涉及两大基本技术：编码器-解码器框架和注意力机制。

编码器-解码器框架如图3所示，其中<EOS>表示句子的终止符，w表示开始符。在<EOS>-W的左侧为编码器，右侧为解码器。A，B，C，<EOS>是源语言的一句句子，W，X，Y，Z，<EOS>代表目标语言的一句句子。图中的每一个框代表一个展开的循环神经网络细胞(也可以推广到卷积神经网络、Transformer神经网络等)。假设源语言句子为s＝[s₁，s₂，...，s_m]，目标语言句子为t＝[t₁，t₂，...，t_n]，已知目标语言句子的前i-1个单词，编码器-解码器框架建模的是p(t_i|t_i-1，...，t₁，s)，而一般语言模型建模的是p(t_i|t_i-1，...，t₁)，因此编码器-解码器框架将对源语言的语言理解和目标语言的语言模型结合到了一起。另外，该框架可以结合外部语料，具有良好的可扩展性，且灵活性很强，可以应用到图像标注、语音识别等任务中。

引入注意力机制是为了解决由解码器引入的过分信息压缩的问题。在机器翻译任务中，注意力机制是加入到编码器和解码器之间的，如图4所示，图中的GPU表示不同神经网络层的计算设备。编码器先将编码后的信息输入注意力机制，注意力机制再将处理过的编码传递给解码器。注意力机制可以视作对源码不同位置编码的加权平均，一般情况下，其数学形式如下：

a_i＝f(c_i，h_t)＝tanh(W_c[c_t；h_t])

其中h_t和

分别表示解码器和编码器某个位置的状态，α_ts表示注意力权重，利用这个权重对编码器状态加权平均得到c_t作为位置t的上下文向量，最后将h_t和c_t拼接，再经过一层全连接得到注意力向量a_t，并以它作为LSTM解码器的下一个状态输入。

发明内容

本发明的目的是提供一种基于变分推理和多任务学习的多模态机器翻译方法，该方法提出了一种新的与多任务学习相结合的变分机制，并将该机制应用到多模态机器翻译中并给出了基于变分推理和多任务学习的多模态机器翻译的数学模型，同时给出了此模型的学习算法。

实现本发明目的的具体技术方案是：

一种基于变分推理和多任务学习的多模态机器翻译方法，该方法包括如下步骤：

步骤一：建立包含图像和文本的多模态数据集

所述多模态数据集格式为：翻译源语言和目标语言句子对，图像数据和对应的描述该图像的目标语言文本；

步骤二：确定用于机器翻译的模型

采用变分多模态机器翻译模型；该模型采用变分编码器-解码器框架，将源语言文本转换为词嵌入，输入双向LSTM编码器提取特征，图像经过VGG-16网络和一个全连接层提取特征，再将文本特征和图像特征分别输入一个伯努利变分层，将变分层的输出合并后输入一个批规范化层后得到潜在语义的分布，在这个分布中采样得到潜在语义编码，同时在双向RNN编码器上加入attention机制，将潜在语义编码和attention向量输入RNN解码器中得到目标语言译文的概率分布；

步骤三：确定变分多模态机器翻译模型的优化目标

变分多模态机器翻译模型建立在文本-文本、图像-文本的多任务学习上，每个子任务都有一个优化目标，子任务的目标函数具有相同的数学形式，整体优化目标是所有子任务目标函数的和；单个子任务的目标函数包括对数似然和一个约束伯努利变分后验和伯努利先验的KL散度项；所述模型的优化目标，以如下公式描述：

总共有N个模态，对应于N个子任务，x_i表示其中第i种模态数据，y代表输出数据，即译文，而β是一个超参数，代表KL散度约束项的拉格朗日乘子；目标的第一项即N个子任务的对数似然之和，采用图像-文本以及文本-文本两个子任务；目标的第二项是每种模态x_i语义的变分后验分布q(z|x_i)与先验分布r(z)的KL散度约束项之和，先验与后验均采用伯努利分布的形式；

步骤四：训练变分多模态机器翻译模型

采用重参数化技巧计算目标函数关于变分分布参数的梯度，通过重参数化技巧，将目标函数写成关于一个已知分布期望的形式，采用Adam算法优化模型的目标函数；具体训练包括如下步骤：

步骤a1：使用基于均匀分布的xaiver初始化方法，初始化神经网络的参数；

步骤a2：设置β、γ等超参数，batch size，最大迭代次数；

步骤a3：设置Adam优化器的学习率等超参数，使用Adam算法更新神经网络的参数；

步骤a4：设置早停机制，即Early stop机制，以BLEU得分为标准，当验证集的BLEU分数持续下降1000步迭代或当训练达到最大迭代次数后，中止模型的训练；

步骤五：训练完毕后，进行模型推理，即预测机器译文

深度神经网络解码器通过目标句子的上一个词预测下一个词的概率分布；以最大似然为准则求最优句子序列，采用beam search算法得出最优的多机器译文；具体包括如下步骤：

步骤b1：设置超参数beam size为k；

步骤b2：设置k个只包含开始符的序列，设置最大解码长度；

步骤b3：执行循环，将每个序列的最后一个字符输入神经网络解码器，得到每个token的概率分布，选取概率最大的前k个token分别加入序列，得到k²个序列，保留其中概率最大的前k个序列，直到所有序列都遇到终止符或达到最大解码长度，结束循环；其中，每个序列的概率为所有token概率的乘积，采用对数概率。

所述的变分多模态机器翻译模型，具有如下结构：图像数据经过一个VGG-16网络和一个全连接层提取特征，文本数据转换为词嵌入，然后经过双向LSTM网络提取特征，并引入注意力(Attention)机制得到注意力向量，图像特征和文本特征会通过各自的变分层变换成伯努利分布并进行采样，最后经过一个共享批规范化(Batch normalization)层提取公共的语义特征，这个语义特征会和注意力向量一起输入LSTM解码器得出机器译文；其中，伯努利变分层、批规范化层的内部结构采用以下公式描述：

z＝sigmoid((log norm(f^p(x))+ξ)/γ) (1)

q(z|x)＝Bernoulli(norm(f^p(x))) (2)

其中，x是某一模态的输入数据，代表图像或文本，f^p(·)是一个神经网络编码器，对应于步骤二所述模型结构中的LSTM和VGG-16，LSTM和VGG-16分别是文本数据和图像数据的编码器；z是模型建模的潜在语义，对应于模型结构中批规范化层的输出，q(z|x)和r(z)分别代表z的变分后验分布和先验分布，a是q(z|x)的采样结果；公式(1)是变分后验分布的重参数化公式，这里将z视作0-1离散变量，使用Gumbel-softmax重参数化；ξ是一个均匀分布噪声，将一个均匀分布变换为伯努利分布，从而得到变分分布参数的梯度，γ是给定超参数，用以调节后验的均匀程度，norm(·)是一个规范化函数，将输入值映射到[0，1]之间；公式(1)、(2)对应于模型结构中的伯努利变分层；公式(3)、(4)对应于批规范化层，批规范化层得到z的先验分布r(z)，其中μ_batch和σ_batch分别是训练时期每一批数据经过神经网络编码后的潜在语义z的均值和方差，

是a经过规范化处理后的输出，μ和σ是先验r(z)的参数，由于z是0-1离散变量，μ和σ存在关系σ＝μ(1-μ)；公式(5)是KL散度约束项。

本发明所采用的变分多模态机器翻译模型，其结构为：将源语言文本转换为词嵌入，输入双向LSTM编码器提取特征，图像经过VGG-16网络和一个全连接层提取特征，再将文本特征和图像特征分别输入一个伯努利变分层，将变分层的输出合并后输入一个批规范化层后得到潜在语义的分布，在这个分布中采样得到潜在语义编码，同时在双向RNN编码器上加入attention机制，将潜在语义编码和attention向量输入RNN解码器中得到目标语言译文的概率分布。

上述结构中的VGG-16网络、LSTM网络和注意力机制均为图像或自然语言处理领域的常见技术，这里不作详述，主要的创新在于采用伯努利变分层计算潜在语义的后验分布，采用批规范化层计算潜在语义的先验分布。

本发明的有益效果包括：

1)与传统的神经机器翻译和变分机器翻译技术相比，本发明的创新之处在于采用了伯努利变分分布，以及引入了一个可学习的先验分布用以对齐不同模态数据(图像或文本)的语义空间，从而实现利用图像数据提升机器翻译的效果；

2)本发明降低了变分机器翻译的计算复杂度，无需引入额外的推理网络或是特殊的推理算法。一般的变分神经机器翻译方法需要估计后验分布p(z|x，y)，其中y是输出数据，在推理阶段不可用。因此在推理阶段，一般的变分神经机器翻译方法需要设计特殊的推理结构或使用EM算法，先对y做估计，再求z。这就造成了一般的变分神经机器翻译算法流程在训练和推理阶段不一致，在推理阶段的复杂度较高。为了统一变分神经机器翻译在训练和推理阶段的算法流程，本发明引入变分信息瓶颈理论，只需近似后验分布p(z|x)，从而降低计算复杂度。

附图说明

图1为本发明的流程图；

图2为背景技术的变分编码器-解码器示意图；

图3为背景技术的基于RNN的编码器-解码器框架图；

图4为背景技术加入attention机制后的编码器-解码器框架图；

图5为本发明基于变分推理和多任务学习的机器翻译方法的模型结构图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明使用的变分分布与传统的变分神经机器翻译方法不同。传统方法(见图2)一般使用高斯分布作为变分分布近似真实后验，需要引入额外的全连接层，用以重参数化高斯分布的均值和方差。而本发明(见图5)使用Bernoulli分布作为变分分布，不需要额外的全连接层，相较于高斯变分分布，减少了模型参数量，降低了模型复杂度，这不仅提高了计算效率，也有助于缓解过拟合。

通常，变分推理使用固定的先验分布，而先验的选取是敏感的，先验的合适与否对于变分推理最终的效果有很大影响。本发明可以处理多模态数据，并假设不同模态数据共享潜在语义空间，因此本发明基于语义空间建立先验分布。然而，这个先验的形式和参数是未知的，本发明假设先验是变分后验的共轭分布，即先验也是Bernoulli分布，通过学习得出先验的参数。具体的做法是，利用BN得到可学习的潜在语义表示的均值作为先验的参数，不同模态数据共享BN层，即共享了语义空间和先验。这样的做法避免了先验的构造，让模型自适应地去选择合适的先验分布。

本发明包括如下步骤：

1、建立包含图像和文本的多模态数据集

本发明用编码器-解码器架构建模机器翻译任务，在模型假设方面，假设不同模态的数据共享潜在语义表示，同时模态在已知语义的情况下条件独立，采用变分信息瓶颈作为优化目标训练模型，最终不同任务(如翻译任务、图像标注任务)的目标句子可以通过潜在语义表示解码得出。基于不同模态数据的潜在语义共享机制，本发明能够利用图像数据辅助机器翻译任务，提升机器翻译的效果。本发明使用多模态数据集，包括翻译源语言和目标语言句子对，图像数据和对应的描述该图像的目标语言文本，数据来源包括图像-英语的图像标注数据集和德语-英语的平行语料数据集。

2、确定用于机器翻译的模型

本发明采用变分多模态机器翻译模型。在该模型中，不同的模态数据经过各自的神经网络编码器编码，提取到共享的语义特征。针对语义的特点，基于变分信息瓶颈理论，采用离散的变分分布分别近似潜在语义表示的后验和先验，利用批规范化得到一个可学习的先验分布：

其中μ_batch和σ_batch分别是训练时期每一批数据经过神经网络编码后的潜在语义z的均值和方差，μ和σ是近似先验r(z)的参数，由于z是0-1离散变量，μ和σ存在关系σ＝μ(1-μ)，由此可以得到r(z)～Bernoulli(μ)。另外，使用Gumbel-softmax技巧重参数化变分后验分布：

z＝sigmoid((log norm(f^p(x))+ξ)/γ)

q(z|x)＝Bernoulli(norm(f^p(x)))

其中ξ是一个均匀分布噪声，将一个均匀分布变换为Bernoulli分布，从而得到变分分布参数的梯度，γ是给定超参数，用以调节后验的均匀程度，norm(·)是一个规范化函数，将输入值映射到[0，1]之间。f^p(·)是一个神经网络编码器，用以提取数据的特征。如模型结构所示，本发明用VGG-16网络提取图像特征，用LSTM网络提取文本特征。得到潜在语义表示z之后，本发明利用RNN解码器输出译文的概率分布。

3、确定变分多模态模型的优化目标

为了得到容易优化的多模态模型的变分信息瓶颈目标，本发明做了条件独立假设，即已知潜在语义编码z的情况下，数据表现为图像或文本等不同模态的概率是独立的。假设x_1和x_2分别代表两种同义的输入模态，z代表它们的语义，有：

x₁⊥x₂|z

多模态模型的信息瓶颈目标可以写为：

J_IB＝I(y，z)-βI(x₁，x₂，z)

根据互信息的性质，I(x_1，x_2，z)＝H(x_1，x_2)-H(x_1，x_2|z)，其中H(·)代表信息熵。由条件独立性，可知：

又因为信息熵具有如下性质：

H(x₁)+H(x₂)≥H(x₁，x₂)

可以得到I(x_1，x_2，z)的一个上界：

I(x₁，x₂，z)≤H(x₁)+H(x₂)-H(x₁|z)-H(x₂|z)

那么，信息瓶颈目标的下界为：

可以看到这个下界即(x₁，y)和(x₂，y)两个任务的信息瓶颈目标之和。把这个下界作为新的目标函数，并代入变分信息瓶颈的目标，可以得到最终的目标函数

从目标函数可以看出，本发明对不同模态的潜在语义加以约束，使其向一个共同先验分布看齐，这是一种软参数共享的多任务学习机制。

4、训练变分多模态模型

由于引入了变分层，本发明采用重参数化技巧计算潜在语义z的分布。又因为需要对z进行采样，在梯度的计算中带来了方差，从而影响模型的训练。因此，本发明使用Adam算法训练模型，Adam算法利用指数滑动平均估计梯度的一阶矩和二阶矩，缩小了随机梯度的方差，使模型能够更快收敛。

5、训练完毕后，进行模型推理，即预测机器译文

步骤a1：设置超参数beam size为k；

步骤a2：设置k个只包含开始符的序列，设置最大解码长度；

步骤a3：执行循环，将每个序列的最后一个字符输入神经网络解码器，得到每个token的概率分布，选取概率最大的前k个token分别加入序列，得到k^2个序列，保留其中概率最大的前k个序列，直到所有序列都遇到终止符或达到最大解码长度，结束循环。整个序列的概率为序列中每个token概率的乘积，考虑到数值精度，这里采用对数概率。

实施例

以下是本实施例的实施过程：

1，如图1所示，首先将原始数据如图像、文本进行相应的预处理，图像预处理包括去噪、归一化等，文本预处理包括word piece分割、词嵌入等，将其作为训练数据输入到RNN文本特征编码器和VGG-16图像特征编码器中。

2，得到数据之后，首先指定学习率等超参数，接着初始化变分多模态机器翻译模型的参数，最后学习这些参数。

3，得到一个新的图像或文本数据，同训练数据一样，做相应预处理，作为测试数据。

4，对其他模态使用零矩阵掩模，将掩模和上面提取到的测试数据一起输入模型，利用之前学习到的变分多模态机器翻译模型来得到测试数据的译文。

以下是模型学习的具体算法。

首先给定模型的超参数，初始化模型所有的参数，然后更新图5中的多模态机器翻译模型的参数。由于采用了重参数化技巧，变分参数也被神经网络建模了，可以与其它模型参数共同更新。

具体算法如下：

1，首先根据输入数据确定网络结构(如图5所示)，初始化所有的超参数，包括网络层数、隐藏单元数等；

2，划分训练集、验证集和测试集；

3，设定epoch，batch size，学习率等超参数，设置验证集BLEU下降阈值；

4，While(验证集BLEU下降值＜＝验证集BLEU下降阈值II当前运行epoch＜＝epoch)

a)Foreach batchin训练集；

i.前向计算变分后验分布的参数；

ii.在均匀分布ξ中采样，根据以下公式计算潜在语义表示z

z＝sigmoid((log norm(f^p(x))+ξ)/γ)；

iii.前向计算解码器的隐藏层和输出；

iv.根据目标函数和Adam算法反向计算参数的更新值，并更新参数；

b)计算验证集上的BLEU分数并保存；

c)更新验证集BLEU的变化值；

d)运行epoch++；

通过以上的变分多模态机器翻译模型的学习过程我们可以知道，该模型的学习其实是一个迭代的过程，迭代的终止条件就是运行次数超标或者验证集BLEU下降过大。为了防止过拟合，本发明在训练过程中引入了早停机制，通过验证集BLEU分数的变化值来判断模型是否过拟合，若BLEU下降过大，那说明模型趋向于过拟合了，应该停止训练。模型在学习的过程中首先要计算变分后验分布的参数，因为这样才能得到当前的变分分布q(z|x)并得到z的采样结果。注意这一步存在采样操作，采样数过大意味着模型计算复杂度增大，这里将采样数设置为1，而小采样数意味着随机梯度的方差较大，因此本发明使用Adam算法更新模型参数，因为Adam算法会用指数滑动平均法估计梯度的一阶矩和二阶矩，减少了随机梯度的方差。由此，变分多模态机器翻译模型可以获得一个稳定的训练过程。

变分多模态机器翻译模型的推理过程使用beam search算法搜索近似最优的译文序列，整个推理过程如下：

1.根据测试样本的模态做相应预处理，同时对其他模态使用零矩阵掩模，如输入的测试样本是文本，对应的图像输入就是零矩阵，若测试样本包括对齐的文本和图像，则不需要掩模矩阵；

2.设置beam size＝k，最大解码长度＝L，空数组q，长度为k且包含k个空序列的数组array，准备进行beam search；

3.类似训练过程，前向传播得到解码器的第一个输出；

4.While(当前解码长度＜＝L&&)

a)取当前解码器输出的概率最大的k个token；

b)Foreach序列in array；

i.序列分别加上每个token并保存，作为候选序列；

c)从候选序列中选出对数概率最大的k个序列，用选出的k个序列更新array的值，序列的对数概率为序列中所有token对数概率的和；

d)Foreach序列in array：

i.如果序列的最后一个token是终止符，则k--，q添加该序列，array移除该序列；

e)清空候选序列；

f)当前解码长度++；

根据以上流程，本发明将得到测试样本的前k个似然最大的译文序列。

本发明的实验数据包括两个数据集，包含图像标注和德语-英语平行语料的Multi30k多模态机器翻译数据集，包含德语-英语平行语料的WMT14数据集并使用汉语-英语平行语料对其做多模态加强，汉语-英语语料来源于LDC2003E14，LDC2004T07，LDC2005T06，LDC2005T10和LDC2004T08数据集。在WMT14翻译任务中，本发明将汉语视作与英德不同的模态，因为它们分属于不同的语系，在句法、词法上具有较大差异。

表1测试数据集、对比方法以及BLEU得分

表1是本发明提出的方法和一些传统方法在测试数据集上BLEU得分，其中VMMT(Variational Multimodel Machine Translation)是本发明发明的方法，GNMT(Generative Neural Machine Translation)是一种传统的变分机器翻译方法，两者使用不同的变分分布，具体见VL(Variational Layer)一栏。除了变分机制，本发明还引入了带有软参数共享的多任务学习机制，因此，本发明与另一种多任务机器翻译方法(Multi-NMT)做了对比。此外，还有单模态的机器翻译方法、未引入多任务学习的确定性机器翻译方法以及谷歌多语言机器翻译方法，它们的效果见monomodel、DMMT、Google-NMT三列。本发明模型的BLEU分数在两个数据集上均达到了30左右，并且好于所有的对比方法。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于变分推理和多任务学习的多模态机器翻译方法，其特征在于，该方法包括如下步骤：

步骤一：建立包含图像和文本的多模态数据集

步骤二：确定用于机器翻译的模型

步骤三：确定变分多模态机器翻译模型的优化目标

步骤四：训练变分多模态机器翻译模型

步骤a2：设置β、γ超参数，batch size，最大迭代次数；

步骤a3：设置Adam优化器的学习率超参数，使用Adam算法更新神经网络的参数；

步骤五：训练完毕后，进行模型推理，即预测机器译文

步骤b1：设置超参数beam size为k；

步骤b2：设置k个只包含开始符的序列，设置最大解码长度；

2.根据权利要求1所述的基于变分推理和多任务学习的多模态机器翻译方法，其特征在于，所述的变分多模态机器翻译模型，具有如下结构：图像数据经过一个VGG-16网络和一个全连接层提取特征，文本数据转换为词嵌入，然后经过双向LSTM网络提取特征，并引入注意力机制得到注意力向量，图像特征和文本特征会通过各自的变分层变换成伯努利分布并进行采样，最后经过一个共享批规范化层提取公共的语义特征，这个语义特征会和注意力向量一起输入LSTM解码器得出机器译文；其中，伯努利变分层、批规范化层的内部结构采用以下公式描述：

z＝sigmoid((lognorm(f^p(x))+ξ)/γ) (1)

q(z|x)＝Bernoulli(norm(f^p(x))) (2)

其中，x是某一模态的输入数据，代表图像或文本，f^p(·)是一个神经网络编码器，对应于步骤二模型结构中的LSTM和VGG-16，LSTM和VGG-16分别是文本数据和图像数据的编码器；z是模型建模的潜在语义，对应于模型结构中批规范化层的输出，q(z|x)和r(z)分别代表z的变分后验分布和先验分布，a是q(z|x)的采样结果；公式(1)是变分后验分布的重参数化公式，这里将z视作0-1离散变量，使用Gumbel-softmax重参数化；ξ是一个均匀分布噪声，将一个均匀分布变换为伯努利分布，从而得到变分分布参数的梯度，γ是给定超参数，用以调节后验的均匀程度，norm(·)是一个规范化函数，将输入值映射到[0，1]之间；公式(1)、(2)对应于模型结构中的伯努利变分层；公式(3)、(4)对应于批规范化层，批规范化层得到z的先验分布r(z)，其中μ_batch和σ_batch分别是训练时期每一批数据经过神经网络编码后的潜在语义z的均值和方差，

是a经过规范化处理后的输出，μ和σ是先验分布r(z)的参数，由于z是0-1离散变量，μ和σ存在关系σ＝μ(1-μ)；公式(5)是KL散度约束项。