CN113297841A

CN113297841A - 基于预训练双语词向量的神经机器翻译方法

Info

Publication number: CN113297841A
Application number: CN202110566113.8A
Authority: CN
Inventors: 朱聪慧; 赵铁军; 刘哲宁; 曹海龙; 杨沐昀; 徐冰
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-08-24

Abstract

本发明公开了一种基于预训练双语词向量的神经机器翻译方法，将标注对齐的平行语料进行“源语言‑目标语言”拼接作为XLM模型的输入进行预训练；训练：取预训练得到的双语词向量矩阵初始化翻译模型；将源语言输入编码器，将源语言编码的向量表示及对应目标语言输入解码器输出预测序列，将其与相应的目标序列进行对比并计算损失值，输入优化器对翻译模型参数进行优化；预测：在某个时间步里，将源语言输入优化的编码器，编码器输出相应向量表示，将该向量表示以及上一时间步翻译的目标语言词输入解码器，解码器输出该时间步的目标词，将不同时间步翻译的目标词按时间顺序进行拼接，得到源语言翻译的结果。该方法提高了低资源语种的机器翻译效果。

Description

基于预训练双语词向量的神经机器翻译方法

技术领域

本发明涉及神经机器翻译技术领域，特别涉及一种基于深度学习和双语词向量的神经机器翻译方法。

背景技术

神经机器翻译(Neural machine translation，NMT)是一种引入人工神经网络进行翻译的机器翻译技术。相较于传统的统计机器翻译(Statistical MachineTranslation，SMT)，神经机器翻译使用一种端到端的“编码器-解码器”架构。具体来说，这种架构又可被分为以下三类：

(1)基于循环神经网络的神经机器翻译模型。该种模型使用长短期记忆(LongShort-Term Memory，LSTM)或门控循环单元(Gated Recurrent Units，GRU)作为搭建“编码器-解码器”架构的单元。同时，其引入注意力机制，使得生成每个目标端词语时，解码器可以将“注意力”集中到源端的几个相关词语上，并从中获取有用的信息，从而获得更好的翻译表现。

(2)基于卷积神经网络的神经机器翻译模型。该种模型使用卷积模块的叠加来搭建“编码器-解码器”架构。同时，其在词向量中加入位置编码使模型获得更丰富的信息，增强模型的表示能力；此外，其使用残差连接来缓解模型训练时的梯度消失问题。

(3)Transformer神经机器翻译模型。该种模型创新性地使用了自注意力机制来对序列进行编码，其编码和解码器均由自注意力模块和前向神经网络构成。

近年来的研究表明，在英语等单语中提出的自然语言理解生成性训练是十分有效的。仅仅针对单语进行语言模型预训练可以解决大量基于单语的自然语言处理任务，然而这对于机器翻译这种典型的基于双语处理的任务来说，针对单语的语言模型预训练收效甚微。于是，针对预训练语言模型在这方面也有着许多有意思的改进，一种有效的改进模型代表为XLM，其将预训练这种方法扩展到多种语言，并展示了跨语言预处理针对基于双语处理的自然语言处理任务的有效性。

常见的神经机器翻译模型使用大量的标注平行语料作为监督信息源，源语言被切分为词或子词然后输入编码器中，(子)词经过编码器(子)词表的词向量矩阵被表示成为词向量，经过编码器的编码过程，最终得到源语言的最终向量表示。目标语言亦被切分为词或子词，(子)词经过解码器(子)词表的词向量矩阵被表示成为词向量，解码器将源语言被编码的向量和上一时间步解码的目标词的词向量作为解码器输入，经过解码器的解码过程，最终得到目标语言相应的词。这种方法存在以下缺点：

(1)整个神经机器翻译模型的训练需要大量的标注平行语料作为监督信息源。对于不常见的语种，例如“罗马尼亚语—英语”、“拉脱维亚语—英语”翻译等，由于这些语言之间的标注平行语料特别稀缺，这些语言的神经机器翻译效果往往不如具有大量标注平行语料语种的神经机器翻译。

(2)神经机器翻译模型的词向量矩阵往往是随机初始化，且随着训练过程的进行，词向量矩阵中的参数得到学习更新，这对于仅仅具有较少的标注平行语料的语种翻译来说，词向量矩阵的初始质量较差且训练更新过程中更容易过拟合。

因此，亟待一种能够提高低资源语料的机器翻译效果的方法。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的目的在于提出一种基于预训练双语词向量的神经机器翻译方法。

为达到上述目的，本发明实施例提出了基于预训练双语词向量的神经机器翻译方法，包括以下步骤：步骤S1，将标注平行语料进行源语言-目标语言拼接，利用拼接后的标注平行语料对XLM模型进行预训练，并使用交叉熵损失函数计算损失值，将所述损失值输入优化器Adam进行所述XLM模型参数的更新优化；步骤S2，取出预训练后的XLM模型的词向量矩阵，以初始化transformer模型的编码器的词向量矩阵和解码器的词向量矩阵；步骤S3,将所述拼接后的标注平行语料的源语言相继输入至所述transformer模型的编码器中进行词向量化操作，将源语言的向量表示以及对应的目标语言输入所述解码器，得到预测序列，将所述预测序列与预设目标序列进行对比，并使用交叉熵损失函数计算损失值，将该损失值输入优化器Adam进行所述transformer模型参数的更新优化，迭代该过程，当所述损失值达到最小时，停止参数的优化更新并输出此刻的transformer模型；步骤S4，在某个时间步里，将源语言输入所述transformer模型的编码器，编码器输出相应的向量表示，将该向量表示以及上一时间步翻译的目标语言词输入所述transformer模型的解码器，解码器输出该时间步的目标词，并将不同时间步翻译的目标词按时间顺序进行拼接，得到源语言翻译的最终结果，其中，同一时间步依赖源语言只能翻译得到目标语言中的一个词。

本发明实施例的基于预训练双语词向量的神经机器翻译方法，通过预先用拼接后的标注平行语料对XLM模型进行预训练，初始化transformer模型的编/解码器词向量矩阵，缓解了低资源语种的翻译与大量标注的平行语料被用来训练的矛盾，给神经机器翻译模型的词向量矩阵找到合适的初始化，进而提高了低资源语种的机器翻译效果。

另外，根据本发明上述实施例的基于预训练双语词向量的神经机器翻译方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述预训练的任务包括随机语言建模、遮盖语言建模或翻译语言建模。

进一步地，在本发明的一个实施例中，在所述步骤S1中，当所述XLM模型仅仅设置所述随机语言建模任务或所述遮盖语言建模任务进行预训练时，只需要对非平行语料的源语言或目标语言采样任意数量的句子进行拼接，并取拼接单句前256个词作为输入语句输入到所述XLM模型中；当XLM设置所述翻译语言建模时，需要将标注平行语料中的源语言和目标语言使用句子分隔符拼接，再将拼接的整句作为单句输入到所述XLM模型中。

进一步地，在本发明的一个实施例中，所述步骤S1中所述XLM模型对所述输入语句或所述单句处理的具体过程为：当所述预训练的任务为所述随机语言建模任务时，给定句中词w_t之前出现的词，建模w_t出现在词w₁，…，w_t-1之后的概率P(w_t|w₁,…,w_t-1,θ)，即直接使用transformer encoder来预测下一个词出现的概率；当所述预训练的任务为所述遮盖语言建模任务时，按预设概率采样所述输入语句的词，同时将被采样的词按80％的概率被“[MASK]”替换，按10％的概率被随机替换成预设其他词，按10％的概率保持原词，在XLM在型的顶层预测被遮住的词；当所述预训练的任务为所述翻译语言建模任务时，随机遮盖所述单句的源语言部分和目标语言部分，所述XLM模型需要同时参考被遮盖词在源语言部分的周围词和目标语言部分的词，进而预测源语言部分被遮盖的词。

进一步地，在本发明的一个实施例中，所述编码器由六层编码层构成，每层编码层包括多头自注意力网络、残差连接、层归一化和前馈神经网络堆叠，且每层编码层将上一编码层输出的结果作为输入。

进一步地，在本发明的一个实施例中，所述步骤S3中将源语言输入所述编码器后的具体处理为：将所述源语言对所述transformer模型的编码器中进行词向量化操作，其中，需将所述词向量化操作的结果与位置编码相加，再将相加后的结果输入到所述编码器中，先由所述多头自注意力网络计算，再经过残差连接和层归一化计算，获得所述源语言的向量表示。

进一步地，在本发明的一个实施例中，所述解码器由六层解码层构成，每层解码器包括遮盖多头自注意力网络、残差连接、层归一化和前馈神经网络，且每层解码器将上一解码层输出的结果作为输入。

进一步地，在本发明的一个实施例中，所述步骤S3中将所述源语言的向量表示以及对应的目标语言输入所述解码器后的具体处理为：将所述源语言的向量表示以及对应的目标语言对所述transformer模型的解码器中，先经过所述遮盖多头自注意力网络计算，再经过残差连接和层归一化计算，再将其结果输入所述遮盖多头自注意力网络，然后经过所述前馈神经网络计算，最后数据再次经过残差连接和层归一化计算，获得所述预测序列。

进一步地，在本发明的一个实施例中，所述步骤S4具体包括：步骤S401，将所述预测源语言输入所述transformer模型的编码器中，得到所述预测源语言的向量表示；步骤S402，向所述transformer模型的解码器输入“<BOS>”标记，输出长度为1的句子，所述解码器将长度为1的句子的词作为本时间步的预测词；步骤S403，将长度为1的不完整预测句作为所述解码器的输入，输出长度为2的句子，将句子末尾的词作为所述解码器当前时间步的预测词；步骤S404，将前两次预测的词组成不完整译文作为所述解码器输入，迭代执行，直至解码器输出“<EOS>”或者译文句子达到最大预测长度，所述解码器翻译停止。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的基于预训练双语词向量的神经机器翻译方法流程图；

图2是本发明一个实施例的基于预训练双语词向量的神经机器翻译模型示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于预训练双语词向量的神经机器翻译方法。

图1是本发明一个实施例的基于预训练双语词向量的神经机器翻译方法流程图。

如图1所示，该基于预训练双语词向量的神经机器翻译方法包括以下步骤：

在步骤S1中，将标注平行语料进行源语言-目标语言拼接，利用拼接后的标注平行语料对XLM模型进行预训练，并使用交叉熵损失函数计算损失值，将损失值输入优化器Adam进行XLM模型参数的更新优化。

进一步地，预训练的任务包括随机语言建模(Casual Language Model ing，CLM)、遮盖语言建模(Masked Language Modeling，MLM)或翻译语言建模(Translation LanguageModeling，TLM)，其中，

当XLM模型仅仅设置随机语言建模任务或遮盖语言建模任务进行预训练时，只需要对非平行语料的源语言或目标语言采样任意数量的句子进行拼接，并取拼接单句前256个词作为输入语句输入到XLM模型中；

当XLM设置翻译语言建模时，需要将标注平行语料中的源语言和目标语言使用句子分隔符拼接，再将拼接的整句作为单句输入到XLM模型中。

进一步地，XLM模型对输入语句或单句处理的具体过程为：

当预训练的任务为随机语言建模任务时，给定句中词w_t之前出现的词，建模w_t出现在词w₁，…，w_t-1之后的概率P(w_t|w₁,…,w_t-1,θ)，即直接使用transformer encoder来预测下一个词出现的概率；

当预训练的任务为遮盖语言建模任务时，按预设概率采样输入语句的词，同时将被采样的词按80％的概率被“[MASK]”替换，按10％的概率被随机替换成预设其他词，按10％的概率保持原词，在XLM在型的顶层预测被遮住的词；

当预训练的任务为翻译语言建模任务时，随机遮盖单句的源语言部分和目标语言部分，所诉XLM模型需要同时参考被遮盖词在源语言部分的周围词和目标语言部分的词，进而预测源语言部分被遮盖的词。

也就是说，将标注的平行语料作为XLM模型的输入，设置XLM模型的预训练任务为随机语言建模、遮盖语言建模或翻译语言建模，使用交叉熵损失函数计算损失，将损失结果输入优化器Adam进行XLM模型参数的更新优化，完成在预训练阶段。

在步骤S2中，取出预训练后的XLM模型的词向量矩阵，以初始化transformer模型的编码器的词向量矩阵和解码器的词向量矩阵。

在步骤S3中，将拼接后的标注平行语料的源语言相继输入至transformer模型的编码器中进行词向量化操作，将源语言的向量表示以及对应的目标语言输入解码器，得到预测序列，将预测序列与预设目标序列进行对比，并使用交叉熵损失函数计算损失值，将该损失值输入优化器Adam进行transformer模型参数的更新优化，迭代该过程，当损失值达到最小时，停止参数的优化更新并输出此刻的transformer模型。

进一步地，在本发明的一个实施例中，编码器由六层编码层构成，每层编码层包括多头自注意力网络、残差连接、层归一化和前馈神经网络堆叠，且每层编码层将上一编码层输出的结果作为输入，解码器由六层解码层构成，每层解码器包括遮盖多头自注意力网络、残差连接、层归一化和前馈神经网络，且每层解码器将上一解码层输出的结果作为输入。

具体地，如图2所示，将标注平行语料输入到transformer模型之后的具体过程为：

transformer模型需要对输入的句子进行词向量化操作，词向量化操作的结果与位置编码相加，相加的结果输入到编码器中。位置编码如式(1)和(2)计算得到。

其中，pos是位置，i是维度，d_model是输出维度。编码器由六层编码层构成，每层编码层由多头自注意力网络、残差连接、层归一化和前馈神经网络堆叠组成。每层编码层将上一编码层输出的结果作为输入，首先，数据经过多头自注意力网络计算，多头自注意力网络的结果如式(3)至(5)计算得到；

Multihead(Q,K,V)＝Concat(head₁,…,head_h)W^O 4)

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (5)

其中，Q为查询矩阵，K为键矩阵，V为值矩阵，d_k为键矩阵的维度，head_i表示为第i个注意力头，W_i是第i个注意力头的变换参数矩阵。接着数据经过残差连接和层归一化计算，残差连接和层归一化后的结果如式(6)至(10)计算得到；

y_l＝h(x_l)+F(x_l,W_l) (6)

x_l+1＝f(y_l) (7)

其中，h(·)是直接映射，f(·)是激活函数。

其中，H表示一层隐藏层中隐藏单元的个数；g是增益参数，b是偏置。然后数据经过前馈神经网络计算，经过前馈神经网络得到的结果如式(11)计算得到；

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (11)

最后数据再次经过残差连接和层归一化计算，得到源语言的向量表示。

经过整个编码器计算后的结果(即源语言的向量表示及对应的目标语言)输入到解码器中准备解码。解码器由六层解码层构成，每层解码层由遮盖多头自注意力网络、残差连接、层归一化、前馈神经网络组成。每层解码层将上一解码层输出的结果作为输入，首先，数据经过遮盖多头自注意力网络计算，遮盖多头自注意力网络基于多头自注意力网络，与多头自注意力网络的区别在于使得解码层不能看见未来的信息。即对于一个序列，在t时刻，解码层的输出应该只能依赖于t时刻之前的输出，而不能依赖t之后的输出。接着数据经过残差连接和层归一化计算，其结果输入多头自注意力网络，然后数据经过前馈神经网络计算，最后数据再次经过残差连接和层归一化计算，获得预测序列。

然后将预测序列和相应的目标序列进行比对，使用交叉熵损失函数计算损失，将损失结果输入优化器Adam进行transformer模型参数的更新优化。

在步骤S4中，在某个时间步里，将源语言输入transformer模型的编码器，编码器输出相应的向量表示，将该向量表示以及上一时间步翻译的目标语言词输入transformer模型的解码器，解码器输出该时间步的目标词，并将不同时间步翻译的目标词按时间顺序进行拼接，得到源语言翻译的最终结果，其中，同一时间步依赖源语言只能翻译得到目标语言中的一个词。

进一步地，步骤S4的具体执行过程为：

步骤S401，将预测源语言输入transformer模型的编码器中，得到预测源语言的向量表示；

步骤S402，向transformer模型的解码器输入“<BOS>”标记，输出长度为1的句子，解码器将长度为1的句子的词作为本时间步的预测词；

步骤S403，将长度为1的不完整预测句作为解码器的输入，输出长度为2的句子，将句子末尾的词作为解码器当前时间步的预测词；

步骤S404，将前两次预测的词组成不完整译文作为解码器输入，迭代执行，直至解码器输出“<EOS>”或者译文句子达到最大预测长度，解码器翻译停止。

因此，可以理解为：编码器输入源语言句子得到该句子的向量表示；解码器首先输入“<BOS>”标记，输出长度为1为的句子，解码器将这个词作为本时间步的预测词；然后解码器将此长度为1的不完整预测句作为输入，输出长度为2的句子，将句子末尾的词作为解码器该时间步的预测词；之后解码器再将前两次预测的词组成不完整译文作为输入；如此往复，直至解码器输出“<EOS>”或者译文句子达到最大预测长度，解码器翻译停止。

另外，本发明实施例使用iwslt2014 de-en公开数据集进行了训练和测试对本发明实施例提出的基于预训练双语词向量的神经机器翻译方法进行验证。该数据集中包含一个小规模的“德-英”口语翻译标注平行语料构成的训练、验证和测试集。“德-英”平行语料的规模统计如下表1所示。

表1 iwslt2014 de-en语料规模

本发明实施例在该数据集上测试了结果，如下表2所示。

表2 实验结果(％)

因此，本发明实施例提出的基于预训练双语词向量的神经机器翻译方法，通过预先用拼接后的标注平行语料对XLM模型进行预训练，初始化transformer模型的编/解码器词向量矩阵，缓解了低资源语种的翻译与大量标注的平行语料被用来训练的矛盾，给神经机器翻译模型的词向量矩阵找到合适的初始化，进而提高了低资源语种的机器翻译效果。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于预训练双语词向量的神经机器翻译方法，其特征在于，包括以下步骤：

步骤S1，将标注平行语料进行源语言-目标语言拼接，利用拼接后的标注平行语料对XLM模型进行预训练，并使用交叉熵损失函数计算损失值，将所述损失值输入优化器Adam进行所述XLM模型参数的更新优化；

步骤S2，取出预训练后的XLM模型的词向量矩阵，以初始化transformer模型的编码器的词向量矩阵和解码器的词向量矩阵；

步骤S3，将所述拼接后的标注平行语料的源语言相继输入至所述transformer模型的编码器中进行词向量化操作，将源语言的向量表示以及对应的目标语言输入所述解码器，得到预测序列，将所述预测序列与预设目标序列进行对比，并使用交叉熵损失函数计算损失值，将该损失值输入优化器Adam进行所述transformer模型参数的更新优化，迭代该过程，当所述损失值达到最小时，停止参数的优化更新并输出此刻的transformer模型；

步骤S4，在某个时间步里，将源语言输入所述transformer模型的编码器，编码器输出相应的向量表示，将该向量表示以及上一时间步翻译的目标语言词输入所述transformer模型的解码器，解码器输出该时间步的目标词，并将不同时间步翻译的目标词按时间顺序进行拼接，得到源语言翻译的最终结果，其中，同一时间步依赖源语言只能翻译得到目标语言中的一个词。

2.根据权利要求1所述的基于预训练双语词向量的神经机器翻译方法，其特征在于，所述预训练的任务包括随机语言建模、遮盖语言建模或翻译语言建模。

3.根据权利要求2所述的基于预训练双语词向量的神经机器翻译方法，其特征在于，在所述步骤S1中，

当所述XLM模型仅仅设置所述随机语言建模任务或所述遮盖语言建模任务进行预训练时，只需要对非平行语料的源语言或目标语言采样任意数量的句子进行拼接，并取拼接单句前256个词作为输入语句输入到所述XLM模型中；

当XLM设置所述翻译语言建模时，需要将标注平行语料中的源语言和目标语言使用句子分隔符拼接，再将拼接的整句作为单句输入到所述XLM模型中。

4.根据权利要求3所述的基于预训练双语词向量的神经机器翻译方法，其特征在于，所述步骤S1中所述XLM模型对所述输入语句或所述单句处理的具体过程为：

当所述预训练的任务为所述随机语言建模任务时，给定句中词w_t之前出现的词，建模w_t出现在词w₁，…，w_t-1之后的概率P(w_t|w₁,…,w_t-1,θ)，即直接使用transformer encoder来预测下一个词出现的概率；

当所述预训练的任务为所述遮盖语言建模任务时，按预设概率采样所述输入语句的词，同时将被采样的词按80％的概率被“[MASK]”替换，按10％的概率被随机替换成预设其他词，按10％的概率保持原词，在XLM在型的顶层预测被遮住的词；

当所述预训练的任务为所述翻译语言建模任务时，随机遮盖所述单句的源语言部分和目标语言部分，所述XLM模型需要同时参考被遮盖词在源语言部分的周围词和目标语言部分的词，进而预测源语言部分被遮盖的词。

5.根据权利要求1所述的基于预训练双语词向量的神经机器翻译方法，其特征在于，所述编码器由六层编码层构成，每层编码层包括多头自注意力网络、残差连接、层归一化和前馈神经网络堆叠，且每层编码层将上一编码层输出的结果作为输入。

6.根据权利要求5所述的基于预训练双语词向量的神经机器翻译方法，其特征在于，所述步骤S3中将源语言输入所述编码器后的具体处理为：

将所述源语言对所述transformer模型的编码器中进行词向量化操作，其中，需将所述词向量化操作的结果与位置编码相加，再将相加后的结果输入到所述编码器中，先由所述多头自注意力网络计算，再经过残差连接和层归一化计算，获得所述源语言的向量表示。

7.根据权利要求1所述的基于预训练双语词向量的神经机器翻译方法，其特征在于，所述解码器由六层解码层构成，每层解码器包括遮盖多头自注意力网络、残差连接、层归一化和前馈神经网络，且每层解码器将上一解码层输出的结果作为输入。

8.根据权利要求6所述的基于预训练双语词向量的神经机器翻译方法，其特征在于，所述步骤S3中将所述源语言的向量表示以及对应的目标语言输入所述解码器后的具体处理为：

将所述源语言的向量表示以及对应的目标语言对所述transformer模型的解码器中，先经过所述遮盖多头自注意力网络计算，再经过残差连接和层归一化计算，再将其结果输入所述遮盖多头自注意力网络，然后经过所述前馈神经网络计算，最后数据再次经过残差连接和层归一化计算，获得所述预测序列。

9.根据权利要求1所述的基于预训练双语词向量的神经机器翻译方法，其特征在于，所述步骤S4具体包括：

步骤S401，将所述预测源语言输入所述transformer模型的编码器中，得到所述预测源语言的向量表示；

步骤S402，向所述transformer模型的解码器输入“<BOS>”标记，输出长度为1的句子，所述解码器将长度为1的句子的词作为本时间步的预测词；

步骤S403，将长度为1的不完整预测句作为所述解码器的输入，输出长度为2的句子，将句子末尾的词作为所述解码器当前时间步的预测词；

步骤S404，将前两次预测的词组成不完整译文作为所述解码器输入，迭代执行，直至解码器输出“<EOS>”或者译文句子达到最大预测长度，所述解码器翻译停止。