CN115719072A

CN115719072A - 一种基于掩码机制的篇章级神经机器翻译方法及系统

Info

Publication number: CN115719072A
Application number: CN202211331167.7A
Authority: CN
Inventors: 费伟伦; 鉴萍; 朱晓光
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-02-28

Abstract

本发明公开了一种基于掩码机制的篇章级神经机器翻译方法及系统，属于自然语言处理和语言翻译技术领域。本方法利用掩码机制对待翻译句子中的部分信息进行掩码，使模型在翻译句子时，对上下文信息的依赖程度更高。本方法主要针对训练策略做出改进，采用了二阶段训练过程，更好地使编码器还原编码信息，有效提升了篇章级神经机器翻译的效果。系统部分包括数据处理模块、源语言编码器模块、源语言自编码解码器模块、目标语言解码器模块和生成器模块。对比现有技术，本方法在训练策略上采取掩码和自编码的策略，训练了一个在编码时更依赖于上下文的篇章级翻译模型，充分利用上下文信息，进一步提升了篇章级机器翻译效果和质量。

Description

一种基于掩码机制的篇章级神经机器翻译方法及系统

技术领域

本发明涉及一种神经机器翻译方法及系统，具体涉及一种基于掩码机制的篇章级神经机器翻译方法和系统，属于自然语言处理和语言翻译技术领域。

背景技术

神经机器翻译技术(Neural Machine Tranlation，简称NMT)，是一种使用深度学习神经网络获取自然语言之间的映射关系的方法，是自然语言处理中的重要任务。NMT使用基于神经网络的技术来实现更多上下文精确翻译，而不是一次翻译一个单词的破碎句子。NMT能够学习和收集信息，分两个阶段进行分析：编码和解码。在编码阶段，来自然语言的文本信息被输入到机器中，随后被分类到语言向量中。在上下文中，相似的单词将被放置在可比较的单词向量中。在解码阶段，将有效且无缝地把矢量发送到目标语言。

篇章级机器翻译，旨在使用计算机将一个篇章从一种语言自动翻译成另一种语言，是机器翻译中一项十分富有挑战性的任务。近年来，随着神经机器翻译的快速发展，篇章神经机器翻译已经成为了机器翻译领域的热门方向，该技术使得译文在整篇文档或特定的语义环境中，能够保持翻译风格的一致性和翻译的准确性。随着深度学习的快速发展，端到端的模型架构能够帮助神经机器翻译直接将源语言句子转换到目标语言句子。相比于传统句子神经机器翻译，篇章神经机器翻译通过建模并利用篇章级别的上下文信息，由此产生质量更高的译文。

现有技术中，通常采用多编码器的方式来解决神经机器翻译中的篇章级翻译难题。利用额外的编码器对上下文进行编码，获取编码信息后，与当前待翻译的句子以注意力机制或门控机制做融合。单编码器相对简单，将上下文与待翻译句子进行拼接，共同送入编码器中，利用注意力机制，获得更好的编码表示，再送入解码器中生成对应的译文。但是，在单编码器的结构中，需要让待翻译的句子能更好的依赖于上下文的信息，例如，可以从待处理的上下文中获取时态信息、性别信息甚至字母缩写的具体含义等。由于神经网络本身往往会被视为是一个黑盒模型，因此在编码、翻译的过程中，往往很难界定对上下文的依赖程度有多少。此外，在编码过程中，源语言句子的编码可能会因为额外信息的引入而不能被完整地传达。

综上所述，迫切需要有一种技术，能够让篇章级神经机器翻译方法，在编码或翻译的过程中更好地依赖于上下文，同时能保证原有的语义信息不会丢失。

发明内容

本发明的目的是针对现有技术存在的问题和不足，为了解决篇章级神经机器翻译过程中，令待翻译句子更好地从上下文中获取信息，保证原有语义信息不丢失等技术问题，创造性地一种基于掩码机制的篇章级神经网络机器翻译方法及系统。

本发明的创新点在于：首先，将上下文及经过随机掩码的待翻译句子拼接作为编码器的输入。常见的单编码器结构中，往往是使用拼接后的句子直接作为编码器的输入，但是这种方式使得上下文本身会成为一种噪声，破坏待翻译句子的语义信息，而编码信息也因此会受到影响，反而会出现降低翻译效果的现象。而且需要将上下文和待翻译的句子区分开，要使得编码器更好的帮助待翻译句子从上下中获取信息。针对这种情况，本发明一方面引入掩码语言模型任务，使用掩码随机替换待翻译句子中的部分词；除此之外引入降噪自编码器，为编码器部分加上约束，使基于上下文的编码信息不仅能充分利用上下文信息，同时能更好地还原待翻译句子的语义信息，最后生成目标语言句子。

本发明采用以下技术方案实现。

一种基于掩码机制的篇章级神经机器翻译方法，包括以下步骤：

步骤1：输入源语言句子，通过随机掩码方式，编码生成具备上下文的编码信息Enc(X)。

具体地，步骤1包括以下步骤：

步骤1.1：待翻译句子X_curr中的每个单词，以概率p被掩码符号所替换。

优选地，p＝0.3，服从伯努利分布。

步骤1.2：选定待翻译句子的前文X_prev作为上下文，并将经掩码处理后的待翻译句子与上下文进行拼接，得到输入序列X_input。

步骤1.3：输入序列X_input经过编码器的嵌入层，被逐词映射为词向量，嵌入层输出由词向量组成的序列Emb(X)。

步骤1.4：将序列Emb(X)送入编码器中进行编码，获得具备上下文的编码序列Enc(X)。

具体地，序列Emb(X)通过编码器的多头自注意力层和线性层进行编码，将该过程重复N次，最后得到Enc(X)。

步骤2：将经过编码器得到的编码序列Enc(X)送入结构与编码器一致的降噪自编码解码器中，得到降噪自编码输出序列Dec_Enc(Enc(X))。

具体地，该步骤与步骤1.4中的处理过程相同，目的是为了增加掩码语言模型任务，更好地还原可能被掩码破坏了语义信息的待翻译句子。

步骤3：利用编码器输出和解码器输入，输出解码序列Dec(Y)。

具体地，步骤3包括以下步骤：

步骤3.1：根据前文X_prev的长度和待翻译句子X_curr的长度，对步骤1.4中具备上下文的编码表示Enc(X)做切割，获取上下文编码序列Enc(X)_prev和待翻译句子的编码序列Enc(X)_curr。

步骤3.2：选取步骤1.1中待翻译句子X_curr所对应的目标语言句子Y_tok，送入编码器的嵌入层，逐词映射为词向量，嵌入层输出由词向量组成的目标语言序列Emb(Y)。

步骤3.3：利用解码器对目标语言序列Emb(Y)进行解码，得到解码序列Dec(Y)。

具体地，目标语言序列表示Emb(Y)通过解码器的自注意力层，利用多头注意力层和上下文编码序列Enc(X)_prev以及待翻译句子X_curr的编码序列Enc(X)_curr进行融合，再经过解码器的线性层。该过程重复N次，最终得到解码序列Dec(Y)。

步骤4：将步骤2的降噪自编码输出序列Dec_Enc(Enc(X))与步骤1.3的拼接序列Emb(X)作比较，将解码序列Dec(Y)与目标语言参考编码序列Ref(Y)作比较，将差值加权相加，作为模型损失L₁。

步骤5：根据模型损失使用梯度下降方法，重复步骤1至步骤4，直至模型收敛，得到翻译模型M。

步骤6：在步骤5得到的翻译模型M上，继续使用现有数据，在不做掩码的基础上进行训练。

具体地，步骤6包括以下步骤：

步骤6.1：选定待翻译句子X_curr的前文X_prev作为上下文，并将待翻译句子X_curr与上下文进行拼接，得到输入序列X_input′。

步骤6.2：输入序列X_input′经过编码器的嵌入层，被逐词映射为词向量，嵌入层输出由词向量组成的序列Emb(X′)。

步骤6.3：将序列Emb(X′)送进编码器中，经过编码获得具备上下文的编码序列Enc(X′)。

具体地，序列Emb(X′)通过编码器的多头自注意力层和线性层进行编码，该过程重复N次，最后得到Enc(X′)。

步骤7：与步骤3过程相同，编码器输出来自步骤6.3的Enc(X′)，输出解码序列Dec(Y′)。

步骤8：将步骤7的解码序列Dec(Y′)与目标语言参考编码序列Ref(Y)作比较，将差值作为模型损失L₂。

步骤9：根据模型损失L₂使用梯度下降方法，重复步骤6至步骤8，直至模型收敛，得到翻译模型M′。

步骤10：将非训练集的源语言句子X_t、源语言句子的前文X_t-1，送入翻译模型M′，得到最终翻译的译文。

另一方面，本发明基于上述方法，进一步提出了一种基于掩码机制的篇章级神经机器翻译系统，包括数据处理模块、源语言编码器模块、源语言降噪自编码解码器模块、目标语言解码器模块和生成器模块。

其中，数据处理模块负责抽取需要翻译的信息数据，并转换为对应的词向量序列；

源语言编码器模块用于将篇章级信息和源语言句子的编码信息融合，并分别送入源语言降噪自编码解码器模块和目标语言解码器模块中；

源语言降噪自编码解码器模块在第一次训练时，对源语言编码器模块的输出做自编码；

目标语言解码器模块根据获得的编码信息进行解码，生成解码信息；

生成器模块负责将解码信息映射到目标端的词表当中生成翻译，并将结果呈现给用户。

进一步地，数据处理模块包括样本获取单元、预处理单元和嵌入层单元；

其中，样本获取单元用于获取语料库中的语言对样本；

预处理单元用于从语料中获取所需要的数据(包括源语言句子、目标语言句子及其对应的源语言上下文信息)，并负责构建词表和句子的分词；

嵌入层单元用于将处理后的文本信息转换为对应的词向量序列。

源语言编码器模块、源语言降噪自编码解码器模块和目标语言解码器模块，各自均包括一个注意力单元和一个线性单元。每个注意力单元的作用相同，均为负责对输入的词向量或是语义向量做信息融合，生成对应的语义信息；每个线性单元作用也相同，均为负责对输入的编码信息做线性映射。

其中，源语言编码器模块包括第一注意力单元和第一线性单元，源语言降噪自编码解码器模块包括第二注意力单元和第二线性单元，解码器模块包括第三注意力单元和第三线性单元。

上述模块的连接关系为：

源语言编码器模块的输入端与数据处理模块的输出端相连；

源语言降噪自编码解码器模块的输入端与源语言编码器模块的输出端相连；

目标语言解码器模块的输入端与数据处理模块的输出端相连；

目标语言解码器模块的输入端与源语言编码器模块的输出端相连；

生成器模块的输入端与目标语言解码器模块的输出端相连。

上述模块中各单元的连接关系为：

在数据处理模块中，预处理单元的输入端与样本获取单元的输出端相连，嵌入层单元的输入端与预处理单元的输出端相连。

源语言编码器模块、源语言降噪自编码解码器模块和目标语言解码器模块中，每个线性单元的输入端与所在模块的注意力单元输出端相连。

有益效果

本发明，对比现有的技术，具有以下优点：

本发明，通过对当前待翻译句子进行随机掩码方式，引入掩码语言模型任务，同时在训练时引入降噪自编码器，使“被破坏”的输入能够从上下文中获取信息，最大程度的还原输入信息，使待翻译句子更大程度地依赖上下文信息，提升了篇章级神经机器翻译的效果和质量。

附图说明

图1为根据本发明方法的流程图；

图2为根据本发明系统的架构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明。

如图1所示，一种基于掩码机制的篇章级神经机器翻译方法，包括以下步骤：

步骤1：输入源语言句子，通过随机掩码的方法，编码生成具备上下文的编码信息Enc(X)，具体地：

步骤1.1：待翻译句子

中的每个单词会以概率p被掩码符号所替换，该过程服从p＝0.15的伯努利分布。

步骤1.2：选定待翻译句子的前文

作为上下文，并将经掩码处理后的待翻译句子与上下文进行拼接，得到输入序列

步骤1.3：输入序列

经过嵌入层，会被逐词映射为词向量，嵌入层会输出由词向量组成的序列Emb(X)。

步骤1.4：序列Emb(X)会被送进源语言编码器中，经过编码，获得具备上下文的编码序列Enc(X)。

步骤2：经过源语言编码器得到的编码序列Enc(X)会被送入结构与源语言编码器一致的模块中，得到降噪自编码输出序列Dec_Enc(Enc(X))。

步骤3：利用源语言编码器输出和目标语言解码器输入，输出解码序列Dec(Y)，具体地：

步骤3.1：根据前文的长度以及待翻译句子的长度，对步骤1.4中具备上下文的编码表示Enc(X)做切割，获取上下文编码序列Enc(X)_prev和待翻译句子的编码序列Enc(X)_curr。

步骤3.2：选取步骤1.1中待翻译句子所对应的目标语言句子Y_tok，送入嵌入层，逐词映射为词向量，嵌入层输出由词向量组成的目标语言序列Emb(Y)。

步骤4：将步骤2的降噪自编码输出序列Dec_Enc(Enc(X))与步骤2.3的拼接序列Emb(X)比较、将解码序列Dec(Y)与目标语言参考编码序列Ref(Y)作比较，差值加权相加作为模型损失L₁。

步骤5：根据模型损失使用梯度下降方法重复步骤1-4直至模型收敛，得到翻译模型M。

在步骤1.1、步骤1.2和步骤3.1中，获取带上下文的双语平行句对语料，对样本进行预处理。

本实施例中，选用IWSLT15数据，源语言是汉语，目标语言是英语。从IWSLT15中抽取20万对包含上下文的平行句对作为训练语料。每个样本E包括一个前文句子，一个待翻译的源语言句子和一个目标语言句子，例如：

前文句子：孔子的家里很穷，但他从小就认真读书，刻苦学习。

待翻译的源语言句子：二十多岁的时候，他做了个小官。

目标语言句子：He became a petty official in his early twenties.

根据掩码机制，会对待翻译的源语言句子中的词使用mask掩码进行随机替换，例如：

掩码处理后的待翻译的源语言句子：二十多岁的时候，[MASK]做了个小官。

在本实施例中，首先分别对源语言语料和目标语言语料进行分词，并构建词表。针对汉语，需要使用中文分词工具结巴分词(https://github.com/fxsjy/jieba)进行分词；再使用BPE对分词后的平行语料做亚词编码，得到亚词词表及亚词编码。根据亚词编码，对平行语料做亚词分词，并根据亚词词表进行令牌化。

在步骤1.3中，针对每个样本E，通过嵌入层映射，将令牌化的源语言句子

转换为由词向量组成的序列Emb(X)。

在步骤1.4中，由词向量组成的序列Emb(X)被送入源语言编码器编码，获取具备上下文的编码序列Enc(X)。

具体地，步骤1.4中的多头自注意力层的过程如下：

首先，将词向量组成的序列Emb(X)中的每一个词向量通过矩阵映射为查询值Q、键值K和值V：

Q＝W_Q·e (1)

K＝W_K·e (2)

V＝W_V·e (3)

其中，W_Q、W_K、W_V分别表示用于映射查询值Q、键值K和值V的映射参数；e是每个单词的词向量表示。

在自注意力机制中，对每一个词，计算该词对其它所有词的注意力分值s：

其中，d_k为K的维度，K^T表示K的转置，T表示矩阵转置。

然后，用注意力分值s作为权重，用对应的注意力分值与V相乘并求和，得到对应的隐藏层状态表示向量

由于Transformer编码器端采用的是多头注意力机制，此处要再将每个注意力头产生的表示进行拼接：

其中，h′表示不同的注意力头产生的表示拼接后的结果，

表示第n个头产生的表示。

最后，利用由两层由ReLU做激活函数的全连接网络层，提高模型非线性的拟合能力：

Enc_layer(X)＝FFN(h′)＝max(0,max(0,h′W₁+b₁)W₂+b₂) (7)

其中，Enc_layer(X)表示每一层编码器的输出结果，最后一层编码器的输出结果表示为Enc(X)。FFN(·)表示线性单元；W₁、W₂表示可训练的权重，b₁、b₂分别表示W₁、W₂对应的偏置项。

在步骤1.4中，序列Emb(X)在经过自注意力层后，生成自注意力层的结果表示SelfAttn(X)，而SelfAttn(X)会作为全连接网络的输入，输出Enc_layer(X)，最终得到编码器的输出，该输出包含上下文信息Enc(X)。

在步骤2中使用降噪自编码解码器对编码器输出进行降噪自编码解码时的计算过程与步骤1.4计算得到编码器结果Enc(X)的过程一致，得到Dec_Enc(Enc(X))。

在步骤3中，如图1所示，利用源语言编码器输出和目标语言解码器输入，输出解码序列Dec(Y)的步骤包括：

在步骤3.1中，需要根据前文的长度以及待翻译句子的长度，对步骤1.4中具备上下文的编码表示Enc(X)做切割，获取上下文编码序列Enc(X)_prev和待翻译句子的编码序列Enc(X)_curr。

在步骤3.2中，该过程与步骤1.3一致，输入为目标语言句子Y_tok，输出为目标语言序列Emb(Y)。

在步骤3.3中，首先通过自注意力层，使Emb(Y)获得更好的信息表示，该过程与步骤1.4中计算得到自注意力结果的过程一致。之后会分别经过两层多头注意力层，第一层使用Enc(X)_curr作为键值K和值V，自注意力层的输出结果SelfAttn(Y)作为查询值Q，生成结果DecEncAttn(Y)；利用上一层多头注意力层的输出结果作为查询值Q，Enc(X)_prev作为键值K和值V，生成结果DecCtxAttn(Y)。解码器中每一层全连接层的计算过程与步骤1.4中的编码器的全连接层的计算过程一致，最后获得解码器的输出结果Dec(Y)。

在步骤4中，使用步骤2的降噪自编码输出序列Dec_Enc(Enc(X))与步骤2.3的拼接序列Emb(X)作交叉熵损失计算，解码序列Dec(Y)与目标语言参考编码序列Ref(Y)作交叉熵损失计算，二者进行加权相加，作为模型损失L₁：

L₁＝α·Loss(Emb(X),Dec_Enc(Enc(X)))+(1-α)Loss(Ref(Y),Dec(Y)) (8)

其中，α是一个超参数，用于控制两个部分的损失对模型整体的训练，Loss表示交叉熵损失函数。

根据模型损失使用梯度下降方法重复步骤1-4直至模型收敛，得到翻译模型M。由于在训练的过程中，对待翻译的源语言句子中的单词使用了随机替换，这与使用模型生成翻译的过程存在不同。因此提出第二阶段的训练，使用现有数据在不做掩码的基础上对得到的翻译模型M继续训练，模型的损失函数L₂如下：

L₂＝Loss(Ref(Y),Dec(Y′)) (9)

其中，Dec(Y′)的生成过程与第一阶段中的生成过程一致，对于待翻译的源语言句子不再做掩码替换的过程。

将目标语言解码序列的最后一个向量输入到生成器，通过Softmax函数映射到词表，得到对于下一个词的预测。重复上述步骤，直至解码生成句子结束标识，或句子长度达到最大长度限制时，终止生成。

根据本发明的另一方面，提出一种基于掩码机制的篇章级神经机器翻译系统，如图2所示，包括数据处理模块、源语言编码器模块、源语言降噪自编码解码器模块、目标语言解码器模块和生成器模块。其中，数据处理模块负责抽取需要翻译的数据，并转换为对应的词向量序列；源语言编码器模块用于将源语言句子和对应的上下文信息的编码信息融合，送入源语言降噪自编码解码器模块和目标语言解码器中；源语言降噪自编码解码器模块对获得的编码信息进行解码，还原源语言信息；目标语言解码器根据获得的编码信息进行解码生成解码信息；生成器模块负责将解码信息映射到目标端的词表当中，生成翻译，并将结果呈现给用户。

进一步的，数据处理模块包括：样本获取单元、预处理单元、嵌入层单元，其中：

样本获取单元，用于获取语料库中的语言对样本；

预处理单元，用于从语料中获取所需要的数据，包括源语言句子、目标语言句子及其对应的源语言上下文信息，并负责构建词表和句子的分词；

嵌入层单元，用于将处理后的文本信息转换为对应的词向量序列。

源语言编码器模块、源语言降噪自编码解码器模块和目标语言解码器模块，各包括一个注意力单元和一个线性单元。每个注意力单元的作用相同，均为负责对输入的词向量或是语义向量做信息融合，生成对应的语义信息；每个线性单元作用也相同，均为负责对输入的编码信息做线性映射。其中，源语言编码器模块包括第一注意力单元和第一线性单元，源语言降噪自编码解码器模块包括第二注意力单元和第二先行单元，解码器模块包括第三注意力单元和第三线性单元。

在样本获取单元中，可以选择IWSLT 15的汉语和英语分别作为源语言和目标语言。

在预处理单元中，分别对源语言语料和语言语料进行分词，并构建词表。然后使用BPE进行编码得到词表，根据BPE编码得到的词表将句子拆分。具体方法如上文所述。

在嵌入层单元中，可通过映射，将句子转换为词向量表示序列。具体方法如上所述。

在每个注意力单元中，自注意力机制用于计算同句子中词之间的关联度，多头注意力机制用于融合上下文信息。具体方法如上所述。

在每个线性单元中，序列信息经此得到对应的编码和解码序列。

本领域普通技术人员可以理解，以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于掩码机制的篇章级神经机器翻译方法，其特征在于，包括以下步骤：

步骤1：输入源语言句子，通过随机掩码方式，编码生成具备上下文的编码信息Enc(X)；

步骤1.1：待翻译句子X_curr中的每个单词，以概率p被掩码符号所替换；

步骤1.2：选定待翻译句子的前文X_prev作为上下文，并将经掩码处理后的待翻译句子与上下文进行拼接，得到输入序列X_input；

步骤1.3：输入序列X_input经过编码器的嵌入层，被逐词映射为词向量，嵌入层输出由词向量组成的序列Emb(X)；

步骤1.4：将序列Emb(X)送入编码器中进行编码，获得具备上下文的编码序列Enc(X)；

序列Emb(X)通过编码器的多头自注意力层和线性层进行编码，将该过程重复N次，最后得到Enc(X)；

步骤2：将经过编码器得到的编码序列Enc(X)送入结构与编码器一致的降噪自编码解码器中，得到降噪自编码输出序列Dec_Enc(Enc(X))；

步骤3：利用编码器输出和解码器输入，输出解码序列Dec(Y)；

步骤3.1：根据前文X_prev的长度和待翻译句子X_curr的长度，对步骤1.4中具备上下文的编码表示Enc(X)做切割，获取上下文编码序列Enc(X)_prev和待翻译句子的编码序列Enc(X)_curr；

步骤3.2：选取步骤1.1中待翻译句子X_curr所对应的目标语言句子Y_tok，送入编码器的嵌入层，逐词映射为词向量，嵌入层输出由词向量组成的目标语言序列Emb(Y)；

步骤3.3：利用解码器对目标语言序列Emb(Y)进行解码，得到解码序列Dec(Y)；

目标语言序列表示Emb(Y)通过解码器的自注意力层，利用多头注意力层和上下文编码序列Enc(X)_prev以及待翻译句子X_curr的编码序列Enc(X)_curr进行融合，再经过解码器的线性层；该过程重复N次，最终得到解码序列Dec(Y)；

步骤4：将步骤2的降噪自编码输出序列Dec_Enc(Enc(X))与步骤1.3的拼接序列Emb(X)作比较，将解码序列Dec(Y)与目标语言参考编码序列Ref(Y)作比较，将差值加权相加，作为模型损失L₁；

步骤5：根据模型损失使用梯度下降方法，重复步骤1至步骤4，直至模型收敛，得到翻译模型M；

步骤6：在步骤5得到的翻译模型M上，继续使用现有数据，在不做掩码的基础上进行训练；

步骤6.1：选定待翻译句子X_curr的前文X_prev作为上下文，并将待翻译句子X_curr与上下文进行拼接，得到输入序列X_input′；

步骤6.2：输入序列X_input′经过编码器的嵌入层，被逐词映射为词向量，嵌入层输出由词向量组成的序列Emb(X′)；

步骤6.3：将序列Emb(X′)送进编码器中，经过编码获得具备上下文的编码序列Enc(X′)；

序列Emb(X′)通过编码器的多头自注意力层和线性层进行编码，该过程重复N次，最后得到Enc(X′)；

步骤7：与步骤3过程相同，编码器输出来自步骤6.3的Enc(X′)，输出解码序列Dec(Y′)；

步骤8：将步骤7的解码序列Dec(Y′)与目标语言参考编码序列Ref(Y)作比较，将差值作为模型损失L₂；

步骤9：根据模型损失L₂使用梯度下降方法，重复步骤6至步骤8，直至模型收敛，得到翻译模型M′；

2.如权利要求1所述的一种基于掩码机制的篇章级神经机器翻译方法，其特征在于，步骤1.4中，的多头自注意力层的过程如下：

Q＝W_Q·e (1)

K＝W_K·e (2)

V＝W_V·e (3)

其中，W_Q、W_K、W_V分别表示用于映射查询值Q、键值K和值V的映射参数；e是每个单词的词向量表示；

其中，d_k为K的维度，K^T表示K的转置，T表示矩阵转置；

将每个注意力头产生的表示进行拼接：

其中，h′表示不同的注意力头产生的表示拼接后的结果，

表示第n个头产生的表示；

Enc_layer(X)＝FFN(h′)＝max(0,max(0,h′W₁+b₁)W₂+b₂) (7)

其中，Enc_layer(X)表示每一层编码器的输出结果，最后一层编码器的输出结果表示为Enc(X)；FFN(·)表示线性单元；W₁、W₂表示可训练的权重，b₁、b₂分别表示W₁、W₂对应的偏置项；

3.如权利要求1所述的一种基于掩码机制的篇章级神经机器翻译方法，其特征在于，模型损失L₁如下：

L₁＝α·Loss(Emb(X),Dec_Enc(Enc(X)))+(1-α)Loss(Ref(Y),Dec(Y)) (8)

其中，α是一个超参数，用于控制两个部分的损失对模型整体的训练，Loss表示交叉熵损失函数；

模型损失L₂如下：

L₂＝Loss(Ref(Y),Dec(Y′)) (9)。

4.一种基于掩码机制的篇章级神经机器翻译系统，其特征在于，包括数据处理模块、源语言编码器模块、源语言降噪自编码解码器模块、目标语言解码器模块和生成器模块；

生成器模块负责将解码信息映射到目标端的词表当中生成翻译，并将结果呈现给用户；

上述模块的连接关系为：

源语言编码器模块的输入端与数据处理模块的输出端相连；

生成器模块的输入端与目标语言解码器模块的输出端相连；

上述模块中各单元的连接关系为：

在数据处理模块中，预处理单元的输入端与样本获取单元的输出端相连，嵌入层单元的输入端与预处理单元的输出端相连；

5.如权利要求4所述的一种基于掩码机制的篇章级神经机器翻译系统，其特征在于，数据处理模块包括样本获取单元、预处理单元和嵌入层单元；

其中，样本获取单元用于获取语料库中的语言对样本；

预处理单元用于从语料中获取所需要的数据，并负责构建词表和句子的分词；

嵌入层单元用于将处理后的文本信息转换为对应的词向量序列；

源语言编码器模块、源语言降噪自编码解码器模块和目标语言解码器模块，各自均包括一个注意力单元和一个线性单元；每个注意力单元的作用相同，均为负责对输入的词向量或是语义向量做信息融合，生成对应的语义信息；每个线性单元作用也相同，均为负责对输入的编码信息做线性映射；