CN114707522A

CN114707522A - 一种基于隐变量的篇章级神经机器翻译方法及系统

Info

Publication number: CN114707522A
Application number: CN202210357955.7A
Authority: CN
Inventors: 鉴萍; 王峤; 费伟伦
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-05

Abstract

本发明涉及一种基于隐变量的篇章级神经机器翻译方法，属于自然语言处理应用技术领域。首先在编码器‑解码器神经机器翻译模型中，分别对源语言句子和其上一句进行编码，并通过注意力机制融合编码信息生成隐变量。将隐变量的分布认为是一种高斯分布，其中包含篇章级翻译所需要的上下文信息。通过在篇章关系分析任务上预训练的判别器，将隐变量通过转换矩阵映射到浅层篇章关系分布上。最后，将该判别器应用于篇章级神经机器翻译模型的训练过程中，对隐变量的生成进行引导，并最终生成目标语言的句子。本发明利用隐变量表示篇章级神经机器翻译中所需要的信息，通过引入判别器引导隐变量的生成过程，从而提升篇章级神经机器翻译的效果和质量。

Description

一种基于隐变量的篇章级神经机器翻译方法及系统

技术领域

本发明涉及一种基于隐变量的篇章级神经机器翻译方法，属于自然语言处理应用技术领域。

背景技术

篇章级机器翻译是神经机器翻译的重要分支，长期以来备受关注。现代的机器翻译方法多建立在编码器-解码器模型之上，利用端到端的学习方法，直接将源语言句子和对应的目标语言句子输入到模型中，模型即可自行学习其中的对应关系。

现有的机器翻译方法，大多是针对单独句子进行翻译，往往忽略了上下文的信息。篇章级机器翻译侧重于将翻译的范围扩展到整个文档，充分利用上下文信息提升翻译整体的衔接性和连贯性。

现有的篇章级机器翻译方法，大多通过将源语言的上下文编码，再通过不同的机制送入编码器或解码器。这些方法为翻译当前句子提供了更丰富的上下文信息，即用更大范围的上下文来为当前词汇(位置)语义编码(或者解码)。此类做法可以直接有效地进行词义的消歧。但是，由于这种语义匹配没有显式或隐式指导，很难更好地帮助学习模型发现在表层词汇组合之下所隐含的其它篇章要素，仅相当于一种扩展可用信息范围的篇章级翻译。实际上，对于篇章级机器翻译，更需要主动引导模型在语义建模，同时有目的的去学习这种篇章关联，而不是单纯依赖通用的、不易解释的语义编码与映射。

发明内容

本发明的目的是针对现有的机器翻译方法存在的忽略上下文信息、在语义匹配方面缺乏显式或隐式指导等不足，难以帮助学习模型发现在表层词汇组合之下所隐含的其它篇章要素等技术问题，创造性地提出一种基于隐变量的篇章级神经机器翻译方法。本方法在建模过程中，利用隐变量表示篇章级神经机器翻译中所需要的信息，通过引入判别器引导隐变量的生成过程，从而提升篇章级神经机器翻译的效果。

本发明的创新点在于：首先，在编码器-解码器神经机器翻译模型中，分别对源语言句子和其上一句进行编码，并通过注意力机制融合编码信息生成隐变量。此处，将隐变量的分布认为是一种高斯分布，其中包含篇章级翻译所需要的上下文信息。尽管不缺乏平行语料，但具备篇章要素标注的平行语料是缺失的，针对该情况，引入判别器，通过在篇章关系分析任务上预训练的判别器，将隐变量通过转换矩阵映射到浅层篇章关系分布上。最后，将该判别器应用于篇章级神经机器翻译模型的训练过程中，对隐变量的生成进行引导，并最终生成目标语言的句子。

为了达到上述目的，本发明采取如下技术方案。

一种基于隐变量的篇章级神经机器翻译方法，包括以下步骤：

步骤1：选用篇章级关系语料库(如CDTB中文篇章级关系语料库)作为篇章关系分析任务的训练集。基于训练集训练判别器，得到判别器。

步骤2：对上下文句子和源语言句子编码，生成编码信息，并生成隐变量。

具体地，包括以下步骤：

步骤2.1：通过嵌入层，将上下文句子和源语言句子转换为词向量表示序列。

步骤2.1.1：将训练语料处理成包含上下文样本、源语言句子和目标语言句子的样本。

步骤2.1.2：根据不同的语种，采用不同的分词工具，分别对源语言语料和目标语言语料进行分词。

步骤2.1.3：利用字节对编码(Byte Pair Encoding，BPE)，对训练语料进行编码并得到词表，根据词表对训练语料做句子拆分；

步骤2.1.4：通过嵌入层映射，得到词向量表示序列。

步骤2.2：利用编码器对上下文句子和源语言句子编码。在源语言句子编码过程中，使用多头注意力机制，融合上下文句子的编码信息E(X_t)。

具体地，利用编码器对上下文句子和源语言句子的词向量表示序列进行编码，获取编码信息E(X_t)。

步骤2.3：利用编码信息E(X_t)引导生成先验隐变量z。

具体地，将编码信息E(X_t)作为隐变量生成网络的输入，对生成结果采样获取隐变量z。

步骤3：利用判别器引导生成后验隐变量

解码器生成目标语言序列E(Y_t)，根据总损失训练得到翻译模型M。

具体地，将目标语言编码序列E(Y_t)与参考编码R(Y_t)作比较，将先验隐变量z和后验隐变量

作比较。之后，将差值加权相加，作为模型损失。根据模型损失，使用梯度下降方法，重复步骤2.2至步骤3，直至收敛，得到翻译模型M。

步骤4：将不属于训练集的源语言句子、源语言句子的上下文送入训练好的翻译模型中，当生成对应隐变量后，与编码信息共同生成目标语言句子。

有益效果

与现有技术相比，本发明致力于学习篇章级机器翻译中的篇章关联，提出了通过隐变量对篇章级机器翻译所需要的上下文建模，通过判别器引导的隐变量建模方式有效利用上下文信息，提升了篇章级机器翻译的质量。

在英汉翻译语料集WIT3上，通过实验证明了判别器引导的隐变量建模方法可有效提升篇章级神经机器翻译的效果，且此建模方法实验效果优于基于Transformer模型的端到端建模方法。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的系统架构示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

以如下句子为例，包含上下文句子、源语言句子、目标语言句子：

上下文句子：The conference received more than 7,700validcontributions.

源语言句子：Finally,1,150papers were accepted.

目标语言句子：最后接收了1150篇论文。

如图1所示，一种基于隐变量的篇章级神经机器翻译方法，包括以下步骤：

具体地，可以选用CDTB语料等作为篇章关系分析任务，并训练得到判别器D：

其中，Pretrain表示预训练模型，

分别表示语料数据集中不同的训练篇章及其对应的标签。

步骤2：对上下文句子和源语言句子编码生成编码信息，并生成隐变量。

具体地，包括以下步骤：

步骤2.1：通过嵌入层，将上下文句子和源语言句子转换为其词向量表示序列。

具体地，获取带上下文的双语平行句对语料，对样本进行预处理。例如，分别选用WIT3汉语和英语作为源语言和目标语言。从WIT3语料中抽取了质量较高的16万对包含上下文的平行句对作为训练语料。每个样本E包括一个上下文句子、一个源语言句子和一个目标语言句子。

例如，上下文句子：我遇到过一个当过空军将军的家伙，他曾经在战斗中击落过敌人的飞机。

源语言句子：而他现在是一个一星上将。

目标语言句子：He's now a one star General.

首先，分别对源语言语料和语言语料进行分词，并构建词表。可以采用中文分词工具结巴分词(https://github.com/fxsjy/jieba)对汉语分词；英语由于有天然空格，不需要分词。

然后，使用BPE进行编码，得到词表。

之后，针对每个样本E，根据BPE编码得到的词表将句子拆分。

最后，通过嵌入层映射，将句子转换为词向量表示序列。

步骤2.2：利用编码器分别对上下文句子和源语言句子编码。在源语言句子编码过程中，通过多头注意力机制融合上下文句子的编码信息。

具体地，当得到词向量表示序列后，将样本E中的上下文句子和源语言句子送入编码器编码，获取融合了上下文信息的源语言句子表示及隐变量。

首先，将上下文句子的向量表示序列的每一个词向量通过矩阵映射为查询值Q、键值K和值V：

Q＝W_Q·e (2)

K＝W_K·e (3)

V＝W_V·e (4)

其中，W_Q、W_K、W_V分别表示查询值Q、键值K和值V；e表示输入的词向量。

之后，对于每一个词，通过自注意力机制，计算其对于其他所有词的注意力分值s：

其中，d_k为K的维度。T表示转置。

然后，用注意力分值作为权重，用对应的注意力分值与V相乘并求和，得到对应的隐藏层状态表示向量

其中，s表示注意力分值。

此处，要将每个注意力头产生的表示进行拼接：

其中，h′表示拼接后的隐藏层状态表示向量，

表示为第n个头产生的表示。

最后，通过两层由ReLU作激活函数的线性层：

h＝FFN(h′)＝max(0,h′W₁+b₁)W₂+b₂ (8)其中，FFN(·)表示线性单元，W₁、W₂表示训练的权重，b₁、b₂分别表示W₁、W₂对应的偏置项。由此得到上下文句子的编码序列。

按照上述方式，通过自注意力层对源语言句子进行编码。

通过多头注意力机制，融合上下文句子的编码信息，原理同自注意力层编码机制。其中，Q、K由上下文句子中的词映射得到，V由源语言句子中的词映射得到。同理，通过两层由ReLU作激活函数的线性层得到融合了上下文信息的源语言句子编码信息。

步骤2.3：利用编码信息生成隐变量。

具体地，将步骤2.2得到的融合了上下文信息的源语言句子编码信息，通过隐变量生成网络生成均值μ和方差σ，然后采样得到隐变量z：

其中，

表示第k句中的第i个单词的编码变量，

表示第k-1句中的第j个单词的编码变量。

步骤3：利用判别器引导生成隐变量。

具体地，对于目标语言句子的每一个单词y_t的生成过程，均使用步骤1得到的判别器对隐变量进行判别。

将判别器得到的判别结果转换为一个区间范围为(0,1)的置信度打分c_t。对于目标语言端句子总长为T的序列，计算其置信度总和c_t：

c_t＝Confidence(D(z),y_t) (10)

其中，D(z)表示判别器对隐变量z的结果输出，y_t表示目标语言句子中的第t个单词。

其中，C为(0,T)区间上的值。

C与T的差值被当作判别器D端的损失

将其加权后的结果

计入最终总损失

中：

其中，

表示后验网络生成的隐变量，

表示模型输出，Y表示参考译文，λ_D表示超参数。

如上所述，即可实现在没有标注篇章信息的情况下，依然可以借助判别器引导隐变量z的生成，进而提升模型最终的性能。

步骤4：根据上下文句子、源语言句子和隐变量输出目标语言句子。

其中，对目标语言句子解码的步骤包括：

步骤4.1：利用通过嵌入层，将已生成的目标语言句子转换为其词向量表示序列。

步骤4.1与步骤2.1的处理方式相同，得到目标语言句子的词向量表示序列。

步骤4.2：通过解码器对目标语言句子信息解码。在解码过程中，通过多头注意力机制融合上下文句子和源语言句子的编码信息。

步骤4.3：通过生成器生成对目标语言句子下一个词的预测。

在步骤4.2中，首先通过自注意力层对目标语言句子的向量表示序列编码，方法与步骤2.2的自注意力层编码方式相同。其中，目标语言句子的第一个词均为<bos>，作为句子起始的表示。将隐变量向量与其表示相加，通过自注意力机制，即可在目标语言句子编码过程中融合隐变量信息。

然后，通过多头注意力机制，融合上下文句子的编码信息。原理同自注意力层编码机制，Q、K由步骤2.2得到的编码信息的映射得出，V由目标语言句子中的词映射得到。

最后，与步骤2.2相似，通过两层由ReLU作激活函数的线性层得到目标语言解码序列。将目标语言解码序列的最后一个向量输入到生成器，通过Softmax函数映射到词表，得到对于下一个词的预测。重复上述步骤，直至解码生成句子结束标识<eos>，或句子长度达到最大长度限制时，终止生成。

本发明方法，通过判别器引导的隐变量建模方式，有效利用上下文信息，隐变量中包含了诸如conference、contributions等语义信息，源语言句子中的papers能准确地被翻译成论文，而不会生成纸张或其它错误的翻译。相较于基线模型，本方法在同等规模的语料上提升了1.2BLEU值，提升了篇章级机器翻译的质量。

另一方面，本发明提出了一种基于隐变量模型的篇章级神经机器翻译系统，包括数据处理模块、编码器模块、判别器模块、解码器模块和生成器模块。如图2所示。

其中，数据处理模块负责抽取需要翻译的数据，并转换为对应的词向量序列。

数据处理模块包括样本获取单元、预处理单元、嵌入层单元。其中，样本获取单元，用于获取语料库中的语言对样本；预处理单元，用于从语料中获取所需要的数据，包括源语言句子、目标语言句子及其对应的源语言上下文信息，并负责构建词表和句子的分词；嵌入层单元，用于将处理后的文本信息转换为对应的词向量序列。

在样本获取单元中，可以选择WIT3的汉语和英语分别作为源语言和目标语言。

在预处理单元中，分别对源语言语料和语言语料进行分词，并构建词表。然后使用BPE进行编码得到词表，根据BPE编码得到的词表将句子拆分。

在嵌入层单元中，通过映射将句子转换为词向量表示序列。嵌入层单元包括编码嵌入层和解码嵌入层。

编码器模块用于对源语言和上下文信息进行编码，并结合判别器对隐变量的生成加以引导，将得到的编码信息和隐变量送入解码器中。

编码器模块包括上下文编码器模块、原文编码器模块和译文编码器模块。其中，上下文编码器模块包含第一注意力单元和第一线性单元；原文编码器模块包含第二注意力单元、上下文注意力单元和第二线性单元；译文编码器模块包含第三注意力单元和第三线性单元。

第一注意力单元、第二注意力单元、第三注意力单元的作用，均是负责对输入的词向量或是语义向量做信息融合，生成对应的语义信息；

第一线性单元、第二线性单元、第三线性单元的作用，均是负责对输入的编码信息做线性映射。

上下文注意力单元负责将上下文的编码结果融合到当前编码的过程中。

解码器模块根据获得的编码信息和隐变量进行解码生成解码信息。

解码器模块由多个解码器层叠加(比如6个解码器)，每层均包含一个注意力单元、一个原文-译文注意力单元和一个线性单元。

原文-译文注意力单元的作用是将原文编码器的输出结果融合到译文的解码过程中。

注意力单元、线性单元的作用同编码器中的注意力单元、线性单元。

生成器模块负责将解码信息映射到目标端的词表当中，生成翻译，并将结果呈现给用户。

在所有的注意力单元中，自注意力机制用于计算同句子中词之间的关联度，多头注意力机制用于融合上下文信息。

在所有的线性单元中，序列信息经此得到对应的编码和解码序列。

判别器模块负责输出当前句对所属的篇章关系。预训练可以选择CDTB语料作为篇章关系分析任务，并训练得到判别器模块。

上述组成部分的连接关系为：

在数据处理模块中，样本获取单元与预处理单元相连，预处理单元与嵌入层单元相连。嵌入层单元作为数据处理模块的最后一个单元，输出词向量矩阵，送入上下文编码器模块、原文编码器模块以及译文编码器模块。

上下文编码器模块分别与数据处理模块、原文编码器模块相连，原文编码器模块分别与数据处理模块、上下文编码器模块、判别器模块、解码器模块相连。

原文编码器模块输出原文编码序列和隐变量；其中，编码序列输入解码器模块；隐变量分别输出给判别器模块和解码器模块；解码器模块输出解码序列；生成器模块根据解码序列生成译文句子。

在上下文编码器模块、原文编码器模块、译文编码器模块和解码器模块中，注意力单元与线性单元相连，注意力单元的输出结果将直接送入线性单元中。

Claims

1.一种基于隐变量的篇章级神经机器翻译方法，其特征在于，包括以下步骤：

步骤1：选用篇章级关系语料库作为篇章关系分析任务的训练集；基于训练集训练判别器，得到判别器；

步骤2：对上下文句子和源语言句子编码，生成编码信息，并生成隐变量；

步骤2.1：通过嵌入层，将上下文句子和源语言句子转换为词向量表示序列；

步骤2.1.1：将训练语料处理成包含上下文样本、源语言句子和目标语言句子的样；

步骤2.1.2：根据不同的语种，采用不同的分词工具，分别对源语言语料和目标语言语料进行分词；

步骤2.1.3：利用字节对编码BPE，对训练语料进行编码并得到词表，根据词表对训练语料做句子拆分；

步骤2.1.4：通过嵌入层映射，得到词向量表示序列；

步骤2.2：利用编码器对上下文句子和源语言句子编码；在源语言句子编码过程中，使用多头注意力机制，融合上下文句子的编码信息；

步骤2.3：利用编码信息引导生成先验隐变量；

步骤3：利用判别器引导生成后验隐变量，利用解码器生成目标语言序列，根据总损失训练得到翻译模型；

2.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法，其特征在于，步骤1中，判别器D的训练方法：

其中，Pretrain表示预训练模型，

分别表示语料数据集中不同的训练篇章及其对应的标签。

3.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法，其特征在于，步骤2.2中，当得到词向量表示序列后，将样本E中的上下文句子和源语言句子送入编码器编码，获取融合了上下文信息的源语言句子表示及隐变量；

Q＝W_Q·e (2)

K＝W_K·e (3)

V＝W_V·e (4)

其中，W_Q、W_K、W_V分别表示查询值Q、键值K和值V；e表示输入的词向量；

其中，d_k为K的维度；T表示转置；

其中，s表示注意力分值；

此处，要将每个注意力头产生的表示进行拼接：

其中，h′表示拼接后的隐藏层状态表示向量，

表示为第n个头产生的表示；

最后，通过两层由ReLU作激活函数的线性层：

h＝FFN(h′)＝max(0,h′W₁+b₁)W₂+b₂ (8)

其中，FFN(·)表示线性单元，W₁、W₂表示训练的权重，b₁、b₂分别表示W₁、W₂对应的偏置项；由此得到上下文句子的编码序列；

按照上述方式，通过自注意力层对源语言句子进行编码；

通过多头注意力机制，融合上下文句子的编码信息，原理同自注意力层编码机制；其中，Q、K由上下文句子中的词映射得到，V由源语言句子中的词映射得到；同理，通过两层由ReLU作激活函数的线性层，得到融合上下文信息的源语言句子编码信息。

4.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法，其特征在于，步骤2.3中，将步骤2.2得到的融合了上下文信息的源语言句子编码信息，通过隐变量生成网络生成均值μ和方差σ，然后采样得到隐变量z：

其中，

表示第k句中的第i个单词的编码变量，

表示第k-1句中的第j个单词的编码变量。

5.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法，其特征在于，步骤3中，将目标语言编码序列E(Y_t)与参考编码R(Y_t)作比较，将先验隐变量z和后验隐变量

作比较；之后，将差值加权相加，作为模型损失；根据模型损失，使用梯度下降方法，重复步骤2.2至步骤3，直至收敛，得到翻译模型M；

对于目标语言句子的每一个单词y_t的生成过程，均使用步骤1得到的判别器对隐变量进行判别；

将判别器得到的判别结果转换为一个区间范围为(0,1)的置信度打分c_t；对于目标语言端句子总长为T的序列，计算其置信度总和c_t：

c_t＝Confidence(D(z),y_t) (10)

其中，D(z)表示判别器对隐变量z的结果输出，y_t表示目标语言句子中的第t个单词；

其中，C为(0,T)区间上的值；

C与T的差值被当作判别器D端的损失

将其加权后的结果

计入最终总损失

中：

其中，

表示后验网络生成的隐变量，

表示模型输出，Y表示参考译文，λ_D表示超参数。

6.如权利要求1所述的一种基于隐变量的篇章级神经机器翻译方法，其特征在于，步骤4中，对目标语言句子解码，包括以下步骤：

步骤4.1：通过嵌入层将已生成的目标语言句子转换为其词向量表示序列；

步骤4.2：通过解码器对目标语言句子信息解码；在解码过程中，通过多头注意力机制融合上下文句子和源语言句子的编码信息；

步骤4.3：通过生成器生成对目标语言句子下一个词的预测；

在步骤4.2中，首先通过自注意力层对目标语言句子的向量表示序列编码，其中，目标语言句子的第一个词均为<bos>，作为句子起始的表示；将隐变量向量与其表示相加，通过自注意力机制，即在目标语言句子编码过程中融合隐变量信息；

然后，通过多头注意力机制，融合上下文句子的编码信息；

最后，通过两层由ReLU作激活函数的线性层得到目标语言解码序列；将目标语言解码序列的最后一个向量输入到生成器，通过Softmax函数映射到词表，得到对于下一个词的预测；

重复上述步骤，直至解码生成句子结束标识<eos>或句子长度达到最大长度限制时，终止生成。

7.一种基于隐变量的篇章级神经机器翻译系统，其特征在于，包括数据处理模块、编码器模块、判别器模块、解码器模块和生成器模块。

其中，数据处理模块负责抽取需要翻译的数据，并转换为对应的词向量序列；

数据处理模块包括样本获取单元、预处理单元、嵌入层单元；其中，样本获取单元，用于获取语料库中的语言对样本；预处理单元，用于从语料中获取所需要的数据，包括源语言句子、目标语言句子及其对应的源语言上下文信息，并负责构建词表和句子的分词；嵌入层单元，用于将处理后的文本信息转换为对应的词向量序列；

在预处理单元中，分别对源语言语料和语言语料进行分词，并构建词表；然后使用BPE进行编码得到词表，根据BPE编码得到的词表将句子拆分；

在嵌入层单元中，通过映射将句子转换为词向量表示序列；嵌入层单元包括编码嵌入层和解码嵌入层；

编码器模块用于对源语言和上下文信息进行编码，并结合判别器对隐变量的生成加以引导，将得到的编码信息和隐变量送入解码器中；

编码器模块包括上下文编码器模块、原文编码器模块和译文编码器模块；其中，上下文编码器模块包含第一注意力单元和第一线性单元；原文编码器模块包含第二注意力单元、上下文注意力单元和第二线性单元；译文编码器模块包含第三注意力单元和第三线性单元；

第一线性单元、第二线性单元、第三线性单元的作用，均是负责对输入的编码信息做线性映射；

上下文注意力单元负责将上下文的编码结果融合到当前编码的过程中；

解码器模块根据获得的编码信息和隐变量进行解码生成解码信息；

解码器模块由多个解码器层叠加，每层均包含一个注意力单元、一个原文-译文注意力单元和一个线性单元；

原文-译文注意力单元用于将原文编码器的输出结果融合到译文的解码过程中；

注意力单元、线性单元的作用同编码器中的注意力单元、线性单元；

生成器模块负责将解码信息映射到目标端的词表当中，生成翻译，并将结果呈现给用户；

在所有的注意力单元中，自注意力机制用于计算同句子中词之间的关联度，多头注意力机制用于融合上下文信息；

在所有的线性单元中，序列信息经此得到对应的编码和解码序列；

判别器模块负责输出当前句对所属的篇章关系；

在数据处理模块中，样本获取单元与预处理单元相连，预处理单元与嵌入层单元相连；嵌入层单元作为数据处理模块的最后一个单元，输出词向量矩阵，送入上下文编码器模块、原文编码器模块以及译文编码器模块；

上下文编码器模块分别与数据处理模块、原文编码器模块相连，原文编码器模块分别与数据处理模块、上下文编码器模块、判别器模块、解码器模块相连；

原文编码器模块输出原文编码序列和隐变量；其中，编码序列输入解码器模块；隐变量分别输出给判别器模块和解码器模块；解码器模块输出解码序列；生成器模块根据解码序列生成译文句子；