CN112989845B

CN112989845B - 一种基于路由算法的篇章级神经机器翻译方法及系统

Info

Publication number: CN112989845B
Application number: CN202110230732.XA
Authority: CN
Inventors: 鉴萍; 费伟伦; 朱晓光; 林翼
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2023-01-10
Anticipated expiration: 2041-03-02
Also published as: CN112989845A

Abstract

本发明公开了一种基于路由算法的篇章级神经机器翻译方法及系统，属于自然语言处理应用技术领域。本方法利用路由算法对输入模型系统的上下文信息进行筛选，由待翻译的句子主动地选择一些对其有用的单词构成所需要的篇章级信息，模型通过引入路由算法对上述信息进行建模，从而提升篇章级神经机器翻译的效果。系统包括数据处理模块、路由算法模块、上下文编码器模块、源语言编码器模块、解码器模块和生成器模块。本发明对比现有技术，同时使用前、后文作为所需要的篇章级信息，并利用路由算法让待翻译句子自行选择上下文中的词作为所需信息的一部分，构建一个篇章级神经翻译模型，有效利用上下文信息，提升了篇章级机器翻译的质量。

Description

一种基于路由算法的篇章级神经机器翻译方法及系统

技术领域

本发明涉及一种神经机器翻译方法及系统，具体涉及一种基于路由算法的篇章级神经机器翻译方法和系统，属于自然语言处理应用技术领域。

背景技术

得益于深度学习的发展，神经机器翻译在大多数的语言对上已经取得了长足的进步。现有的标准神经机器翻译方法多是针对句子级的翻译，利用端到端的学习方法，构建编码器-解码器结构的模型，将源语言句子及其目标语言句子作为模型输入用于训练模型并学习对应的关系。但是，将句子级机器翻译运用于篇章级机器翻译时，会导致指代不明确、前后翻译不一致、翻译缺乏连贯性等篇章级问题。为解决这些问题，研究人员提出了篇章级机器翻译方法，利用当前句子以外的上下文信息，提升翻译结果的衔接性和连贯性。

目前，现有的篇章级机器翻译方法大多通过扩展句子编码的范围以整合更多的文本信息，这些方法通常使用门机制或注意力机制对含有上下文信息的句子级表示与当前需要翻译的句子共同进行编码。这类方法尽管很直接，但是很难从上下文编码所带来的噪声中辨识出有用的信息。同时，由于编码长度的增加，致使模型很难对句子间的关系进行建模。此外，在阅读时，人类尚且需要通过后文以加深对当前内容的理解，更不用说没有丝毫先验知识和常识的神经网络。因此，首先需要有目的地从上下文信息中筛选得到有用的内容，降低因信息冗余而带来的噪声的影响；其次，无需将上下文的内容限制在前文，可以充分使用后文的信息作为上下文中的一部分。

发明内容

本发明的目的是为了克服现有篇章级机器翻译方法存在的缺陷，创造性地提出一种基于路由算法的篇章级神经机器翻译方法及系统。本方法，利用路由算法对输入模型系统的上下文信息进行筛选，由待翻译的句子主动地选择一些对其有用的单词构成所需要的篇章级信息，模型通过引入路由算法对上述信息进行建模，从而提升篇章级神经机器翻译的效果。

本发明的创新点在于：首先，在编码器-解码器神经机器翻译模型中，分别对源语言句子的前一句和后一句进行编码，分别生成各自的编码信息。尽管可以利用拼接、叠加等方法将前后句子编码得到的信息进行融合，但是拼接的方法会导致编码长度过长，而叠加等方法又会引入噪声。针对该情况，引入路由算法，利用源语言句子计算得到一个门，该门由源语言句子通过自注意力层和线性层计算得到。利用该门对编码生成的上下文信息进行词级别的筛选，筛选完毕后再做叠加生成篇章级信息。利用多头注意力机制与源语言句子再做融合，并最终生成目标语言句子。

一种基于路由算法的篇章级神经机器翻译方法，包括以下步骤：

步骤1：输入上下文句子，编码生成编码信息。

具体如下：

步骤1.1：通过嵌入层，将上下文句子转换为其词向量表示序列。具体可以采用以下方法实现：

步骤1.1.1：将每个源语言句子相邻的上一句和下一句作为上下文句子；

步骤1.1.2：构建源语言词表，并对步骤1.1.1中的句子分词；

步骤1.1.3：将步骤1.1.2分词后的句子，通过嵌入层逐词映射为此向量序列。

步骤1.2：利用编码器对上下文句子编码，输出前句与后句各自的编码表示。

具体地，可以将上下文句子的向量表示序列，通过编码器的自注意力层和线性层编码。

步骤2：输入源语言句子，通过路由算法层与上下文编码信息进行融合，生成篇章级信息。

具体如下：

步骤2.1：通过嵌入层，将源语言句子转换为其词向量表示序列。具体可以采用以下方法实现：

步骤2.1.1：选择上下文句子对应的源语言句子；

步骤2.1.2：根据步骤1.1.2建立的源语言词表，对步骤2.1.1中的句子分词；

步骤2.1.3：将步骤2.1.2中分词后的句子，通过嵌入层逐词映射为词向量序列。

步骤2.2：将步骤2.1得到的词向量表示序列，通过自注意力层得到中间表示；

步骤2.3：利用步骤2.2得到的中间表示和步骤1.2得到的编码表示，计算得到篇章级信息。具体可以采用以下方法实现：

步骤2.3.1：利用线性层和中间表示计算得到门；

步骤2.3.2：利用计算得到的门，在上下文编码信息中选择需要的词信息作为篇章级信息的内容。

步骤3：将步骤2.2得到的中间表示与步骤2.3得到的篇章级信息进行融合、编码，得到编码器的输出。

具体地，可以利用多头注意力层，把步骤2.2输出的中间表示和步骤2.3输出的篇章级融合在一起，并通过线性层得到编码器输出。

步骤4：利用编码器输出和解码器输入，输出目标语言句子。

具体如下：

步骤4.1：利用嵌入层，将目标语言句子转换为其此向量表示序列。具体可以采用以下方法实现：

步骤4.1.1：选取步骤2.1.1中的源语言句子对应的目标语言句子；

步骤4.1.2：构建目标语言词表，并对步骤4.1.1中的句子分词；

步骤4.1.3：将步骤4.1.2中分词后的句子通过嵌入层逐词映射为词向量序列。

步骤4.2：通过解码器对目标语言句子信息解码，在解码过程中利用多头注意力层，融合步骤3.1得到的编码器输出。具体可以采用以下方法实现：

步骤4.2.1：将目标语言句子的词向量表示序列通过解码器的自注意力层；

步骤4.2.2：利用多头注意力层，把将步骤3.1的编码器输出和步骤4.2的自注意力层输出融合；

步骤4.2.3：通过线性层，对步骤4.2.2中的编码信息映射。

步骤4.3：通过生成器生成对目标语言句子下一个词的预测。

重复上述步骤，直至结束目标语言句子生成，或者到达最大长度限制时中断生成。

本发明的另一方面，基于上述方法，提出了一种基于路由算法的篇章级神经机器翻译系统，包括数据处理模块、路由算法模块、上下文编码器模块、源语言编码器模块、解码器模块和生成器模块。

其中，数据处理模块负责抽取需要翻译的数据，并转换为对应的词向量序列；

路由算法模块根据源语言和上下文信息计算得到篇章级信息；

上下文编码器模块用于对上下文信息进行编码，得到上下文的编码信息；

源语言编码器模块用于将篇章级信息和源语言句子的编码信息融合，并送入解码器模块中；

解码器模块根据获得的编码信息，进行解码生成解码信息；

生成器模块负责将解码信息映射到目标端的词表当中生成翻译，并将结果呈现给用户。

进一步的，数据处理模块包括样本获取单元、预处理单元和嵌入层单元。其中：

样本获取单元用于获取语料库中的语言对样本；

预处理单元用于从语料中获取所需要的数据，包括源语言句子、目标语言句子及其对应的源语言上下文信息，并负责构建词表和句子的分词；

嵌入层单元用于将处理后的文本信息转换为对应的词向量序列。

上下文编码器模块、路由算法模块、源语言编码器模块和解码器模块，各包括一个注意力单元和一个线性单元。每个注意力单元的作用相同，均为负责对输入的词向量或是语义向量做信息融合，生成对应的语义信息；每个线性单元作用也相同，均为负责对输入的编码信息做线性映射。其中，上下文编码器模块包括第一注意力单元和第一线性单元，路由算法模块包括第二注意力单元和第二线性单元，源语言编码器模块包括第三注意力单元和第三线性单元，解码器模块包括第四注意力单元和第四线性单元。

上述模块的连接关系为：

上下文编码器模块的输入端与数据处理模块的输出端相连；

源语言编码器模块的输入端与数据处理模块的输出端相连；

解码器模块的输入端与数据处理模块的输出端相连；

路由算法模块的输入端与上下文编码器模块的输出端相连；

源语言编码器模块的输入端与路由算法模块的输出端相连；

解码器模块的输入端与源语言编码器模块的输出端相连；

生成器模块的输入端与解码器模块的输出端相连。

上述模块中各单元的连接关系为：

在数据处理模块中，预处理单元的输入端与样本获取单元的输出端相连，嵌入层单元的输入端与预处理单元的输出端相连。

在路由算法模块、上下文编码器模块、源语言编码器模块和解码器模块中，每个线性单元的输入端与所在模块的注意力单元输出端相连。

有益效果

本发明对比现有技术，同时使用前、后文作为所需要的篇章级信息，并利用路由算法让待翻译句子自行选择上下文中的词作为所需信息的一部分，构建一个篇章级神经翻译模型，有效利用上下文信息，提升了篇章级机器翻译的质量。通过在汉英翻译语料集IWSLT15上的实验，证明了后文内容及路由算法的引入可以有效提升篇章级神经机器翻译的效果，且基于路由算法的篇章级神经翻译系统优于基于Transformer模型系统。

附图说明

图1为根据本发明一个实施例的方法流程图；

图2为根据本发明一个实施例的系统架构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明。

如图1所示，一种基于路由算法的篇章级神经机器翻译方法，包括以下步骤：

步骤1：输入上下文句子，编码生成编码信息。具体地：

步骤1.1：通过嵌入层，将上下文句子转换为其词向量表示序列；

步骤1.2：通过编码器对上下文句子编码，输出前句与后句各自的编码表示。

步骤2：输入源语言句子，并通过路由算法层，与上下文编码信息进行融合生成篇章级信息。具体地：

步骤2.1：通过嵌入层，将源语言句子转换为其词向量表示序列；

步骤2.3：利用步骤2.2.得到的中间表示和步骤1.2得到的编码表示，计算得到篇章级信息。

步骤4：利用编码器输出和解码器输入，输出目标语言句子。

在步骤1.1和步骤2.1中，获取带上下文的双语平行句对语料，对样本进行预处理。例如，分别选用IWSLT 15汉语和英语作为源语言和目标语言。从IWSLT15语料中抽取了质量较高的20万对包含上下文的平行句对作为训练语料。每个样本E包括一个前文句子、一个后文句子、一个源语言句子和一个目标语言句子。例如：

前文句子：其实地球上最长的山脉都在海洋里。

后文句子：大多数地震和火山喷发也都发生在海洋里在海洋的最底部。

源语言句子：大部分的动物也都生活在海洋里。

目标语言句子：Most of the animals are in the oceans.

在一个实施例中，首先分别对源语言语料和语言语料进行分词，并构建词表。可以采用中文分词工具结巴分词(https://github.com/fxsjy/jieba)对汉语分词；英语由于有天然空格，不需要分词。然后使用BPE进行编码得到词表。接着，针对每个样本E，根据BPE编码得到的词表将句子拆分。最后通过嵌入层映射，将句子转换为词向量表示序列。

在步骤1.2中，在得到词向量表示序列后，将样本E中的上下文句子送入编码器编码，分别获取前句与后句各自的编码表示。

首先，将上下文句子的向量表示序列的每一个词向量通过矩阵映射为查询值Q，键值K和值V：

Q＝W_Q·e (1)

K＝W_K·e (2)

V＝W_V·e (3)

其中，W_Q、W_K、W_V分别表示查询值Q、键值K和值V的映射参数；e表示输入的词向量。

然后，对于每一个词，通过自注意力机制，计算其对于其他所有词的注意力分值s：

其中,d_k为K的维度，K^T表示K的转置。

然后，用注意力分值作为权重，用对应的注意力分值与V相乘并求和，得到对应的隐藏层状态表示向量：

由于Transformer编码器端采用的是多头注意力机制，此处需要再将每个注意力头产生的表示进行拼接：

其中，h′表示每个注意力头产生的表示拼接后的结果，

为第n个头产生的表示。

最后，通过两层由ReLU作激活函数的线性层，以前文句子作为输入为例：

其中，

表示前文句子经过上下文编码器后的表示，FFN(·)表示线性单元，W₁、W₂表示可训练的权重，b₁、b₂分别表示W₁、W₂对应的偏置项。

的计算过程与上述相同。由此得到上下文句子的编码序列。

在步骤2.2中，通过自注意力层对源语言句子编码，计算得到中间表示

方法同步骤1.2中注意力单元的过程一致。

为通过路由算法得到篇章级信息，在步骤2.3中，用步骤2.2的中间表示计算门g：

其中，G表示

经线性变换后的结果，W₃、W₄表示可训练的权重，σ表示sigmoid激活函数，

是步骤2.2计算得到的中间表示，b₃表示W₃对应的偏置项。

在测试时，令

其中，δ(·)表示狄拉克函数。

之后，通过g将经过步骤1.2的前文与后文的编码信息融合，得到篇章级信息

其中，

分别表示

线性变换后的表示，

表示可训练的权重。

分别前后文句子经过上下文编码器后的表示。

在步骤3.1中，通过多头注意力层融合中间表示

和篇章级信息

原理同自注意力层编码机制，Q、K由篇章级信息

映射得到，V由中间表示

映射得到。之后的过程与步骤1.2的相同，通过两层由ReLU作激活函数的线性层得到编码器的输出。

在步骤4中，如图1所示，对目标语言句子解码的步骤包括：

步骤4.1：利用通过嵌入层将已生成的目标语言句子转换为其词向量表示序列；

步骤4.2：通过解码器对目标语言句子信息解码，在解码过程中通过多头注意力机制融合编码器输出的编码信息；

步骤4.3：通过生成器生成对目标语言句子下一个词的预测。

步骤4.1与步骤1.1的处理方式相同，可以得到目标语言句子的词向量表示序列。

在步骤4.2中，首先通过自注意力层对目标语言句子的向量表示序列编码，与步骤1.2中的自注意力层编码方式相同。

然后，通过多头注意力机制，融合上下文句子的编码信息。原理同自注意力层编码机制，Q、K由步骤3.1得到的编码信息的映射得出，V由目标语言句子中的词映射得到。

最后，与步骤1.2相似，通过两层由ReLU作激活函数的线性层得到目标语言解码序列。将目标语言解码序列的最后一个向量输入到生成器，通过Softmax函数映射到词表，得到对于下一个词的预测。重复上述步骤，直至解码生成句子结束标识<eos>，或句子长度达到最大长度限制时，终止生成。

模型采用Adam梯度更新算法更新模型中的参数，收敛后将模型存储下来后用于后续的测试翻译过程。交叉熵损失函数与训练方法均为现有技术，不做赘述。

根据本发明的另一方面，提出一种基于路由算法的篇章级神经机器翻译系统，如图2所示，包括数据处理模块、路由算法模块、上下文编码器模块、源语言编码器模块、解码器模块和生成器模块。其中，数据处理模块负责抽取需要翻译的数据，并转换为对应的词向量序列；路由算法模块根据源语言和上下文信息计算得到篇章级信息；上下文编码器模块用于对上下文信息进行编码，得到上下文的编码信息；源语言编码器模块用于将篇章级信息和源语言句子的编码信息融合，送入解码器中；解码器根据获得的编码信息进行解码生成解码信息；生成器模块负责将解码信息映射到目标端的词表当中，生成翻译，并将结果呈现给用户。

进一步的，数据处理模块包括：样本获取单元、预处理单元、嵌入层单元，其中：

样本获取单元，用于获取语料库中的语言对样本；

预处理单元，用于从语料中获取所需要的数据，包括源语言句子、目标语言句子及其对应的源语言上下文信息，并负责构建词表和句子的分词；

嵌入层单元，用于将处理后的文本信息转换为对应的词向量序列。

路由算法模块、上下文编码器模块、源语言编码器模块和解码器模块各包括一个注意力单元和一个线性单元，注意力单元负责对输入的词向量或是语义向量做信息融合，生成对应的语义信息；线性单元负责对输入的编码信息做线性映射。其中，上下文编码器模块包括第一注意力单元和第一线性单元，路由算法模块包括第二注意力单元和第二线性单元，源语言编码器模块包括第三注意力单元和第三线性单元，解码器模块包括第四注意力单元和第四线性单元。

在样本获取单元中，可以选择IWSLT 15的汉语和英语分别作为源语言和目标语言。

在预处理单元中，分别对源语言语料和语言语料进行分词，并构建词表。然后使用BPE进行编码得到词表，根据BPE编码得到的词表将句子拆分。具体方法如上文所述。

在嵌入层单元中，可通过映射，将句子转换为词向量表示序列。具体方法如上文所述。

在每个注意力单元中，自注意力机制用于计算同句子中词之间的关联度，多头注意力机制用于融合上下文信息。具体方法如上文所述。

在每个线性单元中，序列信息经此得到对应的编码和解码序列。

本领域普通技术人员可以理解：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于路由算法的篇章级神经机器翻译方法，其特征在于，包括以下步骤：

步骤1：输入上下文句子，编码生成编码信息，具体如下：

步骤1.1：通过嵌入层，将上下文句子转换为其词向量表示序列：

步骤1.1.2：构建源语言词表，并对步骤1.1.1中的句子分词；

步骤1.1.3：将步骤1.1.2分词后的句子，通过嵌入层逐词映射为此向量序列；

步骤1.2：利用编码器对上下文句子编码，输出前句与后句各自的编码表示；

步骤2：输入源语言句子，通过路由算法层与上下文编码信息进行融合，生成篇章级信息，具体如下：

步骤2.1：通过嵌入层，将源语言句子转换为其词向量表示序列：

步骤2.1.1：选择上下文句子对应的源语言句子；

步骤2.1.3：将步骤2.1.2中分词后的句子，通过嵌入层逐词映射为词向量序列；

步骤2.3：利用步骤2.2得到的中间表示和步骤1.2得到的编码表示，计算得到篇章级信息：

步骤2.3.1：利用线性层和中间表示计算得到门；

步骤2.3.2：利用计算得到的门，在上下文编码信息中选择需要的词信息作为篇章级信息的内容；

用步骤2.2的中间表示计算门g：

其中，G表示

是步骤2.2计算得到的中间表示，b₃表示W₃对应的偏置项；

在测试时，令

其中，δ(·)表示狄拉克函数；

其中，

分别表示

线性变换后的表示，

表示可训练的权重；

分别前后文句子经过上下文编码器后的表示；

步骤3：将步骤2.2得到的中间表示与步骤2.3得到的篇章级信息进行融合、编码，得到编码器的输出；

步骤4：利用编码器输出和解码器输入，输出目标语言句子，具体如下：

步骤4.1：利用嵌入层，将目标语言句子转换为其此向量表示序列：

步骤4.1.2：构建目标语言词表，并对步骤4.1.1中的句子分词；

步骤4.1.3：将步骤4.1.2中分词后的句子通过嵌入层逐词映射为词向量序列；

步骤4.2：通过解码器对目标语言句子信息解码，在解码过程中利用多头注意力层，融合步骤3.1得到的编码器输出：

步骤4.2.3：通过线性层，对步骤4.2.2中的编码信息映射；

步骤4.3：通过生成器生成对目标语言句子下一个词的预测；

重复上述步骤，直至结束目标语言句子生成，或到达最大长度限制时中断生成。

2.如权利要求1所述的一种基于路由算法的篇章级神经机器翻译方法，其特征在于，在步骤1.2中，在得到词向量表示序列后，将样本中的上下文句子送入编码器编码，分别获取前句与后句各自的编码表示。

Q＝W_Q·e (1)

K＝W_K·e (2)

V＝W_V·e (3)

其中，W_Q、W_K、W_V分别表示查询值Q、键值K和值V的映射参数；e表示输入的词向量；

其中，d_k为K的维度，K^T表示K的转置；

再将每个注意力头产生的表示进行拼接：

其中，h′表示每个注意力头产生的表示拼接后的结果，

为第n个头产生的表示；

最后，通过两层由ReLU作激活函数的线性层：

其中，

表示前文句子经过上下文编码器后的表示，FFN(·)表示线性单元，W₁、W₂表示可训练的权重，b₁、b₂分别表示W₁、W₂对应的偏置项；

的计算过程与

相同；由此得到上下文句子的编码序列。

3.如权利要求1所述的一种基于路由算法的篇章级神经机器翻译方法，其特征在于，步骤2.2中，通过自注意力层对源语言句子编码，计算得到中间表示表示

4.一种实现权利要求1所述基于路由算法的篇章级神经机器翻译方法的系统，其特征在于，包括数据处理模块、路由算法模块、上下文编码器模块、源语言编码器模块、解码器模块和生成器模块；

解码器模块根据获得的编码信息，进行解码生成解码信息；

生成器模块负责将解码信息映射到目标端的词表当中生成翻译，并将结果呈现给用户；

数据处理模块包括样本获取单元、预处理单元和嵌入层单元，其中：

样本获取单元用于获取语料库中的语言对样本；

嵌入层单元用于将处理后的文本信息转换为对应的词向量序列；

上述模块的连接关系为：

上下文编码器模块的输入端与数据处理模块的输出端相连；

源语言编码器模块的输入端与数据处理模块的输出端相连；

解码器模块的输入端与数据处理模块的输出端相连；

路由算法模块的输入端与上下文编码器模块的输出端相连；

源语言编码器模块的输入端与路由算法模块的输出端相连；

解码器模块的输入端与源语言编码器模块的输出端相连；

生成器模块的输入端与解码器模块的输出端相连；

5.如权利要求4所述的一种实现基于路由算法的篇章级神经机器翻译方法的系统，其特征在于，上下文编码器模块、路由算法模块、源语言编码器模块和解码器模块，各包括一个注意力单元和一个线性单元；每个注意力单元的作用相同，均为负责对输入的词向量或是语义向量做信息融合，生成对应的语义信息；每个线性单元作用也相同，均为负责对输入的编码信息做线性映射；

其中，上下文编码器模块包括第一注意力单元和第一线性单元，路由算法模块包括第二注意力单元和第二线性单元，源语言编码器模块包括第三注意力单元和第三线性单元，解码器模块包括第四注意力单元和第四线性单元；