CN108132932B

CN108132932B - 带有复制机制的神经机器翻译方法

Info

Publication number: CN108132932B
Application number: CN201711441339.5A
Authority: CN
Inventors: 熊德意; 邝少辉
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2021-07-20
Anticipated expiration: 2037-12-27
Also published as: CN108132932A

Abstract

本发明涉及一种带有复制机制的神经机器翻译方法，应用在基于注意力机制且采用encoder‑decoder框架的NMT模型，包括：在原始训练语句的源语言和目标语言中，标记出需要指定翻译的源短语和对应的目标短语；把原始训练语句中的源语言中需要指定翻译的源短语替换为原始训练语句中的目标语言中对应的目标短语；对上述处理过的原始训练语句进行NMT系统的训练；在待翻译的源语句中，标记出需要指定翻译的短语。上述带有复制机制的神经机器翻译方法，可以很好翻译特定的短语，如人名，地名，机构名，品牌词等，可以和任何的语料处理技术兼容，进一步提升翻译效果，不需要更改NMT系统结构，可以方便的应用在任何NMT系统上面。

Description

带有复制机制的神经机器翻译方法

技术领域

本发明涉及的神经机器翻译，特别是涉及带有复制机制的神经机器翻译方法。

背景技术

随着计算机计算能力的提高以及大数据的应用，深度学习取得进一步的应用。基于深度学习的Neural Machine Translation越来越受到人们的关注。在NMT领域中，最常用的一种翻译模型是带有注意力机制(attention-based)的encoder-decoder模型。其主要思想是将待翻译的源语句(在下文中统称为‘源语句’)经过编码器(encoder)编码成为一个向量表示，然后利用解码器(decoder)对源语句的向量表示进行解码，翻译成为其对应的译文(在下文中统称为‘目标语句’)。事实上，这种encoder-decoder框架是深度学习的核心思想，同样的，encoder-decoder框架也是NMT系统常用的一个基本架构。目前主流的NMT系统，encoder和decoder都利用RNN(recurrent neural networks)，RNN在处理时序信息时有着得天独厚的优势，它能够处理任意长度的输入并将其转换成为一个固定维度的向量。

encoder-decoder框架，在构建翻译模型时，会首先根据训练语料来形成源端和目标端词表。由于计算能力限制，词表大小我们会进行限制(例如源语言词表中含有30000个单词)，不在词表中的单词，我们统一用特殊符号“UNK”代替。这导致NMT的译文会出现一个严重的问题：当待翻译的源语句中含有不在词表中的单词时，在译文中会生成UNK，造成译文可读性不高，尤其是训练语料中没有出现的人名，地名，品牌词等都翻译不出来。这个问题，可以归结为“未登录词”问题。随后的论文中，提出了bpe方法，来将单词的拆分，形成子单词级别的词表，这种方法可以保证所有的单词都可以出现在词表中，避免译文中生成UNK。

传统技术存在以下技术问题：

虽然译文中UNK不会出现，但是NMT系统在基于源语句生成目标语言语句时，是单词级别的生成，是一个单词接着一个单词生成。这种生成模式，在翻译既定短语时候，会导致生成译文的不一致。例如，我们在翻译一些专有名词如“世贸组织”，“小儿麻痹症”，人名如“金泽一郎”，电商领域的品牌词如“施华洛世奇”，NMT系统给出的译文，往往和人民认可的译文不一致。比如在电商领域，品牌词翻译错误，是商家坚决不能接受的。这也是NMT系统需要解决的一个重要问题。

发明内容

鉴于NMT系统不能很好地翻译特定单词，短语，品牌词等，为了解决这一问题，我们提出了一个带有复制机制的神经机器翻译方法，这个方法可以应用在任何NMT结构上，实现指定单词和短语的复制。比如当一文中出现品牌词“施华洛世奇”时，我们的方法能够将“施华洛世奇”的译文“Swarovski”完整的复制到NMT生成的译文中，保证翻译的一致性和准确性。同时我们的方法完全独立于NMT系统，可以应用在任何结构的NMT模型上面。

一种带有复制机制的神经机器翻译方法，应用在基于注意力机制且采用encoder-decoder框架的NMT模型，包括：

在原始训练语句的源语言和目标语言中，标记出需要指定翻译的源短语和对应的目标短语；

把原始训练语句中的源语言中需要指定翻译的源短语替换为原始训练语句中的目标语言中对应的目标短语；

对上述处理过的原始训练语句进行NMT系统的训练；

在待翻译的源语句中，标记出需要指定翻译的短语，所述标记的方法采用与步骤“在原始训练语句中的源语言和目标语言，标记出需要指定翻译的源短语和对应的目标短语；”中标记的方法相同；

把待翻译的源语句中的需要指定翻译的源短语替换为目标语言中对应的目标短语；

对上述处理过的待翻译的源语句进行NMT系统的解码翻译。

上述带有复制机制的神经机器翻译方法，可以很好翻译特定的短语，如人名，地名，机构名，品牌词等，可以和任何的语料处理技术兼容，进一步提升翻译效果，不需要更改NMT系统结构，可以方便的应用在任何NMT系统上面。

在另外的一个实施例中，在步骤“在原始训练语句的源语言和目标语言中，标记出需要指定翻译的源短语和对应的目标短语；”之前，对原始训练语句进行bpe处理。

在另外的一个实施例中，在步骤“在原始训练语句的源语言和目标语言中，标记出需要指定翻译的源短语和对应的目标短语；”中，利用在指定翻译的短语前后分别插入第一标签和第二标签的方法进行标记。

在另外的一个实施例中，所述第一标签和第二标签相同。

在另外的一个实施例中，所述第一标签和第二标签不相同。

在另外的一个实施例中，所述第一标签是<copy>和第二标签是</copy>。

在另外的一个实施例中，所述第一标签是</copy>和第二标签是</copy>。

在另外的一个实施例中，

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现任意一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现任意一项所述方法的步骤。

附图说明

图1为本申请实施例提供的一种带有复制机制的神经机器翻译方法的流程图之一。

图2为本申请实施例提供的一种带有复制机制的神经机器翻译方法的流程图之二。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

首先介绍一下本申请的应用基础：基于注意力机制(attention)的NMT模型。

在神经机器翻译系统中，一般采用encoder-decoder框架来实现翻译。对训练语料中的每一个词，我们都为其初始化一个词向量，所有词的词向量构成了词向量词典。词向量，一般是一个多维的向量，向量中每一维都是一个实数，维度的大小一般根据实验过程中的结果来最终确定。例如，对于单词“咱们”，它的词向量可能是<0.12，-0.23，...，0.99>

Encoder是由双向RNN(Recurent Neural Network)网络构成。在encoder阶段，encoder读入一个句子，将句子编码成一系列的向量。具体过程如下，首先将一个句子表示为词向量的序列，即x＝<x₁，x₂，…，x_T>，其中x为输入的句子，x_j为句子中第j个词的词向量，即一个m维的向量。前向RNN根据公式h_j＝f(x_j，h_j-1)，我们可以获得一个由隐层向量组成的前向向量序列

反向RNN依据同样的原理，可以得到由隐层向量组成的反向向量序列

我们连接

和

作为单词x_j经过encoder编码后的含有上下文信息的向量表示

由隐层向量序列<h₁，h₂，…，h_T>，我们可以获得context向量c_t＝q({h₁，h₂，...，h_T})。其中，其中

是时序t时的隐藏状态，f和q是非线性的激活函数，其中f一般采用GRU或者LSTM，q一般采用attention网络。

在经典的神经机器翻译系统中，context向量c_t一般利用attention网络来获得，c_t可以通过下面公式运算获得：

其中，a是一个一层的前向网络，α_tj是encoder是每一个隐藏状态h_j的权重。

Decoder也是由RNN网络构成。在Decoder阶段，给定向量c_t，以及所有已经预测得到词{y₁，y₂，...，y_t-1}，可以继续预测y_t，通过如下定义可以逐步实现：

其中，

另外，p(y_t|{y₁，y₂，...，y_t-1}，c_t)＝g(y_t-1，s_t，c_t)其中g是非线性激活函数，一般采用softmax函数。St为解码器中RNN的隐藏状态，S_t＝f(y_t-1，s_t-1，c_t)。

Encoder和decoder都采用RNN网络，主要是因为其特点，RNN网络的特点在于，隐层状态由当前的输入和上一个隐层状态共同决定。如在本神经机器翻译过程中，Encoder阶段隐层状态由源语端当前词的词向量和上一个隐层状态共同决定。Decoder阶段的隐层状态由前一步骤中计算得到的目标语端词向量和上一个隐层状态共同决定。

模型的训练一般采用最小化负对数似然为损失函数，采用随机梯度下降为

训练方法来进行迭代训练。在训练集

上，其中xⁿ,yⁿ为平行语句对，N为语料库中平行语句对的个数，模型训练目标函数如下：

对上述处理过的原始训练语句进行NMT系统的训练；

对上述处理过的待翻译的源语句进行NMT系统的解码翻译。

在另外的一个实施例中，所述第一标签和第二标签相同。

在另外的一个实施例中，所述第一标签和第二标签不相同。

在另外的一个实施例中，

下面介绍一个本发明具体的应用场景：

我们的种带有复制机制的神经机器翻译方法主要针对训练集和测试集进行处理，不需要更改NMT系统的结构。下面分为训练集处理和测试集处理来介绍我们种带有复制机制的神经机器翻译方法的流程。

训练集处理

在训练NMT系统之前，我们首先对训练语料进行处理。按照图1所示，以训练语料中的其中一个语句对为例。其中src代表源语言，trg代表目标语言。

对于一个原始的训练语句对src和trg，首先我们利用标签<copy>和标签</copy>标记出需要指定翻译的短语，如图1中step1所示。我们指定“中国青年报”，其翻译为“chinayouth daily”。

接着进行step2，我们利用目标语言中的译文“china youth daily”，来替换掉源语言中的“中国青年报”。处理后的训练样例变成“据《<copy>china youth daily</copy>》报道”和“according to a<copy>china youth daily</copy>report”的语句对。

接着进行step3，我们利用处理之后的语料进行NMT系统的训练。其中我们在src中的“china youth daily”和trg中的“china youth daily”共用相同的word-embedding。NMT系统可以学习src端<copy>……</copy>和trg端<copy>……</copy>的对应关系，共用word-embedding可以保证生成译文的正确性。

此外，我们的copy机制的处理过程，可以兼容其他的预料处理技术，如bpe技术。我们可以先对训练语料进行bpe处理，解决UNK问题。然后再利用我们的copy机制处理技术，可以达到更好的效果。

测试集处理

利用标记完成的训练集训练NMT系统之后，我们就可以利用该模型进行测试集翻译。在将待翻译的源语句输入模型之前，我们首先要进行处理。如图2所示。

例如，我们要翻译源语句“据《中国青年报》报道”，我们已知“中国青年报”这个名词短语的特定译文为“china youth daily”，我们不希望NMT系统生成错误。我们可以首先进行step1，标记出我们想要指定翻译的短语。然后进行step2，用特定的译文来进行源端短语的替换。然后将处理后的语句输入NMT系统进行解码，生成译文。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种带有复制机制的神经机器翻译方法，应用在基于注意力机制且采用encoder-decoder框架的NMT模型，其特征在于，包括：

在所述原始训练语句的源语言和目标语言中，标记出需要指定翻译的源短语和对应的目标短语；

对上述处理过的原始训练语句进行NMT系统的训练；

对上述处理过的待翻译的源语句进行NMT系统的解码翻译；

在步骤“在原始训练语句的源语言和目标语言中，标记出需要指定翻译的源短语和对应的目标短语；”之前，对原始训练语句进行bpe处理；

在步骤“在原始训练语句的源语言和目标语言中，标记出需要指定翻译的源短语和对应的目标短语；”中，利用在指定翻译的短语前后分别插入第一标签和第二标签的方法进行标记。

2.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述方法的步骤。

3.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1所述方法的步骤。