CN110489766B

CN110489766B - 基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法

Info

Publication number: CN110489766B
Application number: CN201910676603.6A
Authority: CN
Inventors: 余正涛; 张勇丙; 郭军军; 黄于欣; 高盛祥; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2020-07-10
Anticipated expiration: 2039-07-25
Also published as: CN110489766A

Abstract

本发明涉及基于编码归纳‑解码推敲的汉‑越低资源神经机器翻译方法，属于自然语言处理技术领域。本发明受人工翻译经验的启发，提出了一种“编码归纳‑解码推敲”框架的低资源神经机器翻译方法，本发明首先基于编码网络对源语言进行编码，并提出一种基于选择性门控的语义归纳方法，拟对源语言的语义进行理解和归纳；然后将源语言归纳后的语义信息用于目标语言解码推敲，拟实现目标语言的推敲解码。本发明针对当前汉‑越低资源机器翻译语料匮乏的现实情况，实现了编码器和解码器信息的充分利用，在提升汉‑越神经机器翻译的性能的基础上并保证了译文与原文的语义相似。

Description

基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法

技术领域

本发明涉及基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法，属于自然语言处理技术领域。

背景技术

近年来随着国际合作的日益增强，汉-越低资源机器翻译问题受到越来越广泛的关注，但是受历史种种原因的限制，相较于大语种而言，汉语-越南语高质量的平行句对较为缺乏，平行句对资源的缺乏严重限制了传统神经机器框架下的汉-越机器翻译性能。因此，非常有必要提出一种低资源神经机器翻译框架解决平行句对受限的汉-越机器翻译问题。

过去的十多年时间，随着LSTM、以及注意力机制(Attention)等方法的出现，在英汉、英法这样的大语种翻译任务中取得了非常优异的翻译效果，甚至翻译性能可以媲美人工翻译。然而，神经机器翻译的性能是基于大量的高质量双语平行语料，针对越南语、缅甸语这些低资源语种，很难获取大量质量较高的双语平行语料作为支持。因此，一部分学者开始在考虑运用半监督、回译(语料扩增)、无监督、模型修改、枢轴等方法来解决低资源神经机器翻译性能的问题。

发明内容

本发明提供了基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法，以用于解决由于汉-越平行语料资源匮乏和编解码资源利用不充分造成的汉-越神经机器翻译性能不佳等问题。

本发明的技术方案是：基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法，所述基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法的具体步骤如下：

Step1、收集汉-越双语平行句对，并将汉-越平行语料分为训练集、验证集和测试集；

Step2、将不定长的句子序列作为神经网络输入，首先经过Bi-GRU生成源语言句子的隐藏输出，然后将输出的隐状态作为反向增强神经网络的输入；通过反向增强增强神经网络得出最后的每个时间步长对应的隐状态输出，此时的隐状态表示将作为编码归纳门控神经网络输入，以及解码端计算Attention时的输入；

Step3、在Step2的基础上，将反向增强神经网络的输出经过编码归纳门控神经网络，对编码端的句子语义信息进行归纳，得到编码端源句子的归纳信息；

Step4、在Step3的基础上，将编码端的归纳信息融入到解码端，在解码时不仅考虑解码端与编码端信息的对齐，而且考虑将编码端得到的的归纳信息作为输入，不断推敲输出最后的越南语句子。

作为本发明的优选方案，所述步骤Step1中，收集整理的汉-越平行句对是通过编写网络爬虫，将网络上爬取的双语平行句对进行过滤、去重操作，得到质量较好的汉-越平行句对。

作为本发明的优选方案，所述步骤Step2是将不定长的输入序列经过三层的Bi-GRU得到每个时刻和整个输入句子的隐状态，然后将隐状态作为输入通过反向增强神经网络生成新的隐状态表示。

作为本发明的优选方案，所述反向增强神经网络具体的计算公式如下：

Ex_i是源语言句子对应的词嵌入向量，

是句子的正向隐状态表示，

是在i-1时刻句子正向隐状态表示，

是在i-1时刻句子正向隐状态表示，h'_i表示编码端每个时间步长对应的最后的隐状态表示，α表示正向的隐状态与整个句子隐状态表示s₀的一个权重向量；

其中，将最后一个前向隐藏状态

和后向隐藏状态

拼接起来作为句子表示s₀：

作为本发明的优选方案，所述步骤Step2中，反向增强神经网络通过改进当前的Bi-GRU的输出作为隐状态，将正向的隐状态作为基础，反向的隐状态作为语义信息增强。

作为本发明的优选方案，所述步骤Step3中，所述编码归纳门控神经网络会将反向增强神经网络的隐状态输出作为输入，将每个时刻对应的隐状态与整个句子隐状态信息计算相关度，然后再将相关度与隐状态加权求和得到最后的编码端归纳信息。

作为本发明的优选方案，所述步骤Step4中，生成的归纳信息通过神经网络融合到基于Attention机制的解码端进行解码，从而生成可靠的译文。

本发明的有益效果是：

1、本发明在低资源神经机器翻译任务上具有较好的性能；针对当前汉-越低资源机器翻译语料匮乏的现实情况，实现了编码器和解码器信息的充分利用，在提升汉-越神经机器翻译的性能的基础上并保证了译文与原文的语义相似；

2、神经机器翻译性能严重依赖于编码器的编码性能，而本发明提出的编码归纳子网络将会充分的利用有限的源语言信息；

3、本发明提出的解码推敲子网络将编码端的归纳信息融入到解码过程，从而实现了一种推敲过程，在保证翻译性能的基础上增强了源文与译文的语义相似度；

4、本发明编码归纳-解码推敲思路符合人工翻译的习惯，通过对源句子信息进行有效的归纳，然后利用已有的归纳信息进行翻译。

附图说明

图1为本发明中总的模型结构图；

图2为本发明中的反向增强门控网络结构示意图；

图3为本发明中的解码推敲网络结构示意图。

具体实施方式

实施例1：如图1-3所示，基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法，所述基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法的具体步骤如下：

Step2、反向增强神经网络：首先，将不定长的句子序列x＝{x₁,x₂,.........x_n}作为神经网络输入，首先经过Bi-GRU生成源语言句子的隐藏输出(h₁,h₂,……h_n)和s₀，然后将Bi-GRU的输出作为反向增强神经网络的输入，通过反向增强增强神经网络得出最后的每个时间步长对应的隐状态输出(h₁',h₂',……h_n')，此时的隐状态表示将作为编码归纳门控神经网络输入，以及解码端计算Attention时的输入；

Step3、编码归纳门控神经网络：在Step2的基础上，将反向增强神经网络每个时间步长对应的隐状态输出(h₁',h₂',……h_n')和Bi-GRU输出的整个句子隐状态表示s₀作为编码归纳门控神经网络的输入，从而生成新的编码端源语言整个句子的归纳信息表示h_sum，h_sum即为整个源语言句子的主要语义信息表示；

Step4、融合源语言归纳语义信息的解码器。针对Bahdanau等人工作中采用的RNN解码器，本发明提出了进一步的改进方法，在原有的解码器的输入序列中融入了编码器句子归纳的序列信息h_sum，针对同一个句子表示序列，句子归纳语义信息h_sum的值将会保持不变。解码端在进行解码时，将会参考编码端句子的归纳信息，从而完成一步步的解码推敲过程，进一步增强了解码时包含的外部隐状态信息，保证生成相对准确的译文输出序列y＝{y₁,y₂,……y_n}。

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、反向增强神经网络就是将不定长的句子序列作为输入，首先经过Bi-GRU生成源语言句子对应的隐藏输出(h₁,h₂,……h_n)和s₀，然后将Bi-GRU的输出作为反向增强神经网络的输入，通过反向增强增强神经网络得出最后的每个时间步长对应的隐状态输出(h₁',h₂',……h_n')。本发明提出的反向增强神经网络结构主要思想是考虑通过改进的隐状态输出，因为神经机器翻译性能严重依赖于编码器计算的隐状态表示，所以如果Bi-GRU隐状态计算是相互独立的，这就会造成编码端句子语义信息的丢失，在一定程度上将会影响翻译性能，尤其是针对低资源的神经机器翻译，将会严重影响翻译性能。因此，本发明考虑对Bi-GRU的隐状态输出进行改进，并提出了一种新的反向增强神经网络结构。

本发明采用反向增强网络将以Bi-GRU正向编码为基础，通过门控网络控制将反向编码的句子序列与前向的句子序列进行一个融合。简单来说就是运用反向序列对正向序列进行一个语义补充和增强。具体来说就是将GRU的神经元分成两个方向，一个用于正时间方向(正向状态)，另一个用于负时间方向(反向状态)。正向GRU从左往右依次读入输入序列，从而生成前向隐状态

反向GRU则是从右往左依次读入输入序列，生成反向隐状态表示

然后通过门控网络将反向句子表示与正向句子表示进行一个有效的融合，让反向句子表示对编码信息进行语义增强，保证编码端句子信息最大的保留。反向增强神经网络具体的计算公式如下：

Ex_i是源语言句子对应的词嵌入向量，

是句子的正向隐状态表示，

是在i-1时刻句子正向隐状态表示，

是在i-1时刻句子正向隐状态表示，h'_i表示编码端每个时间步长对应的最后的隐状态表示，α表示正向的隐状态与整个句子隐状态表示s₀的一个权重向量。

其中，将最后一个前向隐藏状态

和后向隐藏状态

拼接起来作为句子表示s₀：

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、本发明提出了一个类似于摘要任务的归纳门控网络来对编码端的语义信息进行归纳。归纳门控网络就是对编码端句子生成一个较为有效的语义归纳信息，具体来说，它的输入包括反向增强神经网络计算的每个时间步长的隐状态表示h_i′，以及整个句子的隐状态表示s₀，然后用h_i'与s₀计算得出权重变量

最后将每个时间步长的隐状态h_i'与权重α～_i相乘累加求和源句的语义归纳信息h_sum。

具体来说，反向增强神经网络生成的隐状态只是包含了每个时间步长对应的语义表征，还没有对隐状态信息进行归纳，所以需要计算一个权重变量

，并将计算的加权和作为编码端句子的归纳语义信息h_sum，并将该信息作为解码器的一部分输入。它具体的计算公式如下所示：

表示当前时间步长对应的隐状态对整个句子语义信息占比情况，h_sum表示编码端句子的归纳语义信息，h_i'表示编码器生成的最新的隐状态序列表示。

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、具体来说，融合源语言归纳语义信息解码器的计算过程包括两部分，第一部分就是将编码器端归纳的语义信息与上下文向量序列进行融合，从而生成新的上下文向量序列；第二部分采用引入Attention机制的解码器结构，通过上述的包含归纳语义信息的上下文向量来辅助生成相应的译文，这在一定程度上将会提升低资源的语义信息的利用。

融合源端句子归纳语义信息的上下文向量表示包含源端句子归纳信息以及解码端与编码端句子对齐后的上下文向量，上下文向量为解码当前词所对应的文本语义表征，每一个c_i会自动去计算出与当前所要输出的y_t最合适的上下文信息，源端语义归纳信息表示为编码端对整个编码端句子的固定特征值。具体来说，用α_ti来衡量Encoder中第t阶段的h_t和解码时第i阶段的相关性，最终解码端在第i阶段的输入的上下文信息c_i就来自于所有h_t与对应的所有α_ti的加权和。

在解码端的每一个时间步长，将当前词的词嵌入向量Ex_i-1、前一个时间状态上下文向量c_i-1、编码端句子隐状态表示s_i-1，以及编码端语义摘要语义信息h_sum作为输入，经过GRU生成新的句子隐状态表示s_i。

以上为解码端对应的计算过程，其中s_t表示解码端在t时刻的输出，y_t-1表示t-1时刻的解码端输出，c_t'表示t时刻融入编码端句子语义归纳信息的上下文向量表示。

解码推敲是基于Attention机制的解码端进行改进，主要融入了编码端的归纳信息并推敲输出最后译文信息。

本发明采用当前主流的机器翻译BLEU值作为翻译性能的评价指标，BLEU是一种文本评估算法，它是用来评估机器翻译跟专业人工翻译之间的对应关系，核心思想就是机器翻译越接近专业人工翻译，质量就越好，经过BLEU算法计算出来的得分来表示翻译效果的好坏，BLEU也是采用了N-gram的匹配规则，通过它能够算出比较译文和参考译文之间n组词的相似的一个占比。因此，本发明的实验分别计算1-gram、2-gram、3-gram以及4-gram的值来更好的评测翻译性能。

为了使本发明实验更加具有说服力，本发明选择基于Luong等人提出的神经机器翻译模型和transformer作为我们的基线模型，并且设置了RNN-Search基线模型的超参，其中训练步数设置为20，batch_size设置为64，神经网络单元选择GRU，emb_size和hidden_size都设置为512，并且attention机制设置为luong_gate。在解码端进行解码时，采用beam_search方式，并且设置beam_size大小为10。

针对基线模型，本发明对于训练的语料设置了截断长度，将句子长度大于80的进行截断处理，从而可以更加快速有效的训练模型，并且采用Byte Pair Encoding算法对词表进行压缩，将词表大小设置为40k，通过引入Byte Pair Encoding不仅可以对词表进行压缩，还可以有效的解决解码时候出现的未登录词问题，从而在一定程度上提升了翻译的性能。我们还进一步调整神经网络的层数来验证模型修改后的有效性，首先在编码器设置了普通的RNN-Search结构，然后分别设置神经网络的层数为2层以及3层，并且不断调整网络结构从而通过实验结果验证改进结构的有效性。

表1中展示了本发明提出的模型和基线模型在0.13M汉-越平行句对的翻译结果。显然，transformer模型在汉-越翻译任务中BLEU值高于RNN-Search模型0.95个BLEU值，这说明在机器翻译任务中transformer的性能非常优异。同时，本发明提出的模型BLEU均高于RNN-Search和transformer。具体来说，本发明的模型比RNN-Search高1.23个BLEU值，比transformer高0.28个BLEU，这表明本发明提出的模型在语料质量和数量不高的情况下性能已经超越了绝大多数针对大语种的神经机器翻译模型。

本发明提出的编码归纳-解码推敲的方法在低资源神经机器翻译任务上具有较好的性能，主要有以下几方面的原因：1、神经机器翻译性能严重依赖于编码器的编码性能，而我们提出的编码归纳子网络将会充分的利用有限的源语言信息；2、我们提出的解码推敲子网络将编码端的归纳信息融入到解码过程，从而实现了一种推敲过程，在保证翻译性能的基础上增强了源文与译文的语义相似度；3、编码归纳-解码推敲思路符合人工翻译的习惯，通过对源句子信息进行有效的归纳，然后利用已有的归纳信息进行翻译。

表1汉-越低资源翻译对照实验BLUE值

模型	汉-越数据集
		RNN-Search	17.24
transformer	18.19
		IEncoder-DDecoder(本发明)	18.47

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法，其特征在于：

所述基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法的具体步骤如下：

Step2、将不定长的句子序列作为神经网络输入，首先经过Bi-GRU生成源语言句子的隐藏输出，然后将输出的隐状态作为反向增强神经网络的输入；通过反向增强增强神经网络得出最后的每个时间步长对应的隐状态输出；

Step4、在Step3的基础上，将编码端的归纳信息融入到解码端，通过不断的推敲过程生成可靠的译文。

2.根据权利要求1所述的基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法，其特征在于：所述步骤Step1中，收集整理的汉-越平行句对是通过编写网络爬虫，将网络上爬取的双语平行句对进行过滤、去重操作，得到质量较好的汉-越平行句对。

3.根据权利要求1所述的基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法，其特征在于：所述步骤Step2是将不定长的输入序列经过三层的Bi-GRU得到每个时刻和整个输入句子的隐状态，然后将隐状态作为输入通过反向增强神经网络生成新的隐状态表示。

4.根据权利要求1所述的基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法，其特征在于：所述反向增强神经网络具体的计算公式如下：

Ex_i是源语言句子对应的词嵌入向量，

是在i时刻句子的正向隐状态表示，

是在i-1时刻句子正向隐状态表示，

是在i+1时刻句子正向隐状态表示，h'_i表示编码端每个时间步长对应的最后的隐状态表示，α表示正向的隐状态对应整个句子隐状态表示s₀的一个权重向量；

其中，将最后一个前向隐藏状态

和后向隐藏状态

拼接起来作为整个句子隐状态表示s₀：

5.根据权利要求3所述的基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法，其特征在于：所述步骤Step2中，反向增强神经网络通过改进当前的Bi-GRU的输出作为隐状态，将正向的隐状态作为基础，反向的隐状态作为语义信息增强。

6.根据权利要求1所述的基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法，其特征在于：所述步骤Step3中，所述编码归纳门控神经网络会将反向增强神经网络的隐状态输出作为输入，将每个时刻对应的隐状态与整个句子隐状态信息计算相关度，然后再将相关度与隐状态加权求和得到最后的编码端归纳信息。

7.根据权利要求1所述的基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法，其特征在于：所述步骤Step4中，生成的归纳信息通过神经网络融合到基于Attention机制的解码端进行解码，从而生成可靠的译文。