CN107357789B

CN107357789B - 融合多语编码信息的神经机器翻译方法

Info

Publication number: CN107357789B
Application number: CN201710575907.4A
Authority: CN
Inventors: 朱聪慧; 曹海龙; 赵铁军; 刘笛; 杨沐昀; 郑德权; 徐冰
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2020-10-02
Anticipated expiration: 2037-07-14
Also published as: CN107357789A

Abstract

融合多语编码信息的神经机器翻译方法，本发明涉及神经机器翻译方法。本发明的目的是为了解决现有技术翻译准确率低的问题。过程为：一，得到每种语言各自对应的子字符号序列，建立dic_s₁，dic_s₂和dic_t；二、将词向量输入NMT模型训练，根据初值训练更新词向量，直至NMT模型的bleu值提升1‑3个点；三、得到ctx_s₁和ctx_s₂；四、得到融合结果；五、得到C；六、将t+1时刻q_t+1按公式计算得到目标语言序列第t+1时刻的单词y′_t+1的概率分布p_t+1，根据p_t+1采样出t+1时刻的目标单词y′_t+1，直至解码出句子结束标记，解码翻译结束。本发明用于机器翻译领域。

Description

融合多语编码信息的神经机器翻译方法

技术领域

本发明涉及神经机器翻译方法。

背景技术

机器翻译是利用计算机将一种源语言转换为另一种目标语言的过程。神经网络兴起之前，主流的统计机器翻译通过对大量的平行语料进行统计分析，构建统计翻译模型，进而句法树，词语对齐等结构，不仅过程繁琐，模型的实现也很复杂。随着神经网络的发展和普及，研究者们尝试将神经网络应用到机器翻译领域，有了现在最主流的端到到的神经机器翻译模型，这种模型不需要复杂的结构和繁琐的人工特征，而是接用神经网络将源语言映射到目标语言，并且这个网络可以联合调整，以最大限度的提高翻译性能。具体而言，这种端到端神经机器翻译模型首先使用一个称为编码器(Encoder)的神经网络将源语言句子X＝(x₁,x₂,...,x₄)编码成一个稠密向量，然后使用一个称为解码器(Decoder)的神经网络通过最大化预测序列概率从该向量中解码出目标语言句子Y＝(y₁,y₂,...,y₅)。由于神经机器翻译模型易实现而且效果好，所以现在的研究和发明都致力于改进神经机器翻译模型。

神经机器翻译模型取得的成功离跟语言模型有密不可分的联系。语言模型是自然语言处理领域的基础问题，其在词性标注、句法分析、机器翻译、信息检索等任务中起到了重要作用。语言模型可以刻画上文信息对下文信息的影响，其形式化的描述就是给定一个字符串，看它是自然语言的概率P(w1,w2,…,wt)，w1到wt依次表示这句话中的各个词。由于循环神经网络(Recurrent Neural Network，RNN)利用一个循环反馈的隐层很自然的利用了上文信息，而且在理论上可以使用到全部的上文信息，这是神经语言模型的优点，也是传统的语言模型达不到的。但RNN在实际应用中存在梯度消失的问题，因此实际应用中使用的多是含门机制的长短期记忆单元(Long Short-Term Memory，LSTM)和门限循环单元(GatedRecurrent Unit，GRU)构成的循环神经网。LSTM和GRU针对RNN无法有效保留所需信息的现状，使用了记忆单元(Memory Cell)记录信息，并引入多个门(gate)控制记忆单元的更新和使用，使得所需的信息可以有效保存下来。LSTM和GRU已经被广泛应用于词性标注、命名实体识别和机器翻译等自然语言处理任务中。

神经机器翻译模型良好的翻译性能跟模型中使用的注意力(Attention)机制有很大联系。经典的神经机器翻译设计的时候由于将任意长度的句子都编码成为固定长度的稠密连续的实数向量，固定维度的向量则相当于，任何时刻都对源语言所有信息给予了同等程度的关注，这是不合理的。换句话说，越早被编码的词汇信息越容易被遗忘掉，这就会影响翻译性能，从而限制了NMT的发展。引入Attention机制的翻译模型就可以解决这个问题，通过对编码器神经网络中的各个时刻的隐层状态进行加权平均，可以在预测目标词的时候为每个目标词汇生成包含全局信息的向量。权值e_tj＝align(z_t,h_j)表示目标语言中第t个时刻的词z_t和源语言中第j个词h_j的匹配程度，align可以看做是对齐模型。所以，引入Attention机制的神经机器翻译模型可以对编码后的上下文片段进行解码，以此来解决长句子的特征学习问题，因而会取得更好的翻译效果。

目前神经机器翻译模型的研究基本上都是使用双语语料训练的端到端的翻译模型，这种模型没有充分利用现有的多语平行语料，也没有考虑到使用语料编码之后的语义信息之间的联系改善翻译性能；导致现有技术翻译准确率低。

发明内容

本发明的目的是为了解决现有技术翻译准确率低的问题，而提出融合多语编码信息的神经机器翻译方法。

融合多语编码信息的神经机器翻译方法具体过程为：

步骤一，使用统计机器翻译平台Moses提供的分词脚本tokenizer.perl对待处理三语平行语料进行分词，然后使用BPE将分词处理后的待处理三语平行语料表征为每种语言各自对应的子字符号序列，使用Nematus平台下的build_dictionary.py脚本建立源端输入语言词典dic_s₁，dic_s₂和目标语言词典dic_t；

步骤二、基于源端输入语言词典dic_s₁对步骤一得到的子字符号序列X＝(x₁,x₂,...,x_T)中每一个词x_i使用word embedding分布式方法表示，即用一定维度的向量表示词，w_i＝[n₁,n₂,n₃,...,n_m],n_j∈实数；i＝1,2,...,T；1≤j≤m，w_i为词向量；

所述word embedding为词嵌入；

其中X＝(x₁,x₂,...,x_T)为分词处理后的待处理三语平行语料中的一语；R为实数，V为源端输入语言词典dic_s₁的单词数，m为词向量的维度，取值为正整数；T为句子的词的个数，取值为正整数；

将使用词向量表示的词组成的句子W＝(w₁,w₂,...,w_T)输入NMT模型训练，随机初始化W初值，根据初值训练更新W，直至NMT模型的bleu值提升1-3个点；

基于源端输入语言词典dic_s₂对步骤一得到的子字符号序列Z＝(z₁,z₂,...,z_T′)中每一个词Z_k使用word embedding分布式方法表示，即用一定维度的向量表示词，w′_k∈R^|V′|，w′_k＝[l₁,l₂,l₃,...,l_m′]，l_l′∈实数；k＝1,2,...,T′；1≤l′≤m′，w′_k称之为词向量；

Z＝(z₁,z₂,...,z_T′)为分词处理后的待处理三语平行语料中的一语；R为实数，V′为源端输入语言词表dic_s₂的单词数，m′为词向量的维度，取值为正整数；T′为句子的词的个数，取值为正整数；

将使用词向量表示的词组成的句子W′＝(w′₁,w′₂,...,w′_T)输入NMT模型训练，随机初始化W′初值，根据初值训练更新W′，直至NMT模型的bleu值提升1-3个点；

步骤三、基于GRU单元构成循环神经网络组成的双向循环编码器，双向循环编码器对步骤二得到的词向量W＝(w₁,w₂,...,w_T)和词向量W′＝(w′₁,w′₂,...,w′_T)进行编码，得到W＝(w₁,w₂,...,w_T)的编码向量ctx_s₁和W′＝(w′₁,w′₂,...,w′_T)的编码向量ctx_s₂；

所述GRU为门限循环单元；

步骤四、将编码向量ctx_s₁和编码向量ctx_s₂进行融合，得到融合结果context＝[ctx_s₁；ctx_s₂]；

步骤五、将得到的融合结果context＝[ctx_s₁；ctx_s₂]经过attention层按C＝Φ(W_c*context+W_h*q)计算得到C；

所述Attention为注意力层；C为融合后的编码信息；

其中Φ表示函数变换，W_c表示context对应的权值参数，q表示解码器的隐层状态，W_h表示q对应的权值参数,*为乘号；

步骤六、每个时刻t，按照公式q_t+1＝φ(C,y′_t,q_t)计算得到t+1时刻解码器的隐层状态信息q_t+1，基于目标语言词典dic_t，并根据t+1时刻解码器的隐层状态信息q_t+1，使用公式p(y′_t+1|y′_<t+1,X,Z)＝softmax(W_sq_t+1+b_l)(表示在已知t+1时刻前的所有目标词和X,Z的前提下模型预测t+1时刻的目标词的概率)，计算得到第t+1时刻的单词y′_t+1的概率分布p_t+1，为使用BPE将分词处理后的待处理三语平行语料中的一语表征后的目标语言序列；根据p_t+1采样出t+1时刻的目标单词y′_t+1，直至解码出句子结束标记，解码翻译结束；

其中y′_t+1为t+1时刻的NMT模型训练得到的目标词，W_s为网络权值参数，q_t+1为t+1时刻的解码器的隐层状态信息，b_l为网络偏置信息。

融合多语编码信息的神经机器翻译方法具体过程为：

步骤1)、使用统计机器翻译平台Moses提供的分词脚本tokenizer.perl对待处理三语平行语料进行分词，然后使用BPE将分词处理后的待处理三语平行语料表征为每种语言各自对应的子字符号序列，使用Nematus平台下的build_dictionary.py脚本建立源端输入语言词典dic_s₁，dic_s₂和目标语言词典dic_t；

步骤2)、基于源端输入语言词典dic_s₁对步骤一得到的子字符号序列X＝(x₁,x₂,...,x_T)中每一个词x_i使用word embedding分布式方法表示，即用一定维度的向量表示词，w_i∈R^|V|，w_i＝[n1,n2,n3,...,nm],n_j∈实数；X＝(x₁,x₂,...,x_T)为分词处理后的待处理三语平行语料中的一语(中文)，i＝1,2,...,T；1≤j≤m，w'_i称之为词向量；

所述word embedding为词嵌入；

其中X＝(x₁,x₂,...,x_T)为分词处理后的待处理三语平行语料中的一语；R为实数，V为源端输入语言词典dic_s₁的单词数，m为正整数；T为句子的词的个数，取值为正整数；

基于源端输入语言词典dic_s₂对步骤一得到的子字符号序列Z＝(z₁,z₂,...,z_T′)中+每一个词Zi使用word embedding分布式方法表示，即用一定维度的向量表示词，w′_k∈R^|V′|，w′_k＝[l₁,l₂,l₃,...,l_m′],l_l′∈实数；k＝1,2,...,T′；1≤l′≤m′，w′_k称之为词向量；

Z＝(z₁,z₂,...,z_T′)为分词处理后的待处理三语平行语料中的一语；R为实数，其中V′为源端输入语言词表dic_s₂的单词数，m′为正整数；T′为句子的词的个数，为正整数；

将使用词向量表示的词组成的句子W′＝(w′₁,w′₂,...,w′_T)输入NMT模型训练，随机初始化W′初值，根据初值训练更新词向量W′，直至NMT模型的bleu值提升1-3个点；

步骤3)、基于GRU单元构成循环神经网络组成的双向循环编码器，双向循环编码器对步骤二得到的词向量W＝(w₁,w₂,...,w_T)和词向量W′＝(w′₁,w′₂,...,w′_T)进行编码，得到W＝(w₁,w₂,...,w_T)的编码向量ctx_s₁和W′＝(w′₁,w′₂,...,w′_T)的编码向量ctx_s₂；

所述GRU为门限循环单元；

步骤4)、将编码向量ctx_s₁作为attenion的输入，按C'＝Φ(W'_c*ctx_s₁+W'_h*q')计算得到C′；

其中Φ表示函数变换，W'_c表示编码向量ctx_s₁作为attenion的输入时，ctx_s₁对应的权值参数；q'表示编码向量ctx_s₁作为attenion的输入时，解码器的隐层状态；W'_h表示q'对应的权值参数；C′为编码信息(代表了源语言)；

将编码向量ctx_s₂作为attenion的输入，按C”＝Φ(W”_c*ctx_s₂+W”_h*q')计算得到C”；

其中Φ表示函数变换；W”_c表示编码向量ctx_s₂作为attenion的输入时，ctx_s₂对应的权值参数；W”_h表示编码向量ctx_s₂作为attenion的输入时，q'对应的权值参数；C”为编码信息；

步骤5)、将得到的C′和C″用多层感知机网络按ctx＝Θ(C′,C″)融合，得到ctx，Θ为多层感知机网络，ctx为融合结果；

步骤6)、每个时刻t，按照公式q′_t+1＝φ(ctx,y″_t，q′_t)计算得到t+1时刻解码器的隐层状态信息q′_t+1，基于目标语言词典dic_t，并根据t+1时刻解码器的隐层状态信息q′_t+1，使用公式p(y″_t+1|y″_<t+1,X,Z)＝softmax(W_s′q_t+1+b′_l)(表示在已知t+1时刻前的所有目标词和X,Z的前提下模型预测t+1时刻的目标词的概率)计算得到第t+1时刻的单词y″_t+1的概率分布p_t+1，根据p_t+1采样出t+1时刻的目标单词y″_t+1，直至解码出句子结束标记，解码翻译结束；

其中y″_t+1为t+1时刻的NMT模型训练得到的目标词，W′_s为网络权值参数，q′_t+1为t+1时刻的解码器的隐层状态信息，b′_l为网络偏置信息。

本发明的有益效果为：

本发明从多语平行语料表达相同的语义信息的角度出发，将多语平行语料作为多个编码器的输入，得到多语的编码信息之后，采用向量拼接融合的方法来完善语义信息，通过融合技术丰富语义信息达到提高翻译准确率的目的。

本发明从多语平行语料表达相同的语义信息的角度出发，将多语平行语料作为多个编码器的输入，得到多语的编码信息之后，采用多层感知机融合的方法来完善语义信息，通过融合技术丰富语义信息达到提高翻译准确率的目的。

结合实施例得出其他采用双语输入但没融合的方法的BLEU值为22.53，本专利提出的向量拼接方法的BLEU值为23.59，本专利提出的多层感知融合方法的BLEU值为24.49；可以看出，本专利提出的使用向量拼接的编码信息融合方法和使用多层感知机的编码信息融合方法跟已有的使用双语输入但没采用融合的方法比较效果有明显的提升。

附图说明

图1为融合多语编码信息的神经机器翻译模整体流程图；

图2为本专利提出的使用向量拼接方式融合编码信息的NMT模型模型示意图；

图3为本专利提出的使用多层感知机方式融合编码信息的NMT模型模型示意图。

具体实施方式

具体实施方式一：结合图1、图2说明本实施方式，本实施方式的融合多语编码信息的神经机器翻译方法具体过程为：

步骤一，使用统计机器翻译平台Moses(摩西)提供的分词脚本tokenizer.perl对待处理三语(中文、英文、转换成日文)平行语料进行分词，然后使用BPE(字节对编码(BytePairEncoding，BPE))(Neamtus平台下的learn_bpe.py脚本)将分词处理后的待处理三语平行语料表征为一系列每种语言各自对应的子字符号序列，使用Nematus平台下的build_dictionary.py脚本建立源端输入语言词典dic_s₁，dic_s₂和目标语言词典dic_t；

所述word embedding为词嵌入；

其中X＝(x₁,x₂,...,x_T)为分词处理后的待处理三语平行语料中的一语(中文)；R为实数，V为源端输入语言(中文)词典dic_s₁的单词数，m为词向量的维度，词向量的维度m是由用户自己指定的。取值为正整数；T为句子的词的个数，取值为正整数；

Z＝(z₁,z₂,...,z_T′)为分词处理后的待处理三语平行语料中的一语(英文)；R为实数，V′为源端输入语言(英文)词表dic_s₂的单词数，m′为词向量的维度，词向量的维度m′是由用户自己指定的。取值为正整数；T′为句子的词的个数，取值为正整数；

所述GRU为门限循环单元；

所述Attention为注意力层；C为融合后的编码信息(代表输入语言(中文和英文)的语义信息)；

步骤六、每个时刻t，按照公式q_t+1＝φ(C,y′_t,q_t)计算得到t+1时刻解码器的隐层状态信息q_t+1，基于目标语言词典dic_t，并根据t+1时刻解码器的隐层状态信息q_t+1，使用公式p(y′_t+1|y′_<t+1,X,Z)＝softmax(W_sq_t+1+b_l)(表示在已知t+1时刻前的所有目标词和X,Z的前提下模型预测t+1时刻的目标词的概率)，计算得到第t+1时刻的单词y′_t+1的概率分布p_t+1，p_t+1为使用BPE将分词处理后的待处理三语平行语料中的一语(日语)表征后的目标语言序列；根据p_t+1采样出t+1时刻的目标单词y′_t+1，直至解码出句子结束标记<eos>，解码翻译结束；

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤三中基于GRU单元构成循环神经网络组成的双向循环编码器，双向循环编码器对步骤二得到的词向量W＝(w₁,w₂,...,w_T)和词向量W′＝(w′₁,w′₂,...,w′_T)进行编码，得到W＝(w₁,w₂,...,w_T)的编码向量ctx_s₁和W′＝(w′₁,w′₂,...,w′_T)的编码向量ctx_s₂；具体过程为：

步骤三一、

采用门限循环单元GRU构成的双向编码器对W＝(w₁,w₂,...,w_T)按照正向词序列计算正向编码状态信息

采用门限循环单元GRU构成的双向编码器对W＝(w₁,w₂,...,w_T)按照反向词序列计算反向编码状态信息

采用门限循环单元GRU构成的双向编码器对W′＝(w′₁,w′₂,...,w′_T)按照正向词序列计算得到正向编码状态信息

采用门限循环单元GRU构成的双向编码器对W′＝(w′₁,w′₂,...,w′_T)按照反向词序列计算反向编码状态信息

(正向反向同时进行，W＝(w₁,w₂,...,w_T)和W′＝(w′₁,w′₂,...,w′_T)也同时进行)；

步骤三二、

通过拼接的方法将得到的

拼接在一起，得到

通过拼接的方法将得到的

和

拼接在一起，得到

具体实施方式三：结合图1、图3说明本实施方式，本实施方式的融合多语编码信息的神经机器翻译方法具体过程为：

步骤1)、使用统计机器翻译平台Moses(摩西)提供的分词脚本tokenizer.perl对待处理三语(中文英文转换成日文)平行语料进行分词，然后使用BPE(字节对编码(BytePair Encoding，BPE))(Neamtus平台下的learn_bpe.py脚本)将分词处理后的待处理三语平行语料表征为一系列每种语言各自对应的子字符号序列，使用Nematus平台下的build_dictionary.py脚本建立源端输入语言词典dic_s₁，dic_s₂和目标语言词典dic_t；

步骤2)、基于源端输入语言词典dic_s₁对步骤一得到的子字符号序列X＝(x₁,x₂,...,x_T)中每一个词x_i使用word embedding(词嵌入)分布式方法表示，即用一定维度的向量表示词，w_i∈R^|V|，w_i＝[n1,n2,n3,...,nm],n_j∈实数；X＝(x₁,x₂,...,x_T)为分词处理后的待处理三语平行语料中的一语(中文)，i＝1,2,...,T；1≤j≤m，w_i称之为词向量；

所述word embedding为词嵌入；

其中X＝(x₁,x₂,...,x_T)为分词处理后的待处理三语平行语料中的一语(中文)；R为实数，V为源端输入语言(中文)词典dic_s₁的单词数，词向量的维度m是由用户自己指定的。m为正整数；T为句子的词的个数，取值为正整数；

Z＝(z₁,z₂,...,z_T′)为分词处理后的待处理三语平行语料中的一语(英文)；R为实数，其中V′为源端输入语言(英文)词表dic_s₂的单词数，词向量的维度m′是由用户自己指定的，m′为正整数；T′为句子的词的个数，为正整数；

步骤3)、

基于GRU单元构成循环神经网络组成的双向循环编码器，双向循环编码器对步骤二得到的词向量W＝(w₁,w₂,...,w_T)和词向量W′＝(w′₁,w′₂,...,w′_T)进行编码，得到W＝(w₁,w₂,...,w_T)的编码向量ctx_s₁和W′＝(w′₁,w′₂,...,w′_T)的编码向量ctx_s₂；

所述GRU为门限循环单元；

其中Φ表示函数变换，W'_c表示编码向量ctx_s₁作为attenion的输入时，ctx_s₁对应的权值参数；q'表示编码向量ctx_s₁作为attenion的输入时，解码器的隐层状态；W'_h表示q'对应的权值参数；C′为编码信息(代表了源语言(中文和英文)的信息)；

其中Φ表示函数变换；W”_c表示编码向量ctx_s₂作为attenion的输入时，ctx_s₂对应的权值参数；W”_h表示编码向量ctx_s₂作为attenion的输入时，q'对应的权值参数；C”为编码信息(代表了源语言(中文和英文)的信息)；

步骤6)、每个时刻t，按照公式q′_t+1＝φ(ctx,y″_t,q′_t)计算得到t+1时刻解码器的隐层状态信息q′_t+1，基于目标语言词典dic_t，并根据t+1时刻解码器的隐层状态信息q′_t+1，使用公式p(y″_t+1|y″_<t+1,X,Z)＝softmax(W_s′q_t+1+b′_l)(表示在已知t+1时刻前的所有目标词和X,Z的前提下模型预测t+1时刻的目标词的概率)计算得到第t+1时刻的单词y″_t+1的概率分布p_t+1，p_t+1为使用BPE将分词处理后的待处理三语平行语料中的一语(日语)表征后的目标语言序列，根据p_t+1采样出t+1时刻的目标单词y″_t+1，直至解码出句子结束标记<eos>，解码翻译结束；

其中y″_t+1为t+1时刻的NMT模型训练得到的目标词，W′_s为网络权值参数，q′_t+1为t+1时刻的解码器的隐层状态信息，b′_l为网络偏置信息；

具体实施方式四：本实施方式与具体实施方式三不同的是：所述步骤3)中基于GRU单元构成循环神经网络组成的双向循环编码器，双向循环编码器对步骤二得到的词向量W＝(w₁,w₂,...,w_T)和词向量W′＝(w′₁,w′₂,...,w′_T)进行编码，得到W＝(w₁,w₂,...,w_T)的编码向量ctx_s1和W′＝(w′₁,w′₂,...,w′_T)的编码向量ctx_s2；

所述GRU为门限循环单元；

步骤3)一、采用门限循环单元GRU构成的双向编码器对W＝(w₁,w₂,...,w_T)按照正向词序列计算正向编码状态信息

步骤3)二、

通过拼接的方法将得到的

和

拼接在一起，得到

通过拼接的方法将得到的

和

拼接在一起，得到

采用以下实施例验证本发明的有益效果：

实施例一：

本实施例具体是按照以下步骤制备的：

表1：实验使用数据是中文日文英文三语平行语料，包含了体育、旅游、交通、餐饮和商务等领域，共59600对平行句子。别从中文、英文、日文语料中随机抽取1000句平行句对作为开发集，随机抽取另1000句平行句对作为测试集，剩下的57600句对作为测试集合。

表1发明使用数据

表2：NMT模型使用的参数设置表：

表2参数设置

表3模型翻译结果

根据表3展示的实验结果可以看出，本本专利提出的使用向量拼接的编码信息融合方法和使用多层感知机的编码信息融合方法跟已有的使用双语输入但没采用融合的方法比较效果有明显的提升。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.融合多语编码信息的神经机器翻译方法，其特征在于：所述方法具体过程为：

步骤一，使用统计机器翻译平台Moses提供的分词脚本tokenizer.perl对待处理三语平行语料进行分词，然后使用BPE将分词处理后的待处理三语平行语料表征为每种语言各自对应的子字符号序列；

使用Nematus平台下的build_dictionary.py脚本建立源端输入语言词典dic_s₁，dic_s₂和目标语言词典dic_t；

步骤二、基于源端输入语言词典dic_s₁对步骤一得到的子字符号序列X＝(x₁,x₂,...,x_T)中每一个词x_i使用word embedding分布式方法表示，即用一定维度的向量表示词，w_i∈R^|V|，w_i＝[n₁,n₂,n₃,...,n_m],n_j∈实数；i＝1,2,...,T；1≤j≤m，w_i为词向量；

所述word embedding为词嵌入；

其中X＝(x₁,x₂,...,x_T)为使用BPE将分词处理后的待处理三语平行语料中的一语表征后的子字符号序列；R为实数，V为源端输入语言词典dic_s₁的单词数，m为词向量的维度，取值为正整数；T为句子的词的个数，取值为正整数；

基于源端输入语言词典dic_s₂对步骤一得到的子字符号序列Z＝(z₁,z₂,...,z_T′)中每一个词z_k使用word embedding分布式方法表示，即用一定维度的向量表示词，w′_k∈R^|V′|，w′_k＝[l₁,l₂,l₃,...,l_m′]，l_l′∈实数；k＝1,2,...,T′；1≤l′≤m′，w′_k为词向量；

Z＝(z₁,z₂,...,z_T′)为使用BPE将分词处理后的待处理三语平行语料中的一语表征后的子字符号序列；R为实数，V′为源端输入语言词表dic_s₂的单词数，m′为词向量的维度，取值为正整数；T′为句子的词的个数，取值为正整数；

将使用词向量表示的词组成的句子W′＝(w′₁,w′₂,...,w′_T′)输入NMT模型训练，随机初始化W′初值，根据初值训练更新W′，直至NMT模型的bleu值提升1-3个点；

步骤三、基于门限循环单元GRU构成循环神经网络组成的双向循环编码器，双向循环编码器对步骤二得到的词向量W＝(w₁,w₂,...,w_T)和词向量W′＝(w′₁,w′₂,...,w′_T′)进行编码，得到W＝(w₁,w₂,...,w_T)的编码向量ctx_s₁和W′＝(w′₁,w′₂,...,w′_T′)的编码向量ctx_s₂；

所述attention 为注意力层；C为融合后的编码信息；

步骤六、每个时刻t，按照公式q_t+1＝φ(C,y_t′,q_t)计算得到t+1时刻解码器的隐层状态信息q_t+1，基于目标语言词典dic_t，并根据t+1时刻解码器的隐层状态信息q_t+1，使用公式p(y′_t+1|y′<t+1,X,Z)＝soft max(W_sq_t+1+b_l)，计算得到第t+1时刻的单词y′_t+1的概率分布p_t+1，根据p_t+1采样出t+1时刻的目标单词y′_t+1，直至解码出句子结束标记，解码翻译结束；

其中y′_t+1为t+1时刻的NMT模型训练得到的目标词；W_s为网络权值参数，q_t+1为t+1时刻的解码器的隐层状态信息，b_l为网络偏置信息。

2.根据权利要求1所述融合多语编码信息的神经机器翻译方法，其特征在于：所述步骤三中基于门限循环单元GRU构成循环神经网络组成的双向循环编码器，双向循环编码器对步骤二得到的词向量W＝(w₁,w₂,...,w_T)和词向量W′＝(w′₁,w′₂,...,w′_T′)进行编码，得到W＝(w₁,w₂,...,w_T)的编码向量ctx_s₁和W′＝(w′₁,w′₂,...,w′_T′)的编码向量ctx_s₂；具体过程为：

步骤三一、

采用门限循环单元GRU构成的双向编码器对W′＝(w′₁,w′₂,...,w′_T′)按照正向词序列计算得到正向编码状态信息

采用门限循环单元GRU构成的双向编码器对W′＝(w′₁,w′₂,...,w′_T′)按照反向词序列计算反向编码状态信息

步骤三二、

通过拼接的方法将得到的

和

拼接在一起，得到

通过拼接的方法将得到的

和

拼接在一起，得到

3.融合多语编码信息的神经机器翻译方法，其特征在于：所述方法具体过程为：

步骤2)、基于源端输入语言词典dic_s₁对步骤一得到的子字符号序列X＝(x₁,x₂,...,x_T)中每一个词x_i使用word embedding分布式方法表示，即用一定维度的向量表示词，w_i∈R^|V|，w_i＝[n₁,n₂,n₃,...,n_m],n_j∈实数；i＝1,2,...,T；1≤j≤m，w_i称之为词向量；

所述word embedding为词嵌入；

其中X＝(x₁,x₂,...,x_T)为使用BPE将分词处理后的待处理三语平行语料中的一语表征后的子字符号序列；R为实数，V为源端输入语言词典dic_s₁的单词数，m为正整数；T为句子的词的个数，取值为正整数；

基于源端输入语言词典dic_s₂对步骤一得到的子字符号序列Z＝(z₁,z₂,...,z_T′)中+每一个词z_i使用word embedding分布式方法表示，即用一定维度的向量表示词，w′_k∈R^|V′|，w′_k＝[l₁,l₂,l₃,...,l_m′],l_l′∈实数；k＝1,2,...,T′；1≤l′≤m′，w′_k称之为词向量；

Z＝(z₁,z₂,...,z_T′)为使用BPE将分词处理后的待处理三语平行语料中的一语表征后的子字符号序列；R为实数，其中V′为源端输入语言词表dic_s₂的单词数，m′为正整数；T′为句子的词的个数，为正整数；

步骤3)、基于门限循环单元GRU构成循环神经网络组成的双向循环编码器，双向循环编码器对步骤二得到的词向量W＝(w₁,w₂,...,w_T)和词向量W′＝(w′₁,w′₂,...,w′_T′)进行编码，得到W＝(w₁,w₂,...,w_T)的编码向量ctx_s1和W′＝(w′₁,w′₂,...,w′_T′)的编码向量ctx_s2；

其中Φ表示函数变换，W'_c表示编码向量ctx_s₁作为attenion的输入时，ctx_s₁对应的权值参数；q'表示编码向量ctx_s₁作为attenion的输入时，解码器的隐层状态；W'_h表示q'对应的权值参数；C′为编码信息；*为乘号；

步骤6)、每个时刻t，按照公式q′_t+1＝φ(ctx,y″_t,q_t′)计算得到t+1时刻解码器的隐层状态信息q′_t+1，基于目标语言词典dic_t，并根据t+1时刻解码器的隐层状态信息q′_t+1，使用公式p(y″_t+1|y″_<t+1,X,Z)＝softmax(W_s′q_t+1+b′_l)计算得到第t+1时刻的单词y″_t+1的概率分布p_t+1，根据p_t+1采样出t+1时刻的目标单词y″_t+1，直至解码出句子结束标记，解码翻译结束；

其中y″_t+1为t+1时刻的NMT模型训练得到的目标词；W′_s为网络权值参数，q′_t+1为t+1 时刻的解码器的隐层状态信息，b′_l为网络偏置信息。

4.根据权利要求3所述融合多语编码信息的神经机器翻译方法，其特征在于：所述步骤3)中基于门限循环单元GRU构成循环神经网络组成的双向循环编码器，双向循环编码器对步骤二得到的词向量W＝(w₁,w₂,...,w_T)和词向量W′＝(w′₁,w′₂,...,w′_T′)进行编码，得到W＝(w₁,w₂,...,w_T)的编码向量ctx_s1和W′＝(w′₁,w′₂,...,w′_T′)的编码向量ctx_s2；

步骤3)二、

通过拼接的方法将得到的

和

拼接在一起，得到

通过拼接的方法将得到的

和

拼接在一起，得到