CN110879940A

CN110879940A - 一种基于深度神经网络的机器翻译方法及系统

Info

Publication number: CN110879940A
Application number: CN201911149958.6A
Authority: CN
Inventors: 刘宇鹏; 张晓晨
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-03-13
Anticipated expiration: 2039-11-21
Also published as: CN110879940B

Abstract

本发明涉及一种基于深度神经网络的机器翻译方法及系统，是为了解决现有的深度神经翻译方法由于词典的限制，使得翻译结果中会出现未登录词，并且过分关注于源语言全局语境，对于源语境覆盖不足或覆盖过多的缺点而提出的，包括：对训练预料进行分词处理，得到字符向量和词向量；构造字符级双向RNN和词级双向RNN；将每个词生成的隐状态向量进行连接形成源句子的向量表示形式；计算源句子中多个词翻译成目标词的对齐概率，并通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量；将对齐模型生成的语境向量作为两层GRU的输入，计算得到目标字符生成概率；构建深度神经网络，通过深度神经网络进行翻译。本发明适用于机器翻译系统。

Description

一种基于深度神经网络的机器翻译方法及系统

技术领域

本发明涉及机器翻译领域，具体涉及一种基于深度神经网络的机器翻译方法及系统。

背景技术

机器翻译是自然语言处理中重要且相对较难的任务，通过计算机强大的计算能力，把源语言句子翻译成为目标语言句子。经历了基于规则的机器翻译系统，基于实例的机器翻译系统发展到今天的基于统计的机器翻译系统。深度神经网络部分克服了传统神经网络的梯度弥散和爆炸，在近几年得到了迅猛的发展，且在自然语言各个应用领域都取得了很大进步。深度神经翻译方法的好处在于实现了端到端(end-to-end)的翻译过程，不像传统的基于统计的机器翻译方法需要独立抽取特征，把特征抽取和翻译模型的训练放到一起来做，这种联合(Joint)模型的方法克服了传统管道(Pipeline)模型的错误传播缺点。很多有机器翻译业务的公司(如Google，Baidu)也把目光转向了深度神经翻译方法，也说明了深度神经翻译方法的前景。

在传统深度神经翻译方法中，存在这样的一些问题：由于词典的限制，使得翻译结果中会出现未登录词(Unknown Word)；过分关注于源语言全局语境，对于源语境覆盖不足或覆盖过多；生成目标词时没能很好的捕获特征。

因此，需要一种新的深度神经翻译方法，来解决现有技术的缺陷。

发明内容

本发明的目的是为了解决现有的深度神经翻译方法由于词典的限制，使得翻译结果中会出现未登录词，并且过分关注于源语言全局语境，对于源语境覆盖不足或覆盖过多的缺点，而提出一种基于深度神经网络的机器翻译方法及系统。

一种基于深度神经网络的机器翻译方法，包括：

步骤一、对训练预料进行分词处理，得到字符向量

和词向量

步骤二、将字符向量

输入至字符级GRU中，并根据字符级GRU的输出结果构造字符级双向RNN，得到的字符级隐变量序列为

表示字符级的输入序列的长度；将字符级隐变量向量对齐到词隐变量向量

生成语境向量

并将语境向量

与词向量

连接作为词级GRU的输入，根据GRU的输出结果构造词级双向RNN；将每个词生成的隐状态向量

进行连接形成源句子的向量表示形式

表示词级的输入序列的长度；

步骤三、计算源句子中多个词翻译成目标词的对齐概率，并通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量

步骤四、将对齐模型生成的语境向量

作为两层GRU的输入，计算得到目标字符生成概率；

步骤五、根据步骤一至四构建深度神经网络，通过所述深度神经网络进行翻译。

本发明还提供一种基于深度神经网络的机器翻译系统，包括：

预处理模块，用于对训练预料进行分词处理，得到字符向量

和词向量

源句子整体表示模块，用于将字符向量

将字符级隐变量向量对齐到词隐变量向量

生成语境向量

并将语境向量

与词向量

进行连接形成源句子的向量表示形式

双语词对齐模块，用于计算源句子中多个词翻译成目标词的对齐概率，并通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量

生成目标句子模块，用于将对齐模型生成的语境向量

作为两层GRU的输入，计算得到目标字符生成概率；

联合解码和训练模块，用于根据所述预处理模块、源句子整体表示模块、双语词对齐模块和生成目标句子模块构建深度神经网络，所述深度神经网络用于接收输入数据并得到翻译结果。

本发明的有益效果为：

1、使用了词级和字符级的编码器和解码器，在编码中除了考虑词向量外，还考虑了字符向量，可以更好的编码，同时在解码时候解决目标未登录词的问题；

2、在训练过程中使用联合训练目标来平衡两个部分目标函数之间的影响，既可以考虑到词级目标函数，又可以考虑到字符级目标函数；

3、在解码中采用改进的两层GRU更好的区分了每部分语义向量对于目标向量的贡献；使用局部对齐可以更好的建模源句子和目标句子间的翻译对齐关系。

4、把机器翻译分为字符级编码器模块，词级编码器模块，对齐模块，词级解码器，字符级解码器，能够更好的分清每个模块在翻译中的作用，同时这些模块放在一起联合训练可以各司其职。

5、在一个实施例中，本发明在机器翻译自动评价标准BLEU上相对于传统深度神经网络系统提高了3.83BLEU分数，相对于统计机器翻译系统提高了8.69BLEU分数

附图说明

图1为本发明具体实施方式一的基于深度神经网络的机器翻译方法的流程图；

图2为本发明具体实施方式二的基于深度神经网络的机器翻译系统的原理图。

具体实施方式

本发明提出了基于深度神经网络的机器翻译方法及系统，使用带有门递归单元(Gate Recurrent Unit,GRU)的双向循环神经网络(Recurrent Neural Network,RNN)编码器，并整合了字符级编码器。使用栈式RNN作为解码器，并整合了字符级解码器。在编码器和解码间加入关注机制建模源语言和目标语言间的软对齐。方法包括：A、预处理步骤：对于中英文进行分词，生成预训练的词向量；B、源句子整体表示步骤：利用循环神经网络的记忆性对于源句子进行表示；C、双语词对齐步骤：计算源句子中多个词翻译成目标词的对齐概率；D、生成目标句子步骤：按照词生成目标句子并计算目标句子的生成概率；E、联合解码和训练步骤：生成翻译的目标句子并计算成批的损失函数，并反向传播梯度调节参数，进一步前向传播生成更好的翻译结果，直到无法改进翻译质量为止；使用GPU并行计算来加速模型的训练。

A、本发明可以概括为以下的步骤：

B、预处理步骤：对于中英文进行分词，并生成字符/词向量表示作为源句子整体表示和生成目标句子的输入；

C、源句子整体表示步骤：利用循环神经网络的记忆性对于源句子进行特征抽取，整体表示出来；

D、双语词对齐步骤：计算源句子中多个词翻译成目标词的对齐概率；

E、生成目标句子步骤：按照词生成目标句子并计算目标词的生成概率，进而得到句子的生成概率；

F、联合解码和训练步骤：生成翻译的目标句子并计算成批的损失函数，并反向传播梯度调节参数，进一步前向传播生成更好的翻译结果，直到无法改进翻译质量为止；

G、作为本发明的进一步说明，所述的步骤A包含以下步骤：

H、A1、建立词典：对于中文进行分词，对于英文中多词连写和附着的标点进行分割；建立词典生成One-Hot编码作为下一步的输入；

I、A2、获得预训练的词/字符向量：使用单语深度神经语言模型对中英文语料进行训练以生成中英文的字符/词向量表示，生成向量的维度为100维；

J、作为本发明的进一步说明，所述的步骤B包含以下步骤：

B1、双向RNN特征提取：把预处理步骤生成的字符向量

通过变换放入到字符级GRU

中并按照时间步骤连接成字符级双向RNN，生成的字符级隐变量序列为

最后把字符级隐变量向量

对齐到词隐变量向量

生成字符级语境向量

连接上词向量

作为输入接着按照时间顺序连接成词级双向RNN。

B2、生成源句子表示向量：把每个词生成的隐状态向量

综合起来形成整个原句子的向量表示形式

每个隐状态向量中既包含字符向量信息，又包含了词向量信息。

作为本发明的进一步说明，所述的步骤C包含以下步骤：

C1、建立源句子与目标词的局部对齐关系步骤：全局对齐是指在与目标词对齐时所有源侧词都参与其中，这样既耗费计算时间，又不利于翻译长句子。本课题采用局部对齐机制对于每个目标词集中在某个源位置的语境，这样做的好处为可以对于把更多的注意力关注在某个源词及其语境上，更加符合对齐机制。

C2、计算当前目标词的语境向量步骤：通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量，反应了源句子向量表示对于目标词向量的贡献度。

作为本发明的进一步说明，所述的步骤D包含以下步骤：

D1、生成目标词序列步骤：词级解码器的输出模块计算目标词向量表示，使用两层GRU输出，计算时需使用词对齐模型生成的语境向量

最终得到目标词生成概率。

D2、生成目标字符序列步骤：字符级解码器的输出模块计算目标字符向量表示，使用两层GRU输出，计算时需使用词对齐模型生成的语境向量

最终得到目标字符生成概率。

作为本发明的进一步说明，所述的步骤E包含以下步骤：

E1、联合训练步骤：把步骤A，B，C，D步骤联合起来形成整个深度神经翻译网络，计算目标函数值，并对于给定源语言句子生成目标翻译结果，采用GPU并行训练进行加速。

E2、反向传播步骤：根据计算出来的梯度，对于参数进行更新，不断迭代直到收敛为止。

下面通过具体实施方式详细介绍本发明各步骤的内容。

具体实施方式一：本实施方式的基于深度神经网络的机器翻译方法，如图1所示，包括

步骤一、对训练预料进行分词处理，得到字符向量

和词向量

具体而言，步骤一可以使用jieba分词对于中文进行分词，使用moses工具包中的tokenization工具对于英文进行分词，中文分词时加入名实体词典以提高分词正确率。使用GloVe对于分好词的中英文分别作预训练以解决过拟合问题，基本过程为把低频词变成特殊的词表示<unk>以在训练过程中训练<unk>的词向量(为了解决在测试数据中词没在训练数据中出现)，根据词典大小生成one-hot编码放到GloVe中进行训练。预训练中英文语料采用中英文Wikipedia数据。

步骤二、将字符向量

将字符级隐变量向量对齐到词隐变量向量

生成语境向量

并将语境向量

与词向量

进行连接形成源句子的向量表示形式

具体而言，步骤二还包括：

步骤二一、递归深度神经网络可以对于句子进行建模，在建模过程中抽取相应的特征，这些递归单元按照不同句长获得特征，适合对于变长序列进行建模。比较著名的递归深度神经网络有LSTM，GRU，相对于LSTM来说，GRU有更少的训练参数。本专利对于GRU单元进行改进以更好控制生成的隐变量。每个单元的结构如下：

对于字符级单方向RNN的基本构造公式如上，其中σ表示sigmoid函数；tanh表示双曲正切函数；ο表示元素间hardmard乘积；

是通过预训练获得的第t个时刻的字符向量；

是第t个时刻的隐变量向量；

分别是第t个时刻语境向量和其中间表示形式；

分别表示第t个时刻更新门，重置门和输出门，用于控制在GRU单元中信息流，更新门用于捕获长期记忆，重置门用于获得短时记忆，输出门用于控制输出流；

是三个控制门的参数矩阵；

是生成语境向量中间表示形式的参数矩阵；这些参数矩阵在不同时刻是共享的。对于GRU的改进是：增加了输出门，以更好的控制信息流；增加了窥视孔，使得在计算门函数

时可以窥视语境向量

和

步骤二二、将步骤二一中的字符级GRU作为字符级单方向RNN的基本构造，单方向RNN包括前向RNN和后向RNN；，字符级前向RNN顺序的读取字符向量(从

到

)并计算前向隐变量序列

(计算公式如上面描述，根据前一个状态计算当前状态)；字符级后向RNN计算公式如上，只是把前一个时刻的状态向量(即t-1时刻)变成后一个时刻的状态向量(即t+1时刻)，形成的隐变量序列为

字符隐变量表示可以通过连接前向和后向字符隐变量来获得

既含有前向信息又含有后向信息，即得到字符级隐变量序列

步骤二三，通过以下公式实现字符级到词级的全局对齐，因为每个字符在生成词的过程中都起到作用。

其中

为字符级语境向量；使用双仿射函数

计算字符级隐变量

和词级隐变量

的相似度；参数矩阵

用于调节每一维的重要性。

步骤二四、构建词级双向RNN。词级双向RNN的结构同字符级双向RNN，只是输入除了词级的词向量

外还有字符级的语境向量

需要把两个部分连接起来

作为词级双向RNN的输入，相对于字符级的输入向量

多了一个

用来捕获字符对于词的贡献；词级隐变量向量

词级第t个时刻语境向量

和其中间表示形式

词级第t个时刻更新门

重置门

输出门

词级参数矩阵

步骤三的目的是进行局部软对齐和生成覆盖向量，具体而言，步骤三还包括：

步骤三一、对于全局对齐进行了改进，使得与当前目标词进行对齐时更好的集中在某个源词和其语境上。通过以下公式进行局部软对齐

其中S表示源句子长度；

表示第t个时刻目标词隐变量向量；p_t∈[0,S]表示集中在哪个源单词位置，它的计算是通过两次非线性变换(tanh和σ)获得；为了表示当前源词位置p_t及其语境[p_t-D,p_t+D](D表示语境的窗口大小)的关注概率，使用高斯分布的核函数

来表示；

表示源词向量

和目标词向量

之间的对齐概率；参数向量v_p∈Rⁿ和参数矩阵

用于调节每一维的重要性；关注概率和对齐概率的乘积会使得在p_t和其附近的源词获得更多的对齐概率，从而实现局部关注机制。

步骤三二、建立覆盖向量公式，覆盖向量反映了哪些源语言单词被翻译了以及他们的翻译比例，覆盖向量的计算依赖于上一步生成的局部对齐概率。计算公式如下：

其中

是对于源隐变量向量

的加权平均，权重a_w(s,t)为源词位置s和目标词位置t之间的局部软对齐概率。

步骤四、将对齐模型生成的语境向量

作为两层GRU的输入，计算得到目标字符生成概率。

具体而言，步骤四还包括：

步骤四一、构造两层栈结构单向RNN。目标词隐变量向量的计算采用了两层栈结构单向RNN(，从左到右生成目标句子)。第一层和第二层隐变量向量的计算公式如下：

相对于原有的

模块，把一个GRU单元分成了两层GRU模块，更好的区分两部分输入向量

和

对于输出向量

的贡献。其中

是生成的中间目标隐变量向量，它的计算依赖于上一时刻的目标词向量

和目标隐变量向量

是生成的目标隐变量向量，它的计算依赖于当前时刻的目标词向量(覆盖向量)

和中间目标词隐变量向量

目标初始隐变量向量

初始化为

W₀是计算初始隐变量向量的初始参数，

是步骤S2中第t个时刻源隐变量向量。对于两个隐变量向量的计算顺序为

(

表示生成目标句子的长度)，最后生成两个隐变量向量序列

和

下一步计算时只使用序列

步骤四二、对于生成每个目标词的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化，计算公式如下：

其中y_w是生成的目标词向量的one-hot编码，其维数为目标词典的大小V^T；参数矩阵为

和

表示从生成的概率向量

中取出当前目标词的生成概率。

步骤四三、同目标词隐变量向量的计算相似，目标字符隐变量向量的计算也采用双层栈结构，计算公式为：

其中

为第t-1时刻的预训练的词向量；

为第t-1时刻的字符隐变量向量；

为第t时刻词级语境向量，这里使用词级语境向量原因为编码器生成的向量对于字符级解码器有直接贡献。与词级解码器中采用了不同的参数矩阵对于词级语境向量ct_w进行变换，这种分离通道方法可以更好的度量词级语境向量

对于字符级隐变量向量

的贡献。

对于生成每个目标字符的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化，计算公式同词级解码器，只是采用了不同参数矩阵。

步骤四四、对于生成每个目标字符的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化，计算公式与步骤三四中的公式相同。

具体而言，步骤五还包括：

步骤五一、根据步骤一至四构建深度学习神经网络，进行联合训练，目标函数采用两部分目标函数进行均衡，一部分是基于词的损失函数，另一部分是基于字符的损失函数。

计算公式如下：

J_a＝J_w+J_c

公式J_w表示对于双语训练语料D中最小批M(m＝|M|)中每个句对(x,y)中的源词x_w和目标词y_w计算交叉熵损失函数的平均值；公式J_c中表示源词x_w和目标词y_w中字符源字符x_c和目标字符y_c计算交叉熵损失函数的平均值；J_a是联合训练目标函数。

步骤五二、通过反向传播逐步拟合训练目标，直到无法接近训练目标为止，最终得到训练后的深度神经网络。

反向传播的过程为：按照更新时使用样本个数来分可以分为成批和随机更新。当样本数量很大时候，批梯度得做完所有样本计算才能更新一次参数，从而花费的时间远大于随机梯度下降。但是随机梯度下降过早的结束了迭代，使得它获取的值只是接近局部最优解，而并非像批梯度下降算法那样是局部最优解。

Adam(Adaptive Moment Estimation)利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。

m_t＝μ·m_t-1+(1-μ)·g_t

W_t+1＝W_t+ΔW_t

其中，g_t表示目标函数J_a对于时刻t时的参数W_t的梯度；m_t和n_t分别是对梯度的有偏一阶矩估计和二阶矩估计；

和

分别是对梯度的无偏一阶矩估计和二阶矩估计；一阶矩权重μ＝0.9，二阶矩权重ν＝0.999，平滑参数ε＝1e-08，学习率η＝0.001；训练参数从区间在[-0.1,0.1]之间的均匀分布进行采样；dropout设置为0.2；最小批量设置为100。

对于本专利中深度网络的递归部分采用BPTT(Backpropagation Through Time)算法，它和传统的反向传播算法基本相同，只是在每个隐单元内部参数和隐单元之间的连接参数有很多是共享的，对于每一步的梯度更新需要进行对这些参数进行累加。因为改进版的GRU使用了记忆单元来替代传统的RNN隐层，所以可以避免出现梯度消失和爆炸的现象。

步骤五三、使用训练后的深度神经网络进行翻译。

由具体实施方式一的各步骤内容可知，本发明的主要创新工作包含以下几个方面:(1)在词编码器基础上增加了字符编码器，并使用了带有窥视孔(Peephole)的门神经单元以更好的考虑上一步语境向量；(2)在双语词软对齐的基础上考虑了局部源语言语境，这样远距离对于当前对齐有更少的影响；(3)在词解码器的基础上增加了栈式门神经单元使得解码器能够更好的捕捉目标词特征，同时增加了字符解码器，从字符角度解决目标翻译中未登录词的问题。

具体实施方式二：本实施方式提供一种模块化的神经翻译系统，如图2所示，包括：

预处理模块：对于中英文分词，生成预训练的字符/词向量表示，放入到深度神经翻译网络中。

源句子整体表示模块：使用递归深度神经网络在时间上的记忆特点，使得生成的隐变量单元含有上下文的语境信息，建立语法结构。

双语词对齐模块：采用关注机制，通过推导过程，计算源语言中每个词对于当前的目标词关注概率，把关注概率看成权重，对于源语言隐变量向量进行加权平均生成语境向量，把语境向量作为生成目标词的softmax层的输入，以捕获在翻译过程中源句子的整体信息。

生成目标句子模块：采用逐个生成目标词的方法，最终生成整个目标句子。

联合解码和训练模块：把上面的源句子整体表示模块，双语词对齐模块和生成目标句子模块联合起来进行前向目标函数计算，反向传播错误梯度，最终拟合训练目标函数。

所述的预处理模块包括：

分词子模块：对于预训练语料中的中英文进行分词，对于英文分词采用基于规则的方法，去除多余空格，分隔开附着在词上的标点符号，所有格和系动词，并把大写字母变成小写。中文分词采用基于统计方法：首先使用两个词典(名实体词典和jiema自带的词典)，加载字典,生成trie树；(2)给定待分词的句子,使用正则表达式获取连续的字符并切分成短语列表生成有向无环图(DAG)，对于DAG动态规划找到最大概率路径，DAG中那些在字典中查不到的字,组合成一个新的短语片段,使用HMM模型(转移概率和发射概率是预先训练，使用的语料为1998人民日报，msr的切分语料以及一些小说)进行分词。

预训练词向量子模块：分别对于中英文Wiki百科数据建立字符/词典，对于源语言和目标语言的字符/词进行One-Hot编码，使用预训练工具Glove(基本原理为采用目标函数来使得log双线性函数拟合共现概率，这样可以考虑其他所有词的全局角度计算两个词的相似程度)生成词向量。

所述的源句子整体表示模块包括：

源字符特征抽取子模块：使用当前字符向量

和累积的上一个字符特征向量

(这一步字符特征向量依赖于它的上一步字符特征向量，从而完成了所有历史的特征向量

的影响)计算当前字符的特征向量

每经过一个时间t，循环深度神经网络进行迭代更新，相当于前面词特征向量对于当前词特征向量的影响；

源词特征抽取子模块：基本过程和源字符特征抽取模块，只是在计算当前词的特征向量

时，在输入时除了要考虑词向量

和累积的上一个词特征向量

还需要考虑通过字符关注机制生成的语境向量

所述的双语词对齐模块包括：

源中心位置生成模块：根据当前目标词位置t需关注源词位置p_t，并按照这个源位置p_t使用高斯核函数生成一个权重函数，对于原有的局部对齐子模块中的对齐概率进行加权，即离源位置p_t越近的权重最大，离源位置p_t越远的权重越小。

局部对齐子模块：源位置s的隐变量向量

和目标位置t的隐变量向量

间的对齐概率计算采用双线性函数

和softmax函数的复合。

所述的生成目标句子模块包括：

词级语言模型子模块：为了更好的区分当前时刻t的语境向量

上一刻t-1词向量

和目标隐变量向量

对于当前时刻t的目标隐变量向量

的贡献程度，采用两层的GRU单元把原来的一层区分成两层，更好的区分不同的贡献方式

字符级语言模型子模块：与词级语言模型子模块相似，只是使用了词级语境向量

作为两层GRU的输入，对于词级语境向量的变换时使用了不同参数。

所述的联合解码和训练模块包括：

联合解码子模块：训练阶段的解码过程为先生成每个目标词再生成当前词的目标字符，测试阶段，本专利的策略为首先运行词级集束搜索以找到最好的翻译结果，如果这个最好翻译含有未登录词，则在该词的基础上运行字符级集束搜索，生成该未登录词的字符序列，把字符组合起来表示生成当前的目标词。

训练子模块：根据每个参数矩阵和中间向量表示进行前向传播，累积计算每一步的局部目标直到联合目标函数，接着计算每个参数的梯度，根据局部目标和每个参数的梯度计算这个参数梯度更新方向，通过反向传播梯度更新每个参数以减少损失，逐步拟合训练目标，直到无法接近训练目标为止。

可以通过表1验证本发明一个实施例的效果，可以看出本发明的分数高于现有的神经网络系统。

表1

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于深度神经网络的机器翻译方法，其特征在于，包括：

步骤一、对训练预料进行分词处理，得到字符向量

和词向量

步骤二、将字符向量

生成语境向量

并将语境向量

与词向量

进行连接形成源句子的向量表示形式

表示词级的输入序列的长度；

步骤四、将对齐模型生成的语境向量

作为两层GRU的输入，计算得到目标字符生成概率；

2.根据权利要求1所述的基于深度神经网络的机器翻译方法，其特征在于，步骤一具体为：

使用jieba分词对于中文进行分词，使用moses工具包中的tokenization工具对于英文进行分词，中文分词时加入名实体词典；

使用GloVe对于分好词的中英文分别作预训练，预训练的过程为：将低频词替代为词表示<unk>并在训练过程中训练<unk>的词向量，根据词典大小生成one-hot编码放到GloVe中进行训练。

3.根据权利要求1或2所述的基于深度神经网络的机器翻译方法，其特征在于，步骤二具体为：

步骤二一、根据以下公式构造字符级GRU：

其中σ表示sigmoid函数；tanh表示双曲正切函数；

表示元素间hardmard乘积；

是通过预训练获得的第t个时刻的字符向量；n表示空间R的维度；

是第t个时刻的隐变量向量；

分别是第t个时刻语境向量和其中间表示形式；

是三个控制门的参数矩阵；

是生成语境向量中间表示形式的参数矩阵；这些参数矩阵在不同时刻是共享的；

步骤二二、将步骤二一中的字符级GRU作为字符级单方向RNN的基本构造，单方向RNN包括前向RNN和后向RNN；将前向RNN按照从

到

的顺序读取字符向量

并按照步骤二一中的公式计算得到前向隐变量序列

将步骤二一中公式的t-1时刻置换为t+1时刻进行计算即为字符级后向RNN，计算得到的后向隐变量序列为

将前向隐变量序列和后向隐变量序列进行连接得到字符隐变量

进而得到字符级隐变量序列

用于作为源句子的向量表示形式；

步骤二三、通过以下公式实现字符级到词级的全局对齐：

其中

为字符级语境向量；双仿射函数

用于计算字符级隐变量

和词级隐变量

的相似度；

为参数矩阵，用于调节每一维的重要性；

步骤二四、将语境向量

与词向量

连接形成

作为词级GRU的输入，并根据GRU的输出结果构造词级双向RNN；将每个词生成的隐状态向量

进行连接形成源句子的向量表示形式

其中词级双向RNN与字符级双向RNN的结构相同。

4.根据权利要求3所述的基于深度神经网络的机器翻译方法，其特征在于，步骤三具体为：

步骤三一、通过以下公式进行局部软对齐：

其中S表示源句子长度；

表示第t个时刻目标词隐变量向量；p_t∈[0,S]表示集中在哪个源单词位置；高斯分布的核函数

用于表示当前源词位置p_t及其语境[p_t-D,p_t+D]的关注概率，D为语境窗口大小；

表示源词向量

和目标词向量

之间的对齐概率；参数向量v_p∈Rⁿ和参数矩阵

用于调节每一维的重要性；

步骤三二、建立覆盖向量公式，覆盖向量反映了哪些源语言单词已被翻译以及他们的翻译比例，计算公式为：

其中

是对于源隐变量向量

5.根据权利要求4所述的基于深度神经网络的机器翻译方法，其特征在于，步骤四具体为：

步骤四一、构造两层栈结构单向RNN，其中第一层和第二层隐变量向量的计算公式为：

其中

和目标隐变量向量

是生成的目标隐变量向量，它的计算依赖于覆盖向量

和中间目标词隐变量向量

和

表示从生成的概率向量

中取出当前目标词的生成概率；

步骤四三、根据以下公式构造用于计算目标字符隐变量向量的双层栈：

其中

为第t-1时刻的预训练的词向量；

为第t-1时刻的字符隐变量向量；

为第t时刻词级语境向量；

6.根据权利要求5所述的基于深度神经网络的机器翻译方法，其特征在于，步骤五具体为：

步骤五一、根据步骤一至四构建深度学习神经网络，进行联合训练，联合训练使用的目标函数采用两部分目标函数进行均衡，一部分是基于词的损失函数，另一部分是基于字符的损失函数；计算公式如下：

J_a＝J_w+J_c

公式J_w表示对于双语训练语料D中最小批M中每个句对(x,y)中的源词x_w和目标词y_w计算交叉熵损失函数的平均值；其中m＝|M|；公式J_c中表示源词x_w和目标词y_w中字符源字符x_c和目标字符y_c计算交叉熵损失函数的平均值；J_a是联合训练目标函数；

步骤五二、通过反向传播逐步拟合训练目标，直到无法接近训练目标为止，最终得到训练后的深度神经网络；

步骤五三、使用训练后的深度神经网络进行翻译。

7.一种基于深度神经网络的机器翻译系统，其特征在于，包括：

预处理模块，用于对训练预料进行分词处理，得到字符向量

和词向量

源句子整体表示模块，用于将字符向量

将字符级隐变量向量对齐到词隐变量向量

生成语境向量

并将语境向量

与词向量

进行连接形成源句子的向量表示形式

生成目标句子模块，用于将对齐模型生成的语境向量

作为两层GRU的输入，计算得到目标字符生成概率；