CN106126507A

CN106126507A - 一种基于字符编码的深度神经翻译方法及系统

Info

Publication number: CN106126507A
Application number: CN201610457514.9A
Authority: CN
Inventors: 张海军; 李婧萱
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2016-06-22
Filing date: 2016-06-22
Publication date: 2016-11-16
Anticipated expiration: 2036-06-22
Also published as: CN106126507B

Abstract

本发明提出了一种基于字符编码的深度神经翻译方法及系统，使用递归神经网络（Recurrent Neural Network,RNN）建立一个联合的神经网络模型来覆盖整个翻译过程，从编码器‑解码器框架的角度直接完成翻译任务。方法包括：A、词向量生成：将字符级别的输入数据通过神经网络建模进行分词，并生成词向量；B、语言模型生成：利用递归神经网络在时间上具有记忆性的特点，建立语法规则；C、词对齐模型生成：得到对源语言语句中多个词翻译成目标语言词的概率；D、输出：将输入的源语言翻译成目标语言；E、联合翻译模型：将上述4个步骤的神经网络模型联合起来，建立一个基于字符编码的深度神经翻译模型（RNN‑embed），并使用GPU并行计算来加速模型的训练。

Description

一种基于字符编码的深度神经翻译方法及系统

技术领域

本发明涉及机器翻译技术领域，尤其涉及基于字符编码的深度神经翻译方法及系统。

背景技术

机器翻译又常常被称为自动翻译技术，通过利用计算机的编程能力，把一种语言自动转化成另一种语言，前者称为源语言，后者称作目标语言。如今，机器翻译课题所具备的广泛前景已被公认，毫无疑问它将是应用技术的一大热点。

目前，从整体上可将机器翻译划分为基于规则与基于语料库的两种方法，其中，基于规则的方法已经研究到句法阶段，但在通用领域中的应用性不强，往往被限制在了专有应用上。而基于语料库的方式又可细分为基于事例与基于统计的方法，由于前者无法得到一个完整的语料库，导致匹配率不是很理想，同样容易被限制在比较狭窄的领域。而后者有所不同，整个建模过程将获取到的翻译知识转化为统计数据，系统甚至能自动学习出原语料库中不存在的语句，使整个知识融会贯通。

但是传统的基于统计的机器翻译模型存在如下问题：首先，我们要对源语言和目标语言进行预处理，容易产生数据高维和稀疏的问题；翻译模型中的各个模块相对独立，增加额训练的难度；生成模型之后，如果有生僻词存在，需要进行再处理，破坏模型的完整性。

发明内容

本发明的目的在于提供一种基于字符编码的深度神经翻译方法及系统，旨在解决现有技术中存在的问题。

本发明通过以下技术方案实现：一种基于字符编码的深度神经翻译方法，所述方法包括以下步骤：

A、词向量生成步骤：将字符级别的输入数据通过神经网络建模进行分词，并生成词向量；

B、语言模型生成步骤：利用递归神经网络在时间上具有记忆性的特点，使得词向量可以包含上下文的语言信息，建立语法规则；

C、词对齐模型生成步骤：采用关注机制，通过神经网络模型训练，得到对源语言语句中多个词翻译成目标语言词的概率，作为权重将源语言此相加，表示词与词之间的对应关系；

D、输出步骤：将输入的源语言翻译成目标语言；

E、联合翻译步骤：将上述4个步骤的神经网络模型联合起来，建立一个RNN-embed机器翻译模型，并使用GPU并行计算来加速模型的训练。

作为本发明的进一步改进，所述步骤A包括以下步骤：

A1、数据预处理：建立源语言和目标语言的字典，对源语言和目标语言的字符进行One-Hot编码，按照时间顺序将一句话表示成一个矩阵，矩阵中的每一行对应一个字符的One-Hot编码；

A2、基于RNN的特征提取：将字符通过One-Hot编码得到的向量x，通过RNN隐藏层h计算得到向量y，每经过一个时间t(对应输入为x_t)，RNN的隐藏层h_t都会进行迭代更新，实际上相当于得到字符的新的特征表述，不过，后一个字符携带前一个字符的信息；

A3、词向量生成：h_T作为最后一步时间T的隐藏层，包含了前面所有时刻输入数据的信息，但它并不是词向量，而是一个句子的向量表示。将每一个时间t中的h_t额外保存下载，并在作为下一个隐藏层的输入前清零，我们便能得到一系列按时间顺序排列的词向量序列(h₁,…,h_T)，在训练过程中，将有可能成为词的(h_i,…,h_i+l)只保留最后一个特征向量，其余向量用向量表示这样就完成了词向量的划分；同理，词向量化目标语言。

作为本发明的进一步改进，所述步骤B包括以下步骤：

B1、上下文信息的提取：利用词向量生成模型，对文本数据按照从前向后和从后向前的顺序分别生成词向量和表示分别包含第i个词向量前文和后文信息；

B2、采用著名的长短期记忆网络(Long-Short Term Memory,LSTM)网络的变型：Gated Recurrent Unit(GRU)网络，用于生成语言模型；

B3、GRU网络是在简单RNN网络的基础上增加两个控制门单元r和z：r的出现是为了控制上一时刻隐藏层单元g的信息，会按多少百分比输入此时刻的隐藏层，这样便形成了短期内的记忆可动态量化调整的功能；而z的目的刚好与此互补，它更倾向于对更早信息的存储，它通过按一定比例重置自身状态，并加入以前的信息，使得一些时间相隔较远的信息也能传递下来；在保证每步所输出s独立性的同时，还增强了模型的长期记忆功能，形成语言规则。

作为本发明的进一步改进，所述步骤C包括以下步骤：

C1、根据人类翻译的原理：在一个句子中翻译出一个单词时，我们往往是根据源语句中的某个或某几个单词得出，对于目标语言y_i，我们可以得到c_i，每个c_i都代表了在翻译出不同的单词y_i时，所参照的源语言信息，类似于一种关注机制；

C2、计算对应语句中每一个源语言词x_j翻译成对应目标词y_i的概率α_ij；

C3、将α_ij作为对应第j个源语言词s_j的权值，将词向量乘以权值后再相加，得到词对齐模型c_i。

作为本发明的进一步改进，所述步骤D包括以下步骤：

D1、类似于编码器部分，解码器的输出模块需要先计算出目标语言的词向量表示(使用GRU网络，只计算正向即可)；

D2、在计算过程中要使用词对齐模型生成的向量c_i；

D3、最后的输出是此时刻输出y_i作为目标语言的概率。

作为本发明的进一步改进，所述联合翻译步骤包括以下步骤：

E1、将上述A、B、C、D的4个步骤联合起来形成一个整体的神经网络模型；

E2、通过编码器-解码器的结构对网络进行训练，采用GPU并行计算对训练过程进行加速；

E3、对于给定的新的待翻译语句，输入到系统中，我们可以得到语句的翻译结果。

所述方法采用的是对字符集数据进行作为原始输入，相对于词级别，可以降低输入向量的维度，减少计算复杂度。

本发明的另一目的在于提供一种基于字符编码的深度神经翻译系统，包括：

词向量生成模块：将字符级别的输入数据通过神经网络建模进行分词，并生成词向量，此模块属于编码器；

语言模型生成模块：利用递归神经网络在时间上具有记忆性的特点，使得词向量可以包含上下文的语言信息，建立语法规则，此模块属于编码器；

词对齐模型生成模块：采用关注机制，通过神经网络模型训练，得到对源语言语句中多个词翻译成目标语言词的概率，作为权重将源语言此相加，表示词与词之间的对应关系，此模块属于解码器；

输出模块：将输入的源语言翻译成目标语言，此模块属于解码器；

联合翻译模型：将上述4个模块的神经网络模型联合起来，建立一个RNN-embed机器翻译模型，并使用GPU并行计算来加速模型的训练。

作为本发明的进一步改进，所述编码器模块包括：

数据预处理子模块，建立源语言和目标语言的字典，对源语言和目标语言的字符进行One-Hot编码，按照时间顺序将一句话表示成一个矩阵，矩阵中的每一行对应一个字符的One-Hot编码；

基于RNN的特征提取子模块：将字符通过One-Hot编码得到的向量x，通过RNN隐藏层h计算得到向量y，每经过一个时间t(对应输入为x_t)，RNN的隐藏层h_t都会进行迭代更新，实际上相当于得到字符的新的特征表述，不过，后一个字符携带前一个字符的信息；

词向量生成子模块，h_T作为最后一步时间T的隐藏层，包含了前面所有时刻输入数据的信息，但它并不是词向量，而是一个句子的向量表示。将每一个时间t中的h_t额外保存下载，并在作为下一个隐藏层的输入前清零，我们便能得到一系列按时间顺序排列的词向量序列(h₁,…,h_T)，在训练过程中，将有可能成为词的(h_i,…,h_i+l)只保留最后一个特征向量，其余向量用向量表示这样就完成了词向量的划分；同理，词向量化目标语言；

上下文信息的提取子模块，利用词向量生成模型，对文本数据按照从前向后和从后向前的顺序分别生成词向量和表示分别包含第i个词向量前文和后文信息；

采用著名的长短期记忆网络(Long-Short Term Memory,LSTM)网络的变型：GatedRecurrent Unit(GRU)网络，用于生成语言模型；

GRU网络是在简单RNN网络的基础上增加两个控制门单元r和z：r的出现是为了控制上一时刻隐藏层单元g的信息，会按多少百分比输入此时刻的隐藏层，这样便形成了短期内的记忆可动态量化调整的功能；而z的目的刚好与此互补，它更倾向于对更早信息的存储，它通过按一定比例重置自身状态，并加入以前的信息，使得一些时间相隔较远的信息也能传递下来；在保证每步所输出s独立性的同时，还增强了模型的长期记忆功能，形成语言规则。

作为本发明的进一步改进，所述解码器模块包括：

词对齐模型子模块，根据人类翻译的原理：在一个句子中翻译出一个单词时，我们往往是根据源语句中的某个或某几个单词得出，对于目标语言y_i，我们可以得到c_i，每个c_i都代表了在翻译出不同的单词y_i时，所参照的源语言信息，类似于一种关注机制；计算对应语句中每一个源语言词x_j翻译成对应目标词y_i的概率α_ij；将α_ij作为对应第j个源语言词s_j的权值，将词向量乘以权值后再相加，得到词对齐模型c_i；

输出模型子模块：类似于编码器部分，解码器的输出模块需要先计算出目标语言的词向量表示(使用GRU网络，只计算正向即可)；在计算过程中要使用词对齐模型生成的向量c_i；最后的输出是此时刻输出y_i作为目标语言的概率；

作为本发明的进一步改进，所述联合翻译模型模块包括：

联合翻译模型子模块：将上述4个模块联合起来形成一个整体的神经网络模型；通过编码器-解码器的结构对网络进行训练，采用GPU并行计算对训练过程进行加速；对于给定的新的待翻译语句，输入到系统中，我们可以得到语句的翻译结果。

本发明的有益效果是：本发明提供的基于字符编码的深度神经翻译模型及系统，以字符级数据作为输入，对于神经网络的结构，与以词级输入数据相比，大大降低了训练的特征维度；同时，使用递归神经网络结构模仿构造统计机器翻译模型中的各个子模块(“词向量生成模块”，“语言模型生成模块”，“词对齐模块”，“输出模块”)，并且将各个子模块联合起来，形成一个统一的神经网络结构，我们称之为“RNN-embed模型”，利用GPU并行计算加速技术，对给定的数据集进行训练，得到翻译模型。利用本文提出的基于字符编码的深度神经翻译模型，采用“编码器-解码器”框架：在编码器部分：我们可以直接按照上下文顺序，把文本信息按照字符输入到模型中，利用递归神经网络对上下文信息具有记忆性的特点对输入的语句进行分词和建立语言模型(利用GRU神经网络可以对保存的信息进行筛选，建立语言规则)；在解码器部分：利用关注机制生成词对齐模型，对给定的源语言和目标语言进行翻译结果的预测，输出最优的翻译结果(输出模块)。所有的训练过程都由神经网络模型自动训练完成，不需要对数据做大量的统计工作(统计机器翻译模型)，同时利用GPU加速技术，大大提高了训练速度。

附图说明

图1是本发明的基于字符编码的深度神经翻译方法的流程图；

图2是本发明的基于字符编码的深度神经翻译系统的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的基于字符编码的深度神经翻译方法及系统。本发明的主要创新的工作为以下两个部分：1)翻译模型编码器模块；2)翻译模型解码器模块。第一部分对输入数据进行编码，利用递归神经网络把按照字符级输入的数据进行分词和建立语言模型。第二部分解码器部分，利用源语言和目标语言建立词对齐模型，并且对计算出候选的翻译结果，选择最优的结果进行输出。

图1示出了本发明提供的基于字符编码的深度神经翻译模型的流程图，其详述如下：

步骤S1，编码器模块：利用递归神经网络把按照字符级输入的数据进行分词和建立语言模型。具体步骤如下：

(S11)词向量生成：对于给定的训练集(源语言和目标语言的文本信息)，分别建立字典，根据字典的长度，对字符数据进行One-Hot编码，源语言一个句子定义为x，对应的目标语言句子定义为y，则经过One-Hot编码的第i个字符定义为x_i和y_i。在此提出了一种基于递归神经网络(RNN)的词向量生成方法：RNN通过计算一个可变长的输入向量x，得到隐藏层h以及可供选择输出的y向量，每经过一个时间t，RNN的隐藏层h_t都会按照下面公式进行迭代更新：

h_t＝f(h_t-1,x_t)

那么根据RNN的基本思想进行扩展，也可以完成获取词向量这一任务。h_T作为最后一步时间T的隐藏层，已经是一个货真价实的向量，但是不妥的是，它并不是词向量，而是一个句子的向量表示。如果将每一个时间t中的h_t额外保存下载，并在作为下一个隐藏层的输入前清零，我们便能得到一系列按时间顺序排列的词向量序列(h₁,…,h_T)。当然，仔细观察就会发现，这与h_t＝f(x_t)是等价的，换而言之，就是在One-Hot编码的基础上做了一个非线性变换而已。但是，此方案的大致想法却是可行的，RNN主要用来生成向量表示，只是需要设计如何选择性地将h_t在合适的时间置零。

清零从自然语言角度可以理解为切词，恰好这也是以字符型数据作为输入的模型所需的。那么，可在神经网络中增加一个开关w，用来输出切分好的词向量，并及时清零上一个词的信息即可：

h_i＝tanh(W_hx_i+U_hh_i-1)

w _i＝σ(W_wx_i+U_wh_i-1+V_ww_i-1)

w_{i} = \{\begin{matrix} 0, i f \underset{&OverBar;}{w_{i, 1}} &GreaterEqual; \underset{&OverBar;}{w_{i, 2}} \\ 1, i f \underset{&OverBar;}{w_{i, 1}} < \underset{&OverBar;}{w_{i, 2}} \end{matrix}

e_{i}^{x} = w_{i} h_{i}

h_i←(1-w_i)h_i

其中，K_x是源语言的词典大小，而T_x为源语言句子的长度，对于不同的句子T_x一般都不相等，σ是sigmoid激活函数，U_h∈R^m×m、U_w∈R^2×m是权值矩阵，m为词嵌入后的短向量维度。

(S12)建立语言模型：递归神经网络也可以使用连续的空间进行泛化，它的递归结构具有深度性，并且能让隐藏层去学习之前的历史数据。其中比较出名的是LSTM，它是一种特殊的RNN，适合于处理与预测时间序列中，间隔和延迟比较长的重要事件，但是，它的结构较为复杂，于是本课题应用了此模型的变种GRU，并加以改进，在保留它长期记忆能力的基础上，使训练过程变得更加简单。

其中，是词向量模块的m维嵌入式转化，是权值矩阵，且是更新门，是重置门，前者允许每个隐藏单元维持自身早先的激活状态，而后者则控制什么信息，以及多少信息需要从先前的状态重置。为输出门，是对GRU模型的改进。在不同的时间t中，每个隐藏层单元都有其各自的重置门、更新门与输出门，它们将会捕捉不同时间尺度上的依赖性。当隐藏层单元尝试去捕捉短期记忆时，重置门便会被频繁的激活；而偏向于捕捉长期记忆时，更新门则同样如此。

借鉴于近期在语音识别领域取得很好效果的Bidirectional RNN思想，本课题按照类似的方法计算出了反向的计算的时候按照时间顺序读入一句话，而则按照逆序列来处理。这样一来，不仅关注了x_t前面的字符x₁,…,x_t-1，还会考虑它后面的符号以至于能够尽可能的将各类信息都融合进去。与这些权值矩阵相同，会被重新计算。最后通过将与联合起来，得到含有源语言信息的隐藏层序列

步骤S2，解码器部分：既然是机器翻译系统，便会存在两种相对的自然语言，换而言之就是两个较为独立的语言模型。编码器中通过改进版的双向GRU，得出隐藏层序列s，同样的解码模块s′也是类似的GRU结构，不用额外增加输出门，因为此功能已在输出模块有所体现。但若仅此而已，编码器与解码器之间将无任何联系，也就不会存在翻译这一过程。所以，在解码器模块s′的计算过程中，还加入了含有编码模块信息的c，这里可以先暂时把c视为所有或者部分的源语言信息，而对于c的具体定义将会在词对齐模型中给出。具体的解码器步骤如下：

解码器的语言模型：

z_{i} = σ (W_{z} e_{i - 1}^{y} + U_{z} s_{i - 1}^{'} + C_{z} c_{i})

r_{i} = σ (W_{r} e_{i - 1}^{y} + U_{r} s_{i - 1}^{'} + C_{r} c_{i})

s′_i＝(1-z_i)οs′_i-1+z_iοs′ _i

其中，是目标语言的m维词嵌入向量，o是点乘计算，W_z,W_r,W_s∈R^n×m、U_z,U_r,U_s∈R^n×n、C_z,C_r,C_s∈R^n×n′是权值矩阵，且解码器部分不用计算出双向的语言模型，因为它进一步服务于输出模块，以便依次输出翻译的目标语言序列。

(S21)词对齐：词对齐是机器翻译方法中最为基础的问题，可以说是现有主流机器翻译算法，在训练模型中的第一步。通过词对齐模块，我们便可以自动地从平行语料库中，学习出词汇级别的对应关系，并基于此结果进一步采用启发式的方法抽取翻译规则，训练基于神经网络的机器翻译模型。所以，词对齐模块的效果将明显地影响到整个机器翻译系统的性能。

每当模型要生成一个翻译的词，都通过动态选择源语言中最相关的信息来组合，也就是说加入对齐这个步骤。定义s₁到为编码模块语言模型按时间顺序生成的结果，分别对应了x₁到而c的出现是为了在解码模块进行模型训练时，将编码模块的信息输入融合进去。传统的解决办法，它直接将整个源语句的信息赋值给c，这种情况下，不仅存在之前提到的关于c向量长度的问题，而且如此一来，对于翻译语句中不同的单词，它们将参照完全一样的源语言信息c。事实上，人工翻译的过程并非如此，当我们翻译出一个单词时，我们往往是根据源语句中的某个或某几个单词得出。所以依据此种原理，这里将固定不变的c按目标语句的生成顺序拓展为c₁到其中，每个c_i都代表了在翻译出不同的单词y_i时，所参照的源语言信息，类似于一种关注机制。

单词y_i主要由源语句中的单词x_i-1、x_i、x_i+1以及x_i+2翻译而出，且重要程度也不相同，以下为相应的计算公式：

a_{i j} = V_{a}^{T} \tanh (W_{a} s_{i - 1}^{'} + U_{a} s_{j})

α_{i j} = \frac{\exp (a_{i j})}{Σ_{k = 1}^{T_{x}} \exp (a_{i k})}

c_{i} = Σ_{j = 1}^{T x} α_{i j} s_{j}

其中，s_j∈R²ⁿ已经在语言模块中说明，而s′_i-1∈Rⁿ与s_j-1基本类似，只是前者是对目标语言，后者针对源语言，而它们的具体计算方法已在前文给出。同样W_a∈R^n′×n、U_a∈Rⁿ ^′×2n、V_a∈R^n′是权值矩阵。a_ij是对齐变量，不同于传统机器翻译中的词语对齐模块，这里被显示的提出，也就是说在此，对齐并不被认为是一个潜在的因素，它是一个能量公式；α_ij是其对应的概率，具体指y_i是由x_j翻译而来的概率。将所有s_j，在根据对齐计算后的概率权值相加在一起，最终得到基于所有注释可能性α_ij选择的源语言向量c_i。那么，这里便形成了一种关注机制，使得神经网络能判断出在计算s′_i的时候，需要特别注意源语言中的哪些部分。通过这种方法，编码器就能从必须将源语言的所有信息，都编码进定长向量的负担中解脱出来，解码器可以选择性的获取携带信息的s。

(S22)输出：模型由源语言序列生成目标语言序列x按时间顺序t依次输入网络中，并通过词向量生成模块，得到相应的然后按照改进后的双向GRU，根据s_i＝f(x_i,s_i-1)，计算出一系列的隐藏层序列其中的每个s都包含了x前后的语义信息。

a_ij＝f(s′_i-1,s_j)表达了目标语句中的单词y_i，是由源语句中的单词x_j翻译过来的概率，也就是传统机器翻译中的词对齐思想，通过一种动态关注机制来完成。如此，将s_j中的所有对齐信息按权值相加，便把与翻译单词y_i所需源语言序列中的信息，按不同的参考程度编译进c_i中，以备后续模块的使用。

解码模块根据类似的GRU网络s′_i＝f(y_i-1,s′_i-1,c_i)，得到相应的隐藏层序列略有不同的是，这里需要加入编码器模块中相关的信息c_i共同训练。如果到此为止，并不能有效的输出翻译结果y的序列，只是得到了解码模块的语言模型表示，整个神经网络模型还是属于无监督学习类型，如果想要输出正确的目标语言序列，还需要一个相应的校正过程，那便是输出模块。

不同于编码模块只需将源语言信息编码入隐藏层s，解码部分还需要进一步输出翻译的单词y。因此，再次联合前一个已输出词的向量e^y、解码部分隐藏层的上一个状态s′_i、以及翻译所需的源语言信息c_i，按照以下所示过程，每一个时间t，解码器都会计算出此时生成y_i的概率。

\underset{&OverBar;}{t_{i}} = σ (W_{t} e_{i - 1}^{y} + U_{t} s_{i}^{'} + C_{t} c_{i})

t_i＝max{t _i,2j-1,t _i,2j},j＝1,…,l

p (y_{i} | e_{i - 1}^{y}, s_{i}^{'}, c_{i}) = {y_{i}}^{T} s o f t m a x (W_{p} t_{i})

其中，W_t∈R^2l×m、U_t∈R^2l×n、C_t∈R^2l×n′、是权值矩阵。上述公式与解码部分语言模型的某些公式有点相似，因为t _i也是与词向量隐藏层s′_i、以及源语言信息c_i相关的。但是，此处需要注意的是隐藏层s′的下标是i而不是i-1，因为这里的s′变量不是为了递归处理。公式中使用了maxout单元，也可被视作是一种激活函数的形式，用于进行非线性的变换，它的拟合能力非常强。最后，通过softmax函数作为其激活函数，得到此时刻输出y_i作为目标语言的概率。

步骤S3，联合各个子模块形成统一的基于神经网络的机器翻译模型，将以上提到的机器翻译模型的各部分(每一个部分都是神经网络结构)联合到一起，对整个神经网络结构统一训练，利用GPU加速技术，提高训练速度，使模型可以运行在大规模数据集上，提高翻译的准确率。具体步骤如下：

(S31)联合模型：将上一个神经网络模型的输出作为下一个模块的输入，使模块链接起来，统一训练模型参数；对于各类参数的初始化方式，在实验过程中，初始化递归模式中的一系列权值矩阵U_h，U_w，V_w， U_r和U_s为随机正交矩阵。其中，随机正交矩阵可以通过先随机生成相应的随机矩阵，再使用奇异值分解方法得到，而对于对齐模块中的权值矩阵W_a和U_a，则从均值为0、方差为0.0012的高斯分布中随机取样。而权值矩阵V_a与所有偏置向量的值都置为0，至于剩下的其它权值矩阵也同样从均值为0、方差为0.012的高斯分布中随机取样。

(S32)模型训练：随机梯度下降(SGD)是相对于批量梯度下降(BGD)算法而生的，BGD要求在每次反向传播时，都计算所有训练数据的误差，这在训练数据规模很大的情况下是极其不现实的。最初SGD被提出的时候是指每次反向传播只计算一个数据的误差值，但是这样一来串行太过明显，使得硬件的利用率较低。于是由SGD衍生出了Mini-Batch的方法，如此，每次反向传播过程都计算100个左右的数据误差，使之介于BGD与SGD之间，如今经常提到的SGD通常都是指它的Mini-Batch方法。而本课题在实验训练过程中，也将使用此方法进行模型的参数学习，它的一次梯度更新过程如下所示。

x_t+1＝x_t+Δx_t (4-1)

Δx_t＝-η·g_t (4-2)

其中，t为时序，x是待训练的参数，公式中的η与g分别是学习率、梯度。η是超参数(学习率、权值初始化、网络层数、单层神经元数、正则惩罚项)，而此类问题是困扰神经网络训练的难点之一，因为它们不能通过常规方法学习获得。弄懂神经网络可能只需要一小时，但是调神经网络却可能要花费很多天。因此，实验部分使用AdaDelta算法自动调整每个参数的学习速率(ε＝10^-6,ρ＝0.95)，计算公式如下。

{Δx}_{t} = - \frac{R M S {[Δ x]}_{t - 1}}{R M S {[g]}_{t}} \cdot g_{t} - - - (4 - 3)

R M S {[g]}_{t} = \sqrt{E {[g^{2}]}_{t} + &Element;} - - - (4 - 4)

E {[g^{2}]}_{t} = ρ E {[g^{2}]}_{t - 1} + (1 - ρ) g_{t}^{2} - - - (4 - 5)

其中，需要注意的是，公式中使用了RMS[Δx]_t-1而不是RMS[Δx]_t，因为此时Δx_t还没有计算出来。

但对于网络中的递归部分，本课题采用了BPTT(Backpropagation Through Time)算法，它与前馈神经网络中的反向传播大体类似，只是此算法能把误差反向传播得更远。因为改进版的GRU中使用了一个记忆单元来替代一般RNN中的隐藏层，所以可以避免出现在反向传播过程中会遇到的爆炸与衰减问题。

图2示出了一种基于字符编码的深度神经翻译模型及系统，所述机器翻译系统包括：

联合翻译模块：将上述4个模块的神经网络模型联合起来，建立一个RNN-embed机器翻译模型，并使用GPU并行计算来加速模型的训练。

所述词向量生成模块包括：

词向量生成子模块，h_T作为最后一步时间T的隐藏层，包含了前面所有时刻输入数据的信息，但它并不是词向量，而是一个句子的向量表示。将每一个时间t中的h_t额外保存下载，并在作为下一个隐藏层的输入前清零，我们便能得到一系列按时间顺序排列的词向量序列(h₁,…,h_T)，在训练过程中，将有可能成为词的(h_i,…,h_i+l)只保留最后一个特征向量，其余向量用向量表示这样就完成了词向量的划分；同理，词向量化目标语言。

所述语言模型生成模块包括：

所述生成词对齐模型和输出模块包括：

递归神经网络(Recurrent Neural Network,RNN)。

随着深度学习逐渐进入研究者的视野，神经网络的方法也开始用于词对齐、语言模型训练、解码等模块的优化，并且取得了不错的成果。但是不同于在部分模块上使用神经网络进行改进，本发明旨在建立一个联合的神经网络来覆盖整个机器翻译过程，形成端到端的“编码器”-“解码器”框架；在次框架下，以字符级数据作为模型输入，不再需要一般文本的自然语言处理步骤，比如分词、单词纠错与生僻词识别等，并且将所有模块统一联合训练生成翻译模型。

本发明的主要贡献有以下两点：首先，此模型将字符作为模型的输入，使得文本数据不再需要分词预处理，避免文本信息在深度神经网络中高语义的问题，在模型训练方面，降低了输入到训练模型的数据的维度，大大降低了训练的难度同时提高了训练的速度。其次，把机器翻译问题分治成编码器、解码器两大模块，并且将原本在统计机器翻译模型各自独立的词向量生成模块、语言模型生成模块、词对齐模块和输出模块联合起来，形成联合的神经网络模型“RNN-embed”。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于字符编码的深度神经翻译方法，其特征在于，包括以下步骤：

D、输出步骤：将输入的源语言翻译成目标语言；

2.根据权利要求1所述的深度神经翻译方法，其特征在于，所述步骤A包括以下步骤：

A1、数据预处理步骤：建立源语言和目标语言的字典，对源语言和目标语言的字符进行One-Hot编码，按照时间顺序将一句话表示成一个矩阵，矩阵中的每一行对应一个字符的One-Hot编码；

A2、基于RNN的特征提取步骤：将字符通过One-Hot编码得到的向量x，通过RNN隐藏层h计算得到向量y，每经过一个时间t，对应输入为x_t，RNN的隐藏层h_t都会进行迭代更新，实际上相当于得到字符的新的特征表述，不过，后一个字符携带前一个字符的信息；

A3、生成步骤：h_T作为最后一步时间T的隐藏层，包含了前面所有时刻输入数据的信息，但它并不是词向量，而是一个句子的向量表示，将每一个时间t中的h_t额外保存下载，并在作为下一个隐藏层的输入前清零，我们便能得到一系列按时间顺序排列的词向量序列(h₁,…,h_T)，在训练过程中，将有可能成为词的(h_i,…,h_i+l)只保留最后一个特征向量，其余向量用向量表示这样就完成了词向量的划分；同理，词向量化目标语言。

3.根据权利要求1所述的深度神经翻译方法，其特征在于，所述步骤B包括以下步骤：

B2、采用长短期记忆网络的变型：GRU网络，用于生成语言模型；

4.根据权利要求1所述的深度神经翻译方法，其特征在于，所述步骤C包括以下步骤：

C1、对于目标语言y_i，我们可以得到c_i，每个c_i都代表了在翻译出不同的单词y_i时，所参照的源语言信息，类似于一种关注机制；

5.根据权利要求3所述的深度神经翻译方法，其特征在于，所述步骤D包括以下步骤：

D1、解码器的输出模块需要先计算出目标语言的词向量表示，使用GRU网络，只计算正向即可；

D2、在计算过程中要使用词对齐模型生成的向量c_i；

D3、最后的输出是此时刻输出y_i作为目标语言的概率。

6.根据权利要求1所述的深度神经翻译方法，其特征在于，所述步骤E包括以下步骤：

7.一种基于字符编码的深度神经翻译系统，其特征在于，包括：

8.根据权利要求7所述的深度神经翻译系统，其特征在于：所述编码器模块包括：

基于RNN的特征提取子模块：将字符通过One-Hot编码得到的向量x，通过RNN隐藏层h计算得到向量y，每经过一个时间t，对应输入为x_t，RNN的隐藏层h_t都会进行迭代更新，实际上相当于得到字符的新的特征表述，不过，后一个字符携带前一个字符的信息；

词向量生成子模块，h_T作为最后一步时间T的隐藏层，包含了前面所有时刻输入数据的信息，但它并不是词向量，而是一个句子的向量表示，将每一个时间t中的h_t额外保存下载，并在作为下一个隐藏层的输入前清零，我们便能得到一系列按时间顺序排列的词向量序列(h₁,…,h_T)，在训练过程中，将有可能成为词的(h_i,…,h_i+l)只保留最后一个特征向量，其余向量用向量表示这样就完成了词向量的划分；同理，词向量化目标语言；

采用著名的长短期记忆网络的变型：GRU网络，用于生成语言模型；

9.根据权利要求7所述的深度神经翻译系统，其特征在于：所述解码器模块包括：

词对齐模型子模块，对于目标语言y_i，我们可以得到c_i，每个c_i都代表了在翻译出不同的单词y_i时，所参照的源语言信息，类似于一种关注机制；计算对应语句中每一个源语言词x_j翻译成对应目标词y_i的概率α_ij；将α_ij作为对应第j个源语言词s_j的权值，将词向量乘以权值后再相加，得到词对齐模型c_i；

输出模型子模块：解码器的输出模块需要先计算出目标语言的词向量表示，使用GRU网络，只计算正向即可；在计算过程中要使用词对齐模型生成的向量c_i；最后的输出是此时刻输出y_i作为目标语言的概率；

10.根据权利要求7-9任一项所述的深度神经翻译系统，其特征在于：所述利用字符级别的数据作为输入，通过训练基于递归神经网络构造的区别于原始基于统计的翻译模型“RNN-embed模型”进行训练，可以对输入的新语句进行实时翻译。