CN110879940A - 一种基于深度神经网络的机器翻译方法及系统 - Google Patents
一种基于深度神经网络的机器翻译方法及系统 Download PDFInfo
- Publication number
- CN110879940A CN110879940A CN201911149958.6A CN201911149958A CN110879940A CN 110879940 A CN110879940 A CN 110879940A CN 201911149958 A CN201911149958 A CN 201911149958A CN 110879940 A CN110879940 A CN 110879940A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- character
- level
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于深度神经网络的机器翻译方法及系统,是为了解决现有的深度神经翻译方法由于词典的限制,使得翻译结果中会出现未登录词,并且过分关注于源语言全局语境,对于源语境覆盖不足或覆盖过多的缺点而提出的,包括:对训练预料进行分词处理,得到字符向量和词向量;构造字符级双向RNN和词级双向RNN;将每个词生成的隐状态向量进行连接形成源句子的向量表示形式;计算源句子中多个词翻译成目标词的对齐概率,并通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量;将对齐模型生成的语境向量作为两层GRU的输入,计算得到目标字符生成概率;构建深度神经网络,通过深度神经网络进行翻译。本发明适用于机器翻译系统。
Description
技术领域
本发明涉及机器翻译领域,具体涉及一种基于深度神经网络的机器翻译方法及系统。
背景技术
机器翻译是自然语言处理中重要且相对较难的任务,通过计算机强大的计算能力,把源语言句子翻译成为目标语言句子。经历了基于规则的机器翻译系统,基于实例的机器翻译系统发展到今天的基于统计的机器翻译系统。深度神经网络部分克服了传统神经网络的梯度弥散和爆炸,在近几年得到了迅猛的发展,且在自然语言各个应用领域都取得了很大进步。深度神经翻译方法的好处在于实现了端到端(end-to-end)的翻译过程,不像传统的基于统计的机器翻译方法需要独立抽取特征,把特征抽取和翻译模型的训练放到一起来做,这种联合(Joint)模型的方法克服了传统管道(Pipeline)模型的错误传播缺点。很多有机器翻译业务的公司(如Google,Baidu)也把目光转向了深度神经翻译方法,也说明了深度神经翻译方法的前景。
在传统深度神经翻译方法中,存在这样的一些问题:由于词典的限制,使得翻译结果中会出现未登录词(Unknown Word);过分关注于源语言全局语境,对于源语境覆盖不足或覆盖过多;生成目标词时没能很好的捕获特征。
因此,需要一种新的深度神经翻译方法,来解决现有技术的缺陷。
发明内容
本发明的目的是为了解决现有的深度神经翻译方法由于词典的限制,使得翻译结果中会出现未登录词,并且过分关注于源语言全局语境,对于源语境覆盖不足或覆盖过多的缺点,而提出一种基于深度神经网络的机器翻译方法及系统。
一种基于深度神经网络的机器翻译方法,包括:
步骤二、将字符向量输入至字符级GRU中,并根据字符级GRU的输出结果构造字符级双向RNN,得到的字符级隐变量序列为 表示字符级的输入序列的长度;将字符级隐变量向量对齐到词隐变量向量生成语境向量并将语境向量与词向量连接作为词级GRU的输入,根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量进行连接形成源句子的向量表示形式 表示词级的输入序列的长度;
步骤五、根据步骤一至四构建深度神经网络,通过所述深度神经网络进行翻译。
本发明还提供一种基于深度神经网络的机器翻译系统,包括:
源句子整体表示模块,用于将字符向量输入至字符级GRU中,并根据字符级GRU的输出结果构造字符级双向RNN,得到的字符级隐变量序列为将字符级隐变量向量对齐到词隐变量向量生成语境向量并将语境向量与词向量连接作为词级GRU的输入,根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量进行连接形成源句子的向量表示形式
联合解码和训练模块,用于根据所述预处理模块、源句子整体表示模块、双语词对齐模块和生成目标句子模块构建深度神经网络,所述深度神经网络用于接收输入数据并得到翻译结果。
本发明的有益效果为:
1、使用了词级和字符级的编码器和解码器,在编码中除了考虑词向量外,还考虑了字符向量,可以更好的编码,同时在解码时候解决目标未登录词的问题;
2、在训练过程中使用联合训练目标来平衡两个部分目标函数之间的影响,既可以考虑到词级目标函数,又可以考虑到字符级目标函数;
3、在解码中采用改进的两层GRU更好的区分了每部分语义向量对于目标向量的贡献;使用局部对齐可以更好的建模源句子和目标句子间的翻译对齐关系。
4、把机器翻译分为字符级编码器模块,词级编码器模块,对齐模块,词级解码器,字符级解码器,能够更好的分清每个模块在翻译中的作用,同时这些模块放在一起联合训练可以各司其职。
5、在一个实施例中,本发明在机器翻译自动评价标准BLEU上相对于传统深度神经网络系统提高了3.83BLEU分数,相对于统计机器翻译系统提高了8.69BLEU分数
附图说明
图1为本发明具体实施方式一的基于深度神经网络的机器翻译方法的流程图;
图2为本发明具体实施方式二的基于深度神经网络的机器翻译系统的原理图。
具体实施方式
本发明提出了基于深度神经网络的机器翻译方法及系统,使用带有门递归单元(Gate Recurrent Unit,GRU)的双向循环神经网络(Recurrent Neural Network,RNN)编码器,并整合了字符级编码器。使用栈式RNN作为解码器,并整合了字符级解码器。在编码器和解码间加入关注机制建模源语言和目标语言间的软对齐。方法包括:A、预处理步骤:对于中英文进行分词,生成预训练的词向量;B、源句子整体表示步骤:利用循环神经网络的记忆性对于源句子进行表示;C、双语词对齐步骤:计算源句子中多个词翻译成目标词的对齐概率;D、生成目标句子步骤:按照词生成目标句子并计算目标句子的生成概率;E、联合解码和训练步骤:生成翻译的目标句子并计算成批的损失函数,并反向传播梯度调节参数,进一步前向传播生成更好的翻译结果,直到无法改进翻译质量为止;使用GPU并行计算来加速模型的训练。
A、本发明可以概括为以下的步骤:
B、预处理步骤:对于中英文进行分词,并生成字符/词向量表示作为源句子整体表示和生成目标句子的输入;
C、源句子整体表示步骤:利用循环神经网络的记忆性对于源句子进行特征抽取,整体表示出来;
D、双语词对齐步骤:计算源句子中多个词翻译成目标词的对齐概率;
E、生成目标句子步骤:按照词生成目标句子并计算目标词的生成概率,进而得到句子的生成概率;
F、联合解码和训练步骤:生成翻译的目标句子并计算成批的损失函数,并反向传播梯度调节参数,进一步前向传播生成更好的翻译结果,直到无法改进翻译质量为止;
G、作为本发明的进一步说明,所述的步骤A包含以下步骤:
H、A1、建立词典:对于中文进行分词,对于英文中多词连写和附着的标点进行分割;建立词典生成One-Hot编码作为下一步的输入;
I、A2、获得预训练的词/字符向量:使用单语深度神经语言模型对中英文语料进行训练以生成中英文的字符/词向量表示,生成向量的维度为100维;
J、作为本发明的进一步说明,所述的步骤B包含以下步骤:
B1、双向RNN特征提取:把预处理步骤生成的字符向量通过变换放入到字符级GRU中并按照时间步骤连接成字符级双向RNN,生成的字符级隐变量序列为最后把字符级隐变量向量对齐到词隐变量向量生成字符级语境向量连接上词向量作为输入接着按照时间顺序连接成词级双向RNN。
作为本发明的进一步说明,所述的步骤C包含以下步骤:
C1、建立源句子与目标词的局部对齐关系步骤:全局对齐是指在与目标词对齐时所有源侧词都参与其中,这样既耗费计算时间,又不利于翻译长句子。本课题采用局部对齐机制对于每个目标词集中在某个源位置的语境,这样做的好处为可以对于把更多的注意力关注在某个源词及其语境上,更加符合对齐机制。
C2、计算当前目标词的语境向量步骤:通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量,反应了源句子向量表示对于目标词向量的贡献度。
作为本发明的进一步说明,所述的步骤D包含以下步骤:
作为本发明的进一步说明,所述的步骤E包含以下步骤:
E1、联合训练步骤:把步骤A,B,C,D步骤联合起来形成整个深度神经翻译网络,计算目标函数值,并对于给定源语言句子生成目标翻译结果,采用GPU并行训练进行加速。
E2、反向传播步骤:根据计算出来的梯度,对于参数进行更新,不断迭代直到收敛为止。
下面通过具体实施方式详细介绍本发明各步骤的内容。
具体实施方式一:本实施方式的基于深度神经网络的机器翻译方法,如图1所示,包括
具体而言,步骤一可以使用jieba分词对于中文进行分词,使用moses工具包中的tokenization工具对于英文进行分词,中文分词时加入名实体词典以提高分词正确率。使用GloVe对于分好词的中英文分别作预训练以解决过拟合问题,基本过程为把低频词变成特殊的词表示<unk>以在训练过程中训练<unk>的词向量(为了解决在测试数据中词没在训练数据中出现),根据词典大小生成one-hot编码放到GloVe中进行训练。预训练中英文语料采用中英文Wikipedia数据。
步骤二、将字符向量输入至字符级GRU中,并根据字符级GRU的输出结果构造字符级双向RNN,得到的字符级隐变量序列为将字符级隐变量向量对齐到词隐变量向量生成语境向量并将语境向量与词向量连接作为词级GRU的输入,根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量进行连接形成源句子的向量表示形式
具体而言,步骤二还包括:
步骤二一、递归深度神经网络可以对于句子进行建模,在建模过程中抽取相应的特征,这些递归单元按照不同句长获得特征,适合对于变长序列进行建模。比较著名的递归深度神经网络有LSTM,GRU,相对于LSTM来说,GRU有更少的训练参数。本专利对于GRU单元进行改进以更好控制生成的隐变量。每个单元的结构如下:
对于字符级单方向RNN的基本构造公式如上,其中σ表示sigmoid函数;tanh表示双曲正切函数;ο表示元素间hardmard乘积;是通过预训练获得的第t个时刻的字符向量;是第t个时刻的隐变量向量;分别是第t个时刻语境向量和其中间表示形式;分别表示第t个时刻更新门,重置门和输出门,用于控制在GRU单元中信息流,更新门用于捕获长期记忆,重置门用于获得短时记忆,输出门用于控制输出流;是三个控制门的参数矩阵;是生成语境向量中间表示形式的参数矩阵;这些参数矩阵在不同时刻是共享的。对于GRU的改进是:增加了输出门,以更好的控制信息流;增加了窥视孔,使得在计算门函数时可以窥视语境向量和
步骤二二、将步骤二一中的字符级GRU作为字符级单方向RNN的基本构造,单方向RNN包括前向RNN和后向RNN;,字符级前向RNN顺序的读取字符向量(从到)并计算前向隐变量序列(计算公式如上面描述,根据前一个状态计算当前状态);字符级后向RNN计算公式如上,只是把前一个时刻的状态向量(即t-1时刻)变成后一个时刻的状态向量(即t+1时刻),形成的隐变量序列为字符隐变量表示可以通过连接前向和后向字符隐变量来获得 既含有前向信息又含有后向信息,即得到字符级隐变量序列
步骤二三,通过以下公式实现字符级到词级的全局对齐,因为每个字符在生成词的过程中都起到作用。
步骤二四、构建词级双向RNN。词级双向RNN的结构同字符级双向RNN,只是输入除了词级的词向量外还有字符级的语境向量需要把两个部分连接起来作为词级双向RNN的输入,相对于字符级的输入向量多了一个用来捕获字符对于词的贡献;词级隐变量向量词级第t个时刻语境向量和其中间表示形式词级第t个时刻更新门重置门输出门词级参数矩阵
步骤三的目的是进行局部软对齐和生成覆盖向量,具体而言,步骤三还包括:
步骤三一、对于全局对齐进行了改进,使得与当前目标词进行对齐时更好的集中在某个源词和其语境上。通过以下公式进行局部软对齐
其中S表示源句子长度;表示第t个时刻目标词隐变量向量;pt∈[0,S]表示集中在哪个源单词位置,它的计算是通过两次非线性变换(tanh和σ)获得;为了表示当前源词位置pt及其语境[pt-D,pt+D](D表示语境的窗口大小)的关注概率,使用高斯分布的核函数来表示;表示源词向量和目标词向量之间的对齐概率;参数向量vp∈Rn和参数矩阵用于调节每一维的重要性;关注概率和对齐概率的乘积会使得在pt和其附近的源词获得更多的对齐概率,从而实现局部关注机制。
步骤三二、建立覆盖向量公式,覆盖向量反映了哪些源语言单词被翻译了以及他们的翻译比例,覆盖向量的计算依赖于上一步生成的局部对齐概率。计算公式如下:
具体而言,步骤四还包括:
步骤四一、构造两层栈结构单向RNN。目标词隐变量向量的计算采用了两层栈结构单向RNN(,从左到右生成目标句子)。第一层和第二层隐变量向量的计算公式如下:
相对于原有的模块,把一个GRU单元分成了两层GRU模块,更好的区分两部分输入向量和对于输出向量的贡献。其中是生成的中间目标隐变量向量,它的计算依赖于上一时刻的目标词向量和目标隐变量向量 是生成的目标隐变量向量,它的计算依赖于当前时刻的目标词向量(覆盖向量)和中间目标词隐变量向量目标初始隐变量向量初始化为W0是计算初始隐变量向量的初始参数,是步骤S2中第t个时刻源隐变量向量。对于两个隐变量向量的计算顺序为(表示生成目标句子的长度),最后生成两个隐变量向量序列和下一步计算时只使用序列
步骤四二、对于生成每个目标词的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化,计算公式如下:
步骤四三、同目标词隐变量向量的计算相似,目标字符隐变量向量的计算也采用双层栈结构,计算公式为:
其中为第t-1时刻的预训练的词向量;为第t-1时刻的字符隐变量向量;为第t时刻词级语境向量,这里使用词级语境向量原因为编码器生成的向量对于字符级解码器有直接贡献。与词级解码器中采用了不同的参数矩阵对于词级语境向量ctw进行变换,这种分离通道方法可以更好的度量词级语境向量对于字符级隐变量向量的贡献。
对于生成每个目标字符的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化,计算公式同词级解码器,只是采用了不同参数矩阵。
步骤四四、对于生成每个目标字符的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化,计算公式与步骤三四中的公式相同。
步骤五、根据步骤一至四构建深度神经网络,通过所述深度神经网络进行翻译。
具体而言,步骤五还包括:
步骤五一、根据步骤一至四构建深度学习神经网络,进行联合训练,目标函数采用两部分目标函数进行均衡,一部分是基于词的损失函数,另一部分是基于字符的损失函数。
计算公式如下:
Ja=Jw+Jc
公式Jw表示对于双语训练语料D中最小批M(m=|M|)中每个句对(x,y)中的源词xw和目标词yw计算交叉熵损失函数的平均值;公式Jc中表示源词xw和目标词yw中字符源字符xc和目标字符yc计算交叉熵损失函数的平均值;Ja是联合训练目标函数。
步骤五二、通过反向传播逐步拟合训练目标,直到无法接近训练目标为止,最终得到训练后的深度神经网络。
反向传播的过程为:按照更新时使用样本个数来分可以分为成批和随机更新。当样本数量很大时候,批梯度得做完所有样本计算才能更新一次参数,从而花费的时间远大于随机梯度下降。但是随机梯度下降过早的结束了迭代,使得它获取的值只是接近局部最优解,而并非像批梯度下降算法那样是局部最优解。
Adam(Adaptive Moment Estimation)利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。
mt=μ·mt-1+(1-μ)·gt
Wt+1=Wt+ΔWt
其中,gt表示目标函数Ja对于时刻t时的参数Wt的梯度;mt和nt分别是对梯度的有偏一阶矩估计和二阶矩估计;和分别是对梯度的无偏一阶矩估计和二阶矩估计;一阶矩权重μ=0.9,二阶矩权重ν=0.999,平滑参数ε=1e-08,学习率η=0.001;训练参数从区间在[-0.1,0.1]之间的均匀分布进行采样;dropout设置为0.2;最小批量设置为100。
对于本专利中深度网络的递归部分采用BPTT(Backpropagation Through Time)算法,它和传统的反向传播算法基本相同,只是在每个隐单元内部参数和隐单元之间的连接参数有很多是共享的,对于每一步的梯度更新需要进行对这些参数进行累加。因为改进版的GRU使用了记忆单元来替代传统的RNN隐层,所以可以避免出现梯度消失和爆炸的现象。
步骤五三、使用训练后的深度神经网络进行翻译。
由具体实施方式一的各步骤内容可知,本发明的主要创新工作包含以下几个方面:(1)在词编码器基础上增加了字符编码器,并使用了带有窥视孔(Peephole)的门神经单元以更好的考虑上一步语境向量;(2)在双语词软对齐的基础上考虑了局部源语言语境,这样远距离对于当前对齐有更少的影响;(3)在词解码器的基础上增加了栈式门神经单元使得解码器能够更好的捕捉目标词特征,同时增加了字符解码器,从字符角度解决目标翻译中未登录词的问题。
具体实施方式二:本实施方式提供一种模块化的神经翻译系统,如图2所示,包括:
预处理模块:对于中英文分词,生成预训练的字符/词向量表示,放入到深度神经翻译网络中。
源句子整体表示模块:使用递归深度神经网络在时间上的记忆特点,使得生成的隐变量单元含有上下文的语境信息,建立语法结构。
双语词对齐模块:采用关注机制,通过推导过程,计算源语言中每个词对于当前的目标词关注概率,把关注概率看成权重,对于源语言隐变量向量进行加权平均生成语境向量,把语境向量作为生成目标词的softmax层的输入,以捕获在翻译过程中源句子的整体信息。
生成目标句子模块:采用逐个生成目标词的方法,最终生成整个目标句子。
联合解码和训练模块:把上面的源句子整体表示模块,双语词对齐模块和生成目标句子模块联合起来进行前向目标函数计算,反向传播错误梯度,最终拟合训练目标函数。
所述的预处理模块包括:
分词子模块:对于预训练语料中的中英文进行分词,对于英文分词采用基于规则的方法,去除多余空格,分隔开附着在词上的标点符号,所有格和系动词,并把大写字母变成小写。中文分词采用基于统计方法:首先使用两个词典(名实体词典和jiema自带的词典),加载字典,生成trie树;(2)给定待分词的句子,使用正则表达式获取连续的字符并切分成短语列表生成有向无环图(DAG),对于DAG动态规划找到最大概率路径,DAG中那些在字典中查不到的字,组合成一个新的短语片段,使用HMM模型(转移概率和发射概率是预先训练,使用的语料为1998人民日报,msr的切分语料以及一些小说)进行分词。
预训练词向量子模块:分别对于中英文Wiki百科数据建立字符/词典,对于源语言和目标语言的字符/词进行One-Hot编码,使用预训练工具Glove(基本原理为采用目标函数来使得log双线性函数拟合共现概率,这样可以考虑其他所有词的全局角度计算两个词的相似程度)生成词向量。
所述的源句子整体表示模块包括:
源字符特征抽取子模块:使用当前字符向量和累积的上一个字符特征向量(这一步字符特征向量依赖于它的上一步字符特征向量,从而完成了所有历史的特征向量的影响)计算当前字符的特征向量每经过一个时间t,循环深度神经网络进行迭代更新,相当于前面词特征向量对于当前词特征向量的影响;
所述的双语词对齐模块包括:
源中心位置生成模块:根据当前目标词位置t需关注源词位置pt,并按照这个源位置pt使用高斯核函数生成一个权重函数,对于原有的局部对齐子模块中的对齐概率进行加权,即离源位置pt越近的权重最大,离源位置pt越远的权重越小。
所述的生成目标句子模块包括:
所述的联合解码和训练模块包括:
联合解码子模块:训练阶段的解码过程为先生成每个目标词再生成当前词的目标字符,测试阶段,本专利的策略为首先运行词级集束搜索以找到最好的翻译结果,如果这个最好翻译含有未登录词,则在该词的基础上运行字符级集束搜索,生成该未登录词的字符序列,把字符组合起来表示生成当前的目标词。
训练子模块:根据每个参数矩阵和中间向量表示进行前向传播,累积计算每一步的局部目标直到联合目标函数,接着计算每个参数的梯度,根据局部目标和每个参数的梯度计算这个参数梯度更新方向,通过反向传播梯度更新每个参数以减少损失,逐步拟合训练目标,直到无法接近训练目标为止。
可以通过表1验证本发明一个实施例的效果,可以看出本发明的分数高于现有的神经网络系统。
表1
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (7)
1.一种基于深度神经网络的机器翻译方法,其特征在于,包括:
步骤二、将字符向量输入至字符级GRU中,并根据字符级GRU的输出结果构造字符级双向RNN,得到的字符级隐变量序列为 表示字符级的输入序列的长度;将字符级隐变量向量对齐到词隐变量向量生成语境向量并将语境向量与词向量连接作为词级GRU的输入,根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量进行连接形成源句子的向量表示形式 表示词级的输入序列的长度;
步骤五、根据步骤一至四构建深度神经网络,通过所述深度神经网络进行翻译。
2.根据权利要求1所述的基于深度神经网络的机器翻译方法,其特征在于,步骤一具体为:
使用jieba分词对于中文进行分词,使用moses工具包中的tokenization工具对于英文进行分词,中文分词时加入名实体词典;
使用GloVe对于分好词的中英文分别作预训练,预训练的过程为:将低频词替代为词表示<unk>并在训练过程中训练<unk>的词向量,根据词典大小生成one-hot编码放到GloVe中进行训练。
3.根据权利要求1或2所述的基于深度神经网络的机器翻译方法,其特征在于,步骤二具体为:
步骤二一、根据以下公式构造字符级GRU:
其中σ表示sigmoid函数;tanh表示双曲正切函数;表示元素间hardmard乘积;是通过预训练获得的第t个时刻的字符向量;n表示空间R的维度;是第t个时刻的隐变量向量;分别是第t个时刻语境向量和其中间表示形式;分别表示第t个时刻更新门,重置门和输出门,用于控制在GRU单元中信息流,更新门用于捕获长期记忆,重置门用于获得短时记忆,输出门用于控制输出流;是三个控制门的参数矩阵;是生成语境向量中间表示形式的参数矩阵;这些参数矩阵在不同时刻是共享的;
步骤二二、将步骤二一中的字符级GRU作为字符级单方向RNN的基本构造,单方向RNN包括前向RNN和后向RNN;将前向RNN按照从到的顺序读取字符向量并按照步骤二一中的公式计算得到前向隐变量序列将步骤二一中公式的t-1时刻置换为t+1时刻进行计算即为字符级后向RNN,计算得到的后向隐变量序列为将前向隐变量序列和后向隐变量序列进行连接得到字符隐变量进而得到字符级隐变量序列用于作为源句子的向量表示形式;
步骤二三、通过以下公式实现字符级到词级的全局对齐:
4.根据权利要求3所述的基于深度神经网络的机器翻译方法,其特征在于,步骤三具体为:
步骤三一、通过以下公式进行局部软对齐:
其中S表示源句子长度;表示第t个时刻目标词隐变量向量;pt∈[0,S]表示集中在哪个源单词位置;高斯分布的核函数用于表示当前源词位置pt及其语境[pt-D,pt+D]的关注概率,D为语境窗口大小;表示源词向量和目标词向量之间的对齐概率;参数向量vp∈Rn和参数矩阵用于调节每一维的重要性;
步骤三二、建立覆盖向量公式,覆盖向量反映了哪些源语言单词已被翻译以及他们的翻译比例,计算公式为:
5.根据权利要求4所述的基于深度神经网络的机器翻译方法,其特征在于,步骤四具体为:
步骤四一、构造两层栈结构单向RNN,其中第一层和第二层隐变量向量的计算公式为:
步骤四二、对于生成每个目标词的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化,计算公式如下:
步骤四三、根据以下公式构造用于计算目标字符隐变量向量的双层栈:
步骤四四、对于生成每个目标字符的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化,计算公式与步骤三四中的公式相同。
6.根据权利要求5所述的基于深度神经网络的机器翻译方法,其特征在于,步骤五具体为:
步骤五一、根据步骤一至四构建深度学习神经网络,进行联合训练,联合训练使用的目标函数采用两部分目标函数进行均衡,一部分是基于词的损失函数,另一部分是基于字符的损失函数;计算公式如下:
Ja=Jw+Jc
公式Jw表示对于双语训练语料D中最小批M中每个句对(x,y)中的源词xw和目标词yw计算交叉熵损失函数的平均值;其中m=|M|;公式Jc中表示源词xw和目标词yw中字符源字符xc和目标字符yc计算交叉熵损失函数的平均值;Ja是联合训练目标函数;
步骤五二、通过反向传播逐步拟合训练目标,直到无法接近训练目标为止,最终得到训练后的深度神经网络;
步骤五三、使用训练后的深度神经网络进行翻译。
7.一种基于深度神经网络的机器翻译系统,其特征在于,包括:
源句子整体表示模块,用于将字符向量输入至字符级GRU中,并根据字符级GRU的输出结果构造字符级双向RNN,得到的字符级隐变量序列为将字符级隐变量向量对齐到词隐变量向量生成语境向量并将语境向量与词向量连接作为词级GRU的输入,根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量进行连接形成源句子的向量表示形式
联合解码和训练模块,用于根据所述预处理模块、源句子整体表示模块、双语词对齐模块和生成目标句子模块构建深度神经网络,所述深度神经网络用于接收输入数据并得到翻译结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911149958.6A CN110879940B (zh) | 2019-11-21 | 2019-11-21 | 一种基于深度神经网络的机器翻译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911149958.6A CN110879940B (zh) | 2019-11-21 | 2019-11-21 | 一种基于深度神经网络的机器翻译方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110879940A true CN110879940A (zh) | 2020-03-13 |
CN110879940B CN110879940B (zh) | 2022-07-12 |
Family
ID=69730311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911149958.6A Active CN110879940B (zh) | 2019-11-21 | 2019-11-21 | 一种基于深度神经网络的机器翻译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110879940B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414749A (zh) * | 2020-03-18 | 2020-07-14 | 哈尔滨理工大学 | 基于深度神经网络的社交文本依存句法分析系统 |
CN111597829A (zh) * | 2020-05-19 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 翻译方法和装置、存储介质和电子设备 |
CN111737954A (zh) * | 2020-06-12 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 文本相似度确定方法、装置、设备和介质 |
CN112084794A (zh) * | 2020-09-18 | 2020-12-15 | 西藏大学 | 一种藏汉翻译方法和装置 |
CN112417897A (zh) * | 2020-11-30 | 2021-02-26 | 上海携旅信息技术有限公司 | 词对齐模型训练、文本处理的方法、系统、设备和介质 |
CN112541364A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 融合多层次语言特征知识的汉越神经机器翻译的方法 |
CN113190643A (zh) * | 2021-04-13 | 2021-07-30 | 安阳师范学院 | 信息生成方法、终端设备和计算机可读介质 |
CN113342932A (zh) * | 2021-05-31 | 2021-09-03 | 北京明略软件系统有限公司 | 目标词向量的确定方法、装置、存储介质和电子装置 |
CN113435215A (zh) * | 2021-06-22 | 2021-09-24 | 北京捷通华声科技股份有限公司 | 一种机器翻译方法和装置 |
CN113450761A (zh) * | 2021-06-17 | 2021-09-28 | 清华大学深圳国际研究生院 | 一种基于变分自编码器的并行语音合成方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646019A (zh) * | 2013-12-31 | 2014-03-19 | 哈尔滨理工大学 | 一种多个机器翻译系统融合的方法及装置 |
CN103699529A (zh) * | 2013-12-31 | 2014-04-02 | 哈尔滨理工大学 | 一种使用词义消歧的融合机器翻译系统的方法及装置 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
US20180060665A1 (en) * | 2016-08-29 | 2018-03-01 | Nec Laboratories America, Inc. | Dual Stage Attention Based Recurrent Neural Network for Time Series Prediction |
CN107967262A (zh) * | 2017-11-02 | 2018-04-27 | 内蒙古工业大学 | 一种神经网络蒙汉机器翻译方法 |
US20180300317A1 (en) * | 2017-04-14 | 2018-10-18 | Salesforce.Com, Inc. | Neural machine translation with latent tree attention |
CN109271643A (zh) * | 2018-08-08 | 2019-01-25 | 北京捷通华声科技股份有限公司 | 一种翻译模型的训练方法、翻译方法和装置 |
CN110059324A (zh) * | 2019-04-26 | 2019-07-26 | 广州大学 | 基于依存信息监督的神经网络机器翻译方法及装置 |
-
2019
- 2019-11-21 CN CN201911149958.6A patent/CN110879940B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646019A (zh) * | 2013-12-31 | 2014-03-19 | 哈尔滨理工大学 | 一种多个机器翻译系统融合的方法及装置 |
CN103699529A (zh) * | 2013-12-31 | 2014-04-02 | 哈尔滨理工大学 | 一种使用词义消歧的融合机器翻译系统的方法及装置 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
US20180060665A1 (en) * | 2016-08-29 | 2018-03-01 | Nec Laboratories America, Inc. | Dual Stage Attention Based Recurrent Neural Network for Time Series Prediction |
US20180300317A1 (en) * | 2017-04-14 | 2018-10-18 | Salesforce.Com, Inc. | Neural machine translation with latent tree attention |
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN107967262A (zh) * | 2017-11-02 | 2018-04-27 | 内蒙古工业大学 | 一种神经网络蒙汉机器翻译方法 |
CN109271643A (zh) * | 2018-08-08 | 2019-01-25 | 北京捷通华声科技股份有限公司 | 一种翻译模型的训练方法、翻译方法和装置 |
CN110059324A (zh) * | 2019-04-26 | 2019-07-26 | 广州大学 | 基于依存信息监督的神经网络机器翻译方法及装置 |
Non-Patent Citations (4)
Title |
---|
JASON LEE 等: "Fully character-level neural machine translation without explicit segmentation", 《TRANSACTION OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTIC》 * |
刘宇鹏 等: "深度递归的层次化机器翻译模型", 《计算机学报》 * |
包乌格德勒等: "基于RNN和CNN的蒙汉神经机器翻译研究", 《中文信息学报》 * |
陈明月: "基于循环神经网络的短序列机器翻译方法研究", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414749B (zh) * | 2020-03-18 | 2022-06-21 | 哈尔滨理工大学 | 基于深度神经网络的社交文本依存句法分析系统 |
CN111414749A (zh) * | 2020-03-18 | 2020-07-14 | 哈尔滨理工大学 | 基于深度神经网络的社交文本依存句法分析系统 |
CN111597829A (zh) * | 2020-05-19 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 翻译方法和装置、存储介质和电子设备 |
CN111737954A (zh) * | 2020-06-12 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 文本相似度确定方法、装置、设备和介质 |
CN112084794A (zh) * | 2020-09-18 | 2020-12-15 | 西藏大学 | 一种藏汉翻译方法和装置 |
CN112417897A (zh) * | 2020-11-30 | 2021-02-26 | 上海携旅信息技术有限公司 | 词对齐模型训练、文本处理的方法、系统、设备和介质 |
CN112541364A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 融合多层次语言特征知识的汉越神经机器翻译的方法 |
CN113190643A (zh) * | 2021-04-13 | 2021-07-30 | 安阳师范学院 | 信息生成方法、终端设备和计算机可读介质 |
CN113190643B (zh) * | 2021-04-13 | 2023-02-03 | 安阳师范学院 | 信息生成方法、终端设备和计算机可读介质 |
CN113342932A (zh) * | 2021-05-31 | 2021-09-03 | 北京明略软件系统有限公司 | 目标词向量的确定方法、装置、存储介质和电子装置 |
CN113342932B (zh) * | 2021-05-31 | 2024-04-19 | 北京明略软件系统有限公司 | 目标词向量的确定方法、装置、存储介质和电子装置 |
CN113450761A (zh) * | 2021-06-17 | 2021-09-28 | 清华大学深圳国际研究生院 | 一种基于变分自编码器的并行语音合成方法和装置 |
CN113450761B (zh) * | 2021-06-17 | 2023-09-22 | 清华大学深圳国际研究生院 | 一种基于变分自编码器的并行语音合成方法和装置 |
CN113435215A (zh) * | 2021-06-22 | 2021-09-24 | 北京捷通华声科技股份有限公司 | 一种机器翻译方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110879940B (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110879940B (zh) | 一种基于深度神经网络的机器翻译方法及系统 | |
CN109543180B (zh) | 一种基于注意力机制的文本情感分析方法 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN106126507B (zh) | 一种基于字符编码的深度神经翻译方法及系统 | |
CN105938485B (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN109614471B (zh) | 一种基于生成式对抗网络的开放式问题自动生成方法 | |
CN110046252B (zh) | 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法 | |
CN111414749B (zh) | 基于深度神经网络的社交文本依存句法分析系统 | |
CN111241807B (zh) | 一种基于知识引导注意力的机器阅读理解方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN110826338B (zh) | 一种单选择门与类间度量的细粒度语义相似识别的方法 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN110619127B (zh) | 一种基于神经网络图灵机的蒙汉机器翻译方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN110807069B (zh) | 一种基于强化学习算法的实体关系联合抽取模型构建方法 | |
CN115422369B (zh) | 基于改进TextRank的知识图谱补全方法和装置 | |
CN115081437A (zh) | 基于语言学特征对比学习的机器生成文本检测方法及系统 | |
Li et al. | Phrase embedding learning from internal and external information based on autoencoder | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
Hidayatullah et al. | Attention-based cnn-bilstm for dialect identification on javanese text | |
Hegde et al. | Mucs@-machine translation for dravidian languages using stacked long short term memory | |
CN112528168B (zh) | 基于可形变自注意力机制的社交网络文本情感分析方法 | |
CN113191150A (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |