CN110879940B - 一种基于深度神经网络的机器翻译方法及系统 - Google Patents

一种基于深度神经网络的机器翻译方法及系统 Download PDF

Info

Publication number
CN110879940B
CN110879940B CN201911149958.6A CN201911149958A CN110879940B CN 110879940 B CN110879940 B CN 110879940B CN 201911149958 A CN201911149958 A CN 201911149958A CN 110879940 B CN110879940 B CN 110879940B
Authority
CN
China
Prior art keywords
word
vector
character
target
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911149958.6A
Other languages
English (en)
Other versions
CN110879940A (zh
Inventor
刘宇鹏
张晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201911149958.6A priority Critical patent/CN110879940B/zh
Publication of CN110879940A publication Critical patent/CN110879940A/zh
Application granted granted Critical
Publication of CN110879940B publication Critical patent/CN110879940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于深度神经网络的机器翻译方法及系统,是为了解决现有的深度神经翻译方法由于词典的限制,使得翻译结果中会出现未登录词,并且过分关注于源语言全局语境,对于源语境覆盖不足或覆盖过多的缺点而提出的,包括:对训练预料进行分词处理,得到字符向量和词向量;构造字符级双向RNN和词级双向RNN;将每个词生成的隐状态向量进行连接形成源句子的向量表示形式;计算源句子中多个词翻译成目标词的对齐概率,并通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量;将对齐模型生成的语境向量作为两层GRU的输入,计算得到目标字符生成概率;构建深度神经网络,通过深度神经网络进行翻译。本发明适用于机器翻译系统。

Description

一种基于深度神经网络的机器翻译方法及系统
技术领域
本发明涉及机器翻译领域,具体涉及一种基于深度神经网络的机器翻译方法及系统。
背景技术
机器翻译是自然语言处理中重要且相对较难的任务,通过计算机强大的计算能力,把源语言句子翻译成为目标语言句子。经历了基于规则的机器翻译系统,基于实例的机器翻译系统发展到今天的基于统计的机器翻译系统。深度神经网络部分克服了传统神经网络的梯度弥散和爆炸,在近几年得到了迅猛的发展,且在自然语言各个应用领域都取得了很大进步。深度神经翻译方法的好处在于实现了端到端(end-to-end)的翻译过程,不像传统的基于统计的机器翻译方法需要独立抽取特征,把特征抽取和翻译模型的训练放到一起来做,这种联合(Joint)模型的方法克服了传统管道(Pipeline)模型的错误传播缺点。很多有机器翻译业务的公司(如Google,Baidu)也把目光转向了深度神经翻译方法,也说明了深度神经翻译方法的前景。
在传统深度神经翻译方法中,存在这样的一些问题:由于词典的限制,使得翻译结果中会出现未登录词(Unknown Word);过分关注于源语言全局语境,对于源语境覆盖不足或覆盖过多;生成目标词时没能很好的捕获特征。
因此,需要一种新的深度神经翻译方法,来解决现有技术的缺陷。
发明内容
本发明的目的是为了解决现有的深度神经翻译方法由于词典的限制,使得翻译结果中会出现未登录词,并且过分关注于源语言全局语境,对于源语境覆盖不足或覆盖过多的缺点,而提出一种基于深度神经网络的机器翻译方法及系统。
一种基于深度神经网络的机器翻译方法,包括:
步骤一、对训练预料进行分词处理,得到字符向量
Figure BDA0002283260740000011
和词向量
Figure BDA0002283260740000012
步骤二、将字符向量
Figure BDA0002283260740000013
输入至字符级GRU中,并根据字符级GRU的输出结果构造字符级双向RNN,得到的字符级隐变量序列为
Figure BDA0002283260740000014
Figure BDA0002283260740000015
表示字符级的输入序列的长度;将字符级隐变量向量对齐到词隐变量向量
Figure BDA0002283260740000016
生成语境向量
Figure BDA0002283260740000017
并将语境向量
Figure BDA0002283260740000018
与词向量
Figure BDA0002283260740000019
连接作为词级GRU的输入,根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量
Figure BDA0002283260740000021
进行连接形成源句子的向量表示形式
Figure BDA0002283260740000022
Figure BDA0002283260740000023
表示词级的输入序列的长度;
步骤三、计算源句子中多个词翻译成目标词的对齐概率,并通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量
Figure BDA0002283260740000024
步骤四、将对齐模型生成的语境向量
Figure BDA0002283260740000025
作为两层GRU的输入,计算得到目标字符生成概率;
步骤五、根据步骤一至四构建深度神经网络,通过所述深度神经网络进行翻译。
本发明还提供一种基于深度神经网络的机器翻译系统,包括:
预处理模块,用于对训练预料进行分词处理,得到字符向量
Figure BDA0002283260740000026
和词向量
Figure BDA0002283260740000027
源句子整体表示模块,用于将字符向量
Figure BDA0002283260740000028
输入至字符级GRU中,并根据字符级GRU的输出结果构造字符级双向RNN,得到的字符级隐变量序列为
Figure BDA0002283260740000029
将字符级隐变量向量对齐到词隐变量向量
Figure BDA00022832607400000210
生成语境向量
Figure BDA00022832607400000211
并将语境向量
Figure BDA00022832607400000212
与词向量
Figure BDA00022832607400000213
连接作为词级GRU的输入,根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量
Figure BDA00022832607400000214
进行连接形成源句子的向量表示形式
Figure BDA00022832607400000215
双语词对齐模块,用于计算源句子中多个词翻译成目标词的对齐概率,并通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量
Figure BDA00022832607400000216
生成目标句子模块,用于将对齐模型生成的语境向量
Figure BDA00022832607400000217
作为两层GRU的输入,计算得到目标字符生成概率;
联合解码和训练模块,用于根据所述预处理模块、源句子整体表示模块、双语词对齐模块和生成目标句子模块构建深度神经网络,所述深度神经网络用于接收输入数据并得到翻译结果。
本发明的有益效果为:
1、使用了词级和字符级的编码器和解码器,在编码中除了考虑词向量外,还考虑了字符向量,可以更好的编码,同时在解码时候解决目标未登录词的问题;
2、在训练过程中使用联合训练目标来平衡两个部分目标函数之间的影响,既可以考虑到词级目标函数,又可以考虑到字符级目标函数;
3、在解码中采用改进的两层GRU更好的区分了每部分语义向量对于目标向量的贡献;使用局部对齐可以更好的建模源句子和目标句子间的翻译对齐关系。
4、把机器翻译分为字符级编码器模块,词级编码器模块,对齐模块,词级解码器,字符级解码器,能够更好的分清每个模块在翻译中的作用,同时这些模块放在一起联合训练可以各司其职。
5、在一个实施例中,本发明在机器翻译自动评价标准BLEU上相对于传统深度神经网络系统提高了3.83BLEU分数,相对于统计机器翻译系统提高了8.69BLEU分数
附图说明
图1为本发明具体实施方式一的基于深度神经网络的机器翻译方法的流程图;
图2为本发明具体实施方式二的基于深度神经网络的机器翻译系统的原理图。
具体实施方式
本发明提出了基于深度神经网络的机器翻译方法及系统,使用带有门递归单元(Gate Recurrent Unit,GRU)的双向循环神经网络(Recurrent Neural Network,RNN)编码器,并整合了字符级编码器。使用栈式RNN作为解码器,并整合了字符级解码器。在编码器和解码间加入关注机制建模源语言和目标语言间的软对齐。方法包括:A、预处理步骤:对于中英文进行分词,生成预训练的词向量;B、源句子整体表示步骤:利用循环神经网络的记忆性对于源句子进行表示;C、双语词对齐步骤:计算源句子中多个词翻译成目标词的对齐概率;D、生成目标句子步骤:按照词生成目标句子并计算目标句子的生成概率;E、联合解码和训练步骤:生成翻译的目标句子并计算成批的损失函数,并反向传播梯度调节参数,进一步前向传播生成更好的翻译结果,直到无法改进翻译质量为止;使用GPU并行计算来加速模型的训练。
A、本发明可以概括为以下的步骤:
B、预处理步骤:对于中英文进行分词,并生成字符/词向量表示作为源句子整体表示和生成目标句子的输入;
C、源句子整体表示步骤:利用循环神经网络的记忆性对于源句子进行特征抽取,整体表示出来;
D、双语词对齐步骤:计算源句子中多个词翻译成目标词的对齐概率;
E、生成目标句子步骤:按照词生成目标句子并计算目标词的生成概率,进而得到句子的生成概率;
F、联合解码和训练步骤:生成翻译的目标句子并计算成批的损失函数,并反向传播梯度调节参数,进一步前向传播生成更好的翻译结果,直到无法改进翻译质量为止;
G、作为本发明的进一步说明,所述的步骤A包含以下步骤:
H、A1、建立词典:对于中文进行分词,对于英文中多词连写和附着的标点进行分割;建立词典生成One-Hot编码作为下一步的输入;
I、A2、获得预训练的词/字符向量:使用单语深度神经语言模型对中英文语料进行训练以生成中英文的字符/词向量表示,生成向量的维度为100维;
J、作为本发明的进一步说明,所述的步骤B包含以下步骤:
B1、双向RNN特征提取:把预处理步骤生成的字符向量
Figure BDA0002283260740000041
通过变换放入到字符级GRU
Figure BDA0002283260740000042
中并按照时间步骤连接成字符级双向RNN,生成的字符级隐变量序列为
Figure BDA0002283260740000043
最后把字符级隐变量向量
Figure BDA0002283260740000044
对齐到词隐变量向量
Figure BDA0002283260740000045
生成字符级语境向量
Figure BDA0002283260740000046
连接上词向量
Figure BDA0002283260740000047
作为输入接着按照时间顺序连接成词级双向RNN。
B2、生成源句子表示向量:把每个词生成的隐状态向量
Figure BDA0002283260740000048
综合起来形成整个原句子的向量表示形式
Figure BDA0002283260740000049
每个隐状态向量中既包含字符向量信息,又包含了词向量信息。
作为本发明的进一步说明,所述的步骤C包含以下步骤:
C1、建立源句子与目标词的局部对齐关系步骤:全局对齐是指在与目标词对齐时所有源侧词都参与其中,这样既耗费计算时间,又不利于翻译长句子。本课题采用局部对齐机制对于每个目标词集中在某个源位置的语境,这样做的好处为可以对于把更多的注意力关注在某个源词及其语境上,更加符合对齐机制。
C2、计算当前目标词的语境向量步骤:通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量,反应了源句子向量表示对于目标词向量的贡献度。
作为本发明的进一步说明,所述的步骤D包含以下步骤:
D1、生成目标词序列步骤:词级解码器的输出模块计算目标词向量表示,使用两层GRU输出,计算时需使用词对齐模型生成的语境向量
Figure BDA00022832607400000410
最终得到目标词生成概率。
D2、生成目标字符序列步骤:字符级解码器的输出模块计算目标字符向量表示,使用两层GRU输出,计算时需使用词对齐模型生成的语境向量
Figure BDA00022832607400000411
最终得到目标字符生成概率。
作为本发明的进一步说明,所述的步骤E包含以下步骤:
E1、联合训练步骤:把步骤A,B,C,D步骤联合起来形成整个深度神经翻译网络,计算目标函数值,并对于给定源语言句子生成目标翻译结果,采用GPU并行训练进行加速。
E2、反向传播步骤:根据计算出来的梯度,对于参数进行更新,不断迭代直到收敛为止。
下面通过具体实施方式详细介绍本发明各步骤的内容。
具体实施方式一:本实施方式的基于深度神经网络的机器翻译方法,如图1所示,包括
步骤一、对训练预料进行分词处理,得到字符向量
Figure BDA0002283260740000051
和词向量
Figure BDA0002283260740000052
具体而言,步骤一可以使用jieba分词对于中文进行分词,使用moses工具包中的tokenization工具对于英文进行分词,中文分词时加入名实体词典以提高分词正确率。使用GloVe对于分好词的中英文分别作预训练以解决过拟合问题,基本过程为把低频词变成特殊的词表示<unk>以在训练过程中训练<unk>的词向量(为了解决在测试数据中词没在训练数据中出现),根据词典大小生成one-hot编码放到GloVe中进行训练。预训练中英文语料采用中英文Wikipedia数据。
步骤二、将字符向量
Figure BDA0002283260740000053
输入至字符级GRU中,并根据字符级GRU的输出结果构造字符级双向RNN,得到的字符级隐变量序列为
Figure BDA0002283260740000054
将字符级隐变量向量对齐到词隐变量向量
Figure BDA0002283260740000055
生成语境向量
Figure BDA0002283260740000056
并将语境向量
Figure BDA0002283260740000057
与词向量
Figure BDA0002283260740000058
连接作为词级GRU的输入,根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量
Figure BDA0002283260740000059
进行连接形成源句子的向量表示形式
Figure BDA00022832607400000510
具体而言,步骤二还包括:
步骤二一、递归深度神经网络可以对于句子进行建模,在建模过程中抽取相应的特征,这些递归单元按照不同句长获得特征,适合对于变长序列进行建模。比较著名的递归深度神经网络有LSTM,GRU,相对于LSTM来说,GRU有更少的训练参数。本专利对于GRU单元进行改进以更好控制生成的隐变量。每个单元的结构如下:
Figure BDA00022832607400000511
Figure BDA00022832607400000512
Figure BDA00022832607400000513
Figure BDA00022832607400000514
Figure BDA0002283260740000061
Figure BDA0002283260740000062
对于字符级单方向RNN的基本构造公式如上,其中σ表示sigmoid函数;tanh表示双曲正切函数;ο表示元素间hardmard乘积;
Figure BDA0002283260740000063
是通过预训练获得的第t个时刻的字符向量;
Figure BDA0002283260740000064
是第t个时刻的隐变量向量;
Figure BDA0002283260740000065
分别是第t个时刻语境向量和其中间表示形式;
Figure BDA0002283260740000066
分别表示第t个时刻更新门,重置门和输出门,用于控制在GRU单元中信息流,更新门用于捕获长期记忆,重置门用于获得短时记忆,输出门用于控制输出流;
Figure BDA0002283260740000067
是三个控制门的参数矩阵;
Figure BDA0002283260740000068
是生成语境向量中间表示形式的参数矩阵;这些参数矩阵在不同时刻是共享的。对于GRU的改进是:增加了输出门,以更好的控制信息流;增加了窥视孔,使得在计算门函数
Figure BDA0002283260740000069
时可以窥视语境向量
Figure BDA00022832607400000610
Figure BDA00022832607400000611
步骤二二、将步骤二一中的字符级GRU作为字符级单方向RNN的基本构造,单方向RNN包括前向RNN和后向RNN;,字符级前向RNN顺序的读取字符向量(从
Figure BDA00022832607400000612
Figure BDA00022832607400000613
)并计算前向隐变量序列
Figure BDA00022832607400000614
(计算公式如上面描述,根据前一个状态计算当前状态);字符级后向RNN计算公式如上,只是把前一个时刻的状态向量(即t-1时刻)变成后一个时刻的状态向量(即t+1时刻),形成的隐变量序列为
Figure BDA00022832607400000615
字符隐变量表示可以通过连接前向和后向字符隐变量来获得
Figure BDA00022832607400000616
Figure BDA00022832607400000617
既含有前向信息又含有后向信息,即得到字符级隐变量序列
Figure BDA00022832607400000618
步骤二三,通过以下公式实现字符级到词级的全局对齐,因为每个字符在生成词的过程中都起到作用。
Figure BDA00022832607400000619
Figure BDA00022832607400000620
其中
Figure BDA00022832607400000621
为字符级语境向量;使用双仿射函数
Figure BDA00022832607400000622
计算字符级隐变量
Figure BDA00022832607400000623
和词级隐变量
Figure BDA00022832607400000624
的相似度;参数矩阵
Figure BDA00022832607400000625
用于调节每一维的重要性。
步骤二四、构建词级双向RNN。词级双向RNN的结构同字符级双向RNN,只是输入除了词级的词向量
Figure BDA0002283260740000071
外还有字符级的语境向量
Figure BDA0002283260740000072
需要把两个部分连接起来
Figure BDA0002283260740000073
作为词级双向RNN的输入,相对于字符级的输入向量
Figure BDA0002283260740000074
多了一个
Figure BDA0002283260740000075
用来捕获字符对于词的贡献;词级隐变量向量
Figure BDA0002283260740000076
词级第t个时刻语境向量
Figure BDA0002283260740000077
和其中间表示形式
Figure BDA0002283260740000078
词级第t个时刻更新门
Figure BDA0002283260740000079
重置门
Figure BDA00022832607400000710
输出门
Figure BDA00022832607400000711
词级参数矩阵
Figure BDA00022832607400000712
步骤三、计算源句子中多个词翻译成目标词的对齐概率,并通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量
Figure BDA00022832607400000713
步骤三的目的是进行局部软对齐和生成覆盖向量,具体而言,步骤三还包括:
步骤三一、对于全局对齐进行了改进,使得与当前目标词进行对齐时更好的集中在某个源词和其语境上。通过以下公式进行局部软对齐
Figure BDA00022832607400000714
Figure BDA00022832607400000715
其中S表示源句子长度;
Figure BDA00022832607400000716
表示第t个时刻目标词隐变量向量;pt∈[0,S]表示集中在哪个源单词位置,它的计算是通过两次非线性变换(tanh和σ)获得;为了表示当前源词位置pt及其语境[pt-D,pt+D](D表示语境的窗口大小)的关注概率,使用高斯分布的核函数
Figure BDA00022832607400000717
来表示;
Figure BDA00022832607400000718
表示源词向量
Figure BDA00022832607400000719
和目标词向量
Figure BDA00022832607400000720
之间的对齐概率;参数向量vp∈Rn和参数矩阵
Figure BDA00022832607400000721
用于调节每一维的重要性;关注概率和对齐概率的乘积会使得在pt和其附近的源词获得更多的对齐概率,从而实现局部关注机制。
步骤三二、建立覆盖向量公式,覆盖向量反映了哪些源语言单词被翻译了以及他们的翻译比例,覆盖向量的计算依赖于上一步生成的局部对齐概率。计算公式如下:
Figure BDA00022832607400000722
其中
Figure BDA00022832607400000723
是对于源隐变量向量
Figure BDA00022832607400000724
的加权平均,权重aw(s,t)为源词位置s和目标词位置t之间的局部软对齐概率。
步骤四、将对齐模型生成的语境向量
Figure BDA00022832607400000725
作为两层GRU的输入,计算得到目标字符生成概率。
具体而言,步骤四还包括:
步骤四一、构造两层栈结构单向RNN。目标词隐变量向量的计算采用了两层栈结构单向RNN(,从左到右生成目标句子)。第一层和第二层隐变量向量的计算公式如下:
Figure BDA0002283260740000081
Figure BDA0002283260740000082
相对于原有的
Figure BDA0002283260740000083
模块,把一个GRU单元分成了两层GRU模块,更好的区分两部分输入向量
Figure BDA0002283260740000084
Figure BDA0002283260740000085
对于输出向量
Figure BDA0002283260740000086
的贡献。其中
Figure BDA0002283260740000087
是生成的中间目标隐变量向量,它的计算依赖于上一时刻的目标词向量
Figure BDA0002283260740000088
和目标隐变量向量
Figure BDA0002283260740000089
Figure BDA00022832607400000810
是生成的目标隐变量向量,它的计算依赖于当前时刻的目标词向量(覆盖向量)
Figure BDA00022832607400000811
和中间目标词隐变量向量
Figure BDA00022832607400000812
目标初始隐变量向量
Figure BDA00022832607400000813
初始化为
Figure BDA00022832607400000814
W0是计算初始隐变量向量的初始参数,
Figure BDA00022832607400000815
是步骤S2中第t个时刻源隐变量向量。对于两个隐变量向量的计算顺序为
Figure BDA00022832607400000816
(
Figure BDA00022832607400000817
表示生成目标句子的长度),最后生成两个隐变量向量序列
Figure BDA00022832607400000818
Figure BDA00022832607400000819
下一步计算时只使用序列
Figure BDA00022832607400000820
步骤四二、对于生成每个目标词的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化,计算公式如下:
Figure BDA00022832607400000821
Figure BDA00022832607400000822
其中yw是生成的目标词向量的one-hot编码,其维数为目标词典的大小VT;参数矩阵为
Figure BDA00022832607400000823
Figure BDA00022832607400000824
Figure BDA00022832607400000825
表示从生成的概率向量
Figure BDA00022832607400000826
中取出当前目标词的生成概率。
步骤四三、同目标词隐变量向量的计算相似,目标字符隐变量向量的计算也采用双层栈结构,计算公式为:
Figure BDA00022832607400000827
Figure BDA0002283260740000091
其中
Figure BDA0002283260740000092
为第t-1时刻的预训练的词向量;
Figure BDA0002283260740000093
为第t-1时刻的字符隐变量向量;
Figure BDA0002283260740000094
为第t时刻词级语境向量,这里使用词级语境向量原因为编码器生成的向量对于字符级解码器有直接贡献。与词级解码器中采用了不同的参数矩阵对于词级语境向量ctw进行变换,这种分离通道方法可以更好的度量词级语境向量
Figure BDA0002283260740000095
对于字符级隐变量向量
Figure BDA0002283260740000096
的贡献。
对于生成每个目标字符的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化,计算公式同词级解码器,只是采用了不同参数矩阵。
步骤四四、对于生成每个目标字符的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化,计算公式与步骤三四中的公式相同。
步骤五、根据步骤一至四构建深度神经网络,通过所述深度神经网络进行翻译。
具体而言,步骤五还包括:
步骤五一、根据步骤一至四构建深度学习神经网络,进行联合训练,目标函数采用两部分目标函数进行均衡,一部分是基于词的损失函数,另一部分是基于字符的损失函数。
计算公式如下:
Figure BDA0002283260740000097
Figure BDA0002283260740000098
Ja=Jw+Jc
公式Jw表示对于双语训练语料D中最小批M(m=|M|)中每个句对(x,y)中的源词xw和目标词yw计算交叉熵损失函数的平均值;公式Jc中表示源词xw和目标词yw中字符源字符xc和目标字符yc计算交叉熵损失函数的平均值;Ja是联合训练目标函数。
步骤五二、通过反向传播逐步拟合训练目标,直到无法接近训练目标为止,最终得到训练后的深度神经网络。
反向传播的过程为:按照更新时使用样本个数来分可以分为成批和随机更新。当样本数量很大时候,批梯度得做完所有样本计算才能更新一次参数,从而花费的时间远大于随机梯度下降。但是随机梯度下降过早的结束了迭代,使得它获取的值只是接近局部最优解,而并非像批梯度下降算法那样是局部最优解。
Adam(Adaptive Moment Estimation)利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。
Figure BDA0002283260740000101
mt=μ·mt-1+(1-μ)·gt
Figure BDA0002283260740000107
Figure BDA0002283260740000102
Figure BDA0002283260740000103
Figure BDA0002283260740000104
Wt+1=Wt+ΔWt
其中,gt表示目标函数Ja对于时刻t时的参数Wt的梯度;mt和nt分别是对梯度的有偏一阶矩估计和二阶矩估计;
Figure BDA0002283260740000105
Figure BDA0002283260740000106
分别是对梯度的无偏一阶矩估计和二阶矩估计;一阶矩权重μ=0.9,二阶矩权重ν=0.999,平滑参数ε=1e-08,学习率η=0.001;训练参数从区间在[-0.1,0.1]之间的均匀分布进行采样;dropout设置为0.2;最小批量设置为100。
对于本专利中深度网络的递归部分采用BPTT(Backpropagation Through Time)算法,它和传统的反向传播算法基本相同,只是在每个隐单元内部参数和隐单元之间的连接参数有很多是共享的,对于每一步的梯度更新需要进行对这些参数进行累加。因为改进版的GRU使用了记忆单元来替代传统的RNN隐层,所以可以避免出现梯度消失和爆炸的现象。
步骤五三、使用训练后的深度神经网络进行翻译。
由具体实施方式一的各步骤内容可知,本发明的主要创新工作包含以下几个方面:(1)在词编码器基础上增加了字符编码器,并使用了带有窥视孔(Peephole)的门神经单元以更好的考虑上一步语境向量;(2)在双语词软对齐的基础上考虑了局部源语言语境,这样远距离对于当前对齐有更少的影响;(3)在词解码器的基础上增加了栈式门神经单元使得解码器能够更好的捕捉目标词特征,同时增加了字符解码器,从字符角度解决目标翻译中未登录词的问题。
具体实施方式二:本实施方式提供一种模块化的神经翻译系统,如图2所示,包括:
预处理模块:对于中英文分词,生成预训练的字符/词向量表示,放入到深度神经翻译网络中。
源句子整体表示模块:使用递归深度神经网络在时间上的记忆特点,使得生成的隐变量单元含有上下文的语境信息,建立语法结构。
双语词对齐模块:采用关注机制,通过推导过程,计算源语言中每个词对于当前的目标词关注概率,把关注概率看成权重,对于源语言隐变量向量进行加权平均生成语境向量,把语境向量作为生成目标词的softmax层的输入,以捕获在翻译过程中源句子的整体信息。
生成目标句子模块:采用逐个生成目标词的方法,最终生成整个目标句子。
联合解码和训练模块:把上面的源句子整体表示模块,双语词对齐模块和生成目标句子模块联合起来进行前向目标函数计算,反向传播错误梯度,最终拟合训练目标函数。
所述的预处理模块包括:
分词子模块:对于预训练语料中的中英文进行分词,对于英文分词采用基于规则的方法,去除多余空格,分隔开附着在词上的标点符号,所有格和系动词,并把大写字母变成小写。中文分词采用基于统计方法:首先使用两个词典(名实体词典和jiema自带的词典),加载字典,生成trie树;(2)给定待分词的句子,使用正则表达式获取连续的字符并切分成短语列表生成有向无环图(DAG),对于DAG动态规划找到最大概率路径,DAG中那些在字典中查不到的字,组合成一个新的短语片段,使用HMM模型(转移概率和发射概率是预先训练,使用的语料为1998人民日报,msr的切分语料以及一些小说)进行分词。
预训练词向量子模块:分别对于中英文Wiki百科数据建立字符/词典,对于源语言和目标语言的字符/词进行One-Hot编码,使用预训练工具Glove(基本原理为采用目标函数来使得log双线性函数拟合共现概率,这样可以考虑其他所有词的全局角度计算两个词的相似程度)生成词向量。
所述的源句子整体表示模块包括:
源字符特征抽取子模块:使用当前字符向量
Figure BDA0002283260740000111
和累积的上一个字符特征向量
Figure BDA0002283260740000112
(这一步字符特征向量依赖于它的上一步字符特征向量,从而完成了所有历史的特征向量
Figure BDA0002283260740000113
的影响)计算当前字符的特征向量
Figure BDA0002283260740000114
每经过一个时间t,循环深度神经网络进行迭代更新,相当于前面词特征向量对于当前词特征向量的影响;
源词特征抽取子模块:基本过程和源字符特征抽取模块,只是在计算当前词的特征向量
Figure BDA0002283260740000121
时,在输入时除了要考虑词向量
Figure BDA0002283260740000122
和累积的上一个词特征向量
Figure BDA0002283260740000123
还需要考虑通过字符关注机制生成的语境向量
Figure BDA0002283260740000124
所述的双语词对齐模块包括:
源中心位置生成模块:根据当前目标词位置t需关注源词位置pt,并按照这个源位置pt使用高斯核函数生成一个权重函数,对于原有的局部对齐子模块中的对齐概率进行加权,即离源位置pt越近的权重最大,离源位置pt越远的权重越小。
局部对齐子模块:源位置s的隐变量向量
Figure BDA0002283260740000125
和目标位置t的隐变量向量
Figure BDA0002283260740000126
间的对齐概率计算采用双线性函数
Figure BDA0002283260740000127
和softmax函数的复合。
所述的生成目标句子模块包括:
词级语言模型子模块:为了更好的区分当前时刻t的语境向量
Figure BDA0002283260740000128
上一刻t-1词向量
Figure BDA0002283260740000129
和目标隐变量向量
Figure BDA00022832607400001210
对于当前时刻t的目标隐变量向量
Figure BDA00022832607400001211
的贡献程度,采用两层的GRU单元把原来的一层区分成两层,更好的区分不同的贡献方式
Figure BDA00022832607400001212
字符级语言模型子模块:与词级语言模型子模块相似,只是使用了词级语境向量
Figure BDA00022832607400001213
作为两层GRU的输入,对于词级语境向量的变换时使用了不同参数。
所述的联合解码和训练模块包括:
联合解码子模块:训练阶段的解码过程为先生成每个目标词再生成当前词的目标字符,测试阶段,本专利的策略为首先运行词级集束搜索以找到最好的翻译结果,如果这个最好翻译含有未登录词,则在该词的基础上运行字符级集束搜索,生成该未登录词的字符序列,把字符组合起来表示生成当前的目标词。
训练子模块:根据每个参数矩阵和中间向量表示进行前向传播,累积计算每一步的局部目标直到联合目标函数,接着计算每个参数的梯度,根据局部目标和每个参数的梯度计算这个参数梯度更新方向,通过反向传播梯度更新每个参数以减少损失,逐步拟合训练目标,直到无法接近训练目标为止。
可以通过表1验证本发明一个实施例的效果,可以看出本发明的分数高于现有的神经网络系统。
表1
Figure BDA00022832607400001214
Figure BDA0002283260740000131
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (3)

1.一种基于深度神经网络的机器翻译方法,其特征在于,包括:
步骤一、对训练预料进行分词处理,得到字符向量
Figure FDA0003664271780000011
和词向量
Figure FDA0003664271780000012
步骤二、将字符向量
Figure FDA0003664271780000013
输入至字符级GRU中,并根据字符级GRU的输出结果构造字符级双向RNN,得到的字符级隐变量序列为
Figure FDA0003664271780000014
Figure FDA00036642717800000124
表示字符级的输入序列的长度;将字符级隐变量向量对齐到词隐变量向量
Figure FDA0003664271780000015
生成语境向量
Figure FDA0003664271780000016
并将语境向量
Figure FDA0003664271780000017
与词向量
Figure FDA0003664271780000018
连接作为词级GRU的输入,根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量
Figure FDA0003664271780000019
进行连接形成源句子的向量表示形式
Figure FDA00036642717800000110
Figure FDA00036642717800000111
表示词级的输入序列的长度;
步骤二具体为:
步骤二一、根据以下公式构造字符级GRU:
Figure FDA00036642717800000112
Figure FDA00036642717800000113
Figure FDA00036642717800000114
Figure FDA00036642717800000115
Figure FDA00036642717800000116
Figure FDA00036642717800000117
其中σ表示sigmoid函数;tanh表示双曲正切函数;
Figure FDA00036642717800000125
表示元素间hardmard乘积;
Figure FDA00036642717800000118
是通过预训练获得的第t个时刻的字符向量;n表示空间R的维度;
Figure FDA00036642717800000119
是第t个时刻的隐变量向量;
Figure FDA00036642717800000120
分别是第t个时刻语境向量和其中间表示形式;
Figure FDA00036642717800000121
分别表示第t个时刻更新门,重置门和输出门,用于控制在GRU单元中信息流,更新门用于捕获长期记忆,重置门用于获得短时记忆,输出门用于控制输出流;
Figure FDA00036642717800000122
是三个控制门的参数矩阵;
Figure FDA00036642717800000123
是生成语境向量中间表示形式的参数矩阵;这些参数矩阵在不同时刻是共享的;
步骤二二、将步骤二一中的字符级GRU作为字符级单方向RNN的基本构造,单方向RNN包括前向RNN和后向RNN;将前向RNN按照从
Figure FDA0003664271780000021
Figure FDA0003664271780000022
的顺序读取字符向量
Figure FDA0003664271780000023
并按照步骤二一中的公式计算得到前向隐变量序列
Figure FDA0003664271780000024
将步骤二一中公式的t-1时刻置换为t+1时刻进行计算即为字符级后向RNN,计算得到的后向隐变量序列为
Figure FDA0003664271780000025
将前向隐变量序列和后向隐变量序列进行连接得到字符隐变量
Figure FDA0003664271780000026
进而得到字符级隐变量序列
Figure FDA0003664271780000027
用于作为源句子的向量表示形式;
步骤二三、通过以下公式实现字符级到词级的全局对齐:
Figure FDA0003664271780000028
Figure FDA0003664271780000029
其中
Figure FDA00036642717800000210
为字符级语境向量;双仿射函数
Figure FDA00036642717800000211
用于计算字符级隐变量
Figure FDA00036642717800000212
和词级隐变量
Figure FDA00036642717800000213
的相似度;
Figure FDA00036642717800000214
为参数矩阵,用于调节每一维的重要性;
步骤二四、将语境向量
Figure FDA00036642717800000215
与词向量
Figure FDA00036642717800000216
连接形成
Figure FDA00036642717800000217
作为词级GRU的输入,并根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量
Figure FDA00036642717800000218
进行连接形成源句子的向量表示形式
Figure FDA00036642717800000219
其中词级双向RNN与字符级双向RNN的结构相同;
步骤三、计算源句子中多个词翻译成目标词的对齐概率,并通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量
Figure FDA00036642717800000220
步骤三具体为:
步骤三一、通过以下公式进行局部软对齐:
Figure FDA00036642717800000221
Figure FDA00036642717800000222
其中S表示源句子长度;
Figure FDA00036642717800000223
表示第t个时刻目标词隐变量向量;pt∈[0,S]表示集中在哪个源单词位置;高斯分布的核函数
Figure FDA00036642717800000224
用于表示当前源词位置pt及其语境[pt-D,pt+D]的关注概率,D为语境窗口大小;
Figure FDA00036642717800000225
表示源词向量
Figure FDA00036642717800000226
和目标词向量
Figure FDA0003664271780000031
之间的对齐概率;参数向量vp∈Rn和参数矩阵
Figure FDA0003664271780000032
用于调节每一维的重要性;
步骤三二、建立覆盖向量公式,覆盖向量反映了哪些源语言单词已被翻译以及他们的翻译比例,计算公式为:
Figure FDA0003664271780000033
其中
Figure FDA0003664271780000034
是对于源隐变量向量
Figure FDA0003664271780000035
的加权平均,权重aw(s,t)为源词位置s和目标词位置t之间的局部软对齐概率;
步骤四、将对齐模型生成的语境向量
Figure FDA0003664271780000036
作为两层GRU的输入,计算得到目标字符生成概率;
步骤四具体为:
步骤四一、构造两层栈结构单向RNN,其中第一层和第二层隐变量向量的计算公式为:
Figure FDA0003664271780000037
Figure FDA0003664271780000038
其中
Figure FDA0003664271780000039
是生成的中间目标隐变量向量,它的计算依赖于上一时刻的目标词向量
Figure FDA00036642717800000310
和目标隐变量向量
Figure FDA00036642717800000311
Figure FDA00036642717800000312
是生成的目标隐变量向量,它的计算依赖于覆盖向量
Figure FDA00036642717800000313
和中间目标词隐变量向量
Figure FDA00036642717800000314
步骤四二、对于生成每个目标词的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化,计算公式如下:
Figure FDA00036642717800000315
Figure FDA00036642717800000316
其中yw是生成的目标词向量的one-hot编码,其维数为目标词典的大小VT;参数矩阵为
Figure FDA00036642717800000317
Figure FDA00036642717800000318
表示从生成的概率向量
Figure FDA00036642717800000319
中取出当前目标词的生成概率;
步骤四三、根据以下公式构造用于计算目标字符隐变量向量的双层栈:
Figure FDA00036642717800000320
Figure FDA00036642717800000321
其中
Figure FDA0003664271780000041
为第t-1时刻的预训练的词向量;
Figure FDA0003664271780000042
为第t-1时刻的字符隐变量向量;
Figure FDA0003664271780000043
为第t时刻词级语境向量;
步骤四四、对于生成每个目标字符的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化,计算公式与步骤三四中的公式相同;
步骤五、根据步骤一至四构建深度神经网络,通过所述深度神经网络进行翻译;
步骤五具体为:
步骤五一、根据步骤一至四构建深度学习神经网络,进行联合训练,联合训练使用的目标函数采用两部分目标函数进行均衡,一部分是基于词的损失函数,另一部分是基于字符的损失函数;计算公式如下:
Figure FDA0003664271780000044
Figure FDA0003664271780000045
Ja=Jw+Jc
公式Jw表示对于双语训练语料D中最小批M中每个句对(x,y)中的源词xw和目标词yw计算交叉熵损失函数的平均值;其中m=|M|;公式Jc中表示源词xw和目标词yw中字符源字符xc和目标字符yc计算交叉熵损失函数的平均值;Ja是联合训练目标函数;
步骤五二、通过反向传播逐步拟合训练目标,直到无法接近训练目标为止,最终得到训练后的深度神经网络;
步骤五三、使用训练后的深度神经网络进行翻译。
2.根据权利要求1所述的基于深度神经网络的机器翻译方法,其特征在于,步骤一具体为:
使用jieba分词对于中文进行分词,使用moses工具包中的tokenization工具对于英文进行分词,中文分词时加入名实体词典;
使用GloVe对于分好词的中英文分别作预训练,预训练的过程为:将低频词替代为词表示<unk>并在训练过程中训练<unk>的词向量,根据词典大小生成one-hot编码放到GloVe中进行训练。
3.一种基于深度神经网络的机器翻译系统,其特征在于,包括:
预处理模块,用于对训练预料进行分词处理,得到字符向量
Figure FDA0003664271780000046
和词向量
Figure FDA0003664271780000047
源句子整体表示模块,用于将字符向量
Figure FDA0003664271780000048
输入至字符级GRU中,并根据字符级GRU的输出结果构造字符级双向RNN,得到的字符级隐变量序列为
Figure FDA0003664271780000051
将字符级隐变量向量对齐到词隐变量向量
Figure FDA0003664271780000052
生成语境向量
Figure FDA0003664271780000053
并将语境向量
Figure FDA0003664271780000054
与词向量
Figure FDA0003664271780000055
连接作为词级GRU的输入,根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量
Figure FDA0003664271780000056
进行连接形成源句子的向量表示形式
Figure FDA0003664271780000057
源句子整体表示模块的具体执行步骤为:
步骤二一、根据以下公式构造字符级GRU:
Figure FDA0003664271780000058
Figure FDA0003664271780000059
Figure FDA00036642717800000510
Figure FDA00036642717800000511
Figure FDA00036642717800000512
Figure FDA00036642717800000513
其中σ表示sigmoid函数;tanh表示双曲正切函数;
Figure FDA00036642717800000526
表示元素间hardmard乘积;
Figure FDA00036642717800000514
是通过预训练获得的第t个时刻的字符向量;n表示空间R的维度;
Figure FDA00036642717800000515
是第t个时刻的隐变量向量;
Figure FDA00036642717800000516
分别是第t个时刻语境向量和其中间表示形式;
Figure FDA00036642717800000517
分别表示第t个时刻更新门,重置门和输出门,用于控制在GRU单元中信息流,更新门用于捕获长期记忆,重置门用于获得短时记忆,输出门用于控制输出流;
Figure FDA00036642717800000518
是三个控制门的参数矩阵;
Figure FDA00036642717800000519
是生成语境向量中间表示形式的参数矩阵;这些参数矩阵在不同时刻是共享的;
步骤二二、将步骤二一中的字符级GRU作为字符级单方向RNN的基本构造,单方向RNN包括前向RNN和后向RNN;将前向RNN按照从
Figure FDA00036642717800000520
Figure FDA00036642717800000521
的顺序读取字符向量
Figure FDA00036642717800000522
并按照步骤二一中的公式计算得到前向隐变量序列
Figure FDA00036642717800000523
将步骤二一中公式的t-1时刻置换为t+1时刻进行计算即为字符级后向RNN,计算得到的后向隐变量序列为
Figure FDA00036642717800000524
将前向隐变量序列和后向隐变量序列进行连接得到字符隐变量
Figure FDA00036642717800000525
进而得到字符级隐变量序列
Figure FDA0003664271780000061
用于作为源句子的向量表示形式;
步骤二三、通过以下公式实现字符级到词级的全局对齐:
Figure FDA0003664271780000062
Figure FDA0003664271780000063
其中
Figure FDA0003664271780000064
为字符级语境向量;双仿射函数
Figure FDA0003664271780000065
用于计算字符级隐变量
Figure FDA0003664271780000066
和词级隐变量
Figure FDA0003664271780000067
的相似度;
Figure FDA0003664271780000068
为参数矩阵,用于调节每一维的重要性;
步骤二四、将语境向量
Figure FDA0003664271780000069
与词向量
Figure FDA00036642717800000610
连接形成
Figure FDA00036642717800000611
作为词级GRU的输入,并根据GRU的输出结果构造词级双向RNN;将每个词生成的隐状态向量
Figure FDA00036642717800000612
进行连接形成源句子的向量表示形式
Figure FDA00036642717800000613
其中词级双向RNN与字符级双向RNN的结构相同;
双语词对齐模块,用于计算源句子中多个词翻译成目标词的对齐概率,并通过获得的对齐概率和源语言的隐变量向量计算当前词的语境向量
Figure FDA00036642717800000614
双语词对齐模块的具体执行步骤为:
步骤三一、通过以下公式进行局部软对齐:
Figure FDA00036642717800000615
Figure FDA00036642717800000616
其中S表示源句子长度;
Figure FDA00036642717800000617
表示第t个时刻目标词隐变量向量;pt∈[0,S]表示集中在哪个源单词位置;高斯分布的核函数
Figure FDA00036642717800000618
用于表示当前源词位置pt及其语境[pt-D,pt+D]的关注概率,D为语境窗口大小;
Figure FDA00036642717800000619
表示源词向量
Figure FDA00036642717800000620
和目标词向量
Figure FDA00036642717800000621
之间的对齐概率;参数向量vp∈Rn和参数矩阵
Figure FDA00036642717800000622
用于调节每一维的重要性;
步骤三二、建立覆盖向量公式,覆盖向量反映了哪些源语言单词已被翻译以及他们的翻译比例,计算公式为:
Figure FDA00036642717800000623
其中
Figure FDA0003664271780000071
是对于源隐变量向量
Figure FDA0003664271780000072
的加权平均,权重aw(s,t)为源词位置s和目标词位置t之间的局部软对齐概率;
生成目标句子模块,用于将对齐模型生成的语境向量
Figure FDA0003664271780000073
作为两层GRU的输入,计算得到目标字符生成概率;
生成目标句子模块的具体执行步骤为:
步骤四一、构造两层栈结构单向RNN,其中第一层和第二层隐变量向量的计算公式为:
Figure FDA0003664271780000074
Figure FDA0003664271780000075
其中
Figure FDA0003664271780000076
是生成的中间目标隐变量向量,它的计算依赖于上一时刻的目标词向量
Figure FDA0003664271780000077
和目标隐变量向量
Figure FDA0003664271780000078
Figure FDA0003664271780000079
是生成的目标隐变量向量,它的计算依赖于覆盖向量
Figure FDA00036642717800000710
和中间目标词隐变量向量
Figure FDA00036642717800000711
步骤四二、对于生成每个目标词的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化,计算公式如下:
Figure FDA00036642717800000712
Figure FDA00036642717800000713
其中yw是生成的目标词向量的one-hot编码,其维数为目标词典的大小VT;参数矩阵为
Figure FDA00036642717800000714
Figure FDA00036642717800000715
Figure FDA00036642717800000716
表示从生成的概率向量
Figure FDA00036642717800000717
中取出当前目标词的生成概率;
步骤四三、根据以下公式构造用于计算目标字符隐变量向量的双层栈:
Figure FDA00036642717800000718
Figure FDA00036642717800000719
其中
Figure FDA00036642717800000720
为第t-1时刻的预训练的词向量;
Figure FDA00036642717800000721
为第t-1时刻的字符隐变量向量;
Figure FDA00036642717800000722
为第t时刻词级语境向量;
步骤四四、对于生成每个目标字符的概率通过一个激活函数σ和softmax层对于目标词表中的词进行概率归一化,计算公式与步骤三四中的公式相同;
联合解码和训练模块,用于根据所述预处理模块、源句子整体表示模块、双语词对齐模块和生成目标句子模块构建深度神经网络,所述深度神经网络用于接收输入数据并得到翻译结果;
联合解码和训练模块的具体执行步骤为:
步骤五一、根据预处理模块、源句子整体表示模块、双语词对齐模块和生成目标句子模块构建深度学习神经网络,进行联合训练,联合训练使用的目标函数采用两部分目标函数进行均衡,一部分是基于词的损失函数,另一部分是基于字符的损失函数;计算公式如下:
Figure FDA0003664271780000081
Figure FDA0003664271780000082
Ja=Jw+Jc
公式Jw表示对于双语训练语料D中最小批M中每个句对(x,y)中的源词xw和目标词yw计算交叉熵损失函数的平均值;其中m=|M|;公式Jc中表示源词xw和目标词yw中字符源字符xc和目标字符yc计算交叉熵损失函数的平均值;Ja是联合训练目标函数;
步骤五二、通过反向传播逐步拟合训练目标,直到无法接近训练目标为止,最终得到训练后的深度神经网络;
步骤五三、使用训练后的深度神经网络进行翻译。
CN201911149958.6A 2019-11-21 2019-11-21 一种基于深度神经网络的机器翻译方法及系统 Active CN110879940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911149958.6A CN110879940B (zh) 2019-11-21 2019-11-21 一种基于深度神经网络的机器翻译方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911149958.6A CN110879940B (zh) 2019-11-21 2019-11-21 一种基于深度神经网络的机器翻译方法及系统

Publications (2)

Publication Number Publication Date
CN110879940A CN110879940A (zh) 2020-03-13
CN110879940B true CN110879940B (zh) 2022-07-12

Family

ID=69730311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911149958.6A Active CN110879940B (zh) 2019-11-21 2019-11-21 一种基于深度神经网络的机器翻译方法及系统

Country Status (1)

Country Link
CN (1) CN110879940B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414749B (zh) * 2020-03-18 2022-06-21 哈尔滨理工大学 基于深度神经网络的社交文本依存句法分析系统
CN111597829B (zh) * 2020-05-19 2021-08-27 腾讯科技(深圳)有限公司 翻译方法和装置、存储介质和电子设备
CN111737954B (zh) * 2020-06-12 2023-07-28 百度在线网络技术(北京)有限公司 文本相似度确定方法、装置、设备和介质
CN112084794A (zh) * 2020-09-18 2020-12-15 西藏大学 一种藏汉翻译方法和装置
CN112417897B (zh) * 2020-11-30 2023-04-07 上海携旅信息技术有限公司 词对齐模型训练、文本处理的方法、系统、设备和介质
CN112541364A (zh) * 2020-12-03 2021-03-23 昆明理工大学 融合多层次语言特征知识的汉越神经机器翻译的方法
CN113190643B (zh) * 2021-04-13 2023-02-03 安阳师范学院 信息生成方法、终端设备和计算机可读介质
CN113342932B (zh) * 2021-05-31 2024-04-19 北京明略软件系统有限公司 目标词向量的确定方法、装置、存储介质和电子装置
CN113450761B (zh) * 2021-06-17 2023-09-22 清华大学深圳国际研究生院 一种基于变分自编码器的并行语音合成方法和装置
CN113435215A (zh) * 2021-06-22 2021-09-24 北京捷通华声科技股份有限公司 一种机器翻译方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646019A (zh) * 2013-12-31 2014-03-19 哈尔滨理工大学 一种多个机器翻译系统融合的方法及装置
CN103699529A (zh) * 2013-12-31 2014-04-02 哈尔滨理工大学 一种使用词义消歧的融合机器翻译系统的方法及装置
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN107357789A (zh) * 2017-07-14 2017-11-17 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN109271643A (zh) * 2018-08-08 2019-01-25 北京捷通华声科技股份有限公司 一种翻译模型的训练方法、翻译方法和装置
CN110059324A (zh) * 2019-04-26 2019-07-26 广州大学 基于依存信息监督的神经网络机器翻译方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10929674B2 (en) * 2016-08-29 2021-02-23 Nec Corporation Dual stage attention based recurrent neural network for time series prediction
US10565318B2 (en) * 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646019A (zh) * 2013-12-31 2014-03-19 哈尔滨理工大学 一种多个机器翻译系统融合的方法及装置
CN103699529A (zh) * 2013-12-31 2014-04-02 哈尔滨理工大学 一种使用词义消歧的融合机器翻译系统的方法及装置
CN106126507A (zh) * 2016-06-22 2016-11-16 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
CN107357789A (zh) * 2017-07-14 2017-11-17 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
CN107967262A (zh) * 2017-11-02 2018-04-27 内蒙古工业大学 一种神经网络蒙汉机器翻译方法
CN109271643A (zh) * 2018-08-08 2019-01-25 北京捷通华声科技股份有限公司 一种翻译模型的训练方法、翻译方法和装置
CN110059324A (zh) * 2019-04-26 2019-07-26 广州大学 基于依存信息监督的神经网络机器翻译方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Fully character-level neural machine translation without explicit segmentation;Jason Lee 等;《Transaction of the Association for Computational Linguistic》;20171001;365-378 *
基于RNN和CNN的蒙汉神经机器翻译研究;包乌格德勒等;《中文信息学报》;20180815(第08期);60-67 *
基于循环神经网络的短序列机器翻译方法研究;陈明月;《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》;20190115;F084-98 *
深度递归的层次化机器翻译模型;刘宇鹏 等;《计算机学报》;20170430;第40卷(第4期);861-871 *

Also Published As

Publication number Publication date
CN110879940A (zh) 2020-03-13

Similar Documents

Publication Publication Date Title
CN110879940B (zh) 一种基于深度神经网络的机器翻译方法及系统
CN109543180B (zh) 一种基于注意力机制的文本情感分析方法
CN108733792B (zh) 一种实体关系抽取方法
Zhu et al. CAN-NER: Convolutional attention network for Chinese named entity recognition
US10255275B2 (en) Method and system for generation of candidate translations
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN110046252B (zh) 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN111414749B (zh) 基于深度神经网络的社交文本依存句法分析系统
CN110619127B (zh) 一种基于神经网络图灵机的蒙汉机器翻译方法
CN110807335B (zh) 基于机器学习的翻译方法、装置、设备及存储介质
CN112232087A (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
KR20190143415A (ko) 자질 선별을 통한 고성능 기계독해 방법
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN115081437A (zh) 基于语言学特征对比学习的机器生成文本检测方法及系统
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
Hidayatullah et al. Attention-based cnn-bilstm for dialect identification on javanese text
Li et al. Phrase embedding learning from internal and external information based on autoencoder
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
Hegde et al. Mucs@-machine translation for dravidian languages using stacked long short term memory
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
Wang et al. Classification-based RNN machine translation using GRUs
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN111382333A (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN115964475A (zh) 一种用于医疗问诊的对话摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant