CN109598002A - 基于双向循环神经网络的神经机器翻译方法和系统 - Google Patents
基于双向循环神经网络的神经机器翻译方法和系统 Download PDFInfo
- Publication number
- CN109598002A CN109598002A CN201811358954.4A CN201811358954A CN109598002A CN 109598002 A CN109598002 A CN 109598002A CN 201811358954 A CN201811358954 A CN 201811358954A CN 109598002 A CN109598002 A CN 109598002A
- Authority
- CN
- China
- Prior art keywords
- translation
- layer state
- neural network
- decoder
- current time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 162
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 78
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 38
- 230000001537 neural effect Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 53
- 230000014616 translation Effects 0.000 claims description 155
- 239000013598 vector Substances 0.000 claims description 40
- 230000000306 recurrent effect Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 20
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 101150045568 GNMT gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000007773 growth pattern Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理领域,涉及基于双向循环神经网络的神经机器翻译方法和系统,利用双向循环神经网络获得语句的上下文信息,然后通过双曲正切函数处理上下文信息,在生成目标语句的时候该上下文信息能够提供充分的源语句含义,从而生成质量更高的目标语句;本发明利用双曲正切函数的快速收敛性能来弥补神经机器翻译模型收敛慢造成的影响,提高了翻译模型的训练速度,减少了模型所需的训练时间,并且,在双向循环神经网络中添加双曲正切函数,可以更加充分理解翻译语句的上下文信息,能够进一步提高神经机器翻译模型的翻译质量。
Description
技术领域
本发明属于自然语言处理领域,涉及基于双向循环神经网络的神经机器翻译方法和系统。
背景技术
跨语言翻译已经成为促进全球交流的重要组成部分,越来越多的人使用在线翻译系统和移动应用来进行跨越语言障碍的交流,在海量的数据背景下,人工翻译已经无法承载所有的翻译任务。因此机器翻译被提出来研究如何利用计算机实现自然语言的自动转换,是人工智能和自然语言处理领域的重要研究方向之一。机器翻译为自然语言翻译过程建立概率模型,并利用大量平行语料库和翻译规则来训练模型参数,当模型训练好后可以直接用来翻译文本。机器翻译主要分为统计机器翻译和神经机器翻译,统计机器翻译具有数据稀疏和难以充分利用上下文信息等缺点,神经机器翻译能够较好地解决这些缺点。基于深度学习的神经机器翻译自2013年之后得到迅速发展,成为当前机器翻译领域的研究热点。
神经机器翻译主要使用的是端到端神经机器翻译方法,其主要思想是使用神经网络将源语言文本直接映射成目标语言文本,不再涉及人工手动设计翻译规则,仅需要一个非线性的神经网络便能实现自然语言文本的转换。端到端神经机器翻译主要利用编码器-解码器框架,针对给定的源语言语句,首先使用一个编码器将其映射为一个连续的向量,然后再使用一个解码器将该向量转换为目标语言语句。
尽管神经机器翻译在翻译领域取得很好的表现,但是它却是以训练时间作为代价的,训练一个具有良好翻译效果的模型需要很长的时间,这就造成了计算资源和训练成本的增加。
发明内容
本发明为解决上述问题,提出了一种基于双向循环神经网络神经机器翻译方法和系统,利用快速收敛性函数来处理上下文信息,弥补神经机器翻译模型收敛慢造成的影响,且可以更加充分理解翻译语句的上下文信息,提高了翻译模型的训练速度的同时,能够更进一步提高神经机器翻译模型的翻译质量。
根据本发明的一个方面,提供一种基于双向循环神经网络的神经机器翻译方法,包括:
步骤1,编码器把源语句的词向量表示作为输入,通过双向循环神经网络获得源语句的语义表示,所述语义表示包括编码器中当前时刻正向循环神经网络的隐藏层状态和当前时刻反向循环神经网络的隐藏层状态
步骤2,编码器使用快速收敛特性函数对所述当前时刻正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态进行连接计算,得到当前时刻编码器的隐藏层状态hi,并将当前时刻编码器的隐藏层状态hi发送给解码器;
步骤3,解码器根据所述编码器的隐藏层状态hi和之前时刻解码器的隐藏层状态sj-1计算上下文信息向量cj,并结合之前时刻的翻译输出yj-1计算当前时刻解码器的隐藏层状态sj;
步骤4,编码器根据所述上下文信息向量cj和当前时刻解码器的隐藏层状态sj,以及之前时刻的翻译输出yj-1,计算当前时刻的翻译输出yj,把所有时刻的翻译输出连接起来构成机器翻译的目标语句。
其中,步骤2中所述的快速收敛特性函数可以为双曲正切函数。
根据本发明的一个方面,提供一种基于双向循环神经网络以及双曲正切函数的神经机器翻译系统,包括:
编码器,用于把源语句的词向量表示作为输入,通过双向循环神经网络获得源语句的语义表示,所述语义表示包括编码器中当前时刻正向循环神经网络的隐藏层状态和当前时刻反向循环神经网络的隐藏层状态使用快速收敛特性函数对所述当前时刻正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态进行连接计算,得到当前时刻编码器的隐藏层状态hi,并将当前时刻编码器的隐藏层状态hi发送给解码器;
解码器,用于根据所述编码器的隐藏层状态hi和之前时刻解码器的隐藏层状态sj-1计算上下文信息向量cj,并结合之前时刻的翻译输出yj-1计算当前时刻解码器的隐藏层状态sj;根据所述上下文信息向量cj和当前时刻解码器的隐藏层状态sj,以及之前时刻的翻译输出yj-1,计算当前时刻的翻译输出yj,把所有时刻的翻译输出连接起来构成机器翻译的目标语句。
其中,编码器使用的所述快速收敛特性函数可以为双曲正切函数。
本发明的有益效果在于,提出的一种基于双向循环神经网络的神经机器翻译方法系统,有效地利用双向循环神经网络获得上下文信息,然后使用快速收敛性函数处理上下文信息。在模型训练的过程中,快速收敛性函数可以进一步充分理解上下文信息,在一定程度上提高了模型的翻译质量,同时快速收敛性函数函数的快速收敛特性可以加速翻译模型的收敛速度,减少模型的训练时间。并且与现有的神经机器翻译模型相比,本发明的方法和系统在效率以及效果上都有所提升,在不同的数据上展现了鲁棒性。
附图说明
图1是本发明实施例提供的一种基于双向循环神经网络的神经机器翻译方法流程图;
图2是本发明实施例的编码器使用双曲正切函数计算编码器隐藏层状态的流程图;
图3是是本发明实施例提供的一种基于双向循环神经网络的神经机器翻译系统的结构图;
图4是本发明实施例提供的方法与现有技术在newstest2015和newstest2014数据集上生成的翻译语句的BLEU值,其中BLEU是一种文本评估算法,用来评估机器翻译和人工翻译之间的对应关系;
图5是本发明实施例提供的方法与现有技术在newstest2015数据集上的生成的翻译语句的BLEU值随时间增长的折线图;
图6是本发明实施例提供的方法与现有技术在newstest2015数据集上的训练过程中,不同时间对应的BLEU值。
具体实施方式
下面本发明具体的实施方式进行阐述,来进一步说明本发明的出发点以及相应的技术方案。
图1是本发明实施例提供的一种基于双向循环神经网络的神经机器翻译方法流程图。所述方法包括四个步骤:
步骤1,编码器获取隐藏层状态
本发明实施例使用编码器-解码器架构模型来处理翻译任务。编码器把训练语句或源语句中的词向量表示作为编码器的输入,通过双向循环神经网络获得上下文信息。对于当前时刻的输入xi以及前一时刻正向循环神经网络隐藏层的状态前一时刻反向循环神经网络隐藏层的状态当前时刻正向循环神经网络的隐藏层状态计算为:其中RNN()为循环神经网络的计算,当前时刻反向循环神经网络的隐藏层状态计算为:
步骤2,编码器使用具有快速收敛特性的函数处理隐藏层状态
现有技术中的双向循环神经网络模型对正向隐藏层状态和反向隐藏层状态一般是采取简单的连接方式:这样会导致模型对上下文信息理解不够充分,而且在反向传播更新参数的时候收敛速度很慢。为了提高模型的收敛速度,减少模型训练时间并且充分理解上下文信息,本发明实施例编码器对正向循环神经网络的隐藏层状态和反向循环神经网络的隐藏层状态施加具有快速收敛特性的函数,得到当前时刻编码器的隐藏层状态hi,并将当前时刻编码器的隐藏层状态hi发送给解码器。与传统的双向循环神经网络相比较,本发明不是简单的将两个隐藏层状态连接起来,而是使用具有快速收敛特性的函数对这两个隐藏层状态进行强收敛性的连接处理。这样不仅可以很大程度的提高训练速度,同时也更可以充分的理解上下文信息。
优选的,本发明实施例中所述的具有快速收敛特性的函数是双曲正切函数,双曲正切函数的计算过程为:从函数曲线可以看出双曲正切函数将所有值映射在-1到1区域内,并且导数的最大值为1,由于双曲正切函数的快速收敛特性会很大程度的提高训练速度,仅需要很短的时间可以达到良好的训练效果。如图2所示为本发明实施例中编码器使用双曲正切函数计算编码器隐藏层状态的流程图,编码器使用双曲正切函数对当前时刻正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态进行连接计算得到:
将双曲正切函数和双向循环神经网络结合起来可以获得更好的效果。之前的简单双向循环神经网络只是把上一层的正向循环神经网络结果和反向循环神经网络结果简单连接起来传递给下一层,作为下一层的当前时刻的计算结果:而本发明是在把前一层的正向循环神经网络结果和反向循环神经网络结果经过双曲正切函数处理,即而后再传递给下一层。
本发明所述的具有快速收敛特性的函数不限于双曲正切函数,也可以是其他具有快速收敛特性的函数,是能连接所述正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态,并快速收敛的函数。
步骤3,解码器计算上下文信息向量和解码器的隐藏层状态
解码器接收编码器发送的编码器隐藏层状态,解码器根据所述编码器的隐藏层状态hi和之前时刻解码器的隐藏层状态sj-1计算上下文信息向量cj,并结合之前时刻的翻译输出yj-1计算当前时刻解码器的隐藏层状态sj。
优选的,计算上下文信息向量cj和当前时刻解码器的隐藏层状态sj时,使用注意力机制计算上下文信息向量:其中m是源语句的长度,hi表示源语句的词向量对应的编码器隐藏层状态,是与编码器隐藏层状态hi相对应的权重值,aij的计算是将双曲正切函数的结果应用在对齐机制中,其中sj-1为之前时刻解码器的隐藏层状态,a()为注意力机制对齐函数。计算解码器的隐藏层状态sj=RNN(sj-1,yj-1,cj),其中sj-1为之前时刻解码器的隐藏层状态,cj为上下文信息向量,yj-1为之前时刻的翻译输出,其中RNN()表示循环神经网络的计算。
步骤4,解码器计算翻译输出,并构成机器翻译的目标语句
解码器根据所述上下文信息向量cj和当前时刻解码器的隐藏层状态sj,以及之前时刻的翻译输出yj-1,计算当前时刻的翻译输出yj,把所有时刻的翻译输出连接起来构成机器翻译的目标语句。
优选的,解码器根据上下文信息向量cj,当前时刻的隐藏层状态sj和之前时刻的翻译输出yj-1,使用公式p(yj|x,y<j)=softmax(RNN(yj-1,sj,cj;θ))计算得到当前时刻的翻译输出yj,其中θ表示解码器中所有的参数,softmax()为归一化指数函数,RNN()为循环神经网络的计算,y<j为之前时刻的所有输出;当源语句所有的词向量得到相应的翻译输出后,翻译器把所有时刻的翻译输出连接起来构成其翻译的目标语句,机器翻译的目标语句的计算通过将所有翻译输出以条件概率建模生成。
进一步的,本发明的一个实施例在步骤4计算当前时刻的翻译输出和机器翻译的目标语句之后还包括:步骤5,根据平行语料库中的目标语句和机器翻译的目标语句对比,计算翻译的损失,然后使用随机梯度下降算法反向传播模型的损失值,并更新机器翻译的参数。
图3是本发明实施例提供的一种基于双向循环神经网络的神经机器翻译系统结构图。所述系统至少包括两个模块:编码器1和解码器2。
编码器1,用于把源语句的词向量表示作为输入,通过双向循环神经网络获得源语句的语义表示,所述语义表示包括编码器中当前时刻正向循环神经网络的隐藏层状态和当前时刻反向循环神经网络的隐藏层状态使用快速收敛特性函数对所述当前时刻正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态进行连接计算,得到当前时刻编码器的隐藏层状态hi,并将当前时刻编码器的隐藏层状态hi发送给解码器;
解码器2,用于根据所述编码器的隐藏层状态hi和之前时刻解码器的隐藏层状态sj-1计算上下文信息向量cj,并结合之前时刻的翻译输出yj-1计算当前时刻解码器的隐藏层状态sj;根据所述上下文信息向量cj和当前时刻解码器的隐藏层状态sj,以及之前时刻的翻译输出yj-1,计算当前时刻的翻译输出yj,把所有时刻的翻译输出连接起来构成机器翻译的目标语句。
优选的,编码器使用的所述快速收敛特性函数为双曲正切函数。所述编码器使用双曲正切函数对当前时刻正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态进行连接计算:本发明实施例的基于双向循环神经网络的神经机器翻译系统,由于使用双曲正切函数的快速收敛特性,很大程度的提高训练速度,仅需要很短的时间可以达到良好的训练效果。
优选的,解码器根据所述编码器的隐藏层状态hi和之前时刻解码器的隐藏层状态sj-1计算上下文信息向量cj,并结合之前时刻的翻译输出yj-1计算当前时刻解码器的隐藏层状态sj的方法为:
计算上下文信息向量其中m是源语句的长度,hi表示编码器的隐藏层状态,是与隐藏层状态hi相对应的权重值,其中sj-1为之前时刻解码器的隐藏层状态,a()为注意力机制对齐函数;
计算解码器的隐藏层状态sj=RNN(sj-1,yj-1,cj),其中sj-1为之前时刻解码器的隐藏层状态,cj为上下文信息向量,yj-1为之前时刻解码器的输出,其中RNN()表示循环神经网络的计算。
优选的,解码器计算当前时刻的翻译输出yj,把所有时刻的翻译输出连接起来构成机器翻译的目标语句的方法为:
解码器根据上下文信息向量cj,当前时刻的隐藏层状态sj和之前时刻的翻译输出yj-1,使用公式p(yj|x,y<j)=softmax(RNN(yj-1,sj,cj;θ))计算得到当前时刻的翻译输出yj,其中θ表示解码器中所有的参数,softmax()为归一化指数函数,RNN()为循环神经网络的计算,y<j为之前时刻的所有输出;当源语句所有的词向量得到相应的翻译输出后,翻译器把所有时刻的翻译输出连接起来构成及其翻译的目标语句,机器翻译的目标语句的计算通过将所有翻译输出以条件概率建模生成。
进一步的,本发明的一个实施例中基于双向循环神经网络的神经机器翻译系统还包括:更新模块,在翻译器计算当前时刻的翻译输出yj和机器翻译的目标语句之后,根据平行语料库中的目标语句和机器翻译的目标语句对比,计算翻译的损失,然后使用随机梯度下降算法反向传播模型的损失值,并更新机器翻译的参数。
神经机器翻译模型的评价方法有中多种,我们将学习得到的翻译语句和平行语料库中的目标语句对比计算其BLEU值,以BLEU值的高低来判断神经机器翻译模型的优劣。BLEU是一种文本评估算法,用来评估机器翻译和人工翻译之间的对应关系。当BLEU值越大的时候说明翻译的质量越好。
本发明的实验中,设定模型参数学习率为1.0,权重参数初始化为0.1,遗忘偏差为1.0。为了进一步说明本发明的有效性,将本发明的模型(图4-6中标记为our model)与其他两个常用的现有神经机器翻译开源模型(图4-6中标记为RNNSearch和OpenNMT)进行对比,结果如图4,图5,图6所示。
图4中256units和512units分别表示隐藏层单元格的数量为256和512。Luongattention、Bahdanau attention、gnmt attention是三种不同的注意力机制。newstest2015和newstest2014是两个用于测试的数据集。从图4可以观察到本发明的模型无论是在哪种注意力机制下都比其他两种模型的翻译质量高。
图5中横坐标train steps表示训练的时间步,纵坐标为BLEU大小。这个图表示随着训练时间步的增加,BLEU分数的增长情况。从图5可以看出本发明模型的BLEU值上升速度很快,曲线较陡,能够很快的达到收敛程度,从而减少模型的训练时间。
图6表示具有同样隐藏单元格数量512和同样注意力机制的三种模型(ourmodel,RNNSearch和OpenNMT)在不同时刻的BLEU分数。从图6可以看出,本发明模型与其他两个模型相比达到相同程度的翻译质量所需的时间更短。
从以上实验效果上可以看出,本发明的模型能够在绝大多数情况下取得更好的结果,说明了本发明提出的基于双向循环神经网络的神经机器翻译方法和系统,通过利用快速收敛性函数来处理上下文信息,解决了传统神经机器翻译模型收敛慢造成的影响,且可以更加充分理解了翻译语句的上下文信息,达到了提高翻译模型的训练速度,提高神经机器翻译的翻译质量的目的。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
Claims (10)
1.一种基于双向循环神经网络的神经机器翻译方法,其特征在于,包括:
步骤1,编码器把源语句的词向量表示作为输入,通过双向循环神经网络获得源语句的语义表示,所述语义表示包括编码器中当前时刻正向循环神经网络的隐藏层状态和当前时刻反向循环神经网络的隐藏层状态
步骤2,编码器使用快速收敛特性函数对所述当前时刻正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态进行连接计算,得到当前时刻编码器的隐藏层状态hi,并将当前时刻编码器的隐藏层状态hi发送给解码器;
步骤3,解码器根据所述编码器的隐藏层状态hi和之前时刻解码器的隐藏层状态sj-1计算上下文信息向量cj,并结合之前时刻的翻译输出yj-1计算当前时刻解码器的隐藏层状态sj;
步骤4,解码器根据所述上下文信息向量cj和当前时刻解码器的隐藏层状态sj,以及之前时刻的翻译输出yj-1,计算当前时刻的翻译输出yj,把所有时刻的翻译输出连接起来构成机器翻译的目标语句。
2.根据权利要求1所述的一种基于双向循环神经网络的神经机器翻译方法,其特征在于,步骤2中所述的快速收敛特性函数为双曲正切函数。
3.根据权利要求2所述的一种基于双向循环神经网络的神经机器翻译方法,其特征在于,步骤3所述解码器根据所述编码器的隐藏层状态hi和之前时刻解码器的隐藏层状态sj-1计算上下文信息向量cj,并结合之前时刻的翻译输出yj-1计算当前时刻解码器的隐藏层状态sj的方法包括:
计算上下文信息向量其中m是源语句的长度,hi表示当前时刻编码器的隐藏层状态,是与隐藏层状态hi相对应的权重值,其中sj-1为之前时刻解码器的隐藏层状态,a()为注意力机制对齐函数;
计算解码器的隐藏层状态sj=RNN(sj-1,yj-1,cj),其中sj-1为之前时刻解码器的隐藏层状态,cj为上下文信息向量,yj-1为之前时刻的翻译输出,其中RNN()表示循环神经网络的计算。
4.根据权利要求1所述的一种基于双向循环神经网络的神经机器翻译方法,其特征在于,步骤4计算所述当前时刻的翻译输出yj,把所有时刻的翻译输出连接起来构成机器翻译的目标语句的方法为:
解码器根据上下文信息向量cj,当前时刻的隐藏层状态sj和之前时刻的翻译输出yj-1,使用公式p(yj|x,y<j)=softmax(RNN(yj-1,sj,cj;θ))计算得到当前时刻的翻译输出yj,其中θ表示解码器中所有的参数,softmax()为归一化指数函数,RNN()为循环神经网络的计算,y<j为之前时刻的所有输出;机器翻译的目标语句的计算通过将所有翻译输出以条件概率建模生成。
5.根据权利要求1所述的一种基于双向循环神经网络的神经机器翻译方法,其特征在于,在步骤4计算当前时刻的翻译输出yj,把所有时刻的翻译输出连接起来构成机器翻译的目标语句之后还包括:
步骤5,根据平行语料库中的目标语句和机器翻译的目标语句对比,计算翻译的损失,然后使用随机梯度下降算法反向传播模型的损失值,并更新机器翻译的参数。
6.一种基于双向循环神经网络的神经机器翻译系统,其特征在于,包括:
编码器,用于把源语句的词向量表示作为输入,通过双向循环神经网络获得源语句的语义表示,所述语义表示包括编码器中当前时刻正向循环神经网络的隐藏层状态和当前时刻反向循环神经网络的隐藏层状态使用快速收敛特性函数对所述当前时刻正向循环神经网络的隐藏层状态和所述当前时刻反向循环神经网络的隐藏层状态进行连接计算,得到当前时刻编码器的隐藏层状态hi,并将当前时刻编码器的隐藏层状态hi发送给解码器;
解码器,用于根据所述编码器的隐藏层状态hi和之前时刻解码器的隐藏层状态sj-1计算上下文信息向量cj,并结合之前时刻的翻译输出yj-1计算当前时刻解码器的隐藏层状态sj;根据所述上下文信息向量cj和当前时刻解码器的隐藏层状态sj,以及之前时刻的翻译输出yj-1,计算当前时刻的翻译输出yj,把所有时刻的翻译输出连接起来构成机器翻译的目标语句。
7.根据权利要求6所述的一种基于双向循环神经网络的神经机器翻译系统,其特征在于,编码器使用的所述快速收敛特性函数为双曲正切函数。
8.根据权利要求7所述的一种基于双向循环神经网络的神经机器翻译系统,其特征在于,所述解码器根据所述编码器的隐藏层状态hi和之前时刻解码器的隐藏层状态sj-1计算上下文信息向量cj,并结合之前时刻的翻译输出yj-1计算当前时刻解码器的隐藏层状态sj的方法为:
计算上下文信息向量其中m是源语句的长度,hi表示编码器的隐藏层状态,是与隐藏层状态hi相对应的权重值,其中sj-1为之前时刻解码器的隐藏层状态,a()为注意力机制对齐函数;
计算解码器的隐藏层状态sj=RNN(sj-1,yj-1,cj),其中sj-1为之前时刻解码器的隐藏层状态,cj为上下文信息向量,yj-1为之前时刻解码器的输出,其中RNN()表示循环神经网络的计算。
9.根据权利要求6所述的一种基于双向循环神经网络的神经机器翻译系统,其特征在于,解码器计算当前时刻的翻译输出yj,把所有时刻的翻译输出连接起来构成机器翻译的目标语句的方法为:
解码器根据上下文信息向量cj,当前时刻的隐藏层状态sj和之前时刻的翻译输出yj-1,使用公式p(yj|x,y<j)=softmax(RNN(yj-1,sj,cj;θ))计算得到当前时刻的翻译输出yj,其中θ表示解码器中所有的参数,softmax()为归一化指数函数,RNN()为循环神经网络的计算,y<j为之前时刻的所有输出;机器翻译的目标语句的计算通过将所有翻译输出以条件概率建模生成。
10.根据权利要求6所述的一种基于双向循环神经网络的神经机器翻译系统,其特征在于,还包括:
更新模块,在翻译器计算当前时刻的翻译输出yj,把所有时刻的翻译输出连接起来构成机器翻译的目标语句之后,根据平行语料库中的目标语句和机器翻译的目标语句对比,计算翻译的损失,然后使用随机梯度下降算法反向传播模型的损失值,并更新机器翻译的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811358954.4A CN109598002A (zh) | 2018-11-15 | 2018-11-15 | 基于双向循环神经网络的神经机器翻译方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811358954.4A CN109598002A (zh) | 2018-11-15 | 2018-11-15 | 基于双向循环神经网络的神经机器翻译方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109598002A true CN109598002A (zh) | 2019-04-09 |
Family
ID=65957101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811358954.4A Pending CN109598002A (zh) | 2018-11-15 | 2018-11-15 | 基于双向循环神经网络的神经机器翻译方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109598002A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334359A (zh) * | 2019-06-05 | 2019-10-15 | 华为技术有限公司 | 文本翻译方法和装置 |
CN110489766A (zh) * | 2019-07-25 | 2019-11-22 | 昆明理工大学 | 基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法 |
CN110738062A (zh) * | 2019-09-30 | 2020-01-31 | 内蒙古工业大学 | 一种gru神经网络蒙汉机器翻译方法 |
CN112417000A (zh) * | 2020-11-18 | 2021-02-26 | 杭州电子科技大学 | 一种基于双向循环编解码器神经网络的时间序列缺失值填充方法 |
WO2021082518A1 (zh) * | 2019-11-01 | 2021-05-06 | 华为技术有限公司 | 机器翻译方法、机器翻译模型训练方法、装置及存储介质 |
CN113342842A (zh) * | 2021-06-10 | 2021-09-03 | 南方电网数字电网研究院有限公司 | 基于计量知识的语义查询方法、装置和计算机设备 |
WO2021179956A1 (zh) * | 2020-03-13 | 2021-09-16 | 华为技术有限公司 | 翻译方法、相关装置、设备及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160155436A1 (en) * | 2014-12-02 | 2016-06-02 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
CN107391501A (zh) * | 2017-09-11 | 2017-11-24 | 南京大学 | 一种基于词预测的神经机器翻译方法 |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
CN107632981A (zh) * | 2017-09-06 | 2018-01-26 | 沈阳雅译网络技术有限公司 | 一种引入源语组块信息编码的神经机器翻译方法 |
CN108228576A (zh) * | 2017-12-29 | 2018-06-29 | 科大讯飞股份有限公司 | 文本翻译方法及装置 |
CN108563755A (zh) * | 2018-04-16 | 2018-09-21 | 辽宁工程技术大学 | 一种基于双向循环神经网络的个性化推荐系统及方法 |
CN108563624A (zh) * | 2018-01-03 | 2018-09-21 | 清华大学深圳研究生院 | 一种基于深度学习的自然语言生成方法 |
CN108804608A (zh) * | 2018-05-30 | 2018-11-13 | 武汉烽火普天信息技术有限公司 | 一种基于层次attention的微博谣言立场检测方法 |
-
2018
- 2018-11-15 CN CN201811358954.4A patent/CN109598002A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160155436A1 (en) * | 2014-12-02 | 2016-06-02 | Samsung Electronics Co., Ltd. | Method and apparatus for speech recognition |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
CN107632981A (zh) * | 2017-09-06 | 2018-01-26 | 沈阳雅译网络技术有限公司 | 一种引入源语组块信息编码的神经机器翻译方法 |
CN107391501A (zh) * | 2017-09-11 | 2017-11-24 | 南京大学 | 一种基于词预测的神经机器翻译方法 |
CN108228576A (zh) * | 2017-12-29 | 2018-06-29 | 科大讯飞股份有限公司 | 文本翻译方法及装置 |
CN108563624A (zh) * | 2018-01-03 | 2018-09-21 | 清华大学深圳研究生院 | 一种基于深度学习的自然语言生成方法 |
CN108563755A (zh) * | 2018-04-16 | 2018-09-21 | 辽宁工程技术大学 | 一种基于双向循环神经网络的个性化推荐系统及方法 |
CN108804608A (zh) * | 2018-05-30 | 2018-11-13 | 武汉烽火普天信息技术有限公司 | 一种基于层次attention的微博谣言立场检测方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334359A (zh) * | 2019-06-05 | 2019-10-15 | 华为技术有限公司 | 文本翻译方法和装置 |
CN110334359B (zh) * | 2019-06-05 | 2021-06-15 | 华为技术有限公司 | 文本翻译方法和装置 |
CN110489766A (zh) * | 2019-07-25 | 2019-11-22 | 昆明理工大学 | 基于编码归纳-解码推敲的汉-越低资源神经机器翻译方法 |
CN110738062A (zh) * | 2019-09-30 | 2020-01-31 | 内蒙古工业大学 | 一种gru神经网络蒙汉机器翻译方法 |
WO2021082518A1 (zh) * | 2019-11-01 | 2021-05-06 | 华为技术有限公司 | 机器翻译方法、机器翻译模型训练方法、装置及存储介质 |
WO2021179956A1 (zh) * | 2020-03-13 | 2021-09-16 | 华为技术有限公司 | 翻译方法、相关装置、设备及计算机可读存储介质 |
CN112417000A (zh) * | 2020-11-18 | 2021-02-26 | 杭州电子科技大学 | 一种基于双向循环编解码器神经网络的时间序列缺失值填充方法 |
CN112417000B (zh) * | 2020-11-18 | 2022-01-07 | 杭州电子科技大学 | 一种基于双向循环编解码器神经网络的时间序列缺失值填充方法 |
CN113342842A (zh) * | 2021-06-10 | 2021-09-03 | 南方电网数字电网研究院有限公司 | 基于计量知识的语义查询方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598002A (zh) | 基于双向循环神经网络的神经机器翻译方法和系统 | |
Zhang et al. | Multi-scale attention with dense encoder for handwritten mathematical expression recognition | |
CN107578106B (zh) | 一种融合单词语义知识的神经网络自然语言推理方法 | |
CN109492202B (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN108073711B (zh) | 一种基于知识图谱的关系抽取方法和系统 | |
WO2022057669A1 (zh) | 基于结构化上下文信息的知识图谱预训练方法 | |
CN106126507B (zh) | 一种基于字符编码的深度神经翻译方法及系统 | |
CN108804611B (zh) | 一种基于自我评论序列学习的对话回复生成方法及系统 | |
CN106202068B (zh) | 基于多语平行语料的语义向量的机器翻译方法 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110418210A (zh) | 一种基于双向循环神经网络和深度输出的视频描述生成方法 | |
CN109697232A (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN109635124A (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN107133211A (zh) | 一种基于注意力机制的作文评分方法 | |
CN109977234A (zh) | 一种基于主题关键词过滤的知识图谱补全方法 | |
CN110826303A (zh) | 一种基于弱监督学习的联合信息抽取方法 | |
CN109284361A (zh) | 一种基于深度学习的实体抽取方法及系统 | |
CN108932232A (zh) | 一种基于lstm神经网络的蒙汉互译方法 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN110909736A (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN110516229B (zh) | 一种基于深度学习的领域自适应中文分词方法 | |
CN110427616A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN113157919B (zh) | 语句文本方面级情感分类方法及系统 | |
CN111695335A (zh) | 一种智能面试方法、装置及终端设备 | |
CN110188348A (zh) | 一种基于深度神经网络的中文语言处理模型及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190409 |