CN108647214B - 基于深层神经网络翻译模型的解码方法 - Google Patents
基于深层神经网络翻译模型的解码方法 Download PDFInfo
- Publication number
- CN108647214B CN108647214B CN201810270468.0A CN201810270468A CN108647214B CN 108647214 B CN108647214 B CN 108647214B CN 201810270468 A CN201810270468 A CN 201810270468A CN 108647214 B CN108647214 B CN 108647214B
- Authority
- CN
- China
- Prior art keywords
- translation model
- model
- vocabulary
- neural network
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 161
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000007246 mechanism Effects 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000007476 Maximum Likelihood Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 230000008034 disappearance Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语言处理领域,提出了一种基于深层神经网络翻译模型的解码方法,旨在解决机器翻译模型中模型训练复杂度高、训练难度大解码速度慢等问题。该方法的具体实施方式包括:对待翻译语句进行分词处理,得到源语言词汇;步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词;步骤3,基于步骤2所得到的目标语言单词,确定出所述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为所述翻译模型的输出;其中,所述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络。本发明提升了模型翻译质量,提高了模型解码速度。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于深层神经网络翻译模型的解码方法。
背景技术
机器翻译又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种具有相同语义的自然语言(目标语言)的过程。机器翻译就是实现从源语言到目标语言转换的过程。机器翻译的系统框架可以分为两类:基于规则的机器翻译(RBMT)和基于语料库的机器翻译(CBMT)。其中CBMT又可分为基于实例的机器翻译(EBMT)、基于统计的机器翻译(SMT)以及近年流行的利用深度学习模型所构建的神经网络机器翻译(NMT)。
其中,基于统计的机器翻译方法是将源文本和目标文本之间的翻译看成是一个概率对照的关系,试图用纯数学的概率统计来获取学习语料中的翻译对应关系;其任务就是在所有可能的目标语言的句子中,寻找概率最大的句子作为翻译结果。统计机器翻译由最初的基于词的翻译模型,发展到基于短语的翻译模型、基于层次短语的翻译模型、基于句法的翻译模型和基于语义的翻译模型。神经网络机器翻译是指采用神经网络以端到端(End-to-End)方式进行翻译建模的机器翻译方法,其基本思想是使用神经网络直接将源语言映射成目标语言文本。
虽然端到端神经网络机器翻译在近年来获得了迅速的发展,但仍存在许多重要问题有待解决。比如训练复杂度高、训练难度大、存在“梯度消失”问题,解码速度慢等问题。神经网络模型的深度对其效果有着显著的影响,然而,目前基于端到端的神经网络机器翻译方法往往由于梯度传递和训练难度等问题,导致深层的机器翻译模型无法达到翻译质量的提升。实验发现,直接简单地提高神经网络机器翻译模型的层数,翻译质量反而出现下降。在深层模型的基础上加入残差网络连接,只能在一定程度上增强模型梯度流的纵向更新。由于模型层数的加深,模型参数的增加和较大词汇表导致了深层模型的解码速度出现下降的问题。
发明内容
为了解决现有技术中的上述问题,即为了解决深层神经网络机器翻译模型中训练困难和解码慢的问题,本申请提供了一种基于深层神经网络翻译模型的解码方法,以解决上述问题。
本申请提供了基于深层神经网络翻译模型的解码方法,该方法包括如下步骤:步骤1,对待翻译语句进行分词处理,得到源语言词汇;步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与上述源语言词汇对齐的目标语言单词;步骤3,基于步骤2所得到的目标语言单词,确定出上述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为上述翻译模型的输出;其中,上述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络。
在一些示例中,所述翻译模型,其训练过程包括:对训练用数据中的双语句子对进行分词和词频统计,确定所述翻译模型词汇表大小;采用极大似然目标函数作为约束函数对所述初始深层神经网络翻译模型进行参数训练;其中,所述双语句子对为存在对应关系的一对源语言语句和目标语言语句。
在一些示例中,上述翻译模型词汇表包括目标端词汇表和源端词汇表;上述“对训练用数据中的双语句子对进行分词和词频统计,确定翻译模型词汇表大小”,包括:对上述双语句子对进行词法分析以进行自动分词;统计上述源语言语句和上述目标语言语句在自动分词后的词频和占比,确定目标端词汇表和和源端词汇表大小。
在一些示例中,“基于门限残差机制和平行注意力机制的深层神经网络”,其构建方法为:步骤31,利用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构;步骤32,使用sigmoid函数作为上述门限残差所在的门限残差网络模型的门控制激活函数,将上述长短时记忆网络的输入与上述门限残差网络模型的门限按位相乘得到上述门限残差网络模型的门限输出;步骤33,将上述长短时记忆网络的初始输出和上述门限输出相加作为上述门限残差网络模型的输出,叠加到所述翻译模型相应的中间层的输入中;步骤34,将上述翻译模型的解码器的底层和编码器的底层相连,进行注意力操作计算,并将所计算出的注意力作为上述解码器底层的上述长短时记忆网络的输出向上层传递;步骤35,将上述翻译模型的上述解码器的顶层和上述编码器的顶层相连,进行注意力操作计算,将利用所计算出的注意力输出预测目标语言单词。
在一些示例中,“采用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构”,包括通过如下公式构建基于深层神经网络的所述翻译模型:
it=δ(Wixt+Uiht-1+bi)
ft=δ(Wfxt+Ufht-1+bf)
ot=δ(Woxt+Uoht-1+bo)
ht=ot⊙tanh(ct)
其中,xt是当前时刻的输入,δ是sigmoid函数,ht-1是t-1时刻的隐层状态,W、U、b为模型参数,i、f、o分别表示输入门、遗忘门、输出门;遗忘门ft控制着每一个内存单元需要遗忘多少信息,输入门it控制着每一个内存单元加入多少新的信息,输出门ot控制着每一个内存单元输出多少信息。
在一些示例中,在步骤32中,上述门限残差网络模型的门控制函数为;
gt=δ(Wgxt+Ught-1+bg)
所述门限输出为所述门控制函数与所述长短时记忆网络的输入的点积:
其中,Ug、Wg、bg为模型参数。
在一些示例中,通过如下公式计算所述门限残差网络模型输出:
ht=ot⊙tanh(ct)+gt⊙xt。
在一些示例中,“将所述深层神经网络翻译模型的解码器的底层和编码器的底层相连,进行注意力操作计算,并将所计算出的注意力作为所述解码器底层的所述长短时记忆网络的输出向上层传递”,包括:使用所述解码器底层隐层状态和所述编码器底层隐层状态计算文本矢量:
利用级联层级联所述文本矢量和所述隐层状态得到所述注意力输出:
tj=tanh(Wc[sj;cj]+b)=tanh(Wc1sj+Wc2+b)
其中,cj为文本矢量,tj为注意力输出,Wc1、Wc2为模型参数,sj为j时刻的隐层状态。
在一些示例中,“将所述深层神经网络翻译模型的所述解码器的顶层和所述编码器的顶层相连,进行注意力操作计算,利用所计算出的注意力输出预测目标语言单词”,通过如下公式预存目标语言单词:
在一些示例中,所述极大似然目标函数为所述双语语句对的对数似然函数之和:
D为平行的双语语句对的集合,θ为模型参数。
在一些示例中,“使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词”,包括:步骤11,使用自动对齐工具对平行语料进行词对齐;步骤12,统计得到各上述源语言词汇到任何目标语言的对齐个数,采用极大似然方法,得到各上述源语言词汇到任何目标语言的翻译概率;步骤13,根据模型词汇表,转化得到所述目标端词汇表中源语言对应的目标语言单词中概率最高的预定数目个单词,并以索引的形式保存。
本申请提供的基于深层神经网络翻译模型的解码方法,通过在深层神经网络翻译模型的结构中引入门限残差机制和平行注意力机制以提升翻译模型的性能。其中,使用门限残差网络模型增强了梯度流在深层神经网络翻译模型中纵向和横向的更新;使用平行注意力机制,充分利用了不同层隐层状态的差别,建立了编码器和解码器底层隐层状态之间的联系;动态词汇表的建立,使得每个待测句子动态得生成其专属小规模词汇表,以提高深层神经网络机器翻译模型的解码速度。从而解决了深层神经网络翻译模型训练复杂度高、训练难度大、存在“梯度消失”以及解码速度慢等问题。
附图说明
图1是根据本申请的基于深层神经网络翻译模型的解码方法的一个实施例的流程图;
图2是将门限残差机制融入深层神经网络机器翻译模型的示意图;
图3是将平行注意力机制融入深层神经网络机器翻译模型的示意图;
图4是根据本申请的基于深层神经网络翻译模型的解码方法中动态词汇表解码的词汇表变化示意图;
图5是根据本申请的基于深层神经网络翻译模型的解码方法的应用的流程图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的基于深层神经网络翻译模型的解码方法实施例的流程图。
如图1所示,本申请的基于深层神经网络翻译模型的解码方法,包括如下步骤:
步骤1,对待翻译语句进行分词处理,得到源语言词汇。
在本实施例中,应用基于深层神经网络翻译模型的解码方法的电子设备或应用平台对待进行翻译的语句进行分词处理,得到该语句的源语言词汇;上述源语言词汇可以是单词、短语、短句等。上述电子设备可以是用于数据或语言处理的处理服务器,上述用于平台可以是云计算平台。
步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与上述源语言词汇对齐的目标语言单词。
在本实施例中,上述电子设备或应用平台基于上述步骤1中所得到的源语言词汇,确定出与上述源语言词汇对齐的目标语言单词。上述翻译模型词汇表为预先设置的词汇表,包括源语言词汇表和目标语言词汇表;使用自动对齐工具对上述翻译模型词汇表中的语料进行词对齐操作,得到与上述源语言词汇对齐的目标语言单词;上述目标语言单词可以为单词、短语、短句等。
步骤3,基于步骤2所得到的目标语言单词,确定出上述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为上述翻译模型的输出。
在本实施例中,上述电子设备或应用平台基于上述步骤2所得到的目标语言单词,由上述目标语言单词构建上述待翻译语句的目标端动态词汇表。利用预先构建的翻译模型使用柱搜索方法解码出的语句作为上述翻译模型的输出。其中,上述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络。
在本实施例的一线可选的实现方式中,上述翻译模型,其训练过程包括:对训练用数据中的双语句子对进行分词和词频统计,确定上述翻译模型词汇表大小;采用极大似然目标函数作为约束函数对初始翻译模型进行参数训练;
其中,双语句子对为存在对应关系的一对源语言语句和目标语言语句。
上述训练用数据可以是预先准备的数据,可以从预设的数据库中获得,还可以是是从与上述处理服务器或云计算平台通信连接的终端中获得的及时数据。上述双语句子对为存在对应关系的一对源语言语句和目标语言语句,可以理解地是上述双语句子对是由一句源语言的句子和对应的一句目标语言的句子组成的句子对,例如可以是汉语和英语的句子对、或英语与日语的句子对等。
对上述所获取的句子对中的源语言和目标语言句子进行自动分词,得到源语言端和目标语言端的分词结果。上述分词可以是示意自然语言处理技术将源语言的句子中连续的字序列按照一定的规范重新组合成词序列、短语序列。具体地,如果源语言或目标语言中不包含汉语,则不需要进行分词。如果源语言或目标语言中包含汉语,则需要用对汉语进行分词。对汉语进行分词的方法有很多种,例如可以是:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。
得到上述双语句子对的源语言端和目标语言端的分词结果之后,分别对源语言端和目标语言端的分词进行词频统计,得到翻译模型词汇表大小。
上述翻译模型词汇表包括目标端词汇表和源端词汇表;确定翻译模型词汇表的大小就是确定翻译模型词汇表包括目标端词汇表和源端词汇表的大小。具体地,上述“对训练用数据中的双语句子对进行分词和词频统计,确定翻译模型词汇表大小”,包括:对上述双语句子对进行词法分析以进行自动分词;统计双语句子对中源语言语句和目标语言语句在自动分词后的词频和占比,确定目标端词汇表和和源端词汇表大小。
上述对双语句子对进行此法分析可以是通过Token操作对句子进行分词操作。上述Token操作是计算机科学中将字符序列转换为标记(token)序列的过程,从输入字符流中生成标记的过程称为标记化(tokenization),上述Token操作会对标记进行分类。上述词频统计是是统计每个单词在训练语料中出现的次数。根据词汇占比选取词频最高的前M(例如,M可取30000)个词语作为源端词汇表和目标端词汇表大小。其中,词汇占比是词汇表中词汇在训练语料中出现的次数占训练用数据中语料总共单词数的比例。
作为示例,可以从语言数据联盟(Linguistic Data Consortium)发布的中-英训练数据中抽取200万对齐句对作为中英训练语料。其中,对齐句对即为双语句对,也即平行句对,如中文“我爱你”和英文“I love you”构成平行句对。利用对齐工具确定出翻译模型词汇表的大小,其中,源端词汇表大小56000,目标端词汇表大小60000。
在本实施例中,构建初始的深层神经网络翻译模型,在初始模型中融入将门限残差机制和平行注意力机制。上述基于门限残差机制和平行注意力机制的深层神经网络,其构建方法为:
步骤31,利用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构。其中,长短时记忆网络((Long Short-Term Memory,LSTM)是一种时间递归神经网络,适于处理和预测时间序列中间隔和延迟非常长的重要事件。采用LSTM网络搭建基于深层神经网络的翻译模型主体结构。如图2中的右图显示了使用LSTM搭建的基于深层神经网络的翻译模型主体结构,其具体实现方式如下:
it=δ(Wixt+Uiht-1+bi)
ft=δ(Wfxt+Ufht-1+bf)
ot=δ(Woxt+Uoht-1+bo)
ht=ot⊙tanh(ct)
其中,其中,xt是当前时刻的输入,δ是sigmoid函数,ht-1是t-1时刻的隐层状态,W、U、b为模型参数,i、f、o分别表示输入门、遗忘门、输出门;遗忘门ft控制着每一个内存单元需要遗忘多少信息,输入门it控制着每一个内存单元加入多少新的信息,输出门ot控制着每一个内存单元输出多少信息。
步骤32,使用sigmoid函数作为上述门限残差所在的门限残差网络模型的门控制激活函数,将上述长短时记忆网络的输入与上述门限残差网络模型的门限按位相乘得到上述门限残差网络模型的门限输出。
在搭建的初始深层神经网络翻译模型的主体结构上增加一个门控制,其方式如下:
gt=δ(Wgxt+Ught-1+bg)
然后将门控制与LSTM的输入按位相乘,得到门限输出:
步骤33,将上述长短时记忆网络的初始输出和上述门限输出相加作为上述门限残差网络模型的输出,叠加到上述翻译模型相应的中间层的输入中。
门限残差网络模型的结构示意图如图2的右图所示。这里将步骤32得到的门限输出和步骤31中的隐层状态输出相加计算得到门限残差网络模型的输出:
ht=ot⊙tanh(ct)+gt⊙xt
ht为上述深层神经网络翻译模型t时刻的隐层状态。
步骤34,将上述翻译模型的解码器的底层和编码器的底层相连,进行注意力操作计算,并将所计算出的注意力作为上述解码器底层的长短时记忆网络的输出向上层传递。
如图3所示,图3示出了将平行注意力机制融入基于深层神经网络的翻译模型的示意图。在融入了平行力注意机制的模型中采用点积作为注意力机制的方式,将基于深层神经网络的翻译模型解码器的底层(Bottom Attention)和编码器的底层(BottomAttention)相连,进行注意力操作计算,用注意力机制输出代替解码器底层LSTM的输出向上层传递。其具体实现方式如下:
使用上述解码器底层隐层状态和上述编码器底层隐层状态计算文本矢量:
利用级联层级联上述文本矢量和上述隐藏状态得到注意力输出:
tj=tanh(Wc[sj;cj]+b)=tanh(Wc1sj+Wc2+b)
其中,cj为文本矢量,tj为注意力输出,Wc1、Wc2为模型参数,sj为j时刻的隐层状态。
可以理解,上述解码器的底层和编码器的底层相连即为目标端底层隐层状态和源端底层隐层状态进行注意力计算点积计算。
步骤35,将上述翻译模型解码器的顶层和编码器的顶层相连,进行注意力操作计算,将所计算出的注意力输出预测目标语言单词。
在具体实现时,其计算方式类似于步骤34中的公式。如图2所示,不同的是,这里使用的是源端顶层隐层状态(Top Attention)和目标端顶层隐层状态(Top Attention)进行注意力计算,得到的输出将直接用于当前时刻目标端单词的预测;上述注意力计算为进行点积计算。单词预测的计算公式如下:
步骤3,采用极大似然目标函数作为约束函数对上述初始深层神经网络翻译模型进行参数训练。
在本实施例中,可以使用梯度下降法对深层神经网络翻译模型进行参数训练。上述极大似然函数为上述双语语句对的对数似然函数之和:
D表示平行句对的集合,模型参数θ可通过随机梯度下降法(SGD)、Adam或Adadelta等优化方法进行求解。
在本实施例的一些可选的实现方式中,上述使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与上述源语言词汇对齐的目标语言单词。
上述对双语句子对的对齐,可以是使用对齐工具,确定源语言词汇中各单词、短语、短句等对应在目标语言的单词或短语、短句等。在一些具体地实现中:
步骤11,使用自动对齐工具对平行语料进行词对齐;对齐工具有多种,例如,可以使用fast_align对齐工具进行对齐。
步骤12,统计得到各上述源语言词汇到任何目标语言的对齐个数,采用极大似然方法,得到各个源语言词汇到任何目标语言的翻译概率;下表显示了汉语单词“中心”对应的潜在目标语言单词翻译概率:
步骤13,根据模型词汇表,转化得到目标端词汇表中源语言对应的目标语言单词中概率最高的预定数目个单词,并以索引的形式保存。这里,可以是将目标端词汇表中与源语言对应的目标语言单词中概率最高的前N(N可以取50)个单词,并将其以索引的形式保存下来,供解码时使用。下表显示了汉语单词“中心”对应的对齐索引表:
在本实施例中,可以针对每一个测试句子,使用步骤43中得到的对齐索引表,得到该句子中所有单词对应的目标语言索引,并将其索引合并起来作为该句的小规模词汇表,即,得到该句子的动态词汇表,上述翻译模型在进行翻译时可以直接使用动态词汇表,而不必查询上述翻译模型词汇表,从而减少了对应于该句子的目标端词汇表的词汇的数目,提高系统的解码速度。例如,对于某一双语句子对,通过自动分词和词频统计,确定翻译模型词汇表大小,即选取词频最高的前M(这里取30000)个词语组成翻译模型词汇表;而利用上述对齐索引表所建立的动态词汇表中每个源语言单词对应概率最高的前N(N取50)个单词,大大降低词汇表中词汇的数量。动态词汇表的作用为在解码过程中,减少当前句子目标语言词汇表,达到较少计算量,加快计算速度的作用。如图4所示,使用多台词汇表后目标端词汇表的变化示意图,如图所示可以看出目标端的词汇由几万~几十万减少到几百~几千个词汇,大大降低了目标端词汇的数量,加快计算速度。
根据训练好的模型和得到的动态词汇表,使用柱搜索方法解码将打分最高的句子作为模型的输出。
这里,当上述基于深层神经网络的翻译模型参数训练完成之后,解码器在每一时刻会生成一个概率分布,表示该时刻产生每个目标语言单词概率的大小。可以根据每一时刻的概率分布选择概率最高的单词,然后将该单词作为下一时刻的输入,直到生成句子结束符为止,得到一个完整的目标语言句子。
在解码过程中,维护三个列表,一个用来存放完整候选词汇,一个用来存放部分候选词汇,一个用来存放临时候选词汇。在每个时刻,对部分候选列表中的每个候选词汇进行扩展,并将得到的候选词汇存入临时候选列表。然后对根据得分对临时候选词汇进行排序。对于得分最高的那些候选词汇,如果它的最后一个单词是句子结束符,将其存入完整候选词汇列表,否则存入下一时刻的部分候选词汇列表。一旦完整候选词汇列表的大小超过阈值,停止解码。最后,返回完整候选词汇列表中得分最高的候选词汇形成完整的目标语言句子。
作为示例,参考图5,图5示出了本申请的基于深层神经网络的翻译模型解码方法的应用实例。首先,基于数据驱动的模型学习方法将门限残差网络模型和平行注意力机制,融入到所搭建的深层神经网络机器翻译模型;预处理后的双语数据经对齐索引表进行对齐操作,得到该双语数据的动态词汇表;上述深层神经网络机器翻译模型根据上述动态词汇表进行解码操作,经解码器解码后输出目标语言。可以利用语言数据联盟发布的双语数据作为测试数据,经预处理的测试数据使用对齐工具进行对齐处理后,使用柱搜索方法解码确定出动态词汇表。
本申请上述实施例所提供的方法通过将在深层神经网络翻译模型的结构中引入门限残差机制和平行注意力机制提高翻译模型的性能。其中,使用门限残差网络模型增强了梯度流在深层神经网络翻译模型中纵向和横向的更新;使用平行注意力机制,充分利用了不同层隐层状态的差别,建立了编码器和解码器底层隐层状态之间的联系;动态词汇表的建立,使得每个待测句子动态地生成其专属小规模词汇表,以提高深层神经网络机器翻译模型的解码速度。从而解决了深层神经网络翻译模型训练复杂度高、训练难度大、存在“梯度消失”以及解码速度慢等问题。
具体地,可以参考附表所示的数据。
附表1示出了应用本发明的机器翻译系统与标准深层神经机器翻译系统和统计机器翻译系统在4组测试数据(MT03、MT04、MT05、MT06)上的表现。
只融入门限残差机制络(表格第3行),应用本发明的机器翻译系统的评价指标(BLEU)相比于标准的深层神经机器翻译系统有1.86BLEU值的提高。融合门限残差机制和平行注意力机制(第4行),应用本发明的机器翻译系统提升了2.78个BLEU值。
附表2示出了,应用本发明的机器翻译模型与神经网络机器翻译系统解码速度上的对比结果。采用该动态词汇表策略后,译码质量出现小量的提升,译码速度是原来模型的3倍。
附表1本发明与深层神经机器翻译系统、统计机器翻译系统在不同测试集上的BLEU值。GR代表门限残差网络模型,PA代表平行注意力机制。
附表2本发明与神经网络机器翻译译码速度对比:
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于深层神经网络翻译模型的解码方法,其特征在于,所述方法包括:
步骤1,对待翻译语句进行分词处理,得到源语言词汇;
步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词;
步骤3,基于步骤2所得到的目标语言单词,确定出所述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为所述翻译模型的输出;
其中,
所述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络,所述“基于门限残差机制和平行注意力机制的深层神经网络”的构建方法为:
步骤31,利用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构;
步骤32,使用sigmoid函数作为所述门限残差所在的门限残差网络模型的门控制激活函数,将所述长短时记忆网络的输入与所述门限残差网络模型的门限按位相乘得到所述门限残差网络模型的门限输出;
步骤33,将所述长短时记忆网络的初始输出和所述门限输出相加作为所述门限残差网络模型的输出,叠加到所述翻译模型相应的中间层的输入中;
步骤34,将所述翻译模型的解码器的底层和编码器的底层相连,进行注意力操作计算,并将所计算出的注意力作为所述解码器底层的所述长短时记忆网络的输出向上层传递;
步骤35,将所述翻译模型的所述解码器的顶层和所述编码器的顶层相连,进行注意力操作计算,利用所计算出的注意力输出预测目标语言单词。
2.根据权利要求1所述的基于深层神经网络翻译模型的解码方法,其特征在于,所述翻译模型,其构建方法为:
对训练用数据中的双语句子对进行分词和词频统计,确定所述翻译模型词汇表大小;
采用极大似然目标函数作为约束函数对初始翻译模型进行参数训练;
其中,
所述双语句子对为存在对应关系的一对源语言语句和目标语言语句。
3.根据权利要求2所述的基于深层神经网络翻译模型的解码方法,其特征在于,所述翻译模型词汇表包括目标端词汇表和源端词汇表;
“对训练用数据中的双语句子对进行分词和词频统计,确定翻译模型词汇表大小”,包括:
对所述双语句子对进行词法分析以进行自动分词;
统计所述源语言语句和所述目标语言语句在自动分词后的词频和占比,确定所述目标端词汇表和所述源端词汇表大小。
4.根据权利要求1所述的基于深层神经网络翻译模型的解码方法,其特征在于,“采用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构”,包括通过如下公式构建所述深层神经网络翻译模型:
it=δ(Wixt+Uiht-1+bi)
ft=δ(Wfxt+Ufht-1+bf)
ot=δ(Woxt+Uoht-1+bo)
ht=ot⊙tanh(ct)
其中,xt是当前时刻的输入,δ是sigmoid函数,ht-1是t-1时刻的隐层状态,W、U、b为模型参数,i、f、o分别表示输入门、遗忘门、输出门;遗忘门ft控制着每一个内存单元需要遗忘多少信息,输入门it控制着每一个内存单元加入多少新的信息,输出门ot控制着每一个内存单元输出多少信息。
6.根据权利要求4所述的基于深层神经网络翻译模型的解码方法,其特征在于,通过如下公式计算所述门限残差网络模型输出:
ht=ot⊙tanh(ct)+gt⊙xt。
10.根据权利要求1所述的基于深层神经网络翻译模型的解码方法,其特征在于,“使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词”,包括:
步骤11,使用自动对齐工具对平行语料进行词对齐;
步骤12,统计得到各所述源语言词汇到任何目标语言的对齐个数,采用极大似然方法,得到各所述源语言词汇到任何目标语言的翻译概率;
步骤13,根据模型词汇表,转化得到所述目标端词汇表中源语言对应的目标语言单词中概率最高的预定数目个单词,并以索引的形式保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810270468.0A CN108647214B (zh) | 2018-03-29 | 2018-03-29 | 基于深层神经网络翻译模型的解码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810270468.0A CN108647214B (zh) | 2018-03-29 | 2018-03-29 | 基于深层神经网络翻译模型的解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108647214A CN108647214A (zh) | 2018-10-12 |
CN108647214B true CN108647214B (zh) | 2020-06-30 |
Family
ID=63744785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810270468.0A Active CN108647214B (zh) | 2018-03-29 | 2018-03-29 | 基于深层神经网络翻译模型的解码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108647214B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359308B (zh) * | 2018-10-31 | 2023-01-10 | 腾讯科技(武汉)有限公司 | 机器翻译方法、装置及可读存储介质 |
RU2699396C1 (ru) * | 2018-11-19 | 2019-09-05 | Общество С Ограниченной Ответственностью "Инвек" | Нейронная сеть для интерпретирования предложений на естественном языке |
CN109558605B (zh) * | 2018-12-17 | 2022-06-10 | 北京百度网讯科技有限公司 | 用于翻译语句的方法和装置 |
CN109697292B (zh) * | 2018-12-17 | 2023-04-21 | 北京百度网讯科技有限公司 | 一种机器翻译方法、装置、电子设备和介质 |
CN109829172B (zh) * | 2019-01-04 | 2023-07-04 | 北京先声智能科技有限公司 | 一种基于神经翻译的双向解码自动语法改错模型 |
CN109977834B (zh) * | 2019-03-19 | 2021-04-06 | 清华大学 | 从深度图像中分割人手与交互物体的方法和装置 |
CN110032739B (zh) * | 2019-04-18 | 2021-07-13 | 清华大学 | 中文电子病历命名实体抽取方法及系统 |
CN110147556B (zh) * | 2019-04-22 | 2022-11-25 | 云知声(上海)智能科技有限公司 | 一种多向神经网络翻译系统的构建方法 |
CN110069790B (zh) * | 2019-05-10 | 2022-12-06 | 东北大学 | 一种通过译文回译对照原文的机器翻译系统及方法 |
CN110276082B (zh) * | 2019-06-06 | 2023-06-30 | 百度在线网络技术(北京)有限公司 | 基于动态窗口的翻译处理方法和装置 |
CN110427630B (zh) * | 2019-06-10 | 2023-10-13 | 北京捷通华声科技股份有限公司 | 机器翻译的方法、装置、电子设备、存储介质及翻译模型 |
CN110263352B (zh) * | 2019-06-18 | 2023-04-07 | 澳门大学 | 用于训练深层神经机器翻译模型的方法及装置 |
CN110321567B (zh) * | 2019-06-20 | 2023-08-11 | 四川语言桥信息技术有限公司 | 基于注意力机制的神经机器翻译方法及装置、设备 |
CN110427619B (zh) * | 2019-07-23 | 2022-06-21 | 西南交通大学 | 一种基于多通道融合与重排序的中文文本自动校对方法 |
CN110472238B (zh) * | 2019-07-25 | 2022-11-18 | 昆明理工大学 | 基于层级交互注意力的文本摘要方法 |
CN110543640A (zh) * | 2019-08-09 | 2019-12-06 | 沈阳雅译网络技术有限公司 | 一种基于注意力机制神经机器翻译推断加速方法 |
CN110472255B (zh) * | 2019-08-20 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 神经网络机器翻译方法、模型、电子终端以及存储介质 |
CN110717343B (zh) * | 2019-09-27 | 2023-03-14 | 电子科技大学 | 一种基于transformer注意力机制输出的优化对齐方法 |
CN111178093B (zh) * | 2019-12-20 | 2023-08-04 | 沈阳雅译网络技术有限公司 | 一种基于堆叠算法的神经机器翻译系统训练加速方法 |
CN111178089B (zh) * | 2019-12-20 | 2023-03-14 | 沈阳雅译网络技术有限公司 | 一种双语平行数据一致性检测与纠正方法 |
CN111274829B (zh) * | 2020-02-07 | 2023-06-16 | 中国科学技术大学 | 一种利用跨语言信息的序列标注方法 |
CN111401078A (zh) * | 2020-03-17 | 2020-07-10 | 江苏省舜禹信息技术有限公司 | 神经网络文本翻译模型的运行方法、装置、设备、及介质 |
CN111597831B (zh) * | 2020-05-26 | 2023-04-11 | 西藏大学 | 混合深度学习网络与单词生成统计学指导的机器翻译方法 |
CN112257464B (zh) * | 2020-11-03 | 2023-08-22 | 沈阳雅译网络技术有限公司 | 一种基于小型智能移动设备的机器翻译解码加速方法 |
CN112417897B (zh) * | 2020-11-30 | 2023-04-07 | 上海携旅信息技术有限公司 | 词对齐模型训练、文本处理的方法、系统、设备和介质 |
CN112686027B (zh) * | 2020-12-24 | 2023-06-09 | 中国人民解放军战略支援部队信息工程大学 | 基于周期函数的机器翻译输出修正方法及系统 |
CN113408303B (zh) * | 2021-06-30 | 2022-06-28 | 北京百度网讯科技有限公司 | 翻译模型的训练与翻译方法、装置 |
CN113822078B (zh) * | 2021-08-20 | 2023-09-08 | 北京中科凡语科技有限公司 | 融合xlm-r模型的机器翻译模型的训练方法 |
CN114154519B (zh) * | 2022-02-08 | 2022-04-26 | 北京大学 | 基于加权标签平滑的神经机器翻译模型训练方法 |
CN116227506B (zh) * | 2023-05-08 | 2023-07-21 | 湘江实验室 | 一种具有高效非线性注意力结构的机器翻译方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844352A (zh) * | 2016-12-23 | 2017-06-13 | 中国科学院自动化研究所 | 基于神经机器翻译系统的单词预测方法及系统 |
-
2018
- 2018-03-29 CN CN201810270468.0A patent/CN108647214B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844352A (zh) * | 2016-12-23 | 2017-06-13 | 中国科学院自动化研究所 | 基于神经机器翻译系统的单词预测方法及系统 |
Non-Patent Citations (3)
Title |
---|
Deep Neural Networks in Machine Translation: An Overview;Jiajun Zhang等;《IEEE Intelligent Systems》;IEEE;20151031;第30卷(第5期);全文 * |
Look-Ahead Attention for Generation in Neural Machine Translation;Zhou,Long 等;《NATURAL LANGUAGE PROCESSING AND CHINESE COMPUTING, NLPCC 2017》;20180105;第10619卷;全文 * |
基于多重门限机制的异步深度强化学习;徐进等;《计算机学报》;20171231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108647214A (zh) | 2018-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647214B (zh) | 基于深层神经网络翻译模型的解码方法 | |
Iyyer et al. | Adversarial example generation with syntactically controlled paraphrase networks | |
US9460080B2 (en) | Modifying a tokenizer based on pseudo data for natural language processing | |
Roemmele | Writing stories with help from recurrent neural networks | |
CN111832292A (zh) | 文本识别处理方法、装置、电子设备和存储介质 | |
CN108829722A (zh) | 一种远程监督的Dual-Attention关系分类方法及系统 | |
CN110070855B (zh) | 一种基于迁移神经网络声学模型的语音识别系统及方法 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
Li et al. | Language modeling with functional head constraint for code switching speech recognition | |
CN110427619B (zh) | 一种基于多通道融合与重排序的中文文本自动校对方法 | |
CN106528538A (zh) | 智能识别情绪的方法及装置 | |
Tennage et al. | Neural machine translation for sinhala and tamil languages | |
Bawden | Going beyond the sentence: Contextual machine translation of dialogue | |
Antony et al. | A survey of advanced methods for efficient text summarization | |
CN114298010A (zh) | 一种融合双语言模型和句子检测的文本生成方法 | |
Tennage et al. | Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation | |
KR20170108693A (ko) | 입출력 회로를 가지는 계층적 신경망 구조의 언어모델 장치 | |
Vu et al. | Exploration of the impact of maximum entropy in recurrent neural network language models for code-switching speech | |
Chowanda et al. | Generative Indonesian conversation model using recurrent neural network with attention mechanism | |
CN109992787B (zh) | 一种基于cbow模型和依存句法关系的词向量表示方法 | |
Dutta | Word-level language identification using subword embeddings for code-mixed Bangla-English social media data | |
KR102204395B1 (ko) | 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템 | |
Kapočiūtė-Dzikienė et al. | Character-based machine learning vs. language modeling for diacritics restoration | |
Kano et al. | Average Token Delay: A Latency Metric for Simultaneous Translation | |
CN112380882B (zh) | 一种具有误差修正功能的蒙汉神经机器翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |