CN110020440B - 一种机器翻译方法、装置、服务器及存储介质 - Google Patents
一种机器翻译方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN110020440B CN110020440B CN201810018885.6A CN201810018885A CN110020440B CN 110020440 B CN110020440 B CN 110020440B CN 201810018885 A CN201810018885 A CN 201810018885A CN 110020440 B CN110020440 B CN 110020440B
- Authority
- CN
- China
- Prior art keywords
- source language
- target
- translation
- source
- reconstruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 475
- 238000000034 method Methods 0.000 title claims abstract description 85
- 239000013598 vector Substances 0.000 claims abstract description 164
- 238000012549 training Methods 0.000 claims description 118
- 230000006870 function Effects 0.000 claims description 62
- 230000008569 process Effects 0.000 claims description 35
- 230000000295 complement effect Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000014616 translation Effects 0.000 description 409
- 238000010586 diagram Methods 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种机器翻译方法、装置、服务器及存储介质,该方法包括:获取初始源语言;将所述初始源语言输入预训练的目标翻译模型,其中,所述目标翻译模型至少包括重构层;通过所述重构层对所述初始源语言的源端向量表示序列和/或对应的目标端向量表示序列进行重构,获得补全省略代词的源语言;输出补全省略代词的源语言的翻译结果。本发明实施例可在翻译结果中准确的进行省略代词的翻译,提升翻译结果的准确性。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种机器翻译方法、装置、服务器及存储介质。
背景技术
机器翻译是指使用机器将一种自然语言(需翻译的自然语言一般称为源语言)翻译为另一种自然语言(翻译后的自然语言称为目标语言),实现不同语种的自然语言的转换过程。
目前机器翻译一般通过翻译模型实现,翻译模型例如SMT(Statistical MachineTranslation,统计机器翻译)模型,基于神经网络的NMT(Neural Machine Translation,神经网络机器翻译)模型等。翻译模型中较为典型的是编码器(encoder)-解码器(decoder)结构,即编码器作为翻译模型的一部分,解码器作为翻译模型的另一部分;在对源语言进行机器翻译的过程中,通过编码器将源语言转换为源端向量表示序列,再由解码器对源端向量表示序列进行处理,生成对应的目标端向量表示序列,输出目标端向量表示序列相应的翻译结果(即目标语言)。
代词易省略特性语言(如汉语、日语等会省略代词以使表达更简洁的自然语言)至非代词易省略特性语言(如英语、法语等不具有省略代词特性的自然语言)的翻译,作为机器翻译的一个难点;为得到较准确的翻译结果,需要将代词易省略特性语言中的省略代词,在非代词易省略特性语言中翻译出来。例如,“(你)喜欢这份工作吗?”的汉语表达中,括号内的代词“你”会被省略,而在翻译为英语时,为得到较为准确的翻译结果,需要翻译成“Doyou like this job?”,即将汉语中的省略代词“你”翻译出来。然而,目前的翻译模型在进行代词易省略特性语言至非代词易省略特性语言的翻译时,通常会存在省略代词翻译错误、忽略省略代词的情况,导致翻译结果准确性较低。
发明内容
有鉴于此,本发明实施例提供一种机器翻译方法、装置、服务器及存储介质,以在翻译结果中准确的进行省略代词的翻译,提升翻译结果的准确性。
为实现上述目的,本发明实施例提供如下技术方案:
一种机器翻译方法,包括:获取初始源语言;将所述初始源语言输入预训练的目标翻译模型,其中,所述目标翻译模型至少包括重构层;通过所述重构层对所述初始源语言的源端向量表示序列和/或对应的目标端向量表示序列进行重构,获得补全省略代词的源语言;输出补全省略代词的源语言的翻译结果。
本发明实施例还提供一种机器翻译装置,包括:获取模块,用于获取初始源语言;输入模块,用于将所述初始源语言输入预训练的目标翻译模型,其中,所述目标翻译模型至少包括重构层;重构处理模块,用于通过所述重构层对所述初始源语言的源端向量表示序列和/或对应的目标端向量表示序列进行重构,获得补全省略代词的源语言;译文输出模块,用于输出补全省略代词的源语言的翻译结果。
本发明实施例还提供一种服务器,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,实现上述所述的机器翻译方法的步骤。
本发明实施例还提供一种存储介质,所述存储介质存储有适于处理器执行的程序,以实现上述所述的机器翻译方法的步骤。
基于上述技术方案,本发明实施例提供的机器翻译方法,可预训练出目标翻译模型,所述目标翻译模型至少包括重构层;通过所述重构层,目标翻译模型具有补全初始源语言中的省略代词的能力,和/或,具有将解码端生成的目标端向量表示序列翻译回补全了省略代词的源语言的能力;从而在对初始源语言进行翻译时,可将所述初始源语言输入目标翻译模型,通过所述重构层对所述初始源语言的源端向量表示序列和/或对应的目标端向量表示序列进行重构,获得补全省略代词的源语言;最后输出补全省略代词的源语言的翻译结果。由此,基于目标翻译模型实现代词易省略特性语言至非代词易省略特性语言的翻译时,能够在翻译结果中准确的进行省略代词的翻译,提升翻译结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为标准翻译模型的架构示意图;
图2为标准翻译模型的机器翻译流程图;
图3为本发明实施例提供的目标翻译模型的架构示意图;
图4为本发明实施例提供的目标翻译模型的训练目标的设置示意图;
图5为本发明实施例提供的确定补全了省略代词的源语言的方法流程图;
图6为本发明实施例提供的目标翻译模型的训练方法流程图;
图7为本发明实施例提供的机器翻译方法的流程图;
图8为本发明实施例提供的目标翻译模型的另一架构示意图;
图9为本发明实施例提供的目标翻译模型的训练目标的另一设置示意图;
图10为本发明实施例提供的将目标端向量表示序列翻译回源语言的流程图;
图11为本发明实施例提供的目标翻译模型的另一训练方法流程图;
图12为本发明实施例提供的目标翻译模型的再一架构示意图;
图13为本发明实施例提供的目标翻译模型的训练目标的再一设置示意图;
图14为本发明实施例提供的目标翻译模型的再一训练方法流程图;
图15为本发明实施例提供的机器翻译方法的另一流程图;
图16为本发明实施例提供的机器翻译方法的应该场景示例流程图;
图17为本发明实施例提供的机器翻译装置的结构框图;
图18为本发明实施例提供的机器翻译装置的另一结构框图;
图19为本发明实施例提供的机器翻译装置的再一结构框图;
图20为本发明实施例提供的机器翻译装置的又一结构框图;
图21为服务器的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在汉语和日语等语言中,代词省略是极为常见的现象。与之相反,在英、法等语言中,代词作为句子成分又必不可少。当从代词易省略语言(如汉语)到非代词易省略语言(如英语)翻译时,需要将缺失的代词准确地翻译出来。对于机器翻译来说,挑战在于翻译模型很难将源端隐性的代词信息在目标端显性地解码出来,源端一般认为是翻译模型的编码器端,目标端一般认为是翻译模型的解码器端。
而且代词省略现象在一些领域(如口语)中十分突出。在对一百万句对的电影字幕平行语料的统计分析后,发现英语端约有九百四十万个代词,而汉语端却只有六百五十万个代词,有近三百万的代词在汉语端被省略。由于代词不仅包含词本身的信息更隐含与前驱词的指代关系,因此对于机器翻译而言,代词省略现象不仅会直接导致译文中对应成分的缺失,更会间接影响译文的选词、语序甚至语义,从而严重影响译文的质量。
目前传统的编码器-解码器结构的标准翻译模型的可选架构可以如图1所示,该标准翻译模型可以如传统的编码器-解码器结构的标准NMT模型等;参照图1,图1所示标准翻译模型可由基于神经网络(如循环神经网络RNN)形成的编码器、解码器、以及编码器和解码器间的标准注意力层构成;
基于图1所示标准翻译模型的架构,标准翻译模型的一种可选机器翻译流程可如图2所示,结合图1和图2,标准翻译模型的可选翻译流程可以如下:
步骤S10、标准翻译模型中的编码器读入初始源语言,编码器对初始源语言中的每一源词逐一的进行向量生成,生成初始源语言的源端向量表示序列。
可选的,编码器可利用RNN压缩表示的性质,将初始源语言中离散的源词转换成连续的空间表示,将所转换得到的连续的空间表示输入到双向RNN(Recurrent NeuralNetworks,循环神经网络)中,得到源端向量表示序列,实现编码器对初始源语言中的每一源词逐一的进行向量生成;
如图1所示,作为示例的初始源语言“喜欢这份工作吗?”(“<eos>”是表示初始源语言的终结符),可经编码器处理,生成初始源语言相应的源端向量表示序列,该源端向量表示序列可以包括初始源语言中每一源词对应的向量;图1中的一个点状直条可表示一个向量。
步骤S11、标准注意力层根据源端向量表示序列,生成当前时刻的初始源语言的上下文表示。
可选的,在当前时刻,标准注意力层可读取编码器处理生成的初始源语言相应的源端向量表示序列,以及解码器前一时刻状态(如图1所示st-1),生成源端向量表示序列在当前时刻相应的对齐概率(对齐概率如图1中的“0.0”、“1.0”所示;在当前时刻,对齐概率越高的向量相应的源词,与待生成的目标词越相关,一般而言,一个时刻仅有一个对齐概率为1,其他对齐概率为0);
进而,标准注意力层可将源端向量表示序列在当前时刻相应的对齐概率,与源端向量表示序列相加权(如一向量相应的对齐概率与该向量相乘后,再将各相乘结果相加),生成当前时刻的初始源语言的上下文表示(如图1中ct)。
步骤S12、解码器根据当前时刻的解码器状态st,当前时刻的初始源语言的上下文表示ct,和前一时刻生成的目标词yt-1,确定当前时刻生成的目标词。
可选的,在当前时刻,解码器读入当前时刻的初始源语言的上下文表示(即ct,当前时刻的初始源语言的上下文表示对应当前时刻待被翻译的源词,一般而言,一个时刻存在一个待被翻译的源词),前一时刻解码器状态st-1,前一时刻生成的目标词yt-1(即针对前一时刻待被翻译的源词,所翻译得出的目标词),输出当前时刻的解码器状态st(这个过程可以认为是一个标准的RNN操作);
进而,解码器根据当前时刻的解码器状态st,当前时刻的初始源语言的上下文表示ct,和前一时刻生成的目标词yt-1,使用一个神经网络生成输出层和所有的目标候选词进行比较,选择与当前时刻待被翻译的源词的相似度最高的目标候选词,作为当前时刻生成的目标词。
以此不断的在各个时刻,循环的进行标准注意力层和解码器的处理(即在各个时刻重复执行步骤S11和S12),得到各个时刻所生成的目标词,直至初始源语言中的各个源词均生成出相应的目标词,得到目标端向量表示序列,形成翻译结果。
基于上述编码器-解码器结构的标准翻译模型,虽然可实现不同语种的自然语言间的转换,但在机器翻译过程中,标准翻译模型的解码器在生成目标词时,需要吸收初始源语言中源词的上下文信息,而初始源语言中的一个源词对应一个向量;这就导致在进行代词易省略特性语言至非代词易省略特性语言的翻译时,由于省略代词没有对应的向量表示,使得标准翻译模型在机器翻译时,很难考虑省略代词引起的初始源语言的语义变化,使得翻译结果存在忽略省略代词的情况发生;
同时,标准翻译模型的翻译结果的意思相对于初始源语言的意思的忠实度并不高,例如“是一个夏令营”常会被译成“he is a camp”,导致译文虽然通顺、完整,但由于翻译出了错误的代词而使译文有悖初始源语言的语义,存在省略代词翻译错误的情况。可见,目前的翻译模型在进行代词易省略特性语言至非代词易省略特性语言的翻译时,通常会存在忽略省略代词、省略代词翻译错误的情况,导致翻译结果准确性较低。
为解决上述问题,实现在翻译结果中准确的进行省略代词的翻译的目的,本发明实施例可训练出具有翻译出省略代词能力的目标翻译模型(如目标NMT模型等);所述目标翻译模型可在上述编码器-解码器结构的标准翻译模型的基础上,进行结构改进和适应的训练改进实现;
具体的,为实现在翻译结果中准确的进行省略代词的翻译,本发明实施例可在上述标准翻译模型的基础上,进行翻译模型的架构调整,得到目标翻译模型;并在结构调整后的目标翻译模型的基础上进行训练改进,使得训练后的目标翻译模型具有翻译出初始源语言中的省略代词的能力。基于此,本发明实施例提供如下几种情况的改进方式。
第一种情况,在目标翻译模型的编码器中增加补全初始源语言中的省略代词的能力,以得到补全省略代词的源语言,使得目标翻译模型的编码器处理生成的源端向量表示序列可以包含省略代词的信息;从而得到更为准确的补全省略代词的源语言相应的源端向量表示序列。
可选的,本发明实施例可对翻译模型的架构进行调整,得到调整后的目标翻译模型的架构,调整后的目标翻译模型的可选架构可如图3所示,图3中目标翻译模型除具有解码器、标准注意力层的结构外,对于编码器的结构进行了调整;由图3可以看出,目标翻译模型的编码器除保留传统的编码能力外,还增设了第一重构层和第一注意力层,从而可通过增加的第一重构层,补全初始源语言中省略的代词;可选的,第一重构层可通过RNN的循环特性构建出循环层次;第一注意力层可以是类似于标准注意力层的加权层次。
示例的,设省略了代词的初始源语言为x,补全了省略代词的源语言为,翻译出的目标语言为y;在训练目标翻译模型之前,本发明实施例可进行目标翻译模型的训练目标的设置;如图4所示,一方面,可使用标准翻译模型的编码器-解码器结构将初始源语言转换成对应的目标端向量表示序列(如基于标准翻译模型以图1、2所示方式),输出相应的目标语言,并得到初始源语言与目标语言的似然函数分数P(y丨x)。
从而,在进行目标翻译模型的训练时,本发明实施例可将转译分数作为辅助训练目标,来衡量目标翻译模型的编码器对初始源语言中的省略代词的补全还原能力,以此使得训练后的目标翻译模型的编码器生成的源端向量表示序列,可以包含省略代词的信息;进而,目标翻译模型的解码器处理得到的对应目标端向量表示序列能够包含省略代词的信息。
基于此,结合图3和图4所示,可设初始源语言包括x1至xj的j个源词(该j个源词中包含初始源语言的终结符,一般而言,最后一个源词为初始源语言的终结符),目标翻译模型中的编码层可利用RNN压缩表示的性质,得到初始源语言中每一个源词对应的向量(h1至hj),即形成由h1至hj构成的初始源语言的源端向量表示序列,源端向量表示序列的向量个数可设为J。
一方面,可利用解码器对初始源语言的源端向量表示序列进行处理,得到对应的目标端向量表示序列(该过程可参照上文图1、2所示)。
另一方面,可通过编码器中增设的第一重构层,对初始源语言的源端向量表示序列进行重构,确定补全了省略代词的源语言。
可选的,确定补全了省略代词的源语言的过程可以如图5所示,包括:
步骤S100、获取初始源语言的源端向量表示序列,通过第一重构层,根据初始源语言的源端向量表示序列,确定补全省略代词的源语言的上下文表示。
可选的,补全了省略代词的源语言的一个上下文表示可对应补全省略代词的源语言中的一个源词;具体的,补全了省略代词的源语言中的第i个源词对应的上下表示可以设为i可属于1至I,I为补全了代词的源语言的源词个数;可选的,的计算方式可以如下公式1:
其中,为第j个向量hj在第i个上下文表示所对应的权重,可由第一注意力层计算得到,并且新增的第一注意力层,第一重构层都具有独立的参数;可以理解的是,第一注意力层,第一重构层可通过RNN等神经网络的网络层实现,且具有独立的运行参数。
步骤S110、确定补全省略代词的源语言中当前时刻的源词的上下文表示,根据补全省略代词的源语言中当前时刻的源词的上下文表示,前一时刻的第一重构层的隐层状态,前一时刻重构得到的补全省略代词的源语言的源词,确定当前时刻的第一重构层的隐层状态。
可选的,可设补全省略代词的源语言是由至构成,当前时刻第一重构层的隐层状态为则可根据前一时刻重构得到的补全省略代词的源语言中的源词前一时刻的第一重构层的隐层状态补全省略代词的源语言中当前时刻的源词的上下文表示确定当前时刻的第一重构层的隐层状态如其中,fr()表示激活函数。
步骤S120、根据补全省略代词的源语言中当前时刻的源词的上下文表示,当前时刻的第一重构层的隐层状态,确定当前时刻重构得到的补全省略代词的源语言的源词。
相应的,对于补全省略代词的源语言中的任一源词,本发明实施例可根据该源词对应的当前时刻的第一重构层的隐层状态该源词对应的当前时刻的上下文表示和前一时刻重构得到的源语言的源词确定该源词对应的归一化指数函数结果;将补全省略代词的源语言中各源词对应的归一化指数函数结果进行连乘处理,得到初始源语言与补全了省略代词的补全省略代词的源语言的转译分数。
从而在进行目标翻译模型的训练时,本发明实施例可将目标翻译模型的训练目标分为两部分,即由初始源语言与翻译的目标语言的似然函数分数衡量翻译质量,由初始源语言与补全省略代词的源语言的转译分数衡量第一重构层对省略代词的补全能力;从而通过合并该两部分的训练目标,进行目标翻译模型的训练,具体可至少以最大化似然函数分数和转译分数为训练目标,迭代更新目标翻译模型的参数,完成目标翻译模型的训练。
进而,训练后的目标翻译模型能够加强初始源语言的整体翻译质量,并且有效地引导目标翻译模型的参数朝还原省略代词的方向发展,使得训练后的目标翻译模型能够具有翻译出初始源语言的省略代词的能力,提升翻译结果的准确性。
可选的,作为一种可选实现,本发明实施例可将目标翻译模型的训练目标设置为J(θ,r),J(θ,r)可通过如下公式3表示:
其中,可以认为是训练语料中的双语句,xn表示第n条源语言,yn表示第n条源语言翻译的译文(即目标语言);θ是标准翻译模型中的标准参数,γ是目标编码器中的第一重构层的参数,λ可用来衡量likehood(似然函数分数)和第一重构层的重构能力的超参数。
在目标翻译模型训练完成后,目标翻译模型中的编码器可实现对初始源语言中省略代词的补全,得到补全省略代词的源语言,从而可由目标翻译模型中的解码器对补全省略代词的源语言中的每一源词逐一进行译文生成,得到翻译结果。
可选的,基于上述论述的第一种情况,图6示出了本发明实施例提供的目标翻译模型的一种可选训练方法流程,目标翻译模型的训练可在服务器侧执行,参照图6,目标翻译模型的训练方法流程可以包括:
步骤S200、获取初始源语言样本。
初始源语言样本可以认为是,训练语料中省略了代词的源语言样本,如xn;可选的,初始源语言样本的数量可以为多条,每一条初始源语言样本均标注有补全了省略代词的源语言样本,以及带有省略代词译文的目标语言(如yn)。
步骤S210、将所述初始源语言样本输入目标翻译模型,由第一重构层对所述初始源语言样本相应的源端向量表示序列进行重构,得到补全省略代词的源语言样本;及由解码器确定所述初始源语言样本对应的目标端向量表示序列,输出相应的目标语言。
可选的,所重构得到补全省略代词的源语言样本,可以认为是重构回的源语言样本;第一重构层在完成训练后,可重构得到补全省略代词的源语言样本。
步骤S210的处理可分为两方面:
一方面在目标翻译模型的编码器确定出初始源语言样本的源端向量表示序列后,可由目标翻译模型的解码器处理得到对应的目标端向量表示序列,输出相应的目标语言。
另一方面,可通过编码器中增设的第一重构层,对初始源语言样本的源端向量表示序列进行重构,确定补全了省略代词的源语言样本,实现由第一重构层对所述初始源语言样本补全省略代词,得到所述初始源语言样本相应的补全省略代词的源语言样本的过程,可选实现流程可如图5所示。
步骤S220、根据所述初始源语言样本与所述目标语言确定似然函数分数,及根据所述初始源语言样本与所述补全省略代词的源语言样本确定转译分数。
可选的,初始源语言样本与所述目标语言的似然函数分数可以认为是传统的标准翻译模型的训练目标,可视现有的源语言与目标语言的似然函数分数确定方式实现。
初始源语言样本与补全省略代词的源语言样本的转译分数的确定方式可以为:对于补全省略代词的源语言样本中的任一源词,本发明实施例可根据该源词对应的当前时刻的第一重构层的隐层状态,该源词对应的当前时刻的上下文表示,和前一时刻重构得到的补全省略代词的源语言样本的源词,确定该源词对应的归一化指数函数结果;将补全省略代词的源语言样本中各源词对应的归一化指数函数结果进行连乘处理,得到初始源语言样本与补全省略代词的源语言样本的转译分数。
步骤S230、至少以最大化所述似然函数分数和所述转译分数为训练目标,迭代更新目标翻译模型的参数,直至达到迭代终止条件;其中,目标翻译模型的参数至少包括:第一重构层的参数。
可选的,在输入一初始源语言样本,确定该初始源语言样本相应的似然函数分数和转译分数后,可至少以最大化该初始源语言样本相应的似然函数分数和转译分数为训练目标,进行一次目标翻译模型的参数更新;从而以此通过多条初始源语言样本,实现目标翻译模型的参数的迭代更新,直至达到迭代终止条件(如迭代次数达到最大,或者训练目标不再变化),从而得到训练后的目标翻译模型。
需要说明的是,区别于以似然函数分数确定训练目标的传统方式,本发明实施例是至少以最大化所述似然函数分数和所述转译分数为训练目标(训练目标的一种可选表现形式可如公式3所示),从而在训练目标翻译模型的过程中结合了编码器对省略代词的补全能力,使得训练后的目标翻译模型具有较准确的省略代词补全能力。
在更新目标翻译模型的参数时,目标翻译模型中除具有标准翻译模型具备的标准参数外,还具有改进结构的目标编码器相关的参数(如第一重构层的参数等),因此在进行目标翻译模型的参数更新时,所更新的参数应至少包括标准翻译模型的标准参数和第一重构层的参数。第一重构层的参数可以包括:RNN中各网络层的参数,包括但不限于各隐层参数等。下文描述的第二重构层的参数同理。
可以理解的是,在目标翻译模型训练完成后,第一重构层将具有对初始源语言样本的源端向量表示序列进行重构,得到补全省略代词的源语言样本的能力;上述训练过程中,第一重构层的训练也可分离出来,实现方式可以如下:
获取初始源语言样本;将所述初始源语言样本输入目标翻译模型;由所述第一重构层对所述初始源语言样本的源端向量表示序列进行重构,得到重构回的源语言样本(训练过程中,重构回的源语言样本可能补全了省略代词,但可以理解的是,训练完成后,重构回的源语言样本可补全省略代词);根据所述初始源语言样本与重构回的源语言样本确定转译分数;至少以最大化所述转译分数为训练目标,迭代更新所述第一重构层的参数,直至达到迭代终止条件,以使所述第一重构层重构得到补全省略代词的源语言样本。
当然,也可将第一重构层的训练糅合在整个模型的训练之中,相应的可至少以最大化所述似然函数分数和所述转译分数为训练目标,迭代更新目标翻译模型的参数,直至达到迭代终止条件;其中,所述目标翻译模型的参数至少包括:第一重构层的参数。
可选的,基于训练后的目标翻译模型,本发明实施例可实现初始源语言的翻译,并在翻译结果中准确的进行省略代词的翻译,提升翻译结果的准确性;图7示出了本发明实施例提供的一种可选的机器翻译流程,该机器翻译流程可由服务器侧执行实现,参照图7,本发明实施例提供的一种机器翻译流程可以包括:
步骤S300、获取初始源语言。
初始源语言可以认为是待翻译的源语言,初始源语言可能省略了代词。
步骤S310、将所述初始源语言输入预训练的目标翻译模型,所述目标翻译模型的编码器包括第一重构层。
可选的,本发明实施例可基于图6所示训练方法,使得训练后的目标翻译模型具有对初始源语言补全省略代词的能力;由于目标翻译模型具有对初始源语言补全省略代词的能力,因此目标翻译模型可基于补全了省略代词的补全省略代词的源语言,实现带有省略代词的译文的翻译,实现目标翻译模型所具有的翻译出省略代词的能力。
步骤S320、通过第一重构层对述初始源语言的源端向量表示序列进行重构,使得目标翻译模型得到补全省略代词的源语言。
在目标翻译模型的编码器处理得到初始源语言的源端向量表示序列后,可通过编码器的第一重构层,对初始源语言的源端向量表示序列进行重构,确定补全了省略代词的源语言。
步骤S330、输出补全省略代词的源语言的翻译结果。
针对补全省略代词的源语言所进行的翻译处理,可依照现有方式,此处不再赘述。一般的,可确定补全省略代词的源语言相应的源端向量表示序列,由解码器处理得到对应的目标端向量表示序列,输出翻译结果;由于补全省略代词的源语言相应的源端向量表示序列包含省略代词的信息,因此解码器所得到的对应的目标端向量表示序列中可包含省略代词的译文,实现在翻译结果中准确的进行省略代词的翻译,提升翻译结果的准确性。
下面对本发明实施例提供的第二种情况的改进方式进行介绍。
第二种情况,在目标翻译模型的解码器中增加将目标端向量表示序列,翻译回补全了省略代词的源语言的能力,从而使得目标翻译模型的解码器在翻译出译文时,能够在译文中补全省略代词的信息。
可选的,本发明实施例可对标准翻译模型的架构进行调整,得到调整后的目标翻译模型的架构,调整后的目标翻译模型的可选架构可如图8所示,图8中目标翻译模型除具有编码器、标准注意力层的结构外,还对于解码器的结构进行了调整。由图8可以看出,目标翻译模型除保留解码器的传统解码能力外,还增设了第二重构层和第二注意力层,从而可通过解码器中增加的第二重构层,将解码器处理得到的目标端向量表示序列进行重构,翻译回补全了省略代词的源语言;可选的,第二重构层可通过RNN的循环特性构建出循环层次;第一注意力层可以是类似于标准注意力层的加权层次。
示例的,设省略了代词的初始源语言为x,补全了省略代词的源语言为翻译出的目标语言为y;在训练目标翻译模型之前,本发明实施例可进行目标翻译模型的训练目标的设置。如图9所示,一方面,可使用标准翻译模型的编码器-解码器结构将初始源语言翻译成目标语言(如基于标准翻译模型以图1、2所示方式),并得到初始源语言与翻译出的目标语言的似然函数分数P(y丨x)。
从而,在进行目标翻译模型的训练时,本发明实施例可将该重构得分作为辅助目标来衡量翻译回的源语言,相对于补全了省略代词的源语言的忠实度,以鼓励目标解码器得到更趋向于补全了省略代词的源语言的翻译结果。
基于此,结合图8和图9所示,可设初始源语言包括x1至xj的j个源词(该j个源词中包含初始源语言的终结符,一般而言,最后一个源词为初始源语言的终结符),目标翻译模型中的编码器可利用RNN压缩表示的性质,得到初始源语言中每一个源词对应的向量(h1至hj),即形成由h1至hj构成的初始源语言的源端向量表示序列。
一方面,可利用解码器对初始源语言的源端向量表示序列进行处理,得到对应的目标端向量表示序列(该过程可参照上文图1、2所示)。
另一方面,可通过第二重构层,将目标端向量表示序列翻译回源语言。
可选的,将目标端向量表示序列翻译回源语言的过程可如图10所示,包括:
步骤S400、根据目标端向量表示序列,确定目标端向量表示序列翻译回的源语言的上下文表示;其中,翻译回的源语言的一个上下文表示,对应翻译回的源语言的一个源词。
其中,为第j个隐层sj在翻译回的源语言中的第i个源词对应的上下文表示所对应的权重,可由目标解码器中新增的第二注意力层计算得到,并且新增的第二注意力层,第二重构层都具有独立的参数;可以理解的是,第二注意力层,第二重构层可通过RNN等神经网络的网络层实现,且具有独立的运行参数。
步骤S410、确定翻译回的源语言在当前时刻的源词的上下文表示,根据该当前时刻的源词的上下文表示,前一时刻的第二重构层的隐层状态,前一时刻翻译回的源词,确定当前时刻的第二重构层的隐层状态。
可选的,可设翻译回的源语言是由至构成,当前时刻第二重构层的隐层状态为则可根据前一时刻翻译回的源词前一时刻的第二重构层的隐层状态翻译回的源语言在当前时刻的源词的上下文表示确定当前时刻的第二重构层的隐层状态如其中,fr()表示激活函数。
步骤S420、根据翻译回的源语言在当前时刻的源词的上下文表示,当前时刻的第二重构层的隐层状态,确定当前时刻翻译回的源词。
以上述方式不断的在各个时刻,进行翻译回的源词的确定,则可将解码器得到的目标端向量表示序列翻译回源语言。
相应的,对于翻译回的源语言的任一源词,本发明实施例可根据该源词对应的当前时刻第二重构层的隐层状态该源词对应的当前时刻的上下文表示和前一时刻翻译回的源词确定该源词对应的归一化指数函数结果;将翻译回的源语言中各源词对应的归一化指数函数结果进行连乘处理,得到翻译回的源语言的重构得分。
从而,在进行目标翻译模型的训练时,本发明实施例可将目标翻译模型的训练目标分为两部分,即由初始源语言与翻译出的目标语言的似然函数分数衡量翻译质量,由目标端向量表示序列翻译回的源语言的重构得分衡量译文中省略代词的敏感度,从而通过合并该两部分的训练目标,进行目标翻译模型的训练;具体的,可至少以最大化似然函数分数和重构得分为训练目标,迭代更新目标翻译模型的参数,完成目标翻译模型的训练。
从而,训练后的目标翻译模型能够加强初始源语言的整体翻译质量,并且有效地引导目标翻译模型的参数朝还原省略代词的方向发展,使得训练后的目标翻译模型能够具有翻译出初始源语言的省略代词的能力,提升翻译结果的准确性。
可选的,作为一种可选实现,本发明实施例可将目标翻译模型的训练目标设置为J(θ,ψ),J(θ,ψ)可通过如下公式6表示:
其中,可以认为是训练语料中的双语句,xn表示第n条源语言,yn表示第n条目标语言;θ是标准翻译模型中的标准参数,ψ是目标解码器中的第二重构层的参数,β可用来衡量likehood(似然函数分数)和第二重构层的重构能力的超参数。
基于上述论述的第二种情况,图11示出了本发明实施例提供的目标翻译模型的另一种可选训练方法流程,目标翻译模型的训练可在服务器侧执行,参照图11,目标翻译模型的训练方法流程可以包括:
步骤S500、获取初始源语言样本。
步骤S510、将所述初始源语言样本输入目标翻译模型。
步骤S520、由所述编码器确定初始源语言样本的源端向量表示序列,并由所述解码器确定所述源端向量表示序列对应的目标端向量表示序列,输出相应的目标语言。
可选的,步骤S510至步骤S520的可选实现可如图1、图2部分所示。
步骤S530、由所述第二重构层对所述目标端向量表示序列进行重构,翻译回源语言样本。
可选的,步骤S530的一种可选实现可如图10所示。可选的,在第二重构层训练完成后,第二重构层可翻译回补全省略代词的源语言样本。
步骤S540、根据所述初始源语言样本与所述目标语言确定似然函数分数,及确定翻译回的源语言样本相应的重构得分。
步骤S550、至少以最大化所述似然函数分数和所述重构得分为训练目标,迭代更新目标翻译模型的参数,直至达到迭代终止条件;其中,目标翻译模型的参数至少包括:第二重构层的参数。
可选的,在输入一初始源语言样本,确定相应的似然函数分数和重构得分后,可至少以最大化似然函数分数和转译分数为训练目标,进行一次目标翻译模型的参数更新;从而以此通过多条初始源语言样本,实现目标翻译模型的参数的迭代更新,直至达到迭代终止条件(如迭代次数达到最大,或者训练目标不再变化),从而得到训练后的目标翻译模型。
在更新目标翻译模型的参数时,目标翻译模型中除具有标准翻译模型具备的标准参数外,还具有改进结构的解码器相关的参数(如第二重构层的参数等),因此在进行目标翻译模型的参数更新时,所更新的参数应至少包括标准翻译模型的标准参数和第二重构层的参数。
可以理解的是,在目标翻译模型训练完成后,初始源语言样本相应的目标端向量表示序列进行重构,翻译回补全省略代词的源语言样本的能力;上述训练过程中,第二重构层的训练也可分离出来,实现方式可以如下:
获取初始源语言样本;将所述初始源语言样本输入目标翻译模型;由所述第二重构层对所述初始源语言样本相应的目标端向量表示序列进行重构,翻译回源语言样本(训练过程中,翻译回的源语言样本可能补全了省略代词,但可以理解的是,训练完成后,翻译回的源语言样本可补全省略代词);确定翻译回的源语言样本相应的重构得分;至少以最大化所述重构得分为训练目标,迭代更新所述第二重构层的参数,直至达到迭代终止条件,以使所述第二重构层翻译回补全省略代词的源语言样本。
当然,也可将第二重构层的训练糅合在整个模型的训练之中,相应的可至少以最大化所述似然函数分数和所述重构得分为训练目标,迭代更新目标翻译模型的参数,直至达到迭代终止条件;其中,所述目标翻译模型的参数至少包括:第二重构层的参数。
在目标翻译模型训练完成后,对于给定的一个初始源语言,可通过目标翻译模型中的编码器和解码器,产生多个翻译候选,并确定出各个翻译候选相应的似然函数分数;从而对于每一个翻译候选,第二重构层可确定各翻译候选相应翻译回的源语言,并输出各翻译候选翻译回的源语言相应的重构得分;进而,对于每一个翻译候选,可对相应的似然函数分数和重构得分进行线性差值计算,取计算结果最大的翻译候选作为翻译出的翻译结果,使得翻译出的翻译结果能够包含省略代词的译文,提升翻译结果的准确性。
可以理解的是,目标翻译模型训练好后,第二重构层的工作可类似于重排序技术,从多个翻译候选中选出更好的结果。此外,我们还可以仅用标准的encoder-decoder结构和训练好的解码器端的语义序列进行翻译,这样不增加额外的解码时间。
下面对本发明实施例提供的第三种情况的改进方式进行介绍。
第三种情况,第三种可以是将上述的第一种情况和第二种情况进行合并,即在目标翻译模型的编码器中增加补全初始源语言中的省略代词的能力,并在目标翻译模型的解码器中增加将目标端向量表示序列,翻译回补全了省略代词的源语言的能力,从而使得翻译模型的编码部分和解码部分同时能够学习到代词省略的知识,更为准确的在翻译结果中体现省略代词的译文,提升翻译结果的准确性。
可选的,所调整的目标翻译模型的架构可以如图12所示,目标翻译模型中除标准注意力层,编码和解码部分的结构均进行了改进;如图12所示,编码器中除保留标准编码能力外,增设了第一重构层和第一注意力层;解码器中除保留标准解码能力外,增设了第二重构层和第二注意力层。
对于第一重构层的处理说明,可参照上文相应的第一种情况的部分的说明,此处不再赘述;对于第二重构层的处理说明,可参照上文相应的第二种情况的部分的说明,此处不再赘述。
需要说明的是,第三种情况所设置的训练目标相应进行了调整;如图13所示,一方面,可使用标准翻译模型的编码器-解码器结构将初始源语言翻译成目标语言(如基于标准翻译模型以图1、2所示方式,将初始源语言翻译成目标语言),并得到似然函数分数P(y丨x)。
从而在进行目标翻译模型的训练时,本发明实施例可将转译分数作为辅助训练目标,来衡量目标翻译模型的编码器对源语言中的省略代词的补全还原能力;同时可将该重构得分作为辅助目标来衡量翻译回的源语言,相对于补全了省略代词的源语言的忠实度,以鼓励解码器得到更趋向于补全了省略代词的源语言的翻译结果。
相应的,可以最大化似然函数分数,转译分数,和重构得分为训练目标,进行目标翻译模型的训练。
可选的,图14示出了本发明实施例提供的目标翻译模型的再一种可选训练方法流程,目标翻译模型的训练可在服务器侧执行,参照图14,目标翻译模型的训练方法流程可以包括:
步骤S600、获取初始源语言样本。
步骤S610、将所述初始源语言样本输入目标翻译模型,由所述编码器确定初始源语言样本的源端向量表示序列,并由所述解码层确定所述源端向量表示序列对应的目标端向量表示序列,输出相应的目标语言。
步骤S620、由所述第一重构层对所述源端向量表示序列进行重构,得到补全省略代词的源语言样本;及由所述第二重构层对所述目标端向量表示序列进行重构,翻译回补全省略代词的源语言样本。
步骤S630、根据所述初始源语言样本与所述目标语言确定似然函数分数,根据所述初始源语言样本与第一重构层重构得到的所述补全省略代词的源语言样本确定转译分数,及确定由所述目标端向量表示序列翻译回的补全省略代词的源语言样本相应的重构得分。
步骤S640、至少以最大化所述似然函数分数,所述转译分数和所述重构得分为训练目标,迭代更新目标翻译模型的参数,直至达到迭代终止条件;其中,目标翻译模型的参数至少包括:第一重构层的参数和第二重构层的参数。
可选的,作为一种可选实现,本发明实施例可将目标翻译模型的训练目标设置为:
可选的,上述的第一重构层和/或,第二重构层的训练也可分离出来训练。
从而在目标翻译模型训练完成后,本发明实施例可使用编码器—解码器的标准翻译模型结构,和训练好的编码端和解码器端的语义序列进行译文的翻译,翻译得到包含省略代词的译文,实现在翻译结果中准确的进行省略代词的翻译,提升翻译结果的准确性。
具体的,对于给定的初始源语言,目标翻译模型的编码器可输出初始源语言相应的源端向量表示序列;通过第一重构层,根据源端向量表示序列,确定补全省略代词的源语言;从而目标翻译模型的标准注意力层可根据补全省略代词的源语言相应的源端向量表示序列,生成当前时刻补全省略代词的源语言的上下文表示;目标翻译模型的解码器可根据当前时刻的解码器状态,当前时刻的补全省略代词的源语言的上下文表示,和前一时刻生成的目标词,输出当前时刻生成的目标词;以此得到各个时刻所生成的目标词,直至补全省略代词的源语言中的各个源词均生成出相应的目标词,得到翻译后的目标端向量表示序列,输出相应的翻译结果。
鉴于上述提供的第一种情况,第二种情况和第三种情况的改进方式,本发明实施例可择一使用,训练得到目标翻译模型;针对训练得到的目标翻译模型,在解码时,则可以使用两种策略:仅使用标准的翻译模型框架,这样既充分利用习得的序列表示,又不增加额外的计算时间;对初始源语言进行代词补充,并提供给解码器端的第二重构层,这样可以补充跨句子的篇章信息。
可选的,针对训练得到的目标翻译模型,本发明实施例所进行的机器翻译的另一流程可如图15所示,包括:
步骤S700、获取初始源语言。
初始源语言为本发明实施例待翻译的,初始源语言可能省略了代词的源语言。
步骤S710、将所述初始源语言输入预训练的目标翻译模型,其中,所述目标翻译模型至少包括重构层。
可选的,目标翻译模型具有翻译出省略代词的能力,可基于上述第一种情况所示的在目标翻译模型的编码器中增加第一重构层实现,也可基于上述第二种情况所示的在目标翻译模型的解码器中增加第二重构层实现,还可基于结合上述第一种情况和上述第二种情况实现。
可选的,目标翻译模型具有翻译出省略代词的能力可以认为是,目标翻译模型具有补全初始源语言中的省略代词的能力,和/或,具有将翻译结果翻译回补全了省略代词的补全省略代词的源语言的能力。
相应的,目标翻译模型所包括的重构层可以是:目标翻译模型的编码器和解码器的至少一者中包含的重构层。
其中,所述编码器中包含的重构层(即第一重构层)用于对所述初始源语言的源端向量表示序列进行重构。
所述解码器中包含的重构层(即第二重构层)用于对所述初始源语言对应的目标端向量表示序列进行重构。
步骤S720、通过所述重构层对所述初始源语言的源端向量表示序列和/或对应的目标端向量表示序列进行重构,获得补全省略代词的源语言。
可选的,基于上述第一种情况,第二种情况和第三种情况中的任一种所训练的目标翻译模型,获得补全省略代词的源语言的过程不尽相同,具体的实现过程可参照上文相应部分所示。
步骤S730、输出补全省略代词的源语言的翻译结果。
本发明实施例提供的机器翻译方法,可预训练出目标翻译模型,所述目标翻译模型至少包括重构层;通过所述重构层,目标翻译模型具有补全初始源语言中的省略代词的能力,和/或,具有将解码端生成的目标端向量表示序列翻译回补全了省略代词的源语言的能力;从而在对初始源语言进行翻译时,可将所述初始源语言输入目标翻译模型,通过所述重构层对所述初始源语言的源端向量表示序列和/或对应的目标端向量表示序列进行重构,获得补全省略代词的源语言;输出补全省略代词的源语言的翻译结果。从而基于目标翻译模型实现代词易省略特性语言至非代词易省略特性语言的翻译时,能够在翻译结果中准确的进行省略代词的翻译,提升翻译结果的准确性。
为说明本发明实施例提供的机器翻译方法的效果,将上述第一种情况、第二种情况,第三种情况训练得到的目标翻译模型,与传统的SMT的翻译效果进行比对,可以发现本发明实施例提供的基于目标翻译模型所进行的机器翻译的翻译效果显著的得到了提升,具体翻译效果比对可如下表1所示,其中BLEU是机器翻译评测的标准方法,值越高表示效果越好。
表1
可选的,本发明实施例提供的机器翻译方法的应该场景示例可如图16所示,通过在翻译服务器中设置训练的目标翻译模型,从而在终端具有翻译需求时,实现译文的输出;可选的,如图16所示,应用场景过程可以包括:
S1、用户在终端输入省略了代词的初始源语言,终端向翻译服务器发送包含初始源语言的翻译请求。
S2、翻译服务器接收终端发送的翻译请求后,可调用预训练的目标翻译模型;其中,目标翻译模型至少包括重构层。
S3、翻译服务器将初始源语言输入目标翻译模型,通过所述重构层对所述初始源语言的源端向量表示序列和/或对应的目标端向量表示序列进行重构,获得补全省略代词的源语言。
S4、翻译服务器通过目标翻译模型输出补全省略代词的源语言的翻译结果。
下面对本发明实施例提供的机器翻译装置进行介绍,下文描述的机器翻译装置可以认为是,服务器为实现本发明实施例提供的机器翻译方法所需设置的程序模块。下文描述的机器翻译装置的内容,可与上文描述的机器翻译方法的内容相互对应参照。
图17为本发明实施例提供的机器翻译装置的结构框图,该机器翻译装置可应用于服务器,参照图17,该机器翻译装置可以包括:
获取模块100,用于获取初始源语言;
输入模块200,用于将所述初始源语言输入预训练的目标翻译模型,其中,所述目标翻译模型至少包括重构层;
重构处理模块300,用于通过所述重构层对所述初始源语言的源端向量表示序列和/或对应的目标端向量表示序列进行重构,获得补全省略代词的源语言;
译文输出模块400,用于输出补全省略代词的源语言的翻译结果。
可选的,所述目标NMT模型具有补全初始源语言中的省略代词的能力,和/或,具有将解码器生成的对应的目标端向量表示序列,翻译回补全了省略代词的源语言的能力。
可选的,所述重构层包括:所述目标翻译模型的编码器和解码器的至少一者中包含的重构层。
其中,所述编码器中包含的重构层用于对所述初始源语言的源端向量表示序列进行重构,所述解码器中包含的重构层用于对所述初始源语言对应的目标端向量表示序列进行重构。
可选的,在第一种情况下,所述重构层包括:所述编码器中包含的第一重构层;可选的,图18示出了本发明实施例提供的机器翻译装置的另一结构框图,结合图17和图18所示,该机器翻译装置还可以包括:
第一训练模块500,用于:
获取初始源语言样本;将所述初始源语言样本输入目标翻译模型;由所述第一重构层对所述初始源语言样本的源端向量表示序列进行重构,得到重构回的源语言样本;根据所述初始源语言样本与重构回的源语言样本确定转译分数;至少以最大化所述转译分数为训练目标,迭代更新所述第一重构层的参数,直至达到迭代终止条件,以使所述第一重构层重构得到补全省略代词的源语言样本。
可选的,第一训练模块500还用于:由所述编码器输出所述初始源语言样本的源端向量表示序列,及由所述解码器确定所述初始源语言样本对应的目标端向量表示序列,输出相应的目标语言;根据所述初始源语言样本与所述目标语言确定似然函数分数;至少以最大化所述似然函数分数和所述转译分数为训练目标,迭代更新目标翻译模型的参数,直至达到迭代终止条件;其中,所述目标翻译模型的参数至少包括:第一重构层的参数。
可选的,第一训练模块500,用于由所述第一重构层对所述初始源语言样本的源端向量表示序列进行重构,得到重构回的源语言样本,具体包括:
通过所述第一重构层,根据初始源语言样本的源端向量表示序列,确定重构回的源语言样本的上下文表示;
确定重构回的源语言样本中当前时刻的源词的上下文表示,根据重构回的源语言样本中当前时刻的源词的上下文表示,前一时刻的第一重构层的隐层状态,前一时刻重构得到的源词,确定当前时刻的第一重构层的隐层状态;
根据重构回的源语言样本中当前时刻的源词的上下文表示,当前时刻的第一重构层的隐层状态,确定当前时刻重构得到的源词;以在各个时刻,确定重构后的源语言样本的源词,得到重构回的源语言样本。
可选的,第一训练模块500,用于根据所述初始源语言样本与重构回的源语言样本确定转译分数,具体包括:
对于重构回的源语言样本中的任一源词,根据该源词对应的当前时刻的第一重构层的隐层状态,该源词对应的当前时刻的上下文表示,和前一时刻重构得到的源词,确定该源词对应的归一化指数函数结果;
将重构回的源语言样本的各源词对应的归一化指数函数结果进行连乘处理,得到所述初始源语言样本与重构回的源语言样本的转译分数。
可选的,在第二种情况下,所述重构层包括:所述解码器中包含的第二重构层;可选的,图19示出了本发明实施例提供的机器翻译装置的再一结构框图,结合图17和图19所示,该机器翻译装置还可以包括:
第二训练模块600,用于:
获取初始源语言样本;将所述初始源语言样本输入目标翻译模型;由所述第二重构层对所述初始源语言样本相应的目标端向量表示序列进行重构,翻译回源语言样本;确定翻译回的源语言样本相应的重构得分;至少以最大化所述重构得分为训练目标,迭代更新所述第二重构层的参数,直至达到迭代终止条件,以使所述第二重构层翻译回补全省略代词的源语言样本。
可选的,第二训练模块600还可用于,由所述编码器确定初始源语言样本的源端向量表示序列,并由所述解码器确定所述源端向量表示序列对应的目标端向量表示序列,输出相应的目标语言;根据所述初始源语言样本与所述目标语言确定似然函数分数;至少以最大化所述似然函数分数和所述重构得分为训练目标,迭代更新目标翻译模型的参数,直至达到迭代终止条件;其中,所述目标翻译模型的参数至少包括:第二重构层的参数。
可选的,第二训练模块600,用于由所述第二重构层对所述目标端向量表示序列进行重构,翻译回源语言样本,具体包括:
根据所述目标端向量表示序列,确定所述目标端向量表示序列翻译回的源语言样本的上下文表示;其中,翻译回的源语言样本的一个上下文表示,对应翻译回的源语言样本的一个源词;
确定翻译回的源语言样本在当前时刻的源词的上下文表示,根据该当前时刻的源词的上下文表示,前一时刻的第二重构层的隐层状态,前一时刻翻译回的源词,确定当前时刻的第二重构层的隐层状态;
根据翻译回的源语言样本在当前时刻的源词的上下文表示,当前时刻的第二重构层的隐层状态,确定当前时刻翻译回的源词;以在各个时刻,确定翻译回的源词,得到翻译回的源语言样本。
可选的,第二训练模块600,用于确定翻译回的源语言样本相应的重构得分,具体包括:
对于翻译回的源语言样本的任一源词,根据该源词对应的当前时刻第二重构层的隐层状态,该源词对应的当前时刻的上下文表示,和前一时刻翻译回的源词,确定该源词对应的归一化指数函数结果;
将翻译回的源语言样本中各源词对应的归一化指数函数结果进行连乘处理,得到翻译回的源语言样本的重构得分。
可选的,译文输出模块400,用于输出补全省略代词的源语言的翻译结果,具体包括:
通过目标翻译模型的编码器和解码层,产生初始源语言的多个翻译候选,并确定各个翻译候选相应的似然函数分数;对于每一个翻译候选,在由第二重构层确定各翻译候选相应翻译回的源语言后,输出各翻译候选翻译回的源语言相应的重构得分;对于每一个翻译候选,对相应的似然函数分数和重构得分进行线性差值计算;取计算结果最大的翻译候选作为翻译结果。
可选的,在第三种情况下,所述重构层包括:所述编码器中包含的第一重构层,和,所述解码器中包含的第二重构层;可选的,图20示出了本发明实施例提供的机器翻译装置的又一结构框图,结合图17和图20所示,该机器翻译装置还可以包括:
第三训练模块700,用于:
获取初始源语言样本;将所述初始源语言样本输入目标翻译模型;由所述编码器确定初始源语言样本的源端向量表示序列,并由所述解码层确定所述源端向量表示序列对应的目标端向量表示序列,输出相应的目标语言;由所述第一重构层对所述源端向量表示序列进行重构,得到补全省略代词的源语言样本,及由所述第二重构层对所述目标端向量表示序列进行重构,翻译回补全省略代词的源语言样本;根据所述初始源语言样本与所述目标语言确定似然函数分数,根据所述初始源语言样本与第一重构层重构得到的所述补全省略代词的源语言样本确定转译分数,及确定由所述目标端向量表示序列翻译回的补全省略代词的源语言样本相应的重构得分;至少以最大化所述似然函数分数,所述转译分数和所述重构得分为训练目标,迭代更新目标翻译模型的参数,直至达到迭代终止条件;其中,所述目标翻译模型的参数至少包括:第一重构层的参数和第二重构层的参数。
相应的,第三训练模块700也可将第一重构层和/或第二重构层的训练分离出来,单独训练。
上文描述的机器翻译装置可应用于服务器,如可应用于翻译服务器;可选的,图21示出了服务器的硬件结构框图,参照图21,服务器可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4。
在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信。
可选的,处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,存储器3存储有程序,处理器1可调用存储器3所存储的程序,以实现上文描述的机器翻译方法的步骤。
可选的,所述程序的具体内容可参照上文相应部分描述的。
本发明实施例还提供一种存储介质,该存储介质例如存储器、光盘、U盘等;该存储介质可存储有适于处理器执行的程序,以实现上文描述的机器翻译方法的步骤。
可选的,所述程序的具体内容可参照上文相应部分描述的。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种机器翻译方法,其特征在于,包括:
获取初始源语言;
将所述初始源语言输入预训练的目标翻译模型,其中,所述目标翻译模型至少包括重构层;
通过所述重构层对所述初始源语言的源端向量表示序列和/或对应的目标端向量表示序列进行重构,获得补全省略代词的源语言;
输出补全省略代词的源语言的翻译结果;
其中,所述目标翻译模型中的编码器中包括第一重构层,所述第一重构层的训练过程包括:获取初始源语言样本;
将所述初始源语言样本输入目标翻译模型;
由所述第一重构层对所述初始源语言样本的源端向量表示序列进行重构,得到重构回的源语言样本;
根据所述初始源语言样本与重构回的源语言样本确定转译分数;
至少以最大化所述转译分数为训练目标,迭代更新所述第一重构层的参数,直至达到迭代终止条件,以使所述第一重构层重构得到补全省略代词的源语言样本;
和/或,
所述目标翻译模型中的解码器中包括第二重构层,所述第二重构层的训练过程包括:
获取初始源语言样本;
将所述初始源语言样本输入目标翻译模型;
由所述第二重构层对所述初始源语言样本的目标端向量表示序列进行重构,翻译回源语言样本;
确定翻译回的源语言样本相应的重构得分;
至少以最大化所述重构得分为训练目标,迭代更新所述第二重构层的参数,直至达到迭代终止条件,以使所述第二重构层翻译回补全省略代词的源语言样本。
2.根据权利要求1所述的机器翻译方法,其特征在于,所述目标翻译模型为目标NMT模型。
3.根据权利要求1或2所述的机器翻译方法,其特征在于,所述目标翻译模型的编码器和解码器的至少一者中包含所述重构层;
其中,所述编码器中包含的重构层用于对所述初始源语言的源端向量表示序列进行重构;所述解码器中包含的重构层用于对所述初始源语言对应的目标端向量表示序列进行重构。
4.根据权利要求1所述的机器翻译方法,其特征在于,所述第一重构层的训练过程还包括:
由所述编码器输出所述初始源语言样本的源端向量表示序列,及由所述解码器确定所述初始源语言样本对应的目标端向量表示序列,输出相应的目标语言;
根据所述初始源语言样本与所述目标语言确定似然函数分数;
至少以最大化所述似然函数分数和所述转译分数为训练目标,迭代更新目标翻译模型的参数,直至达到迭代终止条件;其中,所述目标翻译模型的参数至少包括第一重构层的参数。
5.根据权利要求1所述的机器翻译方法,其特征在于,所述由所述第一重构层对所述初始源语言样本的源端向量表示序列进行重构,得到重构回的源语言样本的步骤包括:
通过所述第一重构层,根据初始源语言样本的源端向量表示序列,确定重构回的源语言样本的上下文表示;
确定重构回的源语言样本中当前时刻的源词的上下文表示;
根据重构回的源语言样本中当前时刻的源词的上下文表示、前一时刻的第一重构层的隐层状态、前一时刻重构得到的源词,确定当前时刻的第一重构层的隐层状态;
根据重构回的源语言样本中当前时刻的源词的上下文表示、当前时刻的第一重构层的隐层状态,确定当前时刻重构得到的源词;
重复上述步骤,确定各个时刻重构后的源语言样本的源词,得到重构回的源语言样本。
6.根据权利要求1所述的机器翻译方法,其特征在于,所述根据所述初始源语言样本与重构回的源语言样本确定转译分数的步骤包括:
对于重构回的源语言样本中的任一源词,根据该源词当前时刻的第一重构层的隐层状态、该源词当前时刻的上下文表示、和前一时刻重构得到的源词,确定该源词对应的归一化指数函数结果;
将重构回的源语言样本的各源词的归一化指数函数结果进行连乘处理,得到所述初始源语言样本与重构回的源语言样本的转译分数。
7.根据权利要求1所述的机器翻译方法,其特征在于,所述第二重构层的训练过程还包括:
由所述编码器确定初始源语言样本的源端向量表示序列,并由所述解码器确定所述源端向量表示序列对应的目标端向量表示序列,输出相应的目标语言;
根据所述初始源语言样本与所述目标语言确定似然函数分数;
至少以最大化所述似然函数分数和所述重构得分为训练目标,迭代更新目标翻译模型的参数,直至达到迭代终止条件;其中,所述目标翻译模型的参数至少包括第二重构层的参数。
8.根据权利要求1所述的机器翻译方法,其特征在于,所述由所述第二重构层对所述初始源语言样本的目标端向量表示序列进行重构,翻译回源语言样本的步骤包括:
根据所述目标端向量表示序列,确定所述目标端向量表示序列翻译回的源语言样本的上下文表示;其中,翻译回的源语言样本的一个上下文表示,对应翻译回的源语言样本的一个源词;
确定翻译回的源语言样本在当前时刻的源词的上下文表示;
根据该当前时刻的源词的上下文表示、前一时刻的第二重构层的隐层状态、前一时刻翻译回的源词,确定当前时刻的第二重构层的隐层状态;
根据翻译回的源语言样本在当前时刻的源词的上下文表示、当前时刻的第二重构层的隐层状态,确定当前时刻翻译回的源词;
重复上述步骤,确定各个时刻翻译回的源词,得到翻译回的源语言样本。
9.根据权利要求1所述的机器翻译方法,其特征在于,所述确定翻译回的源语言样本相应的重构得分的步骤包括:
对于翻译回的源语言样本的任一源词,根据该源词对应的当前时刻第二重构层的隐层状态、该源词对应的当前时刻的上下文表示、和前一时刻翻译回的源词,确定该源词对应的归一化指数函数结果;
将翻译回的源语言样本中各源词对应的归一化指数函数结果进行连乘处理,得到翻译回的源语言样本的重构得分。
10.根据权利要求1所述的机器翻译方法,其特征在于,所述输出补全省略代词的源语言的翻译结果的步骤包括:
通过目标翻译模型的编码器和解码层,产生初始源语言的多个翻译候选,并确定各个翻译候选相应的似然函数分数;
对于每一个翻译候选,在由第二重构层确定各翻译候选相应翻译回的源语言后,输出各翻译候选翻译回的源语言相应的重构得分;
对于每一个翻译候选,对相应的似然函数分数和重构得分进行线性差值计算;
取计算结果最大的翻译候选作为翻译结果。
11.根据权利要求1所述的机器翻译方法,其特征在于,所述编码器中包含第一重构层,所述解码器中包含第二重构层;所述方法还包括:
获取初始源语言样本;
将所述初始源语言样本输入目标翻译模型;
由所述编码器确定初始源语言样本的源端向量表示序列,并由所述解码层确定所述源端向量表示序列对应的目标端向量表示序列,输出相应的目标语言;
由所述第一重构层对所述源端向量表示序列进行重构,得到重构回的源语言样本;及由所述第二重构层对所述目标端向量表示序列进行重构,翻译回源语言样本;
根据所述初始源语言样本与所述目标语言确定似然函数分数,根据所述初始源语言样本与第一重构层重构回的源语言样本确定转译分数,及确定由所述目标端向量表示序列翻译回的源语言样本相应的重构得分;
至少以最大化所述似然函数分数,所述转译分数和所述重构得分为训练目标,迭代更新目标翻译模型的参数,直至达到迭代终止条件;其中,所述目标翻译模型的参数至少包括:第一重构层的参数和第二重构层的参数。
12.一种机器翻译装置,特征在于,包括:
获取模块,用于获取初始源语言;
输入模块,用于将所述初始源语言输入预训练的目标翻译模型,其中,所述目标翻译模型至少包括重构层;
重构处理模块,用于通过所述重构层对所述初始源语言的源端向量表示序列和/或对应的目标端向量表示序列进行重构,获得补全省略代词的源语言;
译文输出模块,用于输出补全省略代词的源语言的翻译结果;
其中,所述目标翻译模型中的编码器中包括第一重构层,所述第一重构层的训练过程包括:获取初始源语言样本;
将所述初始源语言样本输入目标翻译模型;
由所述第一重构层对所述初始源语言样本的源端向量表示序列进行重构,得到重构回的源语言样本;
根据所述初始源语言样本与重构回的源语言样本确定转译分数;
至少以最大化所述转译分数为训练目标,迭代更新所述第一重构层的参数,直至达到迭代终止条件,以使所述第一重构层重构得到补全省略代词的源语言样本;
和/或,
所述目标翻译模型中的解码器中包括第二重构层,所述第二重构层的训练过程包括:
获取初始源语言样本;
将所述初始源语言样本输入目标翻译模型;
由所述第二重构层对所述初始源语言样本的目标端向量表示序列进行重构,翻译回源语言样本;
确定翻译回的源语言样本相应的重构得分;
至少以最大化所述重构得分为训练目标,迭代更新所述第二重构层的参数,直至达到迭代终止条件,以使所述第二重构层翻译回补全省略代词的源语言样本。
13.根据权利要求12所述的机器翻译装置,其特征在于,所述目标翻译模型的编码器和解码器的至少一者中包含所述重构层;
其中,所述编码器中包含的重构层用于对所述初始源语言的源端向量表示序列进行重构,所述解码器中包含的重构层用于对所述初始源语言对应的目标端向量表示序列进行重构。
14.一种服务器,其特征在于,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,实现如权利要求1-11任一项所述的机器翻译方法的步骤。
15.一种存储介质,其特征在于,所述存储介质存储有适于处理器执行的程序,以实现如权利要求1-11任一项所述的机器翻译方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810018885.6A CN110020440B (zh) | 2018-01-09 | 2018-01-09 | 一种机器翻译方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810018885.6A CN110020440B (zh) | 2018-01-09 | 2018-01-09 | 一种机器翻译方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110020440A CN110020440A (zh) | 2019-07-16 |
CN110020440B true CN110020440B (zh) | 2023-05-23 |
Family
ID=67187713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810018885.6A Active CN110020440B (zh) | 2018-01-09 | 2018-01-09 | 一种机器翻译方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110020440B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368565B (zh) | 2018-09-05 | 2022-03-18 | 腾讯科技(深圳)有限公司 | 文本翻译方法、装置、存储介质和计算机设备 |
CN111160049B (zh) * | 2019-12-06 | 2023-06-06 | 华为技术有限公司 | 文本翻译方法、装置、机器翻译系统和存储介质 |
CN112015788A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 向目标用户展示目标对象序列的方法和装置 |
CN112417902A (zh) * | 2020-12-04 | 2021-02-26 | 北京有竹居网络技术有限公司 | 文本翻译方法、装置、设备及存储介质 |
CN116108862B (zh) * | 2023-04-07 | 2023-07-25 | 北京澜舟科技有限公司 | 篇章级机器翻译模型构建方法、系统及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1955953A (zh) * | 2005-10-27 | 2007-05-02 | 株式会社东芝 | 根据单词之间的语义关系优化翻译的装置和方法 |
JP2014013514A (ja) * | 2012-07-04 | 2014-01-23 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8903707B2 (en) * | 2012-01-12 | 2014-12-02 | International Business Machines Corporation | Predicting pronouns of dropped pronoun style languages for natural language translation |
-
2018
- 2018-01-09 CN CN201810018885.6A patent/CN110020440B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1955953A (zh) * | 2005-10-27 | 2007-05-02 | 株式会社东芝 | 根据单词之间的语义关系优化翻译的装置和方法 |
JP2014013514A (ja) * | 2012-07-04 | 2014-01-23 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN110020440A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020440B (zh) | 一种机器翻译方法、装置、服务器及存储介质 | |
US11853709B2 (en) | Text translation method and apparatus, storage medium, and computer device | |
US11314946B2 (en) | Text translation method, device, and storage medium | |
CN110598224B (zh) | 翻译模型的训练方法、文本处理方法、装置及存储介质 | |
US20220300718A1 (en) | Method, system, electronic device and storage medium for clarification question generation | |
US11735184B2 (en) | Translation and speech recognition method, apparatus, and device | |
JP2023504219A (ja) | 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法 | |
CN111078866B (zh) | 一种基于序列到序列模型的中文文本摘要生成方法 | |
EP3764276A1 (en) | Video processing method and apparatus, video retrieval method and apparatus, storage medium and server | |
JP7413630B2 (ja) | 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体 | |
CN110795912B (zh) | 基于神经网络对文本编码的方法、装置、设备及存储介质 | |
EP3948850A1 (en) | System and method for end-to-end speech recognition with triggered attention | |
CN111783478B (zh) | 机器翻译质量估计方法、装置、设备及存储介质 | |
CN112270200B (zh) | 一种文本信息的翻译方法、装置、电子设备和存储介质 | |
US20230178067A1 (en) | Method of training speech synthesis model and method of synthesizing speech | |
CN114708474A (zh) | 一种融合局部和全局特征的图像语义理解算法 | |
CN116187324B (zh) | 为源语言的长文本生成跨语言摘要的方法、系统及介质 | |
JP7520085B2 (ja) | テキスト誤り訂正とテキスト誤り訂正モデルの生成方法、装置、機器及び媒体 | |
CN112837669A (zh) | 语音合成方法、装置及服务器 | |
CN110913229B (zh) | 基于rnn的解码器隐状态确定方法、设备和存储介质 | |
CN115810068A (zh) | 一种图像描述生成方法、装置、存储介质及电子设备 | |
CN115035885A (zh) | 一种语音合成方法、装置、设备及存储介质 | |
CN116306612A (zh) | 一种词句生成方法及相关设备 | |
US20210390269A1 (en) | System and method for bi-directional translation using sum-product networks | |
WO2020166125A1 (ja) | 翻訳用データ生成システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |