CN109543200B - 一种文本翻译方法及装置 - Google Patents
一种文本翻译方法及装置 Download PDFInfo
- Publication number
- CN109543200B CN109543200B CN201811459625.9A CN201811459625A CN109543200B CN 109543200 B CN109543200 B CN 109543200B CN 201811459625 A CN201811459625 A CN 201811459625A CN 109543200 B CN109543200 B CN 109543200B
- Authority
- CN
- China
- Prior art keywords
- sequence
- decoding
- decoder
- encoder
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种文本翻译方法及装置,涉及机器学习技术领域,在对待翻译文本进行翻译时,采用编码器对待翻译文本进行编码,将编码器中每个隐藏层的处理结果进行融合,确定源端向量表示序列。之后解码器对源端向量表示序列进行解码,将解码器中每个隐藏层的处理结果进行融合确定翻译后的文本信息,以学习更好的隐层表示,减少有用信息的丢失,从而提高了翻译的准确性。编码器和解码器根据各隐藏层的输出结果确定各隐藏层的融合权重,然后基于融合权重对各隐藏层的输出结果进行融合,故针对不同的待翻译文本,编码器和解码器中各隐藏层的权重也不相同,从而提高了编码器和解码器的表达能力,提高了翻译的稳定性。
Description
技术领域
本申请实施例涉及机器学习技术领域,尤其涉及一种文本翻译方法及装置。
背景技术
机器翻译(Machine Translation,MT)是指使用机器将文本或言语从一种语言转化为具有相同含义内容的另一种语言的过程。随着深度学习的兴起,最近几年深层神经网络技术在MT上也得到应用,神经网络机器翻译(Neural Machine Translation,NMT)成为新一代翻译技术。
目前,NMT普遍使用的模型由一个多层神经网络的编码器和一个多层神经网络的解码器组成。然而,在使用该模型实现翻译时,仅仅利用了编码器最上层的信息和解码器最上层的信息,从而忽略了蕴含在其它层中的信息。
发明内容
由于现有技术中,NMT使用编码器-解码器模型翻译文本时,仅利用了编码器最上层的信息和解码器最上层的信息,从而忽略了蕴含在其它层中的信息的问题,本申请实施例提供了一种文本翻译方法及装置。
一方面,本申请实施例提供了一种文本翻译方法,该方法包括:
获得编码器各隐藏层对待翻译文本进行编码后的编码序列;
根据所述编码器各隐藏层的编码权重将各个编码序列进行融合,获得源端向量表示序列,其中,所述编码器各隐藏层的编码权重是在训练所述编码器的过程中,学习不同翻译文本样本在两种语言之间进行翻译的过程而获得的;
获得解码器各隐藏层对所述源端向量表示序列进行解码后的解码序列;
根据所述解码器各隐藏层的解码权重将各个解码序列进行融合,获得解码向量表示序列,其中,所述解码器各隐藏层的解码权重是在训练所述解码器的过程中,学习不同翻译文本样本在两种语言之间进行翻译的过程而获得的;
根据所述解码向量表示序列,确定翻译后的文本信息。
另一方面,本申请实施例提供了一种文本翻译装置,该装置包括:
编码模块,用于获得编码器各隐藏层对待翻译文本进行编码后的编码序列;
第一融合模块,用于根据所述编码器各隐藏层的编码权重将各个编码序列进行融合,获得源端向量表示序列,其中,所述编码器各隐藏层的编码权重是在训练所述编码器的过程中,学习不同翻译文本样本在两种语言之间进行翻译的过程而获得的;
解码模块,用于获得解码器各隐藏层对所述源端向量表示序列进行解码后的解码序列;
第二融合模块,用于根据所述解码器各隐藏层的解码权重将各个解码序列进行融合,获得解码向量表示序列,其中,所述解码器各隐藏层的解码权重是在训练所述解码器的过程中,学习不同翻译文本样本在两种语言之间进行翻译的过程而获得的;
匹配模块,用于根据所述解码向量表示序列,确定翻译后的文本信息。
另一方面,本申请实施例提供了一种终端设备,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述文本翻译方法的步骤。
又一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述处理单元执行上述文本翻译方法的步骤。
由于在对待翻译文本进行翻译时,采用编码器对待翻译文本进行编码,将编码器中每一个隐藏层的处理结果进行融合,确定源端向量表示序列,故源端向量表示序列融合了各隐藏层的语义信息以及语法信息,提高了源端向量表示序列与待翻译文本的相关性。之后解码器对源端向量表示序列进行解码,将解码器中每一个隐藏层的处理结果进行融合确定翻译后的文本信息,以学习更好的隐层表示,减少有用信息的丢失,从而提高了翻译的准确性。其次,编码器和解码器在对各个隐藏层的输出结果进行融合时,根据各隐藏层的输出结果动态确定各隐藏层的融合权重,然后基于融合权重对各隐藏层的输出结果进行融合,故针对不同的待翻译文本,编码器和解码器中各隐藏层的权重也不相同,从而提高了编码器和解码器的表达能力,提高了翻译的稳定性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例适用的应用场景图;
图2a为本申请实施例提供的一种现有的编码器-解码器模型的结构示意图;
图2b为本申请实施例提供的一种编码器-解码器模型的结构示意图;
图3为本申请实施例提供的一种文本翻译方法的流程示意图;
图4为本申请实施例提供的一种编码方法的流程示意图;
图5为本申请实施例提供的一种编码方法的流程示意图;
图6为本申请实施例提供的一种编码方法的流程示意图;
图7为本申请实施例提供的一种解码方法的流程示意图;
图8a为本申请实施例提供的一种解码方法的流程示意图;
图8b为本申请实施例提供的一种解码方法的流程示意图;
图9为本申请实施例提供的一种文本翻译装置的结构示意图;
图10为本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
NMT:Neural Machine Translation,神经网络机器翻译,最新一代基于神经网络的机器翻译技术。
BLEU:Bilingual Evaluation Understudy机器翻译评测的标准方法,值越高表示效果越好。
前向神经网络:前向神经网络也就是前馈神经网络,各神经元接收前一层的输入,并输出给下一层,没有反馈。节点分为两类,即输入节点和计算节点,每一个计算节点可有多个输入,但只有一个输出,通常前馈神经网络可分为不同的层,第i层的输入只与第i-1层的输出相连,输入层和输出层与外界相连,而其他中间层则称为隐藏层。
EM:Expectation-Maximization最大期望,最大期望算法是一种迭代算法,用于含有隐变量(latent variable)的概率参数模型的最大似然估计或极大后验概率估计。极大似然估计只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不是很清楚,参数估计就是通过若干次的实验,观察每一次的结果,利用得到的结果去分析、推测出参数的大概的值。最大似然估计就是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以就干脆直接把换个参数当作估计到的真实值。
动态路由:Dynamic Routing,是一个迭代的路由协议机制(routing-by-agreementmechanism),适用于胶囊网络。
隐藏层:除输入层和输出层以外的其他各层叫做隐藏层,隐藏层不直接接受外界的信号,也不直接向外界发送信号。
输入层:该层负责接收来自网络外部的信息。
输出层:输出网络的计算结果。
本申请实施例中的文本翻译方法可以应用于如图1所示的应用场景,该应用场景中包括终端设备101、服务器102。
终端设备101中预先可以安装翻译应用程序,用户在需要翻译时,在翻译应用程序的输入界面中输入待翻译文本,终端设备101可以在获取待翻译文本后,直接对待翻译文本进行翻译,然后在翻译应用程序中显示翻译后的文本信息。终端设备101也可以将待翻译文本发送至服务器102,服务器102对待翻译文本进行翻译,将翻译后的文本信息发送至终端设备101,终端设备101在翻译应用程序中显示翻译后的文本信息。终端设备101通过无线网络与服务器102连接,终端设备101可以是智能手机、平板电脑或便携式个人计算机等,服务器102可以是一台服务器或若干台服务器组成的服务器集群或云计算中心。
本申请实施例中NMT采用的机器翻译模型可以为编码器-解码器模型(encoder-decoder),编码指编码器将输入的待翻译文本转换为向量序列,解码指解码器将编码器输出的序列转化为翻译后的文本信息。输入编码器的待翻译文本对应第一语言,解码器输出的翻译后的文本信息对应第二语言。编码器-解码器模型采用的神经网络可以根据实际情况确定,可选的神经网络包括但不限于卷积神经网络(Convoltional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、门控循环单元(Gated RecurrentUnit,GRU)、时间递归神经网络(Long Short-Term Memory,LSTM)、自注意力机制。编码器-解码器模型中编码器和解码器可以采用相同的神经网络,也可以采用不同的神经网络。
具体实践过程中,本申请的发明人发现,现有NMT使用的编码器-解码器模型中,编码器和解码器的输入层和输出层之间都包括多个隐藏层,具体如图2a所示。待翻译文本依次经过编码器的多个隐藏层处理后,将编码器最后一个隐藏层的处理结果作为编码器的输出结果输入解码器,解码器中多个隐藏层依次对编码器的输出结果进行处理,然后将解码器最后一个隐藏层的处理结果作为翻译后的文本信息。通过研究表明,不同的隐藏层有能力包含不同的句法和语义信息,编码器和解码器均使用最后一个隐藏层的处理结果作为输出时,将丢失了蕴含在其它隐藏层中的有用信息。
为此,本申请实施例中,如图2b所示,在编码器中添加第一融合层,将待翻译文本输入编码器。编码器各隐藏层逐层对待翻译文本进行编码,获得编码器各隐藏层输出的编码序列,然后将每个隐藏层输出的编码序列输入第一融合层。第一融合层根据编码器各隐藏层的编码权重将各个编码序列进行融合,获得源端向量表示序列,其中,编码器各隐藏层的编码权重与编码器各隐藏层输出的编码序列相关。
在解码器中添加第二融合层,将源端向量表示序列输入解码器。解码器各隐藏层对源端向量表示序列进行解码,获得解码器各隐藏层输出的解码序列。然后将解码器各隐藏层输出的解码序列输入第二融合层。第二融合层根据解码器各隐藏层的解码权重将各个解码序列进行融合,获得解码向量表示序列,然后根据解码向量表示序列,确定翻译后的文本信息,其中,解码器各隐藏层的解码权重与解码器各隐藏层输出的解码序列相关。
由于在对待翻译文本进行翻译时,采用编码器对待翻译文本进行编码,将编码器中每一个隐藏层的处理结果进行融合,确定源端向量表示序列,故源端向量表示序列融合了各隐藏层的语义信息以及语法信息,提高了源端向量表示序列与待翻译文本的相关性。之后解码器对源端向量表示序列进行解码,将解码器中每一个隐藏层的处理结果进行融合确定翻译后的文本信息,以学习更好的隐层表示,减少有用信息的丢失,从而提高了翻译的准确性。其次,编码器和解码器在对各个隐藏层的输出结果进行融合时,根据各隐藏层的输出结果确定各隐藏层的融合权重,然后基于融合权重对各隐藏层的输出结果进行融合,故针对不同的待翻译文本,编码器和解码器中各隐藏层的融合权重也不相同,从而提高了编码器和解码器的表达能力,提高了翻译的稳定性。
为了便于理解,请参阅图3,图3为本申请实施例提供的一种文本翻译方法的流程图,该方法可以由文本翻译装置执行,文本翻译装置中采用的机器翻译模型为编码器-解码器模型,包括编码器和解码器。文本翻译装置可以是上述图1中的终端设备101或服务器102,该方法包括以下步骤:
步骤S301,获得编码器各隐藏层对待翻译文本进行编码后的编码序列。
具体地,待翻译文本可以是待翻译的句子、段落等,比如将中文翻译成英文时,待翻译文本可以是“猫坐在垫子上。”。编码器包括输入层、隐藏层以及输出层,其中隐藏层为多个,待翻译文本依次经过多个隐藏层进行编码,得到各隐藏层输出的编码序列。具体地,将待翻译文本输入编码器各隐藏层中的第一层隐藏层,通过第一层隐藏层对待翻译文本进行编码处理,输出第一层隐藏层对应的编码序列。再将第一层隐藏层输出的编码序列作为第二层隐藏层的输入,通过第二隐藏层进行编码处理,输出第二层隐藏层对应的编码序列。以此类推,直到获得最后一层隐藏层输出的编码序列。
在一种可能的实施方式中,待翻译文本输入编码器之前,可以先对待翻译文本进行分词处理,得到待翻译文本的源端词序列,然后将待翻译文本的源端词序列输入编码器进行编码。
在另一种可能的实施方式中,待翻译文本输入编码器之前,可以先对待翻译文本进行分词处理,得到待翻译文本的源端词序列。然后通过词嵌入(word embedding)处理将源端词序列转化为联系的空间向量表示序列。之后再将空间向量表示序列输入编码器进行编码。
步骤S302,根据编码器各隐藏层的编码权重将各个编码序列进行融合,获得源端向量表示序列。
编码器各隐藏层的编码权重,是在训练编码器的过程中,学习不同翻译文本样本在两种语言之间进行翻译的过程而获得的。具体地,编码器各隐藏层的编码权重与编码器各隐藏层输出的编码序列对应,针对不同的待翻译文本,隐藏层编码输出的编码序列不同,因此编码权重也不一样。具体实施中,用于确定编码权重的模型可以是预先学习多个翻译文本样本在两种语言之间进行翻译的过程确定,在使用过程中可以收集新的翻译文本样本对预先训练好的模型进行更新。该模型可以位于编码器内,也可以独立于编码器。
源端向量表示序列表示待翻译文本的语义信息和语法信息,其中包括的每个源端向量对应待翻译文本中的一个源端词,比如编码器各隐藏层对待翻译文本“猫坐在垫子上。”进行编码,然后将各隐藏层输出的编码序列融合后,得到的源端向量表示序列中包括5个源端向量,这5个源端向量对应的源端词分别为“猫”、“坐在”、“垫子上”、“。”“<eos>”。
步骤S303,获得解码器各隐藏层对源端向量表示序列进行解码后的解码序列。
解码器中包括输入层、隐藏层以及输出层,其中隐藏层为多个。源端向量表示序列依次经过解码器中各隐藏层进行解码,得到各隐藏层输出的解码序列。具体地,将源端向量表示序列输入解码器各隐藏层中的第一层隐藏层,通过第一层隐藏层对源端向量表示序列进行解码处理,输出第一层隐藏层对应的解码序列。再将第一层隐藏层输出的解码序列作为第二层隐藏层的输入,通过第二隐藏层进行解码处理,输出第二层隐藏层对应的解码序列。以此类推,直到获得最后一层隐藏层输出的解码序列。
步骤S304,根据解码器各隐藏层的解码权重将各个解码序列进行融合,获得解码向量表示序列。
步骤S305,根据解码向量表示序列,确定翻译后的文本信息。
解码器各隐藏层的解码权重是在训练解码器的过程中,学习不同翻译文本样本在两种语言之间进行翻译的过程而获得的。具体地,解码器各隐藏层的解码权重与解码器各隐藏层输出的解码序列对应,针对不同的待翻译文本,隐藏层解码输出的解码序列不同,因此解码权重也不一样。具体实施中,用于确定解码权重的模型,可以通过预先学习多个翻译文本样本在两种语言之间进行翻译的过程确定。在使用过程中可以收集新的翻译文本样本对预先训练好的模型进行更新。该模型可以位于解码器内,也可以独立于解码器。
在一种可能的实施方式中,解码器在生成当次的解码向量表示序列时,获取解码器前次输出的目标词的词向量,然后依据前次输出的目标词的词向量对源端向量表示序列进行解码,确定当次的解码向量表示序列,然后根据当次的解码向量表示序列与目标词库中的各个词进行比较,将目标词库中与解码向量表示序列相似度最高的词,确定为目标词。
示例性地,设定待翻译文本为“猫坐在垫子上。”,解码器开始解码时,没有前次输出的目标词,则将前次输出的目标词的词向量设置为“空”,然后依据前次输出的目标词的词向量“空”对“猫坐在垫子上。”对应的源端向量表示序列进行解码并融合,得到解码向量表示序列。将解码向量表示序列与目标词库进行比较,从目标词库中获得“猫”对应的目标词“the cat”。然后进入下一次解码,解码器获取前次输出的目标词“the cat”的词向量,然后依据前次输出的目标词“the cat”的词向量对“猫坐在垫子上。”对应的源端向量表示序列进行解码并融合,得到解码向量表示序列。将解码向量表示序列与目标词库进行比较,从目标词库中获得“坐在”对应的目标词“sat on”。依次类推,直到对结束符“<eos>”完成解码。由于在对源端向量表示序列进行解码时,不仅使用了源端向量表示序列中的语义信息,同时综合了前次输出的目标词的语义信息,从而使得生成的目标词更连贯,翻译结果更准确。
进一步地,按照解码器输出的各目标词的顺序,将各目标词进行拼接,生成翻译后的文本信息。翻译文本和翻译后的文本信息对应不同语言。
示例性地,设定待翻译文本是“猫坐在垫子上”,解码器依次输出的目标词为“thecat”、“sat on”、“the mat”,则将各目标词进行拼接,确定翻译后的文本信息为“the catsat on the mat”。
上述实施例中,通过编码器各隐藏层逐层对待翻译文本进行编码处理,获得融合了各隐藏层输出的编码序列的源端向量表示序列。通过解码器各隐藏层逐层对源端向量表示序列进行解码处理,获得融合了各隐藏层输出的解码序列的解码向量表示序列,最后基于解码向量表示序列获得翻译后的文本信息。这样融合编码器以及解码器各隐藏层的信息,以学习更好的隐层表示,减少了有用信息的丢失,从而提高了翻译的准确性。其次,预先学习翻译文本样本在两种语言之间进行翻译的过程中编码序列与编码权重之间的对应关系以及解码序列与解码权重之间的对应关系,故在对待翻译文本进行翻译时,不同的翻译文本对应不同的编码权重和解码权重,使得编码器和解码器各隐藏层的融合结果与每个翻译文本对应,从而提高翻译效果。
在上述步骤S302中,针对编码器,本申请实施例至少提供以下几种融合方式:
在一种可能的实施方式中,采用第一前向神经网络,根据编码器各隐藏层输出的编码序列,确定编码器各隐藏层的编码权重,并根据确定的编码权重将各个编码序列进行融合,获得源端向量表示序列,其中,编码器各隐藏层的编码权重,是在训练编码器过程中,学习不同翻译文本样本在两种语言之间进行翻译时产生的各个编码序列及其对应的源端向量表示序列而获得的。
具体实施中,在训练编码器时,同时训练第一前向神经网络。第一前向神经网络的训练样本为多个翻译文本样本在两种语言之间进行翻译的过程中产生的编码序列及其对应的源端向量表示序列。当编码器训练结束时,第一前向神经网络训练结束。
示例性地,如图4所示,设定编码器包括3个隐藏层和1个融合层,3个隐藏层分别为第一隐藏层、第二隐藏层、第三隐藏层,融合层为第一前向神经网络。第一隐藏层、第二隐藏层以及第三隐藏层逐层对待翻译文本进行编码,每层输出编码序列,然后将各隐藏层输出的编码序列分别输入第一前向神经网络,获得第一隐藏层的编码权重、第二隐藏层的编码权重、第三隐藏层的编码权重,然后根据第一隐藏层的编码权重、第二隐藏层的编码权重、第三隐藏层的编码权重将编码器第一隐藏层、第二隐藏层以及第三隐藏层输出的编码序列进行融合,获得源端向量表示序列。
在一种可能的实施方式中,采用第一转换模型,确定编码器各隐藏层输出的编码序列对应的转换序列,编码器各隐藏层输出的编码序列对应的转换序列,是在训练编码器过程中,学习多个翻译文本样本在两种语言之间进行翻译的过程中编码序列与转换序列之间的关系而获得的;
采用第一迭代路由,根据编码器各隐藏层的转换序列,确定编码器各隐藏层的转换序列对应的编码权重,并根据确定的编码权重将各个转换序列进行融合,获得源端向量表示序列。
具体实施中,第一转换模型可以为线性转换模型,也可以为非线性转换模型。第一转换模型可以对编码器每一个隐藏层输出的编码序列进行一次转换,也可以进行多次转换。每进行一次转换,生成一个转换序列。将第一转换模型输出的每一个转换序列输入第一迭代路由,第一迭代路由采用迭代的方式确定每一个转换序列对应的编码权重,第一迭代路由的迭代次数可以预先设定。在训练编码器时,同时训练第一转换模型。第一转换模型的训练样本为多个翻译文本样本在两种语言之间进行翻译的过程中的编码序列和转换序列。当编码器训练结束时,第一转换模型训练结束。
可选地,第一迭代路由可以为动态路由或最大期望EM路由。
示例性地,如图5所示,设定第一迭代路为第一动态路由,编码器包括3个隐藏层、1个融合层,3个隐藏层分别为第一隐藏层、第二隐藏层以及第三隐藏层,融合层中包括第一转换模型、第一动态路由、融合单元和拼接单元。第一隐藏层、第二隐藏层以及第三隐藏层逐层对待翻译文本进行编码,获得编码序列(x、y、z)。然后将编码序列(x、y、z)分别输入第一转换模型,获得第一隐藏层的三个转换序列(x1、x2、x3)、第二隐藏层应的三个转换序列(y1、y2、y3)、第三隐藏层的三个转换序列(z1、z2、z3)。将第一隐藏层的三个转换序列输入第一动态路由,确定三个转换序列的编码权重(xk1、xk2、xk3),将第二隐藏层的三个转换序列输入第一动态路由,确定三个转换序列的编码权重(yk1、yk2、yk3),将第三隐藏层的三个转换序列输入第一动态路由,确定三个转换序列的编码权重(zk1、zk2、zk3)。融合单元根据编码权重xk1、编码权重yk1、编码权重zk1将第一隐藏层的转换序列x1、第二隐藏层的转换序列y1、第三隐藏层的转换序列z1进行融合,获得第一融合转换序列S1。融合单元根据编码权重xk2、编码权重yk2、编码权重zk2将第一隐藏层的转换序列x2、第二隐藏层的转换序列y2、第三隐藏层的转换序列z2进行融合,获得第二融合转换序列S2。融合单元根据编码权重xk3、编码权重yk3、编码权重zk3将第一隐藏层的转换序列x3、第二隐藏层的转换序列y3、第三隐藏层的转换序列z3进行融合,获得第三融合转换序列S3。之后拼接单元再将第一融合转换序列S1、第二融合转换序列S2、第三融合转换序列S3进行拼接,获得源端向量表示序列。
示例性地,如图6所示,设定第一迭代路为第一EM路由,编码器包括3个隐藏层、1个融合层,3个隐藏层分别为第一隐藏层、第二隐藏层以及第三隐藏层,融合层中包括第一转换模型、第一EM路由、融合单元和拼接单元。第一隐藏层、第二隐藏层以及第三隐藏层逐层对待翻译文本进行编码,获得编码序列(x、y、z)以及编码序列的概率(xp、yp、zp)。然后将编码序列(x、y、z)以及编码序列的概率(xp、yp、zp)分别输入第一转换模型,获得第一隐藏层的三个转换序列(x1、x2、x3)、第二隐藏层应的三个转换序列(y1、y2、y3)、第三隐藏层的三个转换序列(z1、z2、z3)。将第一隐藏层的三个转换序列输入第一EM路由,确定三个转换序列的编码权重(xk1、xk2、xk3),将第二隐藏层的三个转换序列输入第一EM路由,确定三个转换序列的编码权重(yk1、yk2、yk3),将第三隐藏层的三个转换序列输入第一EM路由,确定三个转换序列的编码权重(zk1、zk2、zk3)。融合单元根据编码权重xk1、编码权重yk1、编码权重zk1将第一隐藏层的转换序列x1、第二隐藏层的转换序列y1、第三隐藏层的转换序列z1进行融合,获得第一融合转换序列S1以及第一融合转换序列的概率p1。融合单元根据编码权重xk2、编码权重yk2、编码权重zk2将第一隐藏层的转换序列x2、第二隐藏层的转换序列y2、第三隐藏层的转换序列z2进行融合,获得第二融合转换序列S2以及第二融合转换序列的概率p2。融合单元根据编码权重xk3、编码权重yk3、编码权重zk3将第一隐藏层的转换序列x3、第二隐藏层的转换序列y3、第三隐藏层的转换序列z3进行融合,获得第三融合转换序列S3以及第三融合转换序列的概率p3。之后拼接单元再根据第一融合转换序列的概率p1、第二融合转换序列的概率p2以及第三融合转换序列的概率p3将第一融合转换序列S1、第二融合转换序列S2、第三融合转换序列S3进行拼接,获得源端向量表示序列。
在上述步骤S304中,针对解码器,本申请实施例至少提供以下几种融合方式:
在一种可能的实施方式中,采用第二前向神经网络,根据解码器各隐藏层输出的解码序列,确定解码器各隐藏层的解码权重,并根据确定的解码权重将各个解码序列进行融合,获得解码向量表示序列,其中,解码器各隐藏层的解码权重,是在训练所述解码器过程中,学习不同翻译文本样本在两种语言之间进行翻译时产生的各个解码序列及其对应的解码向量表示序列而获得的。
具体实施中,在训练解码器时,同时训练第二前向神经网络。第二前向神经网络的训练样本为多个翻译文本样本在两种语言之间进行翻译的过程中产生的解码序列及其对应的解码向量表示序列。当解码器训练结束时,第一前向神经网络训练结束。
示例性地,如图7所示,设定解码器包括3个隐藏层和1个融合层,3个隐藏层分别为第一隐藏层、第二隐藏层以及第三隐藏层,融合层为第二前向神经网络。第一隐藏层、第二隐藏层以及第三隐藏层逐层对待源端向量表示序列进行解码,每层输出解码序列,然后将各隐藏层输出的解码序列分别输入第二前向神经网络,获得第一隐藏层的解码权重、第二隐藏层的解码权重、第三隐藏层的解码权重。然后根据第一隐藏层的解码权重、第二隐藏层的解码权重、第三隐藏层的解码权重将解码器第一隐藏层、第二隐藏层以及第三隐藏层输出的解码序列进行融合,获得解码向量表示序列。
在另一种可能的实施方式中,采用第二转换模型,确定解码器各隐藏层输出的解码序列对应的转换序列,解码器各隐藏层输出的解码序列对应的转换序列,是在训练解码器过程中,学习多个翻译文本样本在两种语言之间进行翻译的过程中解码序列与转换序列之间的关系而获得的;
采用第二迭代路由,根据解码器各隐藏层的转换序列,确定解码器各隐藏层的转换序列对应的解码权重,并根据确定的解码权重将各个转换序列进行融合,获得源端向量表示序列。
具体地,第二转换模型可以为线性转换模型,也可以为非线性转换模型。第二转换模型可以对解码器每一个隐藏层输出的解码序列进行一次转换,也可以进行多次转换。每进行一次转换,生成一个转换序列。将第二转换模型输出的每一个转换序列输入第二迭代路由,第二迭代路由采用迭代的方式确定每一个转换序列对应的解码权重,第二迭代路由的迭代次数可以预先设定。在训练解码器时,同时训练第二转换模型。第二转换模型的训练样本为多个翻译文本样本在两种语言之间进行翻译的过程中的解码序列和转换序列。当解码器训练结束时,第二转换模型训练结束。
可选地,第二迭代路由可以为动态路由或最大期望EM路由。
示例性地,如图8a所示,设定第二迭代路为第二动态路由,解码器包括3个隐藏层、1个融合层,3个隐藏层分别为第一隐藏层、第二隐藏层以及第三隐藏层,融合层中包括第二转换模型、第二动态路由、融合单元和拼接单元。第一隐藏层、第二隐藏层以及第三隐藏层逐层对源端向量表示序列进行解码,获得解码序列(a、b、c)。然后将解码序列(a、b、c)分别输入第二转换模型,获得第一隐藏层的三个转换序列(a1、a2、a3)、第二隐藏层应的三个转换序列(b1、b2、b3)、第三隐藏层的三个转换序列(c1、c2、c3)。将第一隐藏层的三个转换序列输入第二动态路由,确定三个转换序列的解码权重(ak1、ak2、ak3),将第二隐藏层的三个转换序列输入第二动态路由,确定三个转换序列的解码权重(bk1、bk2、bk3),将第三隐藏层的三个转换序列输入第二动态路由,确定三个转换序列的解码权重(ck1、ck2、ck3)。融合单元根据解码权重ak1、解码权重bk1、解码权重ck1将第一隐藏层的转换序列a1、第二隐藏层的转换序列b1、第三隐藏层的转换序列c1进行融合,获得第一融合转换序列T1。融合单元根据解码权重ak2、解码权重bk2、解码权重ck2将第一隐藏层的转换序列a2、第二隐藏层的转换序列b2、第三隐藏层的转换序列c2进行融合,获得第二融合转换序列T2。融合单元根据解码权重ak3、解码权重bk3、解码权重ck3将第一隐藏层的转换序列a3、第二隐藏层的转换序列b3、第三隐藏层的转换序列c3进行融合,获得第三融合转换序列T3。之后拼接单元再将第一融合转换序列T1、第二融合转换序列T2、第三融合转换序列T3进行拼接,获得解码向量表示序列。
示例性地,如图8b所示,设定第二迭代路为第二EM路由,解码器包括3个隐藏层、1个融合层,3个隐藏层分别为第一隐藏层、第二隐藏层以及第三隐藏层,融合层中包括第二转换模型、第二EM路由、融合单元和拼接单元。第一隐藏层、第二隐藏层以及第三隐藏层逐层对源端向量表示序列进行解码,获得解码序列(a、b、c)以及解码序列的概率(ap、bp、cp)。然后将解码序列(a、b、c)以及解码序列的概率(ap、bp、cp)分别输入第二转换模型,获得第一隐藏层的三个转换序列(a1、a2、a3)、第二隐藏层应的三个转换序列(b1、b2、b3)、第三隐藏层的三个转换序列(c1、c2、c3)。将第一隐藏层的三个转换序列输入第二EM路由,确定三个转换序列的解码权重(ak1、ak2、ak3),将第二隐藏层的三个转换序列输入第二EM路由,确定三个转换序列的解码权重(bk1、bk2、bk3),将第三隐藏层的三个转换序列输入第二EM路由,确定三个转换序列的解码权重(ck1、ck2、ck3)。融合单元根据解码权重ak1、解码权重bk1、解码权重ck1将第一隐藏层的转换序列a1、第二隐藏层的转换序列b1、第三隐藏层的转换序列c1进行融合,获得第一融合转换序列T1以及第一融合转换序列的概率p1。融合单元根据解码权重ak2、解码权重bk2、解码权重ck2将第一隐藏层的转换序列a2、第二隐藏层的转换序列b2、第三隐藏层的转换序列c2进行融合,获得第二融合转换序列T2以及第二融合转换序列的概率p2。融合单元根据解码权重ck3、解码权重ck3、解码权重ck3将第一隐藏层的转换序列x3、第二隐藏层的转换序列y3、第三隐藏层的转换序列z3进行融合,获得第三融合转换序列S3以及第三融合转换序列的概率p3。之后拼接单元再根据第一融合转换序列的概率p1、第二融合转换序列的概率p2以及第三融合转换序列的概率p3将第一融合转换序列S1、第二融合转换序列S2、第三融合转换序列S3进行拼接,获得解码向量表示序列。
由于在对待翻译文本进行翻译时,采用编码器对待翻译文本进行编码,将编码器中每一个隐藏层的处理结果进行融合,确定源端向量表示序列,故源端向量表示序列融合了各隐藏层的语义信息以及语法信息,提高了源端向量表示序列与待翻译文本的相关性。之后解码器对源端向量表示序列进行解码,将解码器中每一个隐藏层的处理结果进行融合确定翻译后的文本信息,以学习更好的隐层表示,减少有用信息的丢失,从而提高了翻译的准确性。其次,编码器和解码器在对各个隐藏层的输出结果进行融合时,根据各隐藏层的输出结果动态确定各隐藏层的融合权重,然后基于融合权重对各隐藏层的输出结果进行融合,故针对不同的待翻译文本,编码器和解码器中各隐藏层的权重也不相同,从而提高了编码器和解码器的表达能力,提高了翻译的稳定性。
进一步地,本申请的发明人对应用上述几种融合方式的机器翻译模型的翻译效果进行了验证,结果如表1所示:
表1.
其中,BLEU(Bilingual Evaluation Understudy)是一种机器翻译质量评测算法,Δ指提高的绝对数值,融合方式1指采用前向神经网络进行融合的方式。融合方式2指采用转换模型和动态路由进行融合的方式。融合方式3指采用转换模型和EM路由进行融合的方式。
由表1可知,采用本申请实施例中提供的融合方式的机器翻译模型,BLEU高于现有的机器翻译模型,由此可以得出,本申请实施例中动态融合各隐藏层的处理结果的文本翻译方法能有效提高翻译效果。
基于相同的技术构思,本申请实施例提供了一种文本翻译装置,如图9所示,该装置900包括:
编码模块901,用于获得编码器各隐藏层对待翻译文本进行编码后的编码序列;
第一融合模块902,用于根据所述编码器各隐藏层的编码权重将各个编码序列进行融合,获得源端向量表示序列,其中,所述编码器各隐藏层的编码权重是在训练所述编码器的过程中,学习不同翻译文本样本在两种语言之间进行翻译的过程而获得的;
解码模块903,用于获得解码器各隐藏层对所述源端向量表示序列进行解码后的解码序列;
第二融合模块904,用于根据所述解码器各隐藏层的解码权重将各个解码序列进行融合,获得解码向量表示序列,其中,所述解码器各隐藏层的解码权重是在训练所述解码器的过程中,学习不同翻译文本样本在两种语言之间进行翻译的过程而获得的;
匹配模块905,用于根据所述解码向量表示序列,确定翻译后的文本信息。
可选地,所述第一融合模块902具体用于:
采用第一前向神经网络,根据所述编码器各隐藏层输出的编码序列,确定所述编码器各隐藏层的编码权重,并根据确定的编码权重将各个编码序列进行融合,获得源端向量表示序列,其中,所述编码器各隐藏层的编码权重,是在训练所述编码器过程中,学习不同翻译文本样本在两种语言之间进行翻译时产生的各个编码序列及其对应的源端向量表示序列而获得的。
可选地,所述第二融合模块904具体用于:
采用第二前向神经网络,根据所述解码器各隐藏层输出的解码序列,确定所述解码器各隐藏层的解码权重,并根据确定的解码权重将各个解码序列进行融合,获得解码向量表示序列,其中,所述解码器各隐藏层的解码权重,是在训练所述解码器过程中,学习不同翻译文本样本在两种语言之间进行翻译时产生的各个解码序列及其对应的解码向量表示序列而获得的。
可选地,所述第一融合模块902具体用于:
采用第一转换模型,确定所述编码器各隐藏层输出的编码序列对应的转换序列,所述编码器各隐藏层输出的编码序列对应的转换序列,是在训练所述编码器过程中,学习多个翻译文本样本在两种语言之间进行翻译的过程中编码序列与转换序列之间的关系而获得的;
采用第一迭代路由,根据所述编码器各隐藏层的转换序列,确定所述编码器各隐藏层的转换序列对应的编码权重,并根据确定的编码权重将各个转换序列进行融合,获得源端向量表示序列。
可选地,所述第一迭代路由为动态路由或最大期望EM路由。
可选地,所述第二融合模块904具体用于:
采用第二转换模型,确定所述解码器各隐藏层输出的解码序列对应的转换序列,所述解码器各隐藏层输出的解码序列对应的转换序列,是在训练所述解码器过程中,学习多个翻译文本样本在两种语言之间进行翻译的过程中解码序列与转换序列之间的关系而获得的;
采用第二迭代路由,根据所述解码器各隐藏层的转换序列,确定所述解码器各隐藏层的转换序列对应的解码权重,并根据确定的解码权重将各个转换序列进行融合,获得源端向量表示序列。
可选地,所述第二迭代路由为动态路由或最大期望EM路由。
基于相同的技术构思,本申请实施例提供了一种终端设备,如图10所示,包括至少一个处理器1001,以及与至少一个处理器连接的存储器1002,本申请实施例中不限定处理器1001与存储器1002之间的具体连接介质,图10中处理器1001和存储器1002之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器1002存储有可被至少一个处理器1001执行的指令,至少一个处理器1001通过执行存储器1002存储的指令,可以执行前述的文本翻译方法中所包括的步骤。
其中,处理器1001是终端设备的控制中心,可以利用各种接口和线路连接终端设备的各个部分,通过运行或执行存储在存储器1002内的指令以及调用存储在存储器1002内的数据,从而进行翻译。可选的,处理器1001可包括一个或多个处理单元,处理器1001可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1001中。在一些实施例中,处理器1001和存储器1002可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1001可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1002作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1002可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1002是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1002还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
该终端设备还包括输入单元1003、显示单元1004、射频单元1005、音频电路1006、扬声器1007、麦克风1008、无线保真(Wireless Fidelity,WiFi)模块1009、蓝牙模块1010、电源1011、外部接口1012、耳机插孔1013等部件。
输入单元1003可用于接收用户输入待翻译文本。例如,输入单元1003可包括触摸屏10031以及其它输入设备10032。触摸屏10031可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏10031上或在触摸屏10031附近的操作),即触摸屏10031可用于检测触摸压力以及触摸输入位置和触摸输入面积,并根据预先设定的程序驱动相应的连接装置。触摸屏10031可以检测用户对触摸屏10031的触控操作,将触控操作转换为触控信号发送给处理器1001,或者理解为可将触控操作的触控信息发送给处理器1001,并能接收处理器1001发来的命令并加以执行。触控信息至少可以包括压力大小信息和压力持续时长信息中的至少一种。触摸屏10031可以提供终端设备和用户之间的输入界面和输出界面。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏10031。除了触摸屏10031,输入单元1003还可以包括其它输入设备10032。比如,其它输入设备10032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1004可用于显示由用户输入的信息或提供给用户的信息。进一步的,触摸屏10031可覆盖显示单元1004,当触摸屏10031检测到在其上或附近的触控操作后,传送给处理器1001以确定的触控操作的压力信息。在本申请实施例中,触摸屏10031与显示单元1004可以集成为一个部件而实现终端设备的输入、输出、显示功能。为便于描述,本申请实施例以触摸屏10031代表触摸屏10031和显示单元1004的功能集合为例进行示意性说明,当然在某些实施例中,触摸屏10031与显示单元1004也可以作为两个独立的部件。
当显示单元1004和触摸板以层的形式彼此叠加以形成触摸屏10031时,显示单元1004可以用作输入装置和输出装置,在作为输出装置时,可以用于显示图像,例如显示目标应用程序的安装界面。显示单元1004可以包括液晶显示器(Liquid Crystal Display,LCD)、薄膜晶体管液晶显示器(Thin Film Transistor Liquid Crystal Display,TFT-LCD)、有机发光二极管(Organic Light Emitting Diode,OLED)显示器、有源矩阵有机发光二极体(Active Matrix Organic Light Emitting Diode,AMOLED)显示器、平面转换(In-Plane Switching,IPS)显示器、柔性显示器、3D显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,根据特定想要的实施方式,终端设备可以包括两个或更多显示单元。
射频单元1005可用于收发信息或通话过程中信号的接收和发送。通常,射频电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,射频单元1005还可以通过无线通信与网络设备和其它设备通信。无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
音频电路1006、扬声器1007、麦克风1008可提供用户与终端设备之间的音频接口。音频电路1006可将接收到的音频数据转换后的电信号,传输到扬声器1007,由扬声器1007转换为声音信号输出。另一方面,麦克风1008将收集的声音信号转换为电信号,由音频电路1006接收后转换为音频数据,再将音频数据输出处理器1001处理后,经射频单元1005以发送给比如另一电子设备,或者将音频数据输出至存储器1002以便进一步处理,音频电路也可以包括耳机插孔1013,用于提供音频电路和耳机之间的连接接口。
WiFi属于短距离无线传输技术,终端设备通过WiFi模块1009可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1009,但是可以理解的是,其并不属于终端设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
蓝牙是一种短距离无线通讯技术。利用蓝牙技术,能够有效地简化掌上电脑、笔记本电脑和手机等移动通信终端设备之间的通信,也能够成功地简化以上这些设备与因特网(Internet)之间的通信,终端设备通过蓝牙模块1010使终端设备与因特网之间的数据传输变得更加迅速高效,为无线通信拓宽道路。蓝牙技术是能够实现语音和数据无线传输的开放性方案。虽然图10示出了WiFi模块1009,但是可以理解的是,其并不属于终端设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
终端设备还可以包括电源1011(比如电池),其用于接收外部电力为终端设备内的各个部件供电。优选的,电源1011可以通过电源管理系统与处理器1001逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
终端设备还可以包括外部接口1012,该外部接口1012可以包括标准的Micro USB接口,也可以包括多针连接器,可以用于连接终端设备与其它设备进行通信,也可以用于连接充电器为终端设备充电。
尽管未示出,终端设备还可以包括摄像头、闪光灯等其它可能的功能模块,在此不再赘述。
基于同一发明构思,本申请实施例还提供一种计算机可读存储介质,该可读存储介质存储有计算机指令,当该计算机指令在终端设备上运行时,使得终端设备执行如前述的文本翻译方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (14)
1.一种文本翻译方法,其特征在于,包括:
获得编码器各隐藏层对待翻译文本进行编码后的编码序列;
根据所述编码器各隐藏层的编码权重将各个编码序列进行融合,获得源端向量表示序列,其中,所述编码器各隐藏层的编码权重是在训练所述编码器的过程中,学习不同翻译文本样本在两种语言之间进行翻译的过程而获得的;
获得解码器各隐藏层对所述源端向量表示序列进行解码后的解码序列;
根据所述解码器各隐藏层的解码权重将各个解码序列进行融合,获得解码向量表示序列,其中,所述解码器各隐藏层的解码权重是在训练所述解码器的过程中,学习不同翻译文本样本在两种语言之间进行翻译的过程而获得的;
根据所述解码向量表示序列,确定翻译后的文本信息。
2.如权利要求1所述的方法,其特征在于,所述根据所述编码器各隐藏层的编码权重将各个编码序列进行融合,获得源端向量表示序列,具体包括:
采用第一前向神经网络,根据所述编码器各隐藏层输出的编码序列,确定所述编码器各隐藏层的编码权重,并根据确定的编码权重将各个编码序列进行融合,获得源端向量表示序列,其中,所述编码器各隐藏层的编码权重,是在训练所述编码器过程中,学习不同翻译文本样本在两种语言之间进行翻译时产生的各个编码序列及其对应的源端向量表示序列而获得的。
3.如权利要求1或2所述的方法,其特征在于,所述根据所述解码器各隐藏层的解码权重将各个解码序列进行融合,获得解码向量表示序列,具体包括:
采用第二前向神经网络,根据所述解码器各隐藏层输出的解码序列,确定所述解码器各隐藏层的解码权重,并根据确定的解码权重将各个解码序列进行融合,获得解码向量表示序列,其中,所述解码器各隐藏层的解码权重,是在训练所述解码器过程中,学习不同翻译文本样本在两种语言之间进行翻译时产生的各个解码序列及其对应的解码向量表示序列而获得的。
4.如权利要求1所述的方法,其特征在于,所述根据所述编码器各隐藏层的编码权重将各个编码序列进行融合,获得源端向量表示序列,具体包括:
采用第一转换模型,确定所述编码器各隐藏层输出的编码序列对应的转换序列,所述编码器各隐藏层输出的编码序列对应的转换序列,是在训练所述编码器过程中,学习多个翻译文本样本在两种语言之间进行翻译的过程中编码序列与转换序列之间的关系而获得的;
采用第一迭代路由,根据所述编码器各隐藏层的转换序列,确定所述编码器各隐藏层的转换序列对应的编码权重,并根据确定的编码权重将各个转换序列进行融合,获得源端向量表示序列。
5.如权利要求4所述的方法,其特征在于,所述第一迭代路由为动态路由或最大期望EM路由。
6.如权利要求1、4或5所述的方法,其特征在于,所述根据所述解码器各隐藏层的解码权重将各个解码序列进行融合,获得解码向量表示序列,具体包括:
采用第二转换模型,确定所述解码器各隐藏层输出的解码序列对应的转换序列,所述解码器各隐藏层输出的解码序列对应的转换序列,是在训练所述解码器过程中,学习多个翻译文本样本在两种语言之间进行翻译的过程中解码序列与转换序列之间的关系而获得的;
采用第二迭代路由,根据所述解码器各隐藏层的转换序列,确定所述解码器各隐藏层的转换序列对应的解码权重,并根据确定的解码权重将各个转换序列进行融合,获得解码向量表示序列。
7.如权利要求6所述的方法,其特征在于,所述第二迭代路由为动态路由或最大期望EM路由。
8.一种文本翻译装置,其特征在于,包括:
编码模块,用于获得编码器各隐藏层对待翻译文本进行编码后的编码序列;
第一融合模块,用于根据所述编码器各隐藏层的编码权重将各个编码序列进行融合,获得源端向量表示序列,其中,所述编码器各隐藏层的编码权重是在训练所述编码器的过程中,学习不同翻译文本样本在两种语言之间进行翻译的过程而获得的;
解码模块,用于获得解码器各隐藏层对所述源端向量表示序列进行解码后的解码序列;
第二融合模块,用于根据所述解码器各隐藏层的解码权重将各个解码序列进行融合,获得解码向量表示序列,其中,所述解码器各隐藏层的解码权重是在训练所述解码器的过程中,学习不同翻译文本样本在两种语言之间进行翻译的过程而获得的;
匹配模块,用于根据所述解码向量表示序列,确定翻译后的文本信息。
9.如权利要求8所述的装置,其特征在于,所述第一融合模块具体用于:
采用第一前向神经网络,根据所述编码器各隐藏层输出的编码序列,确定所述编码器各隐藏层的编码权重,并根据确定的编码权重将各个编码序列进行融合,获得源端向量表示序列,其中,所述编码器各隐藏层的编码权重,是在训练所述编码器过程中,学习不同翻译文本样本在两种语言之间进行翻译时产生的各个编码序列及其对应的源端向量表示序列而获得的。
10.如权利要求8或9所述的装置,其特征在于,所述第二融合模块具体用于:
采用第二前向神经网络,根据所述解码器各隐藏层输出的解码序列,确定所述解码器各隐藏层的解码权重,并根据确定的解码权重将各个解码序列进行融合,获得解码向量表示序列,其中,所述解码器各隐藏层的解码权重,是在训练所述解码器过程中,学习不同翻译文本样本在两种语言之间进行翻译时产生的各个解码序列及其对应的解码向量表示序列而获得的。
11.如权利要求8所述的装置,其特征在于,所述第一融合模块具体用于:
采用第一转换模型,确定所述编码器各隐藏层输出的编码序列对应的转换序列,所述编码器各隐藏层输出的编码序列对应的转换序列,是在训练所述编码器过程中,学习多个翻译文本样本在两种语言之间进行翻译的过程中编码序列与转换序列之间的关系而获得的;
采用第一迭代路由,根据所述编码器各隐藏层的转换序列,确定所述编码器各隐藏层的转换序列对应的编码权重,并根据确定的编码权重将各个转换序列进行融合,获得源端向量表示序列。
12.如权利要求8或11所述的装置,其特征在于,所述第二融合模块具体用于:
采用第二转换模型,确定所述解码器各隐藏层输出的解码序列对应的转换序列,所述解码器各隐藏层输出的解码序列对应的转换序列,是在训练所述解码器过程中,学习多个翻译文本样本在两种语言之间进行翻译的过程中解码序列与转换序列之间的关系而获得的;
采用第二迭代路由,根据所述解码器各隐藏层的转换序列,确定所述解码器各隐藏层的转换序列对应的解码权重,并根据确定的解码权重将各个转换序列进行融合,获得解码向量表示序列。
13.一种终端设备,其特征在于,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1~7任一权利要求所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述终端设备执行权利要求1~7任一所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811459625.9A CN109543200B (zh) | 2018-11-30 | 2018-11-30 | 一种文本翻译方法及装置 |
CN202010192658.2A CN111428520B (zh) | 2018-11-30 | 2018-11-30 | 一种文本翻译方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811459625.9A CN109543200B (zh) | 2018-11-30 | 2018-11-30 | 一种文本翻译方法及装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010192658.2A Division CN111428520B (zh) | 2018-11-30 | 2018-11-30 | 一种文本翻译方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543200A CN109543200A (zh) | 2019-03-29 |
CN109543200B true CN109543200B (zh) | 2022-04-15 |
Family
ID=65851729
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010192658.2A Active CN111428520B (zh) | 2018-11-30 | 2018-11-30 | 一种文本翻译方法及装置 |
CN201811459625.9A Active CN109543200B (zh) | 2018-11-30 | 2018-11-30 | 一种文本翻译方法及装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010192658.2A Active CN111428520B (zh) | 2018-11-30 | 2018-11-30 | 一种文本翻译方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN111428520B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008482B (zh) * | 2019-04-17 | 2021-03-09 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN110046671A (zh) * | 2019-04-24 | 2019-07-23 | 吉林大学 | 一种基于胶囊网络的文本分类方法 |
CN110263353B (zh) * | 2019-06-25 | 2023-10-13 | 北京金山数字娱乐科技有限公司 | 一种机器翻译方法及装置 |
CN110473595A (zh) * | 2019-07-04 | 2019-11-19 | 四川大学 | 一种结合最短依存路径的胶囊网络关系抽取模型 |
CN110472255B (zh) * | 2019-08-20 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 神经网络机器翻译方法、模型、电子终端以及存储介质 |
CN110751698B (zh) * | 2019-09-27 | 2022-05-17 | 太原理工大学 | 一种基于混和网络模型的文本到图像的生成方法 |
CN110909527B (zh) * | 2019-12-03 | 2023-12-08 | 北京字节跳动网络技术有限公司 | 文本处理模型的运行方法、装置、电子设备、及存储介质 |
CN111126078B (zh) * | 2019-12-19 | 2023-04-07 | 北京百度网讯科技有限公司 | 翻译的方法和装置 |
CN113128180A (zh) * | 2019-12-31 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 文本生成方法和设备 |
CN111291183B (zh) * | 2020-01-16 | 2021-08-03 | 支付宝(杭州)信息技术有限公司 | 利用文本分类模型进行分类预测的方法及装置 |
CN113761841B (zh) * | 2021-04-19 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 将文本数据转换为声学特征的方法 |
CN117474019B (zh) * | 2023-12-27 | 2024-05-24 | 天津大学 | 一种视觉引导的目标端未来语境翻译方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN107679224A (zh) * | 2017-10-20 | 2018-02-09 | 竹间智能科技(上海)有限公司 | 一种面向无结构文本智能问答的方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484682B (zh) * | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
KR20180077689A (ko) * | 2016-12-29 | 2018-07-09 | 주식회사 엔씨소프트 | 자연어 생성 장치 및 방법 |
US10049106B2 (en) * | 2017-01-18 | 2018-08-14 | Xerox Corporation | Natural language generation through character-based recurrent neural networks with finite-state prior knowledge |
-
2018
- 2018-11-30 CN CN202010192658.2A patent/CN111428520B/zh active Active
- 2018-11-30 CN CN201811459625.9A patent/CN109543200B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN107679224A (zh) * | 2017-10-20 | 2018-02-09 | 竹间智能科技(上海)有限公司 | 一种面向无结构文本智能问答的方法和系统 |
Non-Patent Citations (2)
Title |
---|
Resource-Aware Joint Source-Channel Multiple Description Estimation and Compression in Networks;Xiaolin Wu et al.;《2007 IEEE Information Theory Workshop》;20070924;第271-276页 * |
统计机器翻译中大规模特征的深度融合;刘宇鹏 等;《浙江大学学报(工学版)》;20170131;第51卷(第1期);第46-56页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109543200A (zh) | 2019-03-29 |
CN111428520A (zh) | 2020-07-17 |
CN111428520B (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543200B (zh) | 一种文本翻译方法及装置 | |
WO2021004232A1 (zh) | 机器翻译方法及装置、电子设备及存储介质 | |
CN110472251B (zh) | 翻译模型训练的方法、语句翻译的方法、设备及存储介质 | |
CN111428483B (zh) | 语音交互方法、装置和终端设备 | |
CN108304388B (zh) | 机器翻译方法及装置 | |
CN109313667B (zh) | 构建特定于状态的多轮上下文语言理解系统的系统和方法 | |
CN111428516B (zh) | 一种信息处理的方法以及装置 | |
RU2689203C2 (ru) | Гибкая схема для настройки языковой модели | |
KR20200007022A (ko) | 이미지를 인식하기 위한 방법, 단말, 및 저장 매체 | |
US20210182504A1 (en) | Text translation method and apparatus, and storage medium | |
CN109919297A (zh) | 神经网络以及修剪神经网络的权重的方法 | |
CN111309883A (zh) | 基于人工智能的人机对话方法、模型训练方法及装置 | |
CN108984535B (zh) | 语句翻译的方法、翻译模型训练的方法、设备及存储介质 | |
CN110334334B (zh) | 一种摘要生成方法、装置及计算机设备 | |
CN112286485B (zh) | 通过语音控制应用的方法、装置、电子设备与存储介质 | |
CN112270200B (zh) | 一种文本信息的翻译方法、装置、电子设备和存储介质 | |
CN104598443A (zh) | 语言服务提供方法、装置及系统 | |
CN111506717B (zh) | 问题答复方法、装置、设备及存储介质 | |
US12008988B2 (en) | Electronic apparatus and controlling method thereof | |
CN111581347A (zh) | 语句相似度匹配方法及装置 | |
CN112748899A (zh) | 一种数据处理方法和相关设备 | |
CN111611369A (zh) | 基于人工智能的交互方法和相关装置 | |
WO2020214254A1 (en) | Layer trajectory long short-term memory with future context | |
CN112489644B (zh) | 用于电子设备的语音识别方法及装置 | |
CN115098262A (zh) | 一种多神经网络任务处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |