CN108984535B - 语句翻译的方法、翻译模型训练的方法、设备及存储介质 - Google Patents
语句翻译的方法、翻译模型训练的方法、设备及存储介质 Download PDFInfo
- Publication number
- CN108984535B CN108984535B CN201810665697.2A CN201810665697A CN108984535B CN 108984535 B CN108984535 B CN 108984535B CN 201810665697 A CN201810665697 A CN 201810665697A CN 108984535 B CN108984535 B CN 108984535B
- Authority
- CN
- China
- Prior art keywords
- vector
- coding
- translated
- translation
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 122
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000012549 training Methods 0.000 title claims description 60
- 239000013598 vector Substances 0.000 claims abstract description 241
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 29
- 238000005457 optimization Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 239000010410 layer Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语句翻译的方法,包括:获取用第一语言表示的源语句;基于键值网络模型对源语句进行翻译,以得到用第二语言表示的目标语句;其中,键值网络模型用于在对源语句进行编码后存储编码得到的编码向量,并在对编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率;输出用第二语言表示的目标语句。本申请技术方案由于在进行语句翻译时,在每个循环都会确定每个编码向量的关注概率,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率,从而可以避免漏翻译和重复翻译。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种语句翻译的方法、翻译模型训练的方法、设备及存储介质。
背景技术
随着人工智能的发展,机器翻译已经被广泛使用。机器翻译即通过电子设备将一种语言的输入转换为另一种语言的输出,例如:将中文翻译为英文,或者,将英文翻译为中文等。
目前广泛使用的机器翻译方法是基于注意力机制的神经机器翻译方法,该方法首先利用一个神经网络编码器将源语言序列编码为一个或一组实数向量,然后再利用一个神经网络解码器以及注意力机制将源语言序列向量转化为目标语言序列,完成翻译过程。
由于上述翻译方法在翻译过程中缺乏保证完整翻译的机制,使得译文会存在漏翻译或者重复翻译的问题。
发明内容
为解决机器过程中存在的漏翻译或者重复翻译的问题,本申请实施例提供一种语句翻译的方法,可以突出未翻译的部分,弱化已翻译的部分,从而可以避免漏翻译和重复翻译。本申请实施例还提供了翻译模型训练的方法、设备以及计算机可读存储介质。
本申请实施例一方面提供一种语句翻译的方法,包括:
获取用第一语言表示的源语句;
基于键值网络模型对所述源语句进行翻译,以得到用第二语言表示的目标语句;其中,所述键值网络模型用于在对所述源语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率;
输出所述用第二语言表示的所述目标语句。
本申请实施例另一方面提供一种翻译模型训练的方法,包括:
获取样本对集合,所述样本对集合中包括多个样本对,每个样本对都包括以第一语言表示的源语句和以第二语言表示的目标语句;
使用所述样本对集合对初始键值网络模型进行训练,以得到目标键值网络模型,所述目标键值网络模型用于在语句翻译时对待翻译语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率。
本申请实施例又一方面提供一种语句翻译的装置,包括:
获取单元,用于获取用第一语言表示的源语句;
翻译单元,用于基于键值网络模型对所述获取单元获取的所述源语句进行翻译,以得到用第二语言表示的目标语句;其中,所述键值网络模型用于在对所述源语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率;
输出单元,用于输出所述翻译单元翻译得到的所述用第二语言表示的所述目标语句。
本申请实施例又一方面提供一种翻译模型训练的装置,包括:
获取单元,用于获取样本对集合,所述样本对集合中包括多个样本对,每个样本对都包括以第一语言表示的源语句和以第二语言表示的目标语句;
模型训练单元,用于使用所述获取单元获取的所述样本对集合对初始键值网络模型进行训练,以得到目标键值网络模型,所述目标键值网络模型用于在语句翻译时对待翻译语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率。
本申请实施例又一方面提供一种终端设备,所述终端设备包括:输入/输出(I/O)接口、处理器和存储器,所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如上述所述的语句翻译的方法。
本申请实施例又一方面提供一种计算机设备,所述计算机设备包括:输入/输出(I/O)接口、处理器和存储器,所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如上述翻译模型训练的方法。
本申请的又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本申请的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本申请实施例提供的语句翻译的方法,在进行语句翻译时,在每个循环都会确定每个编码向量的关注概率,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率,从而突出了未翻译的部分,弱化了已翻译的部分,进而可以避免漏翻译和重复翻译。
附图说明
图1是本申请实施例中翻译模型训练的系统的一实施例示意图;
图2是本申请实施例中键值网络模型的架构示意图;
图3是本申请实施例中翻译模型训练的方法的一实施例示意图;
图4是本申请实施例中语句翻译的方法的一实施例示意图;
图5是本申请实施例中翻译场景的一示例示意图;
图6是本申请实施例中基于键值网络模型的翻译过程示意图;
图7是本申请实施例中语句翻译的装置的一实施例示意图;
图8是本申请实施例中翻译模型训练的装置的一实施例示意图;
图9是本申请实施例中计算机设备的一实施例示意图;
图10是本申请实施例中终端设备的一实施例示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请实施例提供一种语句翻译的方法,可以突出未翻译的部分,弱化已翻译的部分,从而可以避免漏翻译和重复翻译。本申请实施例还提供了翻译模型训练的方法、设备以及计算机可读存储介质。以下分别进行详细说明。
图1为本申请实施例中翻译模型训练的系统的一实施例示意图。
如图1所示,本申请实施例中的翻译模型训练的系统的一实施例包括计算机设备10和数据库20,数据库20中存储有用于翻译模型训练的样本对。本申请实施例中的样本对为以第一语言表示的源语句和以第二语言表示的目标语句。
计算机设备10从数据库20获取样本对集合,然后使用所述样本对集合对初始键值网络模型进行训练,以得到目标键值网络模型。
样本对集合中可以包含多个样本对,不限于表1中所列举的几个,样本对可以是预先通过人工的方式标记好的。
本申请实施例中的初始键值网络模型和目标键值网络模的区别就在于初始键值网络模型中的训练参数θ的数值是未知的,而通过样本对可以训练得到训练参数θ的数值。
本申请实施例中的键值网络模型也可以称为键值存储网络强化的注意力模型(key-value memory-augmented attention model,KVMemAtt)。
图2为键值网络模型的架构示意图。
如图2所示初始键值网络模型和目标键值网络模型都包括编码器、键存储网络、值存储网络和解码器。
其中,编码器用于对源语句进行编码,以得到编码向量h,编码器编码时是将语句拆分为字或者词语进行编码的,对应源语句中的每个字或者词语可以用x1到xn来表示,则编码器编码后会对应得到h1到hn个编码向量。键存储网络(K-Memory)和值存储网络(V-Memory)分别存储一份编码向量h1到hn。解码器在解码会进行循环解码,对于一个语句可能会通过多次循环才能完成解码,每个解码循环中解码器都会保持值存储网络中的编码向量h1到hn不变,而键存储网络中的编码向量h1到hn会随着每次解码发生变化,在每个解码循环中,解码器会利用键存储网络中的编码向量来确定值存储网络中h1到hn的关注概率,关注概率也就是在解码过程中应被关注的概率,关注概率越大,则在本循环中被解码的概率越大。解码器每个解码循环会输出一个解码结果,也就是会依次输出y1到ym。
本申请实施例中可以使用循环神经网络作为编码器,但不限定深度神经网络的模型类别和拓扑结构,可以替换为各种其他模型结构,例如卷积神经网络及变种、前向连接网络及变种,或者替换为其他网络结构。
本实施详例中循环神经网络的层数,可以是单层,也可以是多层,也可以是双向神经网络。
本申请实施例中将编码器输出的源语言序列向量直接作为键值存储网络的初始化值。本申请实施例不具体限定此处是否再次采用神经网络对源语言序列向量做进一步的处理。另外,本申请实施例中的存储网络可以是单层的存储网络,也可以是多层的存储网络。
本申请实施例中,使用循环神经网络作为解码器,具体使用了门控循环单元(gaterecurrent unit,GRU),GRU是长短时记忆网络(long short-term memory,LSTM)的一个变种,本申请实施例不具体限定深度神经网络的模型类别和拓扑结构,可以替换为各种其他模型结构,例如卷积神经网络及变种、前向连接网络及变种,或者替换为其他网络结构。
以上是对键值网络模型的架构的描述,下面结合上述键值网络模型介绍本申请实施例中的翻译模型训练的方法。
如图3所示,本申请实施例提供的翻译模型训练的方法的一实施例包括:
101、获取样本对集合,所述样本对集合中包括多个样本对,每个样本对都包括以第一语言表示的源语句和以第二语言表示的目标语句。
102、使用所述样本对集合对初始键值网络模型进行训练,以得到目标键值网络模型,所述目标键值网络模型用于在语句翻译时对待翻译语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率。
本申请实施例提供的翻译模型训练的方法,训练出的目标键值网络模型在用于语句翻译时,在每个循环都会确定每个编码向量的关注概率,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率,从而突出了未翻译的部分,弱化了已翻译的部分,进而可以避免漏翻译和重复翻译。
可选地,所述使用所述样本对集合对初始键值网络模型进行训练,以得到目标键值网络模型,可以包括:
根据训练参数与样本对和结束符的关注概率的对应关系,以结束符关注概率为优化目标,确定所述训练参数的数值;
将所述训练参数的数值代入所述初始键值网络模型,以得到目标键值网络模型。
本申请实施例中,样本对可以用(x,y)表示,结束符可以用ATTEOS来表示,训练参数θ与(x,y)和ATTEOS之间的对应关系可以参阅如下公式进行理解:
其中,θ*表示第s个样本对(xs,ys)所对应的训练参数θ。λ表示系数,为已知量,ATTEOSs表示第s个样本对的结束符。结束符是额外增加的一个特殊符号,例如”<eos>”,源语句的结束符可以是<eos_src>,目标语句的结束符可以是<eos_trg>),这个结束符作为目标语言词表的一部分参与模型的训练。最后在显示翻译结果时,会把结束符去掉。
其中,at,n表示源语句的结束符被关注的概率。t=m表示语句结束,t<m表示语句未结束。
当训练参数训练完成后,就得到了用于语句翻译的键值网络模型,从而进行语句翻译。
如图4所示,本申请实施例提供的语句翻译的方法的一实施例包括:
201、获取用第一语言表示的源语句。
第一语言可以为中文,也可以为英文,也可以为其他语言。源语句可以为一个句子,例如:当第一语言可以为中文时,示例性的,源语句可以为“他们不怕困难做出围棋AI”。
202、基于键值网络模型对所述源语句进行翻译,以得到用第二语言表示的目标语句;其中,所述键值网络模型用于在对所述源语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率。
第二语言也可以为中文,也可以为英文,也可以为其他语言。当然,第一语言和第二语言不同时为相同的语言。
若第一语言为中文,第二语言为英文,则该翻译模型为中译英。当源语句为“他们不怕困难做出围棋AI”时,目标语句可以为“They are not afraid of difficulties tomake Go AI”。
当然,对于键值网络模型来说,对于源语句的翻译可能是通过多次循环进行的,而不是一次直接翻译出整个目标语句,当然,对于用户来说,这个多次循环过程是不可见的,而且时间也非常短,所以用户也不会感知到多次循环过程。
源语句的编码向量通常是一组向量,例如:h1到hn。
203、输出所述用第二语言表示的所述目标语句。
针对该示例性的中译英场景,可以应用于专门的翻译软件,可以应用于现有的应用的翻译功能中,例如:微信翻译、QQ翻译、拍照翻译、邮箱翻译、AI开放平台的翻译功能等。
以微信翻译场景为例,可以参阅图5中的(A)-(C)进行理解。
如图5中的(A)所示,要将社交应用中的“他们不怕困难做出围棋AI”翻译成英文,则长按文字部分,就会出现图5中的(B)所示的页面,在图5中的(B)所示的页面中出现了“复制”、“转发”、“删除”和“译英”等功能框,当然图5中的(B)只是举例说明,“译英”也可以改成“翻译”,然后再出现下拉框选择对应的翻译文字。用户在图5中的(B)所示的页面上点击“译英”后,则会出现图5中的(C)所示的翻译结果“They are not afraid of difficulties tomake Go AI”。
本申请实施例提供的语句翻译的方法,在进行语句翻译时,在每个循环都会确定每个编码向量的关注概率,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率,从而突出了未翻译的部分,弱化了已翻译的部分,进而可以避免漏翻译和重复翻译。
本申请实施例中,所述基于键值网络模型对所述源语句进行翻译,以得到用第二语言表示的目标语句,可以包括:
对所述源语句进行编码,以得到与所述源语句对应的所述编码向量;
在键存储网络和值存储网络中分别存储一份所述编码向量,所述键存储网络和所述值存储网络包含于所述键值网络模型;
对所述键存储网络中的编码向量进行循环解码,并在每次循环解码时依据所述值存储网络中存储的编码向量,以及上一循环的解码结果确定本循环解码过程中所述值存储网络中每个编码向量的关注概率;
根据所述值存储网络中每个编码向量的关注概率确定本循环待翻译的编码向量;
对所述本循环待翻译的编码向量进行翻译,以得到所述目标语句中本循环待翻译的编码向量所对应的词语。
本申请实施例中,该过程可以参阅图6进行理解,如图6所示,编码器对源语句进行编码,编码器编码时是将源语句拆分为字或者词语进行编码的,对应源语句中的每个字或者词语可以用x1到xn来表示,则编码器编码后会对应得到h1到hn个编码向量。键存储网络(K-Memory)和值存储网络(V-Memory)分别存储一份编码向量h1到hn。
本申请实施例中,可选地,所述对所述键存储网络中的编码向量进行循环解码,并在每次循环解码时依据所述值存储网络中存储的编码向量,以及上一循环的解码结果确定本循环解码过程中所述值存储网络中每个编码向量的关注概率,可以包括:
根据上一循环的解码状态向量和上一循环输出的词的向量,确定本循环的查询状态向量;
根据所述本循环的查询状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环中所述值存储网络中每个编码向量的关注概率。
也就是说,解码器在解码时是循环解码,可以将本循环的时刻用t时刻表达,前一循环的时刻用t-1表达。则如图6中所示,在确定查询状态向量qt是依据如下公式确定的:
其中,根据所述本循环的查询状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环中所述值存储网络中每个编码向量的关注概率是通过如下公式确定的:
其中,关注概率at,由于该步骤可以采用多轮操作,因此用上标r表示当前处于第r轮,并且用“~”表示当前是处于中间状态。表示t时刻第(r-1)的键存储网络。Address表示表示地址函数,地址函数Address可以参阅如下公式进行理解:
其中,kj表示K中第j个槽位的向量,va、Wa和Ua是参数矩阵。
上述步骤:根据所述值存储网络中每个编码向量的关注概率确定本循环待翻译的编码向量可以通过如下公式确定:
其中,vj表示V中第j个槽位的向量。
本申请实施例中,还包括:根据所述本循环的查询状态向量和所述本循环待翻译的编码向量,确定本循环的解码状态向量。
该步骤可以通过如下公式确定:
确定s′t后,就可以根据s′t更新本循环的K,即:根据所述本循环的解码状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环所述键值存储网络中的每个编码向量。
该步骤可以通过如下公式确定:
其中,Update为更新函数,更新函数可以表示为:
第i个槽位的更新方式如下,
其中,WF和WA是参数矩阵。
可选地,所述根据所述本循环的解码状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环所述键值存储网络中的每个编码向量,可以包括:
确定本循环待翻译的编码向量所对应的词语是否是结束符;
若不是结束符,则根据所述本循环的解码状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环所述键值存储网络中的每个编码向量。
本申请实施例中,在确定本循环待翻译的编码向量所对应的词语不是结束符时,才更新键值存储网络K,若是结束符,则不再更新,而是确定源语句翻译完毕,输出整个目标语句。
以上实施例描述了键值网络模型的架构、该键值网络模型的训练方法、以及基于该键值网络模型的语句翻译方法,下面结合附图,介绍本申请实施例中的语句翻译的装置、翻译模型训练的装置、终端设备以及计算机设备。
如图7所示,本申请实施例提供的语句翻译的装置30包括:
获取单元301,用于获取用第一语言表示的源语句;
翻译单元302,用于基于键值网络模型对所述获取单元301获取的所述源语句进行翻译,以得到用第二语言表示的目标语句;其中,所述键值网络模型用于在对所述源语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率;
输出单元303,用于输出所述翻译单元302翻译得到的所述用第二语言表示的所述目标语句。
本申请实施例提供的语句翻译的装置,在进行语句翻译时,在每个循环都会确定每个编码向量的关注概率,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率,从而突出了未翻译的部分,弱化了已翻译的部分,进而可以避免漏翻译和重复翻译。
可选地,所述翻译单元302用于:
对所述源语句进行编码,以得到与所述源语句对应的所述编码向量;
在键存储网络和值存储网络中分别存储一份所述编码向量,所述键存储网络和所述值存储网络包含于所述键值网络模型;
对所述键存储网络中的编码向量进行循环解码,并在每次循环解码时依据所述值存储网络中存储的编码向量,以及上一循环的解码结果确定本循环解码过程中所述值存储网络中每个编码向量的关注概率;
根据所述值存储网络中每个编码向量的关注概率确定本循环待翻译的编码向量;
对所述本循环待翻译的编码向量进行翻译,以得到所述目标语句中本循环待翻译的编码向量所对应的词语。
可选地,所述翻译单元302用于:
根据上一循环的解码状态向量和上一循环输出的词的向量,确定本循环的查询状态向量;
根据所述本循环的查询状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环中所述值存储网络中每个编码向量的关注概率。
可选地,所述翻译单元302还用于:
根据所述本循环的查询状态向量和所述本循环待翻译的编码向量,确定本循环的解码状态向量。
可选地,所述翻译单元302还用于:
根据所述本循环的解码状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环所述键值存储网络中的每个编码向量。
可选地,所述翻译单元302用于:
确定本循环待翻译的编码向量所对应的词语是否是结束符;
若不是结束符,则根据所述本循环的解码状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环所述键值存储网络中的每个编码向量。
以上语句翻译的装置30可以参阅方法实施例部分的相应内容进行理解,本处不再重复赘述。
如图8所示,本申请实施例提供的翻译模型训练的装置40的一实施例包括:
获取单元401,用于获取样本对集合,所述样本对集合中包括多个样本对,每个样本对都包括以第一语言表示的源语句和以第二语言表示的目标语句;
模型训练单元402,用于使用所述获取单元401获取的所述样本对集合对初始键值网络模型进行训练,以得到目标键值网络模型,所述目标键值网络模型用于在语句翻译时对待翻译语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率。
本申请实施例提供的翻译模型训练的装置,训练出的目标键值网络模型在用于语句翻译时,在每个循环都会确定每个编码向量的关注概率,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率,从而突出了未翻译的部分,弱化了已翻译的部分,进而可以避免漏翻译和重复翻译。
可选地,模型训练单元402用于:
根据训练参数与样本对和结束符的关注概率的对应关系,以结束符关注概率为优化目标,确定所述训练参数的数值;
将所述训练参数的数值代入所述初始键值网络模型,以得到目标键值网络模型。
以上翻译模型训练的装置40可以参阅方法实施例部分的相应内容进行理解,本处不再重复赘述。
图9是本申请实施例提供的计算机设备50的结构示意图。所述计算机设备50包括处理器510、存储器540和输入输出(I/O)接口530,存储器540可以包括只读存储器和随机存取存储器,并向处理器510提供操作指令和数据。存储器540的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器540存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
在本申请实施例中,在翻译模型训练的过程中,通过调用存储器540存储的操作指令(该操作指令可存储在操作系统中),
获取样本对集合,所述样本对集合中包括多个样本对,每个样本对都包括以第一语言表示的源语句和以第二语言表示的目标语句;
使用所述样本对集合对初始键值网络模型进行训练,以得到目标键值网络模型,所述目标键值网络模型用于在语句翻译时对待翻译语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率。
本申请实施例提供的计算机设备,训练出的目标键值网络模型在用于语句翻译时,在每个循环都会确定每个编码向量的关注概率,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率,从而突出了未翻译的部分,弱化了已翻译的部分,进而可以避免漏翻译和重复翻译。
处理器510控制计算机设备50的操作,处理器510还可以称为CPU(CentralProcessing Unit,中央处理单元)。存储器540可以包括只读存储器和随机存取存储器,并向处理器510提供指令和数据。存储器540的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中计算机设备50的各个组件通过总线系统520耦合在一起,其中总线系统520除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统520。
上述本申请实施例揭示的方法可以应用于处理器510中,或者由处理器510实现。处理器510可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器510中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器510可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器540,处理器510读取存储器540中的信息,结合其硬件完成上述方法的步骤。
可选地,处理器510用于:
根据训练参数与样本对和结束符的关注概率的对应关系,以结束符关注概率为优化目标,确定所述训练参数的数值;
将所述训练参数的数值代入所述初始键值网络模型,以得到目标键值网络模型。
上对计算机设备50的描述可以参阅图1至图6部分的描述进行理解,本处不再重复赘述。
上述语句翻译的过程由终端设备来执行时,例如手机,平板电脑、PDA(PersonalDigital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备,以终端为手机为例:
图10示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图10,手机包括:射频(Radio Frequency,RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity,WiFi)模块1170、处理器1180、以及摄像头1190等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,RF电路1110也就是收发器。特别地,将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发送给基站。通常,RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1130可用于接收用户输入的待翻译语句、翻译指示灯。具体地,输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示翻译的结果。显示单元1140可包括显示面板1141,可选的,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(OrganicLight-Emitting Diode,OLED)等形式来配置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面板1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图10中,触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1160、扬声器1161,传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频数据输出处理器1180处理后,经RF电路1110以发送给比如另一手机,或者将音频数据输出至存储器1120以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1170,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1180是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1180可包括一个或多个处理单元;优选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
摄像头1190用于采集图像。
手机还包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理系统与处理器1180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本发明实施例中,该终端所包括的处理器1180还具有以下控制功能:
获取用第一语言表示的源语句;
基于键值网络模型对所述源语句进行翻译,以得到用第二语言表示的目标语句;其中,所述键值网络模型用于在对所述源语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率;
输出所述用第二语言表示的所述目标语句。
可选地,所述基于键值网络模型对所述源语句进行翻译,以得到用第二语言表示的目标语句,可以包括:
对所述源语句进行编码,以得到与所述源语句对应的所述编码向量;
在键存储网络和值存储网络中分别存储一份所述编码向量,所述键存储网络和所述值存储网络包含于所述键值网络模型;
对所述键存储网络中的编码向量进行循环解码,并在每次循环解码时依据所述值存储网络中存储的编码向量,以及上一循环的解码结果确定本循环解码过程中所述值存储网络中每个编码向量的关注概率;
根据所述值存储网络中每个编码向量的关注概率确定本循环待翻译的编码向量;
对所述本循环待翻译的编码向量进行翻译,以得到所述目标语句中本循环待翻译的编码向量所对应的词语。
可选地,所述对所述键存储网络中的编码向量进行循环解码,并在每次循环解码时依据所述值存储网络中存储的编码向量,以及上一循环的解码结果确定本循环解码过程中所述值存储网络中每个编码向量的关注概率,可以包括:
根据上一循环的解码状态向量和上一循环输出的词的向量,确定本循环的查询状态向量;
根据所述本循环的查询状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环中所述值存储网络中每个编码向量的关注概率。
可选地,还包括:
根据所述本循环的查询状态向量和所述本循环待翻译的编码向量,确定本循环的解码状态向量。
可选地,还包括:
根据所述本循环的解码状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环所述键值存储网络中的每个编码向量。
可选地,所述根据所述本循环的解码状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环所述键值存储网络中的每个编码向量,可以包括:
确定本循环待翻译的编码向量所对应的词语是否是结束符;
若不是结束符,则根据所述本循环的解码状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环所述键值存储网络中的每个编码向量。
以上实施例所提供的终端设备还可以参阅图1至图6中相应的内容进行理解,本处不再重复赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本申请实施例所提供的语句翻译的方法、翻译模型训练的方法、装置、设备以及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (13)
1.一种语句翻译的方法,其特征在于,包括:
获取用第一语言表示的源语句;
基于键值网络模型对所述源语句进行翻译,以得到用第二语言表示的目标语句;其中,所述键值网络模型用于在对所述源语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率;
输出所述用第二语言表示的所述目标语句。
2.根据权利要求1所述的方法,其特征在于,所述基于键值网络模型对所述源语句进行翻译,以得到用第二语言表示的目标语句,包括:
对所述源语句进行编码,以得到与所述源语句对应的所述编码向量;
在键存储网络和值存储网络中分别存储一份所述编码向量,所述键存储网络和所述值存储网络包含于所述键值网络模型;
对所述键存储网络中的编码向量进行循环解码,并在每次循环解码时依据所述值存储网络中存储的编码向量,以及上一循环的解码结果确定本循环解码过程中所述值存储网络中每个编码向量的关注概率;
根据所述值存储网络中每个编码向量的关注概率确定本循环待翻译的编码向量;
对所述本循环待翻译的编码向量进行翻译,以得到所述目标语句中本循环待翻译的编码向量所对应的词语。
3.根据权利要求2所述的方法,其特征在于,所述对所述键存储网络中的编码向量进行循环解码,并在每次循环解码时依据所述值存储网络中存储的编码向量,以及上一循环的解码结果确定本循环解码过程中所述值存储网络中每个编码向量的关注概率,包括:
根据上一循环的解码状态向量和上一循环输出的词的向量,确定本循环的查询状态向量;
根据所述本循环的查询状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环中所述值存储网络中每个编码向量的关注概率。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述本循环的查询状态向量和所述本循环待翻译的编码向量,确定本循环的解码状态向量。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述本循环的解码状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环所述键值存储网络中的每个编码向量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述本循环的解码状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环所述键值存储网络中的每个编码向量,包括:
确定本循环待翻译的编码向量所对应的词语是否是结束符;
若不是结束符,则根据所述本循环的解码状态向量,以及所述键值存储网络中存储的上一循环更新的每个编码向量,确定本循环所述键值存储网络中的每个编码向量。
7.一种翻译模型训练的方法,其特征在于,包括:
获取样本对集合,所述样本对集合中包括多个样本对,每个样本对都包括以第一语言表示的源语句和以第二语言表示的目标语句;
使用所述样本对集合对初始键值网络模型进行训练,以得到目标键值网络模型,所述目标键值网络模型用于在语句翻译时对待翻译语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率。
8.根据权利要求7所述的方法,其特征在于,所述使用所述样本对集合对初始键值网络模型进行训练,以得到目标键值网络模型,包括:
根据训练参数与样本对和结束符的关注概率的对应关系,以结束符关注概率为优化目标,确定所述训练参数的数值;
将所述训练参数的数值代入所述初始键值网络模型,以得到目标键值网络模型。
9.一种语句翻译的装置,其特征在于,包括:
获取单元,用于获取用第一语言表示的源语句;
翻译单元,用于基于键值网络模型对所述获取单元获取的所述源语句进行翻译,以得到用第二语言表示的目标语句;其中,所述键值网络模型用于在对所述源语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率;
输出单元,用于输出所述翻译单元翻译得到的所述用第二语言表示的所述目标语句。
10.一种翻译模型训练的装置,其特征在于,包括:
获取单元,用于获取样本对集合,所述样本对集合中包括多个样本对,每个样本对都包括以第一语言表示的源语句和以第二语言表示的目标语句;
模型训练单元,用于使用所述获取单元获取的所述样本对集合对初始键值网络模型进行训练,以得到目标键值网络模型,所述目标键值网络模型用于在语句翻译时对待翻译语句进行编码后存储编码得到的编码向量,并在对所述编码向量进行循环解码时依据上一循环的解码结果确定本循环解码过程中每个编码向量的关注概率,其中,未被翻译的编码向量的关注概率大于已被翻译的编码向量的关注概率。
11.一种终端设备,其特征在于,所述终端设备包括:输入/输出(I/O)接口、处理器和存储器,所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如权利要求1-6任一所述的方法。
12.一种计算机设备,其特征在于,所述计算机设备包括:输入/输出(I/O)接口、处理器和存储器,所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如权利要求7或8所述的方法。
13.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1-6中任一项所述的方法或权利要求7或8所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810665697.2A CN108984535B (zh) | 2018-06-25 | 2018-06-25 | 语句翻译的方法、翻译模型训练的方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810665697.2A CN108984535B (zh) | 2018-06-25 | 2018-06-25 | 语句翻译的方法、翻译模型训练的方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108984535A CN108984535A (zh) | 2018-12-11 |
CN108984535B true CN108984535B (zh) | 2022-04-05 |
Family
ID=64538210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810665697.2A Active CN108984535B (zh) | 2018-06-25 | 2018-06-25 | 语句翻译的方法、翻译模型训练的方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108984535B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558605B (zh) * | 2018-12-17 | 2022-06-10 | 北京百度网讯科技有限公司 | 用于翻译语句的方法和装置 |
CN109710953B (zh) * | 2018-12-29 | 2023-04-11 | 成都金山互动娱乐科技有限公司 | 一种翻译方法及装置、计算设备、存储介质和芯片 |
CN109871550B (zh) * | 2019-01-31 | 2022-11-22 | 沈阳雅译网络技术有限公司 | 一种基于后处理技术的提高数字翻译质量的方法 |
CN109902312B (zh) * | 2019-03-01 | 2023-07-11 | 北京金山数字娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN109918684B (zh) * | 2019-03-05 | 2024-07-09 | 腾讯科技(深圳)有限公司 | 模型训练方法、翻译方法、相关装置、设备及存储介质 |
CN110287285B (zh) * | 2019-05-31 | 2023-06-16 | 平安科技(深圳)有限公司 | 一种问题意图识别方法、装置、计算机设备及存储介质 |
CN110442878B (zh) * | 2019-06-19 | 2023-07-21 | 腾讯科技(深圳)有限公司 | 翻译方法、机器翻译模型的训练方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN107423290A (zh) * | 2017-04-19 | 2017-12-01 | 厦门大学 | 一种基于层次结构的神经网络机器翻译模型 |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8521516B2 (en) * | 2008-03-26 | 2013-08-27 | Google Inc. | Linguistic key normalization |
US10332509B2 (en) * | 2015-11-25 | 2019-06-25 | Baidu USA, LLC | End-to-end speech recognition |
KR102589637B1 (ko) * | 2016-08-16 | 2023-10-16 | 삼성전자주식회사 | 기계 번역 방법 및 장치 |
-
2018
- 2018-06-25 CN CN201810665697.2A patent/CN108984535B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN107423290A (zh) * | 2017-04-19 | 2017-12-01 | 厦门大学 | 一种基于层次结构的神经网络机器翻译模型 |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
Non-Patent Citations (2)
Title |
---|
MichałDaniluk et al..FRUSTRATINGLY SHORT ATTENTION SPANS IN NEURAL LANGUAGE MODELING.《arXiv》.2017, * |
记忆神经网络的研究与发展;梁天新 等;《软件学报》;20171130;第28卷(第11期);第2905-2924页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108984535A (zh) | 2018-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984535B (zh) | 语句翻译的方法、翻译模型训练的方法、设备及存储介质 | |
JP7179273B2 (ja) | 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム | |
JP6972319B2 (ja) | 画像認識方法、端末及び記憶媒体 | |
CN108305296B (zh) | 图像描述生成方法、模型训练方法、设备和存储介质 | |
CN111428483B (zh) | 语音交互方法、装置和终端设备 | |
KR102360659B1 (ko) | 기계번역 방법, 장치, 컴퓨터 기기 및 기억매체 | |
CN106710596B (zh) | 回答语句确定方法及装置 | |
CN109918684B (zh) | 模型训练方法、翻译方法、相关装置、设备及存储介质 | |
WO2020108400A1 (zh) | 一种文本翻译的方法、装置及存储介质 | |
CN111816159B (zh) | 一种语种识别方法以及相关装置 | |
CN109902296B (zh) | 自然语言处理方法、训练方法及数据处理设备 | |
CN109656510B (zh) | 一种网页中语音输入的方法及终端 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN113761122A (zh) | 一种事件抽取方法、相关装置、设备及存储介质 | |
CN111241815A (zh) | 文本增量方法、装置及终端设备 | |
CN114328908A (zh) | 一种问答语句质检方法、装置及相关产品 | |
CN112488157B (zh) | 一种对话状态追踪方法、装置、电子设备及存储介质 | |
CN106791010B (zh) | 一种信息处理的方法、装置和移动终端 | |
CN106230919B (zh) | 一种文件上传的方法和装置 | |
CN114840499A (zh) | 一种表描述信息的生成方法、相关装置、设备及存储介质 | |
CN116795780A (zh) | 文档格式转换方法、装置、存储介质及电子设备 | |
CN114840563B (zh) | 一种字段描述信息的生成方法、装置、设备及存储介质 | |
CN111723783A (zh) | 一种内容识别方法和相关装置 | |
CN116597828B (zh) | 模型确定方法、模型应用方法和相关装置 | |
CN117057345B (zh) | 一种角色关系的获取方法及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |