CN108733657A - 神经机器翻译中注意力参数的修正方法、装置及电子设备 - Google Patents
神经机器翻译中注意力参数的修正方法、装置及电子设备 Download PDFInfo
- Publication number
- CN108733657A CN108733657A CN201710252048.5A CN201710252048A CN108733657A CN 108733657 A CN108733657 A CN 108733657A CN 201710252048 A CN201710252048 A CN 201710252048A CN 108733657 A CN108733657 A CN 108733657A
- Authority
- CN
- China
- Prior art keywords
- word
- coverage rate
- indicate
- revised
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种神经机器翻译中注意力参数的修正方法、装置及电子设备,该方法包括:获得第t时刻待翻译的源端词的编码向量,t为大于等于1的整数;获得第t‑1时刻翻译获得的目标端词的隐状态向量、第t‑1时刻源端词的覆盖率,以及源端词与目标端词之间的词对齐概率;基于词对齐概率,对覆盖率进行修正获得修正后的覆盖率;基于修正后的覆盖率、编码向量及隐状态向量,计算获得神经机器翻译过程中的注意力参数;基于所述注意力参数进行神经机器翻译。在上述技术方案中,通过词对齐概率来修正神经机器翻译中的覆盖率,从而提高注意力参数的准确性,进而解决了现有技术中神经机器翻译容易出现“过翻译”、“欠翻译”的技术问题,提高了翻译的准确性。
Description
技术领域
本发明涉及软件技术领域,特别涉及一种神经机器翻译中注意力参数的修正方法、装置及电子设备。
背景技术
随着经济全球化的发展,跨语言的翻译需求越来越大,对机器翻译的准确性要求越来越高。现如今,准确性较高的机器翻译主要包括统计机器翻译(Statistical MachineTranslation,SMT)和神经机器翻译(Neural Machine Translation,NMT)。
统计机器翻译是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。神经机器翻译则是将一种语言的句子向量化之后,转化为计算机可以“理解”的表示形式,再经过传导运算解码成另一种语言的译文,实现了“理解语言,生成译文”的翻译方式。神经机器翻译与统计机器翻译相比,其优势在于译文流畅、更加符合语法规范、容易理解,但神经机器翻译也存在不足之处。
在神经机器翻译中使用注意力(attention)机制来建模源端语言和目标端语言之间的软对齐关系。神经机器翻译在解码过程中通过注意力机制的软对齐关系自动调整,选择关注不同的源端语言词或者句子片段来产生对应的目标端语言词。由于神经机器翻译中软对齐关系缺少约束,注意力机制无法保证源端语言句子中的词语被“恰到好处”地关注,容易导致“过翻译”、“欠翻译”问题的产生,降低了神经机器翻译的准确性。其中,“过翻译”指不该多次翻译的源端语言词语被多次翻译,“欠翻译”是指应该被翻译的源端语言词语没有被翻译。
发明内容
本发明实施例提供一种神经机器翻译中注意力参数的修正方法、装置及电子设备,用于解决现有技术中神经机器翻译容易出现“过翻译”、“欠翻译”的技术问题,提高神经机器翻译的准确性。
第一方面,本发明实施例提供一种神经机器翻译中注意力参数的修正方法,所述方法包括:
获得第t时刻待翻译的源端词的编码向量,t为大于等于1的整数;
获得第t-1时刻翻译获得的目标端词的隐状态向量、所述第t-1时刻所述源端词的覆盖率,以及所述源端词与所述目标端词之间的词对齐概率;
基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率;
基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得神经机器翻译过程中的注意力参数;
基于所述注意力参数进行机器翻译。
结合第一方面,在本发明第一方面的第一种实现方式中,所述基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率,包括:
基于所述词对齐概率的大小来修正所述覆盖率的大小,所述词对齐概率越大修正后的所述覆盖率越大,所述词对齐概率越小修正后的所述覆盖率越小。
结合第一方面,在本发明第一方面的第二种实现方式中,所述基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率,包括通过如下公式获得修正后的所述覆盖率:
C′i-1,j=Ci-1,j*Ai-1,j或者
C′i-1,j=Ci-1,j*exp(Ai-1,j)
其中,Ci-1,j表示所述覆盖率,C′i-1,j表示修正后的所述覆盖率,Ai-1,j表示所述词对齐概率,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
结合第一方面,在本发明第一方面的第三种实现方式中,所述基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率,包括通过如下公式获得修正后的所述覆盖率:
C′i-1,j=softmax(Ci-1,j*Ai-1,j)或者
C′i-1,j=softmax(Ci-1,j*exp(Ai-1,j))
其中,Ci-1,j表示所述覆盖率,C′i-1,j表示修正后的所述覆盖率,Ai-1,j表示所述词对齐概率,softmax表示归一化指数函数,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
结合第一方面的第二种或第三种实现方式,在本发明第一方面的第四种实现方式中,所述基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得神经机器翻译过程中的注意力参数,包括:
基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得所述源端词对应所述目标端词的权重;
对所述权重进行归一化,获得所述神经机器翻译过程中的所述注意力参数。
结合第一方面的第四种实现方式,在本发明第一方面的第五种实现方式中,所述基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得所述源端词对应所述目标端词的权重,包括:
其中,ei,j表示所述源端词对应所述目标端词的权重,ti-1表示所述隐状态向量,hj表示所述编码向量,Wa、Ua、Uc表示神经机器翻译中的四个权值矩阵,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
第二方面,本申请实施例还提供一种神经机器翻译中注意力参数的修正装置,所述装置包括:
第一获取单元,用于获得第t时刻待翻译的源端词的编码向量,t为大于等于1的整数;
第二获取单元,用于获得第t-1时刻翻译获得的目标端词的隐状态向量、所述第t-1时刻所述源端词的覆盖率,以及所述源端词与所述目标端词之间的词对齐概率;
修正单元,用于基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率;
计算单元,用于基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得神经机器翻译过程中的注意力参数;
翻译单元,用于基于所述注意力参数进行机器翻译。
结合第二方面,在本发明第二方面的第一种实现方式中,所述修正单元,用于:
基于所述词对齐概率的大小来修正所述覆盖率的大小,所述词对齐概率越大修正后的所述覆盖率越大,所述词对齐概率越小修正后的所述覆盖率越小。
结合第二方面,在本发明第二方面的第二种实现方式中,所述修正单元用于通过如下公式获得修正后的所述覆盖率:
C′i-1,j=Ci-1,j*Ai-1,j或者
C′i-1,j=Ci-1,j*exp(Ai-1,j)
其中,Ci-1,j表示所述覆盖率,C′i-1,j表示修正后的所述覆盖率,Ai-1,j表示所述词对齐概率,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
结合第二方面,在本发明第二方面的第三种实现方式中,所述修正单元用于通过如下公式获得修正后的所述覆盖率:
C′i-1,j=softmax(Ci-1,j*Ai-1,j)或者
C′i-1,j=softmax(Ci-1,j*exp(Ai-1,j))
其中,Ci-1,j表示所述覆盖率,C′i-1,j表示修正后的所述覆盖率,Ai-1,j表示所述词对齐概率,softmax表示归一化指数函数,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
结合第二方面的第二种或第三种实现方式,在本发明第二方面的第四种实现方式中,所述计算单元,包括:
权重计算子单元,用于基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得所述源端词对应所述目标端词的权重;
归一化子单元,用于对所述权重进行归一化,获得所述神经机器翻译过程中的所述注意力参数。
结合第二方面的第四种实现方式,在本发明第二方面的第五种实现方式中,所述权重计算子单元用于:
其中,ei,j表示所述源端词对应所述目标端词的权重,ti-1表示所述隐状态向量,hj表示所述编码向量,Wa、Ua、Uc表示神经机器翻译中的四个权值矩阵,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
第三方面,本申请实施例还提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获得第t时刻待翻译的源端词的编码向量,t为大于等于1的整数;
获得第t-1时刻翻译获得的目标端词的隐状态向量、所述第t-1时刻所述源端词的覆盖率,以及所述源端词与所述目标端词之间的词对齐概率;
基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率;
基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得神经机器翻译过程中的注意力参数;
基于所述注意力参数进行机器翻译。
结合第三方面,在本发明第三方面的第一种实现方式中,所述基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率,包括:
基于所述词对齐概率的大小来修正所述覆盖率的大小,所述词对齐概率越大修正后的所述覆盖率越大,所述词对齐概率越小修正后的所述覆盖率越小。
结合第三方面,在本发明第三方面的第二种实现方式中,所述基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率,包括通过如下公式获得修正后的所述覆盖率:
C′i-1,j=Ci-1,j*Ai-1,j或者
C′i-1,j=Ci-1,j*exp(Ai-1,j)
其中,Ci-1,j表示所述覆盖率,C′i-1,j表示修正后的所述覆盖率,Ai-1,j表示所述词对齐概率,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
结合第三方面,在本发明第三方面的第三种实现方式中,所述基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率,包括通过如下公式获得修正后的所述覆盖率:
C′i-1,j=softumax(Ci-1,j*Ai-1,j)或者
C′i-1,j=softmax(Ci-1,j*exp(Ai-1,j))
其中,Ci-1,j表示所述覆盖率,C′i-1,j表示修正后的所述覆盖率,Ai-1,j表示所述词对齐概率,softmax表示归一化指数函数,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
结合第三方面的第二种或第三种实现方式,在本发明第三方面的第四种实现方式中,所述基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得神经机器翻译过程中的注意力参数,包括:
基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得所述源端词对应所述目标端词的权重;
对所述权重进行归一化,获得所述神经机器翻译过程中的所述注意力参数。
结合第三方面的第四种实现方式,在本发明第三方面的第五种实现方式中,所述基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得所述源端词对应所述目标端词的权重,包括:
其中,ei,j表示所述源端词对应所述目标端词的权重,ti-1表示所述隐状态向量,hj表示所述编码向量,Wa、Ua、Uc表示神经机器翻译中的四个权值矩阵,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果:
本申请实施例提供一种神经机器翻译中的注意力参数修正方法:获得第t时刻待翻译的源端词的编码向量,第t-1时刻翻译获得的目标端词的隐状态向量,第t-1时刻所述源端词的覆盖率,以及所述源端词与目标端词之间的词对齐概率;并基于词对齐概率对覆盖率进行修正获得修正后的覆盖率;进而,基于修正后的覆盖率、编码向量及隐状态向量,计算获得神经机器翻译过程中的注意力参数;基于计算获得的注意力参数进行机器翻译。由于采用了词对齐概率对神经机器翻译中体现软对齐关系的覆盖率进行了修正,修正后的覆盖率考虑了已生成词语源端词的词对齐信息准确性更高,基于修正后的覆盖率计算获得的注意力参数的准确性得到相应的提高,使得注意力机制能够准确的保证源端词语被“恰到好处”地关注,减少或者避免神经机器翻译中“过翻译”、“欠翻译”的情况,解决了现有技术中神经机器翻译容易出现“过翻译”、“欠翻译”的技术问题,进而提高了神经机器翻译的准确性。
附图说明
图1为本申请实施例提供的一种神经机器翻译中注意力参数的修正方法的流程图;
图2为本申请实施例提供的一种神经机器翻译中注意力参数的修正装置的示意图;
图3为本申请实施例提供的一种用于实现神经机器翻译中注意力参数修正方法的电子设备的示意图;
图4为本申请实施例提供的另一种用于实现神经机器翻译中注意力参数修正方法的电子设备的示意图。
具体实施方式
在本申请实施例提供的技术方案中,使用词对齐的方法来对神经机器翻译中软对齐的覆盖率进行修正,以此来约束神经机器翻译中软对齐关系,从而提高神经机器翻译中注意力参数的准确性,减少或者避免出现“过翻译”、“欠翻译”的问题,进而解决现有技术中神经机器翻译容易出现“过翻译”、“欠翻译”的技术问题,提高神经机器翻译的准确性。
下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
实施例
请参考图1,本申请实施例提供一种神经机器翻译中注意力参数的修正方法,该方法包括:
S11:获得第t时刻待翻译的源端词的编码向量;
S12:获得第t-1时刻翻译获得的目标端词的隐状态向量、所述第t-1时刻所述源端词的覆盖率,以及所述源端词与所述目标端词之间的词对齐概率;
S13:基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率;
S14:基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得神经机器翻译过程中的注意力参数;
S15:基于所述注意力参数进行机器翻译。
在具体实施过程中,神经机器翻译包括编码阶段和解码阶段。在编码阶段获得待翻译的句子即源端句子时,首选会对源端句子进行分词,然后,将分词获得的各个源端词编码成编码向量。其中,可以用hj表示源端句子的第j个源端词的编码向量。例如:假设待翻译的句子为“我是中国人。”,分词获得5个源端词:“我”、“是”、“中国”、“人”“。”,分别编码获得这5个源端词的编码向量hj,j=0、1、2、3、4。
在解码阶段,从第0时刻开始对源端句子的源端词逐个进行翻译,即第0时刻翻译第0个源端词、第1时刻翻译第1个源端词,以此类推。翻译过程中,在第0时刻翻译第0个源端词后,对第1时刻及第1时刻之后待翻译的源端词执行S11~S14获得注意力参数,基于获得的注意力参数来确定是否翻译当前时刻的源端词。
具体的,本申请实施例在执行S11和S12时不分先后,可以先执行S11,也可以先执行S12,还可以同时执行S11和S12。S11获得第t时刻待翻译的源端词的编码向量hj时,hj从编码阶段编码获得的向量中获取即可。S12获得第t-1时刻翻译获得的目标端词的隐状态向量ti-1、第t-1时刻所述源端词的覆盖率Ci-1,j,以及源端词与目标端词之间的词对齐概率Ai-1,j。其中,i表示目标端翻译获得的第i个目标端词。
在神经机器翻译中,目标端词的隐状态向量为多层反馈RNN(Recurrent neuralNetwork,循环神经网络)输出的RNN隐状态向量。词对齐概率为统计机器翻译中的源端词与目标端词互为翻译的概率。本申请实施例采用统计机器翻译中的词对齐概率来修正神经机器翻译中源端词的覆盖率,在S11和S12之后执行S13。
S13基于源端词语与目标端词之间的词对齐概率,对源端词的覆盖率进行修正获得修正后的覆盖率。修正时,可以根据词对齐概率的大小来修正源端词覆盖率的大小,词对齐概率越大修正后的覆盖率越大,词对齐概率越小修正后的覆盖率越小。通过词对齐概率对覆盖率的修正,使得在词对齐概率较大即源端词被目标端词覆盖的可能性较大的情况下,增大覆盖率,反之,在词对齐概率较小即源端词被目标端词覆盖的可能性较小的情况下,减小覆盖率,以此实现通过词对齐概率对覆盖率的鼓励和惩罚。
具体的,可以通过如下公式一或公式二来实现对源端词覆盖率的修正:
C′i-1,j=Ci-1,j*Ai-1,j 公式一
C′i-1,j=Ci-1,j*exp(Ai-1,j) 公式二
其中,Ci-1,j表示在第t-1时刻待翻译的源端词的覆盖率,C′i-1,j表示Ci-1,j修正后的覆盖率,Ai-1,j表示源端词与目标端词之间的词对齐概率,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。具体实施过程中,对第t-1时刻待翻译的源端词的覆盖率进行修正时,还可以对覆盖率进行归一化,提高修正后的覆盖率的准确性。例如,通过归一化指数函数softmax对其进行归一化:
C′i-1,j=softmax(Ci-1,j*Ai-1,j)或者
C′i-1,j=softmax(Ci-1,j*exp(Ai-1,j))
在S13之后执行S14计算获得神经机器翻译过程中源端词的注意力参数。在注意力参数相对其他词较大时,源端词才会被翻译,反之,则被忽略不被翻译。可见,注意力参数的准确与否直接关系到翻译质量的好坏,注意力参数越准确,出现“过翻译”、“欠翻译”的情况就越少,翻译质量就越高。本申请实施例在计算注意力参数时,基于修正后的覆盖率进行计算,由于修正后的覆盖率能够更准确的反映源端词的覆盖情况,由此获得的注意力参数也更准确。
在计算获得源端词的注意力参数的过程中,可以先基于源端词修正后的覆盖率、编码向量及目标端词的隐状态向量,计算获得源端词对应目标端词的权重;然后,对计算获得的权重进行归一化,获得神经机器翻译过程中的注意力参数。
具体的,可以通过如下公式三计算获得源端词对应目标端词的权重:
其中,ei,j表示源端词对应目标端词的权重,ti-1表示目标端词的隐状态向量,hj表示源端词的编码向量,C′i-1,j表示源端词修正后的覆盖率,Wa、Ua、Uc表示神经机器翻译中的四个权值矩阵,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。Wa、Ua、Uc这四个权值矩阵是神经机器翻译在训练中对随机初始化的矩阵不断更新获得,更新过程中使用梯度下降等算法进行更新。获得ei,j后,可以通过函数softmax对ei,j进行归一化获得注意力参数:αi,j=softmax(ei,j)。
基于S14计算获得注意力参数,进一步执行S15进行机器翻译。具体的,当注意力参数小于设定阈值时,表明当前待翻译的源端词未被覆盖,对其进行翻译;当注意力参数大于等于设定阈值时,表明当前待翻译的源端词已被覆盖,不需要对其进行翻译,跳转到下一个源端词。
下面通过一个具体的实例,举例说明本申请实施例提供的神经机器翻译中注意力参数修正过程:
假设使用神经机器翻译来将源端句子:“我是中国人。”翻译为英文。神经机器翻译的翻译过程中包括:
1、编码。对“我是中国人。”进行分词,假设获得5个源端词:“我”、“是”、“中国”、“人”“。”,对各个分词进行编码,对应编码获得各个源端词的编码向量:h0、h1、h2、h3、h4。
2、根据源端词生成目标端词。第0时刻,根据第0个源端词“我”生成第0个目标端词“I”;第1时刻,根据第1个源端词“是”生成第1个目标端词“am”,…,第3时刻时,根据第2个源端词“中国”生成目标词“Chinese”…。第0个目标端词后的每个目标端词的生成过程如下:
a)、采用本申请实施例提供的公式计算获得第t个时刻待翻译的源端词的注意力参数:
αi,j=softmax(ei,j)
其中,C′i-1,j=Ci-1,j*Ai-1,j或者C′i-1,j=Ci-1,j*exp(Ai-1,j)
b)、通过注意力参数来确定所要翻译的源端词。例如:在第3时刻时,第2时刻生成了目标端词“a”,待翻译的第2个源端词“中国”的覆盖率C2,2很低,进一步的待翻译的第2个源端词“中国”与第2个目标端词“a”之间的词对齐概率A2,2也非常小,此时修正后的覆盖率变得更小,表明第2个源端词“中国”还没有覆盖,由此计算获得的注意力参数更倾向于在第3时刻翻译第2个源端词“中国”,避免“欠翻译”。
在第3时刻,系统翻译获得第3个目标端词“Chinese”。接下来,在第4时刻时,待翻译的第3个源端词“人”的覆盖率C3,3依然很低。按照现有神经机器翻译的覆盖率计算获得注意力参数的话,则会倾向于对“人”进行翻译,那么翻译结果就会是“I am a ChineseChinese.”,出现“过翻译的”问题。与现有技术不同的是,本申请会获得上一时刻翻译获得的目标端词与当前源端词的词对齐概率A3,3来对覆盖率进行修正,由于第3个源端词“人”与第3个目标端词“Chinese”的词对齐概率非常高,为此,修正后的覆盖率会随词对齐概率的变大而相对变大,表明第3个源端词“人”已经被覆盖,由此计算获得的注意力参数则倾向于在第4时刻不再翻译第3个源端词“人”,避免“过翻译”,使得最终的翻译结果为“I am aChinese”,提高了翻译的准确性。
针对上述实施例提供的神经机器翻译中注意力参数的修正方法,本申请实施例还对应提供一种神经机器翻译中注意力参数的修正装置,请参考图2,该装置包括:
第一获取单元21,用于获得第t时刻待翻译的源端词的编码向量,t为大于等于1的整数;
第二获取单元22,用于获得第t-1时刻翻译获得的目标端词的隐状态向量、所述第t-1时刻所述源端词的覆盖率,以及所述源端词与所述目标端词之间的词对齐概率;
修正单元23,用于基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率;
计算单元24,用于基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得神经机器翻译过程中的注意力参数;
翻译单元25,用于基于所述注意力参数进行机器翻译。
在具体实施过程中,所述修正单元23,用于:基于所述词对齐概率的大小来修正所述覆盖率的大小,所述词对齐概率越大修正后的所述覆盖率越大,所述词对齐概率越小修正后的所述覆盖率越小。
其中,所述修正单元23可以如下两种方法对覆盖率进行修正。
方式一、通过如下公式获得修正后的所述覆盖率:
C′i-1,j=Ci-1,j*Ai-1,j或者
C′i-1,j=Ci-1,j*exp(Ai-1,j)
其中,Ci-1,j表示所述覆盖率,C′i-1,j表示修正后的所述覆盖率,Ai-1,j表示所述词对齐概率,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
方式二、通过如下公式获得修正后的所述覆盖率:
C′i-1,j=softmax(Ci-1,j*Ai-1,j)或者
C′i-1,j=softmax(Ci-1,j*exp(Ai-1,j))
其中,Ci-1,j表示所述覆盖率,C′i-1,j表示修正后的所述覆盖率,Ai-1,j表示所述词对齐概率,softmax表示归一化指数函数,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
具体实施过程中,所述计算单元24,包括:
权重计算子单元,用于基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得所述源端词对应所述目标端词的权重;
归一化子单元,用于对所述权重进行归一化,获得所述神经机器翻译过程中的所述注意力参数。
其中,所述权重计算子单元用于:
其中,ei,j表示所述源端词对应所述目标端词的权重,ti-1表示所述隐状态向量,hj表示所述编码向量,Wa、Ua、Uc表示神经机器翻译中的四个权值矩阵,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种用于实现神经机器翻译中注意力参数修正的电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(T/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MTC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
T/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WtFt,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFTD)技术,红外数据协会(TrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASTC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图4是根据另一示例性实施例示出的一种用于实现神经机器翻译中注意力参数修正的电子设备1900的结构示意图。该电子设备1900可以是服务器,服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器上执行存储介质1930中的一系列指令操作。
服务器还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备(终端或服务器的处理器)执行时,使得电子设备能够执行一种神经机器翻译中注意力参数的修正方法,所述方法包括:
获得第t时刻待翻译的源端词的编码向量,t为大于等于1的整数;获得第t-1时刻翻译获得的目标端词的隐状态向量、所述第t-1时刻所述源端词的覆盖率,以及所述源端词与所述目标端词之间的词对齐概率;基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率;基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得神经机器翻译过程中的注意力参数;基于所述注意力参数进行机器翻译。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种神经机器翻译中注意力参数的修正方法,其特征在于,所述方法包括:
获得第t时刻待翻译的源端词的编码向量,t为大于等于1的整数;
获得第t-1时刻翻译获得的目标端词的隐状态向量、所述第t-1时刻所述源端词的覆盖率,以及所述源端词与所述目标端词之间的词对齐概率;
基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率;
基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得神经机器翻译过程中的注意力参数;
基于所述注意力参数进行机器翻译。
2.如权利要求1所述的方法,其特征在于,所述基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率,包括:
基于所述词对齐概率的大小来修正所述覆盖率的大小,所述词对齐概率越大修正后的所述覆盖率越大,所述词对齐概率越小修正后的所述覆盖率越小。
3.如权利要求1所述的方法,其特征在于,所述基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率,包括通过如下公式获得修正后的所述覆盖率:
C′i-1,j=Ci-1,j*Ai-1,j或者
C′i-1,j=Ci-1,j*exp(Ai-1,j)
其中,Ci-1,j表示所述覆盖率,C′i-1,j表示修正后的所述覆盖率,Ai-1,j表示所述词对齐概率,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
4.如权利要求1所述的方法,其特征在于,所述基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率,包括通过如下公式获得修正后的所述覆盖率:
C′i-1,j=softmax(Ci-1,j*Ai-1,j)或者
C′i-1,j=softmax(Ci-1,j*exp(Ai-1,j))
其中,Ci-1,j表示所述覆盖率,C′i-1,j表示修正后的所述覆盖率,Ai-1,j表示所述词对齐概率,softmax表示归一化指数函数,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
5.如权利要求3或4所述的方法,其特征在于,所述基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得神经机器翻译过程中的注意力参数,包括:
基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得所述源端词对应所述目标端词的权重;
对所述权重进行归一化,获得所述神经机器翻译过程中的所述注意力参数。
6.如权利要求5所述的方法,其特征在于,所述基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得所述源端词对应所述目标端词的权重,包括:
其中,ei,j表示所述源端词对应所述目标端词的权重,ti-1表示所述隐状态向量,hj表示所述编码向量,Wa、Ua、Uc表示神经机器翻译中的四个权值矩阵,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
7.一种神经机器翻译中注意力参数的修正装置,其特征在于,所述装置包括:
第一获取单元,用于获得第t时刻待翻译的源端词的编码向量,t为大于等于1的整数;
第二获取单元,用于获得第t-1时刻翻译获得的目标端词的隐状态向量、所述第t-1时刻所述源端词的覆盖率,以及所述源端词与所述目标端词之间的词对齐概率;
修正单元,用于基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率;
计算单元,用于基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得神经机器翻译过程中的注意力参数;
翻译单元,用于基于所述注意力参数进行机器翻译。
8.如权利要求7所述的装置,其特征在于,所述修正单元,用于:
基于所述词对齐概率的大小来修正所述覆盖率的大小,所述词对齐概率越大修正后的所述覆盖率越大,所述词对齐概率越小修正后的所述覆盖率越小。
9.如权利要求7所述的装置,其特征在于,所述修正单元用于通过如下公式获得修正后的所述覆盖率:
C′i-1,j=Ci-1,j*Ai-1,j或者
C′i-1,j=Ci-1,j*exp(Ai-1,j)
其中,Ci-1,j表示所述覆盖率,C′i-1,j表示修正后的所述覆盖率,Ai-1,j表示所述词对齐概率,i表示目标端翻译获得的第i个词,j表示源端待翻译的第j个词。
10.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获得第t时刻待翻译的源端词的编码向量,t为大于等于1的整数;
获得第t-1时刻翻译获得的目标端词的隐状态向量、所述第t-1时刻所述源端词的覆盖率,以及所述源端词与所述目标端词之间的词对齐概率;
基于所述词对齐概率,对所述覆盖率进行修正获得修正后的所述覆盖率;
基于修正后的所述覆盖率、所述编码向量及所述隐状态向量,计算获得神经机器翻译过程中的注意力参数;
基于所述注意力参数进行机器翻译。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710252048.5A CN108733657B (zh) | 2017-04-17 | 2017-04-17 | 神经机器翻译中注意力参数的修正方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710252048.5A CN108733657B (zh) | 2017-04-17 | 2017-04-17 | 神经机器翻译中注意力参数的修正方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108733657A true CN108733657A (zh) | 2018-11-02 |
CN108733657B CN108733657B (zh) | 2022-10-28 |
Family
ID=63924249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710252048.5A Active CN108733657B (zh) | 2017-04-17 | 2017-04-17 | 神经机器翻译中注意力参数的修正方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108733657B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109960795A (zh) * | 2019-02-18 | 2019-07-02 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN110781674A (zh) * | 2019-09-19 | 2020-02-11 | 北京小米智能科技有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN112148870A (zh) * | 2019-06-26 | 2020-12-29 | 阿里巴巴集团控股有限公司 | 摘要生成方法、装置、电子设备及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090177460A1 (en) * | 2008-01-04 | 2009-07-09 | Fluential, Inc. | Methods for Using Manual Phrase Alignment Data to Generate Translation Models for Statistical Machine Translation |
CN101630313A (zh) * | 2008-07-18 | 2010-01-20 | 富士施乐株式会社 | 单词对齐装置、例句对译词典及单词对齐方法 |
CN101714137A (zh) * | 2008-10-06 | 2010-05-26 | 株式会社东芝 | 评价、选择例句对,构建通用例句库,机器翻译的方法及装置 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
-
2017
- 2017-04-17 CN CN201710252048.5A patent/CN108733657B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090177460A1 (en) * | 2008-01-04 | 2009-07-09 | Fluential, Inc. | Methods for Using Manual Phrase Alignment Data to Generate Translation Models for Statistical Machine Translation |
CN101630313A (zh) * | 2008-07-18 | 2010-01-20 | 富士施乐株式会社 | 单词对齐装置、例句对译词典及单词对齐方法 |
CN101714137A (zh) * | 2008-10-06 | 2010-05-26 | 株式会社东芝 | 评价、选择例句对,构建通用例句库,机器翻译的方法及装置 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109960795A (zh) * | 2019-02-18 | 2019-07-02 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN109960795B (zh) * | 2019-02-18 | 2024-05-07 | 平安科技(深圳)有限公司 | 一种地址信息标准化方法、装置、计算机设备及存储介质 |
CN112148870A (zh) * | 2019-06-26 | 2020-12-29 | 阿里巴巴集团控股有限公司 | 摘要生成方法、装置、电子设备及计算机可读存储介质 |
CN110781674A (zh) * | 2019-09-19 | 2020-02-11 | 北京小米智能科技有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN110781674B (zh) * | 2019-09-19 | 2023-10-27 | 北京小米智能科技有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108733657B (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021077529A1 (zh) | 神经网络模型压缩方法、语料翻译方法及其装置 | |
CN107527059B (zh) | 文字识别方法、装置及终端 | |
WO2019052293A1 (zh) | 机器翻译方法、装置、计算机设备及存储介质 | |
CN107291690A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
KR102338918B1 (ko) | 기계 번역 모델의 훈련 방법, 장치 및 시스템 | |
CN107221330A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
WO2020151685A1 (zh) | 编码方法、装置、设备及存储介质 | |
CN108345581A (zh) | 一种信息识别方法、装置和终端设备 | |
CN108733657A (zh) | 神经机器翻译中注意力参数的修正方法、装置及电子设备 | |
CN107340880A (zh) | 一种联想输入方法、装置及用于实现联想输入的电子设备 | |
CN107844199A (zh) | 一种输入方法、系统和用于输入的装置 | |
CN110415702A (zh) | 训练方法和装置、转换方法和装置 | |
CN111640424B (zh) | 一种语音识别方法、装置和电子设备 | |
US20230386449A1 (en) | Method and apparatus for training neural network, and method and apparatus for audio processing | |
CN113761888A (zh) | 文本翻译方法、装置、计算机设备及存储介质 | |
EP3770803A1 (en) | Orientation detection method and device, electronic device and storage medium | |
CN111382748A (zh) | 图像翻译方法、装置及存储介质 | |
CN109408796B (zh) | 一种信息处理方法、装置及电子设备 | |
CN112036195A (zh) | 机器翻译方法、装置及存储介质 | |
CN112199963A (zh) | 一种文本处理方法、装置和用于文本处理的装置 | |
CN111832322A (zh) | 语句翻译方法、装置、电子设备和存储介质 | |
CN109977424A (zh) | 一种机器翻译模型的训练方法及装置 | |
CN113345452B (zh) | 语音转换方法、语音转换模型的训练方法、装置和介质 | |
CN112017670B (zh) | 一种目标账户音频的识别方法、装置、设备及介质 | |
CN111310701B (zh) | 手势识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |