CN111191468B - 术语替换方法及装置 - Google Patents
术语替换方法及装置 Download PDFInfo
- Publication number
- CN111191468B CN111191468B CN201911303517.7A CN201911303517A CN111191468B CN 111191468 B CN111191468 B CN 111191468B CN 201911303517 A CN201911303517 A CN 201911303517A CN 111191468 B CN111191468 B CN 111191468B
- Authority
- CN
- China
- Prior art keywords
- sample
- term
- vector
- sentence
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明实施例提供一种术语替换方法及装置,所述方法包括:获取原文句子、译文句子以及术语替换后的原文句子;将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子;其中,所述术语替换模型是根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得的。本发明实施例通过利用预先训练好的术语替换模型自动地生成术语替换后的译文句子,确保译文中的某个术语被替换掉时译文的语法正确同时减少译文句子结构的过多变化。
Description
技术领域
本发明涉及机器翻译技术领域,更具体地,涉及一种术语替换方法及装置。
背景技术
在智能辅助翻译中,术语替换对译员来说是一项非常重要的工具。术语替换的典型场景是:给定原文和译文,译员选择原文中的某个术语,确定想要替换的术语和其相应术语翻译,同时在原文和译文上做术语替换,并且尽可能使替换后的译文和给定的译文在句子结构上保持相近。例如,译员选择原文中的“培养”,并确定要原文中将“培养”替换成“培训”,并将译文中“培养”相对应的翻译“building”替换此词成“training”。
术语替换的这种自动化的操作带来的好处主要有两点:一是可以使译员更加有效的复用原来的语料,二是减少译员对文本的编辑修改。这些都可以优化译员翻译的工作效率。然而,术语替换是一项非常有挑战性的任务。首先,对于原文中被替换的术语,其在译文中相应的翻译的位置是未知的。第二,随着译文中的某个术语被替换掉,如何既保证译文的语法正确,同时减少译文句子结构的过多变化往往非常困难。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的术语替换方法及装置。
第一方面,本发明实施例提供一种术语替换方法,包括:
获取原文句子、译文句子以及术语替换后的原文句子;
将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子;
其中,所述术语替换模型是根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得的。
其中,所述术语替换模型具体包括:三个编码器、三个注意力模型和一个译码器;
其中,每个所述编码器包括若干个LSTM循环神经网络,用于将输入的句子编码为向量序列;每个所述注意力模型用于基于所述编码器的输出结果和所述译码器的输出结果进行基于注意力机制的计算;所述译码器包括若干个LSTM循环神经网络,所述译码器的输入为上一基于所述三个注意力模型的计算结果进行词语预测的预测结果。
其中,将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子,具体包括:
将所述原文句子输入至所述术语替换模型的第一编码器中,生成第一向量序列,将所述译文句子输入至所述术语替换模型的第二编码器中,生成第二向量序列,将所述术语替换后的原文句子输入至所述术语替换模型的第三编码器中,生成第三向量序列;
将上一预测结果输入至所述术语替换模型的译码器中,获得译码向量;
将所述第一向量序列和所述译码向量输入至所述术语替换模型的第一注意力模型进行基于注意力机制的计算,生成第一特征向量,将所述第二向量序列和所述译码向量输入至所述术语替换模型的第二注意力模型进行基于注意力机制的计算,生成第二特征向量,将所述第三向量序列和所述译码向量输入至所述术语替换模型的第三注意力模型进行基于注意力机制的计算,生成第三特征向量;
将所述第一特征向量、第二特征向量和第三特征向量进行组合,并根据组合后的特征向量和所述译码向量进行词语预测,获得新的预测结果;
输出所有预测结果。
其中,将所述第一向量序列和所述译码向量输入至所述术语替换模型的第一注意力模型进行基于注意力机制的计算,生成第一特征向量,具体包括:
将所述译码向量分别与所述第一向量序列中的各个向量相乘,获得多个标量得分;
利用softmax函数、基于所述多个标量得分生成所述第一向量序列中的各个向量对应的权重;
将所述第一向量序列中的各个向量与各个向量对应的权重进行相乘后相加,获得第一特征向量。
其中,根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得所述术语替换模型,具体包括:
将所述原文句子样本输入至基于LSTM循环神经网络的第一编码器中,生成第一向量序列样本,将所述译文句子样本输入至基于LSTM循环神经网络的第二编码器中,生成第二向量序列样本,将所述术语替换后的原文句子样本输入至基于LSTM循环神经网络的第三编码器中,生成第三向量序列样本;
将上一预测结果输入至基于LSTM循环神经网络的译码器中,获得译码向量样本;
将所述第一向量序列样本和所述译码向量样本输入至第一注意力模型进行基于注意力机制的计算,生成第一特征向量样本,将所述第二向量序列样本和所述译码向量样本输入至第二注意力模型进行基于注意力机制的计算,生成第二特征向量样本,将所述第三向量序列样本和所述译码向量样本输入至第三注意力模型进行基于注意力机制的计算,生成第三特征向量样本;
将所述第一特征向量样本、第二特征向量样本和第三特征向量样本进行组合,并根据组合后的特征向量样本进行词语预测,获得新的预测结果;
基于所有预测结果组成的句子与所述术语替换后的译文句子样本计算损失函数的值,并基于所述损失函数的值进行反向传播,直至满足训练结束条件;
保存训练结束时所述第一编码器、第二编码器、第三编码器、译码器、第一注意力模型、第二注意力模型、第三注意力模型的参数,获得训练完成的术语替换模型。
其中,在将所述原文句子样本输入至基于LSTM循环神经网络的第一编码器中之前,还包括:构建术语替换的平行语料库;
其中,所述构建术语替换的平行语料库,具体包括:
构建双语术语表;
若在原文句子中的某个词语或短语出现在所述双语术语表中,则进行原文句子的术语替换生成术语替换后的原文句子;
将所述术语替换后的原文句子输入至预先训练好的机器翻译模型中,输出所述术语替换后的原文句子对应的译文句子;
若所述术语替换后的原文句子对应的译文句子满足如下两个条件:所述词语或短语所对应的译文术语出现在所述术语替换后的原文句子对应的译文句子中,所述原文句子对应的译文句子与所述术语替换后的原文句子对应的译文句子之间的编辑距离小于预设阈值,则标记所述术语替换后的原文句子对应的译文句子;
将所述原文句子、原文句子对应的译文句子、术语替换后的原文句子以及所述术语替换后的原文句子对应的译文句子作为一条平行语料,加入至所述术语替换的平行语料库中。
其中,所述构建术语替换的平行语料库之前,还包括:
获取双语平行语料,所述双语平行语料包括:待翻译的原文语料和译员后编辑过的译文语料;
对所述双语平行语料分别进行分词处理,并对分词处理后的双语平行语料的数据序列进行重新洗牌,获得经过预处理的语料库;
分别获取最新的维基百科构建多个单语语料集,利用Skip-Gram算法进行词向量的模型训练,获得经过预训练的双语词向量;
利用所述经过预处理的语料库和所述经过预训练的双语词向量对所述机器翻译模型进行训练,获得训练完成的机器翻译模型;
其中,所述机器翻译模型具体包括:一个编码器、一个注意力模型和一个译码器;所述编码器包括若干个LSTM循环神经网络,用于将输入的句子编码为向量序列;所述注意力模型用于基于所述编码器的输出结果和所述译码器的输出结果进行基于注意力机制的计算;所述译码器包括若干个LSTM循环神经网络,所述译码器的输入包括上一基于所述注意力模型的计算结果进行词语预测的预测结果。
第二方面,本发明实施例提供一种术语替换装置,包括:
获取模块,用于获取原文句子、译文句子以及术语替换后的原文句子;
术语替换模块,用于将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子;
其中,所述术语替换模型是根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得的。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的术语替换方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的术语替换方法的步骤。
本发明实施例提供的术语替换方法及装置,通过利用预先训练好的术语替换模型来提取原文句子、译文句子以及术语替换后的原文句子中的语义特征,自动地生成术语替换后的译文句子,通过输入足够多的信息来确保译文中的某个术语被替换掉时,译文的语法正确同时减少译文句子结构的过多变化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的术语替换方法的流程示意图;
图2为本发明实施例提供的术语替换模型的结构示意图;
图3为本发明实施例提供的术语替换模型中的编码器的结构示意图;
图4为本发明实施例提供的机器翻译模型的结构示意图;
图5为本发明实施例提供的术语替换装置的结构示意图;
图6为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例提供的术语替换方法的流程示意图,包括:
步骤100、获取原文句子、译文句子以及术语替换后的原文句子;
具体地,为了准确地、自动地实现术语替换,本发明实施例提供的术语替换方法首先获取原文句子、所述原文句子对应的译文句子,以及术语替换后的原文句子,然后根据原文句子、所述原文句子对应的译文句子,以及术语替换后的原文句子自动地生成术语替换后的译文句子。
步骤101、将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子;
具体地,本发明实施例通过术语替换模型来自动地生成术语替换后的译文句子。
其中,所述术语替换模型是根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得的。
本发明实施例通过利用预先训练好的术语替换模型来提取原文句子、译文句子以及术语替换后的原文句子中的语义特征,自动地生成术语替换后的译文句子,通过输入足够多的信息来确保译文中的某个术语被替换掉时,译文的语法正确同时减少译文句子结构的过多变化。
基于上述实施例的内容,所述术语替换模型具体包括:三个编码器、三个注意力模型和一个译码器;
其中,每个所述编码器包括若干个LSTM(Long Short-Term Memory)循环神经网络,用于将输入的句子编码为向量序列;每个所述注意力模型用于基于所述编码器的输出结果和所述译码器的输出结果进行基于注意力机制的计算;所述译码器包括若干个LSTM循环神经网络,所述译码器的输入为上一基于所述三个注意力模型的计算结果进行词语预测的预测结果。
具体地,本发明实施例提供的术语替换模型为基于三注意力机制的三序列到单序列模型,包括三个用于将输入的句子编码为向量序列的编码器,三个用于进行注意力机制计算的注意力模型,以及一个与编码器结构相同的译码器。
其中,每个编码器均包含若干个从左到右依次排列的LSTM循环神经网络。将一个句子输入到编码器中,可以得到该句子对应的向量序列。三个编码器分别用于将输入的原文句子、译文句子以及术语替换后的原文句子编码为向量序列。
其中,注意力机制的计算可以分为两步:一是在所有输入信息上计算注意力分布,二是根据注意力分布来计算输入信息的加权平均。
所述注意力模型的输入为编码器的输出结果和译码器的输出结果,所述注意力模型的输出为根据编码器的输出结果和译码器的输出结果进行注意力机制的计算。
然后,基于所述三个注意力模型的计算结果进行词语预测,获得新的预测结果。将该新的预测结果输入到译码器中,从而开始下一个预测结果的生成过程。
基于上述实施例的内容,将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子,具体包括:
将所述原文句子输入至所述术语替换模型的第一编码器中,生成第一向量序列,将所述译文句子输入至所述术语替换模型的第二编码器中,生成第二向量序列,将所述术语替换后的原文句子输入至所述术语替换模型的第三编码器中,生成第三向量序列;
将上一预测结果输入至所述术语替换模型的译码器中,获得译码向量;
将所述第一向量序列和所述译码向量输入至所述术语替换模型的第一注意力模型进行基于注意力机制的计算,生成第一特征向量,将所述第二向量序列和所述译码向量输入至所述术语替换模型的第二注意力模型进行基于注意力机制的计算,生成第二特征向量,将所述第三向量序列和所述译码向量输入至所述术语替换模型的第三注意力模型进行基于注意力机制的计算,生成第三特征向量;
将所述第一特征向量、第二特征向量和第三特征向量进行组合,并根据组合后的特征向量进行术语替换后的译文句子的词语预测,获得新的预测结果;
输出所有预测结果。
可以理解的是,所述术语替换模型逐词对术语替换后的译文句子进行预测,每一次的预测结果都会输入到所述译码器的下一个LSTM循环神经网络中进行译码,获得新的译码向量,从而开始下一个词语的预测,即将该新的译码向量与第一向量序列同时输入至第一注意力模型中,获得第一特征向量,将该新的译码向量与第二向量序列同时输入至第二注意力模型中,获得第二特征向量,将该新的译码向量与第三向量序列同时输入至第三注意力模型中,获得第三特征,将所述第一特征向量、第二特征向量和第三特征向量进行组合,并根据组合后的特征向量和该译码向量进行词语预测,获得新的预测结果。
如图2所示,为本发明实施例提供的术语替换模型的结构示意图。如图3所示,为本发明实施例提供的术语替换模型中的编码器的结构示意图。下面通过一个具体的例子进一步说明将原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子的具体流程。
步骤200、原文句子“技能的培养非常重要”被基于从左到右的LSTM循环神经网络所构成的编码器编码产生成一个向量序列{X1,X2,…,X7},编码过程举例如下:
‘技能’的数值词向量=词向量模型(‘技能’);
r2=从左到右的LSTM(‘技能’的数值词向量,r1);
X2向量=FC(r2);
步骤201、译文句子“The skill building is important”被基于从左到右的LSTM循环神经网络所构成的编码器编码产生成一个向量序列{Y1,Y2,…,Y7},编码过程举例如下:
‘技能’的数值词向量=词向量模型(‘skill’);
s2=从左到右的LSTM(‘技能’的数值词向量,s1);
Y2向量=FC(s2);
步骤202、术语替换后的原文句子“技能的培训非常重要”被基于从左到右的LSTM循环神经网络所构成的编码器编码产生成一个向量序列{Z1,Z2,…,Z7},编码过程举例如下:
‘技能’的数值词向量=词向量模型(‘技能’);
t2=从左到右的LSTM(‘技能’的数值词向量,t1);
Z2向量=FC(t2);
步骤203、将上一预测结果输入至所述术语替换模型的译码器中,获得译码向量K:
‘The’的数值词向量=词向量模型(‘The’);
K3向量=解码器(‘The’的数值词向量)。
步骤204、将所述第一向量序列{X1,X2,…,X7}和所述译码向量K3输入至所述术语替换模型的第一注意力模型进行基于注意力机制的计算,生成第一特征向量H:
H3向量=Attention机制(K3向量,编码器的向量序列{X1,X2,…,X7})
Attention机制:K3向量分别与每个X1,X2,…,X7向量相乘产生c1,c2,…c7标量得分;再利用softmax基于这些得分产生相应的权重w1,w2,…w7;最后H3=w1*X1+w2*X2+…+w7*X7。
步骤205、将所述第二向量序列{Y1,Y2,…,Y7}和所述译码向量K3输入至所述术语替换模型的第二注意力模型进行基于注意力机制的计算,生成第二特征向量I:
I3向量=Attention机制(K3向量,编码器的向量序列{Y1,Y2,…,Y7});
Attention机制:K3向量分别与每个Y1,Y2,…,Y7向量相乘产生d1,d2,…d7标量得分;再利用softmax基于这些得分产生相应的权重w1,w2,…w7;最后I3=w1*Y1+w2*Y2+…+w7*Y7。
步骤206、将所述第三向量序列{Z1,Z2,…,Z7}和所述译码向量K3输入至所述术语替换模型的第三注意力模型进行基于注意力机制的计算,生成第三特征向量J:
J3向量=Attention机制(K3向量,编码器的向量序列{Z1,Z2,…,Z7})
Attention机制:K3向量分别与每个Z1,Z2,…,Z7向量相乘产生e1,e2,…e7标量得分;再利用softmax基于这些得分产生相应的权重w1,w2,…w7;最后J3=w1*Z1+w2*Z2+…+w7*Z7。
步骤207、将所述第一特征向量、第二特征向量和第三特征向量进行组合,并根据组合后的特征向量进行术语替换后的译文句子的词语预测,获得新的预测结果;
‘The’的数值词向量=词向量模型(‘The’);
s3=从左到右的LSTM(‘技能’的数值词向量,s2);
K3向量=FC(s3);
合并Attention:G3=ADD(H3,I3,J3);
‘skill’=预测(G3,K3)
综上,术语替换后的译文句子“The skill training is important”被基于LSTM的循环神经网络的译码器(从左到右)和三个soft attention机制所生成出来。
本发明实施例通过利用基于三注意力机制的术语替换模型来提取原文句子、译文句子以及术语替换后的原文句子中的语义特征,充分考虑了句子的内在结构,自动地生成术语替换后的译文句子,可有效地避免译文句子结构的过多变化。
基于上述实施例的内容,将所述第一向量序列和所述译码向量输入至所述术语替换模型的第一注意力模型进行基于注意力机制的计算,生成第一特征向量,具体包括:
将所述译码向量分别与所述第一向量序列中的各个向量相乘,获得多个标量得分;
利用softmax函数、基于所述多个标量得分生成所述第一向量序列中的各个向量对应的权重;
将所述第一向量序列中的各个向量与各个向量对应的权重进行相乘后相加,获得第一特征向量。
具体地,本发明实施例中基于注意力机制的计算具体为第一特征向量G3=Attention机制(译码向量K3,第一编码器输出的第一向量序列{X1,X2,…,X7})
其中,Attention机制具体为:译码向量K3,分别与X1,X2,…,X7向量相乘产生c1,c2,…c7标量得分;再利用softmax函数基于这些标量得分产生相应的权重w1,w2,…w7;最后,G3=w1*X1+w2*X2+…+w7*X7。
同理可以得到第二特征向量和第三特征向量。
基于上述实施例的内容,根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得所述术语替换模型,具体包括:
将所述原文句子样本输入至基于LSTM循环神经网络的第一编码器中,生成第一向量序列样本,将所述译文句子样本输入至基于LSTM循环神经网络的第二编码器中,生成第二向量序列样本,将所述术语替换后的原文句子样本输入至基于LSTM循环神经网络的第三编码器中,生成第三向量序列样本;
将上一预测结果输入至基于LSTM循环神经网络的译码器中,获得译码向量样本;
将所述第一向量序列样本和所述译码向量样本输入至第一注意力模型进行基于注意力机制的计算,生成第一特征向量样本,将所述第二向量序列样本和所述译码向量样本输入至第二注意力模型进行基于注意力机制的计算,生成第二特征向量样本,将所述第三向量序列样本和所述译码向量样本输入至第三注意力模型进行基于注意力机制的计算,生成第三特征向量样本;
将所述第一特征向量样本、第二特征向量样本和第三特征向量样本进行组合,并根据组合后的特征向量样本进行词语预测,获得新的预测结果;
基于所有预测结果组成的句子与所述术语替换后的译文句子样本计算损失函数的值,并基于所述损失函数的值进行反向传播,直至满足训练结束条件;
保存训练结束时所述第一编码器、第二编码器、第三编码器、译码器、第一注意力模型、第二注意力模型、第三注意力模型的参数,获得训练完成的术语替换模型。
可以理解的是,术语替换模型的训练过程需要以由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本作为训练样本,以所述输入样本对应的术语替换后的译文句子样本作为期望输出结果。
基于上述实施例的内容,在将所述原文句子样本输入至基于LSTM循环神经网络的第一编码器中之前,还包括:构建术语替换的平行语料库;
其中,所述构建术语替换的平行语料库,具体包括:
构建双语术语表;
其中,所述双语术语表包括实体名称、动词、形容词和短语词组。
若在原文句子Zsrc中的某个词语或短语x出现在所述双语术语表中,则进行原文句子的术语替换生成术语替换后的原文句子Zsrc-sub;
将所述术语替换后的原文句子Zsrc-sub输入至预先训练好的机器翻译模型中,输出所述术语替换后的原文句子对应的译文句子Etgt-sub;
若所述术语替换后的原文句子对应的译文句子Etgt-sub满足如下两个条件:所述词语或短语x所对应的译文术语出现在所述术语替换后的原文句子对应的译文句子Etgt-sub中,所述原文句子Zsrc对应的译文句子Etgt与所述术语替换后的原文句子对应的译文句子Etgt-sub之间的编辑距离小于预设阈值T,其中,所述编辑距离具体为Levenshtein编辑距离,则标记所述术语替换后的原文句子对应的译文句子;
将所述原文句子、原文句子对应的译文句子、术语替换后的原文句子以及所述术语替换后的原文句子对应的译文句子作为一条平行语料(Zsrc,Etg,Zsrc-sub)-->(Etgt-sub),加入至所述术语替换的平行语料库中。
基于上述实施例的内容,所述构建术语替换的平行语料库之前,还包括:
获取双语平行语料,所述双语平行语料包括:待翻译的原文语料和译员后编辑过的译文语料;
对所述双语平行语料分别进行分词处理,并对分词处理后的双语平行语料的数据序列进行重新洗牌,获得经过预处理的语料库;
分别获取最新的维基百科构建多个单语语料集,利用Skip-Gram算法进行词向量的模型训练,获得经过预训练的双语词向量;
利用所述经过预处理的语料库和所述经过预训练的双语词向量对所述机器翻译模型进行训练,获得训练完成的机器翻译模型;
其中,所述机器翻译模型具体包括:一个编码器、一个注意力模型和一个译码器;所述编码器包括若干个LSTM循环神经网络,用于将输入的句子编码为向量序列;所述注意力模型用于基于所述编码器的输出结果和所述译码器的输出结果进行基于注意力机制的计算;所述译码器包括若干个LSTM循环神经网络,所述译码器的输入包括上一基于所述注意力模型的计算结果进行词语预测的预测结果。
具体地,图4为本发明实施例提供的机器翻译模型的结构示意图。
所述双语平行语料包括:待翻译的原文语料句子Source(S),和译员后编辑过的译文语料Post-edit(P),译员后编辑过的译文语料是指通过人工翻译所产生的高质量的英文译文句子所构成的语料。
然后,对所述双语平行语料分别进行分词处理,并对分词处理后的双语平行语料的数据序列进行重新洗牌,获得经过预处理的语料库C;
分别获取最新的维基百科构建多个单语语料集,利用Skip-Gram算法进行词向量的模型训练,获得经过预训练的双语词向量;
最后,利用所述经过预处理的语料库和所述经过预训练的双语词向量对如图4所示的机器翻译模型进行训练,获得训练完成的机器翻译模型。
所述机器翻译模型具体包括:一个编码器、一个注意力模型和一个译码器。在一个具体的例子中:
原文句子“技能的培养非常重要”被基于从左到右的LSTM的循环神经网络的编码器编码产生成一个向量序列{L1,L2,…,L7};
‘技能’的数值词向量=词向量模型(‘技能’);
t2=解码器(‘技能’的数值词向量,t1);
L2向量=FC(t2)
译文句子“The skill buiding is important”被基于从左到右的LSTM循环神经网络所构成的编码和soft attention机制所生成出来,:
‘The’的数值词向量=词向量模型(‘The’);
s3=译码器(‘技能’的数值词向量,s2);
K3向量=FC(s3);
G3=Attention机制(K3向量,编码器的向量序列{L1,L2,…,L7});
其中,Attention机制:K3向量分别与每个L1,L2,…,L7向量相乘产生c1,c2,…c7标量得分再利用softmax基于这些得分产生相应的权重w1,w2,…w7;最后G3=w1*L1+w2*L2+…+w7*L7;
‘skill’=预测(G3,K3)。
将预测的结果与译员后编辑过的译文语料进行比对,计算损失函数,并利用反向传播算法进行训练,最后训练结束后,获得机器翻译模型。
如图5所示,为本发明实施例提供的术语替换装置的结构示意图,包括:获取模块510和术语替换模块520,其中,
获取模块510,用于获取原文句子、译文句子以及术语替换后的原文句子;
具体地,为了准确地、自动地实现术语替换,获取模块510首先获取原文句子、所述原文句子对应的译文句子,以及术语替换后的原文句子。
术语替换模块520,用于将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子;
具体地、术语替换模块520将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子;
本发明实施例通过术语替换模型来自动地生成术语替换后的译文句子。
其中,所述术语替换模型是根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得的。
本发明实施例提供的术语替换装置通过利用预先训练好的术语替换模型来提取原文句子、译文句子以及术语替换后的原文句子中的语义特征,自动地生成术语替换后的译文句子,通过输入足够多的信息来确保译文中的某个术语被替换掉时,译文的语法正确同时减少译文句子结构的过多变化。
图6为本发明实施例提供的电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储在存储器630上并可在处理器610上运行的计算机程序,以执行上述各方法实施例所提供的术语替换方法,例如包括:获取原文句子、译文句子以及术语替换后的原文句子;将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子;其中,所述术语替换模型是根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得的。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例提供的术语替换方法,例如包括:获取原文句子、译文句子以及术语替换后的原文句子;将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子;其中,所述术语替换模型是根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种术语替换方法,其特征在于,包括:
获取原文句子、译文句子以及术语替换后的原文句子;
将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子;
其中,所述术语替换模型是根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得的;
根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得所述术语替换模型,具体包括:
将所述原文句子样本输入至基于LSTM循环神经网络的第一编码器中,生成第一向量序列样本,将所述译文句子样本输入至基于LSTM循环神经网络的第二编码器中,生成第二向量序列样本,将所述术语替换后的原文句子样本输入至基于LSTM循环神经网络的第三编码器中,生成第三向量序列样本;
将上一预测结果输入至基于LSTM循环神经网络的译码器中,获得译码向量样本;
将所述第一向量序列样本和所述译码向量样本输入至第一注意力模型进行基于注意力机制的计算,生成第一特征向量样本,将所述第二向量序列样本和所述译码向量样本输入至第二注意力模型进行基于注意力机制的计算,生成第二特征向量样本,将所述第三向量序列样本和所述译码向量样本输入至第三注意力模型进行基于注意力机制的计算,生成第三特征向量样本;
将所述第一特征向量样本、第二特征向量样本和第三特征向量样本进行组合,并根据组合后的特征向量样本进行词语预测,获得新的预测结果;
基于所有预测结果组成的句子与所述术语替换后的译文句子样本计算损失函数的值,并基于所述损失函数的值进行反向传播,直至满足训练结束条件;
保存训练结束时所述第一编码器、第二编码器、第三编码器、译码器、第一注意力模型、第二注意力模型、第三注意力模型的参数,获得训练完成的术语替换模型。
2.根据权利要求1所述的术语替换方法,其特征在于,所述术语替换模型具体包括:三个编码器、三个注意力模型和一个译码器;
其中,每个所述编码器包括若干个LSTM循环神经网络,用于将输入的句子编码为向量序列;每个所述注意力模型用于基于所述编码器的输出结果和所述译码器的输出结果进行基于注意力机制的计算;所述译码器包括若干个LSTM循环神经网络,所述译码器的输入为上一基于所述三个注意力模型的计算结果进行词语预测的预测结果。
3.根据权利要求2所述的术语替换方法,其特征在于,将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子,具体包括:
将所述原文句子输入至所述术语替换模型的第一编码器中,生成第一向量序列,将所述译文句子输入至所述术语替换模型的第二编码器中,生成第二向量序列,将所述术语替换后的原文句子输入至所述术语替换模型的第三编码器中,生成第三向量序列;
将上一预测结果输入至所述术语替换模型的译码器中,获得译码向量;
将所述第一向量序列和所述译码向量输入至所述术语替换模型的第一注意力模型进行基于注意力机制的计算,生成第一特征向量,将所述第二向量序列和所述译码向量输入至所述术语替换模型的第二注意力模型进行基于注意力机制的计算,生成第二特征向量,将所述第三向量序列和所述译码向量输入至所述术语替换模型的第三注意力模型进行基于注意力机制的计算,生成第三特征向量;
将所述第一特征向量、第二特征向量和第三特征向量进行组合,并根据组合后的特征向量和所述译码向量进行词语预测,获得新的预测结果;
输出所有预测结果。
4.根据权利要求3所述的术语替换方法,其特征在于,将所述第一向量序列和所述译码向量输入至所述术语替换模型的第一注意力模型进行基于注意力机制的计算,生成第一特征向量,具体包括:
将所述译码向量分别与所述第一向量序列中的各个向量相乘,获得多个标量得分;
利用softmax函数、基于所述多个标量得分生成所述第一向量序列中的各个向量对应的权重;
将所述第一向量序列中的各个向量与各个向量对应的权重进行相乘后相加,获得第一特征向量。
5.根据权利要求1所述的术语替换方法,其特征在于,在将所述原文句子样本输入至基于LSTM循环神经网络的第一编码器中之前,还包括:构建术语替换的平行语料库;
其中,所述构建术语替换的平行语料库,具体包括:
构建双语术语表;
若在原文句子中的某个词语或短语出现在所述双语术语表中,则进行原文句子的术语替换生成术语替换后的原文句子;
将所述术语替换后的原文句子输入至预先训练好的机器翻译模型中,输出所述术语替换后的原文句子对应的译文句子;
若所述术语替换后的原文句子对应的译文句子满足如下两个条件:所述词语或短语所对应的译文术语出现在所述术语替换后的原文句子对应的译文句子中,所述原文句子对应的译文句子与所述术语替换后的原文句子对应的译文句子之间的编辑距离小于预设阈值,则标记所述术语替换后的原文句子对应的译文句子;
将所述原文句子、原文句子对应的译文句子、术语替换后的原文句子以及所述术语替换后的原文句子对应的译文句子作为一条平行语料,加入至所述术语替换的平行语料库中。
6.根据权利要求5所述的术语替换方法,其特征在于,所述构建术语替换的平行语料库之前,还包括:
获取双语平行语料,所述双语平行语料包括:待翻译的原文语料和译员后编辑过的译文语料;
对所述双语平行语料分别进行分词处理,并对分词处理后的双语平行语料的数据序列进行重新洗牌,获得经过预处理的语料库;
分别获取最新的维基百科构建多个单语语料集,利用Skip-Gram算法进行词向量的模型训练,获得经过预训练的双语词向量;
利用所述经过预处理的语料库和所述经过预训练的双语词向量对所述机器翻译模型进行训练,获得训练完成的机器翻译模型;
其中,所述机器翻译模型具体包括:一个编码器、一个注意力模型和一个译码器;所述编码器包括若干个LSTM循环神经网络,用于将输入的句子编码为向量序列;所述注意力模型用于基于所述编码器的输出结果和所述译码器的输出结果进行基于注意力机制的计算;所述译码器包括若干个LSTM循环神经网络,所述译码器的输入包括上一基于所述注意力模型的计算结果进行词语预测的预测结果。
7.一种术语替换装置,其特征在于,包括:
获取模块,用于获取原文句子、译文句子以及术语替换后的原文句子;
术语替换模块,用于将所述原文句子、译文句子以及术语替换后的原文句子输入至术语替换模型中,获得术语替换后的译文句子;
其中,所述术语替换模型是根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得的;
根据由原文句子样本、所述原文句子样本对应的译文句子样本和术语替换后的原文句子样本所组成的输入样本以及所述输入样本对应的术语替换后的译文句子样本训练获得所述术语替换模型,具体包括:
将所述原文句子样本输入至基于LSTM循环神经网络的第一编码器中,生成第一向量序列样本,将所述译文句子样本输入至基于LSTM循环神经网络的第二编码器中,生成第二向量序列样本,将所述术语替换后的原文句子样本输入至基于LSTM循环神经网络的第三编码器中,生成第三向量序列样本;
将上一预测结果输入至基于LSTM循环神经网络的译码器中,获得译码向量样本;
将所述第一向量序列样本和所述译码向量样本输入至第一注意力模型进行基于注意力机制的计算,生成第一特征向量样本,将所述第二向量序列样本和所述译码向量样本输入至第二注意力模型进行基于注意力机制的计算,生成第二特征向量样本,将所述第三向量序列样本和所述译码向量样本输入至第三注意力模型进行基于注意力机制的计算,生成第三特征向量样本;
将所述第一特征向量样本、第二特征向量样本和第三特征向量样本进行组合,并根据组合后的特征向量样本进行词语预测,获得新的预测结果;
基于所有预测结果组成的句子与所述术语替换后的译文句子样本计算损失函数的值,并基于所述损失函数的值进行反向传播,直至满足训练结束条件;
保存训练结束时所述第一编码器、第二编码器、第三编码器、译码器、第一注意力模型、第二注意力模型、第三注意力模型的参数,获得训练完成的术语替换模型。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述术语替换方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述术语替换方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303517.7A CN111191468B (zh) | 2019-12-17 | 2019-12-17 | 术语替换方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303517.7A CN111191468B (zh) | 2019-12-17 | 2019-12-17 | 术语替换方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191468A CN111191468A (zh) | 2020-05-22 |
CN111191468B true CN111191468B (zh) | 2023-08-25 |
Family
ID=70707401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911303517.7A Active CN111191468B (zh) | 2019-12-17 | 2019-12-17 | 术语替换方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191468B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753556B (zh) * | 2020-06-24 | 2022-01-04 | 掌阅科技股份有限公司 | 双语对照阅读的方法、终端及计算机存储介质 |
CN112766002A (zh) * | 2021-01-14 | 2021-05-07 | 语联网(武汉)信息技术有限公司 | 基于动态规划的文本对齐方法及系统 |
CN113033220A (zh) * | 2021-04-15 | 2021-06-25 | 沈阳雅译网络技术有限公司 | 一种基于莱文斯坦比的文言文-现代文翻译系统构建方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808528A (zh) * | 2016-03-04 | 2016-07-27 | 张广睿 | 一种文档文字的处理方法 |
CN106250375A (zh) * | 2016-08-09 | 2016-12-21 | 北京百度网讯科技有限公司 | 翻译处理方法及装置 |
WO2018198806A1 (ja) * | 2017-04-27 | 2018-11-01 | パナソニックIpマネジメント株式会社 | 翻訳装置 |
CN108804428A (zh) * | 2018-06-12 | 2018-11-13 | 苏州大学 | 一种译文中术语错译的纠正方法、系统及相关装置 |
CN109670180A (zh) * | 2018-12-21 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 向量化译员的翻译个性特征的方法及装置 |
CN110543644A (zh) * | 2019-09-04 | 2019-12-06 | 语联网(武汉)信息技术有限公司 | 包含术语翻译的机器翻译方法、装置与电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10409898B2 (en) * | 2017-11-17 | 2019-09-10 | Adobe Inc. | Generating a targeted summary of textual content tuned to a target audience vocabulary |
-
2019
- 2019-12-17 CN CN201911303517.7A patent/CN111191468B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808528A (zh) * | 2016-03-04 | 2016-07-27 | 张广睿 | 一种文档文字的处理方法 |
CN106250375A (zh) * | 2016-08-09 | 2016-12-21 | 北京百度网讯科技有限公司 | 翻译处理方法及装置 |
WO2018198806A1 (ja) * | 2017-04-27 | 2018-11-01 | パナソニックIpマネジメント株式会社 | 翻訳装置 |
CN108804428A (zh) * | 2018-06-12 | 2018-11-13 | 苏州大学 | 一种译文中术语错译的纠正方法、系统及相关装置 |
CN109670180A (zh) * | 2018-12-21 | 2019-04-23 | 语联网(武汉)信息技术有限公司 | 向量化译员的翻译个性特征的方法及装置 |
CN110543644A (zh) * | 2019-09-04 | 2019-12-06 | 语联网(武汉)信息技术有限公司 | 包含术语翻译的机器翻译方法、装置与电子设备 |
Non-Patent Citations (1)
Title |
---|
浅谈英语翻译软件的开发与应用;陈宁;;电子测试(第07期);276-277 * |
Also Published As
Publication number | Publication date |
---|---|
CN111191468A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102382499B1 (ko) | 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체 | |
CN109446534B (zh) | 机器翻译方法及装置 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
CN111191468B (zh) | 术语替换方法及装置 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN111144140B (zh) | 基于零次学习的中泰双语语料生成方法及装置 | |
CN109670180B (zh) | 向量化译员的翻译个性特征的方法及装置 | |
CN110134971A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN111341293B (zh) | 一种文本语音的前端转换方法、装置、设备和存储介质 | |
CN110555213A (zh) | 文本翻译模型的训练方法、文本翻译方法及装置 | |
CN113705196A (zh) | 基于图神经网络的中文开放信息抽取方法和装置 | |
CN110942774A (zh) | 一种人机交互系统、其对话方法、介质和设备 | |
CN112463989A (zh) | 一种基于知识图谱的信息获取方法及系统 | |
CN111814479A (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN111178097B (zh) | 基于多级翻译模型生成中泰双语语料的方法及装置 | |
CN112364659B (zh) | 一种无监督的语义表示自动识别方法及装置 | |
Zhang et al. | Mind the gap: Machine translation by minimizing the semantic gap in embedding space | |
CN115017924B (zh) | 跨语际语言翻译的神经机器翻译模型构建及其翻译方法 | |
CN111832699A (zh) | 用于神经网络的计算高效富于表达的输出层 | |
CN110399619A (zh) | 面向神经机器翻译的位置编码方法及计算机存储介质 | |
CN113486160B (zh) | 基于跨语言知识的对话方法及系统 | |
CN112287641B (zh) | 一种同义句生成方法、系统、终端及存储介质 | |
CN110866404B (zh) | 基于lstm神经网络的词向量生成方法及装置 | |
CN110852063B (zh) | 基于双向lstm神经网络的词向量生成方法及装置 | |
CN112434143A (zh) | 基于gru单元隐藏状态约束的对话方法、存储介质及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |