CN105630776A - 一种双向词语对齐方法及装置 - Google Patents

一种双向词语对齐方法及装置 Download PDF

Info

Publication number
CN105630776A
CN105630776A CN201510998012.2A CN201510998012A CN105630776A CN 105630776 A CN105630776 A CN 105630776A CN 201510998012 A CN201510998012 A CN 201510998012A CN 105630776 A CN105630776 A CN 105630776A
Authority
CN
China
Prior art keywords
word alignment
model
result
word
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510998012.2A
Other languages
English (en)
Inventor
孙茂松
柳春洋
刘洋
栾焕博
刘奕群
马少平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510998012.2A priority Critical patent/CN105630776A/zh
Publication of CN105630776A publication Critical patent/CN105630776A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

本发明涉及一种双向词语对齐方法及装置,其中,方法包括构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;利用一致性评估函数,融合两个方向的词语对齐模型,构建初始目标函数;利用一致性评估函数,对两个方向的词语对齐模型进行联合训练,形成优化目标函数;利用优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。系统包括词语对齐模型构建模块、目标函数构建模块、联合训练模块、词语对齐分析模块。通过本发明提供方法及装置,由于引入了一致性评估函数,能对两个方向的词语对齐模型进行联合训练,使两个方向的词语对齐模型相互纠错,极大的降低了词语对齐的错误率。

Description

一种双向词语对齐方法及装置
技术领域
本发明涉及机器翻译技术领域,特别是涉及一种双向词语对齐方法及装置。
背景技术
随着互联网的发展和国际交流的日益深入,人们的语言翻译需求日益增长。在这种需求的带动之下,用机器翻译系统来协助人们快速翻译、建档,已成为无法避免的趋势。据Google翻译团队披露,Google翻译每天提供翻译服务达十亿次,相当于全球一年的人工翻译量,处理的文字数量相当于一百万册图书。由于互联网中存在的语言种类多,各语言又具有大量的多义性,并处于时时刻刻的变化之中,因此,如何为用户提供高质量的翻译服务仍然是一个难题。
词语对齐旨在计算平行文本中词语之间的对应关系,它最早是作为机器翻译系统的中间结果提出。词语对齐的质量直接影响机器翻译的质量,因此,词语对齐在机器翻译中起着关键作用。
现有机器翻译系统广泛使用生成式的单向词语对齐模型,其基本假设是每个目标语言词仅仅与一个源语言词产生对应关系,一个源语言词可以和零个或多个目标语言词产生对应关系。然而,这种假设无法很好地对现实中词语对齐的对称性进行建模,更无法统一处理复杂的词语对齐情况,如一对多、多对一、多对多等。目前,解决该问题的主要方法是对两个方向的单向词语对齐模型分别进行训练,训练完成之后使用启发式规则对两个非对称的词语对齐结果进行合并。
虽然利用启发式规则进行合并的方法能够在一定程度降低词语对齐的错误率,然而由于对两个方向的单向词语对齐模型是分别进行训练的,无法解决词语对齐的对称性问题,词语对齐的错误率仍然较高。
为了解决词语对齐的对称性问题,目前机器翻译系统也有使用一致性模型,其假设目标语言和源语言的词均为一对一的对齐,即构建了一个完全对称的模型。虽然一致性模型极大地提高了词语对齐的精度,但是由于一对一的假设过于强化,降低了词语对齐的召回率,并且违背了词语对齐的实际情况,对于本身对应关系不好的语言对效果较差,如在处理一对多、多对一、多对多等复杂的词语对齐情况时,效果较差。
发明内容
(一)要解决的技术问题
本发明提供一种双向词语对齐方法及装置,以解决现有技术中无法很好的对词语对齐的对称性进行建模、词语对齐的错误率高,在处理一对多、多对一、多对多等复杂的词语对齐情况时对齐效果差的问题。
(二)技术方案
为了解决上述技术问题,本发明提出了以下技术方案。
一方面,本发明提供一种双向词语对齐方法,包括:
A、构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;
B、利用一致性评估函数,融合所述第一词语对齐模型和第二词语对齐模型,构建初始目标函数;
C、利用一致性评估函数,对所述第一词语对齐模型和第二词语对齐模型进行联合训练,形成优化目标函数,并输出联合训练得到的模型;
D、利用所述优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。
进一步地,所述步骤B前还包括步骤:
构建数据集以及对所述数据集进行预处理;
所述构建数据集包括收集平行双语句对,并将所述双语句对作为训练语料;
所述对数据集进行预处理包括对数据集中的源语言和目标语言文本中的句子切分成词、转换大小写和过滤无效字符。
具体地,所述步骤B中的一致性评估函数包括用于对所述第一词语对齐模型和第二词语对齐模型的词语对齐的一致性进行衡量的一致性评估函数一;
所述步骤C包括:
C1,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型和第二词语对齐模型分别求解,得到源语言到目标语言的第一词语对齐结果a1、目标语言到源语言的第二词语对齐结果a2
C2,利用一致性评估函数一衡量第一词语对齐结果a1和第二词语对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性得分;
C3,将数据集中所有平行双语句对的词语对齐一致性得分相加,得到目标函数值;
C4,随机调整词语对齐连线,返回步骤C1-C3,重新计算目标函数值;
C5,判断本次调整词语对齐连线后得到的目标函数值是否增长或判断本次调整是否达到预设的调整次数;
若所述目标函数值不再增长或达到预设的调整次数,则输出调整过程中得到的目标函数值最高时对应的第一词语对齐结果a1和第二词语对齐结果a2,并执行步骤C6;
否则返回步骤C4;
C6,利用所述目标函数值最高时对应的第一词语对齐结果a1和第二词语对齐结果a2,重新估计第一词语对齐模型和第二词语对齐模型的模型参数,并返回步骤C1;重复执行步骤C1-C6,当迭代次数达到预设的迭代次数时,输出优化目标函数及优化的模型参数,并输出联合训练得到的模型。
可选地,所述一致性评估函数一为:
Scorewa=2|a1∩a2|-|a1∪a2|;
其中,针对数据集中的句对(s,t),a1为通过第一词语对齐模型生成的第一词语对齐结果,a2为通过第二词语对齐模型生成的第二词语对齐结果,a1∩a2为第一词语对齐结果和第二词语对齐结果交集中连线的数目,a1∪a2为第一词语对齐结果和第二词语对齐结果并集中连线的数目。
优选地,所述步骤A还包括:
构建用于对源语言中的短语进行切分的第一短语切分模型和用于对目标语言中的短语进行切分的第二短语切分模型;
所述步骤B包括:利用一致性评估函数,融合所述第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型,构建初始目标函数;所述一致性评估函数还包括用于对所述第一词语对齐模型、第二词语对齐模型的词语对齐和短语切分的一致性进行衡量的一致性评估函数二;
所述步骤C包括:
C1’,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型分别求解,得到源语言到目标语言的第一词语对齐结果a1、目标语言到源语言的第二词语对齐结果a2、源语言的第一短语切分结果b1、目标语言的第二短语切分结果b2
C2’,利用一致性评估函数一衡量第一词语对齐结果a1和第二词语对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性得分;利用一致性评估函数二衡量词语对齐与短语切分的一致性,得到平行双语句对(s,t)的词语对齐与短语切分一致性得分;
C3’,将数据集中所有平行双语句对的词语对齐一致性得分相加,数据集中所有平行双语句对的词语对齐与短语切分一致性得分相加,组成目标函数值;
C4’,随机调整词语对齐连线,并随机调整短语切分结果,返回步骤C1’至步骤C3’,重新计算目标函数值;
C5’,判断本次调整词语对齐连线和短语切分结果后得到的目标函数值是否增长或判断本次调整是否达到预设的调整次数;
若所述目标函数值不再增长或达到预设的调整次数,则输出调整过程中得到的目标函数值最高时对应的第一词语对齐结果a1、第二词语对齐结果a2、第一短语切分结果b1和第二短语切分结果b2,并执行步骤C6’;
否则返回步骤C4’;
C6’,利用所述目标函数值最高时对应的第一词语对齐结果a1、第二词语对齐结果a2、第一短语切分结果b1和第二短语切分结果b2,重新估计第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型的模型参数,并返回步骤C1’;重复执行步骤C1’至步骤C6’,当迭代次数达到预设的迭代次数时,输出优化目标函数及优化的模型参数,并输出联合训练得到的模型。
可选地,所述一致性评估函数二为:
Scoreps=β(a1,b1,b2)+β(a2,b1,b2);
其中,针对数据集中的句对(s,t),a1为通过第一词语对齐模型生成的第一词语对齐结果,a2为通过第二词语对齐模型生成的第二词语对齐结果,b1为源语言s的短语切分结果,b2为目标语言t的短语切分结果,β为词语对齐结果中满足从同一个源语言短语到同一个目标语言短语的词语对齐连线数目。
另一方面,本发明还提供一种双向词语对齐装置,包括:
词语对齐模型构建模块,用于构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;
目标函数构建模块,用于利用一致性评估函数,融合所述第一词语对齐模型和第二词语对齐模型,构建目标函数;
联合训练模块,用于利用一致性评估函数,对所述第一词语对齐模型和第二词语对齐模型进行联合训练,形成优化目标函数;
词语对齐分析模块,用于利用所述优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。
进一步地,所述装置还包括:
数据集构建模块,用于收集平行双语句对,并将所述双语句对作为训练语料;
数据集预处理模块,用于对所述对数据集中的源语言和目标语言文本中的句子进行预处理,所述预处理包括切分成词、转换大小写和过滤无效字符。
具体地,所述联合训练模块包括:
词语对齐结果计算子模块,用于利用第一词语对齐模型和第二词语对齐模型分别求解,得到源语言到目标语言的第一词语对齐结果a1、目标语言到源语言的第二词语对齐结果a2
一致性评估子模块,用于衡量第一词语对齐结果a1和第二词语对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性得分;
目标函数值求解训练子模块,用于将数据集中所有平行双语句对的词语对齐一致性得分相加,得到目标函数值;并随机调整词语对齐连线,训练目标函数值,得到最高目标函数值;
模型联合训练子模块,用于根据所述目标函数值最高时对应的第一词语对齐结果a1和第二词语对齐结果a2,重新估计第一词语对齐模型和第二词语对齐模型的模型参数,联合训练第一词语对齐模型和第二词语对齐模型。
优选地,所述词语对齐模型构建模块还用于构建用于对源语言中的短语进行切分的第一短语切分模型和用于对目标语言中的短语进行切分的第二短语切分模型;
所述目标函数构建模块用于利用一致性评估函数,融合所述第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型,构建目标函数;
所述联合训练模块用于利用一致性评估函数,对所述第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型进行联合训练,形成优化目标函数。
(三)本发明的有益效果
本发明提供的双向词语对齐方法及装置,由于引入了一致性评估函数,并利用一致性评估函数对第一词语对齐模型和第二词语对齐模型进行联合训练,可以使第一词语对齐模型和第二词语对齐模型之间互相纠错,解决了词语对齐的对称性问题,极大的降低了词语对齐的错误率;且能够处理一对多、多对一、多对多等复杂的词语对齐情况。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明实施例双向词语对齐方法的流程图;
图2示出了图1中一种利用一致性评估函数对两个词语对齐模型进行联合训练的步骤流程图;
图3示出了现有技术和本发明实施例词语对齐结果的对比示意图。
具体实施方式
下面将结合附图对本发明的实施例进行详细描述。
图1为本发明实施例提供的双向词语对齐方法的流程图,如图1所示,该方法包括:
A、构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;
B、利用一致性评估函数,融合第一词语对齐模型和第二词语对齐模型,构建初始目标函数;
C、利用一致性评估函数,对第一词语对齐模型和第二词语对齐模型进行联合训练,形成优化目标函数,并输出联合训练得到的模型;
D、利用优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。
本发明实施例通过引入一致性评估函数,并利用一致性评估函数对第一词语对齐模型和第二词语对齐模型进行联合训练,可以使第一词语对齐模型和第二词语对齐模型之间互相纠错,解决了词语对齐的对称性问题,极大的降低了词语对齐的错误率;且能够处理一对多、多对一、多对多等复杂的词语对齐情况。
上述步骤A中构建词语对齐模型包括收集词语对齐模型,收集的词语对齐模型可为任意的生成式词语对齐模型,包括IBM模型一、IBM模型二、HMM模型等。具体实施时,源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型可选用上述任意生成式词语对齐模型。通过任意的生成式词语对齐模型,可以处理如一对多、多对一、多对多等复杂的词语对齐情况。
进一步地,步骤B前还包括步骤:
构建数据集以及对数据集进行预处理。其中,构建数据集包括收集平行双语句对,并将双语句对作为训练语料。对数据集进行预处理包括对数据集中的源语言和目标语言文本中的句子切分成词、转换大小写和过滤无效字符等。
上述步骤B中将一致性评估函数,融合到第一词语对齐模型和第二词语对齐模型中,从而形成初始目标函数,使得第一词语对齐模型和第二词语对齐模型在后续的迭代训练过程中,不再是分别独立训练,而是通过一致性评估函数来进行联合训练。一致性评估函数的引入,能解决现有技术中词语对齐的对称性问题,降低词语对齐的错误率。不难理解的是,初始目标函数包括一致性评估函数、第一词语对齐模型和第二词语对齐模型,具体实施时,初始目标函数包括第一词语对齐模型在数据集上的似然函数、第二词语对齐模型在数据集上的似然函数和一致性评估函数。
具体地,步骤B中的一致性评估函数包括一致性评估函数一,用于对第一词语对齐模型和第二词语对齐模型的词语对齐的一致性进行衡量。一致性评估函数一可以为Scorewa=|a1∩a2|,其中,针对数据集中的句对(s,t),a1为通过第一词语对齐模型生成的第一词语对齐结果,a2为通过第二词语对齐模型生成的第二词语对齐结果,a1∩a2为第一词语对齐结果和第二词语对齐结果交集中连线的数目。当第一词语对齐结果与第二词语对齐结果越接近,词语对齐一致性得分越高。
一致性评估函数一还可以是其它可以用来衡量第一词语对齐模型和第二词语对齐模型的词语对齐的一致性的函数,作为本发明实施例的优选方式,一致性评估函数一定义如下:
Scorewa=2|a1∩a2|-|a1∪a2|;其中,针对数据集中的句对(s,t),a1为通过第一词语对齐模型生成的第一词语对齐结果,a2为通过第二词语对齐模型生成的第二词语对齐结果,a1∩a2为第一词语对齐结果和第二词语对齐结果交集中连线的数目,a1∪a2为第一词语对齐结果和第二词语对齐结果并集中连线的数目。当第一词语对齐结果与第二词语对齐结果越接近,词语对齐一致性得分越高。
当一致性评估函数包括用于对第一词语对齐模型和第二词语对齐模型的词语对齐的一致性进行衡量的一致性评估函数一时,具体地,步骤C包括如图2所示的下述步骤流程:
C1,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型和第二词语对齐模型分别求解,得到源语言到目标语言的第一词语对齐结果a1、目标语言到源语言的第二词语对齐结果a2
C2,利用一致性评估函数一衡量第一词语对齐结果a1和第二词语对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性得分;
C3,将数据集中所有平行双语句对的词语对齐一致性得分相加,得到目标函数值,该目标函数值即为第一词语对齐模型和第二词语对齐模型的词语对齐一致性得分;
C4,随机调整词语对齐连线,返回步骤C1-C3,重新计算目标函数值;
C5,判断本次调整词语对齐连线后得到的目标函数值是否增长或判断本次调整是否达到预设的调整次数;
若目标函数值不再增长或达到预设的调整次数,则输出调整过程中得到的目标函数值最高时对应的第一词语对齐结果a1和第二词语对齐结果a2,并执行步骤C6;
否则返回步骤C4;
C6,利用目标函数值最高时对应的第一词语对齐结果a1和第二词语对齐结果a2,重新估计第一词语对齐模型和第二词语对齐模型的模型参数,并返回步骤C1;重复执行步骤C1-C6,当迭代次数达到预设的迭代次数时,输出优化目标函数及优化的模型参数,并输出联合训练得到的模型。
需要说明的是,步骤B初始目标函数中各模型的模型参数为初始化参数,本发明实施例可以将模型参数初始化为均匀分布,当然,也可以使用其他启发式方法进行参数初始化。模型参数包括源语言词到目标语言词的翻译概率、目标语言词到源语言词的翻译概率、第一词语对齐模型的调序模型参数、第二词语对齐模型的调序模型参数等。
步骤C6中利用词语对齐结果重新估计模型参数采用现有EM算法来实现。例如,针对上述翻译概率p(t|s),当得到词语对齐结果后,翻译概率p(t|s)就可以根据词语对齐连线来计算,具体计算方法为:p(t|s)=count(s,t)/count(s),其中,count(s,t)为s对齐到t的次数,count(s)为s总的出现次数,p(t|s)为s翻译到t的翻译概率。类似的,其他模型参数也可以根据词语对齐结果来重新估计。
步骤C6中输出的优化目标函数包括一致性评估函数一、第一词语对齐模型的似然函数、第二词语对齐的似然函数;输出的模型参数包括优化的第一词语对齐模型参数和优化的第二词语对齐模型参数。需要说明的是,步骤C中无论是初始目标函数或不断优化的目标函数,当目标函数中各模型的参数固定时,无论如何随机调整词语对齐连线,其计算的目标函数值都会有一个上限。通过上述步骤C6不断的重新估计各模型的模型参数,可以使目标函数值的上限不断提高,进而使计算的最高目标函数值也会相对上一轮迭代过程中的最高目标函数值增大,如此反复迭代,必然会提高词语对齐的一致性。
通过上述一致性评估函数一对第一词语对齐模型和第二词语对齐模型进行联合反复训练,可以使第一词语对齐模型和第二词语对齐模型实现互相纠错,极大的降低了词语对齐的错误率,且解决了现有技术中生成式词语对齐模型在源语言到目标语言、目标语言到源语言两个方向上的对称性问题。
优化目标函数形成后,便可利用该优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,为了得到最优的词语对齐结果,与步骤C相类似的,步骤D中在进行词语对齐的过程中,通过不断调整词语对齐连线,来实现对齐结果的优化,具体包括以下步骤:
D1,针对目标平行双语句对(s’,t’),使用步骤C中得到的优化的第一词语对齐模型和优化的第二词语对齐模型分别进行求解,分别得到目标平行双语句对(s’,t’)的词语对齐结果通过一致性评估函数一计算词语对齐一致性得分;
D2,随机调整词语对齐连线,返回步骤D1中重新计算词语对齐一致性得分;
D3、判断本次调整词语对齐连线后得到的词语对齐一致性得分是否增长或判断本次调整是否达到预设的调整次数;
若词语对齐一致性得分不再增长或达到预设的调整次数,则输出调整过程中得到的词语对齐一致性得分最高时对应的词语对齐结果并执行步骤D4;
否则返回步骤D2;
D4,对于词语对齐一致性得分最高时对应的词语对齐结果采用启发式规则合并得到双向词语对齐结果a。
由于在实际词语对齐过程中,往往会出现源语言中若干个词对应到目标语言中若干个词的情况,例如,给定一个句子和英文翻译:
中国元首将参加2002亚太泾河组织非正式峰会。
China’sheadofstatewillattendtheunofficial2002APECsummit.
上述两个句子中,中文词“中国元首”与英文词“China’sheadofstate”对应。因此,优选地,本发明实施例步骤A中在构建模型时,还包括:构建用于对源语言中的短语进行切分的第一短语切分模型和用于对目标语言中的短语进行切分的第二短语切分模型。通过对源语言和目标语言进行短语切分,能较好的处理短距离依赖以及常用短语搭配等问题。
此时,步骤B中的一致性评估函数还包括用于对第一词语对齐模型、第二词语对齐模型的词语对齐与短语切分的一致性进行衡量的一致性评估函数二。通过引入一致性评估函数二,对两个词语对齐模型的词语对齐与短语切分的一致性进行评估,不仅能提高两个词语对齐模型短语切分的对称性,且能提高短语切分的合理性。
引入两个短语切分模型后,步骤B具体包括:利用一致性评估函数,融合第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型,构建初始目标函数。不难理解的是,此时一致性评估函数包括一致性评估函数一和一致性评估函数二。
当引入两个短语切分模型,一致性评估函数包括用于对第一词语对齐模型和第二词语对齐模型的词语对齐的一致性进行衡量的一致性评估函数一,以及用于对两个词语对齐模型的词语对齐与短语切分的一致性进行评估的一致性评估函数二时,步骤C具体包括:
C1’,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型分别求解,得到源语言到目标语言的第一词语对齐结果a1、目标语言到源语言的第二词语对齐结果a2、源语言的第一短语切分结果b1、目标语言的第二短语切分结果b2
C2’,利用一致性评估函数一衡量第一词语对齐结果a1和第二词语对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性得分;利用一致性评估函数二衡量词语对齐与短语切分的一致性,得到平行双语句对(s,t)的词语对齐与短语切分一致性得分;
C3’,将数据集中所有平行双语句对的词语对齐一致性得分相加,数据集中所有平行双语句对的词语对齐与短语切分一致性得分相加,组成目标函数值;
C4’,随机调整词语对齐连线,并随机调整短语切分结果,返回步骤C1’至步骤C3’,重新计算目标函数值;
C5’,判断本次调整词语对齐连线和短语切分结果后得到的目标函数值是否增长或判断本次调整是否达到预设的调整次数;
若目标函数值不再增长或达到预设的调整次数,则输出调整过程中得到的目标函数值最高时对应的第一词语对齐结果a1、第二词语对齐结果a2、第一短语切分结果b1和第二短语切分结果b2,并执行步骤C6’;
否则返回步骤C4’;
C6’,利用目标函数值最高时对应的第一词语对齐结果a1、第二词语对齐结果a2、第一短语切分结果b1和第二短语切分结果b2,重新估计第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型的模型参数,并返回步骤C1’;重复执行步骤C1’至步骤C6’,当迭代次数达到预设的迭代次数时,输出优化目标函数及优化的模型参数,并输出联合训练得到的模型。
需要说明的是,模型参数除了包括源语言词到目标语言词的翻译概率、目标语言词到源语言词的翻译概率、第一词语对齐模型的调序模型参数、第二词语对齐模型的调序模型参数外,还包括源语言短语切分的模型参数和目标语言短语切分的模型参数。
步骤C6’中输出的优化目标函数包括一致性评估函数一、一致性评估函数二、第一词语对齐模型的似然函数、第二词语对齐模型的似然函数、第一短语切分模型的似然函数和第二短语切分模型的似然函数;输出的模型参数包括优化的第一词语对齐模型参数、优化的第二词语对齐模型参数、优化的第一短语切分模型参数和第二短语切分模型参数。
可选地,一致性评估函数二为:
Scoreps=β(a1,b1,b2)+β(a2,b1,b2);
其中,针对数据集中的句对(s,t),a1为通过第一词语对齐模型生成的第一词语对齐结果,a2为通过第二词语对齐模型生成的第二词语对齐结果,b1为源语言s的短语切分结果,b2为目标语言t的短语切分结果,β为词语对齐结果中满足从同一个源语言短语到同一个目标语言短语的词语对齐连线数目。Scoreps的值越大,词语对齐与短语切分一致性得分越高。
一致性评估函数二还可以根据需求定义为其他形式,如Scoreps=β(a1,b1,b2)∩β(a2,b1,b2),此时,β(a1,b1,b2)与β(a2,b1,b2)越接近,词语对齐与短语切分一致性得分越高。
通过上述一致性评估函数一和一致性评估函数二对第一词语对齐模型和第二词语对齐模型进行联合反复训练,可以使第一词语对齐模型和第二词语对齐模型不仅在对齐结果上实现互相纠错,还能在词语对齐与短语切分结果上实现互相纠错,大大提高了词语对齐准确率率,且提高了词语对齐的合理性,如图3所示为现有技术和本发明实施例词语对齐结果的对比示意图,图中,黑色粗边框是词语对齐标准结果,阴影细边框方格是通过词语对齐方法得出的对齐结果,阴影粗边框方格表示词语对齐标准结果与通过词语对齐方法得出的对齐结果相一致,具体的,图(a)为通过现有技术的单向词语对齐模型的词语对齐方法得出的对齐结果,图(b)为现有技术的一致性词语对齐模型的词语对齐方法得出的对齐结果,图(c)为通过本发明实施例得出的对齐结果,从图中可以明显看出,通过本发明实施例,由于对第一词语对齐模型和第二词语对齐模型进行反复联合训练,大大提高了词语对齐的准确度。
引入两个短语切分模型后,步骤D具体包括以下步骤:
D1’,针对目标平行双语句对(s’,t’),使用步骤C’中得到的优化的第一词语对齐模型、优化的第二词语对齐模型、优化的第一短语切分模型、优化的第二短语切分模型分别进行求解,分别得到目标平行双语句对(s’,t’)的词语对齐结果和短语切分结果通过一致性评估函数一、一致性评估函数二计算得到词语对齐一致性得分、词语对齐与短语切分一致性得分;
D2’,随机调整词语对齐连线,随机调整短语切分结果,返回步骤D1’中重新计算词语对齐一致性得分、词语对齐与短语切分一致性得分;
D3’、判断本次调整后得到的词语对齐一致性得分、词语对齐与短语切分一致性得分是否增长或判断本次调整是否达到预设的调整次数;
若词语对齐一致性得分、词语对齐与短语切分一致性得分不再增长或达到预设的调整次数,则输出调整过程中得到的词语对齐一致性得分、词语对齐与短语切分一致性得分最高时对应的词语对齐结果 和短语切分结果并执行步骤D4’;
否则返回步骤D2’;
D4’,对于词语对齐一致性得分最高时对应的词语对齐结果 采用启发式规则合并得到双向词语对齐结果a。
基于同样的发明构思,本发明实施例还提供双向词语对齐装置,该装置包括:
词语对齐模型构建模块,用于构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;
目标函数构建模块,用于利用一致性评估函数,融合第一词语对齐模型和第二词语对齐模型,构建目标函数;
联合训练模块,用于利用一致性评估函数,对第一词语对齐模型和第二词语对齐模型进行联合训练,形成优化目标函数;
词语对齐分析模块,用于利用优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。
进一步地,上述装置还包括:
数据集构建模块,用于收集平行双语句对,并将双语句对作为训练语料;
数据集预处理模块,用于对对数据集中的源语言和目标语言文本中的句子进行预处理,预处理包括切分成词、转换大小写和过滤无效字符。
具体地,联合训练模块包括:
词语对齐结果计算子模块,用于利用第一词语对齐模型和第二词语对齐模型分别求解,得到源语言到目标语言的第一词语对齐结果a1、目标语言到源语言的第二词语对齐结果a2
一致性评估子模块,用于衡量第一词语对齐结果a1和第二词语对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性得分;
目标函数值求解训练子模块,用于将数据集中所有平行双语句对的词语对齐一致性得分相加,得到目标函数值;并随机调整词语对齐连线,训练目标函数值,得到最高目标函数值;
模型联合训练子模块,用于根据目标函数值最高时对应的第一词语对齐结果a1和第二词语对齐结果a2,重新估计第一词语对齐模型和第二词语对齐模型的模型参数,联合训练第一词语对齐模型和第二词语对齐模型。
为了较好的处理短距离依赖及常用短语搭配问题,优选地,词语对齐模型构建模块还用于构建用于对源语言中的短语进行切分的第一短语切分模型和用于对目标语言中的短语进行切分的第二短语切分模型,实现源语言和目标语言的短语切分。
此时,目标函数构建模块用于利用一致性评估函数,融合第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型,构建目标函数。
联合训练模块用于利用一致性评估函数,对第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型进行联合训练,形成优化目标函数。与此同时,联合训练模块还包括:
短语切分结果计算子模块,用于利用第一短语切分模型和第二短语切分模型分别求解,得到源语言的第一短语切分结果b1、目标语言的第二短语切分结果b2
联合训练模块中的一致性评估子模块还用于衡量词语对齐与短语切分的一致性,得到平行双语句对(s,t)的词语对齐与短语切分一致性得分。目标函数值求解训练子模块具体用于将数据集中所有平行双语句对的词语对齐一致性得分相加,数据集中所有平行双语句对的词语对齐与短语切分一致性得分相加,得到目标函数值;并随机调整词语对齐连线,训练目标函数值,得到最高目标函数值。模型联合训练子模块具体用于根据目标函数值最高时对应的第一词语对齐结果a1、第二词语对齐结果a2、第一短语切分结果b1和第二短语切分结果b2,重新估计第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型的模型参数,联合训练第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种双向词语对齐方法,其特征在于,包括:
A、构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;
B、利用一致性评估函数,融合所述第一词语对齐模型和第二词语对齐模型,构建初始目标函数;
C、利用一致性评估函数,对所述第一词语对齐模型和第二词语对齐模型进行联合训练,形成优化目标函数,并输出联合训练得到的模型;
D、利用所述优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。
2.根据权利要求1所述的双向词语对齐方法,其特征在于,所述步骤B前还包括步骤:
构建数据集以及对所述数据集进行预处理;
所述构建数据集包括收集平行双语句对,并将所述双语句对作为训练语料;
所述对数据集进行预处理包括对数据集中的源语言和目标语言文本中的句子切分成词、转换大小写和过滤无效字符。
3.根据权利要求2所述的双向词语对齐方法,其特征在于,所述步骤B中的一致性评估函数包括用于对所述第一词语对齐模型和第二词语对齐模型的词语对齐的一致性进行衡量的一致性评估函数一;
所述步骤C包括:
C1,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型和第二词语对齐模型分别求解,得到源语言到目标语言的第一词语对齐结果a1、目标语言到源语言的第二词语对齐结果a2
C2,利用一致性评估函数一衡量第一词语对齐结果a1和第二词语对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性得分;
C3,将数据集中所有平行双语句对的词语对齐一致性得分相加,得到目标函数值;
C4,随机调整词语对齐连线,返回步骤C1-C3,重新计算目标函数值;
C5,判断本次调整词语对齐连线后得到的目标函数值是否增长或判断本次调整是否达到预设的调整次数;
若所述目标函数值不再增长或达到预设的调整次数,则输出调整过程中得到的目标函数值最高时对应的第一词语对齐结果a1和第二词语对齐结果a2,并执行步骤C6;
否则返回步骤C4;
C6,利用所述目标函数值最高时对应的第一词语对齐结果a1和第二词语对齐结果a2,重新估计第一词语对齐模型和第二词语对齐模型的模型参数,并返回步骤C1;重复执行步骤C1-C6,当迭代次数达到预设的迭代次数时,输出优化目标函数及优化的模型参数,并输出联合训练得到的模型。
4.根据权利要求3所述的双向词语对齐方法,其特征在于,所述一致性评估函数一为:
Scorewa=2|a1∩a2|-|a1∪a2|;
其中,针对数据集中的句对(s,t),a1为通过第一词语对齐模型生成的第一词语对齐结果,a2为通过第二词语对齐模型生成的第二词语对齐结果,a1∩a2为第一词语对齐结果和第二词语对齐结果交集中连线的数目,a1∪a2为第一词语对齐结果和第二词语对齐结果并集中连线的数目。
5.根据权利要求3所述的双向词语对齐方法,其特征在于,所述步骤A还包括:
构建用于对源语言中的短语进行切分的第一短语切分模型和用于对目标语言中的短语进行切分的第二短语切分模型;
所述步骤B包括:利用一致性评估函数,融合所述第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型,构建初始目标函数;所述一致性评估函数还包括用于对所述第一词语对齐模型、第二词语对齐模型的词语对齐和短语切分的一致性进行衡量的一致性评估函数二;
所述步骤C包括:
C1’,针对数据集中的平行双语句对(s,t),利用第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型分别求解,得到源语言到目标语言的第一词语对齐结果a1、目标语言到源语言的第二词语对齐结果a2、源语言的第一短语切分结果b1、目标语言的第二短语切分结果b2
C2’,利用一致性评估函数一衡量第一词语对齐结果a1和第二词语对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性得分;利用一致性评估函数二衡量词语对齐与短语切分的一致性,得到平行双语句对(s,t)的词语对齐与短语切分一致性得分;
C3’,将数据集中所有平行双语句对的词语对齐一致性得分相加,数据集中所有平行双语句对的词语对齐与短语切分一致性得分相加,组成目标函数值;
C4’,随机调整词语对齐连线,并随机调整短语切分结果,返回步骤C1’至步骤C3’,重新计算目标函数值;
C5’,判断本次调整词语对齐连线和短语切分结果后得到的目标函数值是否增长或判断本次调整是否达到预设的调整次数;
若所述目标函数值不再增长或达到预设的调整次数,则输出调整过程中得到的目标函数值最高时对应的第一词语对齐结果a1、第二词语对齐结果a2、第一短语切分结果b1和第二短语切分结果b2,并执行步骤C6’;
否则返回步骤C4’;
C6’,利用所述目标函数值最高时对应的第一词语对齐结果a1、第二词语对齐结果a2、第一短语切分结果b1和第二短语切分结果b2,重新估计第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型的模型参数,并返回步骤C1’;重复执行步骤C1’至步骤C6’,当迭代次数达到预设的迭代次数时,输出优化目标函数及优化的模型参数,并输出联合训练得到的模型。
6.根据权利要求5所述的双向词语对齐方法,其特征在于,所述一致性评估函数二为:
Scoreps=β(a1,b1,b2)+β(a2,b1,b2);
其中,针对数据集中的句对(s,t),a1为通过第一词语对齐模型生成的第一词语对齐结果,a2为通过第二词语对齐模型生成的第二词语对齐结果,b1为源语言s的短语切分结果,b2为目标语言t的短语切分结果,β为词语对齐结果中满足从同一个源语言短语到同一个目标语言短语的词语对齐连线数目。
7.一种双向词语对齐装置,其特征在于,包括:
词语对齐模型构建模块,用于构建源语言到目标语言的第一词语对齐模型和目标语言到源语言的第二词语对齐模型;
目标函数构建模块,用于利用一致性评估函数,融合所述第一词语对齐模型和第二词语对齐模型,构建目标函数;
联合训练模块,用于利用一致性评估函数,对所述第一词语对齐模型和第二词语对齐模型进行联合训练,形成优化目标函数;
词语对齐分析模块,用于利用所述优化目标函数及联合训练得到的模型,对平行双语句对进行词语对齐,得到双向词语对齐结果。
8.根据权利要求7所述的双向词语对齐装置,其特征在于,所述装置还包括:
数据集构建模块,用于收集平行双语句对,并将所述双语句对作为训练语料;
数据集预处理模块,用于对所述对数据集中的源语言和目标语言文本中的句子进行预处理,所述预处理包括切分成词、转换大小写和过滤无效字符。
9.根据权利要求8所述的双向词语对齐装置,其特征在于,所述联合训练模块包括:
词语对齐结果计算子模块,用于利用第一词语对齐模型和第二词语对齐模型分别求解,得到源语言到目标语言的第一词语对齐结果a1、目标语言到源语言的第二词语对齐结果a2
一致性评估子模块,用于衡量第一词语对齐结果a1和第二词语对齐结果a2的对齐一致性,得到平行双语句对(s,t)的词语对齐一致性得分;
目标函数值求解训练子模块,用于将数据集中所有平行双语句对的词语对齐一致性得分相加,得到目标函数值;并随机调整词语对齐连线,训练目标函数值,得到最高目标函数值;
模型联合训练子模块,用于根据所述目标函数值最高时对应的第一词语对齐结果a1和第二词语对齐结果a2,重新估计第一词语对齐模型和第二词语对齐模型的模型参数,联合训练第一词语对齐模型和第二词语对齐模型。
10.根据权利要求8所述的双向词语对齐装置,其特征在于,所述词语对齐模型构建模块还用于构建用于对源语言中的短语进行切分的第一短语切分模型和用于对目标语言中的短语进行切分的第二短语切分模型;
所述目标函数构建模块用于利用一致性评估函数,融合所述第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型,构建目标函数;
所述联合训练模块用于利用一致性评估函数,对所述第一词语对齐模型、第二词语对齐模型、第一短语切分模型和第二短语切分模型进行联合训练,形成优化目标函数。
CN201510998012.2A 2015-12-25 2015-12-25 一种双向词语对齐方法及装置 Pending CN105630776A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510998012.2A CN105630776A (zh) 2015-12-25 2015-12-25 一种双向词语对齐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510998012.2A CN105630776A (zh) 2015-12-25 2015-12-25 一种双向词语对齐方法及装置

Publications (1)

Publication Number Publication Date
CN105630776A true CN105630776A (zh) 2016-06-01

Family

ID=56045730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510998012.2A Pending CN105630776A (zh) 2015-12-25 2015-12-25 一种双向词语对齐方法及装置

Country Status (1)

Country Link
CN (1) CN105630776A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526727A (zh) * 2017-07-31 2017-12-29 苏州大学 基于统计机器翻译的语言生成方法
CN108628868A (zh) * 2017-03-16 2018-10-09 北京京东尚科信息技术有限公司 文本分类方法和装置
CN110688837A (zh) * 2019-09-27 2020-01-14 北京百度网讯科技有限公司 数据处理的方法及装置
CN111125350A (zh) * 2019-12-17 2020-05-08 语联网(武汉)信息技术有限公司 基于双语平行语料生成lda主题模型的方法及装置
CN114077843A (zh) * 2022-01-04 2022-02-22 阿里巴巴达摩院(杭州)科技有限公司 翻译模型训练方法、翻译方法、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464856A (zh) * 2007-12-20 2009-06-24 株式会社东芝 平行口语语料的对齐方法和装置
CN101488126A (zh) * 2008-12-31 2009-07-22 深圳市点通数据有限公司 双语语句对齐方法及装置
CN101989261A (zh) * 2009-08-01 2011-03-23 中国科学院计算技术研究所 统计机器翻译短语抽取方法
CN103425638A (zh) * 2013-08-30 2013-12-04 清华大学 一种词语对齐方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464856A (zh) * 2007-12-20 2009-06-24 株式会社东芝 平行口语语料的对齐方法和装置
US20090164208A1 (en) * 2007-12-20 2009-06-25 Dengjun Ren Method and apparatus for aligning parallel spoken language corpora
CN101488126A (zh) * 2008-12-31 2009-07-22 深圳市点通数据有限公司 双语语句对齐方法及装置
CN101989261A (zh) * 2009-08-01 2011-03-23 中国科学院计算技术研究所 统计机器翻译短语抽取方法
CN103425638A (zh) * 2013-08-30 2013-12-04 清华大学 一种词语对齐方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUNYANG LIU等: "《Generalized Agreement for BidirectionalWord Alignment》", 《CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
肖桐等: "《面向统计机器翻译的重对齐方法研究》", 《中文信息学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628868A (zh) * 2017-03-16 2018-10-09 北京京东尚科信息技术有限公司 文本分类方法和装置
CN107526727A (zh) * 2017-07-31 2017-12-29 苏州大学 基于统计机器翻译的语言生成方法
CN110688837A (zh) * 2019-09-27 2020-01-14 北京百度网讯科技有限公司 数据处理的方法及装置
CN110688837B (zh) * 2019-09-27 2023-10-31 北京百度网讯科技有限公司 数据处理的方法及装置
CN111125350A (zh) * 2019-12-17 2020-05-08 语联网(武汉)信息技术有限公司 基于双语平行语料生成lda主题模型的方法及装置
CN111125350B (zh) * 2019-12-17 2023-05-12 传神联合(北京)信息技术有限公司 基于双语平行语料生成lda主题模型的方法及装置
CN114077843A (zh) * 2022-01-04 2022-02-22 阿里巴巴达摩院(杭州)科技有限公司 翻译模型训练方法、翻译方法、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN105630776A (zh) 一种双向词语对齐方法及装置
Nie et al. A simple recipe towards reducing hallucination in neural surface realisation
Dowling et al. SMT versus NMT: Preliminary comparisons for Irish
CN110852117A (zh) 一种提升神经机器翻译效果的有效数据增强方法
US20080109209A1 (en) Semi-supervised training for statistical word alignment
CN101667177B (zh) 双语文本的对齐方法及装置
CN105045778A (zh) 一种汉语同音词错误自动校对方法
CN101458681A (zh) 语音翻译方法和语音翻译装置
JP2005011358A5 (zh)
JP2009140499A (ja) 二言語コーパスに基づくターゲット言語の語形変化モデルトレーニング方法及び装置、tlwi方法及び装置、ソース言語のテキストをターゲット言語に翻訳する翻訳方法及びシステム
WO2015096529A1 (zh) 面向通用机译引擎的个性化翻译方法及装置
CN105677642A (zh) 一种机器翻译语序调整方法
CN105701089A (zh) 一种机器翻译错词修正的后编辑处理方法
CN107273363B (zh) 一种语言文本翻译方法及系统
CN105573994B (zh) 基于句法骨架的统计机器翻译系统
Durrani et al. Improving machine translation via triangulation and transliteration
Lee et al. Adaptation of back-translation to automatic post-editing for synthetic data generation
Kang Spoken language to sign language translation system based on HamNoSys
Ojha et al. The RGNLP machine translation systems for WAT 2018
CN113657122A (zh) 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法
CN111178098B (zh) 一种文本翻译方法、装置、设备及计算机可读存储介质
CN112257460A (zh) 基于枢轴的汉越联合训练神经机器翻译方法
CN112836525A (zh) 一种基于人机交互机器翻译系统及其自动优化方法
CN110399936A (zh) 一种用于训练英语语法改错模型的文本数据生成方法
Gong et al. Improving bilingual sub-sentential alignment by sampling-based transpotting

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160601

RJ01 Rejection of invention patent application after publication