CN103235775B - 一种融合翻译记忆和短语翻译模型的统计机器翻译方法 - Google Patents

一种融合翻译记忆和短语翻译模型的统计机器翻译方法 Download PDF

Info

Publication number
CN103235775B
CN103235775B CN201310148826.8A CN201310148826A CN103235775B CN 103235775 B CN103235775 B CN 103235775B CN 201310148826 A CN201310148826 A CN 201310148826A CN 103235775 B CN103235775 B CN 103235775B
Authority
CN
China
Prior art keywords
phrase
translation
source language
phrases
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310148826.8A
Other languages
English (en)
Other versions
CN103235775A (zh
Inventor
汪昆
宗成庆
苏克毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201310148826.8A priority Critical patent/CN103235775B/zh
Publication of CN103235775A publication Critical patent/CN103235775A/zh
Application granted granted Critical
Publication of CN103235775B publication Critical patent/CN103235775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种融合翻译记忆和短语翻译模型的统计机器翻译方法,其包括:步骤1:利用训练集得到双语短语切分句对;步骤2:根据所得到的双语短语切分句对获得翻译记忆中相应的翻译记忆短语对,并抽取翻译记忆短语对的相关特征;步骤3、融合短语翻译模型和所抽取的翻译记忆短语对的相关特征最终获得当前待翻译句子的目标翻译结果。其是一种在传统短语翻译模型的基础上充分且恰当地挖掘翻译记忆提供的信息以提高统计机器翻译译文质量的方法。

Description

一种融合翻译记忆和短语翻译模型的统计机器翻译方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种融合翻译记忆和基于短语的翻译模型的统计机器翻译方法。
背景技术
统计机器翻译是一种从双语平行语料库中自动学习翻译规则,并有效利用这些翻译规则对待翻译语句进行自动翻译的技术。统计机器翻译主要包括基于词的模型、基于短语的模型和基于句法树结构的翻译模型。其中,基于短语的翻译模型和基于句法树结构的机器翻译模型是当前机器翻译的主流方法。
经过二十多年的发展,统计机器翻译取得了长足的进步,翻译质量在不断提高。在某些特殊的语言对之间(例如:英语和阿拉伯语),统计机器翻译生成的译文已经达到了人们可以接受的范围。此外,在某些限定领域,例如专利翻译和产品说明书翻译,统计机器翻译已经投入实际应用。与此同时,许多商业公司陆续推出了基于统计的在线机器翻译服务,例如,GoogleTranslate,MicrosoftTranslator和百度在线翻译等等。无论是在学术界还是工业界,统计机器翻译正在如火如荼地快速发展。但是,由于参数量和计算复杂度等问题,统计机器翻译模型一般只考虑局部信息,并不考虑长距离的依赖。因此它的远距离调序效果并不好,翻译结果还无法达到专业翻译的水平,很难满足完全商业化的需要。特别是某些专业领域,例如,法律、航天等,对译文质量要求非常高,目前的机器翻译水平还不能满足这一需求。
尽管统计机器翻译的研究十分火热,然而,基于翻译记忆(TranslationMemory,简称TM)的计算机辅助翻译软件却独霸着专业翻译市场,统计机器翻译几乎难觅身影。由于专业领域的范围相对狭窄,翻译资料都存在不同程度的重复。使用翻译记忆的目的就是为了消除重复劳动,提升专业翻译人员的工作效率。有学者曾经对800多名翻译工作者进行调研发现【参见“Lagoudaki,2006.Transltionmemoriessurvery2006:user’sperceptionsaroundtmuse,InProceedingsoftheASLIBInternationalConferenceTranslatingandtheComputer28,pages,1-29.”】,82.5%的翻译人员会使用翻译记忆软件辅助翻译工作。甚至许多国际组织和公司都采用翻译记忆系统处理多语言文档和资料。从国际著名翻译记忆软件提供商Trados的主页上可以看到,欧盟、国际货币基金组织、大众汽车、IBM和微软等国际组织和企业都是Trados的客户。但是,翻译记忆软件给出的参考翻译是与待翻译句子最相似句子的翻译,并不是待翻译句子的直接翻译,需要人工对其进行修改。因此,翻译记忆软件只能作为专业翻译的辅助翻译工具,并不能单独作为一个自动的翻译系统。
由于机器翻译和翻译记忆的应用环境不一样,二者都独立发展了很多年。直到最近几年,随着机器翻译质量的不断上升,研究者开始关注如何结合机器翻译和翻译记忆的优点。对于计算机辅助翻译来说,如果能够利用机器翻译系统代替或者减少翻译记忆软件中人工修改的工作,将会使得翻译记忆软件更加高效,翻译效率也会大大提高。对于机器翻译来说,如果能够利用翻译记忆给出的参考翻译,帮助机器翻译系统改善系统输出,将会大大提升机器翻译的质量,推动机器翻译在专业翻译领域的应用。因此,研究如何充分且恰当地融合机器翻译和翻译记忆对于提升机器翻译质量,减少翻译记忆系统的人工修改工作量有着重要的意义,这是一个富有挑战但非常有意义的任务。
发明内容
针对如何有效融合翻译记忆和统计机器翻译模型的难题,本发明的目的是提出一种融合翻译记忆和短语翻译模型的方法,使得在短语翻译模型解码过程中,充分且恰当地挖掘翻译记忆提供的信息,从而进一步提高当前统计机器翻译的最佳性能,减少人工辅助翻译的工作量。
为了实现所述目的,本发明提供一种融合翻译记忆和短语翻译模型的统计机器翻译方法,其包括:
步骤1:利用训练集得到双语短语切分句对;
步骤2:根据所得到的双语短语切分句对获得翻译记忆中相应的翻译记忆短语对,并抽取翻译记忆短语对的相关特征;
步骤3、融合短语翻译模型和所抽取的翻译记忆短语对的相关特征最终获得当前待翻译句子的目标翻译结果。
本发明还公开了一种融合翻译记忆和短语翻译模型的统计机器翻译系统,其包括:
短语切分模块,其利用训练集得到双语短语切分句对;
短语对特征获取模块,其根据所得到的双语短语切分句对获得翻译记忆中相应的翻译记忆短语对,并抽取翻译记忆短语对的相关特征;
融合模块,其用于融合短语翻译模型和所抽取的翻译记忆短语对的相关特征最终获得当前待翻译句子的目标翻译结果。
本发明的积极效果:本发明在短语翻译模型解码过程中,深入挖掘翻译记忆提供的信息,指导解码器进行解码,大大提高了翻译系统的翻译质量。在计算机领域的汉英翻译记忆库上的实验结果表明,当模糊匹配系数高于0.4时,本发明可以充分结合翻译记忆和短语翻译模型的优点,显著地提高翻译质量。与翻译记忆相比,利用本发明的模型三,翻译结果的BLEU值提高了16.34个百分点,TER值下降了17.25个百分点。这说明对于翻译记忆,本发明能够进一步减少人工后编辑的工作量,加快工作效率。与短语翻译模型相比,利用本发明的模型三,翻译结果的BLEU值提高了3.48个百分点,TER值下降了2.62个百分点。这说明本发明有效地改善了机器翻译系统的翻译质量。以上实验结果充分证明了本发明的有效性和广泛适用性。
附图说明
图1是本发明中融合翻译记忆和短语翻译模型的流程框图;
图2是本发明中融合模型一使用的特征样例;
图3是本发明中融合模型二使用的特征样例;
图4是本发明中融合模型三使用的特征样例。
具体实施方式
下面结合附图对本发明作具体说明。应该指出,所描述的实例仅仅视为说明的目的,而不是对本发明的限制。
本发明所有代码实现都是用C++编程语言完成,开发平台是UbuntuLinux8.04。由于所写程序没有用到任何与平台相关的代码,因此所述的系统实现也可以运行于Windows操作系统上。
本发明的基本思想是在短语翻译模型的基础上,充分恰当地挖掘翻译记忆的信息,提出了一种融合翻译记忆和短语翻译模型的翻译方法,以提高统计机器翻译的译文质量。
图1示出了本发明提出的融合翻译记忆和短语翻译模型的翻译方法流程图。如图1所示,该方法包括:
步骤1.对双语句子对进行自动分词、自动词对齐,即图1中的自动分词和自动词对齐。
对双语句子对中的源语言和目标语言句子进行自动分词,得到源语言端和目标语言端的分词结果。如果源语言或目标语言中不包含汉语,则不需要进行分词。如果源语言或目标语言中包含汉语,则需要用对汉语进行分词。对汉语进行分词的方法有很多种。本发明优选实施例中选用词法分析工具Urheen对汉语进行分词,该Urheen词法分析工具可以在以下网址免费下载:
http://www.openpr.org.cn/index.php/NLP-Toolkit-for-Natural-Language -Processing/
在得到所述的源语言端和目标语言端的分词结果之后,需要对双语句子对自动进行词对齐。所述自动进行词对齐的方法有多种,在本发明优选实施例中使用GIZA++工具包对汉-英句子对进行词对齐,得到汉-英自动词对齐结果。所述GIZA++是一个常用的开源词对齐工具。GIZA++可以在以下网址免费下载:http://fjoch.com/GIZA++.html。在使用GIZA++时要选择某个启发式策略来得到对称的词对齐结果,本发明优选实施例中选择了取交集(intersection)的策略,因为该启发式策略能够得到准确率比较高的词对齐。
步骤1的目的是得到双语训练语料的词对齐结果。例如,对于双语句子对“我是一个学生”和“Iamastudent”。经过中文分词以后得到以下结果“我是一个学生”和“Iamastudent”。然后进行自动词对齐,自动词对齐是将双语句子中互为翻译的词对应起来,例如,根据自动词对齐结果,我们可以知道“我”与“I”是对齐的,“学生”和“student”是对齐的等等。
步骤2.在训练集上进行交叉翻译,获取训练集的双语短语切分对,所述双语短语切分对包括训练集中每个句子被切分成的源语言短语序列和其对应的翻译目标短语序列。具体包括:
(1):随机将双语训练集为20份;
(2)取其中的19份作为短语翻译系统的训练语料,利用开源工具包Moses,训练一个基于短语的翻译模型(将在随后介绍);
上述基于短语的翻译模型的训练步骤(即图1中的短语翻译模型训练)具体如下:
基于短语的翻译模型已经比较成熟,本发明优选实施例中采用著名的开源系统Moses作为短语翻译模型的获取方式,即本发明优选实施例中利用著名的开源系统Moses从所述双语训练集中获取短语翻译模型中的翻译模型特征。Moses可以在以下网址免费下载http://www.statmt.org/moses/。在短语翻译模型中,本发明优选实施例中使用了以下常用特征:
(1)短语翻译特征:双向的短语翻译概率、双向的词汇化概率、以及一个短语惩罚概率。
(2)调序模型特征:
本发明优选实施例中使用了两个调序模型:基于距离的短语重排序模型【参见“FranzJosefOchandHermannNey,2002.Discriminativetrainingandmaximumentropymodelsforstatisticalmachinetranslation.InProceedingsofthe40thAnnualMeetingoftheAssociationforComputationalLinguistics(ACL),pages295-302.”】和词汇化的短语重排序模型【参见“ChristophTillmann,2004.Aunigramorientationmodelforstatisticalmachinetranslation.InProceedingsofHLT-NAACL2004,pages101-104.”】。
(3)语言模型特征:
本发明优选实施例中利用SRILM工具包【参见“AndreasStolcke,2002.SRILM-anextensiblelanguagemodelingtoolkit.InProceedingsoftheInternationalConferenceonSpokenLanguageProcessing,pages311-318.”】在目标语言端的训练语料上,使用修正的Kneser-Ney平滑方法【参见“StanleyF.ChenandJoshuaGoodman,1998.Anempiricalstudyofsmoothingtechniquesforlanguagemodeling.TechnicalReportTR-10-98,HarvardUniversityCenterforResearchinComputingTechnology.”】,训练一个5元语言模型;SRILM工具包可以在以下网址免费下载:
http://www-speech.sri.com/projects/srilm/download.html
(4)控制目标翻译长度的长度惩罚特征。
在获取上述翻译模型特征以后,使用最小错误率参数训练方法MERT【参见“FranzJosefOch,2003.Minimumerrorratetraininginstatisticalmachinetranslation.InProceedingsofthe41stAnnualMeetingoftheAssociationforComputationalLinguistics,pages160-167.”】在整个开发集上进行参数训练,获取上述翻译模型特征的特征权重,所述开发集就是用来训练特征权重的翻译样例,其与双语训练集为不同的语料集。
(3):使用上一步中训练好的短语翻译模型中的翻译模型特征和特征权重,对剩余的那份语料进行强迫解码(ForcedDecoding)【参见“AndreasZollmann,AshishVenugopal,FranzJosefOchandJayPonte,2008.Asystematiccomparisonofphrase-basedhierarchicalandsyntax-augmentedstatisticalMT.InProceedingsofthe22ndInternationalConferenceonComputationalLinguistics(Coling2008),pages1145-1152.”】,即可获得该份训练语料的双语短语切分句对;
(4):重复上述步骤,以同样的方法分别获得另外19份训练语料的双语短语切分句对,最终可获得训练集中的所有双语短语切分对。
上述步骤2的目的是尽量穷尽训练集所有源语言句子的短语对切分,进而在短语翻译解码过程中使用。
步骤3.根据训练集的双语短语对切分,通过短语匹配找到翻译记忆中对应的短语对,并抽取翻译记忆相关的特征,这些特征根据后面介绍的三种模型得到。
根据训练集的双语短语对切分,对比翻译记忆给出的最相似句对,进行短语匹配,其过程如下:
(1)对比训练集中待翻译的源语言句子s和翻译记忆给出的最相似源语言句子tm_s,根据它们之间的编辑操作,找到源语言短语在最相似源语言句子tm_s中的对应源语言短语
(2)根据翻译记忆中源语言句子tm_s和目标语言翻译句子tm_t之间的词对齐信息,找到源语言短语的对应目标语言翻译短语
其中,编辑操作是指将源语言句子s变为最相似源语言句子tm_s所进行的插入、删除和替换操作。例如,将“我是学生”变为“我不是学生”,仅需要一次插入操作(插入一个“不”字);而将“我不是学生”变为“我是学生”,仅需要一次删除操作(删除“不”字)。
获取源语言短语和它对应的目标语言翻译短语后,抽取翻译记忆相关的特征。这些特征将在随后详细介绍。
步骤4.设计融合翻译记忆和短语翻译模型的整合式统计机器翻译模型框架,并训练所述短语翻译模型和所述整合式统计机器模型,并调节它们之间的权重α。具体如下:
与标准的基于短语的翻译模型相比,融合翻译记忆的和短语翻译模型的整合式统计机器翻译模型可以利用翻译记忆库中更多的信息。因此,本发明将翻译问题重新定义为:
t ^ = arg max t P ( t | s , [ tm _ s , tm _ t , tm _ f , s _ a , tm _ a ] ) - - - ( 1 )
上式中s是待翻译的源语言句子;t是某一个目标语言翻译候选(不考虑插入,但是允许删除。即允许源语言短语对空,但不允许目标语言短语对空);是最终输出的目标语言翻译;[tm_s,tm_t,tm_f,s_a,tm_a]表示从翻译记忆库中找到的最相似句子对以及它们之间的对齐信息;tm_s和tm_t分别表示最相似的源语言句子和它的目标语言句子;tm_f表示tm_s与源语言句子s之间的模糊匹配系数;s_a表示tm_s与s之间的编辑操作信息;tm_a表示tm_s和tm_t之间的词对齐信息。
由此可见,融合翻译记忆的翻译模型是在给定源语言句子s和翻译记忆信息[tm_s,tm_t,tm_f,s_a,tm_a]的情况下,在众多翻译候选t之中,搜索概率最大的翻译结果
假设表示源语言句子s的某一个源语言短语序列,是对应目标语言翻译候选的某种短语序列。由于翻译过程并不是自左向右顺序进行的,因此,本发明优选实施例中将第k个生成的翻译候选短语对应的源语言短语记为表示与(简写为)对应的目标语言短语序列,即表示的是同一句子s的不同语序排列(总共K个短语,并且没有插入的目标语言短语,即没有目标语言短语对空的情况。如果是一个被删除的短语,其对应的就是),是源语言句子s的某一个源语言短语序列某一种排列形式。那么,公式(1)可以展开为:
t ^ = arg max t P ( t | s , tm _ s , tm _ t , tm _ f , s _ a , tm _ a )
= arg max t Σ [ s ‾ 1 K = s , t ‾ 1 K = t ] P ( t 1 ‾ K , s ‾ a ( 1 ) a ( K ) | s , tm _ s , tm _ t , tm _ f , s _ a , tm _ a ) - - - ( 2 )
= Δ arg max t max [ s ‾ 1 K = s , t ‾ 1 K = t ] { P ( t 1 ‾ K | s ‾ a ( 1 ) a ( K ) , tm _ s , tm _ t , tm _ f , s _ a , tm _ a ) × P ( s ‾ 1 K | s ) }
对于任意给定的源语言短语根据s_a可以找到它在tm_s中对应的源语言短语另外,根据tm_s与tm_t之间的词对齐信息tm_a,可以得到在tm_t中对应的翻译记忆目标语言短语一旦获得给定源语言短语对应的以后,公式(2)中的第一项 P ( t 1 ‾ K | s ‾ a ( 1 ) a ( K ) , tm _ s , tm _ t , tm _ f , s _ a , tm _ a ) 可以进一步展开为:
P ( t 1 ‾ K | s ‾ a ( 1 ) a ( K ) , tm _ s , tm _ t , tm _ f , s _ a , tm _ a )
= Σ tm _ t ‾ a ( 1 ) a ( K ) P ( t 1 ‾ K , tm _ t ‾ a ( 1 ) a ( K ) | s ‾ a ( 1 ) a ( K ) , tm _ s ‾ a ( 1 ) a ( K ) , tm _ t , z )
≈ max tm _ t ‾ a ( 1 ) a ( K ) P ( t 1 ‾ K , tm _ t ‾ a ( 1 ) a ( K ) | s ‾ a ( 1 ) a ( K ) , tm _ s ‾ a ( 1 ) a ( K ) , tm _ t , z ) - - - ( 3 )
≈ max tm _ t ‾ a ( 1 ) a ( K ) P ( t 1 ‾ K , M 1 K | s ‾ a ( 1 ) a ( K ) , L 1 K , z )
≈ P ( t 1 ‾ K | s ‾ a ( 1 ) a ( K ) ) × Π k = 1 K max tm _ t ‾ a ( k ) P ( M k | L k , z )
上面公式中,Mk表示目标语言候选短语与对应的翻译记忆目标语言短语之间的匹配状态,例如,目标短语候选内容匹配状态TCM、目标短语相邻候选相对位置匹配状态CPM等等。Lk表示源语言短语相应的翻译记忆源语言短语以及目标语言短语三者之间的匹配状态。例如,源语言短语内容匹配状态SCM、源语言短语长度特征SPL以及句尾标点符号指示特征SEP等等。此外,将翻译记忆源语言句子tm_s与源语言句子s之间的模糊匹配系数tm_z平均分配为10个相似度区间:如[0.9,1.0)、[0.8,0.9)、[0.7,0.8)等等。用z来表示不同的相似度区间。模糊匹配系数的计算公式为:
FMS ( s , tm _ s ) = 1 - Levenshtein ( s , tm _ s ) max ( | s | , | tm _ s | ) - - - ( 4 )
其中Levenshtein(s,tm_s)表示s和tm_s之间的编辑距离【参见“VladimirIosifovichLevenshtein.1966.Binarycodescapableofcorrectingdeletions,insertions,andreversals.SovietPhysicsDoklady,10(8):707-710.”】。编辑距离是指将一个字符串s变为另外一个字符串tm_s所需要进行的插入、删除和替换操作的最少编辑次数。|s|和|tm_s|分别表示s和tm_s的元素数目。模糊匹配系数介于0到1之间。两个句子之间的模糊匹配系数越高,表示两个句子之间的相似程度越高。
假设为均匀分布,并结合公式(3),那么翻译问题可以进一步简化为:
t ^ = Δ arg max t max [ s 1 ‾ K = s , t 1 ‾ K = t ] [ P ( t 1 ‾ K | s ‾ a ( 1 ) a ( K ) ) × Π k = 1 K max tm _ t ‾ a ( k ) P ( M k | L k , z ) ] - - - ( 5 )
由于基于短语的翻译模型已经比较成熟,并且性能比较稳定。因此,在融合翻译记忆的新模型中,上述公式中的第一项是用来计算从翻译为的概率,在本发明优选实施例中采用标准的短语翻译模型【参见“PhilippKoehn,FranzJosefOchandDanielMarcu,2003.Statisticalphrase-basedtranslation.InProceedingsofthe2003ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguisticsonHumanLanguageTechnology,pages48-54.”】,计算所述第一项的概率值,而第二项P(Mk|Lk,z)用来表示当前翻译候选与翻译记忆中目标语言翻译短语之间内容以及位置的匹配关系,其是从翻译记忆中抽取的相关特征计算得到的概率,即根据本发明提出的模型一、模型二和模型三抽取的相关特征的得到的概率信息。这样一来,本发明只需要将研究重点放在如何利用翻译记忆来抽取有用的信息,而不用过多地修改已经比较成熟的短语翻译模型。
为了在解码过程中融入从翻译记忆中抽取的相关信息,本发明将转换成解码器中实际使用的形式,并使用一个加权因子α(0.0<α<1.0)来平衡和P(Mk|Lk,z),α的取值将由开发集决定。因此,公式(5)可以进一步展开为:
t ^ = Δ arg max t { Π k = 1 K ( exp [ Σ m = 1 M λ m h m ( s ‾ a ( k ) , t k ‾ ) ] Σ t ‾ k ′ exp [ Σ m = 1 M λ m h m ( s ‾ a ( k ) , t k ‾ ′ ) ] ) α × Π k = 1 K max tm _ t ‾ a ( k ) P ( M k | L k , z ) 1 - α }
= arg max t { Π k = 1 K [ [ { exp [ Σ m = 1 M λ m h m ( s ‾ a ( k ) , t ‾ k ) ] } α × max tm _ t ‾ a ( k ) P ( M k | L k , z ) 1 - α ] { Σ t k ‾ ′ exp [ Σ m = 1 M λ m h m ( s ‾ a ( k ) , t k ‾ ′ ) ] } α ] } - - - ( 6 )
= arg max t { Π k = 1 K [ { exp [ Σ m = 1 M λ m h m ( s ‾ a ( k ) , t k ‾ ) ] } α × max tm _ t ‾ a ( k ) P ( M k | L k , z ) 1 - α ] }
= arg max t { Σ k = 1 K [ α × Σ m = 1 M λ m h m ( s ‾ a ( k ) , t k ‾ ) + ( 1 - α ) × log ( max tm _ t ‾ a ( k ) P ( M k | L k , z ) ) ] }
公式(6)就是本发明融合翻译记忆和短语翻译模型后的整合式统计机器翻译模型框架。其中,是翻译模型特征,例如短语翻译模型中的翻译模型特征、调序特征以及语言模型特征。λm是翻译模型特征的权重,M表示短语翻译模型所有特征值的个数。第一项是对短语翻译模型中所有特征值的加和,第二项P(Mk|Lk,z)是从翻译记忆中抽取的相关信息。从这个公式可以看出,在解码过程中,不需要对短语翻译模型的分数进行归一化,可以继续保留标准短语模型的计算方法。
下面介绍在上述融合翻译记忆后的整合式统计机器翻译模型框架下的三种不同的融合模型,根据所述融合模型获得整合式统计机器翻译模型中的P(Mk|Lk,z)。这三种模型由简到繁,由浅入深地挖掘了翻译记忆所提供的信息:
模型一:
在这个最简单的模型中,对于Mk特征,仅考虑目标短语候选内容匹配状态特征TCM。对于Lk特征,仅考虑以下四个特征:(1)源语言短语内容匹配状态特征SCM;(2)源语言短语邻居匹配数量特征NLN;(3)源语言短语长度特征SPL;以及(4)句尾标点符号指示特征SEP。于是,根据这些特征和模糊匹配区间索引z,P(Mk|Lk,z)可以改写为:
P ( M k | L k , z ) = Δ P ( TCM k | SCM k , NLN k , SPL k , SEP k , z )
模型一中所使用特征的详细情况如下:
目标短语候选内容匹配状态TCM
所述目标短语候选内容匹配状态特征TCM,其反映的是翻译候选短语与最相似源语言句子对应的目标语言句子中目标语言短语之间的内容相似程度。本发明中根据之间的模糊匹配系数,将TCMk分成以下四种情况{Same,High,Low,Not-Applicable}:
(1)当之间的模糊匹配系数等于1.0,即完全一样时,TCMk=Same;
(2)当之间的模糊匹配系数处于0.5到1.0之间时,TCMk=High;
(3)当之间的模糊匹配系数不大于0.5,且不为空时,TCMk=Low;
(4)当为空时,TCMk=Not-Applicabable。
其中,模糊匹配系数根据公式(4)计算得到。
源语言短语内容匹配状态特征SCM
所述源语言短语内容匹配状态特征SCM,其反映的是翻译候选短语对应的源语言短语与源语言短语在最相似源语言句子tm_s中对应的源语言短语之间的相似程度。根据之间的模糊匹配系数,将SCMk分成以下四种情况{Same,High,Low,Not-Applicable}:
(1)当之间的模糊匹配系数等于1.0,即完全一样时,SCMk=Same;
(2)当之间的模糊匹配系数处于0.5到1.0之间时,SCMk=High;
(3)当之间的模糊匹配系数不大于0.5,且不为空时,SCMk=Low;
(4)当为空时,SCMk=Not-Applicabable。
源语言短语邻居匹配数量特征NLN
除了源语言短语之间的内容匹配状态特征SCM,会影响之间的相似程度外,左右邻居的匹配状态,也会在一定程度上影响CCM的选择。这是因为如果邻居匹配数量越大,说明当前短语的上下文更相似,也应该更相似。
因此,本发明中定义了源语言短语邻居匹配数量特征NLN,用一个二维向量<x,y>表示NLNk,其中x表示其左右邻居(单词)匹配的数目,y表示匹配的邻居在tm_s与tm_t的词对齐上的状况。它可以分为六种不同情况{<x,y>∶<2,2>,<2,1>,<2,0>,<1,1>,<1,0>,<0,0>}。每种情况的具体定义如下:
(1)<2,2>:表示的左右相邻的单词都是匹配的(即相同的),并且这两个单词(即的左右相邻的单词)在tm_s与tm_t的词对齐上都不是对空的(稍后解释);
(2)<2,1>:表示的左右相邻的单词都是匹配的,但是这两个单词中,有且仅有一个在tm_s与tm_t的词对齐上是对空的;
(3)<2,0>:表示的左右相邻的单词都是匹配的,并且这两个单词在tm_s与tm_t的词对齐上都是对空的;
(4)<1,1>:表示的左右相邻的单词中,有且仅有一个相邻的单词是匹配的,并且这个单词在tm_s与tm_t的词对齐上不是对空的;
(5)<1,0>:表示的左右相邻的单词中,有且仅有一个相邻的单词是匹配的,并且这个单词在tm_s与tm_t的词对齐上是对空的;
(6)<0,0>:表示的左右相邻的都不匹配。
词对齐对空是指源语言句子中的某些单词,在目标语言句子中没有对应的翻译。例如,图2中的翻译记忆源语言句子tm_s中的第五个词“的5”,在对应的翻译记忆目标语言句子tm_t中就没有对应的翻译;类似地,翻译记忆目标语言句子tm_t中的第6个单词“with6”和第7个单词“the7”,在翻译记忆源语言句子中也没有对应的翻译。因此,它们在词对齐上都是对空的。
由此可见,NLNk不仅考虑了左右邻居的匹配情况,还考虑了匹配的邻居在目标语言上的词对齐状态。
源语言短语长度特征SPL
源语言短语长度也在一定程度上反映了翻译记忆信息的可靠性。当TM源语言短语越长时,它涵盖的内容就越多,其对应的TM翻译也就越可靠。尤其是恰好为匹配(SCMk=Same)的时候,的长度越长,对应的也会越可靠。因此,本发明中定义了源语言短语长度特征SPL,它可以分为以下五种情况{1,2,3,4,5}。其中,每个数字表示的是源语言短语的单词数目:
(1)当源语言短语包括五个以下的源语言单词时, SPL k = length ( s &OverBar; a ( k ) ) ;
(2)当源语言短语包括五个及五个以上的源语言单词时,SPLk=5。
句尾标点符号指示特征SEP
经过统计发现,句尾标点符号单独作为一个源语言短语时,它相应的SCMk和TCMk都是Same。因此,当源语言短语是句尾标点符号时,这两个特征(SCMk和TCMk)是完全正相关的。此外,由于句尾标点符号的右边是句尾标记(SentenceDelimiter),NLNk中的x肯定是1或者2。所以,对其它短语而言,如果不区分这种情况,将会带来相当大的系统化偏差(SystematicBias)。因此,为了区分句尾标点符号与其他的源语言短语,本发明中定义了句尾标点符号指示特征SEP。它可以分为两种情况{Yes,No}:
(1)当位于句尾,并且是一个标点符号时,SEPk=Yes;
(2)其他情况,SEPk=No。
图2示出了通过融合模型一获取相应翻译记忆信息的具体实例。下面通过图2示出的例子来说明上述模型一中各个特征的具体情况。假设待翻译的源语言句子s是(每个词后面的数字是该词在句子中的位置索引号):
获取01设置23批注4关联56对象7о8
从翻译记忆中找到的最相似的源语言句子tm_s是:
获取01批注2标签3关联45对象6о7
计算得到s与tm_s之间的模糊匹配系数是0.667,于是,可以确定模糊匹配区间索引z=[0.6,0.7)。
tm_s的对应英文翻译tm_t是:
gets0an1obiect2that3is4associated5with6the7annotation8label9·10
假设解码器中当前的源语言短语是“关联56对象7”,可以确定源语言短语长度特征SPL=3和句尾标点符号指示特征SEP=No。根据短语匹配算法很容易得知对应的是“关联45对象6”,进一步可以确定源语言短语内容匹配状态特征SCM=Same。同时,由于的左右邻居分别是“批注4”和“о8”,的左右邻居分别是“标签3”和“о7”,双方仅有右边的邻居“о8”和“о7”是匹配的,而且不是对空的,因此,可以确定源语言短语邻居匹配数量特征NLN=<1,1>。这些特征都是源语言端的匹配状态特征,与目标候选翻译短语无关。下面再介绍与目标翻译短语相关的特征TCM。
假设解码器中当前的目标语言短语候选是“objectthatisassociatedwith”,根据目标语言短语抽取算法,可以获取多个候选。对于其中的某一个候选“objectthatisassociatedwith”,即图2中的候选1(翻译记忆目标短语1),由于之间的模糊匹配系数为1.0,则目标短语候选内容匹配状态特征TCMk=Same;对于另一个候选“anobjectthatisassociatedwiththe”,即图2中的候选2(翻译记忆目标短语2),由于之间的模糊匹配系数为0.714,则TCMk=High。
模型二:
模型一仅考虑了目标短语候选内容匹配状态特征TCM,它忽略了翻译记忆中翻译候选的候选集合状态特征。因此无法限制可能的候选情况,并忽视了某一个候选与其他候选者之间的关系。所以,模型二在模型一的基础上,在源语言短语相应的翻译记忆源语言短语以及目标语言短语三者之间的匹配状态特征Lk中引入了TM翻译候选集合状态特征CSS,并在表示目标语言候选短语与对应的翻译记忆目标语言短语之间的匹配状态特征Mk中引入了翻译记忆最长候选指示特征LTC。于是,在引入CSS和LTC这两个特征以后,P(Mk|Lk,z)可以改写为:
P ( M k | L k , z )
= &Delta; P ( TCM k , LTC k | SCM k , NLN k , CSS k , SPL k , SEP k , z )
&ap; P ( TCM k | SCM k , NLN k , LTC k , SPL k , SEP k , z ) &times; P ( LTC k | CSS k , SCM k , NLN k , SEP k , z )
模型二中新引入的CSS和LTC两个特征的详细情况如下:
翻译记忆的翻译候选集合状态特征CSS
对于某一个在tm_s中的对应候选翻译可能会有多个。如果将这多个候选翻译看作是一个集合,则这个集合的状态决定了的可能状态。因此,本发明定义了翻译记忆的翻译候选集合状态特征CSS来描述这个集合的状态。CSSk可以分为五种不同的情况{Single,Left-Ext,Right-Ext,Both-Ext,Not-Applicable}:
(1)如果对于当前的有且仅有一个候选时,CSSk=Single;
(2)如果对于当前的存在多个候选,并且所有候选只能向左边扩展时,CSSk=Left-Ext;
(3)如果对于当前的存在多个候选,并且所有候选只能向右边扩展时,CSSk=Right-Ext;
(4)如果对于当前的存在多个候选,并且翻译候选可以同时向左右两边扩展时,CSSk=Both-Ext;
(5)如果当前的为空时,CSSk=Not-Applicabable。
翻译记忆的最长候选指示特征LTC
翻译记忆的最长候选指示特征LTC,主要是用于指示当前的在TM翻译候选集中是否是长度最长的候选。LTCk包含6种不同的情况{Original,Left-Longest,Right-Longest,Both-Longest,Medium,Not-Applicable}:
(1)如果当前的没有进行扩展时,LTCk=Original;
(2)如果当前的仅向左进行了扩展,并且扩展到最长时,LTCk=Left-Longest;
(3)如果当前的仅向右进行了扩展,并且扩展到最长时,LTCk=Right-Longest;
(4)如果当前的向左右都进行了扩展,并且都扩展到最长时,LTCk=Both-Longest;
(5)如果当前的进行了扩展,但没有扩展到最长时,LTCk=Medium;
(6)如果当前的为空时,LTCk=Not-Applicabable。
图3示出了通过融合模型二获取相应翻译记忆信息的具体实例。继续使用图2示出的模型一的例子来介绍模型二中使用的特征。如图3所示,假设解码器中当前的源语言短语是“关联56对象7”,目标语言短语候选是“objectthatisassociatedwith”。由于存在多个候选,并且向左右方向都可以进行扩展,因此,CSS=Both-Ext。假设当前的是“objectthatisassociated”,则TCM=High、LTC=Medium;若当前的是“objectthatisassociatedwith”,则TCM=Same、LTC=Original;若当前的是“anobjectthatisassociatedwiththe”,则TCM=High、LTC=Both-Longest。
模型三:
在考虑目标语言端的匹配状态特征Mk时,模型一仅考虑了目标翻译候选内容匹配状态特征TCM。模型二在模型一的基础上,考虑了翻译记忆最长候选指标特征LTC。但是,模型一和模型二都没有考虑目标短语相邻候选间的相对位置匹配状态,因此可以借鉴的调序信息在模型一和模型二都并没用利用到。所以,模型三在模型一和模型二的基础上,引入了目标短语相邻候选相对位置匹配状态特征CPM。于是,在引入CPM特征以后,P(MkLk,z)可以改写为:
P ( M k | L k , z )
= &Delta; P ( [ TCM , LTC , CPM ] k | [ SCM , NLN , SPL , SEP ] k , z )
= P ( TCM k | SCM k , NLN k , LTC k , SPL k , SEP k , z ) &times; P ( LTC k | CSS k , SCM k , NLN k , SEP k , z ) &times; P ( CPM k | TCM k , SCM k , NLN k , z )
模型三中新引入的CPM特征的详细情况如下:
目标短语相邻候选相对位置匹配状态特征CPM
在生成的翻译句子t中,目标翻译短语对之间的相关位置匹配信息,常常反映了在生成的翻译句子t中的排序好坏。由于翻译记忆中的参考翻译tm_t的翻译质量通常非常好,假如之间的相对位置是一致的,说明当前生成的翻译与TM的参考翻译中的语序是一致的,应该是比较好的翻译。
因此,本发明定义了目标短语相邻候选相对位置匹配状态特征CPM,它反映的是之间的相对位置匹配关系。CPMk可以分为以下九种不同的情况{Adjacent-Same,Adjacent-Substitute,Linked-Interleaved,Linked-Cross,Linked-Reversed,Skip-Forward,Skip-Cross,Skip-Reversed,Not-Applicable}:
(I)如果都不为空:
(I.1)若之间的相对位置一致,且直接跟在后面(即紧邻的):
(I.1.a)若的右边界词相同,且的左边界词相同,则CPMk=Adjacent-Same;
(I.1.b)若的右边界词以及的左边界词,这两对边界词中至少有一对是不相同的,则CPMk=Adjacent-Substitute;
(I.2)若之间的相对位置一致(即完全在的右边,没有任何交叉重叠),但并不是紧邻的,则CPMk=Linked-Interleaved;
(I.3)若之间的相对位置不一致:
(I.3.a)若存在交叉重叠的部分,则CPMk=Linked-Cross;
(I.3.b)若完全在的左边,没有任何交叉重叠,则CPMk=Linked-Reversed;
(II)如果皆为空(即不为空,并且 tm _ t &OverBar; a ( 0 ) = Left - Delimiter ) , 不为空:
(II.1)若之间的相对位置一致(即完全在的右边,没有任何交叉重叠),则CPMk=Skip-Forward;
(II.2)若之间的相对位置不一致:
(II.2.a)若存在交叉重叠的部分,则CPMk=Skip-Cross;
(II.2.b)若完全在的左边,没有任何交叉重叠,则CPMk=Skip-Reversed;
(III)如果为空,则CPMk=Not-Applicabable。
图4示出了通过融合模型三获取相应翻译记忆信息的具体实例。继续使用图2示出的模型一的例子来介绍模型三中使用的特征。如图4所示,假设解码器中当前的源语言短语是“关联56对象7”,则其对应的为“关联45对象6”。除了CPM特征以外,其他特征都和模型二是一样的,因此这里不再累述。下面用两个例子来详细介绍模型三中使用的CPM特征。
在例子一中,假设目标语言短语候选是“objectthatisassociatedwith”,前面已经生成的翻译是“getsan”,是“gets0an1”,如果当前的是“object2that3is4associated5”,由于的右边界词的索引编号是1,的左边界词的索引编号是2;并且,的左边界词是“object”,的右边界词是“an”,的左边界词也是“object”,的右边界词也是“an”,因此,CPMk=Adjacent-Same;如果当前的是“object2that3is4associated5with6”,则情况与上面一样,因此,CPMk=Adjacent-Same;如果当前的是“an1object2that3is4associated5with6the7”,由于的右边界词的索引编号是1,的左边界词的索引编号也是1,则CPMk=Linked-Cross。
在例子二中,假设目标语言短语候选是“theobjectthatisassociatedwith”,前面已经生成的翻译是“gets”,是“gets0”。如果当前的是“object2that3is4associated5”,由于的右边界词的索引编号是0,的左边界词的索引编号是2,因此,CPMk=Linked-Interleaved;如果当前的是“object2that3is4associated5with6”,则情况与上面一样,因此,CPMk=Linked-Interleaved;如果当前的是“an1object2that3is4associated5with6the7”,由于的右边界词的索引编号是0,的左边界词的索引编号是1;并且,的左边界词是“the”,的右边界词是“gets”,的左边界词也是“an”,的右边界词是“gets”,则CPMk=Adjacent-Substitute。
本发明中利用训练集中的双语短语切分对训练上述三种模型,进而得到不同的源语言短语和目标语言候选短语所对应的上述三种融合模型所定义的特征和z对应的P(Mk|Lk,z)值,并记录这些P(Mk|Lk,z)的值。
本发明利用FactoredLanguageModel工具包【参见“KatrinKirchhoff,JeffA.BilmesandKevinDuh,2007.FactoredLanguageModelsTutorial.Technicalreport,DepartmentofElectricalEngineering,UniversityofWashington,Seattle,Washington,USA.”】,采用Witten-Bell平滑方法【参见“T.C.Bell,J.GClearyandI.H.Witten,1990.Textcompression:PrenticeHall,EnglewoodCliffs,NJ.”】,估计P(Mk|Lk,z)的概率值(即三个模型的概率值,也就是公式(6)中的P(MkLk,z))。这样就可以得到不同条件下P(Mk|Lk,z)的概率值。FactoredLanguageModel工具包可以在以下网址免费下载:
http://www-speech.sri.com/proiects/srilm/download.html
本发明使用最小错误率参数训练方法MERT【参见“FranzJosefOch,2003.Minimumerrorratetraininginstatisticalmachinetranslation.InProceedingsofthe41stAnnualMeetingoftheAssociationforComputationalLinguistics,pages160-167.”】在开发集上进行参数训练,并获取公式(6)中的加权因子α。
然后根据步骤2中介绍的获取短语翻译模型的方法,使用训练集中所有双语训练语料,训练一个短语翻译模型,即得到相应的翻译模型特征及其特征权重,即得到公式(6)中不同的的源语言短语与其对应的目标语言候选短语对应的λm的取值,进而在短语翻译解码过程中使用。
步骤5.短语翻译模型解码过程中,根据翻译记忆提供的信息和已经训练好的短语翻译模型和融合模型对输入的待翻译内容进行翻译。具体步骤包括:
(1)如果输入的待翻译句子需要分词,如汉语,则需要使用步骤1中提到的Urheen词法分析工具对输入句子进行分词;
(2)在短语翻译模型解码过程中,首先根据步骤2中所得到的双语短语对切分获得所述待翻译句子的源语言短语及其目标候选短语,并根据源语言短语及其目标候选短语,从所训练好的短语翻译模型中获取相应的λm
(3)根据翻译记忆提供的信息,确定每个目标候选短语的相关特征,即模型一、模型二和模型三中定义的特征,并确定这些特征对应的P(Mk|Lk,z)概率值。
(4)根据步骤4中训练好的短语翻译模型、模型一、模型二、模型三确定源语言短语及其所对应的目标候选短语对应的的λmP(Mk|Lk,z)概率值以及加权因子α,按照公式(6),得到待翻译句子的目标翻译句子。
下面通过实验数据来说明本发明提出的上述融合翻译记忆和短语翻译模型的翻译方法所达到的性能。在实验中,使用一个计算机领域的汉-英翻译记忆库进行实验。这个记忆库包含26.7万汉英平行句对。从中随机抽取了开发集和测试集,剩余部分作为训练集。表1给出了训练集、开发集和测试集的统计信息。该实验中将训练集作为翻译记忆库,根据模糊匹配系数,将测试集分成了不同的模糊匹配区间,表2给出了测试集的详细统计信息。
表1:实验数据统计信息
表2:实验数据统计信息
表3和表4给出了各种方法的翻译结果对比。其中,“TM”是翻译记忆系统;“SMT”是短语翻译系统;“*”表示该方法在p<0.05的水平上统计显著地优于翻译记忆系统(TM)和短语翻译系统(SMT)。粗体表示该区间上的最优翻译结果。
表3:各种方法的翻译结果(BLEU%),“*”表示该方法在p<0.05的水平上统计显著地优于翻译记忆系统(TM)和短语翻译系统(SMT)。
表4:各种方法的翻译结果(TER%),“*”表示该方法在p<0.05的水平上统计显著地优于翻译记忆系统(TM)和短语翻译系统(SMT)。
从表3和表4中的翻译结果可以看出,在[0.9,1.0)区间,翻译记忆系统的TER值显著地小于短语翻译系统的TER值。这也从侧面说明了为什么专业翻译人员倾向于使用翻译记忆系统进行辅助翻译,而不倾向于使用机器翻译进行辅助翻译。与翻译记忆系统和短语翻译系统相比,当模糊匹配系数大于0.7时,无论是BLEU值还是TER值,模型一统计显著地短语翻译系统;当模糊匹配系数大于0.5时,无论是BLEU值还是TER值,模型二都统计显著地优于翻译记忆系统和短语翻译系统;当模糊匹配系数大于0.4时,无论是BLEU值还是TER值,模型三都统计显著地优于翻译记忆系统和短语翻译系统。
从整体翻译结果来看,模型一、模型二和模型三的翻译性能逐步上升,模型三的翻译结果最好。这也符合本发明的预期,模型三融入的翻译记忆信息最多。与翻译记忆相比,模型三的BLEU值提高了16.34个百分点,TER值下降了17.25个百分点。这说明相比于翻译记忆,本发明能够进一步减少人工后编辑的工作量,加快工作效率。与短语翻译系统相比,模型三的BLEU值提高了3.48个百分点,TER值下降了2.62个百分点。
在实验中,本发明采用大小写不敏感的BLEU-4【参见“KishorePapineni,SalimRoukos,ToddWardandWei-JingZhu,2002.BLEU:amethodforautomaticevaluationofmachinetranslation.InProceedingsofthe40thAnnualMeetingoftheAssociationforComputationalLinguistics(ACL),pages311-318.”】以及翻译错误率TER【参见“MatthewSnover,BonnieDorr,RichardSchwartz,LinneaMicciulla,JohnMakhoul.2006.Astudyoftranslationeditratewithtargetedhumanannotation,InProceedingsofAssociationforMachineTranslationintheAmericas(AMTA-2006),pp.223-231.”】作为译文评价标准,并采用自举重采样(BootstrapRe-sampling)方法【参见“PhilippKoehn,2004.Statisticalsignificancetestsformachinetranslationevaluation.InProceedingsofthe2004ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),pages388-395,Barcelona,Spain.”】检测两个翻译系统之间的统计显著性差异。其中,BLEU值越大表明翻译质量越好;TER值越小表明翻译质量越好。
由于本发明的方法不是针对两种特定的语言而提出的,所以本发明的方法具有普遍的适用性。本发明虽然只在汉语和英语两种语言上进行了实验验证,但本发明同时也适用于其它语言对,如日语和汉语、阿拉伯语和英语等。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (4)

1.一种融合翻译记忆和短语翻译模型的统计机器翻译方法,其包括:
步骤1:利用训练集得到双语短语切分句对;
步骤2:根据所得到的双语短语切分句对获得翻译记忆中相应的翻译记忆短语对,并抽取翻译记忆短语对的相关特征;
步骤3:融合短语翻译模型和所抽取的翻译记忆短语对的相关特征最终获得当前待翻译句子的目标翻译结果;其包括:设计融合翻译记忆和短语翻译模型的整合式统计机器翻译模型框架,并训练所述短语翻译模型和所述整合式统计机器翻译模型,并调节它们之间的权重α;
步骤3通过整合式统计机器翻译模型将短语翻译模型和所抽取的翻译记忆短语对的相关特征进行融合;
所述设计融合翻译记忆和短语翻译模型的整合式统计机器翻译模型框架,并训练所述短语翻译模型和所述整合式统计机器翻译模型,并调节它们之间的权重α,具体为:
将翻译问题简化为:
t ^ = &Delta; arg m a x t m a x &lsqb; s &OverBar; 1 K = s , t &OverBar; 1 K = t &rsqb; &lsqb; P ( t &OverBar; 1 K | s &OverBar; a ( 1 ) a ( K ) ) &times; &Pi; k = 1 K m a x t m _ t &OverBar; a ( k ) P ( M k | L k , z ) &rsqb; ;
其中,s表示待翻译的源语言句子;t是某一个目标语言翻译候选;是最终输出的目标语言翻译,即翻译结果;是源语言句子的某种短语切分;对应的短语翻译序列,即t的某种短语切分;中第k个源语言短语在翻译记忆中对应的目标语言翻译短语;Mk表示中的第k个目标语言短语候选与相应的之间的匹配状态信息;Lk表示中第k个源语言短语与翻译记忆中相应的源语言短语之间的匹配状态信息;z表示翻译记忆中与待翻译句子的相似源语言句子tm_s与待翻译句子之间的相似度;田来表示从翻译为的概率,P(Mk|Lk,z)用来表示当前翻译候选与翻译记忆中目标语言翻译短语之间内容以及位置的匹配关系,K为目标语言的个数;
为了在解码过程中融入从翻译记忆中抽取的相关信息,将转换成解码器中实际使用的形式,并使用加权因子α来平衡和P(Mk|Lk,z),0.0<α<1.0,上式进一步展开为:
t ^ = &Delta; arg m a x t { &Sigma; k = 1 K &lsqb; &alpha; &times; &Sigma; m = 1 M &lambda; m h m ( s &OverBar; a ( k ) , t &OverBar; k ) + ( 1 - &alpha; ) &times; l o g ( m a x t m _ t &OverBar; a ( k ) P ( M k | L k , z ) ) &rsqb; } ;
上式就是融合翻译记忆和短语翻译模型后的整合式统计机器翻译模型框架,其中,M表示短语翻译模型所有特征值的个数,是短语翻译模型特征,λm表示的权重;
其中,P(Mk|Lk,z)根据如下所示的模型获得:
P ( M k | L k , z ) = &Delta; P ( TCM k | SCM k , NLN k , SPL k , SEP k , z )
其中,TCMk表示目标语言候选短语与相似目标语言短语之间的内容相似程度;SCMk表示目标语言候选短语与相似源语言短语之间的相似程度;NLNk表示源语言短语与相似源语言短语左右邻居的匹配状态,其用二维向量<x,y>表示,x表示源语言短语与相似源语言短语左右邻居匹配的数目,y表示匹配的邻居在相似源语言句子tm_s和所述相似源语言句子tm_s在翻译记忆中的翻译目标语言句子tm_t的词对齐状况;SPLk表示源语言短语的长度;SEPk表示源语言短语是否为句尾标点符号;
其中,步骤1具体包括:
步骤11:随机将训练集中的双语训练语料分为N份;
步骤12:取其中的N-1份作为短语翻译模型的训练语料,并训练一个短语翻译模型;
步骤13:使用上一步中训练好的短语翻译模型,对剩余的那份训练语料进行强迫解码(ForcedDecoding),获得该份剩余训练语料的双语短语切分对;
步骤14:重复上述步骤,以同样的方式分别获得其它N-1份训练语料的双语短语切分句对,最终得到训练集中所有双语训练语料的双语短语切分句对;
所述所翻译记忆短语对的相关特征包括:翻译记忆中与待翻译句子的相似源语言句子tm_s与待翻译句子之间的相似度;源语言短语所述翻译记忆短语对中相似源语言短语以及相似目标语言短语三者之间的匹配状态;目标语言候选短语与相似目标语言短语之间的匹配状态。
2.如权利要求1所述的方法,其特征在于,P(Mk|Lk,z)替代为根据如下所示的模型获得:
P ( M k | L k , z ) = &Delta; P ( TCM k | SCM k , NLN k , LTC k , SPL k , SEP k , z ) &times; P ( LTC k | CSS k , SCM k , NLN k , SEP k , z )
其中,TCMk表示目标语言候选短语与相似目标语言短语之间的内容相似程度;SCMk表示目标语言候选短语与相似源语言短语之间的相似程度;NLNk表示源语言短语与相似源语言短语左右邻居的匹配状态,其用二维向量<x,y>表示,x表示源语言短语与相似源语言短语左右邻居匹配的数目,y表示匹配的邻居在相似源语言句子tm_s和所述相似源语言句子tm_s在翻译记忆中的翻译目标语言句子tm_t的词对齐状况;SPLk表示源语言短语的长度;SEPk表示源语言短语是否为句尾标点符号;CSSk表示相似源语言短语在相似源语言句子tm_s中对应的相似目标语言短语的候选集合状态;LTCk表示相似目标语言短语在相似目标语言短语候选集合中长度是否最长。
3.如权利要求1所述的方法,其特征在于,P(Mk|Lk,z)替代为根据如下所示的模型获得:
P ( M k | L k , z ) = &Delta; P ( TCM k | SCM k , NLN k , LTC k , SPL k , SEP k , z ) &times; P ( LTC k | CSS k , SCM k , NLN k , SEP k , z ) &times; P ( CPM k | TCM k , SCM k , NLN k , z )
其中,TCMk表示目标语言候选短语与相似目标语言短语之间的内容相似程度;SCMk表示目标语言候选短语相似源语言短语之间的相似程度;NLNk表示源语言短语与相似源语言短语左右邻居的匹配状态,其用二维向量<x,y>表示,x表示源语言短语与相似源语言短语左右邻居匹配的数目,y表示匹配的邻居在相似源语言句子tm_s和所述相似源语言句子tm_s在翻译记忆中的翻译目标语言句子tm_t的词对齐状况;SPLk表示源语言短语的长度;SEPk表示源语言短语是否为句尾标点符号;CSSk表示相似源语言短语在相似源语言句子tm_s中对应的相似目标语言短语的候选集合状态;LTCk表示相似目标语言短语在相似目标语言短语候选集合中长度是否最长;CPMk表示目标语言候选短语和其前一个目标语言候选短语与相似目标语言短语和其前一个相似目标语言短语之间的相对位置匹配关系。
4.如权利要求1所述的方法,其特征在于所述源语言短语所述翻译记忆短语对中相似源语言短语以及相似目标语言短语三者之间的匹配状态包括:目标语言候选短语与相似目标语言短语之间的内容相似程度、相似目标语言短语在相似目标语言短语候选集合中长度是否最长的特征以及目标语言候选短语和其前一个目标语言候选短语与相似目标语言短语和其前一个相似目标语言短语之间的相对位置匹配关系特征;所述目标语言候选短语与相似目标语言短语之间的匹配状态包括:目标语言候选短语相似源语言短语之间的相似程度、源语言短语与相似源语言短语左右邻居的匹配状态、源语言短语的长度、表示源语言短语是否为句尾标点符号以及相似源语言短语在相似源语言句子tm_s中对应的相似目标语言短语的候选集合状态。
CN201310148826.8A 2013-04-25 2013-04-25 一种融合翻译记忆和短语翻译模型的统计机器翻译方法 Active CN103235775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310148826.8A CN103235775B (zh) 2013-04-25 2013-04-25 一种融合翻译记忆和短语翻译模型的统计机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310148826.8A CN103235775B (zh) 2013-04-25 2013-04-25 一种融合翻译记忆和短语翻译模型的统计机器翻译方法

Publications (2)

Publication Number Publication Date
CN103235775A CN103235775A (zh) 2013-08-07
CN103235775B true CN103235775B (zh) 2016-06-29

Family

ID=48883819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310148826.8A Active CN103235775B (zh) 2013-04-25 2013-04-25 一种融合翻译记忆和短语翻译模型的统计机器翻译方法

Country Status (1)

Country Link
CN (1) CN103235775B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646019A (zh) * 2013-12-31 2014-03-19 哈尔滨理工大学 一种多个机器翻译系统融合的方法及装置
CN103885942B (zh) * 2014-03-18 2017-09-05 成都优译信息技术股份有限公司 一种快速翻译装置及方法
CN106383818A (zh) * 2015-07-30 2017-02-08 阿里巴巴集团控股有限公司 一种机器翻译方法及装置
CN105512114B (zh) * 2015-12-14 2018-06-15 清华大学 平行句对的筛选方法和系统
CN108205757B (zh) * 2016-12-19 2022-05-27 创新先进技术有限公司 电子支付业务合法性的校验方法和装置
CN106598959B (zh) * 2016-12-23 2021-03-19 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
CN110147558B (zh) * 2019-05-28 2023-07-25 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
CN112580373B (zh) * 2020-12-26 2023-06-27 内蒙古工业大学 一种高质量蒙汉无监督神经机器翻译方法
CN114139554B (zh) * 2021-11-23 2024-07-12 成都飞机工业(集团)有限责任公司 一种基于计算机翻译用模糊查询系统的翻译方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040199378A1 (en) * 2003-04-07 2004-10-07 International Business Machines Corporation Translation system, translation method, and program and recording medium for use in realizing them
CN102193914A (zh) * 2011-05-26 2011-09-21 中国科学院计算技术研究所 计算机辅助翻译的方法及系统
CN103020044A (zh) * 2012-12-03 2013-04-03 江苏乐买到网络科技有限公司 一种机器辅助网页翻译方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040199378A1 (en) * 2003-04-07 2004-10-07 International Business Machines Corporation Translation system, translation method, and program and recording medium for use in realizing them
CN102193914A (zh) * 2011-05-26 2011-09-21 中国科学院计算技术研究所 计算机辅助翻译的方法及系统
CN103020044A (zh) * 2012-12-03 2013-04-03 江苏乐买到网络科技有限公司 一种机器辅助网页翻译方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dynamic Translation Memory: Using Statistical Machine Translation to improve Translation Memory Fuzzy Matches;Ergun Bic¸ici 等;《In Proceedings of the 9th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 2008)》;20081231;第4919卷;第454-465页 *
基于短语的汉英机器翻译系统的涉及与实现;何晓峰;《万方学位论文数据库》;20100119;正文1-47页 *

Also Published As

Publication number Publication date
CN103235775A (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
CN103235775B (zh) 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN100511215C (zh) 多语种翻译存储器和翻译方法
US7536295B2 (en) Machine translation using non-contiguous fragments of text
CN102799579B (zh) 具有错误自诊断和自纠错功能的统计机器翻译方法
JP5586817B2 (ja) ツリーレット翻訳対の抽出
CN102708098B (zh) 一种基于依存连贯性约束的双语词语自动对齐方法
JP2008262587A (ja) 用例ベースの機械翻訳システム
CN103473223B (zh) 一种基于句法树的规则抽取及翻译方法
CN103116578A (zh) 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN111611814B (zh) 一种基于相似度感知的神经机器翻译方法
CN101271451A (zh) 计算机辅助翻译的方法和装置
Chen et al. A simplification-translation-restoration framework for cross-domain SMT applications
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN102662932A (zh) 构建树结构及基于树结构的机器翻译系统的方法
Sánchez-Martínez et al. Inferring shallow-transfer machine translation rules from small parallel corpora
Lavie et al. Experiments with a Hindi-to-English transfer-based MT system under a miserly data scenario
McTait et al. A language-neutral sparse-data algorithm for extracting translation patterns
Mansouri et al. State-of-the-art english to persian statistical machine translation system
Slayden et al. Thai sentence-breaking for large-scale SMT
Piperidis et al. From sentences to words and clauses
Groves et al. Hybridity in MT: Experiments on the Europarl corpus
Azadi et al. Improved search strategy for interactive predictions in computer-assisted translation
Black et al. Evaluating Lemmatization Models for Machine-Assisted Corpus-Dictionary Linkage.
Boro et al. Romanian-english statistical translation at racai
Torres-Ramos et al. A Survey on Statistical-based Parallel Corpus Alignment.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant