CN104298663A - 评价术语领域翻译一致性的方法及统计机器翻译方法 - Google Patents

评价术语领域翻译一致性的方法及统计机器翻译方法 Download PDF

Info

Publication number
CN104298663A
CN104298663A CN201410520322.9A CN201410520322A CN104298663A CN 104298663 A CN104298663 A CN 104298663A CN 201410520322 A CN201410520322 A CN 201410520322A CN 104298663 A CN104298663 A CN 104298663A
Authority
CN
China
Prior art keywords
translation
source language
term
document
consistance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410520322.9A
Other languages
English (en)
Other versions
CN104298663B (zh
Inventor
孟凡东
熊德意
姜文斌
刘群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201410520322.9A priority Critical patent/CN104298663B/zh
Publication of CN104298663A publication Critical patent/CN104298663A/zh
Application granted granted Critical
Publication of CN104298663B publication Critical patent/CN104298663B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种评价术语领域翻译一致性的方法,该方法以双语平行语料库的文档-主题分布信息作为术语翻译的领域信息,构建双语术语库,并计算每个源语言术语的翻译一致性强度来客观地评价在领域内术语翻译的一致性。该方法充分利用领域信息,在术语翻译中保持源语言术语的译文在相同或相近领域内一致。而且该方法可以嵌入到统计机器翻译中,改进源语言术语所在的句子、篇章文档的整体翻译质量。

Description

评价术语领域翻译一致性的方法及统计机器翻译方法
技术领域
本发明涉及自然语言处理及机器翻译,尤其涉及统计机器翻译中的术语翻译方法。
背景技术
术语是语言中用于定义概念的一种语言学表达(ISO 1087)。因此,术语在不同语言之间具有传递概念的作用。在翻译中,术语的翻译也是非常重要的。术语的翻译受术语所属领域及其所处的上下文的影响(MurielVasconcellos,Brian Avey,Claudia Gdaniec,Laurie Gerber,Marjorie Le′on,and Teruko Mitamura.2001.Terminology and machine translation.Handbookof Terminology Management,2:697–723.)。同一术语在不同的领域和上下文环境中,其翻译是不同的,而在相同或相近的领域内,术语的翻译应该具有一致性。但是当前的主流的统计机器翻译模型,例如基于短语的模型、基于层次短语的模型、基于语言学句法的模型等,都没有针对术语在相同或者相似领域内的一致性翻译的解决方案。目前都是通过人工的方式对译文中的术语进行调整,这无疑降低了翻译工作的效率,而且依赖于译者对文本所述领域及上下文的理解,缺乏对术语翻译的领域一致性客观衡量,难以保证翻译质量的稳定性。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种可以嵌入统计机器翻译中的术语领域一致性翻译方法。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种衡量术语领域翻译一致性的方法,所述方法包括:
步骤1),基于双语平行语料库来建立双语术语库;其中,所述双语术语库包括从双语平行语料库中抽取的源语言术语的集合以及与所述源语言术语集合中每个源语言术语满足对齐一致性且互为翻译的目标语言术语构成的集合;
步骤2)将双语平行语料库中的源语言语料和目标语言语料分别按照相同的方式划分为多个文档,基于为双语平行语料库设定的多个主题来获取每个文档的文档-主题分布信息,每个文档的文档-主题分布信息包括该文档属于所述多个主题中各个主题的概率;
步骤3)对于双语术语库中每个源语言术语,通过下面的公式计算其与所述多个主题中每个主题相关的翻译一致性强度为:
cons ( t , k ) = Σ m = 1 M Σ n = 1 N m ( q mn * p ( k | m ) Q k ) 2 ; 其中 Q k = Σ m = 1 M Σ n = 1 N m q mn * p ( k | m ) ;
其中,cons(t,k)表示源语言术语t与所述多个主题中第k个主题相关的翻译一致性强度,M表示在其中出现源语言术语t的源语言文档的数目;Nm表示源语言术语t在第m个目标语言文档中的不同译文的数目;qmn表示在第m个目标语言文档中,源语言术语的第n个译文出现的次数;p(k|m)表示第m个源语言文档属于第k个主题的概率;Qk表示归一化因子,以确保cons(t,k)的值在0到1之间,其中所述源语言术语t的译文都属于所述双语术语库中与该源语言术语t互为翻译的目标语言术语的集合。
在上述的衡量术语领域翻译一致性的方法中,所述步骤1)可包括:
步骤11)分别从双语平行语料库的源语言和目标语言集合抽取源语言术语和目标语言术语,构建源语言术语库和目标语言术语库;
步骤12)对于双语平行语料库中的每个源语言句子:
基于所述源语言术语库识别该源语言句子中的所有源语言术语;以及
对于所识别的每个源语言术语,根据双语平行语料库中源语言和目标语言的词语对齐关系,从与该源语言句子对应的目标语言句子中找到与该源语言术语满足对齐一致性的目标语言词串,如果该目标语言词串为所述目标语言术语库中的术语,则将该源语言术语与该目标语言词串添加到双语术语库中。
在上述的衡量术语领域翻译一致性的方法中,在所述步骤2)中可利用基于概率的隐含语义分析工具或者利用潜在狄利克雷分配工具来获取每个文档的文档-主题分布信息。
又一方面,本发明提供了一种用于统计机器翻译中评价术语翻译一致性的方法,所述方法包括:
步骤A,将待翻译文本划分为多个文档,并基于设定的多个主题来计算每个文档的文档-主题分布信息;其中每个文档是该待翻译文本中一段连续的句子的集合,在每个文档的内部,每个句子占一行;所述每个文档的文档-主题分布信息包括该文档属于所述多个主题中的各个主题的概率;
步骤B,对待翻译文本中每一个句子执行下列操作:
基于双语术语库识别出该句子中所有的源语言术语;以及
计算该句子中所有识别出的每个源语言术语的翻译一致性强度;
其中,所述双语术语库包括从双语平行语料库中抽取的源语言术语集合、与所述源语言术语集合中每个源语言术语满足对齐一致性且互为翻译的目标语言术语构成的集合;
其中,每个源语言术语的翻译一致性强度以下面的公式来计算:
S ( t i | D ) = Σ k = 1 K cons ( t i , k ) * p ( k | D ) ;
其中,S(ti|D)表示该句子中所识别出的第i个源语言术语ti的翻译一致性强度,D表示该句子所在的文档,p(k|D)表示文档D属于第k个主题的概率,cons(ti,k)表示根据上述的衡量术语领域翻译一致性的方法计算的双语术语库中源语言术语ti与所述多个主题中第k个主题相关的翻译一致性强度;K表示所述多个主题的数量,i、k均为正整数,且1≤k≤K。
在上述评价术语翻译一致性的方法中,还可以包括以取对数的方式将所述每个源语言术语的翻译一致性强度进行归一化的步骤。
又一方面,本发明提供了一种统计机器翻译方法,所述方法中将术语翻译一致性强度特征作为用于为源语言短语选择相应目标译文的特征之一,所述方法包括:
对于待翻译文本中每个源语言句子中每个短语及其对应的每个候选目标译文,判断该短语是否在双语术语库的源语言术语集合中并且该候选目标译文属于所述双语术语库中与该短语对齐一致且互为翻译的目标术语集合;如果是,则将该候选译文对应的术语翻译一致性强度特征的值设置为该短语的翻译一致性强度;
其中,所述双语术语库包括从双语平行语料库中抽取的源语言术语集合、与所述源语言术语集合中每个源语言术语满足对齐一致性且互为翻译的目标语言术语构成的集合;
所述该短语的翻译一致性强度采用上述评价术语翻译一致性的方法来计算。
又一方面,本发明提供了一种用于统计机器翻译中评价术语翻译一致性的装置,所述装置包括:
主题分布信息获取模块,用于将待翻译文本划分为多个文档,并基于设定的多个主题来计算每个文档的文档-主题分布信息;其中每个文档是该待翻译文本中一段连续的句子的集合,在每个文档的内部,每个句子占一行;所述每个文档的文档-主题分布信息包括该文档属于所述多个主题中的每个主题的概率;
术语翻译一致性计算模块,用于对待翻译文本中每一个句子执行下列操作:
基于双语术语库识别出该句子中所有的源语言术语;以及
计算该句子中所有识别出的每个源语言术语的翻译一致性强度;
其中,所述双语术语库包括从双语平行语料库中抽取的源语言术语集合、与所述源语言术语集合中每个源语言术语满足对齐一致性且互为翻译的目标语言术语构成的集合;
其中,每个源语言术语的翻译一致性强度以下面的公式来计算:
S ( t i | D ) = Σ k = 1 K cons ( t i , k ) * p ( k | D ) ;
其中,S(ti|D)表示该句子中所识别出的第i个源语言术语ti的翻译一致性强度,D表示该句子所在的文档,p(k|D)表示文档D属于第k个主题的概率,cons(ti,k)表示根据上述的衡量术语领域翻译一致性的方法计算的双语术语库中源语言术语ti与所述多个主题中第k个主题相关的翻译一致性强度;K表示所述多个主题的数量,i、k均为正整数,且1≤k≤K。
在上述装置中,术语翻译一致性计算模块还可包括用于以取对数的方式将所述每个源语言术语的翻译一致性强度进行归一化的模块。
又一方面,本发明还提供了一种统计机器翻译系统,所述系统中将术语翻译一致性强度特征作为为源语言短语选择相应目标译文的特征之一,所述系统包括:
术语翻译一致性计算模块,用于对于待翻译文本中每个源语言句子中每个短语及其对应的每个候选目标译文,判断该短语是否在双语术语库的源语言术语集合中并且该候选目标译文属于所述双语术语库中与该短语对齐一致且互为翻译的目标术语集合;如果是,则将该候选译文对应的术语翻译一致性强度特征的值设置为该短语的翻译一致性强度;
其中,所述双语术语库包括从双语平行语料库中抽取的源语言术语集合、与所述源语言术语集合中每个源语言术语满足对齐一致性且互为翻译的目标语言术语构成的集合;
所述该短语的翻译一致性强度采用上述评价术语翻译一致性的方法来计算。
与现有技术相比,本发明的优点在于:
以双语平行语料库的文档-主题分布信息作为领域信息,来客观地衡量术语的领域翻译一致性强度,使得在术语翻译中能充分利用领域信息,保持源语言术语的译文在相同或相近领域内一致。而且将术语翻译一致性强度作为特征嵌入到统计机器翻译中,改进源语言术语所在的句子、篇章文档的整体翻译质量。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1示出了根据本发明实施例的衡量术语领域翻译一致性的方法的流程示意图;
图2(a)示出了源语言(中文)句子和从中抽取出的术语示例;
图2(b)示出了目标语言(英文)句子和从中抽取出的术语示例;
图3示出了一个词语对齐的双语句对的示例;
图4示出了根据本发明一个实施例的有文档标签的平行语料格式示例。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1给出了根据本发明的一个实施例的一种衡量术语领域翻译一致性的方法的流程示意图,该方法基于双语平行语料库来建立双语术语库,以双语平行语料库的文档-主题分布情况在表示领域信息,并基于此来计算双语术语库中每个源语言术语的领域翻译一致性强度。如图1所示,该方法主要包括下列步骤1-步骤3:
在步骤1,基于双语平行语料库来建立双语术语库。
其中,双语术语库包括从双语平行语料库中抽取的源语言术语的集合以及与所述源语言术语集合中每个源语言术语满足对齐一致性的且互为翻译的目标语言术语构成的集合。
在一个实施例中,可通过下面的步骤来构建双语术语库:
步骤1a),分别从双语平行语料库的源语言和目标语言集合抽取源语言术语和目标语言术语,从而构建源语言术语库和目标语言术语库。这里可以采用现有的各种抽取术语的方法来构建术语库。例如,可以采用基于对数似然比(LLR)的术语抽取方法、基于互信息的术语抽取方法或者基于词典的术语抽取方法等等来抽取术语。又例如,也可以通过参考文献1(B′eatrice Daille.1996.Study and implementation of combined techniques forautomatic extraction of terminology.Journal of The balancing act:Combiningsymbolic and statistical approaches to language,1:49–66.)中提供的方法来实现术语的抽取。在一个实施例中,对于源语言和目标语言,采用相同的术语抽取方法,分别从双语平行语料库的源语言和目标语言集合来抽取术语并构建源语言术语库和目标语言术语库。在又一个实施例中,对于源语言和目标语言,采用不同的术语抽取方法,分别从双语平行语料库的源语言和目标语言集合来抽取术语并构建源语言术语库和目标语言术语库。在又一个实施例中,对于同一语言,可以采用多种术语库抽取方法来进行术语抽取,然后将所抽取的术语合并成该语言的术语库。以上仅是举例说明,在本发明的实施例中不对术语抽取的方式进行任何限定。
以源语言为中文,目标语言为英文的汉英双语平行语料库为例,图2(a)给出了从中文句子“塞族部队最近被装备了防御系统。”中抽取出的术语样例“塞族部队”和“防御系统”。图2(b)给出与图2(a)对应的英文句子“Serb forces have recently been equipped with defence systems.”中抽取出的术语样例“Serb forces”和“defence systems”。
步骤1b),利用双语平行语料库中源语言和目标语言的词语对齐关系,基于所抽取出的源语言术语库和目标语言术语库,构建互为翻译的双语术语库。其中,双语平行语料库中源语言和目标语言之间的词语对齐关系可以现有的各种对齐工具来获得。例如,可通过对齐工具GIZA++(可参见Franz Josef Och,Hermann Ney.“A Systematic Comparison of VariousStatistical Alignment Models”,Computational Linguistics,volume 29,number1,pages 19-51,March 2003.)来获得。本领域普通技术人员应该理解在其他实施例中可以采用现有的其他对齐工具来获得源语言和目标语言间的词语对齐关。
具体地,首先,对于双语平行语料库中的每个源语言句子,基于所述源语言术语库识别该源语言句子的所有源语言术语。例如,对于双语平行语料库中的每个源语言句子及其对应的目标语言句子,枚举源语言句子的所有连续词串并依次判别源语言的连续词串是否为源语言术语库中的术语。如果是源语言术语库中的术语(用ts表示),那么根据双语平行语料库中源语言和目标语言的词语对齐关系,从对应的目标语言句子中找到与ts满足对齐一致性的目标语言词串te,判别te是否为目标语言术语库中的术语,如果是则将术语对(ts,te)添加到双语术语库中。这里满足对齐一致性的含义与是基于短语的统计机器翻译模型中的对齐一致的含义相同,具体可参见参考文献(Philipp Koehn,Franz Josef Och,and Daniel Marcu.2003.Statistical phrase-based translation.In Proceedings of the 2003Conference of the North American Chapter of the Association forComputational Linguistics on Human Language Technology-Volume 1,pages48–54.)。也就是指,与ts中的所有词语有对齐边相连的目标端词序列中所组成的词或短语p,如果p中的任何一个词都不会对齐到ts以外的词,则ts与p是对齐一致的;反之则不一致。
仍以上文给出的中英文句子为例,图3给出了从中文句子“塞族部队最近被装备了防御系统。”和英文句子“Serb forces have recentlybeen equipped with defence systems.”的词语对齐结果,其中“防御系统”和“defence systems”满足对齐一致性,因此可以将“防御系统”和“defencesystems”添加到双语术语库中。而“塞族部队”与“Serb forces”不满足对齐一致性,因为“塞族部队”还会对齐至“have”,而“have”对齐到“被”也就是“塞族部队”以外的词,因此不可以将“塞族部队”和“Serbforces”添加到双语术语库中。
继续参考图1,在步骤2,获取双语平行语料的文档-主题分布信息。
文档-主题分布信息用于指示文档中隐含的主题分布特征,通常是以文档属于各个主题的概率来表示。在本发明的实施例中,采用文档-主题分布信息来表示与术语翻译相关的领域信息。可以采用现有的各种文档-主题分布计算工具来获得双语平行语料库中源语言语料的文档-主题分布。例如,PLSA(Probabilistic Latent Semantic Analysis,基于概率的隐含语义分析),LDA(Latent Dirichlet Allocation,潜在狄利克雷分配)等都是常用的获取文档-主题分布信息的工具。
在一个示例中,首先将双语平行语料库中源语言语料划分为多个文档,每个文档是源语言语料中一段连续的源语言句子的集合。在每个文档的内部,每个源语言句子占一行。不同文档之间用文档标签区分开,文档标签仅仅作为区分不同文档的标记,无实际含义。对于双语平行语料库中目标语言语料也按照与划分源语言语料的相同的方式进行划分。文档中的每一个句子,其主题分布信息用该文档的主题分布信息表示。由于双语平行语料库中源语言和目标语言是语义对等的,并且其文档划分和标记也是一一对应的,因此只要计算源语言的文档-主题分布情况,目标语言的文档-主题分布信息直接用源语言的文档-主题分布信息来表示。图4给出了根据本发明一个实施例的带有文档标签的平行语料格式示意,即源语言的语料格式(左)和目标语言的语料格式(右)。将双语平行语料库中源语言语料和目标语言语料划分为多个文档,以文档标签进行区分,如图4所示的<文档1>、<文档2>……等。也可以采用其他标识符作为区分不同文档的标记。每个文档的句子个数不一定相同,源语言和目标语言的文档一一对应,源语言和目标语言的句子一一对应。
接着,基于为双语平行语料库设定的多个主题,并计算每个文档的文档-主题分布信息。假定以正整数K来表示所设定的主题的数量,利用LDA工具来计算该语料库中每个文档的主题分布信息。每个文档的主题分布信息以一个K维的向量来表示,该向量中的第k个元素表示该文档属于第k个主题的概率,其中k为正整数,且1≤k≤K。例如,该概率可记为p(k|m),表示第m个文档属于第k个主题的概率,有时也将其称为在第m个文档下的第k个主题的条件概率。
继续参考图1,在步骤3,以所获取的文档主题分布信息作为领域信息,计算双语术语库中术语的领域翻译一致性强度。
对于双语术语库中每个源语言术语,构建一个二元组(tf,Set(te)),其中tf表示源语言术语,Set(te)表示与源语言术语tf互为翻译的目标语言术语的集合;然后对于每个二元组,计算术语领域翻译一致性强度。术语领域翻译一致性强度也是以一个K维向量来表示,这里的K等于上文所设定的主题数量。该向量的第k个元素是与第k个主题相关的源语言术语翻译一致性强度conf(tf,k),其中计算公式如下:
cons ( t t , k ) = &Sigma; m = 1 M &Sigma; n = 1 N m ( q mn * p ( k | m ) Q k ) 2         (公式1)
Q k = &Sigma; m = 1 M &Sigma; n = 1 N m q mn * p ( k | m )        (公式2)
其中,M表示在双语平行语料库中,在其中出现源语言术语tf的源语言文档的数目;Nm表示在第m个目标语言文档中源语言术语tf的不同译文的数目;qmn表示在第m个目标语言文档中,源语言术语tf的第n个译文出现的次数;p(k|m)表示第m个文档属于第k个主题的概率,可参见上文所得到的第m个文档的主题分布信息;Qk表示归一化因子,以确保cons(tf,k)的值在0到1之间。这里面所述源语言术语tf的译文都应属于集合Set(te)。上述的数量或次数的统计都来源于源语言术语和目标语言术语所在的双语平行语料库。
表1给出了计算第k个主题相关的源语言术语翻译一致性强度的示例。假设源语言术语tf只双语平行语料库的源语言文档1和文档2中出现过;在目标语言文档1中,源语言术语tf的目标语言术语译文为B和C,分别出现了1次和2次;在目标语言文档2中,源语言术语tf的目标语言术语译文为A,B和C,分别出现了1次,1次和2次;则M=2,N1=2,N2=3,qmn的值如表1第3列所示,并且假定p(k|m=1)=0.1,p(k|m=2)=0.2。根据公式2,可计算出Qk=1.1,再根据公式1,可以计算出cons(tf,k)=0.2397。
表1
这样,通过上述步骤1-3,可以基于双语平行语料库获得对各个术语的领域翻译一致性强度进行衡量。如果源语言术语对应的目标语言译文在很多领域中出现,并且译文种类较分散,其领域翻译一致性强度较弱。反之,如果一个源语言术语在同一领域内只出现一种译文,也就是说在同一领一下翻译很一致,那么其领域翻译一致性强度为1。领域翻译领域翻译。
根据本发明的又一个实施例,提供了一种用于统计机器翻译中评价术语翻译一致性的方法,所述方法包括:
步骤A,获取待翻译的文本的文档-主题分布信息。
该步骤与上文计算双语平行语料库的文档-主题分布信息类似,并采样相同的主题设定。将待翻译文本划分为多个文档,每个文档是该待翻译文本中一段连续的句子的集合,在每个文档的内部,每个句子占一行。并且基于上文所设定的多个主题来计算每个文档的文档-主题分布信息;每个文档的文档-主题分布信息包括该文档属于所述多个主题中的每个主题的概率。如上文所讨论的,可以利用现有的各种文档-主题分布工具来获取待翻译的文本的文档-主题分布信息。
步骤B,对待翻译文本中每一个句子,根据上文所建立的双语术语库中的源语言术语库,识别出该句子中所有的源语言术语,并且计算所识别出的每个源语言术语的翻译一致性强度。
在一个实施例中,从源语言句子所识别的每个源语言术语的翻译一致性强度以下面的公式来计算:
S ( t i | D ) = &Sigma; k = 1 K cons ( t i , k ) * p ( k | D ) ;
其中,S(ti|D)表示该句子中所识别出的第i个源语言术语ti的翻译一致性强度,D表示该句子所在的文档,p(k|D)表示文档D属于第k个主题的概率,cons(ti,k)表示如采用上文介绍的方法(即步骤1-3)计算的双语术语库中源语言术语ti与所述多个主题中第k个主题相关的翻译一致性强度;K表示所述多个主题的数量,i、k均为正整数,且1≤k≤K。
而该源语言句子的术语翻译一致性可以采用该句子中所有识别出的源语言术语的翻译一致性强度的乘积来衡量,即:
其中T表示从源语言句子中识别的源语言术语的数量。
在又一个实施例中,为了方便比较,可以对上述公式进行归一化处理,使得每个源语言术语的翻译一致性强度被归一化为[0,1]之间的值。例如从源语言句子所识别的每个源语言术语的翻译一致性强度以下面的公式进行计算: S ( t i | D ) = log ( &Sigma; k = 1 K cons ( t i , k ) * p ( k | D ) ) ;
其中T表示从源语言句子中识别的源语言术语的数量,S(ti|D)表示该句子中所识别出的第i个源语言术语ti的翻译一致性强度。
而该源语言句子的术语翻译一致性可以通过下面的公式来计算: &Pi; i = 1 T exp ( S ( t i | D ) ) ; 其中, S ( t i | D ) = log ( &Sigma; k = 1 K cons ( t i , k ) * p ( k | D ) ) .
另外,上述的评价术语翻译一致性的方法还可以嵌入到统计机器翻译方法和系统中,例如,将术语翻译一致性强度以特征的方式嵌入到统计机器翻译过程中,作为评价和选择译文的一个指标来改进术语所在句子、篇章的整体翻译质量。
目前的统计机器翻译系统有基于短语模型(从左到右翻译)、层次短语模型(自底向上翻译)、语言学句法树到串模型(按照句法树节点自底向上翻译)等。但是无论怎么哪种统计机器翻译方法,都是把源语言句子中的词或者短语(下面统称为短语,因为词也可以看成是短语)先一块一块地翻译,然后将这些短语的译文拼成整个句子的翻译结果。其中对于每个源语言句子中的短语进行翻译,会得到多个候选的目标译文,如何对源语言的一块短语选择合适的译文,是各个翻译模型都必须做的工作。目前主流的翻译模型都采用∑权重*特征的方式对每一块源语言短语与目标语言的短语对进行打分,从而帮助选择合适的翻译译文。其中,特征可以是从源语言短语到目标语言短语的翻译概率、目标语言短语包含的词语个数等,比较灵活。关于每个特征的权重的设置方法也有很多成熟的方法,例如参考文献(Franz Josef Och.2003.Minimum error rate training in statisticalmachine translation.In Proceedings of the 41st Annual Meeting on Associationfor Computational Linguistics-Volume 1,pages 160–167)提供的训练特征权重的方法,该方法也称为“最小错误率训练方法”。只要将某个特征嵌入到统计机器翻译的对数线性框架(这是统计机器翻译的通用框架)下,用最小错误率训练方法训练出该特征的权重。或者也可以参考文献(DeyiXiong,Min Zhang,Aiti Aw,and Haizhou Li.2009.A syntax-driven bracketingmodel for phrasebased translation.In Proceedings of the Joint Conference ofthe 47th Annual Meeting of the ACL and the 4th International JointConference on Natural Language Processing of the AFNLP,pages 315–323.)来将某个特征嵌入到统计机器翻译方法中。
根据本发明的又一个实施例,提供了一种统计机器翻译方法,所述方法将上文讨论的术语翻译一致性强度特征作为用于为源语言短语选择相应译文的特征之一,其包括:
对于待翻译文本中每个源语言句子中短语及其对应的每个候选译文,判断该源语言句子中第i个短语ti是否属于上文建立的双语术语库中的源语言术语集合,如果属于,则判断该候选译文是否属于双语术语库中与该短语ti对齐一致且互为翻译的目标术语集合,如果是,则该候选译文对应的术语翻译一致性强度特征的值等于源语言术语ti的翻译一致性强度。这里,源语言术语ti的翻译一致性强度,可以采用上文相同的方法(如步骤A和步骤B)来进行计算,即:
S ( t i | D ) = &Sigma; k = 1 K cons ( t i , k ) * p ( k | D ) ; S ( t i | D ) = log ( &Sigma; k = 1 K cons ( t i , k ) * p ( k | D ) ) ;
其中,S(ti|D)表示源语言句子中所识别出的第i个源语言术语ti的翻译一致性强度,D表示该句子所在的文档,p(k|D)表示文档D属于第k个主题的概率,cons(ti,k)表示上文所计算的双语术语库中源语言术语ti与所述多个主题中第k个主题相关的翻译一致性强度;K表示所述多个主题的数量,i、k均为正整数,且1≤k≤K。
反之,在其他情况下,例如,如果该源语言句子中第i个短语ti虽然属于上文建立的双语术语库中的源语言术语集合,但该候选译文不属于双语术语库中与该短语ti对齐一致且互为翻译的目标术语集合,或者如果该源语言句子中第i个短语ti不属于上文建立的双语术语库中的源语言术语集合,则该候选译文对应的术语翻译一致性强度特征的值等于0。
该方法将术语翻译一致性强度作为一个特征来评价源语言术语与目标语言术语的翻译是否合适,如果术语翻译一致性强度特征的值与相应的权重的乘积较高,那么该统计机器翻译方法倾向于在从抽取出的双语术语库中选择源语言术语tfi的译文,否则倾向于从传统的翻译规则表中选择源语言术语tfi的译文,就像其他普通短语(非术语)一样。由于术语是句子的一部分,对术语的翻译改善了,也会改善整个句子的翻译。同时,由于翻译系统对一个术语选择了合适的译文,也就影响了对源语言短语的划分,因此也会影响整个句子的翻译结果。
为了更好地说明本发明的效果,发明人在430万平行双语语料数据集上(包含7万文档)上进行了对比试验,本发明的方法相对于统计机器翻译的传统基线系统的方法提高0.89BLEU点。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims (9)

1.一种衡量术语领域翻译一致性的方法,所述方法包括:
步骤1),基于双语平行语料库来建立双语术语库;其中,所述双语术语库包括从双语平行语料库中抽取的源语言术语的集合以及与所述源语言术语集合中每个源语言术语满足对齐一致性且互为翻译的目标语言术语构成的集合;
步骤2)将双语平行语料库中的源语言语料和目标语言语料分别按照相同的方式划分为多个文档,基于为双语平行语料库设定的多个主题来获取每个文档的文档-主题分布信息,每个文档的文档-主题分布信息包括该文档属于所述多个主题中各个主题的概率;
步骤3)对于双语术语库中每个源语言术语,通过下面的公式计算其与所述多个主题中每个主题相关的翻译一致性强度为:
cons ( t , k ) = &Sigma; m = 1 M &Sigma; n = 1 N m ( q mn * p ( k | m ) Q k ) 2 ; 其中 Q k = &Sigma; m = 1 M &Sigma; n = 1 N m q mn * p ( k | m ) ;
其中,cons(t,k)表示源语言术语t与所述多个主题中第k个主题相关的翻译一致性强度,M表示在其中出现源语言术语t的源语言文档的数目;Nm表示源语言术语t在第m个目标语言文档中的不同译文的数目;qmn表示在第m个目标语言文档中,源语言术语的第n个译文出现的次数;p(k|m)表示第m个源语言文档属于第k个主题的概率;Qk表示归一化因子,以确保cons(t,k)的值在0到1之间,其中所述源语言术语t的译文都属于所述双语术语库中与该源语言术语t互为翻译的目标语言术语的集合。
2.根据权利要求1所述的方法,所述步骤1)包括:
步骤11)分别从双语平行语料库的源语言和目标语言集合抽取源语言术语和目标语言术语,构建源语言术语库和目标语言术语库;
步骤12)对于双语平行语料库中的每个源语言句子:
基于所述源语言术语库识别该源语言句子中的所有源语言术语;以及
对于所识别的每个源语言术语,根据双语平行语料库中源语言和目标语言的词语对齐关系,从与该源语言句子对应的目标语言句子中找到与该源语言术语满足对齐一致性的目标语言词串,如果该目标语言词串为所述目标语言术语库中的术语,则将该源语言术语与该目标语言词串添加到双语术语库中。
3.根据权利要求1所述的方法,在所述步骤2)中利用基于概率的隐含语义分析工具或者利用潜在狄利克雷分配工具来获取每个文档的文档-主题分布信息。
4.一种用于统计机器翻译中评价术语翻译一致性的方法,所述方法包括:
步骤A,将待翻译文本划分为多个文档,并基于设定的多个主题来计算每个文档的文档-主题分布信息;其中每个文档是该待翻译文本中一段连续的句子的集合,在每个文档的内部,每个句子占一行;所述每个文档的文档-主题分布信息包括该文档属于所述多个主题中的各个主题的概率;
步骤B,对待翻译文本中每一个句子执行下列操作:
基于双语术语库识别出该句子中所有的源语言术语;以及
计算该句子中所有识别出的每个源语言术语的翻译一致性强度;
其中,所述双语术语库包括从双语平行语料库中抽取的源语言术语集合、与所述源语言术语集合中每个源语言术语满足对齐一致性且互为翻译的目标语言术语构成的集合;
其中,每个源语言术语的翻译一致性强度以下面的公式来计算:
S ( t i | D ) = &Sigma; k = 1 K cons ( t i , k ) * p ( k | D ) ;
其中,S(ti|D)表示该句子中所识别出的第i个源语言术语ti的翻译一致性强度,D表示该句子所在的文档,p(k|D)表示文档D属于第k个主题的概率,cons(ti,k)表示根据权利要求1-3中任一权利要求所述的方法计算的双语术语库中源语言术语ti与所述多个主题中第k个主题相关的翻译一致性强度;K表示所述多个主题的数量,i、k均为正整数,且1≤k≤K。
5.根据权利要求4所述的方法,还包括以取对数的方式将所述每个源语言术语的翻译一致性强度进行归一化的步骤。
6.一种统计机器翻译方法,所述方法中将术语翻译一致性强度特征作为用于为源语言短语选择相应目标译文的特征之一,所述方法包括:
对于待翻译文本中每个源语言句子中每个短语及其对应的每个候选目标译文,判断该短语是否在双语术语库的源语言术语集合中并且该候选目标译文属于所述双语术语库中与该短语对齐一致且互为翻译的目标术语集合;如果是,则将该候选译文对应的术语翻译一致性强度特征的值设置为该短语的翻译一致性强度;
其中,所述双语术语库包括从双语平行语料库中抽取的源语言术语集合、与所述源语言术语集合中每个源语言术语满足对齐一致性且互为翻译的目标语言术语构成的集合;
所述该短语的翻译一致性强度采用如权利要求4或5所述的方法来计算。
7.一种用于统计机器翻译中评价术语翻译一致性的装置,所述装置包括:
主题分布信息获取模块,用于将待翻译文本划分为多个文档,并基于设定的多个主题来计算每个文档的文档-主题分布信息;其中每个文档是该待翻译文本中一段连续的句子的集合,在每个文档的内部,每个句子占一行;所述每个文档的文档-主题分布信息包括该文档属于所述多个主题中的每个主题的概率;
术语翻译一致性计算模块,用于对待翻译文本中每一个句子执行下列操作:
基于双语术语库识别出该句子中所有的源语言术语;以及
计算该句子中所有识别出的每个源语言术语的翻译一致性强度;
其中,所述双语术语库包括从双语平行语料库中抽取的源语言术语集合、与所述源语言术语集合中每个源语言术语满足对齐一致性且互为翻译的目标语言术语构成的集合;
其中,每个源语言术语的翻译一致性强度以下面的公式来计算:
S ( t i | D ) = &Sigma; k = 1 K cons ( t i , k ) * p ( k | D ) ;
其中,S(ti|D)表示该句子中所识别出的第i个源语言术语ti的翻译一致性强度,D表示该句子所在的文档,p(k|D)表示文档D属于第k个主题的概率,cons(ti,k)表示根据权利要求1-3中任一权利要求所述的方法计算的双语术语库中源语言术语ti与所述多个主题中第k个主题相关的翻译一致性强度;K表示所述多个主题的数量,i、k均为正整数,且1≤k≤K。
8.根据权利要求7所述的装置,术语翻译一致性计算模块还包括用于以取对数的方式将所述每个源语言术语的翻译一致性强度进行归一化的模块。
9.一种统计机器翻译系统,所述系统中将术语翻译一致性强度特征作为为源语言短语选择相应目标译文的特征之一,所述系统包括:
术语翻译一致性计算模块,用于对于待翻译文本中每个源语言句子中每个短语及其对应的每个候选目标译文,判断该短语是否在双语术语库的源语言术语集合中并且该候选目标译文属于所述双语术语库中与该短语对齐一致且互为翻译的目标术语集合;如果是,则将该候选译文对应的术语翻译一致性强度特征的值设置为该短语的翻译一致性强度;
其中,所述双语术语库包括从双语平行语料库中抽取的源语言术语集合、与所述源语言术语集合中每个源语言术语满足对齐一致性且互为翻译的目标语言术语构成的集合;
所述该短语的翻译一致性强度采用如权利要求4或5所述的方法来计算。
CN201410520322.9A 2014-09-30 2014-09-30 翻译一致性的方法和装置及统计机器翻译方法和系统 Expired - Fee Related CN104298663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410520322.9A CN104298663B (zh) 2014-09-30 2014-09-30 翻译一致性的方法和装置及统计机器翻译方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410520322.9A CN104298663B (zh) 2014-09-30 2014-09-30 翻译一致性的方法和装置及统计机器翻译方法和系统

Publications (2)

Publication Number Publication Date
CN104298663A true CN104298663A (zh) 2015-01-21
CN104298663B CN104298663B (zh) 2017-01-18

Family

ID=52318392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410520322.9A Expired - Fee Related CN104298663B (zh) 2014-09-30 2014-09-30 翻译一致性的方法和装置及统计机器翻译方法和系统

Country Status (1)

Country Link
CN (1) CN104298663B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677913A (zh) * 2016-02-29 2016-06-15 哈尔滨工业大学 一种基于机器翻译的中文语义知识库的构建方法
CN106649289A (zh) * 2016-12-16 2017-05-10 中国科学院自动化研究所 同时识别双语术语与词对齐的实现方法及实现系统
CN107632982A (zh) * 2017-09-12 2018-01-26 郑州科技学院 语音控制外语翻译设备用的方法和装置
CN108845993A (zh) * 2018-06-06 2018-11-20 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备
CN112364669A (zh) * 2020-10-14 2021-02-12 北京中科凡语科技有限公司 机器翻译译后的术语翻译方法、装置、设备及存储介质
CN112507060A (zh) * 2020-12-14 2021-03-16 福建正孚软件有限公司 一种领域语料库构建方法及系统
CN113935339A (zh) * 2021-08-31 2022-01-14 北京百度网讯科技有限公司 翻译方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120203540A1 (en) * 2011-02-08 2012-08-09 Microsoft Corporation Language segmentation of multilingual texts
CN103473280A (zh) * 2013-08-28 2013-12-25 中国科学院合肥物质科学研究院 一种网络可比语料的挖掘方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120203540A1 (en) * 2011-02-08 2012-08-09 Microsoft Corporation Language segmentation of multilingual texts
CN103473280A (zh) * 2013-08-28 2013-12-25 中国科学院合肥物质科学研究院 一种网络可比语料的挖掘方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BING ZHAO ET AL: ""HM-BiTAM: Bilingual topic exploration, word alignment, and translation"", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
罗远胜: ""跨语言信息检索中双语主题模型及算法研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677913A (zh) * 2016-02-29 2016-06-15 哈尔滨工业大学 一种基于机器翻译的中文语义知识库的构建方法
CN105677913B (zh) * 2016-02-29 2019-04-26 哈尔滨工业大学 一种基于机器翻译的中文语义知识库的构建方法
CN106649289A (zh) * 2016-12-16 2017-05-10 中国科学院自动化研究所 同时识别双语术语与词对齐的实现方法及实现系统
CN107632982A (zh) * 2017-09-12 2018-01-26 郑州科技学院 语音控制外语翻译设备用的方法和装置
CN108845993A (zh) * 2018-06-06 2018-11-20 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备
CN108845993B (zh) * 2018-06-06 2022-04-12 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备
CN112364669A (zh) * 2020-10-14 2021-02-12 北京中科凡语科技有限公司 机器翻译译后的术语翻译方法、装置、设备及存储介质
CN112364669B (zh) * 2020-10-14 2021-09-03 北京中科凡语科技有限公司 机器翻译译后的术语翻译方法、装置、设备及存储介质
CN112507060A (zh) * 2020-12-14 2021-03-16 福建正孚软件有限公司 一种领域语料库构建方法及系统
CN113935339A (zh) * 2021-08-31 2022-01-14 北京百度网讯科技有限公司 翻译方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN104298663B (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN104298663A (zh) 评价术语领域翻译一致性的方法及统计机器翻译方法
CN106547739A (zh) 一种文本语义相似度分析方法
Prochasson et al. Rare word translation extraction from aligned comparable documents
Xiao et al. A topic similarity model for hierarchical phrase-based translation
Zhang et al. HANSpeller++: A unified framework for Chinese spelling correction
Fung et al. BiFrameNet: bilingual frame semantics resource construction by cross-lingual induction
Bharadwaj et al. Language independent identification of parallel sentences using wikipedia
Bourgonje et al. Toward a bilingual lexical database on connectives: Exploiting a German/Italian parallel corpus
Scheible Sentiment translation through lexicon induction
Hazem et al. Bilingual word embeddings for bilingual terminology extraction from specialized comparable corpora
Rivera et al. A flexible framework for collocation retrieval and translation from parallel and comparable corpora
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
Pickard Comparing word2vec and GloVe for automatic measurement of MWE compositionality
Dien Vietnamese-English cross-lingual paraphrase identification using siamese recurrent architectures
CN103473222A (zh) 一种藏语语义本体创建及词汇扩充方法
Sharoff Measuring the distance between comparable corpora between languages
Gaizauskas et al. Extracting bilingual terms from the Web
Uban et al. A computational approach to measuring the semantic divergence of cognates
Ghaffar et al. English to arabic statistical machine translation system improvements using preprocessing and arabic morphology analysis
Li et al. Evaluating low-resource machine translation between chinese and vietnamese with back-translation
Hoshino et al. Japanese to english machine translation using preordering and compositional distributed semantics
Gómez Guinovart et al. Terminology extraction from English-Portuguese and English-Galician parallel corpora based on probabilistic translation dictionaries and bilingual syntactic patterns
Lehal et al. Software to Extract Parallel Data from English-Punjabi Comparable Corpora
Lehal et al. EXTRACTING PARALLEL PHRASES FROM COMPARABLE ENGLISH AND PUNJABI CORPORA USING AN INTEGRATED APPROACH
Guo et al. Design of English Information Retrieval System Based on Parallel Corpus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170118

Termination date: 20210930