CN1573739A - 用于改良机器翻译之翻译知识的方法和装置 - Google Patents

用于改良机器翻译之翻译知识的方法和装置 Download PDF

Info

Publication number
CN1573739A
CN1573739A CNA2004100452541A CN200410045254A CN1573739A CN 1573739 A CN1573739 A CN 1573739A CN A2004100452541 A CNA2004100452541 A CN A2004100452541A CN 200410045254 A CN200410045254 A CN 200410045254A CN 1573739 A CN1573739 A CN 1573739A
Authority
CN
China
Prior art keywords
translation
knowledge
unit
translation knowledge
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004100452541A
Other languages
English (en)
Inventor
今村贤治
隅田英一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Publication of CN1573739A publication Critical patent/CN1573739A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种改良翻译知识的方法,包括:准备翻译知识之集合的步骤;准备原语言和目的语言的对译文集的步骤;利用翻译知识的集合将对译文集中的原语言句子机器翻译成目的语言的步骤;根据规定的评价基准来评价其结果所得译文的翻译质量的步骤;针对翻译知识的一部分而算出有关翻译质量的贡献度的步骤;当算出的贡献度为负时删除该翻译知识的步骤。

Description

用于改良机器翻译之翻译知识的方法和装置
技术领域
本发明涉及用于使用翻译规则等翻译知识的机器翻译装置的翻译知识生成装置,特别涉及用于通过从包含如从训练文集中自动构筑翻译知识那样的错误或者冗余的信息中取舍选择必需知识和不需知识并进行改良来自动地生成准确翻译知识的集合的装置和方法。
背景技术
根据美国专利法第119条(a)的规定,本申请主张基于2003年6月4日在日本申请的专利申请2003-159662号申请的优先权,在这里通过参考该申请的全文而进行引用。
作为机器翻译的一种方法,已经知道句子结构转换方式。在句子结构转换方式中,预先准备了从原语言的单词或者句子到目的语言的单词或者句子等的映射规则(变换规则)和单词对译等。然后,在分析原语言的输入文之后,通过应用该映射规则和单词对译,获得目的语言的翻译文。句子结构转换方式机器翻译系统的体系中最费功夫的工作是生成像翻译规则和单词对译那样的翻译知识。
过去,翻译规则是通过人工准备的。但是,随着作为原语言和目的语言之间对译文章之集合的对译文集的充实,已经提出了从对译文集中自动获得翻译规则的方法。如果能够自动获得翻译规则,则用于构筑翻译机器系统的工作量将大大缩减。
作为从对译文集中自动获得翻译规则的方法,已经提出了多种方法。但是,在这种自动获得的规则中存在下述问题。
例如,现有翻译规则的自动构筑方法是不完善的,在所构筑的翻译规则中无论如何也避免不了包含错误。例如,Imamura在“Hierarchical phrasealignment harmonized with parsing,”Proceedings of the 6th Natural LanguageProcessing Pacific Rim Symposium(NLPRS2001),pp.377-384,2001中报告说尽管从对译文集中自动取出成为翻译规则基础的句子对应关系,但大约8%的对应关系出错。在翻译时使用包含错误的规则将产生错误翻译。
通常,有可能对一个原文会进行多种翻译。当在对译文集中包含这种对译群时,由于这种多样性而获得多个冗余的规则。结果,获得了相互竞争的多个规则。
例如当存在替换语表达时,对这些每一个表达都产生不同的翻译规则。结果,当进行机器翻译时暧昧性就增大。如果暧昧性增大,则产生合适的翻译就变得困难。就是说,由于对译文集中替换语的表达,使机器翻译的精度下降了。
在对译文集中,当包含依赖于文理的翻译或者依赖于境况的翻译时,就会得到一会儿进行过量省略一会儿产生添加语(原文中没有而在译文中产生的用语)的翻译规则。此种翻译规则构成误译的原因。
现在,作为用于处理这种冗余/竞争规则的途径,已经提出了下面的两种方法。第一种途径是在翻译时通过选择合适的规则来消除暧昧性的方法。第二种途径是在自动获得了翻译规则之后,取舍选择竞争规则作为后处理,由此使翻译规则更加准确的方法。
Menezes和Richardson在“A best first alignment algorithm for automaticextraction of transfer mappings from bilingual corpora,”in Proceedings of the“Workshop on Example-based Machine Translation”in MT Summit VIII,pp.35-42,2001中以及Imamura在“Application of translation knowledgeacquired by hierarchical phrase alignment for pattern-based MT,”inProceedings of the 9th Conference on Theoretical and Methodological Issues inMachine Translation(TMI-2002),pp.74-84,2002中公开了根据该第二种途径进行的竞争规则的整理和最优化(以后称为“翻译规则的清理(cleaning)”或者简单称为“清理”)。
根据Menezes等人提出的方法,在自动获得的翻译规则中,只采用相同模式(pattern)的出现频度为规定值(例如2)或者以上的规则。该方法以规则的出现频度为基础。根据Imamura(2002)提出的方法,通过根据x二乘检查法进行假设检查,只从出现特别多的模式中选取在统计上可靠性高的翻译规则。
在Menezes等人提出的方法中,报告了规则数变成清理前的1/9且翻译质量出现若干改善的例子。但是,虽然冗余规则被大幅度消减了,但不能够获得与此相应的那种翻译质量的提高。
在Imamura(2002)提出的方法中,作为统计上能够信赖的规则的数目与文集大小相比很小。因此,在为了获得足够数目的翻译规则中存在必须有超大规模文集的问题。可以生成在统计上能够信赖并且在机器翻译上数目足够的规则的超大规模文集在现在是不存在的。
发明内容
因此,本发明的目的是提供一种用于改良翻译知识的方法和装置,其通过改良从对译文集中自动获得的翻译规则,能够进一步提高翻译质量。
本发明的另一目的是提供一种用于改良翻译知识的方法和装置,其通过改良从通常规模的对译文集中自动获得的翻译规则,能够进一步提高翻译质量。
本发明的又一目的是提供一种用于改良翻译知识的方法和装置,其通过在比较短的时间上清理从通常规模的对译文集中自动获得的翻译规则,能够进一步提高翻译质量。
本发明第一方案的方法是用于改良使用计算机从第一语言机器翻译到第二语言之翻译知识的方法。该方法包括:在存储装置内准备计算机可读取翻译知识之集合的步骤;在存储装置内准备在第一语言和第二语言之间的对译文集的步骤,该对译文集包含多个计算机可读取的对译句子;利用翻译知识的集合,将对译文集中的第一语言的各个句子机器翻译到第二语言的步骤;通过根据给定评价基准一边参考对译文集一边自动地评价前述机器翻译步骤的结果所得的第二语言的翻译质量来算出评价值的步骤;针对翻译知识集合的部分集合,通过使用与在机器翻译步骤下各个句子翻译时所使用的翻译知识相关的记录和评价值,算出该部分集合对于翻译质量的贡献度的步骤;当通过计算贡献度步骤所算出的贡献度满足预定的条件时,从翻译知识的集合中删除与部分集合具有规定关系的翻译知识的步骤。
选择翻译知识的部分集合,通过分别使用包含该翻译知识的翻译知识和不包含该翻译知识的翻译知识来进行机器翻译。通过比较其结果的翻译质量,对机器翻译的翻译质量算出该翻译知识的贡献度。根据该贡献度,删除翻译知识。结果,在减少了例如过多包含了自动构筑翻译知识那样的翻译质量下降的原因造成的不需要知识和错误知识的翻译知识量的同时,还能够提高翻译质量。
计算贡献度的步骤也可以包括:算出在用于计算评价值的步骤中所算出的评价值和当使用与翻译知识集合相关的部分集合的补集合来翻译对译文集中第一语言的各个句子时其翻译质量的评价值之间的差分的步骤。
作为优选,机器翻译步骤还包括通过利用翻译知识集合将对译文集中第一语言的各个句子一边生成各个句子翻译时所使用的翻译知识的记录一边翻译成第二语言的步骤。计算差分的步骤包括:基于在机器翻译步骤中生成的在各个句子翻译时使用的翻译知识的记录,特定在机器翻译步骤中通过部分集合中所包含的翻译知识翻译的第一语言的句子和在机器翻译步骤中翻译的其译文的步骤;对于在特定步骤中被特定的第一语言的各个句子,通过使用与翻译知识集合相关的部分集合的补集合中所包含的翻译知识的机器翻译来进行重新翻译的步骤;在机器翻译步骤所得译文的集合中,对于用重新翻译步骤所得译文置换在特定步骤特定的第一语言句子译文所获得的集合,根据给定评价基准来进行自动评价并算出新评价值的步骤;算出在计算评价值步骤所算出的评价值和计算新评价值步骤所算出的新评价值之间的差分的步骤。
可以通过去掉某个翻译知识再次进行翻译而算出其结果的评价值,但是,此时的计算量变大。如上述,最初翻译时,当记录了各个句子翻译时使用的翻译知识,能够特定当删除某个翻译知识时翻译结果不同的句子。只再次翻译这种句子,并通过与最初译文置换,能够获得与在重新翻译全文时同样的评价结果。结果,用小的计算量就能够实现翻译知识的改良。
该方法也可以进一步包括:从预先准备的、由第一语言和第二语言之间的对译文构成的、计算机可读取的训练文集中生成分别包括训练子文集和评价子文集的多个子文集对的步骤;根据预定的翻译规则的构筑方式,从多个子文集对的每一个中自动构筑翻译规则的步骤;将通过构筑步骤对多个子文集构筑的翻译规则的多个集合作为对多个子文集的基本翻译知识存储在存储装置中的步骤;将多个子文集对的每一个作为对译文集且将通过构筑步骤从该子文集中所得的翻译规则集合作为翻译知识,通过对多个子文集对的每一个执行上述准备步骤、上述机器翻译步骤、上述算出评价值的步骤、上述算出贡献度的步骤以及上述删除步骤来改良翻译知识的步骤;将通过改良翻译知识的步骤改良的、对多个子文集对的每一个所获得的翻译知识的集合集中成一个翻译知识集合的步骤。
将用于改良这种翻译知识的方式称为交叉清理。通过交叉清理,能够使错误翻译知识残余的可能性更小。
本发明第二方案的存储介质是用于存储用于控制计算机的计算机程序的存储介质,其使得通过计算机执行后,执行上述各个方法的全部步骤。
本发明第三方案的装置是用于改良机器翻译之翻译知识的翻译知识改良装置。该装置包括:翻译知识存储部,用于存储翻译知识的集合;用于存储可机器读取的对译文集的文集存储部,其包含多个在原语言和目的语言之间的对译文;机器翻译引擎,用于利用在翻译知识存储部中存储的翻译知识的集合来将对译文集中的原语言的句子机器翻译成目的语言;翻译质量自动评价部,用于通过参考对译文集来自动评价通过机器翻译单元产生的翻译结果的翻译质量并输出评价值;改良部,用于进行翻译知识集合的改良,使得翻译质量自动评价部输出的评价值展示出希望的变化。
自动评价使用翻译知识之机器翻译结果的翻译质量。进行翻译知识集合的改良,使得该评价值展示希望的变化。能够改良翻译知识的结合使得翻译结果的翻译质量变得更高。
结合附图进行本发明的详细说明,上述本发明的目的、特征和优点将变得清楚。
附图说明
图1是有关本发明第一实施例的翻译规则提取装置20的功能框图。
图2是表示翻译规则例子的示意图。
图3是用于实现翻译规则提取装置20的计算机的外视图。
图4是概略表示图3所示计算机的电路构成的示意图。
图5是表示用于通过计算机实现第一实施例之翻译规则提取装置20的程序控制结构的流程图。
图6是用于概略说明本发明第二实施例中的交叉清理法的示意图。
图7是本发明第二实施例的翻译规则提取装置180的功能框图。
图8是表示用于实现翻译规则提取装置180的程序控制结构的流程图。
具体实施方式
下面,说明本发明的实施例。在下面的说明中,相同部件上采用相同的标记,其功能也相同。因此,对这些部件不重复进行详细说明。而且,为了记载简单,在实施例说明的最后给出了参考文献清单,在本记载中,当述及这些参考文献时使用其序号。
在下面的说明中,说明第一和第二实施例。成为这些实施例的基础的考虑方法如下。就是说,本发明的实施例通过使用前述的第二途径来处理冗余/竞争规则。为了这个目的,通过使用自动构筑的翻译规则来机器翻译评价文集中的原语言的句子。对于机器翻译的结果,通过使用参考文献1记载的那种工具来进行翻译质量的自动评价,并获得自动评价值。通过进行翻译规则的取舍选择以便提高该自动评价值,获得最合适的翻译规则的组合(最合适的翻译规则集合)。
在以下实施例中,在最合适翻译规则的组合中使用登山法。此时,将对每个组合所获得的自动评价值当作评价函数输出。
在以下实施例中,特别地,通过进行只对自动构筑的翻译规则集合之规则的删除来进行翻译规则集合的最佳化。通过限定于这种规则删除,具有加快用于清理的处理的效果。
在下面的实施例中,对从英语翻译到日语时最佳化翻译规则集合的情况进行说明。但是,本发明不局限于这种语言的组合。如果是通过适用翻译规则而能够翻译的语言组合,即使对哪一种组合也都能够适用。
第一实施例
结构
图1是表示本发明第一实施例的翻译规则提取装置20的功能构成的框图。参考图1,翻译规则提取装置20包括:训练文集30,其包含很多在原语言(英语)和目的语言(日语)之间的对译文章;规则构筑部32,其用于从训练文集30中自动构筑机器翻译规则;反馈清理部34,其用于对规则构筑部32构筑的翻译规则集合,进行后述那样的反馈清理处理;评价文集36,在反馈清理部34进行反馈清理时,其用于翻译质量评价的参考。评价文集36中的对译文章由英语原文和由人将原文翻译成日语的结果(称为参考译文)构成。
反馈清理部34包括:翻译规则集合存储部40,其用于存储通过规则构筑部32从训练文集30中自动构筑的翻译规则的集合;机器翻译引擎42,其用于通过使用在翻译规则集合存储部40存储的翻译规则将评价文集36中的全部英语原文翻译到目的语言的句子。机器翻译引擎42是句子结构转换方式。
反馈清理部34还包括翻译结果存储部43,其存储在各个句子翻译时所使用翻译规则的特定信息和通过机器翻译引擎42产生的翻译结果。
不仅包括这些,反馈清理部34还包括:翻译质量自动评价部44,其用于通过使用评价文集36来自动地评价在翻译结果存储部43所存储的日语句子(翻译文)的翻译质量;规则贡献度计算部46,其用于对翻译规则集合存储部40包含的每个规则,算出该规则删除后的自动评价值和算出其与删除前的自动评价值之间的差分(该差分在这里被称为该规则的“规则贡献度”)。规则贡献度计算部46在计算贡献度时使用通过翻译质量自动评价部44产生的评价值和在翻译结果存储部43存储的在翻译时使用的翻译规则的特定信息。
反馈清理部34还包括翻译规则删除部48,其用于从翻译规则集合存储部40的翻译规则集合中删除贡献度计算部46算出的规则贡献度满足规定条件的翻译规则(在本实施例中为规则贡献度是负值的翻译规则)。
在本实施例中,在通过规则构筑部32进行的翻译规则自动构筑中使用由前述Imamura(2002)提出的方法。
在本实施例中,作为句子结构转换方式,机器翻译引擎42使用后面参考文献2记载的方式。机器翻译引擎42使用将英语句子结构变换到日语句子结构的翻译规则。图2表示了机器翻译引擎42使用的翻译规则的例子。在该例子中,一个规则包含句子结构种类、原语言模式、目的语言模式和例句。
句子结构种类表示适用该规则的英语句子结构节点的种类。
原语言模式表示使用该规则的英语句子结构的模式。原语言模式是诸如X,Y的非结束符号(变量)和诸如单词或者标记(marker)的结束符号之间的队列。
目的语言模式表示使用该规则时产生的日语句子结构的模式。其是与原语言模式对应的变量(诸如X‘,Y‘等)和用单词表达的结束符号之间的队列。
例句是在训练文集中出现的变量的实例。是与变量数一致的主辞单词组。在本实施例中,翻译规则集合存储部40中各个规则的例句是在训练文集30中的出现例子。
翻译规则集合存储部40存储的翻译规则是根据机器翻译引擎42所使用翻译规则之格式的翻译规则。
图2所示规则中,例如规则序号1的规则被应用于英语present at theconference之类的句子,其表示产生“在会议(“conference”的翻译)上发表(“present”的翻译)”之类的翻译。
翻译质量自动评价部44使用后面参考文献1记载的BLEU。对于BLEU这种机器翻译的自动评价法,在其它地方也提出了若干。这些是在开发机器翻译系统时通过置换过去用于进行主观评价的部分而将加速开发周期作为目标的内容。这些由于在全自动下进行的,因此其不仅能够适用于过去考虑的那种开发支援,而且还能够应用于本实施例这种翻译系统的自动调整(tuning)中。
根据本实施例,翻译质量自动评价使用的BLEU计算在评价文集的原文通过机器翻译引擎42而机器翻译的结果和评价文集36的参考翻译之间的类似度,并将翻译质量作为得分(BLEU得分)输出。类似度是通过两者的N-gram的一致数测量的。尽管N是可变的,但在本实施例中,使用了1-gram到4-gram。
这里应该注意的是,为了将BLEU得分使用于本实施例这种机器翻译规则集合的评价中,必需使用具有某种程度大小的句子集合。对于每一个句子可算出BLEU得分,但与根据其原样的主观评价的差异很大。通过对翻译结果集合所包含的整个翻译文计算各自的类似度并取得总和,能够抵消各自的误差。
按下述,规则贡献度计算部46对每个规则计算规则贡献度。首先,使用对于通过机器翻译引擎42获得的评价文集36原语言的全文的翻译结果由翻译质量自动评价部44算出的得分,并获得构成基准的自动评价值。将该值称为删除前自动评价值。通过该翻译,也得到对哪一种文章的翻译使用哪一种规则之类的信息。
接着,对翻译规则集合存储部40内的每个翻译规则,通过使用从翻译规则集合存储部40中删除该规则所得到的部分集合来计算当进行评价文集36原语言的全文翻译时的得分。该得分和删除前自动评价值的差是规则贡献度。在本实施例中,根据下面的考虑方法进行删除后得分的计算。而且,在本例中,尽管是当然的事,但由删除了一个翻译规则构成的集合和通过删除该翻译规则而形成的部分集合具有互补集合的关系。
根据基本的考虑,在理论上也考虑对翻译规则集合存储部40内规则的每个组合(部分集合)完全翻译评价文集36。但是,在这种情况下,翻译次数变得非常多。不能够充分利用计算机资源和在合理的时间内获得结果。因此,按下述,计算量将少。
在通过机器翻译引擎42的机器翻译中,在翻译一句后能够特定该翻译所使用的翻译规则。该信息被存储到翻译结果存储部43上。相反,当翻译了整个评价文集36时,能够特定使用了各个规则的句子。
当通过使用从翻译规则集合中删除某个规则所获得的部分集合来由机器翻译引擎42进行翻译时,根据这而改变的翻译句子只是在该某个规则删除前通过使用该规则而翻译的翻译句子。由于其它的句子通过使用别的规则翻译,即使使用在作为删除对象的规则被删除之后的翻译规则集合来进行翻译,也不会改变翻译结果。
因此,当从翻译规则集合中删除某个规则时,如果通过使用删除后的翻译规则集合来只翻译在删除前通过使用该规则所翻译的句子并同时求得其它译文和参考翻译之间的类似度,能够获得删除后的BLEU得分。因此,翻译整个句子是不必要的。
根据上述,通过只进行翻译规则的删除,能够在合理的时间内获得结果。
就是说,规则贡献度计算部46涉及了通过翻译质量自动评价部44产生的删除前自动评价值和翻译时使用哪一个规则(哪一个规则被使用于哪一个句子的翻译),并在翻译结果存储部43中获得存储的信息。对每个规则,算出当通过使用除该规则之外的规则重新翻译使用该规则翻译的句子时的整个译文的自动评价值。算出该评价值和删除前自动评价值之间的差分(删除前自动评价值一删除后的评价值),并将其作为该规则的规则贡献度。规则贡献度计算部46还保存将这样算出的规则贡献度为负(即通过删除,自动评价值变大)的规则的规则序号提供给翻译规则删除部48的功能。而且,在规则贡献度计算部46中,为了加快该处理的结束,假定被删除的规则之间是相互独立的,通过一次重复,全部确定应该删除的规则并删除。
更具体地,规则贡献度计算部46按下述算出规则贡献度。在翻译规则集合中,关于在通过机器翻译引擎42翻译时所使用的每一个翻译规则,求得翻译时使用该规则的句子的集合。如果该句子的集合不是空集,通过使用从基本规则集合中去掉该翻译规则所获得的部分集合,对该句子集合内的各个句子通过机器翻译引擎42再度进行翻译。在翻译结果存储部43存储的翻译结果中,将使用该翻译规则所翻译的句子与重新翻译的句子替换。然后再度通过翻译质量自动评价部44进行翻译质量的自动评价。这样获得的删除后的评价值和删除前的自动评价值之间的差分构成该翻译规则的规则贡献度。
通过在翻译规则集合存储部40的全部翻译规则上进行这种处理并且特定规则贡献度为负的规则,确定了应该删除的翻译规则。
翻译规则删除部48具有在翻译规则集合存储部40的规则中删除与从规则贡献度计算部46提供的信息相对应的翻译规则的功能。
操作
第一实施例的翻译规则提取装置20按下述操作。训练文集30和评价文集36作为预先准备的文集。规则构筑部32从训练文集30内的各个对译句子中自动构筑翻译规则,并存储到翻译规则集合存储部40中。
机器翻译引擎42通过使用翻译规则集合存储部40存储的翻译规则翻译在评价文集36包含的对译句子之中的全部原文。翻译结果与在翻译时使用的用于特定翻译规则的信息一起被存储到翻译结果存储部43。
翻译质量自动评价部44通过使用评价文集36所存储的参考译文将在翻译结果存储部43上存储的翻译文的翻译质量自动地评价作为BLEU得分,并将该结果提供给规则贡献度计算部46。
规则贡献度计算部46将从翻译质量自动评价部44提供的BLEU得分作为删除前的自动评价值。接着,规则贡献度计算部46根据上述方法算出关于翻译规则集合存储部40内各个翻译规则的规则贡献度。然后,确定规则贡献度成为负的规则,并将该信息提供给翻译规则删除部48。
翻译规则删除部48根据该信息删除在翻译规则集合存储部40中存储的翻译规则集合内的规则。删除处理之后在翻译规则集合存储部40上存储的翻译规则集合成为被清理的最佳化集合。
具体例
下面表示翻译例和计算规则贡献度的具体例。删除前自动评价值假设为0.233363。
翻译例1
图2的规则5是从根据文理翻译生成的错误规则的例子。作为由“thenearest subway station”和“最近的地铁”构成的规则,原文“station”的翻译在日语中省略了。
当翻译英语“Please tell me where the nearest railroad station is.”时,使用该规则5,翻译成日语为“请问最近的铁路在哪里。”。
如果删除规则5,该翻译变为“请问最近的铁路站在哪里。”。删除后自动评价值成为0.233549。
规则5的规则贡献度成为0.233363-0.233549=-0.000186。因此规则5被删除。删除结果,“the nearest railroad station”将被正确翻译为“最近的铁路站”。
翻译例2
图2的规则6是通过翻译规则自动构筑错误生成的错误规则的例子。自动构筑时,分析“rent two bicycles”的结果,其是“rent two”成为动词、“bicycles”成为名词的例子。正确为“rent”是动词、“two bicycles”是名词,但在翻译规则的自动构筑时不能够完全防止这种错误的发生。
当翻译英语“I want to rent two rackets”时,通过使用规则6翻译成“想借2球拍”。删除规则6后,该翻译变成“想借2个球拍”。这样,规则6删除后的自动评价值变为0.233529。规则6的规则贡献度变为-0.000166,规则6被删除。
翻译例3
图2的规则7和规则8是由替换语表达产生的规则的例子。尽管哪一个都是正确的规则,但却是相互竞争的规则。
当翻译英语“Please cash this traveler’s check.”时,使用规则7或者规则8的任何一个。这次假设选择规则7。翻译结果成为“将该旅行者的支票变成现金”。
当删除规则7后,该翻译成为“请将该旅行者的支票变成现金”。这样,删除后自动评价值成为0.233585。这表示出在评价文集36中,与规则8一致的对译句子比与规则7一致的对译句子包含更多的内容。
规则7的规则贡献度在此种情况下成为-0.000222。结果,规则7被删除,变成采用在评价文集36中与更多出现的表达一致的翻译。
第一实施例的效果
在上述第一实施例翻译规则提取装置20中,根据反馈清理部34的功能,通过使用翻译质量自动评价部,能够自动地清理由对译文集自动构筑的翻译规则群。结果,由于排除了对机器翻译结果产生坏影响的翻译规则,因此获得改善使用了被自动构筑翻译规则之翻译系统翻译结果质量的效果。实际上,对于使用清理后的翻译规则来进行翻译的结果获得了比使用未清理的翻译规则的翻译结果更好的评价。
通过计算机实现
上述第一实施例的翻译规则提取装置20通过计算机和在其上执行的软件也可实现。图3表示用于构成翻译规则提取装置20的计算机的外视图,图4表示其框图。
参考图3,构成翻译规则提取装置20的计算机系统包括:具有CD-ROM(只读存储器光盘)驱动器和FD(柔性盘)驱动器72的计算机60;均与计算机60连接的监视器62、键盘66和鼠标68。
参考图4,计算机60还包括:CPU(中央处理单元)76;连接到CPU76的总线86;通过总线86与CPU76相互连接的RAM78、ROM80以及硬盘74。总线86上还连接了CD-ROM驱动器70和FD驱动器72。在CD-ROM驱动器70上安装CD-ROM82和在FD驱动器72上安装FD 84,其能够在CPU76之间进行数据的输入输出。
图3和图4所示计算机通过执行具有下述这种控制结构的计算机程序(以后简单称为“程序”)而操作作为图1所示的翻译规则提取装置20。该程序作为计算机可读取数据被记录在例如CD-ROM82上而通用。将该CD-ROM82安装在CD-ROM驱动器70上,通过读出程序并存储到硬盘74上,计算机60能够在任何时候执行该程序。而且,训练文集30、评价文集36等存储到硬盘74上。CPU76还将必要的数据从硬盘74读出而存储到RAM78上。
在执行程序时,将硬盘74上存储的程序装入ROM80。CPU76从ROM80中读出并执行通过未图示的程序计数器表示的地址命令。CPU76将执行结果输出到规定的地址,并根据执行结果同时更新程序计数器的内容。
通过重复进行这种处理而获得最终的翻译规则集合。所得结果在本实施例中被最终存储到硬盘74。
由于计算机60本身的工作是周知的,在这里不重复其细节。
程序的控制结构
参考图5,用于实现反馈清理部34的程序具有下面的控制结构。首先,该程序在被启动和步骤100使删除规则集合Rremove成为空集。在步骤102,使用机器翻译引擎42通过参考翻译规则集合存储部40的翻译规则来翻译评价文集36的全部原文,并获得翻译结果集合Doc。与此同时,记录用于翻译所使用的哪一个规则。基于该记录,求得通过使用某个规则所翻译的原文集合。将该原文集合假定为对于规则r的S[r]。接着在步骤104,通过使用翻译质量自动评价部44从该翻译结果集合Doc中算出初始(删除前)自动评价值SCORE。
接着,对于翻译规则集合存储部40内的全部翻译规则r,重复下述的步骤108~步骤120的处理。首先,在步骤108,判定使用规则r的原文集合S[r]是否是空集。当为空集时,对该规则r不进行任何处理。当S[r]不是空集时,控制进入到步骤110。
在步骤110,使用从翻译规则集合中去掉了规则r的规则集合由机器翻译引擎42对在原文集合S[r]中包含的整个原文进行翻译。结果,将所得译文的集合假定为T[r]。接着在步骤112,将在步骤102求得的翻译结果集合Doc中的使用规则r翻译的译文集合用集合T[r]置换,求得新的翻译结果集合Doc[r]。在步骤114,对于该翻译结果集合Doc[r],通过翻译质量自动评价部44算出自动评价值SCORE[r]。该自动评价值SCORE[r]是删除后自动评价值。在步骤116,从初始自动评价值SCORE中减去该删除后自动评价值SCORE[r],并将该结果代入规则贡献度CONTRIB[r]。
在步骤118,判定规则贡献度CONTRIB[r]是否为负。如果规则贡献度CONTRIB[r]为负,控制进入到步骤120,将该规则r补充到删除规则集合Rremove中。如果规则贡献度CONTRIB[r]不为负,则对该规则不做任何处理。
当对全部规则r重复进行了上述步骤108~120的处理之后,控制进入到步骤124。在步骤124,判定删除规则集合Rremove是不是空集。如果删除规则集合Rremove是空集,则结束该程序的执行。当删除规则集合Rremove不是空集时,在步骤126,从翻译规则集合存储部40含有的翻译规则集合中删除该删除规则集合Rremove中含有的规则。之后,控制返回到开始的步骤100,并重复上述处理,直到在步骤124判定出删除规则集合Rremove是空集为止。
通过由图3和图4所示计算机执行具有上述那种控制结构的程序,能够实现图1所示第一实施例的翻译规则提取装置20。
变形例
在上述第一实施例中,判定是否对整个翻译规则计算并删除该规则贡献度。但是,不必要对整个翻译规则进行这种处理,即使只对一部分规则进行处理也能获得相应的效果。但是,判定是否对整个翻译规则计算并删除规则贡献度显然使在最终获得的翻译规则中包含错误规则或者冗余规则的可能性变低了。因此,优选的是,进行针对整个翻译规则的上述处理。
在上述实施例中,一次对一个一个翻译规则计算其规则贡献度。这样,由于针对每一个翻译规则都能够判定其是否应该删除,因此其在将翻译规则最佳化作为目标方面是优选的。但是,针对一个一个翻译规则进行该判定并不是必须的。原理上也可考虑有可能假定一次删除多个翻译规则时算出其贡献度,并根据其结果集中删除这些多个翻译规则,通过这种办法在某种程度上获得与上述实施例相同的效果。
确定是否应该删除的翻译规则数在上述实施例中被固定为“1”。由于通过固定这样的数而使处理变得简单,但实际上在以这种形式实施本发明要考虑很多的事情。但是,该数也不需要始终是相同的数。例如,根据某种基准将每次确定数的翻译规则作为处理对象并算出该规则贡献度也是可以的。
在本发明中,将这类想法作为基本框架:取出翻译规则集合的任意部分集合(最初翻译规则内翻译规则的任意组合),如果进行机器翻译确认使用哪一种部分集合来获得最佳评价值作为翻译结果的翻译质量,并且根据该结果确定最终的翻译规则集合。在该基本框架中,有关节约计算机资源和按照哪一种方式获得某种程度上效率最优的基本规则集合的一个实施例是上述的第一实施例。在该基本框架中,能够具有其它与第一实施例在细节上不同的实施例以及基于上述第一实施例的详细说明来容易实施这种实施例,这对于本领域技术人员是能够容易理解的。
第二实施例
概述
通过使用由第一实施例装置清理的翻译规则集合,极大地改善了翻译质量。但是,认为还有改善的余地。在第一实施例中,需要另外准备不同于训练文集的评价文集。对于评价文集,由于对原文的参考译文成为必要的,如果可能,希望不需要专门准备评价文集。
一般地,与训练文集相比,评价文集规模(size)小的情况很多。因此,即使能够发现最合适的解,也不能够测试评价文集中的全部规则,发生清理遗漏。希望能够防止这种清理遗漏。
因此,在第二实施例装置中,对通过在第一实施例装置中使用的反馈清理部34产生的清理结果,使用与交叉检查同样的考虑方法,来进行用于获得更接近最合适解的清理。在本说明书中,这种清理的方式称为“交叉清理”。
N分交叉检查是这种方法,一般地,其将数据集几乎等分为N个子数据集,将一个用于某个模型的参数推断中,针对N个子数据集的全体进行用剩余数据集来评价被推断模型的适用妙处。根据该交叉清理,能够防止上述那种清理遗漏。
图6表示在本实施例进行的交叉清理的概要。下面,说明该处理的概要。
步骤1,将训练文集140分割成N个。
步骤2,将通过分割获得的N个子文集作为评价子文集162A,162B,...。将从原来的训练文集140中去掉一个评价子文集(例如评价子文集162A)后的N-1个子文集(当是评价子文集162A时其为评价子文集162B,162C,...)整理为一个,生成训练子文集160A。评价子文集162A和训练子文集160A成对。
同样,对于各个评价子文集162B,162C,...,生成训练子文集160B,160C,...,这些与原来的评价子文集162B,162C,...成对。
以上处理的结果,形成了N个子文集对150A,150B,...。从这N个子文集对150A,150B,...所包含的训练子文集160A,160B,...的每一个中通过与第一实施例相同进行翻译规则的自动构筑151A,151B。结果,获得了N个自动构筑翻译规则集合152A,152B,...。
步骤3,对于这些自动构筑翻译规则集合152A,152B,...,通过分别使用评价子文集162A,162B,...,进行与第一实施例相同的反馈清理153。结果,获得了N个清理后的规则集合154A,154B,...。
步骤4,最后,对N个清理后的规则集合154A,154B,...进行用于汇总机器翻译规则的处理156,生成最终的交叉清理后的翻译规则集合158。
通常交叉检查之间的不同点是步骤4。本实施例中,对每个规则算出规则贡献度的总和,当其等于或者大于0时将该规则输出到最终翻译规则集合中。相反,从翻译规则集合中删除规则贡献度总和不足0的规则。
结构
图7表示了第二实施例翻译规则提取装置180的功能框图。参考图7,该翻译规则提取装置180包括:训练文集140;规则构筑部198,其用于从训练文集140中自动构筑翻译规则;基本规则集合存储部196,其用于存储通过规则构筑部198自动构筑的翻译规则的集合(将其称为“基本翻译规则集合”)。规则构筑部198具有与在第一实施例中使用的规则构筑部32完全相同的功能。
翻译规则提取装置180还包括:评价子文集162,其由将训练文集140分成N个子文集的一个子文集构成;训练文集分割部190,其具有分割由其它N-1个子文集构成的一个训练子文集160的功能;规则构筑部32,用于从训练子文集160自动构筑翻译规则;反馈清理部34,用于通过使用评价子文集162与第一实施例相同来反馈清理规则构筑部32输出的翻译规则集合。反馈清理部34及其各个部分的功能是与第一实施例反馈清理部34及其各个部分的功能相同。因此,在这里不重复它们的详细说明。
翻译规则提取装置180还包括:重复控制部192,其用于控制训练文集分割部190、规则构筑部32和反馈清理部34,使得N次重复进行通过规则构筑部32的翻译规则自动构筑和通过反馈清理部34的翻译规则反馈清理。通过重复控制部192进行的重复是一边替换一个由训练文集分割部190选择的评价子文集162一边进行的。
翻译规则提取装置180不仅包括这些,还包括:规则贡献度存储部202,用于对每个规则和每次重复存储通过反馈清理部34的规则贡献度计算部46算出的规则贡献度;翻译规则集中部194,用于集中由规则构筑部32和反馈清理部34生成的N个反馈清理结束的翻译规则集合以及在基本规则集合存储部196内生成最后一个交叉清理之后的翻译规则集合。翻译规则集中部194通过使用规则贡献度存储部202存储的每个规则和每次重复的规则贡献度,通过从基本规则集合存储部196存储的基本翻译规则集合中删除不需要的规则来进行规则的集中。
规则构筑部32和反馈清理部34的功能是分别与在第一实施例中说明的相同。
训练文集分割部190按下述方式以每次重复都不同的形式来分割训练文集140。首先,如前述那样的训练文集140几乎等分地被分割成N个子文集。这些被分别称为第一子文集、第二子文集、...第N子文集。
在第一次重复中,训练文集分割部190将第一子文集作为评价子文集162,将从第二子文集到第N子文集汇总作为训练子文集160。在第二次重复中,训练文集分割部190将第二子文集作为评价子文集162,将第一子文集和从第三子文集到第N子文集汇总作为训练子文集160。在第三次重复中,训练文集分割部190将第三子文集作为评价子文集162,将第一子文集、第二子文集和从第四子文集到第N子文集汇总作为训练子文集160。以下同样,在第N次重复中,训练文集分割部190将第N子文集作为评价子文集162,将从第一子文集到第N-1子文集汇总作为训练子文集160。
以上是训练文集分割部190的功能。
翻译规则集中部194按照下面将反馈清理后的翻译规则进行集中。通过规则构筑部198从整个训练文集140中自动构筑基本翻译规则集合。该基本翻译规则集合被存储到基本规则集合存储部196中。
接着,通过由重复控制部192产生的N次反馈清理从训练文集140的N个训练文集160中获得N个翻译规则集合。将这些称为第一翻译规则集合、第二翻译规则集合、...第N翻译规则集合。然后,当生成这些翻译规则集合时,在每次重复时,分别将由规则贡献度计算部46计算的各个规则的规则贡献度存储到规则贡献度存储部202。在针对规则r的第i次重复时将所计算的规则贡献度表示为CONTRIB[i][r](1≤i≤N,1≤r≤基本规则数)。
翻译规则集中部194在全部反馈清理结束时,通过参考规则贡献度存储部202,对每个翻译规则,计算规则贡献度存储部202存储的规则贡献度的总和CONTRIB[r]=∑iCONTRIB[i][r]。如果总和CONTRIB[r]为负,则从基本规则集合存储部196存储的基本规则集合中删除该规则r。通过对所有规则r进行这个处理,进行对基本规则集合存储部196存储的基本规则集合的清理,获得最终的交叉反馈清理后的翻译规则集合。
操作
第二实施例的翻译规则提取装置180按下述操作。训练文集140在最初准备。将训练文集140大致等分为N个的方法也预先确定。首先,规则构筑部198从训练文集140中自动构筑翻译规则。被构筑的翻译规则集合(基本规则集合)被存储到基本规则集合存储部196。
在重复控制部192进行的控制之下执行以下的重复处理。首先,训练文集分割部190从训练文集140中选择第一子文集,并将其作为评价子文集162。训练文集分割部190还将剩余的N-1个子文集汇总作为训练子文集160。规则构筑部32从训练子文集160中自动构筑翻译规则。被构筑的翻译规则集合被存储到翻译规则集合存储部40。
机器翻译引擎42通过使用在翻译规则集合存储部40存储的翻译规则对评价子文集162中的原文集合进行翻译。翻译质量自动评价部44自动评价由机器翻译引擎44产生的翻译结果的翻译质量,并作为得分提供给规则贡献度计算部46。
规则贡献度计算部46与在第一实施例中说明的相同,针对在翻译规则集合存储部40存储的各个规则而算出规则贡献度。对每个规则每次重复,所算出的规则贡献度作为CONTRIB[i][r]被存储到规则贡献度存储部202中。
通过N次重复上述处理,规则贡献度CONTRIB[i][r](1≤i≤N,1≤r≤基本翻译规则数)被存储到规则贡献度存储部202。
翻译规则集中部194针对基本规则集合存储部196存储的各个规则,计算出如上述的规则贡献度总和CONTRIB[r]=∑iCONTRIB[i][r]。当CONTRIB[r]为负时,从基本规则集合存储部196内的基本规则集合中删除该规则。
翻译规则集中部194通过对基本规则集合存储部196存储的全部翻译规则进行上述处理,最终在基本规则集合存储部196上获得交叉清理后的基本规则集合。
第二实施例的效果
当通过第二实施例的翻译规则提取装置180使用交叉清理后的翻译规则集合来进行机器翻译时,获得比通过第一实施例所得结果更好的结果。而且,在第一实施例的翻译规则提取装置20中,除了训练文集之外,还必需准备评价文集。与此相反,在第二实施例的翻译规则提取装置180中,只使用训练文集,除此之外不需要考虑评价文集。因此,翻译规则的清理通过使用限定的对译文集进行,结果,通过使用所获得的翻译规则集合,能够进行高精度的机器翻译。
通过计算机实现
第二实施例的翻译规则提取装置180还是可以通过图3和图4所示的计算机和在其上执行的程序实现的。图8以流程图形式表示出用于实现第二实施例翻译规则提取装置180的程序控制结构。
参考图8,该程序包括:从训练文集140自动构筑基本规则集合的步骤210和将训练文集140均等地分类为N个子文集的步骤212。将这N个子文集假定为EC[i](1≤i≤N)。
该程序还包括一边将变量i从1到N一次增加一个一边重复下述步骤216到步骤220的步骤。首先,在步骤216,从训练文集140中去掉子文集EC[i],生成训练子文集160。将该训练子文集假定为TC[i]。
接着在步骤218,从训练子文集TC[i]自动构筑翻译规则集合R[i]。在步骤220,将子文集EC[i]看着评价文集以及反馈清理翻译规则集合R[i]。该反馈清理处理的内容是与图5所示第一实施例的相同。但是此时,必需注意的是,在图5步骤116算出的规则贡献度CONTRIB[r]作为CONTRIB[i][r]存储的。
在将步骤216到步骤220的处理N次重复之后,这次针对在步骤210被自动构筑的基本规则集合内的全部规则r重复进行在下面说明的步骤226到步骤232的处理(1≤r≤基本规则集合内的规则数)。
在步骤226,从翻译规则集合R[i](1≤i≤N)中取得规则r的规则贡献度CONTRIB[i][r]。具体地,从存储区域取出如前述在图5的步骤116中存储的规则贡献度。在步骤228,算出基本规则r的贡献度CONTRIB[r]=∑icontib[i][r]。
在后续步骤230中,判定在步骤228算出的贡献度CONTRIB[r]是否为负。如果为负,则在步骤232从基本规则集合中去除该规则r。当不是负时不进行任何处理。
通过对基本规则集合内的全部规则进行上述从步骤226到步骤232的处理,与前述相同,最终获得进行了反馈清理的翻译规则。通过该交叉清理,能够防止在第二实施例说明开始中说明那样的清理遗漏。
第二实施例的变形例
在上述第二实施例的装置中,另外设置了不同于规则构筑部32的规则构筑部198。但是,这些未必需要另外设置。也可以通过使用相同的规则构筑部来切换其输入和输出的连接方。
在上述实施例的装置中,通过将训练文集140几乎等分成N个子文集,生成训练子文集和评价子文集。但是,本发明不限定于这样的实施例。例如,训练文集140未必要等分。实际上也可以分割成大小不同的文集、然后进行与上述相同的处理。但是,在这种情况下,当在翻译规则集中部194中对规则进行集中时规则贡献度的总和计算中,希望将根据文集大小的权重乘以各个贡献度后相加。
共同变形例
在上述两个实施例中,使用参考文献02中记载的作为机器翻译引擎42。但是,本发明不限定于这样的实施例。只要是使用翻译规则的句子结构转换方式的机器翻译引擎,使用何种都是可以的。
在上述两个实施例中,在由翻译质量自动评价部44进行的翻译质量的自动评价中采用了BLEU。但是,在翻译质量的自动评价中可以不只是使用BLEU。例如,可以使用在后面参考文献3或者参考文献4记载的BLEU。
作为自动评价值,在本实施例中,当与评价文集内的译文之间的类似度高时,使用评价值变高的。但是,作为自动评价值不限定于这样的。当类似度高时用评价值变低的也是可以的。与评价文集内的译文之间的类似度变得愈高,使用更靠近特定值的评价值也是可以的。
在上述实施例中,将翻译规则作为翻译知识,并对一个翻译规则计算其规则贡献度。但是,本发明不限定于这样的实施例。例如,一次集中选择多个翻译规则,将该部分集合中包含的翻译规则集中作为上述清理对象也是可以的。
在上述实施例中,选择由一个翻译规则构成的集合,并当该规则贡献度为负时删除该翻译规则。但是,本发明不限定于这样的实施例。例如,同样,对于由去掉一个翻译规则的剩余翻译规则构成的集合算出其规则贡献度,并且当其值为正时,删除该集合的补集合所属的翻译规则。
软件的流通形式不局限于上述那样固定于记录介质的形式。例如,也能够具有从通过网络连接的其它计算机上获取数据的形式下的流通形式。也能够存在这种形式的通用形式,其将软件的一部分预先存储于硬盘54中,将软件的剩余部分在经由网络被取入硬盘54执行时集中。
一般地,现代程序利用通过计算机的操作系统(OS)提供的通用功能并通过根据希望目的所组织的形式执行这些功能来达到前述希望的目的。因此,在上述本实施例的各个功能中,不包含OS或者第三方(third party)提供的通用功能,即使是用于只指定这些通用功能之执行顺序的组合的程序(组),只要是具有利用这些功能而在整体上实现希望目的的控制结构的程序(组),显然这些也被包含在本发明的技术范围内。
这里公开的实施形式是简单地例示,但本发明并不仅仅局限于上述实施形式。本发明的范围在参考本发明之详细说明的基础上,由权利要求书的各权利要求中表示,包含在其上记载的文语和等同意义及范围内的全部变更。
参考文献清单
参考文献1:Paineni,K.,Roukos,S.,Ward,T.,and Zhu,W.-J.(2002)Bleu:a method for automatic evaluation of machine translation.In Proceedingsof the 40th Annual Meeting of the Association for Computational Linguistics(ACL),pp.311-318。
参考文献2:古濑藏、山本和英、山田节夫(1999)。使用构成素境界分析的多语言口语翻译。自然言语处理,6(5):63-91。
参考文献3,Yasuda,K,sugaya,F,Takezawa,T.,Yamamoto,S.,andYanagida,M.,(2001).An automatic evaluation method of translation qualityusing translation answer candidates queried from a parallel corpus.Inproceedings of Machine Translation Summit VIII,pp.373-378.
参考文献4:Akiba,Y.,Imamura,K.,and Sumita,E.,(2001).Usingmultiple edit distances to automatically rank machine translation output.InProceeding of Machine Translation Summit VIII,pp.15-20.

Claims (32)

1、一种改良翻译知识的方法,其使用计算机对从第一语言机器翻译成第二语言时的翻译知识进行改良,包括:
在存储装置内准备计算机可读取的翻译知识之集合的步骤;
在存储装置内准备在所述第一语言和所述第二语言之间的对译文集的步骤,该对译文集包含多个计算机可读取的对译句子;
利用所述翻译知识的集合,将所述对译文集中的所述第一语言的各个句子机器翻译成所述第二语言的步骤;
根据给定评价基准一边参考所述对译文集一边自动评价所述机器翻译步骤的结果所得到的所述第二语言的翻译质量,并算出评价值的步骤;
针对所述翻译知识集合的部分集合,采用与在所述机器翻译步骤下各个句子翻译时所使用的翻译知识相关的记录、和所述评价值,算出该部分集合对于翻译质量的贡献度的步骤;和
当由计算所述贡献度步骤所算出的贡献度满足预定的条件时,从所述翻译知识的集合中删除与所述部分集合具有给定关系的翻译知识的步骤。
2、根据权利要求1所述的方法,其特征在于,
计算所述贡献度的步骤包括:算出在所述用于计算评价值的步骤中所算出的评价值、和采用有关所述翻译知识集合的所述部分集合的补集合来翻译所述对译文集中所述第一语言的各个句子时的翻译质量的评价值之间的差分的步骤。
3、根据权利要求2所述的方法,其特征在于,
所述机器翻译步骤还包括利用所述翻译知识集合将所述对译文集中所述第一语言的各个句子在生成各个句子翻译时所使用的翻译知识的记录的同时翻译成所述第二语言的步骤;
计算所述差分的步骤包括:
根据在所述机器翻译步骤中生成的在各个句子翻译时使用的翻译知识的记录,特定在所述机器翻译步骤中采用所述部分集合中所包含的翻译知识翻译所翻译的所述第一语言的句子、和在所述机器翻译步骤中所翻译的其译文的步骤;
对于在所述特定步骤中被特定的所述第一语言的各个句子,通过使用与所述翻译知识集合相关的所述部分集合的补集合中所包含的翻译知识的机器翻译来进行重新翻译的步骤;
在所述机器翻译步骤所得译文的集合中,对于用所述重新翻译步骤所得译文置换在所述特定步骤特定的所述第一语言句子译文所获得的集合,根据所述给定评价基准来进行自动评价并算出新评价值的步骤;和
算出在计算所述评价值步骤所算出的评价值和计算所述新评价值步骤所算出的新评价值之间的差分的步骤。
4、根据权利要求1所述的方法,其特征在于,
删除所述翻译规则的步骤包括:当通过计算所述贡献度的步骤所算出的贡献度是负值时,从所述翻译知识集合中删除在所述部分集合中所包含的翻译知识的步骤。
5、根据权利要求1所述的方法,其特征在于,还包括:
改变在所述翻译知识集合中的所述部分集合,在规定结束条件满足之前重复进行算出所述贡献度的步骤和所述删除步骤的步骤。
6、根据权利要求5所述的方法,其特征在于,
所述部分集合只包含一个翻译知识。
7、根据权利要求1所述的方法,其特征在于,
所述翻译知识包括从所述第一语言的句子结构模式到所述第二语言的句子结构模式的句子结构变换规则。
8、根据权利要求1所述的方法,其特征在于,
算出所述贡献度的步骤包括:
根据预定的方法,从所述翻译知识集合生成多个部分集合的步骤;
使用与在使用所述多个部分集合的每一个来进行所述机器翻译的步骤中所使用的引擎相同的机器翻译引擎来重新翻译所述对译文集的所述第一语言的句子,并且根据所述规定的评价基准来算出所述重新翻译结果之翻译质量的新评价值的步骤;和
对于所述多个部分集合的每一个,算出在计算所述评价值的步骤所算出的评价值和在、根据权利要求1所述的方法,算出所述新评价值的步骤所算出的新评价值之间的差分的步骤。
9、根据权利要求8所述的方法,其特征在于,
所述删除步骤包括:
对于所述多个部分集合的每一个,判定通过算出所述贡献度的步骤所算出的贡献度是否为负值的步骤;和
对于通过所述判定步骤判定所述贡献度为负值的部分集合的每一个,从所述翻译知识集合中删除该部分集合所属的翻译知识的步骤。
10、根据权利要求9述的方法,其特征在于,
所述机器翻译步骤还包括通过利用所述翻译知识集合将所述对译文集中所述第一语言的各个句子在成各个句子翻译时所使用的翻译知识的记录的同时翻译成所述第二语言的步骤;
计算所述差分的步骤包括:
根据在所述机器翻译步骤中生成的在各个句子翻译时使用的翻译知识的记录,特定在所述机器翻译步骤中通过所述部分集合中所包含的翻译知识所翻译的所述第一语言的句子、和在所述机器翻译步骤中所翻译的其译文的步骤;
对于在所述特定步骤中被特定的所述第一语言的各个句子,通过使用所述部分集合中所包含的翻译知识来进行重新翻译的步骤;
在所述机器翻译步骤所得译文的集合中,对于用所述重新翻译步骤所得译文置换在所述特定步骤特定的所述第一语言句子译文后所获得的集合,根据所述给定评价基准来进行自动评价并算出新评价值的步骤;和
算出在计算所述评价值步骤所算出的评价值、和计算所述新评价值步骤所算出的新评价值之间的差分的步骤。
11、根据权利要求9所述的方法,其特征在于,
所述删除步骤包括:
对于所述多个部分集合的每一个,判定通过算出所述差分的步骤所算出的差分是否为正值的步骤;和
对于通过所述判定步骤判定所述差分为正值的部分集合的每一个,从所述翻译知识集合中删除其补集合所属的翻译知识的步骤。
12、根据权利要求9所述的方法,其特征在于,
生成所述部分集合的步骤包括:从所述翻译知识集合中,生成多个通过去掉预定数目的翻译知识所获得的部分集合的步骤。
13、根据权利要求12所述的方法,其特征在于,
生成多个所述部分集合的步骤包括:从所述翻译知识集合中,生成多个通过去掉一个翻译知识所获得的部分集合的步骤。
14、根据权利要求9所述的方法,其特征在于,
生成所述部分集合的步骤包括:从所述翻译知识集合中,生成通过去掉预定数目的翻译知识而能够获得的全部部分集合的步骤。
15、根据权利要求1所述的方法,其特征在于,还包括:
从预先准备的、由所述第一语言和所述第二语言之间的对译文构成的、计算机可读取的训练文集中生成分别包括训练子文集和评价子文集的多个子文集对的步骤;
根据预定的翻译规则的构筑方式,从所述多个子文集对的每一个中自动构筑翻译规则的步骤;
将通过所述构筑步骤对所述多个子文集构筑的翻译规则的多个集合作为对所述多个子文集的基本翻译知识存储在存储装置中的步骤;
将所述多个子文集对的每一个作为所述对译文集并且将通过所述构筑步骤从该子文集中所得的翻译规则集合作为所述翻译知识,通过执行对所述多个子文集对的每一个的所述准备步骤、所述机器翻译步骤、算出所述评价值的步骤、算出所述贡献度的步骤以及所述删除步骤来改良所述翻译知识的步骤;和
将通过改良所述翻译知识的步骤改良的、对所述多个子文集对的每一个所获得的翻译知识的集合集中成一个翻译知识集合的步骤。
16、根据权利要求15所述的方法,其特征在于,
所述集中步骤包括:
对于所述存储装置存储的所述基本翻译知识中包含的每一个翻译规则,在所述多个子文集对的全体中合计通过算出所述贡献度的步骤所算出的贡献度的步骤;和
更新在所述存储装置中存储的所述基本翻译知识的步骤,使得删除通过所述合计步骤合计的贡献度满足规定条件的翻译规则。
17、根据权利要求16所述的方法,其特征在于,
更新所述基本翻译知识的步骤包括:更新在所述存储装置中存储的所述基本翻译知识的步骤,使得删除通过所述合计步骤合计的贡献度为负的翻译知识。
18、一种存储介质,用于存储控制计算机的计算机程序,其使得通过计算机执行后,执行权利要求1记载的全部步骤。
19、一种翻译知识改良装置,用于改良机器翻译之翻译知识,其特征在于,包括:
翻译知识存储单元,用于存储翻译知识的集合;
对译文集存储单元,用于存储包含多个在原语言和目的语言之间的对译文的可机器读取的对译文集;
机器翻译单元,用于利用在所述翻译知识存储单元中存储的所述翻译知识的集合来将所述对译文集中的所述原语言的句子机器翻译成所述目的语言;
翻译质量自动评价单元,用于通过参考所述对译文集来自动评价通过所述机器翻译单元产生的翻译结果的翻译质量并输出评价值;和
改良单元,用于进行所述翻译知识集合的改良,使得所述翻译质量自动评价单元输出的评价值展示出希望的变化。
20、根据权利要求19所述的翻译知识改良装置,其特征在于,
所述翻译知识包括从所述原语言的句子结构模式到所述目的语言的句子结构模式的句子结构变换规则。
21、根据权利要求19所述的翻译知识改良装置,其特征在于,
所述改良单元包括:
规则贡献度计算单元,对于所述翻译知识集合包含的翻译知识的每一个,算出其规则贡献度;和
删除单元,用于从所述翻译知识集合中删除所述规则贡献度满足预定条件的翻译知识。
22、根据权利要求21所述的翻译知识改良装置,其特征在于,
所述规则贡献度计算单元包括:
用于使用所述翻译知识集合的全体来进行通过所述机器翻译单元的翻译和该翻译结果通过所述翻译质量自动评价单元的翻译质量评价而获得初始评价值的;
对所述翻译知识集合中的每个翻译知识,使用从所述翻译知识集合中删除该翻译知识所获得的部分集合,来进行通过所述机器翻译的翻译和该翻译结果通过所述翻译质量自动评价单元的翻译质量评价而获得删除后评价值的单元;和
用于算出所述删除后评价值和所述初始评价值之间的差分作为所述某个翻译知识的所述规则贡献度的单元。
23、根据权利要求19所述的翻译知识改良装置,其特征在于,
所述改良单元包括:
用于使用所述翻译知识集合的全体来进行通过所述机器翻译单元的翻译和该翻译结果通过所述翻译质量自动评价单元的翻译质量评价而获得初始评价值的单元;
用于根据预定方法,从所述翻译知识集合中生成多个部分集合的单元;
判定单元,用于使用所述多个部分集合的每一个来进行通过所述机器翻译单元的翻译和该翻译结果通过所述翻译质量自动评价单元的翻译质量评价,并判定该评价值对于所述初始评价值是否满足规定的条件;和
对于通过所述判定单元而判定出所述评价值满足所述规定条件的部分集合的每一个,用于从所述翻译知识集合中删除其补集合所属翻译知识的单元。
24、根据权利要求23所述的翻译知识改良装置,其特征在于,
生成所述部分集合的单元包括用于生成多个从所述翻译知识集合中去掉预定数的翻译知识而获得的部分集合的单元。
25、根据权利要求24所述的翻译知识改良装置,其特征在于,
生成多个所述部分集合的单元包括用于生成多个从所述翻译知识集合中去掉一个翻译知识而获得的部分集合的单元。
26、根据权利要求23所述的翻译知识改良装置,其特征在于,
生成所述部分集合的单元包括:从所述翻译知识集合中,生成通过去掉预定数目的翻译知识而能够获得的全部部分集合的单元。
27、根据权利要求23所述的翻译知识改良装置,其特征在于,
所述机器翻译单元在机器翻译原语言的句子时具有输出所述翻译知识集合内有关使用哪一个翻译知识的信息的功能;
所述翻译知识改良装置还包括:对在得到所述初始评价值时所翻译的每个句子,用于存储从所述机器翻译单元输出的用于特定在翻译时使用的翻译知识之信息的单元;
所述判定单元包括:
通过参考在所述存储单元中存储的用于特定所述翻译知识的信息,对于所述多个部分集合的每一个,用于特定通过使用该部分集合的补集合中包含的翻译知识所翻译的所述原语言句子的集合的单元;
使用所述部分集合的每一个,用于通过所述机器翻译单元重新机器翻译通过使用该部分集合的补集合中包含的翻译知识所翻译的所述原语言句子的集合的单元;
对所述部分集合的每一个,在所述初期翻译结果中,用通过所述重新机器翻译的单元得到的翻译结果置换通过使用在该部分集合的补集合中所包含翻译知识所翻译的翻译结果,通过所述翻译质量自动评价单元对该置换之后的初期翻译结果进行翻译质量评价而获得通过该部分集合所产生的翻译结果的评价值的单元;
对所述部分集合的每一个,用于判定通过该部分集合所产生的翻译结果的评价值相对所述初始评价值是否满足所述规定条件的单元。
28、根据权利要求27所述的翻译知识改良装置,其特征在于,
所述用于判定的单元包括对所述部分集合的每一个用于判定通过该部分集合产生的翻译结果的评价值是否超过所述初始评价值的单元。
29、根据权利要求19所述的翻译知识改良装置,其特征在于,还包括:
从预先准备的、由所述原语言和所述目的语言之间的对译文构成的训练文集中生成分别包括训练子文集和评价子文集的多个子文集对的单元;
根据预定的翻译知识的构筑方式,从所提供的对译文集中自动构筑翻译知识的翻译知识自动构筑单元;
通过使用所述翻译知识自动构筑单元从所述训练文集中自动构筑翻译知识并作为基本翻译知识存储的基本翻译知识存储单元;
对所述多个子文集对的每一个,通过使用所述翻译知识自动构筑单元从所述训练子文集中自动构筑翻译知识,并且对该翻译知识的集合,将所述评价子文集作为所述可机器读取的对译文集,通过所述翻译知识存储单元、用于存储所述可机器读取的对译文集的单元、所述机器翻译单元、所述翻译质量自动评价单元、以及所述改良单元来进行改良的单元;和
将通过用于进行所述改良的单元所改良的、对所述多个子文集对的每一个所获得的翻译知识的集合集中成一个翻译知识集合的单元。
30、根据权利要求29所述的翻译知识改良装置,其特征在于,
所述用于集中的单元包括:
对于所述基本翻译知识存储单元中存储的所述基本翻译知识中包含的每一个翻译知识,在所述多个子文集对的全体中合计通过所述改良单元算出的差分的差分合计单元;和
用于更新在所述基本翻译知识存储单元中存储的所述基本翻译知识的单元,使得删除通过所述差分合计单元合计的差分满足规定条件的翻译知识。
31、根据权利要求30所述的翻译知识改良装置,其特征在于,
用于更新所述基本翻译知识的单元包括:用于更新在所述基本翻译知识存储单元中存储的所述基本翻译知识的单元,使得删除通过所述差分合计单元合计的差分为负的翻译知识。
32、根据权利要求29所述的翻译知识改良装置,其特征在于,
用于生成所述多个子文集对的单元包括:
用于通过将所述训练文集实质上等分为预定的个数来生成所述预定个数的评价子文集的单元;和
用于对所述预定个数的评价子文集的每一个,生成从所述训练文集中去掉该评价子文集的文集和生成与该评价子文集成对的训练子文集的单元。
CNA2004100452541A 2003-06-04 2004-06-04 用于改良机器翻译之翻译知识的方法和装置 Pending CN1573739A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003159662 2003-06-04
JP2003159662A JP2004362249A (ja) 2003-06-04 2003-06-04 翻訳知識最適化装置、翻訳知識最適化のためのコンピュータプログラム、コンピュータ及び記憶媒体

Publications (1)

Publication Number Publication Date
CN1573739A true CN1573739A (zh) 2005-02-02

Family

ID=33508529

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004100452541A Pending CN1573739A (zh) 2003-06-04 2004-06-04 用于改良机器翻译之翻译知识的方法和装置

Country Status (3)

Country Link
US (1) US20040255281A1 (zh)
JP (1) JP2004362249A (zh)
CN (1) CN1573739A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184171A (zh) * 2011-04-20 2011-09-14 传神联合(北京)信息技术有限公司 机器翻译检查方法
CN102150156B (zh) * 2008-07-03 2015-06-10 谷歌公司 优化用于机器翻译的参数
CN105630774A (zh) * 2014-11-26 2016-06-01 纳宝株式会社 内容参与翻译设备和方法
CN112781603A (zh) * 2019-11-08 2021-05-11 丰田自动车株式会社 贡献度评价装置

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US7475051B1 (en) * 2004-09-22 2009-01-06 International Business Machines Corporation System and method for the cascading definition and enforcement of EDI rules
US7774195B2 (en) * 2005-03-08 2010-08-10 Microsoft Corporation Method and system for creating, storing, managing and consuming culture specific data
US20060206797A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Authorizing implementing application localization rules
US8219907B2 (en) 2005-03-08 2012-07-10 Microsoft Corporation Resource authoring with re-usability score and suggested re-usable data
US7698126B2 (en) * 2005-03-08 2010-04-13 Microsoft Corporation Localization matching component
US7653528B2 (en) * 2005-03-08 2010-01-26 Microsoft Corporation Resource authoring incorporating ontology
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8886514B2 (en) * 2006-08-18 2014-11-11 National Research Council Of Canada Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list
JPWO2008146583A1 (ja) * 2007-05-23 2010-08-19 日本電気株式会社 辞書登録システム、辞書登録方法および辞書登録プログラム
US20080306984A1 (en) * 2007-06-08 2008-12-11 Friedlander Robert R System and method for semantic normalization of source for metadata integration with etl processing layer of complex data across multiple data sources particularly for clinical research and applicable to other domains
US7788213B2 (en) * 2007-06-08 2010-08-31 International Business Machines Corporation System and method for a multiple disciplinary normalization of source for metadata integration with ETL processing layer of complex data across multiple claim engine sources in support of the creation of universal/enterprise healthcare claims record
US8185377B2 (en) * 2007-08-11 2012-05-22 Microsoft Corporation Diagnostic evaluation of machine translators
CN101452446A (zh) * 2007-12-07 2009-06-10 株式会社东芝 目标语言单词变形的方法及装置
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
KR101794274B1 (ko) * 2010-07-13 2017-11-06 에스케이플래닛 주식회사 계층적 구문 기반의 통계적 기계 번역에서의 번역규칙 필터링과 목적단어 생성을 위한 방법 및 장치
US8756050B1 (en) * 2010-09-14 2014-06-17 Amazon Technologies, Inc. Techniques for translating content
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US20130103695A1 (en) * 2011-10-21 2013-04-25 Microsoft Corporation Machine translation detection in web-scraped parallel corpora
JP5879989B2 (ja) * 2011-12-06 2016-03-08 日本電気株式会社 機械翻訳システム、機械翻訳方法および機械翻訳プログラム
JP5465740B2 (ja) * 2012-02-08 2014-04-09 株式会社石田大成社 翻訳支援装置、翻訳支援方法、およびプログラム
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9235567B2 (en) * 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9652453B2 (en) * 2014-04-14 2017-05-16 Xerox Corporation Estimation of parameters for machine translation without in-domain parallel data
JP6499555B2 (ja) * 2015-09-07 2019-04-10 日本電信電話株式会社 書き換え規則作成支援装置、方法、及びプログラム
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
JP6498135B2 (ja) * 2016-02-12 2019-04-10 日本電信電話株式会社 情報処理方法、装置、及びプログラム
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2732563B2 (ja) * 1986-05-20 1998-03-30 株式会社東芝 機械翻訳方法及び装置
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5392419A (en) * 1992-01-24 1995-02-21 Hewlett-Packard Company Language identification system and method for a peripheral unit
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US5848386A (en) * 1996-05-28 1998-12-08 Ricoh Company, Ltd. Method and system for translating documents using different translation resources for different portions of the documents
US5991710A (en) * 1997-05-20 1999-11-23 International Business Machines Corporation Statistical translation system with features based on phrases or groups of words
US6415250B1 (en) * 1997-06-18 2002-07-02 Novell, Inc. System and method for identifying language using morphologically-based techniques
US6513027B1 (en) * 1999-03-16 2003-01-28 Oracle Corporation Automated category discovery for a terminological knowledge base
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US6985862B2 (en) * 2001-03-22 2006-01-10 Tellme Networks, Inc. Histogram grammar weighting and error corrective training of grammar weights

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102150156B (zh) * 2008-07-03 2015-06-10 谷歌公司 优化用于机器翻译的参数
CN102184171A (zh) * 2011-04-20 2011-09-14 传神联合(北京)信息技术有限公司 机器翻译检查方法
CN102184171B (zh) * 2011-04-20 2013-08-14 传神联合(北京)信息技术有限公司 机器翻译检查方法
CN105630774A (zh) * 2014-11-26 2016-06-01 纳宝株式会社 内容参与翻译设备和方法
CN112781603A (zh) * 2019-11-08 2021-05-11 丰田自动车株式会社 贡献度评价装置
CN112781603B (zh) * 2019-11-08 2024-05-17 丰田自动车株式会社 贡献度评价装置

Also Published As

Publication number Publication date
JP2004362249A (ja) 2004-12-24
US20040255281A1 (en) 2004-12-16

Similar Documents

Publication Publication Date Title
CN1573739A (zh) 用于改良机器翻译之翻译知识的方法和装置
CN1595398A (zh) 选择改良多个候补译文所生成的最优译文的机器翻译系统
CN1156773C (zh) 字典管理方法以及装置
CN1542649A (zh) 自然语言生成系统中用于句子实现中排序的成分结构的语言信息统计模型
CN1368693A (zh) 用于全球化软件的方法和设备
CN1487444A (zh) 文本语句比较装置
CN1871597A (zh) 利用一套消歧技术处理文本的系统和方法
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN1319836A (zh) 转换表达方式的方法和装置
CN1652107A (zh) 语言变换规则产生装置、语言变换装置及程序记录媒体
CN101079028A (zh) 一种统计机器翻译中的在线翻译模型选择方法
CN1542736A (zh) 在自然语言理解系统中用于位置的基于规则的语法和用于前终端的统计模型
CN1439979A (zh) 解决方案数据编辑处理及自动概括处理装置和方法
CA2675208A1 (en) Means and method for automatic post-editing of translations
JP2010061645A (ja) フレーズベースの統計的機械翻訳方法及びシステム
CN1841497A (zh) 语音合成系统和方法
CN1573760A (zh) Lsi的设计余量的设定方法
CN101055588A (zh) 获取限制词信息的方法、优化输出的方法和输入法系统
JP2004062726A (ja) 翻訳装置と翻訳方法ならびにプログラムと記録媒体
CN101079268A (zh) 进行手语合成与显示的系统和方法
CN1551103A (zh) 用于语音识别和自然语言理解的具有合成统计和基于规则的语法模型的系统
CN1786947A (zh) 基于网页页面布局提取网页核心内容的系统、方法和程序
CN86108582A (zh) 速记翻译系统
Avramidis et al. Involving Language Professionals in the Evaluation of Machine Translation.
CN1111841C (zh) 在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication