CN101546304B - 基于例句集合的翻译装置、方法以及短语翻译装置 - Google Patents
基于例句集合的翻译装置、方法以及短语翻译装置 Download PDFInfo
- Publication number
- CN101546304B CN101546304B CN 200810183795 CN200810183795A CN101546304B CN 101546304 B CN101546304 B CN 101546304B CN 200810183795 CN200810183795 CN 200810183795 CN 200810183795 A CN200810183795 A CN 200810183795A CN 101546304 B CN101546304 B CN 101546304B
- Authority
- CN
- China
- Prior art keywords
- translation
- example sentence
- phrase
- language
- paginal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于例句集合的翻译装置、方法和包含翻译装置的短语翻译装置。本发明的短语翻译装置具有:基于词典的翻译方式的基于词典的翻译部;例句完全匹配翻译方式的例句完全匹配翻译部;基于单词对齐例句的翻译方式的基于单词对齐例句的翻译部;基于例句集合的翻译部;基于例句的翻译方式的基于例句的翻译部、基于规则的翻译方式的基于规则的翻译部,输入短语依次分阶段地输入到这些翻译部。基于例句集合的翻译部从例句对译词典选择包含输入短语的多个例句对译组,分别提取多个例句对译组中各例句对译组相互之间的共同部分的组,计算提取出的多个共同部分的组针对输入短语的支持程度,输出基于支持程度选择的共同部分的组中的对译短语作为第2语言译文。
Description
技术领域
本发明涉及利用例句对译词典的基于例句集合的翻译装置、方法和包括该基于例句集合的翻译装置的短语翻译装置。
背景技术
机器翻译利用计算机将某一种语言翻译成另一种语言,这种研究开发在世界上已经进行了半个世纪。机器翻译方式可以大致分为:1)基于分析的机器翻译方式、2)基于统计的机器翻译方式、3)基于例句的机器翻译方式。
基于分析的机器翻译方式是对第1语言进行分析(词素分析、句法/语义分析等),将分析结果转换成第2语言,进而生成第2语言译文的技术。因为自然语言分析技术是尚未成熟的技术,所以基于分析的机器翻译方式的实用化存在极限。并且,由于不能学习,所以具有很难对翻译引擎进行改善/改进的缺点。
基于统计的机器翻译方式是使用语言模型和统计模型来构建翻译模型的技术。因为该方式在各模型结构中限定了必要的学习数据(corpus:语料库),所以实用化受到限制。
基于例句的机器翻译方式是模拟人学习外语的机制,参考已经学习过的翻译例句来翻译新的文件的技术。该翻译方式于19世纪80年代提出,此后进行了大量的研究开发。在基于例句的机器翻译技术中,根据所参照的对译例句模式的定义以及相似例句参照方法的不同,有翻译存储翻译技术、使用带单词对齐的对译例句的翻译技术、以及使用句子模式的翻译技术等。
图1是示出基于例句的机器翻译方式所涉及的机器翻译系统的整体结构例的图。机器翻译系统10构成为从比较简单的翻译过渡到比较复杂的翻译,从而实现翻译的高速化。并且,机器翻译系统10具有自动回收不能翻译的部分并赋予准确的对应译文的学习功能。
机器翻译系统10具有:翻译存储装置14,其翻译从源语言文本语句输入部12输入的以句子为单位的语句;基于例句模式的翻译装置16,其输入翻译存储装置14中无法对照的输入语句即不恰当的输入语句,翻译对其进行词素分析后得到的单词等的例句模式;单词直译翻译装置18,其输入基于例句模式的翻译装置16不能翻译的单词作为不恰当的单词,翻译该单词;目标语言文本语句输出部20,其根据由上述翻译装置恰当翻译的结果来生成并输出目标语言的文本语句。
并且,机器翻译系统10还具有:翻译不恰当语句自动回收部22,其回收基于例句模式的翻译装置16不能翻译的语句,对所回收的语句生成恰当的翻译;学习装置24,其检查并修正由翻译不恰当语句自动回收部22生成的翻译;以及翻译词典26。翻译词典26具有:单词对译词典26a,其存储第1语言的单词和作为其对应译文的第2语言的单词;例句对译词典26b,其存储第1语言的例句和作为其对应译文的第2语言的例句;以及例句模式对译词典26c,其存储第1语言的例句模式和作为其对应译文的第2语言的例句模式。在翻译存储装置14、基于例句模式的翻译装置16、单词直译翻译装置18中使用翻译词典26。另外,图1的机器翻译系统只是一个结构例子,还可以包括其它基于语段(chunk)等的翻译引擎。
图2是示出图1中的基于例句模式的翻译装置16的结构的框图。基于例句模式的翻译装置16构成为具有:词素分析部26,其对输入语句进行词素分析;映射变换部28,其使用例句模式对译词典30来对词素分析后的语句进行映射变换;短语翻译部32,其翻译映射变换后的语句中的各名词短语;以及译文生成部34,其将由短语翻译部32翻译后的短语应用到映射变换后的语句中来生成最终译文。将语句中的两个以上单词构成的名词短语一般化后的多个例句模式及其对应译文形成为组而存储到例句模式对译词典30中。映射变换部28生成输入语句中的名词短语一般化后的语句,对例句模式对译词典30进行检索,提取与其相同的例句模式及其对应译文的组。
图3是示出基于例句模式的翻译装置16的具体翻译处理过程的概念图。在此示出了输入日文作为第1语言,作为第2语言得到中文译文的例子。输入基于例句模式的翻译装置16的日文语句在词素分析部26中进行词素分析(图中的数字是分配给各词素的ID),然后提供给映射变换部28。在映射变换部28中,生成使词素分析后的语句中的短语(phrase)一般化(图中的NP1、NP2、NP3)的语句,从例句模式对译词典30中提取与其一致的例句模式。于是,确定其中文对译例句模式。接着,向短语翻译部32输入由映射变换部28一般化成NP1~NP3的名词短语,得到其对译短语。在译文生成部34中,在这样得到的对译例文模式中嵌入对译短语,生成针对所输入的日文语句的中文译文。其中,短语翻译部32的名词短语的翻译精度对最终翻译语句的翻译精度影响重大。
作为与上述机器翻译技术相关的文献,存在专利文件1~4以及非专利文件1和2。在专利文件1中公开了如下技术:在将具有连体修饰节的第1语言语句翻译成第2语言语句时,向第2语言的翻译词典赋予与连体修饰节的语序有关的信息,利用该信息根据第2语言的语法规则来生成第2语言语句,从而得到具有正确语序的名词短语的翻译结果。在专利文件2中,公开了在机器翻译装置的并列名词短语处理中能够进行正确的并列名词短语处理的并列名词短语处理方式。专利文件3中公开了如下技术:通过进行结构分析来提取具有复杂结构的名词短语,分割成主要名词和除此以外的构成要素,使用语法规则中的变换/生成规则来生成译文。专利文件4公开了如下技术:使用例句对译词典,提取包含有输入短语的例句及其译文,用户从提取出的信息中选择译文。
并且,非专利文件1报导了如下技术:针对由第1语言例句和该例句的第2语言译文构成的例句对,分别对例句和译文进行词素分析,分别提取构成例句和译文的单词,从单词对译词典中提取构成例句的单词的译词,将提取出的译词与译文的单词进行对照。非专利文件2报导了使用由例句对的集合构成的单词和译词之间的统计模型来进行对齐的技术,其中,例句对由第1语言例句和该例句的第2语言译文构成。例如,统计模型是DICE系数、X2、相互信息量和T-score等。
【专利文件1】日本特开平5-120329号公报
【专利文件2】日本特开平6-68131号公报
【专利文件3】日本特开平9-282320号公报
【专利文件4】日本特开2001-195404号公报
【非专利文件1】Jin-xia Huang,Key-sun Choi,2000,“Using BilingualSemantic Information in Chinese-Korean Word Alignment”,Pacific AsiaConference on Language,Information and Computation,PACLIC 14,pp.121-130
【非专利文件2】Melamed,Dan,“A Word-to-Word Model ofTranslational Equivalence”,In Procs.of the ACL97,pp.490-497,MadridSpain,1997
但是,上述专利文件1~3所公开的技术的翻译精度很大程度地依赖于语言的分析技术,在其分析精度不充分的现状下,存在着其翻译精度达不到所要求的水平的问题。此外,专利文件4所公开的技术是翻译支持技术,而不是自动提取短语译文的技术。
此外,非专利文件1所公开的技术使用了单词对齐技术,但是该技术回收率非常低,不能处理单词对译词典中不存在的未登记的单词。并且,如果译词具有多义性则不知道应该选择哪个语义。此外,如非专利文件2所公开的那样,在通过应用了例句对译词典的统计模型来计算例句和译文所共有的参数而进行单词对齐的情况下,如果单词具有多义性则精度下降,不能保证最合适的对齐。
发明内容
本发明是为了解决上述现有问题而完成的,其目的在于,提供一种能安装在机器翻译系统的例句模式翻译装置上的高性能的短语翻译装置,该短语翻译装置能够高速、高精度地翻译由两个以上的单词构成的短语,从而提高机器翻译系统中最终译文的翻译精度。
其中,本说明书中的“短语”这个词包括由两个以上的单词构成的短语、以及嵌套了短语在内的短语。
本发明的基于例句集合的翻译装置具有:例句对译词典,其存储有多个第1语言例句和作为其对应译文的第2语言对译例句来作为例句对译组;输入第1语言短语的单元;从所述例句对译词典中选择包含所述输入短语的多个例句对译组的单元;分别提取所述多个例句对译组中的各例句对译组相互之间的共同部分的组的单元;计算所述提取出的多个共同部分的组针对所述输入短语的支持程度的单元;以及输出根据所述计算出的支持程度而选择出的共同部分的组中的对译短语,来作为针对所述输入短语的第2语言译文的单元。
优选的是,计算针对所述输入短语的支持程度的单元还包括:在所述提取出的共同部分的各组中的第1语言例句之间的共同部分与输入短语处于预定的一致程度的情况下,选择其第2语言对应译文中的共同部分来作为译文候选的单元;以及对所述选择出的译文候选的出现次数进行计数,来表示其支持程度的单元。
并且优选的是,在所述提取出的共同部分的各组中的第1语言例句之间的共同部分与输入短语完全一致的情况,或者所述共同部分包含输入短语、并且其对应译文中的共同部分成为译文候选的情况中的任意一种情况下,所述选择译文候选的单元选择其第2语言对应译文中的共同部分来作为译文候选。
优选的是,在以下任意一种情况下,输出根据所述计算出的支持程度而选择出的共同部分的组中的对译短语来作为针对所述输入短语的第2语言译文的单元,输出出现次数最多的译文候选来作为针对所述输入短语的第2语言译文,即:该出现次数最多的译文候选的该出现次数超过第1阈值的情况,或者该出现次数在第1阈值以下、并且该出现次数与出现次数第二多的译文候选的出现次数之差超过第2阈值的情况,或者该出现次数在第1阈值以下、并且该出现次数与出现次数第二多的译文候选的出现次数之比超过第3阈值的情况。
本发明的短语翻译装置包括所述基于例句集合的翻译装置,并且多级地构成基于多个翻译方法的翻译部。
优选的是,所述短语翻译装置具有:采用基于词典的翻译方式的基于词典的翻译部;采用例句完全匹配翻译方式的例句完全匹配翻译部;采用基于单词对齐例句的翻译方式的基于单词对齐例句的翻译部;由所述基于例句集合的翻译装置构成的基于例句集合的翻译部;采用基于例句的翻译方式的基于例句的翻译部;以及采用基于规则的翻译方式的基于规则的翻译部,该短语翻译装置构成为,使输入短语依次分阶段地输入到这些翻译部中。
本发明的基于例句集合的翻译方法是利用例句对译词典的翻译方法,所述例句对译词典存储有多个第1语言例句和作为其对应译文的第2语言对译例句来作为例句对译组,该基于例句集合的翻译方法包括以下步骤:输入第1语言短语;从所述例句对译词典中选择包含所述输入短语的多个例句对译组;分别提取所述多个例句对译组中的各例句对译组相互之间的共同部分的组;计算所述提取出的多个共同部分的组针对所述输入短语的支持程度;以及输出根据所述计算出的支持程度而选择出的共同部分的组中的对译语句,来作为针对所述输入短语的第2语言译文。
优选的是,计算针对所述输入短语的支持程度的步骤还包括以下步骤:在所述提取出的共同部分的各组中的第1语言例句之间的共同部分与输入短语处于预定的一致程度的情况下,选择其第2语言对应译文中的共同部分来作为译文候选;以及对所述选择出的译文候选的出现次数进行计数,来表示其支持程度。
本发明的基于例句集合的翻译装置将从例句对译词典中的多个例句对译中提取出的多个共同部分作为译文候选,根据针对各译文候选的基于出现次数的支持程度来确定最终的译文,所以其翻译精度非常高,并且由于进行了适合于信息处理装置中的高速处理的运算,所以能够高速地进行翻译。
此外,本发明的短语翻译装置基本上按照从较简单的翻译过渡到较复杂的翻译的方式来排列各翻译部,所以能够实现翻译的高速化和高精度化。
附图说明
图1是示出基于例句的机器翻译方式所涉及的机器翻译系统的整体结构例的图。
图2是示出图1中的基于例句模式的翻译装置16的结构的框图。
图3是示出基于例句模式的翻译装置16的具体翻译处理的过程的概念图。
图4是示出本发明实施方式的短语翻译装置的结构的框图。
图5是示出基于词典的翻译部44的翻译处理步骤的流程图。
图6是示出单词/短语对译词典60的数据结构的一个例子的图。
图7是示出基于单词对齐例句的翻译部50的翻译处理步骤的流程图。
图8是示出针对输入短语P而提取出例句e1及其对应译文t1的配对的例子的图。
图9是示出针对输入短语P而提取出例句e2及其对应译文t2的配对的例子的图。
图10是示出针对输入短语P而提取出例句e3及其对应译文t3的配对的例子的图。
图11是简略示出基于例句集合的翻译部52的内部结构的框图。
图12是示出基于例句集合的翻译部52的翻译处理步骤的流程图。
图13是示出将中文短语P输入到基于例句集合的翻译部时例句对译对的选择例的图。
图14是示出计算所选择出的例句对译对的共同部分的支持度的具体例子的图。
图15是将上述支持度的累计结果组成表格来表示的图。
图16是示出在基于例句集合的翻译部52中所实施的具体翻译处理的例子的图。
图17是示出短语翻译装置的一个硬件结构的框图。
具体实施方式
以下,参照附图所示的实施例来说明用于实施本发明的优选方式。
本实施例涉及能够安装在图1所示的机器翻译系统10中所使用的基于例句模式的翻译装置16上的短语翻译装置。图4是示出本实施例的短语翻译装置的结构的框图。如图所示,短语翻译装置40具有基于不同翻译方式的多级翻译部44~56、以及在这些翻译部中所使用的多个对译词典60~66,这样构成为输入到输入部42中的第1语言的短语从较简单的翻译过渡到较复杂的翻译,由此实现翻译的高速化和高精度化。即构成为,在前级翻译部中被恰当翻译后的短语从输出部58输出而不转移到下一级的翻译部进行翻译,只有没有被恰当翻译的短语才输入到下一级翻译部。
具体而言,首先,基于词典的翻译部44对输入到输入部的第1语言短语实施翻译处理,在此没有得到恰当的翻译短语时,由下一级的例句完全匹配翻译部46对该第1语言短语实施翻译处理。接着,在例句完全匹配翻译部46中也没有得到恰当的翻译短语时,在词素分析部48中对输入短语进行词素分析,由下一级的基于单词对齐例句的翻译部50实施翻译处理。并且,在基于单词对齐例句的翻译部50中没有得到恰当的翻译短语时,基于例句集合的翻译部52对输入短语实施翻译处理。然后,在基于例句集合的翻译部52中也没有得到恰当的翻译短语时,基于例句的翻译部54实施翻译处理,在此也没有得到恰当的翻译短语时,实施最终级的基于规则的翻译部56的翻译处理,从输出部58输出其结果。
接着,说明各翻译部44~56的具体结构和处理步骤。
基于词典的翻译部44针对输入短语而检索单词/短语对译词典60,并在词典内存在一致的短语时输出该对译短语。在单词/短语对译词典60内收存有:以第1语言的单词或短语为索引(key)、以第2语言的对译词或短语为值的词典集;和以第2语言的单词或短语为索引、第1语言的对译词或短语作为值的词典集。基于词典的翻译部44基本上进行两个阶段的处理,首先以第1语言的单词/短语为索引进行检索来提取其对译短语,在该处理没有成功的情况下,这次以第2语言的单词或短语为索引进行检索来提取其对译短语。
图5是示出基于词典的翻译部44的翻译处理的步骤的流程图。如图所示,针对输入短语P,在最初的步骤S501中,检索从语言1翻译为语言2的单词/短语对译词典集。然后,在该词典集中存在相应单词或短语的情况下,处理从步骤S502转移到步骤S503,提取该相应单词或短语的对译词或者对译短语来作为输入短语P的译文,从输出部58输出该译文。
另一方面,在步骤S502中,当判断为在该词典集中不存在相应单词或短语时,检索从语言2翻译为语言1的单词/短语对译词典集。然后,当在该词典集的对译数据中存在相应单词或短语时,处理从步骤S505转移到步骤S506,提取该相应单词或短语的原文来作为输入短语P的译文,从输出部58输出该原文。在从上述两个词典集的任意一个中都不能得到相应单词/短语时,将输入短语P移交给作为下一级翻译部的例句完全匹配翻译部46,而实施例句完全匹配翻译部46中的处理。
图6是示出单词/短语对译词典60的数据结构的一例的图。在该例中,以假设第1语言是日文、第2语言是中文的情况的词典为例,来表示以日文为原文、中文为译文而构成的第1词典集60a,和以中文为原文、日文为译文而构成的第2词典集60b。在输入到短语翻译装置中的短语P是日文的情况下,首先检索第1词典集60a的原文栏,提取与相应字段对应的中文译文来作为短语P的译文。当基于第1词典集60a的检索失败时,接着检索第2词典集60b的译文栏,提取与相应字段对应的中文原文来作为短语P的译文。
在上述基于词典的翻译部44中,当不能得到针对输入短语的译文时,该输入短语成为例句完全匹配翻译部46的处理对象。例句完全匹配翻译部46用于检索例句对译词典62来得到输入短语的对应译文,该例句对译词典62主要具有寒暄语等定型例句。在该翻译部的对应译文的提取中,例如利用使用了哈希(hash)值的检索。这种情况下,当输入了第1语言的短语时,生成输入短语的哈希值,从例句对译词典62中检索与输入短语的哈希值完全匹配的第1语言例句的哈希值,提取对译例句。可以利用已有技术来生成具体的哈希值。例句完全匹配翻译部46还可构成为,除了基于哈希值的检索,还使用基于N-gram法的检索,从例句对译词典中检索相似的第1语言例句候选,提取其对译例句。
接着,对基于单词对齐例句的翻译部50的功能进行说明。在词素分析部48中,对例句完全匹配翻译部46不能恰当翻译的短语进行词素分析,即分别提取输入短语中包含的单词和词类,并分别赋予含义属性,这成为基于单词对齐例句的翻译部50的输入数据。基于单词对齐例句的翻译部50参照单词对齐对译词典64来取得针对词素分析后的短语的译文候选。
单词对齐对译词典64存储第1语言例句及其第2语言对应译文的组,对它们附加单词对齐信息,即第1语言例句中的各单词与第2语言对应译文中的各单词的对应信息。这里没有对具体的单词对齐信息的生成方法进行说明,但是在本实施例中可以利用已有的各种单词对齐信息生成方法。
图7是示出基于单词对齐例句的翻译部50的翻译处理的步骤的流程图。在图的步骤S701中,提取单词对齐对译词典64的最初的例句对,在步骤S702中判断在该第1语言例句中是否含有词素分析后的短语P。对词典内的所有例句对进行该处理,直到含有短语P的例句对出现为止。即,当判断为提取出的例句对中不含有短语P时,在步骤S703中判断是否取出了词典内的所有例句对,在没有取出所有例句对的情况下,在步骤S704中取出下一个例句对,进行与短语P的对比。
在步骤S702中,当判断为提取出的例句对中包含短语P时,处理转移到步骤S705,参照该例句对的单词对齐信息,来提取译文中的与例句中的相当于短语P的部分相对应的部分,作为短语P的译文候选。接着,判断该提取出的译文候选中的单词是否包含有与源例句中除了对应于短语P的部分以外的部分对齐的单词(步骤S706)。然后,在没有这样的单词的情况下,即在例句的相当于短语P的部分与译文候选之间的对齐完全一致、或者译文候选中虽然含有其他单词但是该单词与例句中其他部分的单词不对齐(空对应)的情况下,输出该译文候选作为本翻译部的短语P的译文(步骤S707)。
另一方面,在步骤S706中,当判断为该提取出的译文候选中的单词包含与源例句中除了对应于短语P的部分以外的部分对齐的单词时,判断为将该译文候选作为最终译文不恰当,处理返回步骤S703,检索下一个候选。当结束了所有例句对的对比、且作为结果没有得到对应译文时,输入短语被移交给下一级翻译部即基于例句集合的翻译部52,而成为基于例句集合的翻译部52中的翻译处理对象。
图8~图10是示出图7的步骤S706的具体判断例的图。图8和图9的例子表示获得了短语P的对应译文的例子,图10表示没有获得对应译文的情况。图8是针对图中的输入短语P而提取出例句e1及其对应译文t1的配对的例子,在此,针对例句e1中相当于输入短语P的部分,提取译文t1中的Tg部分来作为译文候选。并且,在该例中,译文候选Tg仅由与构成输入短语P的单词p1、p2、p3对齐的tg1、tg2、tg3构成,结果,在图7的步骤S707中,输出译文的Tg部分来作为最终的译文。
并且,图9是针对图中的输入短语P而提取出例句e2及其对应译文t2的配对的例子。在此,针对例句e2中相当于输入短语P的部分,提取出译文t2中的Tg部分来作为译文候选。并且,在该例中,译文候选Tg除了包含与构成输入短语P的单词p1~p4对齐的tg1~tg4之外,还包含tg5。但是,tg5与例句e2中的其他部分不对齐(空对应),所以作为结果,在图7的步骤S707中,输出译文的Tg部分作为最终译文。
图10是针对图中的输入短语P而提取出例句e3及其对应译文t3的配对的例子。在此,针对例句e3中相当于输入短语P的部分,提取译文t3中的Tg部分作为译文候选。并且,在该例中,译文候选Tg除了包含与构成输入短语P的单词p1~p3对齐的tg1~tg3之外,还包含tg4和tg5。在此,tg4与例句e3的其他部分不对齐(空对应),但是tg5与例句e3的其他部分的单词p4对齐,所以作为结果,在图7的步骤S707中,不将译文的Tg部分作为译文输出。
接着,说明基于例句集合的翻译部52的功能。在基于单词对齐例句的翻译部50中不能恰当翻译的短语成为基于例句集合的翻译部52的输入数据。基于例句集合的翻译部52通过参照例句对译词典66来得到针对输入短语的译文候选。在例句对译词典66中存储有多个第1语言例句及其第2语言对应译文的组。为了提高本翻译部的翻译精度,优选在例句对译词典66中登记尽可能多的例句对译组。
图11是简略示出基于例句集合的翻译部52的内部结构的框图。在图中,基于例句集合的翻译部52具有:例句对译对选择部1102,其用于从例句对译词典66中选择包含输入短语的多个例句对译组;短语对提取部1104,其提取各例句对译组相互之间的共同部分的组;支持度计算部1106,其计算所提取出的多个共同部分的组针对输入短语的支持程度;以及译文选择部1108,其基于上述计算出的支持程度,从译文候选中选择最终的译文。
输入短语是P时,上述例句对译对选择部1102检索例句对译词典66中的第1语言例句群,选择所有包含该短语P的例句及其对应译文的组。上述短语对提取部1104相互对照由例句对译对选择部1102选择出的各例句对译组,提取这些例句对译组的共同部分的组。具体而言,对各例句对译组的第1语言的各例句进行对照来提取其共同部分,并且对第2语言的各译文进行对照来提取其共同部分。当各例句对译组中存在多个共同部分时,比较各共同部分的长度,将最长的共同部分作为对象。并且,将包含在例句中的助词等通用文字作为禁用文字集合预先进行登记,并将它们从要进行提取的共同部分中除去。
上述支持度计算部1106计算上述提取出的共同部分针对输入短语的支持度。具体而言,观察所提取出的各第1语言的例句组合的共同部分与输入短语的一致程度,在它们完全一致的情况下(以下称此为强支持),将其对应译文中的共同部分作为译文候选,将其支持度相加。此外,即使在它们不完全一致的情况下,当共同部分包含有输入短语、并且其对应译文中的共同部分成为译文候选时(以下称此为弱支持),也将其对应译文中的共同部分作为译文候选,将其支持度相加。针对提取出的所有共同部分实施该运算,累计各共同部分针对输入短语的支持度。由此,对译文候选的出现次数进行计数。
上述译文选择部1108针对支持度计算部1106中的运算结果,根据预定的基准值从多个译文候选中选择要输出的最终译文。具体而言,提取支持度最高的2个译文候选,根据以下基准进行该决定。在此,设2个译文候选为T1、T2,设它们的支持度为x,y(其中,x>y)。
(1)当x<θ1时,不存在恰当的候选,输出翻译不恰当
(2)当x>=θ1并且x-y>θ2时,作为译文输出T1
(3)当x>=θ1并且x/y>θ3时,作为译文输出T1
其中,θ1、θ2、θ3是非负实数。
接着,说明基于例句集合的翻译部52的处理步骤。图12是示出基于例句集合的翻译部52的翻译处理步骤的流程图。当输入前级翻译部不能恰当翻译而输出的短语时,基于例句集合的翻译部52访问例句对译词典66,从中选择包含输入短语的多个例句对译组(步骤S1201)。接着,提取这些选择出的各例句对译组相互之间的共同部分的组(步骤S1202),计算所有这些组针对输入短语的支持度(步骤S1203)。然后,提取所计算出的支持程度高的2个候选(步骤S1204),根据所述基准值决定最终的输出(步骤S1205)。在步骤S1205的判断结果是存在最终译文的情况下,将其作为基于例句集合的翻译部52的译文输出到输出部58而结束处理(步骤S1206)。另外,在译文候选不满足预定基准的情况下,没有得到本翻译部的译文,将输入短语输出到下一级翻译部。
接着,按照数学叙述来说明基于例句集合的翻译部52的翻译处理。以下,将收存在例句对译词典66中的例句及其对应译文分别表示为CS和JS,将例句对译对表示为S=CS<->JS,将选择出的对译例句对的候选群表示为BS。在此,用文字的有序文字串来表示例句CS和译文JS。
【数1】
CS=<c1,c2,…cm> (1)
JS=<j1,j2,…jn> (2)
用P来表示输入短语。在此P也用文字的有序文字串来表示。
【数2】
P=<p1,p2,…pp> (4)
并且,如果将任意的例句对译对设为Sk、Sh,则其如下定义。
【数3】
Sk,Sh∈BS
并且,其共同部分如下定义。
【数4】
在此,满足以下各条件。其中,CWSTOP表示第1语言的禁用文字串集合,JWSTOP表示第2语言的禁用文字串集合。
【数5】
h≤h1∧h1+x≤h+nh (9-1)
k≤k1∧k1+x≤k+nk (10-1)
h≤h1∧h1+q≤h+nh (9-2)
k≤k1∧k1+q≤k+nk (10-2)
接着,在输入短语的语言是第1语言的情况下,当Sh和Sk的共同部分如下所示时,表现为Sh和Sk强支持P<->Tg,此时Tg成为P的译文候选。
【数6】
在此,在对译例句对的候选群BS中,如果x个例句对支持P<->Tg,则将Tg作为输入短语P的译文候选的支持度定义为x,表示为SV(P<->Tg)=x。并且,将支持度SV(P<->Tg)最大的译文Tg作为输入短语P的译文,表示如下。
【数7】
在此,若Sh和Sk的共同部分如下所示,则表现为Sh和Sk弱支持P<->Tg,这种情况下,Tg也成为P的译文候选。
【数8】
此外,在输入短语的语言是第2语言的情况下,若Sh和Sk的共同部分如下所示,则表现为Sh和Sk强支持Tg<->P,此时Tg成为P的译文候选。
【数9】
在此,在对译例句对的候选群BS中,如果x个例句对支持Tg<->P,则将Tg作为输入短语P的译文候选的支持度定义为x,表现为SV(Tg<->P)=x。并且,将支持度SV(Tg<->P)最大的译文Tg作为输入短语P的译文,表示如下。
【数10】
在此,若Sh和Sk的共同部分如下所示,则表现为Sh和Sk弱支持Tg<->P,这种情况下,Tg也成为P的译文候选。
【数11】
接着,示出基于例句集合的翻译部52的翻译处理的具体例子。在例子中,示出了将输入的中文短语翻译成日文的情况。图13~图16是示出在基于例句集合的翻译部52中实施的具体翻译处理的例子。
在图13中示出了将中文短语P输入到基于例句集合的翻译部时例句对译对的选择例(S 1,S2,S3,S4,S5...)。已知在各例句对译对的例句C1,C2,C3,C4,C5...中包含有输入短语P。
图14示出了计算所选择出的例句对译对的共同部分的支持度的具体例子。判断各例句对译对相互之间的共同部分的支持度,作为其结果将对应译文的支持度相加。
图15将上述支持度的累计结果组成表格来表示。由此,知道了针对各译文候选的支持度。
在图16中,从上述支持度的累计结果中提取支持度高的2个译文候选,最终判断为T1超过了预定基准,将T1确定为最终译文。
返回到图4,基于例句集合的翻译部52不能恰当翻译的短语被移交给下一级的基于例句的翻译部54,接受基于例句的翻译部54中的翻译处理。基于例句的翻译部54检索例句对译词典66,提取与输入短语一致的例句,并输出其对应译文作为输入短语的译文。关于基于例句的翻译部54的具体翻译方法,可以采用现有的各种翻译方法。
基于例句的翻译部54没有恰当翻译的短语被移交给下一级的基于规则的翻译部56,接受基于规则的翻译部56中的翻译处理。基于规则的翻译部56对第1语言进行分析(词素分析、句法/语义分析等),以通过人工生成的大量规则作为基础,将分析结果转换成第2语言,进而生成第2语言的译文。关于本实施方式中基于规则的翻译部56的具体方法,可以使用现有的各种翻译方法。
以上,输入到输入部42的短语依次分阶段地输入到翻译部44~56,接受它们翻译处理,直至得到其翻译。各翻译部的顺序基本上按照从较简单的翻译过渡到较复杂的翻译的方式排列,所以能够实现翻译的高速化和高精度化。
图17是示出短语翻译装置的一硬件结构的框图。短语翻译装置优选构成为具有输入装置1700、显示装置1702、主存储装置1704、存储装置1706、中央处理装置(CPU)1708、和连接这些装置的总线1710。
输入装置1700包含通过键操作来输入信息的键盘、对记载于原稿上的文件等进行光学读取的扫描仪、以及输入来自外部装置和外部存储器等的数据的输入接口等。显示装置1702包括用于显示用户的输入和翻译结果等的显示器等。主存储装置1704包括ROM或RAM,并存储对图4所示的各部分的动作进行控制的程序和运算处理后的数据等。存储装置1706包括例如硬盘等大容量存储装置,并存储例句对译词典等各种词典60~66等的数据。中央处理装置1708根据存储在主存储装置1704中的程序控制各部。
以上,详细说明了本发明的优选实施方式,但不限于本发明的特定实施方式,在权利要求书所记载的本发明的主旨范围内,可以进行各种变形和变更。
(产业上的利用可能性)
本发明的短语翻译装置可用于机器翻译系统的例句模式翻译装置中。
Claims (5)
1.一种基于例句集合的翻译装置,其特征在于,该基于例句集合的翻译装置具有:
例句对译词典,其存储有多个第1语言例句和作为其对应译文的第2语言对译例句来作为例句对译组;
输入第1语言短语的单元;
从所述例句对译词典中选择包含所述输入短语的多个例句对译组的单元;
分别提取所述多个例句对译组中的各例句对译组相互之间的共同部分的组的单元;
计算所述提取出的多个共同部分的组针对所述输入短语的支持程度的单元;以及
输出根据所述计算出的支持程度而选择出的共同部分的组中的对译短语,来作为针对所述输入短语的第2语言译文的单元,
其中,计算针对所述输入短语的支持程度的单元进一步包括:
在所述提取出的共同部分的各组中的第1语言例句之间的共同部分与输入短语处于预定的一致程度的情况下,选择其第2语言对应译文中的共同部分来作为译文候选的单元;以及
对所述选择出的译文候选的出现次数进行计数,来表示其支持程度的单元。
2.根据权利要求1所述的基于例句集合的翻译装置,其特征在于,
在所述提取出的共同部分的各组中的第1语言例句之间的共同部分与输入短语完全一致的情况,或者所述共同部分包含输入短语、并且其对应译文中的共同部分成为译文候选的情况中的任意一种情况下,选择所述译文候选的单元选择其第2语言对应译文中的共同部分来作为译文候选。
3.根据权利要求1或2所述的基于例句集合的翻译装置,其特征在于,
在以下任意一种情况下,输出根据所述计算出的支持程度而选择出的共同部分的组中的对译短语来作为针对所述输入短语的第2语言译文的单元,输出出现次数最多的译文候选来作为针对所述输入短语的第2语言译文,即:该出现次数最多的译文候选的该出现次数超过第1阈值的情况,或者该出现次数在第1阈值以下、并且该出现次数与出现次数第二多的译文候选的出现次数之差超过第2阈值的情况,或者该出现次数在第1阈值以下、并且该出现次数与出现次数第二多的译文候选的出现次数之比超过第3阈值的情况。
4.一种短语翻译装置,其特征在于,该短语翻译装置包括根据权利要求1或2所述的基于例句集合的翻译装置,
所述短语翻译装置具有:采用基于词典的翻译方式的基于词典的翻译部;采用例句完全匹配翻译方式的例句完全匹配翻译部;采用基于单词对齐例句的翻译方式的基于单词对齐例句的翻译部;由权利要求1或2所述的基于例句集合的翻译装置构成的基于例句集合的翻译部;采用基于例句的翻译方式的基于例句的翻译部;以及采用基于规则的翻译方式的基于规则的翻译部,
该短语翻译装置构成为,使输入短语依次分阶段地输入到这些翻译部中。
5.一种利用例句对译词典的基于例句集合的翻译方法,所述例句对译词典存储有多个第1语言例句和作为其对应译文的第2语言对译例句来作为例句对译组,其特征在于,该基于例句集合的翻译方法包括以下步骤:
输入第1语言短语;
从所述例句对译词典中选择包含所述输入短语的多个例句对译组;
分别提取所述多个例句对译组中的各例句对译组相互之间的共同部分的组;
计算所述提取出的多个共同部分的组针对所述输入短语的支持程度;以及
输出根据所述计算出的支持程度而选择出的共同部分的组中的对译短语,来作为针对所述输入短语的第2语言译文,
其中,计算针对所述输入短语的支持程度的步骤还包括以下步骤:
在所述提取出的共同部分的各组中的第1语言例句之间的共同部分与输入短语处于预定的一致程度的情况下,选择其第2语言对应译文中的共同部分来作为译文候选;以及
对所述选择出的译文候选的出现次数进行计数,来表示其支持程度。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008076497 | 2008-03-24 | ||
JP2008-076497 | 2008-03-24 | ||
JP2008076497A JP5194920B2 (ja) | 2008-03-24 | 2008-03-24 | 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101546304A CN101546304A (zh) | 2009-09-30 |
CN101546304B true CN101546304B (zh) | 2013-02-06 |
Family
ID=41193446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200810183795 Active CN101546304B (zh) | 2008-03-24 | 2008-12-18 | 基于例句集合的翻译装置、方法以及短语翻译装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5194920B2 (zh) |
CN (1) | CN101546304B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467498A (zh) * | 2010-11-18 | 2012-05-23 | 阿里巴巴集团控股有限公司 | 翻译方法及装置 |
JP2014075073A (ja) | 2012-10-05 | 2014-04-24 | Fuji Xerox Co Ltd | 翻訳処理装置及びプログラム |
CN109190099B (zh) * | 2018-08-23 | 2022-12-13 | 上海互教教育科技有限公司 | 句模提取方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140570A (zh) * | 2006-09-04 | 2008-03-12 | 富士施乐株式会社 | 翻译装置、翻译方法以及计算机可读介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3437782B2 (ja) * | 1999-03-12 | 2003-08-18 | 日本電信電話株式会社 | 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体 |
-
2008
- 2008-03-24 JP JP2008076497A patent/JP5194920B2/ja active Active
- 2008-12-18 CN CN 200810183795 patent/CN101546304B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101140570A (zh) * | 2006-09-04 | 2008-03-12 | 富士施乐株式会社 | 翻译装置、翻译方法以及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101546304A (zh) | 2009-09-30 |
JP2009230561A (ja) | 2009-10-08 |
JP5194920B2 (ja) | 2013-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107506346A (zh) | 一种基于机器学习的中文阅读难度分级方法及系统 | |
Yao et al. | Semi-markov phrase-based monolingual alignment | |
CN101667177B (zh) | 双语文本的对齐方法及装置 | |
Zhang et al. | A fast, compact, accurate model for language identification of codemixed text | |
CN111124487B (zh) | 代码克隆检测方法、装置以及电子设备 | |
CN110046348B (zh) | 一种基于规则和词典的地铁设计规范中主体识别方法 | |
KR100911372B1 (ko) | 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법 | |
Rei et al. | Auxiliary objectives for neural error detection models | |
CN104375988A (zh) | 一种词语对齐方法及装置 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN110633456B (zh) | 语种识别方法、装置、服务器及存储介质 | |
Hamdelsayed et al. | Islamic applications of automatic question-answering | |
CN101546304B (zh) | 基于例句集合的翻译装置、方法以及短语翻译装置 | |
Abuelyaman et al. | Machine translation of Arabic language: challenges and keys | |
Belz et al. | Extracting parallel fragments from comparable corpora for data-to-text generation | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
Nghiem et al. | Using MathML parallel markup corpora for semantic enrichment of mathematical expressions | |
Garcia et al. | Exploring cross-lingual word embeddings for the inference of bilingual dictionaries. | |
US20240012996A1 (en) | Alignment apparatus, learning apparatus, alignment method, learning method and program | |
Raza et al. | Saraiki Language Word Prediction And Spell Correction Framework | |
Fawi et al. | Italian-Arabic domain terminology extraction from parallel corpora | |
Das et al. | Language identification of Bengali-English code-mixed data using character & phonetic based LSTM models | |
Wetzel et al. | A maximum entropy classifier for cross-lingual pronoun prediction | |
Hasan et al. | SweetCoat-2D: Two-Dimensional Bangla Spelling Correction and Suggestion Using Levenshtein Edit Distance and String Matching Algorithm | |
Tran et al. | Preordering for Chinese-Vietnamese statistical machine translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: Tokyo Patentee after: Fuji film business innovation Co.,Ltd. Address before: Tokyo Patentee before: Fuji Xerox Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |