CN1894688A - 对译判断装置、方法及程序 - Google Patents

对译判断装置、方法及程序 Download PDF

Info

Publication number
CN1894688A
CN1894688A CNA2004800374589A CN200480037458A CN1894688A CN 1894688 A CN1894688 A CN 1894688A CN A2004800374589 A CNA2004800374589 A CN A2004800374589A CN 200480037458 A CN200480037458 A CN 200480037458A CN 1894688 A CN1894688 A CN 1894688A
Authority
CN
China
Prior art keywords
translation
word
natural character
paginal
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800374589A
Other languages
English (en)
Inventor
杰科普森阳子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ROZETTA Corp
Original Assignee
GENGO GIJUTSU KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GENGO GIJUTSU KENKYUSHO KK filed Critical GENGO GIJUTSU KENKYUSHO KK
Publication of CN1894688A publication Critical patent/CN1894688A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Abstract

可得到根据原语言的原文得到自然的对译文作为目标语言的句子的可能性高的、原文中的翻译对象语句的合适对译。在对译DB中与目标语言的对译文对应地登记有多个由多个单词构成的原语言的对译文,若指定了原语言的原文中的翻译对象语句,则对于对译DB检索包含翻译对象语句的自然文(102),若没有与原文完全一致的自然文(104为否定),则运算所提取出的各自然文与原文的一致度数,显示一致度数最大的自然文的对译文(108~112)。在存在多个一致度数最大的自然文时(110为肯定),判断与翻译对象语句在同一文章中存在的可能性(相关性)高的单词,显示包含高相关性的单词的自然文的对译文(114~118)。若没有包含高相关性的单词的自然文(116为否定),则识别出可替代原文中的关注单词的单词(120~128),显示相对于原文把关注单词置换成替代单词的自然文的对译文。

Description

对译判断装置、方法及程序
技术领域
本发明涉及对译判断装置、方法及程序,尤其涉及对原语言的原文中的至少翻译对象语句的对译进行判断的对译判断装置、可应用于该对译判断装置的对译判断方法、以及使计算机作为所述对译判断装置发挥作用的程序。
背景技术
从很早之前开始就期待能够实现所谓机器翻译,即,利用计算机将用某种自然语言(原语言)记述的文章(原文)翻译成用另一种自然语言(目标语言)记述的文章(翻译文),并提出了有关机器翻译的各种改良技术。
例如,在专利文献1中已公开了如下技术,即,将词组所代表的一个总结性的表述形式预先存储到HD(硬盘)装置中所准备的英日词组辞典,在句法分析处理中,在英文文本中检索由利用对等连词结合的单词构成的表述形式,在所检索到的表述形式已被存储在英日词组辞典中时,或构成所检索到的表述方式的单词的接头词或接尾词相同时,将所检索到的表述方式识别为一个词素,不将其分离地来进行句法分析。
并且,在专利文献2中已公开了如下技术,即,预先存储特征表,该特征表中针对每个多义词使其词义和特征对应起来,对所输入的第一语言的原文生成特征记录,比较所生成的特征记录和特征表,根据原文所具有的特征,选择/输出多义词的词义。
专利文献1:日本特开平11-328178号公报
专利文献2:日本特开平6-314294号公报
将用原语言记述的原文翻译成用目标语言记述的翻译文的作业,通常经过如下的翻译过程来进行,即,根据句是由单词和语法构成的这种认识,将用原语言记述的原文中的单词转换成目标语言的单词,将转换过的单词按照目标语言的语法规则重新排列。该翻译过程也被用于利用计算机进行翻译的机器翻译,通常的方式为:通过重复进行按单词单位将对译登记到辞典中、从原文中依次取出单词、检索所取出的单词的对译的过程,在按单词单位将原文替换成对译的同时,判断原文中的每个单词的词类、分析句法,根据句法的分析结果,按照目标语言的语法规则重新排列按单词单位的对译,从而得到翻译文(对译文)。
并且,机器翻译中,即使在原文中存在定型词组时,若应用专利文献1所述的技术,则也有可能得到上述词组的合适的对译,即使在原文中存在多义词时,若应用专利文献2中所述的技术,则也有可能得到针对上述多义词的特定的对译(但是,在专利文献2中所述的技术中,需要进行如下的繁琐作业:即,提取多义词,分析所提取的多义词的词义和特征,预先制作特征表)。但是,在机器翻译中,即使在所得到的翻译文中无语法错误、在按单词单位的对译上也无错误的情况下,也会出现很多翻译文作为目标语言的句子来说是不自然的句子的情况,在现有的机器翻译的技术中,实际情况是,即使应用了例如专利文献1或专利文献2所述的技术,也不能够得到实用性好的翻译精度。
据推测,这是因为,在机器翻译中所采用的翻译过程,与人用母语说话或写文章时造句的过程有着显著的差异。即,在人用母语说话或写文章时,不经过类似于回忆单词、套用语法来造句这样的翻译过程的过程,实际上,在依据与上下文的前后的关系或附随于语句本身的背景知识的基础上,从存储在各人的记忆中的庞大数量的块(chunk)(意群:单词、词组、定型表述、词的搭配、句法、文章)中,把忆起的(根据情况选择的)合适的单词/词组/句子连起来,从而来造句。
因此,虽然与人用母语说话或书写时相同地,在依据与上下文的前后的关系、附随于语句本身的背景知识、人用母语说话或书写用的撰写文章时所回忆的单位(即块)的基础上,求得原文的对译,即能够作为目标语言的句子而得到自然的翻译文,但是上下文关系的判断和附随于语句本身的背景知识的判断并不容易,且块的分割也不清楚,在机器翻译中,实际情况是还未能够实现按块单位求出原文的对译而得到翻译文。
本发明是鉴于上述实情而提出的,其目的在于,获得对译判断装置、对译判断方法及程序,根据原语言的原文获得自然的对译文作为目标语言的句子的可能性高、能够得到原文中的翻译对象语句的合适的对译。
发明内容
为了达到上述目的,第一方面的发明为一种对译判断装置,其构成为包括:存储单元,其将由多个单词构成的原语言的自然文,与目标语言的对译文对应起来存储多个;检索单元,其从存储于所述存储单元中的原语言的多个自然文中,检索包含有原语言的原文中的翻译对象语句的自然文;以及第一对译判断单元,其求出通过所述检索单元的检索提取出的自然文与所述原文的一致度,将根据所求出的一致度而选择的自然文的对译文中的至少所述翻译对象语句的对译,判断为所述原文中的至少所述翻译对象语句的对译。
在第一方面所述的发明中,将多个由多个单词构成的原语言的自然文,与目标语言的对译文对应起来存储到存储单元中。另外,本发明中的自然文是不进行如现有的机器翻译中的辞典那样,以单词为单位的分割和多义词的提取等编辑/加工的句子、词节、词组、定型表述、词的搭配中的至少一种,通过将该自然文与目标语言的对译文对应起来存储,例如无需像按单词单位登记到辞典中时那样,将多个对译与多义词对应起来(在使多个对译对应多义词时,需要选择对译,有可能发生选择错误),并且,能够将与自然文对应的对译文作为目标语言的句子作成自然的句子。另外,本发明中,除了自然文以外,还可以在存储单元中存储单词及其对译。
并且,在第一方面所述的发明中,通过检索单元,从存储于存储单元中的原语言的多个自然文中,检索包含有原语言的原文(句子、词节、词组、定型表述、词的搭配中的任何一个)中的翻译对象语句的自然文。翻译对象语句是在原文中特别需要翻译的语句,可以是单词,也可以由多个单词构成。例如,将本发明的对译判断装置作为人(翻译者)进行翻译时的电子辞典来使用时,翻译对象语句由翻译者指定。并且,例如将本发明的对译判断装置作为机器翻译装置或自动口译装置的一部分来使用时,由利用通过本发明的对译判断装置判断的对译来进行机器翻译的机器翻译装置或自动口译装置,指定翻译对象语句。并且,对于包含翻译对象语句的原文,可以由利用者(翻译者等)指定,也可以自动判断(例如自动将包含翻译对象语句的句子或词节判断为原文)。检索单元检索包含翻译对象语句的自然文,因此,通过该检索,提取出对应的对译文之中包含翻译对象语句的对译的自然文。
并且,第一方面所述的发明的第一对译判断单元求出通过检索单元的检索而提取出的自然文与原文的一致度,将根据求出的一致度选择的自然文的对译文中的至少翻译对象语句的对译,判断为原文中的至少翻译对象语句的对译。由此,通过检索单元的检索提取出的自然文之中,与原文接近的自然文(例如,采用相同的含义来使用存在于原文中的多义词的自然文等),能够以高概率被选作一致度高的自然文,能够得到与所选择的自然文对应的自然的对译文,该对译文中的至少翻译对象语句的对译,被判断为原文中的翻译对象语句的对译(当然,根据与原文的一致度等,对译文中的翻译对象语句以外的语句的对译,也可以被判断为原文中的该语句的对译)。
这样,第一方面所述的发明,鉴于识别原文上的块的分割在技术上非常困难,将原语言的自然文与目标语言的对译文对应起来存储多个,从所存储的自然文中选择与原语言的原文的一致度高的自然文,将与所选择的自然文对应的自然的对译文中的对译,判断为原文中的至少翻译对象语句的对译,不需识别原文上的块的分割,其结果,能够得到大致与按块单位进行的原文的对译同等的自然的对译,能够得到原文中的翻译对象语句的合适的对译(从原文得到自然的对译文作为目标语言的句子的可能性高的对译)。
并且,第一方面所述的发明,可通过将自然文和对译文存储到存储单元中来实现,因此,至少在向存储单元存储自然文和对译文时,无需按单词单位来分割自然文,或提取多义词、或针对多义词列举出能够想到的全部对译,使其一一对应等繁琐的编辑/加工。并且,在第一方面所述的发明中,求出通过检索单元的检索提取出的自然文与原文的一致度,根据所求出的一致度选择自然文,从而能够得到合适的对译,因此,无需进行现有的机器翻译中的词类判断和句法分析等复杂的处理,能够简化处理。
另外,在第一方面所述的发明中,将自然文和对译文存储到存储单元中,因此,存储单元中也可能存储有与原文完全一致的自然文。考虑到该点,优选例如第二方面的发明那样,检索单元从存储于存储单元中的原语言的多个自然文中也检索与原文完全一致的自然文,第一对译判断单元在通过检索单元的检索提取出与原文完全一致的自然文时,将该完全一致的自然文的对译文判断为原文的对译文。由此,在存储单元中存储有与原文完全一致的自然文时,能够得到原文的对译文。
并且,在第一方面的发明中,通过检索提取出的自然文与原文的一致度,例如可按如下所述来求出。即,第三方面的发明的特征在于,在第一方面所述的发明中,第一对译判断单元对通过检索单元的检索提取出的自然文与原文的一致单词数量进行计数,按照所计数的一致单词数量越多、与原文的一致度越高的方式,评价与原文的一致度。一致单词数量是表示自然文与原文的一致度的重要指标,通过按照一致单词数量越多一致度越高的方式,来评价一致度,从而能够根据该一致度高精度地选择与原文接近的自然文。
并且,在第三方面所述的发明中,作为一致度,例如可以直接使用所计数的一致单词数量,但优选例如第四方面的发明那样,求出将所计数的一致单词数量除以构成翻译对象语句的单词数量而得到的值,将所求出的值用作一致度。由此,本发明的一致度成为以构成翻译对象语句的单词数量为基准将一致单词数量归一化而得到的值,通过使用该一致度,不论构成翻译对象语句的单词数量的多少,均能够更高精度地选择与原文接近的自然文。另外,在对一致单词数量进行计数时,判断一致单词是构成翻译对象语句的单词还是构成翻译对象语句的单词之外的单词,将对构成翻译对象语句的单词的一致单词数量和构成翻译对象语句的单词之外的单词的一致单词数量乘以不同的权值(权值被设定成构成翻译对象语句的单词的权值大)后相加而得到的值(一致单词数量评价值),作为一致单词数量来使用。
并且,在第三方面所述的发明中,也可以如第五方面的发明那样,第一对译判断单元还对通过检索单元的检索提取出的自然文与原文的不一致单词数量进行计数,按照所计数的不一致单词数量越少、与原文的一致度越高的方式,来评价与原文的一致度。不一致单词数量也是与一致单词数量并列的,表示自然文与原文的一致度的重要指标,在第三方面所述的一致单词数量之上,还使用上述的不一致单词,按照不一致单词数量越少一致度越高的方式,来评价一致度,从而能够进一步提高自然文与原文的一致度评价的准确性。
但是,本发明中由于将自然文存储到存储单元中,因此,在第三方面所述的发明中,若将例如英文中的“a”、“the”、“to”、“in”等原语言的自然文中频繁出现的单词判断为一致单词,则对于包含很多这些频繁出现单词的原文,由于频繁出现单词的影响,有可能导致实际不与原文接近的自然文被误选择为一致度高的自然文。考虑到该点,优选例如第六方面的发明那样,第一对译判断单元在对一致单词数量进行计数时,将预先设定的频繁出现单词从计数对象中排除。由此,能够排除频繁出现单词对一致单词数量的影响,能够将一致单词数量作为更准确地反映自然文与原文的一致度的指标来使用。
并且,在第三方面或第五方面所述的发明中,优选例如第七方面的发明那样,第一对译判断单元在对一致单词数量或不一致单词数量进行计数时,将由于单复数或时态的不同引起词尾不同的单词看作一致单词,进行计数。对于由于单复数或时态的不同引起词尾不同的单词,例如可将该单词登记到另外的表中,对于仅词尾不一致的单词,可通过判断是否登记在所述表中等来进行识别。由此,能够排除原本应看作一致单词、但由于单复数或时态的不同引起词尾不同的单词对一致单词数量和不一致单词数量的影响,能够将一致单词数量和不一致单词数量作为更准确地反映自然文与原文的一致度的指标来使用。另外,优选将英文等中的单词的大写和小写的不同等也看作一致单词。
并且,在第三方面所述的发明中,优选例如第八方面的发明那样,第一对译判断单元在对一致单词数量进行计数时,对多次出现的一致单词不重复计数。由此,能够排除多次出现的一致单词对一致单词数量的影响,能够将一致单词数量作为更准确地反映自然文与原文的一致度的指标来使用。并且,也可以替代上述那样不进行重复计数的情况,而设定成不对多次出现的一致单词进行大于等于预先设定的n(n≥2)次的计数。
并且,在第三方面或第五方面的发明中,优选例如第九方面的发明那样,第一对译判断单元评价通过检索单元的检索提取出的自然文与原文的单词排列顺序的相似度,按照单词排列顺序的相似度越高、与原文的一致度越高的方式,评价与原文的一致度。有时即使在自然文中单词相同,但由于排列顺序不同而导致含义(对译)不同,但是通过如上所述对单词排列顺序的相似度进行评价,按照单词排列顺序的相似度越高、一致度越高的方式,来评价一致度,从而能够根据该一致度高精度地选择与原文接近的自然文。
并且,在第三方面或第五方面所述的发明中,优选例如第十方面的发明那样,第一对译判断单元对通过检索单元的检索提取出的自然文中,存在于与原文的一致单词之间的不一致单词数量进行计数,按照所计数的、存在于一致单词之间的不一致单词数量越少、与原文的一致度越高的方式,来评价与原文的一致度。由此,提高一致度的准确性,根据该一致度可高精度地选择与原文接近的自然文。
另外,根据存储单元中存储了什么样的自然文(及对译文),也会有所不同,但是,在第一方面所述的发明中,例如提取出多个一致度相同的自然文等时,有时仅根据一致度很难确定(选择)与原文接近的合适的自然文。考虑到该点,在第一方面所述的发明中,优选例如第十一方面的发明那样,还设置识别单元,其根据通过检索单元的检索提取出的自然文,识别出与翻译对象语句在原语言的同一句子中出现的频度高的频繁出现语句,第一对译判断单元参照通过检索单元的检索提取出的自然文之中、分别包含有通过识别单元识别出的、且存在于原文中的特定的频繁出现语句和翻译对象语句的自然文的对译文,识别出分别包含有翻译对象语句和特定的频繁出现语句的自然文的对译文中的、翻译对象语句的高频度的对译,将所识别出的高频度的对译,判断为原文中的翻译对象语句的对译。
在原文中存在与翻译对象语句在原语言的同一句子出现的频度(称为相关性)高的特定的频繁出现语句时,翻译对象语句的对译与分别包含有翻译对象语句和特定的频繁出现语句的自然文的对译文中的翻译对象语句的对译一致的可能性高。但是,虽然分别包含有翻译对象语句和特定的频繁出现语句的自然文的对译文中的翻译对象语句的合适对译相同的可能性高,但是在存储于存储单元中的上述自然文中,有可能混有翻译对象语句的合适对译不相同的自然文。根据上面所述,在第十一方面的发明中,通过识别出与翻译对象语句的相关性高的频繁出现语句,参照分别包含有所识别出的频繁出现语句之中存在于原文中的特定的频繁出现语句和翻译对象语句的自然文的对译文,从而识别出分别包含有翻译对象语句和特定的频繁出现语句的自然文的对译文中的、对翻译对象语句的高频度的对译,将所识别出的高频度的对译,判断为原文中的翻译对象语句的对译,因此即使在仅根据一致度难以确定(选择)合适的自然文时。也能够根据频繁出现语句,得到原文中的翻译对象语句的合适的对译(能够根据原文得到自然的对译文作为目标语言的句子的可能性高的对译)。
关于译文选择时的上下文一贯性的判断,根据情况存在无数种可能,难以事先确定,在第十一方面所述的发明中(及后述的第十四方面的发明中),关注在相同文章中同时出现的概率高的语句,通过参照该语句和翻译对象语句同时出现的自然文的对译文,从而判断对翻译对象语句的对译,因此无需识别原文的上下文一贯性,其结果,即使对于多义词,也能够得到基本依据上下文一贯性的合适的对译。
另外,例如也可以将在原语言的同一句子中出现的频度高的语句登记到表中,通过参照该表,进行上述的频繁出现语句的识别,在第十一方面所述的发明中,根据通过检索单元的检索提取出的自然文来识别频繁出现语句,所以能够得到如下效果,即,节省制作上述表的时间,并且能够减少存储表所需的存储容量。
并且,在第一方面所述的发明中,优选例如第十二方面的发明那样,还设置判断单元,其判断可替代关注语句的替代语句,其中该关注语句存在于原文中且不包含于通过检索单元的检索提取出的自然文中,第一对译判断单元将通过检索单元的检索提取出的自然文之中、分别包含有通过判断单元所判断的替代语句和翻译对象语句的自然文的对译文中的至少翻译对象语句的对译,判断为原文中的至少翻译对象语句的对译。
在第一方面所述的发明中,通过检索单元的检索,有时会提取出原文中的特定语句被替换成其它语句的自然文,若此时原文的含义和自然文的含义类似,则可认为特定的语句和其它语句为可替换的关系。并且,在通过检索单元的检索,例如提取出多个与原文的一致度相同的自然文的情况下,其中存在针对原文、将特定的语句替换成具有可替代关系的其它语句(替代语句)的自然文时,该自然文与原文的含义类似的可能性高,因此,优选选择该自然文。
相对于此,在第十二方面所述的发明中,通过判断单元判断出可替代关注语句的替代语句,其中该关注语句存在于原文中且不包含于通过检索单元的检索提取出的自然文中,第一对译判断单元将通过检索单元的检索提取出的自然文之中、分别包含有通过判断单元判断出的替代语句和翻译对象语句的自然文的对译文中的至少翻译对象语句的对译,判断为原文中的至少翻译对象语句的对译,因此,即使在仅根据一致度难以确定(选择)合适的自然文时,也可根据有无替代语句,得到原文中的翻译对象语句的合适的对译(能够根据原文得到自然的对译文作为目标语言句子的可能性高的对译)。
另外,关于第十二方面所述的发明的判断单元执行的替代语句的判断,例如也可以将处于可替代关系的语句登记到表中,通过参照该表来进行,但例如也可以如第十三方面的发明那样,从存储于存储单元中的多个自然文中检索包含有关注语句的自然文,从存储于存储单元中的自然文中检索与通过该检索提取出的自然文的句法相同的自然文,将通过该检索提取出的自然文中、与关注语句相置换的语句判断为替代语句。该情况下,也能够得到如下效果,即,节省制作上述表的时间,并且减少存储表所需的存储容量。
对于附随于语句本身的背景知识,根据语句存在无数种性质不同的背景知识,很难事先将它们全部找出,根据类别进行分类。在第十二、十三方面所述的发明中,将相同句法中可置换的语句判断为相同类别的语句,因此,不识别所有语句的背景知识、根据类别进行分类,即能够得到基本上依据附随语句本身的背景知识的合适的对译。
第十四方面的发明的对译判断装置构成为包括:存储单元,其将由多个单词构成的原语言的自然文,与目标语言的对译文对应起来存储多个;检索单元,其从存储于所述存储单元的原语言的多个自然文中,检索包含原语言的原文中的翻译对象语句的自然文;识别单元,其根据由所述检索单元的检索提取出的自然文,识别出与所述翻译对象语句在原语言的同一句子中出现的频度高的频繁出现语句;以及第二对译判断单元,其参照通过所述检索单元的检索提取出的自然文之中、分别包含有通过所述识别单元识别出的且存在于所述原文中的特定的频繁出现语句、和所述翻译对象语句的自然文的对译文,识别出分别包含有所述翻译对象语句和所述特定的频繁出现语句的自然文的对译文中的对翻译对象语句的高频度的对译,将所识别出的高频度的对译,判断为所述原文中的至少所述翻译对象语句的对译。
在第十四方面所述的发明中,设置与第一方面所述的发明相同的存储单元和检索单元,识别单元根据通过检索单元的检索提取出的自然文,识别出与翻译对象语句在原语言的同一句子中出现的频度高的频繁出现语句,第二对译判断单元参照通过检索单元的检索提取出的自然文之中,分别包含有通过识别单元识别出的且存在于原文中的特定的频繁出现语句和翻译对象语句的自然文的对译文,识别出分别包含有翻译对象语句和特定的频繁出现语句的自然文的对译文中的对翻译对象语句的高频度的对译,将所识别出的高频度的对译判断为原文中的翻译对象语句的对译。由此,与第十一方面所述的发明同样地,即使在存储于存储单元中的、且分别包含有翻译对象语句和特定的频繁出现语句的自然文中,混有翻译对象语句的合适对译不同的自然文时,也能够不受其影响地得到原文中的翻译对象语句的合适对译(根据原文得到自然的对译文作为目标语言的句子的可能性高的对译)。
在第一方面或第十四方面所述的发明中,翻译对象语句可由多个单词构成,若构成翻译对象语句的单词数量多,则可能发生即使检索单元进行检索,也不能提取出包含所有的翻译对象语句的自然文的情况。考虑到该点,优选例如第十五方面的发明那样,在翻译对象语句由多个单词构成时,检索单元从存储于存储单元中的原语言的多个自然文中,检索包含有构成翻译对象语句的多个单词中的至少一个的自然文(即,分别检索包含所有的翻译对象语句的自然文和包含部分翻译对象语句的自然文)。由此,通过将由多个单词构成的语句指定为翻译对象语句,即使在存储单元中没有存储包含所有的翻译对象语句的自然文时,也能够通过检索单元的检索,得到至少可推测出翻译对象语句的对译的自然文(对译文)。
第十六方面的发明的对译判断方法包括:第一步骤,从与目标语言的对译文对应地在存储单元中存储有多个、分别由多个单词构成的原语言的自然文中,检索包含有原语言的原文中的翻译对象语句的自然文;以及第二步骤,求出通过所述第一步骤中的检索提取出的自然文与所述原文的一致度,将根据求出的一致度而选择的自然文的对译文中的至少所述翻译对象语句的对译,判断为原文中的所述翻译对象语句的对译,因此,与第一方面所述的发明同样地,能够得到原文中的翻译对象语句的合适对译(根据原文得到自然的对译文作为目标语言的句子的可能性高的对译)。
第十七方面的发明的对译判断方法包括:第一步骤,从与目标语言的对译文对应地在存储单元中存储有多个、分别由多个单词构成的原语言的自然文中,检索包含有原语言的原文中的翻译对象语句的自然文;第二步骤,根据通过所述第一步骤中的检索提取出的自然文,识别出与所述翻译对象语句在原语言的同一句子中出现的频度高的频繁出现语句;以及第三步骤,参照通过所述第一步骤中的检索提取出的自然文之中、分别包含有通过所述第二步骤识别出的且存在于所述原文中的特定的频繁出现语句和所述翻译对象语句的自然文的对译文,从而识别出分别包含有所述翻译对象语句和所述特定的频繁出现语句的自然文的对译文中的对翻译对象语句的高频度的对译,将识别出的高频度的对译判断为原文中的所述翻译对象语句的对译,因此与第十四方面所述的发明同样地,能够得到原文中的翻译对象语句的合适对译(根据原文得到自然的对译文作为目标语言的句子的可能性高的对译)。
第十八方面的发明的程序,使与存储单元连接的计算机作为如下单元发挥作用,在该存储单元中与目标语言的对译文对应地存储有多个由多个单词构成的原语言的自然文:检索单元,其从存储于所述存储单元中的原语言的多个自然文中,检索包含有原语言的原文中的翻译对象语句的自然文;以及第一对译判断单元,其求出通过所述检索单元的检索提取出的自然文与所述原文的一致度,将根据求出的一致度而选择的自然文的对译文中的至少所述翻译对象语句的对译,判断为所述原文中的至少所述翻译对象语句的对译。
第十八方面所述的发明的程序是使与存储单元连接的计算机(可以是内置有存储单元的计算机,也可以是通过通信线路与连接有存储单元的其它计算机连接的计算机)作为上述的检索单元和第一对译判断单元发挥作用的程序,其中在该存储单元中与目标语言的对译文对应地存储有多个由多个单词构成的原语言的自然文,所以通过由上述计算机执行第十八方面所述的发明的程序,使计算机作为第一方面的发明所述的对译判断装置发挥作用,与第一方面所述的发明同样地,能够得到原文中的翻译对象语句的合适对译(根据原文得到自然的对译文作为目标语言的句子的可能性高的对译)。
第十九方面的发明的程序,使与存储单元连接的计算机作为如下单元发挥作用,在该存储单元中与目标语言的对译文对应地存储有多个由多个单词构成的原语言的自然文:检索单元,其从存储于所述存储单元中的原语言的多个自然文中,检索包含有原语言的原文中的翻译对象语句的自然文;识别单元,其根据由所述检索单元的检索提取出的自然文,识别出与所述翻译对象语句在原语言的同一句子中出现的频度高的频繁出现语句;以及第二对译判断单元,其通过参照通过所述检索单元的检索提取出的自然文之中、分别包含有通过所述识别单元识别出的且存在于所述原文中的特定的频繁出现语句和所述翻译对象语句的自然文的对译文,识别出分别包含有所述翻译对象语句和所述特定的频繁出现语句的自然文的对译文中的对翻译对象语句的高频度的对译,将识别出的高频度的对译判断为所述原文中的所述翻译对象语句的对译。
第十九方面所述的发明的程序是使与存储单元连接的计算机(可以是内置有存储单元的计算机,也可以是通过通信线路与连接有存储单元的其它计算机连接的计算机)作为上述的检索单元、识别单元和第二对译判断单元发挥作用的程序,其中在该存储单元中与目标语言的对译文对应地存储有多个由多个单词构成的原语言的自然文,因此,通过由上述计算机执行第十九方面所述的发明的程序,使计算机作为第十四方面所述的对译判断装置发挥作用,与第十四方面所述的发明同样地,能够得到原文中的翻译对象语句的合适对译(根据原文得到自然的对译文作为目标语言的句子的可能性高的对译)。
以上说明的本发明,从存储于存储单元中的原语言的多个自然文中,检索包含有原语言的原文中的翻译对象语句的自然文,求出通过该检索提取出的自然文与原文的一致度,将根据求出的一致度而选择的自然文的对译文中的至少翻译对象语句的对译,判断为原文中的至少翻译对象语句的对译,因此具有如下良好效果,即能够得到根据原语言的原文得到自然的对译文作为目标语言的句子的可能性高的、原文中的翻译对象语句的合适的对译。
并且,本发明从存储于存储单元中的原语言的多个自然文中,检索包含有原语言的原文中的翻译对象语句的自然文,根据通过该检索提取出的自然文,识别出与翻译对象语句在原语言的同一句子中出现的频度高的频繁出现语句,参照分别包含有存在于原文中的特定的频繁出现语句和翻译对象语句的自然文的对译文,从而识别出分别包括有翻译对象语句和特定的频繁出现语句的自然文的对译文中的对翻译对象语句的高频度的对译,将识别出的高频度的对译判断为原文中的所述翻译对象语句的对译,因此具有如下效果,即,能够得到根据原语言的原文得到自然的对译文作为目标语言的句子的可能性高的、原文中的翻译对象语句的合适的对译。
附图说明
图1是表示本实施方式的PC的概略结构的方框图。
图2是表示对译判断处理的内容的流程图。
图3是表示对译DB中所登记的包含“operation”的自然文和对译文的一例的图表。
图4是用于说明将本发明应用于通过网络连接客户机PC和服务器计算机的计算机系统的方式的方框图。
图5是表示应用了本发明的机器翻译装置的概略结构的一例的方框图。
符号说明
10PC;18HDD;34服务器计算机;36存储介质;40机器翻译装置;48对译判断部;50存储介质。
具体实施方式
下面,参照附图,对本发明的实施方式的一例进行详细说明。另外,以下,首先说明将本发明应用于电子辞典装置的方式,该电子辞典装置是当由用户指定了翻译对象语句,则向用户提示所指定的翻译对象语句的对译的装置。
图1中示出了可作为上述的电子辞典装置发挥作用的个人计算机(PC)10。PC 10包括CPU 10A、ROM 10B、RAM 10C以及输入输出端口10D,它们构成为通过总线10E相互连接,该总线10E由数据总线、地址总线、控制总线等构成。并且,在输入输出端口10D上分别连接有如下部件作为各种输入输出设备,如由CRT或LCD等构成的显示器12、用于由用户输入数据等的键盘14、鼠标16、硬盘驱动器(HDD)18、从CR-ROM 24读出数据的CD-ROM驱动器20、以及可读取纸质原稿等的扫描仪22。
PC 10中,在HDD 18上安装有对译判断程序(相当于权利要求18和权利要求19所述的程序),该对译判断程序用于使PC 10作为电子辞典装置发挥作用,在该HDD 18上还存储有对译数据库(对译DB),该对译数据库中存储了所述对译判断程序进行对译判断所使用的数据。将对译判断程序安装(移入)到PC 10上的方法有好几种,例如,将对译判断程序与安装程序一起记录到CR-ROM 24,将该CR-ROM 24放到CD-ROM驱动器20上,如果指示了CPU 10A执行所述安装程序,则从CR-ROM 24中依次读出对译判断程序,将读出的对译判断程序依次写入HDD 18,从而进行对译判断程序的安装。
并且,对于对译DB,例如也可以把对译DB预先记录到CR-ROM 24,使安装程序构成为在安装对译判断程序时,同时把对译DB写入HDD 18,从而存储到HDD 18中。在对译DB中对应地登记有很多的自然文的文本数据和对译文的文本数据,其中所述自然文(未进行过按单词单位的分割和多义词的提取等编辑/加工的句子、词节、词组、定型表述、词的搭配中的任何一个,具体例将在后面叙述)由多个单词构成且用原语言叙述,所述对译文(该对译文也是未进行过按单词单位的分割和多义词的提取等编辑/加工的自然文)用目标语言叙述,在该方式中,存储对译DB的HDD 18对应于本发明的存储单元。
另外,对译DB也可预先记录到CR-ROM 24或DVD-ROM等记录介质中,通过从该记录介质直接读取数据来利用,在该方式中,记录有对译DB的记录介质作为本发明的存储单元发挥作用。并且,原语言的单词和目标语言的对译也对应地登记在本实施方式的对译DB中。例如可通过在原语言的单词和目标语言的对译被对应起来的现有辞典中适当追加自然文和其对译文来制作本实施方式的对译DB。
下面,说明本实施方式的作用。在本实施方式中,在识别出在用原语言叙述的原文中存在希望知道目标语言的对译的语句(翻译对象语句:可以是单词,也可以是原文中的由连续的多个单词构成的语句)时,用户通过PC 10进行预定操作,指示输出原文中的翻译对象语句的对译。另外,作为原文,可以应用作为文本数据被读入到PC 10的文本(例如,用户通过键盘14输入的文本、利用文字处理软件作成的文本、通过因特网在阅览的网页内的文本、利用扫描仪读取文字原稿并经过OCR(OpticalCharacter Recognition:借助于光学方法的文字识别)处理而得到的文本等)。
而且,作为上述的预定操作,可应用如下操作等,例如在显示器12上显示原文的状态下,通过选择翻译对象语句,使翻译对象语句反转显示之后,通过右击翻译对象语句来选择所显示的上下文菜单内的相当于“对译输出”的项。另外,也可以替代上述那样的上下文菜单的利用,例如通过进行选择工具栏内所显示的预定的图标等操作,可指示翻译对象语句的对译的输出。若进行了指示翻译对象语句的对译的输出的如上所述的操作,则通过PC 10的CPU 10A执行对译判断程序,进行图2所示的对译判断处理。另外,该对译判断处理是应用了权利要求16和权利要求17所述的对译判断方法的处理,通过进行该处理,PC 10作为电子辞典装置(权利要求1和权利要求14所述的对译判断装置)发挥作用。
在对译判断处理中,首先在步骤100中,取入包含有所指定的翻译对象语句的单一的原文(处理对象的原文)的文本数据,并且取入用于识别所取入的处理对象的原文中的翻译对象语句的信息。另外,处理对象的原文可以是包含有翻译对象语句的句子,也可以是包含有翻译对象语句的词节、词组、定型表述、词的搭配中的任何一个,在以词节、词组、定型表述、词的搭配中的任何一个作为处理对象的原文时,作为处理对象的原文的词节、词组、定型表述、词的搭配可以由用户指定,也可以利用对译判断处理自动判断。
在接下来的步骤102中,将在步骤100中取入的处理对象的原文的文本数据作为关键字,从登记在对译DB中的自然文中检索与处理对象的原文完全一致的自然文,并且将翻译对象语句的文本数据作为关键字,从登记在对译DB中的自然文中检索包含有翻译对象语句的自然文(至少包含有翻译对象语句,从而与原文部分一致的自然文)。并且,当翻译对象语句由多个单词构成时,同时还检索包含有构成翻译对象语句的多个单词之中的至少一个单词的自然文。另外,步骤102与权利要求1(更详细为权利要求2和权利要求15)、权利要求14、18、19所述的检索单元相对应,也与权利要求16、17所述的第一步骤相对应。从接下来的步骤104起与权利要求1、18所述的第一对译判断单元相对应。
在步骤104中,判断通过步骤102的检索是否从对译DB中提取出了与处理对象的原文完全一致的自然文。该判断为肯定时,转移到步骤106,读出与和处理对象的原文完全一致的自然文对应起来登记在对译DB中的目标语言的对译文,显示到显示器12上,结束处理。另外,在显示该对译文时,识别出所读出的对译文上的翻译对象语句的对译,强调显示所识别出的翻译对象语句的对译。该情况下,用户能够识别出所指定的翻译对象语句的合适的对译(根据原文得到自然的对译文作为目标语言的句子的可能性高的对译),并且能够识别出包含有所指定的翻译对象语句的处理对象的原文的合适对译文(作为目标语言句子的自然的对译文)。另外,上述的步骤104、106与权利要求2所述的第一对译判断单元相对应。
(例1)对于上述处理,举出实例进一步说明。原语言为英语、目标语言为日语,将“For your safety,don’t rush into the train.”的处理对象的原文中所包含的“For your safety”指定为翻译对象语句时,在通常的翻译过程中,由于原语言与对译是按单词单位登记的,因此,对于构成上述翻译对象语句的单词“safety”,选择对译“安全”。但是,在本实施方式的对译判断处理中,由于在对译DB中将原语言的自然文和目标语言的对译文对应地进行登记,因此有可能在对译DB中登记有与上述原文完全一致的自然文。并且,在对译DB中登记有完全一致的自然文时,按下面那样,输出与该自然文对应地登记在对译DB中的对译文,其中翻译对象语句的对译被强调显示。
危険ですから、駆け込み乗車はおやめください”。
在通常的翻译过程中,作为单词“safety”的对译很难选择“危险”,而只能得到“あなたの安全のため、その列車に駆け込まないでください”等不自然的对译文,但是根据本发明,则能够得到母语的自然的对译文。
另外,在步骤106的对译文的显示中,除了与处理对象的原文完全一致的自然文,还可以一并显示通过步骤102的检索提取的与处理对象的原文部分一致的自然文。虽然通过检索通常会提取出多个与处理对象的原文部分一致的自然文,在显示它们时,优选对与处理对象的原文部分一致的每个自然文分别运算下面叙述的一致度,按照一致度的降序在显示器12上显示各自然文的对译文。
另一方面,在通过步骤102的检索没能从对译DB中提取出与处理对象的原文完全一致的自然文时,步骤104的判断为否定,转移到步骤108,对通过步骤102的检索从对译DB中提取出的各自然文(与处理对象的原文部分一致的各自然文),分别计数自然文的各单词中与原文中的任意一个单词一致的单词数量(一致单词数量),根据一致单词数量的计数结果,分别运算与原文的一致度。
另外,本实施方式中,在安装对译判断程序时,还将频繁出现单词表存储到HDD 18中,该频繁出现单词表中登记有原语言的自然文中频繁出现的单词(例如,英语的自然文中的“a”、“the”、“to”、“in”等)。并且,参照频繁出现单词表进行步骤108中的一致单词数量的计数,把登记在频繁出现单词表中的单词从一致单词数量的计数对象中排除。由此,能够排除频繁出现单词对一致单词数量的影响。另外,步骤108中的上述处理与权利要求6所述的第一对译判断单元相对应。
并且,本实施方式中,在安装对译判断程序时,还将词尾变化单词表存储到HDD 18中,该词尾变化单词表中登记有因单复数或时态的不同而词尾不同的单词。并且,在步骤108中的一致单词数量的计数中,在出现了仅词尾不一致的单词时,通过参照词尾变化单词表,判断词尾不一致是否是由于单复数或时态不同而引起的,因单复数或时态的不同而词尾不同的单词,被看作一致单词来计数。另外,还可以仅将非定型的词尾变化登记到词尾变化单词表,把定型的词尾变化(例如英语单词中的复数形的“s”和过去形的“ed”等)自动判断为一致单词。由此,能够排除因单复数或时态的不同而词尾不同的单词(原本应看作一致的单词)对一致单词数量的影响。另外,步骤108中的上述处理与权利要求7所述的第一对译判断单元相对应。
另外,本实施方式中,在步骤108中的一致单词数量的计数时,与原文中的任一个单词一致的单词一旦被计到一致单词数量上,则即使在自然文中再次出现也不再计到一致单词数量上,使得不对多次出现的一致单词进行重复计数。由此,即使在自然文中的多处存在相同的一致单词时,也能够排除该一致单词对一致单词数量的影响。另外,步骤108中的上述处理与权利要求8所述的第一对译判断单元相对应。
另外,可把一致度的运算式确定为一致单词数量越多一致度越高,例如可以使用根据构成翻译对象语句的单词数量将一致单词数量归一化的运算式(一致度=一致单词数量÷构成翻译对象语句的单词数量)。上述的步骤108与权利要求3(更详细为权利要求4)所述的第一对译判断单元相对应。
在接下来的步骤110中,通过比较对各自然式运算的一致度,判断是否存在多个一致度最大的自然文。判断为否定时,转移到步骤112,读出与一致度最大的自然文对应地登记在对译DB中的目标语言的对译文,识别出读出的对译文上的翻译对象语句的对译,采用将识别出的翻译对象语句的对译强调显示的方式,将读出的对译文显示到显示器12上,结束处理。该情况下,用户能够识别出所指定的翻译对象语句的合适的对译(根据原文得到自然的对译文作为目标语言句子的可能性高的对译)。
另外,在步骤112中,通过步骤102的检索提取出的自然文之中、除了一致度最大的自然文以外,还按照一致度的降序从对译DB中读出多个自然文(一致度的降序中的一定数量的自然文、或一致度大于等于预定值的全部自然文)的对译文,一并一览显示到显示器12上。并且,在存在多个一致度相同的自然文时,对各自然文中的与原文不一致的单词数量进行计数,在一览显示对译文时,将与一致度相同的自然文对应的对译文,按照对应的自然文中的不一致单词数量的升序(从少到多的顺序)进行显示。
(例2)对于上述处理,举出实例进一步说明。原语言为英语、目标语言为日语,将“The system suddenly came into operation”的处理对象的原文中所包含的“operation”指定为翻译对象语句,并且,作为包含有翻译对象语句“operation”的自然文,如图3所示的自然文(1)~(8)被与对译文(1)~(8)对应地登记在对译DB中时,图3所示的除了自然文(3)之外的自然文与原文的一致单词数量为“1”、一致度为100%,(自然文(2)的“operations”也如上所述作为一致单词被计数),自然文(3)与原文的一致单词数量为“4”(单词“the”作为频繁出现单词,从一致单词数量的计数对象中被排除)、一致度为400%,因此,按如下那样输出与自然文(3)对应地登记在对译DB中的对译文(3),其中翻译对象语句的对译被强调显示:
“システムが 稼動し始めた”。
(例3)原语言为英语、目标语言为日语,将“A small business isexempt from the operation of the new low”的处理对象的原文中所包含的“operation”指定为翻译对象语句,并且,作为包含有翻译对象语句“operation”的自然文,如图3所示的自然文(1)~(8)被与对译文(1)~(8)一同登记在对译DB中时,除了自然文(2)以外的自然文与原文的一致单词数量为“1”、一致度为100%,自然文(2)与原文的一致单词数量为“4”(单词“the”作为频繁出现单词,从一致单词数量的计数对象中被排除)、一致度为400%,因此按如下那样输出与自然文(2)对应地登记在对译DB中的对译文(2),其中翻译对象语句的对译被强调显示:
“新法の 適用”。
英文中的“operation”为多义词,属于很难选择合适的对译的单词,由上述的例2和例3可知,将自然文和对译文对应地登记在对译DB中,根据一致度选择自然文(对译文),从而能够选择按与原文相同的含义来使用多义词的合适的自然文(对译文)。
(例4)对于汉语句子,若不熟悉汉语,很难判别意群,在翻译成其它语言的句子时,经常难以判断应获得对译的单位。对此,在本实施方式的对译判断处理中,检索登记在对译DB中的自然文之中,包含有所指定的翻译对象语句的自然文(在翻译对象语句由多个单词构成时,同时检索包含有构成翻译对象语句的多个单词中的至少一个单词的自然文),显示与原文整体的一致度高的自然文的对译文(一致度最大的自然文以外的自然文的对译文也显示),通过参照所显示的对译文,用户能够同时识别出原文上的应求出对译的单位及其合适的对译。
例如,以把作为原语言的汉语的原文“发展中国家”翻译成作为目标语言的日语时为例,将“发”、“发展”、“发展中”、“发展中国”、“发展中国家”的任意一个指定为翻译对象语句时,根据一致度,按照下面的顺序一览显示下述自然文的对译文(另外,下面一并显示了将“发展中国家”指定为翻译对象语句时的一致度,自不必说,各自的一致度根据被指定为翻译对象语句的语句而发生变化):
1.“发展中国家”=「発展途上国」(一致单词数量“5”,一致度100%)
2.“发展中国”=「中国を発展させる」(一致单词数量“4”,一致度80%)
3.“发展中”=「発展中の」(一致单词数量“3”,一致度60%)
4.“发展”=「発展する、発展させる」(一致单词数量“2”,一致度40%)
5.“发”=「発する、出す」(一致单词数量“1”,一致度20%)
由此,用户通过参照一览显示的上述对译文,可同时识别出原文上的应求出对译的单位(此时为“发展中国家”)及其合适的对译。
另外,在原文为“发”而翻译对象语句也为“发”时,上述各自然文的一致单词数量为“1”、一致度达到100%,但是不一致单词数量各不相同,不同于原文为“发展中国家”的情况、按照以下顺序表示。
1.“发”(不一致单词数量“0”)
2.“发展”(不一致单词数量“1”)
3.“发展中”(不一致单词数量“2”)
4.“发展中国”(不一致单词数量“3”)
5.“发展中国家”(不一致单词数量“4”)
同样地,在原文为“发展”、翻译对象语句为“发展”时,根据一致度和不一致单词数量,不同于原文为“发展中国家”或“发”的情况、按照以下顺序表示。
1.“发展”(一致单词数量“2”,一致度100%,不一致单词数量“0”)
2.“发展中”(一致单词数量“2”,一致度100%,不一致单词数量“1”)
3.“发展中国”(一致单词数量“2”,一致度100%,不一致单词数量“2”)
4.“发展中国家”(一致单词数量“2”,一致度100%,不一致单词数量“3”)
5.“发”(一致单词数量“1”,一致度50%,不一致单词数量“0”)
这样,即使翻译对象语句相同,若原文不同,由于按照与原文对应的合适顺序一览显示对译文,因此,用户通过参照对译文的一览显示结果,能够识别出与原文对应的合适的对译。
并且,在存在多个一致度最大的自然文时,步骤110的判断为肯定,转移到步骤114,在步骤114、116中,根据与翻译对象语句在原语言的同一句子中出现的频度高的单词(与翻译对象语句的相关性高的单词:相当于权利要求11、14、17、19所述的频繁出现语句),进行选择自然文的相关性分析。
即,在步骤114中,对通过步骤102的检索从对译DB中提取出的各自然文,检索是否包含有处理对象的原文中的翻译对象语句以外的各单词(但是,登记在频繁出现单词表中的频繁出现单词除外),从而搜索处理对象的原文中是否包含与翻译对象语句在原语言的同一句子中出现的频度高的单词(与翻译对象语句的相关性高的单词)。该处理中,可将处理对象的原文中的翻译对象语句以外的各单词中、例如在各自然文中的出现次数大于等于预定次数(可以是1次也可以是多次)的单词,判断为与翻译对象语句的相关性高的单词。另外,上述的步骤114与权利要求11和权利要求14、19所述的识别单元相对应,与权利要求17所述的第二步骤相对应。
在接下来的步骤116中,判断通过步骤114的搜索是否发现了与翻译对象语句的相关性高的单词。判断为肯定时,转移到步骤118,对通过步骤102的检索从对译DB中提取出的各自然文之中、分别包含有翻译对象语句和在步骤114中判断为与翻译对象语句的相关性高的单词(存在于处理对象的原文中的单词)的自然文,参照其对译文,判断对上述自然文中的翻译对象语句的高频度的对译。另外,关于对翻译对象语句的高频度的对译,具体讲,在提取出单一的自然文、作为分别包含有翻译对象语句和与翻译对象语句的相关性高的单词的自然文时,将该自然文中的翻译对象语句的对译判断为高频度的对译,在提取出多个自然文、作为上述自然文时,可将这些自然文中的翻译对象语句的对译之中出现频度最高的对译判断为高频度的对译。
如上所述,在存在包含有翻译对象语句、且作为与翻译对象语句的相关性高的单词而包含有与处理对象的原文相同的单词的自然文时,该自然文是依据与处理对象的原文相同的含义来使用翻译对象语句的句子的可能性高,但是在上述的自然文中,也有可能混有对翻译对象语句的对译不同的自然文。针对此,在步骤118中,参照分别包含有翻译对象语句和与翻译对象语句的相关性高的单词的自然文的对译文,判断对上述自然文中的翻译对象语句的高频度的对译,因此,能够得到处理对象的原文中的翻译对象语句的合适的对译。
然后,在步骤119中,读出与下述自然文对应地登记在对译DB中的目标语言的对译文,该自然文是分别包含有翻译对象语句和与翻译对象语句的相关性高的单词的自然文之中、翻译对象语句与在步骤118中被识别的高频度的对译相对应的自然文,将所读出的对译文显示到显示器12上,使得所读出的对译文上的翻译对象语句和与翻译对象语句的相关性高的单词的对译被强调显示,结束处理。该情况下,用户能够识别出所指定的翻译对象语句的合适的对译(根据原文得到自然的对译文作为目标语言句子的可能性高的对译)。另外,上述的步骤116~步骤119分别与权利要求11所述的第一对译判断单元、权利要求14、19所述的第二对译判断单元和权利要求17所述的第三步骤相对应。
另外,在步骤119中,通过步骤102的检索提取出的自然文之中,除了分别包含有翻译对象语句和与翻译对象语句的相关性高的单词、且翻译对象语句与被识别出的高频度的对译相对应的自然文以外,还从对译DB中按照一致度的降序读出多个自然文(按照一致度的降序的一定数量的自然文、或一致度大于等于预定值的全部自然文)的对译文,按照与一致度和不一致单词数量对应的顺序,一并一览显示在显示器12上。
(例5)对于上述处理,举出实例进一步说明。在原语言为英语、目标语言为日语,将“I had an operation to remove a rectal cancer”的处理对象的原文中所包含的“operation”指定为翻译对象语句,并且,作为包含翻译对象语句“operation”的自然文,如图3所示的自然文(1)~(8)及其它的自然文分别与对译文一同登记在对译DB中时,自然文(6)、(8)与原文的一致单词数量均为“2”,因此,很难仅根据一致度来选择最佳的自然文(对译文)。此处,当以处理对象的原文中的翻译对象语句“operaion”以外的各单词(例如“remove”、“rectal”、“cancer”等)作为关键字,对包含翻译对象语句“operation”的自然文(1)~(8)进行检索时,自然文(6)、(8)包含“cancer”,所以“cancer”作为与处理对象的原文中的翻译对象语句“operaion”的相关性高的单词被提取出。
此处,包含有翻译对象语句“operation”和相关性高的单词“cancer”的自然文是根据与处理对象的原文相同的含义来使用翻译对象语句“operaion”的文的可能性高,但在登记于对译DB中的满足上述条件的自然文中,也有可能混有对翻译对象语句的对译与处理对象的原文不同的自然文。在本例中,自然文(8)就相当于该中自然文。自然文(8)中虽包含翻译对象语句“operation”和相关性高的单词“cancer”,但是翻译对象语句“operation”的对译为“操作”,与处理对象的原文不同。
为了防止由这样的自然文的影响所引起的翻译对象语句的对译的错误判断,参照包含翻译对象语句“operation”和相关性高的单词“cancer”的自然文的对译文。然后,除了自然文(6)以外,在对译DB中还登记有包含翻译对象语句“operation”和相关性高的单词“cancer”、且翻译对象语句“operation”与对译“手术”相对应的自然文,由此,判断为包含翻译对象语句“operation”和相关性高的单词“cancer”的自然文中的翻译对象语句“operation”的高频度对译是“手术”,选择包含翻译对象语句“operation”和相关性高的单词“cancer”、且翻译对象语句与所判断出的高频度的对译相对应的自然文(6),按如下方式输出与自然文(6)对应地登记在对译DB中的对译文(6),其中翻译对象语句和相关性高的单词的对译被强调显示。
“ジヨンさんの 手術後、彼の は治つた。”
因此,在该例中,也选择了采用与原文相同的含义来使用翻译对象语句“operation”的合适的自然文(对译文)。
另外,图3中,为了简化说明,抑制了包含“operation”的自然文的数量,但实际上登记有更多的自然文,例如,在处理对象的原文是将翻译对象语句“operation”按“手术”的含义来使用的文时,作为相关性高的单词,根据处理对象的原文的内容而提取出“injury”(受伤)、“hospital”(医院)等单词,例如,在处理对象的原文是将翻译对象语句“operation”按“工作”的含义来使用的文时,作为相关性高的单词,根据处理对象的原文的内容而提取出“system(系统)”、“computer”(计算机)等单词,例如,在处理对象的原文是将翻译对象语句“operation”按“应用”的含义来使用的文时,作为相关性高的单词,根据处理对象的原文的内容而提取出“low(法)”等单词。
另一方面,在未提取出与翻译对象语句的相关性高的单词时,步骤116的判断为否定,转移到步骤120,在步骤120~134中,进行模式(scheme)分析,根据可替代处理对象的原文中的翻译对象语句以外的关注单词的替代单词(相当于权利要求12所述的替代语句),选择自然文。
即,在步骤120中,判断存在于处理对象的原文中且不存在于通过步骤102的检索从对译DB提取出的各自然文中的单词(称为关注单词)。在步骤122中,从登记在对译DB中的自然文中检索包含关注单词的自然文。另外,有时关注单词为多个,该情况下,针对各关注单词进行步骤122的检索。并且,在步骤124中,设定检索条件,该检索条件用于分别检索仅通过步骤122的检索提取出的各自然文中的关注单词不同的自然文(相当于权利要求13所述的“句法与通过包含关注语句的自然文的检索而提取出的自然文相同的自然文”),根据所设定的检索条件,从登记在对译DB中的自然文中进行相应自然文的检索。
在接下来的步骤126中,判断通过步骤124的检索是否提取出相应的自然文。在对译DB中分别存在除了关注单词被替换为其它单词以外其它都相同的自然文时,所述其它单词是可替代关注单词来使用的替代单词的可能性高。因此,判断为肯定时,转移到步骤128,在通过检索提取出的自然文中,将与关注单词置换的单词识别为关注单词的替代单词。另外,上述的步骤120~130与权利要求12(更详细为权利要求13)所述的判断单元相对应。
然后,在步骤130中,判断在一致度最大(也可以取代之,为“一致度大于等于预定值”)的多个自然文中是否具有关注单词被置换成替代单词的自然文。在一致度最大的多个自然文中,存在替代处理对象的原文中存在的关注单词而包含替代单词的自然文时,判断为该自然文是采用与处理对象的原文相同的含义来使用翻译对象语句的文的可能性高。因此,判断为肯定时,转移到步骤132,读出与一致度最大(也可以取代之,为“一致度大于等于预定值”)且替代关注单词而包含替代单词的自然文对应地登记在对译DB中的目标语言的对译文,识别出所读出的对译文上的翻译对象语句和替代单词的对译,将读出的对译文显示在显示器12上,使得识别出的翻译对象语句的对译被强调显示,并且对替代单词的对译进行标记显示以便能识别出是替代单词,结束处理。该情况下,用户能够识别出所指定的翻译对象语句的合适的对译(根据原文得到自然的对译文作为目标语言文的可能性高的对译)。另外,上述的步骤130、132与权利要求12所述的第一对译判断单元相对应。
另外,在步骤132中,通过步骤102的检索提取出的自然文之中、除了一致度最大且替代关注单词而包含替代单词的自然文以外,还从对译DB中按照一致度的降序读出多个自然文(按照一致度降序的一定数量的自然文、或一致度大于等于预定值的全部的自然文)的对译文,按照与一致度和不一致单词数量对应的顺序,一并一览显示在显示器12上。
(例6)对于上述处理,举出实例进一步说明。原语言为英语、目标语言为日语,将包含“have lunch”的处理对象的原文中的“have”指定为翻译对象语句,对译DB中虽登记有包含“have breakfast”的自然文(采用与处理对象的原文相同的含义来使用翻译对象语句“have”的自然文),但没有登记包含“have lunch”的自然文,在通过基于一致度的判断或相关性分析也未能确定合适的对译文时,把处理对象的原文中的翻译对象语句(“have”)和判断为与翻译对象语句的相关性高的单词以外的各单词(例如“lunch”等)作为关注单词,检索包含各关注单词的自然文。由此,例如对于关注单词“lunch”,提取出例如包含“eat lunch”或“take a late lunch”的自然文。
然后,对通过上述检索提取出的各自然文,分别检索仅有各自然文中的关注单词不同的自然文。由此,例如对于作为包含关注单词“lunch”的自然文而提取出的自然文,作为仅有关注单词不同的自然文,提取出例如包含“eat breakfast”或“take a late breakfast”的自然文。因此,能够判断为单词“breakfast”是可与关注单词“lunch”相替代的可能性高的替代单词,因此,输出与最初的检索(包含翻译对象语句“have”的自然文的检索)中提取出的自然文之中、关注单词“lunch”被替代为替代单词“breakfast”的自然文(包含“have breakfast”的自然文)对应地登记于对译DB中的对译文,其中翻译对象语句“have”的对译(“食べる(吃)”)被强调显示,并且,替代单词“breakfast”的对译(“朝食(早饭)”)被做出标记。因此,在该例中,选择了采用与处理对象的原文相同的含义来使用翻译对象语句“have”的合适的自然文(对译文)。
并且,同样地将包含“have cats”的处理对象的原文中的“have”指定为翻译对象语句,对译DB中虽登记有包含“have dogs”的自然文,但没有登记包含“have cats”的自然文,在通过基于一致度的判断或相关性分析也未能确定合适的对译文时,把“cats”等单词作为关注单词,与上述同样地,通过判断单词“dogs”是可与关注单词“cats”相替代的可能性高的替代单词,从而输出与最初的检索(包含翻译对象语句“have”的自然文的检索)中提取出的自然文之中、关注单词“cats”被替代为替代单词“dogs”的自然文(包含“have dogs”的自然文)对应地登记于对译DB中的对译文,其中翻译对象语句“have”的对译(“飼う(养)”)被强调显示,并且,替代单词“dogs”的对译(“犬(狗)”)被做出标记。因此,在该例中,选择了采用与处理对象的原文相同的含义来使用翻译对象语句“have”的合适的自然文(对译文)。
(例7)原语言为日语、目标语言为英语,将处理对象的原文“お湯をかける”中的“かける”指定为翻译对象语句,对译DB中虽登记有“水をかける”的自然文(采用与处理对象的原文相同的含义来使用翻译对象语句“かける”的自然文),但没有登记“お湯をかける”,由于还登记有例如“電話をかける”等其它的自然文,所以在通过基于一致度的判断或相关性分析也未能确定合适的对译文时,把处理对象的原文中的“お湯”作为关注单词,检索包含关注单词的自然文。由此,提取出例如“お湯につける”、“お湯をわかす”、“お湯を流す”、“お湯で洗う”、“お湯から引き上げる”、“お湯で温める”等自然文。
然后,对提取出的上述各自然文,分别检索仅有各自然文中的关注单词不同的自然文。然后,该检索的结果,对于上述各自然文,作为可替代关注单词“お湯”的替代单词,分别得到下述的单词。
“~につける。”…“ソ一ス”、“しようゆ”、“水”、“ス一ツケ一ス”、“腕”
“~わかす。”…无
“~を流す。”…“電気”、“水”、“番組”、“うわさ”
“~で洗う。”…“シヤンプ一”、“スポンジ”、“塩水”、“水”、“石鹸”
“~から引き上げる。”…“水”、“海底”、“会議”、“ゼロ”
“~で温める。”…“電子レンジ”、“余熱”
在上述的各单词中单词“水”出现的次数多,且也存在“水をかける”的自然文,因此能够判断为“水”是可替代处理对象的原文“お湯をかける”中的关注单词“お湯”的可能性高的替代单词。因此,按如下方式输出与最初的检索(包含翻译对象语句“かける”的自然文的检索)中提取出的自然文之中、关注单词“お湯”被替代为替代单词“水”的自然文“水をかける”对应地登记于对译DB中的对译文,其中翻译对象语句“かける”的对译(“pour”)被强调显示,并且,替代单词“水”的对译(“water”)被做出标记:
pour*water*into~”
在上述的对译文中,“*…*”表示单词“…”是替代单词。因此,在该例子中,选择了采用与处理对象的原文相同的含义来使用翻译对象语句“かける”的合适的自然文(对译文)。
并且,同样地,将处理对象的原文“3をかける”中的“かける”指定为翻译对象语句,对译DB中虽登记有“4をかける”的自然文(采用与处理对象的原文相同的含义来使用翻译对象语句“かける”的自然文),但没有登记“3をかける”,在通过基于一致度的判断或相关性分析也未能确定合适的对译文时,把“3”等单词作为关注单词,与上述同样,判断为单词“4”是可与关注单词“3”相替代的可能性高的替代单词,由此,输出与最初的检索(包含翻译对象语句“かける”的自然文的检索)中提取出的自然文之中、关注单词“3”被替代为替代单词“4”的自然文“4をかける”对应地登记于对译DB中的对译文,其中翻译对象语句“かける”的对译(“multiply”)被强调显示,并且,替代单词“4”的对译(“four”)被做出标记:
multiply by*four*”
因此,在该例子中,选择了采用与处理对象的原文相同的含义来使用翻译对象语句“かける”的合适的自然文(对译文)。
另一方面,在仅关注单词不同的自然文的检索中,未能提取出相应的自然文时(步骤126的判断被否定时),或者一致度最大的多个自然文中不存在关注单词被替换成替代单词的自然文时(步骤130的判断被否定时),难以确定最佳的对译文,因此,转移到步骤134,分别读出与通过步骤102的检索提取出的全部自然文对应地登记在对译DB中的对译文,或按照一致度的降序读出与多个自然文(按照一致度的降序的一定数量的自然文、或一致度大于等于预定值的全部自然文)对应地登记在对译DB中的对译文,识别出读出的各对译文上的翻译对象语句的对译,在将识别出的翻译对象语句的对译强调显示的状态下,将各对译文按照与一致度和不一致单词数量对应的顺序、以一致度最大的各自然文一致度的降序在显示器12上一览显示,结束处理。该情况下,用户能够识别出对所指定的翻译对象语句的几个合适的对译候选。
另外,在上述中以仅使用一致单词数量来运算一致度的方式为例进行了说明,但不限于此,也可以将一致度运算式设定为,自然文与原文的一致单词数量越多一致度越高,且自然文与原文的不一致单词数量越少一致度越高,根据一致单词数量和不一致单词数量来运算/评价一致度。该方式与权利要求5所述的发明对应。并且,当初仅根据一致单词数量进行一致度的评价,在即使进行相关性分析或模式分析,也难以选择出单一的自然文(对译文)时,对不一致单词数量进行计数,选择与原文的不一致单词数量最小的自然文(的对译文)。
并且,在评价一致度时,除了上述的一致单词数量和不一致单词数量以外,还可以同时使用自然文与原文的单词的排列顺序的相似度、或者在与原文的一致单词之间存在的自然文中的不一致单词数量,按自然文与原文的单词的排列顺序的相似度越高,与原文的一致度越高的方式进行一致度评价,或者按存在于一致单词之间的不一致单词数量越少,与原文的一致度越高的方式进行一致度评价。使用自然文与原文的单词的排列顺序的相似度的方式与权利要求9所述的发明对应,使用存在于一致单词之间的不一致单词数量的方式与权利要求10所述的发明对应。也考虑进自然文与原文的单词的排列顺序的相似度和在与原文的一致单词之间存在的自然文中的不一致单词数量的一致度评价,具体讲,例如可通过下述处理来实现。
即,首先,根据原文上的与翻译对象语句的间隔(单词数量),对原文中的各单词赋予第一评价值。该第一评价值可以设定为,对原文中的翻译对象语句的第一评价值为最大,对于原文中的翻译对象语句以外的各单词的第一评价值,原文上的与翻译对象语句的间隔越大(之间存在的单词数量越多)值越小。例如,在原文由单词A~单词J这9个单词构成(原文=(A,B,C,D,E,F,G,H,J)),原文中的第四个单词D被指定为翻译对象语句时,对原文中的各单词A~单词J,可分别赋予如下的第一评价值。
A=1.0,B=2.0,C=5.0,D=10.0,E=5.0,F=2.0,G=1.0,H=0.5,J=0.2。
然后,对于通过步骤102的检索从对译DB中提取出的包含翻译对象语句的各自然文,识别出自然文的各单词之中、与原文中的任一个单词一致的一致单词,运算事先对识别出的各一致单词赋予的第一评价值的合计值。然后,将该第一评价值的合计值作为一致度,按照对应的各自然文的一致度(第一评价值的合计值)的降序,输出通过检索提取出的各自然文的对译文。例如,在通过检索提取了以下的单词排列的自然文1~自然文5时(其中,单词X表示任意的单词),
自然文1=(D,X,X,E,F,G)
自然文2=(D,X,E,F,G)
自然文3=(D,E,F,G)
自然文4=(A,B,X,C,X,D)
自然文5=(D,E,F,G,H,J)
各自然文的第一评价值的合计值为
自然文1:10.0(单词D)+0(单词X)+0(单词X)+5.0(单词E)+2.0(单词F)+1.0(单词G)=18.0
自然文2:10.0(单词D)+0(单词X)+5.0(单词E)+2.0(单词F)+1.0(单词G)=18.0
自然文3:10.0(单词D)+5.0(单词E)+2.0(单词F)+1.0(单词G)=18.0
自然文4:1.0(单词A)+2.0(单词B)+0(单词X)+5.0(单词C)+0(单词X)+10.0(单词D)=18.0
自然文5:10.0(单词D)+5.0(单词E)+2.0(单词F)+1.0(单词G)+0.5(单词H)+0.2(单词J)=18.7
自然文5的第一评价值的合计值(一致度)最大。
由于第一评价值设定为,对于原文中的翻译对象语句以外的各单词,原文上的与翻译对象语句的间隔越小,值越大,因此如上所述,通过根据第一评价值的合计值对包含翻译对象语句的各自然文进行评价,能够将包含更多的在原文上位于接近翻译对象语句的位置处的单词的自然文、即包含由原文中的翻译对象语句及其附近的单词构成的短语(词组)的可能性高的自然文(被推测为与原文的单词排列顺序的相似度高的自然文)评价为一致度更高的自然文。
并且,在上述例中,自然文1~自然文4的一致度(第一评价值的合计值)为相同值,在像这样存在多个基于第一评价值的一致度为相同值的自然文时,对基于第一评价值的一致度为相同值的各自然文分别进行如下操作,即、根据在各自然文上的与翻译对象语句的间隔(单词数量),对自然文的各单词中、与原文中的任一个单词一致的一致单词赋予第二评价值。对于该第二评价值可设定为,各自然文中所包含的翻译对象语句的第二评价值最大,对于各自然文中的翻译对象语句以外的一致单词的第二评价值,各自然文上的与翻译对象语句的间隔越大(之间存在的单词数量越多)值越小。然后,分别对基于第一评价值的一致度为相同值的各自然文,运算对各一致单词所赋予的第二评价值的合计值,按照对应的各自然文的第二评价值的合计值(这也包括在本发明的一致度中)的降序,输出基于第一评价值的一致度为相同值的各自然文的对译文。
例如对于上述的自然文1~自然文4,对各一致单词赋予如下的第二评价值,得到如下的第二评价值的合计值。另外,以下示出了如下示例,将翻译对象语句的第二评价值设定为10.0,并且,对于其它的一致单词,将第二评价值设定成随着在与翻译对象语句之间存在的单词数量0,1,2,3,4,…地增加,第二评价值5.0,2.0,1.0,0.5,0.2,…地减少。
自然文1:10.0(单词D)+0(单词X)+0(单词X)+1.0(单词E)+0.5(单词F)+0.2(单词G)=11.7
自然文2:10.0(单词D)+0(单词X)+2.0(单词E)+1.0(单词F)+0.5(单词G)=13.5
自然文3:10.0(单词D)+5.0(单词E)+2.0(单词F)+1.0(单词G)=18.0
自然文4:0.2(单词A)+0.5(单词B)+0(单词X)+2.0(单词C)+0(单词X)+10.0(单词D)=12.7
因此,自然文1~自然文4(的对译文)按照第二评价值的合计值(一致度)的降序,即自然文3,2,4,1的顺序被输出。
第二评价值被设定为,对于各自然文的各单词之中、与原文中的任一个单词一致的一致单词,各自然文上的与翻译对象语句的间隔越小,值越大,因此如上所述,根据第二评价值的合计值对包含翻译对象语句的各自然文进行评价,从而能够将包含更多的与原文的一致单词且存在于一致单词之间的不一致单词尽可能少的自然文、即包含由原文中的翻译对象语句及其附近的单词构成的短语(词组)的可能性高的自然文评价为一致度更高的自然文。
并且,对于还考虑进自然文与原文的单词排列顺序的相似度和存在于与原文的一致单词之间的自然文中的不一致单词数量的一致度评价,例如可通过下述的处理来实现。
即,首先,从原文上存在于翻译对象语句前侧的前侧单词组中提取出与翻译对象语句的间隔最小的前侧单词(此时为与翻译对象语句相邻的前侧单词),并且,从原文上存在于翻译对象语句后侧的后侧单词组中提取出与翻译对象语句的间隔最小的后侧单词(此时为与翻译对象语句相邻的后侧单词)。然后,对通过检索从对译DB中提取出的包含翻译对象语句的各自然文,将各自然文中翻译对象语句所在的位置设定为基准位置(在翻译对象语句分别存在于自然文中的多处时,将任意一个的翻译对象语句所在的位置设定为基准位置),搜索先前提取出的前侧单词是否存在于从基准位置起的前侧预定单词数量的范围内(例如3个单词以内),并且搜索先前提取出的后侧单词是否存在于从基准位置起的后侧预定单词数量的范围内(例如3个单词以内)。然后,对通过上述搜索发现了前侧单词和后侧单词的自然文赋予第三评价值,该第三评价值被设定成基准位置与前侧单词和后侧单词的间隔越小,值越大。
接着,从原文中的前侧单词组中,提取出还未提取且与翻译对象语句的间隔最小的前侧单词(此时为与翻译对象语句之间存在单一的单词(上次的搜索中使用的前侧单词)的前侧单词),并且从原文中的后侧单词组中,提取出还未提取且与翻译对象语句的间隔最小的后侧单词(此时为与翻译对象语句之间存在单一的单词(上次的搜索中使用的后侧单词)的后侧单词)。然后,对通过上次的搜索发现了前侧单词和后侧单词的各自然文,搜索先前提取的前侧单词是否存在于从上次搜索中发现的前侧单词的位置起的前侧的预定单词数量的范围内(例如3个单词以内),并且,搜索先前提取的后侧单词是否存在于从上次搜索中发现的后侧单词的位置起的后侧的预定单词数量的范围内(例如3个单词以内)。然后,对通过本次的搜索发现了前侧单词和后侧单词中的至少一方的自然文赋予第三评价值,该第三评价值被设定成,上次的搜索中发现的前侧单词或后侧单词的位置与本次发现的前侧单词或后侧单词的位置之间的间隔越小,值越大。
另外,作为上述的第三评价值,如上所述,可以使用仅根据在自然文上的、上次的搜索中发现的前侧单词或后侧单词的位置与本次发现的前侧单词或后侧单词的位置之间的间隔,而唯一地决定的评价值,但也可以考虑原文上的翻译对象语句与搜索对象的前侧单词或后侧单词之间的间隔,对第三评价值按如下方式来设定:搜索对象的前侧单词或后侧单词在原文上的与翻译对象语句的间隔越小,对第三评价值的影响越大(搜索对象的前侧单词或后侧单词在原文上的与翻译对象语句的间隔越大,被赋予的第三评价值整体上越小)。并且,也可以替代如上所述,按照上次搜索中发现的前侧单词或后侧单词的位置与本次发现的前侧单词或后侧单词的位置在自然文上的间隔越小、值越大来设定第三评价值的方式,而按照如下方式来设定第三评价值:上述的基准位置与本次发现的前侧单词或后侧单词的位置在自然文上的间隔越小,第三评价值越大。
在按照与翻译对象语句的间隔的升序从原文中提取前侧单词和后侧单词的同时,重复进行上述处理,直到没有能从原文中提取的前侧单词和后侧单词,然后运算赋予给各自然文的第三评价值的合计值,将该第三评价值的合计值作为一致度,按照对应的各自然文的一致度(第三评价值的合计值)的降序,输出通过检索提取出的各自然文的对译文。
例如在原文由单词A~单词E这5个单词构成(原文=(A,B,C,D,E)),原文中的第三个单词C被指定为翻译对象语句时,首先,单词B作为前侧单词、单词D作为后侧单词分别被从原文中提取,对于通过检索从对译DB中提取出的包含翻译对象语句的各自然文,分别搜索前侧单词B是否在从翻译对象语句起的前侧的预定单词数量的范围内(例如3个单词以内),以及后侧单词D是否在从翻译对象语句起的后侧的预定单词数量的范围内(例如3个单词以内),对发现了前侧单词B和后侧单词D的自然文,赋予第三评价值。接着,单词A作为前侧单词、单词E作为后侧单词分别被从原文中提取,对于在上次搜索中发现了前侧单词B和后侧单词D的自然文,分别搜索前侧单词A是否在从前侧单词B起的前侧的预定单词数量的范围内(例如3个单词以内),以及后侧单词E是否在从后侧单词D起的后侧的预定单词数量的范围内(例如3个单词以内),对发现了前侧单词A和后侧单词E的自然文,赋予第三评价值。
若对于以下所示的10个自然文a~自然文k,进行上述的处理,按照第三评价值的合计值的降序排列,则成为如下顺序。另外,在下面的例中,单词X表示任意的单词,“/”表示句读记号。
1.自然文a=(A,B,C,D,E)
2.自然文b=(A,B,C,D,/,B,C,D,E)
3.自然文c=(B,C,D)
4.自然文d=(A,B,C,X,D,E)
5.自然文e=(A,B,C,X,D)
6.自然文f=(A,B,C,/,C,D,E)
7.自然文g=(A,X,B,C,X,D)
8.自然文h=(B,C,/,C,D)
9.自然文j=(B,X,C,/,C,X,D)
10.自然文k=(B,X,X,C,/,C,X,X,D)
对于包含翻译对象语句的各自然文,如上所述赋予第三评价值,根据第三评价值的合计值进行评价,从而能够将与原文的单词排列顺序的相似度高、且存在于与原文的一致单词之间的不一致单词的数量尽可能少的自然文,即将在尽可能不包含不一致单词的状态下(块度高的状态)包含有原文的自然文,评价为一致度更高的自然文。
进而,也可通过例如以下处理,来实现考虑了自然文与原文的单词排列顺序的相似度、以及存在于与原文的一致单词之间的自然文中的不一致单词数量的一致度评价。
即,从原文上存在于翻译对象语句前侧的前侧单词组中提取出与翻译对象语句的间隔最小的前侧单词(此时为与翻译对象语句相邻的前侧单词),对通过检索从对译DB中提取出的包含翻译对象语句的各自然文,将各自然文中翻译对象语句所在的位置设定为基准位置(在翻译对象语句分别存在于自然文中的多处时,将任意一个翻译对象语句所在的位置设定为基准位置),搜索先前提取的前侧单词是否存在于从基准位置起的前侧的预定单词数量的范围内(例如3个单词以内)。该处理对包含翻译对象语句的各自然文,分别进行各距离单词数量(更详细为第一各距离单词数量和第二各距离单词数量)的计数,以作为第四评价值,对于通过上述搜索发现了前侧单词的自然文,对基准位置与前侧单词之间的距离(更详细为存在于基准位置与前侧单词之间的不一致单词数量)进行计数,分别对与所计数的距离对应的第一各距离单词数量进行累计。
接着,从原文中的前侧单词组中,提取出还未提取且与翻译对象语句的间隔最小的前侧单词(此时为与翻译对象语句之间存在单一的单词(上次搜索中使用的前侧单词)的前侧单词),对于通过上次搜索发现了前侧单词的各自然文,搜索先前提取出的前侧单词是否存在于从上次搜索中发现的前侧单词的位置起的前侧的预定单词数量的范围内(例如3个单词以内),对于通过本次搜索发现了前侧单词的自然文,对上次搜索中发现的前侧单词的位置与本次发现的前侧单词的距离进行计数,将所计数的距离与上次搜索中发现的前侧单词与基准位置的距离相加,从而求出通过本次搜索发现的前侧单词与基准位置的距离,分别对与所求出的距离对应的第一各距离单词数量进行累计。在按照与翻译对象语句的间隔的升序从原文中提取出前侧单词的同时,重复进行该处理,直到没有能从原文中提取的前侧单词。
例如在原文由单词A~单词E这5个单词构成(原文=(A,B,C,D,E)),原文中的第四个单词D被指定为翻译对象语句时,首先,分别对于单词C作为前侧单词被从原文中提取,通过检索从对译DB中提取出的包含翻译对象语句的各自然文,搜索前侧单词B是否存在于从翻译对象语句起的前侧的预定单词数量的范围内(例如3个单词以内),对发现了前侧单词C的自然文,进行第一各距离单词数量的累计。将该时刻的第一各距离单词数量的计数结果的一例,示于下面的表1。
[表1]
<在搜索单词C的阶段的第一各距离单词数量的计数结果的一例>
自然文的一例         各距离单词数量
  距离=0   1   2   3
  CD   1   0   0   0
  CXD   0   1   0   0
  CXXD   0   0   1   0
接着,对于单词B作为前侧单词被从原文中提取,上次搜索中发现了前侧单词C的自然文,分别搜索前侧单词B是否存在于从前侧单词C起的前侧的预定单词数量的范围内(例如3个单词以内),对于发现了前侧单词B的自然文,进行第一各距离单词数量的累计。将该时刻的第一各距离单词数量的计数结果的一例,示于下面的表2。
[表2]
<在搜索单词B的阶段的第一各距离单词数量的计数结果的一例>
自然文的一例             各距离单词数量
  距离=0   1   2   3   4
  BCD   2   0   0   0   0
  BXCD   1   1   0   0   0
  BXXCD   1   0   1   0   0
  BCXD   0   2   0   0   0
  BXCXD   0   1   1   0   0
  BXXCXD   0   1   0   1   0
  BCXXD   0   0   2   0   0
  BXCXXD   0   0   1   1   0
  BXXCXXD   0   0   1   0   1
而且,分别对于单词A作为前侧单词被从原文中提取,在上次搜索中发现了前侧单词B的自然文,搜索前侧单词A是否存在于从前侧单词B起的前侧的预定单词数量的范围内(例如3个单词以内),对发现了前侧单词A的自然文,进行第一各距离单词数量的累计。将该时刻的第一各距离单词数量的计数结果的一例,示于下面的表3。
[表3]
        <在搜索单词A的阶段的第一各距离单词数量的计数结果的一例>
自然文的一例                          各距离单词数量
  距离=0   1   2   3   4   5   6
  ABCD   3   0   0   0   0   0   0
  AXBCD   2   1   0   0   0   0   0
  AXXBCD   2   0   1   0   0   0   0
  ABXCD   1   2   0   0   0   0   0
  AXBXCD   1   1   1   0   0   0   0
  AXXBXCD   1   1   0   1   0   0   0
  ABXXCD   1   0   2   0   0   0   0
  AXBXXCD   1   0   1   1   0   0   0
  AXXBXXCD   1   0   1   0   1   0   0
  ABCXD   0   3   0   0   0   0   0
  AXBCXD   0   2   1   0   0   0   0
  AXXBCXD   0   2   0   1   0   0   0
  ABXCXD   0   1   2   0   0   0   0
  AXBXCXD   0   1   1   1   0   0   0
  AXXBXCXD   0   1   1   0   1   0   0
  ABXXCXD   0   1   0   2   0   0   0
  AXBXXCXD   0   1   0   1   1   0   0
  AXXBXXCXD   0   1   0   1   0   1   0
  ABCXXD   0   0   3   0   0   0   0
  AXBCXXD   0   0   2   1   0   0   0
  AXXBCXXD   0   0   2   0   1   0   0
  ABXCXXD   0   0   1   2   0   0   0
  AXBXCXXD   0   0   1   1   1   0   0
  AXXBXCXXD   0   0   1   1   0   1   0
  ABXXCXXD   0   0   1   0   2   0   0
  AXBXXCXXD   0   0   1   0   1   1   0
  AXXBXXCXXD   0   0   1   0   1   0   1
接着,对于通过检索从对译DB中提取的、包含翻译对象语句的各自然文,采用与上述的第一各距离单词数量不同的方法,计数单词之间的距离,作为第二各距离单词数量进行统计。具体讲,将原文中的前侧单词组之中与翻译对象语句相邻的前侧单词看作在原文中不存在的单词(将各自然文所包含的单词C看作任意的不一致单词X),在该状态下,从原文中的前侧单词组中提取出与翻译对象语句的间隔最小的前侧单词,对于通过检索从对译DB中提取出的、包含翻译对象语句的各自然文,将各自然文中翻译对象语句所在的位置设定为基准位置,搜索所提取出的前侧单词是否存在于从基准位置起的前侧的预定单词数量的范围内(例如3个单词以内)。然后,对通过上述搜索发现了前侧单词的自然文,计数基准位置与前侧单词的距离(更详细为存在于基准位置与前侧位置之间的不一致单词数量),将在所计数的距离上加“1”而得到的距离作为与基准位置的距离,分别对与该基准位置的距离对应的第二各距离单词数量进行累计。
接着,从原文中的前侧单词组中,提取出还未提取且与翻译对象语句的间隔最小的前侧单词,对于通过上次搜索发现了前侧单词的各自然文,搜索先前提取出的前侧单词是否存在于从上次搜索中发现的前侧单词的位置起的前侧的预定单词数量的范围内(例如3个单词以内),对于通过本次搜索发现了前侧单词的自然文,计数上次搜索中发现的前侧单词的位置与本次发现的前侧单词之间的距离,将所计算的距离与上次搜索中发现的前侧单词与基准位置之间的距离相加,从而求出通过本次搜索发现的前侧单词与基准位置之间的距离,分别对与所求出的距离对应的第二各距离单词数量进行累计。在按照与翻译对象语句的间隔的升序从原文中提取前侧单词的同时,重复进行该处理,直到没有能从原文中提取的前侧单词。
例如在原文由单词A~单词E这5个单词构成(原文=(A,B,C,D,E)),原文中的第四个单词D被指定为翻译对象语句时,首先,将原文中的前侧单词组之中、与翻译对象语句相邻的前侧单词C看作在原文中不存在的单词(将各自然文所包含的单词C看作任意的不一致单词X),在该状态下,从原文中依次提取出单词B和单词A,对在各自然文上的与基准位置之间的距离进行计数,得到以下的表4所示的计数结果作为例子。
[表4]
     <第二各距离单词数量的距离计数结果的一例>
  自然文的一例  BD的距离(实际距离+1)   AB的距离   AD的距离(BD+AB)
  ABCD  2   0   2
  AXBCD  2   1   3
  AXXBCD  2   2   4
  ABXCD  3   0   3
然后,根据上述的计数结果,对第二各距离单词数量进行累计,从而得到下述表5所示的第二各距离单词数量的计数结果。
[表5]
        <第二各距离单词数量的计数结果的一例>
自然文的一例               各距离单词数量
 距离=0   1   2   3   4   5   6
  ABCD  0   0   2   0   0   0   0
  AXBCD  0   0   1   1   0   0   0
  AXXBCD  0   0   1   0   1   0   0
  ABXCD  0   0   0   2   0   0   0
如上述那样,对于包含翻译对象语句的各自然文,若对于原文中的前侧单词组,第一各距离单词数量和第二各距离单词数量的计数结束,则针对各自然文,比较第一各距离单词数量和第二各距离单词数量的计数结果,将第一各距离单词数量和第二各距离单词数量之中、示出单词间距离更短的结果的一方的计数结果,选择为与前侧单词组有关的最终评价。具体讲,例如自然文(A,B,C,D),在表3所示的第一各距离单词数量中距离为0的单词数量为3,相对于此,在表5所示的第二各距离单词数量中距离为0的单词数量为0、距离为1的单词数量为0、距离为2的单词数量为2,将距离为0的单词数量多的第一各距离单词数量选择为与自然文(A,B,C,D)的前侧单词组相关的最终评价。上述例子是第一各距离单词数量和第二各距离单词数量中的距离为0的单词数量不同的情况,在距离为0的单词数量相同时,依次比较距离为1,2…的单词数量,将第一各距离单词数量和第二各距离单词数量之中相同距离的单词数量更多的一方选择为最终评价。
另外,之所以进行第二各距离单词数量的计数,是因为也要针对相对于原文、部分单词的顺序被相交换的自然文,恰当地评价与原文的单词排列顺序的相似度。例如对于自然文=(C,A,B,D),第一各距离单词数量中距离为0的单词数量为0、距离为1的单词数量为0、距离为2的单词数量为1,相对于此,在第二各距离单词数量中距离为0的单词数量为0、距离为1的单词数量为2、距离为2的单词数量为0,把第二各距离单词数量选择为与上述自然文的前侧单词组有关的最终评价。在上述例中,第一各距离单词数量的计数结果是将自然文(C,A,B,D)看作(C,X,X,D)来进行评价,相对于此,第二各距离单词数量的计数结果是将自然文(C,A,B,D)看作(X,A,B,(漏过单词C),D)来进行评价,能够将上述的自然文评价为在块度更高的状态下包含原文。
对于通过检索从对译DB中提取出的、包含翻译对象语句的各自然文,当通过进行上述处理决定了与前侧单词组有关的最终评价时,对于上述各自然文,使用在原文上存在于翻译对象语句后侧的后侧单词组,进行同样的处理(第一各距离单词数量和第二各距离单词数量的计数、与后侧单词组有关的最终评价的决定)。接着,针对各自然文,将所得到的与前侧单词组有关的最终评价和与后侧单词组有关的最终评价进行相加统计(针对每个相同距离,将各最终评价中的各距离单词数量相加),从而求出对各自然文的综合评价。然后,根据各自然文的各自的综合评价,从对应的各自然文的综合评价表示单词间距离更短的结果的对译文起,依次输出各自然文的对译文。
具体讲,例如按照距离0的单词数量的降序重新排列各自然文之后,在逐一地增加与要比较的单词数量对应的距离的同时,重复进行按照距离1的单词数量的降序、重新排列距离0的单词数量相同的自然文的处理,从而按照综合评价表示单词间距离更短的结果的顺序,重新排列各自然文。然后,将与各自然文对应的对译文依次输出。
由此,若对以下所示的9个自然文a~自然文j进行上述处理,根据综合评价,进行重新排列,则成为以下顺序。
1.自然文a=(A,B,C,D,E)
2.自然文b=(A,B,C,D,/,B,C,D,E)
3.自然文c=(A,B,C,X,D)
4.自然文d=(B,C,D)
5.自然文e=(A,X,B,C,X,D)
6.自然文f=(B,C,X,D)
7.自然文g=(B,C,/,C,D)
8.自然文h=(B,X,C,/,C,X,D)
9.自然文j=(B,X,X,C,/,C,X,X,D)
另外,上述处理中,第二各距离单词数量的计数不是必须的,例如在无需评价相对于原文、部分单词的顺序被交换的自然文等时,可省略第二各距离单词数量的计数,直接将第一各距离单词数量作为最终评价来使用。
并且,自不必说,基于上述的第一评价值和第二评价值/第三评价值/第四评价值(第一各距离单词数量和第二各距离单词数量)的一致度的评价/自然文的选择或重新排列,可与基于相关性分析或模式分析的自然文的评价/选择或重新排列并用,根据第一评价值和第二评价值或第三评价值来评价自然文的一致度的方式,与仅使用原文与自然文的一致单词数量来评价一致度的方式等相比,更加适用于对于存在于原文中的词组或短语等范围比原文整体窄的语句,检测作为参考的对译文等情况,例如,除了通常的检索模式之外,还可以设置短语检索模式等检索模式,在选择了该短语检索模式时,进行基于第一评价值和第二评价值或第三评价值的一致度的评价/自然文的选择或重新排列。
并且,上述中对下述例子进行了说明,即,首先运算一致度,进行自然文的选择(对译的判断),在根据一致度没能找到合适的自然文时,进行基于相关性分析的自然文的选择(对译的判断),在根据相关性分解也未能找到合适的自然文时,进行基于模式分析的自然文的选择(对译的判断),但并不限于此,也可以对通过检索单元的检索提取出的包含翻译对象语句的各自然文,分别进行一致度的运算、相关性分析以及模式分析,从而对每个自然文进行评价,根据评价结果,按照例如下面的表6所示的优先顺序进行自然文的选择。
[表6]
           <自然文选择的优先顺序的一例>
一致度数  相关性分析(有无高相关性的单词)   模式分析(有无替代单词)
  有   无
  高  有          1
2 5
 有          3
 无   4   6
进一步,也可以对每个自然文分别进行一致度的运算、相关性分析和模式分析,按照下述公式运算综合评价分,选择综合评价分最大的自然文。
综合评价分=a×(一致度)+b×(相关性评价分)+c×(模式评价分)
另外,在上述公式中,相关性评价分是根据相关性分析的结果对每个自然文赋予的评价分,模式评价分是根据模式分析的结果对每个自然文赋予的评价分,a、b、c是预先设定的系数。
并且,在先前说明的对译判断处理(图2)中,判断通过步骤102的检索是否从对译DB中提取出了与处理对象的原文完全一致的自然文(步骤104),判断为肯定时,读出并显示与处理对象的原文完全一致的自然文的对译文(步骤106),但并不限于此,也可以将上述步骤104、106省略,无论是否通过步骤102的检索从对译DB中提取出了与处理对象的原文完全一致的自然文,都无条件地进行从步骤108起的处理(一致度的运算等处理)。在该方式中,在通过步骤102的检索提取出了多个自然文时,若在提取出的多个自然文中包含与原文完全一致的自然文,则该自然文的一致度最大,作为结果,能够得到与进行了步骤104、106的情况相同的处理结果。
并且,本发明中的对译选择的精度取决于登记在对译DB中的自然文和对译文的数量,自然文和对译文的数量越多,对译选择的精度越高。因此,在本发明的对译判断装置中还可以设置如下功能,即,读取被翻译过的原文和翻译文、将所读取的原文和翻译文直接或进行舍取选择之后,作为自然文和对译文,自动追加登记到对译DB。根据本发明,只要将自然文和对译文追加登记到对译DB中即可,无需对自然文进行按单词单位的分割等编辑/加工,因此,能够非常容易地实现将信息(自然文和对译文)自动追加登记到对译DB中。
并且,在上述中以输出对译文时将翻译对象语句的对译强调显示的方式为例进行了说明,但并不限于此,自不必说,不强调显示翻译对象语句的对译的方式也包括在本发明的权利要求范围内。
并且,本发明中的对译选择的精度还取决于登记在对译DB中的自然文和对译文的内容的冗长度,若登记在对译DB中的自然文和对译文的内容的冗长度增高,则与登记在对译DB中的自然文和对译文的数量(对译DB的容量)相比,对译选择的精度下降。因此,在本发明的对译判断装置中还可以设置如下功能,即,搜索登记在对译DB中的各自然文和对译文中是否存在内容相似度高的自然文和对译文,在发现了内容相似度非常高的自然文对和对译文对时,将其中一方的自然文和对译文从对译DB中删除。
而且,在上述中说明了使用单一的对译DB进行对译选择的例子,但并不限于此,例如在用于特定领域的手册的翻译等、处理对象的原文限于特定领域等时,也可以按照处理对象的原文的各领域来分割对译DB。该情况下,能够抑制各个对译DB的容量的增大,同时能够得到自然文检索所需的时间缩短、对译的选择精度提高等效果。
并且,在上述中以按照用户通过PC 10进行的、指示输出翻译对象语句的对译的预定操作,利用PC 10执行对译判断处理的方式为例进行了说明,但并不限于此,作为例子,如图4所示也可以构成为,将客户机PC 32和服务器计算机34分别与因特网或LAN(Local Area Network,局域网)等网络30连接,将本发明应用于将由存储对译DB的HDD等构成的存储介质36连接到服务器计算机34上的计算机系统38,当由客户通过客户机PC 32在线询问对译时,服务器计算机34判断对译、进行在线回答。
在图4的计算机系统38中,用户发出的对译询问(参照图4的(1)),例如可以由用户通过客户机PC 32将原语言的文本数据发送给服务器计算机34、或将包含原语言文本的网页的URL(统一资源定位器:UniformResource Locator)通知给服务器计算机34,从而指定原语言的文本来进行。该情况下,服务器计算机34构成为,在访问存储于存储介质36的对译DB的同时,执行对译判断处理,从而判断所指定的文本的对译(文)(参照图4的(2)),将判断出的对译(文)发送给客户机PC 32,从而对询问进行回答(参照图4的(3))。由于多个用户可共用服务器计算机34的对译判断功能(及对译DB),因此该结构对于对译DB的容量大等情况时的成本控制是特别有效的。
并且,在上述中以将本发明应用于电子辞典装置的方式为例进行了说明,但并不限于此,自不必说,还可应用于机器翻译(自动翻译)装置或自动口译装置(通过声音识别来识别用声音输入的原文,判断所识别出的原文的对译文,用声音将所判断出的对译文输出,从而进行口译的装置)、语言学习装置等。图5示出了应用本发明的机器翻译装置40的概略结构的一例。图5中,原文输入部42将翻译对象的原文(的文本数据)分别输入至翻译对象语句选择部44和对译文组合部46。翻译对象语句选择部44将所输入的翻译对象的原文中的特定语句选择为翻译对象语句,一边依次选择翻译对象的原文中的各语句作为翻译对象语句,一边反复向对译判断部48询问所选择的翻译对象语句的对译。对译判断部48是相当于本发明的对译判断装置的部分,通过一边访问存储于存储介质50的对译DB、一边执行对译判断处理,来判断被询问的翻译对象语句的对译,向对译文组合部46输出判断出的对译。
对译文组合部46根据从翻译对象语句选择部44输入的翻译对象语句和从对译判断部48输入的翻译对象语句的对译、以及从原文输入部42输入的翻译对象的原文,把从对译判断部48输入的对译连接起来(根据需要替换顺序),组合成目标语言的对译文。通过对译文组合部46组合的对译文被输出到对译文输出部52,进行显示到显示器等、记录到记录介质、作为声音输出等对译文输出处理。在上述结构中,将本发明应用于翻译对象语句的对译的判断,因此作为翻译对象语句的对译,能够得到根据原文得到自然的对译文作为目标语言句子的可能性高的对译,通过对译文输出部52输出的对译文,作为目标语言句子是自然的对译文。并且,无需词类判断和句法分析等复杂的处理,能够将处理简化。另外,在图5所示的机器翻译装置中,自不必说,也可以如先前说明的图4那样,针对在线的对译文的询问,在线回答经过对译的判断/组合等处理而得到的对译文。
而且,在上述中,对于对应地登记在对译DB(存储单元)中的一对句子(用不同的语言叙述的一对句子),方便起见将一方称为自然文,另一方称为对译文,但也可以将为了从第一语言到第二语言的翻译(对译判断)而制作的对译DB,用于从第二语言到第一语言的翻译(对译判断)中。
并且,在上述中,作为原语言或目标语言的一例,列举出英语、日语、汉语进行了说明,但并不限于此,自不必说,作为原语言或目标语言,也可以是例如法语、德语、意大利语、西班牙语、葡萄牙语等任意的语言。

Claims (19)

1.一种对译判断装置,其特征在于,包括:
存储单元,其将由多个单词构成的原语言的自然文,与目标语言的对译文对应起来存储多个;
检索单元,其从存储于所述存储单元中的原语言的多个自然文中,检索包含有原语言的原文中的翻译对象语句的自然文;以及
第一对译判断单元,其求出通过所述检索单元的检索提取出的自然文与所述原文的一致度,将根据所求出的一致度而选择的自然文的对译文中的至少所述翻译对象语句的对译,判断为所述原文中的至少所述翻译对象语句的对译。
2.根据权利要求1所述的对译判断装置,其特征在于,
所述检索单元从存储于所述存储单元中的原语言的多个自然文中检索与所述原文完全一致的自然文,
所述第一对译判断单元在通过所述检索单元的检索提取出与所述原文完全一致的自然文的情况下,将该完全一致的自然文的对译文判断为所述原文的对译文。
3.根据权利要求1所述的对译判断装置,其特征在于,
所述第一对译判断单元对通过所述检索单元的检索提取出的自然文与所述原文的一致单词数量进行计数,按照所计数的一致单词数量越多、与所述原文的一致度越高的方式,来评价与所述原文的一致度。
4.根据权利要求3所述的对译判断装置,其特征在于,
所述第一对译判断装置求出将所述计数的一致单词数量除以构成所述翻译对象语句的单词数量而得到的值,作为所述一致度。
5.根据权利要求3所述的对译判断装置,其特征在于,
所述第一对译判断单元还对通过所述检索单元的检索提取出的自然文与所述原文的不一致单词数量进行计数,按照所计数的不一致单词数量越少、与所述原文的一致度越高的方式,来评价与所述原文的一致度。
6.根据权利要求3所述的对译判断装置,其特征在于,
所述第一对译判断单元在对所述一致单词数量进行计数时,将预先设定的频繁出现单词从计数对象中排除。
7.根据权利要求3或5所述的对译判断装置,其特征在于,
所述第一对译判断单元在对所述一致单词数量或所述不一致单词数量进行计数时,将由于单复数或时态的不同引起词尾不同的单词看作一致单词,来进行计数。
8.根据权利要求3所述的对译判断装置,其特征在于,
所述第一对译判断单元在对所述一致单词数量进行计数时,对多次出现的一致单词不重复计数。
9.根据权利要求3或5所述的对译判断装置,其特征在于,
所述第一对译判断单元评价通过所述检索单元的检索提取出的自然文与所述原文的单词排列顺序的相似度,按照单词排列顺序的相似度越高、与所述原文的一致度越高的方式,来评价与所述原文的一致度。
10.根据权利要求3或5所述的对译判断装置,其特征在于,
所述第一对译判断单元对通过所述检索单元的检索提取出的自然文中、存在于与所述原文的一致单词之间的不一致单词数量进行计数,按照所计数的存在于所述一致单词之间的不一致单词数量越少、与所述原文的一致度越高的方式,来评价与所述原文的一致度。
11.根据权利要求1所述的对译判断装置,其特征在于,
还具备识别单元,其根据通过所述检索单元的检索提取出的自然文,识别出与所述翻译对象语句在原语言的同一句子中出现的频度高的频繁出现语句,
所述第一对译判断单元参照通过所述检索单元的检索提取出的自然文之中、分别包含有通过所述识别单元识别出的且存在于所述原文中的特定的频繁出现语句、和所述翻译对象语句的自然文的对译文,识别出分别包含有所述翻译对象语句和所述特定的频繁出现语句的自然文的对译文中的对翻译对象语句的高频度的对译,将所识别出的高频度的对译,判断为所述原文中的所述翻译对象语句的对译。
12.根据权利要求1所述的对译判断装置,其特征在于,
还具备判断单元,其判断可替代关注语句的替代语句,其中该关注语句存在于所述原文中且不包含于通过所述检索单元的检索提取出的自然文中,
所述第一对译判断单元将通过所述检索单元的检索提取出的自然文之中、分别包含有通过所述判断单元判断出的替代语句和所述翻译对象语句的自然文的对译文中的至少所述翻译对象语句的对译,判断为所述原文中的至少所述翻译对象语句的对译。
13.根据权利要求12所述的对译判断装置,其特征在于,
所述判断单元从存储于所述存储单元中的多个自然文中检索包含有所述关注语句的自然文,从存储于所述存储单元中的自然文中,检索与通过该检索提取出的自然文的句法相同的自然文,将通过该检索提取出的自然文中、与关注语句相置换的语句判断为所述替代语句。
14.一种对译判断装置,其特征在于,包括:
存储单元,其将由多个单词构成的原语言的自然文,与目标语言的对译文对应起来存储多个;
检索单元,其从存储于所述存储单元中的原语言的多个自然文中,检索包含有原语言的原文中的翻译对象语句的自然文;
识别单元,其根据通过所述检索单元的检索提取出的自然文,识别出与所述翻译对象语句在原语言的同一句子中出现的频度高的频繁出现语句;以及
第二对译判断单元,其参照通过所述检索单元的检索提取出的自然文之中、分别包含有通过所述识别单元识别出的且存在于所述原文中的特定的频繁出现语句、和所述翻译对象语句的自然文的对译文,识别出分别包含有所述翻译对象语句和所述特定的频繁出现语句的自然文的对译文中的对翻译对象语句的高频度的对译,将所识别出的高频度的对译,判断为所述原文中的所述翻译对象语句的对译。
15.根据权利要求1或14所述的对译判断装置,其特征在于,
在所述翻译对象语句由多个单词构成时,所述检索单元从存储于所述存储单元中的原语言的多个自然文中,检索包含有构成所述翻译对象语句的多个单词中的至少一个的自然文。
16.一种对译判断方法,其特征在于,包括:
第一步骤,从与目标语言的对译文对应地在存储单元中存储有多个、分别由多个单词构成的原语言的自然文中,检索包含有原语言的原文中的翻译对象语句的自然文;以及
第二步骤,求出通过所述第一步骤中的检索提取出的自然文与所述原文的一致度,将根据求出的一致度而选择的自然文的对译文中的至少所述翻译对象语句的对译,判断为所述原文中的至少所述翻译对象语句的对译。
17.一种对译判断方法,其特征在于,包括:
第一步骤,从与目标语言的对译文对应地在存储单元中存储有多个、分别由多个单词构成的原语言的自然文中,检索包含有原语言的原文中的翻译对象语句的自然文;
第二步骤,根据通过所述第一步骤中的检索提取出的自然文,识别出与所述翻译对象语句在原语言的同一句子中出现的频度高的频繁出现语句;以及
第三步骤,通过参照通过所述第一步骤中的检索提取出的自然文之中、分别包含有通过所述第二步骤识别出的且存在于所述原文中的特定的频繁出现语句、和所述翻译对象语句的自然文的对译文,识别出分别包含有所述翻译对象语句和所述特定的频繁出现语句的自然文的对译文中的对翻译对象语句的高频度的对译,将识别出的高频度的对译判断为所述原文中的所述翻译对象语句的对译。
18.一种程序,使与存储单元连接的计算机作为如下单元来发挥作用,在该存储单元中与目标语言的对译文对应地存储有多个由多个单词构成的原语言的自然文:
检索单元,其从存储于所述存储单元中的原语言的多个自然文中,检索包含有原语言的原文中的翻译对象语句的自然文;以及
第一对译判断单元,其求出通过所述检索单元的检索提取出的自然文与所述原文的一致度,将根据求出的一致度而选择的自然文的对译文中的至少所述翻译对象语句的对译,判断为所述原文中的至少所述翻译对象语句的对译。
19.一种程序,使与存储单元连接的计算机作为如下单元来发挥作用,在该存储单元中与目标语言的对译文对应地存储有多个由多个单词构成的原语言的自然文:
检索单元,其从存储于所述存储单元中的原语言的多个自然文中,检索包含有原语言的原文中的翻译对象语句的自然文;
识别单元,其根据通过所述检索单元的检索提取出的自然文,识别出与所述翻译对象语句在原语言的同一句子中出现的频度高的频繁出现语句;以及
第二对译判断单元,其通过参照通过所述检索单元的检索提取出的自然文之中、分别包含有通过所述识别单元识别出的且存在于所述原文中的特定的频繁出现语句和所述翻译对象语句的自然文的对译文,识别出分别包含有所述翻译对象语句和所述特定的频繁出现语句的自然文的对译文中的对翻译对象语句的高频度的对译,将识别出的高频度的对译判断为所述原文中的所述翻译对象语句的对译。
CNA2004800374589A 2003-12-15 2004-10-15 对译判断装置、方法及程序 Pending CN1894688A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP416778/2003 2003-12-15
JP2003416778 2003-12-15

Publications (1)

Publication Number Publication Date
CN1894688A true CN1894688A (zh) 2007-01-10

Family

ID=34697002

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800374589A Pending CN1894688A (zh) 2003-12-15 2004-10-15 对译判断装置、方法及程序

Country Status (6)

Country Link
US (1) US20070112553A1 (zh)
EP (1) EP1703419A1 (zh)
KR (1) KR20060124632A (zh)
CN (1) CN1894688A (zh)
CA (1) CA2549769A1 (zh)
WO (1) WO2005059771A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424166A (zh) * 2013-08-22 2015-03-18 株式会社理光 文本处理装置和文本显示系统
CN107209759A (zh) * 2015-01-23 2017-09-26 国立研究开发法人情报通信研究机构 注解辅助装置及用于其的计算机程序
CN110546634A (zh) * 2017-04-27 2019-12-06 松下知识产权经营株式会社 翻译装置

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
AU2003269808A1 (en) 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US8566081B2 (en) * 2004-03-25 2013-10-22 Stanley F. Schoenbach Method and system providing interpreting and other services from a remote location
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
WO2006042321A2 (en) 2004-10-12 2006-04-20 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
JP2006252049A (ja) * 2005-03-09 2006-09-21 Fuji Xerox Co Ltd 翻訳システム、翻訳方法およびプログラム
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
JP4671898B2 (ja) * 2006-03-30 2011-04-20 富士通株式会社 音声認識装置、音声認識方法、音声認識プログラム
US8943080B2 (en) * 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7372851B2 (en) * 2006-06-28 2008-05-13 International Business Machines Corporation Method and system for automatic language negotiation on voice (over IP) calls
US8077974B2 (en) 2006-07-28 2011-12-13 Hewlett-Packard Development Company, L.P. Compact stylus-based input technique for indic scripts
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8249855B2 (en) * 2006-08-07 2012-08-21 Microsoft Corporation Identifying parallel bilingual data over a network
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
CN101595474B (zh) * 2007-01-04 2012-07-11 思解私人有限公司 语言分析
US8468149B1 (en) * 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
JP5299011B2 (ja) * 2009-03-25 2013-09-25 セイコーエプソン株式会社 テープ印刷装置、テープ印刷装置の制御方法及びプログラム
SG175265A1 (en) * 2009-05-08 2011-11-28 Werner Jungblut Interpersonal communications device and method
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8855997B2 (en) * 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
JP5915326B2 (ja) * 2012-03-29 2016-05-11 富士通株式会社 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US9734820B2 (en) * 2013-11-14 2017-08-15 Nuance Communications, Inc. System and method for translating real-time speech using segmentation based on conjunction locations
JP2016071439A (ja) * 2014-09-26 2016-05-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 翻訳方法及び翻訳システム
KR101709693B1 (ko) * 2015-07-13 2017-02-27 주식회사 에버트란 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US11049190B2 (en) 2016-07-15 2021-06-29 Intuit Inc. System and method for automatically generating calculations for fields in compliance forms
US10579721B2 (en) 2016-07-15 2020-03-03 Intuit Inc. Lean parsing: a natural language processing system and method for parsing domain-specific languages
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
US10831999B2 (en) * 2019-02-26 2020-11-10 International Business Machines Corporation Translation of ticket for resolution
US11163956B1 (en) 2019-05-23 2021-11-02 Intuit Inc. System and method for recognizing domain specific named entities using domain specific word embeddings
US11783128B2 (en) 2020-02-19 2023-10-10 Intuit Inc. Financial document text conversion to computer readable operations

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE68928231T2 (de) * 1988-10-28 1998-01-08 Toshiba Kawasaki Kk Verfahren und Vorrichtung zur Maschinenübersetzung
JPH04160473A (ja) * 1990-10-24 1992-06-03 Hitachi Ltd 事例再利用型翻訳方法および装置
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US5983169A (en) * 1995-11-13 1999-11-09 Japan Science And Technology Corporation Method for automated translation of conjunctive phrases in natural languages
US6415250B1 (en) * 1997-06-18 2002-07-02 Novell, Inc. System and method for identifying language using morphologically-based techniques
US6192332B1 (en) * 1998-04-06 2001-02-20 Mitsubishi Electric Research Laboratories, Inc. Adaptive electronic phrase book
US6345244B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically aligning translations in a translation-memory system
JP3114703B2 (ja) * 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
JP3879321B2 (ja) * 1998-12-17 2007-02-14 富士ゼロックス株式会社 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体
JP3822990B2 (ja) * 1999-01-07 2006-09-20 株式会社日立製作所 翻訳装置、記録媒体
US6243669B1 (en) * 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6438524B1 (en) * 1999-11-23 2002-08-20 Qualcomm, Incorporated Method and apparatus for a voice controlled foreign language translation device
US6473729B1 (en) * 1999-12-20 2002-10-29 Xerox Corporation Word phrase translation using a phrase index
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
JP4128379B2 (ja) * 2002-03-11 2008-07-30 株式会社国際電気通信基礎技術研究所 翻訳システムの自動選択をコンピュータに実行させるためのプログラム、およびそのプログラムを記録したコンピュータ読取り可能な記録媒体
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations
US7672830B2 (en) * 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424166A (zh) * 2013-08-22 2015-03-18 株式会社理光 文本处理装置和文本显示系统
CN104424166B (zh) * 2013-08-22 2017-05-24 株式会社理光 文本处理装置和文本显示系统
CN107209759A (zh) * 2015-01-23 2017-09-26 国立研究开发法人情报通信研究机构 注解辅助装置及用于其的计算机程序
CN107209759B (zh) * 2015-01-23 2020-09-18 国立研究开发法人情报通信研究机构 注解辅助装置及记录介质
CN110546634A (zh) * 2017-04-27 2019-12-06 松下知识产权经营株式会社 翻译装置

Also Published As

Publication number Publication date
EP1703419A1 (en) 2006-09-20
US20070112553A1 (en) 2007-05-17
WO2005059771A1 (ja) 2005-06-30
KR20060124632A (ko) 2006-12-05
CA2549769A1 (en) 2005-06-30

Similar Documents

Publication Publication Date Title
CN1894688A (zh) 对译判断装置、方法及程序
CN1158627C (zh) 用于字符识别的方法和装置
CN1439979A (zh) 解决方案数据编辑处理及自动概括处理装置和方法
CN1174332C (zh) 转换表达方式的方法和装置
CN101034414A (zh) 信息处理设备和方法以及程序
CN1109994C (zh) 文件处理装置与记录媒体
CN1257470C (zh) 评价网页的装置和方法
CN1672149A (zh) 词联想方法和装置
CN1691007A (zh) 用于文档处理的方法、系统或存储计算机程序的存储器
CN1839401A (zh) 信息处理装置及信息处理方法
CN1625739A (zh) 内容转换方法和装置
CN1281191A (zh) 信息检索方法和信息检索装置
CN1578954A (zh) 机器翻译
CN1841366A (zh) 用于通过执行翻译来支持交流的交流支持设备和方法
CN1924858A (zh) 一种获取新词的方法、装置以及一种输入法系统
CN1975857A (zh) 会话控制装置
CN1841367A (zh) 用于通过在语言之间执行翻译来支持交流的交流支持设备和方法
CN1871597A (zh) 利用一套消歧技术处理文本的系统和方法
CN1669029A (zh) 自文件集合中自动搜寻概念层次结构的方法及系统
CN1728140A (zh) 信息检索系统中基于短语的索引编制
CN101069184A (zh) 信息处理装置和方法、及程序
CN1728143A (zh) 基于短语产生文献说明
CN1608259A (zh) 机器翻译
CN1728142A (zh) 信息检索系统中的短语识别
CN1637740A (zh) 对话控制设备和对话控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: CO., LTD. LVSHIDE

Free format text: FORMER OWNER: CO., LTD. LANGUAGE TECHNOLOGY INSTITUTE

Effective date: 20090821

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090821

Address after: Tokyo, Japan

Applicant after: Rozetta Corp.

Address before: Hyogo

Applicant before: Gengo Gijutsu Kenkyusho KK

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20070110