CN101441623A - 翻译装置及信息处理方法 - Google Patents
翻译装置及信息处理方法 Download PDFInfo
- Publication number
- CN101441623A CN101441623A CNA2008101339525A CN200810133952A CN101441623A CN 101441623 A CN101441623 A CN 101441623A CN A2008101339525 A CNA2008101339525 A CN A2008101339525A CN 200810133952 A CN200810133952 A CN 200810133952A CN 101441623 A CN101441623 A CN 101441623A
- Authority
- CN
- China
- Prior art keywords
- example sentence
- character string
- sentence
- unit
- sentence pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
一种翻译装置,该翻译装置包括:存储器,用于存储形成例句模式的字符串和形成从该例句模式翻译过来的翻译例句模式的字符串,其中基于形成句子的字符串将例句归类在该例句模式下,形成该例句模式的字符串与形成该翻译例句模式的字符串基于字符串的含义而关联;转换单元,用于将该输入句子转换成这样的句子,该句子包括与由例句共享的公共字符串相对应的公共部分和非公共部分;以及翻译单元,用于根据说明了与形成该翻译例句模式的字符串之间的关联的映射来翻译该输入句子,形成该翻译例句模式的该字符串存储在该存储器中并与对应于转换后的句子的非公共字符部分相关联。
Description
技术领域
本发明涉及翻译装置及信息处理方法。
技术领域
为了提高翻译效率,目前已经存在一种搜索与要翻译的原始句子相似的句子的相似句子搜索装置(例如,参见日本未审专利公报No.2005-107597)。
这种相似句子搜索装置的特征在于包括:用于存储例句的存储器、用于接收要翻译的句子的接收单元,以及基于该接收单元接收到的句子与存储在该存储器中的每个句子之间的相似度来输出存储在该存储器中的其中一个例句的输出单元。
相似度用这样的值来表示,该值是通过用存在于要翻译的句子中并出现在存储于该存储器中的每个例句中的单词(word)的数量除以要翻译的句子中的单词的数量而获得的。
目前还存在一种自动翻译装置,该自动翻译装置搜索语义结构与要翻译的原始句子的词素之间的语义结构相似的例句,并基于检测到的例句来翻译原始句子(例如,参见日本未审专利公报No.06-83864)。
这种自动翻译装置的特征在于包括:用于输入要翻译的原始句子的输入单元、用于选择语义结构与该原始句子的词素之间的语义结构相似的例句的选择单元、用于根据所选的例句来翻译该原始句子的翻译单元,以及用于显示该翻译单元执行的翻译结果的显示器。
此外,目前还存在一种利用翻译句子模式来执行翻译操作的翻译装置,该翻译句子模式是根据日语句子和从日语句子翻译过来的句子之间的公共特征而形成的(例如,参见日本未审专利公报No.08-87506)。
这种翻译装置的特征在于包括:模式翻译单元,用于利用包括固定部分和自由部分的翻译句子模式来翻译句子,该固定部分是输入句子的字符串,而该自由部分是该固定部分以外的字符串;以及模式链接单元,用于将该翻译句子模式与具有与该翻译句子模式相同的固定部分的任意句子相关联,即使该句子没有自由部分,从而该模式翻译单元可以利用单个翻译句子模式来翻译一个以上的句子。
因此,本发明的目的是提供一种可以用少量计算来进行准确翻译的翻译装置及信息处理方法。
发明内容
本发明的第一方面提供了一种翻译装置,该翻译装置包括:存储器,用于存储形成例句模式的字符串和形成从该例句模式翻译过来的翻译例句模式的字符串,其中基于形成句子的字符串将例句归类在该例句模式下,形成该例句模式的字符串与形成该翻译例句模式的字符串基于字符串的含义而关联;转换单元,用于利用表示形成要翻译的输入句子的字符串与形成存储在该存储器中的该例句模式的字符串之间的含义差异度的第一指标将该输入句子转换成这样的句子,该句子包括与由归类在该例句模式下的例句共享的公共字符串相对应的公共部分和不是该公共部分的非公共部分;计算单元,用于根据使经该转换单元转换后的句子的非公共部分与该例句模式的公共字符串以外的非公共字符串相关联的规则,并根据表示这些非公共部分与这些非公共字符串之间差异的第一指标,来计算表示该输入句子与该例句模式之间的差异度的第二指标;提取单元,用于根据该计算单元计算出的第二指标来提取该输入句子被归类到的例句模式,并使经该转换单元转换后的句子的非公共部分与该提取单元所提取的例句模式的非公共字符串相关联;以及翻译单元,用于根据使该输入句子的非公共部分与形成该翻译例句模式的字符串相关联的映射来翻译该输入句子,形成该翻译例句模式的该字符串存储在该存储器中并与该提取单元所提取的例句模式的非公共字符串相关联。
根据本发明的第一方面,基于一种映射来翻译输入句子,该映射不仅使翻译例句模式的字符串与例句模式的字符串相关联,而且使该输入句子的非公共部分与该输入句子被归类到的例句模式的非公共字符串相关联。因此,可以用少量的计算来进行准确的翻译。
根据本发明的第二方面,该翻译装置可以被配置成,该计算单元根据以下规则中的一个或更多个来计算第二指标:将该例句模式的一个或更多个公共字符串和非公共字符串映射为经该转换单元转换后的句子的一个或更多个公共部分和非公共部分,并用这些公共部分以一对一无交叉(crisscross)对应方式来替换这些公共字符串的规则;将该例句模式的一个或更多个公共字符串和非公共字符串映射为经该转换单元转换后的句子的一个或更多个公共部分和非公共部分,并用这些非公共部分以一对一无交叉方式来替换这些非公共字符串的规则;将该例句模式的一个或更多个公共字符串和非公共字符串映射为经该转换单元转换后的句子的一个或更多个公共部分和非公共部分,并删除一个或更多个公共字符串和非公共字符串的规则;以及将该例句模式的一个或更多个公共字符串和非公共字符串映射为经该转换单元转换后的句子的一个或更多个公共部分和非公共部分,并插入一个或更多个非公共字符串和非公共部分的规则。
根据本发明的第二方面,根据将该例句模式的该字符串映射为该输入句子的字符串的规则来计算要用于提取该输入句子被归类到的例句模式的第二指标。因此,可以非常准确地将输入句子定量地归类到例句模式。
根据本发明的第三方面,该翻译装置可以被配置成,与该输入句子的字符串是该例句模式的公共字符串的同义词的情况相比,在该输入句子的字符串与该例句模式的公共字符串不相同并且不是该公共字符串的同义词的情况下,第一指标表示更高的差异度。
根据本发明的第三方面,与互为同义词的两个字符串之间的含义的差异度相比,在互不相同并相互不为同义词的两个字符串的含义之间,第一指标表示更高的含义差异度。因此,可以非常准确地表示含义上的差异。
根据本发明的第四方面,该翻译装置还可以包括搜索单元,该搜索单元用于检测包括在该输入句子中使用的单词的例句模式,其中该提取单元从该搜索单元检测到的例句模式中提取该输入句子被归类到的例句模式。
根据本发明的第四方面,将每个输入句子都归类到包括与该输入句子中相同的单词的例句模式下。因此,可以用少量计算来进行准确的翻译。
根据本发明的第五方面,该翻译装置可以被配置成,该提取单元根据公共字符串与非公共字符串在该例句模式中的使用顺序以及公共部分与非公共部分在该输入句子中的使用顺序,使非公共字符串与非公共部分相关联。
根据本发明的第五方面,根据非公共字符串在例句模式中的使用顺序和非公共部分在输入句子中的使用顺序,使非公共字符串与非公共部分相关联。因此,可以非常准确地使非公共字符串与非公共部分相关联。
本发明的第六方面提供了一种使计算机执行用于进行翻译操作的处理的信息处理方法,该处理包括以下步骤:存储形成例句模式的字符串和形成从该例句模式翻译过来的翻译例句模式的字符串,其中基于形成句子的字符串将例句归类在该例句模式下,形成该例句模式的字符串与形成该翻译例句模式的字符串基于字符串的含义而关联;利用表示形成要翻译的输入句子的字符串与形成所存储的例句模式的字符串之间的含义差异度的第一指标将该输入句子转换成这样的句子,该句子包括与由归类在该例句模式下的例句共享的公共字符串相对应的公共部分和不是该公共部分的非公共部分;根据使转换后的句子的非公共部分与该例句模式的公共字符串以外的非公共字符串相关联的规则,并根据表示这些非公共部分与这些非公共字符串之间差异的第一指标,来计算表示该输入句子与该例句模式之间的差异度的第二指标;根据第二指标来提取该输入句子被归类到的例句模式,并使转换后的句子的非公共部分与所提取的例句模式的非公共字符串相关联;以及根据使该输入句子的非公共部分与形成该翻译例句模式的字符串相关联的映射来翻译该输入句子,形成该翻译例句模式的字符串被存储并与所提取的例句模式的非公共字符串被相关联。
根据本发明的第六方面,基于一种映射来翻译输入句子,该映射不仅使翻译例句模式的字符串与例句模式的字符串相关联,而且使该输入句子的非公共部分与该输入句子被归类到的例句模式的非公共字符串相关联。因此,可以用少量的计算来进行准确的翻译。
附图说明
下面将基于以下图来详细描述本发明的示范实施方式,附图中:
图1例示了包括本发明的翻译装置的翻译系统的一个示范实施方式的结构;
图2例示了本发明的翻译装置的示例性结构;
图3例示了用于实现软件控制的翻译装置的硬件的示例性结构;
图4示出了例句模式;
图5例示了存储在存储器中的双语(bilingual)例句模式字典的示例性结构;
图6示出了存储在存储器中的搜索树的例子;
图7是示出搜索单元的示例性结构的功能框图;
图8示出了形成要被转换单元转换的输入句子的字符串,以及转换后的字符串;
图9是示出了转换单元要进行的转换操作的一部分的流程图;
图10是示出了转换单元要进行的转换操作的剩余部分的流程图;
图11是示出了转换单元要进行的用来计算权重的权重计算操作的一部分的流程图;
图12是示出了转换单元要进行的用来计算权重的权重计算操作的剩余部分的流程图;
图13是示出了计算单元要进行的距离计算操作的一部分的流程图;
图14是示出了计算单元要进行的距离计算操作的另一部分的流程图;
图15是示出了计算单元要进行的距离计算操作的再一部分的流程图;
图16是示出了计算单元要进行的距离计算操作的剩余部分的流程图;
图17是示出了提取单元的示例性结构的功能框图;
图18例示了关系鉴别单元要进行的关系鉴别操作的例子;
图19是示出了关系鉴别单元要进行的关系鉴别操作的一部分的流程图;
图20是示出了关系鉴别单元要进行的关系鉴别操作的另一部分的流程图;
图21是示出了关系鉴别单元要进行的关系鉴别操作的再一部分的流程图;
图22是示出了关系鉴别单元要进行的关系鉴别操作的剩余部分的流程图;
图23是示出了关系选择单元要进行的关系选择操作的一部分的流程图;
图24是示出了关系选择单元要进行的关系选择操作的剩余部分的流程图;
图25例示了翻译单元用来进行翻译的映射;而
图26是示出了本发明第二示范实施方式中单词搜索单元要进行的哈希(hashing)操作的流程图。
具体实施方式
以下是参照附图对本发明的示范实施方式的描述。
[第一示范实施方式]
图1例示了包括本发明的翻译装置的翻译系统的示范实施方式的结构。
图1中示出的翻译系统10包括翻译装置1000、显示装置2000以及输入装置3000。
例如,翻译装置1000可以是个人计算机,并且连接到显示装置2000和输入装置3000。
翻译装置1000从输入装置3000获取第一语言的句子,并将该句子翻译成第二语言。然后,翻译装置1000使显示装置2000显示翻译出的句子。
在该示范实施方式中,语言不仅包括诸如汉语、日语以及英语的自然语言,而且包括诸如世界语的人造语言。
在该示范实施方式中,第一语言为日语,第二语言为汉语。然而,本发明并不限于这种语言组合,只要第一语言和第二语言是不同的语言即可。例如,第一语言可以为汉语,而第二语言可以为日语。
现在参照图2来描述翻译装置1000的结构。图2示出了翻译装置1000的示例性结构。
图2中示出的翻译装置1000包括存储器1100、分析单元1200、搜索单元1300、转换单元1400、计算单元1500、提取单元1600以及翻译单元1700。
可以通过翻译装置1000所执行的软件控制来实现分析单元1200、搜索单元1300、转换单元1400、计算单元1500、提取单元1600以及翻译单元1700的功能。
现在参照图3来描述执行软件控制的翻译装置1000的硬件结构。图3示出了执行软件控制的翻译装置1000的示例性硬件结构。
翻译装置1000可以被形成为具有诸如CPU(中央处理单元)的操作单元、诸如EPROM(可擦除可编程只读存储器)或EEPROM(电可擦除可编程只读存储器)的ROM(只读存储器)1002、作为诸如DRAM(动态RAM)或SRAM(静态RAM)的易失性存储器或者作为诸如NVRAM(非易失性RAM)的非易失性存储器的RAM(随机存取存储器)1003,以及诸如硬盘的外部存储器1004。操作单元1001、ROM 1002、RAM 1003以及外部存储器1004通过总线彼此连接。
在软件控制操作中,通过操作单元1001读取作为存储在ROM 1002或外部存储器1004中的程序的应用并根据该应用来执行操作,而实现上述组件的功能。与操作结果有关的数据被写入RAM 1003,更具体来讲,当关闭电源时需要备份的数据被存储在NVRAM中。
返回参照图2,继续对翻译装置1000的结构进行说明。
例如,存储器1100可以被形成为具有RAM 1003或外部存储器1004,并且被连接到搜索单元1300和翻译单元1700。存储器1100存储有基于形成句子的字符串而将例句归类成的例句模式。
现在参照图4来描述例句模式。图4示出了例句模式。例句SE1到SE4被归类在图4所示的例句模式PE下。
例句模式PE被形成为具有固定部分PF和可变部分PV,固定部分PF是例句中的公共单词或从句,可变部分PV是与固定部分PF不同类型的单词或从句,是例句中的公共单词类的单词或从句。在可变部分PV处,用诸如V1和V2的符号来表示公共单词类的单词或从句。
因此,例句模式PE包括被归类在例句模式PE下的例句当中公共的字符串(以下简称为公共字符串),并且用表示这些例句中不公共的字符串(以下简称为非公共字符串)的符号来标记可变部分PV。非公共字符串是例句模式PE中除公共字符串以外的字符串。
从语法上来讲,从句是以从属连词或关系词(relative)开始的句子,并且通过与主语和谓语相组合而形成完整的句子。然而,在该示范实施方式中,从句是通过组合诸如动词、形容词或形容动词的单词和诸如可以补充该单词的助词、助动词或辅助动词的另一个单词而形成的。在该示范实施方式中,可以形成动词从句、形容词从句以及形容动词从句。因此,从句可以归类为动词从句、形容词从句以及形容动词从句这些从句。
更具体来讲,如图4中所示,例句模式PE包括:从句SC1到SC4,它们是“watashi-te-kudasai”;单词PC,它们是动词“watasu”、连接助词“te”以及助动词“kudsaru”。
从句SC1到SC4和包括动词“watasu”与补充动词“watasu”的单词“te”及“kudasaru”的单词PC的从句类是动词从句类。
每个固定部分PF都不仅包括例句当中公共的单词或从句,还包括表示同义词的FIX内容信息、表示主语部分是可变部分还是固定部分的TYPE信息、表示组成主语固定部分的每个单词的类的类信息,以及表示组成主语固定部分的单词所属的词汇系统的名称的信息。
每个可变部分PV都包括表示公共类的变量名信息、表示主语部分是可变部分还是固定部分的TYPE信息,以及表示可变部分所属的词汇系统的名称的信息。
在该示范实施方式中,变量名信息包括表示公共单词类为名词类的名词短语、表示公共单词类为形容词类的形容词短语,以及表示公共单词类为动词类的动词短语。
在该示范实施方式中,每个可变部分PV都是具有例句当中公共的类的单词或从句。然而,本发明并不限于这种安排,可变部分PV可以是表示公共属性的内容的单词或从句。例如,表示公共属性的内容的单词或从句可以是表示时间、数量、地名或人名的单词或从句。
返回参照图2,继续对翻译装置1000的结构的说明。
存储器1100存储有与翻译例句模式相关联的第一语言例句模式,该翻译例句模式是通过将第一语言例句模式翻译成第二语言所形成的例句模式。
存储器1100还存储有作为组成第一语言例句模式的单词、从句以及符号(以下简称为单词等)的字符串。在存储器1100中,基于各个字符串的含义,将这些字符串与作为组成翻译例句模式的单词等的字符串关联起来,该翻译例句模式是从第一语言例句模式翻译过来的。
把例句模式与翻译例句模式关联起来的信息被称为双语例句模式字典。搜索单元1300和翻译单元1700对双语例句模式字典进行查阅。
现在参照图5来描述存储在存储器1100中的双语例句模式字典。图5例示了存储在存储器1100中的双语例句模式字典的示例性结构。
图5中示出的双语例句模式字典1110包括记录1到n。记录1到n中的每一个都存储有第一语言的例句模式A、作为通过将例句模式A翻译成第二语言而形成的例句模式的翻译例句模式B、用于标识成对的例句模式A和翻译例句模式B(以下简称为翻译模式对)的ID,以及表示包括形成例句模式A和B的单词的字符串之间的对应关系的对应关系信息F2。在记录1到n的每一个中,例句模式A与B、ID以及对应关系信息F2都彼此关联。记录1到n中没有两个记录存储了相同的翻译模式对。
仍然参照图5来描述记录1到n的每一个中所存储的对应关系信息F2。这里,例句模式A包括诸如单词的五个字符串a1到a5,而翻译例句模式B包括诸如单词的六个字符串b1到b6。
对应关系信息F2利用字符串出现在例句模式A和翻译例句模式B中的顺序来表示这些字符串之间的对应关系。
更具体来讲,在例句模式A中第n个出现的字符串an具有和翻译例句模式B中第m个出现的字符串bm相同的含义的情况下,对应关系被表达为“(n:m)”。
在例句模式A中第n个出现的字符串an具有和翻译例句模式B中第m个和第m+1个出现的两个字符串相同的含义的情况下,对应关系被表达为“(n:m,m+1)”。
在例句模式A中第n个和第n+1个出现的两个字符串an和an+1具有和翻译例句模式B中第m个出现的字符串bm相同的含义的情况下,对应关系被表达为“(n,n+1:m)”。
同样,在例句模式A中第n个和第n+1个出现的两个字符串an和an+1具有和翻译例句模式B中第m个和第m+1个出现的两个字符串相同的含义的情况下,对应关系被表达为“(n,n+1:m,m+1)”。
在该示范实施方式中,存在这么几种情况:例句模式A中使用的一个字符串具有和翻译例句模式中使用的一个字符串相同的含义、一个字符串具有和两个字符串相同的含义、两个字符串具有和一个字符串相同的含义,以及两个字符串具有和两个字符串相同的含义。然而,本发明并不限于这些情况。
例如,在j(j>=1)个字符串具有和k(k>=1)个字符串相同的含义的情况下,对应关系可以被表达为“(n,n+1,...,n+j:m,m+1,...,m+k)”。
此外,在翻译例句模式B中并未使用具有和第n个出现在例句模式A中的字符串an相同含义的字符串的情况下,对应关系被表达为“(n:0)”。在例句模式A中并未使用具有和第m个出现在翻译例句模式B中的字符串bm相同含义的字符串的情况下,对应关系被表达为“(0:m)”。
现在参照图6来描述对应关系信息F2(A,B)为“(1:1)、(2:3)、(3:4,5)、(5:6)、(4:0)、(0:2)”的示例性情况。对应关系信息F2(A,B)表示了以下对应关系:在例句模式A中第一个出现的字符串a1具有和在翻译例句模式B中第一个出现的字符串b1相同的含义;在例句模式A中第二个出现的字符串a2具有和在翻译例句模式B中第三个出现的字符串b3相同的含义;在例句模式A中第三个出现的字符串a3具有和在翻译例句模式B中第四个及第五个出现的字符串b4及b5相同的含义;在例句模式A中第五个出现的字符串a5具有和在翻译例句模式B中第六个出现的字符串b6相同的含义;翻译例句模式B中并未出现具有和例句模式A中第四个出现的字符串a4相同含义的字符串;以及例句模式A中并未出现具有和翻译例句模式B中第二个出现的字符串b2相同含义的字符串。
存储器1100还存储有用于基于形成例句模式的单词来搜索例句模式的树(以下简称为搜索树)。搜索树具有使组成例句模式的单词与用于标识该例句模式的标识信息关联起来的特里(TRIE)结构。
在语言信息处理领域中,具有特里结构的树被称为通过组合具有公共搜索关键字的字符串而形成的树结构。如上所述,搜索单元1300对搜索树进行查阅。
现在参照图6来描述存储在存储器1100中的搜索树。图6示出了存储在存储器1100中的搜索树的例子。
图6中示出的搜索树1120包括各表示一个字符的多个节点N,和将这些节点带有方向性地彼此连接起来的链路L。
搜索树1120是通过三个搜索关键字“ai”、“aisai”和“aisatsu”而获得的树。
更具体来讲,搜索关键字“ai”、“aisai”和“aisatsu”当中公共的字符串“ai”是通过组合表示字符“a”的节点N00、表示字符“i”的节点N01以及将节点N00连接到节点N01的链路L01而表示的。
同样,搜索关键字“aisai”和“aisatsu”之间公共的字符串“aisa”是通过组合表示字符“a”的节点N00、表示字符“i”的节点N01、表示字符“sa”的节点N11、将节点N00连接到节点N01的链路L01以及将节点N01连接到节点N11的链路L11而表示的。
节点N00被称为根。因此,每个搜索关键字都是通过从根节点N00开始经过链路L所表示的路线(route)来排列节点N所代表的字符,直到到达具有稍后描述的单词标志的节点N而形成的字符串。
例如,在搜索关键字“aisai”的情况下,该搜索关键字是通过从根N00开始经过链路L01、L11和L12所表示的路线来排列节点N00、N01、N11和N12所代表的字符,直到到达具有单词标志的节点N12而形成的字符串。
在搜索树1120中,位于主语节点N上一等级并具有延伸到该主语节点N的链路L的节点N是相对于主语节点N的父节点。位于主语节点N下一等级并具有延伸到其的链路L的节点N是相对于主语节点N的子节点。位于和主语节点N相同等级并具有延伸到其的链路L的节点N是右侧兄弟节点。
例如,在节点N11的情况下,对于节点N11来讲,节点N01是父节点,节点N21是子节点,而节点N12是右侧兄弟节点。
接下来描述存储在存储器1100中并表示搜索树1120的信息。
表示搜索树1120的信息包括表示搜索树1120的节点N的信息。表示节点N的信息包括:作为用于标识节点N的信息的节点ID;表示节点N所代表的字符的字符信息;表示搜索关键字的最后一个字符的单词标志;表示节点N的子节点的节点ID的子节点ID;表示节点N的父节点的节点ID的父节点ID;表示节点N的右侧兄弟节点的节点ID的右侧兄弟节点ID;以及记录ID。表示节点N的信息中的记录ID是用于标识作为索引矩阵中的元素的记录的信息。
存储器1100还存储有索引矩阵1130。如稍后所述,搜索单元1300对索引矩阵1130进行查阅。
在索引矩阵1130中的每个记录内,用于标识包括相同单词(相同搜索关键字)的例句模式的信息(翻译模式对的ID)与其中存储了用于标识包括该相同单词的例句模式的其他信息的记录的ID相关联。这样就形成了列表(list)结构。
因此,表示节点N的信息中的记录ID是与存储了用于标识例句模式的信息的记录有关的标识信息,该例句模式包括由从根N00开始到节点N的节点所代表的字符形成的搜索关键字。
更具体来讲,如图6中所示,表示节点N12的信息IN12中的记录ID是与存储了用于标识例句模式的信息的记录2有关的标识信息,该例句模式包括由从根N00开始到节点N12的节点所代表的字符形成的搜索关键字“aisatsu”。
作为具体实施例,在作为索引矩阵1130的元素的记录2中,用于标识包括相同单词“aisatsu”的例句模式的翻译模式对ID与存储了用于标识包括相同单词“aisatsu”的例句模式的其他信息的记录7的记录ID相关联。在记录7中,用于标识包括单词“aisatsu”的例句模式的翻译模式对ID与存储了用于标识包括相同单词“aisatsu”的例句模式的其他信息的记录12的记录ID相关联。这样就形成了列表结构。
在该示范实施方式中,每个节点N都代表搜索关键字中的一个字符。然而,本发明并不限于此,在用一个字节来代表搜索关键字中的一个字符的情况下,可以采用这样的结构,即每个节点N都表示搜索关键字中的字符是高字节字符还是低字节字符。
存储器1100还存储有其中第一语言的单词基于单词的含义与第二语言的单词相关联的词典,和其中第一语言的从句或句子基于从句或句子的含义与第二语言的从句或句子相关联的双语例句词典。如稍后所述,翻译单元1700对该词典和该双语例句词典进行查阅。
返回参照图2,继续对翻译装置1000的结构的说明。
分析单元1200连接到搜索单元1300和输入装置3000。分析单元1200执行稍后描述的分析操作,来对从输入装置3000输入的作为要翻译的句子的输入句子进行形态(morphologic)分析。这样,分析单元1200就获得了输入句子中的语素(morpheme)。
现在来描述分析单元1200要进行的分析操作的例子。
首先,分析单元1200从输入装置3000获取第一语言的输入句子。然后,分析单元1200对输入句子进行形态分析,并获得语素。
分析单元1200将作为动词、形容词和形容动词的语素和补充该动词、形容词和形容动词的助词、助动词以及辅助动词结合在一起。这样就形成了一个从句。
分析单元1200将用所获得的语素形成的单词和从句输出给搜索单元1300。然后,分析单元1200结束该分析操作。
因为该示范实施方式中要由分析单元1200来分析的每个句子都以日语作为第一语言,所以在分析单元1200要进行的形态分析中可以使用奈良先端科学技术大学院大学的“Chasen”。
在第一语言为汉语的情况下,可以在形态分析中使用清华大学的Seg& Pos工具和东北大学(中国)的CiPosSDK。
搜索单元1300连接到存储器1100、分析单元1200以及转换单元1400。搜索单元1300执行稍后描述的搜索操作,以搜索用输入句子中所包括的单词形成的例句模式。
现在参照图7来描述搜索单元1300的结构。图7是示出搜索单元1300的示例性结构的功能框图。
图7中示出的搜索单元1300包括单词搜索单元1310和例句模式搜索单元1320。
单词搜索单元1310连接到存储器1100、分析单元1200以及例句模式搜索单元1320。单词搜索单元1310执行稍后描述的单词搜索操作,以获得用于标识作为索引矩阵的元素的记录的记录ID。由单词搜索单元1310检测到的记录ID所标识的记录存储有用于标识用输入句子中所包括的单词形成的例句模式的标识信息。
现在来描述单词搜索单元1310要进行的单词搜索操作的例子。
首先,单词搜索单元1310从分析单元1200获取包括在输入句子中的单词和从句。单词搜索单元1310从所获取的单词和从句中提取包括在输入句子中的单词。
之后,单词搜索单元1310在存储于存储器1100中的搜索树中搜索与所提取的单词相匹配的搜索关键字。然后,单词搜索单元1310标识代表检测到的搜索关键字中的最后一个字符的节点。
单词搜索单元1310获得表示所标识的节点的信息,还从索引矩阵1130获得记录ID。单词搜索单元1310将获得的记录ID输出到例句模式搜索单元1320。
单词搜索单元1310还将从分析单元1200获得的单词和句子输出到例句模式搜索单元1320。之后,单词搜索单元1310结束单词搜索操作。
例句模式搜索单元1320连接到存储器1100、单词搜索单元1310以及转换单元1400。例句模式搜索单元1320执行稍后描述的例句模式搜索操作,以搜索包括输入句子中所包括的单词的例句模式。
现在来描述例句模式搜索单元1320要进行的例句模式搜索操作的例子。
首先,例句模式搜索单元1320从单词搜索单元1310获得记录ID。例句模式搜索单元1320还获得输入句子的单词和从句。
然后,例句模式搜索单元1320基于该记录ID来搜索作为存储在存储器1100中的索引矩阵的元素的记录。
之后,例句模式搜索单元1320获得用于标识存储在检测到的记录中的例句模式的标识信息(翻译例句模式对的ID),和用于标识另一记录的记录ID。然后,例句模式搜索单元1320基于所获得的标识信息来搜索成对的例句模式和翻译例句模式以及对应关系信息F2。
之后,例句模式搜索单元1320确定检测到的记录是否存储了用于标识另一记录的记录ID。如果检测到的记录存储了用于标识另一记录的ID,则例句模式搜索单元1320对于该另一记录ID重复上述操作。如果检测到的记录未存储用于标识另一记录的ID,则例句模式搜索单元1320将检测到的例句模式、翻译例句模式以及对应关系信息F2输出到转换单元1400。
例句模式搜索单元1320还输出所获取的输入句子以及该输入句子的单词和从句。然后,例句模式搜索单元1320结束例句模式搜索操作。
返回参照图2,继续对翻译装置1000的结构的说明。
转换单元1400连接到搜索单元1300和计算单元1500。转换单元1400执行稍后描述的转换操作,以将输入句子转换成由公共部分和该公共部分以外的非公共部分形成的句子,该公共部分对应于被归类在主语例句模式下的例句当中公共的公共字符串。利用形成输入句子的字符串与形成存储在存储器中的例句的字符串之间的含义差异度的第一指标来执行该转换操作。之后,转换单元1400将转换后的输入句子输出到计算单元1500。
现在参照图8来描述由形成要经转换单元1400转换的输入句子的单词和从句形成的字符串和形成转换后的输入句子的字符串。图8示出了形成要由转换单元1400转换的输入句子的字符串和转换后的字符串。
图8例示了由要经转换单元1400转换的字符串s1到s9形成的输入句子S,和由转换后的字符串s’1到s’5形成的转换后的输入句子S’,以及由与形成输入句子S的单词相同的单词形成的例句模式A。
转换后的输入句子S’包括:通过基于例句模式A执行转换操作的转换单元1400的转换对输入句子S的单词s1和s2进行组合而形成的单词s’1、通过对单词s4到s7进行组合而形成的单词s’3、未经过组合操作的单词s’2与s’4,以及从句s’5。单词s’2与s’4以及从句s’5分别与单词s3、s8以及从句s9相同。
基于由例句模式A的固定部分a2、a4以及a5组成的组中所包括的单词s3,转换单元1400对单词s1和s2进行组合,并基于单词s8对单词s4到s7进行组合。
在此转换操作中,转换单元1400将输入句子S转换成由公共部分和非公共部分形成的句子,公共部分是与形成固定部分的公共字符串a2、a4以及a5相对应的字符串s’2、s’4以及s’5,而非公共部分是公共部分以外的字符串s’1和s’3。
现在参照图9和10来描述转换单元1400要进行的转换操作。图9和10是示出转换单元1400要进行的转换操作的例子的流程图。
首先,转换单元1400从搜索单元1300获得例句模式A和诸如形成例句模式A的单词的字符串(步骤ST0001)。例句模式A是由字符串a1到an形成的,且字符串ai是例句模式A中第i个出现的字符串。
然后,转换单元1400从搜索单元1300获得输入句子S和作为形成输入句子S的单词和从句的字符串(步骤ST0002)。输入句子S是由字符串s1到sm形成的,且字符串sj是输入句子S中第j个出现的字符串。
尽管在流程图中未示出,但是转换单元1400还从搜索单元1300获得翻译例句模式和与例句模式A相关联的对应关系信息F2。
之后,转换单元1400向计数器i输入合适的任意值,使得字符串ai成为可变部分(步骤ST0003)。
然后,转换单元1400通过将值“1”赋予计数器j来初始化计数器j(步骤ST0004),该计数器j表示了形成输入句子S的字符串在句子中的使用顺序。
之后,转换单元1400确定计数器j是否小于等于值m(步骤ST0005)。如果计数器j小于等于值m,则转换单元1400进行步骤ST0006的过程。如果计数器j大于值m,则转换单元1400结束转换操作。
如果在步骤ST0005中确定为计数器j小于等于值m,则转换单元1400清空临时缓冲器(步骤ST0006)。
然后,转换单元1400确定在例句模式A中第i个出现的字符串ai和在输入句子S中第j个出现的字符串sj的第一指标(后文中,第一指标将被简称为权重)是否为“0”,以及变量j是否小于等于值“m”(步骤ST0007)。
这里,权重是表示作为要翻译的主体而输入的输入句子S的字符串sj与存储在存储器1100中的例句模式A的字符串ai之间的含义差异度的指标。稍后将描述如何计算权重。
如果字符串ai和字符串sj的权重(后文中也称为w(ai,sj))被确定为是“0”,并且变量j被确定为小于等于值“m”,则转换单元1400进行步骤ST0008的过程。如果权重被确定为不是“0”,并且变量j被确定为不小于等于值“m”,则转换单元1400进行步骤ST0010的过程。
如果在步骤ST0007中字符串ai和字符串sj的权重被确定为是“0”,并且变量j被确定为小于等于值“m”,则转换单元1400将作为单词或从句的字符串sj添加到存储在临时缓冲器中的字符串中(步骤ST0008)。
然后,转换单元1400使变量j递增“1”(步骤ST0009)。之后,转换单元1400返回步骤ST0007重复上述过程。
如果在步骤ST0007中字符串ai和字符串sj的权重被确定为不是“0”,并且变量j被确定为大于值“m”,则转换单元1400确定临时缓冲器是否为空(步骤ST0010)。如果临时缓冲器为空,则转换单元1400进行步骤ST0011的过程。如果临时缓冲器不为空,则转换单元1400进行步骤ST0013的过程。
如果在步骤ST0010中转换单元1400确定出临时缓冲器为空,则转换单元1400将字符串sj输出为作为公共部分或非公共部分的字符串(步骤ST0011)。然后,转换单元1400使变量j递增“1”(步骤ST0012)。之后,转换单元1400返回步骤ST0005,并重复上述过程。
如果在步骤ST0010中转换单元1400确定出临时缓冲器不为空,则转换单元1400将存储在临时缓冲器中的字符串输出为作为公共部分或非公共部分的字符串(步骤ST0013)。然后,转换单元1400返回步骤ST0005,并重复上述过程。
尽管在流程图中未示出,但是转换单元1400将转换后的输入句子、例句模式A、翻译例句模式以及对应关系信息F2输出到计算单元1500。
现在参照表1来描述计算的实例,该计算被执行用来确定例句模式A中使用的字符串ai和输入句子S中使用的字符串sj的权重。表1示出了要计算的权重值以及计算这些值的条件的例子。
[表1]
如表1中所示,在例句模式A的字符串ai是可变部分、字符串sj是单词或从句,并且字符串sj未包含在将例句模式A的固定部分包含为它的元素的组中的情况下,转换单元1400确定权重值为“0”。
在字符串ai是可变部分、字符串sj是单词或从句,并且字符串sj包含在将例句模式A的固定部分包含为它的元素的组中的情况下,转换单元1400确定权重值为“p”。这里,值“p”是正的常数。尽管在该示范实施方式中值“p”为“1.5”,但是并不限于此值。
在字符串ai是固定部分、字符串sj是单词或从句,并且字符串ai和sj彼此相同的情况下,转换单元1400确定权重值为“0”。
在字符串ai是固定部分、字符串sj是单词或从句,并且字符串sj是固定部分的同义词的情况下,转换单元1400确定权重值为“0”。
在该示范实施方式中,转换单元1400基于参照图4描述的形成固定部分PF的FIX内容来确定单词sj是否为该固定部分的同义词。然而,本发明并不限于这种安排。例如,存储器1100可以存储具有与单词的同义词相关联的单词的同义词典。转换单元1400可以查阅存储在存储器1100中的该词典,以确定单词sj是否为固定部分的同义词。
此外,在字符串ai是固定部分、字符串sj是单词或从句、字符串ai和sj彼此不相等,并且字符串sj不是固定部分的同义词的情况下,转换单元1400确定权重值为值“p”。
现在参照表2和图11与12来描述计算动词从句ai和从句sj的权重的方法的另一实例。表2示出了要计算的权重值的其他实例,和用于计算这些权重值的条件的其他实例。图11是示出转换单元1400要进行的用于计算权重的权重计算操作的一部分的流程图。图12是示出转换单元1400要进行的用于计算权重的权重计算操作的剩余部分的流程图。
[表2]
如表2中所示,在例句模式的字符串ai是固定部分、字符串sj是动词从句,并且字符串ai和sj彼此相等的情况下,转换单元1400确定权重值为“0”。
在例句模式的字符串ai是固定部分、字符串sj是动词从句,并且形成字符串ai的所有词素单词都等于形成字符串sj的所有词素单词的情况下,转换单元1400确定权重值为“0”。这里,如果形成从句的词素单词或词素中存在单词“masu”,则消除单词“masu”,然后进行权重计算。
下面描述转换单元1400要进行的用于计算表2中示出的权重的操作。
首先,转换单元1400获得固定部分的词素单词串ai(步骤ST0101)。固定部分的词素单词串ai是由词素单词u1到uk形成的,并且词素单词uh是在词素单词串ai中第h个出现的词素单词。
然后,转换单元1400获得动词从句的词素单词串sj(步骤ST0102)。动词从句的词素单词串sj是由词素单词v1到vl形成的,并且词素单词vh是在词素词串sj中第h个出现的词素单词。
之后,转换单元1400确定固定部分ai中的词素单词数k与动词从句sj中的词素单词数l是否相等(步骤ST0103)。如果转换单元1400确定出数k和数l彼此相等,则转换单元1400进行步骤ST0104的过程。如果数k和数l不相等,则转换单元1400进行步骤ST0109的过程。
如果在步骤ST0103中转换单元1400确定出数k和数l相等,则转换单元1400通过将值“1”赋予计数器h来初始化计数器h,该计数器h表示词素单词在词素单词串中的使用顺序(步骤ST0104)。
然后,转换单元1400确定计数器变量h的值是否小于等于固定部分ai中的词素单词数k(步骤ST0105)。如果转换单元1400确定出变量h小于等于数k,则转换单元1400进行步骤ST0106的过程。如果转换单元1400确定出变量h大于数k,则转换单元1400进行步骤ST0110的过程。
如果在步骤ST0105中转换单元1400确定出变量h的值小于等于数k,则转换单元1400确定在从句ai中第h个出现的词素单词uh是否等于在从句sj中第h个出现的词素单词vh(步骤ST0106)。如果转换单元1400确定出词素单词uh与词素单词vh相同,则转换单元1400进行步骤ST0108的过程。如果转换单元1400确定出词素单词uh与词素单词vh不相同,则转换单元1400进行步骤ST0107的过程。
如果在步骤ST0106中转换单元1400确定出词素单词uh与词素单词vh不相同,则转换单元1400确定词素单词uh是否为词素单词vh的同义词(步骤ST0107)。如果转换单元1400确定出词素单词uh是词素单词vh的同义词,则转换单元1400进行步骤ST0108的过程。如果转换单元1400确定出词素单词uh不是词素单词vh的同义词,则转换单元1400进行步骤ST0109的过程。
如果在步骤ST0106中转换单元1400确定出词素单词uh与词素单词vh相同,或者如果在步骤ST0107中转换单元1400确定出词素单词uh是词素单词vh的同义词,则转换单元1400使循环变量h递增“1”(步骤ST0108)。之后,转换单元1400返回步骤ST0105,并重复上述过程。
如果在步骤ST0103中转换单元1400确定出数k和数l不相等,或者如果在步骤ST0107中转换单元1400确定出词素单词uh不是词素单词vh的同义词,则转换单元1400确定出从句ai和从句sj的权重为“p”(步骤ST0109)。这里,p是正的常数。之后,转换单元1400结束转换操作。
如果在步骤ST0105中转换单元1400确定出变量h的值大于数k,则转换单元1400确定出从句ai和sj的权重为“0”(步骤ST0110)。之后,转换单元1400结束转换操作。
返回参照图2,继续对翻译装置1000的结构的说明。
计算单元1500连接到转换单元1400和提取单元1600。计算单元1500执行稍后描述的计算操作,以基于借以将转换单元1400转换过的句子的非公共部分与例句模式A的非公共字符串关联起来的规则和表示非公共部分与非公共字符串之间的差异度的第一指标(或权重)来计算第二指标(后文中简称为距离),该第二指标表示了输入句子S与例句模式A之间的差异度。
计算单元1500要进行的计算操作是根据以下规则中的一个或更多个来计算第二指标:适用于将该例句模式的一个或更多个公共字符串和非公共字符串映射为经转换单元1400转换后的句子的一个或更多个公共部分和非公共部分,并用这些公共部分以一对一无交叉对应方式来替换这些公共字符串的情况的规则;适用于将该例句模式的一个或更多个公共字符串和非公共字符串映射为经转换单元1400转换后的句子的一个或更多个公共部分和非公共部分,并用这些非公共部分以一对一无交叉方式来替换这些非公共字符串的情况的规则;适用于将该例句模式的一个或更多个公共字符串和非公共字符串映射为经转换单元1400转换后的句子的一个或更多个公共部分和非公共部分,并删除一个或更多个公共字符串和非公共字符串的情况的规则;以及适用于将该例句模式的一个或更多个公共字符串和非公共字符串映射为经转换单元1400转换后的句子的一个或更多个公共部分和非公共部分,并插入一个或更多个公共部分和非公共部分的情况的规则。
现在参照图13到16来描述计算单元1500要进行的距离计算操作。图13是示出计算单元1500要进行的距离计算操作的例子的一部分的流程图。图14到16是示出计算单元1500要进行的距离计算操作的例子的剩余部分的流程图。
首先,计算单元1500从转换单元1400获得例句模式A(步骤ST0201)。例句模式A是由作为单词等的字符串a1到an形成的。
然后,计算单元1500从转换单元1400获得转换后的输入句子S’(步骤ST0202)。转换后的输入句子S’是由作为转换后的单词或从句的字符串s’1到s’m’形成的。
之后,计算单元1500通过将值“0”赋予变量d(0,0)来初始化变量d(0,0)(步骤ST0203)。
尽管在流程图中未示出,但是计算单元1500还从转换单元1400获得翻译例句模式和与例句模式A相关联的对应关系信息F2。
这里,变量d(i,j)是表示字符串a1a2...ai和字符串s’1s’2...s’j之间的差异度的第二指标(或距离),前者是通过按照在例句模式A中出现的顺序来排列例句模式A的字符串a1到ai而形成的,后者是通过按照在输入句子S’中出现的顺序来排列输入句子S’的转换后的单词或从句s’1到s’j而形成的。
具体来讲,变量d(0,0)是表示没有字符串(空字符串)的输入句子和没有诸如单词的字符串的例句模式之间的差异度的第二指标。
然后,计算单元1500通过将值“1”赋予变量i来初始化变量i(步骤ST0204),变量i表示字符串在例句模式A中的出现顺序。之后,计算单元1500确定变量i是否小于等于形成例句模式的字符串数“n”(步骤ST0205)。如果计算单元1500确定出变量i小于等于“n”,则计算单元1500进行步骤ST0206的过程。如果计算单元1500确定出变量i大于“n”,则计算单元1500进行步骤ST0209的过程。
如果在步骤ST0205中计算单元1500确定出变量i小于等于“n”,则计算单元1500将d(i,0)的值设置为“d(i-1,0)+r”(步骤ST0206)。
然后,计算单元1500将变量PathFlag(i,0)的值设置为“(1,0,0)”(步骤ST0207)。之后,计算单元1500使变量i递增1(步骤ST0208)。之后,计算单元1500返回步骤ST0205,并重复上述过程。
现在来说明变量PathFlag(i,0)与距离d(i,j)之间的关系。
例句模式A的a1a2...ai和转换后的输入句子S’的s’1s’2...s’j之间的距离d(i,j)是基于将形成例句模式a1a2...ai的字符串a1到ai与形成转换后的输入句子S’s’1s’2...s’j的字符串s’1到s’j关联起来的映射而确定的。
定义了距离d(i,j)的映射可以是通过对使例句模式a1a2...ai的字符串a1到ai-1与转换后的输入句子s’1s’2...s’j的字符串s’1到s’j以一对一无交叉对应方式关联起来的映射和定义了在例句模式A的字符串ai未映射到输入句子S’的字符串的情况下从例句模式A删除字符串ai的规则的映射进行组合而形成的映射。
定义了距离d(i,j)的映射还可以是通过对使字符串a1到ai与字符串s’1到s’j-1以一对一无交叉对应方式关联起来的映射和定义了在例句模式A的字符串ai未映射到输入句子S’的字符串的情况下插入输入句子S’的字符串sj的规则的映射进行组合而形成的映射。
定义了距离d(i,j)的映射还可以是通过对使字符串a1到ai与字符串s’1到s’j-1以一对一无交叉对应方式关联起来的映射和定义了用输入句子S’的字符串sj来替换例句模式A的字符串ai的规则的映射进行组合而形成的映射。
因此,在删除字符串ai的映射所定义的距离为r的情况下,距离d(i,j)被计算为“d(i,j)=d(i-1,j)+r”。在此计算中,距离d(i,j)是利用删除字符串ai的映射,在表示计算距离d(i,j)的方法的标志变量PathFlag(i,j)的值为“(1,0,0)”的情况下计算出的。
并且,在插入字符串s’j的映射所定义的距离为q的情况下,距离d(i,j)被计算为“d(i,j)=d(i,j-1)+q”。在此计算中,距离d(i,j)是利用插入字符串s’j的映射,在标志变量PathFlag(i,j)的值为“(0,1,0)”的情况下计算出的。
此外,在通过用字符串s’j以一对一无交叉对应方式来替换字符串ai的映射而定义的距离被设置为w(ai,s’j)的情况下,距离d(i,j)被计算为“d(i,j)=d(i-1,j-1)+w(ai,s’j)”。在此计算中,距离d(i,j)是利用用字符串s’j来替换字符串ai的映射,在标志变量PathFlag(i,j)的值为“(0,0,1)”的情况下计算出的。
距离w(ai,s’j)是反映字符串ai和s’j所定义的值的函数,并且是参照图9描述的第一指标。
在该示范实施方式中,是以“q=r=1,p=1.5”进行说明的。然而,这些值并不限于此,可以使用通过实验和逻辑推理而确定的其他合适值。
返回参照图13,继续对计算单元1500要进行的距离计算操作的例子的说明。
如果在步骤ST0205中计算单元1500确定出变量i大于“n”,则计算单元1500通过将值“1”赋予变量j来初始化变量j(步骤ST0209),变量j表示转换后的字符串在输入句子S’中的出现顺序。
然后,计算单元1500确定变量j是否小于等于形成输入句子S’的转换后的字符串数“m’”(步骤ST0210)。如果计算单元1500确定出变量j小于等于“m’”,则计算单元1500进行步骤ST0211的过程。如果计算单元1500确定出变量j不小于等于“m’”,则计算单元1500进行步骤ST0214的过程。
如果在步骤ST0210中计算单元1500确定出变量j小于等于“m’”,则计算单元1500将d(0,j)的值设置为“d(0,j-1)+q”(步骤ST0211)。
然后,计算单元1500将变量PathFlag(0,j)的值设置为“(0,1,0)”(步骤ST0212)。之后,计算单元1500使变量j递增1(步骤ST0213)。然后,计算单元1500返回步骤ST0210,并重复上述过程。
如果在步骤ST0210中计算单元1500确定出变量j大于“m’”,则计算单元1500将值“1”赋予变量i(步骤ST0214)。然后,计算单元1500确定变量i是否小于等于“n”(步骤ST0215)。如果计算单元1500确定出变量i小于等于“n”,则计算单元1500进行步骤ST0216的过程。如果计算单元1500确定出变量i不小于等于“n”,则计算单元1500进行步骤ST0228的过程。
如果在步骤ST0215中计算单元1500确定出变量i小于等于“n”,则计算单元1500将值“1”赋予变量j(步骤ST0216)。然后,计算单元1500确定变量j是否小于等于“m’”(步骤ST0217)。如果计算单元1500确定出变量j小于等于“m’”,则计算单元1500进行步骤ST0218的过程。如果计算单元1500确定出变量j不小于等于“m’”,则计算单元1500进行步骤ST0227的过程。
如果在步骤ST0217中计算单元1500确定出变量j小于等于“m’”,则计算单元1500将d(i,j)的值设置为“d(i-1,j-1)+w(ai,s’j)”(步骤ST0218)。然后,计算单元1500将变量PathFlag(i,j)的值设置为“(0,0,1)”(步骤ST0219)。
之后,计算单元1500确定基于插入字符串s’i的映射而计算出的距离d(i,j-1)+q是否小于步骤ST0218中基于用单词或从句s’j来替换单词或从句ai的映射而计算出的距离d(i,j)(步骤ST0220)。如果计算单元1500确定出距离d(i,j-1)+q小于距离d(i,j),则计算单元1500进行步骤ST0221的过程。如果计算单元1500确定出距离d(i,j-1)+q不小于距离d(i,j),则计算单元1500进行步骤ST0223的过程。
如果在步骤ST0220中计算单元1500确定出距离d(i,j-1)+q小于距离d(i,j),则计算单元1500将距离d(i,j)设置为“d(i,j-1)+q”(步骤ST0221)。
然后,计算单元1500将变量PathFlag(i,j)设置为通过在PathFlag(i,j)的各个当前坐标值与值“(0,1,0)”的坐标值之间进行“或”操作而获得的值(步骤ST0222)。
如果在步骤ST0220中计算单元1500确定出距离d(i,j-1)+q大于等于距离d(i,j),或者在进行了步骤ST0222的过程之后,计算单元1500确定基于删除字符串ai的映射而计算出的距离d(i-1,j)+r是否小于在步骤ST0218或ST0221中计算出的距离d(i,j)(步骤ST0223)。如果计算单元1500确定出距离d(i-1,j)+r小于距离d(i,j),则计算单元1500进行步骤ST0224的过程。如果计算单元1500确定出距离d(i-1,j)+r不小于距离d(i,j),则计算单元1500进行步骤ST0226的过程。
如果在步骤ST0223中计算单元1500确定出距离d(i-1,j)+r小于距离d(i,j),则计算单元1500将距离d(i,j)设置为“d(i-1,j)+r”(步骤ST0224)。
然后,计算单元1500将变量PathFlag(i,j)设置为通过在PathFlag(i,j)的各个当前坐标值与值“(1,0,0)”的坐标值之间进行“或”操作而获得的值(步骤ST0225)。
如果在步骤ST0223中计算单元1500确定出距离d(i-1,j)+r大于等于距离d(i,j),或者在进行了步骤ST0225的过程之后,计算单元1500使变量j递增1(步骤ST0226)。之后,计算单元1500返回步骤ST0217,并重复上述过程。
如果在步骤ST0217中计算单元1500确定出变量j大于“m’”,则计算单元1500使变量i递增1(步骤ST0227)。之后,计算单元1500返回步骤ST0215,并重复上述过程。
如果在步骤ST0215中计算单元1500确定出变量i大于“n”,则计算单元1500将例句A与输入句子S’之间的距离设置为值为d(n,m’)的Distance(A,S’)(步骤ST0228)。
尽管在流程图中未示出,但是计算单元1500将计算出的例句模式A与输入句子S’之间的距离(A,S’)、其他距离d(i,j)(1<=i<=n,1<=j<=m’)、例句模式A、翻译例句模式、对应关系信息F2以及输入句子S’输出到提取单元1600。之后,计算单元1500结束指标计算操作。
现在参照表3来描述计算单元1500计算出的第二指标。表3示出了计算单元1500计算出的第二指标的例子。
[表3]
表3中的列表示空字符串和形成转换后的输入句子S’的字符串。表3中的行表示空字符串和形成例句模式A的字符串。
表3中的每个元素都表示了通过一种映射而定义的距离,该映射使空字符串或由存储元素的列表示的字符串以及空字符串或由示出该元素的列的左侧的(多个)列表示的(多个)字符串,与空字符串或由存储元素的行表示的字符串以及空字符串或由示出元素的列上方的(多个)行表示的(多个)字符串相关联。表3中的每个元素还表示PathFlag。
更具体来讲,第三行第二列上的元素“1(0,0,1)”表示通过映射而定义的距离的值为“1”,该映射使第二列上的字符串“FX no Tanaka-san”和由第二列的左边的列表示的空字符串,与第三行所表示的符号“V1”和空字符串以及由第三行上方的行表示的字符串“kanarazu”相关联。第三行第二列上的元素“1(0,0,1)”还表示PathFlag(2,1)的值为“(0,0,1)”。
因此,表3中第七行第五列上的元素表示,转换后的输入句子S’与例句模式A之间的距离被计算单元1500计算为“4”。
返回参照图2,继续对翻译装置1000的结构的说明。
提取单元1600连接到计算单元1500和翻译单元1700。提取单元1600提取基于计算单元1500计算出的第二指标要将输入句子归类到的例句模式。提取单元1600还使经转换单元1400转换后的句子的非公共部分与所提取的例句模式的非公共字符串相关联。
现在参照图17来描述提取单元1600的结构。图17是例示了提取单元1600的示例性结构的功能框图。
提取单元1600包括实际提取单元1610、关系鉴别单元1620以及关系选择单元1630。
实际提取单元1610连接到计算单元1500和关系鉴别单元1620。实际提取单元1610执行稍后描述的实际提取操作,以从搜索单元1300检测到的例句模式中提取一种模式。
现在描述实际提取单元1610要进行的实际提取操作的例子。
首先,实际提取单元1610获得计算单元1500计算出的第二指标(距离)。然后,实际提取单元1610从计算单元1500获得搜索单元1300检测到的例句模式A。
之后,实际提取单元1610提取输入句子与例句模式之间的距离(计算单元1500计算出的第二指标)最小的例句模式。然后,实际提取单元1610将作为对输入句子进行归类的模式而提取的例句模式输出到关系鉴别单元1620。
实际提取单元1610还从计算单元1500获得计算与所选例句模式的距离时产生的PathFlag变量、转换后的输入句子S’、与所提取的例句模式A相关联的翻译例句模式以及对应关系信息F2。然后,实际提取单元1610将获得的输入句子S’、PathFlag变量、翻译例句模式以及对应关系信息F2输出到关系鉴别单元1620。之后,实际提取单元1610结束实际提取操作。
关系鉴别单元1620连接到实际提取单元1610和关系选择单元1630。关系鉴别单元1620执行稍后描述的关系鉴别操作,以鉴别输入句子S’的转换后的字符串与输入句子S归类到的例句模式A的字符串之间的对应关系。
现在参照图18来简要描述关系鉴别单元1620要进行的关系鉴别操作。图18例示了关系鉴别单元1620要进行的关系鉴别操作的例子。
首先,关系鉴别单元1620获得第七行第五列上的表示输入句子S’与例句模式A之间的距离的元素,以及PathFlag变量的值。因为变量PathFlag(6,4)的值为“(0,0,1)”,所以关系鉴别单元1620确定第七行第五列上的元素所表示的距离是通过一种映射而定义的,该映射是通过组合以下映射而形成的:使输入句子S’的第二到第四列所表示的字符串与例句模式A的第二到第六行所表示的字符串相关联的映射;和定义了用输入句子S’的第五列所表示的字符串来替换例句模式A的第七行所表示的字符串的规则的映射。
因此,关系鉴别单元1620确定出第七行所表示的字符串a6与第五列所表示的字符串s4之间的对应关系为替换关系,并将值“(6:4)”添加到对应关系信息F1中。
然后,关系鉴别单元1620获得第六行第四列上表示PathFlag(5,3)的元素。
之后,因为PathFlag(5,3)的值为“(0,1,0)”,所以关系鉴别单元1620确定出第六行第四列上的元素所表示的距离是通过一种映射而定义的,该映射是通过组合以下映射而形成的:使输入句子S’的第二和第三列所表示的字符串与例句模式A的第二到第五行所表示的字符串相关联的映射;和定义了将输入句子S’的第四行所表示的字符串插入到例句模式A中的规则的映射。
因此,关系鉴别单元1620确定出要将第四列所表示的字符串s3插入到例句模式A中,并将值“(0:3)”添加到对应关系信息F1中。
通过重复上述过程,关系鉴别单元1620鉴别出输入句子S’的字符串与例句模式A的字符串之间的对应关系。
现在作为特例来描述关系鉴别单元1620要对第五行第二列上的元素进行的操作。
因为PathFlag(4,1)的值为“(1,0,1)”,所以关系鉴别单元1620确定出第五行第二列上的元素所表示的距离是通过一种映射而定义的,该映射是通过组合以下映射而形成的:使输入句子S’的第一列所表示的空字符串与例句模式A的第二到第四行所表示的字符串相关联的映射;和定义了用输入句子S’的第二列所表示的字符串来替换例句模式A的第五行所表示的字符串的规则的映射,或定义了删除例句模式A的第五行所表示的字符串的规则的映射。
因此,如果关系鉴别单元1620确定出第五行所表示的字符串a4与第二列所表示的字符串s1之间的对应关系为替换关系,则关系鉴别单元1620添加值“(4:1)”,从而生成对应关系信息F11。如果关系鉴别单元1620确定出要从例句模式A中删除第五行所表示的字符串a4,则关系鉴别单元1620添加值“(4:0)”,从而生成对应关系信息F12。
例如,可以将由一条或更多条对应关系信息F1形成的集合称为对应关系集SF。属于对应关系集SF的对应关系信息F11和F12的特性和对应关系信息F2的特性相同,因此,这里省略对它们的说明。
现在参照图19到22来描述关系鉴别单元1620要进行的关系鉴别操作。图19是示出关系鉴别单元1620要进行的关系鉴别操作的例子的一部分的流程图。图20到22是示出关系鉴别单元1620要进行的关系鉴别操作的例子的剩余部分的流程图。
首先,关系鉴别单元1620通过将对应关系集SF变为空集来初始化对应关系集SF(步骤ST0301)。
然后,关系鉴别单元1620通过将值“0”赋予计数器变量h来初始化计数器变量h(步骤ST0302)。之后,关系鉴别单元1620确定计数器变量h是否为值“-100”(步骤ST0303)。如果计数器变量h为值“-100”,则关系鉴别单元1620结束关系鉴别操作。如果计数器变量h不为值“-100”,则关系鉴别单元1620进行步骤ST0304的过程。
如果在步骤ST0304中关系鉴别单元1620确定出计数器变量h不为值“-100”,则关系鉴别单元1620通过将例句模式A的字符串数“n”赋予表示例句模式A的字符串在句子中的使用顺序的计数器变量i来初始化计数器变量i,还通过将输入句子S’的字符串数“m’”赋予表示输入句子S’的字符串在句子中的使用顺序的计数器变量j来初始化计数器变量j(步骤ST0304)。
然后,关系鉴别单元1620将变量h设置为形成例句模式A的字符串数n或者形成输入句子S’的字符串数m’中更大的那个(步骤ST0305)。
之后,关系鉴别单元1620确定变量h是否大于等于值“1”(步骤ST0306)。如果关系鉴别单元1620确定出变量h大于等于值“1”,则关系鉴别单元1620进行步骤ST0307的过程。如果关系鉴别单元1620确定出变量h不大于等于值“1”,则关系鉴别单元1620进行步骤ST0321的过程。
如果在步骤ST0306中关系鉴别单元1620确定出变量h大于等于值“1”,则关系鉴别单元1620确定PathFlag(i,j)的z坐标值应该大于等于值“1”、应该大于等于x坐标值并且应该大于等于y坐标值的条件(后文中简称为“第一条件”)是否得到了满足(步骤ST0307)。如果关系鉴别单元1620确定出第一条件得到了满足,则关系鉴别单元1620进行步骤ST0308的过程。如果关系鉴别单元1620确定出第一条件未得到满足,则关系鉴别单元1620进行步骤ST0311的过程。
如果在步骤ST0307中关系鉴别单元1620确定出第一条件得到了满足,则关系鉴别单元1620将值“(i-1,j-1)”赋予作为二维矩阵的变量Path(i,j)(步骤ST0308)。Path变量是表示字符串之间的对应关系的二维矩阵。
然后,关系鉴别单元1620使变量PathFlag(i,j)的z坐标递增1(步骤ST0309)。之后,关系鉴别单元1620使变量i和j递减1(步骤ST0310)。然后,关系鉴别单元1620进行步骤ST0320的过程。
如果在步骤ST0307中关系鉴别单元1620确定出第一条件未得到满足,则关系鉴别单元1620确定y坐标值应该大于等于值“1”、应该大于等于x坐标值并且应该大于等于z坐标值的条件(后文中简称为“第二条件”)是否得到了满足(步骤ST0311)。如果关系鉴别单元1620确定出第二条件得到了满足,则关系鉴别单元1620进行步骤ST0312的过程。如果关系鉴别单元1620确定出第二条件未得到满足,则关系鉴别单元1620进行步骤ST0315的过程。
如果在步骤ST0311中关系鉴别单元1620确定出第二条件得到了满足,则关系鉴别单元1620将值“(i,j-1)”赋予作为二维矩阵的变量Path(i,j)(步骤ST0312)。用x-y坐标来表示Path(i,j)的值。
然后,关系鉴别单元1620使变量PathFlag(i,j)的y坐标递增1(步骤ST0313)。之后,关系鉴别单元1620使变量j递减1(步骤ST0314)。然后,关系鉴别单元1620进行步骤ST0320的过程。
如果在步骤ST0311中关系鉴别单元1620确定出第二条件未得到满足,则关系鉴别单元1620确定x坐标值应该大于等于值“1”、应该大于等于y坐标值并且应该大于等于z坐标值的条件(后文中简称为“第三条件”)是否得到了满足(步骤ST0315)。如果关系鉴别单元1620确定出第三条件得到了满足,则关系鉴别单元1620进行步骤ST0316的过程。如果关系鉴别单元1620确定出第三条件未得到满足,则关系鉴别单元1620进行步骤ST0319的过程。
如果在步骤ST0315中关系鉴别单元1620确定出第三条件得到了满足,则关系鉴别单元1620将值“(i-1,j)”赋予作为二维矩阵的变量Path(i,j)(步骤ST0316)。
然后,关系鉴别单元1620使变量Path(i,j)的x坐标递增1(步骤ST0317)。之后,关系鉴别单元1620使变量i递减1(步骤ST0318)。然后,关系鉴别单元1620进行步骤ST0320的过程。
如果在步骤ST0315中关系鉴别单元1620确定出第三条件未得到满足,则关系鉴别单元1620将变量h的值设置为“-100”(步骤ST0319)。之后,关系鉴别单元1620进行步骤ST0320的过程。
进行了步骤ST0310、步骤ST0314、步骤ST0318或步骤ST0319之后,关系鉴别单元1620使变量h递减1(步骤ST0320)。之后,关系鉴别单元1620返回步骤ST0306,并重复上述过程。
如果在步骤ST0306中关系鉴别单元1620确定出变量h小于值“1”,则关系鉴别单元1620对存储着对应关系信息的变量F1进行初始化(步骤ST0321)。然后,关系鉴别单元1620通过将值“0”赋予计数器变量h来初始化计数器变量h(步骤ST0322)。
然后,关系鉴别单元1620通过将例句模式A的字符串数“n”赋予表示例句模式A的字符串在句子中的使用顺序的计数器变量i来初始化计数器变量i,还通过将输入句子S’的字符串数“m’”赋予表示输入句子S’的字符串在句子中的使用顺序的计数器变量j来初始化计数器变量j(步骤ST0323)。
然后,关系鉴别单元1620将变量h设置为形成例句模式A的字符串数n或者形成输入句子S’的单词和从句数m’中更大的那一个(步骤ST0324)。
之后,关系鉴别单元1620确定变量h是否大于等于值“1”(步骤ST0325)。如果关系鉴别单元1620确定出变量h大于等于值“1”,则关系鉴别单元1620进行步骤ST0326的过程。如果关系鉴别单元1620确定出变量h不大于等于值“1”,则关系鉴别单元1620进行步骤ST0334的过程。
如果在步骤ST0325中关系鉴别单元1620确定出变量h大于等于值“1”,则关系鉴别单元1620确定变量Path(i,j)的值是否为“(i-1,j-1)”(步骤ST0326)。如果关系鉴别单元1620确定出变量Path(i,j)的值为“(i-1,j-1)”,则关系鉴别单元1620进行步骤ST0327的过程。如果关系鉴别单元1620确定出变量Path(i,j)的值不为“(i-1,j-1)”,则关系鉴别单元1620进行步骤ST0328的过程。
如果在步骤ST0326中关系鉴别单元1620确定出变量Path(i,j)的值为“(i-1,j-1)”,则关系鉴别单元1620将“(i:j)”添加到对应关系信息F1的左侧(后文中,对应关系信息F1将被简单表示为“F1=(i:j)U F1”)(步骤ST0327)。之后,关系鉴别单元1620进行步骤ST0332的过程。
如果在步骤ST0326中关系鉴别单元1620确定出变量Path(i,j)的值不为“(i-1,j-1)”,则关系鉴别单元1620确定变量Path(i,j)的值是否为“(i,j-1)”(步骤ST0328)。如果关系鉴别单元1620确定出变量Path(i,j)的值为“(i,j-1)”,则关系鉴别单元1620进行步骤ST0329的过程。如果关系鉴别单元1620确定出变量Path(i,j)的值不为“(i,j-1)”,则关系鉴别单元1620进行步骤ST0330的过程。
如果在步骤ST0328中关系鉴别单元1620确定出变量Path(i,j)的值为“(i,j-1)”,则关系鉴别单元1620将“(0:j)”添加到对应关系信息F1的左侧(后文中,对应关系信息F1将被简单表示为“F1=(0:j)U F1”)(步骤ST0329)。之后,关系鉴别单元1620进行步骤ST0332的过程。
如果在步骤ST0328中关系鉴别单元1620确定出变量Path(i,j)的值不为“(i,j-1)”,则关系鉴别单元1620确定变量Path(i,j)的值是否为“(i-1,j)”(步骤ST0330)。如果关系鉴别单元1620确定出变量Path(i,j)的值为“(i-1,j)”,则关系鉴别单元1620进行步骤ST0331的过程。如果关系鉴别单元1620确定出变量Path(i,j)的值不为“(i-1,j)”,则关系鉴别单元1620进行步骤ST0332的过程。
如果在步骤ST0330中关系鉴别单元1620确定出变量Path(i,j)的值为“(i-1,j)”,则关系鉴别单元1620将“(i:0)”添加到对应关系信息F1中(后文中,对应关系信息F1将被简单表示为“F1=(i:0)U F1”)(步骤ST0331)。之后,关系鉴别单元1620进行步骤ST0332的过程。
如果在步骤ST0330中关系鉴别单元1620确定出变量Path(i,j)的值不为“(i-1,j)”或者进行了步骤ST0327、步骤ST0329或步骤ST0331之后,关系鉴别单元1620将变量i的值设置为变量Path的x坐标值,并将变量j的值设置为变量Path的y坐标值(步骤ST0332)。
然后,关系鉴别单元1620使变量h递减1(步骤ST0333)。之后,关系鉴别单元1620返回步骤ST0325,并重复上述过程。
如果在步骤ST0325中关系鉴别单元1620确定出变量h的值小于值“1”,则关系鉴别单元1620确定变量F1携带的对应关系信息是否属于变量SF所表示的对应关系集(步骤ST0334)。如果关系鉴别单元1620确定出变量F1携带的对应关系信息属于变量SF所表示的对应关系集,则关系鉴别单元1620进行步骤ST0336的过程。如果关系鉴别单元1620确定出变量F1携带的对应关系信息不属于变量SF所表示的对应关系集,则关系鉴别单元1620进行步骤ST0335的过程。
如果在步骤ST0334中关系鉴别单元1620确定出变量F1携带的对应关系信息不属于变量SF所表示的对应关系集,则关系鉴别单元1620将变量F1携带的对应关系信息作为元素添加到变量SF所表示的对应关系集中(步骤ST0335)。之后,关系鉴别单元1620返回步骤ST0303,并重复上述过程。
如果在步骤ST0334中关系鉴别单元1620确定出变量F1携带的对应关系信息属于变量SF所表示的对应关系集,则关系鉴别单元1620将变量h的值设置为值“-100”(步骤ST0336)。之后,关系鉴别单元1620返回步骤ST0303,并重复上述过程。
尽管在流程图中未示出,但是关系鉴别单元1620将包括多条作为表示所鉴别的对应关系的元素的对应关系信息的对应关系集SF输出到关系选择单元1630。
关系鉴别单元1620还将转换后的输入句子S’、所提取的例句模式A、翻译例句模式以及对应关系信息F2输出到关系选择单元1630。
返回参照图17,继续对提取单元1600的结构的说明。
关系选择单元1630连接到关系鉴别单元1620和翻译单元1700。关系选择单元1630执行稍后描述的关系选择操作,以基于非公共字符串在由公共字符串和非公共字符串组成的例句模式A中的使用顺序和非公共部分在由公共部分和非公共部分组成的输入句子中的使用顺序,从关系鉴别单元1620所鉴别的多个对应关系中选择一种将非公共字符串与非公共部分关联起来的对应关系。
再次参照图18来简要描述关系选择单元1630要进行的关系选择操作的例子。
在例句模式A由彼此相邻的固定部分(或公共字符串)和可变部分(或非公共字符串)形成的情况下,关系选择单元1630从对应关系集(或对应关系信息F11和F12)的元素中选择使彼此相邻的公共部分和非公共部分与固定部分和可变部分相关联的对应关系信息F1。
在该示范实施方式中,关系选择单元1630进行关系选择操作,以从对应关系集SF的元素中选择一条对应关系信息F1。然而,本发明并不限于此。例如,可以预先确定规则中的优先级,使得进行替换的规则位于进行删除的规则之前。根据具有这种优先级的规则,可以选择对应关系信息F1。
在该示范实施方式中,例句模式A是由彼此相邻的固定部分和可变部分形成的。然而,本发明并不限于这种安排。例如,在例句模式包括彼此间隔预定数量的字符、单词或从句而形成的固定部分和可变部分的情况下,可以通过和上面相同的操作来选择对应关系信息。
在进行关系鉴别操作的关系鉴别单元1620鉴别的对应关系信息F1所表示的对应关系(n:m)中,基于字符串在例句模式A中的使用顺序,至少以升序存储这些字符串。
现在参照图23和24来描述关系选择单元1630要进行的关系选择操作。图23是示出关系选择单元1630要进行的关系选择操作的例子的一部分的流程图。图24是示出关系选择单元1630要进行的关系选择操作的例子的剩余部分的流程图。
尽管在流程图中未示出,但是首先,关系选择单元1630要从关系鉴别单元1620获得对应关系集SF。关系选择单元1630还从关系鉴别单元1620获得转换后的输入句子、例句模式、翻译例句模式以及对应关系信息F2。
然后,关系选择单元1630确定所获得的集合SF中是否存在未经过步骤ST0402到ST0411中的任何处理的对应关系信息F1(后文中简称为未处理对应关系信息)(步骤ST0401)。如果关系选择单元1630确定出集合SF中存在未处理对应关系信息,则关系选择单元1630进行步骤ST0402的过程。如果关系选择单元1630确定出集合SF中不存在未处理对应关系信息,则关系选择单元1630进行步骤ST0412的过程。
如果在步骤ST0401中关系选择单元1630确定出集合SF中存在未处理对应关系信息,则关系选择单元1630将未处理对应关系信息F1设置为处理信息FT(步骤ST0402)。
然后,关系选择单元1630通过将值“0”设置为要分配给处理信息FT的分数(score)来进行初始化(步骤ST0403)。
之后,关系选择单元1630确定处理信息FT中是否存在未经过步骤ST0405到ST0411中的处理的对应关系(i,j)(后文中简称为未处理对应关系)(步骤ST0404)。如果关系选择单元1630确定出处理信息FT中存在一个或更多个未处理对应关系(i,j),则关系选择单元1630进行步骤ST0405的过程。如果关系选择单元1630确定出处理信息FT中不存在未处理对应关系(i,j),则关系选择单元1630返回步骤ST0401,并重复上述过程。这里,参考字符“i”表示相关字符串在转换后的输入句子S’中的使用顺序。参考字符“j”表示相关字符串在例句模式A中的使用顺序。
如果在步骤ST0404中关系选择单元1630确定出处理信息FT中存在未处理对应关系(i,j),则关系选择单元1630将最右侧的一个未处理对应关系设置为处理对应关系(i1,j1)(步骤ST0405)。这里,参考字符“i1”表示处理对应关系中所指明的相关字符串在转换后的输入句子S’中的使用顺序。参考字符“j1”表示处理对应关系中所指明的相关字符串在例句模式A中的使用顺序。
然后,关系选择单元1630确定参考字符“j1”所表示的并在例句模式A中的字符串aj1是否为固定部分(步骤ST0406)。如果关系选择单元1630确定出字符串aj1为固定部分,则关系选择单元1630进行步骤ST0407的过程。如果关系选择单元1630确定字符串aj1不为固定部分,则关系选择单元1630返回步骤ST0404,并重复上述过程。
如果在步骤ST0406中关系选择单元1630确定出字符串aj1为固定部分,则关系选择单元1630确定是否存在未处理对应关系(i,j)(步骤ST0407)。如果关系选择单元1630确定出存在未处理对应关系(i,j),则关系选择单元1630进行步骤ST0408的过程。如果关系选择单元1630确定出不存在未处理对应关系(i,j),则关系选择单元1630返回步骤ST0401,并重复上述过程。
如果在步骤ST0407中关系选择单元1630确定出存在未处理对应关系(i,j),则关系选择单元1630将最右侧的一个未处理对应关系设置为处理对应关系(i2,j2)(步骤ST0408)。参考字符“i2”和“j2”与参考字符“i1”和“j1”相同,所以这里省略对它们的说明。
然后,关系选择单元1630确定参考字符“j2”所表示的并且在例句模式A中的字符串aj2是否为可变部分(步骤ST0409)。如果关系选择单元1630确定出字符串aj2为可变部分,则关系选择单元1630进行步骤ST0410的过程。如果关系选择单元1630确定出字符串aj2不为可变部分,则关系选择单元1630返回步骤ST0404,并重复上述过程。
如果在步骤ST0409中关系选择单元1630确定出字符串aj2为可变部分,则关系选择单元1630确定“i2”的值应该是将“i1”的值加“1”所获得的值、“j2”的值应该是将“j1”的值加“1”所获得的值的条件(后文中简称为“第四条件”)是否得到满足(步骤ST0410)。
更具体来讲,在例句模式A中第“j1”个出现的字符串aj1等同于在输入句子S’中第“i1”个出现的字符串s’i1,并且在例句模式A中第“j2”个出现的字符串aj2等同于在输入句子S’中第“i2”个出现的字符串s’i2的情况下,关系选择单元1630确定在例句模式A中第“j1”个出现的字符串是否位于第“j2”个出现的字符串的紧邻右侧,在输入句子S’中第“i1”个出现的字符串是否位于第“i2”个出现的字符串的紧邻右侧。
如果关系选择单元1630确定出第四条件得到了满足,则关系选择单元1630进行步骤ST0411的过程。如果关系选择单元1630确定出第四条件未得到满足,则关系选择单元1630返回步骤ST0404,并重复上述过程。
如果在步骤ST0410中关系选择单元1630确定出第四条件得到了满足,则关系选择单元1630使分配给处理信息FT的分数递增“1”(步骤ST0411)。之后,关系选择单元1630返回步骤ST0404,并重复上述过程。
如果在步骤ST0401中关系选择单元1630确定出不存在未处理对应关系信息F1,则关系选择单元1630选择被分配了最大分数的对应关系信息F1(步骤ST0412)。
尽管在流程图中未示出,但是之后,关系选择单元1630将所选对应关系信息F1输出到翻译单元1700。关系选择单元1630还将转换后的输入句子、所提取的例句模式、翻译例句模式以及对应关系信息F2输出到翻译单元1700。然后,关系选择单元1630结束关系选择操作。
返回参照图2,继续对翻译装置1000的结构的说明。
翻译单元1700连接到存储器1100、提取单元1600以及显示装置2000。翻译单元1700执行稍后描述的翻译操作,以根据一种映射来翻译输入句子,该映射使包括输入句子的非公共部分在内的字符串与翻译例句模式的字符串相关联,该翻译例句模式存储在存储器1100中并且与包括提取单元1600所提取的例句模式的非公共字符串在内的字符串相关联。
现在参照图25来描述翻译单元1700进行的翻译操作中要使用的映射。图25例示了翻译单元1700进行的翻译操作中要使用的映射。
如图25中所示,翻译单元1700进行的翻译操作中要使用的映射F(S,B)是一种通过组合映射F1(S,A)和映射F2(A,B)而形成的复合映射,映射F1(S,A)定义了形成从输入句子S转换来的句子S’的字符串与形成输入句子S被归类到的例句模式A的字符串之间的对应关系,映射F2(A,B)定义了形成例句模式A的字符串与形成从例句模式A翻译过来的翻译例句模式B的字符串之间的对应关系。映射F1(S,A)和映射F2(A,B)分别定义了对应关系信息F1和F2所表示的对应关系。
现在来描述翻译单元1700要进行的翻译操作的例子。
首先,翻译单元1700从提取单元1600获得转换后的输入句子S’和提取单元1600针对例句模式A而提取的对应关系信息F1。翻译单元1700鉴别获得的信息所表示的映射F1(S,A)。
然后,翻译单元1700获得存储在存储器1100中的例句模式A和针对翻译例句模式B的对应关系信息F2,或者从提取单元1600获得信息F2。翻译单元1700鉴别获得的信息所表示的映射F2(A,B)。
翻译单元1700还从存储器1100或提取单元1600获得与例句模式A相关联的翻译例句模式。
之后,翻译单元1700对映射F1(S,A)和映射F2(A,B)进行组合,并利用复合映射F(S,B)和翻译例句模式来翻译输入句子S。然后,翻译单元1700控制显示装置2000来显示翻译后的句子。之后,翻译单元1700结束翻译操作。
翻译单元1700利用存储在存储器1100中的词典或例句词典,对形成输入句子S’的与例句模式A和翻译例句模式B的可变部分相对应的转换后的字符串进行翻译。
返回参照图1,继续对翻译系统10的结构的说明。
显示装置2000例如可以是CRT(阴极射线管)、液晶显示器或等离子显示器,并且连接到翻译装置1000。
在翻译装置1000的控制下,显示装置2000显示第一语言的输入句子。然后,显示装置2000显示经翻译装置1000翻译的句子。
输入装置3000例如可以是键盘、定点装置(或鼠标)或触摸板,并且连接到翻译装置1000。翻译装置1000的用户对输入装置3000进行操作以输入第一语言的句子。
在该示范实施方式中,存储器1100等同于权利要求书中的存储器、搜索单元1300等同于权利要求书中的搜索单元、转换单元1400等同于权利要求书中的转换单元、计算单元1500等同于权利要求书中的计算单元、提取单元1600等同于权利要求书中的归类单元,而翻译单元1700等同于权利要求书中的翻译单元。
下面来描述本发明的第二示范实施方式。
[第二示范实施方式]
在第二示范实施方式中,翻译装置的单词搜索单元利用哈希函数来搜索例句模式。该单词搜索单元与第一实施方式的利用具有特里结构的树来进行搜索的单词搜索单元不同。
第二示范实施方式的翻译系统的翻译装置、显示装置以及输入装置的连接、结构以及功能与第一示范实施方式的翻译装置1000、显示装置2000以及输入装置3000的连接、结构以及功能相同。因此,下面将仅描述两种示范实施方式之间的差异。为了便于说明,在第一和第二示范实施方式中对相同的组件和部件使用了相同的标号。
现在来描述第二示范实施方式中的单词搜索单元1310要进行的单词搜索操作的例子。
首先,单词搜索单元1310从分析单元1200获得形成输入句子的词素。然后,单词搜索单元1310从获得的词素中提取形成输入句子的单词。
之后,基于所提取的单词,单词搜索单元1310进行哈希操作以计算出哈希值。然后,单词搜索单元1310获得索引矩阵1130的记录ID,索引矩阵1130与计算出的哈希值相关联并存储在存储器1100中。
存储器1100存储单词搜索单元1310计算出的哈希值并将其与用于标识记录的记录ID相关联,该记录是存储有与包括借以计算哈希值的单词在内的例句模式有关的标识信息的索引矩阵的元素。
然后,单词搜索单元1310将获得的记录ID输出到例句模式搜索单元1320。单词搜索单元1310还将从分析单元1200获得的单词和从句输出到例句模式搜索单元1320。之后,单词搜索单元1310结束单词搜索操作。
现在参照图26来描述第二示范实施方式中的单词搜索单元1310要进行的哈希操作。图26是示出第二示范实施方式中的单词搜索单元1310要进行的哈希操作的例子的流程图。
首先,单词搜索单元1310对存储有哈希值的变量H进行初始化(步骤ST0501)。然后,单词搜索单元1310获得要计算哈希值的单词W(步骤ST0502)。这里,单词W由字符w1到wL形成。
之后,单词搜索单元1310通过将值“1”赋予计数器变量i来初始化计数器变量i(步骤ST0503)。然后,单词搜索单元1310确定计数器变量i的值是否小于等于字符数L(步骤ST0504)。如果单词搜索单元1310确定出计数器变量i的值小于等于字符数L,则单词搜索单元1310进行步骤ST0505的过程。如果单词搜索单元1310确定出计数器变量i的值不小于等于字符数L,则单词搜索单元1310结束哈希操作。
如果在步骤ST0504中单词搜索单元1310确定出计数器变量i的值小于等于字符数L,则单词搜索单元1310将根据表达式“H|(wi<<(I&0 x 0F))”而获得的值赋予变量H(步骤ST0505)。这里,符号“&”、“<<”以及“|”表示“与”运算符、左移运算符以及“或”操作符。
然后,单词搜索单元1310将根据表达式“H=H%L”而获得的值赋予变量H(步骤ST0506)。这里,符号“%”表示取模运算符。之后,单词搜索单元1310返回步骤ST0504,并重复上述过程。
翻译装置1000是通过操作单元1001运行存储在ROM 1002、RAM1003以及外部存储器1004中的至少一个中的程序而实现的。该程序还可以存储在诸如磁盘、光盘或半导体存储器的一些其他类型的记录介质中,并且例如可以通过网络而发布。
上述示范实施方式仅为本发明的示范实施方式的例子。然而,本发明并不限于此,可以在不偏离本发明的范围的情况下做出各种改变和修改。
尽管在上述示范实施方式中,外部存储器装置为硬盘,但是本发明并不限于这种安排。例如,外部存储器装置可以是软盘、CD ROM(致密盘只读存储器)、DVD-ROM(数字通用盘只读存储器)、DVD-RAM(数字通用盘随机存取存储器)、MO(磁光(盘))或闪存。
应该注意,本发明并不限于这些示范实施方式,而是可以在不偏离本发明的范围的情况下对它们做出各种修改。
Claims (6)
1、一种翻译装置,该翻译装置包括:
存储器,用于存储形成例句模式的字符串和形成从该例句模式翻译过来的翻译例句模式的字符串,其中基于形成句子的字符串将例句归类在该例句模式下,形成该例句模式的字符串与形成该翻译例句模式的字符串基于字符串的含义而关联;
转换单元,用于利用表示形成要翻译的输入句子的字符串与形成存储在该存储器中的该例句模式的字符串之间的含义差异度的第一指标将该输入句子转换成这样的句子,该句子包括与由归类在该例句模式下的例句共享的公共字符串相对应的公共部分和不是这些公共部分的非公共部分;
计算单元,用于根据使经该转换单元转换后的句子的非公共部分与该例句模式的公共字符串以外的非公共字符串相关联的规则,并根据表示这些非公共部分与这些非公共字符串之间差异的第一指标,来计算表示该输入句子与该例句模式之间的差异度的第二指标;
提取单元,用于根据该计算单元计算出的第二指标来提取该输入句子被归类到的例句模式,并使经该转换单元转换后的句子的非公共部分与该提取单元所提取的例句模式的非公共字符串相关联;以及
翻译单元,用于根据使该输入句子的非公共部分与形成该翻译例句模式的字符串相关联的映射来翻译该输入句子,形成该翻译例句模式的该字符串存储在该存储器中并与该提取单元所提取的例句模式的非公共字符串相关联。
2、根据权利要求1所述的翻译装置,其中该计算单元根据以下规则中的一个或更多个来计算第二指标:将该例句模式的一个或更多个公共字符串和非公共字符串映射为经该转换单元转换后的句子的一个或更多个公共部分和非公共部分,并用这些公共部分以一对一无交叉对应方式来替换这些公共字符串的规则;将该例句模式的一个或更多个公共字符串和非公共字符串映射为经该转换单元转换后的句子的一个或更多个公共部分和非公共部分,并用这些非公共部分以一对一无交叉方式来替换这些非公共字符串的规则;将该例句模式的一个或更多个公共字符串和非公共字符串映射为经该转换单元转换后的句子的一个或更多个公共部分和非公共部分,并删除一个或更多个公共字符串和非公共字符串的规则;以及将该例句模式的一个或更多个公共字符串和非公共字符串映射为经该转换单元转换后的句子的一个或更多个公共部分和非公共部分,并插入一个或更多个非公共字符串和非公共部分的规则。
3、根据权利要求1或2所述的翻译装置,其中与该输入句子的字符串是该例句模式的公共字符串的同义词的情况相比,在该输入句子的字符串与该例句模式的公共字符串不相同并且不是该公共字符串的同义词的情况下,第一指标表示更高的差异度。
4、根据权利要求1或2所述的翻译装置,该翻译装置还包括
搜索单元,用于检测包括在该输入句子中使用的单词的例句模式,
其中该提取单元从该搜索单元检测到的例句模式中提取该输入句子被归类到的例句模式。
5、根据权利要求1或2所述的翻译装置,其中该提取单元根据这些公共字符串与这些非公共字符串在该例句模式中的使用顺序以及这些公共部分与这些非公共部分在该输入句子中的使用顺序,使这些非公共字符串与这些非公共部分相关联。
6、一种使计算机执行用于进行翻译操作的处理的信息处理方法,该处理包括以下步骤:
存储形成例句模式的字符串和形成从该例句模式翻译过来的翻译例句模式的字符串,其中基于形成句子的字符串将例句归类在该例句模式下,形成该例句模式的字符串与形成该翻译例句模式的字符串基于字符串的含义而关联;
利用表示形成要翻译的输入句子的字符串与形成所存储的例句模式的字符串之间的含义差异度的第一指标将该输入句子转换成这样的句子,该句子包括与由归类在该例句模式下的例句共享的公共字符串相对应的公共部分和不是这些公共部分的非公共部分;
根据使转换后的句子的非公共部分与该例句模式的公共字符串以外的非公共字符串相关联的规则,并根据表示这些非公共部分与这些非公共字符串之间差异的第一指标,来计算表示该输入句子与该例句模式之间的差异度的第二指标;
根据第二指标来提取该输入句子被归类到的例句模式,并使转换后的句子的非公共部分与所提取的例句模式的非公共字符串相关联;以及
根据使该输入句子的非公共部分与形成该翻译例句模式的字符串相关联的映射来翻译该输入句子,形成该翻译例句模式的字符串被存储并与所提取的例句模式的非公共字符串相关联。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007-301051 | 2007-11-20 | ||
JP2007301051 | 2007-11-20 | ||
JP2007301051A JP5239307B2 (ja) | 2007-11-20 | 2007-11-20 | 翻訳装置及び翻訳プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101441623A true CN101441623A (zh) | 2009-05-27 |
CN101441623B CN101441623B (zh) | 2013-08-07 |
Family
ID=40642859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101339525A Active CN101441623B (zh) | 2007-11-20 | 2008-07-18 | 翻译装置及信息处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8311799B2 (zh) |
JP (1) | JP5239307B2 (zh) |
CN (1) | CN101441623B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011047608A1 (zh) * | 2009-10-20 | 2011-04-28 | 北京东方爱译科技有限责任公司 | 模式化双语句对形成方法及其形成装置 |
CN102625935A (zh) * | 2009-08-21 | 2012-08-01 | 夏普株式会社 | 信息处理装置、显示控制方法以及程序 |
CN102693322A (zh) * | 2012-06-01 | 2012-09-26 | 杭州海康威视数字技术股份有限公司 | 支持多国语言的网页处理方法、网页加载方法及其系统 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8260602B1 (en) * | 2006-11-02 | 2012-09-04 | The Math Works, Inc. | Timer analysis and identification |
JP5391867B2 (ja) * | 2009-06-26 | 2014-01-15 | 富士ゼロックス株式会社 | 翻訳装置及び翻訳プログラム |
JP5525529B2 (ja) * | 2009-08-04 | 2014-06-18 | 株式会社東芝 | 機械翻訳装置および翻訳プログラム |
CN101739395A (zh) * | 2009-12-31 | 2010-06-16 | 程光远 | 机器翻译方法和系统 |
EP2534585A4 (en) * | 2010-02-12 | 2018-01-24 | Google LLC | Compound splitting |
KR101356417B1 (ko) * | 2010-11-05 | 2014-01-28 | 고려대학교 산학협력단 | 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법 |
JP5747508B2 (ja) * | 2011-01-05 | 2015-07-15 | 富士ゼロックス株式会社 | 対訳情報検索装置、翻訳装置及びプログラム |
JP2013073282A (ja) * | 2011-09-26 | 2013-04-22 | Fuji Xerox Co Ltd | 情報処理装置およびプログラム |
US9098494B2 (en) * | 2012-05-10 | 2015-08-04 | Microsoft Technology Licensing, Llc | Building multi-language processes from existing single-language processes |
US8781815B1 (en) * | 2013-12-05 | 2014-07-15 | Seal Software Ltd. | Non-standard and standard clause detection |
US9805025B2 (en) | 2015-07-13 | 2017-10-31 | Seal Software Limited | Standard exact clause detection |
RU2767965C2 (ru) * | 2019-06-19 | 2022-03-22 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для перевода исходной фразы на первом языке целевой фразой на втором языке |
US11860884B2 (en) * | 2021-03-30 | 2024-01-02 | Snap Inc. | Search query modification database |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683864A (ja) | 1992-08-28 | 1994-03-25 | Nec Home Electron Ltd | 自動翻訳装置 |
JPH0887506A (ja) | 1994-09-16 | 1996-04-02 | Sharp Corp | パターン照合併用型翻訳処理装置 |
JP3669870B2 (ja) * | 1999-06-28 | 2005-07-13 | 株式会社サン・フレア | 最適テンプレートパターン探索方法,探索装置および記録媒体 |
CN1174332C (zh) * | 2000-03-10 | 2004-11-03 | 松下电器产业株式会社 | 转换表达方式的方法和装置 |
JP3969628B2 (ja) * | 2001-03-19 | 2007-09-05 | 富士通株式会社 | 翻訳支援装置、方法及び翻訳支援プログラム |
US7124073B2 (en) * | 2002-02-12 | 2006-10-17 | Sunflare Co., Ltd | Computer-assisted memory translation scheme based on template automaton and latent semantic index principle |
JP4502615B2 (ja) | 2003-09-26 | 2010-07-14 | 日本電気株式会社 | 類似文検索装置、類似文検索方法、およびプログラム |
US7593843B2 (en) * | 2004-03-30 | 2009-09-22 | Microsoft Corporation | Statistical language model for logical form using transfer mappings |
JP4076520B2 (ja) * | 2004-05-26 | 2008-04-16 | 富士通株式会社 | 翻訳支援プログラムおよび単語対応付けプログラム |
US7698124B2 (en) * | 2004-11-04 | 2010-04-13 | Microsoft Corporaiton | Machine translation system incorporating syntactic dependency treelets into a statistical framework |
-
2007
- 2007-11-20 JP JP2007301051A patent/JP5239307B2/ja not_active Expired - Fee Related
-
2008
- 2008-05-30 US US12/130,406 patent/US8311799B2/en active Active
- 2008-07-18 CN CN2008101339525A patent/CN101441623B/zh active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102625935A (zh) * | 2009-08-21 | 2012-08-01 | 夏普株式会社 | 信息处理装置、显示控制方法以及程序 |
WO2011047608A1 (zh) * | 2009-10-20 | 2011-04-28 | 北京东方爱译科技有限责任公司 | 模式化双语句对形成方法及其形成装置 |
CN102693322A (zh) * | 2012-06-01 | 2012-09-26 | 杭州海康威视数字技术股份有限公司 | 支持多国语言的网页处理方法、网页加载方法及其系统 |
CN102693322B (zh) * | 2012-06-01 | 2014-10-22 | 杭州海康威视数字技术股份有限公司 | 支持多国语言的网页处理方法、网页加载方法及其系统 |
US10417348B2 (en) | 2012-06-01 | 2019-09-17 | Hangzhou Hikvision Digital Technology Co., Ltd. | Method for processing and loading web pages supporting multiple languages and system thereof |
Also Published As
Publication number | Publication date |
---|---|
US8311799B2 (en) | 2012-11-13 |
JP2009129032A (ja) | 2009-06-11 |
JP5239307B2 (ja) | 2013-07-17 |
CN101441623B (zh) | 2013-08-07 |
US20090132235A1 (en) | 2009-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101441623B (zh) | 翻译装置及信息处理方法 | |
US5907841A (en) | Document detection system with improved document detection efficiency | |
CN1578954B (zh) | 计算机语言翻译扩展系统 | |
Yan et al. | Named entity recognition by using XLNet-BiLSTM-CRF | |
CN104699767B (zh) | 一种面向中文语言的大规模本体映射方法 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
Fu et al. | Bag of meta-words: A novel method to represent document for the sentiment classification | |
Hättasch et al. | It's ai match: A two-step approach for schema matching using embeddings | |
Küçük | Automatic compilation of language resources for named entity recognition in Turkish by utilizing Wikipedia article titles | |
Naser-Karajah et al. | Current trends and approaches in synonyms extraction: Potential adaptation to arabic | |
Gleim et al. | A practitioner’s view: a survey and comparison of lemmatization and morphological tagging in German and Latin | |
Novak et al. | Why is a document relevant? Understanding the relevance scores in cross-lingual document retrieval | |
CN101777043A (zh) | 一种文字转换方法及装置 | |
JP5391867B2 (ja) | 翻訳装置及び翻訳プログラム | |
CN109815503A (zh) | 一种人机交互翻译方法 | |
Kolhe et al. | Optimizing accuracy of document summarization using rule mining | |
Avetisyan et al. | Cross-lingual plagiarism detection: Two are better than one | |
Lim et al. | Low cost construction of a multilingual lexicon from bilingual lists | |
Imperial et al. | BasahaCorpus: An Expanded Linguistic Resource for Readability Assessment in Central Philippine Languages | |
JP5298833B2 (ja) | 翻訳装置及び翻訳プログラム | |
Wu et al. | Structured composition of semantic vectors | |
QasemiZadeh et al. | Adaptive language independent spell checking using intelligent traverse on a tree | |
Dave et al. | A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム | |
Malarkodi et al. | Generic feature selection methodology to named entity detection from indian and european languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: Tokyo Patentee after: Fuji film business innovation Co.,Ltd. Address before: Tokyo Patentee before: Fuji Xerox Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |