CN101630313A

CN101630313A - 单词对齐装置、例句对译词典及单词对齐方法

Info

Publication number: CN101630313A
Application number: CN200810133966A
Authority: CN
Inventors: 刘绍明; 藤原久美; 吴宏林; 宋国龙
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2008-07-18
Filing date: 2008-07-18
Publication date: 2010-01-20
Also published as: JP5439776B2; JP2010027020A

Abstract

本发明提供一种单词对齐装置、例句对译词典及单词对齐方法，提高了调用率及精度。该单词对齐装置(200)包括：存储单词与其对译、单词与其解释译词的单词对译词典(208)；输入例句和作为其对译的例句对译对的输入部(202)；对所输入的例句对译对进行形态素解析的形态素解析部(204)；根据单词对译词典，将通过形态素解析而提取的例句对译对的单词对齐的基于词典的对齐部(210)；对于未被基于词典的对齐部(210)对齐的单词进行对齐的基于单词表记的对齐部(214)；多对多对齐部(218)；基于二分图的对齐部(220)；以及输出单词间的对齐结果的输出部(222)。

Description

单词对齐装置、例句对译词典及单词对齐方法

技术领域

本发明涉及对译例句自动单词对齐(Alignment)装置，尤其涉及单词对齐例句对译词典的学习装置和基于例句的机器翻译装置中的译词提取。

背景技术

机器翻译是利用计算机从某一语言转换为其他语言，这样的研究开发在世界范围进行了半个世纪。机器翻译方式可大致分为：1)基于解析的机器翻译方式，2)基于统计的机器翻译方式，3)基于例句的机器翻译方式。

基于解析的机器翻译方式是进行第1语言的解析(形态素解析、语法/意思解析等)，将解析的结果转换成第2语言，并生成第2语言的译文的技术。自然语言的解析技术还是不成熟的技术，因此基于解析的机器翻译方式的实用化受到限制。而且，由于不能学习，因此存在难以改善/改良翻译引擎的缺点。

基于统计的机器翻译方式，是用语言模型和统计模型构筑翻译模型的技术。该方式由于受限于各模型的构成所必要的学习数据(语料库)，实用化受到限制。

基于例句的机器翻译方式模仿人类学习外语的机制，参考已经学习的翻译例句来翻译新文件。在1980年代提出了该翻译方式，随后，其研究开发盛行。在基于例句的机器翻译技术中，有根据所参照的对译例句句型(pattern)的定义及类似例句的参照方法，采用翻译记忆翻译技术、附带单词对齐的对译例句的翻译技术和采用句子的句型的翻译技术等。

图1是表示基于例句的机器翻译方式所涉及的机器翻译系统的整体结构例的图。机器翻译系统10构成为从较简单的翻译转移到较复杂的翻译，实现翻译的高速化。另外，机器翻译系统10具有自动地回收不能翻译的部分并赋予正确的对译的学习功能。

机器翻译系统10具有：翻译记忆翻译装置14，其翻译从原语言文本句子输入部12输入的句单位的句子；基于例句句型的翻译装置16，其输入翻译记忆翻译装置14中无法对照的输入句子即不适当的输入句子，并对将其进行了形态素解析后的输入句子的单词串进行翻译；单词直译翻译装置18，其将基于例句句型的翻译装置16无法翻译的输入句子作为不适当的句子，输入其形态素解析的结果单词串，并翻译该单词串；以及目标语言文本输出部20，其根据上述的翻译装置适当翻译的结果，作成目标语言的文本句子并将其输出。

而且，机器翻译系统10具有：翻译不适当句子自动回收部22，其将基于例句句型的翻译装置16无法翻译的句子回收，作成适合于所回收的句子的翻译；学习装置24，其对翻译不适当句子自动回收部22作成的翻译进行校对和修正；以及翻译词典26。翻译词典26包含：存储第1语言的单词和作为其对译的第2语言的单词的单词对译词典26a；存储第1语言的例句和作为其对译的第2语言的例句的例句对译词典26b；以及存储第1语言的例句句型和作为其对译的第2语言的例句句型的例句句型对译词典26c。翻译词典26在翻译记忆翻译装置14、基于例句句型的翻译装置16以及单词直译翻译装置18中使用。另外，图1的机器翻译系统是一个构成例，还有包含其他翻译引擎的例子。

图2是说明图1所示的基于例句句型的翻译装置16的图，这里，表示了采用单词对齐例句对译词典的基于例句的翻译装置。该基于例句的翻译装置采用单词对齐例句对译词典进行翻译，以高精度翻译与输入句子非常相似的例句为特征。如该图所示，中文的输入句子被进行形态素解析，从单词对齐例句对译词典检索类似例句。然后，算出输入句子与例句的差异、对应关系，用单词对译词典生成日文的译文。

报告了几个与这样的翻译相关的文献。专利文献1公开了从第2语言的文章中根据发音的类似度提取与第1语言的表现对应的第2语言的译词的技术。专利文献2涉及从对译文本语料库提取译词对的译词对提取装置，该译词对提取装置推定第1语言、第2语言的单词的音韵，将两者的音韵一致的单词作为单词对输出。非专利文献1报告了如下的技术：对于由第1语言的例句和该例句的第2语言的译文组成的例句对，分别对例句和译文进行形态素解析，分别提取构成例句和译文的单词，从单词对译词典提取构成例句的单词的译词，将所提取的译词与译文的单词进行对照。非专利文献2采用由第1语言的例句和该例句的第2语言的译文所组成的例句对的集合所构成的单词和译词间的统计模型，来进行对齐。例如，统计模型是DICE系数、X2、相互信息量、T-score等。

专利文献3公开了可进行调用率高且精度良好的单词对齐的单词对齐例句对译词典学习装置及译词提取装置。

[专利文献1]日本特开平10-143514号公报

[专利文献2]日本特开2005-258637号公报

[专利文献3]日本特开2007-199793号公报

[非专利文献1]Jin-Xia Huang，Key-Sun Choi.2000.Using BilingualSemantic Information in Chinese-Korean Word Alignment.Pacfic AsiaConference on Language，Information and Computation.PACLIC14，pp121-130.

[非专利文献2]Melamed，Dan.″A Word-to-Word Model ofTranslational Equivalence″.In Procs.of the ACL97.pp490-497.MadridSpain，1997.

在上述的基于例句的翻译装置中，要求在第1语言的例句和该例句的第2语言的译文间自动地提取单词和其译词间的对应关系(对齐)并赋予该对应关系的功能。

图3是说明例句和译文中包含的单词间的对齐的图，该图(a)表示了中文和作为其译文的日文的输入例句对，该图(b)表示对这些输入例句对进行形态素解析而获得的中文单词和日文单词间的理想对齐。在所有的例句和译文的关系中，通过人的手动操作设定该图(b)所示的正确单词间的对齐需要大量的时间和人工，是不现实的。另一方面，为了自动生成单词间的对齐，要求高调用率(Recall)率和高精度。所谓调用率是指从例句和译文应提取的单词的对数和实际提取的单词的对数之比，所谓精度是指实际提取的单词的对数和正确的单词的对数之比，表示成下式。

调用率＝实际提取的单词的对数/应提取的单词的对数

精度＝正确的单词的对数/实际提取的单词的对数

关于单词对齐，专利文献3应用二分图最佳匹配法。图4是基于二分图最佳匹配的单词对齐装置的整体结构。单词对齐装置100具有：输入例句和其译文的对译例句对的输入部102；输出对齐的结果的输出部104；将例句及译文进行形态素解析，分别提取它们所包含的单词和词类并赋予编号的预处理部106；存储例句和其译文对的例句对译词典108；对从例句对译词典108输入的例句及译文对分别提取例句和译文的单词和词类，构筑可高速检索的语料库索引的语料库预处理部110；存储单词和其对译的单词对译词典112；用单词对译词典进行单词对齐的类似度计算部114；存储由语料库预处理部110构筑的单词的索引表的单词索引表116；用单词索引表的语料库统计信息求出单词和译词间的相关度的相关度计算部118；通过二分图匹配方法消除确认度低的对齐候补和多对应的对齐问题，实现单词间的对齐的优化的基于二分图的对齐部120。

如图5(a)所示，类似度计算部114及相关度计算部118，从上段的第1语言的单词与下段的第2语言的单词间的词典类似度、单词间的意思上的类似度、单词间的形状类似度、词类类似度、单词与译词间的相关度等计算信用性，用该计算值进行各分支的加权。基于二分图的对齐部120通过对该权重进行二分图匹配，如图5(b)所示，求出优化为1对1的单词对齐。

但是，这样的单词对齐方法存在以下3个问题。

1)在图4所示单词对译词典112不存在正确译词时，有时用单词的解释译文来作为译词。图6(a)由于没有与中文的单词相关的正确日文译词，因此将日文的解释译文作为对译。图6(b)则相反，由于没有与日文的单词相关的正确中文译词，所以将中文的解释译文作为对译。若采用这样的单词对译词典112，则对图4所示的类似度计算部114中采用词典类似度SimD的对齐方法的覆盖率产生恶劣影响。

2)机器翻译系统中的单词的切分装置，尤其是中文的单词切分装置(形态素解析等)，为了提高翻译的精度，有取大的单词单位(字符串的长度)的倾向。增大单词单位虽然提高了翻译的精度，但是在单词对译词典的单词和单词切分装置所获得的单词间产生不匹配性。例如，单词切分装置获得的单词包含″W1W2″的字符串时，在单词对译词典中虽然不存在包含″W1W2″的字符串的单词，但是取而代之，分别存在″W1″和″W2″这样2个单词。

3)采用基于二分图的最大最小加权的匹配对齐方法在1对1的单词对齐中非常有效，但是在多对多的单词对齐中未必是有效的方法。

发明内容

本发明用于解决这样的传统的课题，目的是提供一种改良了传统的单词对齐技术，具备1对多、多对1、多对多的单词对齐功能并提高了调用率及精度的单词对齐装置、基于例句的翻译装置及单词对齐方法。

而且，本发明的目的是提供一种可用于生成单词对齐例句对译词典和单词对译词典并利用这些词典的翻译装置、翻译支援系统的单词对齐装置、基于例句的翻译装置及单词对齐方法。

本发明所涉及的单词对齐装置是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置，该单词对齐装置具有：单词对译词典，其存储第1语言的单词与作为其对译的第2语言的单词、关于第1语言的单词的第2语言的译词以及关于第2语言的单词的第1语言的译词的对应关系；输入单元，其输入第1语言的例句和作为该例句的对译的第2语言的例句；单词提取单元，其从上述所输入的第1语言及第2语言的例句中分别提取第1语言及第2语言的单词；第1对齐单元，其在上述提取的第1语言的单词和上述提取的第2语言的单词的对应关系包含于上述单词对译词典中时，使上述提取的第1语言的单词与上述提取的第2语言的单词对齐；以及第2对齐单元，其对于未被上述第1对齐单元对齐的第1语言的单词，在该第1语言的单词与第2语言的译词的对应关系包含于上述单词对译词典中时，使第1语言的单词与和第2语言的译词共同的上述提取的第2语言的多个单词对齐。

优选的是，单词对齐装置还具有第3对齐单元，该第3对齐单元对于未被第2对齐单元对齐的第1语言的单词，将该第1语言的单词进行分割，在所分割的单词与第2语言的译词的对应关系包含于上述单词对译词典中时，将所分割的单词与和第2语言的译词共同的上述提取的第2语言的多个单词对齐。

优选的是，单词对齐装置还具有第4对齐单元，该第4对齐单元对于未被第3对齐单元对齐的第1语言的单词，在该第1语言的单词与上述提取的第2语言的单词的表记一致时，使该第1语言的单词与上述提取的第2语言的单词对齐。例如，表记的一致是第1语言的单词与第2语言的单词的各个汉字的一致。

优选的是，第1及第4对齐单元进行从第1语言的一个单词到第2语言的多个连续单词的对齐，或者从第2语言的一个单词到第1语言的多个连续单词的对齐。

而且，本发明所涉及的单词对齐装置是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置，该单词对齐装置具有：存储单元，其存储词类连接表，该词类连接表采用对于第1语言的单词和第2语言的单词预先赋予了对齐的信息，表示连续的2个单词的词类的连接关系；输入单元，其输入第1语言的例句和作为该例句的对译的第2语言的例句；单词提取单元，其从上述所输入的第1语言及第2语言的例句中分别提取第1语言及第2语言的单词；以及对齐单元，其在上述提取的第1语言的单词与上述提取的第2语言的连续的多个单词的一部分对齐且剩余单词未被对齐时，在该连续的多个单词包含于上述词类连接表中的情况下，使上述提取的第1语言的单词与第2语言的连续的多个单词对齐。

优选的是，上述对齐单元在上述提取的连续的多个单词的一部分与上述提取的第2语言的单词对齐且剩余单词未被对齐时，在上述连续的多个单词包含于上述词类连接表中的情况下，使上述提取的连续的第1语言的单词与第2语言的单词对齐。

优选的是，上述词类连接表采用赋予了单词对齐的语料库，根据语料库所包含的所有连续的2个单词的数和在语料库中对齐的连续的2个单词的数的比例，规定具有一定的出现频度的词类的连接。

而且，本发明所涉及的单词对齐装置是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置，该单词对齐装置具有：输入单元，其输入第1语言的例句和作为该例句的对译的第2语言的例句；单词提取单元，其从上述所输入的第1语言及第2语言的例句中分别提取第1语言及第2语言的单词；对齐词典，其存储第1语言的一个单词与作为其译词的第2语言的非连续的多个单词的对应关系；以及对齐单元，其在上述提取的第1语言的单词包含于上述对齐词典中且作为该第1语言的单词的对译的第2语言的非连续的多个单词包含于第2语言的例句中时，使上述提取的第1语言的单词与第2语言的上述非连续的多个单词对齐。

而且，本发明所涉及的单词对齐装置是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置，该单词对齐装置具有：输入单元，其输入第1语言的例句和作为该例句的对译的第2语言的例句；单词提取单元，其从上述输入的第1语言及第2语言的例句中分别提取第1语言及第2语言的单词；以及对齐单元，其从存储有第1语言的例句和作为其对译的第2语言的译文的例句对译词典中，选择包含上述提取的第1语言的连续的多个单词的例句和作为其对译的组，提取所选择的例句对译组相互间的共同部分的组，计算上述提取的共同部分对于上述连续的多个单词的支持度，根据所算出的支持度使上述连续的多个单词与作为第2语言的共同部分的多个单词对齐。

优选的是，上述支持度的计算包含：在各组的共同部分相对于上述连续的多个单词具有规定的一致程度时，将第2语言的对应译文的共同部分作为对齐候补来选出的单元；和将上述选出的对齐候补的出现次数作为表示其支持度的数来进行计数的单元。

优选的是，在出现次数最多的对齐候补的该出现次数超过第1阈值，或该出现次数在第1阈值以下且该出现次数与后续出现次数多的译文候补的该出现次数之差超过第2阈值，或该出现次数在第1阈值以下且该出现次数与后续出现次数多的译文候补的该出现次数之比超过第3阈值的任意一个情况下，将该出现次数最多的对齐候补与上述连续的多个单词对齐。

本发明所涉及的基于例句的翻译装置具有：上述的单词对齐装置；存储第1语言的例句和作为其对译的第2语言的例句的例句对译词典；以及参照上述例句对译词典，生成所输入的第1语言的例句的第2语言的译词的译文生成单元，上述译文生成单元利用上述单词对齐装置的对齐结果生成译文。

本发明所涉及的单词对齐方法是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置所执行的单词对齐方法，该单词对齐方法具有：输入第1语言的例句和作为该例句的对译的第2语言的例句的步骤；从所输入的第1语言及第2语言的例句中分别提取第1语言及第2语言的单词的步骤；在上述提取的第1语言的单词和上述提取的第2语言的单词的对应关系包含于单词对译词典中时，使上述提取的第1语言的单词与上述提取的第2语言的单词对齐的第1对齐步骤；对于未被第1对齐步骤对齐的第1语言的单词，在该第1语言的单词与第2语言的译词的对应关系包含于单词对译词典中时，使第1语言的单词与和第2语言的译词共同的上述提取的第2语言的多个单词对齐的第2对齐步骤；以及对于未被第2对齐步骤对齐的第1语言的单词，将该第1语言的单词进行分割，在所分割的单词与第2语言的译词的对应关系包含于单词对译词典中时，将所分割的单词与和第2语言的译词共同的上述提取的第2语言的多个单词对齐的第3对齐步骤。

而且，本发明所涉及的单词对齐方法是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置所执行的单词对齐方法，该单词对齐方法具有：输入第1语言的例句和作为该例句的对译的第2语言的例句的步骤；从上述输入的第1语言及第2语言的例句中分别提取第1语言及第2语言的单词的步骤；以及上述提取的第1语言的单词与上述提取的第2语言的连续的多个单词的一部分对齐且剩余单词未被对齐时，在该连续的多个单词包含于预先准备的表示连续的2个单词的词类的连接关系的词类连接表中的情况下，使上述提取的第1语言的单词与第2语言的连续的多个单词对齐的步骤。

根据本发明，在第1语言的单词和第2语言的单词间可进行1对多、多对1或多对多的对齐，因此与传统相比，可以改善调用率及精度。另外，即使在单词对译词典不包含正确的对译而包含解释译词的情况下，也可以提高覆盖率。而且，对于未被对齐的单词，通过将其进行分割，可以提高单词对译词典的覆盖率。

根据本发明，可以期待高性能的单词对齐方法，通过语言信息、类似信息、统计信息的应用及二分图间的最佳匹配方法，可实现高调用率和高精度的单词对齐例句对译词典学习引擎。

而且根据本发明，可以提高研究开发的效率性。例如，由于可以从例句对译词典中自动地生成单词对齐例句对译词典和单词对译词典，因此，可以提高翻译系统所必要的对译词典构筑的效率性。从而，可以实现对译词典构筑的成本的降低、构筑时间的缩短、构筑的自动化等。

附图说明

图1是表示基于例句的机器翻译方式所涉及的机器翻译系统的整体结构例的图。

图2是说明图1所示的基于例句句型的翻译装置的图。

图3是说明例句和译文所包含的单词间的对齐的图，图3(a)表示中文和作为其译文的日文的输入例句对，图3(b)表示中文的单词和日文的单词间的理想的对齐。

图4是基于二分图最佳匹配的单词对齐装置的整体结构。

图5是说明二分图匹配的图。

图6是表示单词对译词典所存储的单词和单词的解释译文的例子的示图。

图7是表示本发明实施例所涉及的单词对齐装置的结构的图。

图8是表示中文及日文的形态素解析的例子的图。

图9是表示图7所示的预处理部的动作流程的图。

图10是表示图7所示的多对多对齐部的内部结构的框图。

图11是表示1-n连续型对齐的例子的图。

图12是表示m-1连续型对齐的例子的图。

图13是表示多对多对齐词典MMADic的样本的图。

图14是表示m-n连续型对齐部的处理流程的图。

图15是表示由m-n连续型对齐部进行的从中文翻译到日文的具体例的图。

图16是表示计算在图15中提取的例句对译对的共同部分中的支持度的具体例的图。

图17是表示在图15中求出的支持度的合计结果的图。

图18是表示从支持度的合计结果确定为最终的对齐结果的例子的图。

图19是表示本实施例的单词对齐装置中的实验结果的图。

图20是表示单词对齐装置的一个硬件结构的框图。

[符号说明]

10：机器翻译系统 12：原语言文本句子输入部

14：翻译记忆装置 16：基于例句句型的翻译装置

18：单词直译翻译装置 20：目标语言文本输出部

22：翻译不适当句子自动回收部 24：学习装置

26a：单词对译词典 26b：例句对译词典

26c：例句句型对译词典 200：单词对齐装置

202：输入部 204：形态素解析部

206：预处理部 208：单词对译词典

210：基于词典的对齐部 212：中文简繁文字转换部

214：基于单词表记的对齐部 216：存储部

218：多对多对齐部 220：基于BGM的对齐部

222：输出部 700：输入装置

702：显示装置 704：主存储装置

706：存储装置 708：中央处理装置(CPU)

710：总线

具体实施方式

参照附图所示的实施例说明用于实施本发明的最佳方式。

本实施方式的单词对齐装置的特征如下。

1)即使单词对译词典将单词的解释译文用作译词，也可进行采用词典类似度SimD的单词对齐。

2)即使单词切分装置(例如形态素解析装置)获得的单词不存在于单词对译词典中，也可进行采用词典类似度SimD的单词对齐。

3)可进行多对多的单词对齐。

多对多的单词对齐的种类分类成如下6个种类。

S＝CS<->JS表示一个对译例句对。这里，CS是第1语言的例句，JS是CS的第2语言的译文。CS＝<C1，C2，...，Cm>，JS＝<J1，J2，...，Jn>。这里，Ch和Jk是单词。

1)1-n连续型：Ch与Jh，Jh+1，Jh+2，...的n个连续单词对齐。

2)m-1连续型：Ch，Ch+1，Ch+2，...的m个连续单词与Jy对齐。

3)m-n连续型：Ch，Ch+1，Ch+2，...的m个连续单词与Jh，Jh+1，Jh+2，...的n个连续单词对齐。

4)1-n非连续型：Ch与Jh，Jx，Jy，...的n个非连续单词对齐。

5)m-1非连续型：Ch，Cs，Ct，...的m个非连续单词与Jy对齐。

6)m-n非连续型：Ch，Cs，Ct，...的m个非连续单词与Jh，Jx，Jy，...的n个非连续单词对齐。

本实施例中，第6个m-n非连续型的对齐除外。因为该类型的例子非常少。在以下的实施例中，说明中文和日文的单词对齐的例子。

[实施例]

图7是表示本实施例的单词对齐装置的结构的框图。本实施例的单词对齐翻译装置200包括：输入第1语言的例句和作为其译文的第2语言的例句的输入部202；对输入的例句进行形态素解析的形态素解析部204；对进行了形态素解析的字符串或单词进行预处理的预处理部206；存储第1语言的单词和作为其译词的第2语言的单词的对应关系、第2语言的单词和作为其译词的第1语言的单词的对应关系、以及关于第1语言的单词的第2语言的解释译文、关于第2语言的单词的第1语言的解释译文的对应关系的单词对译词典208；参照单词对译词典208进行第1语言的单词和第2语言的单词间的对齐的基于词典的对齐部210；进行中文的简繁文字转换的中文简繁文字转换部212；利用中文简繁文字转换部212的转换结果进行单词表记的对齐的基于单词表记的对齐部214；存储与后述的各种对齐有关的信息的存储部(存储器)216；利用存储部216存储的对齐信息进行多对多的单词对齐的多对多对齐部218；进行基于二分图的对齐的基于BGMWM的对齐部220；以及输出单词间的对齐结果的输出部222。

本实施例的单词对齐装置200优选包含于图1所示的基于例句的翻译装置16中。将在图1所示的翻译记忆翻译装置14中无法适当翻译的例句，输入基于例句的翻译装置16。如图2所示，所输入的例句与单词对齐例句对译词典比较，提取例句句型，该例句句型使与例句类似的例句和其译词成对。优选将这样的例句对译句型输入到输入部202。

形态素解析部204通过对所输入的例句句型进行形态素解析，将构成例句及译文的单词切分，并赋予单词的词类。形态素解析的技术广为人知，但是，例如，若是日文的形态素解析技术，可以采用Chasen，若是中文的形态素解析技术，可以采用清华大学的Seg and POS工具和中国东北大学的CiPosSDK工具。图8是表示中文的形态素解析的例子和日文的形态素解析的例子。

图9表示预处理部的动作流程。预处理部206接收由形态素解析部204切分的单词及词类ID等(参照图8)(步骤S101)，从中提取数值部分(步骤S102)。然后，切分成数值部分和非数值部分，将数值部分用汉字表现(步骤S103，S104)，并合成用汉字表现的数值部分和非数值部分(步骤S105)。从而，字母和数字转换成汉字表现。

接着，说明基于词典的对齐部。S＝CS<->JS表示一个对译例句对。这里，CS是第1语言的例句，JS是CS的第2语言的译文。因此，表示成CS＝<C1C2...Cm>，JS＝<J1 J2...Jn>，Ch和Jk是单词。

基于词典的对齐部210参照单词对译词典208，执行以下的算法。

1)DBA1算法：对于SimD(Cx，Jy)＝1的所有单词对(Cx，Jy)，使单词Cx和Jy对齐。

2)DBA2算法：对于未对齐的单词Ch，将存在于单词对译词典208中的Ch的全部译词的集合设为Dict(Ch)＝{Jh1，Jh2，...，Jhx}。如果存在满足如下条件1和条件2的JS的部分字符串<Jk，Jk+1，...，Jk+y>，则使单词Ch和JS的部分字符串<Jk，Jk+1，...，Jk+y>对齐。

条件1

&Exists; k, y :

<j_k，j_k+1，Λ，j_k+y>∈Dict(c_h)∧

条件2 Jk，Jk+1，...，Jk+y未被对齐

3)DBA3算法：对于未被对齐的单词Ch，在单词对译词典208中的Ch的译词不存在的情况下，用单词对译词典208的第1语言的单词集合BiWordSetl来分割单词Ch。将分割的结果设为Ch＝<Ch1，Ch2，...，Chz>。将单词对译词典208的Chi的所有译词集合设为Dict(Chi)＝{Jhi1，Jhi2，...，Jhix}。如果存在满足如下条件1和条件2的JS的单词Jk，则使单词Ch和JS的单词Jk对齐。

条件1：

&Exists; j_{k} : j_{k} &Subset; JS : j_{k} &Element; Dict (c_{hi})

条件2：Jk未被对齐

接着，说明基于单词表记的对齐部。S＝CS<->JS表示一个对译例句对。CS是第1语言的例句，JS是CS的第2语言的译文。表示成CS＝<C1，C2，...Cm>，JS＝<J1，J2，...Jn>，Ch和Jk是单词。

基于单词表记的对齐部214参照通过中文简繁文字转换部212所得的中文的简体字，对于所有未对齐的单词Ch，在形状类似度SimM(Ch，Jy)＝1且单词Jy未被对齐的情况下，使单词CX和Jy对齐。SimM(Ch，Jy)＝1表示汉字为相同形状时，例如″中国″和″中国″。

接着，说明多对多对齐部。如图10所示，多对多对齐部218包含1-n连续型和m-1连续型对齐部230、1-n非连续型和m-1非连续型对齐部232以及m-n连续型对齐部234(n、m是2以上的自然数)。

n连续型和m-1连续型对齐部230进行一个单词和连续n个单词的对齐，或者进行连续m个单词和一个单词的对齐。

n连续型和m-1连续型对齐部230事先采用单词对齐语料库，对于1-n连续型和m-1连续型的对齐，构筑连续的2个单词的词类连接表CPPS(Concomitance POS Pair Set)。例如，单词C1与连续的单词J1、J2、J3对齐的情况下，以J1和J2、J2和J3间的词类连接作为计算的对象。相反，连续的单词C1、C2、C3与单词J1对齐的情况下，以C1和C2，C2和C3间的词类连接作为计算的对象。CPPS可以通过下式求出。这里，CPPS的分母是语料库中全部的2个连续的词类的数，分子是语料库中对齐的词类的数。另外，θ是阈值，0＜θ＜1。

CPPS = {({pos}_{i}_l, {pos}_{i}_r) | \frac{count_align ({pos}_{i}_l, {pos}_{i}_r)}{count_all ({pos}_{i}_l, {pos}_{i}_r)} > θ}

count_align ({pos}_{i}_l, {pos}_{i}_r)

count_all ({pos}_{i}_l, {pos}_{i}_r)

1-n连续型和m-1连续型对齐部230用词类连接表来进行如下的对齐。

S＝CS<->JS表示一个对译例句对。这里，CS是第1语言的例句，JS是CS的第2语言的译文。CS＝<C1，C2，...，Cm>，JS＝<J1，J2，...，Jn>，Ch和Jk是单词。

对于所有对齐的单词Jk，

情况1：在单词Ch与Jk对齐且Jk+1未被对齐时，如果(POS(Jk)，POS(Jk+1))∈CPPS，则使Ch与Jk+1对齐。

情况2：在单词Ch与Jk对齐且Jk-1未被对齐时，如果(POS(Jk-1)，POS(Jk))∈CPPS，则使Ch与Jk-1对齐。图11(a)、(b)例示了情况1和情况2。

对于所有对齐的单词Ch，

情况1：在Ch与Jk对齐且Ch+1未被对齐时，如果(POS(Ch)，POS(Ch+1))∈CPPS，则使Ch+1与Jk对齐。

情况2：在Ch与Jk对齐且Ch-1未被对齐时，如果(POS(Ch-1)，POS(Ch))∈CPPS，则使Ch-1与Jk对齐。图12(a)、(b)例示了情况1和情况2。

接着，说明1-n非连续型和m-1非连续型对齐部232。对于1-n非连续型和m-1非连续型的对齐，与1对应的单词的大部分是连结词、前置词、助词，因此，事先提取这些1-n非连续型和m-1非连续型的对齐并进行词典化。将其称为多对多对齐词典MMADic，其样本如图13所示，这里，表示了中文的一个单词和与其对应的日文的非连续的多个单词以及相反的日文的一个单词和与其对应的中文的非连续的多个单词的例子。

这里，S＝CS<->JS表示一个对译例句对。这里，CS是第1语言的例句，JS是CS的第2语言的译文。CS＝<C1，C2，...，Cm>，JS＝<J1，J2，...，Jn>，Ch和Jk是单词。

对于所有对齐的单词Ch，如果满足

1)Ch存在于多对多对齐词典MMADic中，

2)Ch对应的译词集合Jk，Js，...是JS的单词，

3)译词集合Jk，Js，...未被对齐，

则使单词Ch与Jk，Js，...对齐。

对于所有对齐的单词Jk，如果满足

1)Jk存在于多对多对齐词典MMADic中，

2)Jk对应的译词集合Ch，Cs，...是CS的单词，

3)译词集合Ch，Cs，...未对齐，

则使单词Ch，Cs，...与Jk对齐。

接着，说明m-n连续型对齐部234。S＝CS<->JS表示一个对译例句对。这里，CS是第1语言的例句，JS是CS的第2语言的译文。CS＝<C1，C2，...，Cm>，JS＝<J1，J2，...，Jn>，Ch和Jk是单词。

对于所有对齐的连续的2个单词Ch和Ch+1，采用P＝<Ch，Ch+1>；MN-Alignment(P，Alignment(P))，求出P的对齐结果。如果Alignment(P)＝<Jk，Jk+1>且Jk和Jk+1还没有被对齐，则使<Ch，Ch+1>与<Jk，Jk+1>对齐。

对于所有对齐的连续的2个单词Jk和Jk+1，采用P＝<Jk，Jk+1>；MN-Alignment(P，Alignment(P))，求出P的对齐结果。如果Alignment(P)＝<Ch，Ch+1>且Ch和Ch+1还没有被对齐，则使<Ch，Ch+1>与<Jk，Jk+1>对齐。

定义：将例句和其译文分别用CS和JS表示。将例句对译对用S＝CS<->JS表示，将对译例句对的候补用BS表示。例句和其译文用字母的带顺序的字符串表现。即，CS、JS、S通过式(1)、(2)、(3)表达。

CS＝<c₁，c₂，…，c_m>(1)

JS＝<j₁，j₃，…，j_n>(2)

S = CS &LeftRightArrow; JS = < c_{1}, c_{2}, \cdot \cdot \cdot, c_{m} > &LeftRightArrow; < j_{1}, j_{2}, \cdot \cdot \cdot, j_{n} > - - - (3)

另外，连续的多个单词用P表示。P也用字母的带顺序的字符串表现，通过式(4)表达。

P＝<p₁，p₂，…，p_p>(4)

接着，说明例句译文对(组)的共同部分的定义。例句译文对Sk、Sh包含于对译例句对的候补BS中，这些共同部分通过式(5)、(6)表达。

S_k，S_h∈BC

S_{h} = {CS}_{h} &LeftRightArrow; {JS}_{h} = < c_{h}, c_{h + 1}, \cdot \cdot \cdot, c_{h + m_{h}} > &LeftRightArrow; < j_{h}, j_{h + 1}, \cdot \cdot \cdot, j_{h + n_{h}} - - - (5)

S_{k} = {CS}_{k} &LeftRightArrow; {JS}_{k} = < c_{k}, c_{k + 1}, \cdot \cdot \cdot, c_{k + m_{k}} > &LeftRightArrow; < j_{k}, j_{k + 1}, \cdot \cdot \cdot, j_{k + n_{k}} > - - - (6)

例句译文对Sk、Sh的共同部分的求出方法通过式(7)、(8)、(9)、(10)、(11)进行。这里，CWSTOP表示语言1的禁止用文字集合，JWSTOP表示语言2的禁止用文字集合。例如，作为文件中以高频度出现的文字，符合的有中文的″的″、″地″、″得″等以及日文的″は″、″が″、″を″等。

S_{h} \cap S_{k} = {CS}_{h} \cap {CS}_{k} &LeftRightArrow; {JS}_{h} \cap {JS}_{k} - - - (7)

{CS}_{h} \cap {CS}_{k} = \underset{< c_{h_{1}}, c_{h_{1} + 1}, \cdot \cdot \cdot, c_{h_{1} + x} >}{\arg \max} | < c_{h_{1}}, c_{h_{1} + 1}, \cdot \cdot \cdot, c_{h_{1} + x} > |

(8-1)

= \underset{< c_{h_{1}}, c_{h_{1} + 1}, \cdot \cdot \cdot, c_{h_{1} + x} >}{\arg \max} | < c_{k_{1}}, c_{k_{1} + 1}, \cdot \cdot \cdot, c_{k_{1} + x} > |

h≤h₁∧h₁+x≤h+n_h(9-1)

k≤k₁∧k₁+x≤k+n_k(10-1)

{JS}_{h} \cap {JS}_{k} = \underset{< j_{h_{1}}, j_{h_{1} + 1}, \cdot \cdot \cdot, j_{h_{1} + q} >}{\arg \max} | < j_{h_{1}}, j_{h_{1} + 1}, \cdot \cdot \cdot, j_{h_{1} + q} > |

(8-2)

= \underset{< j_{k_{1}}, j_{k_{1} + 1}, \cdot \cdot \cdot, j_{k_{1} + q} >}{\arg \max} | < j_{k_{1}}, j_{k_{1} + 1}, \cdot \cdot \cdot, j_{k_{1} + q} > |

h≤h₁∧h₁+q≤h+n_h(9-2)

k≤k₁∧k₁+q≤k+n_k(10-2)

接着，说明P的语言是语言1的情况下的处理。如果Sh和Sk的共同部分为下式(12-1)，则Sh和Sh表现为强支持P<->Tg，该情况下，Tg成为P的对齐候补。

S_{h} \cap S_{k} = P &LeftRightArrow; T_{g} = P &LeftRightArrow; < j_{g_{1}}, j_{g_{2}}, \cdot \cdot \cdot, j_{g_{ng}} > - - - (12 - 1)

如果在例句对译候补BS中，x个例句对支持P<->Tg，则Tg成为P的对齐候补的支持度被定义为x，表现为SV(P<->Tg)＝x。然后，将支持度SV(P<->Tg)最大的Tg作为P的对齐结果，表达成式(13-1)。

Alignment (P) = \underset{T_{g}}{\arg \max} SV (P &LeftRightArrow; T_{g}) - - - (13 - 1)

如果例句对译对Sh和Sk的共同部分为式(14-1)，则Sh和Sh表现为弱支持P<->Tg，该情况下，Tg也是P的对齐候补。

\begin{matrix} S_{h} \cap S_{k} = P^{*} &LeftRightArrow; T_{g} & and & P &Subset; P^{*} - - - (14 - 1) \end{matrix}

另一方面，P的语言是语言2的情况下，如果Sh和Sk的共同部分为下式(12-2)，则Sh和Sh表现为强支持P<->Tg，该情况下，Tg成为P的对齐候补。

S_{h} \cap S_{k} = T_{g} &LeftRightArrow; P = < j_{g_{1}}, j_{g_{2}}, \cdot \cdot \cdot, j_{g_{ng}} > &LeftRightArrow; P - - - (12 - 2)

如果在例句对译候补BS中，x个例句对支持P<->Tg，则Tg成为P的对齐候补的支持度被定义为x，表现为SV(P<->Tg)＝x。然后，将支持度SV(P<->Tg)最大的Tg作为P的对齐结果，表达成式(13-2)。

Alignment (P) = \underset{T_{g}}{\arg \max} SV (T_{g} &LeftRightArrow; P) - - - (13 - 2)

如果例句对译对Sh和Sk的共同部分为式(14-2)，则Sh和Sh表现为弱支持P<->Tg，该情况下，Tg也是P的对齐候补。

\begin{matrix} S_{h} \cap S_{k} = T_{g} &LeftRightArrow; P^{*} & and & P &Subset; P^{*} - - - (14 - 2) \end{matrix}

接着，说明m-n连续型对齐部的处理过程。图14是表示m-n连续型对齐部的处理流程的图。m-n连续型对齐部234访问例句对译词典26b，从中求出例如包含连续的多个单词P的多个例句对译对的候补BS(步骤S201)。所求出的例句对译对候补BS存储在存储部216中，然后，提取这些各例句对译组相互间的共同部分的组，算出它们的所有的对候补的支持度(步骤S202)。然后，将支持度高的候补选择为对齐候补(步骤S203)。

对齐候补的选择，例如如下进行。

这里，将2个对齐候补设为T1和T2，将它们的支持度设为x，y(其中，x＞y)。即，设SV(P<->T1)＝x，SV(P<->T2)＝y。

如果X＜θ1，则认为适当的候补不存在，对齐失败。

如果X≥θ1，且x-y＞θ2，则将T1作为对齐结果输出。

如果X≥θ1且x/y＞θ3，则将T1作为对齐结果输出。

其中，θ1、θ2、θ3是非负的实数。

按照上述基准判定对齐结果是否存在(步骤S204)，在对齐结果存在时，输出其结果(步骤S205)。在这里的对齐结果不存在时，进行后续处理，例如进行由基于二分图的对齐部220执行的处理。

图15表示由m-n连续型对齐部执行的从中文翻译到日文的具体例。连续的多个单词P被输入，对其进行响应，从例句对译词典26b中提取包含输入P的例句。可以明白，S1，S2，...，S5是被提取的例句对译对，中文的例句C1，C2，...C4包含连续的多个单词P。

计算由图15所提取的例句对译对的全部的支持度。图16示出了计算由图15所提取的例句对译对的共同部分中的支持度的具体例。判断各例句对译对相互的共同部分中的支持度，作为其结果，加上对应译文的支持度。

图17将图15求出的支持度的合计结果作为表组进行表示。由此可以明白对各译文候补的支持度。

在图18中，从支持度的合计结果提取支持度高的2个译文候补，最终判断T1超过规定的基准，确定为最终的对齐结果。

接着，返回图7，在未通过多对多对齐部218对齐时，通过基于BGMWM的对齐部220进行对齐。这里的对齐，采用所有未对齐的CS的单词集合和JS的单词集合，作成加权二分图，采用图4、图5所示的基于二分图的对齐部进行对齐。

图19表示了在本实施例的单词对齐装置中，领域采用体育新闻报道，采用存储了15,405的例句对译的例句对译词典，用100例句对的测试集合(Open test)进行实验时的结果。F-Score用F＝(R+P)*2/(R+F)定义。从实验结果可以明白，本实施例的自动单词对齐装置执行各种算法时，与传统的手法比较，提高了调用率、精度、F-Score。

图20是表示单词对齐装置的一个硬件结构的框图。翻译记忆翻译装置优选包括：输入装置700；显示装置702；主存储装置704；存储装置706；中央处理装置(CPU)708；以及连接它们的总线710。

输入装置700包含：通过按键操作输入信息的键盘；光学读取原稿记载的文件等的扫描仪；以及输入来自外部装置和外部存储器等的数据的输入接口等。显示装置702包括显示用户的输入及翻译结果等的显示器等。主存储装置704包括ROM或RAM，存储用于控制图7所示的各部的动作的程序和运算处理的数据等。存储装置706包含例如硬盘等的大容量存储装置，存储例句对译词典等各种词典26、124等的数据。中央处理装置708按照主存储装置704中存储的程序来控制各部。

以上，详述了本发明的优选实施方式，但是本发明不限于特定的实施方式，在权利要求书所记载的本发明的要旨的范围内，可以进行各种变形和变更。

例如，上述实施例中，示出了选择权重为非零的置换为一个的例句候补来生成译文的示例，但是不限于此，权重为非零的置换也可以是2个、3个或更多。另外，脱落的数也可以大于1。如置换和脱落的数增加，则翻译精度有可能相应地降低，但是可以在充分考虑后用于翻译系统。

本发明所涉及的翻译记忆翻译装置用于机器翻译系统和翻译支援系统中。

Claims

1.一种单词对齐装置，是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置，其特征在于，该单词对齐装置具有：

单词对译词典，其存储第1语言的单词与作为其对译的第2语言的单词、关于第1语言的单词的第2语言的译词、以及关于第2语言的单词的第1语言的译词的对应关系；

输入单元，其输入第1语言的例句和作为该例句的对译的第2语言的例句；

单词提取单元，其从上述所输入的第1语言及第2语言的例句中分别提取第1语言及第2语言的单词；

第1对齐单元，其在上述提取的第1语言的单词和上述提取的第2语言的单词的对应关系包含于上述单词对译词典中时，使上述提取的第1语言的单词与上述提取的第2语言的单词对齐；以及

第2对齐单元，其对于未被上述第1对齐单元对齐的第1语言的单词，在该第1语言的单词与第2语言的译词的对应关系包含于上述单词对译词典中时，使第1语言的单词与和第2语言的译词共同的上述提取的第2语言的多个单词对齐。

2.根据权利要求1所述的单词对齐装置，其特征在于，

单词对齐装置还具有第3对齐单元，该第3对齐单元对于未被第2对齐单元对齐的第1语言的单词，将该第1语言的单词进行分割，在所分割的单词与第2语言的译词的对应关系包含于上述单词对译词典中时，将所分割的单词与和第2语言的译词共同的上述提取的第2语言的多个单词对齐。

3.根据权利要求2所述的单词对齐装置，其特征在于，

单词对齐装置还具有第4对齐单元，该第4对齐单元对于未被第3对齐单元对齐的第1语言的单词，在该第1语言的单词与上述提取的第2语言的单词的表记一致时，使该第1语言的单词与上述提取的第2语言的单词对齐。

4.根据权利要求3所述的单词对齐装置，其特征在于，

上述表记的一致是第1语言的单词与第2语言的单词的各个汉字一致。

5.根据权利要求1至4的任意一项所述的单词对齐装置，其特征在于，

第1及第4对齐单元进行从第1语言的一个单词到第2语言的多个连续单词的对齐，或者从第2语言的一个单词到第1语言的多个连续单词的对齐。

6.一种单词对齐装置，是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置，其特征在于，该单词对齐装置具有：

存储单元，其存储词类连接表，该词类连接表采用对于第1语言的单词和第2语言的单词预先赋予了对齐的信息，表示连续的2个单词的词类的连接关系；

单词提取单元，其从上述所输入的第1语言及第2语言的例句中分别提取第1语言及第2语言的单词；以及

对齐单元，其在上述提取的第1语言的单词与上述提取的第2语言的连续的多个单词的一部分对齐且剩余单词未被对齐时，在该连续的多个单词包含于上述词类连接表中的情况下，使上述提取的第1语言的单词与第2语言的连续的多个单词对齐。

7.根据权利要求6所述的单词对齐装置，其特征在于，

上述对齐单元在上述提取的连续的多个单词的一部分与上述提取的第2语言的单词对齐且剩余单词未被对齐时，在上述连续的多个单词包含于上述词类连接表中的情况下，使上述提取的连续的第1语言的单词与第2语言的单词对齐。

8.根据权利要求6或7所述的单词对齐装置，其特征在于，

上述词类连接表采用被赋予了单词对齐的语料库，根据语料库所包含的所有连续的2个单词的数和语料库中对齐的连续的2个单词的数的比例，规定具有一定的出现频度的词类的连接。

9.一种单词对齐装置，是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置，其特征在于，该单词对齐装置具有：

单词提取单元，其从上述所输入的第1语言及第2语言的例句分别提取第1语言及第2语言的单词；

对齐词典，其存储第1语言的一个单词与作为其译词的第2语言的非连续的多个单词的对应关系；以及

对齐单元，其在上述提取的第1语言的单词包含于上述对齐词典中且作为该第1语言的单词的对译的第2语言的非连续的多个单词包含于第2语言的例句中时，使上述提取的第1语言的单词与第2语言的上述非连续的多个单词对齐。

10.一种单词对齐装置，是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置，其特征在于，该单词对齐装置具有：

对齐单元，其从存储有第1语言的例句和作为其对译的第2语言的译文的例句对译词典中，选择包含上述提取的第1语言的连续的多个单词的例句和作为其对译的组，提取所选择的例句对译组相互间的共同部分的组，算出上述提取的共同部分对于上述连续的多个单词的支持度，根据所算出的支持度使上述连续的多个单词与作为第2语言的共同部分的多个单词对齐。

11.根据权利要求10所述的单词对齐装置，其特征在于，

上述支持度的计算包含：在各组的共同部分相对于上述连续的多个单词具有规定的一致程度时，将第2语言的对应译文的共同部分作为对齐候补而选出的单元；和将上述选出的对齐候补的出现次数作为表示其支持度的数来进行计数的单元。

12.根据权利要求11所述的单词对齐装置，其特征在于，

在出现次数最多的对齐候补的该出现次数超过第1阈值，或该出现次数在第1阈值以下且该出现次数与后续出现次数多的译文候补的该出现次数之差超过第2阈值，或该出现次数在第1阈值以下且该出现次数与后续出现次数多的译文候补的该出现次数之比超过第3阈值的任意一个情况下，将该出现次数最多的对齐候补与上述连续的多个单词对齐。

13.一种基于例句的翻译装置，其特征在于，该基于例句的翻译装置具有：权利要求1至12任意一项所述的单词对齐装置；存储第1语言的例句和作为其对译的第2语言的例句的例句对译词典；以及参照上述例句对译词典，生成所输入的第1语言的例句的第2语言的译词的译文生成单元，上述译文生成单元利用上述单词对齐装置的对齐结果生成译文。

14.一种单词对齐方法，是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置所执行的单词对齐方法，其特征在于，该单词对齐方法具有：

输入第1语言的例句和作为该例句的对译的第2语言的例句的步骤；

从所输入的第1语言及第2语言的例句中分别提取第1语言及第2语言的单词的步骤；

在上述提取的第1语言的单词和上述提取的第2语言的单词的对应关系包含于单词对译词典中时，使上述提取的第1语言的单词与上述提取的第2语言的单词对齐的第1对齐步骤；

对于未被第1对齐步骤对齐的第1语言的单词，在该第1语言的单词与第2语言的译词的对应关系包含于单词对译词典中时，使第1语言的单词与和第2语言的译词共同的上述提取的第2语言的多个单词对齐的第2对齐步骤；以及

对于未被第2对齐步骤对齐的第1语言的单词，将该第1语言的单词进行分割，在所分割的单词与第2语言的译词的对应关系包含于单词对译词典中时，将所分割的单词与和第2语言的译词共同的上述提取的第2语言的多个单词对齐的第3对齐步骤。

15.一种单词对齐方法，是进行第1语言的例句和作为该例句的对译的第2语言的例句中分别包含的单词间的对齐的单词对齐装置所执行的单词对齐方法，其特征在于，该单词对齐方法具有：

从上述所输入的第1语言及第2语言的例句中分别提取第1语言及第2语言的单词的步骤；以及

在上述提取的第1语言的单词与上述提取的第2语言的连续的多个单词的一部分对齐且剩余单词未被对齐时，在该连续的多个单词包含于预先准备的表示连续的2个单词的词类的连接关系的词类连接表中的情况下，使上述提取的第1语言的单词与第2语言的连续的多个单词对齐的步骤。