CN105095194A

CN105095194A - 抽取姓名词典和翻译规则表的方法和设备

Info

Publication number: CN105095194A
Application number: CN201410222052.3A
Authority: CN
Inventors: 李贤华; 张姝; 孟遥; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-05-23
Filing date: 2014-05-23
Publication date: 2015-11-25
Also published as: JP2015225666A

Abstract

本发明公开了抽取姓名词典和翻译规则表的方法和设备。根据本发明的抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的方法包括：收集英日姓名语料库，其包括日文姓名及对应的英文姓名；针对所收集的日文姓名和英文姓名，划分日文姓名和英文姓名；利用日文汉字发音表，将日文姓名中的日文汉字与英文姓名中的英文音节对齐，该对齐结果作为切分结果，所述日文汉字发音表中记载了日文汉字及其对应的一种或多种英文字符串，所述英文字符串包括一个或多个英文音节；根据上述对齐结果，抽取所述姓名词典和翻译规则表。

Description

抽取姓名词典和翻译规则表的方法和设备

技术领域

本发明一般地涉及自然语言处理领域。具体而言，本发明涉及一种抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的方法和设备、以及利用所抽取出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的方法和设备。

背景技术

近年来，自然语言处理，尤其是机器翻译相关的技术得到了迅猛的发展。但是，仍然存在一些难以解决的技术问题。例如，日文姓名中存在多音字，在基于字对日文姓名进行翻译以得到对应的英文姓名的时候，存在一对多的不确定性。而且，一些日文姓名的发音与日文姓名中的汉字的含义有关，相应的发音不常见，基于日文姓名中的汉字的通常的发音进行翻译，容易获得错误的结果。所以，难以借助于普通的翻译词典和翻译规则表，对日文姓名和英文姓名进行互译。

显然，如果在日文姓名和英文姓名之间进行翻译的时候，利用好的姓名词典和翻译规则表，则翻译的准确度高，翻译质量好。然而，依靠人工来进行姓名词典和翻译规则表的制作是费力、耗时、低效的。依靠现有的词典抽取技术和翻译规则表抽取技术抽取的结果又不能适应日文姓名的特殊性。综上所述，难以自动地、准确地获得高质量的针对日文姓名和英文姓名的翻译的姓名词典和翻译规则表。

因此，期望一种能够自动地、准确地抽取用于在日文姓名与英文姓名之间进行翻译的高质量的姓名词典和翻译规则表的方法和设备。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的目的是针对现有技术的上述问题，提出了一种能够自动地、准确地抽取用于在日文姓名与英文姓名之间进行翻译的高质量的姓名词典和翻译规则表的方法和设备。

为了实现上述目的，根据本发明的一个方面，提供了一种抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的方法，包括：收集英日姓名语料库，其包括日文姓名及对应的英文姓名；针对所收集的日文姓名和英文姓名，划分日文姓名和英文姓名；利用日文汉字发音表，将日文姓名中的日文汉字与英文姓名中的英文音节对齐，该对齐结果作为切分结果，所述日文汉字发音表中记载了日文汉字及其对应的一种或多种英文字符串，所述英文字符串包括一个或多个英文音节；以及根据上述对齐结果，抽取所述姓名词典和翻译规则表。

相应地，根据本发明的再一方面，提供了一种利用上述方法抽取出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的方法，包括：在所述姓名词典中搜索与待翻译的姓名中的日语汉字/英文字符串匹配的姓和名；以及如果搜索到唯一的匹配结果，则将该匹配结果作为翻译结果；如果搜索到多种匹配结果，则根据所述姓名词典中的出现频次，计算每种匹配结果的得分，选择得分最高的匹配结果作为翻译结果，或者按得分从高到低的顺序排列所述匹配结果。

相应地，根据本发明的再一方面，提供了一种利用上述方法抽取出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的方法，包括：基于所述翻译规则表，使用CKY算法，进行所述翻译，获得多个候选结果；根据每种候选结果中的姓和名在所述姓名词典中存在的多少，计算每种候选结果的得分；以及选择得分最高的候选结果作为翻译结果，或者按得分从高到低的顺序排列所述候选结果。

根据本发明的另一个方面，提供了一种抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的设备，包括：收集装置，被配置为：收集英日姓名语料库，其包括日文姓名及对应的英文姓名；划分装置，被配置为：划分所收集的日文姓名和英文姓名；对齐装置，被配置为：利用日文汉字发音表，将日文姓名中的日文汉字与英文姓名中的英文音节对齐，该对齐结果作为切分结果，所述日文汉字发音表中记载了日文汉字及其对应的一种或多种英文字符串，所述英文字符串包括一个或多个英文音节；以及抽取装置，被配置为：根据所述对齐装置的对齐结果，抽取所述姓名词典和翻译规则表。

相应地，根据本发明的再一方面，提供了一种利用上述设备抽取出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的装置，包括：第一搜索单元，被配置为：在所述姓名词典中搜索与待翻译的姓名中的日语汉字/英文字符串匹配的姓和名；以及结果确定单元，被配置为：如果第一搜索单元搜索到唯一的匹配结果，则将该匹配结果作为翻译结果；如果第一搜索单元搜索到多种匹配结果，则根据所述姓名词典中的出现频次，计算每种匹配结果的得分，选择得分最高的匹配结果作为翻译结果，或者按得分从高到低的顺序排列所述匹配结果。

相应地，根据本发明的再一方面，提供了一种利用上述设备抽取出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的装置，包括：候选获得单元，被配置为：基于所述翻译规则表，使用CKY算法，进行所述翻译，获得多个候选结果；得分计算单元，被配置为：根据每种候选结果中的姓和名在所述姓名词典中存在的多少，计算每种候选结果的得分；以及结果确定单元，被配置为：选择得分最高的候选结果作为翻译结果，或者按得分从高到低的顺序排列所述候选结果。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中：

图1示出了根据本发明的实施例的抽取姓名词典和翻译规则表的方法的流程图；

图2示出了根据本发明的实施例的抽取翻译规则表(步骤S4的子步骤)的方法的流程图；

图3示出了根据本发明的实施例的利用所抽取的姓名词典和翻译规则表进行翻译的方法的流程图；

图4示出了根据本发明的实施例的利用所抽取的姓名词典和翻译规则表进行翻译的方法的流程图；

图5示出了根据本发明实施例的抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的抽取设备的结构方框图；

图6示出了根据本发明实施例的利用上述设备抽取出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的装置的结构方框图；

图7示出了根据本发明实施例的利用上述设备抽取出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的装置的结构方框图；以及

图8示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。另外，还需要指出的是，在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。

这里应说明的是日文姓名中可以包含日文汉字，如“藤原智史”，也可包含平假名和片假名。由于平假名和片假名与英文音节的对应关系明确，可以直接彼此转换，所以在此以日文姓名仅包含日文汉字的情况作为示例。对于日文姓名中包含日文汉字和平假名/片假名的情况，本领域技术人员应能理解，可将其中的平假名/片假名直接转换为对应的英文音节，将其余部分，即仅包含日文汉字的部分视作一个日文姓名，采用本发明的方法和设备处理。

此外，英文姓名是指由英文音节构成的英文字符串，例如，“藤原智史”对应的英文姓名是“FujiwaraSatoshi”。而且，英文姓名中具有将英文姓氏与英文名字分隔开来的空格等标识符。这里的英文姓名并非诸如“Mike”之类的英语姓名，而是日文姓名对应的英文音节构成的英文字符串，即日文姓名的英文表示。

在传统的技术中，对英文姓名进行切分往往是基于规则的，并且切分与对齐是两个单独的步骤，对切分的结果进行对齐。对齐结果附加于切分结果之上。这样的技术难以正确地处理日文姓名的发音并非日文姓名中的日文汉字的常见发音的组合的情况。

例如，日文姓氏“大和”应对应于“yamato”，其中日文汉字“大”对应于“yama”，“和”对应于“to”。实际上，“大”并没有单独对应于“yama”的情况，“yama”对应的往往是“山”。“大和”实际上是借用了山高大的形象而发音为“yamato”。

如果采用传统的切分方法，难以将“大和”对应于“yamato”，而是切分为“大”和“和”。再将“大”和“和”与“yamato”去对齐。在最好的情况下，也是得到“大”与“yama”对应、“和”与“to”对应的结果，也就是说，切分与对齐是单独的两个步骤，并且对齐的结果附加于切分的结果之上。如果词典中包括“大”与“yama”对应、“和”与“to”对应这样的信息，那么，基于这样的词典，也难以将日文姓“大和”正确地译作“yamato”，因为“大”对应其它音节的概率比“大”对应于“yama”的概率大得多。

实际上，应该将“大和”看作一个整体，将“大和”与“yamato”作为固定搭配对应起来。

在本发明中，将对齐结果作为切分结果，能够有效地处理上面描述的情况。而且，在本发明中，利用日英的双语信息，借助于日文汉字发音表来对齐日文汉字与英文音节，借助于英文姓名中的间隔标识来分割日文姓名中的姓氏与名字。具体的细节将在下面详细描述。

下面将参照图1描述根据本发明的实施例的抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的方法的流程。

图1示出了根据本发明的实施例的抽取姓名词典和翻译规则表的方法的流程图。如图1所示，根据本发明的抽取姓名词典和翻译规则表的抽取方法100，包括如下步骤：收集英日姓名语料库，其包括日文姓名及对应的英文姓名(步骤S1)；划分所收集的日文姓名和英文姓名(步骤S2)；利用日文汉字发音表，将日文姓名中的日文汉字与英文姓名中的英文音节对齐，该对齐结果作为切分结果，所述日文汉字发音表中记载了日文汉字及其对应的一种或多种英文字符串，所述英文字符串包括一个或多个英文音节(步骤S3)；以及根据上述对齐结果，抽取所述姓名词典和翻译规则表(步骤S4)。

在步骤S1中，收集英日姓名语料库，其包括日文姓名及对应的英文姓名。

如上所述，英文姓名是与日文姓名对应的英文音节构成的英文字符串，即日文姓名的英文表示。可以从互联网如维基百科、现有语料库等渠道直接获得包括日文姓名和对应英文姓名的英日姓名语料对。也可以针对从互联网获得的、或已有的单语语料，通过搜索引擎或机器翻译系统如音译系统进行音译，来得到双语语料。

在步骤S2中，划分所收集的日文姓名和英文姓名。

应注意，这一划分步骤与现有技术中的切分步骤并不相同。步骤S2仅为对语料的预处理，之后的对齐步骤才会获得切分结果。

具体地说，如上所述，本发明以仅包含日文汉字的日文姓名为例。因此，在步骤S2中，将日文姓名按日文汉字划分，并且根据五十音，将英文姓名按音节划分，并记录英文姓名中姓与名之间的分隔位置。

例如，“藤原智史”被划分为“藤原智史”，其中的空格表示这个日文姓名被划分为四个日文汉字“藤”、“原”、“智”、“史”。

对应的英文姓名“FujiwaraSatoshi”被划分为“fujiwara|satoshi”。应注意，为了方便统一操作，将大写字母统一转换为小写字母后再处理。划分结果中的空格表明英文姓名被划分为“fu”、“ji”、“wa”、“ra”、“sa”、“to”、“shi”共七个音节。其中的“|”表示姓氏和名字的分隔。

接下来，在步骤S3中，利用日文汉字发音表，将日文姓名中的日文汉字与英文姓名中的英文音节对齐，该对齐结果作为切分结果，所述日文汉字发音表中记载了日文汉字及其对应的一种或多种英文字符串，所述英文字符串包括一个或多个英文音节。

这里利用的日文汉字发音表可通过对双语语料进行抽取而获得，双语语料并不限于姓名类型的语料。

在日文汉字发音表中，记载了日文汉字及其对应的一种或多种英文字符串，英文字符串包括一个或多个英文音节。

以下给出了日文汉字发音表的示例。

下面具体说明如何利用如上所述的日文汉字发音表，将日文姓名中的日文汉字与英文姓名中的英文音节对齐。

首先，利用日文汉字发音表，在已经获得的日文汉字(如“藤原智史”)和英文音节(如“fujiwara|satoshi”)的基础上，获取日文姓名中的日文汉字与英文姓名中的英文音节的各种对齐组合。

然后，选取对齐组合作为对齐结果。

具体地，对齐组合的选取，基于如下准则。

首先，满足下列三个条件的对齐组合可以直接作为对齐结果：

(i)日文姓名中的每个日文汉字与英文姓名中的每个英文音节都被对齐；

(ii)与按日文姓名中的顺序排列的日文汉字对齐的英文音节的顺序符合英文音节在英文姓名中的顺序；

(iii)满足上述条件(i)和(ii)的对齐组合中英文姓名的分词方式是唯一的。

条件(i)保证了对齐无遗漏，所有日文汉字和英文音节都被对齐了。例如，不会出现“藤”对应于“fuji”，“原”对应于“wa”，“智”对应于“ra”，“史”对应于“shi”，“sa”和“to”没有对齐对象的情况。

条件(ii)保证了对齐无交叉和无共享，即按日文姓名中的顺序排列的日文汉字依次与按英文姓名中的顺序排列的英文音节对齐。例如，不会出现“原”对应于“sa”，“智”对应于“wa”的情况。也不会存在同一个英文音节对应于两个日文汉字的情况。例如，不会出现“原”对应于“wara”，“智”对应于“rasato”的情况。

条件(iii)保证了对齐的唯一性，不存在对齐的歧义。例如，不会存在既可以“藤”、“原”、“智”、“史”分别对应于“fuji”、“wara”、“sato”、“shi”，也可以“藤”、“原”、“智”、“史”分别对应于“fu”、“jiwara”、“sa”、“toshi”的情况。

满足上述三个条件的对齐组合可信度较高，是直接利用日文汉字发音表即可对齐的情形。对齐的结果作为切分的结果，可以用来更新日文汉字发音表。

例如，“藤”、“原”、“智”、“史”分别对应于“fuji”、“wara”、“sato”、“shi”。在这种情况下，切分的结果是“藤”、“原”、“智”、“史”和“fuji”、“wara”、“sato”、“shi”。可将“藤”发“fuji”的音的信息等补入日文汉字发音表中。

然而，如上所述，存在一个日文汉字对应于多个英文音节的情况，只有较为简单的情况，才容易仅依靠日文汉字发音表就能把整个日文姓名中的所有日文汉字与对应英文姓名中的所有英文音节对齐好。

在日文汉字发音表中记录一个日文汉字与一个英文音节对齐的频次信息，有助于消除歧义。

即，日文汉字发音表还包括日文汉字与一种或多种英文字符串对应的概率。对齐步骤还包括：对于满足上述条件(i)和(ii)但不满足条件(iii)的多个候选组合，根据日文汉字发音表中的概率，计算候选组合的概率，并选出概率最大的候选组合，作为对齐结果。

例如，如果根据日文汉字发音表得到两种对齐组合，且两种对齐组合均符合上述条件(i)和(ii)，则可基于每种组合中日文汉字和英文音节对应关系出现的频次情况来计算每种对齐组合的得分(概率)。选取得分高的组合作为对齐的结果以及切分的结果。

相应地，在利用对齐组合更新日文汉字发音表时，可递增日文汉字发音表中相应的发音情况的出现频次。

由于仅依靠日文汉字发音表就能对齐整个日文姓名中的所有日文汉字与英文姓名中的所有英文音节的情况下对齐组合的可信度高，所以，在利用这样的对齐组合更新日文汉字发音表时，递增的数值可以设置为较高。而以其他方式获得的对齐组合被利用来更新日文汉字发音表时，递增的数值可以设置为较低。

在某些情况下，不能仅依靠日文汉字发音表就能对齐所有日文汉字和英文音节，并且利用了日文汉字发音表中的频次信息之后，仍然存在部分无法确定对齐关系的日文汉字和英文音节。此时，可采用排除法，先将能够根据上述两种手段确定的日文汉字与英文音节对齐关系固定下来，剩余的日文汉字和英文音节可以根据其它信息来确定。例如，对于满足上述条件(ii)但不满足条件(i)的对齐组合，将已经对齐的日文汉字之间的未对齐日文汉字与对应的未对齐英文字符串对齐。如日文汉字“藤原智史”和英文音节“fujiwara|satoshi”，可以确定“藤”对应于“fuji”，“智”对应于“sato”，但日文汉字发音表中没有“原”、“史”的相关信息，则可确定“藤”、“智”之间的“原”对应于“fuji”、“sato”之间的“wara”，剩余的“史”对应于剩余的“shi”。

类似地，如果能够确定“藤”对应于“fuji”，“史”对应于“shi”，无法确定“原”、“智”与“wara|sato”，则可根据“|”表示的姓氏与名字的分隔，将“原”对齐到“wara”，将“智”对齐到“sato”。

如果根据上述四种方式，仍无法确定对应关系，例如，确定了“藤”对应于“fuji”，“原”对应于“wara”，但“智”、“史”与“satoshi”无法对齐，则改变切分的粒度，将“智史”与“satoshi”对齐。前文提到的日文姓氏“大和”与“yamato”就可以通过这种方法对齐。

显然，通过排除法、利用英文姓名中的分隔等方式确定的对齐关系的可信度相对较低。在利用这样的对齐结果来更新日文汉字发音表时，频次递增的程度较小。

经过上述步骤S1-S3，可获得日文姓名中的日文汉字与英文姓名中的英文音节之间的对齐结果，该对齐结果同时作为切分结果。利用这样的语料，就可以抽取姓名词典和翻译规则表。

在步骤S4中，根据上述对齐结果，抽取姓名词典和翻译规则表。

抽取姓名词典可通过如下步骤实现：

首先，根据英文姓名中姓与名的分隔、以及日文姓名和英文姓名对齐的结果，将日文姓名中的日文汉字按姓与名分开。

例如，将“藤原智史”分为姓氏“藤原”和名字“智史”。

然后，将彼此对应的日文姓/名和英文姓/名及其在语料库中出现的频次记载在姓名词典中。

例如，姓名词典中包括条目：“藤原…fujiwara…1”、“智史…satoshi…1”。其中，“1”仅为示例，表示通过利用日文汉字发音表获得较为确定的对齐结果的次数为1。

应注意，能够抽取姓氏和名字的前提是日文姓名和英文姓名的对齐结果能够将日文姓名和英文姓名中的姓氏与名字分开。如果不满足这一条件，则不抽取姓氏和名字。

此外，应理解，姓名词典既可以是包含姓氏和名字的一个词典，也可以是仅包含姓氏的姓氏词典和仅包含名字的名字词典。

由于将切分和对齐统一为一个步骤，将对齐结果作为切分结果，所以本发明获得的日文英文姓氏对的准确度高、粒度灵活。

图2示出了根据本发明的实施例的抽取翻译规则表(步骤S4的子步骤)的方法的流程图。如图2所示，根据本发明的抽取翻译规则表的方法，包括如下步骤：提取日文姓名中的n元日文汉字，n≥1且n的最大值为日文姓名中的日文汉字总数(步骤S41)；根据对齐结果，提取与n元日文汉字对应的英文字符串及其在语料库中的出现频次(步骤S42)；根据所述出现频次，计算n元日文汉字与英文字符串对应的概率(步骤S43)；其中，所述n元日文汉字、对应的英文字符串、概率构成所抽取的翻译规则表。

抽取翻译规则表主要是为了保存单个日文汉字或日文汉字串的发音及其概率，以供翻译时使用。

由于同一个日文汉字在不同的汉字组合中发音可能不同，因此，不仅抽取单个日文汉字的发音，而且抽取不同汉字组合中该日文汉字的发音，也就是说，将日文汉字的临近信息也记录下来，帮助判断日文汉字的正确发音，即与日文汉字对应的英文字符串。

因此，在步骤S41中，提取日文姓名中的n元日文汉字，n≥1且n的最大值为日文姓名中的日文汉字总数。

例如，“藤原智史”可提取出“藤”、“藤原”、“藤原智”、“藤原智史”、“原”、“原智”、“原智史”、“智”、“智史”、“史”。

在步骤S42中，根据对齐结果，提取与n元日文汉字对应的英文字符串及其在语料库中的出现频次。

例如，“藤”对应于“fuji”，在语料库中出现了100次。

在步骤S43中，根据所述出现频次，计算n元日文汉字与英文字符串对应的概率。

例如，“藤”对应于“fuji”、“to”的频次为2次和8次，则可计算为“藤”发音为“fuji”的概率＝2/(2+8)＝0.2。

本发明不限于此，只要能够将出现频次转换为翻译概率即可。

这样，经过步骤S41-S43，可以获得n元日文汉字、对应的英文字符串、相应的概率，这三者构成所抽取的翻译规则表。

由于将切分和对齐统一为一个步骤，将对齐结果作为切分结果，所以本发明获得的翻译规则表的准确度高、粒度灵活。

举例来说，这样抽取出来“大”对应于“yama”的概率较小，因为“大”仅在“大和”中才发音为“yama”，而“大和”对应于“yamato”的概率相对较大，这体现了“大和”作为整体出现时的正确读音。这样，利用本发明所抽取的翻译规则表进行翻译时，遇到“大和”之外的“大”时，不会因为“大”对应于“yama”而译作“yama”，在遇到“大和”时，会因为存在“大和”对应“yamato”的较高概率，而更可能得到正确的翻译结果。

下面将参照图3描述根据本发明的实施例的利用如上所述的方法抽取出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的方法的流程。

图3示出了根据本发明的实施例的利用所抽取的姓名词典和翻译规则表进行翻译的方法的流程图。如图3所示，根据本发明的利用姓名词典和翻译规则表进行翻译的翻译方法300包括如下步骤：在所述姓名词典中搜索与待翻译的姓名中的日语汉字/英文字符串匹配的姓和名(步骤S31)；以及如果搜索到唯一的匹配结果，则将该匹配结果作为翻译结果(步骤S32)；如果搜索到多种匹配结果，则根据所述姓名词典中的出现频次，计算每种匹配结果的得分，选择得分最高的匹配结果作为翻译结果，或者按得分从高到低的顺序排列所述匹配结果(步骤S33)。

由于本发明所抽取出的姓名词典是从已有的姓名对中抽取出来的，而翻译规则表表示的是n元字串对应关系，所以姓名词典的可靠性更高。在姓名词典和翻译规则表均具备的情况下，优选地使用姓名词典进行翻译。

具体地，在步骤S31中，在所述姓名词典中搜索与待翻译的姓名中的日语汉字/英文字符串匹配的姓和名。

显然，如果搜索到唯一的匹配结果，则将该匹配结果作为翻译结果。

否则，即如果搜索到多种匹配结果，则根据所述姓名词典中的出现频次，计算每种匹配结果的得分，选择得分最高的匹配结果作为翻译结果，或者按得分从高到低的顺序排列所述匹配结果。

这是因为出现频次越多，匹配结果的可靠性越高。

当然，有时仅依靠姓名词典不足以翻译整个日文姓名或英文姓名。此时，可借助于本发明抽取的翻译规则表进行进一步的翻译。

具体地，如果在姓名词典中搜索不到与待翻译的姓名中的日语汉字/英文字符串匹配的姓和/或名，则在翻译规则表中搜索。

而且，如果在翻译规则表中搜索到唯一的匹配结果，则将该匹配结果作为翻译结果。

而如果在翻译规则表中搜索到多种匹配结果，则：根据翻译规则表中的概率，或者根据每种匹配结果中的姓和名在姓名词典中存在的多少，计算每种匹配结果的得分；选择得分最高的匹配结果作为翻译结果，或者按得分从高到低的顺序排列所述匹配结果。

根据概率计算得分的方式可以由本领域技术人员灵活设计。根据匹配结果中的姓和名在姓名词典中存在的多少，是考虑到出现次数多的姓氏和名字的置信度相对较高。

除了先利用姓名词典进行翻译，不能全部翻译再利用翻译规则表的方案之外，还可以直接利用两种信息进行翻译，即利用翻译规则表进行翻译以得到多种候选，利用姓名词典对多种候选进行验证和筛选。

下面将参照图4描述根据本发明的实施例的利用如上所述的方法抽取出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的方法的流程。

图4示出了根据本发明的实施例的利用所抽取的姓名词典和翻译规则表进行翻译的方法的流程图。如图4所示，根据本发明的利用姓名词典和翻译规则表进行翻译的翻译方法400包括如下步骤：基于所述翻译规则表，使用CKY算法，进行所述翻译，获得多个候选结果(步骤S401)；根据每种候选结果中的姓和名在所述姓名词典中存在的多少，计算每种候选结果的得分(步骤S402)；以及选择得分最高的候选结果作为翻译结果，或者按得分从高到低的顺序排列所述候选结果(步骤S403)。

CKY算法是本领域技术人员已知的机器翻译方法，在此不再赘述。由于翻译规则表是基于概率的，并且存在日文汉字与英文音节之间的一对多关系，所以CKY算法得出的翻译结果应为多个候选。

在步骤S402中，利用姓名词典对候选翻译结果进行验证。类似地基于出现次数多的对应关系可靠性高的思想。

最后，根据验证结果，选取单一翻译结果，或排列多个候选结果呈现给用户。

下面，将参照图5描述根据本发明实施例的抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的设备。

图5示出了根据本发明实施例的抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的抽取设备的结构方框图。如图5所示，根据本发明的抽取姓名词典和翻译规则表的抽取设备500包括：收集装置51，被配置为：收集英日姓名语料库，其包括日文姓名及对应的英文姓名；划分装置52，被配置为：划分所收集的日文姓名和英文姓名；对齐装置53，被配置为：利用日文汉字发音表，将日文姓名中的日文汉字与英文姓名中的英文音节对齐，该对齐结果作为切分结果，所述日文汉字发音表中记载了日文汉字及其对应的一种或多种英文字符串，所述英文字符串包括一个或多个英文音节；以及抽取装置54，被配置为：根据所述对齐装置的对齐结果，抽取所述姓名词典和翻译规则表。

在一个实施例中，收集装置51被进一步配置为：从互联网如维基百科收集日文姓名及其对应的英文姓名；或者收集日文姓名或英文姓名，并利用搜索引擎或机器翻译系统获得与其对应的英文姓名或日文姓名。

在一个实施例中，划分装置52被进一步配置为：将日文姓名按日文汉字划分；根据五十音，将英文姓名按音节划分，并记录英文姓名中姓与名之间的分隔位置。

在一个实施例中，对齐装置53被进一步配置为：利用日文汉字发音表，获取日文姓名中的日文汉字与英文姓名中的英文音节的对齐组合；选择满足下列三个条件的对齐组合，作为对齐结果：(i)日文姓名中的每个日文汉字与英文姓名中的每个英文音节都被对齐；(ii)与按日文姓名中的顺序排列的日文汉字对齐的英文音节的顺序符合英文音节在英文姓名中的顺序；(iii)满足上述条件(i)和(ii)的对齐组合中英文姓名的分词方式是唯一的。

在一个实施例中，对齐装置53被进一步配置为：根据满足上述三个条件的对齐组合，更新所述日文汉字发音表。

在一个实施例中，所述日文汉字发音表还包括日文汉字与一种或多种英文字符串对应的概率。对齐装置53被进一步配置为：对于满足上述条件(i)和(ii)但不满足条件(iii)的多个候选组合，根据所述日文汉字发音表中的概率，计算候选组合的概率，并选出概率最大的候选组合，作为对齐结果。

在一个实施例中，对齐装置53被进一步配置为：对于满足上述条件(ii)但不满足条件(i)的对齐组合，将已经对齐的日文汉字之间的未对齐日文汉字与对应的未对齐英文字符串对齐。

在一个实施例中，对齐装置53被进一步配置为：将所述未对齐日文汉字与对应的未对齐英文字符串更新到所述日文汉字发音表，并赋予相对较低的概率。

在一个实施例中，抽取装置54包括姓名词典抽取单元，其被配置为：根据英文姓名中姓与名的分隔、以及日文姓名和英文姓名对齐的结果，将日文姓名中的日文汉字按姓与名分开；将彼此对应的日文姓/名和英文姓/名及其在语料库中出现的频次记载在姓名词典中。

在一个实施例中，抽取装置54包括翻译规则表抽取单元，其被配置为：提取日文姓名中的n元日文汉字，n≥1且n的最大值为日文姓名中的日文汉字总数；根据对齐结果，提取与n元日文汉字对应的英文字符串及其在语料库中的出现频次；根据所述出现频次，计算n元日文汉字与英文字符串对应的概率；所述n元日文汉字、对应的英文字符串、概率构成所抽取的翻译规则表。

图6示出了根据本发明实施例的利用上述设备抽取出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的装置的结构方框图。

如图6所示，根据本发明的利用姓名词典和翻译规则表进行翻译的翻译装置600包括：第一搜索单元61，被配置为：在所述姓名词典中搜索与待翻译的姓名中的日语汉字/英文字符串匹配的姓和名；以及结果确定单元62，被配置为：如果第一搜索单元搜索到唯一的匹配结果，则将该匹配结果作为翻译结果；如果第一搜索单元搜索到多种匹配结果，则根据所述姓名词典中的出现频次，计算每种匹配结果的得分，选择得分最高的匹配结果作为翻译结果，或者按得分从高到低的顺序排列所述匹配结果。

在一个实施例中，翻译装置600还包括第二搜索单元63，如果在所述姓名词典中搜索不到与待翻译的姓名中的日语汉字/英文字符串匹配的姓和/或名，则所述第二搜索单元63在所述翻译规则表中搜索；所述结果确定单元62被配置为：如果在所述翻译规则表中搜索到唯一的匹配结果，则将该匹配结果作为翻译结果；如果在所述翻译规则表中搜索到多种匹配结果，则根据所述翻译规则表中的概率，或者根据每种匹配结果中的姓和名在所述姓名词典中存在的多少，计算每种匹配结果的得分，选择得分最高的匹配结果作为翻译结果，或者按得分从高到低的顺序排列所述匹配结果。

图7示出了根据本发明实施例的利用上述设备抽取出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的装置的结构方框图。

如图7所示，根据本发明的利用姓名词典和翻译规则表进行翻译的翻译装置700包括：候选获得单元71，被配置为：基于所述翻译规则表，使用CKY算法，进行所述翻译，获得多个候选结果；得分计算单元72，被配置为：根据每种候选结果中的姓和名在所述姓名词典中存在的多少，计算每种候选结果的得分；以及结果确定单元73，被配置为：选择得分最高的候选结果作为翻译结果，或者按得分从高到低的顺序排列所述候选结果。

由于在根据本发明的抽取设备500、翻译装置600、翻译装置700中所包括的各个装置和单元中的处理分别与上面描述的抽取方法100、翻译方法300、翻译方法400中所包括的各个步骤中的处理类似，因此为了简洁起见，在此省略这些装置和单元的详细描述。

此外，这里尚需指出的是，上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图8所示的通用计算机800)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图8中，中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM803中，还根据需要存储当CPU801执行各种处理等等时所需的数据。CPU801、ROM802和RAM803经由总线804彼此连接。输入/输出接口805也连接到总线804。

下述部件连接到输入/输出接口805：输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡比如LAN卡、调制解调器等)。通信部分809经由网络比如因特网执行通信处理。根据需要，驱动器810也可连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器810上，使得从中读出的计算机程序根据需要被安装到存储部分808中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM802、存储部分808中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

附记

1.一种抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的方法，包括：

收集英日姓名语料库，其包括日文姓名及对应的英文姓名；

针对所收集的日文姓名和英文姓名，

划分日文姓名和英文姓名；

利用日文汉字发音表，将日文姓名中的日文汉字与英文姓名中的英文音节对齐，该对齐结果作为切分结果，所述日文汉字发音表中记载了日文汉字及其对应的一种或多种英文字符串，所述英文字符串包括一个或多个英文音节；以及

根据上述对齐结果，抽取所述姓名词典和翻译规则表。

2.如附记1所述的方法，其中所述收集步骤包括：

从互联网收集日文姓名及其对应的英文姓名；或者

收集日文姓名或英文姓名，并利用搜索引擎或机器翻译系统获得与其对应的英文姓名或日文姓名。

3.如附记1所述的方法，其中所述划分步骤包括：

将日文姓名按日文汉字划分；

根据五十音，将英文姓名按音节划分，并记录英文姓名中姓与名之间的分隔位置。

4.如附记1所述的方法，其中所述对齐步骤包括：

利用日文汉字发音表，获取日文姓名中的日文汉字与英文姓名中的英文音节的对齐组合；

选择满足下列三个条件的对齐组合，作为对齐结果：

5.如附记4所述的方法，其中所述对齐步骤还包括：

根据满足上述三个条件的对齐组合，更新所述日文汉字发音表。

6.如附记4所述的方法，其中所述日文汉字发音表还包括日文汉字与一种或多种英文字符串对应的概率；

所述对齐步骤还包括：对于满足上述条件(i)和(ii)但不满足条件(iii)的多个候选组合，根据所述日文汉字发音表中的概率，计算候选组合的概率，并选出概率最大的候选组合，作为对齐结果。

7.如附记4-6之一所述的方法，其中所述对齐步骤还包括：

对于满足上述条件(ii)但不满足条件(i)的对齐组合，将已经对齐的日文汉字之间的未对齐日文汉字与对应的未对齐英文字符串对齐。

8.如附记7所述的方法，其中所述对齐步骤还包括：

将所述未对齐日文汉字与对应的未对齐英文字符串更新到所述日文汉字发音表，并赋予相对较低的概率。

9.如附记1所述的方法，其中所述抽取姓名词典包括：

根据英文姓名中姓与名的分隔、以及日文姓名和英文姓名对齐的结果，将日文姓名中的日文汉字按姓与名分开；

将彼此对应的日文姓/名和英文姓/名及其在语料库中出现的频次记载在姓名词典中。

10.如附记1所述的方法，其中所述抽取翻译规则表包括：

提取日文姓名中的n元日文汉字，n≥1且n的最大值为日文姓名中的日文汉字总数；

根据对齐结果，提取与n元日文汉字对应的英文字符串及其在语料库中的出现频次；

根据所述出现频次，计算n元日文汉字与英文字符串对应的概率；

所述n元日文汉字、对应的英文字符串、概率构成所抽取的翻译规则表。

11.一种利用如附记1-10所述的方法抽取出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的方法，包括：

在所述姓名词典中搜索与待翻译的姓名中的日语汉字/英文字符串匹配的姓和名；以及

如果搜索到唯一的匹配结果，则将该匹配结果作为翻译结果；

如果搜索到多种匹配结果，则根据所述姓名词典中的出现频次，计算每种匹配结果的得分，选择得分最高的匹配结果作为翻译结果，或者按得分从高到低的顺序排列所述匹配结果。

12.一种抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的设备，包括：

收集装置，被配置为：收集英日姓名语料库，其包括日文姓名及对应的英文姓名；

划分装置，被配置为：划分所收集的日文姓名和英文姓名；

对齐装置，被配置为：利用日文汉字发音表，将日文姓名中的日文汉字与英文姓名中的英文音节对齐，该对齐结果作为切分结果，所述日文汉字发音表中记载了日文汉字及其对应的一种或多种英文字符串，所述英文字符串包括一个或多个英文音节；以及

抽取装置，被配置为：根据所述对齐装置的对齐结果，抽取所述姓名词典和翻译规则表。

13.如附记12所述的设备，其中所述收集装置被进一步配置为：

从互联网如维基百科收集日文姓名及其对应的英文姓名；或者

14.如附记12所述的设备，其中所述划分装置被进一步配置为：

将日文姓名按日文汉字划分；

15.如附记12所述的设备，其中所述对齐装置被进一步配置为：

选择满足下列三个条件的对齐组合，作为对齐结果：

16.如附记15所述的设备，其中所述对齐装置被进一步配置为：

17.如附记15所述的设备，其中所述日文汉字发音表还包括日文汉字与一种或多种英文字符串对应的概率；

所述对齐装置被进一步配置为：对于满足上述条件(i)和(ii)但不满足条件(iii)的多个候选组合，根据所述日文汉字发音表中的概率，计算候选组合的概率，并选出概率最大的候选组合，作为对齐结果。

18.如附记15-17之一所述的设备，其中所述对齐装置被进一步配置为：

19.如附记18所述的设备，其中所述对齐装置被进一步配置为：

20.如附记12所述的设备，其中所述抽取装置包括姓名词典抽取单元，其被配置为：

Claims

收集英日姓名语料库，其包括日文姓名及对应的英文姓名；

针对所收集的日文姓名和英文姓名，

划分日文姓名和英文姓名；

根据上述对齐结果，抽取所述姓名词典和翻译规则表。

2.如权利要求1所述的方法，其中所述划分步骤包括：

将日文姓名按日文汉字划分；

3.如权利要求1所述的方法，其中所述对齐步骤包括：

选择满足下列三个条件的对齐组合，作为对齐结果：

4.如权利要求3所述的方法，其中所述对齐步骤还包括：

5.如权利要求3所述的方法，其中所述日文汉字发音表还包括日文汉字与一种或多种英文字符串对应的概率；

6.如权利要求3-5之一所述的方法，其中所述对齐步骤还包括：

7.如权利要求6所述的方法，其中所述对齐步骤还包括：

8.如权利要求1所述的方法，其中所述抽取姓名词典包括：

9.如权利要求1所述的方法，其中所述抽取翻译规则表包括：

10.一种抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的设备，包括：

划分装置，被配置为：划分所收集的日文姓名和英文姓名；