CN104008093A

CN104008093A - 用于中文姓名音译的方法和系统

Info

Publication number: CN104008093A
Application number: CN201410057373.2A
Authority: CN
Inventors: 黄书东; N·C·金
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-02-26
Filing date: 2014-02-20
Publication date: 2014-08-27
Also published as: US20140244234A1; US20150006145A1; US9858269B2; US9858268B2

Abstract

本发明涉及一种用于中文姓名音译的方法和系统。描述了中文姓名音译。接收包括姓氏和随后的名字的中文姓名。将所接收的中文姓名解析成姓氏和名字，方式为：通过参考已知中文姓氏列表，标识所接收的中文姓名中的任何双字符姓氏；通过参考所述已知中文姓氏列表，标识所接收的中文姓名中的任何单字符姓氏；以及在所接收的中文姓名中的剩余字符中，将任何不属于双字符或单字符姓氏的字符标识为名字。将所标识的姓氏和所标识的名字音译成汉语拼音表示。将所述姓氏和所述名字的所述汉语拼音表示规范化为预定表示。

Description

用于中文姓名音译的方法和系统

技术领域

本发明涉及字符的音译，更具体地说，涉及将中文字符的姓名音译成用罗马字母拼写的姓名。

背景技术

随着全球旅游变得日益频繁，将姓名从一种语言翻译或音译成另一种语言的需要变得越来越普遍，并且标准化姓名音译过程变得越来越重要。例如，中国政府和台湾政府最近发布了用罗马字母拼写中文人名的官方指南。这两组指南几乎相同并且可以总结如下：

1.使用汉语拼音。

2.观察原始的姓氏（SN）名字（GN）顺序，在SN和GN之间添加空格。

3.请勿在双字符名字或双字符姓氏之间添加空格，但是当第二个字符的发音以元音开始时，插入撇号以避免歧义。

4.在罕见情况下，其中姓氏字段具有两个姓氏（例如，如在台湾和香港地区的一些已婚女人的姓名中看到的那样），在两个姓氏之间插入连字符。

理论上，在使用以罗马字母拼写的中文姓名的任何位置（例如在国际出版物、信息处理、国际旅游证件等中），都应该遵循这些指南。但是，不存在根据标准惯例音译人名的自动系统。大多数翻译系统，例如GoogleTranslate（可从加利福尼亚州山景城的Google Inc.获得）和Systran（可从法国巴黎的Systran S.A.获得），偶尔依靠中文字符翻译而不是姓名音译。此类系统通常包含数亿个文本文档或数据库（它们存储翻译人员已经翻译的文本模式），并且寻找模式以便帮助确定最佳翻译。通过在文档中检测翻译人员已经翻译的模式，这些系统尝试提供统计机器翻译而不是音译。这些类型的系统存在两个严重的问题。

第一个问题是这些系统并非始终正确地识别姓名。例如，在中文姓名“欧阳进修”中，“欧阳”是双字符姓氏，“进修”是双字符名字。但是，“进修”在中文中也是一个有意义的词组，其意味着“加强某人的教育”。Google Translate将姓名“欧阳”正确地音译成“Ouyang”，但将“进修”翻译为“education”而不是“Jìnxiu”（这将是正确的音译形式）。另一方面，Systran将“欧阳进修”识别为姓名并且正确地音译。但是，当使用单字符姓氏“欧”替换双字符姓氏“欧阳”时，Systran将姓名“欧进修”翻译为“European further education（欧洲加强教育）”，因为“欧”在中文中也意味着“欧洲”。

第二个问题是如果使用数据库存储已知姓名和词组，则有时可能无法区分原始姓名所指代的个人。例如，李连杰是著名的中国功夫明星，西方世界将其称为Jet Li。Google Translate始终将“李连杰”呈现为“Jet Li”，无论该姓名是否指功夫明星。音译该姓名将产生“Li Lianjie”，这实际上可以属于相当多的不如Jet Li有名的人。另一个有趣的实例，张三在中文中通常用于指“路人甲”，但也可以是真实姓名“Zhang San”。GoogleTranslate从未提供音译，而是始终将其翻译为“Joe Smith”。

尽管International Components for Unicode（ICU）开发了汉语-拉丁语模块，可以插入该模块以进行中文音译，但它并非专门用于人名音译。如果给出一串中文字符，则ICU的汉语-拉丁语模块简单地在两个相邻字符之间插入空格，并且将每个字符音译成拼音表示。例如，将“スュ泽テ”变成“Jiang Ze Min”而不是“Jiang Zemin”。在需要将姓名解析成姓氏（SN）字段和名字（GN）字段的情况下，这可以导致问题。在用罗马字母拼写的形式中，可以将姓名“Jiang Ze Min”错误地解析成“GN=Jiang Ze”和“SN=Min”。

解析用罗马字母拼写的中文姓名可能易于出错，即使SN GN顺序不是问题。最常见的中文姓氏是单字符。但是，存在相当多的双字符姓氏。一些人还具有两个姓氏（两个单字符姓氏，或者甚至两个双字符姓氏）。例如，单字符“欧”是姓氏，但它也是双字符姓氏“欧阳”的第一个字符。ICU将姓名“欧阳天”音译成“Ou Yang Tian”，但根据音译后的形式，并不清楚SN是“OU”还是“OU YANG”。因此，需要用于将中文姓名音译成用罗马字母拼写的形式的改进的自动化技术。

发明内容

根据本发明的各实施例，提供用于中文姓名音译的方法和装置，包括计算机程序产品。接收包括姓氏和随后的名字的中文姓名。将所接收的中文姓名解析成姓氏和名字，方式为：通过参考已知中文姓氏列表，标识所接收的中文姓名中的任何双字符姓氏；通过参考所述已知中文姓氏列表，标识所接收的中文姓名中的任何单字符姓氏；以及在所接收的中文姓名中的剩余字符中，将任何不属于双字符或单字符姓氏的字符标识为名字。将所标识的姓氏和所标识的名字音译成汉语拼音表示。将所述姓氏和所述名字的所述汉语拼音表示规范化为预定表示。

在以下附图和描述中提供了本发明的一个或多个实施例的细节。从说明书和附图以及权利要求，本发明的其它特性和优点将显而易见。

附图说明

图1示出根据一个实施例的其中可以实现中文人名音译的计算机系统（10）；

图2示出根据一个实施例的用于中文人名音译的过程（200）；

图3是根据一个实施例的图2的姓名模式解析步骤204的更详细视图；

图4是根据一个实施例的图2的音译步骤206的更详细视图。

不同附图中的相同参考符号指示相同元素。

具体实施方式

在此描述的各实施例涉及使用具有标准化音译模块的自动中文音译器进行中文音译，该音译器遵守中国官方指南并且准确地将中文姓名音译成用罗马字母拼写的形式，其中正确地解析和表示SN和GN。更具体地说，涉及帮助姓名匹配系统并且防止在音译过程中丢失正确的SN和GN标识，所述自动中文音译器执行三个基本处理步骤：（1）姓名解析，（2）姓名音译，以及（3）姓名规范化。在音译姓名之前，中文音译器将原始的中文姓名解析成SN和GN字段。然后它利用ICU汉语-拉丁语模块音译SN和GN字段。因为ICU汉语-拉丁语模块未针对音译中文姓名进行优化，所以最后步骤将ICU输出规范化为表示，这些表示更好地反映用罗马字母拼写的实际中文取名惯例。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、驻留软件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机介质，该计算机介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括—但不限于—无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网（LAN）或广域网（WAN）—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面将参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品（article ofmanufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

现在参考图1，示出中文姓名音译器（10）的一个实例的示意图。应该注意，中文姓名音译器（10）仅是合适的中文姓名音译器的一个实例，并非旨在建议对在此描述的本发明实施例的使用范围或功能的任何限制。

中文姓名音译器（10）包括计算机系统12，其可以使用许多其它通用或专用计算系统环境或配置运行，如上所述。计算机系统（12）可以在由计算机系统执行的计算机系统可执行指令（例如程序模块）的一般上下文中描述。计算机系统（12）可以在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算机系统存储介质中。

如图1中所示，中文姓名音译器（10）中的计算机系统（12）以通用计算设备的形式示出。计算机系统（12）的组件可以包括但不限于：一个或多个处理器或处理单元（16）、系统存储器（28），以及连接不同系统组件（包括系统存储器（28）和处理器（16））的总线（18）。

如下面进一步示出和描述的，存储器（28）可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置为执行本发明实施例的功能。具有一组程序模块（42a-c）的程序/实用工具（40），可以存储在存储器（28）中，这样的程序模块42a-c包括但不限于操作系统、一个或多个应用程序、其它程序模块以及程序数据，这些实例中的每一个或某种组合中可能包括网络环境的实现。程序模块（42a-c）通常执行在此描述的本发明实施例中的功能和/或方法。在一个实施例中，程序模块（42a-c）包括姓名解析模块（42a）、音译模块（42b）和规范化模块（42c），如下面进一步详细描述的那样。

计算机系统（12）也可以与一个或多个外部设备（14）（例如键盘、指向设备、显示器（24）等）通信，还可与一个或多个使得用户能与计算机系统（12）交互的设备通信，和/或与使得计算机系统（12）能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等）通信。此类通信可以经由输入/输出（I/O）接口（22）进行。并且，计算机系统（12）可以通过网络适配器（20）与一个或多个网络（例如局域网（LAN）、广域网（WAN）和/或公共网络，例如因特网）通信。

图2示出根据一个实施例的用于中文人名音译的过程（200），其可以由图1中所示的中文姓名音译器（10）执行。如可以在图2中看到的，所述过程首先例如通过接收用户输入或者从电子文档读取字符，接收要音译的中文人名（步骤202）。

接下来，姓名解析模块（42a）根据中文姓名解析算法执行姓名模式解析（步骤204）。在图3中进一步详细示出姓名模式解析。中文姓名解析算法基于常见姓氏集合，并且使用大量合法的可能SN和GN模式。尽管中文姓氏中的字符数量范围可以从一个到四个，但最常见的姓氏具有单个字符，并且仅有小百分比的常用双字符姓氏。中文姓氏字段还可以包含一个或两个姓氏。中文名字可以使用一个或两个字符。在所示实施例中，姓名模式解析按如下方式进行：

可能的中文全名的长度可以短至两个字符或者长至六个字符。因此，首先检查姓名是否长于六个字符（步骤302）。如果姓名长于六个字符，则不解析中文姓名，并且所述过程返回到图2的步骤206，在该步骤音译姓名，如下面进一步详细描述的那样。如果中文姓名短于六个字符，则姓名模式解析继续。应该注意，在某些实施例中，对不完整的中文姓名（即，仅包含单个字符的那些姓名）仍进行解析过程，以便判定字符是否更可能是SN或GN。

对于姓名解析，假设中文姓名字符采用“SN GN”顺序。采用中文字符的本国中文姓名几乎普遍以SN GN顺序表示。因此，中文姓名字符的解析通常按照从左到右的顺序进行，以便首先标识SN，然后标识GN。在其中该顺序不适用的罕见情况下，音译姓名而不进行解析，然后通过姓名匹配系统内部的姓名解析算法解析以罗马字母拼写的形式。

根据中文全名的长度而应用各种解析模式。例如，具有三个到五个字符的姓名可以具有多个可能模式。对多个模式进行排序，以便首先为双字符姓氏提供优先级，然后为双字符名字提供优先级。因此，姓名模式解析按如下方式继续。首先，使用可能姓氏集合，针对一个或多个双字符姓氏测试姓名（步骤304）。接下来，针对一个或多个单字符姓氏评估未在步骤304标识为双字符姓氏的任何剩余字符（步骤306）。在该步骤之后，将不属于姓氏的任何剩余中文字符视为名字（步骤308）。这将结束姓名模式解析步骤，并且所述过程返回到图2的步骤206，在该步骤音译所标识的GN（多个）和SN（多个），如下面描述的那样。

以下实例示出图3的姓名解析算法的一些结果。

实例1：前任中国政治家江泽民

“江”是单字符姓氏。“泽”或“民”都不是姓氏，因此被视为GN字符。SN=[江]GN=[泽民]。

实例2：王李卓華

“王”和“李”都是单字符姓氏。SN=[王][李]GN=[卓華]

实例3：欧阳进修

“欧阳”是双字符姓氏。“进”和“修”不是姓氏，因此变成双字符名字。SN=[欧阳]GN=[进修]

实例4：端木李

“端木”是双字符姓氏。“李”是单字符姓氏。但是，因为“李”在最后位置，所以将其视为名字。SN=[端木]GN=[李]

实例5：欧阳诸葛弘茹

“欧阳”和“诸葛”是双字符姓氏。SN=[欧阳][诸葛]GN=[弘茹]

完成姓名模式解析之后，所述过程继续执行音译（步骤206）。在图4中进一步详细示出该步骤。如可以在图4中看到的，接收在步骤204标识的任何SN（多个）和GN（多个），以及无法解析成SN或GN的任何其它字符（步骤402）。如上所述，在一个实施例中，所述过程利用ICU汉语-拉丁语模块音译姓名。无论姓名模式解析是否成功，都音译姓名。已解析姓名和未解析姓名的不同之处在于可以在音译期间保留SN和GN结构，因此促进姓名匹配。

然后选择字符（步骤404），并且判定字符是否是上下文敏感字符（步骤406）。例如，在某些罕见情况下，中文字符的发音对其所在的姓名字段敏感。如果在步骤406判定字符是上下文敏感的，则将字符设置为绕过ICU汉语-拉丁语模块并且由专用例外规则处理（步骤408）。例如，姓氏字段中的“仇”将通过上下文敏感规则音译成“QIU”，而不是由ICU汉语-拉丁语模块翻译为“CHOU”。汉语-拉丁语模块尚未支持的字符由新音译规则处理（如果可以确定字符的发音），或者为这些字符指定专用字符串，该字符串指示应该在姓名匹配系统内部处理的未处理音译例外。

如果在步骤406判定字符不是上下文敏感的，则使用ICU汉语-拉丁语模块音译字符（步骤410）。在步骤410音译字符之后（或者在步骤408应用例外规则之后），所述过程检查是否具有更多要音译的字符（步骤412）。如果具有更多的字符，则所述过程返回到步骤404并且选择另一个字符，如上所述。当没有更多要音译的字符时，所述过程返回到图2的步骤208，如下面描述的那样。

音译完成之后，所述过程执行音译后的姓名的规范化（步骤208）。如所属技术领域的普通技术人员公知的，汉语-拉丁语模块支持扩展的拉丁字符集并且使用变音符号（diacritic）指示声调。在规范化步骤208中，删除此类声调标记。删除或替换在解析和音译阶段中添加的符号，以便最终输出符合使用音译模块（42b）的应用所规定的格式。最后，输出中文姓名的用罗马字母拼写的版本（步骤210），这标志过程（200）的结束。应该注意，尽管通过实例并且参考中文姓名描述了上面的技术，但所属技术领域的普通技术人员可以修改这些技术，例如可以将它们应用于除中文以外的语言。

附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在此使用的术语只是为了描述特定的实施例并且并非旨在作为本发明的限制。如在此使用的，单数形式“一”、“一个”和“该”旨在同样包括复数形式，除非上下文明确地另有所指。还将理解，当在此说明书中使用时，术语“包括”和/或“包含”指定了声明的特性、整数、步骤、操作、元素和/或组件的存在，但是并不排除一个或多个其它特性、整数、步骤、操作、元素、组件和/或其组合的存在或增加。

下面权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它元件相组合地执行该功能的结构、材料或操作。出于示例和说明目的给出了对本发明的描述，但所述描述并非旨在是穷举的或是将本发明限于所公开的形式。在不偏离本发明的范围和精神的情况下，对于所属技术领域的普通技术人员来说许多修改和变化都将是显而易见的。实施例的选择和描述是为了最佳地解释本发明的原理和实际应用，并且当适合于所构想的特定使用时，使得所属技术领域的其它普通技术人员能够理解本发明的具有各种修改的各种实施例。

Claims

1.一种用于中文姓名音译的计算机实现的方法，包括：

-由处理器接收包括姓氏和随后的名字的中文姓名；

-由所述处理器将所接收的中文姓名解析成姓氏和名字，方式为：

通过参考已知中文姓氏列表，标识所接收的中文姓名中的任何双字符姓氏，

通过参考所述已知中文姓氏列表，标识所接收的中文姓名中的任何单字符姓氏，以及

在所接收的中文姓名中的剩余字符中，将任何不属于双字符或单字符姓氏的字符标识为名字，

-由所述处理器将所标识的姓氏和所标识的名字音译成汉语拼音表示；以及

-由所述处理器将所述姓氏和所述名字的所述汉语拼音表示规范化为预定表示。

2.根据权利要求1的方法，其中使用International Components forUnicode汉语-拉丁语模块执行所述姓氏和名字的音译。

3.根据权利要求1的方法，其中所述姓名解析使用常见姓氏集合，以在所接收的中文姓名中标识可能的姓氏和名字模式。

4.根据权利要求1的方法，其中仅将所述姓名解析应用于长度为六个字符或更短的中文姓名。

5.根据权利要求1的方法，其中音译进一步包括：

判定姓氏或名字中的字符是否是上下文敏感的；以及

响应于判定所述字符是上下文敏感的，将例外规则应用于所述字符。

6.根据权利要求1的方法，其中规范化包括删除在解析和音译步骤中添加的任何变音符号。

7.根据权利要求1的方法，其中按照从左到右的顺序完成标识双字符和单字符姓氏。

8.根据权利要求1的方法，其中通过从中接收所述中文姓名的外部应用来确定所述预定表示。

9.一种用于中文姓名音译的计算机系统，所述系统包括用于实现权利要求1-8的任何方法的任何步骤的装置。

10.一种用于中文姓名音译的系统，包括：

-解析模块，其可操作以将所接收的中文姓名解析成姓氏和名字，方式为：

-音译模块，其可操作以将所标识的姓氏和所标识的名字音译成汉语拼音表示；以及

-规范化模块，其可操作以便将所述姓氏和所述名字的所述汉语拼音表示规范化为预定表示。

11.根据权利要求10的系统，其中所述音译模块使用InternationalComponents for Unicode汉语-拉丁语模块。

12.根据权利要求10的系统，其中所述解析模块使用常见姓氏集合，以在所接收的中文姓名中标识可能的姓氏和名字模式。

13.根据权利要求10的系统，其中仅将所述姓名解析应用于长度为六个字符或更短的中文姓名。

14.根据权利要求10的系统，其中所述音译模块进一步可操作以：

判定姓氏或名字中的字符是否是上下文敏感的；以及

15.根据权利要求10的系统，其中所述规范化模块进一步可操作以：删除由所述解析模块和音译模块添加的任何变音符号。

16.根据权利要求10的系统，其中按照从左到右的顺序完成标识双字符和单字符姓氏。

17.根据权利要求10的系统，其中通过从中接收所述中文姓名的外部应用来确定所述预定表示。