CN103189859A

CN103189859A - 输入文本字符串的转换

Info

Publication number: CN103189859A
Application number: CN2011800414321A
Authority: CN
Inventors: 萨斯卡·B·布拉韦尔; 马丁·扬斯什; 理查德·斯普罗特; 竹中浩; 寺岛有为
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2010-08-26
Filing date: 2011-08-26
Publication date: 2013-07-03
Anticipated expiration: 2031-08-26
Also published as: WO2012027672A1; JP6511221B2; KR20140018836A; US10133737B2; CN103189859B; US20140163952A1; KR101890835B1; JP2013540304A

Abstract

用于对文本字符串进行变换的方法、系统以及装置，包括编码在计算机存储介质上的计算机程序。总的来说，在本说明书中描述的主题的一个方面可以在方法中具体化，所述方法包括以下动作：接收具有多个词语的输入字符串，该输入字符串为第一形式；将输入字符串从第一形式变换成第二形式，其包括：将一个或多个规则应用到输入字符串来识别用于翻译的一个或多个词语，所识别的该一个或多个词语少于该多个词语，将所识别的一个或多个词语翻译成第二形式的一个或多个翻译词语，以及将该多个词语的剩余词语音译成第二形式的音译词语；以及连接翻译和音译词语来形成第二形式的混合输出字符串。

Description

输入文本字符串的转换

技术领域

本说明书涉及输入字符串的转换。

背景技术

传统文本与特定形式相关联，例如与特定书写系统和特定自然语言相关联。可以使用书写系统来表示一种或多种语言。例如，（使用罗马字符来表示的）拉丁书写系统可以用于自然语言英语以及用于例如如在罗马化中文（例如，拼音）中使用的自然语言中文。类似地，可以使用多个书写系统来表示同一语言。例如，可以使用汉字和拼音书写系统来表示中文。对输入字符串在形式之间进行转换（例如，从一个书写系统到另一个或从一种自然语言到另一种）会涉及输入字符串的翻译或音译。

发明内容

本说明书描述了与将文本输入字符串从第一形式转换成第二形式有关的技术。

在文本和言语的国际化和翻译中，某些词基于其含义或语义被翻译（例如，英语“high”可以被翻译成日语“高い”，而英语“bridge”可以被翻译成“橋”）。其他词基于其发音或正字法，例如使用特定书写系统来书写语言的规则，被音译。例如，英语名称“Highbridge”被音译成日语为“ハイブリッジ”，而不是翻译形式“高橋”。混合形式包括在语义上翻译输入字符串的一部分，并且音译该输入字符串的其他部分。例如，“Highbridge Park”可以变成日语的混合形式“ハイブリッジ公園”，其中“ハイブリッジ”是音译部分以及“公園”是翻译部分。

本说明书描述了用于将词语的输入字符串从第一形式转换成第二形式，例如从一种自然语言或书写系统转换成另一种自然语言或书写系统的技术。可以例如使用音译和混合翻译技术来执行该转换。将词语的输入字符串从第一形式转换成第二形式可以包括从第一语言的书写系统转换成第二语言的书写系统以及在同一语言的两个书写系统之间进行转换。

在一些实施方式中，对于包括多个词语的输入字符串，执行机器变换来将输入字符串从一个形式转换成另一个形式的输出字符串。机器变换可以包括生成是输入字符串中的词语的音译和翻译的混合的输出字符串。例如，对词语的输入字符串进行转换可以包括使用规则来确定一个或多个词语是否待被翻译，并且使用特定于语言的规则来对其他词语执行音译。

总的来说，在本说明书中描述的主题的一个方面可以在方法中具体化，所述方法包括以下动作：接收具有多个词语的输入字符串，该输入字符串为第一形式；将输入字符串从第一形式变换成第二形式，其包括：将一个或多个规则应用到输入字符串来识别用于翻译的一个或多个词语，所识别的一个或多个词语少于该多个词语，将所识别的一个或多个词语翻译成第二形式的一个或多个翻译词语，以及将该多个词语的剩余词语音译成第二形式的音译词语；以及连接翻译和音译词语来形成第二形式的混合输出字符串。本方面的其他实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序，其每一个被配置成执行所述方法的动作。一个或多个计算机的系统可以被配置成通过使运作时促使系统执行动作的软件、固件、硬件或其组合安装在系统上来执行特定操作或动作。一个或多个计算机程序可以被配置成通过包括当被数据处理装置执行时促使所述装置执行动作的指令来执行特定操作或动作。

这些和其他实施例可以可选地包括下面特征中的一个或多个。第一形式和第二形式分别是第一书写系统和第二书写系统。第一形式和第二形式分别是第一自然语言和第二自然语言。输入字符串包括类型，以及其中将一个或多个规则应用到输入字符串包括识别具有与输入字符串的类型相匹配的类型的一个或多个规则；以及对于与输入字符串的类型相匹配的规则，确定输入字符串是否与相应一个或多个匹配规则的字符串模式相匹配。每一个规则包括用于相应输出形式的多个相应规则输出。匹配规则包括待被从第一形式翻译成第二形式的规则模式的一个或多个词语。对剩余词语进行音译包括：将字符串符号化成多个符号；将每一个符号从第一形式音译成第二形式；以及连接第二形式的音译符号来形成第二形式的音译的输出字符串。

总的来说，在本说明书中描述的主题的一个方面可以在方法中具体化，所述方法包括以下动作：接收具有待被音译的多个词语的字符串，该字符串为第一形式；将该字符串符号化成多个符号；将每一个符号从第一形式音译成第二形式；将一个或多个特定于形式的规则应用到第二形式的音译符号；以及连接第二形式的音译符号来形成第二形式的音译的输出字符串。本方面的其他实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序，其每一个被配置成执行所述方法的动作。一个或多个计算机的系统可以被配置成通过使运作时促使系统执行动作的软件、固件、硬件或其组合安装在系统上来执行特定操作或动作。一个或多个计算机程序可以被配置成通过包括当被数据处理装置执行时促使所述装置执行动作的指令来执行特定操作或动作。

这些和其他实施例可以可选地包括下面特征中的一个或多个。对字符串进行符号化包括将字符串分成词符号。第一形式是第一书写系统以及第二形式是第二书写系统。第一形式是第一自然语言以及第二形式是第二自然语言。特定于形式的规则涉及在语素或词边界处发生的多种语音处理。连接包括基于输出形式和一个或多个语言规则来在一个或多个输出词语对之间添加另外字符。对每一个符号进行音译包括使用一个或多个有限状态转换器来生成第一形式和第二形式的语音表示。

可以实现在本说明书中描述的主题的特定实施例，以实现下面益处中的一个或多个。与纯音译或翻译相比，使用音译和语义翻译的混合提高了变换的准确性。与独立翻译单个词语相比，使用其他词语的语境改进了音译。合并关于其名称被译写的实体的信息提高了音译准确性。例如，知道“Menlo Park”是指公园还是城市可以影响变换的输出。

在附图和下面的描述中阐述了在本说明书中描述的主题的一个或多个实施例的细节。该主题的其他特征、方面和益处从描述、附图和权利要求将变得显而易见。

附图说明

图1是用于转换输入字符串的示例方法的流程图。

图2是用于对输入字符串进行机器变换的示例方法的流程图。

图3是用于对输入字符串的词语进行音译的示例方法的流程图。

图4是示例系统体系结构。

在各附图中相同的参考数字和标记指示相同的元素。

具体实施方式

图1是用于对输入字符串进行转换的示例方法100的流程图。为了方便起见，将参考执行方法100、包括一个或多个计算设备的系统描述方法100。具体地，方法100参考对地理数据进行处理以（例如，在地图视图中）展示描述了操作，然而，可以对其他类型的数据执行相似动作。

系统接收102在第一书写系统中的一个或多个输入字符串。所述输入字符串待从第一形式被转换成第二形式（例如，从第一书写系统转换成第二书写系统）。第一和第二形式可以表示相同或不同语言。在一些实施方式中，从地理特征集合（例如，从地理特征数据库）接收该一个或多个输入字符串。这些地理特征可以包括例如政治称号（例如，用于城市或州的名称）、旅游目的地或公园。

每一个地理特征可以被注释或另外标记有关于物理世界中的对应实体的信息（例如，特征类型）。该信息可以包括类型类别，例如“城市”、“公园”或“旅游胜地”。在一些实施方式中，分型是类型的简单枚举，而不是继承。在其他实施方式中，使用单继承树层级来处理分型，其中除不是任何其他类型的子类型的一个或多个根类型外，每一个类型是另一个类型的子类型。在又一些其他实施方式中，使用多继承树来处理分型，其中类型可以是零个、一个或数个其他类型的子类型。可以使用所述特征来生成规则，如在下面参考图2更详细描述的。

另外，类型层级可以允许每描述特征类型的自由形式的文本的特征有多个类型标签。除分型外，特征还可以被标记有关于所表示的物理实体的其他信息，例如，城市的人口计数或建筑物的高度。还可以使用该其他、非分型的信息来影响所生成的音译，例如，当将规则仅应用到某一大小的城市或仅应用到较大建筑物的名称时。

虽然使用了地理特征的示例，然而，可以以类似方式对其他数据进行处理，例如，商业注册中心或其中关于特定类型的外部信息是已知或可以被得到的其他数据（例如，产品名称、个体）。例如，对于企业，名称可以与可以被应用（例如，到作为识别公司的标记“Inc”）的不同企业特征相关联。

系统可选地执行预处理104。预处理可以包括对输入字符串执行的多个操作。预处理还可以使对输入字符串直接执行的动作成为必要、或生成数据库或其他信息集合（例如，词典）以供稍后应用到输入字符串。

在一些实施方式中，一些预处理步骤是用于对地理数据进行处理以供展示的较大管线的一部分。例如，对于地理数据，预处理可以包括合并和/或移除重复特征、拼接来自邻近数据集的道路、从现有特征的形状合成新的特征、清理几何不规则性（例如，在所提供的数据中的错误，诸如带有单个点位置或不一致几何的街道）或注入特征属性。

拼接来自邻近数据集的道路是指校正在不同区域之间的地理数据，其中可以使用不同数据集，例如，穿过在第一国家和第二国家之间的边界的道路可能在用于第一国家的数据集和用于第二国家的数据集之间没被对齐。该预处理操作可以是用于一般对地理数据进行处理以供展示的管线的一部分。合成地理数据中的特征包括例如从国家和省份，例如美国加澳大利亚加新西兰加加拿大减去魁北克，合成说英语区域的边界。这帮助基于除国家或其他地理政治边界外的信息来定义哪些区域需要对输入字符串的变换以及可能不需要的一些。

虽然被描述为预处理阶段的一部分，然而，取决于被执行的任务的类型，这些任务可以以复杂序列、作为稍后处理的一部分（例如，在音译期间）或作为单独操作来执行。例如，可以在下面参考图3描述的音译操作期间应用人类注入的翻译。替选地，在一些实施方式中，不执行预处理（例如，针对地图特征的地理操作可以被单独处理或对非地理数据集是不必要的）。

系统为输入字符串识别106人类输入的翻译。这些是人类为具有不规则翻译的众所周知的词语识别的翻译。例如，对于其法语名称是“Genève”的瑞士城市，该步骤可以添加英语名称“Geneva”、德语“Genf”、意大利语“Ginevra”、斯洛伐克语“

eneva”、俄语“Женева”等。同样，对于其英语名称是“California”的美国州，该步骤可以添加德语名称“Kalifornien”。这允许添加对应词语来校正输入数据，其减少了由于拼写错误或使用不被用来处理输入文本的一个或多个规则识别的词语的语言版本所致的糟糕转换的可能性。例如，一个特定街道的名称例如由于数据提供者问题可能具有打字错误或被错误命名。这些识别的翻译被输入数据库或词典，例如以供在执行在下面参考图2-3描述的音译或翻译操作时使用。

系统为一个或多个词语识别108词典翻译。对输入文本集合中具有同一名称的所有词语应用词典翻译。例如，在美国有被称为“City Hall（市政厅）”的许多建筑物。词典阶段可以查找该名称，并且将诸如德语“Rathaus”、法语“H

tel de Ville”、日语“役所”等的名称注入到具有匹配名称的每一个词语。因此，识别用于特定特征或词语的多个翻译以供在对字符串进行变换时使用。

系统对每一个输入字符串执行机器变换110。机器变换将第一形式的输入字符串的至少部分变换成第二形式。输入字符串的机器变换包括根据一个或多个规则确定是否存在可以被翻译的部分，以及执行没有被翻译的任何部分的音译。在下面参考图2-3更详细描述了输入字符串的机器变换。

系统可选地对转换后的输入字符串执行后处理112。例如，可以使用后处理来将没有正确处理的管线的一些早先部分的词语或属性列入黑名单。例如，出于语言原因（例如，南非具有是英语、荷兰语和德语的组合的许多名称，其使变换困难），对于特定地理区域，变换后的输出字符串的质量可以变化。结果，可以执行对其中数据当前是不可靠的变换后的词语，例如街道名称，列入黑名单。因此，在展示地图数据的示例中，那些词语将不被变换来供显示，而是替代地，将使用原始输入字符串。类似地，新加坡具有中文和英语两者的许多街道，因此，不需要将那些英语街道名称翻译成中文。

系统输出114第二形式的转换后的字符串。例如，可以（例如在数据库或其他库中）存储转换后的字符串以供稍后使用。在一些实施方式中，转换后的字符串是当请求对应地图数据供显示时被检索的地理标记。例如，可以将带有识别中文信息的地理数据的英语字符串的数据库转换成中文字符串以在对展示的中国地图进行标记时使用。在另一个示例中，转换后的字符串可以在被生成之后向用户展示。在任一示例中，可以单独（例如，变换后的文档）或与其他数据（例如，地图信息）一起展示转换后的字符串中的一个或多个。

图2是用于对输入字符串进行机器变换的示例方法200的流程图。为了方便起见，将参考执行方法200、包括一个或多个计算设备的系统描述方法200。

系统接收202输入字符串。可以例如从待从第一形式转换成第二形式的输入字符串集合接收该输入字符串。在一些实施方式中，该输入字符串在被接收之前已经历了一个或多个预处理步骤，例如如图1中所描述的。替选地，在没有预处理的情况下，直接处理输入字符串。

系统将规则组应用204到所接收的输入字符串。规则识别特定特征类型，以及如果特征类型与该输入字符串相匹配则待执行的动作。系统例如根据规则层级将每一个规则应用到该输入字符串。基于在输入字符串中对特征的标记，特征被匹配到特定特征类型。对于给定特征类型，规则可以具有与规则相匹配的一个或多个词语的模式。如果输入字符串与输入模式相匹配，则规则匹配。在一些实施方式中，对于为给定语言或书写系统定义的每一个规则，在相应语言或书写系统中存在一个或多个输出模式。如果输入字符串与输入模式相匹配，则系统根据规则所定义的相应输出模式生成一个或多个输出词语。

例如，为了将地理特征的英语（“en”）名称变换成日语（“ja”）、韩语（“ko”）、吉尔吉斯语（“ky”）、俄语（“ru”）、简体中文（“zh-Hans”）以及繁体中文（“zh-Hant”），在下面提供了三个示例规则结构。为了清晰起见，简化了这些示例规则。

select<feature_type:"TYPE_PARK">

name<text:"(.+)Park"language:"en">

out<text:"${l}公園"language:"ja">

out<text:"${l}

"language:"ko">

out<text:"${l}паркы"language:"ky">

out<text:"Парк${1}"language:"ru">

out<text:"${l}公园"language:"zh-Hans">

out<text:"${l}公園"language:"zh-Hant">

select<feature_type:"TYPE_TOURIST_DESTINATION">

name<text:"(.+)Zoo"language:"en">

out<text:"${1}動物園"language:"ja">

out<text:"${l}

"language:"ko">

out<text:"${1}зоопаркы"language:"ky">

out<text:"Зоопарк${1}"language:"ru">

out<text:"${l}动物园"language:"zh-Hans">

out<text:"${1}動物園"language:"zh-Hant">

select<feature_type:"TYPE_POLITICAL">

name<text:"(.+)"language:"en">

out<text:"${l}"language:"ja">

out<text:"${l}"language:"ru">

out<text:"${l}"language:"ko">

out<text:"${l}"language:"ky">

out<text:"${l}"language:"zh-Hans">

out<text:"${l}"language:"zh-Hant">

因此，例如，与特征类型“park”相关联的规则具有“(.+)Park”的英语输入模式，使得具有后跟“park”的某个通配符文本的特征类型park的输入文本字符串与该规则相匹配。例如，指在加州旧金山的公园的输入字符串Lafayette Park与该输入模式相匹配。以多种语言提供了对应输出模式。

具体地，对于给定输入字符串，再次“Lafayette Park”，系统将走过所有规则，寻找匹配。在“Lafayette Park”的示例中，第一规则匹配，因为输入字符串中的特征“Park”被标记为具有“TYPE_PARK”的特征类型。在特征类型的本体中安排规则，使得“TYPE_PARK”的子类型（未示出）（例如，TYPE_MUNICIPAL_PARK）也将匹配。另外，第一规则匹配，因为输入字符串“Lafayette Park”与输入模式“(.+)Park”相匹配。

系统基于规则来确定206是否翻译输入字符串中的一个或多个词语。具体地，如果输入字符串已与特定特征和规则相匹配，则系统生成一个或多个输出字符串。输出模式可以包括用于一种或多种语言的一个或多个翻译词语。如示例规则中所示，“out”子句包含对于输出语言，指定如何生成输出的模式。在“Lafayette Park”的情况下，规则识别多种语言的输出模式，每一个将“Park”翻译成相应语言。例如，在日语中，用于该规则的输出模式是“out<text:"${l}公園"language:"ja">”，其中${l}是“Lafayette”以及“公園”是词语“park”的日语翻译。因此，字符串的一部分被翻译成第二形式，而字符串的一部分仍然为第一形式。

相比之下，指加州的城市并且具有特征类型“TYPE_CITY”的输入字符串“Menlo Park”将不与上面示例规则中的第一规则相匹配。这是因为根据使用中的类型系统，特征类型“TYPE_CITY”不被认为是“TYPE_PARK”的子类型。因为第一规则不相匹配，因此，系统将尝试关于特征类型“TYPE_Tourist_Destination”的第二规则，再次没有成功。

然而，第三规则匹配，因为“TYPE_CITY”是“TYPE_POLITICAL”的子类型。然而，在这种情况下，不存在被翻译的字符串部分，因为用于与该规则相匹配的字符串的输出模式不包括翻译，以及整个输出${1}是“Menlo Park”。

系统对输入字符串中的一个或多个剩余词语进行音译208。具体地，对于具有一个或多个词语的输入字符串，对根据匹配规则没有被翻译的任何词语进行音译。音译将词语从第一形式映射到第二形式。第二形式可以关于相同语言或不同语言或相同书写系统或不同书写系统。在下面参考图3更详细描述了特定音译技术。

系统输出210变换后的字符串。变换后的字符串包括任何音译词语和来自规则应用的任何翻译词语的连接。在一些实施方式中，为相应语言或书写系统输出多个变换后的字符串（例如，“Park”被翻译成日语：“公園”、韩语：“”以及俄语：“Парк”）。在一些其他实施方式中，为输入字符串指定特定输出语言或书写系统（例如，英语到日语）。

在上面示例中，输入字符串“Lafayette Park”与规则相匹配，使得所应用的规则导致“Lafayette公園”，其中“公園”是“Park”的日语翻译。词语“Lafayette”然后被音译到目标书写系统中，在这种情况下是日语。在该示例中，音译返回“ラファイエット”。将这与用于“Park”的翻译相连接，导致“ラファイエット公園”的混合形式。

类似地，在“Menlo Park”的第二示例中，没有词语被翻译，因此，对整个输入字符串进行音译。对于成为日语的音译，作为结果的输出是“メンロー·パーク”。具体地，注意到，由于对特征类型的使用，城市“Menlo Park”被逐字音译，而公园“Lafayette Park”部分被音译并且部分被翻译。

作为另一个示例，输入字符串“Geneva city hall”基于规则来识别用于“city hall”的翻译。系统然后对“Geneva”执行音译。“Geneva”可以在人类输入的翻译的数据库（例如，如在上面参考图1中的步骤106所描述的）中出现，系统将“Geneva”的翻译用作音译的输出。变换后的输出然后将是与“city hall”的翻译连接在一起的“Geneva”的翻译。

类似处理可以用于其他类型的数据。例如，可以根据特定企业规则对企业名称进行处理。因此，对于企业名称“Foo Bar Inc.”，规则可以将具有“incorporated（有限公司）”的翻译的“Inc”识别成另一个形式。可以将该翻译与“Foo Bar”的音译连接在一起，导致混合变换的输出字符串。

图3是用于对输入字符串的词语进行音译的示例方法300的流程图。为了方便起见，将参考执行方法300、包括一个或多个计算设备的系统描述方法300。

系统对没有被翻译成第二形式的、为第一形式的输入字符串词语进行符号化302。例如，系统通过将字符串分成单独的词来对输入字符串词语进行符号化。在英语中，例如，这通过将空格用作分隔点来完成。在例如中文、日语和韩语的其他语言中，取决于书写系统，在词之间的空格缺乏需要用于这些语言的其他符号化技术。在上面的“Menlo Park”示例中，符号变成["Menlo","Park"]。

系统将每一个符号音译304成第二形式（例如，第二语言或书写系统）。具体地，分别音译每一个符号。在上面示例中，符号[Menlo,Park]分别被音译成[メンロー,パーク]。可以使用不同的音译技术来音译单个符号或词。在下面详细描述了示例音译技术。

可选地，取决于输入和输出形式（例如，特定输入和输出语言）的组合，系统将另外规则应用306到音译符号。具体地，这些另外规则处理特定于输入和输出形式的特定语言现象。例如，一个语言现象被称为外连接音变，或具体地，对于法语，这被称为“法语连音”。该现象涉及取决于特定词与一个或多个其他词的语境，如何处理特定词。具体地，这涉及在语素或词边界处发生的多种语音处理。

例如，考虑法语名称“Maison des abricots”（杏楼）。问题是：取决于后跟的词，法语词“des”（英语：of）是不同发音的。当将法语音译成某些其他语言时，该发音差异变得明显。如果后面的词以辅音开始，则法语“des”发音为[de]，即词尾“s”没有发音。然而，如果后面的词以元音开始，则“des”的法语发音包含有声、可听见的[z]声音，如以[dez]。作为添加的难题，法语的正确日语音译要求[z]声音不依赖于“des”的音译，而是替代地预先考虑随后词的音译。因此，当音译["Maison","des","abricots"]时，特定于语言的音译规则的应用将["メゾン","デズ","アブリコー"]改变成["メゾン","デ","ザブリコー"]，换句话说：(["mezō","dezu","aburikō"]成为["mezō","de","zaburikō"])。

为了应用这些另外的规则，使用输入和输出符号两者。另外，对于连接音变规则，可以使用连接音变触发词的词典来生成规则。例如，当将法语音译成日语时，以“-s”结尾的仅仅部分而非所有法语词触发连音，到其在日语音译中将是清楚的程度。

系统输出308音译后的输出字符串。如果多个符号被音译，则伴有基于另外规则应用的词语或词语顺序的任何改变，连接最终序列的词语来形成音译后的输出。

如果一部分被翻译，则将该音译部分与翻译部分相组合来生成上述变换后的输出字符串。在一些实施方式中，连接包括在音译词语之间添加空格（例如，在连接英语音译时）。例如，通过在每一个词语之间添加空格来连接翻译符号["Menlo","Park"]以提供“Menlo Park”。在一些其他实施方式中，在连接时，应用特定于语言的连字号连接规则。例如，在德语中，存在在特定类型的字符串中要求连字号连接，例如“Anna-Karenina-Park”的拼写规则。在又一些其他实施方式中，连接包括在音译符号之间添加其他特征。例如，可以在日语词之间添加片假名中间点。因此，对于输入字符串“Menlo Park”，日语音译后的符号[メンロー,パーク]变成输出字符串“メンロー·パーク”。规则可以比简单插入中间点而不是空格更复杂。例如，只有插入点的两侧实际上均在日语假名（片假名或平假名）文字中的一个中，插入日语片假名中间点字符才发生。因此，将“Menlo Park Bridge”变换成了["メンロー","パーク","橋"]，连接将产生“メンロー·パーク橋”。在メンロー（“Menlo”）和パーク（“Park”）之间插入中间点，因为两个字符串均以片假名书写系统形式。然而，在パーク（“Park”）和橋（“bridge”）之间不插入中间点，因为只有前者才以片假名书写，而后者以日语汉字书写系统书写。

可以使用不同技术来音译单个符号（例如，单个词）。具体地，在音译期间，针对例外词典检查每一个符号。使用例外词典来处理其发音以及相应地，到其他语言的音译是不规则的词。例外词典可以包括不同类型的数据。

在一些实施方式中，基于使用日志分析（例如，搜索日志、地图日志）来识别向用户频繁显示哪些字符串，来填充例外词典。例如，可能的是，识别地图服务的用户查看了的世界的特定部分，并且对在那些地图上展示的词语进行计数。在特定时间段（例如，数月）并且跨所有用户对计数进行合计。结果按照用户请求的来源分隔。因此，在例如日本、俄罗斯、中国、韩国的不同区域向用户频繁示出不同语言（例如，法语、英语、德语、意大利语）的特定字符串。取决于源语言的发音的不规则性，人类评估者（例如，具有特定语言技能，例如语言教师）为最高2000至20,000词手动输入音译。因此，前N个最频繁示出的词具有是正确的较高置信。将这些音译添加到例外词典。

在一些其他实施方式中，使用启发法来识别特别不规则的字符串，来填充例外词典。例如，为了识别在英国内的名称中的字符串，其可能是盖尔语而不是英语。然后，使用不同处理将这些盖尔语词从英语词语音译成另一种语言（例如，日语）。然后，将这些音译添加到例外词典。

如果在例外词典中没有找到符号，则选择特定音译技术。例如，可以基于源和目标语言或书写系统来选择特定音译技术。因此，例如，当将西班牙语输入变换成日语输出时，可以使用一种音译技术，而当将英语输入变换成日语输出时，可以使用另一种音译技术。可以使用各种音译技术。示例音译技术包括但不限于：基于语境敏感重写规则的简单音译或基于文本到语言技术的复杂音译。

例如，使用基于语境敏感重写规则的简单音译来对具有指定规则发音程度的输入语言（例如，西班牙语或捷克语）进行音译。可以接收重写规则引擎以在根据特定库音译词语时使用。使用音译库来将字母从一个书写系统变换成另一个，而不用翻译基础词。例如，英语输入“bat”可以被音译成希腊语为“βατ”。

在一些实施方式中，使用开放源音译库。该库包括定义如何将字符从一个书写系统音译到另一个书写系统的规则。根据特定变换规则句法，可以为正使用的库生成自定义变换规则。

在一些实施方式中，以多个步骤对文本进行变换：从输入语言到输入语言的音素表示（例如，国际音标字母（IPA）或X-SAMPA记号）；从输入语言的音素表示到输出语言的音素表示；从输出语言的音素表示到输出语言的书写形式。

库包括用于对特定类型的文本进行音译的规则集合。例如，在一些情况下，在希腊语和拉丁语两者的字母之间存在一对一关系。规则在源字符串和目标字符串之间映射。下面示出了这种关系：π<>p。该规则说明当你从希腊语音译成拉丁语时，将π转换成p，以及当你从拉丁语音译成希腊语时，将p转换成π。更一般地，句法是：字符串1<>字符串2。规则可以更复杂，例如，规则可以基于语境。例如，在希腊语中，如果“γ”在下面字符中的任何一个之前：γ、κ、ξ或χ，则规则将“γ”变换成“n”。否则，规则将其变换成“g”。类似地，在另一个示例中，如果希腊语西格玛在词的末尾处（但是不完全分离），则其被书写为“

”，否则其被书写为“σ”。当将字符从希腊语变换成拉丁语时，这不是问题。然而，当将字符从拉丁语变换回希腊语时，具体地，规则定义取决于正被音译的字符串的语境，何时转换成“s”时，其是问题。

例如，当执行音译来将捷克语输入字符串变换成韩语输入字符串时，可以使用下面的链：捷克语-->使用IPA符号的音素捷克语-->以拉丁语文字的韩语-->以韩语文字的韩语。具体地，这提供下面的变换ho

k

-->

-->holeusyuki-->

。

步骤是可分离的，以使规则的部分可以被独立使用，并且与其他规则链结以跨多个语言对重复使用。例如，用于将捷克语音译成日语的规则针对与捷克语到韩语规则完全相同的“使用IPA符号的音素捷克语”工作。因此，当生成韩语时和当生成日语输出时两者均可以使用从捷克语到“使用IPA符号的音素捷克语”的变换。作为说明，下面是用于取决于语境，将捷克语字母n变换成[n]或[n]的规则：

{n}[gkqx]→η；#在[g k q x]中的一个之前，捷克语字素n发音为软颚鼻音η声音

{n}→n；#在其他语境下，捷克语字素n发音为n声音。

并且，同样说明，存在用于取决于语境，将捷克语字母

（其在IPA记号中发音为[

]）变换成四个不同的韩语-拉丁语字符串的规则：

{

}$末尾→leusi；#

在词的末尾，例如，kou

→

{

}$元音→leuj；#

在元音之前

{

}k→leusyu；#

在k声音之前

{}→leuju；#

在任何其他语境下。

当执行单个词语的音译时，基于输入和输出形式，使用适当的库来应用特定规则。然后，可以基于如上所述对音译词语进行进一步处理来生成最终输出字符串，其为从第一形式的输入字符串到第二形式的输出字符串的转换。

对于带有大量不规则发音的输入语言，具体是英语，可以使用使用文本到语言技术的更复杂的系统。

具体地，可以使用基于示例离线训练的广泛模型类来将输入词变换成输出词或中间形式。在一些实施方式中，系统将有限状态转换器用作模型类。在一个示例中，可以对输入词和其对应音译的示例直接训练模型。在运行时间，经训练的模型将输入词转换成大量可能的输出形式。系统基于有限状态转换器或其他模型所分配的数字权重来得到单个最佳（或替选地，n个最佳）输出形式。

在另一个示例中，整体转换可以包括多个步骤：首先将输入形式转换成中间形式；可以执行零或多个中间转换；以及可选地与输入词相结合，从中间形式中的一个或多个得到输出音译。在一些实施方式中，将语音表示用作中间形式。具体地，首先将输入词转换成其源语言的语音表示。然后，将该语音表示转换成目标语言的语音表示。然后，将目标语言的语音表示进一步变换成目标语言的正字法形式。替选地，可以将输入词变换成目标语言的语音或正字法表示。在一些实施方式中，系统使用借助于有限状态转换器来计算的源和目标语言两者的语音表示来执行音译。

图4是示例系统体系结构400。系统体系结构400能够执行用于将输入字符串从第一形式变换成第二形式的操作。系统体系结构400包括一个或多个处理器402（例如，IBM PowerPC、英特尔奔腾4等）、一个或多个可选的显示设备404（例如，CRT、LCD）、图形处理单元406（例如，NVIDIA GeForce等）、网络接口408（例如，以太网、火线、USB等）、可选的输入设备410（例如，键盘、鼠标等）以及一个或多个计算机可读介质412。这些组件使用一个或多个总线414（例如，EISA、PCI、PCI Express等）来交换通信和数据。

词语“计算机可读介质”是指参与向处理器402提供指令以供执行的任何介质。计算机可读介质412进一步包括操作系统416（例如，Mac

、

、Linux等）、网络通信模块418、字符串变换器420以及其他应用424。

操作系统416可以是多用户、多处理、多任务、多线程、实时的等。操作系统416执行基本任务，包括但不限于：从输入设备410辨识输入；向显示设备404发送输出；保持对在计算机可读介质412（例如，存储器或存储设备）上的文件和目录的跟踪；控制外围设备（例如，盘驱动器、打印机等）；以及管理在一个或多个总线414上的业务。网络通信模块418包括用于建立并维持网络连接的各种组件（例如，用于实现通信协议，诸如TCP/IP、HTTP、以太网等的软件）。

字符串变换器420提供用于执行各种功能的各种软件组件，该各种功能用于如参考图1-3所描述的将输入字符串从第一形式变换成第二形式。

在本说明书中描述的主题和操作的实施例可以以数字电子电路、或者以计算机软件、固件或硬件，包括在本说明书中公开的结构及其结构等价物、或者以以上一个或多个的组合来实现。可以将在本说明书中描述的主题的实施例实现为一个或多个计算机程序，即一个或多个计算机程序指令模块，其被编码在计算机存储介质上供数据处理装置执行或控制数据处理装置的操作。替选地或另外地，程序指令可以被编码在非自然生成的传播信号上，所述信号例如机器生成的电的、光学或电磁的信号，其被生成以编码用于传输到适当接收器装置的信息以供数据处理装置执行。计算机存储介质可以是下述或被包括在下述中：计算机可读存储设备、计算机可读存储基片、随机或串行存取存储器阵列或设备、或以上一个或多个的组合。此外，虽然计算机存储介质不是传播信号，然而，计算机存储介质可以是编码在非自然生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质还可以是下述或被包括在下述中：一个或多个独立的物理组件或介质（例如，多个CD、盘或其他存储设备）。

可以将在本说明书中描述的操作实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他源接收的数据执行的操作。

词语“数据处理装置”包含用于处理数据的所有类型的装置、设备以及机器，作为示例包括可编程处理器、计算机、片上系统、或多个那些、或前述的组合。装置可以包括专用逻辑电路，例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）。除硬件外，装置还可以包括为讨论中的计算机程序创建执行环境的代码，例如构成处理器固件、协议堆栈、数据库管理系统、操作系统、跨平台运行时间环境、虚拟机、或以上一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础设施，诸如web服务、分布式计算和网格计算基础设施。

计算机程序（也称作程序、软件、软件应用、脚本或代码）可以以任何形式的编程语言编写，包括编译或解释语言、说明性或过程性语言，并且其可以以任何形式部署，包括作为独立程序或作为模块、组件、子程序、对象或适于在计算环境中使用的其他单元。计算机程序可以但不必对应于文件系统中的文件。可以将程序存储在保持其他程序或数据的文件（例如，存储在标记语言文档中的一个或多个脚本）的一部分、专用于讨论中的程序的单个文件或者多个协调文件（例如，存储一个或多个模块、子程序或部分代码的文件）中。可以将计算机程序部署为在一个计算机上或者在位于一个地点或跨多个地点分布并且通过通信网络互连的多个计算机上执行。

在本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行以通过操作输入数据并且生成输出来执行动作。所述过程和逻辑流还可以由专用逻辑电路执行，以及装置还可以被实现为专用逻辑电路，所述专用逻辑电路例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）。

适于执行计算机程序的处理器作为示例包括通用和专用微处理器两者，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的主要元件是用于依据指令执行动作的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个海量存储设备，例如磁盘、磁光盘或光盘，或可操作地耦接以从所述一个或多个海量存储设备接收数据或向所述一个或多个海量存储设备传送数据，或两者。然而，计算机不必具有这样的设备。此外，可以将计算机嵌入另一个设备中，所述设备例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏控制台、全球定位系统（GPS）接收器或便携式存储设备（例如，通用串行总线（USB）闪存驱动器），仅列出一些。适于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备，作为示例包括：半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充，或合并入专用逻辑电路。

为了提供与用户的交互，在本说明书中描述的主题的实施例可以在具有下述的计算机上实现：用于向用户显示信息的显示设备，例如CRT（阴极射线管）或LCD（液晶显示）监视器；以及用户通过其可以向计算机提供输入的键盘和指示设备，例如鼠标或跟踪球。也可以使用其他类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感知反馈，例如视觉反馈、听觉反馈或触觉反馈；以及可以以任何形式，包括声学的、话音或触觉的输入，接收来自用户的输入。另外，计算机可以通过将文档发送给用户所使用的设备以及从用户所使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收的请求将网页发送给用户的客户端设备上的web浏览器。

在本说明书中描述的主题的实施例可以在包括下述的计算系统中实现：后端组件，例如作为数据服务器；或者中间件组件，例如应用服务器；或者前端组件，例如具有用户通过其可以与在本说明书中描述的主题的实现交互的图形用户界面或Web浏览器的客户端计算机；或者一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过例如通信网络的任何形式或介质的数字数据通信互连。通信网络的示例包括局域网（“LAN”）和广域网（“WAN”）、互联网络（例如，因特网）以及对等网络（例如，自组对等网络）。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系依靠在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。在一些实施例中，服务器向客户端设备传输数据（例如，HTML页面）（例如，出于向与客户端设备交互的用户显示数据以及从该用户接收用户输入的目的）。可以在服务器处从客户端设备接收在客户端设备处生成的数据（例如，用户交互的结果）。

虽然本说明书包含许多具体实现细节，然而，这些不应当被解释为对任何发明或可以主张的内容的范围的限制，而应当被解释为对具体到特定发明的特定实施例的特征的描述。还可以将在本说明书中在分立的实施例的情境下描述的某些特征组合在单个实施例中实现。相反地，也可以将在单个实施例的情境下描述的各种特征分离地在多个实施例中实现或在任何适当的子组合中实现。此外，尽管可能在上面将特征描述为在某些组合中起作用，甚至最初主张如此，然而可以在一些情况下，将来自所主张的组合的一个或多个特征从组合中删去，并且可以将所主张的组合指向子组合或子组合的变体。

类似地，虽然在附图中以特定顺序描绘了操作，然而，不应当将这理解为需要以所示的特定顺序或者以连续顺序执行这样的操作、或者需要执行所有图示的操作，才能达到期望的结果。在某些情况下，多任务以及并行处理可以是有利的。此外，不应当将在上述实施例中的各种系统组件的分离理解为在所有实施例中均需要这样的分离，而应当理解的是，通常可以将所描述的程序组分和系统集成到一起成为单个软件产品或封装成多个软件产品。

因此，已经描述了本主题的特定实施例。其他实施例在所附权利要求的范围内。在一些情况下，可以以不同的顺序来执行权利要求中记载的动作并且仍然达到期望的结果。另外，在附图中描绘的过程不必需要所示的特定顺序或连续顺序，来达到期望的结果。在某些实施方式中，多任务以及并行处理可以是有利的。

Claims

1.一种由数据处理装置执行的方法，所述方法包括：

接收具有多个词语的输入字符串，所述输入字符串为第一形式；

将所述输入字符串从所述第一形式变换成第二形式，包括：

将一个或多个规则应用到所述输入字符串来识别用于翻译的一个或多个词语，所识别的一个或多个的词语少于所述多个词语，

将所识别的一个或多个词语翻译成所述第二形式的一个或多个翻译词语，以及

将所述多个词语的剩余词语音译成所述第二形式的音译词语；以及

连接所述翻译和音译词语来形成所述第二形式的混合输出字符串。

2.根据权利要求1所述的方法，其中所述第一形式和所述第二形式分别是第一书写系统和第二书写系统。

3.根据权利要求1所述的方法，其中所述第一形式和所述第二形式分别是第一自然语言和第二自然语言。

4.根据权利要求1所述的方法，其中所述输入字符串包括类型，以及其中将一个或多个规则应用到所述输入字符串包括：

识别具有与所述输入字符串的所述类型相匹配的类型的一个或多个规则；以及

对于与所述输入字符串的所述类型相匹配的规则，确定所述输入字符串是否与相应一个或多个匹配规则的字符串模式相匹配。

5.根据权利要求4所述的方法，其中每一个规则包括用于相应输出形式的多个相应规则输出。

6.根据权利要求4所述的方法，其中匹配规则包括待被从所述第一形式翻译成所述第二形式的所述规则模式的一个或多个词语。

7.根据权利要求1所述的方法，其中对剩余词语进行音译包括：

将所述字符串符号化成多个符号；

将每一个符号从所述第一形式音译成第二形式；以及

连接所述第二形式的音译符号来形成所述第二形式的音译的输出字符串。

8.一种系统，包括：

一个或多个计算机，其可被操作来进行交互以执行操作，所述操作包括：

将所述输入字符串从所述第一形式变换成第二形式，包括：

将一个或多个规则应用到所述输入字符串来识别用于翻译的一个或多个词语，所识别的一个或多个词语少于所述多个词语，

9.根据权利要求8所述的系统，其中所述第一形式和所述第二形式分别是第一书写系统和第二书写系统。

10.根据权利要求8所述的系统，其中所述第一形式和所述第二形式分别是第一自然语言和第二自然语言。

11.根据权利要求8所述的系统，其中所述输入字符串包括类型，以及其中将一个或多个规则应用到所述输入字符串包括：

12.根据权利要求11所述的系统，其中每一个规则包括用于相应输出形式的多个相应规则输出。

13.根据权利要求11所述的系统，其中匹配规则包括待被从所述第一形式翻译成所述第二形式的所述规则模式的一个或多个词语。

14.根据权利要求8所述的系统，其中对剩余词语进行音译包括：

将所述字符串符号化成多个符号；

将每一个符号从所述第一形式音译成第二形式；以及

15.一种编码有计算机程序的计算机存储介质，所述程序包括当被数据处理装置执行时促使所述数据处理装置执行操作的指令，所述操作包括：

将所述输入字符串从所述第一形式变换成第二形式，包括：

16.根据权利要求15所述的计算机存储介质，其中所述第一形式和所述第二形式分别是第一书写系统和第二书写系统。

17.根据权利要求15所述的计算机存储介质，其中所述第一形式和所述第二形式分别是第一自然语言和第二自然语言。

18.根据权利要求15所述的计算机存储介质，其中所述输入字符串包括类型，以及其中将一个或多个规则应用到所述输入字符串包括：

19.根据权利要求18所述的计算机存储介质，其中每一个规则包括用于相应输出形式的多个相应规则输出。

20.根据权利要求18所述的计算机存储介质，其中匹配规则包括待被从所述第一形式翻译成所述第二形式的所述规则模式的一个或多个词语。

21.根据权利要求15所述的计算机存储介质，其中对剩余词语进行音译包括：

将所述字符串符号化成多个符号；

将每一个符号从所述第一形式音译成第二形式；以及

连接所述第二形式的所述音译符号来形成所述第二形式的音译的输出字符串。