CN102193643A

CN102193643A - 一种文字输入方法和具有翻译功能的输入法系统

Info

Publication number: CN102193643A
Application number: CN2010101260205A
Authority: CN
Inventors: 张扬
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2010-03-15
Filing date: 2010-03-15
Publication date: 2011-09-21
Anticipated expiration: 2030-03-15
Also published as: CN102193643B

Abstract

本发明提供了一种文字输入方法和具有翻译功能的输入法系统，所述文字输入方法包括：接收用户输入的编码字符串；对编码字符串进行解析，获得与编码字符串对应的源语言的音节单元序列；依据源语言的音节单元序列转换得到目标语言的音节单元序列；将目标语言的音节单元序列转换得到音译结果，并加以展示；依据用户指示，将指定的音译结果输出。由于本发明通过构建两种语言在发音上的映射关系，能够实现用户通过发音就可以获得正确拼写结果的效果，可以帮助忘记如何拼写的用户输入正确拼写的单词或语句，并使得对于一些无法用意译或者意译不够准确的文字，能够得到更加准确的翻译结果。

Description

一种文字输入方法和具有翻译功能的输入法系统

技术领域

本发明涉及输入法技术领域，特别是涉及一种文字输入方法和具有翻译功能的输入法系统。

背景技术

现有的输入法系统都可以提供音字转换的基本功能，有些也附带一些特色功能，例如，皮肤更换功能、简体字和繁体字的转换功能、网页搜索链接功能等。

例如，公开号为CN101566882A的中国专利公开文件，就公开了一种文字输入方法，包括：接收选择输出模式信息并更新输入法界面；接收并显示用户输入的字符或字符串；查找并显示相匹配的字词句；接收开启翻译功能信息；接收用户选中的字词句；翻译用户选中的字词句；显示翻译结果。也就是说，该公开文献提供了一种具有翻译功能的输入法系统。

但是，对于现有输入法系统所附加的翻译功能，基本都只是提供以词条为粒度的，类似词典查词的服务。主要是基于用户输入内容所对应的候选项，进行词典查词得到相应的翻译文字。

然而，对于一些无法用词典查词或者词典查词不够准确的文字而言，现有输入法系统所附加的翻译功能是无法解决上述问题的。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何能够提供一种具有更强大的翻译功能的输入法系统。

发明内容

本发明所要解决的技术问题是提供一种具有翻译功能的输入法系统和文字输入方法，其能够基于用户输入的发音完成音译过程，并可以实现音译的翻译结果展现。

为了解决上述问题，本发明公开了一种文字输入方法，包括：接收用户输入的编码字符串；对编码字符串进行解析，获得与编码字符串对应的源语言的音节单元序列；依据源语言的音节单元序列转换得到目标语言的音节单元序列；将目标语言的音节单元序列转换得到音译结果，并加以展示；依据用户指示，将指定的音译结果输出。

优选的，所述将目标语言的音节单元序列转换得到音译结果的步骤，包括：根据目标语言音节单元序列中的各个音节单元，依次得到各个音节单元相应的候选文字；从候选文字所形成的网络中，找出最优的1条或者N条路径，作为1个或者N个音译结果进行展现。

优选的，所述文字输入方法还可以包括：对用户输入的全部编码字符串，匹配得到相应的意译结果；则，所述展示步骤包括：将该编码字符串所对应的音译结果和意译结果同时展示。

优选的，所述文字输入方法还可以包括：从用户输入的全部编码字符串中识别出需要音译的部分，转换得到相应的音译结果；对用户输入的全部编码字符串中的其他编码字符串，匹配得到相应的意译结果；则，所述展示步骤包括：依据相应编码字符串的位置关系，将音译结果和意译结果，组合后得到混合候选翻译结果进行展示。

优选的，所述文字输入方法还可以包括：对用户输入的全部编码字符串，匹配得到相应的意译结果；则，所述展示步骤包括：将该编码字符串所对应的混合候选翻译结果和意译结果同时展示。

优选的，所展示的结果包括翻译转换结果和正常输入法转换结果所组成的短语或长句；所述翻译转换结果对应所输入编码字符串的一部分，正常输入法转换结果对应另一部分。

优选的，所述从用户输入的全部编码字符串中识别出需要音译部分的步骤包括：依据预设的识别符，从用户输入的全部编码字符串中识别出需要音译的编码字符串；或者，依据某段编码字符串在用户输入的全部编码字符串中的上下文情况，判断其是否为需要音译的编码字符串；或者，依据预设的识别符，以及某段编码字符串在用户输入的全部编码字符串中的上下文情况，判断其是否为需要音译的编码字符串。

优选的，所述文字输入方法还可以包括：展示源语言候选项。

优选的，所述展示源语言候选项的方式包括：以悬浮窗的方式展示源语言候选项；或者，采用多排展示窗口，用于分别展示用户输入的编码字符串，源语言候选项和候选翻译结果。

优选的，所述将源语言的音节单元转换到目标语言的音节单元的步骤，包括：将源语言的音节单元转换到源语言的音标；依据源语言的音标转换得到目标语言的音节单元。

优选的，所述将源语言的音节单元转换到目标语言的音节单元的步骤，包括：将源语言的音节单元转换到源语言的音标；依据源语言的音标转换到目标语言的音标；将目标语言的音标转换得到目标语言的音节单元。

优选的，所述将源语言的音节单元转换到目标语言的音节单元的步骤，包括：将源语言的音节单元转换到目标语言的音标；依据目标语言的音标转换得到目标语言的音节单元。

优选的，所述文字输入方法还可以包括：获取源语言音节单元在编码字符串中的位置，和/或，其上下文情况；参考上述位置信息和/或上下文情况，将源语言的音节单元转换到目标语言的音节单元。

优选的，将源语言的音节单元转换得到多种目标语言的音节单元，得到针对多种目标语言的翻译结果。

依据本发明的另一实施例，还公开了一种输入法系统，包括：

接口单元，用于接受用户输入的编码字符串；

解析单元，用于对编码字符串进行解析，获得与编码字符串对应的源语言的音节单元序列；

发音转换单元，用于依据源语言的音节单元序列转换得到目标语言的音节单元序列；

音译结果转换单元，用于将目标语言的音节单元序列转换得到音译结果；

展示单元，用于展示音译结果；

输出单元，用于依据用户指示，将指定的音译结果上屏输出。

优选的，所述音译结果转换单元具体包括：音节单元转换模块，用于根据目标语言音节单元序列中的各个音节单元，依次得到各个音节单元相应的候选文字；最优路径查找模块，用于从候选文字所形成的网络中，找出最优的1条或者N条路径，作为1个或者N个音译结果进行展现。

优选的，所述的输入法系统还可以包括：意译翻译单元，用于对用户输入的全部编码字符串，匹配得到相应的意译结果；则，所述展示单元具体用于将该编码字符串所对应的音译结果和意译结果同时展示。

优选的，所述的输入法系统还可以包括：识别单元，用于从用户输入的全部编码字符串中识别出需要音译的部分，将其交给解析单元、发音转换单元、音译结果转换单元执行相应操作；以及，将用户输入的全部编码字符串中的其他编码字符串传送给意译翻译单元；意译翻译单元，用于对用户输入的全部编码字符串中的其他编码字符串，匹配得到相应的意译结果；则，所述展示单元具体用于依据相应编码字符串的位置关系，将音译结果和意译结果，组合后得到混合候选翻译结果进行展示。

优选的，所述意译翻译单元，还用于对用户输入的全部编码字符串，匹配得到相应的意译结果；则，所述展示单元具体用于将该编码字符串所对应的混合候选翻译结果和意译结果同时展示。

优选的，所述展示单元所展示的结果包括翻译转换结果和正常输入法转换结果所组成的短语或长句；所述翻译转换结果对应所输入编码字符串的一部分，正常输入法转换结果对应另一部分。

优选的，所述识别单元具体用于依据预设的识别符，从用户输入的全部编码字符串中识别出需要音译的编码字符串；或者，所述识别单元具体用于依据某段编码字符串在用户输入的全部编码字符串中的上下文情况，判断其是否为需要音译的编码字符串；或者，所述识别单元具体用于依据预设的识别符，以及某段编码字符串在用户输入的全部编码字符串中的上下文情况，判断其是否为需要音译的编码字符串。

优选的，所述展示单元还用于展示源语言候选项。

优选的，所述发音转换单元具体用于将源语言的音节单元转换到源语言的音标；进而，依据源语言的音标转换得到目标语言的音节单元。

优选的，所述发音转换单元具体用于将源语言的音节单元转换到源语言的音标；进而，依据源语言的音标转换到目标语言的音标；然后，将目标语言的音标转换得到目标语言的音节单元。

优选的，所述发音转换单元具体用于将源语言的音节单元转换到目标语言的音标；进而，依据目标语言的音标转换得到目标语言的音节单元。

优选的，所述发音转换单元具体用于：参考一源语言音节单元在编码字符串中的位置和/或上下文情况，将源语言的该音节单元转换到目标语言的音节单元。

与现有技术相比，本发明具有以下优点：

由于本发明通过构建两种语言在发音上的映射关系，能够实现至少两种语言文字的音译，使得用户在忘记一种语言的单词或语句拼写但记得该单词或语句发音的情况下，可以通过输入对上述语言单词或语句发音进行音译得到的另一种语言文字；本发明的输入方法再借助另一种语言文字的发音获得被音译语言的单词或语句原文，从而实现用户通过发音就可以获得正确拼写结果的效果，这样就可以帮助忘记如何拼写的用户输入正确拼写的单词或语句。

另外，对于一些无法用意译或者意译不够准确的文字，能够得到准确的翻译结果。并且本发明可以在用户向各个应用程序输入信息的过程中，直接基于用户的输入完成翻译过程，而无需借助专门的翻译软件或者翻译网页，并可以直接将翻译后的文字输入到相应位置，大大增加了用户的便利性。

附图说明

图1是本发明一种文字输入方法的实施例的步骤流程图；

图2是本发明第一种输入过程中候选项的展现界面示意图；

图3是本发明第二种输入过程中候选项的展现界面示意图；

图4是本发明第三种输入过程中候选项的展现界面示意图；

图5是本发明第四种输入过程中候选项的展现界面示意图；

图6是本发明第五种输入过程中候选项的展现界面示意图；

图7是本发明第六种输入过程中候选项的展现界面示意图；

图8是本发明第七种输入过程中候选项的展现界面示意图；

图9是本发明第八种输入过程中候选项的展现界面示意图；

图10是本发明一种输入法系统实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明一种文字输入方法的实施例，具体可以包括以下步骤：

步骤101、接收用户输入的编码字符串；

步骤102、对编码字符串进行解析，获得与编码字符串对应的源语言的音节单元序列；

步骤103、依据源语言的音节单元序列转换得到目标语言的音节单元序列；

步骤104、将目标语言的音节单元序列转换得到音译结果，并加以展示；

步骤105、依据用户指示，将指定的音译结果上屏输出。

本发明构建了两种语言在发音上的映射关系，进行词条的音译处理时，将源语言输入转化为源语言对应的发音串，然后映射到目标语言的发音串上，最后生成目标语言的一个或若干个较可能的音译结果。即本发明可以通过两种语言间发音上的映射关系，实现从源语言到目标语言的音译过程。

下面先对本发明可能的各种应用场景作简单的举例说明，并不以此为限，仅仅为了更好的描述本发明。

应用场景1

用户希望输入外文却不知道具体拼写，仅仅记得外文发音，则应用本发明，可以通过输入音译的本国文字或者本国发音，从而获得所需的外文文字。例如，用户输入“yue’han’sen”(分隔符’用于区分拼音音节)或者“约翰森”，得到“Johnson”。当然，在本发明的优选实施例中，用户输入“yue’han’xun”或者“约翰逊”，也可以得到“Johnson”。

应用场景2

用户在日常输入过程中，不想切换输入法类型输入外文，或者想要混输本国文字和外文的时候，可以使用本发明。例如，用户输入“哈喽”，得到“hello”；又例如，用户输入“dui’ni’shuo’ha’lou”，得到“对你说hello”。即前一部分为正常输入法转换结果(如拼音转换)，后一部分为翻译结果(如音译的hello)；实际上本发明正常输入法转换结果可以为现有的各种已有输入法转换模式，例如拼音转换、五笔转换等等。

应用场景3

与应用场景1相似的一个更具体应用，用户知悉以本国语言文字表达的字词，但是希望输入外文原文，而本国语言文字所表达的字词是由外文音译过来的，则用户可以通过输入本国文字，得到所需的外文原文。例如，用户输入“罗曼蒂克”，得到“romantic”。

应用场景4

用户希望得到整句的翻译结果，但是其中有一些字词是需要音译的，则可以应用本发明对其输入的一部分进行音译，另一部分意译，得到最佳的翻译结果。例如，用户输入“Virgin islands”，希望得到“维尔京群岛”，而不是“处女群岛”。

基于上面的构思，本发明可以将用户输入的编码字符串切分为音节单元，通过两种语言间音节单元的映射关系，得到所需的音译结果。具体的，音节单元可以理解为某种语言下的一个发音单元。

例如，对于中文而言，就是拼音音节(如，chen、ya、da)。

对于英文而言，切分到可以发音的小粒度单元即可，例如，可以将当前辅音(或者辅音组合)到下一个辅音之前的部分作为一个音节(如果元音开头，则自成一个音节，因为其可以单独发音)；同时还需要考虑辅音连读(双写n、双写l等)、或者特殊发音组合(比如“-er”、“-er-”、“wh-”)的情况，以便能够切分得到完善的英文音节单元。

理论上，对于任何两种语言(如，中文与德文，日文和阿拉伯文等)，都可以建立在单独发音单元上的映射关系，从而可以对源语言输入进行切分后得到的音节单元，然后基于两种语言发音上的关联得到目标语言的音节单元，进而就可以得到目标语言的文字候选项，也就实现了整个翻译过程。具体的，本发明音译中涉及的源语言和目标语言，可以为双字节字符文字(汉语文字、日语文字等)和单字节字符文字(英文等)。进一步，对于双字节字符文字，用户输入的编码字符串可以包括形码(中文五笔、韩语)字符串、或者音码(中文拼音、日文)字符串。

当然，对于本发明而言，如果用户输入的编码字符串包括多个音节单元，则可以对其切分，如果用户输入的编码字符串仅仅包括一个音节单元，则本发明也可以不进行切分步骤，直接识别该音节单元即可。例如，在单字节字符文字作为源语言输入的时候，用户输入的编码字符串可能不构成一个源语言的单词，比如英国人想用英文输入中文的“你”，那么用户可能会输入他所知道的中文“你”的读音“ne”，而ne并不是一个英文单词，其也仅仅包括一个音节单元。当然，即使仅包括一个音节单元，也不排除是英文单词的例子，比如，用户可能会输入“done”来获得所需的音译结果中文“蛋、但、淡、弹”等候选项。

如果源语言音节单元序列仅仅包括一个音节单元，则直接将映射得到的目标语言的音节单元所对应的候选文字，作为音译结果进行展示即可。

而在大多数情况下，切分得到的源语言音节单元序列可能包括多个音节单元，则可以依次得到目标语言的各个音节单元，得到目标语言音节单元序列。进而，根据目标语言音节单元序列中的各个音节单元，依次得到各个音节单元相应的候选文字；从候选文字所形成的网络中，找出最优的1条或者N条路径，作为1个或者N个音译结果进行展现。

假设，目标语言音节单元序列中，第1个音标单元有n₁个目标词候选，第2个音标单元有n₂个目标词候选，第j个音标单元有n_j个目标词候选。那么，包括j个音标单元的目标语言音节单元序列所对应的目标词候选(包括单字)一共有n₁ x n₂ x...n_n＝m个，这就形成了一个目标词候选网络。然后在该目标词候选网络中，寻找最优/n-best路径。在这些所有m个候选中，计算生成候选的语言模型得分，找出最优的1条或n条最优路径，作为音译翻译结果输出。具体网络中寻找最优/n-best路径的方法已经在现有技术中有所应用，例如，现有的中文拼音输入法的长句输入。下面给出本发明的一个例子进行简单说明。

比如，用户输入外文专名“schwarzkopf”，输入法首先将该输入拆分得到sch/wa/r/z/ko/p/f几个音节单元；然后查阅英文-中文发音映射表，找到映射关系sch→shi/si，wa→wa，r→^-，z→ci，k→ke，p→pu，f→fu；接下来查阅译名用字表shi{施、士、诗......}、si{丝、斯......}、wa{瓦......}、ci{茨、兹......}、ke{可、科......}、pu{普......}、fu{夫、伏......}，生成译名候选网络；最后计算候选的语言模型得分，获得得分最高的两个候选“施瓦茨科普夫”和“施瓦兹科普夫”，作为候选项给出。参见图2。

其中的语言模型是基于语言习惯和用法给出的一些特征规则，具体的，可以基于已有译名的统计(如，用字频度，常用在什么位置：译名开头/中间/末尾等)，目的是使得自动生成的译名结果更符合人工译名的习惯。例如，比如“娃”，一般用在女子姓名末尾；而同音的“瓦”，基本可以用在译名的任意位置。本发明对于具体语言模型的设定并不需要加以限定，本领域技术人员依据具体语言的特性、使用习惯和文法等进行设定即可。

另外，在上面的例子中，英文到汉语的发音映射表、译名用字表等映射关系，可以是人工整理得到的，也可以是基于语料的自动统计得到的。本发明并不需要对具体的生成过程加以限制。

需要说明的是，本发明的音译也可以用于一些短语或者长句的整体音译。例如，用户输入中文下的音节序列“ai misi you”，得到音译结果“Imiss you”。具体实现上，可以采用存储固定短语的方式，也可以采用在音译目标词(如，i，miss，you)的候选网络中，寻找最优/n-best路径的方式，得到音译后的短语或者整句。

下面以英文到中文的翻译过程为例进行简单说明。

1)音节切分。将用户输入序列s切分成细粒度的音节单元s₁s₂s₃...s_n：如果是英文输入状态，则用户输入序列理解为英文词条，切分依据是辅音驱动，基本上当前辅音(组合)到下一个辅音之前为一个音节(如果元音开头，则自成一个音节)，但需要考虑辅音连读(双写n、双写1等)、或者特殊发音组合(比如“-er”、“-er-”、“wh-”)的情况。比如Ballack可以切分成ba，lla和ck；Everton切分成e、ver、ton。如果只有一个音节，则就不需要切分了。如果是中文输入状态，则用户输入序列理解为拼音序列，按拼音音节进行切分。

2)源语言音节到源语言音标的映射。将源语言串被切分的各个音节，映射到目标语言音节，它可以是一个多对多的映射。表1给出了英文音节到英文音标的映射表示例，其中“-”表示音节在单词中的前后位置。

表1

英文音节单元	英文音标
		ba-，-ba-，-ba	/ba/
-lla-	/la/
		-la-	/la/，/lei/
-ck	/k/
		e-	/e/
……	……

在本发明的一些实施例中，直接可以实现源语言音节单元到目标语言音节单元的映射。但是对于英文而言，由于有些英文音节单元存在多种发音情况，在词条中处于不同位置或者上下文不同，则会发不同的音，因此，为了提高音译的准确性，首先将英文音节单元转换为英文音标，因为英文音标的发音是具有唯一性的。

即在本例中，从源语言音节到目标语言音节的转换中，不仅仅依据源语言音节单元直接进行转换，而且还参考源语言音节单元在编码字符串中的位置，和/或，其上下文情况，将源语言的音节单元转换到目标语言的音节单元。

3)源语言音标到目标语言音节的映射。表2是英文音标到中文拼音音节的示例。这同样可以是一个多对多的映射，这就构建出了用户输入序列s的，由目标语言音节单元组成的音节网络。

表2

英文音标	中文拼音音节
		/ts/	ci
/la/	la
		/va/	wa
/k/	ke
		/nai/	na yi
/v/，/vu/	fu，wu
		/wu/	wu

……

4)目标语言音节到目标语言文字的映射。对3)中生成的目标语言音节s_i，查找表3(一个译名用字表的示例)，为其生成目标词集合{d_i1，d_i2，...d_ini}。第1个音标单元有n₁个目标词候选，第二个音标单元有n₂个目标词候选。那么整个串s的候选一共有n₁ x n₂ x...n_n＝m个。这就形成了一个译名用字网络。

表3

中文拼音音节	候选用字
		Ci	茨、兹
La	拉、喇
		Wa	娃、瓦
Ke	可、科、克
		……	……

5)寻找最优/n-best路径，输出结果。在这些所有m个候选中，计算生成候选的语言模型得分，找出最优的1条或n条最优路径，作为翻译结果输出。

在上面的例子中，英文音节→中文拼音音节的转换过程中引入了英文音标作为中介，即采用了英文音节→英文音标→中文拼音音节→中文原文的过程，以提高英文音节发音的准确性，提高音译的准确程度。具体的，可以概括为：所述将源语言的音节单元转换到目标语言的音节单元的步骤，包括：将源语言的音节单元转换到源语言的音标；依据源语言的音标转换得到目标语言的音节单元。

在本发明的其他实施例中，所述将源语言的音节单元转换到目标语言的音节单元的步骤，也可以包括：将源语言的音节单元转换到目标语言的音标；依据目标语言的音标转换得到目标语言的音节单元。例如，中文作为源语言，其拼音音节可以先映射到英文音标，然后将英文音标映射到英文音节单元，进而得到英文的翻译结果(当然，从英文音节序列到英文翻译结果比较简单，直接组合即可)。该过程可以视为前述例子的反向过程，具体不再详述。

而在图2所示的例子中，则更简单，直接采用了英文音节→中文拼音音节的转换过程，如sch→shi/si，wa→wa，r→^-，z→ci，k→ke，p→pu，f→fu。

总之，本发明就是需要找到源语言音节单元→目标语言音节单元的映射关系，为了准确度或者其他更佳的效果，可以引入中介，采用间接转换的实现方案。

在本发明更为优选的实施例中，如果源语言和目标语言都存在音节发音有变化的情况，则还可以采用如下映射过程：源语言音节→源语言音标→目标语言音标→目标语言音节→目标语言原文。即，所述将源语言的音节单元转换到目标语言的音节单元的步骤，包括：将源语言的音节单元转换到源语言的音标；依据源语言的音标转换到目标语言的音标；将目标语言的音标转换得到目标语言的音节单元。例如，英文和德文或者法文等语言的相互翻译过程。

在本发明的一些优选实施例中，还会考虑到非标准音标的转换关系。例如，对于中文方言的情况。前述的表3是从中文音节到中文候选字的映射关系，针对标准普通话的。而对于地方方言而言，可以针对某种类型的方言，例如，广东，则专门建立广东发音的中文音节到中文候选字的映射关系，在客户需要时，启动该专用模式即可。

对于从中文方言的发音，希望得到英文音译结果的，也可以专门建立广东发音的中文音节到标准普通话的中文音节的映射关系，然后通过标准普通话的中文音节和英文音标的映射关系，完成音译；也可以直接建立广东发音的中文音节到标准英文音标的映射关系，完成音译。例如，用户输入方言发音“laohu”，得到的音译结果为英文单词“love”。

在本发明的另一优选实施例中，在图1所示步骤的基础上完成音译之外，还可以对编码字符串进行意译过程，实现从源语言到目标语言的意译转换，并将音译结果和意译结果同时展示。

具体的，还可以包括：对用户输入的全部编码字符串，匹配得到相应的意译结果；则，所述展示步骤包括：将该编码字符串所对应的音译结果和意译结果同时展示。参照图3，用户输入“Virgin”，切分为“V”、“irg”、“in”，应用本发明给出的音译结果包括：“维京”和“维尔京”，给出的意译结果为“处女”。

再例如，参照图4，用户输入“Schwarzkopf”，得到的音译结果包括“施瓦茨科普夫”和“施瓦兹科普夫”；得到的意译结果为“施华蔻”，因为该名词在词库中已经存在，属于一个固定翻译(品牌名)，因此，将其放在候选项的第一位。

在本发明的另一优选实施例中，用户输入的编码字符串中有一部分是需要音译的，有一部分是需要意译的，如用户整句输入或者短语输入的情况。此时的实施例，则优选的，可以还包括：从用户输入的全部编码字符串中识别出需要音译的编码字符串(即需要对其进行音译操作的编码字符串)，对其进行切分、音节单元的转换和音译结果的转换步骤；对用户输入的全部编码字符串中的其他编码字符串，匹配得到相应的意译结果；则，所述展示步骤包括：依据相应编码字符串的位置关系，将音译结果和意译结果，组合后得到混合候选翻译结果进行展示。参照图5，用户输入“Virgin islands”，切分为“V”、“irg”、“in”，“islands”(或者“is”“land”“s”)，其中的“Virgin”应该采用音译的方式，而“islands”则应该采用意译的方式，因此，图5中本发明给出的混合候选翻译结果包括：“维京群岛”、“维尔京群岛”。

在上面的整句输入或者短语输入的情况下，如何判断哪些应该采用音译，是本发明需要克服的一个困难。例如，一部分采用音译，另一部分采用意译(如，用户希望得到“维尔京群岛”)；或者一部分采用音译，另一部分按照源语言输入规则进行转换(如，用户希望得到“对你说hello”)。

本发明对于“从用户输入的全部编码字符串中识别出需要音译的编码字符串的步骤”，可以提供以下几个解决方案作为参考，但并不限于此，本领域技术人员可以基于此进行各种可能的扩展。

具体的，本发明可以依据预设的识别符，从用户输入的全部编码字符串中识别出需要音译的编码字符串；例如，字母大写作为识别符的一种(如词条首字母)，或者，用空格作为识别符等等。该方案是基于用户输入的识别符作为识别依据的。

或者，本发明也可以自动进行识别。如，依据某段编码字符串在用户输入的全部编码字符串中的上下文情况，判断其是否为需要音译的编码字符串；或者，依据预设的识别符，以及某段编码字符串在用户输入的全部编码字符串中的上下文情况，判断其是否为需要音译的编码字符串。例如，某段编码字符串前后有“老师”、“mr.”、“酒店”等人名称谓、地点指示词等，则该段编码字符串应该采用音译方式。进一步，如果还可以基于识别符和上下文情况，共同来判断，以提高自动识别的准确度。

但是在实际中，有可能自动识别的结果并不是最准的，因此，在本发明的优选实施例中，还可以包括：对用户输入的全部编码字符串，匹配得到相应的意译结果；则，所述展示步骤包括：将该编码字符串所对应的混合候选翻译结果和意译结果同时展示。即，本发明不仅展现自动识别后得到的混合候选翻译结果，为了兼顾各种可能，还将针对全部编码字符串的意译结果也展现出来。参照图6、用户输入“I am from virgin islands”，翻译后的候选项包括：1、我来自维京群岛；2、我来自维尔京群岛；3、我来自处女群岛。

对于词条级别的音译，可以直接通过词典查词的方式实现。例如，用户输入拼音“yue’han’sen”，将这三个拼音音节，转换后映射为英文音标/jo/、/han/和/sen/，然后再从这三个音标的组合，通过查词匹配的方式，就可以得到音译结果“Johnson”。当然，“yue’han’sen”还可能对应其它音标组合，比如/ju/、

和/sen/等，因此还存在其他匹配的词，此时可以借助词典查词的方式精确翻译结果，即将多个匹配的词汇与词典中的词汇进行比对，最终将与词典中相同的词汇作为候选，就本实施例而言，如果上述多个与拼音匹配的单词中只有“Johnson”与词典中的词汇相同，则仅展示“Johnson”并将其他匹配结果舍弃，如果词典中有多个与上述拼音匹配的单词，而“Johnson”的概率更高一些，则将展示翻译结果“Johnson”。

除此之外，用户在输入音译文字的过程中，对想输入的文字发音有不同的音译结果，比如“Johnson”可能输入“yue’han’sen”，也可能输入“yue’han’xun”、“zhan’sen”、“zhang’sen”等，通过这些拼音的对应关系，我们依然可以获得“Johnson”的音译结果。

对于整句或者短语输入的情况，则可以采用网络最优路径的方式实现。下面给出一种可能的实现方案。

1、音节/词汇切分。将用户输入序列s切分成细粒度的词单元s₁s₂s₃...s_n：如果是拼音串则按照词库词条的拼音表切分；如果是英文串，则在单词间插入空格(如果没有的话)。本步骤有可能需要查阅输入法词库及词库词条对应的拼音。

2、构建词汇网络。对1中生成的每个词单元s_i，查找翻译词典(中文-英文，英文-中文)或者是用户输入的历史数据，为其生成目标词集合{d_i1，d_i2，...d_ini}。

3、候选生成。第1个词单元有n₁个目标词候选，第二个词单元有n₂个目标词候选。那么整个串s的候选一共有n₁ x n₂ x...n_n＝m个。

4、调整词序。基于源语言和目标语言在使用上的差异，调整候选词序。

5、寻找最优/n-best路径，输出结果。在这些所有m个候选中，计算生成候选的语言模型得分，找出最优的1条或n条最优路径，作为翻译结果输出。

对于前述的全部音译实施例，以及音译和意译混合的实施例，本发明可以自动进行应用，也可以给出“部分音译模式”和“音译输入专用模式”，由用户主动选择，部分音译模式是指可以获得“我想去Atlanta”候选项的模式，“音译输入专用模式”是指独立于用户正常输入的一种模式，让用户在此种模式下专用于输入音译文字，并获得翻译结果。例如，对于整句或者短语的音译，后一种模式明显更适合一些。当然，对于前述的方言模糊音，也可以采用特殊模式由用户主动选择，例如，广东音译模式或者上海音译模式等等，以完成某些方言发音的音译。

由于本发明可以直接基于用户的输入进行翻译，而无需用户选择某个源语言的候选项之后，才能得到翻译结果。因此，在本发明的翻译过程中，可以不展现源语言候选项。当然，展示源语言候选项也是本发明的另一种实施例。具体的展示源语言候选项的方式多种多样，本发明不需要加以限定，下面简单给出几种可行的实施例。例如，以悬浮窗的方式展示源语言候选项；参照图7，用户输入“shangwuhuiyinicanjialema”，得到的翻译后的候选项为“did you attend the meeting this morning”和“did you attend the businessmeeting”，在示例中，将与用户输入相应的中文候选项“上午会议你参加了吗”和“商务会议你参加了吗”，采用悬浮窗的方式进行了展示。其好处在于，假设某个中国人A因为业务需要与英国人B在网上联系，而A不会英语，这时他可以借助本方案与B完成交流。A只要保证输入法针对他输入的拼音序列所给出的中文候选项是正确的，就可以了。

在本发明另外的实施例中，也可以采用三排展示窗口的方式来展现源语言候选项，如分别用于展示用户输入的编码字符串，源语言候选项和候选翻译结果。参照图8，某用户想输入译名“约翰森”的英文形式，但苦于不知道怎么拼。他输入拼音yue’han’sen，输入法可以给出汉字候选“约翰森”；并可以将这三个拼音音节，映射到英文音标/jo/、/han/和/sen/，然后再从这三个音标的组合，映射到概率最高的几个字母组合Johnson，Johannson和Johannsen，给出英文候选。在本发明的优选实施例中，还可以实现音节音标的模糊映射，例如，用户输入yue’han’xun，也可以得到英文音标/jo/、/han/和/sen/，进而映射到概率最高的几个字母组合Johnson，Johannson和Johannsen。

图8的示例将这些候选项都展示给用户，以便用户选择。即前两排为普通的输入法展现界面，相当于在普通展现界面下增加第三排作为附加展现。用户敲入数字1、2或3，即可完成对应候选项的上屏。其中Johannson和Johannsen在瑞典、挪威、丹麦等一些北欧国家中使用较为常见。

当然“Johnson”可能因为太常见而被词典收录，可以直接命中。一些生僻的译名就只能根据译名模型进行动态生成了，比如输入“kongqiesiji”，给出的候选是动态生成的“Konchesky”或者是“Koncheski”。

前面的实施例中，都是两种语言间的翻译示例，实际上，本发明完全可以实现一对多的翻译。例如，可以将源语言的音节单元转换得到多种目标语言的音节单元，得到针对多种目标语言的翻译结果。参照图9，给出来三个对应多种语言的展现示例。第一个例子，用户输入“yatelanda”，给出的候选翻译结果包括“亚特兰大”的日文、韩文、英文形式：“ァトランタ”、“Atlanta”。第二个例子，用户输入“chelsea”，给出的候选翻译结果包括中文、日文、韩文：“切尔西”、“车路士”、“チェルシ”、

第三个例子，用户输入“olofinjana”，给出的候选翻译结果包括中文和日文形式：“奥洛芬贾纳”、“ォロフィンヅャナ”。

参照图10，示出了本发明一种输入法系统的实施例，具体可以包括：

接口单元201，用于接受用户输入的编码字符串；

解析单元202，用于对编码字符串进行解析，获得与编码字符串对应的源语言的音节单元序列；

发音转换单元203，用于依据源语言的音节单元序列转换得到目标语言的音节单元序列；

音译结果转换单元204，用于将目标语言的音节单元序列转换得到音译结果；

展示单元205，用于展示音译结果；

输出单元206，用于依据用户指示，将指定的音译结果上屏输出。

在翻译过程中，源语言的音节单元可以为一个，也可以为多个。当其为多个时，所述音译结果转换单元具体包括：音节单元转换模块，用于根据目标语言音节单元序列中的各个音节单元，依次得到各个音节单元相应的候选文字；最优路径查找模块，用于从候选文字所形成的网络中，找出最优的1条或者N条路径，作为1个或者N个音译结果进行展现。

图10的输入法系统可以主要用于翻译，也可以将翻译功能作为输入法的一个辅助功能。即，图10所示的输入法系统也可以包括现有输入法的源语言候选项转换功能等等。并且，本发明可以应用于各种类型的输入法，如拼音、五笔、国标码、笔画等，或者其他语言的输入法系统日文、韩文等。

优选的，图10的输入法系统还可以将意译的翻译结果也展现给用户，即此时的输入法系统还可以包括：意译翻译单元，用于对用户输入的全部编码字符串，匹配得到相应的意译结果；则，所述展示单元205具体用于将该编码字符串所对应的音译结果和意译结果同时展示。

优选的，当用户进行整句者短语输入时，不能针对用户输入的全部编码字符串进行音译，需要一部分进行音译，一部分进行意译。此时的输入法系统还可以包括：

识别单元，用于从用户输入的全部编码字符串中识别出需要音译的编码字符串，将其交给切分单元、发音转换单元、音译结果转换单元执行相应操作；以及，将用户输入的全部编码字符串中的其他编码字符串传送给意译翻译单元；

意译翻译单元，用于对用户输入的全部编码字符串中的其他编码字符串，匹配得到相应的意译结果；

则，所述展示单元205具体用于依据相应编码字符串的位置关系，将音译结果和意译结果，组合后得到混合候选翻译结果进行展示。

优选的，前述的意译翻译单元还可以用于对用户输入的全部编码字符串，匹配得到相应的意译结果；然后，通过展示单元205，将该编码字符串所对应的混合候选翻译结果和意译结果同时展示，以便于满足对各种情况的需求。

具体的，本发明的输入法系统可以采用各种识别音译部分的方案。例如，所述识别单元具体用于依据预设的识别符，从用户输入的全部编码字符串中识别出需要音译的编码字符串；或者，所述识别单元具体用于依据某段编码字符串在用户输入的全部编码字符串中的上下文情况，判断其是否为需要音译的编码字符串；或者，所述识别单元具体用于依据预设的识别符，以及某段编码字符串在用户输入的全部编码字符串中的上下文情况，判断其是否为需要音译的编码字符串。

优选的情况是，所述展示单元205还可以用于展示源语言候选项。当然，本发明并不需要限定具体的展示方式，例如，可以采用悬浮窗的方式展示源语言候选项。

具体的，如何实现源语言音节单元到目标语言音节单元的映射关系，可以采用各种方式，下面给出几个具体的应用例。如，所述发音转换单元具体用于将源语言的音节单元转换到源语言的音标；进而，依据源语言的音标转换得到目标语言的音节单元。或者，所述发音转换单元具体用于将源语言的音节单元转换到源语言的音标；进而，依据源语言的音标转换到目标语言的音标；然后，将目标语言的音标转换得到目标语言的音节单元。或者，所述发音转换单元具体用于将源语言的音节单元转换到目标语言的音标；进而，依据目标语言的音标转换得到目标语言的音节单元。

还需要说明的是，在本发明的输入法系统中，具体的翻译过程可以在本地完成，也可以以远程通信的方式，由一个或者若干个专门的翻译服务器提供翻译结果，本发明并不需要对此加以限制。例如，前述输入法系统中的发音转换单元和音译结果转换单元均可以位于远程服务器上，甚至，切分单元也可以位于远程服务器上，本地输入法系统将用户输入信息传送至远程服务器，接收翻译结果即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种文字输入方法和一种具有翻译功能的输入法系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文字输入方法，其特征在于，包括：

接收用户输入的编码字符串；

对编码字符串进行解析，获得与编码字符串对应的源语言的音节单元序列；

依据源语言的音节单元序列转换得到目标语言的音节单元序列；

将目标语言的音节单元序列转换得到音译结果，并加以展示；

依据用户指示，将指定的音译结果输出。

2.如权利要求1所述的方法，其特征在于，所述将目标语言的音节单元序列转换得到音译结果的步骤，包括：

根据目标语言音节单元序列中的各个音节单元，依次得到各个音节单元相应的候选文字；

从候选文字所形成的网络中，找出最优的1条或者N条路径，作为1个或者N个音译结果进行展现。

3.如权利要求1所述的方法，其特征在于，还包括：

对用户输入的全部编码字符串，匹配得到相应的意译结果；

则，所述展示步骤包括：

将该编码字符串所对应的音译结果和意译结果同时展示。

4.如权利要求1所述的方法，其特征在于，还包括：

从用户输入的全部编码字符串中识别出需要音译的部分，转换得到相应的音译结果；

对用户输入的全部编码字符串中的其他编码字符串，匹配得到相应的意译结果；

则，所述展示步骤包括：

依据相应编码字符串的位置关系，将音译结果和意译结果，组合后得到混合候选翻译结果进行展示。

5.如权利要求4所述的方法，其特征在于，还包括：

对用户输入的全部编码字符串，匹配得到相应的意译结果；

则，所述展示步骤包括：

将该编码字符串所对应的混合候选翻译结果和意译结果同时展示。

6.如权利要求1所述的方法，其特征在于，

所展示的结果包括翻译转换结果和正常输入法转换结果所组成的短语或长句；所述翻译转换结果对应所输入编码字符串的一部分，正常输入法转换结果对应另一部分。

7.如权利要求4所述的方法，其特征在于，所述从用户输入的全部编码字符串中识别出需要音译部分的步骤包括：

依据预设的识别符，从用户输入的全部编码字符串中识别出需要音译的编码字符串；

或者，依据某段编码字符串在用户输入的全部编码字符串中的上下文情况，判断其是否为需要音译的编码字符串；

或者，依据预设的识别符，以及某段编码字符串在用户输入的全部编码字符串中的上下文情况，判断其是否为需要音译的编码字符串。

8.如权利要求1所述的方法，其特征在于，还包括：

展示源语言候选项。

9.如权利要求8所述的方法，其特征在于，所述展示源语言候选项的方式包括：

以悬浮窗的方式展示源语言候选项；

或者，采用多排展示窗口，用于分别展示用户输入的编码字符串，源语言候选项和候选翻译结果。

10.如权利要求1所述的方法，其特征在于，所述将源语言的音节单元转换到目标语言的音节单元的步骤，包括：

将源语言的音节单元转换到源语言的音标；

依据源语言的音标转换得到目标语言的音节单元。

11.如权利要求1所述的方法，其特征在于，所述将源语言的音节单元转换到目标语言的音节单元的步骤，包括：

将源语言的音节单元转换到源语言的音标；

依据源语言的音标转换到目标语言的音标；

将目标语言的音标转换得到目标语言的音节单元。

12.如权利要求1所述的方法，其特征在于，所述将源语言的音节单元转换到目标语言的音节单元的步骤，包括：

将源语言的音节单元转换到目标语言的音标；

依据目标语言的音标转换得到目标语言的音节单元。

13.如权利要求1所述的方法，其特征在于，还包括：

获取源语言音节单元在编码字符串中的位置，和/或，其上下文情况；

参考上述位置信息和/或上下文情况，将源语言的音节单元转换到目标语言的音节单元。

14.如权利要求1所述的方法，其特征在于，

将源语言的音节单元转换得到多种目标语言的音节单元，得到针对多种目标语言的翻译结果。

15.一种输入法系统，其特征在于，包括：

接口单元，用于接受用户输入的编码字符串；

展示单元，用于展示音译结果；

16.如权利要求15所述的输入法系统，其特征在于，所述音译结果转换单元具体包括：

音节单元转换模块，用于根据目标语言音节单元序列中的各个音节单元，依次得到各个音节单元相应的候选文字；

最优路径查找模块，用于从候选文字所形成的网络中，找出最优的1条或者N条路径，作为1个或者N个音译结果进行展现。

17.如权利要求15所述的输入法系统，其特征在于，还包括：

意译翻译单元，用于对用户输入的全部编码字符串，匹配得到相应的意译结果；

则，所述展示单元具体用于将该编码字符串所对应的音译结果和意译结果同时展示。

18.如权利要求15所述的输入法系统，其特征在于，还包括：

识别单元，用于从用户输入的全部编码字符串中识别出需要音译的部分，将其交给解析单元、发音转换单元、音译结果转换单元执行相应操作；以及，将用户输入的全部编码字符串中的其他编码字符串传送给意译翻译单元；

则，所述展示单元具体用于依据相应编码字符串的位置关系，将音译结果和意译结果，组合后得到混合候选翻译结果进行展示。

19.如权利要求18所述的输入法系统，其特征在于，所述意译翻译单元，还用于对用户输入的全部编码字符串，匹配得到相应的意译结果；

则，所述展示单元具体用于将该编码字符串所对应的混合候选翻译结果和意译结果同时展示。

20.如权利要求15所述的输入法系统，其特征在于，

所述展示单元所展示的结果包括翻译转换结果和正常输入法转换结果所组成的短语或长句；所述翻译转换结果对应所输入编码字符串的一部分，正常输入法转换结果对应另一部分。

21.如权利要求18所述的输入法系统，其特征在于，

所述识别单元具体用于依据预设的识别符，从用户输入的全部编码字符串中识别出需要音译的编码字符串；

或者，所述识别单元具体用于依据某段编码字符串在用户输入的全部编码字符串中的上下文情况，判断其是否为需要音译的编码字符串；

或者，所述识别单元具体用于依据预设的识别符，以及某段编码字符串在用户输入的全部编码字符串中的上下文情况，判断其是否为需要音译的编码字符串。

22.如权利要求15所述的输入法系统，其特征在于，所述展示单元还用于展示源语言候选项。

23.如权利要求15所述的输入法系统，其特征在于，

所述发音转换单元具体用于将源语言的音节单元转换到源语言的音标；进而，依据源语言的音标转换得到目标语言的音节单元。

24.如权利要求15所述的输入法系统，其特征在于，

所述发音转换单元具体用于将源语言的音节单元转换到源语言的音标；进而，依据源语言的音标转换到目标语言的音标；然后，将目标语言的音标转换得到目标语言的音节单元。

25.如权利要求15所述的输入法系统，其特征在于，

所述发音转换单元具体用于将源语言的音节单元转换到目标语言的音标；进而，依据目标语言的音标转换得到目标语言的音节单元。

26.如权利要求15所述的输入法系统，其特征在于，

所述发音转换单元具体用于：参考一源语言音节单元在编码字符串中的位置和/或上下文情况，将源语言的该音节单元转换到目标语言的音节单元。