CN102262450B - 一种基于混输字符串进行字符转换的方法和装置 - Google Patents

一种基于混输字符串进行字符转换的方法和装置 Download PDF

Info

Publication number
CN102262450B
CN102262450B CN201010193167.6A CN201010193167A CN102262450B CN 102262450 B CN102262450 B CN 102262450B CN 201010193167 A CN201010193167 A CN 201010193167A CN 102262450 B CN102262450 B CN 102262450B
Authority
CN
China
Prior art keywords
target language
fragment
pronunciation
character string
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010193167.6A
Other languages
English (en)
Other versions
CN102262450A (zh
Inventor
张扬
曹镇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201010193167.6A priority Critical patent/CN102262450B/zh
Publication of CN102262450A publication Critical patent/CN102262450A/zh
Application granted granted Critical
Publication of CN102262450B publication Critical patent/CN102262450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于混输字符串进行字符转换的方法和装置,以及一种文字输入方法和输入法系统,其中,所述基于混输字符串进行字符转换的方法包括:获取混输字符串;区分混输字符串中不同类型的混输片段;基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。本发明可以在用户采用混输字符串进行输入时,也能够得到用户所需的输入结果。

Description

一种基于混输字符串进行字符转换的方法和装置
技术领域
本发明涉及输入法技术领域,特别是一种基于混输字符串进行字符转换的方法和装置,以及一种文字输入方法和输入法系统。
背景技术
中国人在记忆英文单词时普遍存在难以拼写、不会发音的问题,例如,会发音但不记得确切的完整拼写,或者,知道拼写但发音不准确或不会发音;针对上述问题,现有的输入法系统可以提供一些翻译功能,例如,提供以词条为粒度的,类似词典查词的服务。
例如,公开号为200910039910.X的中国专利公开文件,就公开了一种文字输入方法的技术方案,该技术方案的翻译步骤主要分两步完成:第一步,通常的音字转换;第二步,对用户选中的候选项进行翻译。该专利能够根据用户输入完成翻译功能,但是,在翻译过程需要用户参与,影响用户体验;而且,所述翻译主要以词条为粒度,而对于用户输入整句的翻译过程细节,则没有详细描述。
并且,现有的各种技术方案没有考虑到用户进行混输的情况,例如,在用户输入中英混输字符串“bri特尼”时,现有技术既无法将其转换翻译为中文,也无法将其转换翻译为英文。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新性的提供针对混输字符串的翻译转换功能。
发明内容
本发明所要解决的技术问题是提供一种基于混输字符串进行字符转换的方法和装置,能够基于用户输入的混输字符串进行字符转换,得到用户所需的转换结果(例如,翻译)。
相应的,本发明还提供了一种文字输入方法和输入法系统,用以基于混输字符串进行字符转换,并可以实现所述字符转换结果的展现、用户选择和输出,可以实现用户在混输字符串的情况下而直接得到所需转换结果上屏输出。
为了解决上述问题,本发明公开了一种基于混输字符串进行字符转换的方法,包括:获取混输字符串;区分混输字符串中不同类型的混输片段;基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。
优选的,所述不同类型的混输片段包括发音片段和目标语言片段,所述获得转换结果的步骤包括:获取所述混输字符串中的发音片段在目标语言下的发音单元序列;基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
优选的,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述获得转换结果的步骤包括:获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
优选的,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括:获取目标语言片段在目标语言下的发音单元序列;基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
优选的,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括:基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
优选的,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括:基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
优选的,将所述混输字符串中的第一片段作为发音片段,第二片段作为目标语言片段,得到第一目标语言下的转换结果;以及,将所述混输字符串中的第二片段作为发音片段,第一片段作为目标片段,得到第二目标语言下的转换结果。
优选的,将所述混输字符串中的第一片段作为目标语言的发音片段,第二片段作为非目标语言的发音片段,得到第一目标语言下的转换结果;以及,将所述混输字符串中的第二片段作为目标语言的发音片段,第一片段作为非目标语言的发音片段,得到第二目标语言下的转换结果。
优选的,可以通过字符类型、大小写字母、分隔符或者状态切换点等信息,区分混输字符串中不同类型的混输片段。
优选的,所述的方法还可以包括:将所述混输字符串在目标语言下的转换结果翻译为另一语言字词进行展示。
优选的,当用户输入长句或词组时,所述的方法还可以包括:通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
基于本发明的另一实施例,还公开了一种基于混输字符串进行字符转换的装置,包括:
接口单元,用于获取混输字符串;
区分单元,用于区分混输字符串中不同类型的混输片段;
转换单元,用于基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。
优选的,所述不同类型的混输片段包括发音片段和目标语言片段,所述转换单元包括:第一音节获取模块,用于获取所述混输字符串中的发音片段在目标语言下的发音单元序列;第一转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
优选的,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述转换单元包括:
第二音节获取模块,用于获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;
第三音节获取模块,用于获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;
第二转换结果获取模块,用于基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
优选的,所述转换结果获取模块具体用于:基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
优选的,所述转换结果获取模块包括:
发音片段字符获取子模块,用于基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;
拼接子模块,用于将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
优选的,所述转换结果获取模块包括:
词库查询子模块,用于基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;
音节搜索子模块,用于利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
优选的,所述装置还可以包括:语言翻译单元,用于将所述混输字符串在目标语言下的转换结果翻译为另一语言字词。
优选的,所述装置还可以包括:切分单元,用于当用户输入长句或词组时,通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
基于本发明的另一实施例,还公开了一种文字输入方法,包括:接收用户输入的混输字符串;区分混输字符串中不同类型的混输片段;基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果,并加以展示;依据用户指示,输出指定的转换结果。
优选的,所述不同类型的混输片段包括发音片段和目标语言片段,所述获得转换结果的步骤包括:获取所述混输字符串中的发音片段在目标语言下的发音单元序列;基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
优选的,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述获得转换结果的步骤包括:获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
优选的,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括:获取目标语言片段在目标语言下的发音单元序列;基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
优选的,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括:基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
优选的,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括:基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
优选的,将所述混输字符串中的第一片段作为发音片段;第二片段作为目标片段,得到第一目标语言下的转换结果;以及,将所述混输字符串中的第二片段作为发音片段,第一片段作为目标片段,得到第二目标语言下的转换结果;展示上述得到的两种目标语言下的转换结果。
优选的,将所述混输字符串中的第一片段作为目标语言的发音片段,第二片段作为非目标语言的发音片段,得到第一目标语言下的转换结果;以及,将所述混输字符串中的第二片段作为目标语言的发音片段,第一片段作为非目标语言的发音片段,得到第二目标语言下的转换结果;展示上述得到的两种目标语言下的转换结果。
优选的,所述的方法还包括:将所述混输字符串在目标语言下的转换结果翻译为另一语言字词进行展示。
优选的,当用户输入长句或词组时,所述的方法还包括:通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
依据本发明的另一实施例,还公开了一种输入法系统,包括:
接口单元,用于接收用户输入的混输字符串;
区分单元,用于区分混输字符串中不同类型的混输片段;
转换单元,用于基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果;
展示单元,用于展示转换结果;
输出单元,用于依据用户指示,输出指定的转换结果。
优选的,所述不同类型的混输片段包括发音片段和目标语言片段,所述转换单元包括:
第一音节获取模块,用于获取所述混输字符串中的发音片段在目标语言下的发音单元序列;
第一转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
优选的,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述转换单元包括:
第二音节获取模块,用于获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;
第三音节获取模块,用于获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;
第二转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
优选的,所述转换结果获取模块具体用于:基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
优选的,所述转换结果获取模块包括:发音片段字符获取子模块,用于基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;拼接子模块,用于将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
优选的,所述转换结果获取模块包括:
词库查询子模块,用于基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;
音节搜索子模块,用于利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
优选的,所述输入法系统还可以包括:
语言翻译单元,用于将所述混输字符串在目标语言下的转换结果翻译为另一语言字词,由所述展示单元进行展示。
优选的,所述输入法系统还可以包括:切分单元,用于当用户输入长句或词组时,通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
与现有技术相比,本发明具有以下优点:
在用户忘记单词某个部分的拼写但记得该部分发音,或者,用户在忘记单词某个部分的翻译结果单记得该部分拼写时,就可能使用混输字符串来表示自己所需的输入字词。
在用户的混输字符串中,通常会采用发音片段表示所忘记的那部分,目标语言片段表示其它部分。针对这样的特性,本发明可以同时依据所述发音片段在目标语言下的发音单元序列,以及目标语言片段,来获取该混输字符串在目标语言下单词全拼、完整翻译结果等转换结果。
例如,中文用户在不记得外文拼写的情况下,就可能采用混输字符串(一部分外文拼写,一部分外文发音)来表示,则应用本发明就可以将该混输字符串转换成用户所需的外文结果。
或者,在用户忘记整个单词的拼写时,还会采用两种语言的发音片段来表示该单词,也即,所述混输字符串包括两种语言的发音片段;针对此特性,本发明可以首先获取所述两种语言的发音片段在目标语言下的发音单元序列,然后,基于该发音单元序列,来获取该混输字符串在目标语言下单词全拼、完整翻译结果等转换结果。
附图说明
图1是本发明一种基于混输字符串进行字符转换的方法实施例的流程图;
图2是本发明一种对长句中混输字符串进行字符转换的示例;
图3是本发明一种基于混输字符串进行字符转换的装置实施例的结构图;
图4是本发明一种文字输入方法实施例的流程图;
图5是本发明第一种输入过程中候选项的展现界面示意图;
图6是本发明第二种输入过程中候选项的展现界面示意图;
图7是本发明第三种输入过程中候选项的展现界面示意图;
图8是本发明第四种输入过程中候选项的展现界面示意图;
图9是本发明一种输入法系统实施例的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的混输字符串可以为任何两种语言的混输字符串;例如,中文和英文、汉字和德文、日文和英文、日文和阿拉伯文等等,下面主要以中英混输字符串为例进行说明,其他混输字符串请参照即可。需要说明的是,本发明所基于的混输字符串包括发音片段,或者,发音片段和目标语言片段,其中,在该混输字符串中,发音片段是用来表示发音的(目标语言和/或非目标语言),另一部分为目标语言的片段,基于该混输字符串,本发明可以得到目标语言下的转换结果(目标语言字词)。
下面先对本发明可能的各种应用场景作简单的举例说明,并不以此为限,仅仅为了更好的描述本发明。
应用场景1
用户希望得到外文全拼,却不知道其中一部分的拼写,仅仅记得外文发音,则应用本发明,可以使用音译的本国文字或者本国发音表示该部分,从而获得所需的外文全拼。
例如,用户欲输入美国影星施瓦辛格的全名,当输入到“schwar”时,却发现后面的部分记不清了,故选择用该中文汉字“辛格”或中文拼音“xin’ge”表示该部分,由本发明依据所述混输字符串“schwar’辛格”或“schwar’xin’ge”,得到转换结果“Schwarzenegger”。
又如,本发明可以将依据混输字符串“斯库ool”得到“school”,依据“由你玩city”得到“university“,依据“misc雷涅斯”得到“miscellaneous”,等等。
应用场景2
用户希望得到外文的中文译名,却不知道其中一部分的翻译,仅仅记得英文拼写,则应用本发明,可以使用外文字符表示该部分,从而获得所需的中文译名。例如,用户欲知道美国影星Brittany(布里特妮)的中文译名,却不知道前一部分“bri”的翻译,故将“bri特尼”作为混输字符串,由本发明得到转换结果“布里特尼”或者“布里特妮”。
应用场景3
用户欲知道中外合成词的外文全拼,则应用本发明,可以得到“卡拉OK”、“多啦A梦”等中外合成词的转换结果:“Karaoke”、“Doraemon”。
参照图1,示出了本发明一种基于混输字符串进行字符转换的方法实施例的流程图,具体可以包括:
步骤101、获取混输字符串;
本实施例可以应用于各种翻译场合,例如,可以是具有翻译功能的各种软件,或者,提供翻译服务的各种网站等,用于基于混输字符串进行字符转换,得到所述混输字符串在目标语言下的转换结果。
在实际中,可以依据用户输入获取所述混输字符串,例如,直接将用户在某翻译网站的输入“bri特尼”作为混输字符串;或者,可以通过右键选定来获取所述混输字符串,例如,可以将某软件的翻译功能集成在右键菜单中,这样,在用户选中“bri特尼”字符串、且触发该右键菜单的翻译功能时,即可将“bri特尼”作为本实施例的混输字符串。
步骤102、区分混输字符串中不同类型的混输片段;
以中英混输字符串为例,其组成主要有如下情形:
情形1、发音片段和目标语言片段;
一般而言,中英混输字符串是中文汉字和英文的混输,此时,只需确定该中英混输字符串的目标语言,即可容易地从该中英混输字符串中获取发音片段和目标语言片段;其中,所述目标语言可由用户指定,或者,从混输字符串所包含的两个不同语言的片段中任意确定一个语言片段作为目标语言即可。
以“bri特尼”为例,“bri特尼”字符串中包括了英文片段和中文片段,假设用户指定的目标语言为英文,那么,其中的目标语言片段即是“bri”,而中文发音片段则是“特尼”。或者,在用户没有指定的情况下,可以确定英文为目标语言,也可以确定中文为目标语言;在将汉字作为目标语言时,其中的目标语言片段即是“特尼”,而英文发音片段则是“bri”;在将英文作为目标语言时,其中的目标语言片段即是“bri”,而中文发音片段则是“特尼”。
但在某些情形下,中英混输字符串还可以是中文拼音和英文的混输,例如,用户欲输入美国影星施瓦辛格的全名,当输入到“schwar”时,却发现后面的部分记不清了,故选择用该部分“辛格”的中文拼音“xinge”。
此时,所述混输字符串可以采用分隔符“’”来连接所述中文拼音和英文,例如,。
此时,可通过如下方式来区分所述中文发音片段“xinge”和英文片段“schwar”的内容:
例如,将大写字母作为英文片段,非大写字母作为中文发音片段,此时,所述混输串可以是“SCHWARxinge”;或者,按shift切换英文输入的文字作为英文片段,中文输入模式下输入的文字作为中文发音片段;或者,首先利用特殊符号将所述英文片段和中文发音片段分割开来,然后,确定所述两个片段所属的语言;例如,对于“schwar’xinge”混输串,可首先利用分隔符“’”将所述两个片段区分开来。
由于中文拼音和英文均为字母拼写,在实际中,可根据拼写习惯,确定某一片段所属的语言。例如,汉字共有415个基本音节(不含声调的音节),可据此得知“xinge”属于中文发音片段;又如,英文单词具有固定的拼写习惯,比如字母片段“qw”、“qd”、“bd”、“ooo”非法,而“ps”、“tr”可以出现在单词开头,据此可以得到“schwar”属于英文。
这样,对于一个混输字符串的片段,可根据所述英文单词的拼写习惯和中文音节的情况,对该混输字符串所包含的片段计算其属于英文单词的概率和其属于中文音节的概率,以确定其中的某个字母片段是中文拼音还是英文。
可以理解,所述发音片段可以是中文发音片段、英文发音片段中的任一种,或者二者组合,甚至也可以为其他类型的发音表示,本发明对此不加以限制。
例如,v5之师==威武之师,其中发音片段就是由英文字母“V”的发音和数字符号“5”的中文发音组成的。
再例如,8错==不错,其中,发音片段就是数字符号“8”,但是其正式中文发音为“ba”,而不是“bu”,而在本发明中可以将其识别为“bu”。即在本发明的具体实现中,可以依据用户使用习惯,形成数字符号“8”到“ba”和“bu”的映射;并不局限与其正式的发音标准,可以进行变形。
情形2、目标语言的发音片段和非目标语言的发音片段。
例如,对于中英混输串“卡拉OK”,可以将其中的“卡拉”区分为中文发音片段,“OK”区分为英文发音片段。
步骤103、基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。
例如,在所述不同类型的混输片段包括发音片段和目标语言片段时,所述步骤103可以包括:
子步骤P1、获取所述混输字符串中的发音片段在目标语言下的发音单元序列;
子步骤P2、基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
又如,在所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段时,所述步骤103可以包括:
子步骤Q1、获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;
子步骤Q2、获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;
子步骤Q3、基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
其中,所述发音单元序列可以理解为某种语言下的发音单元的组合。
例如,对于中文而言,所述发音单元就是拼音音节(如,/chen/、/ya/、/da/等),这样,英文发音片段在中文下的发音单元序列即是中文拼音。
对于英文而言,所述发音单元就是英文音标(如,元音/i/、/ai/,辅音/b/、/ts/等),这样,中文发音片段在英文下的发音单元序列即是英文音标。
在具体实现中,可以通过两种语言间发音上的映射关系,采用各种方式获取各种发音片段在目标语言下的发音单元序列。
例如,对于中文汉字和英文的混输字符串,如果目标语言是英文,那么,获取该中文汉字在英文下的发音单元序列的过程可以包括:中文汉字→中文拼音→英文音标,其中,“→”表示转化或映射关系。
对于中文拼音和英文的混输字符串,如果目标语言是英文,那么,获取该中文拼音在英文下的发音单元序列的过程可以包括:中文拼音→英文音标。
如果目标语言是中文,则获取英文片段在中文下的发音单元序列的过程可以包括:英文→英文音标→中文拼音。
再例如,对于英文和德文或者法文等语言的混合字符串;英文片段→英文音标→德文或者法文音标。
以下对子步骤P1-P2的执行过程进行详细说明,其针对混输字符串,可以同时依据其中的发音片段和目标语言片段,来获取该混输字符串在目标语言下的转换结果。具体而言,首先将其中的发音片段映射为在目标语言下的发音单元序列,然后,利用所述发音单元序列和目标语言片段的联系,得到该混输字符串在目标语言下的转换结果。
例如,对于中英混输字符串,子步骤P2可以是依据英文发音片段在中文下的中文拼音,以及中文片段(中文汉字或者中文拼音),得到中文汉字;或者,依据中文发音片段在英文下的英文音标,以及英文片段,得到英文单词。
本发明可以提供如下子步骤P2获取转换结果的方案:
方案一、
本方案的思想在于,利用发音片段和目标语言片段在发音上的联系,对所述两个片段的发音单元序列进行整合;此时,所述子步骤P2可以包括:
子步骤A1、获取目标语言片段在目标语言下的发音单元序列;
子步骤A2、基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
以“bri特尼”为例,假设其中的目标语言片段是“bri”,发音片段“特尼”。则通过子步骤P2,得到发音片段“特尼”在目标语言(英文)下的发音单元序列,也即英文音标是/tni/,那么,再通过子步骤A1可以获取“bri”的英文音标/bri/。而子步骤A2可以首先对所述两个英文音标进行可能的整合,例如其中的一个整合结果为[britni],然后,根据该整合结果[britni],通过检索词库等方式映射得到转换结果“Britney”。
另外,上述示例中的发音片段“特尼”还可以对应其它英文音标,如这样,子步骤A2得到的整合结果中可以包括通过检索词库等方式进而得到的转换结果为“Brittany”。
总之,本方案通过整合得到该混输字符串在目标语言下的发音单元序列,然后映射得到相应的转换结果。
方案二、
本方案的思想在于,利用发音片段和目标语言片段在字符上的联系,对所述两个片段的字符序列进行连接;此时,所述子步骤P2可以包括:
子步骤B1、基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;
子步骤B2、将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
以“bri特尼”为例,假设其中的目标语言片段是“bri”,则通过子步骤P1,得到发音片段“特尼”对应的英文音标是/tni/或那么,再通过子步骤B1可以得到/tni/的英文字符序列:teny,或者,的英文字符序列:taney。
这样,子步骤B2将目标语言片段是“bri”与子步骤B1得到的英文字符序列进行连接,得到的转换结果可以为“Briteny”,或者,“Brittany”。
对于目标语言为中文的情形,“bri特尼”中的中文片段为“特尼”,假设其通过步骤102,发音片段“bri”对应的中文拼音为/buli/,那么,子步骤B1可以得到/buli/的中文字符序列,也即汉字,假设为“布里”,那么,子步骤B2可以将所述“布里”和“特尼”连接,得到转换结果可以为“布里特尼”。
无论目标语言是英文还是中文,字符都可以作为该混输字符串在目标语言下的转换结果的基本组成单位,进一步,目标语言片段又可以作为该转换结果中的一种字符序列,这样,只需获取发音字段的目标语言字符序列,然后连接所述两种字符序列,即可得到所述转换结果。
方案三、
上述两个方案利用部分→整合的思想,通过建立发音片段和目标语言片段在发音或字符上的联系,来获取所述转换结果。下面给出本发明的另一个实现方案:
所述子步骤P2可以通过以下子步骤来实现本方案:
子步骤C1、基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;
子步骤C2、利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
以“chau弗”为例,假设其中的目标语言片段是“chau”,则通过子步骤P1得到发音片段“弗”对应的英文音标是那么,通过子步骤C1可以在词库中匹配查询得到以“chau”开头的单词集合(例如,此时可以将发音片段以通配符的方式进行替代),例如{chauffeur,chauvinism,...,chauvinist};子步骤C2则可以利用音标在所述单词集合中为搜索匹配项chauffeur,也即本发明的转换结果。
对于混输字符串“chau弗”,要求其在目标语言下的转换结果以目标语言片段“chau”开头,同时后面的字符序列与发音片段“弗”的发音相近;由于目标语言片段作为转换结果的组成字符序列,而发音片段能够限定转换结果中除目标语言片段外其它部分的发音,因此,本方案能够实现一种限定范围的字词匹配,缩小匹配范围,提升混输字符串到转换结果的效率。
可以理解,本方案的词库可以用其它具有字词存储功能的数据结构来代替,本发明并不需要对此加以限制;例如,所述数据结构可以位于本地或远程服务器上。
以上对获取转换结果的几种方案进行了详细介绍,所述几种方案能够针对多种场景下的混输字符串,得到该混输字符串在目标语言下的转换结果,能够满足用户需求;可以理解,本领域技术人员可以根据需要联合使用所述几种方案,或者,使用其中任一种方案,本发明对此不加以限制。
为使本领域技术人员更好地理解本发明,下面给出一个中英混输字符串的转换过程的具体实施例,可以包括:
步骤S1、获取中英混输字符串;所述中英混输字符串可以包括发音片段和目标语言片段;
步骤S2、获取所述发音片段在目标语言下的发音单元序列,具体可以包括:
子步骤S21、针对所述发音片段,切分得到对应的源语言音节单元;
本步骤是将发音片段,切分成细粒度的源语言音节单元s1s2s3...sn。
对于英文发音片段,切分依据可以是辅音驱动,基本上当前辅音(组合)到下一个辅音之前为一个音节(如果元音开头,则自成一个音节),但需要考虑辅音连读(双写n、双写l等)、或者特殊发音组合(比如“-er”、“-er-”、“wh-”)的情况。
例如,可以针对“schwar”切分得到3个英文音节单元:sch,wa和r;针对bri切分得到2个英文音节单元:b和ri。
对于中文发音片段,如果是中文汉字,则首先将汉字转化为中文拼音,如“特尼”→“teni”,然后,将该中文拼音切分为拼音音节单元,例如,“teni”的切分结果可以为:te和ni。
当然,对于本发明而言,如果所述发音片段包括多个音节单元,则可以对其切分,如果所述发音片段仅仅包括一个音节单元,则本发明也可以不进行切分步骤,直接识别该音节单元即可。例如,“chau”只用到一个辅音,故仅仅包括一个音节单元。
子步骤S22、将所述源语言音节单元转化为源语言发音单元;
所述转化可以是一个多对多的映射。表1给出了英文音节单元到英文音标单元的映射表示例,其中“-”表示音节在单词中的前后位置;这样,通过查阅表1,可以为发音片段中的源语言音节单元找到对应的源语言发音单元,例如,对于“schwar”,所述查阅过程可以为:sch→/∫/,war→/va/。
表1
在本发明的一些实施例中,直接可以实现源语言音节单元到目标语言发音单元的映射。例如,对于中文而言,拼音音节单元本身就是发音单元,故无需本步骤的转化操作。
但是对于英文而言,由于有些英文音节单元存在多种发音情况,在词条中处于不同位置或者上下文不同,则会发不同的音,因此,为了提高音译的准确性,首先将英文音节单元转换为英文音标单元,因为英文音标单元的发音是具有唯一性的。
即在本例中,从源语言音节单元到目标语言发音单元的转换中,不仅仅依据源语言音节单元直接进行转换,而且还参照源语言音节单元在发音片段中的位置,和/或,其上下文情况,将源语言的音节单元转换到目标语言的发音单元。
子步骤S23、将所述源语言发音单元映射为目标语言发音单元;
表2是英文音标到中文拼音的示例。这同样可以是一个多对多的映射,这就构建出了所述发音片段的,由目标语言发音单元组成的发音单元网络。这样,通过查阅表2,可以为发音片段“schwar”中的英文音标找到映射关系:/∫/→shi/si,/va/→wa。
表2
英文音标 中文拼音
/ts/ ci
/b/ bu
/va/ wa
/ri/ li
/∫/ shi/si
/v/,/vu/ fu,wu
/wu/ wu
...... ......
理论上,对于任何两种语言(如,中文与英文,日文和阿拉伯文等),都可以建立在单独发音单元上的映射关系,从而可以对发音片段进行切分后得到源语言音节单元,然后基于两种语言发音上的关联得到目标语言的发音单元。
具体的,本实施例中涉及的源语言和目标语言,可以为双字节字符文字(汉语文字、日语文字等)和单字节字符文字(英文等)。进一步,对于双字节字符文字,所述发音片段可以包括形码(中文五笔、韩语)字符串、或者音码(中文拼音、日文)字符串。
在上面的例子中,步骤S2英文发音片段→中文拼音单元的转换过程中引入了英文音节单元和英文音标单元作为中介,即采用了英文发音片段→英文音节单元→英文音标单元→中文拼音单元的过程,以提高英文音节发音的准确性,提高转换的准确程度。
总之,本步骤就是需要找到发音片段→目标语言发音单元序列的映射关系,为了准确度或者其他更佳的效果,可以引入中介,采用间接转换的实现方案。
步骤S3、获取目标语言片段在目标语言下的发音单元序列,具体可以包括:
例如,对于目标语言片段(中文片段)“特尼”,可以首先将其转化为中文拼音“teni”,然后,将该中文拼音“teni”切分为拼音音节单元:te和ni,所述拼音音节单元也即中文的发音单元。
由于其实现过程与前述示例类似,相关之处参见说明即可,在此不作赘述。
步骤S4、基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
在具体实现中,对步骤S2和S3中生成的每个目标语言发音单元,可通过查找表3(以译名为例,一个译名用字表的示例),为其生成目标词集合{di1,di2,...dini}。例如,第1个目标语言发音单元有n1个目标词候选,第二个目标语言发音单元有n2个目标词候选,第n个目标语言发音单元有nn个转换结果候选。那么与整个混输字符串对应的转换结果的候选一共有n1×n2×...nn=m个,这就形成了一个候选转换结果网络。
表3
中文拼音音节 候选用字
bu 布、不、步
li 里、离
te
ni 妮、你、尼
si 四、思、似
shi 是、市、施
Wa 娃、瓦
...... ......
然后在该转换结果候选网络中,寻找最优/n-best路径。在这些所有m个候选中,计算生成候选的语言模型得分,找出最优的1条或n条最优路径,作为音译翻译结果输出。具体网络中寻找最优/n-best路径的方法已经在现有技术中有所应用,例如,现有的中文拼音输入法的长句输入。下面给出本发明的一个例子进行简单说明。
对于目标语言为中文的混输字符串“bri特尼”,假设步骤S2获取得到的中文发音单元有:bu、li,步骤S3获取得到的中文发音单元有te、ni,本步骤则是为所述4个中文发音单元生成目标词;通过查阅表3,bu{布、不、步......}、li{里、离......}、te{特......}、ni{妮、你、尼......},则与该混输字符串对应的转换结果的候选一共有3×2×1×3=18个;,生成转换结果候选网络;最后计算候选的语言模型得分,获得得分最高的两个候选“布里特妮”和“布里特尼”,作为候选项给出。
其中的语言模型是基于语言习惯和用法给出的一些特征规则,具体的,可以基于已有译名的统计(如,用字频度,常用在什么位置:译名开头/中间/末尾等),目的是使得自动生成的译名结果更符合人工译名的习惯。例如,比如“娃”,一般用在女子姓名末尾;而同音的“瓦”,基本可以用在译名的任意位置。本发明对于具体语言模型的设定并不需要加以限定,本领域技术人员依据具体语言的特性、使用习惯和文法等进行设定即可。
另外,在上面的例子中,英文到汉字的发音映射表、译名用字表等映射关系,可以是人工整理得到的,也可以是基于语料的自动统计得到的。本发明并不需要对具体的生成过程加以限制。
在本发明的一种优选实施例中,可以根据用户需求,提供所述混输字符串在两种目标语言下的转换结果。
一、在所述不同类型的混输片段包括发音片段和目标语言片段时,本实施例可以包括:
将所述混输字符串中的第一片段作为发音片段,第二片段作为目标片段,得到第一目标语言下的转换结果;
以及,将所述混输字符串中的第二片段作为发音片段,第一片段作为目标片段,得到第二目标语言下的转换结果。
例如,对于混输字符串“bri特尼”,本实施例可以提供中文下的转换结果“布里特妮”,以及英文下的转换结果“Britney”。在实际中,上述功能可以功能按钮的形式展现在翻译网站上,或者,作为翻译软件的功能集成在右键菜单,本发明对此不加以限制。
二、在所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段时,本实施例可以包括:
将所述混输字符串中的第一片段作为目标语言的发音片段,第二片段作为非目标语言的发音片段,得到第一目标语言下的转换结果;
以及,将所述混输字符串中的第二片段作为目标语言的发音片段,第一片段作为非目标语言的发音片段,得到第二目标语言下的转换结果。
在本发明的另一种优选实施例中,在步骤103获取该混输字符串在目标语言下的转换结果后,本发明还可以将所述该转换结果翻译为另一语言字词进行展示。例如,对于混输字符串“bri特尼”,在步骤103获取中文下的转换结果“布里特妮”后,还可以对“布里特妮”进行翻译得到Brittany,然后同时展示所述两个结果。
需要说明的是,本发明也可以用于一些长句或词组的整体翻译,此时,可以通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
通常,用户习惯用空格来分隔长句中的单词,参照图2,在本发明的一种应用示例中,用户意图输入“Thechaufferisonthephone”,但因为单词“chauffer”的后半部分难于记忆,于是用户用汉字“弗”代替,也即,用户输入的长句是“Thechau弗isonthephone”;因此,本发明可以从该长句中得到所需的混输字符串“chau弗”,并在得到“chau弗”的转换结果“chauffeur”后,以候选项的形式展示所述长句。
当用户没有采用空格来分隔长句中的单词时,本发明也可以通过分词的方式得到其中所需的混输字符串,当然,其准确性可能比不上用户自己分隔的情况。
并且,在目标语言片段存在错误时,本发明还可以做纠错处理;例如,本发明获取“bri特尼”在中文下的转换结果“布里特妮”,即是对中文片段“特尼”纠正为“特妮”。
再者,考虑到英文中常遇到的大小写字母转换问题,本实施例能够支持特定的大小写匹配规则,可以给出适合需求的转换结果;例如,自动将长句中第一个单词的首字母大写,或者,自动将人名、地名等单词的首字母大写,如“bri特尼”的转换结果可以包括“Brittany”,等等。
以上对两种语言的混输字符串进行了介绍,需要说明的是,所述混输字符串中还可以包括数字、字符和语言的混输,即发音片段只要能够体现发音即可,并不一定属于某种特定的语言。例如,基于混输字符串“7茶”,其发音片段为“7”,目标语言片段为“茶”,得到转换结果“沏(qi)茶”。又如,基于混输字符串“+人”,其发音片段为“+”,目标语言片段为“人”得到转换结果“家人”,等等。
与前述方法实施例相对应,本发明还给出了一种基于混输字符串进行字符转换的装置,参照图3所示的结构图,所述装置具体可以包括:
接口单元301,用于获取混输字符串;区分单元302,用于区分混输字符串中不同类型的混输片段;
转换单元303,用于基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。
在实际中,可以根据不同情形的混输字符串,对所述转换单元303进行设计:
情形1、在所述不同类型的混输片段包括发音片段和目标语言片段时,所述转换单元303的结构可以包括:
第一音节获取模块,用于获取所述混输字符串中的发音片段在目标语言下的发音单元序列;
第一转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
本情形针对混输字符串,可以同时依据其中的发音片段和目标语言片段,来获取该混输字符串在目标语言下的转换结果。在具体实现中,可以提供如下转换结果获取模块的结构设计方案:
设计方案一、
本方案利用发音片段和目标语言片段在发音上的联系,对所述两个片段的发音单元序列进行整合;此时,所述转换结果获取模块具体可以用于:
基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果,并加以展示。
设计方案二、
本方案利用发音片段和目标语言片段在字符上的联系,对所述两个片段的字符序列进行连接;基于该思想,可以在所述转换结果获取模块中设计如下模块:
发音片段字符获取子模块D1,用于基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;
拼接子模块D2,用于将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果,并加以展示。
设计方案三、
该方案中,所述转换结果获取模块可以包括如下模块:
词库查询子模块E1,用于基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;
音节搜索子模块E2,用于利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
可以理解,本领域技术人员可以根据需要使用所述几种方案中的一种或几种,本发明对此不加以限制。
情形2、在所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段时,所述转换单元303可以进一步包括:
第二音节获取模块,用于获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;
第三音节获取模块,用于获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;
第二转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
某些英文单词在拼写和发音上会存在相似性,如影星布兰妮“Britney”的英文音标为[britni],而布里特妮“Brittany”的英文音标为这样,如果用户欲通过混输字符串“bri特尼”来获取布兰妮的英文全称“Britney”,但在提供两个转换结果“Britney”和“Brittany”时,用户却不知道哪个是想要的单词。
针对上述情形,在本发明的一种优选实施例中,所述装置还可以包括:
语言翻译单元,用于将所述混输字符串在目标语言下的转换结果翻译为另一语言字词。例如,将上述的两个转换结果“Britney”和“Brittany”翻译为“布兰妮”和“布里特妮”。
该优选实施例能够使得用户根据所述翻译结果,来选择相应的转换结果,提高转换的准确性。
另外,本发明可以根据用户需求,提供所述混输字符串在两种目标语言下的转换结果:
例如,在所述不同类型的混输片段包括发音片段和目标语言片段时,可以在所述转换单元303中设计如下模块:
第一转换模块F1,用于将所述混输字符串中的第一片段作为发音片段,第二片段作为目标片段,得到第一目标语言下的转换结果;
第二转换模块F2,用于将所述混输字符串中的第二片段作为发音片段,第一片段作为目标片段,得到第二目标语言下的转换结果
又如,在所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段时,可以在所述转换单元303中设计如下模块:
第三转换模块,用于将所述混输字符串中的第一片段作为目标语言的发音片段,第二片段作为非目标语言的发音片段,得到第一目标语言下的转换结果;
第四转换模块,将所述混输字符串中的第二片段作为目标语言的发音片段,第一片段作为非目标语言的发音片段,得到第二目标语言下的转换结果。
需要说明的是,本发明也可以用于一些长句或词组的整体翻译,此时,针对用户使用空格等分隔符的习惯,可以在所述装置中设计:切分单元,用于当用户输入长句或词组时,通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
参照图4,示出了本发明一种文字输入方法实施例的流程图,具体可以包括:
步骤401、接收用户输入的混输字符串;
步骤402、区分混输字符串中不同类型的混输片段;
步骤403、基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果,并加以展示;
步骤404、依据用户指示,输出指定的转换结果。
本实施例可以应用于各种文字的输入过程中,用于根据用户输入的混输字符串,展示所得到的一个或多个转换结果,其中,所述转换结果可以候选项的形式,反馈展示给用户进行选择,再对用户选择的转换结果进行输出。即将本发明基于混输字符串的翻译转换方案,应用到了具体的文字输入法领域。
参照图5,用户欲通过输入混输字符串“schwar’xin’ge”,以得到美国影星施瓦辛格的英文全名,本发明可以根据所述混输字符串,得到转换结果候选项:1、Schwarzenegger;这样,用户可以根据需要选择该候选项上屏。
参照图6,用户欲通过混输字符串“bri特尼”,得到美国影星Brittany(布里特妮)的中文译名,本发明根据所述混输字符串,得到的候选项可以包括:1、布里特妮;2、布里塔妮;3、布兰妮;这样,用户敲入数字1、2或3,即可完成对应候选项的上屏。
参照图7,示出了本发明一种日英混输串的输入示例,用户想要输入“内存”的日文单词“メモリ”,当输入到前两个字符时,却忘记第三个字母的拼写,于是输入同音的英文字符“ry”;这样,本发明可以根据混输字符串“メモry”,得到转换结果候选项:“メモリ”,由用户根据需要选择该候选项上屏。
例如,在所述不同类型的混输片段包括发音片段和目标语言片段时,可以同时依据其中的发音片段和目标语言片段,来获取该混输字符串在目标语言下的转换结果;此时,所述步骤403可以包括:
子步骤R1、获取所述混输字符串中的发音片段在目标语言下的发音单元序列;
子步骤R2、基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
对于子步骤R2,本实施例可以提供如下方案:
方案一、
本方案利用发音片段和目标语言片段在发音上的联系,对所述两个片段的发音单元序列进行整合;此时,所述子步骤R2可以包括:
子步骤G1、获取目标语言片段在目标语言下的发音单元序列;
子步骤G2、基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
方案二、
本方案利用发音片段和目标语言片段在字符上的联系,对所述两个片段的字符序列进行连接;基于该思想,所述子步骤R2可以包括:
子步骤H1、基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;
子步骤H2、将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
方案三、
该方案中,所述子步骤R2可以包括如下子步骤:
子步骤I1、基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;
子步骤I2、利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
可以理解,本领域技术人员可以根据需要使用所述几种方案中的一种或几种,本发明对此不加以限制。
在本发明的一种优选实施例中,可以根据用户需求,提供所述混输字符
串在两种目标语言下的转换结果,此时,所述文字输入方法具体可以包括:
将所述混输字符串中的第一片段作为发音片段,第二片段作为目标片段,得到第一目标语言下的转换结果;
以及,将所述混输字符串中的第二片段作为发音片段,第一片段作为目标片段,得到第二目标语言下的转换结果。
又如,在所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段时,所述步骤403可以进一步包括:
获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;
获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;
基于发音片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
此种情形下,为提供所述混输字符串在两种目标语言下的转换结果,所述文字输入方法具体可以包括:
将所述混输字符串中的第一片段作为目标语言的发音片段,第二片段作为非目标语言的发音片段,得到第一目标语言下的转换结果;
以及,将所述混输字符串中的第二片段作为目标语言的发音片段,第一片段作为非目标语言的发音片段,得到第二目标语言下的转换结果;
展示上述得到的两种目标语言下的转换结果。
另外,为方便用户选择想要的候选项,且提高输入的准确率,在本发明的另一种优选实施例中,在步骤403获取该混输字符串在目标语言下的转换结果后,本发明还可以将所述该转换结果翻译为另一语言字词。
例如,如果用户欲通过混输字符串“bri特尼”来获取布兰妮的英文全称“Britney”,步骤403获取得到两个转换结果:“Britney”和“Brittany”时,用户却不知道哪个是想要的单词。
本优选实施例分别针对“Britney”和“Brittany”,得到翻译结果:“布兰妮”和“布里特妮”;参照图8,本发明得到的候选项可以包括:1、Britney;2、布兰妮;3、Brittany;4、布里塔妮;由于用户知道候选项2是候选项1的翻译结果,故选择敲入数字1,即可完成对应候选项“Britney”的上屏。
需要说明的是,本发明也可以用于一些长句或词组的整体翻译,此时,可以通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串;其中,一个长句中的混输字符串可以为一个或者多个;这样,本发明可以基于所述一个或多个混输字符串完成满足用户需求的输入。
由于所述文字输入方法针对用户输入的混输字符串,更方便用户输入,使得用户输入过程更为自然和随意,提升单词/长句的输入效率和准确率,且能够满足用户对转换结果的不同需求,例如,混输字符串在源语言和/或目标语言下的转换结果,或者,所述转换结果到另一种语言的翻译结果,等等。
参照图9,示出了本发明一种输入法系统实施例的结构图,具体可以包括:
接口单元901,用于接收用户输入的混输字符串;所述混输字符串可以包括发音片段和目标语言片段;
区分单元902,用于区分混输字符串中不同类型的混输片段;
转换单元903,用于基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果;
展示单元904,用于展示转换结果;
输出单元905,用于依据用户指示,输出指定的转换结果。
图9的输入法系统可以主要用于翻译,也可以将翻译功能作为输入法的一个辅助功能,即该输入法系统还可能包括现有输入法的其他模块。即,图9所示的输入法系统也可以包括现有输入法的源语言候选项转换功能等等。并且,本发明可以应用于各种类型的输入法,如拼音、五笔、国标码、笔画等,或者其他语言的输入法系统日文、韩文等。
本实施例可以针对不同情形的混输字符串,对转换单元903的结构进行设计:
情形1、
在所述不同类型的混输片段包括发音片段和目标语言片段时,所述转换单元903的结构可以包括:
第一音节获取模块,用于获取所述混输字符串中的发音片段在目标语言下的发音单元序列;
第一转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
进一步,对于转换结果获取模块,本实施例可提供如下设计思想:
一、利用发音片段和目标语言片段在发音上的联系,对所述两个片段的发音单元序列进行整合;此时,所述转换结果获取模块具体可以用以,基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
二、利用发音片段和目标语言片段在字符上的联系,对所述两个片段的字符序列进行连接;基于该思想,可以在所述转换结果获取模块中设计如下子模块:
发音片段字符获取子模块,用于基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;
拼接子模块,用于将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果,并加以展示。
三、该方案中,所述转换结果获取模块中可以包括如下子模块:
词库查询子模块,用于基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;
音节搜索子模块,用于利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
可以理解,本领域技术人员可以根据需要基于上述思想的一种或几种,来进行转换结果获取模块的结构设计,本发明对此不加以限制。
情形2、
在所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段时,所述转换单元903可以包括:
第二音节获取模块,用于获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;
第三音节获取模块,用于获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;
第二转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
优选的,图9的输入法系统还可以将转换结果的翻译结果也展现给用户,即此时的输入法系统还可以包括:语言翻译单元,用于将所述混输字符串在目标语言下的转换结果翻译为另一语言字词,并由展示单元904进行展示。
优选的,当用户进行长句或者词组输入时,图9的输入法系统还可以包括:切分单元,用于当用户输入长句或词组时,通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
需要说明的是,在本发明的输入法系统中,具体的转换过程可以在本地完成,也可以以远程通信的方式,由一个或者若干个专门的翻译服务器提供翻译结果,本发明并不需要对此加以限制。例如,前述输入法系统中的转换单元可以位于远程服务器上,甚至,切分单元也可以位于远程服务器上,本地输入法系统将用户输入信息传送至远程服务器,接收转换结果即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的一种基于混输字符串进行字符转换的方法和装置,以及一种文字输入方法和输入法系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (37)

1.一种基于混输字符串进行字符转换的方法,其特征在于,包括:
获取混输字符串;
区分混输字符串中不同类型的混输片段,其中,所述混输片段包括发音片段,所述发音片段用于确定在目标语言下的发音单元序列;
基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。
2.如权利要求1所述的方法,其特征在于,所述不同类型的混输片段包括发音片段和目标语言片段,所述基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果的步骤包括:
获取所述混输字符串中的发音片段在目标语言下的发音单元序列;
基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
3.如权利要求1所述的方法,其特征在于,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果的步骤包括:
获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;
获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;
基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
4.如权利要求2所述的方法,其特征在于,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括:
获取目标语言片段在目标语言下的发音单元序列;
基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
5.如权利要求2所述的方法,其特征在于,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括:
基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;
将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
6.如权利要求2所述的方法,其特征在于,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括:
基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;
利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
7.如权利要求2所述的方法,其特征在于,
将所述混输字符串中的第一片段作为发音片段,第二片段作为目标语言片段,得到第一目标语言下的转换结果;
以及,将所述混输字符串中的第二片段作为发音片段,第一片段作为目标片段,得到第二目标语言下的转换结果。
8.如权利要求3所述的方法,其特征在于,
将所述混输字符串中的第一片段作为目标语言的发音片段,第二片段作为非目标语言的发音片段,得到第一目标语言下的转换结果;
以及,将所述混输字符串中的第二片段作为目标语言的发音片段,第一片段作为非目标语言的发音片段,得到第二目标语言下的转换结果。
9.如权利要求1所述的方法,其特征在于,
通过字符类型、大小写字母、分隔符或者状态切换点等信息,区分混输字符串中不同类型的混输片段。
10.如权利要求1所述的方法,其特征在于,还包括:
将所述混输字符串在目标语言下的转换结果翻译为另一语言字词进行展示。
11.如权利要求1所述的方法,其特征在于,当用户输入长句或词组时,还包括:通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
12.一种基于混输字符串进行字符转换的装置,其特征在于,包括:
接口单元,用于获取混输字符串;
区分单元,用于区分混输字符串中不同类型的混输片段,其中,所述混输片段包括发音片段,所述发音片段用于确定在目标语言下的发音单元序列;
转换单元,用于基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。
13.如权利要求12所述的装置,其特征在于,所述不同类型的混输片段包括发音片段和目标语言片段,所述转换单元包括:
第一音节获取模块,用于获取所述混输字符串中的发音片段在目标语言下的发音单元序列;
第一转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
14.如权利要求12所述的装置,其特征在于,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述转换单元包括:
第二音节获取模块,用于获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;
第三音节获取模块,用于获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;
第二转换结果获取模块,用于基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
15.如权利要求13所述的装置,其特征在于,所述转换结果获取模块具体用于:
基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
16.如权利要求13所述的装置,其特征在于,所述转换结果获取模块包括:
发音片段字符获取子模块,用于基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;
拼接子模块,用于将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
17.如权利要求13所述的装置,其特征在于,所述转换结果获取模块包括:
词库查询子模块,用于基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;
音节搜索子模块,用于利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
18.如权利要求12所述的装置,其特征在于,还包括:
语言翻译单元,用于将所述混输字符串在目标语言下的转换结果翻译为另一语言字词。
19.如权利要求12所述的装置,其特征在于,还包括:
切分单元,用于当用户输入长句或词组时,通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
20.一种文字输入方法,其特征在于,包括:
接收用户输入的混输字符串;
区分混输字符串中不同类型的混输片段,其中,所述混输片段包括发音片段,所述发音片段用于确定在目标语言下的发音单元序列;
基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果,并加以展示;依据用户指示,输出指定的转换结果。
21.如权利要求20所述的方法,其特征在于,所述不同类型的混输片段包括发音片段和目标语言片段,所述基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果的步骤包括:
获取所述混输字符串中的发音片段在目标语言下的发音单元序列;
基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
22.如权利要求20所述的方法,其特征在于,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果的步骤包括:
获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;
获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;
基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
23.如权利要求21所述的方法,其特征在于,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括:
获取目标语言片段在目标语言下的发音单元序列;
基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
24.如权利要求21所述的方法,其特征在于,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括:
基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;
将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
25.如权利要求21所述的方法,其特征在于,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括:
基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;
利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
26.如权利要求21所述的方法,其特征在于,
将所述混输字符串中的第一片段作为发音片段,第二片段作为目标片段,得到第一目标语言下的转换结果;
以及,将所述混输字符串中的第二片段作为发音片段,第一片段作为目标片段,得到第二目标语言下的转换结果;
展示上述得到的两种目标语言下的转换结果。
27.如权利要求22所述的方法,其特征在于,
将所述混输字符串中的第一片段作为目标语言的发音片段,第二片段作为非目标语言的发音片段,得到第一目标语言下的转换结果;
以及,将所述混输字符串中的第二片段作为目标语言的发音片段,第一片段作为非目标语言的发音片段,得到第二目标语言下的转换结果;
展示上述得到的两种目标语言下的转换结果。
28.如权利要求20所述的方法,其特征在于,还包括:
将所述混输字符串在目标语言下的转换结果翻译为另一语言字词进行展示。
29.如权利要求20所述的方法,其特征在于,当用户输入长句或词组时,还包括:通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
30.一种输入法系统,其特征在于,包括:
接口单元,用于接收用户输入的混输字符串;
区分单元,用于区分混输字符串中不同类型的混输片段,其中,所述混输片段包括发音片段,所述发音片段用于确定在目标语言下的发音单元序列;
转换单元,用于基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果;
展示单元,用于展示转换结果;
输出单元,用于依据用户指示,输出指定的转换结果。
31.如权利要求30所述的输入法系统,其特征在于,所述不同类型的混输片段包括发音片段和目标语言片段,所述转换单元包括:
第一音节获取模块,用于获取所述混输字符串中的发音片段在目标语言下的发音单元序列;
第一转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
32.如权利要求30所述的输入法系统,其特征在于,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述转换单元包括:
第二音节获取模块,用于获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;
第三音节获取模块,用于获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;
第二转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
33.如权利要求31所述的输入法系统,其特征在于,所述转换结果获取模块具体用于:
基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
34.如权利要求31所述的输入法系统,其特征在于,所述转换结果获取模块包括:
发音片段字符获取子模块,用于基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;
拼接子模块,用于将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
35.如权利要求31所述的输入法系统,其特征在于,所述转换结果获取模块包括:
词库查询子模块,用于基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;
音节搜索子模块,用于利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
36.如权利要求30所述的输入法系统,其特征在于,还包括:
语言翻译单元,用于将所述混输字符串在目标语言下的转换结果翻译为另一语言字词,由所述展示单元进行展示。
37.如权利要求30所述的输入法系统,其特征在于,还包括:
切分单元,用于当用户输入长句或词组时,通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
CN201010193167.6A 2010-05-27 2010-05-27 一种基于混输字符串进行字符转换的方法和装置 Active CN102262450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010193167.6A CN102262450B (zh) 2010-05-27 2010-05-27 一种基于混输字符串进行字符转换的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010193167.6A CN102262450B (zh) 2010-05-27 2010-05-27 一种基于混输字符串进行字符转换的方法和装置

Publications (2)

Publication Number Publication Date
CN102262450A CN102262450A (zh) 2011-11-30
CN102262450B true CN102262450B (zh) 2015-12-09

Family

ID=45009107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010193167.6A Active CN102262450B (zh) 2010-05-27 2010-05-27 一种基于混输字符串进行字符转换的方法和装置

Country Status (1)

Country Link
CN (1) CN102262450B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034340A (zh) * 2012-12-04 2013-04-10 广东国笔科技股份有限公司 词组快速匹配输入方法及系统
CN105095191A (zh) * 2014-04-22 2015-11-25 富士通株式会社 基于多词单元进行辅助翻译的方法和装置
CN105786802B (zh) * 2014-12-26 2019-04-12 广州爱九游信息技术有限公司 一种外语的音译方法及装置
CN104898863B (zh) * 2015-04-30 2019-02-15 努比亚技术有限公司 一种基于截断标识的字符输入方法及装置
CN105243168B (zh) * 2015-11-11 2019-08-30 中国建设银行股份有限公司 一种数据迁移方法及系统
CN109558016B (zh) * 2017-09-25 2022-12-13 北京搜狗科技发展有限公司 一种输入方法和装置
CN113312926A (zh) * 2021-06-07 2021-08-27 浙江贰贰网络有限公司 域名含义翻译方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5442547A (en) * 1992-01-22 1995-08-15 Sharp Kabushiki Kaisha Apparatus for aiding a user in producing a dictionary storing morphemes with input cursor prepositioned at character location with the highest probability of change
CN1194415A (zh) * 1997-03-26 1998-09-30 三星电子株式会社 将一种语言自动转换为另一种语言的双语系统和方法
CN1945562A (zh) * 2005-10-09 2007-04-11 株式会社东芝 训练音译模型、切分统计模型以及自动音译的方法和装置
CN101587471A (zh) * 2008-05-19 2009-11-25 黄晓凤 一种多语言混合输入的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5442547A (en) * 1992-01-22 1995-08-15 Sharp Kabushiki Kaisha Apparatus for aiding a user in producing a dictionary storing morphemes with input cursor prepositioned at character location with the highest probability of change
CN1194415A (zh) * 1997-03-26 1998-09-30 三星电子株式会社 将一种语言自动转换为另一种语言的双语系统和方法
CN1945562A (zh) * 2005-10-09 2007-04-11 株式会社东芝 训练音译模型、切分统计模型以及自动音译的方法和装置
CN101587471A (zh) * 2008-05-19 2009-11-25 黄晓凤 一种多语言混合输入的方法

Also Published As

Publication number Publication date
CN102262450A (zh) 2011-11-30

Similar Documents

Publication Publication Date Title
CN102262450B (zh) 一种基于混输字符串进行字符转换的方法和装置
CN102193643B (zh) 一种文字输入方法和具有翻译功能的输入法系统
CN101183281B (zh) 一种输入法中候选词的相关词输入的方法及系统
CN101923858B (zh) 一种实时同步互译语音终端
JP2011076384A (ja) 情報出力装置及び情報出力プログラム
US20110022378A1 (en) Translation system using phonetic symbol input and method and interface thereof
CN100561469C (zh) 创建和使用中文语言数据和用户自纠正数据的方法和系统
CN104641367B (zh) 用于格式化电子字符序列的格式化模块、系统和方法
KR100655720B1 (ko) 키패드에서의 알파벳 입력장치 및 그 방법
CN108334502A (zh) 一种传统蒙古文与西里尔蒙古文的相互转换方法
KR100625357B1 (ko) 키패드에서의 알파벳 입력장치 및 그 방법
KR100981866B1 (ko) 자음버튼 눌러짐과 [ㅡ]버튼 또는 [ㅣ]버튼의 두번 연속눌러짐에 의한 한국어 입력 방법 및 그 장치
CN105389017A (zh) 带声调的汉语拼音四声输入及书写印刷法
KR20030008254A (ko) 키패드에서의 알파벳 입력장치 및 그 방법
KR20190047299A (ko) 성부를 이용한 중국어발음 학습방법 및 장치
KR100848727B1 (ko) 키패드에서의 알파벳 입력장치 및 그 방법
KR200419298Y1 (ko) 키패드에서의 알파벳 입력장치 및 그 방법
KR20200015436A (ko) 키패드에서의 수학 연산자 입력 방법 및 그 장치
KR20200102387A (ko) 키패드에서의 수학 연산자 입력 방법 및 그 장치
KR20070036116A (ko) 키패드에서의 알파벳 입력장치 및 그 방법
KR20060017897A (ko) 키패드에서의 알파벳 입력장치 및 그 방법
KR20190051903A (ko) 키패드에서의 수학 연산자 입력 방법 및 그 장치
KR20180011305A (ko) 키패드에서의 수학 연산자 입력 방법 및 그 장치
KR20160138942A (ko) 키패드에서의 수학 연산자 입력 방법 및 그 장치
KR20160036534A (ko) 키패드에서의 수학 연산자 입력 방법 및 그 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant