CN102455845A

CN102455845A - 一种文字输入方法和装置

Info

Publication number: CN102455845A
Application number: CN2010105152591A
Authority: CN
Inventors: 张军; 贾剑峰; 杨磊
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2010-10-14
Filing date: 2010-10-14
Publication date: 2012-05-16
Anticipated expiration: 2030-10-14
Also published as: CN102455845B

Abstract

本发明提供了一种文字输入方法和装置，其中的方法具体包括：预设以字母组成的语言文字与以拼音和/或笔画组成的文字语言所对应的字符序列之间的二元关系数据；接收用户输入；利用二元关系数据对用户输入进行分析，并生成包含以字母组词的语言与以拼音和/或笔画组成的文字语言混合的文字输出。本发明能够在类似中英混输的多种语言渗透场景下，得到符合用户需求的候选项。

Description

一种文字输入方法和装置

技术领域

本发明涉及文字输入技术领域，特别是涉及一种文字输入方法和装置。

背景技术

随着外文使用的增多，语言的使用开始互相渗透，中英混合已经越来越成为一种用户习惯。但是，现有输入法提供的英文输入模式、英文补全功能，仍然是泾渭分明地在中文和英文之间划清了界线。这样，用户欲输入一段中英混合文字，需要首先输入中文，在输入英文之前确认中文上屏，然后输入英文、上屏英文，再接着输入中文。

比如使用中文拼音输入法，要输入“按住shift键”，需要先输入“按住”然后确认上屏，再输入“shift”，回车上屏，再输入“键”，上屏，才能完成输入。

由于增加了中英文边界处确认上屏的动作，因而相对于连贯输入中文长句一次上屏的过程，上述中英混合文字的输入效率就比较低，而且会打断思维，降低整个写作过程的效率。因而，文字输入中一个新的需求是，如何使用户在连贯的、不需要分段上屏的过程中输入混合了中文、英文甚至其他语言的语句。

有些输入法通过设计某种特殊的操作来满足这样的需求，如搜狗拼音输入法5.0版，支持通过在输入串中夹杂大写字母、实现中文中间夹杂大写英文单词的输入。例如，可以通过键入“guankanNBAbisai”来输入“观看NBA比赛”。

为满足中文中夹带小写英文单词的需求，本专利发明人提出一种可以推行的中英混输技术方案，该技术方案在完整输入串中判别出英文子串后，将所述英文子串暂时从该完整输入串中分离出来，而其他片段按照中文编码规则解析出中文候选片段，然后把这些中文和英文的片段按照原有的顺序连缀起来形成整个中英混合的候选。参照图1，示出了该技术方案的流程图，具体可以包括：

步骤101、针对完整输入串进行全中文候选构造；

所述中文候选构造，也即按照不支持中英文混合的方式构造出候选，这个候选结果取决于输入法的算法和数据；以完整输入串“anzhushiffjian”为例，假设输入法构造出了唯一全匹配候选“按住是否条件”，并附带给出了这个候选的“正确概率”，其中，所述“正确概率”用以表征其符合用户需求的可能性。

步骤102、识别英文子串，并依据该英文子串将所述完整输入串分解为若干个片段；

这里，可以使用子串匹配的相关技术，从所述完整输入串中识别出英文子串。上例中可被识别出的英文子串是“shift”，对应着输入串第6个字母到第10个字母。将这个英文子串分离出来，则所述完整输入串被分解成三个片段，依次为：中文片段“anzhu”，英文片段“shift”，中文片段“jian”。

步骤103、判别该英文子串属于中文还是英文；

通常情况下英文片段本身也可以按照中文编码解释为中文候选，因而判别结果应该符合用户的意图。所述判别依据可以是上述完整输入串中文候选项的“正确概率”大小，也可以是用户以往的输入习惯，还可以是shift这个英文片段本身的使用概率。

步骤104、如果判别结果为中文，则直接使用上述的全中文候选结果；

此种情况下，则输入法提供的候选项为“按住是否条件”。

步骤105、如果判别结果为英文，则对每个中文片段分别构造中文；

例如，“anzhu”这个中文片段可能构造出中文候选“按住”，“jian”这个中文片段可能构造出“见、煎、键...”等中文候选。

步骤106、组合所有片段的候选。

也即，按照原有片段顺序，将步骤105中构造的中文候选与原英文片段组合起来。在组合时，遇到一个中文片段具有多个中文候选的情形，则会选择“正确概率”最大的那个中文候选；比如，上例中组合出来的中英候选可能会是“按住shift见”

现有的中英混输解决方法虽然能够产生中英文混输的结果，但由于在计算过程中把中文和英文是割裂开来分别处理，没有考虑到它们之间可能的关联关系，具体表现在，其直接把从中文片段匹配出的“正确概率”最大的中文候选和英文片段组合在一起，未必最有可能符合用户意图。上例中，虽然词汇“见”的使用概率比“键”高，但“shift”和“见”字放在一起就不如把“shift”和“键”放在一起合理。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何能够产生符合用户意图的中英文混输结果。

发明内容

本发明所要解决的技术问题是提供一种文字输入方法和装置，能够在类似中英混输的多种语言渗透场景下，得到符合用户需求的候选项。

为了解决上述问题，本发明公开了一种文字输入方法，包括：

预设以字母组成的语言文字与以拼音和/或笔画组成的文字语言所对应的字符序列之间的二元关系数据；

接收用户输入；

利用二元关系数据对用户输入进行分析，并生成包含以字母组词的语言与以拼音和/或笔画组成的文字语言混合的文字输出。

优选的，所述用户输入为用户通过键盘输入的编码字符串。

优选的，所述用户输入为手写或语音输入，所述方法还包括：

依据所述手写或语音输入，识别得到相应的编码字符串。

优选的，所述分析步骤包括：

利用二元关系数据，对所述生成的包含以字母组词的语言与以拼音和/或笔画组成的文字语言混合的文字候选项进行排序展示。

优选的，所述分析步骤包括：

从所述编码字符串中识别出可能的字符切分结果，组词得到候选项；

基于所获得候选项的预设二元关系数据，对所述候选项进行排序展示。

优选的，所述分析步骤包括：

依据所述编码字符串，切分得到相应的字符切分结果；

依据预设二元关系数据，对所述字符切分结果进行第一排序；

依据所述字符切分结果，组词得到相应的候选项；

基于所获得候选项的预设二元关系数据，对每种字符切分结果的候选项进行第二排序；

依据所述第一排序和第二排序结果，对所述候选项进行排序展示。

优选的，所述依据字符切分结果，组词得到候选项的步骤，包括：

依据预设二元关系数据，获得与所述字符切分结果相应的候选项。

优选的，所述对候选项排序的步骤，包括：

按照位置顺序，将所述候选项中第一个词汇到最后一个词汇的走向作为一个路径；

依据每个路径中的邻接词汇，依据预设二元关系数据获取相应的连接参数，并计算路径概率；

依据所述路径概率，对所述候选项进行排序。

优选的，通过如下步骤识别出可能的字符切分结果：

从所述编码字符串中匹配识别以字母组成的语言文字；

基于剩余编码字符串片段，匹配获得相应的以拼音和/或笔画组成的文字语言所对应的字符序列。

优选的，所述匹配识别以字母组成的语言文字的步骤，包括：

基于以字母组成的语言文字和以拼音和/或笔画组成的文字语言所对应的字符序列词库，在匹配以拼音和/或笔画组成的文字语言所对应的字符序列的同时，从所述编码字符串中匹配出以字母组成的语言文字；

或者，

基于以字母组成的语言文字字典，从所述编码字符串中识别出以字母组成的语言文字。

优选的，所述预设二元关系数据存储于二元库中；所述方法还包括：

在用户选择的候选项上屏后，如果所述上屏候选项中邻接词汇在二元库中存在，则增强二元库中所述邻接词汇的相邻同现概率；

否则，将所述邻接词汇作为新的搭配关系添加到二元库中，并增强二元库中所述邻接词汇的相邻同现概率。

优选的，所述方法还包括：

在用户选择的候选项上屏后，如果所述上屏候选项和/或所述上屏候选项中词汇在所述以字母组成的语言文字和以拼音和/或笔画组成的文字语言所对应的字符序列词库中存在，则增强该词库中所述上屏候选项和/或所述上屏候选项中词汇的词频；

否则，将所述上屏候选项和/或所述上屏候选项中词汇作为新的词汇添加到以字母组成的语言文字和字符序列词库中，并增强所述上屏候选项和/或所述上屏候选项中词汇的词频。

优选的，所述预设二元关系数据包括二元和二元以上的关系数据。

依据另一实施例、本发明还公开了一种文字输入装置，包括：

二元预设单元，用于预设以字母组成的语言文字与以拼音和/或笔画组成的文字语言所对应的字符序列之间的二元关系数据；

输入接口单元，用于接收用户输入；

分析单元，用于利用二元关系数据对用户输入进行分析，并生成包含以字母组词的语言与以拼音和/或笔画组成的文字语言混合的文字输出。

优选的，所述用户输入为用户通过键盘输入的编码字符串。

优选的，所述用户输入为手写或语音输入，所述装置还包括：

字符串识别单元，用于依据所述手写或语音输入，识别得到相应的编码字符串。

优选的，所述分析单元包括：

排序展示子单元，用于利用二元关系数据，对所述生成的包含以字母组词的语言与以拼音和/或笔画组成的文字语言混合的文字候选项进行排序展示。

优选的，所述分析单元包括：

识别子单元，用于从所述编码字符串中识别出可能的字符切分结果；

组词子单元，用于根据所述字符切分结果，组词得到候选项；

第一排序展示子单元，用于基于所获得候选项的预设二元关系数据，对所述候选项进行排序展示。

优选的，所述分析单元包括：

音节切分子单元，用于依据所述编码字符串，切分得到相应的字符切分结果；

第一排序子单元，用于依据预设二元关系数据，对与所述编码字符串相应的字符切分结果进行第一排序；

组词子单元，用于依据所述字符切分结果，组词得到相应的候选项；

第二排序子单元，用于基于所获得候选项的预设二元关系数据，对每种字符切分结果的候选项进行第二排序；

第二排序展示子单元，用于依据所述第一排序和第二排序结果，对所述候选项进行排序展示。

优选的，所述组词子单元，具体用于依据预设二元关系数据，获得与所述字符切分结果相应的候选项。

优选的，所述第一排序展示子单元包括：

路径获取模块，用于按照位置顺序，将所述候选项中第一个词汇到最后一个词汇的走向作为一个路径；

计算子模块，用于依据每个路径中的邻接词汇，依据预设二元关系数据获取相应的连接参数，并计算路径概率；

排序模块，用于依据所述路径概率，对所述候选项进行排序展示。

优选的，所述识别子单元包括：

语言文字识别模块，用于从所述编码字符串中匹配识别以字母组成的语言文字；

匹配模块，用于基于剩余编码字符串片段，匹配获得相应的以拼音和/或笔画组成的文字语言所对应的字符序列。

优选的，所述语言文字识别模块，具体用于基于以字母组成的语言文字和以拼音和/或笔画组成的文字语言所对应的字符序列词库，在匹配以拼音和/或笔画组成的文字语言所对应的字符序列的同时，从所述编码字符串中匹配出以字母组成的语言文字；或者，基于以字母组成的语言文字字典，从所述编码字符串中识别出以字母组成的语言文字。

优选的，所述装置还包括：

二元库，用于存储所述预设二元关系数据；

二元库更新单元，用于在用户选择的候选项上屏后，如果所述上屏候选项中邻接词汇在二元库中存在，则增强二元库中所述邻接词汇的相邻同现概率；

优选的，所述装置还包括：

词库更新单元，用于在用户选择的候选项上屏后，如果所述上屏候选项和/或所述上屏候选项中词汇在所述以字母组成的语言文字和以拼音和/或笔画组成的文字语言所对应的字符序列词库中存在，则增强该词库中所述上屏候选项和/或所述上屏候选项中词汇的词频；

否则，将所述上屏候选项和/或所述上屏候选项中词汇作为新的词汇添加到以字母组成的语言文字和以拼音和/或笔画组成的文字语言所对应的字符序列词库中，并增强所述上屏候选项和/或所述上屏候选项中词汇的词频。

与现有技术相比，本发明具有以下优点：

本发明利用预设的二元关系数据对用户输入的编码字符串进行分析，并对由该编码字符串生成的候选项进行排序展示。由于二元关系数据能够反映两个词汇邻接使用的概率，因而，在类似中英混输的多种语言渗透场景下，最终的候选项排序结果，能够考虑候选项中各种邻接词汇搭配的合理性，因而，排在前面的一个或几个候选项最有可能符合用户需求。

例如，本发明可以分析得到的中文词汇和英文词汇为素材，组词得到全中文候选项、中英文混合候选项和/或全英文候选项；或者，依据中/英词汇和/或英/英词汇的二元关系数据，分析得到相应的中文词汇、英文词汇和/或中英混合词，或者，英文词汇和/或中英混合词，进而得到中英文混合候选项和/或全英文候选项。然后，以候选项作为路径，依据相应二元关系数据，从多个路径中选择最佳路径为首选项进行展示，或者，选取排在前面的若干个路径作为候选项进行展示。

再者，相对于背景技术，对于是否采用中英文混输的判别，主要以编码字符串全中文候选项的“正确概率”大小为依据，由于没有考虑到中英之间的关联，而增加错判概率的问题；本发明是输出中英文混合候选项，还是全中文候选项或全英文候选项，是以所有候选项的路径概率为依据的，因此，能够提高判断的准确性，从而能够在判断的基础上，展示更为准确、更符合用户需求的候选项。

附图说明

图1是背景技术一种中英混输技术方案的流程图；

图2是本发明一种文字输入方法实施例1的流程图；

图3是本发明一种文字输入方法实施例2的流程图；

图4是本发明一种文字输入方法的应用示例；

图5是本发明一种文字输入方法实施例3的流程图；

图6是本发明一种文字输入方法实施例4的流程图；

图7是本发明另一种文字输入方法的应用示例；

图8是本发明一种文字输入装置实施例的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

背景技术的可以推行方案，直接把从中文片段匹配出的“正确概率”最大的中文候选和英文片段组合在一起，得到中英候选；上述直接组合，使得中英候选的组合边界处缺少中文词汇和英文片段之间的关联关系，因而所述中英候选未必最有可能符合用户需求。

本发明的核心构思之一在于，依据所述英文片段，以及，与所述中文片段相应的中文词汇，组词得到中英文混合候选项，并依据邻接词汇的二元关系对所述中英文混合候选项进行排序展示；这样，最终的排序结果，不仅能够考虑被英文片段分隔开的中文片段本身的概率，而且能够考虑中英文之间搭配的合理性，因而，排在前面的一个或几个中英文混合候选项最有可能符合用户需求。

参照图2，示出了本发明一种文字输入方法实施例1的流程图，具体可以包括：

步骤201、预设以字母组成的语言文字与以拼音和/或笔画组成的文字语言所对应的字符序列之间的二元关系数据；

本发明实施例中，所述预设二元关系可以包括二元和二元以上的关系数据。二元关系，又称2-gram，用于表示两个元素相继出现的概率，在输入法领域，这里的元素可以是音素、音节、笔画字符串、字母或单词等。本发明中，所述二元主要可以包括词汇的二元关系和音节的二元关系，音素和字母的二元关系请参照即可。二元以上的关系则用于表示两个以上元素相继出现的概率，例如，可用三元关系表示词汇“按住”、“shift”和“键”相继出现的概率。以下主要以二元关系为例进行说明，二元以上的关系请参照即可。

对于词汇，其二元关系数据主要用于反映两个词汇邻接使用的概率。一方面，所述词汇可以包括以字母组成的语言文字，其可以是键盘上印刷的字母组成的单词、词组、短语，具体可以适用于英文、法文、德文等；另一方面，所述词汇还可以包括以拼音和/或笔画组成的文字语言所对应的字符序列，这里，所述以拼音和/或笔画组成的文字语言所对应的字符序列可以包括拼音对应的字词、笔画对应的字词等，具体可以适用于中文、日文、韩文等。对于音节，其二元关系数据主要用于反映两个音节邻接使用的概率，这里的音节主要包括中文音节等。可以理解，所述以拼音和/或笔画组成的文字语言所对应的字符序列还可以包括拼音串等，其中，所述拼音串可被应用于音节的二元关系。

另外，所述以拼音和/或笔画组成的文字语言所对应的字符序列还可以包括笔画对应的笔画字符串，此时，所述笔画字符串可被应用于笔画字符串的二元关系。

因此，所述拼音和/或笔画组成的文字语言与字符序列之间的对应关系，不仅可以包括拼音和/或笔画到词汇的映射，此时，所述字符序列即是词汇；还可以包括拼音到音节和/或笔画字符串的映射，此时，所述字符序列即可以包括音节、笔画序列等。

下面主要以英文词汇之间的二元关系，和/或，英文词汇与中文词汇之间的二元关系为例，也即，分别将英文词汇、中文词汇作为单词和字符序列的例子，以说明如何克服背景技术中英文混输方案的缺陷，其它词汇请参照即可。另外，下面还对中文音节和笔画字符串之间的二元关系进行说明。

为保证二元关系数据的准确性、代表性，在本发明的一种优选实施例中，可以采用同一语料库对中/英词汇和/或英/英词汇和/或中/中词汇的二元关系数据进行统计，得到二元库。其中，所述语料库可以为基于网络爬虫技术获取的互联网语料库，也可以为云计算输入法积累的语料库；另外，所述互联网可以为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库等等，本发明对具体的语料库不加以限制。

为反映两个词汇邻接使用的概率，在具体实现中，可以采用所述二元库存储两个词汇的搭配关系和连接参数；其中，所述两个词汇可以包括中文词汇和中文词汇，中文词汇和英文词汇，英文词汇和中文词汇，以及，英文词汇和英文词汇，等等。

表1

搭配关系	连接参数
		按住-shift	0.8732
shift-键	0.9578
		案-住	0.0023
安-主	0.0018
		go-shopping	0.8769
I-see	0.9854

参照表1，示出了本发明一种二元库的片段示例，这里，第一列表示两个词汇之间的搭配关系，第二列表示所述搭配关系的连接参数；进一步，所述连接参数可以包括：相邻同现概率、同现频率或连接强度值等，其中，所述相邻同现概率可依据所述语料库统计获得，所述同现概率可依据两个词汇的相邻同现概率以及所述两个词汇的词频计算获得，所述连接强度值可依据两个词汇的相邻同现概率和同现概率计算获得。可以理解，所述连接参数可以是任一种表明词汇搭配关系强度的数值，本发明对此不加以限制。另外，所述二元库的形式可以根据需要任意设置，本发明对此不作限定。

步骤202、接收用户输入；

步骤203、利用二元关系数据对用户输入进行分析，并生成包含以字母组词的语言与以拼音和/或笔画组成的文字语言混合的文字输出。

在本发明的一种优选实施例中，所述分析步骤可以包括：利用二元关系数据，对所述生成的包含以字母组词的语言与以拼音和/或笔画组成的文字语言混合的文字候选项进行排序展示。

本具体实现中，所述用户输入可以为用户通过键盘输入的编码字符串；或者，所述用户输入还可以为手写或语音输入，此时，所述方法还包括：依据所述手写或语音输入，识别得到相应的编码字符串。

针对所述编码字符串，本发明可以提供如下分析方案：

方案一、

所述步骤203可以首先从所述编码字符串中识别出可能的切分结果，组词得到候选项；然后，基于所获得候选项的预设二元关系数据，对所述候选项进行排序展示。

以编码字符串“anzhushiftjian”为例，最终识别的切分结果可能包括中文词汇、英文词汇和中英文混合词等，这样，可以组词得到相应的中英文混合候选项和/或全英文和/或全中文候选项，然后依据这些候选项中邻接词汇的二元关系数据进行候选项的排序展示，其中，所述邻接词汇可以包括中中、中英、英中、英英等搭配关系。

方案二、

所述步骤203具体可以包括：

子步骤S1、依据预设二元关系数据，对与所述编码字符串相应的字符切分结果进行第一排序；

以编码字符串“anzhushiftjian”为例，假设其有多种字符切分结果，且每种字符切分结果具有多个相应的候选项；则子步骤S1可以通过第一排序，得到排在前4位的字符切分结果，依次为：“an’zhu’shift’jian”、“an’zhu’shi’f’t’jian”、“an’zhu’shift’ji’an”、“an’zhu’shi’f’t’ji’an”。

子步骤S2、依据所述字符切分结果，组词得到相应的候选项；

通常情况下，可以首先为所述字符切分结果中的每个切分片段匹配出词汇，然后，对于每个词汇，都按照其所由来的切分片段在整个字符切分结果中的位置，依序整理得到候选项。

在本发明的一种优选实施例中，还可以依据预设二元关系数据，获得与所述字符切分结果相应的候选项。

以字符切分结果“an’zhu’shift’jian”为例，由于可以为切分片段“shift”匹配得到词汇“shift”，而与“jian”相匹配的词汇有多个，此时，如果“shift”与词汇“键”的连接参数值高于其它词汇，则可以直接组词得到“shift键”；这样最终得到的候选项可用包括“an”的中文词汇+“zhu”的中文词汇+中英混合词(“shift键”)。

而对于“jian”的其它词汇，如“见”、“件、“间”等，由于其与“shift”的连接参数低，故可以直接丢弃，以减少候选项的数目，从而减少子步骤S3的排序工作量。

子步骤S3、基于所获得候选项的预设二元关系数据，对每种字符切分结果的候选项进行第二排序；

假设“an’zhu’shift’jian”的候选项有5个，按照前后顺序分别为：“按住shift键”、“按住shift见”、“按住shift煎”、“案住shift键”、“俺住shift键”，这里则是对所述5个候选项进行排序。

又如，排在前5位的“an’zhu’shi’f’t’jian”的候选项依次为：“按住是否推荐”、“按住是否听见”、“按住是饭团煎”、“按住示范田见”、“安驻示范田见”。

子步骤S4、依据所述第一排序和第二排序结果，对所述候选项进行排序展示。

以候选项“按住shift键”为例，由于其所属字符切分结果“an’zhu’shift’jian”的第一排序结果为“1”，其第二排序结果为“1”，则其总排序结果为“1”；同理，候选项“按住示范田见”的总排序结果为“5+4＝9”。

以上对分析的两种方案进行了详细介绍，可以理解，本领域技术人员可以根据需要联合使用所述两种方案，或者，使用其中任一种方案，另外，除了上述几种方案，本领域技术人员还可以采用其它分析方案，本发明对此不加以限制。

以上分析方案可以适用于各种拼音对应的编码字符串，而对于笔画对应的编码字符串(也即笔画字符串)，其二元关系数据可以包括：

A、单词与笔画字符串组成二元关系数据；

B、单词与笔画字符串对应的文字组成的二元关系数据等。

例如，用户欲采用五笔输入法输入“按住shift键”，则对应的笔画字符串应该为“rpv’wygg’shift’qvfp”，则A的二元关系数据可能为’shift’qvfp，而B的二元关系数据可能是“shift键”，因此用户输入上述字符串之后，虽然有多种五笔结果，但是利用二元关系，可以将“’shift’qvfp”优先对应“shift键”。

需要说明的是，如果候选项中含有两个或两个以上英文词汇紧邻在一起，在上屏时可以自动设置一个规则，也即，自动在相邻的英文词汇之间增加一个空格，本发明对具体的规则不加以限制。

假设用户输入为“thisissougou”，且用户选择了“thisis搜狗”候选项，则在上屏时，可以根据上述设置的规则，为用户输出“this is搜狗”。可以理解，还可以设置英文词汇的首字母大写等规则，本发明对此不加以限制。

由于所述二元关系数据依据同一语料库得到，而所述语料库能够准确反映用户在语言使用上的趋势，故可以保证连接参数的准确性、代表性，因而，最终的排序结果，能够考虑各种邻接词汇搭配的合理性，因而，排在前面的一个或几个候选项最有可能符合用户需求。

参照图3，示出了本发明一种文字输入方法实施例2的流程图，具体可以包括：

步骤301、接收用户输入的编码字符串；

步骤302、从所述编码字符串中识别出可能的英文词汇和中文词汇；

随着外文使用的增多，用户已习惯使用多种语言的互相渗透，例如，中国人习惯将英文渗透到中文中，而外国人习惯在英文中渗透中文等，本实施例意在此场景下产生符合用户需求的候选项。

本实施例与实施例1的区别之一在于，针对所述编码字符串识别出可能的英文词汇和中文词汇，并依此为素材组词得到中英混合候选项。

在本发明的一种优选实施例中，所述步骤302具体可以包括：

子步骤A1、从所述编码字符串中匹配识别英文词汇；

子步骤A2、基于剩余编码字符串片段，匹配获得相应的中文词汇。

以编码字符串“anzhushiftjian”为例，子步骤A1则是从中匹配识别出英文词汇“shift”，而子步骤A2则是找出剩余编码字符串片段中可匹配中文词汇的输入串片段，并把从它们匹配出的中文词汇都提取出来。

优选的，本发明可以提供如下子步骤A1的实现方案：

方案一、基于中英混合词库，在匹配中文词汇的同时，从所述编码字符串中匹配出英文词汇；

以拼音输入法为例，一个普通的中文词库可以包括如下词汇片段：

[ni]你，倪，拟，昵...

[ni’hao]你好，拟好

[ni’jiu]你就，拟就

[ni’kan]你看

逻辑上，所述中文词库也即包括读音串(比如[ni’hao])及相应的若干同音词汇，其中，每一个同音词汇可由若干个字符组成，这里，一个汉字就是一个字符。

由于英文词汇也是由若干字符组成的，只不过英文词汇只是用了26个字符，而中文词有几千个字符；并且，对于计算机而言，不管是中文字符还是英文字符，都是字符。因此，本方案采用中英混合词库，也即，在中文词库中增加英文词汇，将英文词汇看作中文词汇。

考虑到中文字符具有对应的读音，英文字符没有读音的情形，本方案在具体实现时，为每个英文字符设置相应的读音，例如，a和A的读音设为[A]，b和B的读音设为[B]，以此类推，为英文26个字符的大小写形式设置读音。

这样，中英混合词库中可以包括如下词汇片段：

[N’E’V’E’R]never

[N’O]no

[N’E’W]new

[ni]你，倪，拟，昵...

[ni’hao]你好，拟好

[ni’jiu]你就，拟就

[ni’kan]你看

这样，在采用上述中英混合库，为所述编码字符串匹配词汇时，拼音输入法首先把编码字符串解析成读音串，然后使用这个读音串去中英混合库中寻找如此读音的词汇。

例如，可以将“nihao”解析成[ni’hao]、[N’I’H’A’O]两种读音串，其中，中英混合库中具有与[ni’hao]相匹配的词汇：你好，拟好，而没有与[N’I’H’A’O]相匹配的词汇。

又如，可以将“new”解析成[N’E’W]一种读音串，并且，可以在中英混合库中匹配到发音为[N’E’W]的词汇new。

方案二、基于英文字典，从所述编码字符串中识别出英文词汇。

本方案可以基于子串匹配技术，从所述编码字符串中识别出英文词汇，其中，哪一段子串被识别为英文词汇取决于输入法所使用的数据和算法，例如，所述数据可以为英文字典数据。

可以理解，本发明并不限于上述两种“从所述编码字符串中匹配识别英文词汇”的方案，本领域技术人员可以根据需要，采用其它方案。

步骤303、组词得到中英文混合候选项；

对于识别得到的每个词汇，都可按照其所由来的字符串片段在整个编码字符串中的位置，依序整理。组词算法就是组建所有从某个对应于编码字符串最左端片段的词汇沿着词汇走到某个对应着编码字符串最右端片段的词汇的多个路径。

参照图4，在本发明的一种应用示例中，示出了编码字符串“anzhushiftjian”的编码字符串词汇，相应的组词结果可以包括多个中英文混合候选项：“案住shift见”、“案住shift煎”、“案住shift键”、“按住shift见”、“按住shift键”等。

步骤304、基于所获得候选项的中/英词汇和/或英/英词汇的二元关系数据，对候选项进行排序展示。

所述排序的目的是从多个路径中选择最佳路径为首选项进行展示，或者，选取排在前面的若干个路径作为候选项进行展示。

在本发明的一种优选实施例中，所述步骤204具体可以包括：

子步骤B1、按照位置顺序，将所述中英文混合候选项中第一个词汇到最后一个词汇的走向作为一个路径；

子步骤B2、依据每个路径中的邻接词汇，在二元库中获取相应的连接参数，并计算路径概率；

子步骤B3、依据所述路径概率，对所述中英文混合候选项进行排序。

这样，在所述连接参数为相邻同现概率时，所述子步骤B2计算路径概率的过程可以为，依据每个路径中邻接词汇的相邻同现概率，计算路径概率。

例如，“按住shift键”的路径概率计算如下：

P(“按住”)*P(“按住-shift”|”按住”)*P(“shift-键”|”shift”)

其中，P(“按住”)代表“按住”的出现概率，在实际中可用“按住”的词频来表示；P(“按住-shift”|”按住”)代表当出现“按住”时，“按住-shift”出现的概率，在本发明中可用“按住”和“shift”的相邻同现概率来表示；P(“shift-键”|”shift”)代表当出现“shift”时，“shift-键”出现的概率，在本发明中可用“shift”和“键”的相邻同现概率来表示。

由于所述二元关系数据依据同一语料库得到，而所述语料库能够准确反映用户在语言使用上的趋势，故可以保证连接参数的准确性、代表性，因而，依据所述连接参数计算得到的路径概率也能够准确反映意图；例如，在“按住shift键”的路径概率比其他路径概率高时，表明它最优可能符合用户需求，因此，可将其作为首选项展示给用户。另外，还可以将路径概率最高的若干个中英文混合候选项展示给用户，本发明对此不加以限制。

以上主要以拼音输入法为例对词汇的匹配、组词和排序过程进行了介绍，可以理解，本发明并不限制于拼音输入法，而是可以适用于任何有重码的中文输入法编码方案。

在本发明的一种优选实施例中，还可以根据用户选择的候选项对二元库进行更新，相应地，所述文字输入方法还可以包括：

假设“按住shift键”被用户选择上屏，则可以将其中的“按住shift”、“shift键”作为新的搭配关系添加至二元库，并增强相应的相邻同现概率；可以理解，并不一定添加或更新所有的邻接词汇，而是应该从中选择用户常用的。

在本发明的另一种优选实施例中，还可以根据用户选择的候选项对词库进行更新，相应地，所述文字输入方法还可以包括：

参照图5，示出了本发明一种文字输入方法实施例3的流程图，具体可以包括：

步骤501、接收用户输入的编码字符串；

步骤502、从所述编码字符串中识别出可能的字符切分结果，并依据预设二元关系数据，获得与所述字符切分结果相应的中英文混合候选项和/或全英文候选项；

本实施例与实施例2的区别之一在于，还可以依据预设二元关系数据，获得与所述字符切分结果相应的候选项。

以字符切分结果“an’zhu’shift’jian”为例，由于可以为切分片段“shift”匹配得到词汇“shift”，而与“jian”相匹配的词汇有多个，此时，如果“shift”与词汇“键”的连接参数值高于其它词汇，则可以直接组词得到“shift键”；这样最终得到的中英文混合候选项可用包括“an”的中文词汇+“zhu”的中文词汇+中英混合词(“shift键”)。

又如，针对编码字符串“anzhuspaceshiftjian”，可以基于二元关系数据得到“shift键”，以及，最终得到的中文混合候选项可以包括中文词汇、英文词汇(space)和中英混合词(“shift键”)。

或者，针对编码字符串“goshopping”，可以基于二元关系数据直接得到全英文候选项“go shopping”。

步骤503、基于所获得候选项的中/英词汇和/或英/英词汇的二元关系数据，对所述候选项进行排序展示。

与全中文、中英文混合的情况相似，如果组词结果是全英文候选项，由于其是多个词汇的连缀，所以输入goshopping就能够出现goshopping的候选项。

与中英文混合候选项的排序步骤类似，也是依据路径概率对所述中英文混合候选项和/或全英文候选项进行排序，例如，全英文候选项“go shopping”的路径概率计算如下：

P(“go”)*P(“goshopping”|”go”)

其中，P(“go”)代表“go”的出现概率，在实际中可用“按住”的词频来表示；P(“goshopping”|”go”)则代表当出现“go”时，“goshopping”出现的概率，在本发明中可用“go”和“shopping”的相邻同现概率来表示。

参照图6，示出了本发明一种文字输入方法实施例3的流程图，具体可以包括：

步骤601、接收用户输入的编码字符串；

步骤602、从所述编码字符串中匹配识别英文词汇；

步骤603、依据所述编码字符串，匹配获得相应的中文词汇；

步骤604、基于所获得的中文词汇和英文词汇，组词得到全中文候选项、中英文混合候选项和/或全英文候选项；

步骤605、基于所获得候选项的中/中词汇、中/英词汇和/或英/英词汇的二元关系数据，对所述候选项进行排序展示。

本实施例与实施例2的区别之一在于，分别依据所述编码字符串，匹配获得所有的中文词汇和英文词汇，也即，步骤502和步骤503可以同时执行；这样，最终排序的候选项可以包括全中文候选项、中英文混合候选项和/或全英文候选项多种。

参照图7，在本发明的一种应用示例中，示出了编码字符串“anzhushiftjian”的编码字符串词汇，相应的组词结果可以包括多个全中文候选项和多个中英文混合候选项。

作为本发明的另一种应用示例，编码字符串“goshopping”的组词结果可以包括多个全中文候选项、多个中英文混合候选项，以及，一个全英文候选项。

由于所述全中文候选项、中英文混合候选项和/或全英文候选项，是依据相同的算法和数据集(中文词汇和英文词汇)得到的，而且，同样根据路径概率对二者进行候选项排序。

因此，相对于背景技术，对于是否采用中英文混输的判别，主要以编码字符串全中文候选项的“正确概率”大小为依据，由于没有考虑到中英之间的关联，而导致错判的问题；本发明是输出中英文混合候选项，还是全中文候选项或全英文候选项，是以所有候选项的路径概率为依据的，因此，能够提高判断的准确性，从而能够在判断的基础上，展示更为准确、更符合用户需求的候选项。

例如，当全中文候选项概率较高，但中英文混合候选项概率更高的时候，本发明可以给出更正确、更符合用户需求的中英文混输候选，而背景技术方案中可能因为全中文候选项的较高概率而放弃中英文混合候选项。

需要说明的是，在中英文混合候选项概率较高，但全中文候选项概率更高的时候，本发明也会将更正确、更符合用户需求的全中文候选项排在前面。

与前述方法实施例相应，本发明还公开了一种文字输入装置，参照图8，具体可以包括：

二元预设单元801，用于预设以字母组成的单词与单词之间或者以字母组成的单词与以拼音、笔画所映射的字符序列之间的二元关系数据；

输入接口单元802，用于接收用户输入；

分析单元803，用于利用二元关系数据对用户输入进行分析，并生成包含以字母组词的语言与以拼音和/或笔画组成的文字语言混合的文字输出。

本发明实施例中，所述预设二元关系可以包括二元和二元以上的关系数据。以下主要以二元关系为例进行说明，二元以上的关系请参照即可。

在实际中，所述用户输入可以为用户通过键盘输入的编码字符串；或者，所述用户输入还可以为手写或语音输入，此时，所述装置还可以包括：字符串识别单元，用于依据所述手写或语音输入，识别得到相应的编码字符串。

在本发明的一种优选实施例中，所述分析单元可以包括：

在本发明的一种优选实施例中，所述分析单元803可以包括：

在具体实现中，所述识别子单元可以包括：

语言文字识别模块C1，用于从所述编码字符串中匹配识别以字母组成的语言文字；

匹配模块C2，用于基于剩余编码字符串片段，匹配获得相应的以拼音和/或笔画组成的文字语言所对应的字符序列。

在具体实现中，所述语言文字识别模块C1，可具体用于基于语言文字和字符序列词库，在匹配字符序列的同时，从所述编码字符串中匹配出语言文字；或者，基于语言文字字典，从所述编码字符串中识别出语言文字。

可以理解，除了上述方案，本领域技术人员还可以采用其它识别子单元的设计方案，本发明对此不加以限制。

在本发明的另一种优选实施例中，所述分析单元803具体可以包括：

第二排序子单元，用于基于所获得候选项的预设二元关系数据，对每个字符切分结果的候选项进行第二排序；

优选的，所述组词子单元，可具体用于依据预设二元关系数据，获得与所述字符切分结果相应的候选项。

在本发明的另一种优选实施例中，所述第一排序展示子单元或第二排序展示子单元可以包括如下结构：

路径获取模块E1，用于按照位置顺序，将所述候选项中第一个词汇到最后一个词汇的走向作为一个路径；

计算模块E2，用于依据每个路径中的邻接词汇，依据预设二元关系数据获取相应的连接参数，并计算路径概率；

排序模块E3，用于依据所述路径概率，对所述候选项进行排序。

优选的，所述预设二元关系数据可存储于二元库中，可以通过如下结构建立所述二元库：

二元库建立单元F，用于采用同一语料库对单词与单词之间和/或单词与字符序列之间和/或字符序列之间的二元关系数据进行统计，得到二元库。

在本发明的一种优选实施例中，还可以根据用户选择的候选项对二元库进行更新，相应地，所述文字输入装置还可以包括：

二元库更新单元G，用于在用户选择的候选项上屏后，如果所述上屏候选项中邻接词汇在二元库中存在，则增强二元库中所述邻接词汇的相邻同现概率；

在本发明的另一种优选实施例中，还可以根据用户选择的候选项对词库进行更新，相应地，所述文字输入装置还可以包括：

在本发明实施例中，所述候选项可以包括包含以字母组词的语言与以拼音和/或笔画组成的文字语言混合的文字候选项。假设语言文字属于英文，字符序列属于中文，则所述候选项可以包括中英文混合候选项，当然在某些情形下，所述候选项还可以包括全英文和/或全中文候选项等；由于能够二元关系数据计算候选项的路径概率，这样，最终输出中英文混合候选项，还是全中文候选项或全英文候选项，是以所有候选项的路径概率为依据的，因此，能够提高判断的准确性，从而能够在判断的基础上，展示更为准确、更符合用户需求的候选项。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种文字输入方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文字输入方法，其特征在于，包括：

接收用户输入；

2.如权利要求1所述的方法，其特征在于，所述用户输入为用户通过键盘输入的编码字符串。

3.如权利要求1所述的方法，其特征在于，所述用户输入为手写或语音输入，所述方法还包括：

依据所述手写或语音输入，识别得到相应的编码字符串。

4.如权利要求1至3中任一项所述的方法，其特征在于，所述分析步骤包括：

5.如权利要求2所述的方法，其特征在于，所述分析步骤包括：

6.如权利要求2所述的方法，其特征在于，所述分析步骤包括：

依据所述编码字符串，切分得到相应的字符切分结果；

依据所述字符切分结果，组词得到相应的候选项；

7.如权利要求6所述的方法，其特征在于，所述依据字符切分结果，组词得到候选项的步骤，包括：

8.如权利要求5至7中任一项所述的方法，其特征在于，所述对候选项排序的步骤，包括：

依据所述路径概率，对所述候选项进行排序。

9.如权利要求5所述的方法，其特征在于，通过如下步骤识别出可能的字符切分结果：

从所述编码字符串中匹配识别以字母组成的语言文字；

10.如权利要求9所述的方法，其特征在于，所述匹配识别以字母组成的语言文字的步骤，包括：

或者，

11.如权利要求7所述的方法，其特征在于，所述预设二元关系数据存储于二元库中；所述方法还包括：

12.如权利要求10所述的方法，其特征在于，还包括：

13.如权利要求1至3中任一项所述的方法，所述预设二元关系数据包括二元和二元以上的关系数据。

14.一种文字输入装置，其特征在于，包括：

输入接口单元，用于接收用户输入；

15.如权利要求14所述的装置，其特征在于，所述用户输入为用户通过键盘输入的编码字符串。

16.如权利要求14所述的方法，其特征在于，所述用户输入为手写或语音输入，所述装置还包括：

17.如权利要求14至16中任一项所述的装置，其特征在于，所述分析单元包括：

18.如权利要求15所述的装置，其特征在于，所述分析单元包括：

19.如权利要求15所述的装置，其特征在于，所述分析单元包括：

20.如权利要求19所述的装置，其特征在于，所述组词子单元，具体用于依据预设二元关系数据，获得与所述字符切分结果相应的候选项。

21.如权利要求18所述的装置，其特征在于，所述第一排序展示子单元包括：

22.如权利要求18所述的装置，其特征在于，所述识别子单元包括：

23.如权利要求22所述的装置，其特征在于，所述语言文字识别模块，具体用于基于以字母组成的语言文字和以拼音和/或笔画组成的文字语言所对应的字符序列词库，在匹配以拼音和/或笔画组成的文字语言所对应的字符序列的同时，从所述编码字符串中匹配出以字母组成的语言文字；或者，基于以字母组成的语言文字字典，从所述编码字符串中识别出以字母组成的语言文字。

24.如权利要求21所述的装置，其特征在于，还包括：

二元库，用于存储所述预设二元关系数据；

25.如权利要求23所述的装置，其特征在于，还包括：

26.如权利要求14至16中任一项所述的装置，所述预设二元关系数据包括二元和二元以上的关系数据。