CN101359254A

CN101359254A - 一种提高姓名词条输入效率的字符输入方法和系统

Info

Publication number: CN101359254A
Application number: CNA2007101199417A
Authority: CN
Inventors: 吕杰勇; 佟子健
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2007-08-03
Filing date: 2007-08-03
Publication date: 2009-02-04
Anticipated expiration: 2027-08-03
Also published as: CN101359254B

Abstract

本发明提供了一种字符输入的方法和系统，所述方法可以包括：接收用户输入的编码字符串；判断该编码字符串中是否包含针对姓名的编码字符串；如果是，则依据预置的数据表和所述针对姓名的编码字符串，自动生成姓名候选项；展示候选项；接收用户的选择信息，输出指定候选项。针对现有技术的缺陷，本发明提出了通过姓名音识别的方法来定位需要优化输出的拼音串，以及利用预置的数据表自动生成姓名词条的方式来为用户提供有效的姓名候选项的技术方案，即主要从姓氏、人名资源出发构造一些可能是用户需要的姓名词条呈现给用户，从而可以从根本上提高用户输入姓名词条时的输入效率。

Description

一种提高姓名词条输入效率的字符输入方法和系统

技术领域

本发明涉及计算机字符输入领域，特别是涉及一种能够显著提高姓名词条输入效率的字符输入方法和系统，以及一种基于姓名音的词库改进方法和装置。

背景技术

随着计算机技术以及互联网技术的普及与发展，一方面，用于实现计算机字符输入的输入法系统越来越深入到人们的生活中，另一方面，用户对于输入法系统的智能性要求也越来越高。

以中文输入为例，现有的输入法系统是一个综合了字音转换和音字转换两项技术的客户端程序。所述字音转换是指：从文字序列到拼音序列的转换，字音转换(即注音)是拼音输入法词库构建不可或缺的步骤，它将系统词条赋予拼音并作为部分先验知识存储于输入法词库。所述音字转换是指：从拼音序列到文字序列的转换，即调用词条的先验知识来对用户的拼音输入进行有效的预测，获得较能符合用户需求的文字序列。

其他类似文字的输入法也是如此，例如，日文、韩文等等；只不过此时的输入法系统采用的不是文字序列和拼音序列之间的转换，而采用的是相应的编码字符串序列和相应文字序列之间的转换。

在输入体验中，姓名词条占输入量的很大一部分，并且姓名词条一般都具有很强的独特性，而现有的技术中，一般需要用户通过回退修改、选字的方式完成姓名词条的输入，所以对于大部分的姓名词条输入都经常会出现误码率高、输入效率低的情况，导致整体的输入体验下降。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何能够提高姓名词条输入的效率。

发明内容

本发明所要解决的技术问题是提供一种字符输入方法和系统，能够提高姓名词条的输入效率，降低误码率。

相应的，本发明还提供了一种改进现有词库的方法和装置，可以用于帮助现有输入法提高姓名词条的输入效率，降低误码率。

相应的，本发明还提供了一种基于姓名音的姓名生成装置和一种从拼音串中识别姓名音的装置，作为本发明的关键设备。

为了解决上述问题，依据本发明的一个实施例，公开了一种字符输入的方法，具体包括以下步骤：接收用户输入的编码字符串；判断该编码字符串中是否包含针对姓名的编码字符串；如果是，则依据预置的数据表和所述针对姓名的编码字符串，自动生成姓名候选项；展示候选项；接收用户的选择信息，输出指定候选项。

优选的，在自动生成姓名候选项之前，还包括：判断在词库中是否存储有与所述针对姓名的编码字符串相匹配的姓名词条，如果有，则直接提供该匹配的姓名候选项，如果否，则进入自动生成步骤。

优选的，该方法还可以包括：预置姓氏字-编码字符串的数据表，人名字-编码字符串的数据表；从词库中识别出姓名词条；通过查询所述姓氏字-编码字符串的数据表和人名字-编码字符串的数据表，对词库中所识别出的姓名词条进行编码字符串的自动标注。

优选的，当所述编码字符串为拼音串时，通过以下步骤判定是否包含针对姓名的拼音串：计算用户输入的当前音节作为姓氏音的评价参数，如果符合预置条件，则；计算该音节与其后续的音节组成的集合作为姓名音的评价参数；如果一音节集合符合预置条件，则确定该音节集合为针对姓名的拼音串。

同时，当所述编码字符串为拼音串时，也可以通过以下步骤判定是否包含针对姓名的拼音串：将原始拼音串切分为多个音节；获得多个由连续的音节组成的音节集合；计算各音节集合作为姓名音的评价参数；当一音节集合的评价参数值符合预置条件时，则确定该音节集合为针对姓名的拼音串。

优选的，当所述编码字符串为拼音串时，通过以下步骤自动生成姓名候选项：依据所述针对姓名的拼音串，获取各个音节相应的单字；生成多个单字集合，各单字的相邻关系与相应音节的相邻关系一致；计算该单字集合作为姓名的评价参数；当一单字集合的评价参数值符合预置条件时，则确定该单字集合作为姓名候选项之一。

优选的，所述候选项可以包括姓名候选项、普通词条候选项或者智能组词候选项中的一个或者多个。

依据本发明的另一实施例，公开了一种字符输入的系统，包括：

编码接收器，用于接收用户输入的编码字符串；

姓名编码判断器，用于判断该编码字符串中是否包含针对姓名的编码字符串；

姓名候选项生成器，用于当姓名编码判断器的输出结果为是的时候，依据预置的数据表和所述针对姓名的编码字符串，自动生成姓名候选项；

输出器，用于展示候选项，以及接收用户的选择信息，输出指定的候选项。

优选的，所述系统还可以包括：词库匹配器，用于当姓名编码判断器的输出结果为是的时候，判断在词库中是否存储有与所述针对姓名的编码字符串相匹配的姓名词条，如果有，则直接提供该匹配的姓名候选项，如果否，则触发启动姓名候选项生成器。

优选的，所述系统还可以包括：姓氏字-编码字符串的数据表和人名字-编码字符串的数据表；姓名词条识别模块，用于从词库中识别出姓名词条；自动标注模块，用于通过查询所述姓氏字-编码字符串的数据表和人名字-编码字符串的数据表，对词库中所识别出的姓名词条进行编码字符串的自动标注。

优选的，当所述编码字符串为拼音串时，所述姓名编码判断器具体包括以下子模块：当前音节参数计算模块，用于计算用户输入的当前音节作为姓氏音的评价参数，如果符合预置条件，则触发音节集合参数计算模块；音节集合参数计算模块，用于计算该音节与其后续的音节组成的集合作为姓名音的评价参数；姓名音确定模块，用于当一音节集合符合预置条件时，确定该音节集合为针对姓名的拼音串。

同时，当所述编码字符串为拼音串时，所述姓名编码判断器具体也可以包括以下子模块：切分模块，用于将原始拼音串切分为多个音节；组合模块，用于获得多个由连续的音节组成的音节集合；姓名音参数计算模块，用于计算各音节集合作为姓名音的评价参数；姓名音确定模块，用于当一音节集合的评价参数值符合预置条件时，则确定该音节集合为针对姓名的拼音串。

优选的，当所述编码字符串为拼音串时，所述姓名候选项生成器具体包括以下子模块：音字转换模块，用于依据所述针对姓名的拼音串，获取各个音节相应的单字；单字集合生成模块，用于生成多个单字集合，各单字的相邻关系与相应音节的相邻关系一致；姓名参数计算模块，用于计算该单字集合作为姓名的评价参数；姓名候选项确定模块，用于当一单字集合的评价参数值符合预置条件时，则确定该单字集合作为姓名候选项之一。

优选的，所述候选项可以包括姓名候选项、普通词条候选项或者智能组词候选项中的一项或者多项。

依据本发明的另一实施例，公开了一种改进词库的方法，包括：预置姓氏字-编码字符串的数据表，人名字-编码字符串的数据表；从词库中识别出姓名词条；通过查询所述姓氏字-编码字符串的数据表和人名字-编码字符串的数据表，对所识别出的姓名词条进行编码字符串的自动标注。

优选的，通过以下方式从词库中识别出姓名词条：依据一词条中每个单字出现在常用姓名中相应位置上的评价参数，计算得到该词条作为姓名的评价参数；当一词条的评价参数值符合预置条件时，则确定该词条为姓名词条。

依据本发明的另一实施例，公开了一种用于改进词库的装置，包括：姓氏字-编码字符串的数据表和人名字-编码字符串的数据表；姓名词条识别模块，用于从词库中识别出姓名词条；自动标注模块，用于通过查询所述姓氏字-编码字符串的数据表和人名字-编码字符串的数据表，对词库中所识别出的姓名词条进行编码字符串的自动标注。

优选的，所述姓名词条识别模块进一步包括：姓名参数计算子模块，用于依据一词条中每个单字出现在常用姓名中相应位置上的评价参数，计算得到该词条作为姓名的评价参数；姓名词条确定子模块，用于当一词条的评价参数值符合预置条件时，则确定该词条为姓名词条。

依据本发明的另一实施例，公开了一种从拼音串中识别姓名音的装置，包括：

当前音节参数计算模块，用于计算用户输入的当前音节作为姓氏音的评价参数，如果符合预置条件，则触发音节集合参数计算模块；

音节集合参数计算模块，用于计算该音节与其后续的音节组成的集合作为姓名音的评价参数；

姓名音确定模块，用于当一音节集合符合预置条件时，确定该音节集合为针对姓名的拼音串。

优选的，所述评价参数的计算需要查询预置的数据表，则所述数据表可以包括：单音节作为姓氏音的概率数据表和双音节作为姓氏音的概率数据表；单音节出现在常用姓名中相应位置上的概率数据表；两个单音节在常用姓名中相邻的概率数据表。

依据本发明的另一实施例，公开了一种基于姓名音的姓名生成装置，包括：

音字转换单元，用于依据针对姓名的拼音串，获取各个音节相应的单字；

单字集合生成单元，用于生成多个单字集合，各单字的相邻关系与相应音节的相邻关系一致；

姓名参数计算单元，用于查询预置数据表，计算得到该单字集合作为姓名的评价参数；

姓名候选项确定单元，用于当一单字集合的评价参数值符合预置条件时，则确定该单字集合作为姓名候选项之一。

优选的，所述预置的数据表包括：单字作为姓氏音的概率数据表和两个单字作为姓氏音的概率数据表；单字出现在常用姓名中相应位置上的概率数据表；两单字在常用姓名中相邻的概率数据表。

与现有技术相比，本发明具有以下优点：

由于拼音输入对于中文用户非常熟悉，因此，下面以拼音输入为例对本发明的优势进行分析。其他类似文字的输入法由于原理相似，参照即可。

针对现有技术的缺陷，本发明提出了通过姓名音识别的方法来定位需要优化输出的拼音串，以及利用预置的数据表自动生成姓名词条的方式来为用户提供有效的姓名候选项的技术方案，即主要从姓氏、人名资源出发构造一些可能是用户需要的姓名词条呈现给用户，从而可以从根本上提高用户输入姓名词条时的输入效率。

其次，本发明还采用了专门对词库中的姓名词条进行准确注音的方案，提高了现有词库中已有姓名词条的注音质量，如果用户所需的姓名词条在词库中存在时，可以直接匹配获得，从而可以进一步降低用户输入姓名词条时的误码率。

本发明属于结合实际中用户对人名的输入需求而产生的发明，所做的技术创新既可以节省人力来审核词库中姓名词条的注音准确性，又可以不需要预存储大量姓名词条在词库中，从而能够以较小的空间代价提高用户的姓名词条输出体验。

附图说明

图1是本发明一种字符输入的方法实施例的步骤流程图；

图2是本发明一种字符输入的系统实施例的结构框图；

图3是本发明一种改进现有词库的方法实施例的步骤流程图；

图4是本发明一种改进现有词库的装置实施例的结构框图；

图5是本发明一种从拼音串中识别姓名音的装置实施例的结构框图；

图6是本发明一种基于姓名音的姓名生成装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

由于现有技术中，输入法平台可以运行在多种计算设备上，例如，个人电脑、个人数字助理、移动终端设备等等，所以本发明也可以适用在上述各种计算设备中。

本发明所述的方法可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明所述的技术方案可以应用于各种需要通过输入法音码输入的语言，例如，中文、日文、韩文等，由于本发明在上述几种语言文字中的应用流程都是相似的，所以为了方便说明，下面仅仅对本发明应用在中文的情况进行说明。

参照图1，示出了本发明一种字符输入的方法实施例，具体可以包括：

步骤101，接收用户输入的编码字符串；例如，键盘输入等等。

步骤102、判断该编码字符串中是否包含针对姓名的编码字符串。

实现步骤102的方式可以有很多，一般的，可以通过下面的子步骤完成：将原始编码字符串切分为多个音节；获得多个由连续的音节组成的音节集合；计算各音节集合作为姓名音的概率，如果概率值符合预置条件，则可以识别出该音节集合为针对姓名的编码字符串。实际上，此处使用“评价参数”更为合适一些，因为概率一般为相对概念，而用于判断是否为针对的编码字符串的评价参数也可以为一些绝对数值；在此，由于概率一词更容易说明，因此，后面的实施例中都采用概率一词。但是本领域技术人员应该知悉，用于判断是否为针对的编码字符串的评价参数的范围并不限于概率值。并且，评价参数也可以应用于判断单字集合是否为姓名词条的实施例中。

假设所述编码字符串为拼音串(所述拼音串可以包括全拼、双拼等音码输入情况下的编码串)时，则具体可以通过以下步骤判定是否包含针对姓名的拼音串：

a、将原始拼音串切分为多个音节；所述多个包括两个和两个以上的情况；

b、获得多个由连续的音节组成的音节集合；例如，以音节集合仅仅包含二三音节的情况进行说明，假设原始拼音串为“tashiwangxiaochuan”，则得到的多个音节集合可以包括：“tashi”、“tashiwang”、“shiwang”、“shiwangxiao”、“wangxiao”、“wangxiaochuan”、“xiaochuan”。然后针对每个音节集合进行概率计算。

c、依据一音节集合中首个音节作为姓氏音的概率、后续音节作为人名音的概率，得到该音节集合作为姓名音的概率；其中，姓名音为姓+名的音，例如“王小川”的姓名音定义为“wangxiaochuan”，人名音是指名字的音，例如上例中的“xiaochuan”，姓氏音是指姓氏的音，例如，上例中的“wang”。

d、当一音节集合的概率值符合预置条件时，则确定该音节集合为针对姓名的拼音串。例如，对于“wangxiaochuan”，其中，“wang”作为姓氏音的概率很高，而“xiaochuan”作为人名音的概率也较高，则确定该音节集合“wangxiaochuan”为姓名音，即针对姓名的拼音串。

其中，具体的拼音串切分过程属于公知技术，例如，现有的搜狗输入法、微软拼音输入法等都已经应用这样的技术，在此不再详述。

一般而言，由于中文姓名通常为二字姓名、三字姓名和四字姓名，因此，所述的音节集合一般可以包括两个音节、三个音节或者四个音节即可，不需要再包括由更多的音节组成的音节集合。

前述的步骤c仅仅是计算各音节集合作为姓名音的概率的一种实现方式，实际中可采用的具体算法和策略还有很多，简单介绍如下。

步骤c仅仅适合于单姓(即姓名中姓氏为单字)的情况，实际上，中文姓名中存在一部分复姓的情况(例如，姓氏为两个字-司马等)，所以，此时还需要通过前两个音节作为姓氏音的概率和后续音节作为人名音的概率进行计算。例如，“simanan”，不但要依据“si”这个音节作为姓氏音的概率P1和“manan”这两个音节作为人名音的概率P2，计算音节集合“simanan”作为姓名音的概率；还需要依据“sima”这两个音节作为姓氏音的概率P1和“nan”这个音节作为人名音的概率P2，计算音节集合“simanan”作为姓名音的概率。需要说明的是，对于日文姓名而言，姓氏为两个字的情况更是普遍。

步骤c中所述后续音节作为人名音的概率P2可以通过查询预置的数据表直接获得，也可以通过单个音节作为人名音组件的概率P2_i计算得到整个后续音节作为人名音的概率P2。当然，作为另一个实施例，步骤c中的实现方式也可以为：依据一音节集合中首个音节或者前两个音节作为姓氏音的概率、其他音节分别出现在常用姓名中相应位置上的概率，计算得到该音节集合作为姓名音的概率。

前述的各种音节所对应的概率值都可以通过查询预置的相应数据表获得；所述数据表可以采用一张表或者多张表的形式存储。所述的数据表可以通过各种方式获得，优选的，通过以下方式得到：首先，收集常用的姓氏音节、姓名中第一字的音节和姓名中第二字的音节；然后在预置的语料库(例如，姓名库)中统计得到各个音节作为相应的姓名组件时的概率，即可得到所述的数据表。当然，也可以采用其他可行的方式，例如，对预置语料库中的所涉及的每个音节都进行统计，从而得到各个音节作为相应的姓名组件时的概率。

在更优选的实施例中，用于计算音节集合作为姓名音的概率的参数还可以更加细化，例如，姓氏(单姓、复姓)音节及其概率、单名音节及其概率、双名首音节及其概率、双名末音节及其概率、常见双名音节搭配及其概率等等。通过更多更细化的参数，从而获得更为准确的识别结果。

进一步，在更优选的实施例中，还可以综合考虑上下文的音节信息来判断当前的音节集合是否为姓名音。例如，所涉及的参数还可以包括：上下文常见单音节及其概率、上下文常见音节集合及其概率等等。比如，字符串“xxxshuo”、“ju′zhang xxx”，则xxx很可能是姓名音。

实际上，由于涉及参数的多少以及定义的不同，导致姓名音识别过程中的具体算法和策略就会不同。本发明在此无法一一详述。

在本发明的另一优选实施例中，为了提高识别的实时性，通过以下步骤判定是否包含有针对姓名的拼音串：

A、计算用户输入的当前音节作为姓氏音的概率，如果符合预置条件，则；

B、计算该音节与其后续的音节组成的集合作为姓名音的概率；

C、如果一音节集合符合预置条件，则确定该音节集合为针对姓名的拼音串。

采用本优选实施例，可以直接针对用户当前输入的音节进行判断，并且当其作为姓氏音的概率符合一定的预置条件时，才计算该音节与其后续的音节组成的集合作为姓名音的概率；与前述的实施例(步骤a、b、c、d所描述的实施例)相比，可以提高实时的交互性，并且大大减少了需要计算概率的音节集合的数量。例如，对于拼音串“xihuantingguodegangshuoxiangsheng”，当用户输入到“xihuantingguo”时，通过计算判断出“guo”音节作为姓氏音的概率较高，则该音节与其后续的音节组成的集合：“guode”和“guodegang”作为姓名音的概率(由于中文姓名中单姓的情况下，姓名以二字和三字居多，所以仅仅选取二音节集合和三音节集合)。具体的，由于音节“guo”作为姓氏音的概率已经获得，则仅需要计算后续音节(例如，“de”和“degang”)作为人名音的概率，然后统一评价即可。

至于详细的概率计算过程，前面已经描述了，参照即可，在此不再赘述。

实际上，也可以通过规则来确定姓名音。比如“wang”、“xiao”、“chuan”都是合法的姓名音节，则整体可以组成姓名音。

步骤103、如果是，则依据预置的数据表和针对姓名的编码字符串，自动生成姓名候选项。

步骤103中“如果是”的情况一般可以包括两种，一种是仅仅包括针对姓名的编码字符串的情况，例如，“simanan”；另一种是还包括有其他音节的情况，例如，“guodegangshuoxiangsheng”等等。对于第一种情况，直接自动生成姓名候选项即可，而对于第二种情况，还可以令自动生成的姓名候选项参与智能组词，以提供更合适的候选项。

实现步骤103的方式可以有很多，假设所述编码字符串为拼音串，则可以通过下面的子步骤完成：

(1)依据所述针对姓名的拼音串，获取各个音节相应的单字；

(2)生成多个单字集合，各单字的相邻关系与相应音节的相邻关系一致；

(3)依据一单字结合中每个单字出现在常用姓名中相应位置上的概率，计算得到该单字集合作为姓名的概率；

(4)当一单字集合的概率值符合预置条件时，则确定该单字集合作为姓名候选项之一。所述的符合预置条件，一般可以为得到的概率值大于一定阈值即可。即步骤103可以自动生成并选择出若干各概率较高的姓名候选项来辅助人名选择输出。

由于本步骤的实现思想和步骤102非常相似，只不过步骤102依据的参数是音节的概率，而步骤103所依据的参数是单字的概率而已，所以在这里不再重复描述一些可参照的内容。实际上，步骤102和103的核心思想都在于，首先分析作为姓名组件的音节或者单字的特征，形成预置资源表；在预置语料库中进行统计学习，训练出合理的语言模型；利用语言模型识别姓名音或者姓名词条。当然，步骤102中待识别的拼音串是用户输入的，而步骤103中待识别的词条则是程序自动生成的，通过识别从多个自动生成的姓名词条中找出最合适的几个，例如，综合概率值排名靠前的几个。

在本发明的一个优选实施例中，资源表可以主要包括：姓氏(单姓、复姓)、单名用字、双名首字、双名末字、常见双名搭配。常见的语言模型可以主要参考姓氏、人名用字作为姓氏或者人名的概率，以及两者组合称为姓名的概率等等。对于概率表的生成，可以通过以下方式获得：预置一些单字(例如，依据经验挑选等等)，然后分别对每个单字都在预置的语料库中(例如，姓名库)进行统计，从而得到各个单字作为相应的姓名组件时的概率。

具体而言，假设一个姓名音生成的一个单字集合为ABC，“A”、“B”和“C”分别代表一个单字，则针对该单字集合ABC所依赖的算法和数据表可以为：单字作为姓氏的概率、人名第一个字的概率、人名第二个字的概率，以及在人名中两两相邻的概率、整体作为常见人名的概率(共若干个数据表)。比如：根据A、B、C本身的概率和AB、BC相邻的概率、ABC整体作为常见人名的概率算出ABC成为人名的概率，P＝p(A)*p(B)*p(c)*p(AB)*p(BC)*p(ABC)。同理，就可以对这个姓名音生成一个按照概率排序的人名词条表，通常我们只对前若干条感兴趣，例如，将前三条输出作为候选项或者参与智能组词即可。

例如，对于拼音串“wangxiaochuan”而言，“wang”对应“王/汪”，“xiaochuan”对应着“小川/晓川”，则可以得到以下的单字集合：“王小川”、“王晓川”、“汪小川”、“汪晓川”等等，计算各个单字集合作为姓名的概率，得到“王小川”的概率最大，其次是“汪小川”，从而可以生成多个概率有序的姓名候选项。

步骤104、展示候选项；

步骤105、接收用户的选择信息，将指定的候选项上屏输出。

步骤104和105中所述的候选项可以仅仅包括姓名候选项，也可以包括智能组词后的候选项，例如，针对长编码字符串的情况。进一步，步骤104和105中所述的候选项还可以包括普通候选项，即非姓名候选项，例如，同样的拼音串“zhangchao”，可以得到排序非常靠前的姓名候选项“张超”和普通候选项“涨潮”，则将这些候选项都展示给用户，由用户进行选择输出。

至于姓名候选项在候选窗口中的排序位置，则可以根据实际情况任意调整，例如，排在所有词库词条的前面，或者排在所有词库词条的后面，或者固定出现在候选窗口的某一位置上等等。实际上，用户只要能在候选项的前几页找到自己所需的姓名词条就已经大大提高用户的输入体验了。

在本发明字符输入方法的另一个实施例中，可以将上述的整个过程和普通的字符输入有机结合起来。例如，对于识别姓名音的步骤102，可以设置在到词库中进行匹配之前，即首先判断是否包含有姓名音，如果有，则先处理姓名音，如果没有，则进入普通的词库匹配过程；当然，步骤102也可以设置在到词库中进行匹配之后，例如，如果词库中不能得到准确的匹配结果，则进一步判断是否包含有姓名音，如果有，则自动生成姓名候选项。实际中，上述的先识别方式和后识别方式各有优势，本领域技术人员根据需要选用即可。

优选的，在本发明字符输入方法的另一个实施例中，在自动生成姓名候选项之前，还可以包括：判断是否在词库中存储有与所述针对姓名的编码字符串相匹配的姓名词条，如果有，则直接提供该匹配的姓名候选项，如果否，则再进入自动生成步骤。由于词库中也存在一部分的姓名词条，故先进行匹配，可以减少输入法系统的计算资源浪费，提高效率。例如，拼音串“guodegangshuoxiangsheng”中的“guodegang”，它对应着系统词库中的词条“郭德刚”，则优先查找词条“郭德刚”并让其参与智能组词或者成为输出候选项。

进一步，为了提高上面实施例的词库中姓名词条匹配的准确度，可以对现有词库进行改进和增强。一般的，在现有词库中会存在大量的和人名相关的注音错误。但是由于词库数据量巨大，不得不引入自动注音；而在通常的自动注音中，权重偏低的多音字姓氏音经常会被更为常见的一般音排挤掉，从而为系统词库带入了错误。比如“解小西”就无法注成正确的“xiexiaoxi”。现有技术中为了获得准确的注音，则需要通过人工审校的方式完成，但是存在人力消耗过大、成本太高、效率较低、反应周期过长等缺陷。

本发明根据前述方案的核心构思提供出以下的改进方案：首先，预置姓氏字-编码字符串的数据表，人名字-编码字符串的数据表；然后，从词库中识别出姓名词条；最后，通过查询所述姓氏字-编码字符串的数据表和人名字-编码字符串的数据表，对所识别出的姓名词条进行编码字符串的自动标注。其中，具体的自动标注过程可以直接在输入法客户端完成，也可以利用服务器端完成后发布词库更新即可。

中国人的姓氏大概有两千个，其中本身为多音字的姓氏有几百个，完全可以由人工搜集、标注其正确的姓氏读音，并且不会消耗大量的人力。由于姓氏音通常是唯一的，因此不会发生多音字的情况。对于人名音，则可以根据经验设置一些读音奇特的人名音，以完善数据表。即本发明提出的改进方案将姓氏和人名分开标注，并且可以保证所依赖的数据表的准确性，从而从根本上提高了词库中姓名词条注音的准确性。对于该改进方案的详细描述，在本说明书的后面将会进一步仔细讨论。

参照图2，示出了本发明一种字符输入的系统实施例，用于实现姓名输入，具体可以包括：

编码接收器201，用于接收用户输入的编码字符串；

姓名编码判断器202，用于判断该编码字符串中是否包含针对姓名的编码字符串；

姓名候选项生成器203，用于当姓名编码判断器的输出结果为是的时候，依据预置的数据表和所述针对姓名的编码字符串，自动生成姓名候选项；

输出器204，用于展示候选项，以及接收用户的选择信息，将指定的候选项上屏输出。优选的，所述候选项可以包括姓名候选项、普通词条候选项或者智能组词候选项。

以中文的拼音输入为例，本实施例可以用于在输入客户端，动态判断用户输入的拼音串，从中识别判断是否包含姓名音；如果包含有姓名音，则输入法系统会组合出若干概率较高的姓名词条作为候选项或者参与智能组词后供用户选择，从而可以提高用户输入姓名词条时的输入效率。

优选的，本实施例还可以用于普通词条的输入，即本实施例还可以包括用于针对普通词条的词库匹配装置205，例如，当用户输入的编码字符串中包含有非姓名音时(或者全部都是非姓名音时)，则可以启动词库匹配装置205，用于针对这些非姓名音进行匹配获得候选项。在另一个实施例中，还可以先由词库匹配装置205针对用户输入的编码字符串进行转换，如果不能得到符合预置条件的候选项，则再启动姓名编码判断器202，以确定是否需要启动姓名候选项生成器203。

进一步，由于词库中有可能包括一些姓名词条，所以优选的，即使针对姓名音，也可以将自动生成姓名候选项和词库匹配得到姓名候选项结合起来，例如，当姓名编码判断器202的输出结果为是的时候，先通过词库匹配装置205判断在词库中是否存储有与所述针对姓名的编码字符串相匹配的姓名词条，如果有，则直接提供该匹配的姓名候选项，如果否，则触发启动姓名候选项生成器203。所述相匹配一般是指匹配度高于一定阈值的情况。

上面示出了一种自动生成和词库匹配的结合例子，实际上，还可以存在其他可行的结合方式。在另一个实施例中，如果词库中虽然存储有与所述针对姓名的编码字符串相匹配的词条，但是非常少(例如只有一个)，则也可以继续触发启动姓名候选项生成器，由其生成更多的姓名候选项，以供用户选择。

为了提高词库中姓名注音的准确度，则本实施例还可以包括：预先设置的姓氏字-编码字符串的数据表2001和人名字-编码字符串的数据表2002；姓名词条识别模块2003，用于从词库中识别出姓名词条；自动标注模块2004，用于通过查询所述姓氏字-编码字符串的数据表2001和人名字-编码字符串的数据表2002，对词库中所识别出的姓名词条进行编码字符串的自动标注。

当然，上述用于注音的几个模块可以位于输入法客户端之外的第二计算设备(例如，服务器端)中，因为其主要针对词库增强的，并不是每次输入都需要的。

在本发明的一个优选实施例中，当所述编码字符串为拼音串时，所述姓名编码判断器具体可以包括以下子模块：

切分模块，用于将原始拼音串切分为多个音节；

组合模块，用于获得多个由连续的音节组成的音节集合；

姓名音概率计算模块，用于计算各音节集合作为姓名音的概率；

姓名音确定模块，用于当一音节集合的概率值符合预置条件时，则确定该音节集合为针对姓名的拼音串。

在本发明的另一个优选实施例中，当所述编码字符串为拼音串时，所述姓名编码判断器具体可以包括以下子模块：

在本发明的一个优选实施例中，当所述编码字符串为拼音串时，所述姓名候选项生成器具体可以包括以下子模块：

音字转换模块，用于依据所述针对姓名的拼音串，获取各个音节相应的单字；

单字集合生成模块，用于生成多个单字集合，各单字的相邻关系与相应音节的相邻关系一致；

姓名概率计算模块，用于计算该单字集合作为姓名的概率；

姓名候选项确定模块，用于当一单字集合的概率值符合预置条件时，则确定该单字集合作为姓名候选项之一。

至于姓名音概率和姓名概率的具体计算原理在图1所示方法实施例的相关描述中已经涉及，在此不再赘述。

本实施例中的输入法系统可以为普通输入法系统，例如，所述输入法系统的编码接收器201、姓名编码判断器202、姓名候选项生成器203和上屏输出器204位于同一计算设备中；本实施例中的输入法系统也可以用于网络分布式环境下，例如，所述输入法系统的编码接收器201和上屏输出器204位于第一计算设备中，姓名编码判断器202和姓名候选项生成器203位于第二计算设备中，该输入法系统根据用户输入的信息，从位于第二计算设备中获取相应信息，在第一计算设备中显示。

参照图3，示出了一种改进现有词库的方法实施例，主要可以用于提高现有词库中姓名词条的注音的准确性，具体可以包括以下步骤：

步骤301、预置姓氏字-编码字符串的数据表，人名字-编码字符串的数据表；

步骤302、从词库中识别出姓名词条；

步骤303、通过查询所述姓氏字-编码字符串的数据表和人名字-编码字符串的数据表，对所识别出的姓名词条进行编码字符串的自动标注。

从词库中识别姓名词条的方式可以有很多，基本原理为：统计姓氏字/词、人名字/词作为姓氏或者人名的概率，计算得到两者组合成为姓名的概率。当然，还可以综合考虑其他因素对概率的影响。

本发明的一个实施例中，可以通过以下方式从词库中识别出姓名词条：依据一词条中每个单字出现在常用姓名中相应位置上的概率，计算得到该词条作为姓名的概率；当一词条的概率值符合预置条件时，则确定该词条为姓名词条。当然，还可以进一步考虑两个单字两两相邻的概率等等。这些概率数据表中的数据都可以通过统计该单字在预置语料库中的情况而获得。

参照图4，示出了一种用于改进词库的装置实施例，包括：

预先设置的姓氏字-编码字符串的数据表401和人名字-编码字符串的数据表402；

姓名词条识别模块403，用于从词库中识别出姓名词条；

自动标注模块404，用于通过查询所述姓氏字-编码字符串的数据表和人名字-编码字符串的数据表，对词库中所识别出的姓名词条进行编码字符串的自动标注。

本发明的一个实施例中，所述姓名词条识别模块可以进一步包括：姓名概率计算子模块4031，用于依据一词条中每个单字出现在常用姓名中相应位置上的概率，计算得到该词条作为姓名的概率；姓名词条确定子模块4032，用于当一词条的概率值符合预置条件时，则确定该词条为姓名词条。

改进后的词库最广泛的用途就是输入法，当然，本发明并不需要限定增强后的词库的具体用途。

参照图5，示出了一种从拼音串中识别姓名音的装置实施例，包括：

当前音节参数计算模块501，用于计算用户输入的当前音节作为姓氏音的评价参数，如果符合预置条件，则触发音节集合参数计算模块；

音节集合参数计算模块502，用于计算该音节与其后续的音节组成的集合作为姓名音的评价参数；

姓名音确定模块503，用于当一音节集合符合预置条件时，确定该音节集合为针对姓名的拼音串。

优选的，所述评价参数的计算需要查询预置的数据表504，所述数据表504可以包括：单音节作为姓氏音的概率数据表和双音节作为姓氏音的概率数据表；单音节出现在常用姓名中相应位置上的概率数据表；两单音节在常用姓名中两两相邻的概率数据表。当然，也可以仅仅简单的包括单音节作为姓氏音的概率数据表和单音节出现在常用姓名中相应位置上的概率数据表即可。

参照图6，示出了一种基于姓名音的姓名生成装置实施例，包括：

音字转换单元601，用于依据针对姓名的拼音串，获取各个音节相应的单字；

单字集合生成单元602，用于生成多个单字集合，各单字的相邻关系与相应音节的相邻关系一致；

姓名概率计算单元603，用于查询预置数据表，计算得到该单字集合作为姓名的概率；

姓名候选项确定单元604，用于当一单字集合的概率值符合预置条件时，则确定该单字集合作为姓名候选项之一。

优选的，所述预置的数据表可以包括：单字作为姓氏音的概率数据表和两个单字作为姓氏音的概率数据表；单字出现在常用姓名中相应位置上的概率数据表；两单字在常用姓名中相邻的概率数据表。当然，也可以仅仅简单的包括单字作为姓氏音的概率数据表和单字出现在常用姓名中相应位置上的概率数据表即可。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

另外，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种字符输入的方法和系统，一种改进词库的方法和装置，以及一种基于姓名音的姓名生成装置和一种从拼音串中识别姓名音的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1、一种字符输入的方法，其特征在于，包括：

接收用户输入的编码字符串；

判断该编码字符串中是否包含针对姓名的编码字符串；

如果是，则依据预置的数据表和所述针对姓名的编码字符串，自动生成姓名候选项；

展示候选项；

接收用户的选择信息，输出指定候选项。

2、如权利要求1所述的方法，其特征在于，在自动生成姓名候选项之前，还包括：

判断在词库中是否存储有与所述针对姓名的编码字符串相匹配的姓名词条，如果有，则直接提供该匹配的姓名候选项，如果否，则进入自动生成步骤。

3、如权利要求2所述的方法，其特征在于，还包括：

预置姓氏字-编码字符串的数据表，人名字-编码字符串的数据表；

从词库中识别出姓名词条；

通过查询所述姓氏字-编码字符串的数据表和人名字-编码字符串的数据表，对词库中所识别出的姓名词条进行编码字符串的自动标注。

4、如权利要求1所述的方法，其特征在于，当所述编码字符串为拼音串时，通过以下步骤判定是否包含针对姓名的拼音串：

计算用户输入的当前音节作为姓氏音的评价参数，如果符合预置条件，则；

计算该音节与其后续的音节组成的集合作为姓名音的评价参数；

如果一音节集合符合预置条件，则确定该音节集合为针对姓名的拼音串。

5、如权利要求1所述的方法，其特征在于，当所述编码字符串为拼音串时，通过以下步骤判定是否包含针对姓名的拼音串：

将原始拼音串切分为多个音节；

获得多个由连续的音节组成的音节集合；

计算各音节集合作为姓名音的评价参数；

当一音节集合的评价参数值符合预置条件时，则确定该音节集合为针对姓名的拼音串。

6、如权利要求1所述的方法，其特征在于，当所述编码字符串为拼音串时，通过以下步骤自动生成姓名候选项：

依据所述针对姓名的拼音串，获取各个音节相应的单字；

生成多个单字集合，各单字的相邻关系与相应音节的相邻关系一致；

计算该单字集合作为姓名的评价参数；

当一单字集合的评价参数值符合预置条件时，则确定该单字集合作为姓名候选项之一。

7、如权利要求1所述的方法，其特征在于，所述候选项包括姓名候选项、普通词条候选项或者智能组词候选项。

8、一种字符输入的系统，其特征在于，包括：

编码接收器，用于接收用户输入的编码字符串；

9、如权利要求8所述的系统，其特征在于，还包括：

词库匹配器，用于当姓名编码判断器的输出结果为是的时候，判断在词库中是否存储有与所述针对姓名的编码字符串相匹配的姓名词条，如果有，则直接提供该匹配的姓名候选项，如果否，则触发启动姓名候选项生成器。

10、如权利要求9所述的系统，其特征在于，还包括：

姓氏字-编码字符串的数据表和人名字-编码字符串的数据表；

姓名词条识别模块，用于从词库中识别出姓名词条；

自动标注模块，用于通过查询所述姓氏字-编码字符串的数据表和人名字-编码字符串的数据表，对词库中所识别出的姓名词条进行编码字符串的自动标注。

11、如权利要求8所述的系统，其特征在于，当所述编码字符串为拼音串时，所述姓名编码判断器具体包括以下子模块：

12、如权利要求8所述的系统，其特征在于，当所述编码字符串为拼音串时，所述姓名编码判断器具体包括以下子模块：

切分模块，用于将原始拼音串切分为多个音节；

组合模块，用于获得多个由连续的音节组成的音节集合；

姓名音参数计算模块，用于计算各音节集合作为姓名音的评价参数；

姓名音确定模块，用于当一音节集合的评价参数值符合预置条件时，则确定该音节集合为针对姓名的拼音串。

13、如权利要求8所述的系统，其特征在于，当所述编码字符串为拼音串时，所述姓名候选项生成器具体包括以下子模块：

姓名参数计算模块，用于计算该单字集合作为姓名的评价参数；

姓名候选项确定模块，用于当一单字集合的评价参数值符合预置条件时，则确定该单字集合作为姓名候选项之一。

14、如权利要求8所述的系统，其特征在于，所述候选项包括姓名候选项、普通词条候选项或者智能组词候选项。

15、一种改进词库的方法，其特征在于，包括：

从词库中识别出姓名词条；

通过查询所述姓氏字-编码字符串的数据表和人名字-编码字符串的数据表，对所识别出的姓名词条进行编码字符串的自动标注。

16、如权利要求15所述的方法，其特征在于，通过以下方式从词库中识别出姓名词条：

依据一词条中每个单字出现在常用姓名中相应位置上的评价参数，计算得到该词条作为姓名的评价参数；

当一词条的评价参数值符合预置条件时，则确定该词条为姓名词条。

17、一种用于改进词库的装置，其特征在于，包括：

姓名词条识别模块，用于从词库中识别出姓名词条；

18、如权利要求17所述的装置，其特征在于，所述姓名词条识别模块进一步包括：

姓名参数计算子模块，用于依据一词条中每个单字出现在常用姓名中相应位置上的评价参数，计算得到该词条作为姓名的评价参数；

姓名词条确定子模块，用于当一词条的评价参数值符合预置条件时，则确定该词条为姓名词条。

19、一种从拼音串中识别姓名音的装置，其特征在于，包括：

20、如权利要求19所述的装置，其特征在于，所述评价参数的计算需要查询预置的数据表，所述数据表包括：

单音节作为姓氏音的概率数据表和双音节作为姓氏音的概率数据表；

单音节出现在常用姓名中相应位置上的概率数据表；

两个单音节在常用姓名中相邻的概率数据表。

21、一种基于姓名音的姓名生成装置，其特征在于，包括：

22、如权利要求21所述的装置，其特征在于，所述预置的数据表包括：

单字作为姓氏音的概率数据表和两个单字作为姓氏音的概率数据表；

单字出现在常用姓名中相应位置上的概率数据表；

两单字在常用姓名中相邻的概率数据表。