CN101271459B

CN101271459B - 一种生成词库的方法、一种输入的方法和一种输入法系统

Info

Publication number: CN101271459B
Application number: CN200710088278A
Authority: CN
Inventors: 吕杰勇
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2007-03-22
Filing date: 2007-03-22
Publication date: 2010-05-26
Anticipated expiration: 2027-03-22
Also published as: WO2008113295A1; CN101271459A

Abstract

本发明公开了一种智能选词输入的方法，包括：确定输入用户的当前有效类别；根据用户输入的编码字符串在所述词库中获取候选字词，所述词库包括字词对应的词频信息、类别信息及类别特征值，所述类别信息及类别特征值通过将字词在相应类别的语料信息中统计获得；根据所述候选字词在当前有效类别下的类别特征值计算所述候选字词的输出权重值；根据所述候选字词的输出权重值以及所述候选字词在词库中的通用词频信息进行排序，并根据排序结果输出所述候选字词。本发明可以在不增加用户操作的前提下，有效地提高了输入法的智能性，并有效提高了用户的输入效率，用户体验好。

Description

一种生成词库的方法、一种输入的方法和一种输入法系统

技术领域

本发明涉及输入法系统数据处理领域，特别是涉及一种生成输入法词库的方法、一种智能选词输入的方法以及一种输入法系统。

背景技术

随着计算机技术以及互联网技术的普及与发展，不同专业领域、不同兴趣以及不同使用习惯的用户对于输入法的智能性要求越来越高。为了满足这种智能性的要求，现有的输入法系统提供了定制专业词库和形成用户词库两种方法。

定制专业词库的方法是基于不同专业领域的用户所用的字词、字词搭配关系、词频信息和/或句法的不同，为各类用户定制对应的专业词库。以微软拼音输入法为例，在这种输入法系统中，按照学科领域可以将词库分为医学类词库、电子类词库、IT类词库等。当用户进行输入时，通过预先选择所需的专业词库，例如，打开输入法系统的选项从中选择电子类专业词库，然后由输入法程序动态加载这个专业词库，在用户的输入过程中，根据用户输入的编码字符串直接从该专业词库中获取到相应的候选字词并输出，由于不同专业词库中相应领域字词的输出权重较高，因而当用户在进行专业领域字词输入时，可以提高输入效率。然而，用户使用这种专业词库不仅需要在本地进行加载，还需要中断输入过程来进行加载操作，需要占用用户一定的存储空间，操作也比较复杂，因而用户体验较差；；并且，这种专业词库中的字词及词频还存在相互之间或者与通用词库重合的情况，会导致资源浪费、效率降低等问题；而且，这种专业词库侧重的是专业领域，并不符合大多数普通用户的日常输入习惯，因此，这种输入法系统的智能性仍远远不能满足用户的需求。

形成用户词库的过程通常包括以下步骤：记录用户输入的字词，学习某个用户适用的词汇；通过一段时间地不断学习，将词库逐渐收敛到某个用户输入的最佳状态，从而形成用户词库。显然，这种用户词库的形成过程是需要花费较长的时间，不可能在短时间内形成；并且，由于安装有输入法系统的PC或其它装置的用户不一定是唯一的，输入法系统学习到的输入记录并不具有通用性，即使形成有效的用户词库也仅仅是对于在安装有该输入法系统的同一PC或其它装置上使用的个别用户有效，不可能影响大多数普通用户。因此，这种输入法系统的智能性也远远不能满足用户的需求。

因此，现阶段需要本领域技术人员迫切解决的一个技术问题就是，如何改变现有输入法系统的智能性不高的现状，提供一种满足用户输入需求的智能输入法系统。

发明内容

本发明所要解决的技术问题是提供一种输入法词库的生成方法和一种智能选词输入的方法，在不增加用户操作的前提下，就能够达到提高输入法智能性的目的。

本发明另一个目的是提供一种输入法系统，用于保证上述方法的应用及实施。

为了解决上述技术问题，本发明实施例公开了一种输入法词库的生成方法，包括：

获取字词在词库中的通用词频信息；

获取预置类别的语料信息，并统计所述字词在各个类别的语料信息下的分类词频信息；

根据所述字词的分类词频信息与所述字词在词库中的通用词频信息，统计字词在所述语料信息中的类别信息及类别特征值；

记录所述字词对应的通用词频信息、类别信息及类别特征值，形成输入法词库。

优选的，所述通用词频信息为字词在词库中的词频和/或字词搭配的连接参数；所述分类词频信息为字词在各个类别的语料信息下的词频和/或字词搭配的连接参数。

优选的，所述根据所述字词的分类词频信息与所述字词在词库中的通用词频信息，统计字词在所述语料信息中的类别信息及类别特征值包括：

根据所述字词的分类词频信息与所述字词在词库中的通用词频信息计算类别特征值；

如果所述类别特征值大于或等于一定阈值，则针对该字词记录对应类别的信息及相应的类别特征值。

优选的，所述根据所述字词的分类词频信息与所述字词在词库中的通用词频信息，统计字词在所述语料信息中的类别信息及类别特征值还包括：

如果所述类别特征值小于一定阈值，则不记录所述字词的类别信息及类别特征值；或者，针对所述字词记录对应类别的信息，并将相应的类别特征值记录为默认值。

优选的，所述词根据所述字词的分类词频信息与所述字词在词库中的通用词频信息，统计字词在所述语料信息中的类别信息及类别特征值包括：

根据所述字词的分类词频信息与所述字词在词库中的通用词频信息计算类别特征值，并针对该字词记录对应类别的信息及相应的类别特征值。

本发明实施例还公开了一种智能选词输入的方法，包括：

确定用户输入的当前有效类别；

根据用户输入的编码字符串在所述词库中获取候选字词，所述词库包括字词对应的通用词频信息、类别信息及类别特征值，所述类别信息及类别特征值通过以下方式获得：获取字词在词库中的通用词频信息；获取预置类别的语料信息，并统计所述字词在各个类别的语料信息下的分类词频信息；根据所述字词的分类词频信息与所述字词在词库中的通用词频信息，统计字词在所述语料信息中的类别信息及类别特征值；

根据所述候选字词在当前有效类别下的类别特征值计算所述候选字词的输出权重值；

根据所述候选字词的输出权重值以及所述候选字词在词库中的通用词频信息进行排序，并根据排序结果输出所述候选字词。

优选的，所述有效类别为一个或多个类别。

根据所述字词的分类词频信息与通用词频信息计算类别特征值，并针对该字词记录对应类别的信息及相应的类别特征值。

优选的，所述确定有效类别的步骤包括：

确定用户选择的类别为有效类别。

优选的，所述确定有效类别的步骤包括：

预置对应信息表，所述对应信息表用以存储类别信息及对应的应用软件信息；

获取用户当前输入的应用软件信息，并根据所述应用软件信息在所述对应信息表查找对应的类别信息，如果存在对应的类别信息，则确定所述类别信息为有效类别。

优选的，所述确定有效类别的步骤包括：

获取用户的符合预置条件的输入记录；

将所述用户的输入记录在特征字词库中进行匹配，得到匹配结果值；所述特征字词库由具有相同类别信息的字词组成，或者，由同一类别信息下的类别特征值大于或等于预置值的字词组成；

选取最大的匹配结果值所对应的特征字词库的类别信息，确定为有效类别。

优选的，所述确定有效类别的步骤还包括：

获取用户的符合预置条件的输入记录；

选取大于或等于一定阈值的匹配结果值所对应的特征字词库的类别信息，确定为有效类别。

优选的，所述确定有效类别的步骤还包括：

获取输入用户的当前应用软件与类别信息的相关度；

根据所述相关度修正所述匹配结果值。

优选的，当所述有效类别为多个时，根据所述多个有效类别分别对应的多个类别权重值计算所述输出权重值。

本发明实施例还公开了一种输入法系统，包括输入接口单元和显示单元，所述的系统还包括：

词库：用于存储字词对应的通用词频信息、类别信息及类别特征值，所述类别信息及类别特征值通过以下方式获得：获取字词在词库中的通用词频信息；获取预置类别的语料信息，并统计所述字词在各个类别的语料信息下的分类词频信息；根据所述字词的分类词频信息与所述字词在词库中的通用词频信息，统计字词在所述语料信息中的类别信息及类别特征值；

确定单元：用于确定用户输入的当前有效类别；

获取单元：用于根据用户输入的编码字符串在所述词库中获取候选字词；

计算单元：用于根据所述候选字词在当前有效类别下的类别特征值计算所述候选字词输出权重值；

输出单元：用于根据所述候选字词的输出权重值以及所述候选字词在词库中的通用词频信息进行排序，并根据排序结果输出所述候选字词。

优选的，所述有效类别为一个或多个类别。

优选的，所述确定单元包括：

第一确定子单元：用于确定用户选择的类别为有效类别。

优选的，所述确定单元包括：

预置子单元：用于预置对应信息表，所述对应信息表用以存储类别信息及对应的应用软件信息；

第二确定子单元：用于获取用户当前输入的应用软件信息，并根据所述应用软件信息在所述对应信息表查找对应的类别信息，如果存在对应的类别信息，则确定所述类别信息为有效类别。

优选的，所述确定单元包括：

获取子单元：用于获取用户的符合预置条件的输入记录；

匹配子单元：用于将所述用户的输入记录在特征字词库中进行匹配，得到匹配结果值；所述特征字词库由具有相同类别信息的字词组成，或，由同一类别信息下的类别特征值大于或等于预置值的字词组成；

第三确定子单元：用于选取最大的匹配结果值所对应的特征字词的类别信息，确定为有效类别。

优选的，所述确定单元包括：

获取子单元：用于获取用户的符合预置条件的输入记录；

匹配子单元：用于将所述用户的输入记录在特征字词库中进行匹配，得到匹配结果值；所述特征字词库由具有相同类别信息的字词组成，或者，由同一类别信息下的类别特征值大于或等于预置值的字词组成；

第四确定子单元：用于选取大于或等于一定阈值的匹配结果值所对应的特征字词的类别信息，确定为有效类别。

优选的，所述确定单元还包括：

相关度获取子单元：用于获取输入用户的当前应用软件与类别信息的相关度；

修正子单元：用于根据所述相关度修正所述匹配结果值。

优选的，所述输入法系统的输入接口单元、显示单元以及词库位于同一计算设备中；或者，所述输入法系统的输入接口单元、显示单元位于第一计算设备中，词库位于第二计算设备中，所述输入法系统根据用户输入的信息，从位于第二计算设备中获取相应信息，在第一计算设备显示相应字词。

与现有技术相比，本发明具有以下优点：

首先，本发明通过预置包含词频信息、类别信息及类别特征值的输入法词库，在用户进行输入时，自动识别有效类别，并在输出时对在当前有效类别下的候选字词进行加权，结合该字词的原始词频信息排序输出，从而在不增加用户操作的前提下，有效地提高了输入法的智能性。

其次，本发明通过确定有效类别，可以根据用户预定义的类别使相应类别下的字词输出排序靠前；还可以根据用户的输入记录和/或应用软件自动识别用户所需的类别，并使相应类别输出下的字词输出排序靠前，从而有效提高了用户的输入效率。

再者，本发明还可以设置多个有效类别，并通过赋予不同类别不同的类别权重计算输出权重值，从而使输出结果更符合用户需求，用户体验好。

最后，本发明的词库不可能存在字词重复的可能，从而减少了资源占用，提高了系统的处理效率。

附图说明

图1是本发明的一种输入法词库的生成方法的流程图；

图2是本发明的一种智能选词输入的方法的流程图；

图3是本发明的一种输入法系统的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

随着输入法在普通用户中的普及，大多数普通用户对输入法的智能性要求越来越高，比如，用户希望输入法系统可以根据输入记录自动识别用户的兴趣或输入习惯，从而转到相应字词类别下输出字词，在所述类别下，具有相应类别特征的字词的输出排序会比较靠前。例如，当用户在使用wintex撰写学术论文时，希望论文类字词的输出排序比较靠前，从而提高用户的输入效率；例如，输入拼音字符串“kewei”，用户希望候选词“可微”排列在“可谓”、“可为”之前；或者，当用户使用QQ或MSN进行聊天时，希望口语类字词的输出排序会比较靠前，例如，输入拼音字符串“zale”，用户希望候选词“咋了”排列在“砸了”、“杂了”之前。因而，本发明的核心构思之一在于，通过预置包含词频信息、类别信息及类别特征值词库，在用户输入时，可以由用户指定或自动识别相应的类别，并在输出时通过对相应类别的字词进行加权，从而改变字词原有的输出排序，使相应类别的字词排序靠前。

本发明可以应用于日文、韩文等需要出现候选词排序的输入法系统，例如，对于日文而言，由日文中的平假名、片假名拼成短语的时候就需要出现候选词排序。由于本发明在上述几种输入法系统中的应用都是相似的，所以为了方便说明，下面以对本发明应用在中文的情况进行举例说明。

参照图1，示出了本发明的一种输入法词库的生成方法实施例的步骤流程图，包括以下步骤：

步骤101、获取字词的通用词频信息；

所述字词可以包括现有各种词库中的字词，如，第三方词库(如现代汉语词典)中的字词、基本词库(如搜索引擎所需的词库)中的字词、包含搭配关系表的词库(如搜狗输入法的词库)中的字词等；并且所述字词还可以包括直接从语料库中得到的字词，本发明对所述字词的来源不需要进行限定。更为优选的是，所述字词是可以更新的，例如，通过获取搜索引擎的查询关键词字符串作为新词添加至所述词库完成更新。当然，本实施例无需对所述字词的范围及设置进行限定。

优选的是，所述词频信息为词频和/或字词搭配的连接参数。可以理解的是，所述词频信息包括在信息输入过程中提供候选词排序的任一种词频，例如，普通词频(字词的使用频度)、字词搭配的连接参数等，所述字词搭配的连接参数是任一种表明字词之间连接关系的数值包括相邻同现频率、同现概率或连接强度值等。所述词频信息可以通过统计各种语料信息，如互联网语料库、各种特定的封闭的文档集合等获取，优选为在综合网页语料信息(即各个类别均匀分布的网页集合)中统计获取，当然，本领域技术人员采用现有技术中的其它获取方法也是可行的，本发明对此不需要进行限定。

步骤102、按照预置类别获取相应类别的语料信息，将所述字词在所述语料信息中进行统计，获得所述字词的类别信息和类别特征值；

在本实施例中，所述类别可以根据用户的兴趣、使用习惯或专业领域等，由本领域技术人员根据用户需求或根据经验任意预置，例如，预置通用类、口语类、书面语类等类别。优选的是，所述类别是一个开放的集合，在实际应用中可以根据需要进行定义或者更新，本发明对于所述类别的设置不作限制。

在本实施例中，可以通过充分利用现有输入法、搜索引擎等资源来获得所述字词的类别信息及类别特征值。现有的语料资源可以包括：(1)互联网网页语料库，这种语料库可以由通过网络爬虫技术获取互联网的网页获得，并且具有类别特征，可以分为如旅游、教育、IT、金融等类别；(2)大量用户使用输入法的输入记录，这种输入记录包括直接信息，如用户输入的文字等，以及间接信息，如用户输入的词语分布统计等；(3)用户输入的词汇和所用软件之间的对应关系，如输入法记录的部分用户的使用记录，在这些记录中包含输入的字词和当时所使用的应用软件的对应关系；(4)传统媒体语料库(如书报，杂志等)。当然，本领域技术人员还可以根据相关技术或者需要获取各种各样的语料信息，为使本领域技术人员更好地理解本发明，以下通过举例描述几种按照预置类别获取相应类别的语料信息的方法。

例如，获取基于内容分类的网页语料信息：首先通过网络spider从互联网上抓取海量网页；然后通过网页分类算法将获取的网页按照预置类别分类，如旅游、IT、经济、教育、金融等，从而得到相应类别的网页语料信息；

获取基于来源分类的网页语料信息：首先通过网络spider从互联网上抓取海量网页；然后根据网页的来源，如bbs、blog、各类官方网站、PDF/DOC格式文件等来判断该网页的来源类别，从而得到不同来源的网页语料信息；

获取用户的输入记录语料信息：例如，通过输入法帐户功能获取海量输入法用户的输入记录，包括输入法的输入拼音及输出文字等；

以及，通过调用系统函数(如windows API函数)获得用户的当前的输入环境(如当时系统开启的应用软件信息)的相应语料信息；

按照预置类别获取各种资料语料信息，如常见人名、地名、常见的偏僻人名字等，这些语料信息可以通过现有的文本挖掘算法获取。

当然，上述获取语料信息的方法仅仅用于举例，本发明并不限于上述几种方法，本领域技术人员采用其它获取方法都是可行的。

可以想到的是，由于字词在不同类别的语料信息下统计出来的概率分布与其在综合网页语料信息(即各个类别均匀分布的网页集合)下统计出来的概率分布是有差别的。如果这种差别大于或等于一定的阈值，则说明该字词的类别信息为与相应类别的语料信息的类别。

优选的是，在本实施例中可以通过以下子步骤获得所述类别信息和类别特征值：

子步骤S1、统计所述字词在所述各个类别的语料信息下的分类词频信息；

子步骤S2、根据所述字词的分类词频信息与所述字词在词库中的通用词频信息计算类别特征值，如果所述类别特征值大于或等于一定阈值，则针对该字词记录所述类别特征值及其对应的类别信息。

例如，首先，预置类别为口语类，获取到相应的论坛记录、用户聊天记录等网页语料信息；然后，统计词库中的字词在所述论坛记录、用户聊天记录等网页语料信息上的口语类词频信息B_A，再根据所述口语类词频信息B_A与该字词在词库中的通用词频信息N_A(即在综合网页语料上统计出的通用词频)计算类别特征值。

假设，定义类别特征值计算公式为B_A/(B_A+N_A)，在这种情况下，当B_A越来越大于N_A时，字词A的口语类特征值会越来越接近1.0。如果计算得到的类别特征值为0.95，并且这个类别特征值大于或等于一定阈值，如0.75，则可以确定该字词的口语化特征明显，从而针对该字词记录相应的类别特征值“0.95”及其对应的类别信息“口语”。

在这种情况下，对于字词类别信息的记录需要由类别特征值控制，简单地说，就是对于所述字词，只记录大于或等于一定阈值的类别特征值及其对应的类别信息，而对于小于该一定阈值的类别特征值及其对应的类别信息则不进行记录，从而有效利用了词库的空间，提高了系统的处理效率。

优选的是，在本实施例中还可以通过以下子步骤获得所述类别信息和类别特征值：

子步骤S3、统计所述字词在所述各个类别的语料信息下的分类词频信息；

子步骤S4、根据所述字词的分类词频信息与所述字词在词库中的通用词频信息计算类别特征值，并针对该字词记录所述类别特征值及其对应的类别信息。

由于所述类别特征值表示的是某个字词在某种类别下的连接紧密性度量，即类别特征值越大，则表示这个字词的这种类别特征越明显，反之，则表示这个字词不一定具有这种类别特征。因此，在这种情况下，为了提高存储效率，在所述词库中保存的类别特征值可以为大于或等于一定阈值的类别特征值，对于小于一定阈值的类别特征值可以直接赋予默认值(比如“0”)，以表示所述字词不具有此种类别信息。

对于通过现有的文本挖掘算法获取的各种资料录入语料信息，如常见人名、地名、常见的偏僻人名字等，也可以赋予固定的类别特征值，比如对各类人名、地名等资料录入类字词的类别特征值赋为1.0，其余类别的字词的类别特征值则赋为0。

当然，所述获得字词的类别信息及类别特征值的方法可以由本领域技术人员根据需要或经验任意采用，例如，直接预置通用词频信息为类别特征值，或者根据通用词频信息计算得到类别特征值，或者直接设置固定值为类别特征值等方法都是可行的，以上方法仅用于举例，本发明对此并不加以限制。

步骤103、记录所述字词对应的词频信息、类别信息及类别特征值，形成输入法词库。

在形成的词库中，包括的信息为：<字词词频信息类别信息类别特征值>，或，<字词词频信息类别信息 L1 类别特征值 S1 类别信息L2 类别特征值 S2...>；例如，<咋了 0.5 口语化 0.95 书面语 0.02>。

参考图2，示出了本发明的一种智能选词输入的方法实施例的步骤流程图，包括以下步骤：

步骤201、确定输入用户的当前有效类别；

在实际中，为了使输入法可以根据用户预定义的类别进行输出，优选的是，所述确定有效类别的步骤包括以下子步骤：

子步骤A：确定用户选择的类别信息为有效类别。

在这种情况下，用户可以打开输入法选项从中选择相应的类别，然后由输入法程序动态地将词库相应的类别确定为有效类别。

作为另一实施例，为了使输入法可以根据用户当前的环境信息自动识别用户所需的类别，优选的是，所述确定有效类别的步骤还可以包括以下子步骤：

子步骤B1：预置对应信息表，所述对应信息表用以存储类别信息及对应的应用软件信息；

本领域技术人员可以根据需要、或者根据经验选择任一种方式预置所述对应信息表，对此本发明并不加以限定。

子步骤B2：获取用户当前输入的应用软件信息，并根据所述应用软件信息在所述对应信息表查找对应的类别信息，如果存在对应的类别信息，则确定所述类别信息为有效类别。

所述应用软件信息可以通过调用系统函数获取，例如，通过调用Windows API函数中的GetModulefFile()/GetWindowText()函数，可以分别获得当前进程的进程名和当前窗口的标题文字，从而可以通过这两个特征判断用户当前使用的应用软件信息。当然，本领域技术人员采用现有技术的其它方式进行获取也是可行的，本发明对此不需要进行限定。

作为另一实施例，为了使输入法可以根据用户的输入记录自动识别用户所需的类别，优选的是，所述确定有效类别的步骤还可以包括以下子步骤：

子步骤C1：获取用户的符合预置条件的输入记录；

例如，获取预置时间段内的用户输入记录，或者获取预置数量以内的输入记录，如获取用户最近输入的100个字词，所述获取的方法及预置条件可以由本领域技术人员根据经验或者需要任意设置。

子步骤C2：将所述用户的输入记录在特征字词库中进行匹配，得到匹配结果值；

由于词库中的类别信息及类别特征值存在两种记录形式，一种记录形式为，在类别特征值大于或等于一定阈值的情况下，针对字词记录所述类别特征值及其对应的类别信息。在这种情况下，所述特征字词库由具有相同类别信息的字词组成；另一种记录形式为，针对该字词直接记录所有的类别特征值及类别信息，在这种情况下，所述特征字词库由同一类别信息下的类别特征值大于或等于预置值的字词组成。

子步骤C3：选取最大的匹配结果值所对应的特征字词的类别信息，确定为有效类别。

例如，定义用户的符合预置条件的输入记录R与类别S的匹配度f(R，S)如下：

f(R，S)＝matchCnt(R，S)/totalCnt(R)；

其中，matchCnt(R，S)为输入记录R在特征字词库S中出现的字词数量，totalCnt(R)为用户的输入记录中总共的字词数量。在这种情况下，当输入的字词在特征字词中的比例较多时，匹配度f(R，S)的值就较大，选取所述匹配度f(R，S)最大值的特征字词库的类别信息，确定为有效类别。

例如，获取用户的100个已输入字词，将这100个字词分别在20个特征字词库中匹配，对于其中某个字词在某个特征字词库中出现一次，则将特征字词库的分值加1，最后将分值最高的特征字词库对应的类别信息确定为有效类别。

一种可能的情况是，用户希望基于多个有效类别进行输入，例如，用户选择资料录入类别，并进一步选择科技论文类别，即希望在资料录入类别中优先输出科技论文类别的相应字词。作为另一实施例，当所述有效类别为多个类别时，优选的是，所述确定有效类别的步骤还可以包括以下子步骤：

子步骤D1、获取用户的符合预置条件的输入记录；

子步骤D2、将所述用户的输入记录在特征字词库中进行匹配，得到匹配结果值；所述特征字词库由具有相同类别信息的字词组成，或者，由同一类别信息下的类别特征值大于或等于预置值的字词组成；

子步骤D3、选取大于或等于一定阈值的匹配结果值所对应的特征字词库的类别信息，确定为有效类别。

显然，在本实施例中，所述有效类别可以为一个类别，也可以多个类别。

作为另一实施例，为使本实施例具有更高的智能性，还可以通过对用户的输入环境信息进行分析，从而更有效地确定相应的有效类别。优选的是，所述确定有效类别的步骤还可以包括以下子步骤：

子步骤E1：获取输入用户的当前应用软件与类别信息的相关度；

子步骤E2：根据所述相关度修正所述匹配结果值。

例如，定义用户的当前应用软件E，用户的符合预置条件的输入记录R，类别S之间的相关度函数如下：

g(E，R，S)＝f(R，S)*h(E，S)；

其中，f(R，S)表示用户的符合预置条件的输入记录R与类别S的匹配度；h(E，S)表示用户的当前应用软件E与类别S之间的相关度；其中，

h(E，S)＝sigma k_ei_S/N；

其中，ei表示第i个使用中的应用软件，k_ei_S表示该应用软件ei与类别S之间的关联性，N表示需要判断的应用软件的个数。

从上式可以得出，使用的同类软件越多，则用户的当前应用软件与类别之间的关联性就越大。通过E、R、S来确定用户的当前应用软件E与类别S之间的相关度g(E，R，S)之后，根据所述相关度修正所述匹配结果值，从而进一步选取最大的匹配结果值所对应的特征字词库的类别信息，确定为有效类别；或者，选取大于或等于一定阈值的匹配结果值所对应的特征字词库的类别信息，确定为有效类别。

步骤202、根据用户输入的编码字符串在所述词库中获取候选字词，所述词库包括词频信息、类别信息及其相应的类别特征值，所述类别信息及其相应的类别特征值通过在相应类别的语料信息中对该字词进行统计而获得；

当用户进行输入时，输入法系统会对用户输入的编码字符串进行切分，然后根据切分后的编码字符串到词库中获取对应的候选字词

优选的是，在本实施例中，可以通过以下子步骤获得所述类别信息和类别特征值：

子步骤F1：统计所述字词在所述各个类别的语料信息下的分类词频信息；

子步骤F2：根据所述字词的分类词频信息与所述字词在词库中的通用词频信息计算类别特征值，如果所述类别特征值大于或等于一定阈值，则针对该字词记录所述类别特征值及其对应的类别信息。

优选的是，在本实施例中，还可以通过以下子步骤获得所述类别信息和类别特征值：

子步骤G1：统计所述字词在所述各个类别的语料信息下的分类词频信息；

子步骤G2：根据所述字词的分类词频信息与所述字词在词库中的通用词频信息计算类别特征值，并针对该字词记录所述类别特征值及其对应的类别信息。

步骤203、根据所述候选字词在当前有效类别下的类别特征值计算所述候选字词相应的输出权重值；

例如，在当前有效类别为一个类别时，定义输出权重值f(x，y)为：

f(word，S)＝weight(word，S)；

其中，weight(word，S)为类别特征值，表示字词word在有效类别下的权重，通过上述公式可以得出，当有效类别仅为一个类别时，输出权重值可以由类别特征值控制。

作为另一实施例，当所述有效类别为多个时，还可以根据所述多个有效类别分别对应的多个类别权重值计算所述输出权重值。其中，所述类别权重值可以由本领域技术人员根据用户需要或根据经验任意设置，例如，设置口语类的类别权重值为3，设置书面语类的类别权重值为2。

例如，在当前有效类别为多个类别时，定义输出权重值f(x，y)为：

f(word，S)＝alpha*weight(word，S)；

其中，alpha是类别权重值，表示有效类别S在多种有效类别中占据的权重；weight(word，S)为类别特征值，表示字词word在有效类别下的权重，通过上述公式可以得出，当有效类别为多个类别时，输出权重值可以由类别特征值和类别权重值控制。一种特别的情况为，还可以设置所述weight(word，S)为固定值，从而通过alpha调整字词的输出权重值，本领域技术人员对其任意设置都是可行的，本发明对此不作限制。

在实际中，所述类别特征值优选的取值范围在0～1之间，为了获取更准确的输出权重值，还可以设置类别增益值GAIN，所述类别增益值用于调整增益，优选为100，

在这种情况下，定义输出权重值f(x，y)为：

f(word，S)＝alpha*GAIN*weight(word，S)。

步骤204、根据所述候选字词的输出权重值以及所述候选字词在词库中的通用词频信息进行排序，并根据排序结果输出所述候选字词。

例如，输出时的排序依据W_new(word_i)可以通过以下公式获得：

W_new(word_i)＝W_old(word_i)+f(word_i，S)

其中，W_old(word_i)为字词在词库中的已有词频信息，f(word_i，S)为输出权重值。

应用本实施例，假设用户输入拼音：dianzi，用户选取“电子”的候选词上屏后，如果继续输入拼音：shangwu，则候选词的首选项为“商务”，而不是一般输入法中通常情况下的首选项“上午”。或者，假设用户输入拼音：chanchan，用户选取“潺潺”的候选词上屏后，如果继续输入拼音：xiaoxi，则候选词的首选项为“小溪”，而不是一般输入法中通常情况下的首选项“消息”。或者，假设用户输入拼音：mantian，用户选取“漫天”的候选词上屏后，如果继续输入拼音：daxue，则候选词的首选项为“大雪”，而不是一般输入法中通常情况下的首选项“大学”。

参考图3，示出了本发明的一种输入法系统的结构框图，这种输入法系统包括输入接口单元301和显示单元302，并且还包括以下单元：

词库303：用于存储词频信息、类别信息及其相应的类别特征值，所述类别信息及其相应的类别特征值通过在相应类别的语料信息中对该字词进行统计而获得；

确定单元304：用于确定输入用户的当前有效类别；

获取单元305：用于根据用户输入的编码字符串在所述词库中获取候选字词；

计算单元306：用于根据所述候选字词在当前有效类别下的类别特征值计算所述候选字词相应的输出权重值；

输出单元307：用于根据所述候选字词的输出权重值以及所述候选字词在词库中的通用词频信息进行排序，并根据排序结果输出所述候选字词。

优选的是，所述有效类别为一个或多个类别。

一种优选的实施例为，所述确定单元304还包括以下子单元：

第一确定子单元：用于确定用户选择的类别为有效类别。

另一种优选的实施例为，所述确定单元304还包括以下子单元：

预置子单元，用于预置对应信息表，所述对应信息表用以存储类别信息及对应的应用软件信息；

获取子单元：用于获取用户的符合预置条件的输入记录；匹配子单元：用于将所述用户的输入记录在特征字词库中进行匹配，得到匹配结果值；所述特征字词库由具有相同类别信息的字词组成，或，由同一类别信息下的类别特征值大于或等于预置值的字词组成；第三确定子单元：用于选取最大的匹配结果值所对应的特征字词的类别信息，确定为有效类别。

获取子单元：用于获取用户的符合预置条件的输入记录；

另一种优选的实施例为，所述确定单元还包括以下子单元：

修正子单元：用于根据所述相关度修正所述匹配结果值。

当所述有效类别为多个时，本实施例所述的输入法系统的计算单元还可以用于根据所述多个有效类别分别对应的多个类别权重值计算所述输出权重值。

优选的是，图3所示的输入法系统可以为普通输入法系统，在这种情况下，所述输入法系统的输入接口单元、显示单元以及多元表位于同一计算设备中；

作为另一实施例，图3所示的输入法系统也可以为网络输入法系统，在这种情况下，所述输入法系统的输入接口单元、显示单元位于第一计算设备中，词库位于第二计算设备中，所述输入法系统根据用户输入的信息，从位于第二计算设备中获取相应信息，在第一计算设备显示相应字词。

由于现有技术中，输入法系统可以运行在多种计算设备上，例如，个人电脑、个人数字助理、移动终端设备等等，所以本发明也可以适用在上述各种计算设备中。

由于图3所示的系统可以对应适用于前述的各种方法的实施例中，所以描述较为简略，未详尽之处可以参见本说明书前面相应部分的描述。

以上对本发明所提供的一种生成输入法词库的方法、一种智能选词输入的方法及一种输入法系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种输入法词库的生成方法，其特征在于，包括：

获取字词在词库中的通用词频信息；

2.如权利要求1所述的方法，其特征在于，所述通用词频信息为字词在词库中的词频和/或字词搭配的连接参数；所述分类词频信息为字词在各个类别的语料信息下的词频和/或字词搭配的连接参数。

3.如权利要求1或2所述的方法，其特征在于，所述根据所述字词的分类词频信息与所述字词在词库中的通用词频信息，统计字词在所述语料信息中的类别信息及类别特征值包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述字词的分类词频信息与所述字词在词库中的通用词频信息，统计字词在所述语料信息中的类别信息及类别特征值还包括：

5.如权利要求1或2所述的方法，其特征在于，所述根据所述字词的分类词频信息与所述字词在词库中的通用词频信息，统计字词在所述语料信息中的类别信息及类别特征值包括：

6.一种智能选词输入的方法，其特征在于，包括：

确定用户输入的当前有效类别；

7.如权利要求6所述的方法，其特征在于，所述有效类别为一个或多个类别。

8.如权利要求6或7所述的方法，其特征在于，所述根据所述字词的分类词频信息与所述字词在词库中的通用词频信息，统计字词在所述语料信息中的类别信息及类别特征值包括：

9.如权利要求8所述的方法，其特征在于，所述根据所述字词的分类词频信息与所述字词在词库中的通用词频信息，统计字词在所述语料信息中的类别信息及类别特征值还包括：

10.如权利要求6或7所述的方法，其特征在于，所述根据所述字词的分类词频信息与所述字词在词库中的通用词频信息，统计字词在所述语料信息中的类别信息及类别特征值包括：

11.如权利要求6或7所述的方法，其特征在于，所述确定有效类别的步骤包括：

确定用户选择的类别为有效类别。

12.如权利要求6或7所述的方法，其特征在于，所述确定有效类别的步骤包括：

13.如权利要求6所述的方法，其特征在于，所述确定有效类别的步骤包括：

获取用户的符合预置条件的输入记录；

14.如权利要求6所述的方法，其特征在于，所述确定有效类别的步骤还包括：

获取用户的符合预置条件的输入记录；

15.如权利要求13或14所述的方法，其特征在于，所述确定有效类别的步骤还包括：

获取输入用户的当前应用软件与类别信息的相关度；

根据所述相关度修正所述匹配结果值。

16.如权利要求6所述的方法，其特征在于，当所述有效类别为多个时，根据所述多个有效类别分别对应的多个类别权重值计算所述输出权重值。

17.一种输入法系统，包括输入接口单元和显示单元，其特征在于，所述的系统还包括：

确定单元：用于确定用户输入的当前有效类别；

18.如权利要求17所述的输入法系统，其特征在于，所述有效类别为一个或多个类别。

19.如权利要求17或18所述的输入法系统，其特征在于，所述确定单元包括：

第一确定子单元：用于确定用户选择的类别为有效类别。

20.如权利要求17或18所述的输入法系统，其特征在于，所述确定单元包括：

21.如权利要求17所述的输入法系统，其特征在于，所述确定单元包括：

获取子单元：用于获取用户的符合预置条件的输入记录；

22.如权利要求17所述的输入法系统，其特征在于，所述确定单元包括：

获取子单元：用于获取用户的符合预置条件的输入记录；

23.如权利要求21或22所述的输入法系统，其特征在于，所述确定单元还包括：

修正子单元：用于根据所述相关度修正所述匹配结果值。

24.如权利要求17所述的输入法系统，其特征在于，所述输入法系统的输入接口单元、显示单元以及词库位于同一计算设备中；

或者，所述输入法系统的输入接口单元、显示单元位于第一计算设备中，词库位于第二计算设备中，所述输入法系统根据用户输入的信息，从位于第二计算设备中获取相应信息，在第一计算设备显示相应字词。