CN101290632A

CN101290632A - 一种用户词参与智能组词输入的方法及一种输入法系统

Info

Publication number: CN101290632A
Application number: CNA2008101139849A
Authority: CN
Inventors: 王砚峰
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2008-05-30
Filing date: 2008-05-30
Publication date: 2008-10-22
Anticipated expiration: 2028-05-30
Also published as: CN101290632B

Abstract

本发明公开了一种用户词参与智能组词输入的方法及一种输入法系统，以解决现有的输入法系统灵活性较差，首选项的命中率不高，没有达到最佳用户体验的问题。所述方法包括：从用户输入的上屏结果中，获取具有相邻关系的用户字词对，所述用户字词对包括至少两个相邻的用户字词；统计所述用户字词对相邻出现的概率；建立用户多元库，将所述用户字词对及其相邻出现的概率保存到所述用户多元库。本发明所述智能组词的方法由于更好地利用了用户词库中的个性化信息，弥补了系统词库智能组词的局限性，因此能够提高首选项的命中率，从而提供更好的用户体验。而且，可以使用户的组词选择更加智能化、灵活化，也更加个性化。

Description

一种用户词参与智能组词输入的方法及一种输入法系统

技术领域

本发明涉及输入法技术领域，特别是涉及一种用户词参与智能组词输入的方法及一种输入法系统。

背景技术

现有的输入法主要包括以下几种：

第一种：

目前的输入法词库主要包括系统词库和系统二元库，这两部分都是通过对大量语料采用统计学习的方法，然后提取使用频度高的字词来得到的。其中，系统词库中的每个词都具有一个词频，称为系统词频。当用户输入一个拼音串的时候，便会在系统词库中查找与这个拼音串相匹配的各个候选词条并返回，并将其中具有最高系统词频的词条作为首选项(排在第一个的候选词条)。例如，用户输入“shangkele”，系统返回的首选项为“上课了”。

而当用户输入的拼音串在系统词库中没有直接命中的词条的时候，便要进行智能组词过程。智能组词过程采用二元语法模型，通过查找系统二元库中的二元信息，计算每个组词方案中词汇串的路径概率，并将具有最大路径概率的组词结果作为首选项返回给用户。其中，所述二元信息是指系统通过统计学习的方法记录的词与词之间的相邻关系，如“天气-好热”、“我-知道”等就具有二元关系。所述路径概率是指利用二元概率(指二元信息的使用概率)计算得出的组词概率。智能组词的过程如，输入“xuexiaotongzhijintianfangjia”，系统最终返回的首选项为“学校通知今天放假”，这个结果是通过“学校”、“通知”、“今天”、“放假”四个词组合起来的，而且这种组合的概率最大。

第二种：

随着输入法的发展，在上述系统智能组词的基础上，为了提供更好的用户体验，对于每个用户，客户端还记录用户输入的上屏词(通过上屏操作后上屏的词)作为用户词库。用户词库既包括系统词库中的一部分原有词，也包括用户新输入的不在系统词库中的新的上屏词。对于用户词库中的词条，客户端会根据用户输入这个词条的频率和最后一次输入这个词条的时间来对词条赋予一个频率，称为用户词频。在用户进行输入的时候，首先会从用户词库中查找输入拼音串相匹配的词条，如果能直接命中，就返回用户词库中的词，否则再到系统词库中查找或通过系统二元库进行智能组词。

第三种：

基于所述用户词库，还有一种输入方法称为上下文调频输入法，这种输入法能够利用上下文信息进行输入。当用户输入一个拼音串的时候，如果当前拼音串能够匹配到用户词，则直接返回匹配的用户词，并将最高频用户词作为首选项。如果没有命中用户词，则根据当前拼音串所匹配的系统词与前一个上屏词之间的系统二元信息，进入局部智能组词模式。

举例说明，比如要输入“今天*下午”，用户先输入了“jintian”并选择“今天”上屏，然后输入“xiawu”。与拼音串“xiawu”相匹配的候选词有“下午”和“下雾”，如果“下雾”是用户词，而“下午”是系统词，则根据用户词优先的原则，会直接返回“下雾”，即组成“今天*下雾”。但如果两个都是系统词，则利用前一个上屏词“今天”，分别计算“今天*下午”和“今天*下雾”的概率，然后选择概率大的作为首选项。

上述第一种和第二种输入方式，只有系统词参与智能组词，假设有“力指向”这个用户词，但这个词没有在系统词库中出现，系统词库中有“布局”一词，如果用户想通过连续输入“lizhixiangbuju”得到“力指向布局”，那么智能组词是不能直接组出来的，因为用户词不参与智能组词。

上述第三种输入方式，利用上下文进行局部智能组词的前提是，当前拼音串所匹配的词与前一个上屏词都是系统词才能进行组词，这样用户词也没有真正参与组词过程。因此，如果用户在上屏“今天”后再输入“xiawu”，用户词库中只有“下雾”而没有“下午”，这时系统返回的首选项是“下雾”而不是“下午”，这显然不满足用户的需求。

综上所述，目前的各种输入法都不能使用户词真正参与智能组词过程，因此输入法系统的灵活性就较差，首选项的命中率不高，没有达到最佳的用户体验。

发明内容

本发明所要解决的技术问题是提供一种用户词参与智能组词输入的方法及一种输入法系统，以解决现有的输入法系统灵活性较差，首选项的命中率不高，没有达到最佳用户体验的问题。

本发明的另一个目的是提供一种建立用户二元库的方法及装置，通过对用户输入行为过程进行学习，对每个用户得到用户组词信息，从而利用所述用户组词信息使用户词真正参与到智能组词的过程中。

为解决上述技术问题，根据本发明提供的具体实施例，本发明公开了以下技术方案：

一种建立用户多元库的方法，包括：

从用户输入的上屏结果中，获取具有相邻关系的用户字词对，所述用户字词对包括至少两个相邻的用户字词；

统计所述用户字词对相邻出现的概率；

建立用户多元库，将所述用户字词对及其相邻出现的概率保存到所述用户多元库。

其中，通过以下方式获取具有相邻关系的用户字词对：在用户的一次上屏操作中，根据用户选择候选上屏词的方式，获取相邻的候选上屏词作为用户字词对。

优选的，所述方法还包括对用户多元库的更新步骤，具体包括：在用户输入的上屏结果中，如果相邻候选上屏词组成的用户字词对在用户多元库中存在，则增强用户多元库中该用户字词对相邻出现的概率；否则，将所述相邻候选上屏词作为新的用户字词对添加到用户多元库中，并增强该用户字词对相邻出现的概率。

优选的，所述方法还包括对用户多元库的削弱步骤，具体包括：根据用户对上屏结果的修改，针对上屏结果中修改前的上屏词对应的用户字词对，削弱其相邻出现的概率；和/或，针对用户多元库中长期得不到命中的用户字词对，根据该用户字词对的最后命中时间进行削弱。

优选的，所述方法还包括：根据用户输入的标点符号进行句子划分；在同一个句子或子句中，根据用户的上屏操作，将相邻的上屏结果也作为用户字词对保存到所述用户多元库；并统计所述用户字词对相邻出现的概率，保存到所述用户多元库。

其中，所述用户多元库建立在客户端。

一种利用上述用户多元库进行智能组词输入的方法，包括：

接收用户输入的编码字符串，并对所述编码字符串进行切分；

根据用户词库、用户多元库、系统词库、系统多元库，查找与切分后的编码字符串相匹配的字词或字词对，并进行组词；

计算每种组词结果的概率，并将概率值符合预置条件的组词结果作为候选项输出。

其中，通过以下方式计算每种组词结果的概率：根据用户词频、用户字词相邻出现的概率以及系统词频、系统字词相邻出现的概率，计算每种组词结果的概率。

优选的，在计算组词结果概率的时候，如果同音下最高频率的系统词的词频高于用户词频，则调整所述用户词频使其高于同音下最高频率的系统词的词频；并根据所述用户词频的调整，将对应的用户字词对的相邻出现概率也进行相应调整。

优选的，在计算组词结果概率的时候，如果组词结果中的字词对同时存在于用户多元库和系统多元库中，则选择用户字词相邻出现的概率和系统字词相邻出现的概率的最大值参与计算。

其中，当用户多元库中的信息量较少时，采用以系统词组词为主、用户词组词为辅的模式；当用户多元库中的信息量不能独立完成组词时，采用以系统词和用户词混合组词的模式；当用户多元库中的信息量能独立完成组词时，采用以用户词组词为主、系统词组词为辅的模式。

优选的，所述组词还包括：根据前一个上屏结果和当前编码字符串所匹配结果之间的相邻关系，进行组词。

优选的，所述方法还包括：设置用户词库和用户多元库的控制选项；如果用户选中该选项，则用户词库和用户多元库参与智能组词；如果用户未选中该选项，则只通过系统词库和系统多元库进行智能组词。

一种建立用户多元库的装置，包括：

第一获取单元，用于从用户输入的上屏结果中，获取具有相邻关系的用户字词对，所述用户字词对包括至少两个相邻的用户字词；

统计单元，用于统计所述用户字词对相邻出现的概率；

建立单元，用于建立用户多元库，将所述用户字词对及其相邻出现的概率保存到所述用户多元库。

其中，所述第一获取单元通过以下方式获取具有相邻关系的用户字词对：在用户的一次上屏操作中，根据用户选择候选上屏词的方式，获取相邻的候选上屏词为用户字词对。

优选的，所述装置还包括：更新单元，用于对所述用户多元库进行更新，更新方式为：在用户输入的上屏结果中，如果相邻候选上屏词组成的用户字词对在用户多元库中存在，则增强用户多元库中该用户字词对相邻出现的概率；否则，将所述相邻候选上屏词作为新的用户字词对添加到用户多元库中，并增强该用户字词对相邻出现的概率。

优选的，所述装置还包括：削弱单元，用于对所述用户多元库进行削弱，削弱方式为：根据用户对上屏结果的修改，针对上屏结果中修改前的上屏词对应的用户字词对，削弱其相邻出现的概率；和/或，针对用户多元库中长期得不到命中的用户字词对，根据该用户字词对的最后命中时间进行削弱。

优选的，所述装置还包括：第二获取单元，用于根据用户输入的标点符号进行句子划分；在同一个句子或子句中，根据用户的上屏操作，将相邻的上屏结果也作为用户字词对保存到所述用户多元库；相应的，所述统计单元统计所述用户字词对相邻出现的概率，并保存到所述用户多元库。

其中，所述用户多元库建立在客户端，所述装置为客户端装置。

一种输入法系统，包括：

用户多元库，用于保存具有相邻关系的用户字词对，所述用户字词对包括至少两个相邻的用户字词；

切分单元，用于接收用户输入的编码字符串，并对所述编码字符串进行切分；

组词单元，用于根据用户词库、用户多元库、系统词库、系统多元库，查找与切分后的编码字符串相匹配的字词或字词对，并进行组词；

计算单元，用于计算每种组词结果的概率；

输出单元，用于将概率符合预置条件的组词结果作为候选项输出。

其中，所述计算单元通过以下方式计算每种组词结果的概率：根据用户词频、用户字词相邻出现的概率以及系统词频、系统字词相邻出现的概率，计算每种组词结果的概率。

优选的，所述计算单元在计算组词结果概率的时候，如果同音下最高频率的系统词的词频高于用户词频，则调整所述用户词频使其高于同音下最高频率的系统词的词频；并根据所述用户词频的调整，将对应的用户字词对的相邻出现概率也进行相应调整。

优选的，所述计算单元在计算组词结果概率的时候，如果组词结果中的字词对同时存在于用户多元库和系统多元库中，则选择用户字词相邻出现的概率和系统字词相邻出现的概率的最大值参与计算。

其中，所述组词单元包括三种组词模式，当用户多元库中的信息量较少时，采用以系统词组词为主、用户词组词为辅的模式；当用户多元库中的信息量不能独立完成组词时，采用以系统词和用户词混合组词的模式；当用户多元库中的信息量能独立完成组词时，采用以用户词组词为主、系统词组词为辅的模式。

优选的，所述系统还包括：控制单元，用于设置用户词库和用户多元库的控制选项；如果用户选中该选项，则用户词库和用户多元库参与智能组词；如果用户未选中该选项，则只通过系统词库和系统多元库进行智能组词。

其中，所述智能组词输入系统运行在客户端。

根据本发明提供的具体实施例，本发明具有以下技术效果：

首先，本发明在输入法的客户端加入对用户输入过程的学习过程，建立了用户二元库。所述用户二元库通过记录用户对句子的输入和对上屏词的选择，记录或更新同一句子中两个相邻输入的用户词之间的用户二元关系，同时根据用户回退光标并修改上屏词的行为对已经记录的用户二元信息进行修正。

其次，本发明提供了一种用户词参与智能组词的方法，根据用户词库、用户二元库、系统词库、系统二元库，通过将用户个性化的组词信息和系统词库中的组词信息相结合，使用户词真正参与到智能组词的过程中。这种智能组词的方法由于更好地利用了用户词库中的个性化信息，弥补了系统词库智能组词的局限性，因此能够提高首选项的命中率，从而提供更好的用户体验。而且，可以使用户的组词选择更加智能化、灵活化，也更加个性化。

附图说明

图1是本发明实施例所述建立用户二元库的流程图；

图2是本发明实施例所述对用户输入信息进行统计学习的流程图；

图3是本发明实施例所述用户词参与智能组词的流程图；

图4是本发明实施例所述建立用户二元库的装置结构图；

图5是本发明实施例所述输入法系统的结构图；

图6是图5中智能组词逻辑模块U505的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

针对现有的系统组词首选命中率不够高、不能满足用户输入需要的问题，本发明提供了一种用户词参与智能组词的方法，通过对用户输入行为过程进行学习，对每个用户得到用户组词信息，并通过将这种用户个性化的组词信息和系统词库中的组词信息相结合，使用户词条参与到智能组词的过程中，弥补系统词库智能组词的局限性。

用户词参与智能组词主要包括两个部分：第一，建立用户二元库，对用户的输入信息进行统计学习，记录并更新用户二元信息；第二，采用得到的用户二元信息和用户词库结合系统词库、系统二元库进行智能组词。

其中，所述用户二元信息与系统二元信息类似，是指在用户输入过程中具有相邻关系的用户字词对。例如，用户输入“外面正在下雨”，其中“外面-正在”和“正在-下雨”就是两个用户二元对。用户二元信息既包括系统二元库中原有的一部分二元信息，也包括用户新输入的不在系统二元库中的新的二元信息。

这两个部分是相对独立的，下面对这两部分分别说明。

第一部分：

首先需要建立一个用户二元库，用于记录用户二元信息。参照图1，是本发明实施例所述建立用户二元库的流程图。

S101，从用户输入的上屏结果中，获取具有相邻关系的用户字词对，所述用户字词对包括至少两个相邻的用户字词；

其中，所述上屏结果是指一次上屏操作后的结果，例如，用户输入拼音串“tazhengzaizuofan”，上屏结果为“他正在做饭”。从这个上屏结果中获取相邻的字词对，得到“他-正在”和“正在-做饭”。

需要说明的是，本发明实施例是以二元信息为例进行的说明，但根据应用需要，还可以获取三元或更多元信息来建立用户多元库，例如“他-正在-做饭”即为一个三元对。

优选的，本实施例并没有采用分词的方法来获取用户的二元对，而是通过用户的上屏方式，利用用户的自然分词信息进行二元统计。具体获取方式是：在用户的一次上屏操作中，根据用户选择候选上屏词的方式，获取相邻的候选上屏词作为用户字词对。例如，用户输入“woxiangquxuexiao”，输入法系统返回候选词，用户依次选择“我想”、“去”、“学校”作为候选上屏词，然后通过依次上屏操作，将这些候选上屏词输出。这种获取二元对的方式最能反应用户的输入习惯，因此用户二元库也可以达到为用户量身制作的效果。

S102，统计所述用户字词对相邻出现的概率；

S103，建立用户二元库，将所述用户字词对及其相邻出现的概率保存到所述用户多元库。

通过以上步骤，就可以在用户客户端建立一个用户二元库。但是，建立用户二元库只是学习用户输入信息的初步阶段，统计学习是一个动态的过程，具体还包括以下三个方面：

1、新用户二元对的生成；

2、对已有用户二元对信息的更新；

3、对已有用户二元对信息的削弱。

下面以用户输入为例对上述3个方面分别做出不同假定来进行说明。假设拼音串为“lizhixiangbujusuanfa”，对应汉字输入为“力指向布局算法”，假定这个短句不能被系统词库或用户词库直接命中。

1、新用户二元对的生成

在用户输入的上屏结果中，如果相邻候选上屏词组成的用户字词对在用户二元库中不存在，则将所述相邻候选上屏词作为新的用户字词对添加到用户二元库中，并增强该用户字词对相邻出现的概率。

假设词“力指向”只在用户词库中出现，“布局”和“算法”都在系统词库中出现，但用户还未对“布局”进行过输入，因此用户词库中没有出现“布局”，但“算法”在用户词库中。当用户输入“lizhixiangbujusuanfa”的时候，只通过系统组词显然不能得到期望的输出结果，而由于“lizhixiang”在用户词库中有词条“力指向”，因此用户将“力指向”选为候选上屏词；然后对于“bujusuanfa”，用户选择了“布局”作为下一个上屏词，由于“布局”没有在用户词库中出现，因此“布局”被记入用户词库，同时“力指向-布局”二元对被记入用户二元库中；之后用户又选择了“算法”进行上屏，于是“布局-算法”二元对被记入用户二元库。对于这些新添加到用户二元库中的二元对，计算每个二元对的两个词相邻出现的概率，这个概率值称为二元概率，然后将二元概率也记录到用户二元库中。这个过程描述了新用户二元对的生成，通常伴随着新用户词的生成。

2、对已有用户二元对信息的更新

在用户输入的上屏结果中，如果相邻候选上屏词组成的用户字词对在用户二元库中存在，则增强用户二元库中该用户字词对相邻出现的概率。

假设“力指向”、“布局”、“算法”三个词都出现在用户词库中，同时由于历史输入，用户二元库中存在二元对“力指向-布局”、“布局-算法”，则在用户输入拼音串的时候，根据用户词库和用户二元库进行智能组词，组词结果“力指向布局算法”会首选命中。此时，直接更新用户二元库中的“力指向-布局”和“布局-算法”二元信息，并增加这两个二元对的二元概率。

此外，针对用户二元对没有直接命中但也参与组词的情况，同样会增加所述用户二元对的二元概率。例如，用户二元库中存在二元对“力指向-布局”、“布局-算法”，这两个二元对参与组词，但在组词过程中由于二元概率较低而没有首选命中，这时经过用户的上屏选择最后组词结果仍是“力指向布局算法”。这种情况下，用户二元库中“力指向-布局”和“布局-算法”的二元概率也会增加。

3、对已有用户二元对信息的削弱

根据用户对上屏结果的修改，针对上屏结果中修改前的上屏词对应的用户字词对，削弱其相邻出现的概率；和/或，针对用户二元库中长期得不到命中的用户字词对，根据该用户字词对的最后命中时间进行削弱。

假设“力指向”、“布局”、“算法”三个词都出现在用户词库中，同时“酸法”也出现在用户词库中，“力指向-布局”、“布局-算法”存在于用户二元库中，而且由于用户的历史错误输入“布局-酸法”也在用户二元库中。那么组词结果可能产生两种情况：“力指向布局算法”和“力指向布局酸法”。当组词结果为后者时，用户会回退光标至“酸法”之前，将“酸法”改为“算法”。这时，不仅增强“力指向-布局”和“布局-算法”之间的用户二元概率，同时削弱“布局-酸法”之间的用户二元关系。如果这个被削弱的二元关系弱到了一定的程度(如二元概率小于某一阈值)，就把其从用户二元库中删除。而当组词结果为前者时，根据上述第2点直接加强“力指向-布局”和“布局-算法”之间的二元概率。

优选的，根据用户的修改，如果更新后的“布局-算法”的二元关系大大强于“布局-酸法”之间的二元关系，则由于两个二元是同音的，几乎每次“bujusuanfa”的输入都会得到“布局算法”的输出，因此可以直接把“布局-酸法”从用户二元库中删除。此外，如果“布局-酸法”二元对长期得不到命中，但二元关系还没有弱到被删除的地步，则可以对其进行削弱，削弱方式是随着最后一次命中时间距当前更新时间的长短进行不同程度上的衰减。

上述对二元概率的增强和削弱，能够真实反映用户的输入情况。本实施例采用的增强和削弱方式如下：

例如，“二元对A-B”的二元概率为T(A，B)/SUMBI，其中T(A，B)为A-B二元对在用户输入时出现的总次数，SUMBI为所有用户二元对的总次数，即所有T(，)的总和。增强A-B的二元概率就是T’(A，B)＝T(A，B)+1，增强后的A-B二元概率即为T’(A，B)/(SUMBI+1)。而削弱A-B二元概率就是T’(A，B)＝T(A，B)-1，削弱后的A-B二元概率就是T’(A，B)/(SUMBI-1)。

综上所述，通过以上三个方面，实现了对用户输入信息的学习。该学习过程不仅包括通过统计用户输入时用户词之间的相邻次数来统计用户词之间的二元概率，并且通过用户对上屏词的修改和最后使用时间来对用户二元库中的二元值进行调整。

优选的，还有一种学习用户输入的方法，主要针对用户习惯输入短语的情况。这种方法根据用户输入的标点符号进行句子划分，在同一个句子或子句中，根据用户的上屏操作，将相邻的上屏结果也作为用户字词对保存到所述用户多元库；同时统计所述用户字词对相邻出现的概率，保存到所述用户多元库。

举例说明，假设“力指向”在用户词库，“布局”和“算法”在系统词库，当用户在上一个标点结束后首先输入拼音串“lizhixiang”，则直接输出“力指向”，之后用户又输入了“bujusuanfa”，根据系统组词又输出“布局算法”。此时，用户二元库不仅记录一次上屏结果中的“布局-算法”二元对，同时还对上一次输入的“力指向”和当前输入的“布局”或“布局算法”形成二元对，即“力指向-布局”和“力指向-布局算法”二元对。

结合以上内容，下面通过流程说明用户二元信息的学习过程。参照图2，是所述对用户输入信息进行统计学习的流程图。

S201，用户输入拼音串；

S202，根据用户输入的拼音串进行智能组词，具体为：

从系统词库和系统二元库中查询系统词和系统二元信息，从用户词库和用户二元库中查找用户词和用户二元信息，然后结合进行智能组词过程，并将组词结果作为候选项；

S203，用户根据所述候选项进行上屏选择；

S204，根据用户的上屏操作，对用户二元库产生反馈，对用户二元对进行生成、更新、削弱或删除等操作；并对用户词库进行反馈，增加新上屏的词为用户词。

综上所述，所述学习过程不仅能对用户的整句输入进行学习，还能够对用户采用的短语输入方式，学习到前后上屏词之间的用户二元关系，从而建立起针对每一个用户的个性化的用户二元库。同时，利用用户的输入行为来优化所述用户二元库，比如根据修改退格等操作和最后一次调用时间的判断，对已经学习的二元对进行修正。

第二部分：

用户词参与的智能组词过程运行在客户端，涉及到用户词库、用户二元库、系统词库和系统二元库。

其中，系统词库和系统二元库主要在服务器端运行。系统词库通过在对大数量语料进行统计，确定哪些词应该进入系统词库以及其系统词频的大小。而系统二元库通过查询系统词库和对大规模语料进行分词统计，确定哪些系统词之间存在二元关系以及二元概率的大小。

用户词库和用户二元库运行在客户端，由于不同用户的输入不可能完全一样，因此每一个用户都有其各自不同的用户词库和用户二元库。用户词库通过对用户的上屏词进行统计，当上屏次数满足某个阈值条件时就将这个词加入用户词库，并随着用户对其输入的增加调整其用户词频；同时，对已经加入用户词库的词，通过最后调用时间对其进行频率的衰减。用户二元库通过统计用户输入时用户词之间的相邻次数来统计用户词之间的二元概率，并且通过用户对上屏词的修改和最后使用时间来对用户二元库中的二元概率进行调整。

参照图3，是所述用户词参与智能组词的流程图。

S301，接收用户输入的编码字符串，并对所述编码字符串进行切分；

其中，所述编码字符串可以是各种输入法下的编码输入，最常用的就是拼音串。对拼音串可进行不同的切分，这样就形成了很多种切分方案。例如，对于拼音串“wohenfanganta”，具有多条组词路径，如“我*很*反感*他”，“我*很*方案*他”等，即将“fangan”切分为“fan*gan”和“fang*an”。

S302，根据用户词库、用户多元库、系统词库、系统多元库，查找与切分后的编码字符串相匹配的字词或字词对，并进行组词；

在上述多种切分方案中，对于其中的一种切分方式，查找每一个子串在用户词库和系统词库中对应的词条，然后组合在一起。通常，在中文输入中存在同音词的现象，即一个子串会对应多个同音词，如“huajia”对应“画家”、“花架”、“画架”等等。这样，对于一个包含多个子串的拼音串切分方案，又有很多条词汇组合路径。例如，对于拼音串“lizhixiangbujusuanfa”，会有“力指向布局算法”、“力指向布局酸法”等。

S303，计算每种组词结果的概率；

计算概率时，需要用到用户二元概率和系统二元概率，这样就可以根据词与词之间的关系判断出哪种组词结果更符合用户的输入需要。

本实施例采用的计算方法是：根据用户词频、用户字词相邻出现的概率以及系统词频、系统字词相邻出现的概率，计算每种组词结果的概率。具体方法是：用组词结果中所有词的一元概率(即词频)的乘积，再乘以相邻两个词之间的二元概率。

举例说明，设U(x)为一元概率，B(x，y)为二元概率，那么“我*很*反感*他”的路径概率为U(我)*B(我，很)*U(很)*B(很，反感)*U(反感)*B(反感，他)*U(他)。在只有系统词参与组词的过程中，U(x)和B(x，y)都是系统一元概率(相当于系统词频)和系统二元概率。但当用户词参与组词时，组词路径中的一个词可能是用户词，也可能是系统词，还可能既是用户词又是系统词，针对这种复杂情况，下面单独详细说明。

因此，计算一条路径概率时，不仅需要从系统词库和用户词库中得到该词的词频，同时要从系统二元库和用户二元库中得到词汇路径上前后相邻两个词之间的二元概率。然后，通过词频和二元概率的累计相乘，得到整条路径的概率。

S304，将概率值符合预置条件的组词结果作为候选项输出。

通常，所述预置条件为：根据概率值对组词结果进行排序，将排序后的组词结果作为候选项返回给用户，并选出所有组词结果中概率最大的一个作为首选项。

需要说明的是，实际应用中，在计算组词结果概率的时候，由于用户词库中的词数相对较少，并且用户的输入总词数也相对较小，而在系统库构建的时候，语料上的词数很多，因此从统计上讲，用户概率要比系统概率大若干的数量级，这个概率包括一元概率和二元概率。所以，需要对用户词频、用户二元概率、系统词频、系统二元概率的量纲进行归一化操作，使用户概率和系统概率在相同数量级上，但用户词库中各个词之间的概率大小顺序(或是倍数关系)不能变。这样，才能使用户词和系统词在组词过程中一起参与路径概率的计算，否则，用户概率相对系统概率会大很多，导致系统概率之间的差别无法体现。比如系统概率都小于0.001，而用户概率都大于0.1，那么长度相等的两条组词路径，如果路径中的用户词数量不一样，那么最后数量级就会差100。

在上述用户词参与智能组词的过程中，组词路径的概率计算是一个非常重要的部分，直接影响首选项的命中率。当用户词参与到组词过程中时，选取一元概率和二元概率的原则是：

第一，对于一元概率，选取调频后的用户词频：

在选取一元概率的时候，如果同音下最高频率的系统词的词频高于用户词频，则调整所述用户词频使其高于同音下最高频率的系统词的词频；并根据所述用户词频的调整，将对应的用户二元概率也进行相应调整，但只针对用户词进行调频，而不对系统词调频。

调频的结果是：同音下所有用户词的频率都大于同音下系统词的频率，但保持用户词之间的偏序关系(即用户词频的大小顺序不变)，也就是说，调频的尺度是同音下系统词频的最大值。这样，可能出现的情况是，一个词既可能是用户词又可能是系统词，但参与计算的时候只有一个一元概率，此时一元概率取用户词频和系统词频的最大值。当然，如果一个拼音串只对应一个用户词，则不用进行调频，使用用户词频即可；同样，如果一个拼音串只对应一个系统词，则使用系统词频。

进一步，对于拼音串“lizhixiangbuju”，如果用户二元库中存在二元对“力指向-布局”，则根据对“力指向”用户词频的调整，也需要对“力指向-布局”的二元概率进行相应调整。但如果“力指向-布局”是系统二元对，则不需要调整系统二元概率。

当然，根据这一原则，如果用户错误地输入了“荔枝巷”，并将该词记录到了用户词库中，而系统词库中存在“力指向”。当用户再次输入拼音串的时候，同样会调高“荔枝巷”的词频。这一原则充分体现了按照用户输入行为进行组词的特点，即认为所有的用户输入都是用户的习惯，而排除了用户错误的可能，其实，错误本身也可能就是用户的习惯。因此对于不同用户，同一拼音串可能会返回不同的首选项。但由于用户的错误输入毕竟是少数，因此不会影响整体的首选项命中率。

第二，对于二元概率，选取用户二元概率和系统二元概率的最大值：

在选取二元概率的时候，一种可能的情况是，一个二元对既是用户二元对也是系统二元对，但参与计算的时候只有一个二元概率，这时二元概率取用户二元概率和系统二元概率的最大值。如果用户二元概率根据用户词频进行了调整，则选取调频后的用户二元概率和系统二元概率的最大值。

举例说明，对于拼音串“bujusuanfa”，如果只在用户二元库或只在系统二元库中存在“布局-算法”，则计算时使用相应的用户二元概率或系统二元概率；如果在用户二元库和系统二元库中都存在“布局-算法”，则比较用户二元概率和系统二元概率，选取概率大的值参与计算。

基于以上概率计算原则，结合系统二元和用户二元进行智能组词时，可以根据当前用户二元库中二元信息的多少采用不同的方案，分为三种组词模式：

第一种：用户二元库建立不久，用户二元库中的信息量较少时，采用以系统词组词为主、用户词组词为辅的模式。

例如，对于“aoyunshenghuobaodao”，用户词库中只有“奥运生活”，没有“报道”，而系统词库中有“奥运圣火”和“报道”。在组词的过程中计算组词概率时，因为“奥运生活”是用户词，所以调高“奥运生活”的用户词频，使其高于“奥运圣火”；“报道”就使用其系统词频；“奥运生活-报道”和“奥运圣火-报道”之间都没有二元关系，计算时可以赋一个预置的最小值。这样，就可以根据一元概率和二元概率来计算每种组词结果的概率了，最后得到的首选项是“奥运生活报道”。

第二种：用户二元库中已经有了一定量的二元信息，但仍然不足以独立完成组词过程时，采用以系统词和用户词混合组词的模式。

例如，对于拼音串“lizhixiangbujusuanfa”在系统词库中只存在“荔枝巷”，在用户词库中只存在“力指向”，系统二元库中存在“布局-算法”二元对，而用户词库中存在“力指向-布局”和“布局-酸法”二元对。在对“lizhixiangbujusuanfa”进行组词的时候，由于调整后的“力指向”的词频高于“荔枝巷”，同时与“布局”之间存在二元关系，则“力指向-布局”的整体概率就会大于“荔枝巷-布局”；同时如果系统二元库中“布局-算法”的二元概率远大于用户二元库中“布局-酸法”的二元概率，那么输出的组词结果将会是“力指向布局算法”，而非“力指向布局酸法”。

第三种：用户二元库中的二元信息量已经很大，足以完成用户大部分的习惯性输入的时候，采用以用户词组词为主、系统词组词为辅的模式。

整个组词路径概率的计算都采用用户词频和用户二元概率。当某个拼音子串对应的用户词的词频都过低，或者根本没有用户词的时候，就以系统词为补充，参与到组词过程中，用户词和系统词之间的二元仍然采用半命中的方式进行计算。这种系统词为补充的方式在用户输入某些未曾输入过的专业名词和成语或俗语的时候最为有效，比如对于拼音串“zhekezhenshizhizimoruofua”中，“zhizimoruofu”是一个俗语“知子莫若父”，它没有在用户词库中出现，而“这可”，“真是”和“啊”都在用户词库中，通过将系统词库的词进行补充引入，那么结果会输出期望中的“这可真是知子莫若父啊”。

在实际的组词应用中，所述三种模式适用的阶段不是严格定义的，可以根据策略做自由调整。

优选的，本发明单独在用户客户端建立的用户词库和用户二元库，可以通过开关的形式来让用户选择组词方式。例如设置控制选项，如果用户选中该选项，则用户词库和用户多元库参与智能组词；如果用户未选中该选项，则只通过系统词库和系统多元库进行智能组词。这种将用户词库和系统词库分离、用户二元库和系统二元库分离的方式，不增加系统词库和系统二元库的复杂性，维护也相对容易。

优选的，基于上下文调频的方式，本发明所述用户词参与组词的方法也可以进行优化，即对用户输入的拼音串进行智能组词时，可以利用前一个上屏词和当前拼音串匹配的用户词或系统词之间的二元关系，进一步提高首选项的命中率。例如，用户先输入“力指向”，然后输入“bujusuanfa”，该拼音串对应“布局算法”和“不拘算法”，在智能组词时，根据“力指向-布局”的二元关系，可以确定“布局算法”而不是“不拘算法”。

综上所述，本发明根据用户词库、用户二元库、系统词库、系统二元库，通过将用户个性化的组词信息和系统词库中的组词信息相结合，使用户词真正参与到智能组词的过程中。这种用户词参与智能组词的方法由于更好地利用了用户词库中的个性化信息，弥补了系统词库智能组词的局限性，因此能够提高首选项的命中率，从而提供更好的用户体验。而且，可以使用户的组词选择更加智能化、灵活化，也更加个性化。

下面通过对比说明的方式突出说明本发明的首选命中率较高的特性。

针对背景技术中所述的第一种和第二种输入方式，假设用户连续输入“lizhixiangbuju”，如果“力指向”是用户词，而“布局”是系统词，由于用户词不参与组词，所以无法得到“力指向布局”。但是，本发明由于能使用户词通过用户词概率和用户二元概率的方式参与到组词过程中，最终得到一个最优的组词结果，所以能够很好地解决上述问题。如“力指向”是用户词，“荔枝巷”是系统词，“布局”是系统词，通过对智能组词过程加入用户词，并且调频，可以得到“力指向*布局”，而不是“荔枝巷*布局”。

背景技术中所述的第三种方式是上下文调频的输入方式，在这种输入方式下，用户先上屏“今天”，然后再输入“xiawu”，如果“下雾”是用户词，“下午”是系统词，则返回的首选项一定是“下雾”。而在本发明中用户词参与组词时，如果结合上下文调频输入，则会同时计算“今天*下雾”和“今天*下午”的概率，如果“今天*下雾”的概率小于“今天*下午”的概率，则返回首选项为“今天下午”。

在上下文调频过程中，虽然用户词从形式上参与，并且以最高优先级给了出来，但实际上没有通过前一个上屏词与当前词组合的概率计算实现真正的智能组词过程，因为只有当前一个上屏词和当前词都是系统词的时候，智能组词中的概率计算才真正的进行，智能组词过程也才真正的进行。而本发明能让用户词真正参与到组词过程中，用户词和用户词之间、系统词和用户词之间、系统词和系统词之间都会进行实际的智能组词。本发明还能结合上下文调频的方式，使用户词真正参与到根据上文而对当前词进行优选的过程中，增加了用户体验和灵活性，也能提高首选词的正确率。

针对上述方法的说明，本发明还提供了一种建立用户二元库的装置实施例。参照图4，是实施例所述建立用户二元库的装置结构图。所述装置包括第一获取单元U401、统计单元U402、建立单元U403。所述用户二元库建立在客户端，所述装置为客户端装置。

其中，第一获取单元U401用于从用户输入的上屏结果中，获取具有相邻关系的用户字词对，所述用户字词对包括至少两个相邻的用户字词。本实施例中，所述第一获取单元获取用户字词对的方式是：在用户的一次上屏操作中，根据用户选择候选上屏词的方式，获取相邻的候选上屏词为用户字词对。

所述统计单元U402用于统计所述用户字词对相邻出现的概率；

所述建立单元U403用于建立用户二元库，将所述用户字词对及其相邻出现的概率保存到所述用户二元库。

优选的，所述装置还包括更新单元U404，用于对所述用户二元库进行更新，更新方式为：在用户输入的上屏结果中，如果相邻候选上屏词组成的用户字词对在用户二元库中存在，则增强用户二元库中该用户字词对相邻出现的概率；否则，将所述相邻候选上屏词作为新的用户字词对添加到用户二元库中，并增强该用户字词对相邻出现的概率。

优选的，所述装置还包括削弱单元U405，用于对所述用户二元库进行削弱，削弱方式为：根据用户对上屏结果的修改，针对上屏结果中修改前的上屏词对应的用户字词对，削弱其相邻出现的概率；和/或，针对用户二元库中长期得不到命中的用户字词对，根据该用户字词对的最后命中时间进行削弱。

优选的，所述装置还包括第二获取单元U406，用于根据用户输入的标点符号进行句子划分；在同一个句子或子句中，根据用户的上屏操作，将相邻的上屏结果也作为用户字词对保存到所述用户二元库；相应的，所述统计单元U402统计所述用户字词对相邻出现的概率，并保存到所述用户二元库。

本发明还提供了一种用户词参与智能组词的输入法系统，参照图5，是实施例所述输入法系统的结构图。所述系统包括系统词库U501、用户词库U502、系统二元库U503、用户二元库U504、智能组词逻辑模块U505。

其中，系统词库U501、用户词库U502、系统二元库U503、用户二元库U504如前所述，在此不再详述。智能组词逻辑模块U505用于利用系统词库U501、用户词库U502、系统二元库U503、用户二元库U504，进行用户词参与的智能组词。智能组词逻辑模块U505运行在客户端。

图5中各模块的关系如下：

系统词库U501为系统二元库U503统计系统二元信息提供系统元词，并为智能组词逻辑模块U505提供系统词条和系统词频；用户词库U502为用户二元库U504统计用户二元信息提供用户元词，并为智能组词逻辑模块U505提供用户词条和用户词频；系统二元库U503向智能组词逻辑模块U505提供系统二元信息和系统二元概率，用户二元库U504向智能组词逻辑模块U505提供用户二元信息和用户二元概率。

参照图6，是图5中智能组词逻辑模块U505的结构图。所述智能组词逻辑模块U505进一步细分为切分单元U601、组词单元U602、计算单元U603、输出单元U604。

切分单元U601用于接收用户输入的编码字符串，并对所述编码字符串进行切分。

组词单元U602用于根据用户词库、用户二元库、系统词库、系统二元库，查找与切分后的编码字符串相匹配的字词或字词对，并进行组词。

计算单元U603用于计算每种组词结果的概率。本实施例中，计算单元U603采用的计算方式是：根据用户词频(即用户一元概率)、用户字词相邻出现的概率(即用户二元概率)以及系统词频(即系统一元概率)、系统字词相邻出现的概率(即系统二元概率)，计算每种组词结果的概率。

优选的，所述计算单元U603在计算组词结果概率的时候，如果同音下最高频率的系统词的词频高于用户词频，则调整所述用户词频使其高于同音下最高频率的系统词的词频；并根据所述用户词频的调整，将对应的用户字词对的相邻出现概率也进行相应调整。

优选的，所述计算单元U603在计算组词结果概率的时候，如果组词结果中的字词对同时存在于用户二元库和系统二元库中，则选择用户二元概率和系统二元概率的最大值。如果用户二元概率根据用户词频进行了调整，则选取调频后的用户二元概率和系统二元概率的最大值。

输出单元U604用于将概率符合预置条件的组词结果作为候选项输出。

优选的，所述组词单元U602包括三种组词模式，当用户多元库中的信息量较少时，采用以系统词组词为主、用户词组词为辅的模式；当用户多元库中的信息量不能独立完成组词时，采用以系统词和用户词混合组词的模式；当用户多元库中的信息量能独立完成组词时，采用以用户词组词为主、系统词组词为辅的模式。

优选的，所述智能组词逻辑模块U505还包括控制单元U605，用于设置用户词库和用户多元库的控制选项；如果用户选中该选项，则用户词库和用户多元库参与智能组词；如果用户未选中该选项，则只通过系统词库和系统多元库进行智能组词。

图4所示装置和图5、图6所示系统中未详述的部分可以参见图1、图2所示方法的相关部分，为了篇幅考虑，在此不再详述。

需要说明的是，以上内容都是以字词之间的二元关系为例进行的说明，基于本发明所述思想，还可以扩展到多元，在此不再详述。而且，本发明还适用于日文、韩文等类似于中文输入法的外文输入，因此本发明的适用范围不应以语言来划分。

以上对本发明所提供的一种用户词参与智能组词输入的方法及一种输入法系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1、一种建立用户多元库的方法，其特征在于，包括：

统计所述用户字词对相邻出现的概率；

2、根据权利要求1所述的方法，其特征在于，通过以下方式获取具有相邻关系的用户字词对：

在用户的一次上屏操作中，根据用户选择候选上屏词的方式，获取相邻的候选上屏词作为用户字词对。

3、根据权利要求1所述的方法，其特征在于，还包括对用户多元库的更新步骤，具体包括：

在用户输入的上屏结果中，如果相邻候选上屏词组成的用户字词对在用户多元库中存在，则增强用户多元库中该用户字词对相邻出现的概率；

否则，将所述相邻候选上屏词作为新的用户字词对添加到用户多元库中，并增强该用户字词对相邻出现的概率。

4、根据权利要求1所述的方法，其特征在于，还包括对用户多元库的削弱步骤，具体包括：

根据用户对上屏结果的修改，针对上屏结果中修改前的上屏词对应的用户字词对，削弱其相邻出现的概率；

和/或，针对用户多元库中长期得不到命中的用户字词对，根据该用户字词对的最后命中时间进行削弱。

5、根据权利要求1所述的方法，其特征在于，还包括：

根据用户输入的标点符号进行句子划分；

在同一个句子或子句中，根据用户的上屏操作，将相邻的上屏结果也作为用户字词对保存到所述用户多元库；

并统计所述用户字词对相邻出现的概率，保存到所述用户多元库。

6、根据权利要求1、2、3、4、5任意一项所述的方法，其特征在于：所述用户多元库建立在客户端。

7、一种利用权利要求1所述的用户多元库进行智能组词输入的方法，其特征在于，包括：

8、根据权利要求7所述的方法，其特征在于，通过以下方式计算每种组词结果的概率：

根据用户词频、用户字词相邻出现的概率以及系统词频、系统字词相邻出现的概率，计算每种组词结果的概率。

9、根据权利要求8所述的方法，其特征在于：

在计算组词结果概率的时候，如果同音下最高频率的系统词的词频高于用户词频，则调整所述用户词频使其高于同音下最高频率的系统词的词频；

并根据所述用户词频的调整，将对应的用户字词对的相邻出现概率也进行相应调整。

10、根据权利要求8述的方法，其特征在于：

在计算组词结果概率的时候，如果组词结果中的字词对同时存在于用户多元库和系统多元库中，则选择用户字词相邻出现的概率和系统字词相邻出现的概率的最大值参与计算。

11、根据权利要求7、8、9、10任意一项所述的方法，其特征在于：

当用户多元库中的信息量较少时，采用以系统词组词为主、用户词组词为辅的模式。

12、根据权利要求7、8、9、10任意一项所述的方法，其特征在于：

当用户多元库中的信息量不能独立完成组词时，采用以系统词和用户词混合组词的模式。

13、根据权利要求7、8、9、10任意一项所述的方法，其特征在于：

当用户多元库中的信息量能独立完成组词时，采用以用户词组词为主、系统词组词为辅的模式。

14、根据权利要求7所述的方法，其特征在于，所述组词还包括：

根据前一个上屏结果和当前编码字符串所匹配结果之间的相邻关系，进行组词。

15、根据权利要求7所述的方法，其特征在于，还包括：

设置用户词库和用户多元库的控制选项；

如果用户选中该选项，则用户词库和用户多元库参与智能组词；

如果用户未选中该选项，则只通过系统词库和系统多元库进行智能组词。

16、一种建立用户多元库的装置，其特征在于，包括：

统计单元，用于统计所述用户字词对相邻出现的概率；

17、根据权利要求16所述的装置，其特征在于，所述第一获取单元通过以下方式获取具有相邻关系的用户字词对：

在用户的一次上屏操作中，根据用户选择候选上屏词的方式，获取相邻的候选上屏词为用户字词对。

18、根据权利要求16所述的装置，其特征在于，还包括：

更新单元，用于对所述用户多元库进行更新，更新方式为：

在用户输入的上屏结果中，如果相邻候选上屏词组成的用户字词对在用户多元库中存在，则增强用户多元库中该用户字词对相邻出现的概率；否则，将所述相邻候选上屏词作为新的用户字词对添加到用户多元库中，并增强该用户字词对相邻出现的概率。

19、根据权利要求16所述的装置，其特征在于，还包括：

削弱单元，用于对所述用户多元库进行削弱，削弱方式为：

根据用户对上屏结果的修改，针对上屏结果中修改前的上屏词对应的用户字词对，削弱其相邻出现的概率；和/或，针对用户多元库中长期得不到命中的用户字词对，根据该用户字词对的最后命中时间进行削弱。

20、根据权利要求16所述的装置，其特征在于，还包括：

第二获取单元，用于根据用户输入的标点符号进行句子划分；在同一个句子或子句中，根据用户的上屏操作，将相邻的上屏结果也作为用户字词对保存到所述用户多元库；

相应的，所述统计单元统计所述用户字词对相邻出现的概率，并保存到所述用户多元库。

21、根据权利要求16所述的装置，其特征在于：

所述用户多元库建立在客户端，所述装置为客户端装置。

22、一种输入法系统，其特征在于，包括：

计算单元，用于计算每种组词结果的概率；

23、根据权利要求22所述的系统，其特征在于，所述计算单元通过以下方式计算每种组词结果的概率：

24、根据权利要求23所述的系统，其特征在于：

所述计算单元在计算组词结果概率的时候，如果同音下最高频率的系统词的词频高于用户词频，则调整所述用户词频使其高于同音下最高频率的系统词的词频；并根据所述用户词频的调整，将对应的用户字词对的相邻出现概率也进行相应调整。

25、根据权利要求23所述的系统，其特征在于：

所述计算单元在计算组词结果概率的时候，如果组词结果中的字词对同时存在于用户多元库和系统多元库中，则选择用户字词相邻出现的概率和系统字词相邻出现的概率的最大值参与计算。

26、根据权利要求22所述的系统，其特征在于：

所述组词单元包括三种组词模式，当用户多元库中的信息量较少时，采用以系统词组词为主、用户词组词为辅的模式；当用户多元库中的信息量不能独立完成组词时，采用以系统词和用户词混合组词的模式；当用户多元库中的信息量能独立完成组词时，采用以用户词组词为主、系统词组词为辅的模式。

27、根据权利要求22所述的系统，其特征在于，还包括：

控制单元，用于设置用户词库和用户多元库的控制选项；如果用户选中该选项，则用户词库和用户多元库参与智能组词；如果用户未选中该选项，则只通过系统词库和系统多元库进行智能组词。

28、根据权利要求22所述的系统，其特征在于：所述智能组词输入系统运行在客户端。