CN101833547A

CN101833547A - 基于个人语料库进行短语级预测输入的方法

Info

Publication number: CN101833547A
Application number: CN200910118458A
Authority: CN
Inventors: 万磊; 何亮; 叶松
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2009-03-09
Filing date: 2009-03-09
Publication date: 2010-09-15
Anticipated expiration: 2029-03-09
Also published as: CN101833547B

Abstract

本发明提供一种基于个人语料库进行短语级预测输入的方法，该方法包括以下步骤：收集用户过往的输入作为个人语料库；将用户过往的输入以句子为单位进行分词，拆分为具有独立意义的汉字以及词；统计词或由词组成的短语前后出现的频率，计算词或短语紧接着出现在前一词之后的条件概率，形成反映该用户独特语言习惯的概率文件；当用户后续进行输入时，在输入了开头的词或短语之后，根据所述概率文件预测出用户所可能期望输入的后续词、短语或句子，以便用户进行选择和快速输入。因此，用户在输入时，只需要输入开头的汉字或词，即可根据概率文件得到后续的可能候选词、短语或句子，便于提高输入效率。

Description

基于个人语料库进行短语级预测输入的方法

技术领域

本发明涉及一种预测输入的方法，更具体地讲，涉及一种基于个人语料库进行短语级预测输入的方法。

背景技术

由于中文书面句子中词语之间没有分割(区分于英文输入中，单词之间以空格间隔)以及中文词语划分没有清晰的定义，所以最早的中文输入法是以单个汉字为单位进行输入。

现有的大多数输入法可以进行词语的输入，但需要键入相应的拼音或笔画，然后由输入法提示出相应的备选字或词语，以供用户选择。由此带来的问题是，在进行汉字词语输入时，需要键入太多的信息，而且不具备词或短语之间的联想功能。

即使存在一些改进的输入法，具备词或短语之间的联想功能，但还存在以下问题：

1、词或短语之间联想的关联关系由来与本发明不同。例如，如何得到最初的未标记的语料库以及是否可以得到反映用户个人特有语言习惯的未标记语料库。

2、部分输入法支持惯用语或成语的联想，即当用户输入惯用语或成语的开头若干个字之后，输入法能将完整的惯用语或成语作为一个候选项提供给用户，但这类输入法所提供的惯用语或成语库只能是一个所有用户共同的语言习惯，且存在惯用语或成语库词汇量小，灵活性差，难以扩展的问题。

3、部分输入法支持对用户以往输入的完整句子进行缓存、匹配的功能，即记录一定数量的用户以往输入的完整句子，当用户再一次输入这个句子的开头若干个字之后，输入法能将该完整的历史句子作为一个候选项提供给用户，但这类输入法仅仅是对用户个人的输入历史的一种缓存，且同样存在灵活性差的问题。

4、从以上描述中可以看出，现有技术最大限度只能提供一个所有用户共同的语言习惯(或输入习惯)或对个人输入历史的一种缓存，而非用户个人独有的输入习惯。从效率以及适用性上来说，对于每一个用户都能提供反映他特有语言习惯的输入法，要优于对所有用户提供一个反映大众语言习惯的输入法。

发明内容

本发明的目的在于提供一种可以根据用户以往输入内容而进行提示的预测输入方法，使得用户在常用词语和常用句式方面，只需要输入开头的汉字或词语，即可在候选窗口中出现该用户习惯所用的词、短语或句子。

根据本发明的一方面，提供一种基于个人语料库进行短语级预测输入的方法，该方法包括以下步骤：收集用户过往的输入作为个人语料库；将用户过往的输入以句子为单位进行分词，拆分为具有独立意义的汉字以及词；统计词或由词组成的短语前后出现的频率，计算词或短语紧接着出现在前一词之后的条件概率，形成反映该用户独特语言习惯的概率文件；当用户后续进行输入时，在输入了开头的词或短语之后，根据所述概率文件预测出用户所可能期望输入的后续词、短语或句子，以便用户进行选择和快速输入。

当用户经常使用某些词的组合或固定句子时，相应增大这些词及短语之间的条件概率。在条件概率增大到大于指定阈值时，当用户在输入开头汉字或是词语后，根据概率文件，可预测出该用户后续可能希望输入的词、短语或句子，从而在候选窗口中显示出来，进而提高用户的输入效率。

本发明采集用户过往编辑的句子作为原句信息，经过处理后，形成反映用户独有的遣词造句习惯的概率文件，由此提高用户的输入效率。

根据本发明的基于个人语料库进行短语级预测输入的方法可实现如下效果：1、形成反映用户独有遣词造句习惯，使得用户的惯用短语或句型可以被识别；2、用户在输入时，只需要输入开头的汉字或词，即可根据概率文件得到后续的可能候选词、短语或句子，便于提高输入效率。

附图说明

通过结合附图，从下面的实施例的描述中，本发明这些和/或其它方面及优点将会变得清楚，并且更易于理解，其中：

图1是显示根据本发明的基于个人语料库进行短语级预测输入的方法的框图；

图2示出了中文句子是中文词与具有独立意义的汉字的组合的示意图；

图3显示了概率文件的形成过程；

图4显示了处理概率文件的条件流程；

图5显示了将用户输入的新词加入到词库中的处理流程；

图6显示了词库与概率文件之间的映射关系；

图7显示在输入法启动时一次性载入词库和概率文件的处理；

图8显示根据本发明的存储在内存中的概率文件与存储在磁盘上的概率文件的对应关系；

图9显示了根据本发明的在拼音输入法状态下拼音输入与词语预测如何共同使用的示例；以及

图10显示根据本发明实施例的基于个人语料库进行短语级预测输入的方法实现输入的总体操作的流程图。

具体实施方式

以下，参照附图来详细说明本发明的实施例。

本发明所涉及的是，收集用户过去曾经编辑的输入(如短信、邮件或其它文本信息)作为个人语料库，将其进行词语切分、短语抽取、概率计算等预处理，形成特定的概率文件。在该用户后续使用输入法进行编辑的时候，在用户输入了开头汉字或是词语之后，即可预测出用户后续可能需要输入的词、短语或句子。

图1是显示根据本发明的基于个人语料库进行短语级预测输入的方法的框图。该预测输入方法至少包括以下部分：个人语料库处理模块108、短语处理模块109、概率文件形成与调整模块110、输入预测模块111、词库调整与精简模块112、概率文件113。

以上模块是根据本发明的基于个人语料库进行短语级预测输入的方法区别于其它输入法所特有的模块。该预测输入方法还包括现有输入法所共有的一些模块，诸如设置模块101、前端模块102、面板模块103、帮助模块104、进程间通信模块105、引擎模块106、词库107，这里不再对其进行详细描述。

个人语料库处理模块108通过收集用户过去输入的文本信息(如短信、邮件)，形成个人语料库，并将其存储到磁盘等存储介质上。用户过去输入的文本信息以句子为基本单位被存储在存储介质上，作为原句信息。

短语处理模块109执行短语抽取、条件概率计算等步骤，以便由概率文件形成与调整模块110形成输入法可识别并使用的概率文件113，用以提高用户的输入效率。

短语处理模块109的处理流程为：

1、将原句拆分为词。通过拆分，句子可以被分解为若干个具有独立意义的词以及若干独立的字。

2、将连续若干个词组成的词串定义为短语，该短语的定义包含了词、词串及整个句子的概念。

3、统计不同词、短语以及独立汉字之间出现的条件概率。

原句处理完毕后，从存储介质上删除此原句，以保护用户隐私并节省存储空间。

下面详细描述对原句进行拆分以及统计条件概率的过程。

对原句进行词语拆分是基于输入法已有的词库而进行的。输入法原有的词库会随着用户的输入增加新词。同样，为了保证输入法词库不会无限制的膨胀下去，词库调整与精简模块112去除一些使用频率不高且已经降低到某一阈值以下的词语。输入法的词库中词的使用频率通过使用次数以及最近使用时间进行统计。

分词方法可以是基于统计的分词方法，也可以基于现有输入法的词库来进行分词，但不局限于此。基于统计的分词虽然具有局限性，但是例如某些并不是词的常用字组(如“这一”、“之一”)对于本发明的应用性方面来说，恰恰也是用户的习惯输入，因此并不会对本发明的分词产生影响。

分词的方法是将整句拆解为词语及具有独立意义的汉字。具有独立意义的汉字是指连接词(如“的”、“和”)、语气助词(如“啊”)以及称谓(如“我”)，以下简称为“独立汉字”。如图2所示，中文句子是中文词与具有独立意义的汉字的组合。这些汉字并不会被传统的分词归结为某一个词语，如“我们的”，但是在短语级输入的条件下，一个句式的组成是由若干词语以及独立汉字组成。在本预测输入方法的实现中，通过枚举的方法定义了这一类独立汉字。

短语处理模块109在抽取出词、短语之后，还需要统计相关词、短语以及独立汉字之间前后出现的条件概率。例如，对于两个连续出现的词w_i和w_i+1，w_iw_i+1这个词组出现的概率被标记为p(w_i+1|w_i)，其含义是在词w_i出现之后，词w_i+1出现的可能性，计算方法是：

类似的，对于两个连续出现的短语w_i...w_i+m和w_i+m+1...w_i+n(m＜n)，

例如“我们”、“今天”分别是两个词语。那么“我们今天”这个短语出现的概率被标记为：p(今天|我们)，其含义是在词语“我们”出现之后，词语“今天”出现的概率。所以，从长远的趋势来看，每一个用户都有自己独特的语言(说话)习惯，具体到输入法本身来说，就是用户总是会以更高概率的去输入某些词组、短语和句子。这种现象是因每一个用户都有不同的生活环境以及交际圈所决定的。因此某些词、短语之间共同出现的概率将会越来越高。

本发明使用条件概率而非词语同现概率的原因是：同现概率描述的是两个词语共同出现的可能性。例如，对于拼音输入“women jintian”，可能出现的候选有“我们今天”、“我闷近天”、“我们近天”等，其同现概率分别描述的是“我们”和“今天”、“我闷”和“近天”、“我们”和“近天”作为相邻词语同时出现的可能性。条件概率描述的是在现有输入词语的前提下，后续可能出现的词语的可能性。例如：对于拼音输入“women”，用户选择“我们”之后，可能出现的候选有“今天”、“明天”、“今天的任务是”等，条件概率描述的是在“我们”之后可能会出现“今天”、“明天”、“今天的任务是”的可能性。因此，根据本发明预测的目的，选用条件概率更合适。

当某些词、短语之间共同出现的概率高于某一阈值之后，即可认定其已经成为用户自己所独有的词组。同样，在多个词组以及独立汉字之间的概率高于某一阈值之后，即可认定一个整句的出现。由此带来的效果是：如果用户期望输入“我们今天的任务是把工作做完”，则当用户输入了“我们”之后，可能出现的选项按照概率的高低排列有1.“我们今天”、2.“我们今天的任务是”、3.“我们今天的任务是把工作做完”以及其他选项。

图3显示了概率文件113的形成过程。如图3所示，在步骤301，收集用户过去输入的文本信息。在步骤302，用户过去输入的文本信息被存储到磁盘中，作为原句信息。在步骤303，应用统计方法将原句拆分为词以及若干独立的字。在步骤304，统计不同词、短语以及独立汉字之间前后出现的条件概率。在步骤305，将这些条件概率以及汉字、词、短语存入到存储介质中。在步骤306，从磁盘上删除原句信息。经过以上处理，可形成反映用户特有语言习惯的概率文件113。

短语处理模块109进行处理的时机选择有以下必要条件：

1、原句信息达到一定数量。数量是以原句条目或是原句所占存储空间字节数计算，目的是对一定数目的原句进行批处理，以节约处理时间并提高性能。

2、在系统空闲并且处于非输入状态时。

3、在手持设备上使用的情况下，在电量充足时进行，以防止断电影响用户。

图4显示了处理概率文件113的条件流程。如图4所示，在步骤401，原句信息存储到磁盘上。在步骤402，判断原句信息是否足够以及系统是否处于空闲并且为非输入。如果满足该条件，则进行到步骤403，进行概率文件113的处理。否则，进行到步骤404，从而退出。

根据本发明，加入到输入法词库中的新词是指常用字组(如“之一”、“这一”)，而非汉字词语的组合。

图5显示了将用户输入的新词加入到词库107中的处理流程。在步骤501，用户使用输入法进行文字输入。在步骤502，判断是否出现了新词。如果出现了新词，则在步骤503，将该新词加入到词库107中，并且还可以删除词库107中使用频率低的一些词。

概率文件形成与调整模块110将词、短语之间前后出现的概率信息以文件的形式存储在磁盘上永久保存，形成概率文件113。

概率文件113的存储与词库107的存储是分开的，由此形成模块化特征，便于功能裁剪。当不需要进行概率统计时，将相应模块简单删除即可。

概率文件113是反映词、短语之间前后出现的概率，并且与词库107分开存储。但是在概率文件113中并不需要重复出现词库107中的词语，可以采用简单的映射关系将概率文件113与词库107联系起来，概率文件113中的词语由简单的映射关系表示，概率文件113中的短语由词语映射关系的组合表示。图6显示了词库107与概率文件113之间的映射关系。

当预测输入方法发现两个或两个以上的词或短语的共同出现概率高于一指定阈值时，即可认定发现新的“词组”(或称为输入模式)。但是，该“词组”并不会加入到词库107中。例如，对于新的输入短语“黑道教父”，“黑道”和“教父”原先都是存在于词库107中的词语，因此“黑道教父”将不会被加入到词库107中，仅仅在概率文件113中反映了“黑道”与“教父”先后出现的概率很高而已。

在预测输入方法启动的时候，将会把概率文件113以及词库107一次全部载入到系统的内存中。词库107在内存中是以Hash表或Tie树的形式存在，而概率文件113在内存中是以Patricia树或Map表的形式存在。

图7显示在预测输入方法启动时一次性载入词库107和概率文件113的处理。参照图7，在步骤701，预测输入方法启动。在步骤702，进行系统内部初始化。在步骤703，将词库107载入到系统的内存中。在步骤704，将概率文件113载入到系统的内存中。

在概率文件113中，词、短语之间前后出现的概率随着用户的不断输入而变化。某些短语之间的共同出现次数越多，则其相互之间的条件概率也就越大，并且概率文件形成与调整模块110将这样的变化趋势反映在概率文件113中。如果短语之间的条件概率发生了改变，在预测输入方法被关闭或是在系统空闲时，概率文件形成与调整模块110将这样的变化存入到磁盘上的概率文件113中。

优选的是，概率文件113的变化的保存是以增量形式进行的。即，仅产生变化的部分才会被保存。因此内存结构中的概率文件113与磁盘上的概率文件113在每一个表示概率值的节点上可以一一对应，并可直接计算得到变化节点在磁盘文件中的偏移量。图8显示根据本发明的存储在内存中的概率文件与存储在磁盘上的概率文件的对应关系。在图8中，R1-R4分别表示的是条件概率值。

节点在磁盘文件与内存结构中的对应关系的保证，是建立在磁盘文件中，每一个节点所占据的空间是等长的。但是，这并不意味着每一个节点都是等长编码的。即使存在不等长编码的结构，可以通过加入空格对齐的方式保证每一个节点的等长。

输入预测模块111在用户已输入的基础上去判定后续可能出现词语的概率。即，假设用户当前输入词语w_i，输入预测模块111寻找使得概率值p(w_j|w_i)最大的w_j，j为从1到n的整数，其中n为句子的总词数，那么w_j即为最可能出现的词语。在多元文法，如三元文法中，不仅仅考虑p(w_j|w_i)，还需要考虑p(w_j|w_i-1w_i)以及p(w_j|w_i-2w_i-1w_i)，考虑前词的个数与多元文法的元数相同。

为了能进行整句输入，输入预测模块111还考虑p(w_i+1|w_i)、p(w_i+1w_i+2|w_i)以及p(w_i+1...w_n|w_i)，其中，其中，i和n是自然数，n＞i，并且n为句子的总词数。

图9显示了根据本发明的在拼音输入法状态下拼音输入与词语预测如何共同使用的示例。如果用户输入拼音“women”，则出现候选词“1.我们”、“2.我闷”等。如果用户选择1，则根据本发明的预测输入方法给出预测结果“1.我们今天”、“2.我们今天的任务是”、“2.我们今天的任务是把工作做完”。如果用户不选择上述的1、2、3而继续拼音输入(例如“mingtian”)，则消除预测候选词，并进行拼音输入。

为了体现常用句式甚至整句的预测效果，输入预测模块111对于长短语的选择进行优先处理，即，概率值的增加数值与短语长度正相关。选中的短语长度越长，则其概率值增加也越快，从而使得长短语的概率值可以高于其部分的概率值。例如，在开始时选项按照概率的高低排列有1.“我们今天”、2.“我们今天的任务是”、3.“我们今天的任务是把工作做完”以及其他选项。在用户选择3一定次数之后，选项按照概率的高低排列有可能变为1.“我们今天的任务是把工作做完”、2.“我们今天”、3.“我们今天的任务是”。通过这样的机制保证了长短语甚至整句的优先输出。

输入预测模块111中存在自调整功能。自调整子模块的功能是，计算从用户输入到预测得出候选词、短语或句子的时间，并且将该时间与UI(userinterface)体验中用户可以等待的时间阈值进行比较。如果超出了UI中用户可以接受的等待时间，那么预测过程将会终止，返回到最原始的输入法状态。

根据本发明，基于个人语料库进行短语级预测输入的方法的输出是，用户进行了输入，假设是拼音输入(但不局限于此，也可以是笔画输入或五笔输入等)，经过输入法处理，得到若干候选词。假设用户选择了词w₁，此时候选词消失，输入法接着进行预测，得到候选词或短语w₂、w₃...序列，显示在输入法候选窗口中。如果用户进行了选择，那么w₂、w₃...序列中的选中词、短语或是句子显示在编辑框中。如果用户不需要这些预测，希望进行输入，则继续输入，经过输入法处理，继续得到候选词。

根据本发明的基于个人语料库进行短语级预测输入的方法需要根据用户的输入而不断调整词、短语之间前后出现的概率以及词库107。词库107以及概率文件113的调整是同步的。词库107以及概率文件113的改变超出了一定的阈值，输入法系统就会调整。调整时间是系统开机时，或者是在整个系统空闲时进行调整。

为了保证词库107以及概率文件113的调整时间最短，根据在用户进行输入时所产生的词或短语本身概率变化以及词或短语之间共同出现的概率变化，适时进行排序。由此产生的结果是，概率高的词或短语将会越来越排在搜索序列的前端，概率低的词或短语将会越来越排在搜索序列的后端。

由于输入概率的变化将会导致概率高的词或短语与概率低的词或短语分列在搜索序列的前端与后端。因此在搜索候选词或短语时，将从搜索序列前端开始。而在淘汰不常用的词或短语时，则从搜索序列后端开始搜索，由此保证了搜索以及调整算法的高效。在词或短语出现的频率降低到一定阈值时，就可以移除该词或短语及其概率关系。

参照图10，在步骤1001，用户进行字符输入，可采用拼音、五笔、笔画等多种输入方式。在步骤1002，判断用户输入的字符是否是汉字词语。如果用户输入了汉字词语，则在步骤1003，进入预测输入流程。接着，在步骤1004，根据概率文件对用户输入的汉字词语进行预测匹配，然后在步骤1005得出候选词、短语或句子。另一方面，如果在步骤1002判断用户没有输入汉字词语，则在步骤1005，进入一般的输入法流程。接着在步骤1005，在输入法的词库中进行匹配，然后在步骤1005得出候选字符。在步骤1008，判断词库和概率文件是否发生变化。如果发生变化，则步骤1009，对存储的词库和概率文件进行调整。如果未发生变化，则进行到步骤1010从而退出。

如上所述。本发明采集用户过往编辑的句子作为原句信息，经过处理后，形成反映用户独有的遣词造句习惯的概率文件，由此提高用户的输入效率。

根据本发明的基于个人语料库进行短语级预测输入的方法不仅可应用于各式计算机，也可应用于用户手持终端，例如移动通信终端、个人数字助理(PDA)等。

虽然本发明是参照其示例性的实施例被具体描述和显示的，但是本领域的普通技术人员应该理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可以对其进行形式和细节的各种改变。

Claims

1.一种基于个人语料库进行短语级预测输入的方法，包括以下步骤：

收集用户过往的输入作为个人语料库；

将用户过往的输入以句子为单位进行分词，拆分为具有独立意义的汉字以及词；

统计词或由词组成的短语前后出现的频率，计算词或短语紧接着出现在前一词之后的条件概率，形成反映该用户独特语言习惯的概率文件；

当用户后续进行输入时，在输入了开头的词或短语之后，根据所述概率文件预测出用户所可能期望输入的后续词、短语或句子，以便用户进行选择和快速输入。

2.根据权利要求1所述的方法，其中，在收集用户过往的输入的步骤中，将用户过往输入的文本信息以句子为单位存储在存储介质上，作为原句信息。

3.根据权利要求2所述的方法，其中，基于现有的输入法的词库来执行所述分词步骤。

4.根据权利要求2所述的方法，其中，采用基于统计的方法来执行所述分词步骤。

5.根据权利要求3所述的方法，其中，输入法的词库中的词随着用户使用而不断增加和删除。

6.根据权利要求5所述的方法，其中，常用字组作为新词加入到输入法的词库中。

7.根据权利要求5所述的方法，其中，使用频率低的词语从输入法的词库被删除。

8.根据权利要求7所述的方法，其中，输入法的词库中词的使用频率通过使用次数以及最近使用时间进行统计。

9.根据权利要求2所述的方法，其中，在统计词或由词组成的短语前后出现的频率的步骤中，对于词w_i+1紧接着出现在词w_i之后的条件概率，记为

其中，i为自然数。

10.根据权利要求9所述的方法，其中，当两个词w_i、w_i+1之间的条件概率超过指定阈值时，根据词w_i的输入，预测出词w_i+1作为候选。

11.根据权利要求1所述的方法，其中，采用升降法不断调整词、短语之间概率的排列顺序，使得使用频率低的概率关系沉降到搜索序列的后端。

12.根据权利要求1所述的方法，其中，当词或短语出现的频率降低到一定阈值时，该词或短语及其概率关系被移除。

13.根据权利要求6或7所述的方法，其中，所形成的概率文件以及词库被存储在存储介质上进行保存。

14.根据权利要求1所述的方法，其中，在所述预测步骤中，当用户输入词w_i时，根据概率文件中的概率关系寻找到该词w_i之后的出现概率超出一定阈值的词w_i+1或者短语w_i+1...w_n，其中，i和n为自然数，n＞i。

15.根据权利要求1所述的方法，其中，在所述预测步骤中，寻找出现概率超出一定阈值并具有独立意义的汉字、词或短语，作为候选。

16.根据权利要求1所述的方法，其中，对于用户选中的短语，该短语的概率值的增加程度与该短语的长度正相关，短语长度越长，概率值增加越多。

17.根据权利要求2所述的方法，其中，在形成所述概率文件之后，删除存储在存储介质上的原句信息。