CN102902362B

CN102902362B - 文字输入方法及系统

Info

Publication number: CN102902362B
Application number: CN201110209014.0A
Authority: CN
Inventors: 肖镜辉
Original assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2011-07-25
Filing date: 2011-07-25
Publication date: 2017-10-31
Anticipated expiration: 2031-07-25
Also published as: CN102902362A

Abstract

一种文字输入方法，包括以下步骤：获取用户标识，根据用户标识查找对应的用户语言模型；获取用户输入，根据所述用户输入生成候选语句列表；获取通用语言模型，根据所述用户语言模型和通用语言模型计算所述候选语句列表中的候选语句的上屏概率；按照所述上屏概率的大小顺序对所述候选语句列表中的候选语句进行排序；输出排序后的候选语句列表。采用上述文字输入方法，能够提高文字输入的准确率和文字输入的速度。此外，还提供了一种文字输入系统。

Description

文字输入方法及系统

【技术领域】

本发明涉及文字输入领域，特别涉及一种文字输入方法及系统。

【背景技术】

输入法软件是一种常见的文字输入系统，通常的操作流程为：输入法软件接收用户通过键盘输入的代码序列(如拼音或五笔等)，然后将代码序列作为参数利用通用语言模型找出与代码序列对应的候选语句序列，并计算出每个候选语句在候选语句序列中的上屏概率，然后根据上屏概率的大小将候选语句序列排序，最后将候选语句序列展现给用户。用户只需要在候选语句序列中选出想要的词语即可完成输入。

传统的文字输入方法，一般采用通用语言模型构建输入法的核心，这种通用语言模型是通过对大规模训练语料统计分析后得到的，大规模训练语料通常从互联网上自动获取，代表了大多数用户的一般性输入需求，即这种通用语言模型根据大多数人输入文字时的具有普遍性的选词习惯建立。而用户在使用输入法软件输入文字时，往往希望能够快速获取自己常用以及习惯性使用的文字，每个用户在进行选词时，由于身份不一样，兴趣爱好和文字输入的领域不一样，所希望排序靠前的候选语句序列也不一样。例如，科研工作者和银行职员在输入文字时，往往希望自己领域的专业术语排在最前面。再例如，东北人和四川人在输入文字时，也往往希望自己的方言词汇能排在候选语句序列的前列。而传统的这种仅采用通用语言模型的文字输入方法并不能满足不同用户的输入需求，使得输入的准确率不高，从而影响用户输入文字的速度。

【发明内容】

基于此，有必要提供一种能提高文字输入速度的文字输入方法。

一种文字输入方法，包括以下步骤：

获取用户标识，根据用户标识查找对应的用户语言模型；

获取用户输入，根据所述用户输入生成候选语句列表；

获取通用语言模型，根据所述用户语言模型和通用语言模型计算所述候选语句列表中的候选语句的上屏概率；

按照所述上屏概率的大小顺序对所述候选语句列表中的候选语句进行排序；

输出排序后的候选语句列表。

优选的，所述方法还包括建立与用户标识对应的用户语言模型并在每次用户输入词条后根据用户输入的词条信息更新用户语言模型的步骤。

优选的，所述更新用户语言模型的步骤具体为：

记录用户输入的词条信息和词频信息；

获取所述词条信息和词频信息，对词条进行分词，根据所述词频信息对分词后的词条进行词频整理；

根据分词后的词条和整理后的词频更新所述用户语言模型。

优选的，所述根据所述用户语言模型和通用语言模型计算所述候选语句列表中的候选语句的上屏概率的步骤为：

对所述用户语言模型和通用语言模型进行线性插值，生成混合模型，根据所述混合模型计算所述候选语句列表中的候选语句的上屏概率。

文字输入方法，包括以下步骤：

客户端获取用户标识，根据用户标识从服务器查找对应的用户语言模型；

所述客户端获取用户输入，将所述用户输入上传到服务器，所述服务器根据所述用户输入生成候选语句列表；

所述服务器获取通用语言模型，根据所述用户语言模型和通用语言模型计算所述候选语句列表中的候选语句的上屏概率；

所述服务器按照所述上屏概率的大小顺序对所述候选语句列表中的候选语句进行排序，将排序后的候选语句列表下发到所述客户端；

所述客户端接收所述排序后的候选语句列表并输出。

优选的，所述方法还包括在服务器上建立与用户标识对应的用户语言模型并在每次用户输入词条后根据用户输入的词条信息更新用户语言模型的步骤。

优选的，所述更新用户语言模型的步骤具体为：

记录用户输入的词条信息和词频信息；

根据分词后的词条和整理后的词频更新所述用户语言模型。

优选的，所述服务器根据所述用户语言模型和通用语言模型计算所述候选语句列表中的候选语句的上屏概率的步骤为：

此外，还有必要提供一种能提高文字输入速度的文字输入系统。

一种文字输入系统，包括：

查找模块，用于获取用户标识，根据用户标识查找对应的用户语言模型；

候选语句列表生成模块，用于获取用户输入，根据所述用户输入生成候选语句列表；

概率计算模块，用于根据所述用户语言模型和通用语言模型生成所述候选语句列表中的候选语句的上屏概率；

排序模块，用于按照所述上屏概率的大小顺序对所述候选语句列表中的候选语句进行排序；

输出模块，用于输出排序后的候选语句列表。

优选的，所述系统还包括：

用户语言模型建立模块，用于建立与用户标识对应的用户语言模型；

用户语言模型更新模块，用于在每次用户输入词条后根据用户输入的词条信息更新用户语言模型。

优选的，所述用户语言模型更新模块用于记录用户输入的词条信息和词频信息，获取所述词条信息和词频信息，对词条进行分词，根据所述词频信息对分词后的词条进行词频整理，根据分词后的词条和整理后的词频更新所述用户语言模型。

优选的，所述上屏概率生成模块用于对所述用户语言模型和通用语言模型进行线性插值，生成混合模型，根据所述混合模型计算所述候选语句列表中的候选语句的上屏概率。

上述文字输入方法及系统，结合了用户语言模型和通用语言模型，由于用户语言模型可根据用户输入进行训练得到，使得排序后的候选语句列表中排序靠前的候选语句更符合用户的语言习惯，使得用户能够更快的获取到所需要的候选语句，提高了文字输入的准确率，也提高了文字输入速度。

【附图说明】

图1为一个实施例中文字输入方法的流程示意图；

图2为另一个实施例中文字输入方法的流程示意图；

图3为一个实施例中文字输入系统的结构示意图；

图4为另一个实施例中文字输入系统的结构示意图。

【具体实施方式】

在一个实施例中，如图1所示，一种文字输入方法，包括以下步骤：

步骤S102，获取用户标识，根据所述用户标识查找对应的用户语言模型。

用户标识用于唯一标识用户，可以是用户在输入法软件上注册的帐号、为用户分配的标识号码、以及与用户所使用的设备关联的IP地址、MAC地址等。

在一个实施例中，在步骤S102之前需建立与用户标识对应的用户语言模型，在每次用户输入词条后则根据用户输入的词条信息更新用户语言模型。由于用户语言模型根据用户输入的词条信息进行训练得到的，符合用户个人的语言习惯。用户语言模型训练得到后可存储在本地，也可以上传到服务器中存储。

步骤S104，获取用户输入，根据用户输入生成候选语句列表。

用户输入可以是语音、手写体、光学字符或字符串等，可采用传统的文字输入方法从词库中找到与用户输入匹配的候选语句，生成候选语句列表。

步骤S106，获取通用语言模型，根据用户语言模型和通用语言模型计算候选语句列表中的候选语句的上屏概率。

通用语言模型可以是传统的统计语言模型，通过对大规模训练语料进行统计分析得到，大规模训练语料可通过互联网从大量用户输入的语句中获取。用户语言模型是与用户个人对应的，不同的用户所对应的用户语言模型不同。通用语言模型可以存储在服务器，也可以存储在客户端。

用户语言模型根据用户输入进行训练得到，应当说明的是，对于使用输入法软件进行首次输入时，由于用户语言模型未更新，则仅采用通用语言模型计算候选语句列表的候选语句的上屏概率，其方法原理与传统的采用通用语言模型的输入方法相同，在此则不再赘述。

在用户每次使用输入法软件输入文字后，记录用户输入的词条，根据用户输入的词条信息更新语言模型，用户语言模型与用户标识进行对应存储，在下一次输入文字时，则可采用所建立的用户语言模型和通用语言模型一起用于计算候选语句列表中的候选语句的上屏概率。

在一个实施例中，通用语言模型和用户语言模型一起存储在本地客户端中，则可直接从本地客户端中获取到用户语言模型和通用语言模型，用于计算候选语句列表中的候选语句的上屏概率。该实施例中，客户端不需要向服务器发送任何请求，该方法也称为“本地输入法”。

在另一个实施例中，通用语言模型和用户语言模型存储在服务器，服务器获取通用语言模型和用户语言模型，用于计算候选语句列表中的候选语句的上屏概率，该实施例中，输入法的处理过程都交由服务器来执行，也称为“云输入法”。

步骤S108，按照上屏概率的大小顺序对候选语句列表中的候选语句进行排序。

本实施例中，按照上屏概率从大到小的顺序对候选语句列表中的候选语句进行排序，排序越靠前的候选语句就越符合用户的语言习惯，更可能为用户所需求，因此用户可以更加快速的选择到所需要的候选语句，提高了文字输入的准确率，也提高了文字输入的速度。

步骤S110，输出排序后的候选语句列表。

用户可以从优选词列表中选择所需候选语句，所选择的候选语句从输入法软件上屏到不同应用程序中，如文本文件、记事本、演示文档中等。

在一个实施例中，步骤S110的具体过程为：输出上屏概率最大的候选语句，该上屏概率最大的候选语句位于输出列表的最前位置，用户可以快速选择到该上屏概率最大的候选语句。

在另一个实施例中，步骤S110的具体过程为：输出采用本地输入法处理得到的上屏概率最大的第一候选语句，以及输出采用云输入法处理得到的上屏概率最大的第二候选语句，在输出列表中输出第一候选语句和第二优选语句，并且第一候选语句的排序最靠前，第二候选语句排序在第一候选语句后面。这样，用户可以快速选择两种输入法得到的上屏概率最大的候选语句。

在一个实施例中，上述文字输入方法还包括建立与用户标识对应的用户语言模型并在每次用户输入词条后根据用户输入的词条信息更新用户语言模型的步骤。具体的，建立与用户标识对应的用户词库，在每次用户输入词条后，将用户输入的词条信息和词频信息加入到用户词库中。更新用户语言模型时，从用户词库中获取词条信息和词频信息，对词条进行分词，根据原有词条的词频，对分词后的词条进行词频整理，根据分词后的词条和整理后的词频更新用户语言模型。其中，词频为词条在用户词库中出现的次数。

在一个实施例中，用户语言模型与通用语言模型采用相同的语言模型，即采用Ngram语言模型建模，但训练集合是不相同的，用户语言模型的训练集合是用户词库中的所有词语序列集合，与某一个用户对应，通用语言模型的的训练集合是大量用户输入的词语序列集合，可通过互联网获取。

其中，用户语言模型的概率计算公式为：

其中，P_user(S)为包含m个词语的语句S＝w_iw₂...w_m的概率；语句S由词语序列w₁w₂...w_m组成，其中，w_i为语句S中的词语，语句S由m个词语组成，例如“你今天吃饭了么”可分解为“/你/今天/吃饭/了/么”；P_user(w_i|w_i-n+1...w_i-1)可采用最大似然方法进行概率统计，计算公式为：

其中，c(w_i-n+1...w_i-1w_i)表示词语序列w_i-n+1...w_i-1w_i在训练集合中出现的次数，c(w_i-n+1...w_i-1)表示词语序列w_i-n+1...w_i-1在训练集合中出现的次数。训练集合是用户词库中是所有词语序列集合。

在一个优选的实施例中，用户语言模型采用更低阶的语言模型，例如Unigram语言模型，其相对于Ngram语言模型所占用的存储空间更小，特别适用于在移动终端上使用。本实施例中，用户语言模型的概率计算公式为：

其中，P_user(S)为包含m个词语的语句S＝w_iw₂...w_m的概率。

在另一个优选的实施例中，用户语言模型还可采用Bigram语言模型，该语言模型相对于上述两种语言模型，其建模的速度更快，特别适用于云输入法中。本实施例中，用于语言模型的概率计算公式为：

其中，P_user(S)为包含m个词语的语句S＝w_iw₂...w_n的概率；P_user(w_i|w_i-1)表示语句S被分词为两个词语w_i和w_i-1，P_user(w_i|w_i-1)的计算公式为：

其中，c(w_i-1w_i)表示语句S在训练集合中出现的次数，c(w_i-1)表示词语w_i-1在训练集合中出现的次数。

在一个实施例中，根据用户语言模型和通用语言模型计算候选语句列表中的候选语句的上屏概率的步骤具体为：对用户语言模型和通用语言模型进行线性插值，生成混合模型，根据混合模型计算候选语句列表中的候选语句的上屏概率。

本实施例中，通用语言模型采用传统的Ngram语言模型，则将用户语言模型中的条件概率与通用语言模型中的条件概率进行融合，计算融合后的条件概率，其计算公式为：

P_mixture(w_i|w_i-n+1...w_i-1)＝a×P(w_i|w_i-n+1...w_i-1)+(1-a)×P_user(w_i|w_i-n+1...w_i-1)

其中，P_mixture(w_i|w_i-n+1...w_i-1)表示融合后的条件概率，P(w_i|w_i-n+1...w_i-1)表示通用语言模型的条件概率，P_user(w_i|w_i-n+1...w_i-1)表示用户语言模型的条件概率，a为插值系数，取值在0到1之间。

根据融合后的条件概率，生成的混合模型为：

其中，P(S)为包含m个词语的语句S＝w_iw₂...w_m的概率。

候选语句列表中的候选语句的上屏概率为混合模型计算得到的候选语句可能被用户选择的概率。上屏概率越大，则候选语句在候选语句列表中排序越靠前，用户则能够快速选择到所需要的语句，提高了文字输入速度。

在一个实施例中，如图2所示，一种文字输入方法，包括以下步骤：

步骤S202，客户端获取用户标识，根据用户标识从服务器上查找对应的用户语言模型。

用户标识用于唯一标识用户，可以是用户在输入法软件上注册的帐号、为用户分配的标识号码、以及与用户所使用的设备关联的IP地址、MAC地址等。用户进行身份验证后登录到输入法软件，客户端获取到用户标识，将用户标识上传到服务器，由服务器查找对应的用户语言模型。

在一个实施例中，事先在服务器上建立与用户标识对应的用户语言模型，每次用户输入词条后，服务器获取用户输入的词条信息并根据用户输入的词条信息来更新用户语言模型。由于用户语言模型对应用户标识在服务器上存储，服务器上的用户语言模型可以根据用户输入进行不断更新，因此服务器上的用户语言模型越来越精确，用户在不同的客户端上使用输入法软件时，服务器将最新的用户语言模型下发到客户端，因此能够实现用户语言模型的同步，适用于不同的终端设备。

步骤S204，客户端获取用户输入，将用户输入上传到服务器，服务器根据用户输入生成候选语句列表。

用户输入可以是语音、手写体、光学字符或字符串等，客户端将用户输入上传到服务器，由服务器采用传统的文字输入方法从词库中找到与用户输入匹配的候选语句，生成候选语句列表。将文字输入方法的处理交由服务器来执行，这种文字输入法也称为“云输入法”。

步骤S206，服务器获取通用语言模型，根据用户语言模型和通用语言模型计算候选语句列表中的候选语句的上屏概率。

通用语言模型可以是传统的统计语言模型，通过对大规模训练语料进行统计分析得到，大规模训练语料可通过互联网从大量用户输入的语句中获取。用户语言模型是与用户个人对应的，不同的用户所对应的用户语言模型不同。

在用户每次使用输入法软件输入文字后，记录用户输入的词条，根据用户输入的词条信息更新用户语言模型，用户语言模型与用户标识进行对应存储，在下一次输入文字时，则可采用所建立的用户语言模型和通用语言模型一起用于计算候选语句列表中的候选语句的上屏概率。

在一个实施例中，上述文字输入方法还包括在服务器上建立与用户标识对应的用户语言模型并在每次用户输入词条后根据用户输入的词条信息更新用户语言模型的步骤。具体的，在服务器上建立与用户标识对应的用户词库，在每次用户输入词条后，将用户输入的词条信息和词频信息加入到用户词库中。更新用户语言模型时，从用户词库中获取词条信息和词频信息，对词条进行分词，根据原有词条的词频，对分词后的词条进行词频整理，根据分词后的词条和整理后的词频更新用户语言模型。其中，词频为词条在用户词库中出现的次数。

在一个实施例中，用户语言模型可采用Bigram语言模型，其建模方法如上所述，在此则不再赘述。

在一个实施例中，服务器根据用户语言模型和通用语言模型计算候选语句列表中的候选语句的上屏概率的步骤具体为：服务器对用户语言模型和通用语言模型进行线性插值，生成混合模型，根据混合模型计算候选语句列表中的候选语句的上屏概率。

步骤S208，服务器按照上屏概率的大小顺序对候选语句列表中的候选语句进行排序，将排序后的候选语句列表下发到客户端。

步骤S210，客户端接收排序后的候选语句列表并输出。用户可以从优选词列表中选择所需候选语句，所选择的候选语句从输入法软件上屏到不同应用程序中，如文本文件、记事本、演示文档中等。

在一个实施例中，如图3所示，一种文字输入系统，包括查找模块102、候选语句列表生成模块104、概率计算模块106、排序模块108和输出模块110，其中：

查找模块102用于获取用户标识，根据所述用户标识查找对应的用户语言模型。

在一个实施例中，如图4所示，上述文字输入系统还包括用户语言模型建立模块112和用户语言模型更新模块114，其中：

用户语言模型建立模块112用于建立与用户标识对应的用户语言模型。

用户语言模型建立模块112可位于客户端也可位于服务器，所建立的用户语言模型可存储在客户端，也可存储在服务器。

用户语言模型更新模块114用于在每次用户输入词条后根据用户输入的词条信息更新用户语言模型。

用户语言模型更新模块114可位于客户端也可位于服务器，更新后的用户语言模型可存储在客户端，也可由客户端上传到服务器进行存储。这样，服务器上的用户语言模型可以根据用户输入进行不断更新，因此服务器上的用户语言模型越来越精确，用户在不同的客户端上使用输入法软件时，服务器将最新的用户语言模型下发到客户端，因此能够实现用户语言模型的同步，适用于不同的终端设备。

候选语句列表生成模块104用于获取用户输入，根据用户输入生成候选语句列表。

在一个实施例中，候选语句列表生成模块104可位于服务器端，由服务器采用传统的文字输入方法从词库中找到与用户输入匹配的候选语句，生成候选语句列表。将文字输入方法的处理交由服务器来执行，这种文字输入法也称为“云输入法”。

概率计算模块106用于获取通用语言模型，根据用户语言模型和通用语言模型计算候选语句列表中的候选语句的上屏概率。

排序模块108用于按照上屏概率的大小顺序对候选语句列表中的候选语句进行排序。

输出模块110用于输出排序后的候选语句列表。

在一个实施例中，用户语言模型更新模块114用于记录用户输入的词条信息和词频信息，获取所述词条信息和词频信息，对词条进行分词，根据所述词频信息对分词后的词条进行词频整理，根据分词后的词条和整理后的词频更新用户语言模型。其中，词频为词条在用户词库中出现的次数。

其中，用户语言模型的概率计算公式为：

其中，P_user(S)为包含m个词语的语句S＝w_iw₂...w_m的概率。

在一个实施例中，上屏概率生成模块106用于对用户语言模型和通用语言模型进行线性插值，生成混合模型，根据混合模型计算候选语句列表中的候选语句的上屏概率。

根据融合后的条件概率，生成的混合模型为：

其中，P(S)为包含m个词语的语句S＝w_iw₂...w_m的概率。

候选语句列表中的候选语句的上屏概率为混合模型计算得到的候选语句可能被用户选择的概率。上屏概率越大，则候选语句在候选语句列表中排序越靠前，用户则能够快速选择到所需要的语句，提高了文字输入速度

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文字输入方法，包括以下步骤：

获取用户标识，根据用户标识查找对应的用户语言模型；

获取用户输入，根据所述用户输入查找与所述用户输入匹配的候选语句，生成候选语句列表；

获取通用语言模型，对所述用户语言模型和通用语言模型进行线性插值，生成混合模型，根据所述混合模型计算所述候选语句列表中的候选语句的上屏概率；

输出排序后的候选语句列表。

2.根据权利要求1所述的文字输入方法，其特征在于，所述方法还包括建立与用户标识对应的用户语言模型并在每次用户输入词条后根据用户输入的词条信息更新用户语言模型的步骤。

3.根据权利要求2所述的文字输入方法，其特征在于，所述更新用户语言模型的步骤具体为：

记录用户输入的词条信息和词频信息；

根据分词后的词条和整理后的词频更新所述用户语言模型。

4.一种文字输入方法，包括以下步骤：

所述客户端获取用户输入，将所述用户输入上传到服务器，所述服务器根据所述用户输入查找与所述用户输入匹配的候选语句，生成候选语句列表；

所述服务器获取通用语言模型，对所述用户语言模型和通用语言模型进行线性插值，生成混合模型，根据所述混合模型计算所述候选语句列表中的候选语句的上屏概率；

所述客户端接收所述排序后的候选语句列表并输出。

5.根据权利要求4所述的文字输入方法，其特征在于，所述方法还包括在服务器上建立与用户标识对应的用户语言模型并在每次用户输入词条后根据用户输入的词条信息更新用户语言模型的步骤。

6.根据权利要求5所述的文字输入方法，其特征在于，所述更新用户语言模型的步骤具体为：

记录用户输入的词条信息和词频信息；

根据分词后的词条和整理后的词频更新所述用户语言模型。

7.一种文字输入系统，其特征在于，包括：

候选语句列表生成模块，用于获取用户输入，根据所述用户输入查找与所述用户输入匹配的候选语句，生成候选语句列表；

概率计算模块，用于对所述用户语言模型和通用语言模型进行线性插值，生成混合模型，根据所述混合模型计算所述候选语句列表中的候选语句的上屏概率；

输出模块，用于输出排序后的候选语句列表。

8.根据权利要求7所述的文字输入系统，其特征在于，所述系统还包括：

9.根据权利要求8所述的文字输入系统，其特征在于，所述用户语言模型更新模块用于记录用户输入的词条信息和词频信息，获取所述词条信息和词频信息，对词条进行分词，根据所述词频信息对分词后的词条进行词频整理，根据分词后的词条和整理后的词频更新所述用户语言模型。