CN105573520A

CN105573520A - 一种五笔的长句连打输入方法及其系统

Info

Publication number: CN105573520A
Application number: CN201510947343.3A
Authority: CN
Inventors: 周诚; 赵世亭
Original assignee: Shanghai Songheng Network Technology Co Ltd
Current assignee: Shanghai Songheng Network Technology Co., Ltd.
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2016-05-11
Anticipated expiration: 2035-12-15
Also published as: CN105573520B

Abstract

本发明涉及输入法领域，公开了一种五笔的长句连打输入方法及其系统，长句连打输入方法的步骤包括预先建立双向隐马尔可夫BHMM模型，持续接收用户输入的五笔码，根据所述BHMM模型和所述持续接收到的五笔码，获取在该BHMM模型中出现概率最大的各汉字所组成的长句；输出所述获取的在该BHMM模型中出现概率最大的各汉字所组成的长句。另外长句连打输入系统包括客户端与云端服务器；云端服务器包含模型建立模块、匹配模块，返回模块；客户端包含接收模块、发送模块和输出模块。本发明通过建立双向隐马尔可夫BHMM模型，只通过输入两码就可输出一个汉字，实现了五笔长句的准确连打，提高了输入效率和打字速度，解决了大词库重码率高、打字员五笔字根记忆负担量大的问题。

Description

一种五笔的长句连打输入方法及其系统

技术领域

本发明涉及输入法领域，特别涉及五笔输入。

背景技术

五笔键码短、输入快、多简码，适用于简化字，但是长句用五笔无法输入，需要分解成词组，再逐个词组输入；或者单字输入；因为五笔一个字或一个词组最多只有四个码，每一次选词(或字)不会超过4码，所以不支持长句连打，输入句子时，必须一次一个字或一个词组地输入，输入非常不方便，特别是当输入长句的时候，由于选字或选词组，输入效率非常低，非常影响打字速度。

另外五笔虽然单字的重码率低，但词组的重码率高，因此五笔以避免过多重码，普遍不适用大词库，但词库太小时，打字反而不方便；由于开始设计五笔输入时是针对简体字，虽然日后不断改善，86、98五笔版都可以直接用繁体字编码，但使用效果上还有待进一步优化。为了减少重码，五笔中有大量的无理码，这不符合还在的结构和书写规范；不适合输入只知道发音而忘记怎么写的字；另外，五笔字型使用的是字根和码元作为输入时的助记符，86版使用130个字根，98版需要使用245个字根，记忆量要比拼音大。

发明内容

本发明的目的在于提供一种五笔的长句连打输入方法及其系统，通过建立双向隐马尔可夫BHMM模型，实现了五笔长句的准确连打，提高了输入效率和打字速度，解决了大词库重码率高、打字员五笔字根记忆负担量大的问题。

为解决上述技术问题，本发明的实施方式提供了一种五笔的长句连打输入方法，包含以下步骤：

预先建立双向隐马尔可夫BHMM模型；在所述BHMM模型中，长句中的每个汉字的出现概率由该汉字及该汉字的前T个汉字在数据库中同时出现的次数、该汉字出现的次数、输入的字根转换为该汉字的次数、该字根出现的总次数、该汉字的前T个汉字同时出现的次数、该汉字及该汉字的后T个汉字同时出现的次数决定；所述T为大于1的自然数；

持续接收用户输入的五笔码；

根据所述BHMM模型和所述持续接收到的五笔码，获取在该BHMM模型中出现概率最大的各汉字所组成的长句；

输出所述获取的在该BHMM模型中出现概率最大的各汉字所组成的长句。

与此相应，本发明的另一个目的是提供五笔的长句连打输入系统，包含：客户端与云端服务器；

云端服务器包含：

模型建立模块，用于预先建立双向隐马尔可夫BHMM模型；在所述BHMM模型中，长句中的每个汉字的出现概率由该汉字及该汉字的前T个汉字在数据库中同时出现的次数、该汉字出现的次数、输入的字根转换为该汉字的次数、该字根出现的总次数、该汉字的前T个汉字同时出现的次数、该汉字及该汉字的后T个汉字同时出现的次数决定；所述T为大于1的自然数；

匹配模块，用于根据所述BHMM模型和来自所述客户端的持续接收到的五笔码，获取在该BHMM模型中出现概率最大的各汉字所组成的长句；

返回模块，用于将所述匹配模块获取的长句返回至所述客户端；

所述客户端包含：

接收模块，用于持续接收用户输入的五笔码；

发送模块，用于将所述持续接收到的五笔码发送至所述云端服务器；

输出模块，用于输出所述云端服务器返回的所述长句。

本发明实施方式相对于现有技术而言，提供了一种五笔的长句输入方法和长句输入系统，通过建立双向隐马尔可夫BHMM模型，使得用户通过五笔可以支持连打长句，不需要严格按照五笔输入法规则去键入，一方面输出高准确度高，另一方面解决了上述五笔输入法缺点中大词库重码率过多的问题。整体输入效率和打字速度得到了提高，同时两码输入也降低了打字员对五笔字根记忆量的要求。

另外，在所述持续接收用户输入的五笔码的步骤中，持续接收到的是每个汉字的前2个五笔码，仅可通过两码完成对一个汉字的输入，减少了键入的码元，更加提高了打字的整体速度。

另外，所述BHMM模型建立在云端服务器内；所述根据BHMM模型和所述持续接收到的五笔码，获取在该BHMM模型中出现概率最大的各汉字所组成的长句的步骤中，包含以下子步骤：客户端将所述持续接收到的五笔码实时发送至所述云端服务器，由所述云端服务器根据BHMM模型和所述持续接收到的五笔码，实时获取所述长句，优化了五笔转化汉字的效率。

另外，定义该双向隐马尔可夫BHMM模型中所述T为3，即四元双向隐马尔科夫模型。具体而言，就是在传播过程中，当前状态分别受其前和后三个状态的影响，输出的结果正确率较高，且速度也较快。采用四元双向隐马尔科夫模型，其效率高于三元及三元以下的模型精度，而采用比四元更高阶的模型时，精度提升并非很明显，消耗资源的速度非常迅速，且算法复杂度不断提升，因此，通过采用四元双向隐马尔科夫模型，可以在控制算法复杂度的同时，保证算法的精度。

另外，所述根据BHMM模型和所述持续接收到的五笔码，获取在该BHMM模型中出现概率最大的各汉字所组成的长句的步骤中，根据以下公式获取所述长句：

(w_{1}, w_{2}, w_{3}, ..., w_{N}) = \underset{w &Element; W}{A r g M a x} (P (w_{i} | w_{i - 1}, w_{i - 2}, w_{i - 3}) \cdot P (z_{i} | w_{i})) + \underset{w &Element; W}{A r g M a x} P (w_{i} | w_{i + 1}, w_{i + 2}, w_{i + 3})

其中，w₁,w₂,w₃,...,w_N表示获取的所述长句中的各汉字，P(z_i|w_i)表示在汉字w_i出现的情况下字根z_i出现的概率，w_i+1，w_i+2，w_i+3表示汉字w_i的后3个汉字，w_i-1，w_i-2，w_i-3表示汉字w_i的前3个汉字，1≤i≤N，N为所述长句包含的汉字个数。

另外，在所述持续接收用户输入的五笔码后，根据所述BHMM模型和所述持续接收到的五笔码，获取在该BHMM模型中出现概率次大的各汉字所组成的长句；输出所述出现概率次大的各汉字所组成的长句，方便用户选择。

附图说明

图1是根据本发明第一实施方式的五笔的长句连打输入方法的流程图；

图2是根据本发明第二实施方式的五笔的长句连打输入系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

本发明第一实施方式涉及一种五笔的长句输入方法，具体实现流程如图1所示，详述如下：

在步骤S101中预先建立双向隐马尔可夫BHMM模型；在该BHMM模型中规定，长句中的每个汉字的出现概率由该汉字及该汉字的前3个汉字同时在数据库中出现的次数、该汉字出现的次数、输入的字根转换为该汉字的次数、该字根出现的总次数、该汉字的前3个汉字同时出现的次数、该汉字及该汉字的后3个汉字同时出现的次数决定。其中，需要说明的是，本实施方式涉及的数据库中存储有各训练语料及五笔码元。

在步骤S102中，持续接收用户输入的五笔码，在键盘上a至y的25个按键上按照五笔输入法既定的规则分布有字根，持续接收的五笔码是每个单字的前2个五笔码，即在输入长句或词组时，每个字从五笔码到汉字的转化只用该字的其字的前2个五笔码。

在步骤S103中，将持续接收到的五笔码发送至云端服务器。

在步骤S104中，云端服务器根据BHMM模型和所述持续接收到的五笔码，实时在该BHMM模型中出现概率最大及次优的各汉字所组成的长句。

具体BHMM模型算法步骤如下所述：

模型中，长句中的每个汉字的出现概率由该汉字及该汉字的前T个汉字在数据库中同时出现的次数、该汉字出现的次数、输入的字根转换为该汉字的次数、该字根出现的总次数、该汉字的前T个汉字同时出现的次数、该汉字及该汉字的后T个汉字同时出现的次数决定。在本实施方式中，以T为3为例进行说明；

假设z₁,z₂,z₃,...,z_n为汉字的字根，w₁,w₂,w₃,...,w_N为输出的汉字，在该模型的正向传播过程中，即该字的五笔转化成汉字是由该汉字的前T个汉字时决定时，输出的句子为：

\begin{matrix} P (w_{1}, w_{2}, w_{3}, ..., w_{N}) = M a x P (w_{1}, w_{2}, w_{3}, ..., w_{N} | z_{1}, z_{2}, z_{3}, ..., z_{n}) \\ = M a x P (z_{1}, z_{2}, z_{3}, ..., z_{n} | w_{1}, w_{2}, w_{3}, ..., w_{N}) \cdot P (w_{1}, w_{2}, w_{3}, ..., w_{N}) \\ \approx M a x Π_{i = 1}^{N} P (w_{i} | w_{i - 1}) \cdot P (z_{i} | w_{i}) \end{matrix} - - - (1)

在本实施方式中采用四元双向隐马尔科夫模型(即T＝3)，也即，在传播过程中，当前状态受其前三个状态的影响。所以最终，式(1)简化为：

\begin{matrix} P (w_{1}, w_{2}, w_{3}, ..., w_{N}) = M a x Π_{i = 1}^{N} P (w_{i} | w_{i - 1}, w_{i - 2}, w_{i - 3}) \cdot P (z_{i} | w_{i}) \\ = \frac{# (w_{i}, w_{i - 1}, w_{i - 2}, w_{i - 3})}{# (w_{i})} \cdot \frac{# (z_{i}, w_{i})}{# (z_{i})} \end{matrix} - - - (2)

其中，#(w_i,w_i-1,w_i-2,w_i-3)表示汉字w_i,w_i-1,w_i-2,w_i-3同时出现的次数，#(w_i)表示汉字w_i出现的总次数；#(z_i,w_i)表示字根z_i转换为汉字w_i的次数，#(z_i)表示字根z_i出现的总次数。

其实，正向传播过程包括字根转为汉字的过程和准确候选汉字,即通过式(1)计算得到值最大的输出的过程。在反向传播过程中，即该字的2个五笔转化成汉字是由该汉字的后T个(如后3个)汉字时决定时，根据已有不同字根组合，得到的汉字，有：

\begin{matrix} P {(w_{1}, w_{2}, w_{3}, ..., w_{N})}^{'} = M a x P (w_{i} | w_{i + 1}, w_{i + 2}, w_{i + 3}) \\ = \frac{# (w_{i}, w_{i + 1}, w_{i + 2}, w_{i + 3})}{# (w_{i})} \end{matrix} - - - (3)

其中#(w_i,w_i+1,w_i+2,w_i+3)代表汉字或词w_i,w_i+1,w_i+2,w_i+3同时出现的次数，#(w_i)代表字或词w_i出现的总次数。

根据字根,该本实施方式中BHMM模型最终输出的最优句子为：

(w_{1}, w_{2}, w_{3}, ..., w_{N}) = \underset{w &Element; W}{A r g M a x} (P (w_{i} | w_{i - 1}, w_{i - 2}, w_{i - 3}) \cdot P (z_{i} | w_{i})) + \underset{w &Element; W}{A r g M a x} P (w_{i} | w_{i + 1}, w_{i + 2}, w_{i + 3}) - - - (4)

在步骤S105中，输出所述获取的在该BHMM模型中出现概率最大及次大的各汉字所组成的长句。

例如，当输入句子“从哪一个人口密集的地方到这里都非常遥远”，其对应的每个字的五笔码元前2个码为“WWKVGGWHWWKKPNWYRQFBYYGCYPJFFTDJIPERFD”，其中没每个字母代表每个字被拆为的字根，而每两个字母代表一个字的被拆为字根后的前两个。如“WW”代表字根“人”，从而输出“从”；“KV”代表字根“口”、“刀”，输出“哪”字。根据上述原理，得到概率最大和次大的两句句子，第一句“从哪一个人口密集的地方到这里都非常遥远”为概率最大的输出，而另一句“从哪一个人口密集的地方到这时都非常遥远”为概率次的输出，依次类推。而在之前现在所有版本的五笔输入法中，无法实现长句的输入。

例如当输入词组“魑魅魍魉”，在本发明中只需输入“RQRQRQRQ”即可，而在原来的五笔输入法中需要每个字根据拆分的字根，一个个去输入，并不能输出整个成语。这四个字被拆分成字根后，字根都是超过四码的，所以需要用“第一字根+第二字根+第三字根+末尾字根”的规则去输入，如“魑”字需输入“RQCC”，“魅”字需要输入“RQCI”，“魍”字需输入“RQCN”，“魉”字需输入“RQCW”。

另例如当输入单字，如输入“房”，被拆为“、”、“尸”、“方”，在原本输入法中需要输入以上三个字根再加一个末尾识别码，一共四个键位，而在本发明中，只需输入“YN”。

本实施方式中是通过预先建立的BHMM模型和持续接收到的五笔码，来获取出现最大概率的各汉字所组成的长句的，能提高了匹配长句的精准度，方便打字员选择准确的结果。

不难发现，在本实施方式中通过预设了长句的五笔码数据库，不仅解决上述五笔输入法大词库中重码率过多的缺陷；而且提高了输出的整体速度和效率，同时两码输入也减少了打字员对五笔字根记忆量的负担，加快了打字速度(只通过输入两码就可输出一个汉字)。而且，根据实验证明，采用本实施方式的四元双向隐马尔科夫模型，可达到93％的精度。

本发明第二实施方式涉及一种五笔的长句连打输入系统，该系统包括客户端100与云端服务器200，图2为本实施方式的结构示意图。

云端服务器200包含模型建立模块201、匹配模块202和返回模块203；模型建立模块201，用于预先建立双向隐马尔可夫BHMM模型；匹配模块202，用于根据所述BHMM模型和来自所述客户端100的持续接收到的五笔码，获取在该BHMM模型中出现概率最大的各汉字所组成的长句；返回模块203，用于将所述匹配模块获取的长句返回至所述客户端100。

客户端100包含接收模块101、发送模块102和输出模块103；接收模块101，用于持续接收用户输入的五笔码；发送模块102，用于将所述持续接收到的五笔码发送至所述云端服务器200；输出模块103，用于输出所述云端服务器200返回的所述长句。

不难发现，本实施方式为与第一或第二实施方式相对应的系统实施例，本实施方式可与第一或第二实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种五笔的长句连打输入方法，其特征在于，包含以下步骤：

持续接收用户输入的五笔码；

2.根据权利要求1所述的五笔的长句连打输入方法，其特征在于，在所述持续接收用户输入的五笔码的步骤中，持续接收到的是每个汉字的前2个五笔码。

3.根据权利要求1所述的五笔的长句连打输入方法，其特征在于，

所述BHMM模型建立在云端服务器内；

所述根据BHMM模型和所述持续接收到的五笔码，获取在该BHMM模型中出现概率最大的各汉字所组成的长句的步骤中，包含以下子步骤：

客户端将所述持续接收到的五笔码实时发送至所述云端服务器，由所述云端服务器根据BHMM模型和所述持续接收到的五笔码，实时获取所述长句。

4.根据权利要求1所述的五笔的长句连打输入方法，其特征在于，所述T为3。

5.根据权利要求4所述的五笔的长句连打输入方法，其特征在于，所述根据BHMM模型和所述持续接收到的五笔码，获取在该BHMM模型中出现概率最大的各汉字所组成的长句的步骤中，根据以下公式获取所述长句：

其中，w₁,w₂,w₃,...,w_N表示获取的所述长句中的各汉字，P(z_i|w_i)表示在汉字w_i出现的情况下字根z_i出现的概率，w_i+1，w_i+2，w_i+3表示汉字w_i的后3个汉字，w_i-1，w_i-2，w_i-3表示汉字w_i的前3个汉字，1≤i≤N，N为所述长句包含的汉字个数，W为候选字词的集合。

6.根据权利要求1所述的五笔的长句连打输入方法，其特征在于，还包含以下步骤：

在所述持续接收用户输入的五笔码后，根据所述BHMM模型和所述持续接收到的五笔码，获取在该BHMM模型中出现概率次大的各汉字所组成的长句；

输出所述出现概率次大的各汉字所组成的长句，供用户选择。

7.一种五笔的长句连打输入系统，其特征在于，包含：客户端与云端服务器；

云端服务器包含：

所述客户端包含：

接收模块，用于持续接收用户输入的五笔码；

输出模块，用于输出所述云端服务器返回的所述长句。

8.根据权利要求7所述的五笔的长句连打输入系统，其特征在于，所述接收模块持续接收到的是每个汉字的前2个五笔码。

9.根据权利要求7所述的五笔的长句连打输入系统，其特征在于，所述T为3。

10.根据权利要求7所述的五笔的长句连打输入系统，其特征在于，所述匹配模块根据以下公式获取在所述BHMM模型中出现概率最大的各汉字所组成的长句：