CN102156551B

CN102156551B - 一种字词输入的纠错方法及系统

Info

Publication number: CN102156551B
Application number: CN201110079202.6A
Authority: CN
Inventors: 张扬
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2011-03-30
Filing date: 2011-03-30
Publication date: 2014-04-23
Anticipated expiration: 2031-03-30
Also published as: CN102156551A

Abstract

本发明公开了一种字词输入的纠错方法及系统，其中，所述方法包括：检测用户输入的编码字符串中存在的错误输入片段；纠正所述编码字符串中的错误输入片段，生成至少一个纠错候选字符串；利用基于编码字符串的噪音信道模型，对所述纠错候选字符串进行评估；根据评估的结果，将至少一个所述纠错候选字符串转换为输入文字，并展现所述输入文字。通过本发明，能够提高纠错的有效性或命中率。

Description

一种字词输入的纠错方法及系统

技术领域

本发明涉及输入法技术领域，特别是涉及一种字词输入的纠错方法及系统。

背景技术

随着计算机、互联网等技术应用的越来越广泛，人们很多的日常工作和娱乐都在计算机上进行，用户越来越频繁地需要通过计算机输入信息而完成人机交互。对于中文、日文、韩文等用户而言，一般需要通过输入法程序与计算机进行交互。以中文用户为例，一般来说，用户输入的是一串字母(通常是汉字的拼音)或笔画等编码字符串，系统需要把它转换成相应的中文字符。

然而用户在进行字词输入的过程中可能存在较多的错误，这里涉及的输入错误，大致可以分为认知错误和非认知错误两类。认知错误是那些不知道欲输入的字词如何正确拼写，造成的输入错误，模糊音就属于认知错误这个范畴。而非认知错误是指，知道字词如何拼写，但是由于输入时手忙脚乱或者受制于输入设备等而造成了输入错误。

目前，一些输入法系统提供了纠错设置，参见图1，这种方法通常根据大量的用户输入数据训练生成纠错列表；在生成候选之前根据纠错列表中的规则进行强制纠错，例如，根据图1所示的纠错列表，如果用户的输入序列中出现了gn，便直接将其转换为ng。这种方法虽然在一定程度上实现了自动纠错，但也存在一些缺点，例如，纠错列表是默认预置的，在用户输入的过程中，只要发现用户输入的字符串中命中了纠错列表中的某项，就会不加区分地强制纠错，并展现纠错后的结果，这会使得误判的可能性比较高。例如，用户在输入法英文输入模式下输入单词gnome，如果利用该方法，则会强制将其转换为ngome，并且直接作为纠错后的输出，而这显然是一个无效的纠错结果，会影响输入的流畅度。

因此，需要本领域技术人员迫切解决的一个技术问题就是：如何提供一种新的纠错方案，在实现纠错的同时，提高纠错的有效性或命中率。

发明内容

本发明提供一种字词输入的纠错方法及系统，能够提高纠错的有效性或命中率。

本发明提供了如下方案：

一种字词输入的纠错方法，包括：

检测用户输入的编码字符串中存在的错误输入片段；

纠正所述编码字符串中的错误输入片段，生成至少一个纠错候选字符串；

利用基于编码字符串的噪音信道模型，对所述纠错候选字符串进行评估；

根据评估的结果，将至少一个所述纠错候选字符串转换为输入文字，并展现所述输入文字。

其中，所述基于编码字符串的噪音信道模型包括基于编码字符串的语言模型和/或基于编码字符串的纠错模型；

所述基于编码字符串的语言模型用于描述编码字符串中前后连接的各个元素之间通顺的概率；

所述基于编码字符串的纠错模型用于描述编码字符串中上下文位置关系确定的情况下，出现各种可能的输入错误的概率。

其中，当所述噪音信道模型为所述语言模型时，所述利用基于编码字符串的噪音信道模型，对所述纠错候选字符串进行评估包括：

对于纠错候选字符串中的各个元素，利用所述语言模型，计算其在所述纠错候选字符串中的上下文位置出现时通顺的概率；

综合针对各个元素计算出的概率，对所述纠错候选字符串进行评估。

其中，所述基于编码字符串的语言模型包括：基于字母的二元模型或多元模型；

当所述编码字符串为汉语拼音串时，所述基于编码字符串的语言模型还包括：基于拼音音节的二元模型或多元模型。

其中，当所述噪音信道模型为所述纠错模型时，所述利用基于编码字符串的噪音信道模型，对所述纠错候选字符串进行评估包括：

利用所述纠错模型，计算在所述编码字符串中所述错误输入片段所在的上下文位置，将所述纠错候选字符串中的纠错结果输入为所述错误输入片段的概率；

根据所述概率，对所述纠错候选字符串进行评估。

其中，所述纠错模型包括：基于左边单字母或多字母的纠错模型、基于右边单字母或多字母的纠错模型，或者，基于左右两边单字母或多字母的纠错模型；

当所述编码字符串为汉语拼音串时，所述基于编码字符串的语言模型还包括：基于左边单音节或多音节的纠错模型、基于右边单音节或多音节的纠错模型，或者，基于左右两边单音节或多音节的纠错模型。

优选地，还包括：

将所述纠错候选字符串转换为输入文字，根据所述输入文字，利用基于转换后文字的噪音信道模型、用户词频、用户词库及用户输入习惯中的一种或多种，对所述纠错候选字符串进行重评估。

优选地，还包括：

将所述用户输入的编码字符串发送到远端服务器，并接收所述远端服务器返回的纠错候选字符串及其评估的结果。

优选地，还包括：

当用户选择了某纠错候选字符串对应的字词转换结果时，抽取该纠错候选字符串中的错误输入片段；

利用抽取出的该用户的错误输入片段，生成针对该用户的所述噪音信道模型。

优选地，所述噪音信道模型为多个，组合为多种模型加载方案，每个模型加载方案包括至少一个噪音信道模型；所述方法还包括：

根据所在计算机系统的配置信息，选择与其计算能力匹配的模型加载方案进行加载。

一种字词输入的纠错系统，包括：

检错单元，用于检测用户输入的编码字符串中存在的错误输入片段；

纠错单元，用于纠正所述编码字符串中的错误输入片段，生成至少一个纠错候选字符串；

评估单元，用于利用基于编码字符串的噪音信道模型，对所述纠错候选字符串进行评估；

转换单元，用于根据评估的结果，将至少一个所述纠错候选字符串转换为输入文字，并展现所述输入文字。

其中，当所述噪音信道模型为所述语言模型时，所述评估单元包括：

第一计算子单元，用于对于纠错候选字符串中的各个元素，利用所述语言模型，计算其在所述纠错候选字符串中的上下文位置出现时通顺的概率；

第一评估子单元，用于综合针对各个元素计算出的概率，对所述纠错候选字符串进行评估。

其中，当所述噪音信道模型为所述纠错模型时，所述评估单元包括：

第二计算子单元，用于利用所述纠错模型，计算在所述编码字符串中所述错误输入片段所在的上下文位置，将所述纠错候选字符串中的纠错结果输入为所述错误输入片段的概率；

第二评估子单元，用于根据所述概率，对所述纠错候选字符串进行评估。

优选地，还包括：

重评估单元，用于将所述纠错候选字符串转换为输入文字，根据所述输入文字，利用基于转换后文字的噪音信道模型、用户词频、用户词库及用户输入习惯中的一种或多种，对所述纠错候选字符串进行重评估。

优选地，还包括：

云计算单元，用于将所述用户输入的编码字符串发送到远端服务器，并接收所述远端服务器返回的纠错候选字符串及其评估的结果。

优选地，还包括：

抽取单元，用于当用户选择了某纠错候选字符串对应的字词转换结果时，抽取该纠错候选字符串中的错误输入片段；

个性化模型生成单元，用于利用抽取出的该用户的错误输入片段，生成针对该用户的所述噪音信道模型。

优选地，所述噪音信道模型为多个，组合为多种模型加载方案，每个模型加载方案包括至少一个噪音信道模型；所述系统还包括：

加载方案选择单元，用于根据所在计算机系统的配置信息，选择与其计算能力匹配的模型加载方案进行加载。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明实施例在对用户的输入进行纠错时，在得到纠错候选字符串之后，并不是直接进行音字转换，并向用户展现转换后的结果，而是首先对纠错候选字符串进行评估，根据评估的结果，来决定对哪个或哪些纠错候选字符串进行转换，这样，可以提高纠错的有效性或命中率。其中，在对纠错候选字符串进行评估时，使用的是基于编码字符串本身建立的噪音信道模型，这样，在进行评估时，仅对纠错候选字符串本身进行分析即可，而不需要首先将字符串进行转换，再利用依据转换后的文字建立的模型进行评估，因此，可以提高评估的实现效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的方法的流程图；

图2是本发明实施例提供的系统的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明实施例提供的字词输入的纠错方法包括以下步骤：

S101：检测用户输入的编码字符串中存在的错误输入片段；

具体在检测用户输入的编码字符串中存在的错误输入片段时，可以有多种检测方法。其中一种方法可以是，使用当前语境下的词典对输入字符串进行分词(如，对于汉语而言，每个音节即是一个词)，查看是否存在分词碎片，或者是否存在词典中没有出现过的输入片段；如果存在，则证明存在错误输入片段。例如，假设用户输入的编码字符串是“shenem”，按照音节进行分词时，“em”就会成为分词碎片，因为“nem”或“em”都不能构成一个音节，因此，就可以将其作为一个可能的错误输入片段检测出来。

当编码字符串为拼音串时，另一种方法可以是基于字母ngram统计的错误检测方法。语言模型ngram是使用统计的方法用来评判输入的编码字符串是否符合该语言的拼写规范及其流畅程度的一种度量。例如，对于汉语而言，根据413个音节及其不同组合，可生成全拼输入的合法三元列表，如aaa、abu、zuz......接下来就可以对输入进行三元匹配，凡拼音串中的某个三元串没有命中合法三元列表，或者基于三元统计的概率得分小于某阈值，则可将其判定为该拼音串中存在的错误输入片段。比如某用户在中文拼音输入语境下输入tutor，则，该拼音串可以拆分成tut、uto、tor共三个三元串，第一个三元串tut符合合法三元列表，而第二个不符合，则可推断在第二个位置存在错误输入片段。当然如果在英文语境下，tutor则符合三元统计，同时它也能直接命中英文词典，也就是说，在不同的语境下，模型参数可能会不同。

除上述方法之外，还可以有其他的检测方法，这里不再一一列举。

S102：针对所述编码字符串中的错误输入片段处进行纠正，生成至少一个纠错候选字符串；

在检测出编码字符串中存在错误输入片段之后，就可以对该错误输入片段进行纠正。具体的纠正方法可以有多种，例如，在一种方式下，由于用户的错误输入片段通常有漏输了某个字母、多输了某个字母、将某字母错输为另一字母，或者，某两个字母之间的顺序颠倒，等等，因此，对于检测出的错误输入片段，可以采用字母的替换、插入、删除等操作方法进行纠正。例如，在进行插入操作时，可以在错误输入片段的每个位置分别用字母a到z进行尝试，判断插入后的输入片段是否命中三元列表，等等。其他的操作也可以类似进行。

当然，也可以基于统计的方法，生成正确概率较高，或者更加符合用户习惯的纠错候选字符串。例如，在进行字母的替换操作时，可以根据键盘上的键位分布情况，选择距离当前字母较近的几个字母进行尝试；或者，如果用户总是习惯性地将字母a错输为字母z，则可以优先尝试使用字母z进行替换字母a的操作，等等。

同样，也可以有其他的纠错方法，例如，还可以采用规则列表的方式，等等，这里不再一一介绍。

需要说明的是，在本发明实施例中，纠错候选字符串可以是指，对于用户输入的编码字符串中存在的错误输入片段进行纠正后，与编码字符串中原来已经输入正确的部分连接在一起，得到的各种可能的正确的字符串。例如，用户输入的编码字符串为“maifng”，通过步骤S101检测出“fng”处存在错误输入片段，则经过插入字母的操作，可以得到以下纠错候选字符串：“maifang”、“maifeng”等。

S103：利用基于编码字符串的噪音信道模型，对所述纠错候选字符串进行评估；

在本发明实施例中，在得到了纠错候选字符串之后，并不是马上给出针对各个纠错候选字符串的字词转换结果，而是首先对各个纠错候选字符串进行评估。具体在评估时，本发明实施例采用的是基于编码字符串的噪音信道模型。也即，在对纠错候选字符串进行评估时，可以仅考虑纠错候选字符串本身的因素，而不需要考虑纠错候选字符串转换后的字词的因素，因此，在进行评估的过程中，暂时不需要转换为输入文字，可以提高效率。这尤其适用于计算能力相对差一些的环境，通过省去转换这一计算量大的步骤而降低了计算开销。当然，如果不考虑实现效率，则与可以综合考虑纠错候选字符串本身的因素，及其转换后的字词的因素，这样可以提高评估的精度。

其中，对于基于编码字符串的噪音信道模型，具体可以有多种表现形式，例如，可以有基于编码字符串的语言模型，还可以有基于编码字符串的纠错模型，等等。

其中，基于编码字符串的语言模型可以用于描述编码字符串中前后连接的各个元素之间通顺的概率。也就是说，可以用于评判一个编码字符串是否符合当前语言环境下的拼写规范及流畅度等。具体实现时，可以采用统计的方式对这种通顺度进行量化。例如，对于汉语拼音输入法而言，可以建立基于拼音音节的二元模型，则该语言模型中的数据可以入表1中所示：

表1

条目	概率
		Prob(a\|a)	0.1323795021
Prob(ai\|a)	0.0013398322
		Prob(an\|a)	0.0009723385
Prob(ang\|a)	0.0001323530
		Prob(ao\|a)	0.0003426257

该表1中的第二行表示：当输入单音节“a”之后，下一个音节也输入“a”的概率P(a|a)＝0.1323795021；第三行表示：当输入单音节“a”之后，下一个音节输入“ai”的概率P(ai|a)＝0.0013398322；第四行表示：当输入单音节“a”之后，下一个音节输入“an”的概率P(an|a)＝0.0009723385，以此类推。这样，每个音节之后出现另一个音节的概率都可以预先统计出来，对于一个纠错候选字符串，就可以根据该语言模型，计算出其中的各个元素按其在纠错候选字符串中的位置出现时通顺的概率。还可以统计出基于拼音音节的三元模型、四元模型等等。

基于编码字符串的纠错模型可以用于描述编码字符串中上下文位置关系确定的情况下，出现各种可能的输入错误的概率。其中，所谓的“上下文位置关系确定”是指，对于某输入错误，当其左边的元素为某确定的元素时，发生该输入错误的概率；或者，当其右边的元素为某确定的元素时，发生该输入错误的概率，又或者，当其左边的元素为某确定的元素，右边的元素也为某确定的元素时，发生该输入错误的概率，等等。其中，这里所谓的“元素”可以是指一个字母，或者一个音节，或者多个字母、多个音节等等。“输入错误”可以是指将某元素错输入为另一元素、漏输了某元素、多输了某元素、某两个元素之间的顺序发生错误等等。也就是说，通过统计可以发现，对于不同的上下文关系，发生同一种输入错误的概率可能是不同的，因此，可以将各种可能的输入错误在各种上下文位置下的发生概率分别统计出来，建立纠错模型。

例如，某基于左边字母的纠错模型中，其中的数据示例可以如表2所示：

表2

条目	概率
		Prob(a\|i，给定左边字母t)	0.0113692330
Prob(b\|i，给定左边字母t)	0.0004942084
		Prob(c\|i，给定左边字母t)	0.0005015274
Prob(d\|i，给定左边字母t)	0.0010804273
		Prob(e\|i，给定左边字母t)	0.0087573864

该表2中的第二行表示：当左边的字母为t时，如果用户下一个想要输入的字母本来是i，但是错误地输入为a的概率为P(a|i)＝0.0113692330；第三行表示：当左边的字母为t时，如果用户下一个想要输入的字母本来是i，但是错误地输入为b的概率为P(b|i)＝0.0004942084；第四行表示：当左边的字母为t时，如果用户下一个想要输入的字母本来是i，但是错误地输入为c的概率为P(c|i)＝0.0005015274，以此类推。这样，对于一个纠错候选字符串而言，就可以根据用户输入的编码字符串中的错误输入片段所在的位置，及所述纠错候选字符串中对应的纠错结果，计算在编码字符串中该位置的上下文关系确定的情况下，如果本来想要输入的是该纠错结果，但是被错误地输入为该错误输入片段的概率。

通过以上所述可以看出，在本发明实施例中，可以仅依据上述语言模型对纠错候选字符串进行评估，此时，可以对于纠错候选字符串中的各个元素，利用所述语言模型，分别计算其在纠错候选字符串中的位置出现时通顺的概率。例如，在仅统计了基于拼音音节的二元模型的情况下，对于某纠错候选字符串“zhemeguiyi”，可以采用如下表达式对其进行评估：P(zhe)*P(me|zhe)。当然，如前文所述，还可以统计出基于拼音音节的三元模型、四元模型等等，此时，对于某纠错候选字符串“zhemeguiyi”，还可以采用如下表达式对其进行评估：P(zhe)*P(me|zhe)*P(gui|zheme)*P(yi|zhemegui)。

或者，也可以仅依据上述纠错模型对纠错候选字符串进行评估，此时，就可以根据用户输入的编码字符串中的错误输入片段所在的位置，及纠错候选字符串中的纠错结果，利用纠错模型，计算在编码字符串中上下文位置关系确定的情况下，将该纠错结果输入为该错误输入片段的概率，进而对纠错候选字符串进行评估。

例如，某用户输入的编码字符串是“zhemguiyi”，通过检测发现其中存在错误输入片段，并且在进行纠错之后得到了一个纠错候选字符串为“zhemeguiyi”，也即在字母“m”之后插入了字母“e”，则在该例子中，用户输入的编码字符串中的错误输入片段所在的位置是字母“m”之后，纠错候选字符串中对应的纠错结果是在字母“m”之后插入了字母“e”，因此，就可以计算出：P(～|e，给定左边字母m)，也即，当左边的字母是“m”时，本来用户下一个想要输入的字母是“e”，但是漏输的概率，将该概率作为该纠错候选字符串的得分。

当然，前述例子中仅仅是以基于左边单字母的纠错模型为例进行了介绍，在其他的纠错模型下，具体的确定错误输入片段所在的位置以及具体的概率表达式都可能会有所不同。例如，如果纠错模型是基于右边单字母的纠错模型，则对于上述例子而言，错误输入片段所在的位置可以为字母“g”之前，纠错候选字符串中对应的纠错结果是在字母“g”之前插入了字母“e”；则可以计算出：P(～|e，给定右边字母g)，也即，当右边的字母是“g”时，本来用户上一个想要输入的字母是“e”，但是漏输的概率，并将该概率作为该纠错候选字符串的得分。其他的纠错模型也是类似，这里不再一一赘述。

另外，在实际应用中，还可以同时使用语言模型及纠错模型对纠错候选字符串进行评估。具体的，就可以首先按照前文所述的方法，分别基于语言模型及纠错模型计算出两个概率值，再将两个概率值相乘，即可得到纠错候选字符串的得分。例如，仍以用户输入的编码字符串是“zhemguiyi”为例，假设某纠错候选字符串为“zhemeguiyi”，则其得分可以表示为P(zhe)*P(me|zhe)*P(gui|zheme)*P(yi|zhemegui)*P(～|e，context)，其中，“context”是指错误输入片段所在位置的上下文信息，例如，当左边字母为某字母时、右边字母为某字母时，等等。

其中，基于编码字符串的噪音信道模型，可以通过统计的方法得到。也即需要获取一些训练语料，然后从训练语料中分析出各种语言模型或纠错模型。需要说明的是，由于训练出的语言模型或纠错模型可能会具有应用场景的适用范围，因此，训练语料的来源与使用该语料训练出的模型的应用领域应该尽可能一致。例如，如果训练语料是英文数据，那么使用训练出的模型也最好应用到英文场景中；如果训练语料全部为模糊音输入数据，那么由此训练出的模型也应适用于模糊音纠错应用，等等。

除了基于语料的自动统计，还可以根据实际需要对模型进行微调。例如，在中文拼音输入环境下，可以基于输入特性调整纠错模型，比如qwerty键盘特性(如o和i、p相邻)；或者，基于拼音方案中发音相似度的特点(如b和p发音相近、h和f在模糊音现象中发音相近)调整纠错模型；或者，根据元音辅音的区别对模型进行调整；又或者，根据用户的输入习惯对模型进行微调。另外，还可以根据当前用户对纠错候选的反馈，动态的调整噪音信道模型，等等。

比如某用户的右食指不大灵敏，经常将O、P两个键连着一起按了，那就可以将该用户的纠错模型中，涉及这两种操作的候选做加分。比如该用户输入wopmen，对生成的候选women(我们)单独做加分，优先选出。又比如默认情况下是不生成针对首字母编辑的候选的，如果某用户经常连首字母都输错，那就可能将这个限制放开。

S104：根据评估的结果，将至少一个所述纠错候选字符串转换为输入文字，并展现所述输入文字。

在对各个纠错候选字符串进行评估之后，就可以按照评估结果对各个纠错候选字符串进行排序，并按照预设的规则选择最终展现给用户或者向用户提供字词转换结果的纠错候选字符串。例如，预先设定将得分最高的纠错候选字符串作为最终的纠错结果，则针对“zhemguiyi”这一存在错误输入片段的编码字符串而言，假设得分最高的纠错候选字符串是“zhemeguiyi”，就可以将该纠错候选字符串进行字词转换，向用户展现字词转换结果，如“这么诡异”等等。当然，除了展现这个候选项以外，还可以同时将该纠错候选字符串展现给用户，使得用户明了该候选项是怎样得来的。此外，还可以针对用户实际输入的编码字符串进行转换，将其转换结果作为候选项进行展现，等等。

当然，在实际应用中，还可能是将得分最高的前几个纠错候选字符串都作为可以向用户展现字词转换结果的字符串。或者还可以设置更加严格的条件，例如，只有当得分最高的纠错候选字符串的得分高于某阈值时，才会按照该字符串进行纠错，等等，本领域技术人员可以按照实际的需要进行各种不同的设置，这里不进行限定。

通过以上所述可以看出，本发明实施例在对用户的字词输入进行纠错时，在得到纠错候选字符串之后，并不是直接进行音字转换，并向用户展现转换后的结果，而是首先对纠错候选字符串进行评估，根据评估的结果，来决定对哪个或哪些纠错候选字符串进行转换，这样，可以降低误判的可能。其中，在对纠错候选字符串进行评估时，使用的是基于编码字符串本身建立的噪音信道模型，这样，在进行评估时，仅对纠错候选字符串本身进行分析即可，而不需要首先将字符串进行转换，再利用依据转换后的文字建立的模型进行评估，因此，可以提高评估的实现效率。

另外，为了进一步优化候选项的质量，在根据基于编码字符串建立的噪声信道模型对纠错候选字符串进行评估排序之后，还可以再依据其他的因素进行重新的评估排序。例如，可以首先对纠错候选字符串进行音字转换，得到转换结果，然后再根据各个词条的频率、用户词频、用户输入习惯、是否命中用户词库等信息中的一个或多个，对纠错候选字符串进行重新排序，并按照新的排序选择至少一个纠错候选字符串进行转换，这样可以使得音字转换过程中的有效信息得到充分的利用。其中，在根据音字转换后的信息进行评估时，就可以用到基于转换后的文字建立的噪声信道模型，例如对转换后的结果进行分词后，基于词条的二元/三元语言模型等。这样，就相当于使用了多种评估依据对纠错候选字符串进行评估，例如，对于汉语输入法而言，各种评估依据可以简单地总结如表3所示：

表3

当然，在实际应用中，评估的依据并不仅限于表3所示的几种，这里不进行限定。需要说明的是，在输入错误的检测、纠正以及对纠错候选字符串评估的过程中，可以尽可能地使用用户信息。例如，当某两个纠错候选字符串的得分近似时，如果某候选的生成方式很符合该用户的犯错模式，那么该候选理应胜出。比如对输入“wp”进行纠错时，发现用户经常将“o”错输成“p”，那么“wp”的纠错候选中，“wo”比“wu”的可能性要更大。

在进行具体的字词转换结果的展现时，为了体现出针对纠错候选字符串转换得到的转换结果(简称纠错后的转换结果)与其他转换结果之间的区别，可以以相区别的方式进行展现。例如，可以在其他转换结果上以悬浮框的方式展现纠错后的转换结果，或者，将纠错后的转换结果显示为与其他的转换结果不同的颜色，等等。其中，其他转换结果是指依据用户实际输入的编码字符串本身转换得到的转换结果。

需要说明的是，本发明实施例提供的字词输入方法可以应用于客户端，也可以应用于服务器，也即可以通过云计算的方式为用户提供字词候选。其中，当应用于客户端时，由于用户在使用输入法系统进行字词输入时，除了候选项的质量以外，系统内存的占用量也是体现输入法系统性能的很重要的因素，也即用户通常希望输入法系统在运行的过程中能够尽可能少地占用内存空间，以避免影响其他应用程序的运行。然而，如果要对用户输入的编码字符串进行纠错，并且还要进行评估排序等操作，则在提高候选项质量的同时，可能会损失部分内存占用量上的性能，并且评估排序时参考的依据越高、参考的模型越复杂，由于计算量的增大、复杂度的提高，内存的占用量可能就会越大，这是毋庸置疑的(当然，如果客户端本地的计算机系统足够强大，这种内存空间上的占用可以忽略)。因此，在本发明实施例中，为了避免在过多的占用内存空间，还可以在对用户输入进行纠错的过程中引入云计算的概念，也即借助于远端服务器，以降低对客户端本地资源的依赖。

为此，具体实现时，可以仅在客户端本地进行一些低复杂度的纠错处理，其他高复杂度的纠错处理可以通过云计算来实现。例如，对于一些纠错可信度较高、长度适中、较低阶数的模型就能完成的纠错任务，可以在客户端本地进行；而那些较复杂或较为不常用的纠错任务，则可以放到远端服务器进行，例如，用户输入错误中以模糊音为代表的认知错误，由于在形式上往往表现为合法的拼音串，例如“cifan(吃饭)”、“huiji(飞机)”、“wobuzidao(我不知道)”等等，因此，如果采用二元、三元等语言模型，就无法识别这种错误输入片段，只能采用其他的较为复杂、计算量偏大的方式来识别及评估。例如，可能需要采用强制纠错的方式，并且可能需要在每个位置尝试删除、交换以及基于所有字母的插入、替换操作，找出所有可能的纠错候选字符串，然后根据用户的输入习惯等等，对纠错候选字符串进行评估，这种情况下，就可以将用户输入的编码字符串发送到远端服务器，由远端服务器进行采用强制纠错等方式进行纠错，并对纠错候选结果评估后返回给客户端，由客户端进行统一的排序。

对于客户端而言，由于需要使用噪音信道模型、参数数据等对纠错候选字符串进行评估，因此，可以在客户端实现对噪音信道模型及参数数据的管理维护，以及参数数据的获取等工作。关于模型的生成，由于工作量可能会比较大，因此可以在服务器完成。

如前文所述，由于模型的种类及数量可能会很多，而客户端配置不尽相同，可能不是所有客户端都适合使用所有的模型。因此，在本发明实施例中，在客户机上安装输入法系统时，可以在安装包中提供多种模型加载方案。在安装的过程中，安装程序可以获取客户机的配置信息，根据具体的配置信息选择适合于该客户机的模型加载方案，并将对应的模型类型及其相应的数据加载到该客户机本地，这样，在客户机本地就可以利用已加载的这些数据进行对纠错候选字符串的评估；其他未加载部分对应的纠错及评估等操作，则可以由远端服务器来完成。例如，共生成了三种语言模型：基于拼音音节的二元语言模型、基于拼音音节的三元语言模型及基于拼音音节的四元语言模型；还有六种纠错模型：无上下文的纠错模型、基于左边单字母的纠错模型、基于右边单字母的纠错模型、基于两边单字母的纠错模型、基于左边单音节的纠错模型以及基于两边单音节的纠错模型。则各种模型单独或配合使用时，可以共有18种加载方案，可以按照客户机的计算能力进行灵活地配置。例如，客户机的运算能力很强，就可以多加载一些模型，否则，就可以少加载一些模型。

需要说明的是，在对用户输入进行纠错的过程中，可以根据用户对转换结果的选择情况进行监控，当用户选择了某纠错候选字符串对应的字词转换结果时，可以从该纠错候选字符串中抽取错误输入片段，然后，利用抽取的错误输入片段，训练针对各个用户的个性化噪音信道模型。

比如用户输入“niganshenem”(你肝肾恶魔)，给出纠错后的汉字候选“你干什么”，用户选择了这个候选。那就可以抽取出“niganshenem＝＞你干什么”、“ganshenem＝＞干什么”和“shenem＝＞什么”这种纠错对。可以使用这些纠错对来训练通用的纠错模型，自适应用户的个性化的输入习惯。总之，初始状态下提交给用户的可以是一个泛泛的模型，这个模型完全可以根据用户的偏好习惯做针对性的微调，得到用户的个性化模型。此外，还可以直接将前述这些纠错对记录在用户词库里，今后用户的输入匹配上左边的字符串时，就可以直接给出右边的纠错结果，减少计算量。

另外需要说明的是，在本发明实施例中，均是以拼音输入法为例进行的介绍，但是，本发明实施例同样可以适用于五笔、笔画等其他的输入法。另外，由于输入法平台可以运行在多种计算设备上，例如，个人电脑、个人数字助理、移动终端设备等等，所以本发明实施例提供的方案也可以适用在上述各种计算设备中。并且，在上述各种计算设备中，可以具有全字母键盘，也可以是能够进行字符输入的数字键盘，或者触摸屏，等等。本发明实施例对编码字符串的构成也没有限制，可以是字母、数字、笔画等形式的一种或者几种的组合。

与本发明实施例提供的字词输入的纠错方法相对应，本发明实施例还提供了一种字词输入的纠错系统，参见图2，该系统包括：

检错单元201，用于检测用户输入的编码字符串中存在的错误输入片段；

纠错单元202，用于纠正所述编码字符串中的错误输入片段，生成至少一个纠错候选字符串；

评估单元203，用于利用基于编码字符串的噪音信道模型，对所述纠错候选字符串进行评估；

转换单元204，用于根据评估的结果，将至少一个所述纠错候选字符串转换为输入文字，并展现所述输入文字。

其中，基于编码字符串的噪音信道模型可以包括基于编码字符串的语言模型和/或基于编码字符串的纠错模型；也就是说，在进行评估时，可以单独使用基于编码字符串的语言模型，也可以单独使用基于编码字符串的纠错模型，或者，还可以将两者相结合使用。

具体的，基于编码字符串的语言模型用于描述编码字符串中前后连接的各个元素之间通顺的概率；基于编码字符串的纠错模型用于描述编码字符串中上下文位置关系确定的情况下，出现各种可能的输入错误的概率。

当使用基于编码字符串的语言模型进行评估时，评估单元203具体可以包括：

具体实现时，所述基于编码字符串的语言模型包括：基于字母的二元模型或多元模型；当所述编码字符串为汉语拼音串时，所述基于编码字符串的语言模型还包括：基于拼音音节的二元模型或多元模型。

当使用基于编码字符串的纠错模型进行评估时，评估单元203具体可以包括：

具体实现时，纠错模型可以包括：基于左边单字母或多字母的纠错模型、基于右边单字母或多字母的纠错模型，或者，基于左右两边单字母或多字母的纠错模型；当所述编码字符串为汉语拼音串时，所述基于编码字符串的语言模型还包括：基于左边单音节或多音节的纠错模型、基于右边单音节或多音节的纠错模型，或者，基于左右两边单音节或多音节的纠错模型。

为了使得评估的结果更为准确或者更加符合用户的输入习惯，从而进一步提高候选项的质量，该系统还可以将基于编码字符串的模型与基于转换后文字的模型、用户词库等相结合，相应的，该系统还可以包括：

重评估单元，用于将所述纠错候选字符串转换为输入文字，根据所述输入文字，利用基于转换后文字的噪音信道模型、用户词频、用户词库及用户输入习惯中的一种或多种，对所述纠错候选字符串进行重评估，并按照重评估的结果选择至少一个纠错候选字符串进行到输入文字的转换。

本发明实施例提供的字词输入系统可以应用于客户端，也可以应用于服务器。当应用于客户端时，由于检错及纠错过程可能会耗费较多的计算资源，对计算机性能的要求可能会比较高。为了降低这种对计算机性能的要求，本发明实施例可以采用客户端本地与云计算相结合的方式实现。即，对于一些简单的检错及纠错的情况，可以在客户端本地进行；而对于复杂的情况，则可以将用户输入的编码字符串发送到远端服务器，通过云计算的方式，获取纠错候选字符串。此时，该客户端系统还可以包括：

为了使得纠错的结果更加符合用户的习惯，在本发明实施例中，还可以针对用户对转换结果的选择情况，对噪音信道模型进行调整，从而生成针对各用户的个性化模型，在以后的纠错过程中，就可以使用用户的个性化模型进行纠错，从而使得候选项符合用户需要的概率进一步提高。此时，该系统还可以包括：

具体实现时，噪音信道模型的数目可能是多个，使用这些模型进行评估时，可能需要计算机系统具有相应的计算能力，为此，本发明实施例可以将多个可能用到的模型组合为多种模型加载方案，每个模型加载方案包括至少一个噪音信道模型；此时，所述系统还包括：

总之，通过本发明实施例提供的字词输入的纠错系统，在对用户字词输入进行纠错时，在得到纠错候选字符串之后，并不是直接进行音字转换，并向用户展现转换后的结果，而是首先对纠错候选字符串进行评估，根据评估的结果，来决定对哪个或哪些纠错候选字符串进行转换，这样，可以提高纠错的有效性或命中率。其中，在对纠错候选字符串进行评估时，使用的是基于编码字符串本身建立的噪音信道模型，这样，在进行评估时，仅对纠错候选字符串本身进行分析即可，而不需要首先将字符串进行转换，再利用依据转换后的文字建立的模型进行评估，因此，可以提高评估的实现效率。

以上对本发明所提供的一种字词输入的纠错方法及系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种字词输入的纠错方法，其特征在于，包括：

检测用户输入的编码字符串中存在的错误输入片段；

根据评估的结果，将至少一个所述纠错候选字符串转换为输入文字，并展现所述输入文字；

其中，所述基于编码字符串的噪音信道模型包括基于编码字符串的语言模型和／或基于编码字符串的纠错模型；

2.根据权利要求1所述的方法，其特征在于，当所述噪音信道模型为所述语言模型时，所述利用基于编码字符串的噪音信道模型，对所述纠错候选字符串进行评估包括：

3.根据权利要求2所述的方法，其特征在于，所述基于编码字符串的语言模型包括：基于字母的二元模型或多元模型；

4.根据权利要求1所述的方法，其特征在于，当所述噪音信道模型为所述纠错模型时，所述利用基于编码字符串的噪音信道模型，对所述纠错候选字符串进行评估包括：

根据所述概率，对所述纠错候选字符串进行评估。

5.根据权利要求4所述的方法，其特征在于，所述纠错模型包括：基于左边单字母或多字母的纠错模型、基于右边单字母或多字母的纠错模型，或者，基于左右两边单字母或多字母的纠错模型；

当所述编码字符串为汉语拼音串时，所述基于编码字符串的纠错模型还包括：基于左边单音节或多音节的纠错模型、基于右边单音节或多音节的纠错模型，或者，基于左右两边单音节或多音节的纠错模型。

6.根据权利要求1至5任一项所述的方法，其特征在于，还包括：

7.根据权利要求1至5任一项所述的方法，其特征在于，还包括：

8.根据权利要求1至5任一项所述的方法，其特征在于，还包括：

9.根据权利要求1至5任一项所述的方法，其特征在于，所述噪音信道模型为多个，组合为多种模型加载方案，每个模型加载方案包括至少一个噪音信道模型；所述方法还包括：

10.一种字词输入的纠错系统，其特征在于，包括：

转换单元，用于根据评估的结果，将至少一个所述纠错候选字符串转换为输入文字，并展现所述输入文字；

11.根据权利要求10所述的系统，其特征在于，当所述噪音信道模型为所述语言模型时，所述评估单元包括：

12.根据权利要求11所述的系统，其特征在于，所述基于编码字符串的语言模型包括：基于字母的二元模型或多元模型；

13.根据权利要求10所述的系统，其特征在于，当所述噪音信道模型为所述纠错模型时，所述评估单元包括：

14.根据权利要求13所述的系统，其特征在于，所述纠错模型包括：基于左边单字母或多字母的纠错模型、基于右边单字母或多字母的纠错模型，或者，基于左右两边单字母或多字母的纠错模型；

15.根据权利要求10至14任一项所述的系统，其特征在于，还包括：

16.根据权利要求10至14任一项所述的系统，其特征在于，还包括：

17.根据权利要求10至14任一项所述的系统，其特征在于，还包括：

18.根据权利要求10至14任一项所述的系统，其特征在于，所述噪音信道模型为多个，组合为多种模型加载方案，每个模型加载方案包括至少一个噪音信道模型；所述系统还包括：