CN103605642A

CN103605642A - 一种面向文本输入的自动纠错方法与系统

Info

Publication number: CN103605642A
Application number: CN201310560222.4A
Authority: CN
Inventors: 史元春; 易鑫; 喻纯; 吕勇强
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2013-11-12
Filing date: 2013-11-12
Publication date: 2014-02-26
Anticipated expiration: 2033-11-12
Also published as: CN103605642B

Abstract

本发明涉及计算机技术领域，具体涉及一种面向文本输入的自动纠错方法与系统，该方法包括：g1.在虚拟输入区，通过点击操作，输入离散的点击信息序列I，其中，所述点击信息序列I对应的文本序列为S；g2.针对离散的点击信息序列I，根据点击操作之间的相关性，计算词库中的单词W₁，W₂，…，W_i，…，W_n出现的概率；g3.将W₁，W₂，…，W_i，…，W_n按照概率由大到小的顺序排列；g4.将排列后的单词输出，并对文本序列S进行替换，完成纠错。本发明通过利用点击操作之间的相关性来进行自动纠错，解决只考虑单次点击信息时，由于虚拟终端的限制或者用户的不同输入方式，导致现有文本输入纠错成功率低甚至不能纠错的问题。

Description

一种面向文本输入的自动纠错方法与系统

技术领域

本发明涉及计算机技术领域，具体涉及一种面向文本输入的自动纠错方法与系统。

背景技术

随着计算机技术的迅速发展，在软件临时分配的一块虚拟区域上进行文本输入的需求也越发强烈。目前在虚拟输入区上，是通过用户点击的位置坐标所对应的符号来进行文本的输入。

现有的文本输入纠错技术使用户不需要保证每次点击都准确地落在目标符号上。从原理上说是，虚拟输入区能根据词库中单词W的概率分布，即语言模型P(W)或者是根据由统计学得到的概率分布P(I|W)，即点击模型（I为输入的离散文本序列），自动地计算词库中单词出现的概率并作出推荐，从而实现输入纠错。例如，即使用户实际点击的符号序列为“wirkd”，系统也能纠正输入为“world”。

但是，由于虚拟输入区的限制，例如小尺寸的虚拟输入区或者有两块输入区域的分离式虚拟输入区等；或者由于用户输入的方式不同，例如盲打（眼睛不注视着屏幕）或者未来逐步摆脱对视觉瞄准的文本输入方式如“空中打字”等，会导致现有纠错成功率低甚至不能纠错的问题。

发明内容

本发明所要解决的技术问题是只考虑单词点击的信息时，由于虚拟输入区的限制或者用户的不同输入方式，导致现有文本输入纠错成功率低甚至不能纠错的问题。

为此目的，本发明提出一种面向文本输入的自动纠错方法，该方法包括：

g1.在虚拟输入区，通过点击操作，输入离散的点击信息序列I，其中，所述点击信息序列I对应的文本序列为S；

g2.针对离散的点击信息序列I，根据点击操作之间的相关性，计算词库中的单词W₁，W₂，…，W_i，…，W_n出现的概率；

g3.将W₁，W₂，…，W_i，…，W_n按照概率由大到小的顺序排列；

g4.将排列后的单词输出，并对文本序列S进行替换，完成纠错。

在步骤g1中，所述文本序列S显示或不显示。

其中，在步骤g2中，所述点击操作之间的相关性是指顺序的点击操作所包含的信息之间具有的统计相关而非相互独立的特性，其中，点击信息包括点击操作的位置、点击压力的大小和点击时间。

步骤g2包括：根据点击操作之间的相关性，综合利用语言模型P(W)和k阶点击模型P^(k)(I|W)计算词库中单词出现的概率P(W|I)，具体公式如下：

P (W | I) = \frac{P^{(k)} (I | W) P (W)}{P (I)}

其中，所述点击信息序列I为I=I₁I₂…I_i…I_m，I_i为第i次点击操作的点击信息，所述I_i=(x_i，y_i，f_i，t_i)，包括第i次点击的坐标(x_i，y_i)、点击压力f_i和点击时间t_i；词库中的单词W=c₁c₂…c_i…c_m，其中c_i为W的第i个符号；

所述P(W)是词库中单词W的概率分布；

所述k阶点击模型P^(k)(I|W)为：

其中，所述P^(k)(I|W)是用户在虚拟输入区输入的离散点击信息序列I对于词库中单词W的条件概率分布，所述k阶点击模型P^(k)(I|W)满足k阶马尔可夫假设，即每次点击操作的点击信息与其之前的k次点击信息相关，即第i次点击操作的点击信息概率为：

P(I_i|c_i,c_i-1,c_i-2,…c_i-k,I_i-1,I_i-2…I_i-k)。

可选的，所述语言模型P(W)和k阶点击模型P^(k)(I|W)是通过大量采集不同用户的实验数据，用统计学的方法得到的大众化的模型或者是通过大量采集个人用户的实验数据，用统计学的方法得到的个性化的模型。

可选的，所述高阶点击模型为一阶点击模型：

P⁽¹⁾(I|W)=P(I₁|c₁)P(I₂|c₁,c₂,I₁)P(I₃|c₂,c₃,I₂)…P(I_m|c_m-1,c_m,I_m-1)。

可选的，在步骤g4中，所述对文本序列S进行替换包括：

自动选择概率最大的单词替换文本序列S；

或者

按照用户的选择，用排列后的单词中的某个单词替换文本序列S。

本发明还提出一种面向文本输入的自动纠错系统，其特征在于，该系统包括：

输入模块，包含虚拟输入区，用于接收用户在虚拟输入区通过点击操作输入的离散点击信息序列I，其中，所述点击信息序列I对应的文本序列为S；

计算模块，用于基于离散的点击信息序列I，根据点击操作之间的相关性，计算词库中单词W₁，W₂，…，W_i，…，W_n出现的概率；

排序模块，用于将W₁，W₂，…，W_i，…，W_n按照概率由大到小的顺序排列，生成按照概率大小排序的候选词列表并将列表传递给输出模块；

输出模块，用于将排列后的候选词列表输出，并对文本序列S进行替换，完成纠错。

在输入模块中，所述文本序列S显示或不显示。

其中，在计算模块中，所述点击操作之间的相关性是指顺序的点击操作所包含的信息之间具有的统计相关而非相互独立的特性，其中，点击信息包括点击操作的位置、点击压力的大小和点击时间。

较佳的，所述计算模块进一步包括：

选择单元，用于选择词库中与文本序列S的字符个数相同的单词作为候选单词；

计算单元，用于根据点击操作之间的相关性，综合利用语言模型P(W)和k阶点击模型P^(k)(I|W)计算候选单词出现的概率P(W|I)，具体公式如下：

P (W | I) = \frac{P^{(k)} (I | W) P (W)}{P (I)}

所述P(W)是词库中单词W的概率分布；

所述k阶点击模型P^(k)(I|W)为：

P(I_i|c_i,c_i-1,c_i-2,…c_i-k,I_i-1,I_i-2…I_i-k)。

可选的，所述计算单元中的高阶点击模型为一阶点击模型：

可选的，所述计算单元中语言模型P(W)和k阶点击模型P^(k)(I|W)是通过大量采集不同用户的实验数据，用统计学的方法得到的大众化的模型或者是通过大量采集个人用户的实验数据，用统计学的方法得到的个性化的模型。

可选的，在输出模块中，所述对文本序列S进行替换包括：

自动选择概率最大的单词替换文本序列S；

或者

较佳的，该系统进一步包括词库模块，词库模块用来存储所有可能输出的单词，同时根据用户的使用历史进行动态调整和扩展。

相比于现有技术，本发明提供的方法的有益效果是根据输入的点击操作之间的相关性，计算输入的文本序列S与词库中单词的吻合程度，即词库中单词出现的概率，避免只考虑单次点击的信息时，受触点偏移目标符号中心位置很严重的缺点，解决由于虚拟终端的限制或者用户的不同输入方式，导致现有文本输入纠错成功率低甚至不能纠错的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种面向文本输入的自动纠错流程图；

图2示出了一种面向软键盘的文本输入的自动纠错流程图；

图3示出了一种面向文本输入的自动纠错系统结构图；

图4示出了一种面向软键盘的文本输入的自动纠错系统结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本发明实施例1中公开一种面向文本输入的自动纠错方法，如图1所示，该方法包括：

在步骤g1中，所述文本序列S可以显示，也可以不显示。

可见，实施例1提供的纠错方法，通过利用点击操作之间的相关性，解决了只考虑单次点击信息时，由于虚拟终端的限制或者用户的不同输入方式，导致现有文本输入纠错成功率低甚至不能纠错的问题。

在该实施例中，所述点击操作之间的相关性是指顺序的点击操作所包含的信息之间具有的统计相关而非相互独立的特性。其中，点击信息包括点击操作的位置、点击压力的大小和点击时间。则所述点击操作之间的相关性包括点击操作间的相对位置、压力大小的比值和点击时间，其中，所述相对位置用触点的坐标通过距离公式计算得到；所述压力大小的比值由两次点击的压力相除得到。

在该实施例中，步骤g2包括：根据点击操作之间的相关性，综合利用语言模型P(W)和k阶点击模型P^(k)(I|W)计算词库中单词出现的概率P(W|I)，具体公式如下：

P (W | I) = \frac{P^{(k)} (I | W) P (W)}{P (I)}

所述P(W)是词库中单词W的概率分布；

所述k阶点击模型P^(k)(I|W)为：

P^(k)(I|W)=P(I₁I₂…I_i…I_m|c₁c₂…c_i…c_m)

k阶点击模型认为点击信息序列满足k阶马尔可夫假设，即每次点击操作的点击信息与其之前的k次点击信息相关，即第i次点击操作的点击信息概率为：

P(I_i|c_i,c_i-1,c_i-2,…c_i-k,I_i-1,I_i-2…I_i-k)

则k阶点击模型P^(k)(I|W)可以进一步简化为：

所述语言模型P(W)和k阶点击模型P^(k)(I|W)均可以是通过以下两种方式获得的模型，其一是通过大量采集不同用户的实验数据，用统计学的方法得到的大众化的模型；其二是通过大量采集个人用户的实验数据，用统计学的方法得到的个性化的模型。通过以上两种方式得到的概率模型，可以适用于大众用户或者企业用户。

所述k阶点击模型P^(k)(I|W)中最简单的模型是一阶点击模型：

则计算候选单词概率的公式为：

P (W | I) = \frac{P^{(1)} (I | W) P (W)}{P (I)}

在实施例中，当排列后的单词输出后，在步骤g4中，所述对文本序列S进行替换有两种方式：其一是自动选择概率最大的单词替换文本序列S；其二是按照用户的选择，用排列后的单词中的某个单词替换文本序列S。通过这两种方式，用户可以选择适合自己习惯的方式进行文本输入。

实施例2：

本实施例2中具体公开一种面向软键盘的文本输入的自动纠错方法，如图2所示，该方法包括：

g1.在软键盘上，通过点击操作，输入离散的点击信息序列I，其中，所述点击信息序列I对应的文本序列为S，文本序列S可以显示，也可以不显示；

g2.针对离散的点击信息序列I，I=I₁I₂…I_i…I_m，I_i为第i次点击操作的点击信息，所述I_i=(x_i，y_i)，即第i次点击的坐标(x_i，y_i)，根据点击操作间的相对位置，综合利用语言模型P(W)和一阶点击模型P⁽¹⁾(I|W)计算词库中单词W₁，W₂，…，W_i，…，W_n出现的概率，其中相对位置用点击的坐标(x_i，y_i)通过距离公式计算得到；

计算词库中单词出现的概率P(W|I)的具体公式如下：

P (W | I) = \frac{P^{(1)} (I | W) P (W)}{P (I)}

其中，词库中的单词W=c₁c₂…c_i…c_m，c_i为W的第i个符号；

所述P(W)是词库中单词W的概率分布；

所述一阶点击模型P⁽¹⁾(I|W)为：

P⁽¹⁾(I|W)=P(I₁I₂…I_i…I_m|c₁c₂…c_i…c_m)

一阶点击模型认为点击信息序列满足一阶马尔可夫假设，即每次点击操作的点击信息与其之前的一次点击信息相关，即第m次点击操作的点击信息概率为：

P(I_m|c_m-1,c_m,I_m-1)

则一阶点击模型P⁽¹⁾(I|W)可以进一步简化为：

P⁽¹⁾(I|W)==P(I₁|c₁)P(I₂|c₂,c₁,I₁)P(I₃|c₂,c₃,I₂)…P(I_m|c_m-1,c_m,I_m-1)。

所述语言模型P(W)和一阶点击模型P⁽¹⁾(I|W)均可以是通过以下两种方式获得的模型：其一是通过大量采集不同用户的实验数据，用统计学的方法得到的大众化的模型，其二是通过大量采集个人用户的实验数据，用统计学的方法得到的个性化的模型；

g4.将排列后的单词输出，并对文本序列S进行替换，替换方式有两种：其一是自动选择概率最大的单词替换文本序列S，完成纠错；其二是按照用户的选择，用排列后的单词中的某个单词替换文本序列S，完成纠错。

实施例3：

本实施例3中公开一种面向文本输入的自动纠错系统，如图3所示，该系统包括：

排序模块，用于将W₁，W₂，…，W_i，…，W_n按照概率由大到小的顺序排列，生成按照概率大小排序的一组候选词列表并将列表传递给输出模块；

其中，在输入模块中，文本序列为S可以显示，也可以不显示。

其中，在计算模块中，所述点击操作之间的相关性是指顺序的点击操作所包含的信息之间具有的统计相关而非相互独立的特性。其中，点击信息包括点击操作的位置、点击压力的大小和点击时间。则所述点击操作之间的相关性包括点击操作间的相对位置、压力大小的比值和点击时间，其中，所述相对位置用触点的坐标通过距离公式计算得到；所述压力大小的比值由两次点击的压力相除得到。

本实施例中，所述计算模块进一步包括：

P (W | I) = \frac{P^{(k)} (I | W) P (W)}{P (I)}

所述P(W)是词库中单词W的概率分布；

所述k阶点击模型P^(k)(I|W)为：

P^(k)(I|W)=P(I₁I₂…I_i…I_m|c₁c₂…c_i…c_m)

P(I_i|c_i,c_i-1,c_i-2,…c_i-k,I_i-1,I_i-2…I_i-k)

则k阶点击模型P^(k)(I|W)可以进一步简化为：

本实施例所述计算模块的选择单元可以使计算单元不用对词库中的全部单词进行概率计算，只需对选择单元筛选出来的候选单词进行概率计算即可，加快了计算模块工作的速度。

所述计算单元中语言模型P(W)和k阶点击模型P^(k)(I|W)是通过大量采集不同用户的实验数据，用统计学的方法得到的大众化的模型或者是通过大量采集个人用户的实验数据，用统计学的方法得到的个性化的模型。

所述k阶点击模型P^(k)(I|W)中最简单的模型是一阶点击模型：

则计算候选单词概率的公式为：

P (W | I) = \frac{P^{(1)} (I | W) P (W)}{P (I)}

本实施例在输出模块中，对文本序列S进行替换包括有两种方式：其一是自动选择概率最大的单词替换文本序列S，其二是按照用户的选择，用排列后的单词中的某个单词替换文本序列S。

较佳的，所述系统还可以包括词库模块，词库模块用来存储所有可能输出的单词，同时根据用户的使用历史进行动态调整和扩展。词库模块对实现用户的个性化的语言模型P(W)及个性化的k阶点击模型起关键作用。

实施例4：

本实施例4中具体公开一种面向软键盘的文本输入的自动纠错系统，如图4所示，该系统包括：

触屏输入模块，包含软键盘，用于接收用户在软键盘通过点击操作输入的离散点击信息序列I，其中，所述点击信息序列I对应的文本序列为S，文本序列为S可以显示，也可以不显示；

计算模块，包含以下两个单元：

计算单元，针对离散的点击信息序列I，I=I₁I₂…I_i…I_m，I_i为第i次点击操作的点击信息，所述I_i=(x_i，y_i)，即第i次点击的坐标(x_i，y_i)，根据点击操作间的相对位置，综合利用语言模型P(W)和一阶点击模型P⁽¹⁾(I|W)计算词库中单词W₁，W₂，…，W_i，…，W_n出现的概率，其中相对位置用点击的坐标(x_i，y_i)通过距离公式计算得到。

计算词库中单词出现的概率P(W|I)的具体公式如下：

P (W | I) = \frac{P^{(1)} (I | W) P (W)}{P (I)}

其中，词库中的单词W=c₁c₂…c_i…c_m，c_i为W的第i个符号；

P(W)是词库中单词W的概率分布；

所述一阶点击模型P⁽¹⁾(I|W)为：

P⁽¹⁾(I|W)=P(I₁I₂…I_i…I_m|c₁c₂…c_i…c_m)

P(I_m|c_m-1,c_m,I_m-1)

则一阶点击模型P⁽¹⁾(I|W)可以进一步简化为：

所述语言模型P(W)和一阶点击模型P⁽¹⁾(I|W)均可以是通过以下两种方式获得的模型：其一是通过大量采集不同用户的实验数据，用统计学的方法得到的大众化的模型，其二是通过大量采集个人用户的实验数据，用统计学的方法得到的个性化的模型

触屏输出模块，用于将排列后的候选词列表输出，并对文本序列S进行替换，替换方式有两种：其一是自动选择概率最大的单词替换文本序列S，完成纠错；其二是按照用户的选择，用排列后的单词中的某个单词替换文本序列S，完成纠错。

词库模块，词库模块用来存储所有可能输出的单词，同时根据用户的使用历史进行动态调整和扩展。

本发明实施例至少具有如下有益效果：

1、实施例1提供的纠错方法，通过利用点击操作之间的相关性，解决了只考虑单次点击信息时，由于虚拟终端的限制或者用户的不同输入方式，导致现有文本输入纠错成功率低甚至不能纠错的问题。

2、实施例4所公开的纠错系统中，计算模块包括选择单元和计算单元，选择单元可以使计算单元不用对词库中的全部单词进行概率计算，只需对选择单元筛选出来的候选单词进行概率计算即可，加快了计算模块工作的速度。

3、语言模型P(W)和k阶点击模型P^(k)(I|W)均可以是通过以下两种方式获得的模型，其一是通过大量采集不同用户的实验数据，用统计学的方法得到的大众化的模型；其二是通过大量采集个人用户的实验数据，用统计学的方法得到的个性化的模型。通过以上两种方式得到的概率模型，可以适用于大众用户或者企业用户。

4、自动选择概率最大的单词替换输入的文本序列S或者按照用户的选择，用排列后的单词中的某个单词替换输入的文本序列S，通过这两种文本替换方式，用户可以选择适合自己习惯的方式进行文本输入。

5、面向文本输入的自动纠错系统还可以包括词库模块，词库模块用来存储所有可能输出的单词，同时根据用户的使用历史进行动态调整和扩展。词库模块对实现用户个性化语言模型及个性化的k阶点击模型起关键作用。

7、由于人具有空间感知与肌肉记忆能力，对应于不同的输入方式（单指连续点击、双拇指输入、十指输入等），通过采用对应的一阶点击模型（双手、同手、同手指的连续点击等），能够将人对键盘的认知充分体现在程序计算中，从而得到更准确的概率计算结果，实现更强的输入纠错能力。

8、本发明技术方案的优点还在于，由于人本身的肌肉记忆和空间感知能力，即使在盲打的情况下，高阶点击模型仍可能有较明显的效果，因而本发明具有广泛的应用前景。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种面向文本输入的自动纠错方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征还在于，在步骤g1中，所述文本序列S显示或不显示。

3.根据权利要求1所述的方法，其特征还在于，在步骤g2中，所述点击操作之间的相关性是指顺序的点击操作所包含的信息之间具有的统计相关而非相互独立的特性，其中，点击信息包括点击操作的位置、点击压力的大小和点击时间。

4.根据权利要求1所述的方法，其特征在于，步骤g2包括：根据点击操作之间的相关性，综合利用语言模型P(W)和k阶点击模型P^(k)(I|W)计算词库中单词出现的概率P(W|I)，具体公式如下：

所述P(W)是词库中单词W的概率分布；

所述k阶点击模型P^(k)(I|W)为：

P(I_i|c_i,c_i-1,c_i-2,…c_i-k,I_i-1,I_i-2…I_i-k)。

5.根据权利要求4所述的方法，其特征在于，所述语言模型P(W)和k阶点击模型P^(k)(I|W)是通过大量采集不同用户的实验数据，用统计学的方法得到的大众化的模型或者是通过大量采集个人用户的实验数据，用统计学的方法得到的个性化的模型。

6.根据权利要求4所述的方法，其特征在于，所述高阶点击模型为一阶点击模型：

7.根据权利要求1所述的方法，其特征还在于，在步骤g4中，所述对输入的文本序列S进行替换包括：

自动选择概率最大的单词替换文本序列S；

或者

8.一种面向文本输入的自动纠错系统，其特征在于，该系统包括：

9.根据权利要求8所述的系统，其特征还在于，在输入模块中，所述文本序列S显示或不显示。

10.根据权利要求8所述的系统，其特征还在于，在计算模块中，所述点击操作之间的相关性是指顺序的点击操作所包含的信息之间具有的统计相关而非相互独立的特性，其中，点击信息包括点击操作的位置、点击压力的大小和点击时间。

11.根据权利要求8所述的系统，其特征还在于，所述计算模块进一步包括：

所述P(W)是词库中单词W的概率分布；

所述k阶点击模型P^(k)(I|W)为：

P(I_i|c_i,c_i-1,c_i-2,…c_i-k,I_i-1,I_i-2…I_i-k)。

12.根据权利要求10所述的系统，其特征在于，所述计算单元中的高阶点击模型为一阶点击模型：

13.根据权利要求10所述的系统，其特征在于，所述计算单元中语言模型P(W)和k阶点击模型P^(k)(I|W)是通过大量采集不同用户的实验数据，用统计学的方法得到的大众化的模型或者是通过大量采集个人用户的实验数据，用统计学的方法得到的个性化的模型。

14.根据权利要求8所述的系统，其特征还在于，在输出模块中，所述对输入的文本序列S进行替换包括：

自动选择概率最大的单词替换文本序列S；

或者

15.根据权利要求8所述的系统，其特征还在于，该系统进一步包括词库模块，词库模块用来存储所有可能输出的单词，同时根据用户的使用历史进行动态调整和扩展。