CN103605642A - 一种面向文本输入的自动纠错方法与系统 - Google Patents

一种面向文本输入的自动纠错方法与系统 Download PDF

Info

Publication number
CN103605642A
CN103605642A CN201310560222.4A CN201310560222A CN103605642A CN 103605642 A CN103605642 A CN 103605642A CN 201310560222 A CN201310560222 A CN 201310560222A CN 103605642 A CN103605642 A CN 103605642A
Authority
CN
China
Prior art keywords
click
word
clicking operation
model
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310560222.4A
Other languages
English (en)
Other versions
CN103605642B (zh
Inventor
史元春
易鑫
喻纯
吕勇强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201310560222.4A priority Critical patent/CN103605642B/zh
Publication of CN103605642A publication Critical patent/CN103605642A/zh
Application granted granted Critical
Publication of CN103605642B publication Critical patent/CN103605642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及计算机技术领域,具体涉及一种面向文本输入的自动纠错方法与系统,该方法包括:g1.在虚拟输入区,通过点击操作,输入离散的点击信息序列I,其中,所述点击信息序列I对应的文本序列为S;g2.针对离散的点击信息序列I,根据点击操作之间的相关性,计算词库中的单词W1,W2,…,Wi,…,Wn出现的概率;g3.将W1,W2,…,Wi,…,Wn按照概率由大到小的顺序排列;g4.将排列后的单词输出,并对文本序列S进行替换,完成纠错。本发明通过利用点击操作之间的相关性来进行自动纠错,解决只考虑单次点击信息时,由于虚拟终端的限制或者用户的不同输入方式,导致现有文本输入纠错成功率低甚至不能纠错的问题。

Description

一种面向文本输入的自动纠错方法与系统
技术领域
本发明涉及计算机技术领域,具体涉及一种面向文本输入的自动纠错方法与系统。
背景技术
随着计算机技术的迅速发展,在软件临时分配的一块虚拟区域上进行文本输入的需求也越发强烈。目前在虚拟输入区上,是通过用户点击的位置坐标所对应的符号来进行文本的输入。
现有的文本输入纠错技术使用户不需要保证每次点击都准确地落在目标符号上。从原理上说是,虚拟输入区能根据词库中单词W的概率分布,即语言模型P(W)或者是根据由统计学得到的概率分布P(I|W),即点击模型(I为输入的离散文本序列),自动地计算词库中单词出现的概率并作出推荐,从而实现输入纠错。例如,即使用户实际点击的符号序列为“wirkd”,系统也能纠正输入为“world”。
但是,由于虚拟输入区的限制,例如小尺寸的虚拟输入区或者有两块输入区域的分离式虚拟输入区等;或者由于用户输入的方式不同,例如盲打(眼睛不注视着屏幕)或者未来逐步摆脱对视觉瞄准的文本输入方式如“空中打字”等,会导致现有纠错成功率低甚至不能纠错的问题。
发明内容
本发明所要解决的技术问题是只考虑单词点击的信息时,由于虚拟输入区的限制或者用户的不同输入方式,导致现有文本输入纠错成功率低甚至不能纠错的问题。
为此目的,本发明提出一种面向文本输入的自动纠错方法,该方法包括:
g1.在虚拟输入区,通过点击操作,输入离散的点击信息序列I,其中,所述点击信息序列I对应的文本序列为S;
g2.针对离散的点击信息序列I,根据点击操作之间的相关性,计算词库中的单词W1,W2,…,Wi,…,Wn出现的概率;
g3.将W1,W2,…,Wi,…,Wn按照概率由大到小的顺序排列;
g4.将排列后的单词输出,并对文本序列S进行替换,完成纠错。
在步骤g1中,所述文本序列S显示或不显示。
其中,在步骤g2中,所述点击操作之间的相关性是指顺序的点击操作所包含的信息之间具有的统计相关而非相互独立的特性,其中,点击信息包括点击操作的位置、点击压力的大小和点击时间。
步骤g2包括:根据点击操作之间的相关性,综合利用语言模型P(W)和k阶点击模型P(k)(I|W)计算词库中单词出现的概率P(W|I),具体公式如下:
P ( W | I ) = P ( k ) ( I | W ) P ( W ) P ( I )
其中,所述点击信息序列I为I=I1I2…Ii…Im,Ii为第i次点击操作的点击信息,所述Ii=(xi,yi,fi,ti),包括第i次点击的坐标(xi,yi)、点击压力fi和点击时间ti;词库中的单词W=c1c2…ci…cm,其中ci为W的第i个符号;
所述P(W)是词库中单词W的概率分布;
所述k阶点击模型P(k)(I|W)为:
P(k)(I|W)=P(I1I2…Ii…Im|c1c2…ci…cm)=P(I1|c1)P(I2|c2,c1,I1)……P(Ii|ci,ci-1,ci-2,…ci-k,Ii-1,Ii-2…Ii-k)…P(Im|cm,cm-1,…cm-k,Im-1,Im-2…Im-k);
其中,所述P(k)(I|W)是用户在虚拟输入区输入的离散点击信息序列I对于词库中单词W的条件概率分布,所述k阶点击模型P(k)(I|W)满足k阶马尔可夫假设,即每次点击操作的点击信息与其之前的k次点击信息相关,即第i次点击操作的点击信息概率为:
P(Ii|ci,ci-1,ci-2,…ci-k,Ii-1,Ii-2…Ii-k)。
可选的,所述语言模型P(W)和k阶点击模型P(k)(I|W)是通过大量采集不同用户的实验数据,用统计学的方法得到的大众化的模型或者是通过大量采集个人用户的实验数据,用统计学的方法得到的个性化的模型。
可选的,所述高阶点击模型为一阶点击模型:
P(1)(I|W)=P(I1|c1)P(I2|c1,c2,I1)P(I3|c2,c3,I2)…P(Im|cm-1,cm,Im-1)。
可选的,在步骤g4中,所述对文本序列S进行替换包括:
自动选择概率最大的单词替换文本序列S;
或者
按照用户的选择,用排列后的单词中的某个单词替换文本序列S。
本发明还提出一种面向文本输入的自动纠错系统,其特征在于,该系统包括:
输入模块,包含虚拟输入区,用于接收用户在虚拟输入区通过点击操作输入的离散点击信息序列I,其中,所述点击信息序列I对应的文本序列为S;
计算模块,用于基于离散的点击信息序列I,根据点击操作之间的相关性,计算词库中单词W1,W2,…,Wi,…,Wn出现的概率;
排序模块,用于将W1,W2,…,Wi,…,Wn按照概率由大到小的顺序排列,生成按照概率大小排序的候选词列表并将列表传递给输出模块;
输出模块,用于将排列后的候选词列表输出,并对文本序列S进行替换,完成纠错。
在输入模块中,所述文本序列S显示或不显示。
其中,在计算模块中,所述点击操作之间的相关性是指顺序的点击操作所包含的信息之间具有的统计相关而非相互独立的特性,其中,点击信息包括点击操作的位置、点击压力的大小和点击时间。
较佳的,所述计算模块进一步包括:
选择单元,用于选择词库中与文本序列S的字符个数相同的单词作为候选单词;
计算单元,用于根据点击操作之间的相关性,综合利用语言模型P(W)和k阶点击模型P(k)(I|W)计算候选单词出现的概率P(W|I),具体公式如下:
P ( W | I ) = P ( k ) ( I | W ) P ( W ) P ( I )
其中,所述点击信息序列I为I=I1I2…Ii…Im,Ii为第i次点击操作的点击信息,所述Ii=(xi,yi,fi,ti),包括第i次点击的坐标(xi,yi)、点击压力fi和点击时间ti;词库中的单词W=c1c2…ci…cm,其中ci为W的第i个符号;
所述P(W)是词库中单词W的概率分布;
所述k阶点击模型P(k)(I|W)为:
P(k)(I|W)=P(I1I2…Ii…Im|c1c2…ci…cm)=P(I1|c1)P(I2|c2,c1,I1)……P(Ii|ci,ci-1,ci-2,…ci-k,Ii-1,Ii-2…Ii-k)…P(Im|cm,cm-1,…cm-k,Im-1,Im-2…Im-k);
其中,所述P(k)(I|W)是用户在虚拟输入区输入的离散点击信息序列I对于词库中单词W的条件概率分布,所述k阶点击模型P(k)(I|W)满足k阶马尔可夫假设,即每次点击操作的点击信息与其之前的k次点击信息相关,即第i次点击操作的点击信息概率为:
P(Ii|ci,ci-1,ci-2,…ci-k,Ii-1,Ii-2…Ii-k)。
可选的,所述计算单元中的高阶点击模型为一阶点击模型:
P(1)(I|W)=P(I1|c1)P(I2|c1,c2,I1)P(I3|c2,c3,I2)…P(Im|cm-1,cm,Im-1)。
可选的,所述计算单元中语言模型P(W)和k阶点击模型P(k)(I|W)是通过大量采集不同用户的实验数据,用统计学的方法得到的大众化的模型或者是通过大量采集个人用户的实验数据,用统计学的方法得到的个性化的模型。
可选的,在输出模块中,所述对文本序列S进行替换包括:
自动选择概率最大的单词替换文本序列S;
或者
按照用户的选择,用排列后的单词中的某个单词替换文本序列S。
较佳的,该系统进一步包括词库模块,词库模块用来存储所有可能输出的单词,同时根据用户的使用历史进行动态调整和扩展。
相比于现有技术,本发明提供的方法的有益效果是根据输入的点击操作之间的相关性,计算输入的文本序列S与词库中单词的吻合程度,即词库中单词出现的概率,避免只考虑单次点击的信息时,受触点偏移目标符号中心位置很严重的缺点,解决由于虚拟终端的限制或者用户的不同输入方式,导致现有文本输入纠错成功率低甚至不能纠错的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了一种面向文本输入的自动纠错流程图;
图2示出了一种面向软键盘的文本输入的自动纠错流程图;
图3示出了一种面向文本输入的自动纠错系统结构图;
图4示出了一种面向软键盘的文本输入的自动纠错系统结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本发明实施例1中公开一种面向文本输入的自动纠错方法,如图1所示,该方法包括:
g1.在虚拟输入区,通过点击操作,输入离散的点击信息序列I,其中,所述点击信息序列I对应的文本序列为S;
g2.针对离散的点击信息序列I,根据点击操作之间的相关性,计算词库中的单词W1,W2,…,Wi,…,Wn出现的概率;
g3.将W1,W2,…,Wi,…,Wn按照概率由大到小的顺序排列;
g4.将排列后的单词输出,并对文本序列S进行替换,完成纠错。
在步骤g1中,所述文本序列S可以显示,也可以不显示。
可见,实施例1提供的纠错方法,通过利用点击操作之间的相关性,解决了只考虑单次点击信息时,由于虚拟终端的限制或者用户的不同输入方式,导致现有文本输入纠错成功率低甚至不能纠错的问题。
在该实施例中,所述点击操作之间的相关性是指顺序的点击操作所包含的信息之间具有的统计相关而非相互独立的特性。其中,点击信息包括点击操作的位置、点击压力的大小和点击时间。则所述点击操作之间的相关性包括点击操作间的相对位置、压力大小的比值和点击时间,其中,所述相对位置用触点的坐标通过距离公式计算得到;所述压力大小的比值由两次点击的压力相除得到。
在该实施例中,步骤g2包括:根据点击操作之间的相关性,综合利用语言模型P(W)和k阶点击模型P(k)(I|W)计算词库中单词出现的概率P(W|I),具体公式如下:
P ( W | I ) = P ( k ) ( I | W ) P ( W ) P ( I )
其中,所述点击信息序列I为I=I1I2…Ii…Im,Ii为第i次点击操作的点击信息,所述Ii=(xi,yi,fi,ti),包括第i次点击的坐标(xi,yi)、点击压力fi和点击时间ti;词库中的单词W=c1c2…ci…cm,其中ci为W的第i个符号;
所述P(W)是词库中单词W的概率分布;
所述k阶点击模型P(k)(I|W)为:
P(k)(I|W)=P(I1I2…Ii…Im|c1c2…ci…cm)
k阶点击模型认为点击信息序列满足k阶马尔可夫假设,即每次点击操作的点击信息与其之前的k次点击信息相关,即第i次点击操作的点击信息概率为:
P(Ii|ci,ci-1,ci-2,…ci-k,Ii-1,Ii-2…Ii-k)
则k阶点击模型P(k)(I|W)可以进一步简化为:
P(k)(I|W)=P(I1I2…Ii…Im|c1c2…ci…cm)=P(I1|c1)P(I2|c2,c1,I1)……P(Ii|ci,ci-1,ci-2,…ci-k,Ii-1,Ii-2…Ii-k)…P(Im|cm,cm-1,…cm-k,Im-1,Im-2…Im-k)。
所述语言模型P(W)和k阶点击模型P(k)(I|W)均可以是通过以下两种方式获得的模型,其一是通过大量采集不同用户的实验数据,用统计学的方法得到的大众化的模型;其二是通过大量采集个人用户的实验数据,用统计学的方法得到的个性化的模型。通过以上两种方式得到的概率模型,可以适用于大众用户或者企业用户。
所述k阶点击模型P(k)(I|W)中最简单的模型是一阶点击模型:
P(1)(I|W)=P(I1|c1)P(I2|c1,c2,I1)P(I3|c2,c3,I2)…P(Im|cm-1,cm,Im-1)。
则计算候选单词概率的公式为:
P ( W | I ) = P ( 1 ) ( I | W ) P ( W ) P ( I )
在实施例中,当排列后的单词输出后,在步骤g4中,所述对文本序列S进行替换有两种方式:其一是自动选择概率最大的单词替换文本序列S;其二是按照用户的选择,用排列后的单词中的某个单词替换文本序列S。通过这两种方式,用户可以选择适合自己习惯的方式进行文本输入。
实施例2:
本实施例2中具体公开一种面向软键盘的文本输入的自动纠错方法,如图2所示,该方法包括:
g1.在软键盘上,通过点击操作,输入离散的点击信息序列I,其中,所述点击信息序列I对应的文本序列为S,文本序列S可以显示,也可以不显示;
g2.针对离散的点击信息序列I,I=I1I2…Ii…Im,Ii为第i次点击操作的点击信息,所述Ii=(xi,yi),即第i次点击的坐标(xi,yi),根据点击操作间的相对位置,综合利用语言模型P(W)和一阶点击模型P(1)(I|W)计算词库中单词W1,W2,…,Wi,…,Wn出现的概率,其中相对位置用点击的坐标(xi,yi)通过距离公式计算得到;
计算词库中单词出现的概率P(W|I)的具体公式如下:
P ( W | I ) = P ( 1 ) ( I | W ) P ( W ) P ( I )
其中,词库中的单词W=c1c2…ci…cm,ci为W的第i个符号;
所述P(W)是词库中单词W的概率分布;
所述一阶点击模型P(1)(I|W)为:
P(1)(I|W)=P(I1I2…Ii…Im|c1c2…ci…cm)
一阶点击模型认为点击信息序列满足一阶马尔可夫假设,即每次点击操作的点击信息与其之前的一次点击信息相关,即第m次点击操作的点击信息概率为:
P(Im|cm-1,cm,Im-1)
则一阶点击模型P(1)(I|W)可以进一步简化为:
P(1)(I|W)==P(I1|c1)P(I2|c2,c1,I1)P(I3|c2,c3,I2)…P(Im|cm-1,cm,Im-1)。
所述语言模型P(W)和一阶点击模型P(1)(I|W)均可以是通过以下两种方式获得的模型:其一是通过大量采集不同用户的实验数据,用统计学的方法得到的大众化的模型,其二是通过大量采集个人用户的实验数据,用统计学的方法得到的个性化的模型;
g3.将W1,W2,…,Wi,…,Wn按照概率由大到小的顺序排列;
g4.将排列后的单词输出,并对文本序列S进行替换,替换方式有两种:其一是自动选择概率最大的单词替换文本序列S,完成纠错;其二是按照用户的选择,用排列后的单词中的某个单词替换文本序列S,完成纠错。
实施例3:
本实施例3中公开一种面向文本输入的自动纠错系统,如图3所示,该系统包括:
输入模块,包含虚拟输入区,用于接收用户在虚拟输入区通过点击操作输入的离散点击信息序列I,其中,所述点击信息序列I对应的文本序列为S;
计算模块,用于基于离散的点击信息序列I,根据点击操作之间的相关性,计算词库中单词W1,W2,…,Wi,…,Wn出现的概率;
排序模块,用于将W1,W2,…,Wi,…,Wn按照概率由大到小的顺序排列,生成按照概率大小排序的一组候选词列表并将列表传递给输出模块;
输出模块,用于将排列后的候选词列表输出,并对文本序列S进行替换,完成纠错。
其中,在输入模块中,文本序列为S可以显示,也可以不显示。
其中,在计算模块中,所述点击操作之间的相关性是指顺序的点击操作所包含的信息之间具有的统计相关而非相互独立的特性。其中,点击信息包括点击操作的位置、点击压力的大小和点击时间。则所述点击操作之间的相关性包括点击操作间的相对位置、压力大小的比值和点击时间,其中,所述相对位置用触点的坐标通过距离公式计算得到;所述压力大小的比值由两次点击的压力相除得到。
本实施例中,所述计算模块进一步包括:
选择单元,用于选择词库中与文本序列S的字符个数相同的单词作为候选单词;
计算单元,用于根据点击操作之间的相关性,综合利用语言模型P(W)和k阶点击模型P(k)(I|W)计算候选单词出现的概率P(W|I),具体公式如下:
P ( W | I ) = P ( k ) ( I | W ) P ( W ) P ( I )
其中,所述点击信息序列I为I=I1I2…Ii…Im,Ii为第i次点击操作的点击信息,所述Ii=(xi,yi,fi,ti),包括第i次点击的坐标(xi,yi)、点击压力fi和点击时间ti;词库中的单词W=c1c2…ci…cm,其中ci为W的第i个符号;
所述P(W)是词库中单词W的概率分布;
所述k阶点击模型P(k)(I|W)为:
P(k)(I|W)=P(I1I2…Ii…Im|c1c2…ci…cm)
k阶点击模型认为点击信息序列满足k阶马尔可夫假设,即每次点击操作的点击信息与其之前的k次点击信息相关,即第i次点击操作的点击信息概率为:
P(Ii|ci,ci-1,ci-2,…ci-k,Ii-1,Ii-2…Ii-k)
则k阶点击模型P(k)(I|W)可以进一步简化为:
P(k)(I|W)=P(I1I2…Ii…Im|c1c2…ci…cm)=P(I1|c1)P(I2|c2,c1,I1)……P(Ii|ci,ci-1,ci-2,…ci-k,Ii-1,Ii-2…Ii-k)…P(Im|cm,cm-1,…cm-k,Im-1,Im-2…Im-k)。
本实施例所述计算模块的选择单元可以使计算单元不用对词库中的全部单词进行概率计算,只需对选择单元筛选出来的候选单词进行概率计算即可,加快了计算模块工作的速度。
所述计算单元中语言模型P(W)和k阶点击模型P(k)(I|W)是通过大量采集不同用户的实验数据,用统计学的方法得到的大众化的模型或者是通过大量采集个人用户的实验数据,用统计学的方法得到的个性化的模型。
所述k阶点击模型P(k)(I|W)中最简单的模型是一阶点击模型:
P(1)(I|W)=P(I1|c1)P(I2|c1,c2,I1)P(I3|c2,c3,I2)…P(Im|cm-1,cm,Im-1)。
则计算候选单词概率的公式为:
P ( W | I ) = P ( 1 ) ( I | W ) P ( W ) P ( I )
本实施例在输出模块中,对文本序列S进行替换包括有两种方式:其一是自动选择概率最大的单词替换文本序列S,其二是按照用户的选择,用排列后的单词中的某个单词替换文本序列S。
较佳的,所述系统还可以包括词库模块,词库模块用来存储所有可能输出的单词,同时根据用户的使用历史进行动态调整和扩展。词库模块对实现用户的个性化的语言模型P(W)及个性化的k阶点击模型起关键作用。
实施例4:
本实施例4中具体公开一种面向软键盘的文本输入的自动纠错系统,如图4所示,该系统包括:
触屏输入模块,包含软键盘,用于接收用户在软键盘通过点击操作输入的离散点击信息序列I,其中,所述点击信息序列I对应的文本序列为S,文本序列为S可以显示,也可以不显示;
计算模块,包含以下两个单元:
选择单元,用于选择词库中与文本序列S的字符个数相同的单词作为候选单词;
计算单元,针对离散的点击信息序列I,I=I1I2…Ii…Im,Ii为第i次点击操作的点击信息,所述Ii=(xi,yi),即第i次点击的坐标(xi,yi),根据点击操作间的相对位置,综合利用语言模型P(W)和一阶点击模型P(1)(I|W)计算词库中单词W1,W2,…,Wi,…,Wn出现的概率,其中相对位置用点击的坐标(xi,yi)通过距离公式计算得到。
计算词库中单词出现的概率P(W|I)的具体公式如下:
P ( W | I ) = P ( 1 ) ( I | W ) P ( W ) P ( I )
其中,词库中的单词W=c1c2…ci…cm,ci为W的第i个符号;
P(W)是词库中单词W的概率分布;
所述一阶点击模型P(1)(I|W)为:
P(1)(I|W)=P(I1I2…Ii…Im|c1c2…ci…cm)
一阶点击模型认为点击信息序列满足一阶马尔可夫假设,即每次点击操作的点击信息与其之前的一次点击信息相关,即第m次点击操作的点击信息概率为:
P(Im|cm-1,cm,Im-1)
则一阶点击模型P(1)(I|W)可以进一步简化为:
P(1)(I|W)==P(I1|c1)P(I2|c2,c1,I1)P(I3|c2,c3,I2)…P(Im|cm-1,cm,Im-1)。
所述语言模型P(W)和一阶点击模型P(1)(I|W)均可以是通过以下两种方式获得的模型:其一是通过大量采集不同用户的实验数据,用统计学的方法得到的大众化的模型,其二是通过大量采集个人用户的实验数据,用统计学的方法得到的个性化的模型
排序模块,用于将W1,W2,…,Wi,…,Wn按照概率由大到小的顺序排列,生成按照概率大小排序的候选词列表并将列表传递给输出模块;
触屏输出模块,用于将排列后的候选词列表输出,并对文本序列S进行替换,替换方式有两种:其一是自动选择概率最大的单词替换文本序列S,完成纠错;其二是按照用户的选择,用排列后的单词中的某个单词替换文本序列S,完成纠错。
词库模块,词库模块用来存储所有可能输出的单词,同时根据用户的使用历史进行动态调整和扩展。
本发明实施例至少具有如下有益效果:
1、实施例1提供的纠错方法,通过利用点击操作之间的相关性,解决了只考虑单次点击信息时,由于虚拟终端的限制或者用户的不同输入方式,导致现有文本输入纠错成功率低甚至不能纠错的问题。
2、实施例4所公开的纠错系统中,计算模块包括选择单元和计算单元,选择单元可以使计算单元不用对词库中的全部单词进行概率计算,只需对选择单元筛选出来的候选单词进行概率计算即可,加快了计算模块工作的速度。
3、语言模型P(W)和k阶点击模型P(k)(I|W)均可以是通过以下两种方式获得的模型,其一是通过大量采集不同用户的实验数据,用统计学的方法得到的大众化的模型;其二是通过大量采集个人用户的实验数据,用统计学的方法得到的个性化的模型。通过以上两种方式得到的概率模型,可以适用于大众用户或者企业用户。
4、自动选择概率最大的单词替换输入的文本序列S或者按照用户的选择,用排列后的单词中的某个单词替换输入的文本序列S,通过这两种文本替换方式,用户可以选择适合自己习惯的方式进行文本输入。
5、面向文本输入的自动纠错系统还可以包括词库模块,词库模块用来存储所有可能输出的单词,同时根据用户的使用历史进行动态调整和扩展。词库模块对实现用户个性化语言模型及个性化的k阶点击模型起关键作用。
7、由于人具有空间感知与肌肉记忆能力,对应于不同的输入方式(单指连续点击、双拇指输入、十指输入等),通过采用对应的一阶点击模型(双手、同手、同手指的连续点击等),能够将人对键盘的认知充分体现在程序计算中,从而得到更准确的概率计算结果,实现更强的输入纠错能力。
8、本发明技术方案的优点还在于,由于人本身的肌肉记忆和空间感知能力,即使在盲打的情况下,高阶点击模型仍可能有较明显的效果,因而本发明具有广泛的应用前景。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (15)

1.一种面向文本输入的自动纠错方法,其特征在于,该方法包括: 
g1.在虚拟输入区,通过点击操作,输入离散的点击信息序列I,其中,所述点击信息序列I对应的文本序列为S; 
g2.针对离散的点击信息序列I,根据点击操作之间的相关性,计算词库中的单词W1,W2,…,Wi,…,Wn出现的概率; 
g3.将W1,W2,…,Wi,…,Wn按照概率由大到小的顺序排列; 
g4.将排列后的单词输出,并对文本序列S进行替换,完成纠错。 
2.根据权利要求1所述的方法,其特征还在于,在步骤g1中,所述文本序列S显示或不显示。 
3.根据权利要求1所述的方法,其特征还在于,在步骤g2中,所述点击操作之间的相关性是指顺序的点击操作所包含的信息之间具有的统计相关而非相互独立的特性,其中,点击信息包括点击操作的位置、点击压力的大小和点击时间。 
4.根据权利要求1所述的方法,其特征在于,步骤g2包括:根据点击操作之间的相关性,综合利用语言模型P(W)和k阶点击模型P(k)(I|W)计算词库中单词出现的概率P(W|I),具体公式如下: 
Figure FDA0000412318510000011
其中,所述点击信息序列I为I=I1I2…Ii…Im,Ii为第i次点击操作的点击信息,所述Ii=(xi,yi,fi,ti),包括第i次点击的坐标(xi,yi)、点击压力fi和点击时间ti;词库中的单词W=c1c2…ci…cm,其中ci为W的第i个符号; 
所述P(W)是词库中单词W的概率分布; 
所述k阶点击模型P(k)(I|W)为: 
P(k)(I|W)=P(I1I2…Ii…Im|c1c2…ci…cm)=P(I1|c1)P(I2|c2,c1,I1)……P(Ii|ci,ci-1,ci-2,…ci-k,Ii-1,Ii-2…Ii-k)…P(Im|cm,cm-1,…cm-k,Im-1,Im-2…Im-k); 
其中,所述P(k)(I|W)是用户在虚拟输入区输入的离散点击信息序列I对于词库中单词W的条件概率分布,所述k阶点击模型P(k)(I|W)满足k阶马尔可夫假设,即每次点击操作的点击信息与其之前的k次点击信息相关,即第i次点击操作的点击信息概率为: 
P(Ii|ci,ci-1,ci-2,…ci-k,Ii-1,Ii-2…Ii-k)。 
5.根据权利要求4所述的方法,其特征在于,所述语言模型P(W)和k阶点击模型P(k)(I|W)是通过大量采集不同用户的实验数据,用统计学的方法得到的大众化的模型或者是通过大量采集个人用户的实验数据,用统计学的方法得到的个性化的模型。 
6.根据权利要求4所述的方法,其特征在于,所述高阶点击模型为一阶点击模型: 
P(1)(I|W)=P(I1|c1)P(I2|c1,c2,I1)P(I3|c2,c3,I2)…P(Im|cm-1,cm,Im-1)。 
7.根据权利要求1所述的方法,其特征还在于,在步骤g4中,所述对输入的文本序列S进行替换包括: 
自动选择概率最大的单词替换文本序列S; 
或者 
按照用户的选择,用排列后的单词中的某个单词替换文本序列S。 
8.一种面向文本输入的自动纠错系统,其特征在于,该系统包括: 
输入模块,包含虚拟输入区,用于接收用户在虚拟输入区通过点击操作输入的离散点击信息序列I,其中,所述点击信息序列I对应的文本序列为S; 
计算模块,用于基于离散的点击信息序列I,根据点击操作之间的相关性,计算词库中单词W1,W2,…,Wi,…,Wn出现的概率; 
排序模块,用于将W1,W2,…,Wi,…,Wn按照概率由大到小的顺序排列,生成按照概率大小排序的候选词列表并将列表传递给输出模块; 
输出模块,用于将排列后的候选词列表输出,并对文本序列S进行替换,完成纠错。 
9.根据权利要求8所述的系统,其特征还在于,在输入模块中,所述文本序列S显示或不显示。 
10.根据权利要求8所述的系统,其特征还在于,在计算模块中,所述点击操作之间的相关性是指顺序的点击操作所包含的信息之间具有的统计相关而非相互独立的特性,其中,点击信息包括点击操作的位置、点击压力的大小和点击时间。 
11.根据权利要求8所述的系统,其特征还在于,所述计算模块进一步包括: 
选择单元,用于选择词库中与文本序列S的字符个数相同的单词作为候选单词; 
计算单元,用于根据点击操作之间的相关性,综合利用语言模型P(W)和k阶点击模型P(k)(I|W)计算候选单词出现的概率P(W|I),具体公式如下: 
Figure FDA0000412318510000031
其中,所述点击信息序列I为I=I1I2…Ii…Im,Ii为第i次点击操作的点击信息,所述Ii=(xi,yi,fi,ti),包括第i次点击的坐标(xi,yi)、点击压力fi和点击时间ti;词库中的单词W=c1c2…ci…cm,其中ci为W的第i个符号; 
所述P(W)是词库中单词W的概率分布; 
所述k阶点击模型P(k)(I|W)为: 
P(k)(I|W)=P(I1I2…Ii…Im|c1c2…ci…cm)=P(I1|c1)P(I2|c2,c1,I1)……P(Ii|ci,ci-1,ci-2,…ci-k,Ii-1,Ii-2…Ii-k)…P(Im|cm,cm-1,…cm-k,Im-1,Im-2…Im-k); 
其中,所述P(k)(I|W)是用户在虚拟输入区输入的离散点击信息序列I对于词库中单词W的条件概率分布,所述k阶点击模型P(k)(I|W)满足k阶马尔可夫假设,即每次点击操作的点击信息与其之前的k次点 击信息相关,即第i次点击操作的点击信息概率为: 
P(Ii|ci,ci-1,ci-2,…ci-k,Ii-1,Ii-2…Ii-k)。 
12.根据权利要求10所述的系统,其特征在于,所述计算单元中的高阶点击模型为一阶点击模型: 
P(1)(I|W)=P(I1|c1)P(I2|c1,c2,I1)P(I3|c2,c3,I2)…P(Im|cm-1,cm,Im-1)。 
13.根据权利要求10所述的系统,其特征在于,所述计算单元中语言模型P(W)和k阶点击模型P(k)(I|W)是通过大量采集不同用户的实验数据,用统计学的方法得到的大众化的模型或者是通过大量采集个人用户的实验数据,用统计学的方法得到的个性化的模型。 
14.根据权利要求8所述的系统,其特征还在于,在输出模块中,所述对输入的文本序列S进行替换包括: 
自动选择概率最大的单词替换文本序列S; 
或者 
按照用户的选择,用排列后的单词中的某个单词替换文本序列S。 
15.根据权利要求8所述的系统,其特征还在于,该系统进一步包括词库模块,词库模块用来存储所有可能输出的单词,同时根据用户的使用历史进行动态调整和扩展。 
CN201310560222.4A 2013-11-12 2013-11-12 一种面向文本输入的自动纠错方法与系统 Active CN103605642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310560222.4A CN103605642B (zh) 2013-11-12 2013-11-12 一种面向文本输入的自动纠错方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310560222.4A CN103605642B (zh) 2013-11-12 2013-11-12 一种面向文本输入的自动纠错方法与系统

Publications (2)

Publication Number Publication Date
CN103605642A true CN103605642A (zh) 2014-02-26
CN103605642B CN103605642B (zh) 2016-06-15

Family

ID=50123871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310560222.4A Active CN103605642B (zh) 2013-11-12 2013-11-12 一种面向文本输入的自动纠错方法与系统

Country Status (1)

Country Link
CN (1) CN103605642B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104882139A (zh) * 2015-05-28 2015-09-02 百度在线网络技术(北京)有限公司 语音合成的方法和装置
CN105374356A (zh) * 2014-08-29 2016-03-02 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN106843737A (zh) * 2017-02-13 2017-06-13 北京新美互通科技有限公司 文本输入方法、装置及终端设备
CN109062888A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种出现错误文本输入时的自纠正方法
CN110633461A (zh) * 2019-09-10 2019-12-31 北京百度网讯科技有限公司 文档检测处理方法、装置、电子设备和存储介质
CN110888577A (zh) * 2018-09-10 2020-03-17 百度在线网络技术(北京)有限公司 字符纠正方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5572423A (en) * 1990-06-14 1996-11-05 Lucent Technologies Inc. Method for correcting spelling using error frequencies
CN1759369A (zh) * 2003-03-19 2006-04-12 摩托罗拉公司 减少键盘错误的方法和装置
US20090254501A1 (en) * 2008-04-07 2009-10-08 Song Hee Jun Word-spacing correction system and method
CN101719022A (zh) * 2010-01-05 2010-06-02 汉王科技股份有限公司 用于全功能键盘的字符输入方法及其处理装置
US7777728B2 (en) * 2006-03-17 2010-08-17 Nokia Corporation Mobile communication terminal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5572423A (en) * 1990-06-14 1996-11-05 Lucent Technologies Inc. Method for correcting spelling using error frequencies
CN1759369A (zh) * 2003-03-19 2006-04-12 摩托罗拉公司 减少键盘错误的方法和装置
US7777728B2 (en) * 2006-03-17 2010-08-17 Nokia Corporation Mobile communication terminal
US20090254501A1 (en) * 2008-04-07 2009-10-08 Song Hee Jun Word-spacing correction system and method
CN101719022A (zh) * 2010-01-05 2010-06-02 汉王科技股份有限公司 用于全功能键盘的字符输入方法及其处理装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105374356A (zh) * 2014-08-29 2016-03-02 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN105374356B (zh) * 2014-08-29 2019-07-30 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN104882139A (zh) * 2015-05-28 2015-09-02 百度在线网络技术(北京)有限公司 语音合成的方法和装置
CN104882139B (zh) * 2015-05-28 2017-03-15 百度在线网络技术(北京)有限公司 语音合成的方法和装置
CN106843737A (zh) * 2017-02-13 2017-06-13 北京新美互通科技有限公司 文本输入方法、装置及终端设备
CN106843737B (zh) * 2017-02-13 2020-05-08 北京新美互通科技有限公司 文本输入方法、装置及终端设备
CN109062888A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种出现错误文本输入时的自纠正方法
CN110888577A (zh) * 2018-09-10 2020-03-17 百度在线网络技术(北京)有限公司 字符纠正方法、装置、设备以及存储介质
US10929014B2 (en) 2018-09-10 2021-02-23 Baidu Online Network Technology (Beijing) Co., Ltd. Character correction method and apparatus, device, and storage medium
CN110633461A (zh) * 2019-09-10 2019-12-31 北京百度网讯科技有限公司 文档检测处理方法、装置、电子设备和存储介质
CN110633461B (zh) * 2019-09-10 2024-01-16 北京百度网讯科技有限公司 文档检测处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN103605642B (zh) 2016-06-15

Similar Documents

Publication Publication Date Title
US10156981B2 (en) User-centric soft keyboard predictive technologies
CN103605642B (zh) 一种面向文本输入的自动纠错方法与系统
Yi et al. Atk: Enabling ten-finger freehand typing in air based on 3d hand tracking data
Gordon et al. WatchWriter: Tap and gesture typing on a smartwatch miniature keyboard with statistical decoding
Nesbat A system for fast, full-text entry for small electronic devices
Yi et al. COMPASS: Rotational keyboard on non-touch smartwatches
CN103699233B (zh) 字符串输入方法和输入装置
CN105009064A (zh) 使用语言和空间模型的触摸键盘
Kwon et al. Effect of key size and activation area on the performance of a regional error correction method in a touch-screen QWERTY keyboard
WO2006028438A1 (en) System, method, and apparatus for continuous character recognition
Zhong et al. Forceboard: Subtle text entry leveraging pressure
CN108845754B (zh) 用于移动虚拟现实头戴显示器的无驻留文本输入方法
Ahn et al. Gaze-assisted typing for smart glasses
CN104461056B (zh) 一种信息处理方法和电子设备
CN111026322A (zh) 键盘布局方法、装置、电子设备和存储介质
Moyle et al. A flick in the right direction: A case study of gestural input
CN106598268B (zh) 文本输入方法和电子设备
US20140191992A1 (en) Touch input method, electronic device, system, and readable recording medium by using virtual keys
Mattheiss et al. Dots and letters: Accessible braille-based text input for visually impaired people on mobile touchscreen devices
Williamson et al. Efficient human-machine control with asymmetric marginal reliability input devices
US7551162B2 (en) Method for keypad optimization
Bhattacharya et al. Bengali text input interface design for mobile devices
CN111665956B (zh) 候选字符串的处理方法、装置、电子设备及存储介质
CN111367459B (zh) 利用压力触控板的文本输入方法和智能电子设备
CN114860088A (zh) 输入方法、装置、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant