CN109948122B - 输入文本的纠错方法、装置及电子设备 - Google Patents

输入文本的纠错方法、装置及电子设备 Download PDF

Info

Publication number
CN109948122B
CN109948122B CN201711394751.6A CN201711394751A CN109948122B CN 109948122 B CN109948122 B CN 109948122B CN 201711394751 A CN201711394751 A CN 201711394751A CN 109948122 B CN109948122 B CN 109948122B
Authority
CN
China
Prior art keywords
character string
character
combined
characters
error correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711394751.6A
Other languages
English (en)
Other versions
CN109948122A (zh
Inventor
王培娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201711394751.6A priority Critical patent/CN109948122B/zh
Publication of CN109948122A publication Critical patent/CN109948122A/zh
Application granted granted Critical
Publication of CN109948122B publication Critical patent/CN109948122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明实施例提供了输入文本的纠错方法、装置和电子设备。获取终端的显示屏上光标位置的输入文本,并按照字符的输入顺序,获取输入文本中最后的第一字符前的预设数量个第二字符,确定预设数量个第二字符与第一字符组成的组合字符串;在预存词库中,查找与组合字符串满足预设匹配条件的待选字符串;获取组合字符串的字符特征和待选字符串的字符特征;将组合字符串的字符特征,以及待选字符串的字符特征,分别采用预设评分算法,确定组合字符串的第一分数值和待选字符串的第二分数值;当第一分数值小于第二分数值时,生成输入文本的纠错信息,纠错信息用于表示将组合字符串修改为待选字符串,输出纠错信息,提高了用户的输入效率。

Description

输入文本的纠错方法、装置及电子设备
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种输入文本的纠错方法、装置及电子设备。
背景技术
目前,输入法提供终端本地纠错方法,该纠错方法可以将用户当前输入的字符串中的字符调换位置,查询调换位置后的字符串是否可能组成一个正确的词(或称字符串)。例如,用户当前输入adn,输入法客户端检测到adn不是预设词库里的词,则输入法客户端会给出将adn修改为and的纠错信息。预设词库中的词可以包括常用词汇以及用户输入过的字符串的集合。
然而,现有的输入法只能针对用户在输入法的字符输入区域中当前正在输入的字符进行处理,记录用户当前输入的字符串,并根据记录的字符串进行纠错,而不能处理显示屏上光标位置的输入字符串,如消息输入框中的输入字符串,即对显示屏上光标位置处出现错误的字符串(如拼写错误)不能进行纠错处理,对于这样的字符串,用户需要根据自己的判断来修改,如采用退格重新输入的方式进行修改,降低了用户的输入效率。
发明内容
本发明实施例的目的在于提供一种输入文本的纠错方法、装置及电子设备,以提高用户的输入效率。具体技术方案如下:
第一方面,提供了一种输入文本的纠错方法,该方法可以包括:
获取终端的显示屏上光标位置的输入文本;
按照输入文本中字符的输入顺序,获取输入文本中第一字符前的预设数量个第二字符,并确定预设数量个第二字符与第一字符组成的组合字符串,第一字符为输入文本中的最后一个字符;
在预存词库中,查找与组合字符串满足预设匹配条件的待选字符串;
获取组合字符串的字符特征和待选字符串的字符特征;
基于组合字符串的字符特征,以及待选字符串的字符特征,分别采用预设评分算法,确定组合字符串的第一分数值和待选字符串的第二分数值;
当第一分数值小于第二分数值时,生成输入文本的纠错信息,纠错信息用于表示将组合字符串修改为待选字符串;
输出纠错信息。
结合第一方面,在第一方面的第一种可能实现的方式中,基于组合字符串的字符特征,以及待选字符串的字符特征,分别采用预设评分算法,确定组合字符串的第一分数值和待选字符串的第二分数值,包括:基于组合字符串的多个字符特征,以及待选字符串的多个字符特征,分别采用加权求和算法,确定组合字符串的第一分数值和待选字符串的第二分数值。
结合第一方面或者第一方面的第一种可能实现的方式,在第一方面的第二种可能实现的方式中,字符串的字符特征包括:字符串的使用频率、字符串中字符的临近键位和字符串中各字符排列顺序出现的概率。
结合第一方面,在第一方面的第三种可能实现的方式中,输出纠错信息,包括:向终端发送纠错信息,用于在显示屏上输出纠错信息。
结合第一方面,在第一方面的第四种可能实现的方式中,纠错信息具体用于表示对组合字符串进行字符的插入、删除、替换或交换字符的顺序操作修改为待选字符串。
结合第一方面,在第一方面的第五种可能实现的方式中,输入文本包括英文字符或汉字字符。
第二方面,提供了一种纠错装置,该装置可以包括:
第一获取模块、第二获取模块、查找模块、第三获取模块、确定模块、生成模块和输出模块。其中,
第一获取模块,用于获取终端的显示屏上光标位置的输入文本。
第二获取模块,用于按照输入文本中字符的输入顺序,获取输入文本中第一字符前的预设数量个第二字符,并确定预设数量个第二字符与第一字符组成的组合字符串,第一字符为输入文本中的最后一个字符;
查找模块,用于在预存词库中,查找与组合字符串满足预设匹配条件的待选字符串;
第三获取模块,用于获取组合字符串的字符特征和待选字符串的字符特征;
确定模块,用于基于组合字符串的字符特征,以及待选字符串的字符特征,分别采用预设评分算法,确定组合字符串的第一分数值和待选字符串的第二分数值;
生成模块,用于当第一分数值小于第二分数值时,生成输入文本的纠错信息,纠错信息用于表示将组合字符串修改为待选字符串;
输出模块,用于输出纠错信息。
结合第二方面,在第二方面的第一种可能实现的方式中,确定模块,具体用于基于组合字符串的多个字符特征,以及待选字符串的多个字符特征,分别采用加权求和算法,确定组合字符串的第一分数值和待选字符串的第二分数值。
结合第二方面或者第二方面的第一种可能实现的方式,在第二方面的第二种可能实现的方式中,字符串的字符特征包括:字符串的使用频率、字符串中字符的临近键位和字符串中各字符排列顺序出现的概率。
结合第二方面,在第二方面的第三种可能实现的方式中,输出模块,具体用于向终端发送纠错信息,用于在显示屏上输出纠错信息。
结合第二方面,在第二方面的第四种可能实现的方式中,纠错信息具体用于表示对组合字符串进行字符的插入、删除、替换或交换字符的顺序操作修改为待选字符串。
结合第二方面,在第二方面的第五种可能实现的方式中,输入文本包括英文字符或汉字字符。
第三方面,提供了一种电子设备,该电子设备可以包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的输入法的纠错方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的输入法的纠错方法。
本发明实施例提供的一种输入文本的纠错方法、装置及电子设备。该纠错方法可以获取终端的显示屏上光标位置的输入文本;按照输入文本中字符的输入顺序,获取输入文本中第一字符前的预设数量个第二字符,以及预设数量个第二字符与第一字符组成的组合字符串,第一字符为输入文本中的最后一个字符;在预存词库中,查找与组合字符串满足预设匹配条件的待选字符串,该待选字符串为预存词库中用户常用的字符串;获取组合字符串的字符特征和待选字符串的字符特征,并将两者的字符特征分别采用预设评分算法,确定组合字符串的第一分数值和待选字符串的第二分数值。当第一分数值小于第二分数值时,可认为组合字符串存在语法错误,生成输入文本的纠错信息,该纠错信息用于表示将组合字符串修改为待选字符串,输出该纠错信息,以用于终端显示屏上输出纠错信息。也就是说,该方法可以对显示屏上光标位置的输入文本进行语法检测,对于语法错误的字符串,终端可以直接向用户展示纠错信息,不需要用户重新输入,提高了用户的输入效率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种输入文本的纠错方法的流程示意图;
图2为本发明实施例提供的一种聊天页面的示意图;
图3为本发明实施例提供的一种纠错装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
本发明实施例提供的输入文本的纠错方法可以应用在服务器上,也可以应用在终端上。为了保证纠错的精确性,服务器是具有较强计算能力的应用服务器;终端可以是具有较强的计算能力的用户设备(User Equipment,UE)、具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobilestation,MS)等等。
下面以服务器执行该纠错方法为例,该方法可以对终端的显示屏上光标位置的输入文本进行纠错,同时由于服务器具有将强的计算能力,对输入文本进行语法纠错时,可以将输入文本的最后一个字符与更多的上文字符或字符串进行组合,判断这些组合是否有语法错误,也就是说,利用输入文本的最后一个字符与更多的上文信息为用户提供符合语法的纠错信息。
图1为本发明实施例提供的一种输入文本的纠错方法的流程示意图。如图1所示,该方法的执行主体可以是服务器,该方法可以包括:
步骤110、获取终端的显示屏上光标位置的输入文本。
在使用输入法进行输入字符时,服务器获取终端的显示屏上光标位置的输入文本,如“He thinks I an”。如图2所示,在终端的聊天工具中,终端的显示屏上光标位置为标记200所示的位置。
步骤120、按照输入文本中字符的输入顺序,获取输入文本中第一字符前的预设数量个第二字符,并确定预设数量个第二字符与第一字符组成的组合字符串,第一字符为输入文本中的最后一个字符。
基于预设数量的不同,第二字符与第一字符组成的组合字符串可以为多个,如输入文本为“He thinks I an”时,组合字符串可以是“I an”、“thinks I an”等等。也就是说,组合字符串是由至少一个第二字符与第一字符组成的至少一个组合。其中,预设数量个第二字符为至少两个第二字符。
步骤130、在预存词库中,查找与组合字符串满足预设匹配条件的待选字符串。
预存词库中存储了所有用户曾输入过或符合语法规则的常用字符串或字符串组成的词。将组合字符串与预存词库中存储的字符串进行比较,查找与组合字符串完全匹配或相似的字符串,其中,相似的字符串是指将待选字符串中字符通过字符的插入、删除、替换或交换字符的顺序操作后与组合字符串相同的字符串。例如,若组合字符串为“thinks Ian”,则待选字符串可能为“thinks I am”;若组合字符串为“whft”,则待选字符串可能为“what”。
其中,为了提高待选字符串与组合字符串的相似程度,确定进行字符操作的字符个数最少的字符串为待选字符串,例如组合字符串为“whft”,对于预设词库中的字符串“why”和“what”中,“why”相对于“whft”删除了字符t并将f替换为y,而“what”相对于“whft”仅仅是将f替换为a,因此选取字符串“what”作为待选字符串。
可以理解的是,在预存词库中,多个组合字符串中的每个组合字符串可以查找到满足预设匹配条件的至少一个待选字符串。例如,组合字符串为“I an”,待选字符串可以是“I can”、“I am”等等。进一步的,查找到的待选字符串可以按照相应字符串的指定字符特征进行顺序排列。字符串的字符特征可以包括字符串的使用频率、字符串中字符的临近键位、字符串中各字符排列顺序出现的概率等。其中,字符串中各字符排列顺序出现的概率是指每种字符排列顺序的字符串在各字符可能的所有组合中出现的概率。
步骤140、获取组合字符串的字符特征和待选字符串的字符特征。
获取组合字符串和待选字符串的字符特征。字符串的字符特征可以包括字符串的使用频率、字符串中字符的临近键位、字符串中各字符排列顺序出现的概率等。其中,字符串中各字符排列顺序出现的概率是指每种字符排列顺序的字符串在各字符可能的所有组合中出现的概率。
可选地,字符特征的获取方法可以预置预存词库,在预存词库接收用户输入的字符串过程中记录该字符串的相应字符特征,使用时调取记录的相应字符特征;字符特征的获取方法也可以是在使用时,对预存词库已存储的用户输入过的字符串进行统计,来获取相应字符特征,还可以通过其他获取方法来获取,本发明实施例在此不做赘述。
步骤150、基于组合字符串的字符特征以及待选字符串的字符特征,分别采用预设评分算法,确定组合字符串的第一分数值和待选字符串的第二分数值。
预设评分算法可以是加权求和评分算法。
基于组合字符串的多个字符特征,以及待选字符串的多个字符特征,分别采用加权求和算法,确定组合字符串的第一分数值和待选字符串的第二分数值。按照字符串的使用频率、字符串中字符的临近键位和字符串中各字符排列顺序出现的概率的重要程度,预先用一个变量值表示每个字符特征。将每个字符特征的变量值乘以该字符特征出现的相应权数,之后求和得到字符串分数值。
步骤160、当第一分数值小于第二分数值时,生成输入文本的纠错信息,纠错信息用于表示将组合字符串修改为待选字符串。
由于每个组合字符串可以查找到至少一个待选字符串,因此,将每个组合字符串的第一分数值与相应的至少一个待选字符串的第二分数值进行比较。
当比较条件满足第一分数值小于第二分数值时,证明用户输入的组合字符串有语法错误,此时将满足比较条件的第二分数值对应的待选字符串确定为是正确的组合字符串;
基于获取的正确的组合字符串,生成输入文本的纠错信息,纠错信息用于表示将组合字符串修改为待选字符串。也就是说,纠错信息具体用于表示对组合字符串进行字符的插入、删除、替换或交换字符的顺序操作修改为待选字符串。
可以理解的是,当第一分数值大于第二分数值时,证明用户输入的组合字符串没有语法错误,无纠错信息生成。
步骤170、输出纠错信息。
服务器向终端发送获取的纠错信息。
终端将接收到的纠错信息,在终端的显示屏上输出,以供用户选择修改。如图2所示,对于输入文本“He thinks I an”,终端的显示屏上向用户展示标记为210的纠错信息“an—>am”。
进一步的,在终端显示屏上显示了纠错信息的情况下,当前用户不对输入文本进行纠错,且在输入文本的基础上继续输入字符,当前输入文本变为“He thinks I an agread”,其中,正确的输入文本应为“He thinks I an a great teacher”,此时返回执行步骤110-步骤170,当前的第一分数值小于第二分数值,即用户输入的组合字符串有语法错误,生成当前输入文本的纠错信息。此时终端的显示屏上将原输入文本的纠错信息替换为当前输入文本的纠错信息。
可选地,在终端显示屏上显示了纠错信息的情况下,当前用户不对输入文本进行纠错,且将当前输入文本发送到文档中,此时终端将取消显示发出后的当前输入文本的纠错信息。
在一个例子中,输入法应用在服务器中,服务器获取终端的显示屏上光标位置的输入文本“I want to plau football”。按照输入文本中字符的输入顺序,获取输入文本中最后一个字符“l”前的其他字符,并确定其他字符与最后一个字符“l”组成的组合字符串。组合字符串可以有“ball”、“football”和“plau football”。在输入法的预存词库中,查找与上述三个组合字符串满足预设匹配条件的待选字符串。对于字符串“ball”和“football”可以查找到完全相同的待选字符串,对于字符串“plau football”可以查找到待选字符串“play football”。获取上述组合字符串的字符特征和相应待选字符串的字符特征,基于组合字符串的字符特征以及待选字符串的字符特征,分别采用预设评分算法,可以分别确定出组合字符串“ball”、“football”和“plau football”的组合字符串的第一分数值和相应待选字符串“ball”、“football”和“play football”的第二分数值。检测到组合字符串“ball”与“football”的第一分数值都不小于相应待选字符串的第二分数值,而组合字符串“play football”的第一分数值都小于相应待选字符串“play football”的第二分数值。此时生成输入文本的纠错信息,该纠错信息为将“plau”修改为“play”。
可见,该方法可以获取终端的显示屏上光标位置的输入文本,并按照输入文本中字符的输入顺序,获取输入文本中第一字符前的预设数量个第二字符,以及预设数量个第二字符与第一字符组成的组合字符串,第一字符为输入文本中的最后一个字符;在预存词库中查找与组合字符串满足预设匹配条件的待选字符串,获取相应字符串的字符特征,并将两者的字符特征分别采用预设评分算法,确定第一分数值和第二分数值。当第一分数值小于第二分数值时,可认为组合字符串存在语法错误,生成并输出输入文本的纠错信息,该纠错信息用于表示将组合字符串修改为待选字符串,以用于终端显示屏上输出纠错信息。也就是说,对于有语法错误的输入文本,终端可以直接向用户展示纠错信息供用户选择,不需要用户查询与重新输入的操作,提高了用户的输入效率。
图3为本发明实施例提供的一种纠错装置的结构示意图。如图3所示,该装置可以包括:第一获取模块310、第二获取模块320、查找模块330、第三获取模块340、确定模块350、生成模块360和输出模块370。
第一获取模块310,用于获取终端的显示屏上光标位置的输入文本。
第二获取模块320,用于按照输入文本中字符的输入顺序,获取输入文本中第一字符前的预设数量个第二字符,并确定预设数量个第二字符与第一字符组成的组合字符串,第一字符为输入文本中的最后一个字符。
查找模块330,用于在预存词库中,查找与组合字符串满足预设匹配条件的待选字符串。
第三获取模块340,用于获取组合字符串的字符特征和待选字符串的字符特征。
确定模块350,用于基于组合字符串的字符特征,以及待选字符串的字符特征,分别采用预设评分算法,确定组合字符串的第一分数值和待选字符串的第二分数值。
生成模块360,用于当第一分数值小于第二分数值时,生成输入文本的纠错信息,纠错信息用于表示将组合字符串修改为待选字符串。
输出模块370,用于输出纠错信息。
可选地,确定模块350,具体用于基于组合字符串的多个字符特征,以及待选字符串的多个字符特征,分别采用加权求和算法,确定组合字符串的第一分数值和待选字符串的第二分数值。
可选地,字符串的字符特征包括:字符串的使用频率、字符串中字符的临近键位和字符串中各字符排列顺序出现的概率。
可选地,输出模块370,具体用于向终端发送纠错信息,用于在显示屏上输出纠错信息。
可选地,纠错信息具体用于表示对组合字符串进行字符的插入、删除、替换或交换字符的顺序操作修改为待选字符串。
可选地,输入文本包括英文字符或汉字字符。
本发明上述实施例提供的纠错装置的各功能模块的功能,可以通过上述各方法步骤来实现,因此,本发明实施例提供的纠错装置中的各个模块的具体工作过程和有益效果。在此不复赘述。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器410、通信接口420、存储器430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信,
存储器430,用于存放计算机程序;
处理器410,用于执行存储器430上所存放的程序时,实现如下步骤:
获取终端的显示屏上光标位置的输入文本;
按照输入文本中字符的输入顺序,获取输入文本中第一字符前的预设数量个第二字符,并确定预设数量个第二字符与第一字符组成的组合字符串,第一字符为输入文本中的最后一个字符;
在预存词库中,查找与组合字符串满足预设匹配条件的待选字符串;
获取组合字符串的字符特征和待选字符串的字符特征;
基于组合字符串的字符特征,以及待选字符串的字符特征,分别采用预设评分算法,确定组合字符串的第一分数值和待选字符串的第二分数值;
当第一分数值小于第二分数值时,生成输入文本的纠错信息,纠错信息用于表示将组合字符串修改为待选字符串;
输出纠错信息。
可选地,基于组合字符串的字符特征,以及待选字符串的字符特征,分别采用预设评分算法,确定组合字符串的第一分数值和待选字符串的第二分数值,包括:
基于组合字符串的多个字符特征,以及待选字符串的多个字符特征,分别采用加权求和算法,确定组合字符串的第一分数值和待选字符串的第二分数值。
可选地,字符串的字符特征包括:字符串的使用频率、字符串中字符的临近键位和字符串中各字符排列顺序出现的概率。
可选地,输出纠错信息,包括:向终端发送纠错信息,用于在显示屏上输出纠错信息。
可选地,纠错信息具体用于表示对组合字符串进行字符的插入、删除、替换或交换字符的顺序操作修改为待选字符串。
可选地,输入文本包括英文字符或汉字字符。
可见,处理器410获取终端的显示屏上光标位置的输入文本后,按照输入文本中字符的输入顺序,获取输入文本中第一字符前的预设数量个第二字符,以及预设数量个第二字符与第一字符组成的组合字符串,第一字符为输入文本中的最后一个字符;在预存词库中查找与组合字符串满足预设匹配条件的待选字符串,获取相应字符串的字符特征,并将两者的字符特征分别采用预设评分算法,确定第一分数值和第二分数值。当第一分数值小于第二分数值时,可认为组合字符串存在语法错误,生成并输出输入文本的纠错信息,该纠错信息用于表示将组合字符串修改为待选字符串,以用于终端显示屏上输出纠错信息。也就是说,对于有语法错误的输入文本,终端可以直接向用户展示纠错信息供用户选择,不需要用户查询与重新输入的操作,提高了用户的输入效率。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的输入文本的纠错方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的输入文本的纠错方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质和计算机程序产品的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (14)

1.一种输入文本的纠错方法,其特征在于,所述方法包括:
获取终端的显示屏上光标位置的输入文本;
按照所述输入文本中字符的输入顺序,获取所述输入文本中第一字符前的预设数量个第二字符,并确定所述预设数量个第二字符与所述第一字符组成的组合字符串,所述第一字符为所述输入文本中的最后一个字符;
在预存词库中,查找与所述组合字符串满足预设匹配条件的待选字符串;其中,所述查找与所述组合字符串满足预设匹配条件的待选字符串,包括:查找与所述组合字符串完全匹配或相似的字符串,作为待选字符串;所述相似的字符串为:将所述待选字符串中字符通过字符的插入、删除、替换或交换字符的顺序操作后与所述组合字符串相同的字符串;
获取所述组合字符串的字符特征和所述待选字符串的字符特征;
基于所述组合字符串的字符特征,以及所述待选字符串的字符特征,分别采用预设评分算法,确定所述组合字符串的第一分数值和所述待选字符串的第二分数值;其中,所述预设评分算法为加权求和算法;
当所述第一分数值小于所述第二分数值时,生成所述输入文本的纠错信息,所述纠错信息用于表示将所述组合字符串修改为所述待选字符串;
输出所述纠错信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述组合字符串的字符特征,以及所述待选字符串的字符特征,分别采用预设评分算法,确定所述组合字符串的第一分数值和所述待选字符串的第二分数值,包括:
基于所述组合字符串的多个字符特征,以及所述待选字符串的多个字符特征,分别采用加权求和算法,确定所述组合字符串的第一分数值和所述待选字符串的第二分数值。
3.根据权利要求1或2所述的方法,其特征在于,字符串的字符特征包括:
字符串的使用频率、字符串中字符的临近键位和字符串中各字符排列顺序出现的概率。
4.根据权利要求1所述的方法,其特征在于,所述输出所述纠错信息,包括:
向所述终端发送所述纠错信息,用于在所述显示屏上输出所述纠错信息。
5.根据权利要求1所述的方法,其特征在于,所述纠错信息具体用于表示对所述组合字符串进行字符的插入、删除、替换或交换字符的顺序操作修改为所述待选字符串。
6.根据权利要求1所述的方法,其特征在于,所述输入文本包括英文字符或汉字字符。
7.一种纠错装置,其特征在于,所述装置包括:
第一获取模块、第二获取模块、查找模块、第三获取模块、确定模块、生成模块和输出模块;
所述第一获取模块,用于获取终端的显示屏上光标位置的输入文本;
所述第二获取模块,用于按照所述输入文本中字符的输入顺序,获取所述输入文本中第一字符前的预设数量个第二字符,并确定所述预设数量个第二字符与所述第一字符组成的组合字符串,所述第一字符为所述输入文本中的最后一个字符;
所述查找模块,用于在预存词库中,查找与所述组合字符串满足预设匹配条件的待选字符串;其中,所述查找与所述组合字符串满足预设匹配条件的待选字符串,包括:查找与所述组合字符串完全匹配或相似的字符串,作为待选字符串;所述相似的字符串为:将所述待选字符串中字符通过字符的插入、删除、替换或交换字符的顺序操作后与所述组合字符串相同的字符串;
所述第三获取模块,用于获取所述组合字符串的字符特征和所述待选字符串的字符特征;
所述确定模块,用于基于所述组合字符串的字符特征,以及所述待选字符串的字符特征,分别采用预设评分算法,确定所述组合字符串的第一分数值和所述待选字符串的第二分数值;其中,所述预设评分算法为加权求和算法;
所述生成模块,用于当所述第一分数值小于所述第二分数值时,生成所述输入文本的纠错信息,所述纠错信息用于表示将所述组合字符串修改为所述待选字符串;
所述输出模块,用于输出所述纠错信息。
8.根据权利要求7所述的装置,其特征在于,所述确定模块,具体用于基于所述组合字符串的多个字符特征,以及所述待选字符串的多个字符特征,分别采用加权求和算法,确定所述组合字符串的第一分数值和所述待选字符串的第二分数值。
9.根据权利要求7或8所述的装置,其特征在于,字符串的字符特征包括:
字符串的使用频率、字符串中字符的临近键位和字符串中各字符排列顺序出现的概率。
10.根据权利要求7所述的装置,其特征在于,所述输出模块,具体用于向所述终端发送所述纠错信息,用于在所述显示屏上输出所述纠错信息。
11.根据权利要求7所述的装置,其特征在于,所述纠错信息具体用于表示对所述组合字符串进行字符的插入、删除、替换或交换字符的顺序操作修改为所述待选字符串。
12.根据权利要求7所述的装置,其特征在于,所述输入文本包括英文字符或汉字字符。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN201711394751.6A 2017-12-21 2017-12-21 输入文本的纠错方法、装置及电子设备 Active CN109948122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711394751.6A CN109948122B (zh) 2017-12-21 2017-12-21 输入文本的纠错方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711394751.6A CN109948122B (zh) 2017-12-21 2017-12-21 输入文本的纠错方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109948122A CN109948122A (zh) 2019-06-28
CN109948122B true CN109948122B (zh) 2023-06-20

Family

ID=67005401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711394751.6A Active CN109948122B (zh) 2017-12-21 2017-12-21 输入文本的纠错方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109948122B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472701B (zh) * 2019-08-14 2023-07-07 广东小天才科技有限公司 文字纠错方法、装置、电子设备和存储介质
CN111310013A (zh) * 2020-02-17 2020-06-19 上海蓝鹇信息科技有限公司 一种基于人工智能的自动纠错方法
CN111414728B (zh) * 2020-03-05 2023-07-07 金蝶蝶金云计算有限公司 数值数据展示方法、装置、计算机设备和存储介质
CN112380842B (zh) * 2020-11-25 2024-07-12 北京明略软件系统有限公司 人名纠错方法、装置、计算机设备和可读存储介质
CN112257965A (zh) * 2020-11-26 2021-01-22 深源恒际科技有限公司 图像文本识别置信度的预测方法和预测系统
CN113190125A (zh) * 2021-05-06 2021-07-30 维沃移动通信(杭州)有限公司 输入矫正方法和装置
CN115509374A (zh) * 2022-10-24 2022-12-23 科大讯飞股份有限公司 输入方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727271A (zh) * 2008-10-22 2010-06-09 北京搜狗科技发展有限公司 一种提供纠错提示的方法、装置及输入法系统
CN103136196A (zh) * 2008-04-18 2013-06-05 上海触乐信息科技有限公司 用于向电子设备输入文本和纠错的方法
CN103389915A (zh) * 2013-07-23 2013-11-13 百度在线网络技术(北京)有限公司 输入纠错方法、输入纠错装置、输入纠错服务器和系统
CN104615591A (zh) * 2015-03-10 2015-05-13 上海触乐信息科技有限公司 基于上下文的前向输入纠错方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110018812A1 (en) * 2009-07-21 2011-01-27 Cisco Technology, Inc. Fast Typographical Error Correction for Touchscreen Keyboards

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136196A (zh) * 2008-04-18 2013-06-05 上海触乐信息科技有限公司 用于向电子设备输入文本和纠错的方法
CN101727271A (zh) * 2008-10-22 2010-06-09 北京搜狗科技发展有限公司 一种提供纠错提示的方法、装置及输入法系统
CN103389915A (zh) * 2013-07-23 2013-11-13 百度在线网络技术(北京)有限公司 输入纠错方法、输入纠错装置、输入纠错服务器和系统
CN104615591A (zh) * 2015-03-10 2015-05-13 上海触乐信息科技有限公司 基于上下文的前向输入纠错方法和装置

Also Published As

Publication number Publication date
CN109948122A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109948122B (zh) 输入文本的纠错方法、装置及电子设备
US10210243B2 (en) Method and system for enhanced query term suggestion
CN107291792B (zh) 用于确定相关实体的方法和系统
CN110096655B (zh) 搜索结果的排序方法、装置、设备及存储介质
CN107590214A (zh) 搜索关键词的推荐方法、装置及电子设备
CN106874253A (zh) 识别敏感信息的方法及装置
US10242033B2 (en) Extrapolative search techniques
CN107783976B (zh) 用户信息挖掘方法及装置
US20210209482A1 (en) Method and apparatus for verifying accuracy of judgment result, electronic device and medium
JP6136702B2 (ja) 場所推定方法、場所推定装置および場所推定プログラム
CN112966081A (zh) 处理问答信息的方法、装置、设备和存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN107885875B (zh) 检索词的同义变换方法、装置及服务器
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN112949261A (zh) 文本还原方法、装置及电子设备
US20220284060A1 (en) Question Answering Method and Apparatus Based on Knowledge Graph
CN113220949B (zh) 一种隐私数据识别系统的构建方法及装置
CN104462369A (zh) 一种导航设备的搜索自动补全方法
JP4558369B2 (ja) 情報抽出システム、情報抽出方法、コンピュータプログラム
CN109597873B (zh) 语料数据的处理方法、装置、计算机可读介质及电子设备
CN110007779B (zh) 输入法预测首选项的确定方法、装置、设备及存储介质
CN110597800A (zh) 一种注释信息确定、前缀树构建方法及装置
JP5394512B2 (ja) 教師データ生成装置、方法及びプログラム
US11907275B2 (en) Systems and methods for processing text data for disabbreviation of text units
CN110297825B (zh) 数据处理方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant