CN104298672A - 一种输入的纠错方法和装置 - Google Patents

一种输入的纠错方法和装置 Download PDF

Info

Publication number
CN104298672A
CN104298672A CN201310298446.2A CN201310298446A CN104298672A CN 104298672 A CN104298672 A CN 104298672A CN 201310298446 A CN201310298446 A CN 201310298446A CN 104298672 A CN104298672 A CN 104298672A
Authority
CN
China
Prior art keywords
error correction
character string
correction candidate
candidate character
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310298446.2A
Other languages
English (en)
Other versions
CN104298672B (zh
Inventor
桂正科
任尚昆
崔欣
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201310298446.2A priority Critical patent/CN104298672B/zh
Publication of CN104298672A publication Critical patent/CN104298672A/zh
Application granted granted Critical
Publication of CN104298672B publication Critical patent/CN104298672B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种输入的纠错方法和装置,以解决纠错候选准确性比较低的问题。所述的方法包括:采用纠错检测得到的错输串构造至少一个纠错候选字符串;基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串;将选择的纠错候选字符串转换为对应的纠错候选文字串。

Description

一种输入的纠错方法和装置
技术领域
本发明涉及输入法技术,特别是涉及一种输入的纠错方法和装置。
背景技术
计算机、互联网技术的普及,使得人机交互愈发流行,对于用户而言,输入法是人机交互的主要接口。统计发现,用户使用输入法进行文字输入的过程中存在大量的错输行为,如想要输入“jimi”,但却错输成了“nimi”。
当前主流的输入法软件大都提供了输入纠错功能。其过程为:首先检测到用户输入的编码字符串串中的错输片段,修改错输片段并生成若干纠错候选字符串,评估纠错候选字符串的优先级,音字转换后,展示最优纠错候选给用户。其中,在确定纠错候选字符串并进行音字转换后,若所述纠错候选字符串下对应多个文字串,则只根据各文字串出现的概率作为衡量依据、选出概率最高的候选文字串展示。
但是,上述方法进行纠错时是一个孤立的过程,匹配得到的最优纠错候选字符串和概率最高的候选文字串很可能出错。例如对错输的字符串“nimi”,可能会被纠正为“jimi”、“limi”、“mimi”、“nime”中的一个,最优纠错候选字符串可能为“limi”,而实际用户想要输入的可能是“jimi”。即使最优纠错候选字符串为“jimi”,针对候选项“机密”“几米”“吉米”等,会选取概率最高的候选文字串“机密”对用户进行展示。而实际上,用户可能输入的是“shinimi”,而期望得到的是“shijimi(十几米)”,或者用户输入的是“nimimanhua”,想要得到的是“jimimanhua(几米漫画)”。
因此,采用上述方法对输入进行纠错后,展示给用户的纠错候选准确性比较低,很可能没有用户想要输入的内容。
发明内容
本发明实施例提供了一种输入的纠错方法和装置,以解决纠错候选准确性比较低的问题。
为了解决上述问题,本发明实施例公开了一种输入的纠错方法,包括:
采用纠错检测得到的错输串构造至少一个纠错候选字符串;
基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串;
将选择的纠错候选字符串转换为对应的纠错候选文字串。
可选的,所述将选择的纠错候选字符串转换为对应的纠错候选文字串之后,还包括:基于上下文信息计算所述纠错候选文字串的第二概率,并依据所述第二概率对所述纠错候选文字串进行选择。
可选的,所述上下文信息包括上下文字符串;所述基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串,包括:基于上下文字符串确定所述构造的纠错候选字符串在上下文中的第一概率;将所述构造的纠错候选字符串按照第一概率由大到小进行排序,选择前N个纠错候选字符串,其中N为正整数。
可选的,所述基于上下文字符串确定所述构造的纠错候选字符串在上下文中的第一概率,包括:计算在所述上下文字符串的基础上,所述构造的纠错候选字符串出现的概率;计算在所述上下文字符串的基础上,所述构造的纠错候选字符串被错输成所述错输串的概率;基于所述构造的纠错候选字符串出现的概率和被错输成所述错输串的概率,确定对构造的纠错候选字符串在上下文中的第一概率。
可选的,所述上下文信息还包括:上下文文字串;所述方法还包括:从上屏内容中获取上屏文字串作为上下文文字串;将所述上屏文字串对应字符串作为上下文字符串。
可选的,所述上下文字符串为包含切分方式的字符串;所述将上屏文字串对应字符串作为上下文字符串,包括:根据所述上下文文字串确定所述上下文字符串的切分方式。
可选的,所述基于上下文信息计算所述纠错候选文字串的第二概率,并依据所述第二概率对所述纠错候选文字串进行选择,包括:计算在所述上下文文字串的基础上,确定所述纠错候选文字串在上下文中出现的第二概率;将所述纠错候选文字串按照所述第二概率由大到小进行排序,选取前M个纠错候选文字串,其中M为正整数。
可选的,所述的方法还包括:依据预置展示规则,从所述纠错候选文字串中选取至少一个纠错候选文字串进行展示。
相应的,本发明实施例还公开了一种输入的纠错装置,包括:
构造模块,用于采用纠错检测得到的错输串构造至少一个纠错候选字符串;
字符串选择模块,用于基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串;
转换模块,用于将选择的纠错候选字符串转换为对应的纠错候选文字串。
可选的,所述的装置还包括:文字串选择模块,用于基于上下文信息计算所述纠错候选文字串的第二概率,并依据所述第二概率对所述纠错候选文字串进行选择。
可选的,所述上下文信息包括:上下文字符串;所述字符串选择模块,包括:第一概率计算子模块,用于基于上下文字符串确定所述构造的纠错候选字符串在上下文中的第一概率;字符串选择子模块,用于将所述构造的纠错候选字符串按照第一概率由大到小进行排序,选择前N个纠错候选字符串,其中N为正整数。
可选的,所述第一概率计算子模块,包括:出现概率计算单元,用于计算在所述上下文字符串的基础上,所述构造的纠错候选字符串出现的概率;错输概率计算单元,用于计算在所述上下文字符串的基础上,所述构造的纠错候选字符串被错输成所述错输串的概率;第一概率计算单元,用于基于所述构造的纠错候选字符串出现的概率和被错输成所述错输串的概率,确定对构造的纠错候选字符串在上下文中的第一概率。
可选的,所述上下文信息包括:上下文文字串;所述的装置还包括:上下文信息获取模块,用于从上屏内容中获取上屏文字串作为上下文文字串;将所述上屏文字串对应字符串作为上下文字符串。
可选的,所述上下文字符串为包含切分方式的字符串;所述上下文信息获取模块,还用于根据所述上下文文字串确定所述上下文字符串的切分方式。
可选的,所述文字串选择模块,包括:第二概率计算子模块,用于计算在所述上下文文字串的基础上,确定所述纠错候选文字串在上下文中出现的第二概率;文字串选取子模块,用于将所述纠错候选文字串按照所述第二概率由大到小进行排序,选取前M个纠错候选文字串,其中M为正整数。
可选的,展示模块,用于依据预置展示规则,从所述纠错候选文字串中选取至少一个纠错候选文字串进行展示。
与现有技术相比,本发明包括以下优点:
针对纠错检测得到的错输串构造至少一个纠错候选字符串,从而基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串,选取符合上下文语境的错候选字符串,进而能够将选择的纠错候选字符串转换为对应的纠错候选文字串,使得到的纠错候选文字串更加符合输入的语境,提高纠错的准确性。
附图说明
图1是本发明实施例一提供的输入的纠错方法流程图;
图2是本发明实施例二提供的输入的纠错方法流程图;
图3是本发明实施例三提供的输入的纠错装置结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供一种输入纠错方法,针对纠错检测得到的错输串构造至少一个纠错候选字符串,从而基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串,选取符合上下文语境的错候选字符串,进而能够将选择的纠错候选字符串转换为对应的纠错候选文字串,使得到的纠错候选文字串更加符合输入的语境,提高纠错的准确性。
实施例一
参照图1,给出了本发明实施例一提供的输入的纠错方法流程图。
步骤101,采用纠错检测得到的错输串构造至少一个纠错候选字符串。
用户输入编码字符串以进行文字输入时,可能会存在错输的行为,如由于疏忽导致的输入的编码字符串出现错误,难以得到正确的候选项。此时要对输入的编码字符串进行纠错检测,从而得到编码字符串中的错输串,所述错输串即输错的编码字符串。然后进一步对错输串进行修改,以构造至少一个纠错候选字符串,在修改错输串时可以采用插入、删除、交换、替换等操作,从而构造出若干纠错候选字符串,本部分可以采用现有技术或能够产生纠错候选字符串的其他技术,不是本发明的重点,因此不再详述。
其中,所述编码字符串是输入法系统直接接收的用户输入内容,输入法系统可以根据用户当前使用的输入方式,将这些输入内容转换为所输入文字的字词候选项,提供给用户选择。用户可以采用任意的输入手段进行编码字符串的输入,如键盘、触摸、音频等;用户也可以采用任意的输入方式,如拼音、五笔、笔画、语音、手写等,本申请中不做限定。
步骤102,基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串。
本发明实施例为了提高纠错的准确性,采用上下文信息进行纠错,其中,上下文信息是指用户在输入环境(语境)中的上屏内容,如在当前宿主程序中的上屏内容,所述上屏内容指的是用户已完成输入并展示的内容。
可以基于上下文信息,计算构造的纠错候选字符串的第一概率,所述第一概率指的是给定上下文信息的前提下,在上下文中采用所述构造的纠错候选字符串的概率。从而可以依据第一概率对构造的纠错候选字符串进行评估,从而选出符合语境即上下文的纠错候选字符串。
步骤103,将选择的纠错候选字符串转换为对应的纠错候选文字串。
根据用户当前使用的输入方式,将选择的纠错候选字符串转换为对应的纠错候选文字串,从而可以得到至少一种纠错候选文字串。其中,文字串是对字符串通过转换得到的文字集合,因此,在输入法中上述文字串可以作为输入的候选项。
综上,针对纠错检测得到的错输串构造至少一个纠错候选字符串,从而基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串,即选取符合上下文语境的纠错候选字符串,进而将选择的纠错候选字符串转换为对应的纠错候选文字串,使得到的纠错候选文字串更加符合输入的语境,提高纠错的准确性。
实施例二
参照图2,给出了本发明实施例二提供的输入纠错方法流程图。
步骤201,采用纠错检测得到的错输串构造至少一个纠错候选字符串。
用户想要输入“jimi(机密)”却错输为“nimi”。此时,通过纠错检测可以检测出错输串“nimi”,然后利用插入、删除、交换、替换等操作能够构造大量的纠错候选字符串,包括“niim”,“nim”,“nmi”,“jimi”,“limi”,“mimi”等。
步骤202,从上屏内容中获取上下文信息。
实际处理中,上下文信息包括:上下文字符串和/或上下文文字串。从上屏内容中获取上下文信息进一步包括:从上屏内容中获取上屏文字串作为上下文文字串;将所述上屏文字串对应字符串作为上下文字符串;采用所述上下文文字串和/或上下文字符串构成所述上下文信息。
候选项出现的概率与其前X个上屏项(上屏文字)有关,为了提高纠错的准确性,本发明实施例从上屏内容中获取上下文信息,后续依据上下文信息确定纠错候选字符串和纠错候选文字串。
通常状况下,取X≤3就可以满足用户的输入需求,即可得到较高的准确性,因此,本发明实施例为了减少对资源的浪费,提高计算的效率,可以根据实际情况及用户所使用客户端的计算能力选定X取1~3之间的任一值。例如,当用户处于连续输入过程中时,根据客户端计算资源的富余情况,资源最富余时X取3,最差时取1等。当然,实际处理中X也可以取大于3的任意整数,本发明实施例对此不作限定。
因此可以结合客户端的计算能力、上一次的上屏信息确定选取的X的值,然后从上屏内容中获取后X个上屏文字构成上屏文字串,然后将该上屏文字串作为上下文文字串。
此外,由于相同的字符串可能会转化成多种不同的文字串,例如,用户输入“wohenfangan”,可以被切分为“wo’hen’fan’gan(我很反感)”、“wo’hen’fang’an(我很方案)”,因此,为了保证获取准确的上下文信息,即确保上下文字符串准确性,可以将上下文字符串与上下文文字串关联,即上下文字符串的切分方式由上下文文字串决定。
因此,如果所述上下文字符串为包含切分方式的字符串,则将上屏文字串对应字符串作为上下文字符串,包括:根据所述上下文文字串确定所述上下文字符串的切分方式。具体的,可以将所述上屏文字串转化为对应字符串,在转化字符串的同时确定字符串的切分方式,然后将转化后的带有切分方式的字符串作为上下文字符串,从而采用所述上下文文字串和带有切分方式的上下文字符串构成所述上下文信息。
因此针对上例,若上屏内容,即上下文文字串信息为“我很反感”,则将上下文文字串转换为对应的字符串时,可以得到采用如下方式进行切分的字符串“wo’hen’fan’gan”。
针对步骤201中的例子,上屏内容为“保守”,则上下文文字串为“保守”,对应上文字符串为“baoshou(保守)”。
可选的,上述步骤102基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串,包括:
步骤203,基于上下文字符串确定所述构造的纠错候选字符串在上下文中的第一概率。
步骤204,将所述构造的纠错候选字符串按照第一概率由大到小进行排序,选择前N个纠错候选字符串。
本发明实施例中,构造出纠错候选字符串后,可以利用上下文字符串确定所述构造的纠错候选字符串在上下文中的第一概率,从而依据第一概率选出最优的N个纠错候选字符串。
其中,选取最优纠错候选字符串的过程,可以看作是根据错输串搜索概率最高的纠错候选字符串过程,可以采用贝叶斯公式进行计算,从而确定未引入上下文信息时各构造的纠错候选字符串的概率,公式如下:
p ( dst | src ) = p ( src | dst ) * p ( dst ) p ( src ) - - - ( 1 )
其中,src代表用户输入的包含该错输串的编码字符串;dst代表构造的纠错候选字符串。则公式(1)中表达的含义为:在给定错输串情况下,构造的纠错候选字符串的概率。
其中,可以将上述公式(1)称为信道模型,或称为原始字符串噪音信道模型,将p(src|dst)称为纠错模型,将p(dst)称为语言模型,则对信道模型的计算可以转化为对后两个模型得分的计算。并且,对于所有候选项,分母p(src)固定不变,因此可以忽略不计。
本申请中引入上下文字符串,则选取纠错候选字符串的过程可以看作是:根据包含上下文字符串的错输串,搜索在当前上下文中概率最高的纠错候选字符串的过程,则上述公式(1)变更为:
p ( dst ′ | src ′ ) = p ( src ′ | dst ′ ) * p ( dst ′ ) p ( src ′ ) - - - ( 2 )
其中,src'代表包含上下文字符串的用户输入的编码字符串,其中该编码字符串中包含错输串,dst'代表包含上下文字符串的纠错候选字符串,则公式(2)表达的含义为,给定包含上下文字符串的错输串的前提下,确定在该上下文中构造的纠错候选字符串的概率,即构造的纠错候选字符串在上下文中的第一概率。
其中,p(src'|dst')指的是结合了上下文字符串的纠错模型;而p(dst')指的是结合了上下文字符串的语言模型,从而对信道模型的计算可以转化为对这两个模型得分的计算。同样的,对于所有候选项,分母p(src′)固定不变,因此可以忽略不计。
可选的,上述步骤203基于上下文字符串确定所述构造的纠错候选字符串在上下文中的第一概率,包括如下子步骤:
子步骤S2031,计算在所述上下文字符串的基础上,所述构造的纠错候选字符串出现的概率;
子步骤S2032,计算在所述上下文字符串的基础上,所述构造的纠错候选字符串被错输成所述错输串的概率;
子步骤S2033,基于所述构造的纠错候选字符串出现的概率和被错输成所述错输串的概率,确定对构造的纠错候选字符串在上下文中的第一概率。
即针对公式(2),可以计算其在结合了上下文字符串的的语言模型得分,即上述子步骤S2031得到的构造的纠错候选字符串出现的概率、以及结合了上下文字符串的纠错模型得分,即上述子步骤S2032得到的构造的纠错候选字符串被错输成所述错输串的概率,从而对引入上下文字符串的信道模型的计算可以转化为对这两个模型得分的计算,即通过子步骤S2033确定对构造的纠错候选字符串在上下文中的第一概率。
假设,纠错候选字符串为B,上下文字符串为A,则对应的包含上下文字符串的语言模型得分,可以采用如下公式计算:
p(dst')=p(A,B)=p(A)*p(B|A)   (3)
公式(3)中涉及到计算包含上下文字符串的语言模型得分,实际处理中可以通过统计的方式获取。例如,针对汉语拼音输入而言,可以建立基于拼音音节的二元或者三元语言模型,以描述在给定上文字符串信息前提下,当前字符串的出现概率。
由于上下文字符串可以依据上下文文字串来确定,并且可以依据上下文文字串的切分方式对上下文字符串进行切分,因此,在选取计算公式,即包含上下文字符串的信道模型、语言模型和纠错模型时,可以依据上下文文字串中文字的个数确定模型(信道模型、语言模型和纠错模型)的种类,若文字的个数为2,则可以二元模型;若文字的个数为3,则可以三元模型等。
其中,包含上下文字符串的二元语言模型得分数据如表1所示:
条目 概率
Prob(nimi|baoshou) 0.0001978352
Prob(limi|baoshou) 0.0002137534
Prob(jimi|baoshou) 0.1475296753
Prob(mimi|baoshou) 0.1391275362
表1
表1中第二行到第五行描述了给定上下文字符串“baoshou”的条件下,出现“nimi”、“limi”、“jimi”、“mimi”的概率分布。基于此,对于每一个字符串,均可以采用上述方法计算以其作为上下文字符串时其它字符串出现的概率,作为包含上下文字符串信息的二元语言模型得分。同理,也可以计算包含上下文字符串的三元语言模型得分。
对于包含上下文字符串的纠错模型得分p(src'|dst'),可以理解为在当前上下文中,该纠错候选字符串被错输为该错输串的概率,具体实现时可以通过统计的方法获得,其中,包含上下文字符串的纠错模型得分数据如表2所示:
条目 概率
Prob(limi=>nimi|baoshou) 0.0001315267
Prob(nimu=>nimi|baoshou) 0.0001572830
Prob(jimi=>nimi|baoshou) 0.3375298639
Prob(mimi=>nimi|baoshou) 0.2491272234
表2
表2中,第二行到第五行描述了给定上下文字符串信息“baoshou”的前提下,字符串“limi”、“nimu”、“jili”、“mimi”各自被错输为“nimi”的概率。基于此,对于每一个字符串,进一步可以通过上述方法计算以其作为上下文字符串信息时,下文的字符串被错输为其它字符串的概率,作为包含上下文字符串信息的二元纠错模型得分。同理,也可以统计出包含上下文信息的三元纠错模型得分。
从而通过上述方法,可以计算出各构造的纠错候选字符串的在上下文中的第一概率,然后构造的纠错候选字符串按照第一概率由大到小进行排序,从中选取排在前N个的纠错候选字符串,可以将其称为最优纠错候选字符串。本发明实施例中N为正整数。
针对上例,上下文字符串为“baoshou”,则采用信道模型进行计算时,首先计算在上下文字符串为“baoshou”的前提上,计算纠错候选字符串“baoshouniim”“baoshounim”“baoshounmi”“baoshoujimi”“baoshoulimi”“baoshoumimi”等采用语言模型的得分,即构造的纠错候选字符串出现的概率,然后再计算这些纠错候选字符串被错输为“baoshounimi”的概率,即纠错模型得分。从而得到各纠错候选字符串采用包含上下文字符串的信道模型得到的第一概率。
其中,“baoshoujimi(保守机密)”与“baoshoumimi(保守秘密)”两个纠错候选字符串的概率较大,排名靠前。假设,设定N为1,且“baoshoujimi”的概率最大,则在当前上下文中,错输串“nimi”的最优纠错字符串为“jimi”。
步骤205,将选择的纠错候选字符串转换为对应的纠错候选文字串。
步骤206,基于上下文信息计算所述纠错候选文字串的第二概率,并依据所述第二概率对所述纠错候选文字串进行选择,其进一步包括下述步骤20,61和2062。
步骤2061,计算在所述上下文文字串的基础上,所述纠错候选文字串在上下文中出现的第二概率。
由于同一纠错候选字符串可能会转化成多种纠错候选文字串,例如,纠错候选字符串“jimi”可以转化成的纠错候选文字串包括:“机密”、“几米”、“吉米”等。因此还要根据上文文字串,确定转换后所应展现的纠错候选文字串。
上述通过语言模型可以计算构造的纠错候选字符串出现的概率,此时,也可以用语言模型计算错候选文字串出现的概率。两者的区别在于前者是基于上下文字符串进而对字符串的计算,即采用的是包含上下文字符串的语言模型,后者是基于上下文文字串而对错候选文字串进行计算,即采用的是包含上下文文字串的语言模型。
因此,在给定上下文文字串信息时,确定纠错候选文字串在上下文中出现的第二概率。其中,包含上下文文字串的语言模型的得分数据如表3所示:
条目 概率
Prob(机密|保守) 0.1361275761
Prob(几米|保守) 0.0001157334
Prob(吉米|保守) 0.0001296753
Prob(季密|保守) 0.0001938552
表3
表3中,第二行到第五行描述了给定上下文文字串“保守”的前提下,纠错候选文字串“机密”、“吉米”、“几米”、“季密”各自出现的概率。基于此,对于每一个文字串,都计算以其作为上下文文字串时,纠错候选文字串在下文文字串出现的第二概率,即包含上下文文字串信息的二元语言模型得分,例如Prob(保守机密)=P(保守)*P(机密|保守)。同理,也可以统计出包含上下文文字串的三元语言模型得分。
步骤2062,将所述纠错候选文字串按照所述第二概率由大到小进行排序,选取前M个纠错候选文字串。
然后可以按照第二概率由大到小的顺序对各纠错候选文字串进行排序,然后选出排在前M位的纠错候选文字串,其中M为正整数。
上例中,最优纠错字符串为“jimi”,最优纠错字符串“jimi”可以转化为多个纠错候选文字串,包括“机密”、“吉米”、“几米”等,进一步采用上文文字串信息“保守”作为语言模型的参数,计算所述纠错候选文字串在上下文中出现的第二概率,然后根据第二概率由小到大的顺序,假设M=1,则可以得出当前最优的纠错候选文字串为“机密”。
步骤207,依据预置展示规则,从所述纠错候选文字串中选取至少一个纠错候选文字串进行展示。
然后可以依据预置展示规则,从所述纠错候选文字串中选取至少一个纠错候选文字串,作为候选项进行展示。如预置展示规则为选取概率最大的2个纠错候选文字串作为候选项,其他的候选项是与错输串匹配的文字串,从而可以同时展示纠错候选文字串和错输串匹配的文字串。
预置展示规则可以是展示最优的唯一一个纠错候选文字串,也可以是展示两个以上。如本例中,可以将“nimi”纠成“mimi”,从而在候选项中可以展示“秘密”。其中,本发明实施例对预置展示规则不做限定。
综上,本发明结合上下文信息分别对纠错候选字符串和纠错候选文字串进行选取,使得到的纠错候选字符串和纠错候选文字串更加符合用户当前的输入语境,可以提供准确性比较高的候选结果。
其次,本发明实施例从上屏内容中获取上屏文字串作为上下文文字串,将上屏文字串对应字符串作为上下文字符串,从而获取上下文信息,为后续进行纠错提供准备,使后续可以快速依据上下文信息确定候选结果。
实施例三
参照图3,给出了本发明实施例三提供的输入的纠错装置结构图。
相应的,本发明实施例还提供了一种输入的纠错装置,包括:构造模块31、字符串选择模块32和转换模块33。
其中:构造模块31,用于采用纠错检测得到的错输串构造至少一个纠错候选字符串。
字符串选择模块32,用于基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串。
转换模块33,用于将选择的纠错候选字符串转换为对应的纠错候选文字串。
综上,针对纠错检测得到的错输串构造至少一个纠错候选字符串,从而基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串,选取符合上下文语境的错候选字符串,进而能够将选择的纠错候选字符串转换为对应的纠错候选文字串,使得到的纠错候选文字串更加符合输入的语境,提高纠错的准确性。
可选的,所述的装置还包括:文字串选择模块,用于基于上下文信息计算所述纠错候选文字串的第二概率,并依据所述第二概率对所述纠错候选文字串进行选择。
可选的,所述上下文信息包括:上下文字符串;所述字符串选择模块32,包括:第一概率计算子模块,用于基于上下文字符串确定所述构造的纠错候选字符串在上下文中的第一概率;字符串选择子模块,用于将所述构造的纠错候选字符串按照第一概率由大到小进行排序,选择前N个纠错候选字符串,其中N为正整数。
可选的,所述第一概率计算子模块包括:出现概率计算单元,用于计算在所述上下文字符串的基础上,所述构造的纠错候选字符串出现的概率;错输概率计算单元,用于计算在所述上下文字符串的基础上,所述构造的纠错候选字符串被错输成所述错输串的概率;第一概率计算单元,用于基于所述构造的纠错候选字符串出现的概率和被错输成所述错输串的概率,确定对构造的纠错候选字符串在上下文中的第一概率。
可选的,上下文信息包括:上下文文字串;所述的装置还包括:上下文信息获取模块,用于从上屏内容中获取上屏文字串作为上下文文字串;将所述上屏文字串对应字符串作为上下文字符串。
可选的,上下文字符串为包含切分方式的字符串;所述上下文信息获取模块,还用于根据所述上下文文字串确定所述上下文字符串的切分方式。
可选的,所述文字串选择模块,包括:第二概率计算子模块,用于计算在所述上下文文字串的基础上,确定所述纠错候选文字串在上下文中出现的第二概率;文字串选取子模块,用于将所述纠错候选文字串按照所述第二概率由大到小进行排序,选取前M个纠错候选文字串,其中M为正整数。
可选的,所述的装置还包括:展示模块,用于依据预置展示规则,从所述纠错候选文字串中选取至少一个纠错候选文字串进行展示。
综上,本发明结合上下文信息分别对纠错候选字符串和纠错候选文字串进行选取,使得到的纠错候选字符串和纠错候选文字串更加符合用户当前的输入语境,可以提供准确性比较高的候选结果。
其次,本发明实施例从上屏内容中获取上屏文字串作为上下文文字串,将上屏文字串对应字符串作为上下文字符串,从而获取上下文信息,为后续进行纠错提供准备,使后续可以快速依据上下文信息确定候选结果。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种输入的纠错方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种输入的纠错方法,其特征在于,包括:
采用纠错检测得到的错输串构造至少一个纠错候选字符串;
基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串;
将选择的纠错候选字符串转换为对应的纠错候选文字串。
2.根据权利要求1所述的方法,其特征在于,所述将选择的纠错候选字符串转换为对应的纠错候选文字串之后,还包括:
基于上下文信息计算所述纠错候选文字串的第二概率,并依据所述第二概率对所述纠错候选文字串进行选择。
3.根据权利要求1所述的方法,其特征在于,所述上下文信息包括上下文字符串;
所述基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串,包括:
基于上下文字符串确定所述构造的纠错候选字符串在上下文中的第一概率;
将所述构造的纠错候选字符串按照第一概率由大到小进行排序,选择前N个纠错候选字符串,其中N为正整数。
4.根据权利要求3所述的方法,其特征在于,所述基于上下文字符串确定所述构造的纠错候选字符串在上下文中的第一概率,包括:
计算在所述上下文字符串的基础上,所述构造的纠错候选字符串出现的概率;
计算在所述上下文字符串的基础上,所述构造的纠错候选字符串被错输成所述错输串的概率;
基于所述构造的纠错候选字符串出现的概率和被错输成所述错输串的概率,确定对构造的纠错候选字符串在上下文中的第一概率。
5.根据权利要求2至4任意一项所述的方法,其特征在于,所述上下文信息还包括:上下文文字串;
所述方法还包括:从上屏内容中获取上屏文字串作为上下文文字串;将所述上屏文字串对应字符串作为上下文字符串。
6.根据权利要求5所述的方法,其特征在于,所述上下文字符串为包含切分方式的字符串;
所述将上屏文字串对应字符串作为上下文字符串,包括:根据所述上下文文字串确定所述上下文字符串的切分方式。
7.根据权利要求5所述的方法,其特征在于,所述基于上下文信息计算所述纠错候选文字串的第二概率,并依据所述第二概率对所述纠错候选文字串进行选择,包括:
计算在所述上下文文字串的基础上,确定所述纠错候选文字串在上下文中出现的第二概率;
将所述纠错候选文字串按照所述第二概率由大到小进行排序,选取前M个纠错候选文字串,其中M为正整数。
8.根据权利要求1所述的方法,其特征在于,还包括:
依据预置展示规则,从所述纠错候选文字串中选取至少一个纠错候选文字串进行展示。
9.一种输入的纠错装置,其特征在于,包括:
构造模块,用于采用纠错检测得到的错输串构造至少一个纠错候选字符串;
字符串选择模块,用于基于上下文信息计算构造的纠错候选字符串的第一概率,并依据所述第一概率选择纠错候选字符串;
转换模块,用于将选择的纠错候选字符串转换为对应的纠错候选文字串。
10.根据权利要求9所述的装置,其特征在于,还包括:
文字串选择模块,用于基于上下文信息计算所述纠错候选文字串的第二概率,并依据所述第二概率对所述纠错候选文字串进行选择。
11.根据权利要求9所述的装置,其特征在于,所述上下文信息包括:上下文字符串;所述字符串选择模块,包括:
第一概率计算子模块,用于基于上下文字符串确定所述构造的纠错候选字符串在上下文中的第一概率;
字符串选择子模块,用于将所述构造的纠错候选字符串按照第一概率由大到小进行排序,选择前N个纠错候选字符串,其中N为正整数。
12.根据权利要求11所述的装置,其特征在于,所述第一概率计算子模块,包括:
出现概率计算单元,用于计算在所述上下文字符串的基础上,所述构造的纠错候选字符串出现的概率;
错输概率计算单元,用于计算在所述上下文字符串的基础上,所述构造的纠错候选字符串被错输成所述错输串的概率;
第一概率计算单元,用于基于所述构造的纠错候选字符串出现的概率和被错输成所述错输串的概率,确定对构造的纠错候选字符串在上下文中的第一概率。
13.根据权利要求9至12任意一项所述的装置,其特征在于,所述上下文信息包括:上下文文字串;所述的装置还包括:
上下文信息获取模块,用于从上屏内容中获取上屏文字串作为上下文文字串;将所述上屏文字串对应字符串作为上下文字符串。
14.根据权利要求13所述的装置,其特征在于,所述上下文字符串为包含切分方式的字符串;所述上下文信息获取模块,还用于根据所述上下文文字串确定所述上下文字符串的切分方式。
15.根据权利要求13所述的装置,其特征在于,所述文字串选择模块,包括:
第二概率计算子模块,用于计算在所述上下文文字串的基础上,确定所述纠错候选文字串在上下文中出现的第二概率;
文字串选取子模块,用于将所述纠错候选文字串按照所述第二概率由大到小进行排序,选取前M个纠错候选文字串,其中M为正整数。
16.根据权利要求9所述的装置,其特征在于,还包括:
展示模块,用于依据预置展示规则,从所述纠错候选文字串中选取至少一个纠错候选文字串进行展示。
CN201310298446.2A 2013-07-16 2013-07-16 一种输入的纠错方法和装置 Active CN104298672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310298446.2A CN104298672B (zh) 2013-07-16 2013-07-16 一种输入的纠错方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310298446.2A CN104298672B (zh) 2013-07-16 2013-07-16 一种输入的纠错方法和装置

Publications (2)

Publication Number Publication Date
CN104298672A true CN104298672A (zh) 2015-01-21
CN104298672B CN104298672B (zh) 2018-09-11

Family

ID=52318400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310298446.2A Active CN104298672B (zh) 2013-07-16 2013-07-16 一种输入的纠错方法和装置

Country Status (1)

Country Link
CN (1) CN104298672B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN105206267A (zh) * 2015-09-09 2015-12-30 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统
CN106095751A (zh) * 2016-06-07 2016-11-09 维沃移动通信有限公司 一种文字输入的识错处理方法及移动终端
CN106202153A (zh) * 2016-06-21 2016-12-07 广州智索信息科技有限公司 一种es搜索引擎的拼写纠错方法及系统
CN106469097A (zh) * 2016-09-02 2017-03-01 北京百度网讯科技有限公司 一种基于人工智能的召回纠错候选的方法和装置
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置
CN106896931A (zh) * 2015-12-18 2017-06-27 北京搜狗科技发展有限公司 一种输入法纠错方法和装置
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
WO2018024166A1 (zh) * 2016-08-03 2018-02-08 腾讯科技(深圳)有限公司 确定候选输入的方法、输入提示方法和电子设备
CN107977089A (zh) * 2016-10-21 2018-05-01 北京搜狗科技发展有限公司 一种输入方法和装置、一种用于输入的装置
CN108279783A (zh) * 2017-12-14 2018-07-13 北京百度网讯科技有限公司 一种候选项上屏的方法、装置、设备和计算机存储介质
CN108664466A (zh) * 2018-04-11 2018-10-16 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN109062888A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种出现错误文本输入时的自纠正方法
CN109471538A (zh) * 2017-09-08 2019-03-15 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN109521889A (zh) * 2018-09-29 2019-03-26 咪咕音乐有限公司 一种输入方法及装置、终端及存储介质
CN109597500A (zh) * 2018-12-06 2019-04-09 北京金山安全软件有限公司 一种用于汉语拼音的输入纠错方法、装置及电子设备
CN109992120A (zh) * 2017-12-29 2019-07-09 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN110083819A (zh) * 2018-01-26 2019-08-02 北京京东尚科信息技术有限公司 拼写纠错方法、装置、介质及电子设备
CN112445953A (zh) * 2019-08-14 2021-03-05 阿里巴巴集团控股有限公司 信息的搜索纠错方法、计算设备及存储介质
CN112558783A (zh) * 2019-09-25 2021-03-26 北京搜狗科技发展有限公司 一种输入纠错的方法及相关装置
EP3923177A1 (en) * 2020-06-11 2021-12-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for correcting character errors, electronic device and stroage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001035249A2 (en) * 1999-11-05 2001-05-17 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
CN101371253A (zh) * 2005-04-25 2009-02-18 微软公司 生成拼写建议的方法和系统
CN102135814A (zh) * 2011-03-30 2011-07-27 北京搜狗科技发展有限公司 一种字词输入方法及系统
CN102156551A (zh) * 2011-03-30 2011-08-17 北京搜狗科技发展有限公司 一种字词输入的纠错方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001035249A2 (en) * 1999-11-05 2001-05-17 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
CN101371253A (zh) * 2005-04-25 2009-02-18 微软公司 生成拼写建议的方法和系统
CN102135814A (zh) * 2011-03-30 2011-07-27 北京搜狗科技发展有限公司 一种字词输入方法及系统
CN102156551A (zh) * 2011-03-30 2011-08-17 北京搜狗科技发展有限公司 一种字词输入的纠错方法及系统

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN105206267A (zh) * 2015-09-09 2015-12-30 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统
CN105206267B (zh) * 2015-09-09 2019-04-02 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统
CN106708893B (zh) * 2015-11-17 2018-09-28 华为技术有限公司 搜索查询词纠错方法和装置
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置
WO2017084506A1 (zh) * 2015-11-17 2017-05-26 华为技术有限公司 搜索查询词纠错方法和装置
CN106896931A (zh) * 2015-12-18 2017-06-27 北京搜狗科技发展有限公司 一种输入法纠错方法和装置
CN106896931B (zh) * 2015-12-18 2020-09-29 北京搜狗科技发展有限公司 一种输入法纠错方法和装置
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN106095751A (zh) * 2016-06-07 2016-11-09 维沃移动通信有限公司 一种文字输入的识错处理方法及移动终端
CN106202153A (zh) * 2016-06-21 2016-12-07 广州智索信息科技有限公司 一种es搜索引擎的拼写纠错方法及系统
WO2018024166A1 (zh) * 2016-08-03 2018-02-08 腾讯科技(深圳)有限公司 确定候选输入的方法、输入提示方法和电子设备
US11050685B2 (en) 2016-08-03 2021-06-29 Tencent Technology (Shenzhen) Company Limited Method for determining candidate input, input prompting method and electronic device
CN106469097A (zh) * 2016-09-02 2017-03-01 北京百度网讯科技有限公司 一种基于人工智能的召回纠错候选的方法和装置
CN106469097B (zh) * 2016-09-02 2019-08-27 北京百度网讯科技有限公司 一种基于人工智能的召回纠错候选的方法和装置
CN107977089A (zh) * 2016-10-21 2018-05-01 北京搜狗科技发展有限公司 一种输入方法和装置、一种用于输入的装置
CN107977089B (zh) * 2016-10-21 2021-12-14 北京搜狗科技发展有限公司 一种输入方法和装置、一种用于输入的装置
CN109471538A (zh) * 2017-09-08 2019-03-15 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN108279783A (zh) * 2017-12-14 2018-07-13 北京百度网讯科技有限公司 一种候选项上屏的方法、装置、设备和计算机存储介质
CN109992120A (zh) * 2017-12-29 2019-07-09 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN109992120B (zh) * 2017-12-29 2022-10-04 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN110083819A (zh) * 2018-01-26 2019-08-02 北京京东尚科信息技术有限公司 拼写纠错方法、装置、介质及电子设备
CN110083819B (zh) * 2018-01-26 2024-02-09 北京京东尚科信息技术有限公司 拼写纠错方法、装置、介质及电子设备
CN108664466A (zh) * 2018-04-11 2018-10-16 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN109062888A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种出现错误文本输入时的自纠正方法
CN109062888B (zh) * 2018-06-04 2023-03-31 昆明理工大学 一种出现错误文本输入时的自纠正方法
CN109521889A (zh) * 2018-09-29 2019-03-26 咪咕音乐有限公司 一种输入方法及装置、终端及存储介质
CN109521889B (zh) * 2018-09-29 2021-02-09 咪咕音乐有限公司 一种输入方法及装置、终端及存储介质
CN109597500A (zh) * 2018-12-06 2019-04-09 北京金山安全软件有限公司 一种用于汉语拼音的输入纠错方法、装置及电子设备
CN112445953A (zh) * 2019-08-14 2021-03-05 阿里巴巴集团控股有限公司 信息的搜索纠错方法、计算设备及存储介质
CN112558783A (zh) * 2019-09-25 2021-03-26 北京搜狗科技发展有限公司 一种输入纠错的方法及相关装置
EP3923177A1 (en) * 2020-06-11 2021-12-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for correcting character errors, electronic device and stroage medium
KR20210154755A (ko) * 2020-06-11 2021-12-21 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 문자 오류 수정 방법, 장치, 전자 기기 및 기록 매체
US11443100B2 (en) 2020-06-11 2022-09-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for correcting character errors, electronic device and storage medium
KR102541054B1 (ko) 2020-06-11 2023-06-05 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 문자 오류 수정 방법, 장치, 전자 기기 및 기록 매체

Also Published As

Publication number Publication date
CN104298672B (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN104298672A (zh) 一种输入的纠错方法和装置
US11663258B2 (en) Method and apparatus for processing dataset
CN106202153B (zh) 一种es搜索引擎的拼写纠错方法及系统
US10140368B2 (en) Method and apparatus for generating a recommendation page
JP6335794B2 (ja) ユーザデータ入力の予測
CN104915264A (zh) 一种输入纠错方法和装置
CN106325488B (zh) 一种输入方法、输入装置、服务器和输入系统
CN103870505A (zh) 一种查询词推荐方法和查询词推荐系统
CN106250364A (zh) 一种文本修正方法及装置
CN104933100A (zh) 关键词推荐方法和装置
CN103092826A (zh) 一种根据用户的输入信息构建输入词条的方法与设备
CN106227714A (zh) 一种基于人工智能的获取生成诗词的关键词的方法和装置
CN106021504A (zh) 字符串模糊匹配方法及装置
CN106484131A (zh) 一种输入纠错方法和输入法装置
CN102411432A (zh) 一种汉字双拼输入法
CN110738049A (zh) 相似文本的处理方法、装置及计算机可读存储介质
CN106325596A (zh) 一种书写笔迹自动纠错方法及系统
US20210216710A1 (en) Method and apparatus for performing word segmentation on text, device, and medium
CN111753147A (zh) 相似度处理方法、装置、服务器及存储介质
KR102172138B1 (ko) 분산 컴퓨팅 프레임워크 및 분산 컴퓨팅 방법
CN103106211A (zh) 客户咨询文本的情感识别方法及装置
US7895206B2 (en) Search query categrization into verticals
CN104881350A (zh) 用于确定用户体验及辅助确定用户体验的方法和装置
CN104978047A (zh) 一种跨键盘联想方法和装置
CN102289456B (zh) Web爬行的差异检测

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant