CN103914444A - 一种纠错方法及其装置 - Google Patents
一种纠错方法及其装置 Download PDFInfo
- Publication number
- CN103914444A CN103914444A CN201210592520.7A CN201210592520A CN103914444A CN 103914444 A CN103914444 A CN 103914444A CN 201210592520 A CN201210592520 A CN 201210592520A CN 103914444 A CN103914444 A CN 103914444A
- Authority
- CN
- China
- Prior art keywords
- outer code
- participle
- error correction
- invalid
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种纠错方法及其装置,纠错方法包括:对用户输入的关键词进行分词处理,得到所述关键词的分词;对用户输入的关键词进行分词处理,得到所述关键词的分词对每个分词的有效性进行检查,将未通过有效性检查的分词作为无效分词;根据无效分词的外码对该无效分词进行纠错,得到纠错后的分词;用纠错后的分词替换所述关键词中对应的无效分词,得到纠错后的关键词。本发明技术方案通过外码来对分词纠错,能够从根本上确定引起分词输入错误的原因,提高对分词进行纠错的准确性,以提高对关键词进行纠错的准确性。
Description
技术领域
本发明涉及搜索技术领域,特别涉及一种对用户检索时输入不正确的关键字进行纠错的纠错方法及其装置。
背景技术
随着搜索技术的发展,对于根据用户输入关键词的无法得到搜索结果的情况,现有技术提供了几种对用户输入的关键词进行纠错的方法:
方式1、将关键词转换成拼音,从数据库中搜索与该拼音对应的分词,并将搜索到的分词中查询频次较高的分词推荐给用户,以便用户确认其要查询的真正的关键词;并根据用户确认的关键词来进行相应的搜索。
方式2、将用户输入的关键词与查询词词库中的查询词进行匹配,若完全匹配,则不作处理,若未完全匹配,则查找与用户输入的关键词相似度最高的查询词,并用该查询词进行搜索,若搜索成功则将该相似度最高的查询词反馈给用户确认,若搜索失败则不作处理。
上述方式1、方式2虽然都能在一定程度上对查询不成功的关键词进行纠错,但是两种纠错方式均存在缺陷。方式1只能对读音相同的分词进行纠错。方式2只能对字形相似的分词进行纠错,即只有用户输入的关键词字形较为准确的情况下才能准确的进行纠错。因此,两种方式的纠错准确性并不是很高。而用户输入错误字符多表现为外码输入错误;而不同用户输入关键词所采用的输入法差异较大。因而,现有技术中的纠错方法存在很大的局限性,无法准确和方便的对用户输入的关键词进行纠错,不能满足用户需求。
发明内容
为了解决现有技术中的纠错方法无法准确和方便的对用户输入的关键词进行纠错的问题,本发明实施例提供了一种纠错方法及其装置。所述技术方案如下:
一种纠错方法,用于对用户检索时输入不正确的关键词进行纠错,包括:
对用户输入的关键词进行分词处理,得到所述关键词的分词;
对每个分词的有效性进行检查,将未通过有效性检查的分词作为无效分词;
根据无效分词的外码对该无效分词进行纠错,得到纠错后的分词;
用纠错后的分词替换所述关键词中对应的无效分词,得到纠错后的关键词。
一种纠错装置,用于对用户检索时输入不正确的关键词进行纠错,包括:
分词单元,用于对用户输入的关键词进行分词处理,得到所述关键词的分词;
分词有效性检查单元,用于对每个分词的有效性进行检查,将未通过有效性检查的分词作为无效分词,并启动分词纠错单元;
分词纠错单元,用于根据无效分词的外码对该无效分词进行纠错,得到纠错后的分词;
关键词纠错单元,用于将纠错后的分词替换所述关键词中对应的无效分词,得到纠错后的关键词。
本发明实施例提供的技术方案带来的有益效果是:
本方案,针对用户检索时输入不正确的关键词,将该关键词进行分词处理,并对每个分词的有效性进行检查,将未通过有效性检查的分词作为无效分词;再根据无效分词的外码对该无效分词进行纠错,得到纠错后的分词;最后用纠错后的分词替换所述关键词中对应的无效分词,得到纠错后的关键词。分词是否能被正确输入,关键在于当前输入法下用户输入的该分词的外码是否准确,若用户输入的外码发生错误则很可能会导致分词输入错误,因此,输入的外码准确与否对分词输入的准确与否具有较大的影响,采用本发明技术方案提供的这种根据外码来对分词进行纠错的方式,能够从根本上确定引起分词输入错误的原因,提高对分词进行纠错的准确性,从而提高对关键词进行纠错的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的纠错方法的方法流程图;
图2是本发明实施例根据无效分词的外码对无效分词进行纠错的方法流程图;
图3是本发明实施例对无效分词的外码进行纠错的方法流程图;
图4为本发明实施例中纠错装置的结构示意图之一;
图5为本发明实施例中分词纠错单元的结构示意图之一;
图6为本发明实施例中外码纠错子单元的结构示意图;
图7为本发明实施例中分词纠错单元的结构示意图之二。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。为使本领域技术人员能够更容易的理解本方案,对本申请提到的技术术语进行说明:
外码,是指汉字输入法对应的字母编码。
正查,是指根据外码查找与该外码对应的分词。
反查,是指根据分词查找与该分词对应的外码。
实施例一
如图1所示,为本发明实施例一提供的纠错方法,该方法用于对用户检索时输入不正确的关键词进行纠错,也就是,对用户检索时输入的无法得到检索结果的关键词进行纠错,所述方法包括:
步骤101、对用户输入的关键词进行分词处理,得到所述关键词的分词。
无论是在搜索技术领域还是其它技术领域,首先都需要对用户输入的关键词进行分词处理。用户输入的关键词通常是一个较长的字符串,因此需要对用户输入的关键词进行分词之后再进行后续的查询操作。如用户输入的关键词为“北京邮电大学”,则对该关键词进行分词得到“北京”、“邮电”、“大学”三个分词。本发明实施例中对关键词进行分词的方式有多种多样,在此并不做限定。
步骤102、对每个分词的有效性进行检查,将未通过有效性检查的分词作为无效分词。
本发明实施例中,对分词进行有效性检查,可以采用以下方式:判断预置的纠错字典库中是否保存有所述分词,若保存则确定该分词有效,否则确定该分词为无效分词,预置的纠错字典库中存储的分词均是具有一定意义的单字或单字组合,如该分词是一个地名、车站等。
步骤103、根据无效分词的外码对该无效分词进行纠错,得到纠错后的分词。
步骤104、用纠错后的分词替换所述关键词中对应的无效分词,得到纠错后的关键词。
本发明实施例中,可以预先设置对关键词进行纠错处理时需要考虑的输入法,可以设置一种或多种常用的输入法,如拼音输入法、五笔、郑码等。前述步骤103中,根据无效分词的外码对所述无效分词进行纠错,可根据不同的实际情况采取不同的处理方式:如,无效分词本身就是外码字符时,则直接将该外码字符作为所述无效分词的外码,并根据该外码来对无效分词进行纠错。再如无效分词不包含外码字符时,需要获取预置的每种输入法对应的该无效分词的外码来对该无效分词进行纠错,具体的可参见图2所示的方法流程。
参见图2,为本发明实施例中根据无效分词的外码对无效分词进行纠错的方法流程图,方法包括:
步骤201、获取所述无效分词在预置的输入法中对应的外码,无效分词在一种输入法中对应一个外码,其中,一种输入法对应一个外码。
本发明实施例中预置的输入法可以是一个也可以是多个,如预先预置的输入法包括拼音输入法、五笔输入法和郑码输入法。
如汉字“真”,其在拼音输入法中对应的外码为“Zhen”,在五笔中对应的外码为“fhw”。
步骤202、查找外码对应的分词,若查找到的所有的分词是与所述无效分词相同的分词,则对至少一个外码进行纠错,得到纠错后的外码。
本发明步骤202中,是指对每一种预置的输入法对应的外码查找对应的分词,若根据所有外码查找到的所有分词均是与所述无效分词相同的分词,则需要对至少一个预置的输入法对应的外码进行纠错处理。
步骤203、查找纠错后的外码对应的待纠错分词,得到纠错后的外码对应的待纠错分词集合。
步骤204、用分词集合中的每个待纠错分词替换所述关键词中的所述无效分词,得到新关键词。
步骤205、用新关键词进行检索,将能够得到检索结果的新关键词中替换所述无效分词的待纠错分词确定为有效分词。
步骤206、将词频最高的有效分词确定为所述无效分词的纠错后的分词。
本发明实施例中,用户输入关键词错误,很可能是输入的外码错误从而导致关键词错误,对导致外码输入错误的因素,一般来说可以从以下几个方面来考虑:如用户在输入外码时,对该外码的其中某一字母进行重复输入,从而导致输入的外码错误。或者,因为用户对键盘的使用不是很熟练,在输入外码的某个字母时,敲错按键,将该键盘中与该字母所在键盘的相邻的其他键盘对应的字母输入,从而导致外码输入错误,如字母“s”的相邻字母包括a、z、x、d、e、w、q,如用户在使用五笔输入法时,要输入汉字“真”的外码fhw,但是在输入字母“h”时,不小心敲错按键,将“h”的相邻字母“g”输入,最后输入的外码为“fgw”,而导致外码输入错误。还或者,是用户在输入外码时,漏掉其中一个字母。还或者是用户输入外码时多输入一个字母。根据统计或经验可知,导致外码输入错误的概率最大的就是重复输入字母,其次是将相邻字母输入,再其次是漏掉字母,最后是多输入一个字母。因此,在前述步骤202中对无效分词的外码进行纠错时,可以按照前述导致外码输入错误的情况的概率从大到小依次进行考虑。具体地可参见如图3所述的方法流程。
参见图3,为本发明实施例中对无效分词的外码进行纠错的方法流程,该方法包括:
步骤301(即步骤A1)、判断外码是否包含两个相同且相邻的字母,若是,删除所述两个相同且相邻的字母中的一个,得到纠错后的外码;否则,执行步骤302;
步骤302(即步骤A2)、获取所述外码中每个字母在键盘中的相邻字母,用相邻字母替换所述外码中对应的字母,得到新外码;
对所述新外码的有效性进行检查,若存在有效新外码,则将有效新外码确定为纠错后的外码,若无有效新外码则执行步骤303;
步骤303(即步骤A3)、遍历字母表,每次在所述外码的结尾处增加1个字母表中的字母,得到新外码;对新外码的有效性进行检查,若存在有效新外码,则将有效新外码确定为纠错后的外码,若无有效新外码则执行步骤304;
步骤304(即步骤A4)、遍历所述外码,每次去除外码中的1个字母,得到新外码;对新外码的有效性进行检查,若存在有效新外码,则将有效新外码确定为纠错后的外码。
本发明实施例中,对新外码的有效性进行检查,可采用以下方式:查找所述新外码对应的分词,若能查找到至少一个与所述新外码对应的分词,则确定所述新外码有效,否则确定所述新外码无效。
为使本领域技术人员更容易的理解本发明技术方案,下面列举具体的实例对本发明技术方案进行详细的描述。
假设预置的输入法为拼音输入法和五笔输入法,用户需要搜索北京的“西直门”,假如用户输入的关键词为“西真门”。采用本发明技术方案,对关键词进行纠错的方法,具体如下:
步骤1、根据“西真门”进行检索,检索无结果,则执行步骤2。
步骤2、对“西真门”进行分词处理,得到三个分词依次为“西”、“真”、“门”。
步骤3、在预置的纠错字典库中逐一查询前述三个分词,确定“西”和“门”为有效分词,确定“真”为无效分词。
步骤4、获取“真”在拼音输入法中对应的外码为“zhen”,在五笔输入法中的对应的外码为“fhw”。
步骤5、对外码“zhen”进行正查得到与“zhen”对应的分词为“贞”,将“贞”放入待纠错分词集合中。
步骤6、对外码“fhw”进行正查得到与“fhw”唯一对应的分词“真”,此时需要对“fhw”进行纠错,执行步骤7。
步骤7、对“fhw”进行纠错可采用前述图3所示的流程,得到纠错后的外码为“fh”,得到该纠错后的外码对应的分词为“直”,并将“直”放入到待纠错分词集合中。
利用前述图3的流程对“fhw”进行纠错,具体如下:首先,判断“fhw”不包含相邻的两个相同字母,则针对“fhw”中的每个字母,获取每个字母对应的相邻字母,并用相邻字母替换相应字母得到新外码,对新外码进行有效性检查,如“f”的相邻字母为d、r、t、g、v、c、x,则分别用前述相邻字母替换“fhw”中的字母“f”得到的七个新外码依次为“dhw”、“rhw”、“thw”、“ghw”、“vhw”、“chw”、“xhw”,并对该七个新外码的有效性进行检查,均为无效新外码。再获取“h”的相邻字母为g、y、u、j、n、b,则分别用前述相邻字母替换“h”得到六个新外码依次为“fgw”、“w”、“fuw”、“fjw”、“fnw”、“fbw”,对该六个新外码的有效性进行检查,均为无效新外码。按照前述方法对“w”进行处理得到的新外码均为无效新外码。其次,遍历字母表,每次在“fhw”结尾处增加一个字母,得到26个新外码依次为“fhwa”、“fhwb”、“fhwc”、…、“fhwz”,再对该26个新外码的有效性检查,结果为该26个新外码均为无效新外码。最后,遍历所述外码,每次去除外码中的1个字母,得到新外码,可以从外码的最后一个字母为起始点依次遍历,如遍历去掉外码“fhw”中的一个字母,分别得到新外“fh”、“fw”、“hw”,对该三个新外码进行有效性检查,只有“fh”为有效新外码,将该“fh”作为对“fhw”进行纠错后的外码。
步骤8、将待纠错分词集合中的“贞”、“直”分别替换“西真门”的“真”,得到两个新的关键词为“西贞门”、“西直门”。
步骤9、分别以新关键词进行检索,“西贞门”检索无结果,“西直门”检索有结果,则将“西直门”确定为纠错后的关键词。
基于同样的方法,对用户需要搜索北京的“新街口”为例,假设用户输入的关键词为“亲街口”。根据“亲街口”进行检索无结果,则将“亲街口”切分成“亲”、“街”、“口”。对该三个分词的有效性进行检查,得到“街”和“口”有效,“亲”无效,则对“亲”对应的外码进行纠错。“亲”在拼音输入法中对应的外码为“qing”,在五笔输入法中对应的外码为“us”,根据前述图3所示的流程分别对外码“qing”和“us”进行纠错,最后得到有效分词“新”,将“新”替换“亲街口”中的“亲”,得到新关键词为“新街口”,采用新街口能够检索到结果,因此,将“新街口”确定为对“亲街口”进行纠错后的关键词。
本发明实施例中预置的纠错字典库由正查字典库、反查字典库和分词有效性检验库组成,其中:反查字典库,是指根据输入的分词,即可以该分词为查询词从反查字典库中查找与该分词对应的所有输入法的外码;正查字典库,是指根据输入的外码,即可以该外码为查询词从正查字典库中查找与该外码对应的所有分词。分词有效性检验库,是指存储有反查字典库或正查字典库中的所有分词,当对某一分词的有效性进行判断时,只要将该分词与分词有效性检验库进行匹配即可,若分词有效性检验库存储有该分词则判断该分词有效,否则判断该分词无效。生成纠错字典库的方式如下:
步骤1、获取各种输入法对应的字典库,并将各字典库中的数据信息导入到纠错字典库的反查字典库中。每种输入法对应的字典库中针对每个字词生成有与该字词对应的记录,每条记录包括字词、字词在该种输入法对应的外码和字词的频次权重等信息。
步骤2、对导入到反查字典库中的字词进行合并处理。如将从不同字典库中导入的同一字词的多条记录合并成一条记录。比如,从输入法1对应的字典库导入的记录为[字词Z1,外码W1,频次权重P1],从输入法2对应的字典库导入的记录为[字词Z1,外码W2,频次权重P2],对这两条同一字词的记录合并成[字词Z1,外码W1,外码W2,频次权重P1’],其中,P1’可以是取p1和p2的算术平均值、几何平均值,如频次权重P1’=(P1+P2)/2。
步骤3、针对合并处理后的反查字典库中的每个字词,根据该字词的词性标注类别、字词中的汉字生僻程度及其频次权重,计算该字词在纠错字典库中的频次权重,并将计算得到的频次权重替换步骤2的合并处理后的记录中的频次权重;并按照频次权重从高到低的顺序对反查字典库中的字词进行排序。
前述步骤3中,计算字词在纠错字典库中的频次权重,可通过以下方式得到:
本发明实施例中,预先会对不同的词性标注类别(如城市信息、POI名称、行政区划、地址、道路等)、汉字生僻程度设置有不同的权重,如将城市信息、POI名称、行政区划、地址、道路等的权重设置为依次降低。汉字生僻程度越低权重越高,汉字生僻程度越低权重越高,字词中的汉字的生僻程度可以根据汉字内码字符集计算得到。在计算字词的频次权重时,可以综合该字词的词性标注、汉字生僻程度来计算得到该字词的频次权重。
步骤4、根据反查字典库,生成正查字典库。
步骤5、将所述反查字典库中的所有字词复制到效性校验库中。
实施例二
基于前述纠错方法,本发明实施例二提供了一种纠错装置,该装置的结构如图4所示,包括:
分词单元41,用于对用户输入的关键词进行分词处理,得到所述关键词的分词;
分词有效性检查单元42,用于对每个分词的有效性进行检查,将未通过有效性检查的分词作为无效分词,并启动分词纠错单元;
分词纠错单元43,用于根据无效分词的外码对该无效分词进行纠错,得到纠错后的分词;
关键词纠错单元44,用于将纠错后的分词替换所述关键词中对应的无效分词,得到纠错后的关键词。
优选地,前述分词纠错单元43的结构可如图5所示,包括:
外码获取子单元431,用于获取所述无效分词在预置的输入法中对应的外码,无效分词在一种输入法中对应一个外码;
外码正查子单元432,用于查找外码对应的分词;
判断子单元433,用于判断所述外码正查子单元432查找到的所有分词是否是与所述无效分词相同的分词,若是则启动外码纠错子单元434;
外码纠错子单元434,用于对至少一个外码进行纠错,得到纠错后的外码;
待纠错分词确定子单元435,用于查找纠错后的外码对应的待纠错分词,得到纠错后的外码对应的待纠错分词集合;
新关键词确定子单元436,用于用分词集合中的每个待纠错分词替换所述关键词中的所述无效分词,得到新关键词;
有效分词确定子单元437,用于用新关键词进行检索,将能够得到检索结果的新关键词中的待纠错分词确定为有效分词;
第一分词纠错子单元438,用于将词频最高的有效分词确定为所述无效分词的纠错后的分词。
优选地,本发明实施例中,前述外码纠错子单元434的结构可如图6所示,包括:
重字母判断模块4341,用于判断外码是否包含两个相同且相邻的字母,若是,则触发第一外码纠错模块4342,否则触发字母替换模块4343;
第一外码纠错模块4342,用于删除所述两个相同且相邻的字母中的一个,得到纠错后的外码;
字母替换模块4343,用于获取所述外码中每个字母在键盘中的相邻字母,用相邻字母替换所述外码中对应的字母,得到新外码,并触发第二外码纠错模块4344;
第二外码纠错模块4344,对所述新外码的有效性进行检查,若存在有效新外码,则将有效新外码确定为纠错后的外码,若无有效新外码则触发字母增加模块4345;
字母增加模块4345,用于遍历字母表,每次在所述外码的结尾处增加1个字母表中的字母,得到新外码,并触发第三外码纠错模块4346;
第三外码纠错模块4346,用于对新外码的有效性进行检查,若存在有效新外码,则将有效新外码确定为纠错后的外码,若无有效新外码则触发字母去除模块4347;
字母去除模块4347,用于遍历所述外码,每次去除外码中的1个字母,得到新外码,并触发第四外码纠错模块4348;
第四外码纠错模块4348,用于对新外码的有效性进行检查,若存在有效新外码,则将有效新外码确定为纠错后的外码。
优选地,前述第二外码纠错模块4344、第三外码纠错模块4346和第四外码纠错模块4348对新外码的有效性进行检查,具体为:查找所述新外码对应的分词,若能查找到至少一个与所述新外码对应的分词,则确定所述新外码有效,否则确定所述新外码无效。
优选地,本发明实施例中的分词纠错单元,还可在图5所示的结构中还设置有第二分词纠错子单元439,如图7所示,具体地:
所述判断子单元433进一步用于,在判断为否时,触发所述第二分词纠错子单元439;
第二分词纠错子单元439,用于将所述外码正查子单元432查找到的与所述无效分词不相同的且出现频次最高的分词,确定为所述无效分词对应的纠错后的分词。
优选地,前述分词有效性检查单元42对每个分词的有效性进行检查,具体为:
判断预置的纠错字典库中是否保存了所述分词,若保存,则确定所述分词通过有效性检查,否则确定所述分词未通过有效性检查。
本方案,针对用户检索时输入不正确的关键词,将该关键词进行分词处理,并对每个分词的有效性进行检查,将未通过有效性检查的分词作为无效分词;再根据无效分词的外码对该无效分词进行纠错,得到纠错后的分词;最后用纠错后的分词替换所述关键词中对应的无效分词,得到纠错后的关键词。分词是否能被正确输入,关键在于当前输入法下用户输入的该分词的外码是否准确,若用户输入的外码发生错误则很可能会导致分词输入错误,因此,输入的外码准确与否对分词输入的准确与否具有较大的影响,采用本发明技术方案提供的这种根据外码来对分词进行纠错的方式,能够从根本上确定引起分词输入错误的原因,提高对分词进行纠错的准确性,从而提高对关键词进行纠错的准确性。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种纠错方法,其特征在于,用于对用户检索时输入不正确的关键词进行纠错,包括:
对用户输入的关键词进行分词处理,得到所述关键词的分词;
对每个分词的有效性进行检查,将未通过有效性检查的分词作为无效分词;
根据无效分词的外码对该无效分词进行纠错,得到纠错后的分词;
用纠错后的分词替换所述关键词中对应的无效分词,得到纠错后的关键词。
2.根据权利要求1所述的方法,其特征在于,根据无效分词的外码对所述无效分词进行纠错,具体包括:
获取所述无效分词在预置的输入法中对应的外码,无效分词在一种输入法中对应一个外码;
查找外码对应的分词,若查找到的所有的分词是与所述无效分词相同的分词,则对至少一个外码进行纠错,得到纠错后的外码;
查找纠错后的外码对应的待纠错分词,得到纠错后的外码对应的待纠错分词集合;
用分词集合中的每个待纠错分词替换所述关键词中的所述无效分词,得到新关键词;
用新关键词进行检索,将能够得到检索结果的新关键词中的待纠错分词确定为有效分词;
将词频最高的有效分词确定为所述无效分词的纠错后的分词。
3.根据权利要求2所述的方法,其特征在于,对外码进行纠错,得到纠错后的外码,具体包括:
步骤A1、判断外码是否包含两个相同且相邻的字母,若是,删除所述两个相同且相邻的字母中的一个,得到纠错后的外码;否则,执行步骤A2;
步骤A2、获取所述外码中每个字母在键盘中的相邻字母,用相邻字母替换所述外码中对应的字母,得到新外码;
对所述新外码的有效性进行检查,若存在有效新外码,则将有效新外码确定为纠错后的外码,若无有效新外码则执行步骤A3;
步骤A3、遍历字母表,每次在所述外码的结尾处增加1个字母表中的字母,得到新外码;对新外码的有效性进行检查,若存在有效新外码,则将有效新外码确定为纠错后的外码,若无有效新外码则执行步骤A4;
步骤A4、遍历所述外码,每次去除外码中的1个字母,得到新外码;对新外码的有效性进行检查,若存在有效新外码,则将有效新外码确定为纠错后的外码。
4.根据权利要求3所述的方法,其特征在于,对新外码的有效性进行检查,包括:
查找所述新外码对应的分词,若能查找到至少一个与所述新外码对应的分词,则确定所述新外码有效,否则确定所述新外码无效。
5.根据权利要求2所述的方法,其特征在于,若查找到的所有分词中还包括与所述无效分词不相同的分词,还包括:
将查找到的与所述无效分词不相同的且出现频次最高的分词,确定为所述无效分词对应的纠错后的分词。
6.根据权利要求1所述的方法,其特征在于,对所每个分词的有效性进行检查,包括:
判断预置的纠错字典库中是否保存了所述分词,若保存,则确定所述分词通过有效性检查,否则确定所述分词未通过有效性检查。
7.一种纠错装置,其特征在于,用于对用户检索时输入不正确的关键词进行纠错,包括:
分词单元,用于对用户输入的关键词进行分词处理,得到所述关键词的分词;
分词有效性检查单元,用于对每个分词的有效性进行检查,将未通过有效性检查的分词作为无效分词,并启动分词纠错单元;
分词纠错单元,用于根据无效分词的外码对该无效分词进行纠错,得到纠错后的分词;
关键词纠错单元,用于将纠错后的分词替换所述关键词中对应的无效分词,得到纠错后的关键词。
8.根据权利要求7所述的方法,其特征在于,所述分词纠错单元,包括:
外码获取子单元,用于获取所述无效分词在预置的输入法中对应的外码,无效分词在一种输入法中对应一个外码;
外码正查子单元,用于查找外码对应的分词;
判断子单元,用于判断所述外码正查子单元查找到的所有分词是否是与所述无效分词相同的分词,若是则启动外码纠错子单元;
外码纠错子单元,用于对至少一个外码进行纠错,得到纠错后的外码;
待纠错分词确定子单元,用于查找纠错后的外码对应的待纠错分词,得到纠错后的外码对应的待纠错分词集合;
新关键词确定子单元,用于用分词集合中的每个待纠错分词替换所述关键词中的所述无效分词,得到新关键词;
有效分词确定子单元,用于用新关键词进行检索,将能够得到检索结果的新关键词中的待纠错分词确定为有效分词;
第一分词纠错子单元,用于将词频最高的有效分词确定为所述无效分词的纠错后的分词。
9.根据权利要求8所述的装置,其特征在于,所述外码纠错子单元,包括:
重字母判断模块,用于判断外码是否包含两个相同且相邻的字母,若是,则触发第一外码纠错模块,否则触发字母替换模块;
第一外码纠错模块,用于删除所述两个相同且相邻的字母中的一个,得到纠错后的外码;
字母替换模块,用于获取所述外码中每个字母在键盘中的相邻字母,用相邻字母替换所述外码中对应的字母,得到新外码,并触发第二外码纠错模块;
第二外码纠错模块,对所述新外码的有效性进行检查,若存在有效新外码,则将有效新外码确定为纠错后的外码,若无有效新外码则触发字母增加模块;
字母增加模块,用于遍历字母表,每次在所述外码的结尾处增加1个字母表中的字母,得到新外码,并触发第三外码纠错模块;
第三外码纠错模块,用于对新外码的有效性进行检查,若存在有效新外码,则将有效新外码确定为纠错后的外码,若无有效新外码则触发字母去除模块;
字母去除模块,用于遍历所述外码,每次去除外码中的1个字母,得到新外码,并触发第四外码纠错模块;
第四外码纠错模块,用于对新外码的有效性进行检查,若存在有效新外码,则将有效新外码确定为纠错后的外码。
10.根据权利要求9所述的装置,其特征在于,所述第二外码纠错模块、第三外码纠错模块和第四外码纠错模块对新外码的有效性进行检查,具体为:
查找所述新外码对应的分词,若能查找到至少一个与所述新外码对应的分词,则确定所述新外码有效,否则确定所述新外码无效。
11.根据权利要求8所述的装置,其特征在于,所述分词纠错单元还包括第二分词纠错子单元;
所述判断子单元进一步用于,在判断为否时,触发所述第二分词纠错子单元;
第二分词纠错子单元,用于将所述外码正查子单元查找到的与所述无效分词不相同的且出现频次最高的分词,确定为所述无效分词对应的纠错后的分词。
12.根据权利要求7所述的装置,其特征在于,所述分词有效性检查单元对每个分词的有效性进行检查,具体为:
判断预置的纠错字典库中是否保存了所述分词,若保存,则确定所述分词通过有效性检查,否则确定所述分词未通过有效性检查。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210592520.7A CN103914444B (zh) | 2012-12-29 | 2012-12-29 | 一种纠错方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210592520.7A CN103914444B (zh) | 2012-12-29 | 2012-12-29 | 一种纠错方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103914444A true CN103914444A (zh) | 2014-07-09 |
CN103914444B CN103914444B (zh) | 2018-07-24 |
Family
ID=51040138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210592520.7A Active CN103914444B (zh) | 2012-12-29 | 2012-12-29 | 一种纠错方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103914444B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156454A (zh) * | 2014-08-18 | 2014-11-19 | 腾讯科技(深圳)有限公司 | 搜索词的纠错方法和装置 |
CN105760360A (zh) * | 2014-12-16 | 2016-07-13 | 高德软件有限公司 | 一种地址纠正方法和装置 |
CN105989125A (zh) * | 2015-02-16 | 2016-10-05 | 苏宁云商集团股份有限公司 | 对无结果词进行标签识别的搜索方法和系统 |
CN106325596A (zh) * | 2016-08-17 | 2017-01-11 | 广州视睿电子科技有限公司 | 一种书写笔迹自动纠错方法及系统 |
CN106339418A (zh) * | 2016-08-15 | 2017-01-18 | 乐视控股(北京)有限公司 | 一种分类纠错方法及装置 |
CN106484670A (zh) * | 2015-08-25 | 2017-03-08 | 北京中搜网络技术股份有限公司 | 一种中文分词纠错方法、离线训练装置及在线处理装置 |
CN106527757A (zh) * | 2016-10-28 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 一种输入纠错方法及装置 |
CN106598939A (zh) * | 2016-10-21 | 2017-04-26 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
CN107148624A (zh) * | 2015-06-22 | 2017-09-08 | 电子部品研究院 | 预处理文本的方法以及用于执行该方法的预处理系统 |
CN107229627A (zh) * | 2016-03-24 | 2017-10-03 | 华为技术有限公司 | 一种文本处理方法、装置及计算设备 |
CN107784014A (zh) * | 2016-08-30 | 2018-03-09 | 广州市动景计算机科技有限公司 | 信息搜索方法、设备及电子设备 |
CN108121455A (zh) * | 2016-11-29 | 2018-06-05 | 渡鸦科技(北京)有限责任公司 | 识别纠正方法及装置 |
CN109325227A (zh) * | 2018-09-14 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于生成修正语句的方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102135814A (zh) * | 2011-03-30 | 2011-07-27 | 北京搜狗科技发展有限公司 | 一种字词输入方法及系统 |
US20110295897A1 (en) * | 2010-06-01 | 2011-12-01 | Microsoft Corporation | Query correction probability based on query-correction pairs |
-
2012
- 2012-12-29 CN CN201210592520.7A patent/CN103914444B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110295897A1 (en) * | 2010-06-01 | 2011-12-01 | Microsoft Corporation | Query correction probability based on query-correction pairs |
CN102135814A (zh) * | 2011-03-30 | 2011-07-27 | 北京搜狗科技发展有限公司 | 一种字词输入方法及系统 |
Non-Patent Citations (3)
Title |
---|
吴岩 等: "中文自动查错与人机交互纠错系统的研究与实现——简介语科中文自动校对系统", 《语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集》 * |
张仰森 等: "基于统计的纠错建议给出算法及其实现", 《计算机工程》 * |
张仰森: "中文校对系统中纠错知识库的构造及纠错建议的产生算法", 《中文信息学报》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156454B (zh) * | 2014-08-18 | 2018-09-18 | 腾讯科技(深圳)有限公司 | 搜索词的纠错方法和装置 |
CN104156454A (zh) * | 2014-08-18 | 2014-11-19 | 腾讯科技(深圳)有限公司 | 搜索词的纠错方法和装置 |
CN105760360A (zh) * | 2014-12-16 | 2016-07-13 | 高德软件有限公司 | 一种地址纠正方法和装置 |
CN105760360B (zh) * | 2014-12-16 | 2018-09-11 | 高德软件有限公司 | 一种地址纠正方法和装置 |
CN105989125A (zh) * | 2015-02-16 | 2016-10-05 | 苏宁云商集团股份有限公司 | 对无结果词进行标签识别的搜索方法和系统 |
CN105989125B (zh) * | 2015-02-16 | 2019-08-16 | 苏宁易购集团股份有限公司 | 对无结果词进行标签识别的搜索方法和系统 |
CN107148624A (zh) * | 2015-06-22 | 2017-09-08 | 电子部品研究院 | 预处理文本的方法以及用于执行该方法的预处理系统 |
CN106484670B (zh) * | 2015-08-25 | 2018-12-25 | 北京中搜云商网络技术有限公司 | 一种中文分词纠错方法、离线训练装置及在线处理装置 |
CN106484670A (zh) * | 2015-08-25 | 2017-03-08 | 北京中搜网络技术股份有限公司 | 一种中文分词纠错方法、离线训练装置及在线处理装置 |
CN107229627A (zh) * | 2016-03-24 | 2017-10-03 | 华为技术有限公司 | 一种文本处理方法、装置及计算设备 |
CN106339418A (zh) * | 2016-08-15 | 2017-01-18 | 乐视控股(北京)有限公司 | 一种分类纠错方法及装置 |
CN106325596B (zh) * | 2016-08-17 | 2019-04-30 | 广州视睿电子科技有限公司 | 一种书写笔迹自动纠错方法及系统 |
CN106325596A (zh) * | 2016-08-17 | 2017-01-11 | 广州视睿电子科技有限公司 | 一种书写笔迹自动纠错方法及系统 |
CN107784014A (zh) * | 2016-08-30 | 2018-03-09 | 广州市动景计算机科技有限公司 | 信息搜索方法、设备及电子设备 |
CN106598939A (zh) * | 2016-10-21 | 2017-04-26 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
CN106598939B (zh) * | 2016-10-21 | 2019-09-17 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
CN106527757A (zh) * | 2016-10-28 | 2017-03-22 | 上海智臻智能网络科技股份有限公司 | 一种输入纠错方法及装置 |
CN108121455A (zh) * | 2016-11-29 | 2018-06-05 | 渡鸦科技(北京)有限责任公司 | 识别纠正方法及装置 |
CN108121455B (zh) * | 2016-11-29 | 2021-10-26 | 百度在线网络技术(北京)有限公司 | 识别纠正方法及装置 |
CN109325227A (zh) * | 2018-09-14 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于生成修正语句的方法和装置 |
US11531814B2 (en) | 2018-09-14 | 2022-12-20 | Beijing Bytedance Network Technology Co., Ltd. | Method and device for generating modified statement |
Also Published As
Publication number | Publication date |
---|---|
CN103914444B (zh) | 2018-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103914444A (zh) | 一种纠错方法及其装置 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN107193921B (zh) | 面向搜索引擎的中英混合查询纠错的方法及系统 | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
CN104699737A (zh) | 用于管理搜索的方法和系统 | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
CN108345468B (zh) | 基于树和序列相似度的编程语言代码查重方法 | |
CN110674396A (zh) | 文本信息处理方法、装置、电子设备及可读存储介质 | |
CN110990520B (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
CN101986296A (zh) | 基于语义本体的噪声数据清洗方法 | |
CN110413998B (zh) | 一种面向电力行业的自适应中文分词方法及其系统、介质 | |
CN105095391A (zh) | 利用分词程序识别机构名称的装置及方法 | |
CN111831785A (zh) | 敏感词检测方法、装置、计算机设备及存储介质 | |
CN111368918A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN102033866A (zh) | 用于校验化学名称的方法及系统 | |
CN111814040B (zh) | 维修案例搜索方法、装置、终端设备及存储介质 | |
CN110309258B (zh) | 一种输入检查方法、服务器和计算机可读存储介质 | |
CN116756382A (zh) | 检测敏感字符串的方法、装置、设置及存储介质 | |
CN110866407B (zh) | 确定互译文本及文本间相似度分析方法、装置及设备 | |
CN115150354B (zh) | 一种生成域名的方法、装置、存储介质及电子设备 | |
CN107577667B (zh) | 一种实体词处理方法和装置 | |
CN115906851A (zh) | 一种实体识别方法、装置、电子设备及存储介质 | |
CN114065762A (zh) | 一种文本信息的处理方法、装置、介质及设备 | |
CN113535895A (zh) | 搜索文本处理方法、装置、电子设备及介质 | |
CN112579713B (zh) | 地址识别方法、装置、计算设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200511 Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Alibaba (China) Co.,Ltd. Address before: 102200, No. 18, No., Changsheng Road, Changping District science and Technology Park, Beijing, China. 1-5 Patentee before: AUTONAVI SOFTWARE Co.,Ltd. |