CN107193921A - 面向搜索引擎的中英混合查询纠错的方法及系统 - Google Patents

面向搜索引擎的中英混合查询纠错的方法及系统 Download PDF

Info

Publication number
CN107193921A
CN107193921A CN201710340283.8A CN201710340283A CN107193921A CN 107193921 A CN107193921 A CN 107193921A CN 201710340283 A CN201710340283 A CN 201710340283A CN 107193921 A CN107193921 A CN 107193921A
Authority
CN
China
Prior art keywords
string
error correction
word
candidate collection
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710340283.8A
Other languages
English (en)
Other versions
CN107193921B (zh
Inventor
刘玉葆
占明明
葛又铭
戴戈南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201710340283.8A priority Critical patent/CN107193921B/zh
Publication of CN107193921A publication Critical patent/CN107193921A/zh
Application granted granted Critical
Publication of CN107193921B publication Critical patent/CN107193921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种面向搜索引擎的中英混合查询纠错的方法及系统,该方法或系统基于N‑gram语言模型以及多种纠错策略,实现对搜索引擎中带有部分错误的中英文混合查询的纠错。

Description

面向搜索引擎的中英混合查询纠错的方法及系统
技术领域
本发明涉及搜索引擎技术领域,更具体地,涉及一种面向搜索引擎的中英混合查询纠错的方法及系统。
背景技术
对于查询词纠错的需求一开始是源自于搜索引擎的日志分析,搜索日志里发现有大量包含有部分错误的查询词。对带有部分错误的查询词进行查询时,会大大降低搜索引擎的查全率与查准率。因此对查询词进行纠错的技术被引入至搜索引擎系统中,来解决由于用户输入了带有部分错误的查询词而导致无效查询的问题。
查询纠错是针对信息检索系统中查询语句的拼写纠错。查询语句直接影响信息检索系统返回结果的可靠性与准确性,所以现有的很多信息检索系统都会对查询语句进行纠错处理,确保返回的检索信息能够满足用户需要,提高用户检索效率和检索结果命中率。
中文信息检索系统中的查询词类型一般有:中文、拼音、英文等形式。中文查询中会出现同音字错误、近音字错误、形近字错误、拼音转汉字错误、拼音中字母缺失、前后字置换、汉字缺失等现象;英文查询按照错误类型不同,分为非词错误和真词错误。非词错误是指拼写错误的词不存在,例如,将“the”错误拼写为“tha”;真词错误是指那些拼写错误后的词仍然是合法的情况,例如,将“the”错误拼写为“then"。
英文纠错技术仅考虑了英文搜索引擎中查询包含的错误,即英文单词的拼写错误、使用不当和空格的缺失等,中文搜索引擎中包含的错误类型更多,语言的形式更复杂。
现有的中文查询纠错方法多采用将查询词内的中文转换为拼音,然后查找词典中拼音与该查询词拼音字符串相似或相同的候选词条,最后通过词频或语言模型的方式决定候选词条是否为纠错结果。
对于中文信息检索系统中,大部分只支持对纯中文查询词或者纯英文查询词纠错,但对于用户输入的中英混合进行查询时,目前还支持的不够完善。
发明内容
本发明为解决以上现有技术只支持纯中文查询词或者纯英文查询词纠错的技术缺陷,提供了一种面向搜索引擎的中英混合查询纠错的方法。
为实现以上发明目的,采用的技术方案是:
一种面向搜索引擎的中英混合查询纠错的方法,包括以下步骤:
S1.运用爬虫技术爬取互联网网页内容;
S2.将步骤S1爬取的网页内容和搜索日志作为语料构建出语言模型,以及构建基于拼音的字典树、英文索引表和分词词典;
S3.对于用户输入的查询串,首先运用语言模型对其进行评估,计算其合理性概率,若其合理性概率低于设定的阈值A,或者基于查询串得到的搜索结果的数量少于阈值B,则转入步骤S4的纠错处理;
S4.(1)若查询串中只包含有中文,则执行以下纠错过程:
S101.若输入的查询串为单字,则不执行纠错过程或执行步骤S104,否则执行步骤S102;
S102.将查询串转换成拼音,然后利用编辑距离算法、最大模糊匹配算法在字典树中查找匹配的的候选集合,将查找匹配的候选集合作为纠错建议;若在字典树中查到不到匹配的候选集合,则执行步骤S103;
S103.将查询串进行N元切分,将切分得到的所有子串分别利用编辑距离算法、最大模糊匹配算法在字典树中查找匹配的候选集合;若某一子串查找到匹配的候选集合,则将该子串前面部分的字符串和后面部分的字符串分别作为两个查询串执行步骤S101,进入递归搜索;
S104.递归搜索结束后,得到多个候选集合,此时采用语言模型对各个候选集合进行合理性评分,将评分最高的候选集合作为纠错建议;
(2)若输入的查询串包含有中文和字母,则执行以下纠错过程:
S201.首先将字符串按照S101~S103的步骤进行匹配的候选集合的查找,若查找得到匹配的候选集合,则给出相应的纠错建议;否则将查询串分割成中文和字母串,将中文按照(1)进行纠错处理,而至于字母串,则执行以下处理:
S202.将字母串以空格为分隔符进行分割,得到字符串集合,将字符串集合中的每个字符串按照步骤S101~S103的步骤进行候选集合的匹配查找,若某一字符串查找得到匹配的候选集合,则给出相应的纠错建议,否则该字符串进入步骤S203的英文纠错流程;
S203.判断字符串是否为一个正确的英文单词,若是则进行下一字符串是否属于正确的英文单词的判断,否则根据预先建立的英文索引表查找出候选集合,然后利用最小编辑距离算法计算候选集合与字符串的相似度,将相似度最高的单词作为纠错建议;
(3)若输入的查询串值只包含有字母,则执行以下纠错过程:
S301.将查询串以空格为分隔符进行分割,得到字符串集合,将字符串集合中的每个字符串按照步骤S101~S103的步骤进行候选集合的匹配查找,若某一字符串查找得到匹配的候选集合,则给出相应的纠错建议;若某一字符串查找不到匹配的候选集合,则按照步骤S203的内容进行英文纠错的处理;
S302.当字符串集合中所有的字符串采纳纠错建议进行纠错处理后,将经过纠错处理的字符串按照顺序拼接起来,将拼接的结果作为查询串的纠错建议。
优选地,所述步骤S3中,若查询串的长度大于设定的阈值C,则不进行步骤S4的纠错处理。
优选地,所述语言模型为n-gram语言模型。
优选地,所述n-gram语言模型Add-one平滑方法来解决零概率的问题。
同时,本发明还提供了一种应用以上方法的系统,其具体的方案如下:
包括学习模块、纠错模块和训练模块;
其中学习模块用于对语料进行新词的挖掘,并将挖掘出的新词添加至分词词典中,所述分词词典用于步骤S3对查询串的切分;
训练模块用于基于语料构建出语言模型,以及构建基于拼音的字典树、英文索引表和分词词典;
纠错模块用于进行纠错处理。
优选地,所述纠错模块包括中文纠错子模块、中文与字母纠错子模块、英文和拼音纠错子模块,其中中文纠错子模块用于执行步骤S4中的(1),中文与字母纠错子模块用于执行步骤S4中的(2),英文和拼音纠错子模块用于执行步骤S4中的(3)。
优选地,所述学习模块进行新词的挖掘的具体过程如下:
S401.基于分词词典对语料进行分词处理,得到分词碎片;
S402.对分词碎片进行拼接,得到一个由拼接词组成的拼接词库;
S403.计算拼接分词词典中各个拼接词的词频;
S404.若某一拼接词的词频大于所设定的阈值D,则计算其凝固度和自由度;
S405.若某一拼接词的凝固度和自由度大于设定的阈值E和F,则将该拼接词确认为新词,并添加至分词词典中,然后执行步骤S401。
与现有技术相比,本发明的有益效果是:
1.基于N-gram语言模型以及多种纠错策略,实现对搜索引擎中带有部分错误的中英文混合查询的纠错。
2.对于查询纠错的过程中,需要对查询串进行分词处理,基于统计与基于规则的分词方法都需要利用分词词典进行分词,因此分词词典中词语覆盖率对分词的准确性有重要影响。本发明可以自动对语料进行挖掘与分析,发现网络新词并加入分词词典,提高纠错准确率。
附图说明
图1为系统的结构示意图。
图2为查询串中只包含有中文时的纠错过程图。
图3为查询串为纯英文时的纠错过程图。
图4为查询串中只包含有字母时的纠错过程图。
图5为查询串中包含有中文和字符串时的纠错过程图。
图6为学习模块挖掘新词的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1所示,如图2~5所示,一种面向搜索引擎的中英混合查询纠错的方法,包括以下步骤:
S1.运用爬虫技术爬取互联网网页内容;
S2.将步骤S1爬取的网页内容和搜索日志作为语料构建出语言模型,以及构建基于拼音的字典树、英文索引表和分词词典;
S3.对于用户输入的查询串,首先运用语言模型对其进行评估,计算其合理性概率,若其合理性概率低于设定的阈值A,或者基于查询串得到的搜索结果的数量少于阈值B,则转入步骤S4的纠错处理;
S4.(1)若查询串中只包含有中文,如图2所示,则执行以下纠错过程:
S101.若输入的查询串为单字,则不执行纠错过程或执行步骤S104,否则执行步骤S102;
S102.将查询串转换成拼音,然后利用编辑距离算法、最大模糊匹配算法在字典树中查找匹配的的候选集合,将查找匹配的候选集合作为纠错建议;若在字典树中查到不到匹配的候选集合,则执行步骤S103;
S103.将查询串进行N元切分,将切分得到的所有子串分别利用编辑距离算法、最大模糊匹配算法在字典树中查找匹配的候选集合;若某一子串查找到匹配的候选集合,则将该子串前面部分的字符串和后面部分的字符串分别作为两个查询串执行步骤S101,进入递归搜索;
S104.递归搜索结束后,得到多个候选集合,此时采用语言模型对各个候选集合进行合理性评分,将评分最高的候选集合作为纠错建议;
(2)若输入的查询串包含有中文和字母,如图3、4、5所示,则执行以下纠错过程:
S201.首先将字符串按照S101~S103的步骤进行匹配的候选集合的查找,若查找得到匹配的候选集合,则给出相应的纠错建议;否则将查询串分割成中文和字母串,将中文按照(1)进行纠错处理,而至于字母串,则执行以下处理:
S202.将字母串以空格为分隔符进行分割,得到字符串集合,将字符串集合中的每个字符串按照步骤S101~S103的步骤进行候选集合的匹配查找,若某一字符串查找得到匹配的候选集合,则给出相应的纠错建议,否则该字符串进入步骤S203的英文纠错流程;
S203.判断字符串是否为一个正确的英文单词,若是则进行下一字符串是否属于正确的英文单词的判断,否则根据预先建立的英文索引表查找出候选集合,然后利用最小编辑距离算法计算候选集合与字符串的相似度,将相似度最高的单词作为纠错建议;
(3)若输入的查询串值只包含有字母,如图3、4所示,则执行以下纠错过程:
S301.将查询串以空格为分隔符进行分割,得到字符串集合,将字符串集合中的每个字符串按照步骤S101~S103的步骤进行候选集合的匹配查找,若某一字符串查找得到匹配的候选集合,则给出相应的纠错建议;若某一字符串查找不到匹配的候选集合,则按照步骤S203的内容进行英文纠错的处理;
S302.当字符串集合中所有的字符串采纳纠错建议进行纠错处理后,将经过纠错处理的字符串按照顺序拼接起来,将拼接的结果作为查询串的纠错建议。
在具体的实施过程中,所述步骤S3中,若查询串的长度大于设定的阈值C,则不进行步骤S4的纠错处理。
在具体的实施过程中,所述语言模型为n-gram语言模型。
在具体的实施过程中,所述n-gram语言模型Add-one平滑方法来解决零概率的问题。
实施例2
本实施例提供了一种应用实施例1方法的系统,如图1所示,其具体的方案如下:
包括学习模块、纠错模块和训练模块;
其中学习模块用于对语料进行新词的挖掘,并将挖掘出的新词添加至分词词典中,所述分词词典用于步骤S3对查询串的切分;
训练模块用于基于语料构建出语言模型,以及构建基于拼音的字典树、英文索引表和分词词典;
纠错模块用于进行纠错处理。
在具体的实施过程中,所述纠错模块包括中文纠错子模块、中文与字母纠错子模块、英文和拼音纠错子模块,其中中文纠错子模块用于执行步骤S4中的(1),中文与字母纠错子模块用于执行步骤S4中的(2),英文和拼音纠错子模块用于执行步骤S4中的(3)。
在具体的实施过程中,如图6所示,所述学习模块进行新词的挖掘的具体过程如下:
S401.基于分词词典对语料进行分词处理,得到分词碎片;
S402.对分词碎片进行拼接,得到一个由拼接词组成的拼接词库;
S403.计算拼接分词词典中各个拼接词的词频;
S404.若某一拼接词的词频大于所设定的阈值D,则计算其凝固度和自由度;
S405.若某一拼接词的凝固度和自由度大于设定的阈值E和F,则将该拼接词确认为新词,并添加至分词词典中,然后执行步骤S401。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种面向搜索引擎的中英混合查询纠错的方法,其特征在于:包括以下步骤:
S1.运用爬虫技术爬取互联网网页内容;
S2.将步骤S1爬取的网页内容和搜索日志作为语料构建出语言模型,以及构建基于拼音的字典树、英文索引表和分词词典;
S3.对于用户输入的查询串,首先运用语言模型对其进行评估,计算其合理性概率,若其合理性概率低于设定的阈值A,或者基于查询串得到的搜索结果的数量少于阈值B,则转入步骤S4的纠错处理;
S4.(1)若查询串中只包含有中文,则执行以下纠错过程:
S101.若输入的查询串为单字,则不执行纠错过程或执行步骤S104,否则执行步骤S102;
S102.将查询串转换成拼音,然后利用编辑距离算法、最大模糊匹配算法在字典树中查找匹配的的候选集合,将查找匹配的候选集合作为纠错建议;若在字典树中查到不到匹配的候选集合,则执行步骤S103;
S103.将查询串进行N元切分,将切分得到的所有子串分别利用编辑距离算法、最大模糊匹配算法在字典树中查找匹配的候选集合;若某一子串查找到匹配的候选集合,则将该子串前面部分的字符串和后面部分的字符串分别作为两个查询串执行步骤S101,进入递归搜索;
S104.递归搜索结束后,得到多个候选集合,此时采用语言模型对各个候选集合进行合理性评分,将评分最高的候选集合作为纠错建议;
(2)若输入的查询串包含有中文和字母,则执行以下纠错过程:
S201.首先将字符串按照S101~S103的步骤进行匹配的候选集合的查找,若查找得到匹配的候选集合,则给出相应的纠错建议;否则将查询串分割成中文和字母串,将中文按照(1)进行纠错处理,而至于字母串,则执行以下处理:
S202.将字母串以空格为分隔符进行分割,得到字符串集合,将字符串集合中的每个字符串按照步骤S101~S103的步骤进行候选集合的匹配查找,若某一字符串查找得到匹配的候选集合,则给出相应的纠错建议,否则该字符串进入步骤S203的英文纠错流程;
S203.判断字符串是否为一个正确的英文单词,若是则进行下一字符串是否属于正确的英文单词的判断,否则根据预先建立的英文索引表查找出候选集合,然后利用最小编辑距离算法计算候选集合与字符串的相似度,将相似度最高的单词作为纠错建议;
(3)若输入的查询串值只包含有字母,则执行以下纠错过程:
S301.将查询串以空格为分隔符进行分割,得到字符串集合,将字符串集合中的每个字符串按照步骤S101~S103的步骤进行候选集合的匹配查找,若某一字符串查找得到匹配的候选集合,则给出相应的纠错建议;若某一字符串查找不到匹配的候选集合,则按照步骤S203的内容进行英文纠错的处理;
S302.当字符串集合中所有的字符串采纳纠错建议进行纠错处理后,将经过纠错处理的字符串按照顺序拼接起来,将拼接的结果作为查询串的纠错建议。
2.根据权利要求1所述的面向搜索引擎的中英混合查询纠错的方法,其特征在于:所述步骤S3中,若查询串的长度大于设定的阈值C,则不进行步骤S4的纠错处理。
3.根据权利要求1所述的面向搜索引擎的中英混合查询纠错的方法,其特征在于:所述语言模型为n-gram语言模型。
4.根据权利要求3所述的面向搜索引擎的中英混合查询纠错的方法,其特征在于:所述n-gram语言模型Add-one平滑方法来解决零概率的问题。
5.一种根据权利要求1~4任一项方法所述的系统,其特征在于:包括学习模块、纠错模块和训练模块;
其中学习模块用于对语料进行新词的挖掘,并将挖掘出的新词添加至分词词典中,所述分词词典用于步骤S3对查询串的切分;
训练模块用于基于语料构建出语言模型,以及构建基于拼音的字典树、英文索引表和分词词典;
纠错模块用于进行纠错处理。
6.根据权利要求5所述的系统,其特征在于:所述纠错模块包括中文纠错子模块、中文与字母纠错子模块、英文和拼音纠错子模块,其中中文纠错子模块用于执行步骤S4中的(1),中文与字母纠错子模块用于执行步骤S4中的(2),英文和拼音纠错子模块用于执行步骤S4中的(3)。
7.根据权利要求5所述的系统,其特征在于:所述学习模块进行新词的挖掘的具体过程如下:
S401.基于分词词典对语料进行分词处理,得到分词碎片;
S402.对分词碎片进行拼接,得到一个由拼接词组成的拼接词库;
S403.计算拼接分词词典中各个拼接词的词频;
S404.若某一拼接词的词频大于所设定的阈值D,则计算其凝固度和自由度;
S405.若某一拼接词的凝固度和自由度大于设定的阈值E和F,则将该拼接词确认为新词,并添加至分词词典中,然后执行步骤S401。
CN201710340283.8A 2017-05-15 2017-05-15 面向搜索引擎的中英混合查询纠错的方法及系统 Active CN107193921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710340283.8A CN107193921B (zh) 2017-05-15 2017-05-15 面向搜索引擎的中英混合查询纠错的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710340283.8A CN107193921B (zh) 2017-05-15 2017-05-15 面向搜索引擎的中英混合查询纠错的方法及系统

Publications (2)

Publication Number Publication Date
CN107193921A true CN107193921A (zh) 2017-09-22
CN107193921B CN107193921B (zh) 2020-02-07

Family

ID=59873553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710340283.8A Active CN107193921B (zh) 2017-05-15 2017-05-15 面向搜索引擎的中英混合查询纠错的方法及系统

Country Status (1)

Country Link
CN (1) CN107193921B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法
CN108037837A (zh) * 2017-11-07 2018-05-15 朗坤智慧科技股份有限公司 一种搜索词的智能提示方法
CN108052658A (zh) * 2017-12-28 2018-05-18 北京百度网讯科技有限公司 基于人工智能的查询信息纠错构架生成方法和装置
CN108062305A (zh) * 2017-12-29 2018-05-22 北京时空迅致科技有限公司 一种基于迭代的三步式无监督中文分词方法
CN108132917A (zh) * 2017-12-04 2018-06-08 昆明理工大学 一种文档纠错标记方法
CN108829674A (zh) * 2018-06-08 2018-11-16 Oppo(重庆)智能科技有限公司 内容纠错方法及相关装置
CN109711412A (zh) * 2018-12-27 2019-05-03 信雅达系统工程股份有限公司 一种基于字典的光学字符识别纠错方法
CN109885180A (zh) * 2019-02-21 2019-06-14 北京百度网讯科技有限公司 纠错方法和装置、计算机可读介质
CN110032722A (zh) * 2018-01-12 2019-07-19 北京京东尚科信息技术有限公司 文本纠错方法和装置
CN110795617A (zh) * 2019-08-12 2020-02-14 腾讯科技(深圳)有限公司 一种搜索词的纠错方法及相关装置
CN111859920A (zh) * 2020-06-19 2020-10-30 北京国音红杉树教育科技有限公司 单词拼写错误的识别方法、系统及电子设备
CN112364126A (zh) * 2020-10-21 2021-02-12 广州市百果园网络科技有限公司 一种关键词的提示方法、装置、计算机设备和存储介质
CN112651230A (zh) * 2019-09-25 2021-04-13 亿度慧达教育科技(北京)有限公司 融合语言模型生成方法和装置、单词纠错方法和电子设备
CN113094470A (zh) * 2021-04-08 2021-07-09 蔡堃 文本搜索方法和系统
CN113255331A (zh) * 2021-06-21 2021-08-13 智者四海(北京)技术有限公司 文本纠错方法、装置及存储介质
CN113420219A (zh) * 2021-06-30 2021-09-21 北京明略昭辉科技有限公司 用于查询信息纠错的方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556970B1 (en) * 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
CN104156454A (zh) * 2014-08-18 2014-11-19 腾讯科技(深圳)有限公司 搜索词的纠错方法和装置
CN104750672A (zh) * 2013-12-27 2015-07-01 重庆新媒农信科技有限公司 一种应用于搜索中的中文词汇纠错方法及其装置
CN105468719A (zh) * 2015-11-20 2016-04-06 北京齐尔布莱特科技有限公司 一种查询纠错方法、装置和计算设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556970B1 (en) * 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
CN104750672A (zh) * 2013-12-27 2015-07-01 重庆新媒农信科技有限公司 一种应用于搜索中的中文词汇纠错方法及其装置
CN104156454A (zh) * 2014-08-18 2014-11-19 腾讯科技(深圳)有限公司 搜索词的纠错方法和装置
CN105468719A (zh) * 2015-11-20 2016-04-06 北京齐尔布莱特科技有限公司 一种查询纠错方法、装置和计算设备

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法
CN107741928B (zh) * 2017-10-13 2021-01-26 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法
CN108037837A (zh) * 2017-11-07 2018-05-15 朗坤智慧科技股份有限公司 一种搜索词的智能提示方法
CN108132917A (zh) * 2017-12-04 2018-06-08 昆明理工大学 一种文档纠错标记方法
CN108132917B (zh) * 2017-12-04 2021-12-17 昆明理工大学 一种文档纠错标记方法
CN108052658B (zh) * 2017-12-28 2021-12-21 北京百度网讯科技有限公司 基于人工智能的查询信息纠错构架生成方法和装置
CN108052658A (zh) * 2017-12-28 2018-05-18 北京百度网讯科技有限公司 基于人工智能的查询信息纠错构架生成方法和装置
CN108062305A (zh) * 2017-12-29 2018-05-22 北京时空迅致科技有限公司 一种基于迭代的三步式无监督中文分词方法
CN110032722A (zh) * 2018-01-12 2019-07-19 北京京东尚科信息技术有限公司 文本纠错方法和装置
CN108829674A (zh) * 2018-06-08 2018-11-16 Oppo(重庆)智能科技有限公司 内容纠错方法及相关装置
CN109711412A (zh) * 2018-12-27 2019-05-03 信雅达系统工程股份有限公司 一种基于字典的光学字符识别纠错方法
CN109885180A (zh) * 2019-02-21 2019-06-14 北京百度网讯科技有限公司 纠错方法和装置、计算机可读介质
KR20200102919A (ko) * 2019-02-21 2020-09-01 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 오류를 정정하는 방법, 장치 및 컴퓨터 판독가능 매체
EP3699779A1 (en) * 2019-02-21 2020-08-26 Beijing Baidu Netcom Science And Technology Co. Ltd. Error correction method and apparatus, and computer readable medium
US11663269B2 (en) * 2019-02-21 2023-05-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Error correction method and apparatus, and computer readable medium
KR102215299B1 (ko) * 2019-02-21 2021-02-15 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 오류를 정정하는 방법, 장치 및 컴퓨터 판독가능 매체
CN110795617A (zh) * 2019-08-12 2020-02-14 腾讯科技(深圳)有限公司 一种搜索词的纠错方法及相关装置
CN112651230A (zh) * 2019-09-25 2021-04-13 亿度慧达教育科技(北京)有限公司 融合语言模型生成方法和装置、单词纠错方法和电子设备
CN111859920A (zh) * 2020-06-19 2020-10-30 北京国音红杉树教育科技有限公司 单词拼写错误的识别方法、系统及电子设备
CN111859920B (zh) * 2020-06-19 2024-06-04 北京国音红杉树教育科技有限公司 单词拼写错误的识别方法、系统及电子设备
CN112364126A (zh) * 2020-10-21 2021-02-12 广州市百果园网络科技有限公司 一种关键词的提示方法、装置、计算机设备和存储介质
CN113094470A (zh) * 2021-04-08 2021-07-09 蔡堃 文本搜索方法和系统
CN113094470B (zh) * 2021-04-08 2022-05-24 蔡堃 文本搜索方法和系统
CN113255331B (zh) * 2021-06-21 2021-11-12 智者四海(北京)技术有限公司 文本纠错方法、装置及存储介质
CN113255331A (zh) * 2021-06-21 2021-08-13 智者四海(北京)技术有限公司 文本纠错方法、装置及存储介质
CN113420219A (zh) * 2021-06-30 2021-09-21 北京明略昭辉科技有限公司 用于查询信息纠错的方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN107193921B (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN107193921A (zh) 面向搜索引擎的中英混合查询纠错的方法及系统
CN106708893B (zh) 搜索查询词纠错方法和装置
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
US9092483B2 (en) User query reformulation using random walks
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
US20090089047A1 (en) Natural Language Hypernym Weighting For Word Sense Disambiguation
CN105893444A (zh) 情感分类方法及装置
WO2010082207A1 (en) Dynamic indexing while authoring
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN104011712A (zh) 对跨语言查询建议的查询翻译进行评价
CN101430680B (zh) 一种无词边界标记语言文本的分词序列选择方法及系统
CN102567409A (zh) 一种提供检索关联词的方法及装置
US20120284308A1 (en) Statistical spell checker
CN103390004A (zh) 一种语义冗余的确定方法和装置、对应的搜索方法和装置
CN111680509A (zh) 基于共现语言网络的文本关键词自动抽取方法和装置
CN104375988A (zh) 一种词语对齐方法及装置
CN102339294A (zh) 一种对关键词进行预处理的搜索方法和系统
CN111160014A (zh) 一种智能分词方法
Yusuf et al. Query expansion method for quran search using semantic search and lucene ranking
CN115033773A (zh) 一种基于在线搜索辅助的中文文本纠错方法
CN107229611B (zh) 一种基于词对齐的历史典籍分词方法
JP4102153B2 (ja) インターネットを利用した文字認識の後処理装置
CN106776590A (zh) 一种获取词条译文的方法及系统
CN111209737B (zh) 噪声文档的筛除方法及计算机可读存储介质
CN110309258A (zh) 一种输入检查方法、服务器和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant