CN103514236A - 检索应用中基于拼音的检索条件纠错提示处理方法 - Google Patents

检索应用中基于拼音的检索条件纠错提示处理方法 Download PDF

Info

Publication number
CN103514236A
CN103514236A CN201210228101.5A CN201210228101A CN103514236A CN 103514236 A CN103514236 A CN 103514236A CN 201210228101 A CN201210228101 A CN 201210228101A CN 103514236 A CN103514236 A CN 103514236A
Authority
CN
China
Prior art keywords
cue
search condition
pinyin character
character string
error correcting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210228101.5A
Other languages
English (en)
Other versions
CN103514236B (zh
Inventor
刘磊
熊小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Tai Yue Xiang Sheng Software Co., Ltd.
Original Assignee
CHONGQING XINMEI AGRICULTURAL INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHONGQING XINMEI AGRICULTURAL INFORMATION TECHNOLOGY CO LTD filed Critical CHONGQING XINMEI AGRICULTURAL INFORMATION TECHNOLOGY CO LTD
Priority to CN201210228101.5A priority Critical patent/CN103514236B/zh
Publication of CN103514236A publication Critical patent/CN103514236A/zh
Application granted granted Critical
Publication of CN103514236B publication Critical patent/CN103514236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种基于拼音的检索条件纠错提示处理方法,该方法能够实现对拼音输入法输入汉字检索条件时出现的输入错误提供纠错提示,能够支持对汉字、拼音、汉字与拼音混合形式的纠错提示,并且可以针对同音词和模糊音词的别字词条检索提供纠错提示;本发明基于拼音的检索条件纠错提示处理方法采用了字典树作为查询处理的数据结构,具有查询速度快、纠错能力强、占用数据空间少等优点,能够提升搜索引擎对检索条件的纠错提示处理效率和响应速度,给用户带来更好的使用体验,从提升用户对检索应用产品的忠诚度。

Description

检索应用中基于拼音的检索条件纠错提示处理方法
技术领域
本发明涉及计算机通信网络技术和检索应用技术领域,具体涉及一种检索应用中基于拼音的检索条件纠错提示处理方法。
背景技术
在信息化社会中,搜索引擎作为获取信息的主要方式之一,自其问世以来便引起人们的普遍关注。搜索引擎是指以网络的各种信息资源为对象,以信息检索的方式提供用户所需信息的数据服务系统,其通过特定的计算机应用程序定时在互联网上搜集信息,并对搜集到的信息提取、整合、建立索引之后,为用户提供检索服务。随着信息量的爆炸式增长,大众化搜索引擎的使用率持续提高,人们对搜索引擎的人机交互性能的要求也随之提高,因此,业界逐渐关注搜索引擎的容错技术。搜索引擎容错技术是指用户在输入关键字进行检索时,如果搜索引擎在返回结果中计算出与此关键词相似的另一形式词条得到大量的搜索结果,用户将会在搜索结果页面看到系统推测提供的关键词项。目前,搜索引擎支持的用户检索错误主要包括:同音别字错误、模糊音别字错误等。同音别字错误是指由于用户在输入正确拼音(不包括声调)后由于粗心或无法确定字形而选择与目标检索词具有相同拼音的错误汉字。模糊音别字错误是指由于地域特色等原因使用户输入目标检索词的相似拼音的错误汉字。
现有技术中,搜索引擎容错式检索的常用解决方案通常是基于统计的纠错提示处理,即通过特定算法(例如N-gram)计算作为检索条件的词条与提示词库中所有提示词的匹配度,从而获取较优的纠错提示结果返回给用户。但这种纠错提示处理方式,要检索到匹配的纠错提示结果,需要遍历匹配整个提示词库中所有的提示词,匹配次数过多导致了纠错提示处理的整体耗时较长,纠错提示处理效率和响应速度较低,影响了用户对纠错提示功能的使用体验感。
发明内容
针对现有技术中存在的上述不足,本发明提供一基于拼音的检索条件纠错提示处理方法,一方面的目的在于针对拼音输入法输入汉字检索条件时出现的输入错误提供纠错提示,以实现搜索引擎容错式检索;另一方面的目的在于,提升搜索引擎对检索条件的纠错提示处理效率和响应速度。
为实现上述目的,本发明采用了如下技术手段:
基于拼音的检索条件纠错提示处理方法,包括:在用户输入检索条件时,若作为检索条件的词条不是提示词库中的提示词,则获取作为检索条件的词条并转化为对应的拼音字符串,从预先建立的提示词拼音字典树中查找与作为检索条件的词条对应的拼音字符串相匹配的拼音字符路径,将相匹配的拼音字符路径末节点预设的同音指针所指向的词表中记录的提示词作为纠错提示结果,返回给用户。
作为进一步优化方案,所述“在用户输入检索条件”之前,还包括:预先建立提示词拼音字典树;所述提示词拼音字典树包含有提示词库中各个提示词对应的拼音字符串所构成的拼音字符路径;所述提示词拼音字典树中,在每一个提示词对应的拼音字符串所构成的拼音字符路径的末节点,预设有用于指向记录有该提示词的词表的同音指针。
作为一种可选择方案,所述提示词对应的拼音字符串通过查询预设的汉字-拼音对照字典获得。
作为进一步优化方案,所述“将相匹配的拼音字符路径末节点预设的同音指针所指向的词表中记录的提示词作为纠错提示结果”的同时,还包括:还将相匹配的拼音字符路径末节点预设的模糊音指针所指向的词表中记录的提示词作为纠错提示结果,返回给用户。
作为进一步优化方案,所述“在用户输入检索条件”之前,还包括:预先建立提示词拼音字典树;所述提示词拼音字典树包含有提示词库中各个提示词对应的拼音字符串所构成的拼音字符路径以及各个提示词对应的模糊音字符串所构成的字符串路径;所述提示词拼音字典树中,在每一个提示词对应的拼音字符串所构成的拼音字符路径的末节点,预设有用于指向记录有该提示词的词表的同音指针;在每一个提示词对应的模糊音字符串所构成的拼音字符路径的末节点,预设有用于指向记录有该提示词的词表的模糊音指针。
作为一种可选择方案,所述提示词对应的模糊音字符串通过查询预设的汉字-模糊音对照字典获得;或者,所述提示词对应的模糊音字符串通过查询汉字-拼音对照字典以及拼音-模糊音对照关系表获得。
作为进一步优化方案,所述提示词拼音字典树中,对于同一个提示词,该提示词对应的拼音字符串所构成的拼音字符路径的末节点预设的同音指针所指向的词表,以及该提示词对应的模糊音字符串所构成的拼音字符路径的末节点预设的模糊音指针所指向的词表,为同一个词表。
作为进一步优化方案,所述“获取作为检索条件的词条并转化为对应的拼音字符串,从预先建立的提示词拼音字典树中查找与作为检索条件的词条对应的拼音字符串相匹配的拼音字符路径”具体为:获取作为检索条件的词条后,判断该词条中是否包含有多音字;若未包含有多音字,则将该作为检索条件的词条转化为唯一对应的拼音字符串,从预先建立的提示词拼音字典树中查找与作为检索条件的词条唯一对应的拼音字符串相匹配的拼音字符路径;若包含有多音字,则将该作为检索条件的词条转化为各种能够对应的拼音字符串情况,从预先建立的提示词拼音字典树中查找与作为检索条件的词条各种能够对应的拼音字符串情况分别相匹配的拼音字符路径。
作为进一步优化方案,作为纠错提示结果返回给用户的提示词数量不超过预设的词数上限值N0;在作为纠错提示结果的提示词数量n≤N0的情况下,则将作为纠错提示结果的全部提示词返回给用户;在作为纠错提示结果的提示词数量n>N0的情况下,则从中选取出按预设排序规则排序靠前的N0个提示词返回给用户。
作为一种可选择方案,所述预设排序规则为按提示词的热度由高到低的排序规则;所述提示词的热度是指,在指定时间段内,提示词在用户输入的检索条件中出现的次数,该次数越大则提示词的热度越高。
相比于现有技术,本发明具有如下有益效果:
1、本发明基于拼音的检索条件纠错提示处理方法能够实现对拼音输入法输入汉字检索条件时出现的输入错误提供纠错提示,能够支持对汉字、拼音、汉字与拼音混合形式的纠错提示。
2、本发明基于拼音的检索条件纠错提示处理方法,不仅可以针对同音词别字词条检索提供纠错提示,还可以针对模糊音别字词条检索提供纠错提示。
3、本发明基于拼音的检索条件纠错提示处理方法采用了字典树作为查询处理的数据结构,具有查询速度快、纠错能力强、占用数据空间少等优点,能够提升搜索引擎对检索条件的纠错提示处理效率和响应速度。
附图说明
图1为本发明实施例中基于拼音的检索条件纠错提示处理方法提示词拼音字典树的结构示意图。
具体实施方式
字典树,又称Trie树,是一种树形数据结构,是一种哈希树的变种。作为一种现有技术,字典树的典型应用是用于统计、排序和保存大量的字符串(但不仅限于字符串)。字典树具有的主要优点是:利用字符串的公共前缀来节约数据存储空间,能够最大限度地减少无谓的字符串比较,并且其查询处理效率比哈希表更高。基于字典树的这些优点,本发明基于拼音的检索条件纠错提示处理方法很好的结合了字典树数据结构进行纠错的查询处理,很好的实现了对同音词、模糊音的别字词条检索的纠错提示,并且其纠错查询过程只需要经历的匹配次数即相当于相匹配的拼音字符路径上所包含的节点个数,对于常规的提示词拼音字符串来说,其相匹配的拼音字符路径上所包含的节点个数通常不超过20个,并且绝大多数都在10个以内,与现有技术中需要遍历匹配整个提示词库中所有的提示词相比,其匹配次数大幅减少,从而提升了搜索引擎对检索条件的纠错提示处理效率和响应速度。
为了更便于对本发明技术内容的理解,下面对本发明涉及的一些技术词语加以说明。
拼音字典树:除了根节点外的其它节点存储的字符为拼音字符,这种字典树,本发明中称之为拼音字典树。
根节点:拼音字典树中,唯一一个不存在上一父节点的节点,称为根节点。
末节点:拼音字典树中,任意一个不存在下一子节点的节点,称为末节点。
拼音字符路径:拼音字典树中,从根节点至任意一个末节点所依次经历的各个拼音字符的排序组合,称为拼音字符路径。
词表:该词表为一个存储提示词的链表。如果为了节省词表所占用的存储空间,提示词拼音字典树中,对于同一个提示词,该提示词对应的拼音字符串所构成的拼音字符路径的末节点预设的同音指针所指向的词表,以及该提示词对应的模糊音字符串所构成的拼音字符路径的末节点预设的模糊音指针所指向的词表,可以为同一个词表。这样以来,每个词表与不多于一个同音指针相对应,但有可能与若干个模糊音指针相对应。该词表中可以只包含一个提示词,也可以同时包含多个提示词,并且还可以设置让词表中的多个提示词按预设排序规则进行排序,例如按提示词的热度由高到低排序等。
下面结合实施例和附图,对本发明进行进一步的说明。
本发明基于拼音的检索条件纠错提示处理方法,其主要包括以下步骤:
S100,预先建立提示词拼音字典树;所述提示词拼音字典树包含有提示词库中各个提示词对应的拼音字符串所构成的拼音字符路径;所述提示词拼音字典树中,在每一个提示词对应的拼音字符串所构成的拼音字符路径的末节点,预设有用于指向记录有该提示词的词表的同音指针。
该步骤建立了只一个提供支持同音词纠错提示的提示词拼音字典树。
如果还需要进一步的提供支持模糊音纠错提示,那么需要采用另一种提示词拼音字典树建立方案,即:
S101,预先建立提示词拼音字典树;所述提示词拼音字典树包含有提示词库中各个提示词对应的拼音字符串所构成的拼音字符路径以及各个提示词对应的模糊音字符串所构成的字符串路径;所述提示词拼音字典树中,在每一个提示词对应的拼音字符串所构成的拼音字符路径的末节点,预设有用于指向记录有该提示词的词表的同音指针;在每一个提示词对应的模糊音字符串所构成的拼音字符路径的末节点,预设有用于指向记录有该提示词的词表的模糊音指针。
可以看到,步骤S101与步骤S100相比,提示词拼音字典树中增加了提示词对应的模糊音字符串所构成的字符串路径,以及提示词对应的模糊音字符串所构成的拼音字符路径的末节点预设的模糊音指针。如果提示词库中存在互为模糊音词的数个提示词,则某一个提示词对应的模糊音字符串所构成的拼音字符路径,很可能也同时相当于另一个提示词对应的拼音字符串所构成的拼音字符路径。
举例子来说明。如图1所示,例如,当提示词库中的提示词“篮球”,其在提示词拼音字典树中对应的拼音字符串所构成的拼音字符路径建立过程为:首先将提示词“篮球”转化为对应的拼音字符串“LANQIU”,该转化通常可以通过查询预设的汉字-拼音对照字典获得;在提示词拼音字典树的根节点“root”下依次遍历节点L、A、N、Q、I、U,若节点不存在则增加相应节点;该拼音字符路径的末节点“U”之后预设对应拼音字符串“LANQIU”的同音指针,指向“LANQIU”词表,将提示词“篮球”存储其中。由于“榄球”的拼音字符串也同样为“LANQIU”,因此提示词库中的提示词“榄球”也将按上述流程被存储在“LANQIU”词表中。又例如,如果提示词库中的提示词“篮球”对应模糊音字符串“LANGQIU”;要建立其对应的模糊音字符串所构成的拼音字符路径,其过程为:首先将提示词“篮球”转化为对应模糊音字符串“LANGQIU”,该转化通常可以通过查询预设的汉字-模糊音对照字典获得,或者,可以通过查询汉字-拼音对照字典以及拼音-模糊音对照关系表获得;在提示词拼音字典树的根节点下依次遍历节点L、A、N、G、Q、I、U,若节点不存在则增加相应节点;该拼音字符路径的末节点“U”之后预设对应模糊音字符串“LANGQIU”的模糊音指针,指向“LANQIU”词表,将提示词“篮球”存储其中;当然,如果为了节省词表所占用的存储空间,若已经存在记录有提示词“篮球”的词表,例如前述拼音字符串“LANQIU”的同音指针所指向的“LANQIU”词表即可;也就是说,提示词拼音字典树中,对于同一个提示词,该提示词对应的拼音字符串所构成的拼音字符路径的末节点预设的同音指针所指向的词表,以及该提示词对应的模糊音字符串所构成的拼音字符路径的末节点预设的模糊音指针所指向的词表,可以为同一个词表。在这种情况下,如果提示词库中有提示词“郎秋”,则其对应的拼音字符串所构成的拼音字符路径也为L、A、N、G、Q、I、U,其对应的拼音字符串“LANGQIU” 的同音指针指向“LANGQIU”词表,则提示词“郎秋”存储于该“LANGQIU”词表中;如果该提示词“郎秋”对应模糊音字符串“LANQIU”,则上述的提示词“篮球”对应的拼音字符串所构成的拼音字符路径L、A、N、Q、I、U,该末节点“U”之后预设对应模糊音字符串“LANQIU”的模糊音指针,将指向存储有提示词“郎秋”的“LANGQIU”词表。详情如图1所示。
实际上,上述的步骤S100与步骤S101都是预处理步骤,是可选执行的步骤;如果搜索引擎已经预先建立有默认的提示词拼音字典树,则可以直接采用默认的提示词拼音字典树,无需执行这一步骤。只有当需要重新建立、更新提示词拼音字典树时,才需要执行这步骤S100或步骤S101。
S200,在用户输入检索条件时,若作为检索条件的词条不是提示词库中的提示词,则获取作为检索条件的词条并转化为对应的拼音字符串,从预先建立的提示词拼音字典树中查找与作为检索条件的词条对应的拼音字符串相匹配的拼音字符路径,将相匹配的拼音字符路径末节点预设的同音指针所指向的词表中记录的提示词作为纠错提示结果,返回给用户。
该步骤的上述操作,只是执行了对同音词纠错提示处理的操作。如果还需要进一步的提供支持同音词纠错提示操作,则需要对步骤S200的处理作进一步的改进,即在“将相匹配的拼音字符路径末节点预设的同音指针所指向的词表中记录的提示词作为纠错提示结果”的同时,还包括:还将相匹配的拼音字符路径末节点预设的模糊音指针所指向的词表中记录的提示词作为纠错提示结果,返回给用户。
步骤S200是正式执行检索条件纠错提示处理操作的步骤,如果在已经具备默认的提示词拼音字典树的情况下,或者在已经预先建立提示词拼音字典树之后,则只需要执行该步骤的操作便可实现对检索条件的纠错提示功能。举例子来说明。同样可以参见图1,如果一个用户想检索的目标词本为“篮球”,但因用户在输入时存在同音词选词错误,实际输入的检索条件成为了“蓝球”;由于提示词库中并不存在“蓝球”这一提示词(“蓝球”一词本来就存在错别字),因此搜索引擎启动了纠错提示处理过程,获取作为检索条件的词条“蓝球”,转化为对应的拼音字符串“LANQIU”,从预先建立的提示词拼音字典树中查找与作为检索条件的词条对应的拼音字符串“LANQIU”相匹配的拼音字符路径,则查找到相匹配的拼音字符路径为L、A、N、Q、I、U,进而将该拼音字符路径的末节点“U”的同音指针所指向的“LANQIU”词表中记录的提示词“篮球”和“榄球”作为纠错提示结果,返回给用户;如果还伴随有模糊音纠错提示,则同时还会将相匹配的拼音字符路径L、A、N、Q、I、U的末节点“U”预设的模糊音指针所指向的“LANGQIU”词表中记录的提示词“郎秋”作为纠错提示结果,返回给用户。由此,用户可能会获得如下的纠错提示信息:“您要找的是不是:篮球、榄球、郎秋?”。
在步骤S200的执行过程中,可能会出现一些特殊情况。例如,用户输入的作为检索条件的词条中可能包含有多音字,这将使得一个词条可能有多种能够对应的拼音字符串情况。针对这种情况,本发明方法可以通过对步骤S200进行进一步改进,使得问题得到解决。具体改进方案是,在上述步骤S200中,所述“获取作为检索条件的词条并转化为对应的拼音字符串,从预先建立的提示词拼音字典树中查找与作为检索条件的词条对应的拼音字符串相匹配的拼音字符路径”具体为:获取作为检索条件的词条后,判断该词条中是否包含有多音字;若未包含有多音字,则将该作为检索条件的词条转化为唯一对应的拼音字符串,从预先建立的提示词拼音字典树中查找与作为检索条件的词条唯一对应的拼音字符串相匹配的拼音字符路径;若包含有多音字,则将该作为检索条件的词条转化为各种能够对应的拼音字符串情况,从预先建立的提示词拼音字典树中查找与作为检索条件的词条各种能够对应的拼音字符串情况分别相匹配的拼音字符路径。这样使得作为检索条件的词条因为多音字而存在的各种能够对应的拼音字符串情况,都可以匹配到拼音字符路径,进而将分别得到纠错提示。例如,词条“大FU”中“大”字为多音字,存在“da”、“dai”两种读音;因此,词条“大FU”存在“DAFU”、“DAIFU”两种能够对应的拼音字符串情况,如果对此进行纠错提示,用户就可能的得到“答复”(对应“DAFU”)、“大夫”(对应“DAIFU”)等类似的纠错提示信息。
通常情况下,作为纠错提示结果返回给用户的提示词数量越多当然越有利于向用户提供更多选择,但过多的提示词数量可能包含很多用户根本不需要的提示信息,并且有时候也会造成用户难于选择的困惑。因此,针对步骤S200处理后可能得到多个提示词的情形,例如上述的几个举例中出现的情况,作为一种进一步的改进,搜索引擎中可以预设有词数上限值N0,作为纠错提示结果返回给用户的提示词数量不超过预设的词数上限值N0;在作为纠错提示结果的提示词数量n≤N0的情况下,则将作为纠错提示结果的全部提示词返回给用户;在作为纠错提示结果的提示词数量n>N0的情况下,则从中选取出按预设排序规则排序靠前的N0个提示词返回给用户。例如设置N0=1,预设排序规则设置为按提示词的热度由高到低的排序规则;那么对于作为纠错提示结果的提示词包括有“篮球”、“榄球”、“郎秋”的情形,若三者中提示词“篮球”的热度最高,那么用户可能受到的纠错提示信息则不再是“您要找的是不是:篮球、榄球、郎秋?”,而将是“您要找的是不是:篮球?”。词条热度,是互联网络搜索引擎技术领域的一个常见概念,通常指在指定时间段内词条在用户输入的检索条件中出现的次数。例如,提示词的热度即是指,在指定时间段内,提示词在用户输入的检索条件中出现的次数;该次数越大则提示词的热度越高。当然,作为具体应用而言,词数上限值N0的取值以及预设排序规则具体如何选择,则可以根据实际情况的需要而设定。
综上所述,可以看到,本发明基于拼音的检索条件纠错提示处理方法能够实现对拼音输入法输入汉字检索条件时出现的输入错误提供纠错提示,能够支持对汉字、拼音、汉字与拼音混合形式的纠错提示,并且可以针对同音词和模糊音词的别字词条检索提供纠错提示;本发明基于拼音的检索条件纠错提示处理方法采用了字典树作为查询处理的数据结构,具有查询速度快、纠错能力强、占用数据空间少等优点,能够提升搜索引擎对检索条件的纠错提示处理效率和响应速度,给用户带来更好的使用体验,从提升用户对检索应用产品的忠诚度。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.基于拼音的检索条件纠错提示处理方法,其特征在于,包括:在用户输入检索条件时,若作为检索条件的词条不是提示词库中的提示词,则获取作为检索条件的词条并转化为对应的拼音字符串,从预先建立的提示词拼音字典树中查找与作为检索条件的词条对应的拼音字符串相匹配的拼音字符路径,将相匹配的拼音字符路径末节点预设的同音指针所指向的词表中记录的提示词作为纠错提示结果,返回给用户。
2.根据权利要求1所述的检索条件纠错提示处理方法,其特征在于,所述“在用户输入检索条件”之前,还包括:预先建立提示词拼音字典树;所述提示词拼音字典树包含有提示词库中各个提示词对应的拼音字符串所构成的拼音字符路径;所述提示词拼音字典树中,在每一个提示词对应的拼音字符串所构成的拼音字符路径的末节点,预设有用于指向记录有该提示词的词表的同音指针。
3.根据权利要求2所述的检索条件纠错提示处理方法,其特征在于,所述提示词对应的拼音字符串通过查询预设的汉字-拼音对照字典获得。
4.根据权利要求1所述的检索条件纠错提示处理方法,其特征在于,所述“将相匹配的拼音字符路径末节点预设的同音指针所指向的词表中记录的提示词作为纠错提示结果”的同时,还包括:还将相匹配的拼音字符路径末节点预设的模糊音指针所指向的词表中记录的提示词作为纠错提示结果,返回给用户。
5.根据权利要求4所述的检索条件纠错提示处理方法,其特征在于,所述“在用户输入检索条件”之前,还包括:预先建立提示词拼音字典树;所述提示词拼音字典树包含有提示词库中各个提示词对应的拼音字符串所构成的拼音字符路径以及各个提示词对应的模糊音字符串所构成的字符串路径;所述提示词拼音字典树中,在每一个提示词对应的拼音字符串所构成的拼音字符路径的末节点,预设有用于指向记录有该提示词的词表的同音指针;在每一个提示词对应的模糊音字符串所构成的拼音字符路径的末节点,预设有用于指向记录有该提示词的词表的模糊音指针。
6.根据权利要求5所述的检索条件纠错提示处理方法,其特征在于,所述提示词对应的模糊音字符串通过查询预设的汉字-模糊音对照字典获得;或者,所述提示词对应的模糊音字符串通过查询汉字-拼音对照字典以及拼音-模糊音对照关系表获得。
7.根据权利要求5所述的检索条件纠错提示处理方法,其特征在于,所述提示词拼音字典树中,对于同一个提示词,该提示词对应的拼音字符串所构成的拼音字符路径的末节点预设的同音指针所指向的词表,以及该提示词对应的模糊音字符串所构成的拼音字符路径的末节点预设的模糊音指针所指向的词表,为同一个词表。
8.根据权利要求1所述的检索条件纠错提示处理方法,其特征在于,所述“获取作为检索条件的词条并转化为对应的拼音字符串,从预先建立的提示词拼音字典树中查找与作为检索条件的词条对应的拼音字符串相匹配的拼音字符路径”具体为:获取作为检索条件的词条后,判断该词条中是否包含有多音字;若未包含有多音字,则将该作为检索条件的词条转化为唯一对应的拼音字符串,从预先建立的提示词拼音字典树中查找与作为检索条件的词条唯一对应的拼音字符串相匹配的拼音字符路径;若包含有多音字,则将该作为检索条件的词条转化为各种能够对应的拼音字符串情况,从预先建立的提示词拼音字典树中查找与作为检索条件的词条各种能够对应的拼音字符串情况分别相匹配的拼音字符路径。
9.根据权利要求1、4、8中任一项所述的检索条件纠错提示处理方法,其特征在于,作为纠错提示结果返回给用户的提示词数量不超过预设的词数上限值N0;在作为纠错提示结果的提示词数量n≤N0的情况下,则将作为纠错提示结果的全部提示词返回给用户;在作为纠错提示结果的提示词数量n>N0的情况下,则从中选取出按预设排序规则排序靠前的N0个提示词返回给用户。
10.根据权利要求9所述的检索条件纠错提示处理方法,其特征在于,所述预设排序规则为按提示词的热度由高到低的排序规则;所述提示词的热度是指,在指定时间段内,提示词在用户输入的检索条件中出现的次数,该次数越大则提示词的热度越高。
CN201210228101.5A 2012-06-30 2012-06-30 检索应用中基于拼音的检索条件纠错提示处理方法 Active CN103514236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210228101.5A CN103514236B (zh) 2012-06-30 2012-06-30 检索应用中基于拼音的检索条件纠错提示处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210228101.5A CN103514236B (zh) 2012-06-30 2012-06-30 检索应用中基于拼音的检索条件纠错提示处理方法

Publications (2)

Publication Number Publication Date
CN103514236A true CN103514236A (zh) 2014-01-15
CN103514236B CN103514236B (zh) 2017-06-09

Family

ID=49896967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210228101.5A Active CN103514236B (zh) 2012-06-30 2012-06-30 检索应用中基于拼音的检索条件纠错提示处理方法

Country Status (1)

Country Link
CN (1) CN103514236B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016034052A1 (zh) * 2014-09-03 2016-03-10 乐视网信息技术(北京)股份有限公司 一种数据搜索中的纠错装置及其方法
CN105653061A (zh) * 2015-12-29 2016-06-08 北京京东尚科信息技术有限公司 针对拼音输入法的词条检索及错词检测的方法和系统
CN106156103A (zh) * 2015-04-02 2016-11-23 广州爱九游信息技术有限公司 一种搜索处理方法及装置
CN106202046A (zh) * 2016-07-13 2016-12-07 广东欧珀移动通信有限公司 一种词语纠正方法及终端设备
CN106407225A (zh) * 2015-08-03 2017-02-15 北大方正集团有限公司 一种显示拼音的方法及装置
CN106708799A (zh) * 2016-11-09 2017-05-24 上海智臻智能网络科技股份有限公司 一种文本纠错方法、装置及终端
CN107958039A (zh) * 2017-11-21 2018-04-24 北京百度网讯科技有限公司 一种检索词纠错方法、装置及服务器
CN108121455A (zh) * 2016-11-29 2018-06-05 渡鸦科技(北京)有限责任公司 识别纠正方法及装置
CN109614621A (zh) * 2018-12-11 2019-04-12 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
CN109947779A (zh) * 2019-03-29 2019-06-28 北京金山安全软件有限公司 用户输入词汇的存储方法、装置及设备
CN110347685A (zh) * 2019-06-28 2019-10-18 华中科技大学 基于字典树的索引结构、数据查询优化方法、主存管理器
CN111651990A (zh) * 2020-04-14 2020-09-11 车智互联(北京)科技有限公司 一种实体识别方法、计算设备及可读存储介质
CN112069286A (zh) * 2020-08-28 2020-12-11 喜大(上海)网络科技有限公司 字典树参数更新方法、装置、设备及存储介质
CN113625884A (zh) * 2020-05-07 2021-11-09 顺丰科技有限公司 一种输入词推荐方法、装置、服务器及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192108A (zh) * 2007-03-28 2008-06-04 腾讯科技(深圳)有限公司 一种中文拼音输入方法及系统
CN101217035A (zh) * 2007-12-29 2008-07-09 无敌科技(西安)有限公司 语音辨识系统的词汇数据库建置方法及其搜寻比对方法
CN101441527A (zh) * 2008-12-24 2009-05-27 腾讯科技(深圳)有限公司 拼音输入中提示正确读音的方法及装置
CN101876853A (zh) * 2009-04-29 2010-11-03 北京搜狗科技发展有限公司 拼音输入方法及装置
CN101989282A (zh) * 2009-07-31 2011-03-23 中国移动通信集团公司 对中文查询词进行纠错的方法及其装置
US8077983B2 (en) * 2007-10-04 2011-12-13 Zi Corporation Of Canada, Inc. Systems and methods for character correction in communication devices

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192108A (zh) * 2007-03-28 2008-06-04 腾讯科技(深圳)有限公司 一种中文拼音输入方法及系统
US8077983B2 (en) * 2007-10-04 2011-12-13 Zi Corporation Of Canada, Inc. Systems and methods for character correction in communication devices
CN101217035A (zh) * 2007-12-29 2008-07-09 无敌科技(西安)有限公司 语音辨识系统的词汇数据库建置方法及其搜寻比对方法
CN101441527A (zh) * 2008-12-24 2009-05-27 腾讯科技(深圳)有限公司 拼音输入中提示正确读音的方法及装置
CN101876853A (zh) * 2009-04-29 2010-11-03 北京搜狗科技发展有限公司 拼音输入方法及装置
CN101989282A (zh) * 2009-07-31 2011-03-23 中国移动通信集团公司 对中文查询词进行纠错的方法及其装置

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016034052A1 (zh) * 2014-09-03 2016-03-10 乐视网信息技术(北京)股份有限公司 一种数据搜索中的纠错装置及其方法
CN106156103B (zh) * 2015-04-02 2019-11-26 广州爱九游信息技术有限公司 一种搜索处理方法及装置
CN106156103A (zh) * 2015-04-02 2016-11-23 广州爱九游信息技术有限公司 一种搜索处理方法及装置
CN106407225A (zh) * 2015-08-03 2017-02-15 北大方正集团有限公司 一种显示拼音的方法及装置
CN105653061A (zh) * 2015-12-29 2016-06-08 北京京东尚科信息技术有限公司 针对拼音输入法的词条检索及错词检测的方法和系统
CN105653061B (zh) * 2015-12-29 2020-03-31 北京京东尚科信息技术有限公司 针对拼音输入法的词条检索及错词检测的方法和系统
CN106202046A (zh) * 2016-07-13 2016-12-07 广东欧珀移动通信有限公司 一种词语纠正方法及终端设备
CN106202046B (zh) * 2016-07-13 2019-09-13 Oppo广东移动通信有限公司 一种词语纠正方法及终端设备
CN106708799A (zh) * 2016-11-09 2017-05-24 上海智臻智能网络科技股份有限公司 一种文本纠错方法、装置及终端
CN106708799B (zh) * 2016-11-09 2020-02-18 上海智臻智能网络科技股份有限公司 一种文本纠错方法、装置及终端
CN108121455A (zh) * 2016-11-29 2018-06-05 渡鸦科技(北京)有限责任公司 识别纠正方法及装置
CN108121455B (zh) * 2016-11-29 2021-10-26 百度在线网络技术(北京)有限公司 识别纠正方法及装置
CN107958039A (zh) * 2017-11-21 2018-04-24 北京百度网讯科技有限公司 一种检索词纠错方法、装置及服务器
CN109614621A (zh) * 2018-12-11 2019-04-12 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
CN109614621B (zh) * 2018-12-11 2023-09-19 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
CN109947779A (zh) * 2019-03-29 2019-06-28 北京金山安全软件有限公司 用户输入词汇的存储方法、装置及设备
CN109947779B (zh) * 2019-03-29 2021-01-22 北京金山安全软件有限公司 用户输入词汇的存储方法、装置及设备
CN110347685A (zh) * 2019-06-28 2019-10-18 华中科技大学 基于字典树的索引结构、数据查询优化方法、主存管理器
CN110347685B (zh) * 2019-06-28 2021-08-20 华中科技大学 基于字典树的索引结构、数据查询优化方法、主存管理器
CN111651990A (zh) * 2020-04-14 2020-09-11 车智互联(北京)科技有限公司 一种实体识别方法、计算设备及可读存储介质
CN111651990B (zh) * 2020-04-14 2024-03-15 车智互联(北京)科技有限公司 一种实体识别方法、计算设备及可读存储介质
CN113625884A (zh) * 2020-05-07 2021-11-09 顺丰科技有限公司 一种输入词推荐方法、装置、服务器及存储介质
CN112069286A (zh) * 2020-08-28 2020-12-11 喜大(上海)网络科技有限公司 字典树参数更新方法、装置、设备及存储介质
CN112069286B (zh) * 2020-08-28 2024-01-02 喜大(上海)网络科技有限公司 字典树参数更新方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN103514236B (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
CN103514236A (zh) 检索应用中基于拼音的检索条件纠错提示处理方法
US9195738B2 (en) Tokenization platform
CN110019647B (zh) 一种关键词搜索方法、装置和搜索引擎
CN110362824B (zh) 一种自动纠错的方法、装置、终端设备及存储介质
EP2788896B1 (en) Fuzzy full text search
US20120259615A1 (en) Text prediction
CN106326484A (zh) 搜索词纠错方法及装置
CN105917327A (zh) 用于将文本输入到电子设备中的系统和方法
CN104462085A (zh) 检索关键词纠错方法及装置
US10275486B2 (en) Multi-system segmented search processing
CN104268157A (zh) 一种数据搜索中的纠错装置及其方法
US20220005546A1 (en) Non-redundant gene set clustering method and system, and electronic device
CN105320746A (zh) 一种基于大数据的索引获取方法及系统
CN112364126A (zh) 一种关键词的提示方法、装置、计算机设备和存储介质
CN104636349A (zh) 一种索引数据压缩以及索引数据搜索的方法和设备
US9870433B2 (en) Data processing method and system of establishing input recommendation
CN106503195A (zh) 一种基于搜索引擎的翻译词库检索方法及系统
US20190384751A1 (en) Database live reindex
US10394838B2 (en) App store searching
CN110580255A (zh) 一种存储并检索数据的方法以及系统
CN117763077A (zh) 数据查询方法及装置
CN110795617A (zh) 一种搜索词的纠错方法及相关装置
CN111666302A (zh) 用户排名的查询方法、装置、设备及存储介质
CN103207682A (zh) 基于音节切分的维哈柯文智能输入法
CN103778138A (zh) 一种连续字符串的切分方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180731

Address after: 230088 room 405-5, R & D center of China (Hefei) International Intelligent Speech Industrial Park, 3333, hi tech Road, Hefei, Anhui.

Patentee after: Anhui Tai Yue Xiang Sheng Software Co., Ltd.

Address before: 401121 3, 1 floor, office building, south wing of mercury science and technology building, 5 new Mount Huangshan Road, North New District, Chongqing.

Patentee before: Chongqing Xinmei Agricultural Information Technology Co.,Ltd.

TR01 Transfer of patent right