CN104199954A - 一种用于搜索输入的推荐系统及方法 - Google Patents

一种用于搜索输入的推荐系统及方法 Download PDF

Info

Publication number
CN104199954A
CN104199954A CN201410469350.2A CN201410469350A CN104199954A CN 104199954 A CN104199954 A CN 104199954A CN 201410469350 A CN201410469350 A CN 201410469350A CN 104199954 A CN104199954 A CN 104199954A
Authority
CN
China
Prior art keywords
word
chinese
recommendation
input
address information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410469350.2A
Other languages
English (en)
Other versions
CN104199954B (zh
Inventor
胡毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410469350.2A priority Critical patent/CN104199954B/zh
Priority claimed from CN201210215120.4A external-priority patent/CN102768681B/zh
Publication of CN104199954A publication Critical patent/CN104199954A/zh
Application granted granted Critical
Publication of CN104199954B publication Critical patent/CN104199954B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种用于搜索输入的推荐系统及方法,涉及搜索引擎领域。所述系统包括:关键词获取单元,适于根据用户输入获得搜索关键词;查找树存储单元,适于以树形数据结构存储汉字,树中每个数据节点存储一个汉字,以及包含所述汉字的推荐词的地址信息;推荐词词库,适于存储所述推荐词;地址获取单元,适于根据搜索关键词查询查找树存储单元,获得推荐词的地址信息;推荐单元,适于根据地址信息查询推荐词词库获得推荐词,并将推荐词推荐给用户。所述系统及方法,在查找树存储单元中,令每个数据节点记录包含该节点字符的所有推荐词的地址信息,从而提高了推荐词的查询速度,克服了推荐词库容量增大导致查询速度降低的问题。

Description

一种用于搜索输入的推荐系统及方法
本发明专利申请是申请日为2012年06月26日、申请号为201210215120.4、名称为“一种用于搜索输入的推荐系统及方法置”的中国发明专利申请的分案申请。
技术领域
本发明涉及搜索引擎技术领域,特别涉及一种用于搜索输入的推荐系统及方法。
背景技术
Suggest(搜索建议)是一种根据用户已输入的查询词,提供建议提示的技术。在互联网中,搜索人的责任就是帮助用户,以更快的速度,更少的操作,更准确地获取待搜索信息。
用户在搜索框中进行输入时,往往要输入很多关键词,还可能会切换输入法。而且用户在输好关键词后,还可能面临输入错误的情况,比如同音别字。最后,用户也可能并不确定输入什么样的关键词,能够非常恰当地代表自己的想法。suggest就是为了提升用户在输入框中输入关键词时的体验,其可以缩短用户的键入,对用户的输入进行纠错,更重要的是可以推荐出很多贴近用户想法的关键词。
实现suggest,一般需要中文到拼音的标注过程和索引查询过程两个环节。拼音标注,就是把中文短语翻译成其相应的拼音,这个过程的难点在于多音字的处理,其一般只在直接根据中文关键词进行索引查询所得推荐词过少的情况下使用。suggest的索引查询通常基于hashmap(基于哈希表的Map接口),查询过程必须性能过硬,因为用户在输入一个关键词的过程中会多次调用suggest服务。
拼音标注环节中,对于多音字的处理,通常的做法,是将多音字的读音进行枚举,比如“音乐”,将其翻译成“yinyue”和“yinle”,将“乐视网”翻译成“yueshiwang”和“leshiwang”。这种翻译单纯基于单个汉字的读音,而不考虑其使用环境。因此,可能会造成冗余的拼音索引,扰乱正确结果,并且不利于引导用户认识到自己的拼音错误。
在由拼音得到中文查询串的过程中,由于对多音字的处理不当,也可能会引入搜索噪音,比如用户在百度搜索框中输入“yueshi”,本想查询月食相关信息,但此时suggest给出的推荐词包括“乐视网”和“钥匙”等明显无关的信息,而“月食”几乎被这些无关信息所淹没。
通常的查询方式,词典里的数据集越大,需要遍历的子树越大,导致查找消耗的时间随数据集的增大而增加,影响用户的使用体验。
发明内容
本发明要解决的技术问题是:如何提供一种用于搜索输入的推荐系统及方法,以提高推荐词查找速度,克服现有方案中推荐词查找速度随数据集的增大而降低的问题。
为解决上述技术问题,本发明提供一种用于搜索输入的推荐系统,所述系统包括:关键词获取单元、查找树存储单元、推荐词词库、地址获取单元和推荐单元;
所述关键词获取单元,适于根据用户输入获得搜索关键词;
所述查找树存储单元,适于以树形数据结构存储汉字,树中每个数据节点存储一个汉字,以及包含所述汉字的推荐词的地址信息;
所述推荐词词库,适于存储所述推荐词;
所述地址获取单元,适于根据所述搜索关键词查询所述查找树存储单元,获得所述推荐词的地址信息;
所述推荐单元,适于根据所述地址信息查询所述推荐词词库获得所述推荐词,并将所述推荐词推荐给用户。
其中,所述用户输入为拼音输入或者中文输入。
其中,所述推荐词词库中还存储对应所述推荐词的拼音;
所述关键词获取单元,适于根据所述拼音输入查询所述推荐词词库,得到所述拼音输入对应的引导中文,并将所述引导中文作为搜索关键词;或者,直接将所述中文输入作为搜索关键词。
其中,所述地址获取单元,适于根据所述引导中文查询所述查找树存储单元,得到所述引导中文为前缀的引导推荐词的地址信息;所述推荐单元,适于根据所述引导推荐词的地址信息查询所述推荐词词库获得相应的推荐词,然后推荐给用户;或者,
所述地址获取单元,适于根据所述中文输入查询所述查找树存储单元,得到所述中文输入为前缀的初级推荐词的地址信息;所述推荐单元,适于根据所述初级推荐词的地址信息查询所述推荐词词库获得相应的初级推荐词,并将所述初级推荐词推荐给用户。
其中,所述系统还包括:多音词词库和标注单元;
所述多音词词库,适于存储中文和所述中文对应的拼音标注;
所述标注单元,适于在所述初级推荐词数量小于预设阈值时,查询所述多音词词库以得到对应所述中文输入的拼音标注;
所述关键词获取单元,还适于根据所述拼音标注再次查询所述推荐词词库,得到所述拼音标注对应的扩展中文;
所述地址获取单元,还适于根据所述扩展中文查询所述查找树存储单元,得到所述扩展中文为前缀的扩展推荐词的地址信息;
所述推荐单元,还适于根据所述扩展推荐词的地址信息查询推荐词词库获得相应的推荐词,然后推荐给用户。
其中,所述多音词词库中以拼音组合的方式对应包含多音字的中文短语。
其中,所述推荐词词库中以拼音组合的方式对应包含多音字的中文短语。
其中,所述查找树存储单元采用Double Array Trie树结构存储汉字。
本发明还提供一种用于搜索输入的推荐方法,包括步骤:
A:根据用户输入获得搜索关键词;
B:根据所述搜索关键词查询查找树存储单元,获得推荐词的地址信息;所述查找树存储单元,适于以树形数据结构存储汉字,树中每个数据节点存储一个汉字,以及包含所述汉字的推荐词的地址信息;
C:根据所述推荐词的地址信息查询推荐词词库获得推荐词,并将所述推荐词推荐给用户;所述推荐词词库,适于存储所述推荐词。
其中,所述用户输入为中文输入或者拼音输入。
其中,当所述用户输入为中文输入时,所述步骤A具体包括:
A1:接收用户的中文输入,并将所述中文输入直接作为搜索关键词。
其中,所述步骤B具体包括:
B1:查询查找树存储单元,在所述中文输入的最末字符对应的节点处找到以所述中文输入为前缀的初级推荐词的地址信息。
其中,所述步骤B1后还包括:
B2:根据所述初级推荐词的地址信息判断相应的初级推荐词的数量是否大于等于预设阈值,如果是,执行步骤C;否则,根据所述初级推荐词的地址信息查询推荐词词库获得所述初级推荐词,执行步骤B3;
B3:对所述初级推荐词进行扩展,得到扩展推荐词的地址信息。
其中,所述步骤B3具体包括:
B301:根据所述初级推荐词查询多音词词库,得到所述初级推荐词对应的拼音标注;
B302:根据所述拼音标注查询所述推荐词词库,得到所述拼音标注对应的扩展中文;
B303:根据所述扩展中文查询所述查找树存储单元,在所述扩展中文的最末字符对应的节点处获得所述扩展中文为前缀的扩展推荐词的地址信息。
其中,所述步骤B301中,采用正向最大匹配算法查询所述多音词词库,得到所述初级推荐词对应的拼音标注。
其中,所述多音词词库中以拼音组合的方式对应包含多音字的中文短语。
其中,当所述用户输入为拼音输入时,所述步骤A具体包括:
A1’:接收用户的拼音输入,根据所述拼音输入查询推荐词词库,得到所述拼音输入对应的引导中文,将所述引导中文作为搜索关键词。
其中,所述步骤B具体包括:
B1’:根据所述引导中文查询所述查找树存储单元,在所述引导中文的最末字符对应的节点处获得所述引导中文为前缀的引导推荐词的地址信息。
其中,所述推荐词词库中以拼音组合的方式对应包含多音字的中文短语。
其中,所述查找树存储单元采用Double Array Trie树结构存储汉字。
本发明的用于搜索输入的推荐系统及方法,在查找树存储单元中,令每个数据节点记录包含该节点字符的所有推荐词的地址信息,从而提高了推荐词的查询速度,克服了推荐词库容量增大导致查询速度降低的问题;同时,在推荐词词库和多音词词库中以拼音组合与中文短语相对应,从而克服了由于多音字而导致的搜索噪音问题,提高了推荐准确率。
附图说明
图1是本发明实施例一所述用于搜索输入的推荐系统的模块结构示意图;
图2是本发明实施例二所述用于搜索输入的推荐系统的模块结构示意图;
图3是本发明实施例三所述用于搜索输入的推荐方法的处理流程图;
图4是本发明实施例三所述查找树存储单元和推荐词词库的结构示意图;
图5是本发明实施例三所述步骤B3的流程图;
图6是本发明实施例三所述多音词词库的结构示意图;
图7是本发明实施例四所述用于搜索输入的推荐方法的处理流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明实施例一所述用于搜索输入的推荐系统的模块结构示意图,如图1所示,所述系统包括:关键词获取单元100、地址获取单元200、查找树存储单元300、推荐词词库400和推荐单元500。
关键词获取单元100,适于根据用户输入获得搜索关键词。所述用户输入为拼音输入或者中文输入。
当所述用户输入为拼音输入时,所述关键词获取单元100,适于根据所述拼音输入查询所述推荐词词库400,得到所述拼音输入对应的引导中文,并将所述引导中文作为搜索关键词。其中,所述推荐词词库400适于存储推荐词,以及所述推荐词的拼音。并且,所述推荐词词库400中以拼音组合的方式对应包含多音字的中文短语。所述引导中文是通过所述推荐词词库400对所述拼音输入直接翻译后得到的中文。
所述地址获取单元200,适于根据所述引导中文查询所述查找树存储单元300,得到所述引导中文为前缀的引导推荐词的地址信息。所述查找树存储单元300采用Double Array Trie(即双数组trie,以下简写为datrie)树结构。所述datrie树中的每个数据节点(除根节点之外的节点)记录一个汉字,以及包含所述汉字的推荐词的地址信息。所述datrie树通过所述地址信息与所述推荐词词库400相对应。
所述推荐单元500,适于根据所述引导推荐词的地址信息查询推荐词词库400获得引导推荐词,然后推荐给用户。
当所述用户输入为中文输入时,所述关键词获取单元100直接将所述中文输入作为搜索关键词。
所述地址获取单元200,适于根据所述中文输入查询所述查找树存储单元300,得到所述中文输入为前缀的初级推荐词的地址信息。
所述推荐单元500,适于根据所述初级推荐词的地址信息查询所述推荐词词库400直接获得相应的初级推荐词,并将所述初级推荐词推荐给用户。
图2是本发明实施例二所述用于搜索输入的推荐系统的模块结构示意图。如图2所示,本实施例所述系统与实施例一所述系统基本相同,其不同之处仅在于,本实施例所述系统还包括:标注单元600和多音词词库700。
所述标注单元600,适于在所述初级推荐词数量小于预设阈值时,查询所述多音词词库700以得到对应所述中文输入的拼音标注。所述多音词词库700适于存储中文和所述中文对应的拼音标注,并且其中以拼音组合的方式对应包含多音字的中文短语。
所述关键词获取单元100,还适于根据所述拼音标注再次查询所述推荐词词库400,得到所述拼音标注对应的扩展中文。所述扩展中文是通过所述推荐词词库400对所述拼音标注直接翻译后得到的中文。
所述地址获取单元200,还适于根据所述扩展中文查询所述查找树存储单元300,得到所述扩展中文为前缀的扩展推荐词的地址信息。
所述推荐单元500,还适于根据所述扩展推荐词的地址信息查询所述推荐词词库400获得扩展推荐词,然后推荐给用户。
图3是本发明实施例三所述用于搜索输入的推荐方法的处理流程图,如图3所示,所述方法包括步骤:
A1:接收用户的中文输入,并将所述中文输入直接作为搜索关键词。本发明实施例中,所述用户输入为中文输入或者拼音输入。实际应用中,用户输入还可能包括英文,以及其他的特殊字符等,对于这些用户输入的处理,不是本发明重点,在此不再赘述。
B1:查询查找树存储单元,在所述中文输入的最末字符对应的节点处找到以所述中文输入为前缀的初级推荐词的地址信息。所述查找树存储单元可以采用hashmap、trie树、datrie树等结构。图4是本发明实施例三所述查找树存储单元和推荐词词库的结构示意图,如图4所示,本实施例中,所述查找树存储单元优选采用datrie树结构,所述datrie树中的每个数据节点(除根节点之外的节点)记录一个汉字,以及包含所述汉字的推荐词的地址信息。所述datrie树通过所述地址信息与所述推荐词词库相对应。以图4中“长”字节点为例,其记录了包含有“长”字的所有推荐词的地址信息,这些推荐词包括:“长个”、“长大”、“长大了”、“长江”、“长江口”、“长城”、“长歌”、“长歌行”。通过这种设计,当搜索关键词的最末字符为“长”时,通过查询所述查找树存储单元,找到“长”字节点后,无需再去遍历以“长”字为根节点的子树,而可以直接获得所有上述包含“长”字的推荐词。这样,在线下建立所述查找树存储单元时,可能会消耗一些时间;然后在线上查询时,查询速度将大幅提升,可以提供每秒百万次的查询速度,而且性能不随数据规模增大而下降。
B2:根据所述初级推荐词的地址信息判断相应的初级推荐词的数量是否大于等于预设阈值,如果是,执行步骤C;否则,根据所述初级推荐词的地址信息查询推荐词词库获得所述初级推荐词,执行步骤B3。所述预设阈值可以根据实际使用情况设置,比如设置为3、4或者5。本实施例中,所述预设阈值设置为3,即当所述初级推荐词的数量小于3时,认为提供的推荐词过少,需要进行扩展。
B3:对所述初级推荐词进行扩展,得到扩展推荐词的地址信息。图5是本发明实施例一所述步骤B3的流程图,如图5所示,所述步骤B3具体包括步骤:
B301:采用正向最大匹配算法,根据所述初级推荐词查询多音词词库,得到所述初级推荐词对应的拼音标注。图6是本发明实施例三所述多音词词库的结构示意图,如图6所示,所述多音词词库适于存储中文和所述中文对应的拼音标注,其中以拼音组合的方式对应包含多音字的中文短语;对于单个汉字,所述多音词词库中会给出一个默认的常用拼音,比如“了”字给出的默认拼音为“le”。通过采用这种设计,当初级推荐词为“我长大了”时,查询所述多音词词库,得到拼音标注是“wo|zhang|da|le”,而不是“wo|chang|da|le”或者“wo|zhang|dai|le”等,避免了多音字造成的翻译噪声。
在用户对搜索引擎的实际使用中,当用户使用中文关键词进行搜索时,可能会由于同音别字而导致输入有误,比如用户想要搜索“唱歌”的相关信息时,不小心输入了“长歌”,这个时候用户会希望搜索引擎能够在给出类似“长歌行”这样的推荐词之外,还能够给出“唱歌”相关的推荐词,以便用户直接选取,而无需重复键入;但是,用户并不希望推荐出“长个”(zhang|ge)的相关信息。因此,在对“长歌”进行拼音标注时,必须严格的将其只标注为“chang|ge”,而不能同时将其标注为“zhang|ge”。而现有技术中以单个字为单位进行拼音标注的做法显然无法排除上述多音字带来的噪声,本发明实施例通过以中文短语为单位进行拼音标注,有效避免了这种噪声的干扰。
B302:根据所述拼音标注查询所述推荐词词库,得到所述拼音标注对应的扩展中文。参见图4,在所述推荐词词库中以拼音组合的方式对应包含多音字的中文短语,比如“长江”的拼音为“chang|jiang”,而“长大”的拼音为“zhang|da”;对于单个汉字,所述推荐词库中会给出一个默认的常用拼音,比如“长”字给出的默认拼音为“chang”。
参见图4,假设用户输入的中文关键词为“唱歌”,得到的初级推荐词过少,通过所述步骤B103后得到的拼音标注为“chang|ge”,这时再查询所述推荐词词库,所得到的扩展中文将包括:“唱歌”和“长歌”;而不会包括“长个”(zhang|ge)。也就是说,所得到的扩展中文与原始输入的中文关键词的在当前使用环境下的读音必须相同(不考虑音调),而不仅仅是考虑单个字是否存在相同的发音,从而进一步避免了由于推荐词库中的多音字而引入噪声的问题。
B303:根据所述扩展中文查询所述查找树存储单元,在所述扩展中文的最末字符对应的节点处获得所述扩展中文为前缀的扩展推荐词的地址信息。
假设根据步骤B302得到了扩展中文“长歌”,进而可以扩展出新的推荐词“长歌”“长歌行”,这样在避免多音字噪声的情况下增加了推荐词数量,便于用户选择相应的推荐词。
C1:根据所述初级推荐词或者扩展推荐词的地址信息查询推荐词词库获得相应的推荐词,并将相应的推荐词推荐给用户。
图7是本发明实施例四所述用于搜索输入的推荐方法的处理流程图。本实施例所述方法与实施例三所述方法基本相同,不同之处仅在于,用户输入为拼音输入。如图7所示,所述方法包括步骤:
A1’:接收用户的拼音输入,根据所述拼音输入查询推荐词词库,得到所述拼音输入对应的引导中文,将所述引导中文作为搜索关键词。以图4为例,假设用户的拼音输入为“chang|ge”,这时得到的引导中文包括:“唱歌”和“长歌”。
B1’:根据所述引导中文查询查找树存储单元,在所述引导中文的最末字符对应的节点处获得所述引导中文为前缀的引导推荐词的地址信息。
C1’:根据所述引导推荐词的地址信息查询推荐词词库获得引导推荐词,并将所述引导推荐词推荐给用户。
本领域技术人员容易想到,所述用户输入中还可能同时包括拼音和中文,这时可以先对整个用户输入进行分割得到拼音输入部分和中文输入部分,然后再基于上述方法分别进行处理。由于其非本发明重点,在此不再赘述。
本发明实施例所述的用于搜索输入的推荐系统及方法,在查找树存储单元中,令每个数据节点记录包含该节点字符的所有推荐词的地址信息,从而提高了推荐词的查询速度,克服了推荐词库容量增大导致查询速度降低的问题;同时,在推荐词词库和多音词词库中以拼音组合与中文短语相对应,从而克服了由于多音字而导致的搜索噪音问题,提高了推荐准确率。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (10)

1.一种用于搜索输入的推荐系统,其特征在于,所述系统包括:关键词获取单元、查找树存储单元、推荐词词库、地址获取单元和推荐单元;
所述关键词获取单元,适于根据用户输入获得搜索关键词;
所述查找树存储单元,适于以树形数据结构存储汉字,树中每个数据节点存储一个汉字,以及包含所述汉字的推荐词的地址信息;
所述推荐词词库,适于存储所述推荐词;
所述地址获取单元,适于根据所述搜索关键词查询所述查找树存储单元,获得所述推荐词的地址信息;
所述推荐单元,适于根据所述地址信息查询所述推荐词词库获得所述推荐词,并将所述推荐词推荐给用户。
2.如权利要求1所述的系统,其特征在于,所述用户输入为拼音输入或者中文输入。
3.如权利要求1-2任一项所述的系统,其特征在于,所述推荐词词库中还存储对应所述推荐词的拼音;
所述关键词获取单元,适于根据所述拼音输入查询所述推荐词词库,得到所述拼音输入对应的引导中文,并将所述引导中文作为搜索关键词;或者,直接将所述中文输入作为搜索关键词。
4.如权利要求1-3任一项所述的系统,其特征在于,所述地址获取单元,适于根据所述引导中文查询所述查找树存储单元,得到所述引导中文为前缀的引导推荐词的地址信息;所述推荐单元,适于根据所述引导推荐词的地址信息查询所述推荐词词库获得相应的推荐词,然后推荐给用户;或者,
所述地址获取单元,适于根据所述中文输入查询所述查找树存储单元,得到所述中文输入为前缀的初级推荐词的地址信息;所述推荐单元,适于根据所述初级推荐词的地址信息查询所述推荐词词库获得相应的初级推荐词,并将所述初级推荐词推荐给用户。
5.如权利要求1-4任一项所述的系统,其特征在于,所述系统还包括:多音词词库和标注单元;
所述多音词词库,适于存储中文和所述中文对应的拼音标注;
所述标注单元,适于在所述初级推荐词数量小于预设阈值时,查询所述多音词词库以得到对应所述中文输入的拼音标注;
所述关键词获取单元,还适于根据所述拼音标注再次查询所述推荐词词库,得到所述拼音标注对应的扩展中文;
所述地址获取单元,还适于根据所述扩展中文查询所述查找树存储单元,得到所述扩展中文为前缀的扩展推荐词的地址信息;
所述推荐单元,还适于根据所述扩展推荐词的地址信息查询推荐词词库获得相应的推荐词,然后推荐给用户。
6.一种用于搜索输入的推荐方法,其特征在于,包括步骤:
A:根据用户输入获得搜索关键词;
B:根据所述搜索关键词查询查找树存储单元,获得推荐词的地址信息;所述查找树存储单元,适于以树形数据结构存储汉字,树中每个数据节点存储一个汉字,以及包含所述汉字的推荐词的地址信息;
C:根据所述推荐词的地址信息查询推荐词词库获得推荐词,并将所述推荐词推荐给用户;所述推荐词词库,适于存储所述推荐词。
7.如权利要求6所述的方法,其特征在于,所述用户输入为中文输入或者拼音输入。
8.如权利要求6-7任一项所述的方法,其特征在于,当所述用户输入为中文输入时,所述步骤A具体包括:
A1:接收用户的中文输入,并将所述中文输入直接作为搜索关键词。
9.如权利要求6-8任一项所述的方法,其特征在于,所述步骤B具体包括:
B1:查询查找树存储单元,在所述中文输入的最末字符对应的节点处找到以所述中文输入为前缀的初级推荐词的地址信息。
10.如权利要求6-10任一项所述的方法,其特征在于,所述步骤B1后还包括:
B2:根据所述初级推荐词的地址信息判断相应的初级推荐词的数量是否大于等于预设阈值,如果是,执行步骤C;否则,根据所述初级推荐词的地址信息查询推荐词词库获得所述初级推荐词,执行步骤B3;
B3:对所述初级推荐词进行扩展,得到扩展推荐词的地址信息。
CN201410469350.2A 2012-06-26 2012-06-26 一种用于搜索输入的推荐系统及方法 Expired - Fee Related CN104199954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410469350.2A CN104199954B (zh) 2012-06-26 2012-06-26 一种用于搜索输入的推荐系统及方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210215120.4A CN102768681B (zh) 2012-06-26 2012-06-26 一种用于搜索输入的推荐系统及方法
CN201410469350.2A CN104199954B (zh) 2012-06-26 2012-06-26 一种用于搜索输入的推荐系统及方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201210215120.4A Division CN102768681B (zh) 2012-06-26 2012-06-26 一种用于搜索输入的推荐系统及方法

Publications (2)

Publication Number Publication Date
CN104199954A true CN104199954A (zh) 2014-12-10
CN104199954B CN104199954B (zh) 2018-09-14

Family

ID=52085247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410469350.2A Expired - Fee Related CN104199954B (zh) 2012-06-26 2012-06-26 一种用于搜索输入的推荐系统及方法

Country Status (1)

Country Link
CN (1) CN104199954B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715064A (zh) * 2015-03-31 2015-06-17 北京奇虎科技有限公司 一种实现在网页上标注关键词的方法和服务器
CN106156249A (zh) * 2015-04-28 2016-11-23 阿里巴巴集团控股有限公司 一种确定页面推荐词的方法和设备
CN108170293A (zh) * 2017-12-29 2018-06-15 北京奇虎科技有限公司 输入联想的个性化推荐方法及装置
CN108227955A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 一种基于用户历史搜索推荐输入联想的方法及装置
CN108446316A (zh) * 2018-02-07 2018-08-24 北京三快在线科技有限公司 联想词的推荐方法、装置、电子设备及存储介质
WO2021227059A1 (zh) * 2020-05-15 2021-11-18 深圳市世强元件网络有限公司 一种基于多叉树的搜索词推荐方法及系统
CN115203599A (zh) * 2022-09-13 2022-10-18 北京百度网讯科技有限公司 信息推荐方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192108A (zh) * 2007-03-28 2008-06-04 腾讯科技(深圳)有限公司 一种中文拼音输入方法及系统
CN101388012A (zh) * 2007-09-13 2009-03-18 阿里巴巴集团控股有限公司 带有易混淆音识别的拼音检查系统和方法
CN101458694A (zh) * 2008-10-09 2009-06-17 浙江大学 一种基于树形词库的中文分词方法
CN101727499A (zh) * 2010-01-07 2010-06-09 广东国笔科技股份有限公司 一种存储单词库、及搜索单词的方法及系统
CN101989282A (zh) * 2009-07-31 2011-03-23 中国移动通信集团公司 对中文查询词进行纠错的方法及其装置
CN102368271A (zh) * 2011-11-01 2012-03-07 无敌科技(西安)有限公司 一种带有容错能力的中文内容拼写校正系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192108A (zh) * 2007-03-28 2008-06-04 腾讯科技(深圳)有限公司 一种中文拼音输入方法及系统
CN101388012A (zh) * 2007-09-13 2009-03-18 阿里巴巴集团控股有限公司 带有易混淆音识别的拼音检查系统和方法
CN101458694A (zh) * 2008-10-09 2009-06-17 浙江大学 一种基于树形词库的中文分词方法
CN101989282A (zh) * 2009-07-31 2011-03-23 中国移动通信集团公司 对中文查询词进行纠错的方法及其装置
CN101727499A (zh) * 2010-01-07 2010-06-09 广东国笔科技股份有限公司 一种存储单词库、及搜索单词的方法及系统
CN102368271A (zh) * 2011-11-01 2012-03-07 无敌科技(西安)有限公司 一种带有容错能力的中文内容拼写校正系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
丁大斌等: ""从信息处理角度看汉语同音词"", 《语言文字应用》 *
马志强: ""一种给批量汉字加注带有声调拼音的方法"", 《微电子学与计算机》 *
齐德昱: "《数据结构域算法》", 31 October 2003 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715064A (zh) * 2015-03-31 2015-06-17 北京奇虎科技有限公司 一种实现在网页上标注关键词的方法和服务器
CN104715064B (zh) * 2015-03-31 2018-11-02 北京奇虎科技有限公司 一种实现在网页上标注关键词的方法和服务器
CN106156249A (zh) * 2015-04-28 2016-11-23 阿里巴巴集团控股有限公司 一种确定页面推荐词的方法和设备
CN106156249B (zh) * 2015-04-28 2020-06-23 阿里巴巴集团控股有限公司 一种确定页面推荐词的方法和设备
CN108170293A (zh) * 2017-12-29 2018-06-15 北京奇虎科技有限公司 输入联想的个性化推荐方法及装置
CN108227955A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 一种基于用户历史搜索推荐输入联想的方法及装置
CN108446316A (zh) * 2018-02-07 2018-08-24 北京三快在线科技有限公司 联想词的推荐方法、装置、电子设备及存储介质
WO2021227059A1 (zh) * 2020-05-15 2021-11-18 深圳市世强元件网络有限公司 一种基于多叉树的搜索词推荐方法及系统
CN115203599A (zh) * 2022-09-13 2022-10-18 北京百度网讯科技有限公司 信息推荐方法、装置、设备和存储介质
CN115203599B (zh) * 2022-09-13 2023-01-06 北京百度网讯科技有限公司 信息推荐方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN104199954B (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN102768681B (zh) 一种用于搜索输入的推荐系统及方法
CN104199954A (zh) 一种用于搜索输入的推荐系统及方法
US8805861B2 (en) Methods and systems to train models to extract and integrate information from data sources
US9727639B2 (en) Name search using a ranking function
JP4271227B2 (ja) ビット列検索装置、検索方法及びプログラム
US20120310630A1 (en) Tokenization platform
CN103365992A (zh) 一种基于一维线性空间实现Trie树的词典检索方法
CN104268176A (zh) 一种基于搜索关键词的推荐方法及系统
CN109902142B (zh) 一种基于编辑距离的字符串模糊匹配和查询方法
CN103198149A (zh) 一种查询纠错方法和系统
CN101794307A (zh) 基于互联网分词思想的车载导航poi搜索引擎
JP2009015530A (ja) ビット列検索方法及びプログラム
CN105843882A (zh) 一种信息匹配方法及装置
CN113535977B (zh) 一种知识图谱融合方法和装置及设备
US10387543B2 (en) Phoneme-to-grapheme mapping systems and methods
JP5980520B2 (ja) 効率的にクエリを処理する方法及び装置
US8229970B2 (en) Efficient storage and retrieval of posting lists
JP6072922B2 (ja) 文字列検索装置、文字列検索方法および文字列検索プログラム
KR101615164B1 (ko) 엔-그램 기반의 질의 처리 장치 및 그 방법
JP2008146209A (ja) 文書検索装置、文書検索方法および文書検索プログラム
KR101452638B1 (ko) 유사 문자열 검색 방법 및 장치
JP4628258B2 (ja) グラフ検索装置
Kucherov et al. Full-fledged real-time indexing for constant size alphabets
CN115687580B (zh) 搜索提醒补全的生成和重排序方法、装置、设备及介质
JP2009175896A (ja) 情報検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180914

Termination date: 20210626

CF01 Termination of patent right due to non-payment of annual fee