CN102768681A - 一种用于搜索输入的推荐系统及方法 - Google Patents
一种用于搜索输入的推荐系统及方法 Download PDFInfo
- Publication number
- CN102768681A CN102768681A CN2012102151204A CN201210215120A CN102768681A CN 102768681 A CN102768681 A CN 102768681A CN 2012102151204 A CN2012102151204 A CN 2012102151204A CN 201210215120 A CN201210215120 A CN 201210215120A CN 102768681 A CN102768681 A CN 102768681A
- Authority
- CN
- China
- Prior art keywords
- chinese
- speech
- recommendation
- input
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000010276 construction Methods 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于搜索输入的推荐系统及方法,涉及搜索引擎领域。所述系统包括:关键词获取单元,适于根据用户输入获得搜索关键词;查找树存储单元,适于以树形数据结构存储汉字,树中每个数据节点存储一个汉字,以及包含所述汉字的推荐词的地址信息;推荐词词库,适于存储所述推荐词;地址获取单元,适于根据搜索关键词查询查找树存储单元,获得推荐词的地址信息;推荐单元,适于根据地址信息查询推荐词词库获得推荐词,并将推荐词推荐给用户。所述系统及方法,在查找树存储单元中,令每个数据节点记录包含该节点字符的所有推荐词的地址信息,从而提高了推荐词的查询速度,克服了推荐词库容量增大导致查询速度降低的问题。
Description
技术领域
本发明涉及搜索引擎技术领域,特别涉及一种用于搜索输入的推荐系统及方法。
背景技术
Suggest(搜索建议)是一种根据用户已输入的查询词,提供建议提示的技术。在互联网中,搜索人的责任就是帮助用户,以更快的速度,更少的操作,更准确地获取待搜索信息。
用户在搜索框中进行输入时,往往要输入很多关键词,还可能会切换输入法。而且用户在输好关键词后,还可能面临输入错误的情况,比如同音别字。最后,用户也可能并不确定输入什么样的关键词,能够非常恰当地代表自己的想法。suggest就是为了提升用户在输入框中输入关键词时的体验,其可以缩短用户的键入,对用户的输入进行纠错,更重要的是可以推荐出很多贴近用户想法的关键词。
实现suggest,一般需要中文到拼音的标注过程和索引查询过程两个环节。拼音标注,就是把中文短语翻译成其相应的拼音,这个过程的难点在于多音字的处理,其一般只在直接根据中文关键词进行索引查询所得推荐词过少的情况下使用。suggest的索引查询通常基于hashmap(基于哈希表的Map接口),查询过程必须性能过硬,因为用户在输入一个关键词的过程中会多次调用suggest服务。
拼音标注环节中,对于多音字的处理,通常的做法,是将多音字的读音进行枚举,比如“音乐”,将其翻译成“yinyue”和“yinle”,将“乐视网”翻译成“yueshiwang”和“leshiwang”。这种翻译单纯基于单个汉字的读音,而不考虑其使用环境。因此,可能会造成冗余的拼音索引,扰乱正确结果,并且不利于引导用户认识到自己的拼音错误。
在由拼音得到中文查询串的过程中,由于对多音字的处理不当,也可能会引入搜索噪音,比如用户在百度搜索框中输入“yueshi”,本想查询月食相关信息,但此时suggest给出的推荐词包括“乐视网”和“钥匙”等明显无关的信息,而“月食”几乎被这些无关信息所淹没。
通常的查询方式,词典里的数据集越大,需要遍历的子树越大,导致查找消耗的时间随数据集的增大而增加,影响用户的使用体验。
发明内容
本发明要解决的技术问题是:如何提供一种用于搜索输入的推荐系统及方法,以提高推荐词查找速度,克服现有方案中推荐词查找速度随数据集的增大而降低的问题。
为解决上述技术问题,本发明提供一种用于搜索输入的推荐系统,所述系统包括:关键词获取单元、查找树存储单元、推荐词词库、地址获取单元和推荐单元;
所述关键词获取单元,适于根据用户输入获得搜索关键词;
所述查找树存储单元,适于以树形数据结构存储汉字,树中每个数据节点存储一个汉字,以及包含所述汉字的推荐词的地址信息;
所述推荐词词库,适于存储所述推荐词;
所述地址获取单元,适于根据所述搜索关键词查询所述查找树存储单元,获得所述推荐词的地址信息;
所述推荐单元,适于根据所述地址信息查询所述推荐词词库获得所述推荐词,并将所述推荐词推荐给用户。
其中,所述用户输入为拼音输入或者中文输入。
其中,所述推荐词词库中还存储对应所述推荐词的拼音;
所述关键词获取单元,适于根据所述拼音输入查询所述推荐词词库,得到所述拼音输入对应的引导中文,并将所述引导中文作为搜索关键词;或者,直接将所述中文输入作为搜索关键词。
其中,所述地址获取单元,适于根据所述引导中文查询所述查找树存储单元,得到所述引导中文为前缀的引导推荐词的地址信息;所述推荐单元,适于根据所述引导推荐词的地址信息查询所述推荐词词库获得相应的推荐词,然后推荐给用户;或者,
所述地址获取单元,适于根据所述中文输入查询所述查找树存储单元,得到所述中文输入为前缀的初级推荐词的地址信息;所述推荐单元,适于根据所述初级推荐词的地址信息查询所述推荐词词库获得相应的初级推荐词,并将所述初级推荐词推荐给用户。
其中,所述系统还包括:多音词词库和标注单元;
所述多音词词库,适于存储中文和所述中文对应的拼音标注;
所述标注单元,适于在所述初级推荐词数量小于预设阈值时,查询所述多音词词库以得到对应所述中文输入的拼音标注;
所述关键词获取单元,还适于根据所述拼音标注再次查询所述推荐词词库,得到所述拼音标注对应的扩展中文;
所述地址获取单元,还适于根据所述扩展中文查询所述查找树存储单元,得到所述扩展中文为前缀的扩展推荐词的地址信息;
所述推荐单元,还适于根据所述扩展推荐词的地址信息查询推荐词词库获得相应的推荐词,然后推荐给用户。
其中,所述多音词词库中以拼音组合的方式对应包含多音字的中文短语。
其中,所述推荐词词库中以拼音组合的方式对应包含多音字的中文短语。
其中,所述查找树存储单元采用Double Array Trie树结构存储汉字。
本发明还提供一种用于搜索输入的推荐方法,包括步骤:
A:根据用户输入获得搜索关键词;
B:根据所述搜索关键词查询查找树存储单元,获得推荐词的地址信息;所述查找树存储单元,适于以树形数据结构存储汉字,树中每个数据节点存储一个汉字,以及包含所述汉字的推荐词的地址信息;
C:根据所述推荐词的地址信息查询推荐词词库获得推荐词,并将所述推荐词推荐给用户;所述推荐词词库,适于存储所述推荐词。
其中,所述用户输入为中文输入或者拼音输入。
其中,当所述用户输入为中文输入时,所述步骤A具体包括:
A1:接收用户的中文输入,并将所述中文输入直接作为搜索关键词。
其中,所述步骤B具体包括:
B1:查询查找树存储单元,在所述中文输入的最末字符对应的节点处找到以所述中文输入为前缀的初级推荐词的地址信息。
其中,所述步骤B1后还包括:
B2:根据所述初级推荐词的地址信息判断相应的初级推荐词的数量是否大于等于预设阈值,如果是,执行步骤C;否则,根据所述初级推荐词的地址信息查询推荐词词库获得所述初级推荐词,执行步骤B3;
B3:对所述初级推荐词进行扩展,得到扩展推荐词的地址信息。
其中,所述步骤B3具体包括:
B301:根据所述初级推荐词查询多音词词库,得到所述初级推荐词对应的拼音标注;
B302:根据所述拼音标注查询所述推荐词词库,得到所述拼音标注对应的扩展中文;
B303:根据所述扩展中文查询所述查找树存储单元,在所述扩展中文的最末字符对应的节点处获得所述扩展中文为前缀的扩展推荐词的地址信息。
其中,所述步骤B301中,采用正向最大匹配算法查询所述多音词词库,得到所述初级推荐词对应的拼音标注。
其中,所述多音词词库中以拼音组合的方式对应包含多音字的中文短语。
其中,当所述用户输入为拼音输入时,所述步骤A具体包括:
A1’:接收用户的拼音输入,根据所述拼音输入查询推荐词词库,得到所述拼音输入对应的引导中文,将所述引导中文作为搜索关键词。
其中,所述步骤B具体包括:
B1’:根据所述引导中文查询所述查找树存储单元,在所述引导中文的最末字符对应的节点处获得所述引导中文为前缀的引导推荐词的地址信息。
其中,所述推荐词词库中以拼音组合的方式对应包含多音字的中文短语。
其中,所述查找树存储单元采用Double Array Trie树结构存储汉字。
本发明的用于搜索输入的推荐系统及方法,在查找树存储单元中,令每个数据节点记录包含该节点字符的所有推荐词的地址信息,从而提高了推荐词的查询速度,克服了推荐词库容量增大导致查询速度降低的问题;同时,在推荐词词库和多音词词库中以拼音组合与中文短语相对应,从而克服了由于多音字而导致的搜索噪音问题,提高了推荐准确率。
附图说明
图1是本发明实施例一所述用于搜索输入的推荐系统的模块结构示意图;
图2是本发明实施例二所述用于搜索输入的推荐系统的模块结构示意图;
图3是本发明实施例三所述用于搜索输入的推荐方法的处理流程图;
图4是本发明实施例三所述查找树存储单元和推荐词词库的结构示意图;
图5是本发明实施例三所述步骤B3的流程图;
图6是本发明实施例三所述多音词词库的结构示意图;
图7是本发明实施例四所述用于搜索输入的推荐方法的处理流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明实施例一所述用于搜索输入的推荐系统的模块结构示意图,如图1所示,所述系统包括:关键词获取单元100、地址获取单元200、查找树存储单元300、推荐词词库400和推荐单元500。
关键词获取单元100,适于根据用户输入获得搜索关键词。所述用户输入为拼音输入或者中文输入。
当所述用户输入为拼音输入时,所述关键词获取单元100,适于根据所述拼音输入查询所述推荐词词库400,得到所述拼音输入对应的引导中文,并将所述引导中文作为搜索关键词。其中,所述推荐词词库400适于存储推荐词,以及所述推荐词的拼音。并且,所述推荐词词库400中以拼音组合的方式对应包含多音字的中文短语。所述引导中文是通过所述推荐词词库400对所述拼音输入直接翻译后得到的中文。
所述地址获取单元200,适于根据所述引导中文查询所述查找树存储单元300,得到所述引导中文为前缀的引导推荐词的地址信息。所述查找树存储单元300采用Double Array Trie(即双数组trie,以下简写为datrie)树结构。所述datrie树中的每个数据节点(除根节点之外的节点)记录一个汉字,以及包含所述汉字的推荐词的地址信息。所述datrie树通过所述地址信息与所述推荐词词库400相对应。
所述推荐单元500,适于根据所述引导推荐词的地址信息查询推荐词词库400获得引导推荐词,然后推荐给用户。
当所述用户输入为中文输入时,所述关键词获取单元100直接将所述中文输入作为搜索关键词。
所述地址获取单元200,适于根据所述中文输入查询所述查找树存储单元300,得到所述中文输入为前缀的初级推荐词的地址信息。
所述推荐单元500,适于根据所述初级推荐词的地址信息查询所述推荐词词库400直接获得相应的初级推荐词,并将所述初级推荐词推荐给用户。
图2是本发明实施例二所述用于搜索输入的推荐系统的模块结构示意图。如图2所示,本实施例所述系统与实施例一所述系统基本相同,其不同之处仅在于,本实施例所述系统还包括:标注单元600和多音词词库700。
所述标注单元600,适于在所述初级推荐词数量小于预设阈值时,查询所述多音词词库700以得到对应所述中文输入的拼音标注。所述多音词词库700适于存储中文和所述中文对应的拼音标注,并且其中以拼音组合的方式对应包含多音字的中文短语。
所述关键词获取单元100,还适于根据所述拼音标注再次查询所述推荐词词库400,得到所述拼音标注对应的扩展中文。所述扩展中文是通过所述推荐词词库400对所述拼音标注直接翻译后得到的中文。
所述地址获取单元200,还适于根据所述扩展中文查询所述查找树存储单元300,得到所述扩展中文为前缀的扩展推荐词的地址信息。
所述推荐单元500,还适于根据所述扩展推荐词的地址信息查询所述推荐词词库400获得扩展推荐词,然后推荐给用户。
图3是本发明实施例三所述用于搜索输入的推荐方法的处理流程图,如图3所示,所述方法包括步骤:
A1:接收用户的中文输入,并将所述中文输入直接作为搜索关键词。本发明实施例中,所述用户输入为中文输入或者拼音输入。实际应用中,用户输入还可能包括英文,以及其他的特殊字符等,对于这些用户输入的处理,不是本发明重点,在此不再赘述。
B1:查询查找树存储单元,在所述中文输入的最末字符对应的节点处找到以所述中文输入为前缀的初级推荐词的地址信息。所述查找树存储单元可以采用hashmap、trie树、datrie树等结构。图4是本发明实施例三所述查找树存储单元和推荐词词库的结构示意图,如图4所示,本实施例中,所述查找树存储单元优选采用datrie树结构,所述datrie树中的每个数据节点(除根节点之外的节点)记录一个汉字,以及包含所述汉字的推荐词的地址信息。所述datrie树通过所述地址信息与所述推荐词词库相对应。以图4中“长”字节点为例,其记录了包含有“长”字的所有推荐词的地址信息,这些推荐词包括:“长个”、“长大”、“长大了”、“长江”、“长江口”、“长城”、“长歌”、“长歌行”。通过这种设计,当搜索关键词的最末字符为“长”时,通过查询所述查找树存储单元,找到“长”字节点后,无需再去遍历以“长”字为根节点的子树,而可以直接获得所有上述包含“长”字的推荐词。这样,在线下建立所述查找树存储单元时,可能会消耗一些时间;然后在线上查询时,查询速度将大幅提升,可以提供每秒百万次的查询速度,而且性能不随数据规模增大而下降。
B2:根据所述初级推荐词的地址信息判断相应的初级推荐词的数量是否大于等于预设阈值,如果是,执行步骤C;否则,根据所述初级推荐词的地址信息查询推荐词词库获得所述初级推荐词,执行步骤B3。所述预设阈值可以根据实际使用情况设置,比如设置为3、4或者5。本实施例中,所述预设阈值设置为3,即当所述初级推荐词的数量小于3时,认为提供的推荐词过少,需要进行扩展。
B3:对所述初级推荐词进行扩展,得到扩展推荐词的地址信息。图5是本发明实施例一所述步骤B3的流程图,如图5所示,所述步骤B3具体包括步骤:
B301:采用正向最大匹配算法,根据所述初级推荐词查询多音词词库,得到所述初级推荐词对应的拼音标注。图6是本发明实施例三所述多音词词库的结构示意图,如图6所示,所述多音词词库适于存储中文和所述中文对应的拼音标注,其中以拼音组合的方式对应包含多音字的中文短语;对于单个汉字,所述多音词词库中会给出一个默认的常用拼音,比如“了”字给出的默认拼音为“le”。通过采用这种设计,当初级推荐词为“我长大了”时,查询所述多音词词库,得到拼音标注是“wo|zhang|da|le”,而不是“wo|chang|da|le”或者“wo|zhang|dai|le”等,避免了多音字造成的翻译噪声。
在用户对搜索引擎的实际使用中,当用户使用中文关键词进行搜索时,可能会由于同音别字而导致输入有误,比如用户想要搜索“唱歌”的相关信息时,不小心输入了“长歌”,这个时候用户会希望搜索引擎能够在给出类似“长歌行”这样的推荐词之外,还能够给出“唱歌”相关的推荐词,以便用户直接选取,而无需重复键入;但是,用户并不希望推荐出“长个”(zhang|ge)的相关信息。因此,在对“长歌”进行拼音标注时,必须严格的将其只标注为“chang|ge”,而不能同时将其标注为“zhang|ge”。而现有技术中以单个字为单位进行拼音标注的做法显然无法排除上述多音字带来的噪声,本发明实施例通过以中文短语为单位进行拼音标注,有效避免了这种噪声的干扰。
B302:根据所述拼音标注查询所述推荐词词库,得到所述拼音标注对应的扩展中文。参见图4,在所述推荐词词库中以拼音组合的方式对应包含多音字的中文短语,比如“长江”的拼音为“chang|jiang”,而“长大”的拼音为“zhang|da”;对于单个汉字,所述推荐词库中会给出一个默认的常用拼音,比如“长”字给出的默认拼音为“chang”。
参见图4,假设用户输入的中文关键词为“唱歌”,得到的初级推荐词过少,通过所述步骤B103后得到的拼音标注为“chang|ge”,这时再查询所述推荐词词库,所得到的扩展中文将包括:“唱歌”和“长歌”;而不会包括“长个”(zhang|ge)。也就是说,所得到的扩展中文与原始输入的中文关键词的在当前使用环境下的读音必须相同(不考虑音调),而不仅仅是考虑单个字是否存在相同的发音,从而进一步避免了由于推荐词库中的多音字而引入噪声的问题。
B303:根据所述扩展中文查询所述查找树存储单元,在所述扩展中文的最末字符对应的节点处获得所述扩展中文为前缀的扩展推荐词的地址信息。
假设根据步骤B302得到了扩展中文“长歌”,进而可以扩展出新的推荐词“长歌”“长歌行”,这样在避免多音字噪声的情况下增加了推荐词数量,便于用户选择相应的推荐词。
C1:根据所述初级推荐词或者扩展推荐词的地址信息查询推荐词词库获得相应的推荐词,并将相应的推荐词推荐给用户。
图7是本发明实施例四所述用于搜索输入的推荐方法的处理流程图。本实施例所述方法与实施例三所述方法基本相同,不同之处仅在于,用户输入为拼音输入。如图7所示,所述方法包括步骤:
A1’:接收用户的拼音输入,根据所述拼音输入查询推荐词词库,得到所述拼音输入对应的引导中文,将所述引导中文作为搜索关键词。以图4为例,假设用户的拼音输入为“chang|ge”,这时得到的引导中文包括:“唱歌”和“长歌”。
B1’:根据所述引导中文查询查找树存储单元,在所述引导中文的最末字符对应的节点处获得所述引导中文为前缀的引导推荐词的地址信息。
C1’:根据所述引导推荐词的地址信息查询推荐词词库获得引导推荐词,并将所述引导推荐词推荐给用户。
本领域技术人员容易想到,所述用户输入中还可能同时包括拼音和中文,这时可以先对整个用户输入进行分割得到拼音输入部分和中文输入部分,然后再基于上述方法分别进行处理。由于其非本发明重点,在此不再赘述。
本发明实施例所述的用于搜索输入的推荐系统及方法,在查找树存储单元中,令每个数据节点记录包含该节点字符的所有推荐词的地址信息,从而提高了推荐词的查询速度,克服了推荐词库容量增大导致查询速度降低的问题;同时,在推荐词词库和多音词词库中以拼音组合与中文短语相对应,从而克服了由于多音字而导致的搜索噪音问题,提高了推荐准确率。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (20)
1.一种用于搜索输入的推荐系统,其特征在于,所述系统包括:关键词获取单元、查找树存储单元、推荐词词库、地址获取单元和推荐单元;
所述关键词获取单元,适于根据用户输入获得搜索关键词;
所述查找树存储单元,适于以树形数据结构存储汉字,树中每个数据节点存储一个汉字,以及包含所述汉字的推荐词的地址信息;
所述推荐词词库,适于存储所述推荐词;
所述地址获取单元,适于根据所述搜索关键词查询所述查找树存储单元,获得所述推荐词的地址信息;
所述推荐单元,适于根据所述地址信息查询所述推荐词词库获得所述推荐词,并将所述推荐词推荐给用户。
2.如权利要求1所述的系统,其特征在于,所述用户输入为拼音输入或者中文输入。
3.如权利要求2所述的系统,其特征在于,所述推荐词词库中还存储对应所述推荐词的拼音;
所述关键词获取单元,适于根据所述拼音输入查询所述推荐词词库,得到所述拼音输入对应的引导中文,并将所述引导中文作为搜索关键词;或者,直接将所述中文输入作为搜索关键词。
4.如权利要求3所述的系统,其特征在于,所述地址获取单元,适于根据所述引导中文查询所述查找树存储单元,得到所述引导中文为前缀的引导推荐词的地址信息;所述推荐单元,适于根据所述引导推荐词的地址信息查询所述推荐词词库获得相应的推荐词,然后推荐给用户;或者,
所述地址获取单元,适于根据所述中文输入查询所述查找树存储单元,得到所述中文输入为前缀的初级推荐词的地址信息;所述推荐单元,适于根据所述初级推荐词的地址信息查询所述推荐词词库获得相应的初级推荐词,并将所述初级推荐词推荐给用户。
5.如权利要求4所述的系统,其特征在于,所述系统还包括:多音词词库和标注单元;
所述多音词词库,适于存储中文和所述中文对应的拼音标注;
所述标注单元,适于在所述初级推荐词数量小于预设阈值时,查询所述多音词词库以得到对应所述中文输入的拼音标注;
所述关键词获取单元,还适于根据所述拼音标注再次查询所述推荐词词库,得到所述拼音标注对应的扩展中文;
所述地址获取单元,还适于根据所述扩展中文查询所述查找树存储单元,得到所述扩展中文为前缀的扩展推荐词的地址信息;
所述推荐单元,还适于根据所述扩展推荐词的地址信息查询推荐词词库获得相应的推荐词,然后推荐给用户。
6.如权利要求5所述的系统,其特征在于,所述多音词词库中以拼音组合的方式对应包含多音字的中文短语。
7.如权利要求1所述的系统,其特征在于,所述推荐词词库中以拼音组合的方式对应包含多音字的中文短语。
8.如权利要求1所述的系统,其特征在于,所述查找树存储单元采用Double Array Trie树结构存储汉字。
9.一种用于搜索输入的推荐方法,其特征在于,包括步骤:
A:根据用户输入获得搜索关键词;
B:根据所述搜索关键词查询查找树存储单元,获得推荐词的地址信息;所述查找树存储单元,适于以树形数据结构存储汉字,树中每个数据节点存储一个汉字,以及包含所述汉字的推荐词的地址信息;
C:根据所述推荐词的地址信息查询推荐词词库获得推荐词,并将所述推荐词推荐给用户;所述推荐词词库,适于存储所述推荐词。
10.如权利要求9所述的方法,其特征在于,所述用户输入为中文输入或者拼音输入。
11.如权利要求10所述的方法,其特征在于,当所述用户输入为中文输入时,所述步骤A具体包括:
A1:接收用户的中文输入,并将所述中文输入直接作为搜索关键词。
12.如权利要求11所述的方法,其特征在于,所述步骤B具体包括:
B1:查询查找树存储单元,在所述中文输入的最末字符对应的节点处找到以所述中文输入为前缀的初级推荐词的地址信息。
13.如权利要求12所述的方法,其特征在于,所述步骤B1后还包括:
B2:根据所述初级推荐词的地址信息判断相应的初级推荐词的数量是否大于等于预设阈值,如果是,执行步骤C;否则,根据所述初级推荐词的地址信息查询推荐词词库获得所述初级推荐词,执行步骤B3;
B3:对所述初级推荐词进行扩展,得到扩展推荐词的地址信息。
14.如权利要求13所述的方法,其特征在于,所述步骤B3具体包括:
B301:根据所述初级推荐词查询多音词词库,得到所述初级推荐词对应的拼音标注;
B302:根据所述拼音标注查询所述推荐词词库,得到所述拼音标注对应的扩展中文;
B303:根据所述扩展中文查询所述查找树存储单元,在所述扩展中文的最末字符对应的节点处获得所述扩展中文为前缀的扩展推荐词的地址信息。
15.如权利要求14所述的方法,其特征在于,所述步骤B301中,采用正向最大匹配算法查询所述多音词词库,得到所述初级推荐词对应的拼音标注。
16.如权利要求14或者15所述的方法,其特征在于,所述多音词词库中以拼音组合的方式对应包含多音字的中文短语。
17.如权利要求10所述的方法,其特征在于,当所述用户输入为拼音输入时,所述步骤A具体包括:
A1’:接收用户的拼音输入,根据所述拼音输入查询推荐词词库,得到所述拼音输入对应的引导中文,将所述引导中文作为搜索关键词。
18.如权利要求17所述的方法,其特征在于,所述步骤B具体包括:
B1’:根据所述引导中文查询所述查找树存储单元,在所述引导中文的最末字符对应的节点处获得所述引导中文为前缀的引导推荐词的地址信息。
19.如权利要求9所述的方法,其特征在于,所述推荐词词库中以拼音组合的方式对应包含多音字的中文短语。
20.如权利要求9所述的方法,其特征在于,所述查找树存储单元采用Double Array Trie树结构存储汉字。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410469350.2A CN104199954B (zh) | 2012-06-26 | 2012-06-26 | 一种用于搜索输入的推荐系统及方法 |
CN201210215120.4A CN102768681B (zh) | 2012-06-26 | 2012-06-26 | 一种用于搜索输入的推荐系统及方法 |
CN201410469961.7A CN104268176B (zh) | 2012-06-26 | 2012-06-26 | 一种基于搜索关键词的推荐方法 |
PCT/CN2013/075639 WO2014000517A1 (zh) | 2012-06-26 | 2013-05-15 | 一种用于搜索输入的推荐系统及方法 |
US14/411,091 US9971834B2 (en) | 2012-06-26 | 2013-05-15 | Recommendation system and method for search input |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210215120.4A CN102768681B (zh) | 2012-06-26 | 2012-06-26 | 一种用于搜索输入的推荐系统及方法 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410469350.2A Division CN104199954B (zh) | 2012-06-26 | 2012-06-26 | 一种用于搜索输入的推荐系统及方法 |
CN201410469961.7A Division CN104268176B (zh) | 2012-06-26 | 2012-06-26 | 一种基于搜索关键词的推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102768681A true CN102768681A (zh) | 2012-11-07 |
CN102768681B CN102768681B (zh) | 2014-10-22 |
Family
ID=47096085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210215120.4A Expired - Fee Related CN102768681B (zh) | 2012-06-26 | 2012-06-26 | 一种用于搜索输入的推荐系统及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9971834B2 (zh) |
CN (1) | CN102768681B (zh) |
WO (1) | WO2014000517A1 (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999609A (zh) * | 2012-11-22 | 2013-03-27 | 北京奇虎科技有限公司 | 网络小说搜索系统 |
CN103136694A (zh) * | 2013-03-20 | 2013-06-05 | 焦点科技股份有限公司 | 基于搜索行为感知的协同过滤推荐方法 |
CN103150362A (zh) * | 2013-02-28 | 2013-06-12 | 北京奇虎科技有限公司 | 一种视频搜索方法及系统 |
WO2014000517A1 (zh) * | 2012-06-26 | 2014-01-03 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐系统及方法 |
CN103631886A (zh) * | 2013-11-15 | 2014-03-12 | 北京奇虎科技有限公司 | 在浏览器侧进行输入的方法和设备 |
CN103885961A (zh) * | 2012-12-20 | 2014-06-25 | 腾讯科技(深圳)有限公司 | 一种关联搜索词的推荐方法及系统 |
CN103902720A (zh) * | 2014-04-10 | 2014-07-02 | 北京博雅立方科技有限公司 | 一种关键词的拓展词获取方法及装置 |
CN104331434A (zh) * | 2014-10-22 | 2015-02-04 | 乐视网信息技术(北京)股份有限公司 | 一种生成搜索提示词服务的方法及其装置 |
CN104899214A (zh) * | 2014-03-06 | 2015-09-09 | 阿里巴巴集团控股有限公司 | 一种建立输入建议的数据处理方法和系统 |
CN107609098A (zh) * | 2017-09-11 | 2018-01-19 | 北京金堤科技有限公司 | 搜索方法及装置 |
CN111737986A (zh) * | 2020-05-15 | 2020-10-02 | 深圳市世强元件网络有限公司 | 一种基于多叉树的搜索词推荐方法及系统 |
CN111831876A (zh) * | 2019-04-15 | 2020-10-27 | 北京四维图新科技股份有限公司 | 查询方法、设备和存储介质 |
CN112749258A (zh) * | 2021-01-21 | 2021-05-04 | 京东数字科技控股股份有限公司 | 数据搜索的方法和装置、电子设备和存储介质 |
CN112989230A (zh) * | 2021-05-19 | 2021-06-18 | 盛威时代科技集团有限公司 | 一种基于分词和多音字的检索方法、系统及电子设备 |
CN113515585A (zh) * | 2020-04-10 | 2021-10-19 | 中国石油化工股份有限公司 | 危险化学品安全领域专业词库的构造方法、检索方法及系统 |
CN113569010A (zh) * | 2021-07-23 | 2021-10-29 | 北京百度网讯科技有限公司 | 过滤检索结果的方法、装置、设备以及存储介质 |
US11947608B2 (en) | 2020-05-15 | 2024-04-02 | Shenzhen Sekorm Component Network Co., Ltd | Search term recommendation method and system based on multi-branch tree |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170193291A1 (en) * | 2015-12-30 | 2017-07-06 | Ryan Anthony Lucchese | System and Methods for Determining Language Classification of Text Content in Documents |
CN108694186A (zh) * | 2017-04-07 | 2018-10-23 | 阿里巴巴集团控股有限公司 | 数据发送方法及服务器应用、计算设备及计算机可读介质 |
CN108595584B (zh) * | 2018-04-18 | 2022-06-07 | 卓望数码技术(深圳)有限公司 | 一种基于数字标记的汉字输出方法和系统 |
CN112230781B (zh) * | 2019-07-15 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 字符推荐方法、装置及存储介质 |
CN110727837B (zh) * | 2019-09-17 | 2023-09-22 | 达观数据有限公司 | 显示搜索推荐列表中的字符的方法及装置 |
CN110909128B (zh) * | 2019-11-08 | 2023-08-11 | 土巴兔集团股份有限公司 | 一种利用词根表进行数据查询的方法、设备、及存储介质 |
CN111653328B (zh) * | 2020-06-04 | 2023-03-21 | 医渡云(北京)技术有限公司 | 病历信息推送方法、装置、存储介质及电子设备 |
CN111680489B (zh) * | 2020-06-10 | 2021-11-19 | 腾讯科技(深圳)有限公司 | 目标文本的匹配方法和装置、存储介质及电子设备 |
CN112905871B (zh) * | 2021-03-29 | 2023-05-30 | 中国平安人寿保险股份有限公司 | 热点关键词推荐方法、装置、终端及存储介质 |
CN113076390A (zh) * | 2021-04-20 | 2021-07-06 | 深圳华南城网科技有限公司 | 一种违禁词查询方法及装置 |
CN113722426A (zh) * | 2021-07-30 | 2021-11-30 | 福建拓尔通软件有限公司 | 一种政府网站搜索方法、系统、设备及介质 |
CN114153884B (zh) * | 2021-11-09 | 2022-07-12 | 安徽大学 | 一种基于区块链的智能档案管理利用系统 |
CN116628129B (zh) * | 2023-07-21 | 2024-02-27 | 南京爱福路汽车科技有限公司 | 一种汽车配件搜索方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192108A (zh) * | 2007-03-28 | 2008-06-04 | 腾讯科技(深圳)有限公司 | 一种中文拼音输入方法及系统 |
CN101458694A (zh) * | 2008-10-09 | 2009-06-17 | 浙江大学 | 一种基于树形词库的中文分词方法 |
CN101727499A (zh) * | 2010-01-07 | 2010-06-09 | 广东国笔科技股份有限公司 | 一种存储单词库、及搜索单词的方法及系统 |
CN101989282A (zh) * | 2009-07-31 | 2011-03-23 | 中国移动通信集团公司 | 对中文查询词进行纠错的方法及其装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7672932B2 (en) | 2005-08-24 | 2010-03-02 | Yahoo! Inc. | Speculative search result based on a not-yet-submitted search query |
US8024319B2 (en) * | 2007-01-25 | 2011-09-20 | Microsoft Corporation | Finite-state model for processing web queries |
CN102768681B (zh) | 2012-06-26 | 2014-10-22 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐系统及方法 |
-
2012
- 2012-06-26 CN CN201210215120.4A patent/CN102768681B/zh not_active Expired - Fee Related
-
2013
- 2013-05-15 WO PCT/CN2013/075639 patent/WO2014000517A1/zh active Application Filing
- 2013-05-15 US US14/411,091 patent/US9971834B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192108A (zh) * | 2007-03-28 | 2008-06-04 | 腾讯科技(深圳)有限公司 | 一种中文拼音输入方法及系统 |
CN101458694A (zh) * | 2008-10-09 | 2009-06-17 | 浙江大学 | 一种基于树形词库的中文分词方法 |
CN101989282A (zh) * | 2009-07-31 | 2011-03-23 | 中国移动通信集团公司 | 对中文查询词进行纠错的方法及其装置 |
CN101727499A (zh) * | 2010-01-07 | 2010-06-09 | 广东国笔科技股份有限公司 | 一种存储单词库、及搜索单词的方法及系统 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014000517A1 (zh) * | 2012-06-26 | 2014-01-03 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐系统及方法 |
US9971834B2 (en) | 2012-06-26 | 2018-05-15 | Beijing Qihoo Technology Company Limited | Recommendation system and method for search input |
CN102999609A (zh) * | 2012-11-22 | 2013-03-27 | 北京奇虎科技有限公司 | 网络小说搜索系统 |
CN103885961B (zh) * | 2012-12-20 | 2015-10-28 | 腾讯科技(深圳)有限公司 | 一种关联搜索词的推荐方法及系统 |
CN103885961A (zh) * | 2012-12-20 | 2014-06-25 | 腾讯科技(深圳)有限公司 | 一种关联搜索词的推荐方法及系统 |
CN103150362B (zh) * | 2013-02-28 | 2016-08-03 | 北京奇虎科技有限公司 | 一种视频搜索方法及系统 |
CN103150362A (zh) * | 2013-02-28 | 2013-06-12 | 北京奇虎科技有限公司 | 一种视频搜索方法及系统 |
CN103136694A (zh) * | 2013-03-20 | 2013-06-05 | 焦点科技股份有限公司 | 基于搜索行为感知的协同过滤推荐方法 |
CN103631886A (zh) * | 2013-11-15 | 2014-03-12 | 北京奇虎科技有限公司 | 在浏览器侧进行输入的方法和设备 |
CN104899214A (zh) * | 2014-03-06 | 2015-09-09 | 阿里巴巴集团控股有限公司 | 一种建立输入建议的数据处理方法和系统 |
CN104899214B (zh) * | 2014-03-06 | 2018-05-22 | 阿里巴巴集团控股有限公司 | 一种建立输入建议的数据处理方法和系统 |
CN103902720A (zh) * | 2014-04-10 | 2014-07-02 | 北京博雅立方科技有限公司 | 一种关键词的拓展词获取方法及装置 |
CN103902720B (zh) * | 2014-04-10 | 2017-11-21 | 北京博雅立方科技有限公司 | 一种关键词的拓展词获取方法及装置 |
CN104331434A (zh) * | 2014-10-22 | 2015-02-04 | 乐视网信息技术(北京)股份有限公司 | 一种生成搜索提示词服务的方法及其装置 |
CN107609098A (zh) * | 2017-09-11 | 2018-01-19 | 北京金堤科技有限公司 | 搜索方法及装置 |
CN107609098B (zh) * | 2017-09-11 | 2019-02-01 | 北京金堤科技有限公司 | 搜索方法及装置 |
CN111831876A (zh) * | 2019-04-15 | 2020-10-27 | 北京四维图新科技股份有限公司 | 查询方法、设备和存储介质 |
CN113515585A (zh) * | 2020-04-10 | 2021-10-19 | 中国石油化工股份有限公司 | 危险化学品安全领域专业词库的构造方法、检索方法及系统 |
CN111737986A (zh) * | 2020-05-15 | 2020-10-02 | 深圳市世强元件网络有限公司 | 一种基于多叉树的搜索词推荐方法及系统 |
US11947608B2 (en) | 2020-05-15 | 2024-04-02 | Shenzhen Sekorm Component Network Co., Ltd | Search term recommendation method and system based on multi-branch tree |
CN112749258A (zh) * | 2021-01-21 | 2021-05-04 | 京东数字科技控股股份有限公司 | 数据搜索的方法和装置、电子设备和存储介质 |
CN112989230A (zh) * | 2021-05-19 | 2021-06-18 | 盛威时代科技集团有限公司 | 一种基于分词和多音字的检索方法、系统及电子设备 |
CN113569010A (zh) * | 2021-07-23 | 2021-10-29 | 北京百度网讯科技有限公司 | 过滤检索结果的方法、装置、设备以及存储介质 |
CN113569010B (zh) * | 2021-07-23 | 2023-12-12 | 北京百度网讯科技有限公司 | 过滤检索结果的方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102768681B (zh) | 2014-10-22 |
WO2014000517A1 (zh) | 2014-01-03 |
US9971834B2 (en) | 2018-05-15 |
US20150339384A1 (en) | 2015-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102768681B (zh) | 一种用于搜索输入的推荐系统及方法 | |
KR102417045B1 (ko) | 명칭을 강인하게 태깅하는 방법 및 시스템 | |
CN102479191B (zh) | 提供多粒度分词结果的方法及其装置 | |
Liu et al. | Insertion, deletion, or substitution? Normalizing text messages without pre-categorization nor supervision | |
CN102866782B (zh) | 一种提高整句生成效率的输入法和输入法系统 | |
CN104199954B (zh) | 一种用于搜索输入的推荐系统及方法 | |
CN104657439A (zh) | 用于自然语言精准检索的结构化查询语句生成系统及方法 | |
CN103365992B (zh) | 一种基于一维线性空间实现Trie树的词典检索方法 | |
JP2016522524A (ja) | 同義表現の探知及び関連コンテンツを検索する方法及び装置 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
CN104657440A (zh) | 结构化查询语句生成系统及方法 | |
CN104268176B (zh) | 一种基于搜索关键词的推荐方法 | |
CN109918664B (zh) | 分词方法和装置 | |
KR20080085165A (ko) | 입력 데이터 확장 시스템 및 방법, 및 와일드카드 삽입 및입력 데이터 확장 시스템 | |
CN105843882A (zh) | 一种信息匹配方法及装置 | |
US20090006075A1 (en) | Phonetic search using normalized string | |
CN103914569B (zh) | 输入提示方法、装置及字典树模型的创建方法、装置 | |
CN102478968B (zh) | 中文拼音输入方法和中文拼音输入系统 | |
US10387543B2 (en) | Phoneme-to-grapheme mapping systems and methods | |
CN111611793B (zh) | 数据处理方法、装置、设备及存储介质 | |
US20160196303A1 (en) | String search device, string search method, and string search program | |
Khoury | Microtext normalization using probably-phonetically-similar word discovery | |
CN102567424B (zh) | 一种诗词关联库系统及其实现方法和电子学习设备 | |
CN104641367B (zh) | 用于格式化电子字符序列的格式化模块、系统和方法 | |
KR101452638B1 (ko) | 유사 문자열 검색 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141022 Termination date: 20210626 |