CN105447004A - 查询推荐词的挖掘、相关查询方法及装置 - Google Patents

查询推荐词的挖掘、相关查询方法及装置 Download PDF

Info

Publication number
CN105447004A
CN105447004A CN201410389467.XA CN201410389467A CN105447004A CN 105447004 A CN105447004 A CN 105447004A CN 201410389467 A CN201410389467 A CN 201410389467A CN 105447004 A CN105447004 A CN 105447004A
Authority
CN
China
Prior art keywords
word
inquiry
segmentation result
subject term
query candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410389467.XA
Other languages
English (en)
Other versions
CN105447004B (zh
Inventor
马小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Small Mutual Entertainment Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410389467.XA priority Critical patent/CN105447004B/zh
Publication of CN105447004A publication Critical patent/CN105447004A/zh
Application granted granted Critical
Publication of CN105447004B publication Critical patent/CN105447004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种查询推荐词的挖掘、相关查询方法及装置。本发明实施例通过对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,M为大于或等于1的整数,N为大于或等于2的整数,进而根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,P为大于或等于1的整数,使得能够根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词,Q为大于或等于1,且小于或等于M的整数,这样,查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系。

Description

查询推荐词的挖掘、相关查询方法及装置
【技术领域】
本发明涉及查询技术,尤其涉及一种查询推荐词的挖掘、相关查询方法及装置。
【背景技术】
随着网络信息技术的发展和普及,互联网逐渐渗透到人们的生活、学习和工作的各个领域,由此将人类真正带入信息时代。然而,互联网上的信息量很大,用户不容易找到自己需要的对象。为了提高处理即查询的精度,现有的一种做法是,用户在查询引擎对应本地的应用中的查询框中,输入一个查询关键词,由应用将查询关键词发送给查询引擎。查询引擎根据查询关键词,向应用返回基于头部信息匹配所获得的与该查询关键词匹配的若干个查询相关词,由用户选择是否利用其中的一个查询相关词,进行查询。
然而,现有的查询相关词与查询关键词之间,只是具有包含与被包含关系,且,若干个查询相关词之间没有任何关系,可能会使得查询相关词并无法满足用户真正的查询意图,或者可能会使得基于查询相关词的查询结果无法满足用户真正的查询意图,使得用户需要通过应用反复修改查询关键词或反复选择查询相关词进行查询,这样,会增加应用与查询引擎之间的数据交互,从而导致了查询引擎的处理负担的增加。
【发明内容】
本发明的多个方面提供一种查询推荐词的挖掘、相关查询方法及装置,用以降低查询引擎的处理负担。
本发明的一方面,提供一种查询推荐词的挖掘方法,包括:
对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,M为大于或等于1的整数,N为大于或等于2的整数;
根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,P为大于或等于1的整数;
根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词,Q为大于或等于1,且小于或等于M的整数;
对所述每个主词与Q个查询推荐词的对应关系,进行存储处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,包括:
利用基于用户查询日志所构建的查询词典,对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用基于用户查询日志所构建的查询词典,对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果之后,还包括:
获得所述每个查询候选词的N个分词结果在通用词典中的位置标识;
按照每个查询候选词的N个分词结果在所述通用词典中的位置标识,对N个分词结果进行合并处理,以获得合并结果;
将所述合并结果相同的查询候选词,进行去重处理,以获得一个查询候选词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词之后,还包括:
根据每个查询推荐词的词频、所述每个查询推荐词的相似度得分和所述查询推荐词的查询重写得分中的至少一项,获得所述每个查询推荐词的排序评分;
根据所述每个查询推荐词的排序评分,对Q个查询候选词进行排序。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据每个查询推荐词的词频和所述每个查询推荐词的相似度得分中的至少一项,获得所述每个查询推荐词的排序评分之前,还包括:
根据每个主词对应的查询推荐词,获得每个查询推荐词中除了该主词之外的,其他分词结果;
根据所述每个其他分词结果的特征,获得所述每个其他分词结果之间的相似度;
根据所述每个其他分词结果之间的相似度,获得每个查询推荐词的相似度得分。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述每个其他分词结果的特征,获得所述每个其他分词结果之间的相似度,包括:
根据所述每个其他分词结果的文本特征,获得所述每个其他分词结果之间的相似度;或者
根据所述每个其他分词结果的文本特征和位置特征,获得所述每个其他分词结果之间的相似度。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,包括:
从N个分词结果中,依次选择一个分词结果;
将N个分词结果中除了所述选择的一个分词结果之外的(N-1)个分词结果,以作为主词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词同时或之后,还包括:
获得所述每个查询候选词中除了P个主词中每个主词之外的其他词;
根据所述每个查询候选词,获得所述其他词的位置标识,以使得根据所述其他词的位置标识,展现所述其他词。
本发明的另一方面,提供一种相关查询方法,包括:
获取用户输入的查询关键词;
根据所述查询关键词,获得与所述查询关键词匹配的主词;
根据所述主词,利用上述一方面和其任一可能的实现方式所提供的方法所获得的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项;
向所述用户展现所述查询相关词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述向所述用户展现所述查询相关词,包括:
根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词。
本发明的另一方面,提供一种相关查询方法,包括:
获取用户输入的查询关键词;
根据所述查询关键词,获得与所述查询关键词匹配的主词;
根据所述主词,利用主词与查询推荐词的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项;其中,所述对应关系中的主词为该主词对应的查询推荐词进行分词处理所获得的分词结果生成;
向所述用户展现所述查询相关词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述向所述用户展现所述查询相关词,包括:
根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述主词,利用主词与查询推荐词的对应关系,获得查询相关词之前,还包括:
利用上述一方面和其任一可能的实现方式所提供的方法,获得所述对应关系。
本发明的另一方面,提供一种查询推荐词的挖掘装置,包括:
分词单元,用于对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,M为大于或等于1的整数,N为大于或等于2的整数;
组合单元,用于根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,P为大于或等于1的整数;
获得单元,用于根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词,Q为大于或等于1,且小于或等于M的整数;
记录单元,用于对所述每个主词与Q个查询推荐词的对应关系,进行存储处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述分词单元,具体用于
利用基于用户查询日志所构建的查询词典,对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述分词单元,还用于
获得所述每个查询候选词的N个分词结果在通用词典中的位置标识;
按照每个查询候选词的N个分词结果在所述通用词典中的位置标识,对N个分词结果进行合并处理,以获得合并结果;以及
将所述合并结果相同的查询候选词,进行去重处理,以获得一个查询候选词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得单元,还用于
根据每个查询推荐词的词频、所述每个查询推荐词的相似度得分和所述查询推荐词的查询重写得分中的至少一项,获得所述每个查询推荐词的排序评分;以及
根据所述每个查询推荐词的排序评分,对Q个查询候选词进行排序。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得单元,具体用于
根据每个主词对应的查询推荐词,获得每个查询推荐词中除了该主词之外的,其他分词结果;
根据所述每个其他分词结果的特征,获得所述每个其他分词结果之间的相似度;以及
根据所述每个其他分词结果之间的相似度,获得每个查询推荐词的相似度得分。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得单元,具体用于
根据所述每个其他分词结果的文本特征,获得所述每个其他分词结果之间的相似度;或者
根据所述每个其他分词结果的文本特征和位置特征,获得所述每个其他分词结果之间的相似度。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述组合单元,具体用于
从N个分词结果中,依次选择一个分词结果;以及
将N个分词结果中除了所述选择的一个分词结果之外的(N-1)个分词结果,以作为主词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述组合单元,还用于
获得所述每个查询候选词中除了P个主词中每个主词之外的其他词;以及
根据所述每个查询候选词,获得所述其他词的位置标识,以使得根据所述其他词的位置标识,展现所述其他词。
本发明的另一方面,提供一种相关查询装置,包括:
获取单元,用于获取用户输入的查询关键词;
匹配单元,用于根据所述查询关键词,获得与所述查询关键词匹配的主词;
推荐单元,用于根据所述主词,利用上述另一方面和其任一可能的实现方式所提供的装置所获得的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项;
展现单元,用于向所述用户展现所述查询相关词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述展现单元,具体用于
根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词。
本发明的另一方面,提供一种相关查询装置,包括:
获取单元,用于获取用户输入的查询关键词;
匹配单元,用于根据所述查询关键词,获得与所述查询关键词匹配的主词;
推荐单元,用于根据所述主词,利用主词与查询推荐词的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项;其中,所述对应关系中的主词为该主词对应的查询推荐词进行分词处理所获得的分词结果生成;
展现单元,用于向所述用户展现所述查询相关词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述向所述用户展现所述查询相关词,包括:
根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述推荐单元,还用于
利用上述另一方面和其任一可能的实现方式所提供的装置,获得所述对应关系。
由上述技术方案可知,一方面,本发明实施例通过对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,M为大于或等于1的整数,N为大于或等于2的整数,进而根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,P为大于或等于1的整数,使得能够根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词,Q为大于或等于1,且小于或等于M的整数,这样,查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系。
另外,采用本发明提供的技术方案,通过获得每个查询候选词的N个分词结果在通用词典中的位置标识,进而按照每个查询候选词的N个分词结果在所述通用词典中的位置标识,对N个分词结果进行合并处理,以获得合并结果,使得能够将所述合并结果相同的查询候选词,进行去重处理,以获得一个查询候选词,从而实现了能够合并语义本质一致的查询候选词的目的,节省了存储查询候选词所需要的网络资源。
另外,采用本发明提供的技术方案,通过根据每个查询推荐词的词频、所述每个查询推荐词的相似度得分和所述查询推荐词的查询重写得分中的至少一项,获得所述每个查询推荐词的排序评分,使得能够根据所述每个查询推荐词的排序评分,对Q个查询候选词进行排序,能够有效提高查询推荐词的一致性和相关性。
由上述技术方案可知,另一方面,本发明实施例通过根据获取用户输入的查询关键词,获得与所述查询关键词匹配的主词,进而根据所述主词,利用上一方面所提供的方法所获得的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项,使得能够向所述用户展现所述查询相关词,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,能够避免现有技术中由于用户通过应用反复修改查询关键词或反复选择查询相关词进行查询而导致的增加应用与查询引擎之间的数据交互的问题,从而降低了查询引擎的处理负担。
由上述技术方案可知,另一方面,本发明实施例通过根据获取用户输入的查询关键词,获得与所述查询关键词匹配的主词,进而根据所述主词,利用主词与查询推荐词的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项,其中,所述对应关系中的主词为该主词对应的查询推荐词进行分词处理所获得的分词结果生成,使得能够向所述用户展现所述查询相关词,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,能够避免现有技术中由于用户通过应用反复修改查询关键词或反复选择查询相关词进行查询而导致的增加应用与查询引擎之间的数据交互的问题,从而降低了查询引擎的处理负担。
另外,采用本发明提供的技术方案,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,从而提高了查询结果的有效性。
另外,采用本发明提供的技术方案,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,从而提高了查询的效率。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的查询推荐词的挖掘方法的流程示意图;
图2为本发明另一实施例提供的一种相关查询方法的流程示意图;
图3为本发明另一实施例提供的查询推荐词的挖掘装置的结构示意图;
图4为本发明另一实施例提供的一种相关查询装置的结构示意图;
图5为本发明另一实施例提供的另一种相关查询方法的流程示意图;
图6为本发明另一实施例提供的另一种相关查询装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(PersonalDigitalAssistant,PDA)、无线手持装置、无线上网本、个人电脑、便携电脑、MP3播放器、MP4播放器等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的查询推荐词的挖掘方法的流程示意图,如图1所示。
101、对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,M为大于或等于1的整数,N为大于或等于2的整数。
102、根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,P为大于或等于1的整数。
103、根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词,Q为大于或等于1,且小于或等于M的整数。
其中,所述主词,可以理解为一个用于索引查询候选词的索引词。
104、对所述每个主词与Q个查询推荐词的对应关系,进行存储处理。
需要说明的是,101~104的执行主体,可以为位于网络侧的服务器中的挖掘引擎,或者还可以为位于网络侧的服务器中的查询引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是浏览器的一个网页程序(webAPP),本实施例对此不进行限定。
这样,通过对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,M为大于或等于1的整数,N为大于或等于2的整数,进而根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,P为大于或等于1的整数,使得能够根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词,Q为大于或等于1,且小于或等于M的整数,这样,查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系。
对M个查询候选词中每个查询候选词进行分词处理,可以采用现有技术中的多种分词技术,本实施例对此不进行特别限定。可选地,在本实施例的一个可能的实现方式中,在101中,具体可以利用基于用户查询日志所构建的查询词典,对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果。
进一步地,在101之前,还可以执行构建查询词典的步骤。具体地,利用用户查询日志,获得若干个查询候选词。对这些查询候选词进行过滤处理,例如,去掉过长或过短的查询候选词,去掉多余的标点符号等,以获得最终能够组成查询词典的查询候选词。然后,利用用户查询日志,对这些查询候选词进行词频统计处理即统计每个查询候选词的各个的查询次数,以获得每个查询候选词的词频。这样,基于查询候选词及其词频的查询词典,构建完毕。由于查询词典,是基于用户查询日志所构建的,说明这些查询候选词都是用户查询过的,有一定的参考价值。
可以理解的是,所构建的查询词典,根据用户查询日志的更新,会自动收录新出现的查询候选词及其词频。
具体地,通过将M个查询候选词中每个查询候选词在查询词典中进行匹配,可以采用多种分词方案,本实施例对此不进行特别限定。以最大词频分词方案举例,将每个查询候选词在查询词典中利用不同的方案进行匹配,获得每种方案对应的N个分词结果。将N个分词结果的词频之和最大的那种方案,作为最终的分词结果。例如,查询候选词“神兽鲲鹏纹身”的分词结果为“神兽”、“鲲鹏”和“纹身”3个分词结果。
另外,为了保证分词结果在语义上的完整性,可以定义一个分词完美度参数,即N个分词结果的总长度与查询候选词的长度的比值。分词完美度参数的取值范围大于0,且小于或等于1。若分词完美度参数大于或等于预先设置的参数阈值,则可以保留该查询候选词,以继续执行102~104;若分词完美度参数小于该参数阈值,则可以删除该查询候选词,结束流程,不再执行102~104。
可选地,在本实施例的一个可能的实现方式中,在利用基于用户查询日志所构建的查询词典,对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果之后,还可以进一步获得所述每个查询候选词的N个分词结果在通用词典中的位置标识,进而按照每个查询候选词的N个分词结果在所述通用词典中的位置标识,对N个分词结果进行合并处理,以获得合并结果。例如,按照位置标识所指示的顺序,对N个分词结果进行合并处理等。合并结果相同,说明这些查询候选词的语义本质一致,如果全部保留,则会出现这些查询推荐词所推荐出的推荐结果是一致的。因此,则可以将所述合并结果相同的查询候选词,进行去重处理,以获得一个查询候选词。通用词典可以为本发明中的分词词典,或者还可以为其他词典,本实施例对此不进行特别限定。
其中,位置标识可以包括但不限于编码标识。
例如,选择共现概率最大的查询候选词,作为所述合并结果相同的查询候选词中,最终的表述结果。其中,计算查询候选词的共现概率的可以采用现有技术中的任何方法,本实施例对此不进行特别限定。例如,根据每个查询候选词的N个分词结果中第1个分词结果出现的概率、第1个分词结果出现之后第2个分词结果出现的概率、第2个分词结果出现之后第3个分词结果出现的概率、……第n-1个分词结果出现之后第n个分词结果出现的概率,获得每个查询候选词中N个分词结果的共现概率。
或者,再例如,选择词频最大的查询候选词,作为所述合并结果相同的查询候选词中,最终的表述结果。
以查询候选词A“神兽鲲鹏”和查询候选词B“鲲鹏神兽”为例,假设查询候选词A“神兽鲲鹏”的词频为1000,查询候选词B“鲲鹏神兽”的词频为100。它们的分词结果都是“鲲鹏”和“神兽”。将分词结果按照在通用词典中的位置标识如编号进行合并处理之后,获得相同的键(key)即“神兽鲲鹏”,进而选择词频最大的查询候选词A“神兽鲲鹏”,作为具有相同key“神兽鲲鹏”的值(value)即最终表述结果。
这样,能够形成两个相同的key-value对,进而,则可以对这些相同的key-value对,进行合并处理,以获得唯一的key-value对。
需要说明的是,当查询词典中,有新出现的查询候选词需要收录,可以按照上述方法,在利用基于用户查询日志所构建的查询词典,对新的查询候选词进行分词处理,以获得所述新的查询候选词的N个分词结果之后,进一步获得所述新的查询候选词的N个分词结果在通用词典中的位置标识,进而按照新的查询候选词的N个分词结果在所述通用词典中的位置标识,对N个分词结果进行合并处理,以获得合并结果新的key。如果新的key在之前的key-value对列表中,没有命中,则将新的key与新的value即新的查询候选词,加入key-value对列表;如果新的key在之前的key-value对列表中,命中,则将新的value用命中的value代替即可,最后,合并相同的key-value对。
这样,通过获得每个查询候选词的N个分词结果在通用词典中的位置标识,进而按照每个查询候选词的N个分词结果在所述通用词典中的位置标识,对N个分词结果进行合并处理,以获得合并结果,使得能够将所述合并结果相同的查询候选词,进行去重处理,以获得一个查询候选词,从而实现了能够合并语义本质一致的查询候选词的目的,节省了存储查询候选词所需要的网络资源。
可选地,在本实施例的一个可能的实现方式中,在102中,根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词的方法有很多,本实施例对此不进行特别限定。
具体地,可以定义一个索引项的概念,用以表示查询候选词所对应的主词。例如,索引项可以表示为如下形式:查询候选词=>主词。对于有N个分词结果(假设每个分词结果均不相同)的查询候选词来说,如果限定主词包括K个分词结果,K为大于或等于1,且小于或等于(N-1)的整数。那么,其可能的索引项有K!C(N,K)=N!/(N-K)!。其中,C(N,K)表示N个里选K个的组合数。
为了使得查询候选词与主词之间,具有逐渐递进的层次结构关系,可以限定K为N-1即主词包括N-1个分词结果。那么,具体地,具体可以从N个分词结果中,依次选择一个分词结果,然后,将N个分词结果中除了所述选择的一个分词结果之外的(N-1)个分词结果,以作为主词。
需要注意的是,这里允许对主词所包含的(N-1)个分词结果进行全排列。例如,查询候选词为“神兽鲲鹏纹身”,那么索引项里的主词可以出现“神兽鲲鹏”,也可以出现“鲲鹏神兽”,这样,可以提高查询的命中率,不论用户输入的查询关键词“神兽鲲鹏”还是“鲲鹏神兽”,都可以匹配到对应的主词进而给出推荐。
为了进一步简化主词的计算量,具体可以将N个分词结果中除了所述选择的一个分词结果之外的(N-1)个分词结果,按照在所述每个查询候选词中的顺序进行组合,以作为主词。
具体地,查询候选词为“神兽鲲鹏纹身”,其分词结果为“神兽”、“鲲鹏”和“纹身”3个分词结果。假设限定主词包括2个分词结果,那么索引项具体可以表示为如下形式:
神兽鲲鹏纹身=>鲲鹏纹身;
神兽鲲鹏纹身=>纹身鲲鹏;
神兽鲲鹏纹身=>神兽纹身;
神兽鲲鹏纹身=>纹身神兽;
神兽鲲鹏纹身=>神兽鲲鹏;
神兽鲲鹏纹身=>鲲鹏神兽。
可选地,在本实施例的一个可能的实现方式中,在执行102的同时或者之后,还可以进一步获得所述每个查询候选词中除了P个主词中每个主词之外的其他词,进而则可以根据所述每个查询候选词,获得所述其他词的位置标识,以使得根据所述其他词的位置标识,展现所述其他词。
例如,索引项可以表示为如下形式:查询候选词=>主词[BS)。其中,B用于表示起始位置,S用于表示结束位置。
这样,可以根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词,能够有效节省展现空间,尤其适合在屏幕较小的手机等移动终端上采用。
可以理解的是,尽管隐藏了相应的主词,但是当查询推荐词所对应的其他词被点击,仍然是以完整的查询推荐词进行查询操作,以获得匹配的查询结果。
具体地,查询候选词为“神兽鲲鹏纹身”,其分词结果为“神兽”、“鲲鹏”和“纹身”3个分词结果。假设限定主词包括2个分词结果,那么索引项具体可以表示为如下形式:
神兽鲲鹏纹身=>鲲鹏纹身[02);
神兽鲲鹏纹身=>纹身鲲鹏[02);
神兽鲲鹏纹身=>神兽纹身[24);
神兽鲲鹏纹身=>纹身神兽[24);
神兽鲲鹏纹身=>神兽鲲鹏[46);
神兽鲲鹏纹身=>鲲鹏神兽[46)。
可选地,在本实施例的一个可能的实现方式中,在103之后,还可以进一步对所获得的与每个主词对应的Q个查询候选词进行排序。
具体地,具体可以根据每个查询推荐词的词频、所述每个查询推荐词的相似度得分和所述查询推荐词的查询重写得分中的至少一项,获得所述每个查询推荐词的排序评分;然后,则可以根据所述每个查询推荐词的排序评分,对Q个查询候选词进行排序。
可选地,具体可以在查询词典中,获得每个查询推荐词的词频。
可选地,具体可以根据每个主词对应的查询推荐词,获得每个查询推荐词中除了该主词之外的,其他分词结果,进而根据所述每个其他分词结果的特征,获得所述每个其他分词结果之间的相似度。然后,则可以根据所述每个其他分词结果之间的相似度,获得每个查询推荐词的相似度得分。
例如,具体可以根据所述每个其他分词结果的文本特征,获得所述每个其他分词结果之间的相似度。
首先,可以基于查询词典中,为每个查询候选词所包含的分词结果的任意分词组合,构建特征向量。具体地,基于查询词典对每个分词组合进行上下文统计,选择距离每个分词组合设定距离范围内的分词结果的词频达到特征维度选择条件的分词结果,作为特征维度,以构成每个分词组合的特征向量。其中,特征维度选择条件可以包括但不限于:词频达到预设阈值以及词频排在前M1个,M1为预设的正整数。特征向量中,每个特征维度的权重值可以根据每个特征维度所属的查询候选词的词频确定,例如,将权重值直接用对应的词频代替。
以查询候选词“神兽鲲鹏纹身”、“神兽鲲鹏”、“神兽青龙纹身”和“神兽青龙”为例,假设其词频分别为100、1000、200、2000。可以构建如下特征向量:
神兽=>100-鲲鹏纹身1000-鲲鹏200-青龙纹身2000-青龙;
鲲鹏=>100-神兽纹身1000-神兽;
纹身=>100-神兽鲲鹏200-神兽青龙;
青龙=>200-神兽纹身2000-神兽;
可以理解的是,特征维度,可以参考查询候选词的处理方式,进行去重处理,以获得一个特征维度。详细描述可以参见上述相关的内容,此处不再赘述。
然后,有了上述特征向量,就可以计算分词组合之间的相似度了。例如,可以采用余弦(cosine)相似度计算方法,根据上述特征向量,计算“鲲鹏”和“青龙”之间的相似度为1。
或者,再例如,还可以根据所述每个其他分词结果的文本特征和位置特征,获得所述每个其他分词结果之间的相似度。
在构建特征向量时,对于每个特征维度,再增加一个位置特征,作为一个新的特征维度。例如,通过“神兽鲲鹏”得到的“神兽”的带位置特征的一个特征维度为“*鲲鹏”。同样,通过“鲲鹏纹身”得到的“纹身”的带位置特征的一个特征维度为“鲲鹏*”。这样,由于特征维度“*鲲鹏”和“鲲鹏*”并非同样的特征维度,因此不会使“神兽”和“纹身”的相似度虚高。
继续以查询候选词“神兽鲲鹏纹身”、“神兽鲲鹏”、“神兽青龙纹身”和“神兽青龙”为例,假设其词频分别为100、1000、200和2000。可以构建如下特征向量:
神兽=>100-鲲鹏纹身1000-鲲鹏200-青龙纹身2000-青龙100-*鲲鹏纹身1000-*鲲鹏200-*青龙纹身2000-*青龙;
鲲鹏=>100-神兽纹身1000-神兽100-神兽*纹身1000-神兽*;
纹身=>100-神兽鲲鹏200-神兽青龙100-神兽鲲鹏*200-神兽青龙*;
青龙=>200-神兽纹身2000-神兽200-神兽*纹身2000-神兽*。
至此,具体可以根据每个主词对应的查询推荐词,获得每个查询推荐词中除了该主词之外的,其他分词结果,可以称为主干词。进而则可以利用上述所构建的特征向量,获得主干词之间的相似度。然后,则可以根据主干词之间的相似度,获得每个查询推荐词的相似度得分。
例如,假设主词“神兽”,其对应的查询推荐词“神兽玄武”、“神兽青龙”、“神兽鲲鹏”和“神兽纹身”。查询推荐词中除了主词“神兽”之外,其对应的主干词为“玄武”、“青龙”、“鲲鹏”和“纹身”。假设基于所构建的特征向量,计算得到主干词“玄武”、“青龙”、“鲲鹏”之间的相似度很高,为1;主干词“玄武”、“青龙”、“鲲鹏”与“纹身”的相似度很低,为0.1。这样,根据所计算的主干词之间的相似度,获得每个查询推荐词的相似度得分。以查询推荐词“神兽玄武”为例,其相似度得分具体可以根据主干词“玄武”与主干词“青龙”、“鲲鹏”、“纹身”之间的相似度,计算得出。如计算主干词“玄武”与主干词“青龙”、“鲲鹏”、“纹身”之间的相似度的平均值,以作为查询推荐词“神兽玄武”的相似度得分。
可选地,具体可以根据主词对应的每个查询推荐词的查询重写词信息,获得每个查询推荐词的查询重写得分。
具体地,为了去除噪声,只考虑查询重写词包含主词或者主词和查询重写词组合起来出现在查询词典的情况。若查询推荐词为包含主词的查询重写词,或者为与主词的组合出现在查询词典中的查询重写词,则获得该查询推荐词的查询重写得分为1;否则,获得该查询推荐词的查询重写得分为0。
例如,用户利用“神兽”进行查询之后,可能会继续利用“鲲鹏”、“鲲鹏神兽”或者“青龙”、“神兽青龙”进行查询。“鲲鹏”、“鲲鹏神兽”或者“青龙”、“神兽青龙”这些词,就是查询重写词。如查询重写词“鲲鹏神兽”包含主词“神兽”,因此予以考虑,将“鲲鹏神兽”的查询重写得分设置为1。再如查询重写词“鲲鹏”虽然不包含主词“神兽”,但是其与主词“神兽”的组合“神兽鲲鹏”或“鲲鹏神兽”出现在查询词典中,因此予以考虑,将“鲲鹏”的查询重写得分设置为1。
这样,通过根据每个查询推荐词的词频、所述每个查询推荐词的相似度得分和所述查询推荐词的查询重写得分中的至少一项,获得所述每个查询推荐词的排序评分,使得能够根据所述每个查询推荐词的排序评分,对Q个查询候选词进行排序,能够有效提高查询推荐词的一致性和相关性。
本实施例中,通过对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,M为大于或等于1的整数,N为大于或等于2的整数,进而根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,P为大于或等于1的整数,使得能够根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词,Q为大于或等于1,且小于或等于M的整数,这样,查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系。
另外,采用本发明提供的技术方案,通过获得每个查询候选词的N个分词结果在通用词典中的位置标识,进而按照每个查询候选词的N个分词结果在所述通用词典中的位置标识,对N个分词结果进行合并处理,以获得合并结果,使得能够将所述合并结果相同的查询候选词,进行去重处理,以获得一个查询候选词,从而实现了能够合并语义本质一致的查询候选词的目的,节省了存储查询候选词所需要的网络资源。
另外,采用本发明提供的技术方案,通过根据每个查询推荐词的词频、所述每个查询推荐词的相似度得分和所述查询推荐词的查询重写得分中的至少一项,获得所述每个查询推荐词的排序评分,使得能够根据所述每个查询推荐词的排序评分,对Q个查询候选词进行排序,能够有效提高查询推荐词的一致性和相关性。
图2为本发明另一实施例提供的一种相关查询方法的流程示意图,如图2所示。
201、获取用户输入的查询关键词。
202、根据所述查询关键词,获得与所述查询关键词匹配的主词。
其中,所述主词,可以理解为一个用于索引查询候选词的索引词。
203、根据所述主词,利用图1对应的实施例所提供的查询推荐词的挖掘方法所获得的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项。
204、向所述用户展现所述查询相关词。
需要说明的是,对应关系的获得方法,具体描述可以参见图1对应的实施例中方法的内容,此处不再赘述。
需要说明的是,201~204的执行主体,可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的查询引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
可选地,在本实施例的一个可能的实现方式中,在204中,在展现查询推荐词时,具体可以展现查询推荐词的全部内容。
可选地,在本实施例的一个可能的实现方式中,在204中,在展现查询推荐词时,具体可以根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词。
这样,能够有效节省展现空间,尤其适合在屏幕较小的手机等移动终端上采用。
可以理解的是,尽管隐藏了相应的主词,但是当查询推荐词所对应的其他词被点击,仍然是以完整的查询推荐词进行查询操作,以获得匹配的查询结果。
本实施例中,通过根据获取用户输入的查询关键词,获得与所述查询关键词匹配的主词,进而根据所述主词,利用图1对用的实施例所提供的方法所获得的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项,使得能够向所述用户展现所述查询相关词,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,能够避免现有技术中由于用户通过应用反复修改查询关键词或反复选择查询相关词进行查询而导致的增加应用与查询引擎之间的数据交互的问题,从而降低了查询引擎的处理负担。
另外,采用本发明提供的技术方案,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,从而提高了查询结果的有效性。
另外,采用本发明提供的技术方案,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,从而提高了查询的效率。
图5为本发明另一实施例提供的另一种相关查询方法的流程示意图,如图5所示。
501、获取用户输入的查询关键词。
502、根据所述查询关键词,获得与所述查询关键词匹配的主词。
其中,所述主词,可以理解为一个用于索引查询候选词的索引词。
503、根据所述主词,利用主词与查询推荐词的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项;其中,所述对应关系中的主词为该主词对应的查询推荐词进行分词处理所获得的分词结果生成。
504、向所述用户展现所述查询相关词。
需要说明的是,501~504的执行主体,可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的查询引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
本实施例中,在503中所利用的主词与查询推荐词的对应关系,的获得是有一定难度的。需要由位于网络侧的服务器中的挖掘引擎,或者位于网络侧的服务器中的查询引擎,或者网络侧的分布式系统,等网络侧设备,利用所积累的大量历史数据,进行挖掘所获得的,并不是很容易进行设置的。跟历史数据的获取以及历史数据的内容,有很直接的关系,有很强的客观性。
可选地,在本实施例的一个可能的实现方式中,在503之前,还可以进一步利用图1对应的实施例所提供的查询推荐词的挖掘方法,获得所述对应关系。
需要说明的是,对应关系的获得方法,具体描述可以参见图1对应的实施例中方法的内容,此处不再赘述。
可选地,在本实施例的一个可能的实现方式中,在204中,在展现查询推荐词时,具体可以展现查询推荐词的全部内容。
可选地,在本实施例的一个可能的实现方式中,在204中,在展现查询推荐词时,具体可以根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词。
这样,能够有效节省展现空间,尤其适合在屏幕较小的手机等移动终端上采用。
可以理解的是,尽管隐藏了相应的主词,但是当查询推荐词所对应的其他词被点击,仍然是以完整的查询推荐词进行查询操作,以获得匹配的查询结果。
本实施例中,通过根据获取用户输入的查询关键词,获得与所述查询关键词匹配的主词,进而根据所述主词,利用主词与查询推荐词的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项,其中,所述对应关系中的主词为该主词对应的查询推荐词进行分词处理所获得的分词结果生成,使得能够向所述用户展现所述查询相关词,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,能够避免现有技术中由于用户通过应用反复修改查询关键词或反复选择查询相关词进行查询而导致的增加应用与查询引擎之间的数据交互的问题,从而降低了查询引擎的处理负担。
另外,采用本发明提供的技术方案,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,从而提高了查询结果的有效性。
另外,采用本发明提供的技术方案,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,从而提高了查询的效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图3为本发明另一实施例提供的查询推荐词的挖掘装置的结构示意图,如图3所示。本实施例的查询推荐词的挖掘装置可以包括分词单元31、组合单元32、获得单元33和记录单元34。其中,分词单元31,用于对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,M为大于或等于1的整数,N为大于或等于2的整数;组合单元32,用于根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,P为大于或等于1的整数;获得单元33,用于根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词,Q为大于或等于1,且小于或等于M的整数;记录单元34,用于对所述每个主词与Q个查询推荐词的对应关系,进行存储处理。
需要说明的是,本实施例所提供的查询推荐词的挖掘装置,可以为位于网络侧的服务器中的挖掘引擎,或者还可以为位于网络侧的服务器中的查询引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是浏览器的一个网页程序(webAPP),本实施例对此不进行限定。
可选地,在本实施例的一个可能的实现方式中,所述分词单元31,具体可以用于利用基于用户查询日志所构建的查询词典,对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果。
可选地,在本实施例的一个可能的实现方式中,所述分词单元31,还可以进一步用于获得所述每个查询候选词的N个分词结果在通用词典中的位置标识;按照每个查询候选词的N个分词结果在所述通用词典中的位置标识,对N个分词结果进行合并处理,以获得合并结果;以及将所述合并结果相同的查询候选词,进行去重处理,以获得一个查询候选词。
可选地,在本实施例的一个可能的实现方式中,所述获得单元33,还可以进一步用于根据每个查询推荐词的词频、所述每个查询推荐词的相似度得分和所述查询推荐词的查询重写得分中的至少一项,获得所述每个查询推荐词的排序评分;以及根据所述每个查询推荐词的排序评分,对Q个查询候选词进行排序。
可选地,在本实施例的一个可能的实现方式中,所述获得单元33,具体可以用于根据每个主词对应的查询推荐词,获得每个查询推荐词中除了该主词之外的,其他分词结果;根据所述每个其他分词结果的特征,获得所述每个其他分词结果之间的相似度;以及根据所述每个其他分词结果之间的相似度,获得每个查询推荐词的相似度得分。
可选地,在本实施例的一个可能的实现方式中,所述获得单元33,具体可以用于根据所述每个其他分词结果的文本特征,获得所述每个其他分词结果之间的相似度。
可选地,在本实施例的一个可能的实现方式中,所述获得单元33,具体可以用于根据所述每个其他分词结果的文本特征和位置特征,获得所述每个其他分词结果之间的相似度。
可选地,在本实施例的一个可能的实现方式中,所述组合单元32,具体可以用于从N个分词结果中,依次选择一个分词结果;以及将N个分词结果中除了所述选择的一个分词结果之外的(N-1)个分词结果,以作为主词。
可选地,在本实施例的一个可能的实现方式中,所述组合单元32,还可以进一步用于获得所述每个查询候选词中除了P个主词中每个主词之外的其他词;以及根据所述每个查询候选词,获得所述其他词的位置标识,以使得根据所述其他词的位置标识,展现所述其他词。
需要说明的是,图1对应的实施例中方法,可以由本实施例提供的查询推荐词的挖掘装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过分词单元对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,M为大于或等于1的整数,N为大于或等于2的整数,进而由组合单元根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,P为大于或等于1的整数,使得获得单元能够根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词,Q为大于或等于1,且小于或等于M的整数,这样,查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系。
另外,采用本发明提供的技术方案,通过获得每个查询候选词的N个分词结果在通用词典中的位置标识,进而按照每个查询候选词的N个分词结果在所述通用词典中的位置标识,对N个分词结果进行合并处理,以获得合并结果,使得能够将所述合并结果相同的查询候选词,进行去重处理,以获得一个查询候选词,从而实现了能够合并语义本质一致的查询候选词的目的,节省了存储查询候选词所需要的网络资源。
另外,采用本发明提供的技术方案,通过根据每个查询推荐词的词频、所述每个查询推荐词的相似度得分和所述查询推荐词的查询重写得分中的至少一项,获得所述每个查询推荐词的排序评分,使得能够根据所述每个查询推荐词的排序评分,对Q个查询候选词进行排序,能够有效提高查询推荐词的一致性和相关性。
图4为本发明另一实施例提供的一种相关查询装置的结构示意图,如图4所示。本实施例的相关查询装置可以包括获取单元41、匹配单元42、推荐单元43和展现单元44。其中,获取单元41,用于获取用户输入的查询关键词;匹配单元42,用于根据所述查询关键词,获得与所述查询关键词匹配的主词;推荐单元43,用于根据所述主词,利用图3对应的实施例所提供的相关查询装置所获得的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项;展现单元44,用于向所述用户展现所述查询相关词。
可选地,在本实施例的一个可能的实现方式中,所述展现单元44,具体可以用于根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词。
需要说明的是,对应关系的获得方法,具体描述可以参见图3对应的实施例中装置的内容,此处不再赘述。
需要说明的是,图2对应的实施例中方法,可以由本实施例提供的相关查询装置实现。详细描述可以参见图2对应的实施例中的相关内容,此处不再赘述。
需要说明的是,本实施例所提供的相关查询装置,可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的查询引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
本实施例中,通过匹配单元根据获取单元获取用户输入的查询关键词,获得与所述查询关键词匹配的主词,进而由推荐单元根据所述主词,利用图3对用的实施例所提供的装置所获得的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项,使得展现单元能够向所述用户展现所述查询相关词,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,能够避免现有技术中由于用户通过应用反复修改查询关键词或反复选择查询相关词进行查询而导致的增加应用与查询引擎之间的数据交互的问题,从而降低了查询引擎的处理负担。
另外,采用本发明提供的技术方案,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,从而提高了查询结果的有效性。
另外,采用本发明提供的技术方案,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,从而提高了查询的效率。
图6为本发明另一实施例提供的另一种相关查询装置的结构示意图,如图6所示。本实施例的相关查询装置可以包括获取单元61、匹配单元62、推荐单元63和展现单元64。其中,获取单元61,用于获取用户输入的查询关键词;匹配单元62,用于根据所述查询关键词,获得与所述查询关键词匹配的主词;推荐单元63,用于根据所述主词,利用主词与查询推荐词的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项;其中,所述对应关系中的主词为该主词对应的查询推荐词进行分词处理所获得的分词结果生成;展现单元64,用于向所述用户展现所述查询相关词。
需要说明的是,本实施例所提供的相关查询装置,可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的查询引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
可选地,在本实施例的一个可能的实现方式中,所述推荐单元63,还可以进一步用于利用图3对应的实施例所提供的相关查询装置,获得所述对应关系。
需要说明的是,对应关系的获得方法,具体描述可以参见图3对应的实施例中装置的内容,此处不再赘述。
可选地,在本实施例的一个可能的实现方式中,所述展现单元64,具体可以用于根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词。
需要说明的是,图5对应的实施例中方法,可以由本实施例提供的相关查询装置实现。详细描述可以参见图5对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过匹配单元根据获取单元获取用户输入的查询关键词,获得与所述查询关键词匹配的主词,进而由推荐单元根据所述主词,利用主词与查询推荐词的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项;其中,所述对应关系中的主词为该主词对应的查询推荐词进行分词处理所获得的分词结果生成,使得展现单元能够向所述用户展现所述查询相关词,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,能够避免现有技术中由于用户通过应用反复修改查询关键词或反复选择查询相关词进行查询而导致的增加应用与查询引擎之间的数据交互的问题,从而降低了查询引擎的处理负担。
另外,采用本发明提供的技术方案,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,从而提高了查询结果的有效性。
另外,采用本发明提供的技术方案,由于查询推荐词与查询关键词之间,不再只是具有包含与被包含关系,还具有层次结构关系,且若干个查询推荐词之间具有层次结构关系,使得查询相关词基本满足用户真正的查询意图,或者使得基于查询相关词的查询结果基本满足用户真正的查询意图,从而提高了查询的效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (26)

1.一种查询推荐词的挖掘方法,其特征在于,包括:
对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,M为大于或等于1的整数,N为大于或等于2的整数;
根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,P为大于或等于1的整数;
根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词,Q为大于或等于1,且小于或等于M的整数;
对所述每个主词与Q个查询推荐词的对应关系,进行存储处理。
2.根据权利要求1所述的方法,其特征在于,所述对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,包括:
利用基于用户查询日志所构建的查询词典,对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果。
3.根据权利要求2所述的方法,其特征在于,所述利用基于用户查询日志所构建的查询词典,对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果之后,还包括:
获得所述每个查询候选词的N个分词结果在通用词典中的位置标识;
按照每个查询候选词的N个分词结果在所述通用词典中的位置标识,对N个分词结果进行合并处理,以获得合并结果;
将所述合并结果相同的查询候选词,进行去重处理,以获得一个查询候选词。
4.根据权利要求2所述的方法,其特征在于,所述根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词之后,还包括:
根据每个查询推荐词的词频、所述每个查询推荐词的相似度得分和所述查询推荐词的查询重写得分中的至少一项,获得所述每个查询推荐词的排序评分;
根据所述每个查询推荐词的排序评分,对Q个查询候选词进行排序。
5.根据权利要求4所述的方法,其特征在于,所述根据每个查询推荐词的词频和所述每个查询推荐词的相似度得分中的至少一项,获得所述每个查询推荐词的排序评分之前,还包括:
根据每个主词对应的查询推荐词,获得每个查询推荐词中除了该主词之外的,其他分词结果;
根据所述每个其他分词结果的特征,获得所述每个其他分词结果之间的相似度;
根据所述每个其他分词结果之间的相似度,获得每个查询推荐词的相似度得分。
6.根据权利要求5所述的方法,其特征在于,所述根据所述每个其他分词结果的特征,获得所述每个其他分词结果之间的相似度,包括:
根据所述每个其他分词结果的文本特征,获得所述每个其他分词结果之间的相似度;或者
根据所述每个其他分词结果的文本特征和位置特征,获得所述每个其他分词结果之间的相似度。
7.根据权利要求1所述的方法,其特征在于,所述根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,包括:
从N个分词结果中,依次选择一个分词结果;
将N个分词结果中除了所述选择的一个分词结果之外的(N-1)个分词结果,以作为主词。
8.根据权利要求1~7任一权利要求所述的方法,其特征在于,所述根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词同时或之后,还包括:
获得所述每个查询候选词中除了P个主词中每个主词之外的其他词;
根据所述每个查询候选词,获得所述其他词的位置标识,以使得根据所述其他词的位置标识,展现所述其他词。
9.一种相关查询方法,其特征在于,包括:
获取用户输入的查询关键词;
根据所述查询关键词,获得与所述查询关键词匹配的主词;
根据所述主词,利用权利要求1~8任一权利要求所述的方法所获得的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项;
向所述用户展现所述查询相关词。
10.根据权利要求9所述的方法,其特征在于,所述向所述用户展现所述查询相关词,包括:
根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词。
11.一种相关查询方法,其特征在于,包括:
获取用户输入的查询关键词;
根据所述查询关键词,获得与所述查询关键词匹配的主词;
根据所述主词,利用主词与查询推荐词的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项;其中,所述对应关系中的主词为该主词对应的查询推荐词进行分词处理所获得的分词结果生成;
向所述用户展现所述查询相关词。
12.根据权利要求11所述的方法,其特征在于,所述向所述用户展现所述查询相关词,包括:
根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词。
13.根据权利要求11或12所述的方法,其特征在于,所述根据所述主词,利用主词与查询推荐词的对应关系,获得查询相关词之前,还包括:
利用权利要求1~8任一权利要求所述的方法,获得所述对应关系。
14.一种查询推荐词的挖掘装置,其特征在于,包括:
分词单元,用于对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果,M为大于或等于1的整数,N为大于或等于2的整数;
组合单元,用于根据所述每个查询候选词的N个分词结果,生成所述每个查询候选词所对应的P个主词,P为大于或等于1的整数;
获得单元,用于根据所述每个查询候选词所对应的P个主词,获得与每个主词对应的Q个查询候选词,以作为Q个查询推荐词,Q为大于或等于1,且小于或等于M的整数;
记录单元,用于对所述每个主词与Q个查询推荐词的对应关系,进行存储处理。
15.根据权利要求14所述的装置,其特征在于,所述分词单元,具体用于
利用基于用户查询日志所构建的查询词典,对M个查询候选词中每个查询候选词进行分词处理,以获得所述每个查询候选词的N个分词结果。
16.根据权利要求15所述的装置,其特征在于,所述分词单元,还用于
获得所述每个查询候选词的N个分词结果在所述通用词典中的位置标识;
按照每个查询候选词的N个分词结果在所述通用词典中的位置标识,对N个分词结果进行合并处理,以获得合并结果;以及
将所述合并结果相同的查询候选词,进行去重处理,以获得一个查询候选词。
17.根据权利要求15所述的装置,其特征在于,所述获得单元,还用于
根据每个查询推荐词的词频、所述每个查询推荐词的相似度得分和所述查询推荐词的查询重写得分中的至少一项,获得所述每个查询推荐词的排序评分;以及
根据所述每个查询推荐词的排序评分,对Q个查询候选词进行排序。
18.根据权利要求17所述的装置,其特征在于,所述获得单元,具体用于
根据每个主词对应的查询推荐词,获得每个查询推荐词中除了该主词之外的,其他分词结果;
根据所述每个其他分词结果的特征,获得所述每个其他分词结果之间的相似度;以及
根据所述每个其他分词结果之间的相似度,获得每个查询推荐词的相似度得分。
19.根据权利要求18所述的装置,其特征在于,所述获得单元,具体用于
根据所述每个其他分词结果的文本特征,获得所述每个其他分词结果之间的相似度;或者
根据所述每个其他分词结果的文本特征和位置特征,获得所述每个其他分词结果之间的相似度。
20.根据权利要求14所述的装置,其特征在于,所述组合单元,具体用于
从N个分词结果中,依次选择一个分词结果;以及
将N个分词结果中除了所述选择的一个分词结果之外的(N-1)个分词结果,以作为主词。
21.根据权利要求14~20任一权利要求所述的装置,其特征在于,所述组合单元,还用于
获得所述每个查询候选词中除了P个主词中每个主词之外的其他词;以及
根据所述每个查询候选词,获得所述其他词的位置标识,以使得根据所述其他词的位置标识,展现所述其他词。
22.一种相关查询装置,其特征在于,包括:
获取单元,用于获取用户输入的查询关键词;
匹配单元,用于根据所述查询关键词,获得与所述查询关键词匹配的主词;
推荐单元,用于根据所述主词,利用权利要求14~21任一权利要求所述的装置所获得的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项;
展现单元,用于向所述用户展现所述查询相关词。
23.根据权利要求22所述的装置,其特征在于,所述展现单元,具体用于
根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词。
24.一种相关查询装置,其特征在于,包括:
获取单元,用于获取用户输入的查询关键词;
匹配单元,用于根据所述查询关键词,获得与所述查询关键词匹配的主词;
推荐单元,用于根据所述主词,利用主词与查询推荐词的对应关系,获得查询相关词,所述查询相关词包括与所述主词对应的查询推荐词,以及与所述主词对应的查询推荐词所对应的其他主词中的至少一项;其中,所述对应关系中的主词为该主词对应的查询推荐词进行分词处理所获得的分词结果生成;
展现单元,用于向所述用户展现所述查询相关词。
25.根据权利要求24所述的装置,其特征在于,所述向所述用户展现所述查询相关词,包括:
根据所述查询推荐词中除了P个主词中每个主词之外的其他词的位置标识,高亮展现所述其他词或隐藏所述每个主词。
26.根据权利要求24或25所述的装置,其特征在于,所述推荐单元,还用于
利用权利要求14~21任一权利要求所述的装置,获得所述对应关系。
CN201410389467.XA 2014-08-08 2014-08-08 查询推荐词的挖掘、相关查询方法及装置 Active CN105447004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410389467.XA CN105447004B (zh) 2014-08-08 2014-08-08 查询推荐词的挖掘、相关查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410389467.XA CN105447004B (zh) 2014-08-08 2014-08-08 查询推荐词的挖掘、相关查询方法及装置

Publications (2)

Publication Number Publication Date
CN105447004A true CN105447004A (zh) 2016-03-30
CN105447004B CN105447004B (zh) 2019-12-03

Family

ID=55557200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410389467.XA Active CN105447004B (zh) 2014-08-08 2014-08-08 查询推荐词的挖掘、相关查询方法及装置

Country Status (1)

Country Link
CN (1) CN105447004B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503231A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN107798144A (zh) * 2017-11-28 2018-03-13 北京小度互娱科技有限公司 一种基于切词的多层次检索方法
CN108984656A (zh) * 2018-06-28 2018-12-11 北京春雨天下软件有限公司 医学标签推荐方法及装置
CN110245343A (zh) * 2018-03-07 2019-09-17 优酷网络技术(北京)有限公司 弹幕分析方法及装置
CN110889285A (zh) * 2018-08-16 2020-03-17 阿里巴巴集团控股有限公司 确定核心词的方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880614A (zh) * 2011-07-15 2013-01-16 阿里巴巴集团控股有限公司 数据搜索方法及设备
US20140012841A1 (en) * 2012-07-09 2014-01-09 ZenDesk, Inc. Weight-based stemming for improving search quality
CN103970748A (zh) * 2013-01-25 2014-08-06 腾讯科技(深圳)有限公司 一种相关关键词推荐方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880614A (zh) * 2011-07-15 2013-01-16 阿里巴巴集团控股有限公司 数据搜索方法及设备
US20140012841A1 (en) * 2012-07-09 2014-01-09 ZenDesk, Inc. Weight-based stemming for improving search quality
CN103970748A (zh) * 2013-01-25 2014-08-06 腾讯科技(深圳)有限公司 一种相关关键词推荐方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503231A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN106503231B (zh) * 2016-10-31 2020-02-04 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN107798144A (zh) * 2017-11-28 2018-03-13 北京小度互娱科技有限公司 一种基于切词的多层次检索方法
CN110245343A (zh) * 2018-03-07 2019-09-17 优酷网络技术(北京)有限公司 弹幕分析方法及装置
CN108984656A (zh) * 2018-06-28 2018-12-11 北京春雨天下软件有限公司 医学标签推荐方法及装置
CN110889285A (zh) * 2018-08-16 2020-03-17 阿里巴巴集团控股有限公司 确定核心词的方法、装置、设备和介质
CN110889285B (zh) * 2018-08-16 2023-06-16 阿里巴巴集团控股有限公司 确定核心词的方法、装置、设备和介质

Also Published As

Publication number Publication date
CN105447004B (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN102063469B (zh) 一种用于获取相关关键词信息的方法、装置和计算机设备
JP5092165B2 (ja) データ構築方法とシステム
CN104750789A (zh) 标签的推荐方法及装置
CN104899322A (zh) 搜索引擎及其实现方法
CN105447004A (zh) 查询推荐词的挖掘、相关查询方法及装置
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN104615608A (zh) 一种数据挖掘处理系统及方法
CN102682001A (zh) 一种确定推荐词的方法及设备
CN110222194B (zh) 基于自然语言处理的数据图表生成方法和相关装置
CN104077415A (zh) 搜索方法及装置
CN112148843B (zh) 文本处理方法、装置、终端设备和存储介质
CN103678304A (zh) 为预定网页推送特定内容的方法、装置
CN104142990A (zh) 搜索方法及装置
CN106294618A (zh) 搜索方法及装置
CN103870553A (zh) 一种输入资源推送方法及系统
CN104933171A (zh) 兴趣点数据关联方法和装置
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN108170799A (zh) 一种海量数据的频繁序列挖掘方法
CN104679731A (zh) 提取页面中关键词的方法及装置
CN104881446A (zh) 搜索方法及装置
CN110096646A (zh) 品类关联信息的生成及其视频推送方法和相关设备
CN104252487A (zh) 一种用于生成词条信息的方法和装置
CN103942232A (zh) 用于挖掘意图的方法和设备
CN103942204B (zh) 用于挖掘意图的方法和设备
CN115641009B (zh) 基于专利异构信息网络挖掘竞争者的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20161221

Address after: 100193 room 303-305, building, East District, No. 10, Wang Dong Road, Beijing, Haidian District

Applicant after: Beijing small mutual Entertainment Technology Co., Ltd.

Address before: 100085 Beijing, Haidian District, No. ten on the street Baidu building, No. 10

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant