CN104102727B - 查询词的推荐方法及装置 - Google Patents

查询词的推荐方法及装置 Download PDF

Info

Publication number
CN104102727B
CN104102727B CN201410352570.7A CN201410352570A CN104102727B CN 104102727 B CN104102727 B CN 104102727B CN 201410352570 A CN201410352570 A CN 201410352570A CN 104102727 B CN104102727 B CN 104102727B
Authority
CN
China
Prior art keywords
query
candidate
user
term
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410352570.7A
Other languages
English (en)
Other versions
CN104102727A (zh
Inventor
杜俊武
张智敏
王京傲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410352570.7A priority Critical patent/CN104102727B/zh
Publication of CN104102727A publication Critical patent/CN104102727A/zh
Application granted granted Critical
Publication of CN104102727B publication Critical patent/CN104102727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种查询词的推荐方法及装置。本发明实施例通过获得当前将要发起的本次查询的查询参数,所述查询参数包括用户输入的输入查询词、用户标识信息和上一次查询的目标查询词中的至少一项参数,进而根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,所述M为大于或等于2的整数,使得能够根据所述主题分布,获得所述本次查询的推荐查询词,能够避免现有技术中由于用户通过应用反复进行查询而导致的增加应用与查询引擎之间的数据交互的问题,从而降低了查询引擎的处理负担。

Description

查询词的推荐方法及装置
【技术领域】
本发明涉及查询技术,尤其涉及一种查询词的推荐方法及装置。
【背景技术】
随着网络信息技术的发展和普及,互联网逐渐渗透到人们的生活、学习和工作的各个领域,由此将人类真正带入信息时代。然而,互联网上的信息量很大,用户不容易找到自己需要的对象。为了提高处理即查询的精度,现有的一种做法是,用户在查询引擎对应本地的应用中的查询框中,输入一个输入查询词,由应用实时将输入查询词发送给查询引擎。查询引擎根据输入查询词,向应用返回由所述输入查询词与该输入查询词相关的附加查询词组成的推荐查询词,由用户选择是否利用推荐查询词,进行查询。
然而,现有的查询词的推荐方法,只是根据输入查询词,向用户展现输入查询词相关的附加查询词,而没有结合本次查询的主题,向用户展现主题相关的推荐查询词,可能会使得查询结果无法满足用户真正的查询意图,使得用户需要通过应用反复进行查询,这样,会增加应用与查询引擎之间的数据交互,从而导致了查询引擎的处理负担的增加。
【发明内容】
本发明的多个方面提供一种查询词的推荐方法及装置,用以降低查询引擎的处理负担。
本发明的一方面,提供一种查询词的推荐方法,包括:
获得当前将要发起的本次查询的查询参数,所述查询参数包括用户输入的输入查询词、用户标识信息和上一次查询的目标查询词中的至少一项参数;
根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,所述M为大于或等于2的整数;
根据所述主题分布,获得所述本次查询的推荐查询词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,包括:
根据所述查询参数,获得在所述查询参数中每项参数的条件下,所述M个特定主题中每个特定主题出现的经验概率;
根据在所述查询参数中每项参数的条件下,所述每个特定主题出现的经验概率,获得所述主题分布。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述主题分布,获得所述本次查询的推荐查询词,包括:
根据所述查询参数,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,N个候选查询词中每个候选查询词出现的第一概率,所述N为大于或等于2的整数;
根据所述主题分布和所述每个候选查询词出现的第一概率,获得在所述查询参数的条件下,所述每个候选查询词出现的第二概率;
根据所述每个候选查询词出现的第二概率,选择O个候选查询词,以作为推荐查询词,所述O为大于或等于1,且小于或等于N的整数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述查询参数,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,N个候选查询词中每个候选查询词出现的第一概率,包括:
根据所述输入查询词,获得在所述输入查询词和所述M个特定主题中每个特定主题的条件下,所述每个候选查询词出现的经验概率,根据该经验概率,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,所述每个候选查询词出现的第一概率。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述每个候选查询词出现的第二概率,选择O个候选查询词,以作为推荐查询词,包括:
根据所述每个候选查询词出现的第二概率,按照从大到小的顺序,对所述N个候选查询词进行排序,以获得第一排序结果;
根据所述第一排序结果,选择前O个候选查询词,以作为所述推荐查询词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述第一排序结果,选择前O个候选查询词,以作为所述推荐查询词,包括:
根据全部用户的用户历史查询数据,获得所述每个候选查询词的第一位置调整参数和所述每个候选查询词的第二位置调整参数中的至少一项;
根据所述第一位置调整参数和所述第二位置调整参数中的至少一项,对所述第一排序结果进行调整,以获得第二排序结果;
根据所述第二排序结果,选择前O个候选查询词,以作为所述推荐查询词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据全部用户的用户历史查询数据,获得所述每个候选查询词的第一位置调整参数和所述每个候选查询词的第二位置调整参数中的至少一项,包括:
根据全部用户的用户历史查询数据,利用如下公式,获得所述第一位置调整参数,所述第一位置调整参数包括所述每个候选查询词的第一出现位置和所述每个候选查询词的第一调整位置;
其中,
query表示候选查询词;
user表示所述用户标识信息;
BasePosition1(query,user)表示候选查询词的第一出现位置;
IncrementPosition1表示候选查询词的第一调整位置,单位为个;Q1为大于或等于0的整数;
其中,
QueryScore(query,user)表示候选查询词的总得分;具体地,
计算QueryScore(query,user)时,采用query在该user下面的个性化得分及query在全部用户下面的通用得分;
计算query在该user下面的个性化得分时,采用query在该user下面N天内的查询总频率及query在N天内查询频率在天级时间上的分布,query在天级时间上重复性越强,得分越高;
计算query在全部用户下面的通用得分时,采用query在N天内的总查询频率;
计算N天内的查询总频率及在单天内的查询频率时,采用时间加权,距离当前时间越近的时间内的查询频率权重越高。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据全部用户的用户历史查询数据,获得所述每个候选查询词的第一位置调整参数和所述每个候选查询词的第二位置调整参数中的至少一项,包括:
根据全部用户的用户历史查询数据,利用如下公式,获得所述每个候选查询词的第二位置调整参数,所述第二位置调整参数包括所述每个候选查询词的第二出现位置和所述每个候选查询词的第二调整位置;
其中,
query表示候选查询词;
pre_query表示所述目标查询词;
BasePosition2(query,pre_query)表示候选查询词的第二出现位置;
IncrementPosition2表示候选查询词的第二调整位置,单位为个;Q2为大于或等于0的整数;
其中,
Pnew(query|pre_query)表示用户历史查询数据中候选查询词出现在所述目标查询词后面的概率得分,其为大于或等于0,且小于或等于1的数1;具体地,
计算Pnew(query|pre_query)时,采用目标查询词到候选查询词及候选查询词到目标查询词的双向条件概率,双向条件概率均以其经验分布代替;
计算条件概率的经验分布时,采用时间加权,距离当前时间越近的时间内的查询频率权重越高。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述查询参数,获得所述本次查询的主题分布之前,还包括:
根据全部用户的用户历史查询数据,获得历史查询词和所述历史查询词的主题分布;
根据所述历史查询词,获得包含所述历史查询词的用户历史数据;
将所述历史查询词的主题分布,整合到所述包含所述历史查询词的用户历史数据中,以获得整合用户历史数据;
根据所述整合用户历史数据,进行经验统计操作,以获得如下概率中的至少一项:
在所述输入查询词的条件下,所述每个特定主题出现的经验概率;
在所述用户标识信息的条件下,所述每个特定主题出现的经验概率;
在所述目标查询词的条件下,所述每个特定主题出现的经验概率;以及
在所述输入查询词和所述每个特定主题的条件下,所述每个候选查询词出现的经验概率。
本发明的另一方面,提供一种查询词的推荐装置,包括:
获得单元,用于获得当前将要发起的本次查询的查询参数,所述查询参数包括用户输入的输入查询词、用户标识信息和上一次查询的目标查询词中的至少一项参数;
处理单元,用于根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,所述M为大于或等于2的整数;
推荐单元,用于根据所述主题分布,获得所述本次查询的推荐查询词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理单元,具体用于
根据所述查询参数,获得在所述查询参数中每项参数的条件下,所述M个特定主题中每个特定主题出现的经验概率;以及
根据在所述查询参数中每项参数的条件下,所述每个特定主题出现的经验概率,获得所述主题分布。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述推荐单元,具体用于
根据所述查询参数,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,N个候选查询词中每个候选查询词出现的第一概率,所述N为大于或等于2的整数;
根据所述主题分布和所述每个候选查询词出现的第一概率,获得在所述查询参数的条件下,所述每个候选查询词出现的第二概率;以及
根据所述每个候选查询词出现的第二概率,选择O个候选查询词,以作为推荐查询词,所述O为大于或等于1,且小于或等于N的整数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述推荐单元,具体用于
根据所述输入查询词,获得在所述输入查询词和所述M个特定主题中每个特定主题的条件下,所述每个候选查询词出现的经验概率,根据该经验概率,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,所述每个候选查询词出现的第一概率。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述推荐单元,具体用于
根据所述每个候选查询词出现的第二概率,按照从大到小的顺序,对所述N个候选查询词进行排序,以获得第一排序结果;以及
根据所述第一排序结果,选择前O个候选查询词,以作为所述推荐查询词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述推荐单元,具体用于
根据全部用户的用户历史查询数据,获得所述每个候选查询词的第一位置调整参数和所述每个候选查询词的第二位置调整参数中的至少一项;
根据所述第一位置调整参数和所述第二位置调整参数中的至少一项,对所述第一排序结果进行调整,以获得第二排序结果;以及
根据所述第二排序结果,选择前O个候选查询词,以作为所述推荐查询词。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述推荐单元,具体用于
根据全部用户的用户历史查询数据,利用如下公式,获得所述第一位置调整参数,所述第一位置调整参数包括所述每个候选查询词的第一出现位置和所述每个候选查询词的第一调整位置;
其中,
query表示候选查询词;
user表示所述用户标识信息;
BasePosition1(query,user)表示候选查询词的第一出现位置;
IncrementPosition1表示候选查询词的第一调整位置,单位为个;Q1为大于或等于0的整数;
其中,
QueryScore(query,user)表示候选查询词的总得分;具体地,
计算QueryScore(query,user)时,采用query在该user下面的个性化得分及query在全部用户下面的通用得分;
计算query在该user下面的个性化得分时,采用query在该user下面N天内的查询总频率及query在N天内查询频率在天级时间上的分布,query在天级时间上重复性越强,得分越高;
计算query在全部用户下面的通用得分时,采用query在N天内的总查询频率;
计算N天内的查询总频率及在单天内的查询频率时,采用时间加权,距离当前时间越近的时间内的查询频率权重越高。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述推荐单元,具体用于
根据全部用户的用户历史查询数据,利用如下公式,获得所述每个候选查询词的第二位置调整参数,所述第二位置调整参数包括所述每个候选查询词的第二出现位置和所述每个候选查询词的第二调整位置;
其中,
query表示候选查询词;
pre_query表示所述目标查询词;
BasePosition2(query,pre_query)表示候选查询词的第二出现位置;
IncrementPosition2表示候选查询词的第二调整位置,单位为个;Q2为大于或等于0的整数;
其中,
Pnew(query|pre_query)表示用户历史查询数据中候选查询词出现在所述目标查询词后面的概率得分,其为大于或等于0,且小于或等于1的数1;具体地,
计算Pnew(query|pre_query)时,采用目标查询词到候选查询词及候选查询词到目标查询词的双向条件概率,双向条件概率均以其经验分布代替;
计算条件概率的经验分布时,采用时间加权,距离当前时间越近的时间内的查询频率权重越高。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括挖掘单元,用于
根据全部用户的用户历史查询数据,获得历史查询词和所述历史查询词的主题分布;
根据所述历史查询词,获得包含所述历史查询词的用户历史数据;
将所述历史查询词的主题分布,整合到所述包含所述历史查询词的用户历史数据中,以获得整合用户历史数据;以及
根据所述整合用户历史数据,进行经验统计操作,以获得如下概率中的至少一项:
在所述输入查询词的条件下,所述每个特定主题出现的经验概率;
在所述用户标识信息的条件下,所述每个特定主题出现的经验概率;
在所述目标查询词的条件下,所述每个特定主题出现的经验概率;以及
在所述输入查询词和所述每个特定主题的条件下,所述每个候选查询词出现的经验概率。
由上述技术方案可知,本发明实施例通过获得当前将要发起的本次查询的查询参数,所述查询参数包括用户输入的输入查询词、用户标识信息和上一次查询的目标查询词中的至少一项参数,进而根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,所述M为大于或等于2的整数,使得能够根据所述主题分布,获得所述本次查询的推荐查询词,能够避免现有技术中由于用户通过应用反复进行查询而导致的增加应用与查询引擎之间的数据交互的问题,从而降低了查询引擎的处理负担。
另外,采用本发明提供的技术方案,由于利用特定主题对查询参数进行合理降维,使得获取推荐查询词的复杂度降低,能够有效提高推荐查询词获取的效率。
另外,采用本发明提供的技术方案,由于考虑了本次查询的主题分布,使得从语义层面更为准确地表达用户的查询意图,以满足用户真正的查询意图,能够有效提高查询的有效性。
另外,采用本发明提供的技术方案,能够满足用户真正的查询意图,能够有效提高查询的精确性。
另外,采用本发明提供的技术方案,能够满足用户真正的查询意图,能够有效提高查询的效率。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的查询词的推荐方法的流程示意图;
图2为本发明另一实施例提供的查询词的推荐装置的结构示意图;
图3为本发明另一实施例提供的查询词的推荐装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对像是一种“或”的关系。
图1为本发明一实施例提供的查询词的推荐方法的流程示意图,如图1所示。
101、获得当前将要发起的本次查询的查询参数,所述查询参数包括用户输入的输入查询词、用户标识信息和上一次查询的目标查询词中的至少一项参数。
102、根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,所述M为大于或等于2的整数。
103、根据所述主题分布,获得所述本次查询的推荐查询词。
需要说明的是,101~103的执行主体,可以是位于网络侧的服务器中的查询引擎,也可以是位于本地终端中的应用,或者还可以是位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的应用程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
这样,通过获得当前将要发起的本次查询的查询参数,所述查询参数包括用户输入的输入查询词、用户标识信息和上一次查询的目标查询词中的至少一项参数,进而根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,所述M为大于或等于2的整数,使得能够根据所述主题分布,获得所述本次查询的推荐查询词,能够避免现有技术中由于用户通过应用反复进行查询而导致的增加应用与查询引擎之间的数据交互的问题,从而降低了查询引擎的处理负担。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以实时获取用户在查询框中输入的所述输入查询词。
可选地,在本实施例的一个可能的实现方式中,在101中,所获得的所述用户标识信息可以包括但不限于Cookie标识(CookieID)、网站为用户分配的用户身份标识(IDentity,ID)或终端的IP地址,本实施例对此不进行特别限定。
网站具体可以采用现有技术中的方法,获取客户端的Cookie信息。例如,在网站的页面上埋点(即放上一个1x1的不可见像素),在客户端第一次访问该网页时,就会获得网站为客户端分配一个唯一的CookieID,以在客户端上创建一个Cookie对象,以供将用户的用户历史查询数据存储在用户本地的终端上,形成Cookie信息。这样,客户端则可以在指定时机将Cookie信息发送给网站,例如,可以在客户端下次请求同一网站时,向网站发送该Cookie信息等。
具体地,Cookie信息可以包括但不限于CookieID、用户标识、用户历史查询数据,本实施例对此不进行特别限定。其中,所述用户标识可以包括但不限于网站为用户分配的用户身份标识(IDentity,ID)或终端的IP地址,本实施例对此不进行特别限定。
具体地,在全网的数据源中,用户的一个用户历史查询数据为如下格式:[uid URLsource query title date time ip actid actname actattr unifyUrl PtNumbercommonQuery]。其中,共包括14个字段,各字段的含义如下所述:
用户标识(User ID,uid):baiduid映射出来的用户id,由若干数字组成;
统一资源定位符(Uniform Resource Locator,URL):可能为空,或可能不以“http”开头;
数据源(source):产品线的数据来源,例如,百度百科(baike)、百度论坛(forum)或百度地图(map);
目标查询词(query):可能为空;
题目(title):网页名称;
日期(date):例如,2013年6月3日,其格式一般可以为“20120603”。
时间(time):例如,12点34分02秒,其格式一般可以为12:34:02。
ip:IP地址
动作标识(actid):网页动作的标识;
动作名称(actname):网页动作的名称;
动作属性(actattr):网页动作的属性;
归一化URL(unifyUrl):URL的归一化结果;
URL资源类型(PtNumber):整数显示,默认‘‐’(即‘0’);
通用Query(commonQuery):URL最常用的Query。
现有技术中,可以对用户历史查询数据进行划分,以获得若干个会话(Session)段。其中,Session段是一个逻辑意义,它代表一个用户在某段时间内的一个行为意图,从用户的浏览行为来看,Session段具体可以规约成在语义上具有相同关联的连续查询行为。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以对当前网页的统一资源定位符(Uniform Resource Locator,URL)中的Referrer参数进行解析,以获得上一次查询的目标查询词。
本实施例中,候选查询词的产生方法,是与执行主体相关的。
例如,若执行主体为网络侧的服务器中的查询引擎或本地终端中的应用,所述执行主体则可以根据所获得的所述输入查询词,进行匹配,以获得与所述输入查询词匹配的N个候选查询词,所述N为大于或等于2的整数。
或者,再例如,若执行主体为网络侧的分布式系统,那么,则可以先由查询引擎根据所述输入查询词,进行匹配,以获得与所述输入查询词匹配的N个候选查询词,所述N为大于或等于2的整数,进而将N个候选查询词发送给所述执行主体。
本实施例中,具体可以利用产生式概率模型,可以将在本次查询的查询参数的条件下,N个候选查询词中每个候选查询词出现的概率即后面所述的第二概率P(query|prefix,user,pre_query)展开表示为如下形式:
P(query|prefix,user,pre_query)=
tP(query,t|prefix,user,pre_query)=
tP(query|t,prefix,user,pre_query)P(t|prefix,user,pre_query);
其中,
prefix表示所述输入查询词;
user表示所述用户标识信息;
pre_query表示所述目标查询词;
t表示特定主题即M个特定主题中任意一个特定主题;
query表示候选查询词即N个候选查询词中任意一个候选查询词;
P(query|t,prefix,user,pre_query)表示在所述查询参数和特定主题的条件下,候选查询词出现的概率即后面所述的第一概率;
P(t|prefix,user,pre_query)表示所述本次查询的主题分布。
可以理解的是,本发明中,都可以采用如下方式进行表述,即t表示特定主题即M个特定主题中任意一个特定主题,query表示候选查询词即N个候选查询词中任意一个候选查询词。
这样,由于利用特定主题对查询参数进行合理降维,使得获取推荐查询词的复杂度降低,能够有效提高推荐查询词获取的效率。
基于大数据的统计,进一步通过使用经验分布来代替真实分布对P(t|prefix,user,pre_query)进行简化,因此,可选地,在本实施例的一个可能的实现方式中,在102中,具体可以根据所述查询参数,获得在所述查询参数中每项参数的条件下,所述M个特定主题中每个特定主题出现的经验概率。然后,则可以根据在所述查询参数中每项参数的条件下,所述每个特定主题出现的经验概率,获得所述主题分布。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据所述查询参数,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,N个候选查询词中每个候选查询词出现的第一概率,所述N为大于或等于2的整数。进而,则可以根据所述主题分布和所述每个候选查询词出现的第一概率,获得在所述查询参数的条件下,所述每个候选查询词出现的第二概率。然后,则可以根据所述每个候选查询词出现的第二概率,选择O个候选查询词,以作为推荐查询词,所述O为大于或等于1,且小于或等于N的整数。
基于大数据的统计,进一步通过使用经验分布来代替真实分布对P(query|t,prefix,user,pre_query)进行简化,具体地,具体可以根据所述输入查询词,获得在所述输入查询词和所述M个特定主题中每个特定主题的条件下,所述每个候选查询词出现的经验概率,根据该经验概率,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,所述每个候选查询词出现的第一概率。
具体地,具体可以根据所述每个候选查询词出现的第二概率,按照从大到小的顺序,对所述N个候选查询词进行排序,以获得第一排序结果。然后,则可以根据所述第一排序结果,选择前O个候选查询词,以作为所述推荐查询词。
更具体地,具体可以根据全部用户的用户历史查询数据,获得所述每个候选查询词的第一位置调整参数和所述每个候选查询词的第二位置调整参数中的至少一项。进而,根据所述第一位置调整参数和所述第二位置调整参数中的至少一项,对所述第一排序结果进行调整,以获得第二排序结果,则可以根据所述第二排序结果,选择前O个候选查询词,以作为所述推荐查询词。
例如,第一位置调整参数的算法可以表示为如下形式:
UserIndivduation(prefix,UserData)={<query,BasePosition,IncrementPosition>};
其中,算法的输入参数为所述输入查询词记为prefix,以及全部用户的用户历史查询数据,算法的输出参数为<query,BasePosition1,IncrementPosition1>三元组的集合。
具体地,可以根据全部用户的历史查询数据,利用如下公式,获得所述第一位置调整参数,所述第一位置调整参数包括所述每个候选查询词的第一出现位置和所述每个候选查询词的第一调整位置;其中,所述第一调整位置用于指示将所述第一出现位置与所述第一排序结果中的基准位置中位置靠前的一个位置,向前移动第一调整位置。
其中,
query表示候选查询词;
user表示所述用户标识信息;
BasePosition1(query,user)表示候选查询词的第一出现位置;
IncrementPosition1表示候选查询词的第一调整位置,单位为个;Q1为大于或等于0的整数;
其中,
QueryScore(query,user)表示候选查询词的总得分;具体地,
计算QueryScore(query,user)时,采用query在该user下面的个性化得分及query在全部用户下面的通用得分;
计算query在该user下面的个性化得分时,采用query在该user下面N天内的查询总频率及query在N天内查询频率在天级时间上的分布,query在天级时间上重复性越强,得分越高;
计算query在全部用户下面的通用得分时,采用query在N天内的总查询频率;
计算N天内的查询总频率及在单天内的查询频率时,采用时间加权,距离当前时间越近的时间内的查询频率权重越高。
或者,再例如,第一位置调整参数的算法可以表示为如下形式:
QueryCoOcc(prefix,QueryCoOccData)={<query,BasePosition2,IncrementPosition2>}
其中,算法的输入参数为所述输入查询词记为prefix,以及全部用户的用户历史查询数据即候选查询词的共现数据,算法的输出参数为<query,BasePosition2,IncrementPosition2>三元组的集合。
具体地,可以根据全部用户的历史查询数据,利用如下公式,获得所述每个候选查询词的第二位置调整参数,所述第二位置调整参数包括所述每个候选查询词的第二出现位置和所述每个候选查询词的第二调整位置;其中,所述第二调整位置用于指示将所述第二出现位置与所述第一排序结果中的基准位置中位置靠前的一个位置,向前移动第二调整位置。
其中,
query表示候选查询词;
pre_query表示所述目标查询词;
BasePosition2(query,pre_query)表示候选查询词的第二出现位置;
IncrementPosition2表示候选查询词的第二调整位置,单位为个;Q2为大于或等于0的整数;
其中,
Pnew(query|pre_query)表示用户历史查询数据中候选查询词出现在所述目标查询词后面的概率得分,其为大于或等于0,且小于或等于1的数1;具体地,
计算Pnew(query|pre_query)时,采用目标查询词到候选查询词及候选查询词到目标查询词的双向条件概率,双向条件概率均以其经验分布代替;
计算条件概率的经验分布时,采用时间加权,距离当前时间越近的时间内的查询频率权重越高。
可选地,在本实施例的一个可能的实现方式中,在102之前,还可以进一步根据全部用户的用户历史查询数据,获得历史查询词和所述历史查询词的主题分布。然后,则可以根据所述历史查询词,获得包含所述历史查询词的用户历史数据,进而将所述历史查询词的主题分布,整合到所述包含所述历史查询词的用户历史数据中,以获得整合用户历史数据。最后,则可以根据所述整合用户历史数据,进行经验统计操作,以获得如下概率中的至少一项:
在所述输入查询词的条件下,所述每个特定主题出现的经验概率;
在所述用户标识信息的条件下,所述每个特定主题出现的经验概率;
在所述目标查询词的条件下,所述每个特定主题出现的经验概率;以及
在所述输入查询词和所述每个特定主题的条件下,所述每个候选查询词出现的经验概率。
这样,数据统计完成之后,则可以将这些统计结果进行处理,以生成可序列化加载至内存的二进制字典数据,就可以直接被线上服务例如,用户发起的查询等,加载使用了。
具体地,可以利用监督方法,生成关于M个特定主题的分类器。例如,具体可以确定特定主题的数量和每个特定主题的定义,收集训练数据,利用训练数据,训练关于M个特定主题的查询词分类器,以获得M个特定主题。这种方法,精度高,但召回率低。
具体地,可以利用非监督方法,建立关于M个特定主题的主题模型。例如,具体可以将历史查询词和所述历史查询词所对应的查询结果中的题目组合成一个片段,对该片段进行分词处理,以生成训练数据。利用训练数据,训练主题模型(Topic Model)。然后,对主题模型进行优化操作,例如,基于语义的删除操作、基于语义的去重操作等,以获得关于M个特定主题的主题模型。这种方法,精度稍低,但召回率高。
可以理解的是,具体还可以对利用监督方法所生成的关于M个特定主题的分类器,以及利用非监督方法所建立关于M个特定主题的主题模型,进行整合处理,以获得一个更加可靠的生成关于M个特定主题的模型。
具体地,可以采用利用监督方法所生成的关于M个特定主题的分类器,生成历史查询词的主题分布。例如,采集全部用户的用户历史查询数据中的历史查询词,进而利用该分类器,生成历史查询词的主题分布。
具体地,可以采用利用非监督方法所建立关于M个特定主题的主题模型,生成历史查询词的主题分布。例如,采集全部用户的用户历史查询数据中的历史查询词,以及该历史查询词所对应的查询结果中的题目,将历史查询词和该历史查询词所对应的查询结果中的题目组合成一个片段,对该片段进行分词处理,以生成分词结果,进而利用该主题模型,生成历史查询词的主题分布。
可以理解的是,具体还可以对上述两种方法所生成的历史查询词的主题分布进行整合,以获得更加可靠的历史查询词的主题分布。
本发明实现后,使查询推荐(Suggestion)服务的点击展示比(Click_Throught_Rate,CTR)绝对提升约2.5%,相对提升约6%。用户点击位置和用户平均输入长度也有明显的降低,明显的提高了查询词推荐的用户体验。
本实施例中,通过获得当前将要发起的本次查询的查询参数,所述查询参数包括用户输入的输入查询词、用户标识信息和上一次查询的目标查询词中的至少一项参数,进而根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,所述M为大于或等于2的整数,使得能够根据所述主题分布,获得所述本次查询的推荐查询词,能够避免现有技术中由于用户通过应用反复进行查询而导致的增加应用与查询引擎之间的数据交互的问题,从而降低了查询引擎的处理负担。
另外,采用本发明提供的技术方案,由于利用特定主题对查询参数进行合理降维,使得获取推荐查询词的复杂度降低,能够有效提高推荐查询词获取的效率。
另外,采用本发明提供的技术方案,由于采用了本次查询的主题分布,使得从语义层面更为准确地表达用户的查询意图,以满足用户真正的查询意图,能够有效提高查询的有效性。
另外,采用本发明提供的技术方案,能够满足用户真正的查询意图,能够有效提高查询的精确性。
另外,采用本发明提供的技术方案,能够满足用户真正的查询意图,能够有效提高查询的效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本发明另一实施例提供的查询词的推荐装置的结构示意图,如图3所示。本实施例的查询词的推荐装置可以包括获得单元21、处理单元22和推荐单元23。其中,获得单元21,用于获得当前将要发起的本次查询的查询参数,所述查询参数包括用户输入的输入查询词、用户标识信息和上一次查询的目标查询词中的至少一项参数;处理单元22,用于根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,所述M为大于或等于2的整数;推荐单元23,用于根据所述主题分布,获得所述本次查询的推荐查询词。
需要说明的是,本实施例所提供的查询词的推荐装置,可以是位于网络侧的服务器中的查询引擎,也可以是位于本地终端中的应用,或者还可以是位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的应用程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
可选地,在本实施例的一个可能的实现方式中,所述处理单元22,具体可以用于根据所述查询参数,获得在所述查询参数中每项参数的条件下,所述M个特定主题中每个特定主题出现的经验概率;以及根据在所述查询参数中每项参数的条件下,所述每个特定主题出现的经验概率,获得所述主题分布。
可选地,在本实施例的一个可能的实现方式中,所述推荐单元23,具体可以用于根据所述查询参数,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,N个候选查询词中每个候选查询词出现的第一概率,所述N为大于或等于2的整数;根据所述主题分布和所述每个候选查询词出现的第一概率,获得在所述查询参数的条件下,所述每个候选查询词出现的第二概率;以及根据所述每个候选查询词出现的第二概率,选择O个候选查询词,以作为推荐查询词,所述O为大于或等于1,且小于或等于N的整数。
具体地,所述推荐单元23,具体可以用于根据所述输入查询词,获得在所述输入查询词和所述M个特定主题中每个特定主题的条件下,所述每个候选查询词出现的经验概率,根据该经验概率,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,所述每个候选查询词出现的第一概率。
具体地,所述推荐单元23,具体可以用于根据所述每个候选查询词出现的第二概率,按照从大到小的顺序,对所述N个候选查询词进行排序,以获得第一排序结果;以及根据所述第一排序结果,选择前O个候选查询词,以作为所述推荐查询词。
具体地,所述推荐单元23,具体可以用于根据全部用户的用户历史查询数据,获得所述每个候选查询词的第一位置调整参数和所述每个候选查询词的第二位置调整参数中的至少一项;根据所述第一位置调整参数和所述第二位置调整参数中的至少一项,对所述第一排序结果进行调整,以获得第二排序结果;以及根据所述第二排序结果,选择前O个候选查询词,以作为所述推荐查询词。
例如,所述推荐单元23,具体可以用于根据全部用户的用户历史查询数据,利用如下公式,获得所述第一位置调整参数,所述第一位置调整参数包括所述每个候选查询词的第一出现位置和所述每个候选查询词的第一调整位置;
其中,
query表示候选查询词;
user表示所述用户标识信息;
BasePosition1(query,user)表示候选查询词的第一出现位置;
IncrementPosition1表示候选查询词的第一调整位置,单位为个;Q1为大于或等于0的整数;
其中,
QueryScore(query,user)表示候选查询词的总得分;具体地,
计算QueryScore(query,user)时,采用query在该user下面的个性化得分及query在全部用户下面的通用得分;
计算query在该user下面的个性化得分时,采用query在该user下面N天内的查询总频率及query在N天内查询频率在天级时间上的分布,query在天级时间上重复性越强,得分越高;
计算query在全部用户下面的通用得分时,采用query在N天内的总查询频率;
计算N天内的查询总频率及在单天内的查询频率时,采用时间加权,距离当前时间越近的时间内的查询频率权重越高。
其中,
query表示候选查询词;
pre_query表示所述目标查询词;
BasePosition2(query,pre_query)表示候选查询词的第二出现位置;
IncrementPosition2表示候选查询词的第二调整位置,单位为个;Q2为大于或等于0的整数;
其中,
Pnew(query|pre_query)表示用户历史查询数据中候选查询词出现在所述目标查询词后面的概率得分,其为大于或等于0,且小于或等于1的数1;具体地,
计算Pnew(query|pre_query)时,采用目标查询词到候选查询词及候选查询词到目标查询词的双向条件概率,双向条件概率均以其经验分布代替;
计算条件概率的经验分布时,采用时间加权,距离当前时间越近的时间内的查询频率权重越高。
可选地,在本实施例的一个可能的实现方式中,如图3所示,本实施例所提供的查询词的推荐装置还可以进一步包括挖掘单元31,用于根据全部用户的用户历史查询数据,获得历史查询词和所述历史查询词的主题分布;根据所述历史查询词,获得包含所述历史查询词的用户历史数据;将所述历史查询词的主题分布,整合到所述包含所述历史查询词的用户历史数据中,以获得整合用户历史数据;以及根据所述整合用户历史数据,进行经验统计操作,以获得如下概率中的至少一项:
在所述输入查询词的条件下,所述每个特定主题出现的经验概率;
在所述用户标识信息的条件下,所述每个特定主题出现的经验概率;
在所述目标查询词的条件下,所述每个特定主题出现的经验概率;以及
在所述输入查询词和所述每个特定主题的条件下,所述每个候选查询词出现的经验概率。
需要说明的是,图1对应的实施例中方法,可以由本实施例提供的查询词的推荐装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过获得单元获得当前将要发起的本次查询的查询参数,所述查询参数包括用户输入的输入查询词、用户标识信息和上一次查询的目标查询词中的至少一项参数,进而由处理单元根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,所述M为大于或等于2的整数,使得推荐单元能够根据所述主题分布,获得所述本次查询的推荐查询词,能够避免现有技术中由于用户通过应用反复进行查询而导致的增加应用与查询引擎之间的数据交互的问题,从而降低了查询引擎的处理负担。
另外,采用本发明提供的技术方案,由于利用特定主题对查询参数进行合理降维,使得获取推荐查询词的复杂度降低,能够有效提高推荐查询词获取的效率。
另外,采用本发明提供的技术方案,由于考虑了本次查询的主题分布,使得从语义层面更为准确地表达用户的查询意图,以满足用户真正的查询意图,能够有效提高查询的有效性。
另外,采用本发明提供的技术方案,能够满足用户真正的查询意图,能够有效提高查询的精确性。
另外,采用本发明提供的技术方案,能够满足用户真正的查询意图,能够有效提高查询的效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所展现或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元展现的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (16)

1.一种查询词的推荐方法,其特征在于,包括:
获得当前将要发起的本次查询的查询参数,所述查询参数包括用户输入的输入查询词、用户标识信息和上一次查询的目标查询词中的至少一项参数;
根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,所述M为大于或等于2的整数;
根据所述主题分布,获得所述本次查询的推荐查询词;
所述根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,包括:
根据所述查询参数,获得在所述查询参数中每项参数的条件下,所述M个特定主题中每个特定主题出现的经验概率;
根据在所述查询参数中每项参数的条件下,所述每个特定主题出现的经验概率,获得所述主题分布。
2.根据权利要求1所述的方法,其特征在于,所述根据所述主题分布,获得所述本次查询的推荐查询词,包括:
根据所述查询参数,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,N个候选查询词中每个候选查询词出现的第一概率,所述N为大于或等于2的整数;
根据所述主题分布和所述每个候选查询词出现的第一概率,获得在所述查询参数的条件下,所述每个候选查询词出现的第二概率;
根据所述每个候选查询词出现的第二概率,选择O个候选查询词,以作为推荐查询词,所述O为大于或等于1,且小于或等于N的整数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述查询参数,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,N个候选查询词中每个候选查询词出现的第一概率,包括:
根据所述输入查询词,获得在所述输入查询词和所述M个特定主题中每个特定主题的条件下,所述每个候选查询词出现的经验概率,根据该经验概率,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,所述每个候选查询词出现的第一概率。
4.根据权利要求2所述的方法,其特征在于,所述根据所述每个候选查询词出现的第二概率,选择O个候选查询词,以作为推荐查询词,包括:
根据所述每个候选查询词出现的第二概率,按照从大到小的顺序,对所述N个候选查询词进行排序,以获得第一排序结果;
根据所述第一排序结果,选择前O个候选查询词,以作为所述推荐查询词。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一排序结果,选择前O个候选查询词,以作为所述推荐查询词,包括:
根据全部用户的用户历史查询数据,获得所述每个候选查询词的第一位置调整参数和所述每个候选查询词的第二位置调整参数中的至少一项;
根据所述第一位置调整参数和所述第二位置调整参数中的至少一项,对所述第一排序结果进行调整,以获得第二排序结果;
根据所述第二排序结果,选择前O个候选查询词,以作为所述推荐查询词。
6.根据权利要求5所述的方法,其特征在于,所述根据全部用户的用户历史查询数据,获得所述每个候选查询词的第一位置调整参数和所述每个候选查询词的第二位置调整参数中的至少一项,包括:
根据全部用户的用户历史查询数据,利用如下公式,获得所述第一位置调整参数,所述第一位置调整参数包括所述每个候选查询词的第一出现位置和所述每个候选查询词的第一调整位置;
BasePosition 1 ( q u e r y , u s e r ) = ( 1 - Q u e r y S c o r e ( q u e r y , u s e r ) ) * 10 IncrementPosition 1 = Q 1 ;
其中,
query表示候选查询词;
user表示所述用户标识信息;
BasePosition1(query,user)表示候选查询词的第一出现位置;
IncrementPosition1表示候选查询词的第一调整位置,单位为个;Q1为大于或等于0的整数;
其中,
QueryScore(query,user)表示候选查询词的总得分;具体地,
计算QueryScore(query,user)时,采用query在该user下面的个性化得分及query在全部用户下面的通用得分;
计算query在该user下面的个性化得分时,采用query在该user下面N天内的查询总频率及query在N天内查询频率在天级时间上的分布,query在天级时间上重复性越强,得分越高;
计算query在全部用户下面的通用得分时,采用query在N天内的总查询频率;
计算N天内的查询总频率及在单天内的查询频率时,采用时间加权,距离当前时间越近的时间内的查询频率权重越高。
7.根据权利要求5所述的方法,其特征在于,所述根据全部用户的用户历史查询数据,获得所述每个候选查询词的第一位置调整参数和所述每个候选查询词的第二位置调整参数中的至少一项,包括:
根据全部用户的用户历史查询数据,利用如下公式,获得所述每个候选查询词的第二位置调整参数,所述第二位置调整参数包括所述每个候选查询词的第二出现位置和所述每个候选查询词的第二调整位置;
BasePosition 2 ( q u e r y , p r e _ q u e r y ) = ( 1 - P n e w ( q u e r y | p r e _ q u e r y ) ) * 10 IncrementPosition 2 = Q 2 ;
其中,
query表示候选查询词;
pre_query表示所述目标查询词;
BasePosition2(query,pre_query)表示候选查询词的第二出现位置;
IncrementPosition2表示候选查询词的第二调整位置,单位为个;Q2为大于或等于0的整数;
其中,
Pnew(query|pre_query)表示用户历史查询数据中候选查询词出现在所述目标查询词后面的概率得分,其为大于或等于0,且小于或等于1的数;具体地,
计算Pnew(query|pre_query)时,采用目标查询词到候选查询词及候选查询词到目标查询词的双向条件概率,双向条件概率均以其经验分布代替;
计算条件概率的经验分布时,采用时间加权,距离当前时间越近的时间内的查询频率权重越高。
8.根据权利要求1~7任一权利要求所述的方法,其特征在于,所述根据所述查询参数,获得所述本次查询的主题分布之前,还包括:
根据全部用户的用户历史查询数据,获得历史查询词和所述历史查询词的主题分布;
根据所述历史查询词,获得包含所述历史查询词的用户历史数据;
将所述历史查询词的主题分布,整合到所述包含所述历史查询词的用户历史数据中,以获得整合用户历史数据;
根据所述整合用户历史数据,进行经验统计操作,以获得如下概率中的至少一项:
在所述输入查询词的条件下,所述每个特定主题出现的经验概率;
在所述用户标识信息的条件下,所述每个特定主题出现的经验概率;
在所述目标查询词的条件下,所述每个特定主题出现的经验概率;以及
在所述输入查询词和所述每个特定主题的条件下,所述每个候选查询词出现的经验概率。
9.一种查询词的推荐装置,其特征在于,包括:
获得单元,用于获得当前将要发起的本次查询的查询参数,所述查询参数包括用户输入的输入查询词、用户标识信息和上一次查询的目标查询词中的至少一项参数;
处理单元,用于根据所述查询参数,获得所述本次查询的主题分布,所述主题分布包括M个特定主题的分布信息,所述M为大于或等于2的整数;
推荐单元,用于根据所述主题分布,获得所述本次查询的推荐查询词;
所述处理单元,具体用于
根据所述查询参数,获得在所述查询参数中每项参数的条件下,所述M个特定主题中每个特定主题出现的经验概率;以及
根据在所述查询参数中每项参数的条件下,所述每个特定主题出现的经验概率,获得所述主题分布。
10.根据权利要求9所述的装置,其特征在于,所述推荐单元,具体用于
根据所述查询参数,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,N个候选查询词中每个候选查询词出现的第一概率,所述N为大于或等于2的整数;
根据所述主题分布和所述每个候选查询词出现的第一概率,获得在所述查询参数的条件下,所述每个候选查询词出现的第二概率;以及
根据所述每个候选查询词出现的第二概率,选择O个候选查询词,以作为推荐查询词,所述O为大于或等于1,且小于或等于N的整数。
11.根据权利要求10所述的装置,其特征在于,所述推荐单元,具体用于
根据所述输入查询词,获得在所述输入查询词和所述M个特定主题中每个特定主题的条件下,所述每个候选查询词出现的经验概率,根据该经验概率,获得在所述查询参数和所述M个特定主题中每个特定主题的条件下,所述每个候选查询词出现的第一概率。
12.根据权利要求10所述的装置,其特征在于,所述推荐单元,具体用于
根据所述每个候选查询词出现的第二概率,按照从大到小的顺序,对所述N个候选查询词进行排序,以获得第一排序结果;以及
根据所述第一排序结果,选择前O个候选查询词,以作为所述推荐查询词。
13.根据权利要求12所述的装置,其特征在于,所述推荐单元,具体用于
根据全部用户的用户历史查询数据,获得所述每个候选查询词的第一位置调整参数和所述每个候选查询词的第二位置调整参数中的至少一项;
根据所述第一位置调整参数和所述第二位置调整参数中的至少一项,对所述第一排序结果进行调整,以获得第二排序结果;以及
根据所述第二排序结果,选择前O个候选查询词,以作为所述推荐查询词。
14.根据权利要求13所述的装置,其特征在于,所述推荐单元,具体用于
根据全部用户的用户历史查询数据,利用如下公式,获得所述第一位置调整参数,所述第一位置调整参数包括所述每个候选查询词的第一出现位置和所述每个候选查询词的第一调整位置;
BasePosition 1 ( q u e r y , u s e r ) = ( 1 - Q u e r y S c o r e ( q u e r y , u s e r ) ) * 10 IncrementPosition 1 = Q 1 ;
其中,
query表示候选查询词;
user表示所述用户标识信息;
BasePosition1(query,user)表示候选查询词的第一出现位置;
IncrementPosition1表示候选查询词的第一调整位置,单位为个;Q1为大于或等于0的整数;
其中,
QueryScore(query,user)表示候选查询词的总得分;具体地,
计算QueryScore(query,user)时,采用query在该user下面的个性化得分及query在全部用户下面的通用得分;
计算query在该user下面的个性化得分时,采用query在该user下面N天内的查询总频率及query在N天内查询频率在天级时间上的分布,query在天级时间上重复性越强,得分越高;
计算query在全部用户下面的通用得分时,采用query在N天内的总查询频率;
计算N天内的查询总频率及在单天内的查询频率时,采用时间加权,距离当前时间越近的时间内的查询频率权重越高。
15.根据权利要求13所述的装置,其特征在于,所述推荐单元,具体用于
根据全部用户的用户历史查询数据,利用如下公式,获得所述每个候选查询词的第二位置调整参数,所述第二位置调整参数包括所述每个候选查询词的第二出现位置和所述每个候选查询词的第二调整位置;
BasePosition 2 ( q u e r y , p r e _ q u e r y ) = ( 1 - P n e w ( q u e r y | p r e _ q u e r y ) ) * 10 IncrementPosition 2 = Q 2 ;
其中,
query表示候选查询词;
pre_query表示所述目标查询词;
BasePosition2(query,pre_query)表示候选查询词的第二出现位置;
IncrementPosition2表示候选查询词的第二调整位置,单位为个;Q2为大于或等于0的整数;
其中,
Pnew(query|pre_query)表示用户历史查询数据中候选查询词出现在所述目标查询词后面的概率得分,其为大于或等于0,且小于或等于1的数;具体地,
计算Pnew(query|pre_query)时,采用目标查询词到候选查询词及候选查询词到目标查询词的双向条件概率,双向条件概率均以其经验分布代替;
计算条件概率的经验分布时,采用时间加权,距离当前时间越近的时间内的查询频率权重越高。
16.根据权利要求9~15任一权利要求所述的装置,其特征在于,所述装置还包括挖掘单元,用于
根据全部用户的用户历史查询数据,获得历史查询词和所述历史查询词的主题分布;
根据所述历史查询词,获得包含所述历史查询词的用户历史数据;
将所述历史查询词的主题分布,整合到所述包含所述历史查询词的用户历史数据中,以获得整合用户历史数据;以及
根据所述整合用户历史数据,进行经验统计操作,以获得如下概率中的至少一项:
在所述输入查询词的条件下,所述每个特定主题出现的经验概率;
在所述用户标识信息的条件下,所述每个特定主题出现的经验概率;
在所述目标查询词的条件下,所述每个特定主题出现的经验概率;以及
在所述输入查询词和所述每个特定主题的条件下,所述每个候选查询词出现的经验概率。
CN201410352570.7A 2014-07-23 2014-07-23 查询词的推荐方法及装置 Active CN104102727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410352570.7A CN104102727B (zh) 2014-07-23 2014-07-23 查询词的推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410352570.7A CN104102727B (zh) 2014-07-23 2014-07-23 查询词的推荐方法及装置

Publications (2)

Publication Number Publication Date
CN104102727A CN104102727A (zh) 2014-10-15
CN104102727B true CN104102727B (zh) 2017-07-04

Family

ID=51670881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410352570.7A Active CN104102727B (zh) 2014-07-23 2014-07-23 查询词的推荐方法及装置

Country Status (1)

Country Link
CN (1) CN104102727B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408107B (zh) * 2014-11-21 2018-12-14 用友网络科技股份有限公司 多维表达式记录的装置和方法
CN105701108B (zh) * 2014-11-26 2019-03-01 阿里巴巴集团控股有限公司 一种信息推荐方法、装置及服务器
CN107423298B (zh) * 2016-05-24 2021-02-19 北京百度网讯科技有限公司 一种搜索方法和装置
CN109190027A (zh) * 2018-08-22 2019-01-11 玖富金科控股集团有限责任公司 多源推荐方法、终端、服务器、计算机设备、可读介质
CN110222265B (zh) * 2019-05-28 2022-02-08 深圳市轱辘车联数据技术有限公司 一种信息推送的方法、系统、用户终端及服务器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053977A (zh) * 2009-11-04 2011-05-11 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336298B2 (en) * 2011-06-16 2016-05-10 Microsoft Technology Licensing, Llc Dialog-enhanced contextual search query analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053977A (zh) * 2009-11-04 2011-05-11 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning Lexicon Models from Search Logs for Query Expansion;Jianfeng Gao et al;《Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning》;20121231;第666-676页 *
基于点击数据和搜索结果片断的命名实体挖掘;杜俊武;《中国优秀硕士学位论文全文数据库》;20120715(第7期);第I138-2641页 *

Also Published As

Publication number Publication date
CN104102727A (zh) 2014-10-15

Similar Documents

Publication Publication Date Title
US11288731B2 (en) Personalized car recommendations based on customer web traffic
US10049132B2 (en) Personalizing query rewrites for ad matching
US20220245141A1 (en) Interactive search experience using machine learning
US10061820B2 (en) Generating a user-specific ranking model on a user electronic device
CN105608477B (zh) 一种人物画像与职位匹配的方法及系统
US8458165B2 (en) System and method for applying ranking SVM in query relaxation
US11170005B2 (en) Online ranking of queries for sponsored search
CN112119388A (zh) 训练图像嵌入模型和文本嵌入模型
CN110637316B (zh) 用于预期对象识别的系统和方法
US12038970B2 (en) Training image and text embedding models
US20200045122A1 (en) Method and apparatus for pushing information
CN104102727B (zh) 查询词的推荐方法及装置
US20210125108A1 (en) Training a ranking model
US20160125028A1 (en) Systems and methods for query rewriting
US9251473B2 (en) Identifying salient items in documents
JP6569183B2 (ja) 情報処理装置、方法及びプログラム
US10339191B2 (en) Method of and a system for processing a search query
US10339469B2 (en) Self-adaptive display layout system
Jiang et al. Towards intelligent geospatial data discovery: a machine learning framework for search ranking
US11645584B2 (en) Method and system for providing personalized presearch for users of a data management system
JP7088795B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2017070672A1 (en) Methods and systems for targeted advertising
CN114564653A (zh) 信息推荐方法、装置、服务器及存储介质
US20240152987A1 (en) Data sharing among open browser tabs
WO2017070665A1 (en) Methods and systems for classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant