CN107193916B - 一种个性化多样化查询推荐方法及系统 - Google Patents

一种个性化多样化查询推荐方法及系统 Download PDF

Info

Publication number
CN107193916B
CN107193916B CN201710339494.XA CN201710339494A CN107193916B CN 107193916 B CN107193916 B CN 107193916B CN 201710339494 A CN201710339494 A CN 201710339494A CN 107193916 B CN107193916 B CN 107193916B
Authority
CN
China
Prior art keywords
query
diversified
recommendation
user
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710339494.XA
Other languages
English (en)
Other versions
CN107193916A (zh
Inventor
蔡飞
陈洪辉
陈皖玉
刘俊先
罗爱民
陈涛
舒振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710339494.XA priority Critical patent/CN107193916B/zh
Publication of CN107193916A publication Critical patent/CN107193916A/zh
Application granted granted Critical
Publication of CN107193916B publication Critical patent/CN107193916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种个性化多样化查询推荐方法,包括:构建多样化查询模型:通过将用户的查询上下文,采用查询之间的共现度和语义相似度,产生多样化的查询推荐列表;通过将用户的长期查询记录加入所述多样化查询模型中,结合贝叶斯准则,得到个性化多样化查询模型。本发明提供的个性化多样化查询推荐方法合了多样化和个性化的查询推荐任务,在基本的贪婪查询推荐多样化模型中加入用户的长期搜索行为,查询的主题通过对其点击文档的ODP分类来确定,个性化多样化查询模型比现有的模型效果要好,尤其是当采用点击的查询作为查询上下文比采用所有的查询效果要好。

Description

一种个性化多样化查询推荐方法及系统
技术领域
本发明涉及查询推荐技术领域,特别是指一种个性化多样化查询推荐方法及系统。
背景技术
查询推荐可帮助用户在输入查询后对其进行优化初始查询。以前的工作主要集中在基于相似性和基于上下文的查询推荐方法,也有模型专注于适应特定用户(个性化)或者多样化查询主题以便最大化用户满意的概率(多样化)。
查询推荐在帮助提高用户对查询结果的满意度上有重要的意义。现有相关的查询推荐的工作主要基于查询之间的相关性和相似度,但是这种方法对一些不确定主题的用户查询来说,效果不好。对于多样化来说,查询推荐旨在使推荐列表包含更多的查询主题;对于个性化来说,则是希望推荐的查询更能满足用户感兴趣中的某个主题。这两个概念直观上看起来是背道而驰的,现有技术中并没有将查询推荐的多样化和个性化这两个概念被同时应用到现有的查询推荐系统当中。
发明内容
有鉴于此,本发明的目的在于提出一种结合多样化和个性化并提高查询效果的个性化多样化查询推荐方法及系统。
基于上述目的本发明提供的一种个性化多样化查询推荐方法,包括:
构建多样化查询模型:通过将用户的查询上下文,采用查询之间的共现度和语义相似度,生成多样化的查询推荐列表;
通过将用户的长期查询记录加入多样化查询模型中,结合贝叶斯准则,得到个性化多样化查询模型,通过获取每个查询的点击文档URL的主题分布,然后根据每个查询和URL之间的点击信息,得到每个查询的主题分布,生成多样化个性化的查询推荐列表。
进一步的,所述构建多样化查询模型包括:
设定贪婪选择的规则:
Figure BDA0001294843180000021
其中,q*表示选择的满足条件的最优查询推荐,RI表示查询推荐的初始列表,RS表示已选的查询推荐列表,P(qc|q0,a,SC)表示查询在给定查询上下文SC,用户输入查询q0的条件下,查询推荐qc满足用户查询主题a的概率;P(qs|q0,a,SC),表示在列表RS中的查询在用户输入q0,查询上下文为SC的情况下,满足主题a的概率;
将P(qc|q0,a,SC)表示为三部分组成,包括:查询推荐qc和输入查询q0的共现次数,查询推荐qc和输入查询q0的语义相似度,查询推荐qc和查询上下文SC的相关度;即
Figure BDA0001294843180000022
其中,λ1表示控制权重的自由参数,取值在0~1之间;
查询推荐qc和输入查询q0的共现次数表示为:
Figure BDA0001294843180000023
其中,fq表示包含查询q的会话个数,
Figure BDA0001294843180000024
表示同时包含qc和q0的会话个数;
查询推荐qc和输入查询q0的语义相似度,通过计算向量之间的余弦值得到查询之间的语义相似度:
Figure BDA0001294843180000025
其中,W=|q0|·|qc|,|q|指查询中的单词数量;
查询推荐qc和查询上下文SC的相关度表示为P(qc|a,qt),表示查询推荐qc和在查询上下文中的qt在主题a上的距离:
Figure BDA0001294843180000026
其中,
Figure BDA0001294843180000031
表示距离因子,D(qt)表示在查询上下文SC中,qt和最后一个查询qT之间的间隔距离,M表示主题的个数,
Figure BDA0001294843180000032
表示查询qc主题i的相关度;
P(qs|q0,a,SC)表示为:
Figure BDA0001294843180000033
进一步的,所述构建个性化多样化查询模型包括:
通过引入用户长期的查询历史,将所述贪婪选择的规则修改为:
Figure BDA0001294843180000034
其中,u表示一个特定的用户;
根据贝叶斯准则可以得到P(qc|q0,a,SC,u):
Figure BDA0001294843180000035
进一步的,P(q0,a,SC,u|qc)←λ2P(q0,a,SC|qc)+(1-λ2)P(u,q0,SC|qc)
P(q0,a,SC,u|qc)表示多样化和个性化策略的结合,由折中系数λ2来控制各部分的权重;
根据贝叶斯定理,P(a,q0,SC|qc)和P(u,q0,SC|qc)表示为:
Figure BDA0001294843180000036
Figure BDA0001294843180000037
其中,P(qc|u,q0,SC),设定输入的查询q0条件下,u,q0,SC之间相互独立,即:
Figure BDA0001294843180000038
得出P(qc|u):
Figure BDA0001294843180000039
Q(u)表示在用户u查询记录中的查询,N表示用户u查询记录中的查询个数,S(qc,q)返回两个查询之间的语义相似度。
进一步的,所述构建个性化多样化查询模型还包括:
通过收集每个查询的点击文档,提取每个点击文档在ODP中的描述文字,输入LDA主题模型中进行训练,得到每个URL的主题分布;
根据每个查询和URL之间的点击信息,得到每个查询的主题分布。
进一步的,所述根据每个查询和URL之间的点击信息,得到每个查询的主题分布包括:
通过如下公式产生查询的主题分布,
Figure BDA0001294843180000041
其中,D(q)是用户在输入查询q以后点击的一系列文档,vd是文档d的向量表示,即查询主题在文档d上的分布,f(q,d)是用户在输入查询q以后点击文档d的次数;
当无法获取点击信息时根据下式找到待分配的有主题分布的查询qlabel
Figure BDA0001294843180000042
计算所有得到主题分布的查询与qunlabel的语义相似度,然后找到相似度最大的qlabel,将其主题分布赋给qunlabel
另一方面,本发明还提供一种个性化多样化查询推荐系统,包括:
构建多样化查询模型单元,用于将用户的查询上下文,包括查询和点击行为,采用查询之间的共现度和语义相似度,产生多样化的查询推荐列表;
构建个性化多样化查询模型单元,通过将用户的长期查询记录加入多样化查询模型中,结合贝叶斯准则,得到个性化多样化查询模型,通过获取每个查询的点击文档URL的主题分布,然后根据每个查询和URL之间的点击信息,得到每个查询的主题分布。
所述构建个性化多样化查询模型单元,进一步用于:
设定贪婪选择的规则:
Figure BDA0001294843180000043
其中,,q*表示选择的满足条件的最优查询推荐,RI表示查询推荐的初始列表,Rs表示已选的查询推荐列表,P(qc|q0,a,SC)表示查询在给定查询上下文SC,用户输入查询q0的条件下,查询推荐qc满足用户查询主题a的概率;P(qs|q0,a,SC),表示在列表RS中的查询在用户输入q0,查询上下文为SC的情况下,满足主题a的概率;
用于,将P(qc|q0,a,SC)表示为三部分组成,包括:查询推荐qc和输入查询q0的共现次数,查询推荐qc和输入查询q0的语义相似度,查询推荐qc和查询上下文SC的相关度;即
Figure BDA0001294843180000051
其中,λ1表示控制权重的自由参数,取值在0~1之间;
查询推荐qc和输入查询q0的共现次数表示为:
Figure BDA0001294843180000052
其中,fq表示包含查询q的会话个数,
Figure BDA0001294843180000053
表示同时包含qc和q0的会话个数;
查询推荐qc和输入查询q0的语义相似度,通过计算向量之间的余弦值得到查询之间的语义相似度:
Figure BDA0001294843180000054
其中,W=|q0|·|qc|,|q|指查询中的单词数量;
查询推荐qc和查询上下文SC的相关度表示为P(qc|a,qt),表示查询推荐qc和在查询上下文中的qt在主题a上的距离:
Figure BDA0001294843180000055
其中,
Figure BDA0001294843180000056
表示距离因子,D(qt)表示在查询上下文SC中,qt和最后一个查询qT之间的间隔距离,M表示主题的个数,
Figure BDA0001294843180000057
表示查询qc主题i的相关度;
进一步用于将P(qs|q0,a,SC)表示为:
Figure BDA0001294843180000058
所述构建个性化多样化查询模型单元进一步用于:
通过引入用户长期的查询历史,将所述贪婪选择的规则修改为:
Figure BDA0001294843180000061
其中,u表示一个特定的用户;
根据贝叶斯准则可以得到P(qc|q0,a,SC,u):
Figure BDA0001294843180000062
进一步的,P(q0,a,SC,u|qc)←λ2P(q0,a,SC|qc)+(1-λ2)P(u,q0,SC|qc)
P(q0,a,SC,u|qc)表示多样化和个性化策略的结合,由折中系数λ2来控制各部分的权重;
根据贝叶斯定理,P(a,q0,SC|qc)和P(u,q0,SC|qc)表示为:
Figure BDA0001294843180000063
Figure BDA0001294843180000064
其中,P(qc|u,q0,SC),设定输入的查询q0条件下,u,q0,SC之间相互独立,即:
Figure BDA0001294843180000065
得出P(qc|u):
Figure BDA0001294843180000066
Q(u)表示在用户u查询记录中的查询,N表示用户u查询记录中的查询个数,S(qc,q)返回两个查询之间的语义相似度。
进一步的,所述构建个性化多样化查询模型单元还用于获取查询主题的分布,包括:
获取URL的主题分布模块,用于通过收集每个查询的点击文档,提取每个点击文档在ODP中的描述文字,输入LDA主题模型中进行训练,得到每个URL的主题分布;
获取查询主题分布模块,用于根据每个查询和URL之间的点击信息,得到每个查询的主题分布。
进一步的,获取查询主题分布模块,进一步用于:
通过如下公式产生查询的主题分布,
Figure BDA0001294843180000071
其中,D(q)是用户在输入查询q以后点击的一系列文档,vd是文档d的向量表示,即查询主题在文档d上的分布,f(q,d)是用户在输入查询q以后点击文档d的次数;
以及用于,当无法获取点击信息时根据下式找到待分配的有主题分布的查询qlabel
Figure BDA0001294843180000072
计算所有得到主题分布的查询与qunlabel的语义相似度,然后找到相似度最大的qlabel,将其主题分布赋给qunlabel
从上面所述可以看出,本发明提供的多样化个性化查询模型结合了多样化和个性化的查询推荐任务,在基本的贪婪查询推荐多样化模型中考虑用户的当前搜索上下文会话,然后加入用户的长期搜索行为,查询的主题通过对其点击文档的ODP分类来确定主题;通过实验表明,多样化个性化查询模型比现有的模型效果要好,尤其是当采用点击的查询作为查询上下文比采用所有的查询效果要好,实验结果证明多样化个性化模型在查询推荐的排序和多样性指标上有显著提高。
附图说明
图1为本发明提供的个性化多样化查询推荐方法实施例示意图;
图2为本发明提供的个性化多样化查询推荐系统实施例示意图;
图3为本发明提供的个性化多样化查询推荐方法的实验数据表一;
图4为本发明提供的个性化多样化查询推荐方法的实验数据表二;
图5为本发明提供的个性化多样化查询推荐方法的实验结果表一;
图6为本发明提供的个性化多样化查询推荐方法的实验结果表二。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
本发明提供的一种个性化多样化查询推荐方法,包括:
步骤101,构建多样化查询模型,可称为G-QSD模型:通过将用户的查询上下文,包括查询和点击行为在内的,采用查询之间的共现度和语义相似度,生成多样化的查询推荐列表;
步骤102,通过将用户的长期查询记录加入G-QSD模型中,结合贝叶斯准则,得到个性化多样化查询模型,可称为PQSD模型,通过获取每个查询的点击文档URL的主题分布,然后根据每个查询和URL之间的点击信息,得到每个查询的主题分布,生成多样化个性化的查询推荐列表。
进一步的,本发明提供的个性化多样化查询推荐方法,步骤101所述构建G-QSD模型包括:
设定贪婪选择的规则:
Figure BDA0001294843180000081
其中,q*表示选择的满足条件的最优查询推荐,RI表示查询推荐的初始列表,Rs表示已选的查询推荐列表,P(qc|q0,a,SC)表示查询在给定查询上下文SC,用户输入查询q0的条件下,查询推荐qc满足用户查询主题a的概率;P(qs|q0,a,SC),表示在列表RS中的查询在用户输入q0,查询上下文为SC的情况下,满足主题a的概率;
将P(qc|q0,a,SC)表示为三部分组成,包括:查询推荐qc和输入查询q0的共现次数,查询推荐qc和输入查询q0的语义相似度,查询推荐qc和查询上下文SC的相关度;即
Figure BDA0001294843180000082
其中,λ1表示控制权重的自由参数,取值在0~1之间;
查询推荐qc和输入查询q0的共现次数表示为:
Figure BDA0001294843180000091
其中,fq表示包含查询q的会话个数,
Figure BDA0001294843180000099
表示同时包含qc和q0的会话个数;
查询推荐qc和输入查询q0的语义相似度,通过计算向量之间的余弦值得到查询之间的语义相似度:
Figure BDA0001294843180000092
其中,W=|q0|·|qc|,|q|指查询中的单词数量;
查询推荐qc和查询上下文SC的相关度表示为P(qc|a,qt),表示查询推荐qc和在查询上下文中的qt在主题a上的距离:
Figure BDA0001294843180000093
其中,
Figure BDA0001294843180000094
表示距离因子,D(qt)表示在查询上下文SC中,qt和最后一个查询qT之间的间隔距离,M表示主题的个数,
Figure BDA0001294843180000095
表示查询qc主题i的相关度;
步骤101c,P(qs|q0,a,SC)表示为:
Figure BDA0001294843180000096
进一步的,步骤102,构建PQSD模型包括:
通过引入用户长期的查询历史,将所述贪婪选择的规则修改为:
Figure BDA0001294843180000097
其中,u表示一个特定的用户;
根据贝叶斯准则可以得到P(qc|q0,a,SC,u):
Figure BDA0001294843180000098
进一步的,P(q0,a,SC,u|qc)←λ2P(q0,a,SC|qc)+(1-λ2)P(u,q0,SC|qc)
P(q0,a,SC,u|qc)表示多样化和个性化策略的结合,由折中系数λ2来控制各部分的权重;
根据贝叶斯定理,P(a,q0,SC|qc)和P(u,q0,SC|qc)表示为:
Figure BDA0001294843180000101
Figure BDA0001294843180000102
其中,P(qc|u,q0,SC),设定输入的查询q0条件下,u,q0,SC之间相互独立,即:
Figure BDA0001294843180000103
得出P(qc|u):
Figure BDA0001294843180000104
Q(u)表示在用户u查询记录中的查询,N表示用户u查询记录中的查询个数,S(qc,q)返回两个查询之间的语义相似度。
对于PQSD模型中的P(qs|q0,a,SC,u)部分,和P(qc|q0,a,SC,u)相似,同样利用查询独立性假设和贝叶斯原理,可以得到其多样化和个性化的两部分:
Figure BDA0001294843180000105
Figure BDA0001294843180000106
进一步的,所述构建PQSD模型还包括获取查询主题的分布,具体包括:
通过收集每个查询的点击文档,提取每个点击文档在ODP中的描述文字,输入LDA主题模型中进行训练,得到每个URL的主题分布;根据每个查询和URL之间的点击信息,得到每个查询的主题分布。
LDA是一种高效无监督学习的主题模型,用来寻找每个文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类等等工作。同时,他也可以返回每个主题下包含的主题词。
采用LDA主题模型之前,我们需要对数据进行预处理,将每个URL的描述文档转化成词向量作为LDA的输入,主要有以下几步:
1)分词,根据空格,或者“\”等;
2)去除停顿词,如“a”“an”“the”等;
3)原型化,将文档中的词转化为基本原型的形式。
通过LDA主题模型的训练,我们可以得到点击文档URL对应的主题分布,根据我们上面的描述,查询的主题分布和其点击的URL的主题分布是直接相关的,而且直观来看,当一个查询点击某个URL的次数越多,他们的主题分布相关性就越高。
进一步的,所述根据每个查询和URL之间的点击信息,得到每个查询的主题分布包括:
通过如下公式产生查询的主题分布,
Figure BDA0001294843180000111
其中,D(q)是用户在输入查询q以后点击的一系列文档,vd是文档d的向量表示,即查询主题在文档d上的分布,f(q,d)是用户在输入查询q以后点击文档d的次数;
当无法获取点击信息时根据下式找到待分配的有主题分布的查询qlabel
Figure BDA0001294843180000112
计算所有得到主题分布的查询与qunlabel的语义相似度,然后找到相似度最大的qlabel,将其主题分布赋给qunlabel
从上面所述可以看出,本发明提供的PQSD模型结合了多样化和个性化的查询推荐任务,在基本的贪婪查询推荐多样化模型(G-QSD)中考虑用户的当前搜索上下文会话,然后加入用户的长期搜索行为,查询的主题通过对其点击文档的ODP分类来确定主题;通过实验表明,PQSD模型比现有的模型效果要好,尤其是当采用点击的查询作为查询上下文比采用所有的查询效果要好。
另一方面,本发明还提供一种个性化多样化查询推荐系统包括:
构建G-QSD模型单元201,用于将用户的查询上下文,包括查询和点击行为,采用查询之间的共现度和语义相似度,产生多样化的查询推荐列表;
构建PQSD模型单元202,用于通过将用户的长期查询记录加入G-QSD模型中,结合贝叶斯准则,得到PQSD模型,通过获取每个查询的点击文档URL的主题分布,然后根据每个查询和URL之间的点击信息,得到每个查询的主题分布。
其中,构建G-QSD模型单元201进一步用于:
设定贪婪选择的规则:
Figure BDA0001294843180000121
其中,q*表示选择的满足条件的最优查询推荐,RI表示查询推荐的初始列表,Rs表示已选的查询推荐列表,P(qc|q0,a,SC)表示查询在给定查询上下文SC,用户输入查询q0的条件下,查询推荐qc满足用户查询主题a的概率;P(qs|q0,a,SC),表示在列表RS中的查询在用户输入q0,查询上下文为SC的情况下,满足主题a的概率;
用于,将P(qc|q0,a,SC)表示为三部分组成,包括:查询推荐qc和输入查询q0的共现次数,查询推荐qc和输入查询q0的语义相似度,查询推荐qc和查询上下文SC的相关度;即
Figure BDA0001294843180000122
其中,λ1表示控制权重的自由参数,取值在0~1之间;
查询推荐qc和输入查询q0的共现次数表示为:
Figure BDA0001294843180000123
其中,fq表示包含查询q的会话个数,
Figure BDA0001294843180000124
表示同时包含qc和q0的会话个数;
查询推荐qc和输入查询q0的语义相似度,通过计算向量之间的余弦值得到查询之间的语义相似度:
Figure BDA0001294843180000125
其中,W=|q0|·|qc|,|q|指查询中的单词数量;
查询推荐qc和查询上下文SC的相关度表示为P(qc|a,qt),表示查询推荐qc和在查询上下文中的qt在主题a上的距离:
Figure BDA0001294843180000131
其中,
Figure BDA0001294843180000132
表示距离因子,D(qt)表示在查询上下文SC中,qt和最后一个查询qT之间的间隔距离,M表示主题的个数,
Figure BDA0001294843180000133
表示查询qc主题i的相关度;
进一步用于将P(qs|q0,a,SC)表示为:
Figure BDA0001294843180000134
其中,构建PQSD模型单元202,进一步用于:
通过引入用户长期的查询历史,将所述贪婪选择的规则修改为:
Figure BDA0001294843180000135
其中,u表示一个特定的用户;
根据贝叶斯准则可以得到P(qc|q0,a,SC,u):
Figure BDA0001294843180000136
进一步的,P(q0,a,SC,u|qc)←λ2P(q0,a,SC|qc)+(1-λ2)P(u,q0,SC|qc)
P(q0,a,SC,u|qc)表示多样化和个性化策略的结合,由折中系数λ2来控制各部分的权重;
根据贝叶斯定理,P(a,q0,SC|qc)和P(u,q0,SC|qc)表示为:
Figure BDA0001294843180000137
Figure BDA0001294843180000138
其中,P(qc|u,q0,SC),设定输入的查询q0条件下,u,q0,SC之间相互独立,即:
Figure BDA0001294843180000139
得出P(qc|u):
Figure BDA00012948431800001310
Q(u)表示在用户u查询记录中的查询,N表示用户u查询记录中的查询个数,S(qc,q)返回两个查询之间的语义相似度。
构建PQSD模型单元202还用于获取查询主题的分布,包括:
获取URL的主题分布模块,用于通过收集每个查询的点击文档,提取每个点击文档在ODP中的描述文字,输入LDA主题模型中进行训练,得到每个URL的主题分布;
获取查询主题分布模块,用于根据每个查询和URL之间的点击信息,得到每个查询的主题分布。
其中,获取查询主题分布模块,进一步用于:
通过如下公式产生查询的主题分布,
Figure BDA0001294843180000141
其中,D(q)是用户在输入查询q以后点击的一系列文档,vd是文档d的向量表示,即查询主题在文档d上的分布,f(q,d)是用户在输入查询q以后点击文档d的次数;
以及用于,当无法获取点击信息时根据下式找到待分配的有主题分布的查询qlabel
Figure BDA0001294843180000142
计算所有得到主题分布的查询与qunlabel的语义相似度,然后找到相似度最大的qlabel,将其主题分布赋给qunlabel
可见本发明提供的个性化多样化查询推荐方法及系统,提出了个性化的查询推荐多样化模型,结合了用户的查询上下文和长期搜索历史来探测用户的查询意图。
通过实验进一步验证PQSD模型优点:就多样性和准确性指标上,PQSD模型比其他方法进行查询推荐的效果要好。
实验设计:AOL数据集上进行了实验,有近500000个用户查询片段。在数据预处理阶段,采用现有技术中的方法清洗数据,按照30分钟为标准划分查询片段,而且仅保留包含超过两个查询的片段。为了测试不同的策略对PQSD模型的影响,移除了没有点击信息的查询片段。如图3所示,图表一给出了数据集状态:
在实验中,对于大部分的实例来说,λ1的推荐取值为0.5,在实验中均选取这个数值。对于λ2,本文主要研究个性化策略和多样化策略相结合对查询推荐的影响,因此在PQSD模型里将这两个策略的权重值取一样,即为0.5.在LDA主题模型中,设置T=100,α=0.5,β=0.1根据文献[1]。至于推荐的数量,大部分的查询推荐研究中军舰推荐数量设置为10,因此取N=10。
为了产生实验的真实结果来检验模型效果,例如要产生查询和主题的相关性,根据文献[6],将相关性划分为5个等级(很好=4,好=3,中等=2,差=1,很差=0),即:
Figure BDA0001294843180000151
采用MRR和α-nDCG指标来衡量查询推荐的排序和多样化效果。
实验结果:有关PQSD模型效果
检验PQSD模型和基准模型的查询推荐模型的效果,其中,PQSD模型综合了用户对于用户个性化的搜索方式。如图4所示,图表二所示的为比较的结果。
在各方面,DQS模型的效果优于MMR模型。因此,在后面的比较试验中,采用DQS模型作为基准模型。DQS模型较MMR模型在方面有近1%的改进,在α-nDCG@10方面有近1.9%的改善。反观PQSD模型,在所有搜索上下文策略下,与基准模型相比都实现了很大的改善,即在MRR@10方面实现了从0.8%到2.0%的提高,在α-nDCG@10方面实现了从4.3%到8.9%的提高。在NDGC方面的改善较MRR方面的改善更明显,其原因有多个:在某些情况下,冗余的查询推荐在查询列表中的排序比最终提交的查询排序低,将这些冗余查询去除以后并不会提高查询推荐准确性,但可以提高查询推荐列表的多样化。
在图表二中可以看出PQSDCL+CS模型的效果最佳。与基准模型相比,除了PQSDAL+AS模型,其余PQSD模型在各个指标上的提升均是显著的(α=.01)。PQSDAL+AS在α=.05是提升是显著的。图表二中所有模型的实验结果,最好的基准模型结果又下划线,最好的模型结果加粗。
采用会话中所有的查询或者点击的查询作为查询上下文,以及采用用户所有查询或者仅仅是点击的查询作为用户的长期搜索历史来研究不同的个性化策略对PQSD模型的影响。事实上,当采用所有点击的查询作为用户查询上下文和搜索历史时,PQSD模型的效果最好。例如,PQSDCL+AS效果比PQSDAL+AS要好,同样PQSDCL+CS比PQSDAL+CS效果要好,因此点击查询能更精确地表达用户的查询意图,有助于提高查询推荐个性化的效果,所有的查询作为搜索上下文在推测用户查询意图时会带来噪音。
在不同的查询位置上比较这几种模型的查询推荐效果。如图5所示为本发明的查询推荐效果,随着查询上下文的丰富,查询推荐在MRR指标上也在提高,例如,在查询位置大于4时,PQSDCL+CS比查询位置为2时的MRR指标要高。除此以外,当查询位置为1时,即查询会话中不存在查询上下文时,PQSDAL+AS和PQSDAL+CS的查询推荐效果比基准模型有少量的提升。
如图6所示为本发明的查询推荐效果,就查询推荐多样化而言,PQSD模型在α-nDCG指标上比基准模型的提高要比MRR指标更明显。同样的是,使用点击行为的查询在查询上下文和用户长期搜索历史中,会提高PQSD模型的查询推荐准确性和多样性。
可见本发明提供的查询推荐方法及系统,通过AOL数据集上进行实验,对比了本发明的PQSD模型和现有方法的查询推荐效果,实验结果证明PQSD模型在查询推荐的排序和多样性指标上有显著提高,具体来说,PQSD模型在MRR指标上比现有基准模型高出1.35%,在α-nDCG指标上高出6.29%。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种个性化多样化查询推荐方法,其特征在于,包括:
构建多样化查询模型,通过将用户的查询上下文,采用查询之间的共现度和语义相似度,生成多样化的查询推荐列表;
通过将用户的长期查询记录加入所述多样化查询模型中,结合贝叶斯准则,得到个性化多样化查询模型,通过获取每个查询的点击文档URL的主题分布,然后根据每个查询和URL之间的点击信息,得到每个查询的主题分布,生成多样化个性化的查询推荐列表;
其中,所述通过将用户的长期查询记录加入所述多样化查询模型中,结合贝叶斯准则,得到个性化多样化查询模型包括:通过引入用户长期的查询历史,将贪婪选择的规则修改为:
Figure FDA0002226879260000011
其中,u表示一个特定的用户;
根据贝叶斯准则可以得到P(qc|q0,a,SC,u):
Figure FDA0002226879260000012
进一步的,P(q0,a,SC,u|qc)←λ2P(q0,a,SC|qc)+(1-λ2)P(u,q0,SC|qc)
P(q0,a,SC,u|qc)表示多样化和个性化策略的结合,由折中系数λ2来控制各部分的权重;
根据贝叶斯定理,P(a,q0,SC|qc)和P(u,q0,SC|qc)表示为:
Figure FDA0002226879260000013
Figure FDA0002226879260000014
其中,P(qc|u,q0,SC),设定输入的查询q0条件下,u,q0,SC之间相互独立,即:
Figure FDA0002226879260000015
得出P(qc|u):
Figure FDA0002226879260000021
Q(u)表示在用户u查询记录中的查询,N表示用户u查询记录中的查询个数,S(qc,q)返回两个查询之间的语义相似度。
2.根据权利要求1所述的个性化多样化查询推荐方法,其特征在于,所述构建多样化查询模型包括:
设定贪婪选择的规则:
Figure FDA0002226879260000022
其中,q*表示选择的满足条件的最优查询推荐,RI表示查询推荐的初始列表,Rs表示已选的查询推荐列表,P(qc|q0,a,SC)表示查询在给定查询上下文SC,用户输入查询q0的条件下,查询推荐qc满足用户查询主题a的概率;P(qs|q0,a,SC),表示在列表RS中的查询在用户输入q0查询上下文为SC的情况下,满足主题a的概率;
将P(qc|q0,a,SC)表示为三部分组成,包括:查询推荐qc和输入查询q0的共现次数,查询推荐qc和输入查询q0的语义相似度,查询推荐qc和查询上下文SC的相关度;即
Figure FDA0002226879260000023
其中,λ1表示控制权重的自由参数,取值在0~1之间;
查询推荐qc和输入查询q0的共现次数表示为:
Figure FDA0002226879260000024
其中,fq表示包含查询q的会话个数,
Figure FDA0002226879260000025
表示同时包含qc和q0的会话个数;
查询推荐qc和输入查询q0的语义相似度,通过计算向量之间的余弦值得到查询之间的语义相似度:
Figure FDA0002226879260000031
其中,W=|q0|·|qc|,|q|指查询中的单词数量;
查询推荐qc和查询上下文SC的相关度表示为P(qc|a,qt),表示查询推荐qc和在查询上下文中的qt在主题a上的距离:
Figure FDA0002226879260000032
其中,
Figure FDA0002226879260000033
表示距离因子,D(qt)表示在查询上下文SC中,qt和最后一个查询qT之间的间隔距离,M表示主题的个数,
Figure FDA0002226879260000034
表示查询qc主题i的相关度;
P(qs|q0,a,SC)表示为:
Figure FDA0002226879260000035
3.根据权利要求2所述的个性化多样化查询推荐方法,其特征在于,所述得到个性化多样化查询模型还包括:
通过收集每个查询的点击文档,提取每个点击文档在ODP中的描述文字,输入LDA主题模型中进行训练,得到每个URL的主题分布;
根据每个查询和URL之间的点击信息,得到每个查询的主题分布。
4.根据权利要求3所述的个性化多样化查询推荐方法,其特征在于,所述根据每个查询和URL之间的点击信息,得到每个查询的主题分布包括:
通过如下公式产生查询的主题分布,
Figure FDA0002226879260000036
其中,D(q)是用户在输入查询q以后点击的一系列文档,vd是文档d的向量表示,即查询主题在文档d上的分布,f(q,d)是用户在输入查询q以后点击文档d的次数;
当无法获取点击信息时根据下式找到待分配的有主题分布的查询qlabel
Figure FDA0002226879260000037
计算所有得到主题分布的查询与qunlabel的语义相似度,然后找到相似度最大的qlabel,将其主题分布赋给qunlabel
5.一种个性化多样化查询推荐系统,其特征在于,包括:
构建多样化查询模型单元,用于将用户的查询上下文,采用查询之间的共现度和语义相似度,生成多样化的查询推荐列表;
构建个性化多样化查询模型单元,通过将用户的长期查询记录加入所述多样化查询模型中,结合贝叶斯准则,得到个性化多样化查询模型,通过获取每个查询的点击文档URL的主题分布,然后根据每个查询和URL之间的点击信息,得到每个查询的主题分布;
其中,所述通过将用户的长期查询记录加入所述多样化查询模型中,结合贝叶斯准则,得到个性化多样化查询模型包括:通过引入用户长期的查询历史,将贪婪选择的规则修改为:
Figure FDA0002226879260000041
其中,u表示一个特定的用户;
根据贝叶斯准则可以得到P(qc|q0,a,SC,u):
Figure FDA0002226879260000042
进一步的,P(q0,a,SC,u|qc)←λ2P(q0,a,SC|qc)+(1-λ2)P(u,q0,SC|qc)
P(q0,a,SC,u|qc)表示多样化和个性化策略的结合,由折中系数λ2来控制各部分的权重;
根据贝叶斯定理,P(a,q0,SC|qc)和P(u,q0,SC|qc)表示为:
Figure FDA0002226879260000043
Figure FDA0002226879260000044
其中,P(qc|u,q0,SC),设定输入的查询q0条件下,u,q0,SC之间相互独立,即:
Figure FDA0002226879260000045
得出P(qc|u):
Figure FDA0002226879260000051
Q(u)表示在用户u查询记录中的查询,N表示用户u查询记录中的查询个数,S(qc,q)返回两个查询之间的语义相似度。
6.根据权利要求5所述的个性化多样化查询推荐系统,其特征在于,所述构建多样化查询模型单元,进一步用于:
设定贪婪选择的规则:
Figure FDA0002226879260000052
其中,q*表示选择的满足条件的最优查询推荐,RI表示查询推荐的初始列表,Rs表示已选的查询推荐列表,P(qc|q0,a,SC)表示查询在给定查询上下文SC,用户输入查询q0的条件下,查询推荐qc满足用户查询主题a的概率;P(qs|q0,a,SC),表示在列表RS中的查询在用户输入q0,查询上下文为SC的情况下,满足主题a的概率;
用于,将P(qc|q0,a,SC)表示为三部分组成,包括:查询推荐qc和输入查询q0的共现次数,查询推荐qc和输入查询q0的语义相似度,查询推荐qc和查询上下文SC的相关度;即
Figure FDA0002226879260000053
其中,λ1表示控制权重的自由参数,取值在0~1之间;
查询推荐qc和输入查询q0的共现次数表示为:
Figure FDA0002226879260000054
其中,fq表示包含查询q的会话个数,
Figure FDA0002226879260000055
表示同时包含qc和q0的会话个数;
查询推荐qc和输入查询q0的语义相似度,通过计算向量之间的余弦值得到查询之间的语义相似度:
Figure FDA0002226879260000061
其中,W=|q0|·|qc|,|q|指查询中的单词数量;
查询推荐qc和查询上下文SC的相关度表示为P(qc|a,qt),表示查询推荐qc和在查询上下文中的qt在主题a上的距离:
Figure FDA0002226879260000062
其中,
Figure FDA0002226879260000063
表示距离因子,D(qt)表示在查询上下文SC中,qt和最后一个查询qT之间的间隔距离,M表示主题的个数,
Figure FDA0002226879260000066
表示查询qc主题i的相关度;
进一步用于将P(qs|q0,a,SC)表示为:
Figure FDA0002226879260000064
7.根据权利要求6所述的个性化多样化查询推荐系统,其特征在于,所述构建个性化多样化查询模型单元还用于获取查询主题的分布,包括:
获取URL的主题分布模块,用于通过收集每个查询的点击文档,提取每个点击文档在ODP中的描述文字,输入LDA主题模型中进行训练,得到每个URL的主题分布;
获取查询主题分布模块,用于根据每个查询和URL之间的点击信息,得到每个查询的主题分布。
8.根据权利要求7所述的个性化多样化查询推荐系统,其特征在于,获取查询主题分布模块,进一步用于:
通过如下公式产生查询的主题分布,
Figure FDA0002226879260000065
其中,D(q)是用户在输入查询q以后点击的一系列文档,vd是文档d的向量表示,即查询主题在文档d上的分布,f(q,d)是用户在输入查询q以后点击文档d的次数;
以及用于,当无法获取点击信息时根据下式找到待分配的有主题分布的查询qlabel
Figure FDA0002226879260000071
计算所有得到主题分布的查询与qunlabel的语义相似度,然后找到相似度最大的qlabel,将其主题分布赋给qunlabel
CN201710339494.XA 2017-05-15 2017-05-15 一种个性化多样化查询推荐方法及系统 Active CN107193916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710339494.XA CN107193916B (zh) 2017-05-15 2017-05-15 一种个性化多样化查询推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710339494.XA CN107193916B (zh) 2017-05-15 2017-05-15 一种个性化多样化查询推荐方法及系统

Publications (2)

Publication Number Publication Date
CN107193916A CN107193916A (zh) 2017-09-22
CN107193916B true CN107193916B (zh) 2020-06-26

Family

ID=59873523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710339494.XA Active CN107193916B (zh) 2017-05-15 2017-05-15 一种个性化多样化查询推荐方法及系统

Country Status (1)

Country Link
CN (1) CN107193916B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427756B (zh) * 2018-03-16 2021-02-12 中国人民解放军国防科技大学 基于同类用户模型的个性化查询词补全推荐方法和装置
CN108763251B (zh) * 2018-04-02 2021-06-01 创新先进技术有限公司 核身产品的个性化推荐方法及装置和电子设备
AU2019229364A1 (en) * 2019-09-11 2021-03-25 Tao Chen Word processor

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7761464B2 (en) * 2006-06-19 2010-07-20 Microsoft Corporation Diversifying search results for improved search and personalization
CN103412872A (zh) * 2013-07-08 2013-11-27 西安交通大学 一种基于有限节点驱动的微博社会网络信息推荐方法
CN104376039A (zh) * 2014-10-10 2015-02-25 安徽华米信息科技有限公司 一种推送网络内容的方法、装置及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7761464B2 (en) * 2006-06-19 2010-07-20 Microsoft Corporation Diversifying search results for improved search and personalization
CN103412872A (zh) * 2013-07-08 2013-11-27 西安交通大学 一种基于有限节点驱动的微博社会网络信息推荐方法
CN104376039A (zh) * 2014-10-10 2015-02-25 安徽华米信息科技有限公司 一种推送网络内容的方法、装置及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Efficient Structured Learning for Personalized Diversification;Shangsong Liang 等;《IEEE Transactions on Knowledge and Data Engineering》;20161101;第28卷(第11期);第2958-2973页 *
Personalized Diversification of Search Results;David Vallet 等;《SIGIR’12》;20120816;第841-850页 *
Personalized Query Suggestion With Diversity Awareness;Di Jiang 等;《2014 IEEE 30th International Conference on Data Engineering》;20140404;第400-411页 *
基于查询偏好的个性化搜索引擎的研究与实现;石雁;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160715;I138-1275 *
基于用户相关反馈的排序学习算法研究;蔡飞 等;《国防科技大学学报》;20130428;第35卷(第2期);第132-136页 *
面向多样化搜索背景的查询推荐策略;孙达明 等;《计算机研究与发展》;20141215;第81-85页 *

Also Published As

Publication number Publication date
CN107193916A (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
Mitra Exploring session context using distributed representations of queries and reformulations
US9104979B2 (en) Entity recognition using probabilities for out-of-collection data
Karamanolakis et al. Item recommendation with variational autoencoders and heterogeneous priors
Caicedo et al. Multimodal representation, indexing, automated annotation and retrieval of image collections via non-negative matrix factorization
CN104885081B (zh) 搜索系统和相应方法
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US8150822B2 (en) On-line iterative multistage search engine with text categorization and supervised learning
Belwal et al. A new graph-based extractive text summarization using keywords or topic modeling
WO2017013667A1 (en) Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
CN106095845B (zh) 文本分类方法和装置
Wang et al. Indexing by L atent D irichlet A llocation and an E nsemble M odel
CN110717038B (zh) 对象分类方法及装置
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN107193916B (zh) 一种个性化多样化查询推荐方法及系统
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
Zhang et al. Unsupervised language identification based on Latent Dirichlet Allocation
Rani et al. A weighted word embedding based approach for extractive text summarization
Martins et al. On cold start for associative tag recommendation
Misztal-Radecka et al. Meta-User2Vec model for addressing the user and item cold-start problem in recommender systems
Lisena et al. TOMODAPI: A topic modeling API to train, use and compare topic models
Bender et al. Unsupervised estimation of subjective content descriptions
Mohana et al. Document classification using multinomial Naïve Bayesian classifier
Francis et al. SmarTxT: A Natural Language Processing Approach for Efficient Vehicle Defect Investigation
Tryfou et al. Web image context extraction based on semantic representation of web page visual segments
Singh et al. Neural approaches towards text summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant