CN107193916B

CN107193916B - 一种个性化多样化查询推荐方法及系统

Info

Publication number: CN107193916B
Application number: CN201710339494.XA
Authority: CN
Inventors: 蔡飞; 陈洪辉; 陈皖玉; 刘俊先; 罗爱民; 陈涛; 舒振
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-05-15
Filing date: 2017-05-15
Publication date: 2020-06-26
Anticipated expiration: 2037-05-15
Also published as: CN107193916A

Abstract

本发明公开了一种个性化多样化查询推荐方法，包括：构建多样化查询模型：通过将用户的查询上下文，采用查询之间的共现度和语义相似度，产生多样化的查询推荐列表；通过将用户的长期查询记录加入所述多样化查询模型中，结合贝叶斯准则，得到个性化多样化查询模型。本发明提供的个性化多样化查询推荐方法合了多样化和个性化的查询推荐任务，在基本的贪婪查询推荐多样化模型中加入用户的长期搜索行为，查询的主题通过对其点击文档的ODP分类来确定，个性化多样化查询模型比现有的模型效果要好，尤其是当采用点击的查询作为查询上下文比采用所有的查询效果要好。

Description

一种个性化多样化查询推荐方法及系统

技术领域

本发明涉及查询推荐技术领域，特别是指一种个性化多样化查询推荐方法及系统。

背景技术

查询推荐可帮助用户在输入查询后对其进行优化初始查询。以前的工作主要集中在基于相似性和基于上下文的查询推荐方法，也有模型专注于适应特定用户(个性化)或者多样化查询主题以便最大化用户满意的概率(多样化)。

查询推荐在帮助提高用户对查询结果的满意度上有重要的意义。现有相关的查询推荐的工作主要基于查询之间的相关性和相似度，但是这种方法对一些不确定主题的用户查询来说，效果不好。对于多样化来说，查询推荐旨在使推荐列表包含更多的查询主题；对于个性化来说，则是希望推荐的查询更能满足用户感兴趣中的某个主题。这两个概念直观上看起来是背道而驰的，现有技术中并没有将查询推荐的多样化和个性化这两个概念被同时应用到现有的查询推荐系统当中。

发明内容

有鉴于此，本发明的目的在于提出一种结合多样化和个性化并提高查询效果的个性化多样化查询推荐方法及系统。

基于上述目的本发明提供的一种个性化多样化查询推荐方法，包括：

构建多样化查询模型：通过将用户的查询上下文，采用查询之间的共现度和语义相似度，生成多样化的查询推荐列表；

通过将用户的长期查询记录加入多样化查询模型中，结合贝叶斯准则，得到个性化多样化查询模型，通过获取每个查询的点击文档URL的主题分布，然后根据每个查询和URL之间的点击信息，得到每个查询的主题分布，生成多样化个性化的查询推荐列表。

进一步的，所述构建多样化查询模型包括：

设定贪婪选择的规则：

其中，q*表示选择的满足条件的最优查询推荐，R_I表示查询推荐的初始列表，R_S表示已选的查询推荐列表，P(q_c|q₀,a,S_C)表示查询在给定查询上下文S_C，用户输入查询q₀的条件下，查询推荐q_c满足用户查询主题a的概率；P(q_s|q₀,a,S_C)，表示在列表R_S中的查询在用户输入q₀，查询上下文为S_C的情况下，满足主题a的概率；

将P(q_c|q₀,a,S_C)表示为三部分组成，包括：查询推荐q_c和输入查询q₀的共现次数，查询推荐q_c和输入查询q₀的语义相似度，查询推荐q_c和查询上下文S_C的相关度；即

其中，λ₁表示控制权重的自由参数，取值在0～1之间；

查询推荐q_c和输入查询q₀的共现次数表示为：

其中，f_q表示包含查询q的会话个数，

表示同时包含q_c和q₀的会话个数；

查询推荐q_c和输入查询q₀的语义相似度，通过计算向量之间的余弦值得到查询之间的语义相似度：

其中，W＝|q₀|·|q_c|，|q|指查询中的单词数量；

查询推荐q_c和查询上下文S_C的相关度表示为P(q_c|a,q_t)，表示查询推荐q_c和在查询上下文中的q_t在主题a上的距离：

其中，

表示距离因子，D(q_t)表示在查询上下文S_C中，q_t和最后一个查询q_T之间的间隔距离，M表示主题的个数，

表示查询q_c主题i的相关度；

P(q_s|q₀,a,S_C)表示为：

进一步的，所述构建个性化多样化查询模型包括：

通过引入用户长期的查询历史，将所述贪婪选择的规则修改为：

其中，u表示一个特定的用户；

根据贝叶斯准则可以得到P(q_c|q₀,a,S_C,u)：

进一步的，P(q₀,a,S_C,u|q_c)←λ₂P(q₀,a,S_C|q_c)+(1-λ₂)P(u,q₀,S_C|q_c)

P(q₀,a,S_C,u|q_c)表示多样化和个性化策略的结合，由折中系数λ₂来控制各部分的权重；

根据贝叶斯定理，P(a,q₀,S_C|q_c)和P(u,q₀,S_C|q_c)表示为：

其中，P(q_c|u,q₀,S_C)，设定输入的查询q₀条件下，u,q₀,S_C之间相互独立，即：

得出P(q_c|u)：

Q(u)表示在用户u查询记录中的查询，N表示用户u查询记录中的查询个数，S(q_c,q)返回两个查询之间的语义相似度。

进一步的，所述构建个性化多样化查询模型还包括：

通过收集每个查询的点击文档，提取每个点击文档在ODP中的描述文字，输入LDA主题模型中进行训练，得到每个URL的主题分布；

根据每个查询和URL之间的点击信息，得到每个查询的主题分布。

进一步的，所述根据每个查询和URL之间的点击信息，得到每个查询的主题分布包括：

通过如下公式产生查询的主题分布，

其中，D(q)是用户在输入查询q以后点击的一系列文档，v_d是文档d的向量表示，即查询主题在文档d上的分布，f(q,d)是用户在输入查询q以后点击文档d的次数；

当无法获取点击信息时根据下式找到待分配的有主题分布的查询q_label：

计算所有得到主题分布的查询与q_unlabel的语义相似度，然后找到相似度最大的q_label，将其主题分布赋给q_unlabel。

另一方面，本发明还提供一种个性化多样化查询推荐系统，包括：

构建多样化查询模型单元，用于将用户的查询上下文，包括查询和点击行为，采用查询之间的共现度和语义相似度，产生多样化的查询推荐列表；

构建个性化多样化查询模型单元，通过将用户的长期查询记录加入多样化查询模型中，结合贝叶斯准则，得到个性化多样化查询模型，通过获取每个查询的点击文档URL的主题分布，然后根据每个查询和URL之间的点击信息，得到每个查询的主题分布。

所述构建个性化多样化查询模型单元，进一步用于：

设定贪婪选择的规则：

其中，，q*表示选择的满足条件的最优查询推荐，R_I表示查询推荐的初始列表，R_s表示已选的查询推荐列表，P(q_c|q₀,a,S_C)表示查询在给定查询上下文S_C，用户输入查询q₀的条件下，查询推荐q_c满足用户查询主题a的概率；P(q_s|q₀,a,S_C)，表示在列表R_S中的查询在用户输入q₀，查询上下文为S_C的情况下，满足主题a的概率；

用于，将P(q_c|q₀,a,S_C)表示为三部分组成，包括：查询推荐q_c和输入查询q₀的共现次数，查询推荐q_c和输入查询q₀的语义相似度，查询推荐q_c和查询上下文S_C的相关度；即

其中，λ₁表示控制权重的自由参数，取值在0～1之间；

查询推荐q_c和输入查询q₀的共现次数表示为：

其中，f_q表示包含查询q的会话个数，

表示同时包含q_c和q₀的会话个数；

其中，W＝|q₀|·|q_c|，|q|指查询中的单词数量；

其中，

表示查询q_c主题i的相关度；

进一步用于将P(q_s|q₀,a,S_C)表示为：

所述构建个性化多样化查询模型单元进一步用于：

其中，u表示一个特定的用户；

根据贝叶斯准则可以得到P(q_c|q₀,a,S_C,u)：

根据贝叶斯定理，P(a,q₀,S_C|q_c)和P(u,q₀,S_C|q_c)表示为：

得出P(q_c|u)：

进一步的，所述构建个性化多样化查询模型单元还用于获取查询主题的分布，包括：

获取URL的主题分布模块，用于通过收集每个查询的点击文档，提取每个点击文档在ODP中的描述文字，输入LDA主题模型中进行训练，得到每个URL的主题分布；

获取查询主题分布模块，用于根据每个查询和URL之间的点击信息，得到每个查询的主题分布。

进一步的，获取查询主题分布模块，进一步用于：

通过如下公式产生查询的主题分布，

以及用于，当无法获取点击信息时根据下式找到待分配的有主题分布的查询q_label：

从上面所述可以看出，本发明提供的多样化个性化查询模型结合了多样化和个性化的查询推荐任务，在基本的贪婪查询推荐多样化模型中考虑用户的当前搜索上下文会话，然后加入用户的长期搜索行为，查询的主题通过对其点击文档的ODP分类来确定主题；通过实验表明，多样化个性化查询模型比现有的模型效果要好，尤其是当采用点击的查询作为查询上下文比采用所有的查询效果要好，实验结果证明多样化个性化模型在查询推荐的排序和多样性指标上有显著提高。

附图说明

图1为本发明提供的个性化多样化查询推荐方法实施例示意图；

图2为本发明提供的个性化多样化查询推荐系统实施例示意图；

图3为本发明提供的个性化多样化查询推荐方法的实验数据表一；

图4为本发明提供的个性化多样化查询推荐方法的实验数据表二；

图5为本发明提供的个性化多样化查询推荐方法的实验结果表一；

图6为本发明提供的个性化多样化查询推荐方法的实验结果表二。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

本发明提供的一种个性化多样化查询推荐方法，包括：

步骤101，构建多样化查询模型，可称为G-QSD模型：通过将用户的查询上下文，包括查询和点击行为在内的，采用查询之间的共现度和语义相似度，生成多样化的查询推荐列表；

步骤102，通过将用户的长期查询记录加入G-QSD模型中，结合贝叶斯准则，得到个性化多样化查询模型，可称为PQSD模型，通过获取每个查询的点击文档URL的主题分布，然后根据每个查询和URL之间的点击信息，得到每个查询的主题分布，生成多样化个性化的查询推荐列表。

进一步的，本发明提供的个性化多样化查询推荐方法，步骤101所述构建G-QSD模型包括：

设定贪婪选择的规则：

其中，λ₁表示控制权重的自由参数，取值在0～1之间；

查询推荐q_c和输入查询q₀的共现次数表示为：

其中，f_q表示包含查询q的会话个数，

表示同时包含q_c和q₀的会话个数；

其中，W＝|q₀|·|q_c|，|q|指查询中的单词数量；

其中，

表示查询q_c主题i的相关度；

步骤101c，P(q_s|q₀,a,S_C)表示为：

进一步的，步骤102，构建PQSD模型包括：

其中，u表示一个特定的用户；

根据贝叶斯准则可以得到P(q_c|q₀,a,S_C,u)：

根据贝叶斯定理，P(a,q₀,S_C|q_c)和P(u,q₀,S_C|q_c)表示为：

得出P(q_c|u)：

对于PQSD模型中的P(q_s|q₀,a,S_C,u)部分，和P(q_c|q₀,a,S_C,u)相似，同样利用查询独立性假设和贝叶斯原理，可以得到其多样化和个性化的两部分：

进一步的，所述构建PQSD模型还包括获取查询主题的分布，具体包括：

通过收集每个查询的点击文档，提取每个点击文档在ODP中的描述文字，输入LDA主题模型中进行训练，得到每个URL的主题分布；根据每个查询和URL之间的点击信息，得到每个查询的主题分布。

LDA是一种高效无监督学习的主题模型，用来寻找每个文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题(分布)出来后，便可以根据主题(分布)进行主题聚类或文本分类等等工作。同时，他也可以返回每个主题下包含的主题词。

采用LDA主题模型之前，我们需要对数据进行预处理，将每个URL的描述文档转化成词向量作为LDA的输入，主要有以下几步：

1)分词，根据空格，或者“\”等；

2)去除停顿词，如“a”“an”“the”等；

3)原型化，将文档中的词转化为基本原型的形式。

通过LDA主题模型的训练，我们可以得到点击文档URL对应的主题分布，根据我们上面的描述，查询的主题分布和其点击的URL的主题分布是直接相关的，而且直观来看，当一个查询点击某个URL的次数越多，他们的主题分布相关性就越高。

通过如下公式产生查询的主题分布，

从上面所述可以看出，本发明提供的PQSD模型结合了多样化和个性化的查询推荐任务，在基本的贪婪查询推荐多样化模型(G-QSD)中考虑用户的当前搜索上下文会话，然后加入用户的长期搜索行为，查询的主题通过对其点击文档的ODP分类来确定主题；通过实验表明，PQSD模型比现有的模型效果要好，尤其是当采用点击的查询作为查询上下文比采用所有的查询效果要好。

另一方面，本发明还提供一种个性化多样化查询推荐系统包括：

构建G-QSD模型单元201，用于将用户的查询上下文，包括查询和点击行为，采用查询之间的共现度和语义相似度，产生多样化的查询推荐列表；

构建PQSD模型单元202，用于通过将用户的长期查询记录加入G-QSD模型中，结合贝叶斯准则，得到PQSD模型，通过获取每个查询的点击文档URL的主题分布，然后根据每个查询和URL之间的点击信息，得到每个查询的主题分布。

其中，构建G-QSD模型单元201进一步用于：

设定贪婪选择的规则：

其中，λ₁表示控制权重的自由参数，取值在0～1之间；

查询推荐q_c和输入查询q₀的共现次数表示为：

其中，f_q表示包含查询q的会话个数，

表示同时包含q_c和q₀的会话个数；

其中，W＝|q₀|·|q_c|，|q|指查询中的单词数量；

其中，

表示查询q_c主题i的相关度；

进一步用于将P(q_s|q₀,a,S_C)表示为：

其中，构建PQSD模型单元202，进一步用于：

其中，u表示一个特定的用户；

根据贝叶斯准则可以得到P(q_c|q₀,a,S_C,u)：

根据贝叶斯定理，P(a,q₀,S_C|q_c)和P(u,q₀,S_C|q_c)表示为：

得出P(q_c|u)：

构建PQSD模型单元202还用于获取查询主题的分布，包括：

其中，获取查询主题分布模块，进一步用于：

通过如下公式产生查询的主题分布，

可见本发明提供的个性化多样化查询推荐方法及系统，提出了个性化的查询推荐多样化模型，结合了用户的查询上下文和长期搜索历史来探测用户的查询意图。

通过实验进一步验证PQSD模型优点：就多样性和准确性指标上，PQSD模型比其他方法进行查询推荐的效果要好。

实验设计：AOL数据集上进行了实验，有近500000个用户查询片段。在数据预处理阶段，采用现有技术中的方法清洗数据，按照30分钟为标准划分查询片段，而且仅保留包含超过两个查询的片段。为了测试不同的策略对PQSD模型的影响，移除了没有点击信息的查询片段。如图3所示，图表一给出了数据集状态：

在实验中，对于大部分的实例来说，λ₁的推荐取值为0.5，在实验中均选取这个数值。对于λ₂，本文主要研究个性化策略和多样化策略相结合对查询推荐的影响，因此在PQSD模型里将这两个策略的权重值取一样，即为0.5.在LDA主题模型中，设置T＝100,α＝0.5,β＝0.1根据文献[1]。至于推荐的数量，大部分的查询推荐研究中军舰推荐数量设置为10，因此取N＝10。

为了产生实验的真实结果来检验模型效果，例如要产生查询和主题的相关性，根据文献[6]，将相关性划分为5个等级(很好＝4，好＝3，中等＝2，差＝1，很差＝0)，即：

采用MRR和α-nDCG指标来衡量查询推荐的排序和多样化效果。

实验结果：有关PQSD模型效果

检验PQSD模型和基准模型的查询推荐模型的效果，其中，PQSD模型综合了用户对于用户个性化的搜索方式。如图4所示，图表二所示的为比较的结果。

在各方面，DQS模型的效果优于MMR模型。因此，在后面的比较试验中，采用DQS模型作为基准模型。DQS模型较MMR模型在方面有近1％的改进，在α-nDCG@10方面有近1.9％的改善。反观PQSD模型，在所有搜索上下文策略下，与基准模型相比都实现了很大的改善，即在MRR@10方面实现了从0.8％到2.0％的提高，在α-nDCG@10方面实现了从4.3％到8.9％的提高。在NDGC方面的改善较MRR方面的改善更明显，其原因有多个：在某些情况下，冗余的查询推荐在查询列表中的排序比最终提交的查询排序低，将这些冗余查询去除以后并不会提高查询推荐准确性，但可以提高查询推荐列表的多样化。

在图表二中可以看出PQSD_CL+CS模型的效果最佳。与基准模型相比，除了PQSD_AL+AS模型，其余PQSD模型在各个指标上的提升均是显著的(α＝.01)。PQSD_AL+AS在α＝.05是提升是显著的。图表二中所有模型的实验结果，最好的基准模型结果又下划线，最好的模型结果加粗。

采用会话中所有的查询或者点击的查询作为查询上下文，以及采用用户所有查询或者仅仅是点击的查询作为用户的长期搜索历史来研究不同的个性化策略对PQSD模型的影响。事实上，当采用所有点击的查询作为用户查询上下文和搜索历史时，PQSD模型的效果最好。例如，PQSD_CL+AS效果比PQSD_AL+AS要好，同样PQSD_CL+CS比PQSD_AL+CS效果要好，因此点击查询能更精确地表达用户的查询意图，有助于提高查询推荐个性化的效果，所有的查询作为搜索上下文在推测用户查询意图时会带来噪音。

在不同的查询位置上比较这几种模型的查询推荐效果。如图5所示为本发明的查询推荐效果，随着查询上下文的丰富，查询推荐在MRR指标上也在提高，例如，在查询位置大于4时，PQSD_CL+CS比查询位置为2时的MRR指标要高。除此以外，当查询位置为1时，即查询会话中不存在查询上下文时，PQSD_AL+AS和PQSD_AL+CS的查询推荐效果比基准模型有少量的提升。

如图6所示为本发明的查询推荐效果，就查询推荐多样化而言，PQSD模型在α-nDCG指标上比基准模型的提高要比MRR指标更明显。同样的是，使用点击行为的查询在查询上下文和用户长期搜索历史中，会提高PQSD模型的查询推荐准确性和多样性。

可见本发明提供的查询推荐方法及系统，通过AOL数据集上进行实验，对比了本发明的PQSD模型和现有方法的查询推荐效果，实验结果证明PQSD模型在查询推荐的排序和多样性指标上有显著提高，具体来说，PQSD模型在MRR指标上比现有基准模型高出1.35％，在α-nDCG指标上高出6.29％。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种个性化多样化查询推荐方法，其特征在于，包括：

构建多样化查询模型，通过将用户的查询上下文，采用查询之间的共现度和语义相似度，生成多样化的查询推荐列表；

通过将用户的长期查询记录加入所述多样化查询模型中，结合贝叶斯准则，得到个性化多样化查询模型，通过获取每个查询的点击文档URL的主题分布，然后根据每个查询和URL之间的点击信息，得到每个查询的主题分布，生成多样化个性化的查询推荐列表；

其中，所述通过将用户的长期查询记录加入所述多样化查询模型中，结合贝叶斯准则，得到个性化多样化查询模型包括：通过引入用户长期的查询历史，将贪婪选择的规则修改为：

其中，u表示一个特定的用户；

根据贝叶斯准则可以得到P(q_c|q₀,a,S_C,u)：

根据贝叶斯定理，P(a,q₀,S_C|q_c)和P(u,q₀,S_C|q_c)表示为：

得出P(q_c|u)：

2.根据权利要求1所述的个性化多样化查询推荐方法，其特征在于，所述构建多样化查询模型包括：

设定贪婪选择的规则：

其中，q*表示选择的满足条件的最优查询推荐，R_I表示查询推荐的初始列表，R_s表示已选的查询推荐列表，P(q_c|q₀,a,S_C)表示查询在给定查询上下文S_C，用户输入查询q₀的条件下，查询推荐q_c满足用户查询主题a的概率；P(q_s|q₀,a,S_C)，表示在列表R_S中的查询在用户输入q₀查询上下文为S_C的情况下，满足主题a的概率；