CN108197335A

CN108197335A - 一种基于用户行为个性化查询推荐方法及装置

Info

Publication number: CN108197335A
Application number: CN201810195460.2A
Authority: CN
Inventors: 陈洪辉; 田双喜; 陈皖玉; 蔡飞; 郑建明; 郭昱普; 邵太华; 郝泽鹏
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2018-06-22
Anticipated expiration: 2038-03-09
Also published as: CN108197335B

Abstract

本发明公开了一种基于用户行为个性化查询推荐方法及装置，其中推荐方法包括如下步骤：获取初始查询步骤；清空推荐列表步骤；检测查询候选项数量步骤，获取推荐列表中的查询候选项的数量，如果查询候选项的数量小于推荐数量，则进入读取初始推荐列表步骤，如果查询候选项的数量等于推荐数量，则进入返回推荐列表步骤，筛选查询候选项步骤，依次读取查询候选项，并通过查询推荐模型算法计算每个查询候选项的得分，并将最高分所对应的查询候选项存入推荐列表，并进入检测查询候选项数量步骤；返回推荐列表步骤，返回推荐列表给特定用户；通过分析用户的长期和短期搜索记录，并且结合用户当前查询的上下文，预测用户的搜索意图，提供查询推荐。

Description

一种基于用户行为个性化查询推荐方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及一种基于用户行为个性化查询推荐方法。

背景技术

现代搜索引擎为用户提供查询推荐功能，从而帮助用户获得其预期的搜索结果以满足他们的信息需求。以前的查询推荐工作主要是针对用户的输入查询来推荐语义相关的查询。然而，个性化查询推荐旨在更好地说明个人的信息需求。到目前为止，很多个性化的查询推荐方法都是基于用户的搜索历史记录或者是用户的点击信息。例如通过对特定用户点击过的文档进行挖掘，生成相应的查询推荐候选项，但是这种方法依赖于用户的点击行为，如果用户没有点击行为或者点击行为较少，那么该方法就没有较好的个性化查询推荐的效果。或者根据用户输入的查询和相关的历史记录，给用户返回一个推荐的查询列表，对用户下一个可能输入的查询进行预测。目前的查询推荐方法主要考虑了候选查询推荐和用户输入查询之间的共现度和语义相似度，但是对于个性化的查询推荐，仅仅只考虑语义相似度没有体现用户的个性化查询。

发明内容

本发明的目的是提供一种基于用户行为个性化查询推荐方法，用于解决为客户提供更为高效、更为个性化的查询推荐，结合用户的检索历史并结合用户查询记录和查询语义，从而建立个性化查询。

为解决上述问题，本发明的第一方面提供了一种基于用户行为个性化查询推荐方法，包括如下步骤：获取初始查询步骤，获取特定用户的初始查询；清空推荐列表步骤，清空推荐列表里的内容；检测查询候选项数量步骤，获取推荐列表中的查询候选项的数量，如果查询候选项的数量小于推荐数量，则进入读取初始推荐列表步骤，如果查询候选项的数量等于推荐数量，则进入返回推荐列表步骤。筛选查询候选项步骤，依次读取初始推荐列表中的查询候选项，并通过查询推荐模型算法计算每个查询候选项的得分，并将最高分所对应的查询候选项存入推荐列表，接着从初始推荐列表中移除所述筛选查询候选项步骤中所存入所述推荐列表的所述查询候选项，并进入检测查询候选项数量步骤；返回推荐列表步骤，返回推荐列表给特定用户；查询推荐模型算法为：

通过分析用户的长期和短期搜索记录，并且结合用户当前查询的上下文，预测用户的搜索意图，提供查询推荐。

进一步地，上述基于用户行为个性化查询推荐方法中，返回推荐列表步骤包括：重新排序步骤，将已存入推荐列表中的查询候选项按照得分的高低降序排列；返回列表步骤，将根据重新排序步骤完成排列的推荐列表返回给特定用户。

通过将推荐列表中的查询候选项重新排列，使得更为接近特定用户的查询习惯，更好地满足用户的查询需求。

根据本发明的另一个方面，还提供了一种基于用户行为个性化查询推荐装置，包括：获取初始查询模块，用于获取特定用户的初始查询；清空推荐列表模块，用于清空推荐列表里的内容；检测查询候选项数量模块，用于获取推荐列表中的查询候选项的数量，如果查询候选项的数量小于推荐数量，则连接读取初始推荐列表模块，如果查询候选项的数量等于推荐数量，则连接返回推荐列表模块。筛选查询候选项模块，用于依次读取初始推荐列表中的查询候选项，并通过查询推荐模型算法计算每个查询候选项的得分，并将最高分所对应的查询候选项存入推荐列表，并进入检测查询候选项数量模块；返回推荐列表模块，用于返回推荐列表给特定用户；

其中查询推荐模型算法为：

上述基于用户行为个性化查询推荐方法，返回推荐列表模块包括：重新排序模块，用于将已存入推荐列表中的查询候选项按照得分的高低降序排列；返回列表模块，用于将根据重新排序模块完成排列的推荐列表返回给特定用户。

通过增加重新排序模块和返回列表模块，进一步优化返回给用户的推荐列表，更好地提高用户的查询体验。

可见本发明的上述技术方案具有如下有益的技术效果：通过预测用户的搜索意图，提供查询推荐，满足用户的查询需求。

附图说明

图1是本发明实施例的模型示意图；

图2是本发明实施例的流程图；

图3是本发明实施例的结构框图；

图4是不同查询相关度所占的比例示意图；

图5是MRR指标随参数λ₂变化示意图；

图6NDCG@10指标随参数λ₂变化的示意图；

图7MRR指标随参数λ₁变化的示意图；

图8NDCG@10指标随参数λ₁变化示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

第一方面，本发明提供了一种基于用户行为个性化查询推荐方法的实施例。

参照图1，本发明所提供的基于用户行为个性化查询推荐方法包括：

清空推荐列表步骤，清空推荐列表里的内容；

检测查询候选项数量步骤，获取推荐列表中的查询候选项的数量，如果查询候选项的数量小于推荐数量，则进入读取初始推荐列表步骤，如果查询候选项的数量等于推荐数量，则进入返回推荐列表步骤。

筛选查询候选项步骤，依次读取初始推荐列表中的查询候选项，并通过查询推荐模型算法计算每个查询候选项的得分，并将最高分所对应的查询候选项存入推荐列表，接着从初始推荐列表中移除所述筛选查询候选项步骤中所存入所述推荐列表的所述查询候选项，并进入检测查询候选项数量步骤；

返回推荐列表步骤，返回推荐列表给特定用户；

返回推荐列表步骤还可以包括：

重新排序步骤，将已存入推荐列表中的查询候选项按照得分的高低降序排列；

返回列表步骤，将根据重新排序步骤完成排列的推荐列表返回给特定用户。

查询推荐模型算法为：

下面对本发明所提供的一种基于用户行为个性化查询推荐方法的工作原理进行详细说明。

首先，特定用户u的当前初始查询会话，包括q₁,q₂,q₃,...,q_T，用户查询记录中主要包含用户ID，用户提交的查询，提交查询时间，以及是否存在点击行为，如果存在点击行为，则记录点击的URL以及相应URL的位置。在现有研究中，普遍以30分钟间隔作为划分查询会话的标准，即认为如果同一个用户提交两个查询的时间间隔超过30分钟，这两个查询分别在两个查询会话中。通常来说，我们认为同一个查询会话中的查询表达的是相同的查询意图。特定用户输入的初始查询为q₀，对应的初始推荐列表为R_I，个性化查询推荐的任务是根据R_I返回重新排列的推荐列表给客户，包含用户的长期和短期搜索记录，例如点击次数，点击时间等。

参照图2，当特定用户u在搜索引擎中提交初始查询q₀后，个性化的查询推荐需要根据用户提交的查询q₀，以及相关的查询历史记录，返回一个能够预测用户下一个查询的推荐列表R_s，包含查询推荐项如q_c。此时，用户u，提交初始查询q₀，以及查询推荐q_c构成一个有向概率图模型的框架，根据该概率图模型，可以得出联合概率分布形式：

P(u,q₀,q_c)＝P(u)·P(q₀|u)·P(q_c|u,q₀) (1)

其中，P(q_c|u,q₀)为查询推荐项q_c和初始查询q₀之间的相关度，根据贝叶斯准则，将公式(1)进行如下分解：

从公式(2)中，特定用户u和提交初始查询q₀概率P(u)和P(q₀|u)对最终查询推荐的重排序结果并没有影响，因此：

P(q_c|u,q₀)∞P(q₀,u|q_c)·P(q_c) (3)

假定P(q_c)服从均匀分布，因此P(q₀,u|q_c)受初始查询q₀和查询推荐项q_c之间的相关度以及特定用户u的兴趣爱好和查询推荐项q_c之间的相关度这两个因素的影响，于是引入一个权重参数λ₁，用于调节语义相似度和查询历史之间的贡献度，从而得出如下公式：

P(q₀,u|q_c)＝(1-λ₁)P(q₀|q_c)+λ₁P(u|q_c) (4)

其中，P(q₀|q_c)为初始查询q₀和查询推荐项q_c之间的相关度，P(u|q_c)为特定用户u的兴趣爱好和查询推荐项q_c之间的相关度，结合公式(3)和公式(4)，从而可以得到：

P(q_c|u,q₀)∞P(q₀,u|q_c)·P(q_c)＝(1-λ₁)P(q₀|q_c)·P(q_c)+λ₁P(u|q_c)·P(q_c) (5)

对公式(5)再次使用贝叶斯准则，可以进一步得到：

P(q_c|u,q₀)∞(1-λ₁)P(q_c|q₀)·P(q₀)+λ₁P(q_c|u)·P(u) (6)

假设概率P(u)和P(q₀)都是服从均匀分布的，那么P(q_c|u,q₀)可以进行如下估计：

P(q_c|u,q₀)∞(1-λ₁)P(q_c|q₀)+λ₁P(q_c|u) (7)

公式(7)中的第一部分P(q_c|q₀)为特定用户u提交的初始查询q₀和查询推荐项q_c之间的相关度，可以称之为查询的语义相似度；第二部分P(q_c|u)为特定用户u的兴趣爱好和查询推荐项q_c之间的相关度，下面对这两个部分展开分析：

对于第一部分，q₀和q_c之间的共现度为q₀和q_c之间的语义相关度为于是公式(7)可以得出下式：

当两个查询初始查询q₀和查询推荐项q_c经常出现在同一查询会话中，那么这两个查询的相关度相对较高，或者表达的信息需求相似，于是可以通过下式进行计算：

其中，和表示分别包含查询q₀和q_c的查询会话的个数；表示同时包含查询q₀和q_c的查询会话的个数。

对于计算查询之间的语义相似度，我们采用word2vec方法计算两个查询中单词与单词之间的相似度，word2vec方法为已知算法，故此处不再详细赘述，然后取平均值作为两个查询之间的语义相似度：

其中W＝|q₀|·|q_c|，|q|表示查询q中包含的单词个数。

P(q_c|u)∞(1-λ₂)P(q_c|u)_s+λ₂P(q_c|u)_l (11)

其中，P(q_c|u)_s由下式计算：

其中，θ_i表示q_i和q_c之间的距离，在一个查询会话中，当两个查询的位置离得越近时，这两个查询所表达的查询意图和信息越接近，可以通过下式计算θ_i：

其中，D(q_i)表示q_i和当前查询会话中最后一个查询q_T之间的位置间隔，例如D(q_T)＝0。Z_θ是一个归一化因子使得∑θ_i＝1，即：

其中，β_i由下式计算：

其中，Z_β为一个归一化因子，由下式计算：

其中，dis(q_j,q_c)由q_j和q_c向量的欧式距离，而q_j和q_c的向量表示由贝叶斯概率矩阵分解后得到用户-查询的偏好矩阵获得。

而可以P(q_c|u)_l由下式进行计算

其中，c(q,u)表示特定用户u提交查询q的次数，P(q|u)由贝叶斯概率矩阵分解得到用户-查询的偏好矩阵获得，而P(q_c|q)由公式(8)计算得出。

根据用户的点击行为得到初始的用户-查询的偏好矩阵P_UQ，其中每一项为：

其中，表示特定用户u提交查询q上的点击次数，表示取下界。

因为相对于所有的查询项来说，用户只对自己感兴趣的查询存在提交和点击行为，因此，存在大量的用户-查询的偏好数据是缺失的，因此需要采用贝叶斯概率矩阵分解的方法对这些缺失项进行预测。于是根据贝叶斯概率矩阵分解的方法，用近似矩阵来代替原始矩阵P_UQ，于是可以计算得出：

其中，N_u,M_q,k_f分别表示用户的数量，查询的数量，隐含特征的数量。通过边缘化模型参数和超参，可以预测中的每一项为：

其中，Θ₀＝μ₀,∑₀,W₀，W₀是一个威沙特分布的超参，其维度为∑₀×∑₀，Θ_U＝{μ_U,∑_U},Θ_Q＝{μ_Q,∑_Q}分别是用户和查询的超参。

由于一般搜索引擎的查询数量庞大，本实施例采用最大期望法(EM)来获得用户和查询超参的最大似然估计。

当采样次数相对较小时，最大期望法算法带来的计算复杂度为O(N_u+M_q)，下面假定所构建的初始用户-查询的偏好矩阵为P_UQ，其中有N_u个用户，M_q个查询。目标是通过引入隐式随机变量z让P_UQ去稀疏化，即预测矩阵中的数

NI180036据缺失项，最终生成模型P(R_UQ,z)。首先本实施例中引入近似矩阵与原始矩阵的相似度作为目标函数：

其中，参数为θ＝{Θ_U,Θ_Q}。

先构建相似度函数l(θ)的区域边界值(下称E步骤)，再通过最优化该边界值(下称M步骤)，不断循环直至找到最优参数。在每一个最大期望法算法循环中，假设该隐式特征符合高斯分布，因此基于Jensen’s不等式原理，可以得出：

E算法步骤为：

φ(z_i)：＝P(z_i|R_UQ(i):θ) (23)

M算法步骤为：

通过上述EM步骤不断循环，可以得到l(θ)的最大值，至此可以得到去稀疏化后的用户-查询偏好矩阵去稀疏化后的用户-查询偏好矩阵中的每个元素描述了相应的用户与查询之间的相关度，对用户行为建模时，可以用来刻画用户对某个查询的偏好程度，以及两个查询在用户层上的相似度。

于是可以得出查询推荐模型算法为：

第二方面，本发明还提供了一种基于用户行为个性化查询推荐装置，包括清空推荐列表模块、检测查询候选项数量模块、筛选查询候选项模块和返回推荐列表模块；其中获取初始查询模块用于获取特定用户的初始查询；其中清空推荐列表模块用于清空推荐列表里的内容；其中检测查询候选项数量模块，用于获取推荐列表中的查询候选项的数量，如果查询候选项的数量小于推荐数量，则连接读取初始推荐列表模块，如果查询候选项的数量等于推荐数量，则连接返回推荐列表模块；其中筛选查询候选项模块，用于依次读取初始推荐列表中的查询候选项，并通过查询推荐模型算法计算每个查询候选项的得分，并将最高分所对应的查询候选项存入推荐列表，并进入检测查询候选项数量模块；其中返回推荐列表模块，用于返回推荐列表给特定用户；

其中查询推荐模型算法为：

其中：u为特定用户，q₀为用户提交的初始查询，q_c为查询推荐候选项，为q₀和q_c之间的共现度，为q₀和q_c之间的语义相关度，P(q_c|q₀,u)为查询推荐候选项q_c和初始查询q₀之间的相关度，P(q_c|u)_s为q_c与用户的短期查询历史之间的相关度，P(q_c|u)_l为q_c与用户的长期查询历史之间的相关度，λ₁为用于调节语义相似度和查询历史之间的贡献度的权重参数，λ₂为用于调节P(q_c|u)_s和P(q_c|u)_l之间的权重参数。同时返回推荐列表模块包括：重新排序模块和返回列表模块；重新排序模块，用于将已存入推荐列表中的查询候选项按照得分的高低降序排列；返回列表模块，用于将根据重新排序模块完成排列的推荐列表返回给特定用户。

下面通过公开的数据集AOL进行的实验测试，OL是一个包含了大量实际用户查询记录的数据集，该数据集中包括的信息主要有：用户ID，查询，查询时间，URL排序，ClickedURL。其中：用户ID：每一个用户都有一个特定的ID编号；查询：用户提交的查询；查询时间：用户提交查询的时间，精确到秒；URL排序：如果用户在提交查询后，有点击的URL，该项记录URL在返回列表中的排序；Clicked URL：如果用户点击了一个URL，那么记录下这个URL，如果没有，则记为“None”。该数据集包含了用户查询记录，时间从2006年3月1日到2006年5月31日，包括：36,389,567行数据；19,442,636个用户点击行为实例；16,946,938个用户点击查询；10,154,742个不同的查询；657,426个不同的用户。

将查询记录分割为不同的查询会话，即，对同一个用户而言，前后两个查询时间间隔超过30分钟时，这两个查询被视为属于前后两个查询会话。为了便于测试保留至少有四个查询的会话。训练数据涵盖数据集2006年4月份前20天，2006年4月份最后10天的数据构成测试集。所有测试查询都需要在训练集中出现过。并删除了测试集中的不合理查询，这些查询不包含在基于查询共现度方法返回的前20个查询建议候选者中。表1详细列出了所使用的数据集的统计信息：

表1数据处理后的数据集统计信息

变量	训练集	测试集
			#查询	589,726	333,063
#不同的查询	42,274	42,274
			#查询会话	107,986	62,437
#用户	56,737	38,223
			平均#每个会话中点击的查询	4.13	4.21
平均#每个用户点击的查询	7.85	6.86

为了对查询推荐的效果进行评价，需要一个真实测量集，表示查询推荐与真实查询之间的相关度。由于数据集中无此信息，因此采用如下方法产生真实的标注集合，即查询推荐与用户下一个输入查询之间的相关度，使用5级量表(perfect＝4，excellent＝3，good＝2，fair＝1，bad＝0)：

参考图4，显示了查询之间的相关性水平的分布，这表明查询共现度的对数大部分都小于4。因此，可见公式(26)可以产生真实的标注集合。接着设置λ₁＝0.5,λ₂＝0.5进行实验测试。

测试过程中，为了能对比测试结果，分别对三种模型进行测试并记录测试结果，本发明所对应的为UB模型，Naive模型和SC模型为基准模型，分别对MRR、NDCG@5，NDCG@10这三个指标进行了测试，测试结果如表2所示：

表2不同查询模型的测试结果

模型	MRR	NDCG@5	NDCG@10
				Naive	.6611	.6213	.6416
SC	.6752	.6412	.6651
				UB	.7089^▲	.6701^▲	.6907^▲

基准模型中SC模型的指标效果最好，可以选为最好的基准模型结果，UB模型比SC模型在MRR，NDCG@5，NDCG@10上分别高出4.99％，4.51％，3.85％。可以见得如果当用户在一个查询会话中输入第一个查询，由于没有短期查询上下文信息，而从长期检索历史中预测用户在当前查询会话中的查询意图，可以有效提高查询推荐的准确性。

参考图5和图6，通过改变不同的λ₂值，从0-1来观察个性化策略对模型结果的影响，图5为MRR指标随参数λ₂的变化情况，图6为NDCG@10指标随参数λ₂的变化情况。当λ₂＝0.3时，MRR值达到最大，值得注意的是，一个较小的λ₂值带来的模型效果比较大的λ₂效果要好，例如λ₂＝0.2时，模型的效果比λ₂＝0.8时的效果好。除此之外，如果UB模型仅仅考虑用户的短期搜索历史，例如当λ₂＝0时，效果要比仅仅考虑用户的长期搜索历史好，即λ₂＝1。这表明在个性化查询推荐中，更多的考虑用户的短期搜索历史会带来更好的效果，这也是因为在同一个查询会话中，用户表达的查询主题基本相似，因此短期的查询记录更能贴近用户的查询意图。

对于NDCG@10指标，我们从图6可以得到相同的结论。当λ₂＝0.3时，NDCG@10指标值最大，与仅考虑用户短期查询行为或者只考虑用户长期查询行为的策略，UB模型的推荐效果有较大提高。这是因为用户的短期查询行为更能表现用户当前的查询意图，长期查询行为可以在没有查询上下文时对用户的查询意图进行预测，因此，将二者结合才能更有效的进行查询推荐。因此在后面的实验中，我们设置参数λ₂＝0.3，继续观察λ₁的变化对UB模型的影响。

同样的，将λ₁从0.1变化至0.9，每一次变化步长为0.1，此时λ₂＝0.3。记录UB模型的MRR值和NDCG@10指标数值，参考图7和图8，可见一个较大的λ₁会比较小的λ₁带来更好的效果，当λ₁＝0.7时，MRR的值达到最高点。这表明，在个性化查询推荐中，当前用户的行为信息比查询本身的信息更重要。而查询本身的信息，主要来自查询之间的共现度和语义相似度，这部分信息主要来自于网络搜索中其他用户提供的行为信息，而在NDCG@10指标中，也可以得出与MRR指标一样的结论，因此在个性化查询推荐中，当前用户的行为信息对提高查询推荐的准确性有更大的帮助。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于用户行为个性化查询推荐方法，其特征在于，包括：

获取初始查询步骤，获取特定用户的初始查询；

清空推荐列表步骤，清空推荐列表里的内容；

检测查询候选项数量步骤，获取所述推荐列表中的所述查询候选项的数量，如果所述查询候选项的数量小于推荐数量，则进入读取初始推荐列表步骤，如果所述查询候选项的数量等于推荐数量，则进入返回推荐列表步骤。

筛选查询候选项步骤，依次读取初始推荐列表中的查询候选项，并通过查询推荐模型算法计算每个所述查询候选项的得分，并将最高分所对应的查询候选项存入推荐列表，接着从初始推荐列表中移除所述筛选查询候选项步骤中所存入所述推荐列表的所述查询候选项，并进入检测查询候选项数量步骤；

返回推荐列表步骤，返回所述推荐列表给所述特定用户；

所述查询推荐模型算法为：

2.根据权利要求1所述的基于用户行为个性化查询推荐方法，其特征在于，所述返回推荐列表步骤包括：

重新排序步骤，将已存入推荐列表中的查询候选项按照所述得分的高低降序排列；

返回列表步骤，将根据重新排序步骤完成排列的所述推荐列表返回给所述特定用户。

3.根据权利要求1或2所述的基于用户行为个性化查询推荐方法，其特征在于：

所述查询推荐模型算法中λ₂＝0.3。

4.根据权利要求3所述的基于用户行为个性化查询推荐方法，其特征在于，

所述查询推荐模型算法中λ₁＝0.7。

5.一种基于用户行为个性化查询推荐装置，其特征在于，包括：

获取初始查询模块，用于获取特定用户的初始查询；

清空推荐列表模块，用于清空推荐列表里的内容；

检测查询候选项数量模块，用于获取所述推荐列表中的所述查询候选项的数量，如果所述查询候选项的数量小于推荐数量，则连接读取初始推荐列表模块，如果所述查询候选项的数量等于推荐数量，则连接返回推荐列表模块；

筛选查询候选项模块，用于依次读取初始推荐列表中的查询候选项，并通过查询推荐模型算法计算每个所述查询候选项的得分，并将最高分所对应的查询候选项存入推荐列表，并进入检测查询候选项数量模块；

返回推荐列表模块，用于返回所述推荐列表给所述特定用户；

其中所述查询推荐模型算法为：

6.据权利要求5所述的基于用户行为个性化查询推荐装置，其特征在于，所述返回推荐列表模块包括：

重新排序模块，用于将已存入推荐列表中的查询候选项按照所述得分的高低降序排列；

返回列表模块，用于将根据重新排序模块完成排列的所述推荐列表返回给所述特定用户。