CN105677838A

CN105677838A - 基于用户需求的用户档案创建、个性化搜索排名方法和系统

Info

Publication number: CN105677838A
Application number: CN201610005432.0A
Authority: CN
Inventors: 孟绪颖; 许志伟; 王淼; 张瀚文; 张玉军
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2016-01-04
Filing date: 2016-01-04
Publication date: 2016-06-15

Abstract

本发明提供一种基于用户需求的用户档案创建方法，包括：1)在用户进行检索的过程中，提取该用户对于所返回页面的行为特征和该用户所点击页面的页面特征向量，所述页面特征向量包括：能够反映页面布局的特征，表征页面阅读难度的特征，以及页面数据量；2)基于该用户点击过的多个页面的页面特征向量构造该用户的用户档案；其中，根据该用户对于各个页面的行为特征设置该页面的用户偏好权重。本发明还提供了相应的个性化搜索排名方法和系统。本发明能够充分适应用户对不同特征的偏好，提高排名结果的准确性；以及提高用户满意程度的评判精度。

Description

基于用户需求的用户档案创建、个性化搜索排名方法和系统

技术领域

本发明涉及信息检索技术领域，具体地说，本发明涉及一种基于用户需求的用户档案创建、个性化搜索排名方法和系统。

背景技术

目前，常用的搜索引擎只能根据查询语句文本相关程度对返回内容排名，并没有考虑用户需求的多样性和动态性特征。随着网络数据的不断增长，这种仅基于文本相关程度的排名方法越来越无法满足用户的要求。因此，如何适应不同用户的需求并对搜索所获得的页面进行个性化排序已受到广泛的关注。

目前，基于用户需求的个性化排名主要是通过增强返回页面和用户偏好的话题相关性来实现。这类基于话题相关性的排名方案中，首先收集用户的点击历史，并分析用户偏好的话题，最终让返回结果中和用户偏好话题相关程度高的话题排在较靠前的位置。提取用户偏好话题的方法主要分为两类，一类是参考ODP(OpenDirectoryProject)分类体系获取页面话题，但ODP体系中话题类型的数目是一定的；另一类是基于话题模型LDA(LatentDirichletAllocation)通过页面文本内容提取话题，这种技术的话题分类的个数不固定且准确率高于基于ODP体系的话题提取技术。

然而，不论是基于ODP体系还是基于话题模型LDA的话题提取，它们都是仅用话题这一个特征来代表用户的偏好。而用户的偏好差异并不仅仅体现在话题这一个特征上，页面的图片数目、阅读难度、页面长度等等内容也会影响用户体验。例如，有些用户偏好图片或视频更多的页面，还有些用户偏好具有一定深度的页面，在表象上，就是偏好阅读难度更高的页面。

另一方面，基于用户需求的个性化排名还存在其它一些尚待解决的难点。例如：用户的偏好分布也存在着差异，在个性化选择的过程中无法实施同一个标准；用户偏好会随着时间不断变化。

因此，当前迫切需要一种更加优化的基于用户需求的自适应个性化搜索排名解决方案。

发明内容

因此，本发明的任务是提供一种准确度更高的基于用户需求的自适应个性化搜索排名解决方案。

根据本发明的一个方面，提供了一种基于用户需求的用户档案创建方法，包括下列步骤：

1)对于每个用户，在该用户进行检索的过程中，提取该用户对于所返回页面的行为特征和该用户所点击页面的页面特征向量，所述页面特征向量包括：能够反映页面布局的特征、表征页面阅读难度的特征，以及页面数据量；

2)基于该用户点击过的多个页面的页面特征向量构造该用户的用户档案；对于所述用户档案中的每一个页面，根据该用户对于该页面的行为特征设置该页面的用户偏好权重。

其中，所述步骤1)中，所述能够反映页面布局的特征包括：页面中各类HMTL标签各自的出现频次；所述表征页面阅读难度的特征包括：页面的可读性等级和字符数。

其中，所述步骤1)和2)中，用户对于页面的行为特征包括：该用户在该页面的逗留时间。

其中，所述步骤2)还包括：对于所述用户档案中的每一个页面，在每个时间窗口，根据该页面在上一时间窗口的用户偏好权重和当前时间窗口的该用户在该页面的逗留时间，更新该页面的用户偏好权重。

根据本发明的另一个方面，提供了一种个性化搜索排名方法，包括下列步骤：

a)对于任一查询用户，搜索引擎基于该查询用户提交的查询语句进行查询，返回初始页面排名结果；

b)对于所述初始页面排名结果中的每个返回页面，计算该返回页面与当前查询用户的用户档案的相似程度；其中，每个用户的所述用户档案包括该用户点击过的多个页面的页面特征向量以及相应的用户偏好权重，其中，每个页面的所述用户偏好权重根据该用户对于该页面的行为特征设置；

c)根据各个返回页面与当前查询用户的用户档案的相似程度、所述初始页面排名结果以及各个返回页面的查询-页面相关程度，得到个性化搜索重排名结果。

其中，所述步骤b)中，所述用户档案根据前文所述的基于用户需求的用户档案创建方法创建。

其中，所述步骤b)中，计算所述返回页面与当前查询用户的用户档案的相似程度的过程包括下列子步骤：

b1)根据页面相似度，从当前查询用户的用户档案中提取一组用户档案页面作为所述返回页面的参照页面组；

b2)计算所述返回页面与参照页面组各个页面的页面相似度的加权和，得到所述返回页面与当前查询用户的用户档案的相似程度；所述页面相似度根据所述页面特征向量的相似度得出，计算所述加权时，各个页面相似度的权重为用户档案中该页面的当前用户偏好权重。

其中，所述步骤b1)还包括：选择与所述返回页面的页面相似度超过预设页面相似度阈值的用户档案页面组成所述参照页面组。

其中，所述步骤c)还包括：根据各个返回页面与当前查询用户的用户档案的相似程度，初始页面排名结果，以及查询-页面相关程度，基于个性化排名模型得出页面重排名结果；其中，所述个性化排名模型根据返回页面和用户档案的相似程度、初始页面排名结果和各个返回页面的查询-页面相关程度这三个特征，以页面逗留时间长度为目标，基于有监督的机器学习算法训练得出。

根据本发明的又一个方面，提供了一种个性化搜索排名系统，包括：

信息检索模块，用于对于每个用户，在该用户进行检索的过程中，提取该用户对于所返回页面的行为特征和该用户所点击页面的页面特征向量，所述页面特征向量包括：能够反映页面布局的特征、表征页面阅读难度的特征以及页面数据量；还用于对于任一查询用户，搜索引擎基于该查询用户提交的查询语句进行查询，返回初始页面排名结果；

用户档案模块，用于基于该用户点击过的多个页面的页面特征向量构造该用户的用户档案；以及对于所述用户档案中的每一个页面，根据该用户对于该页面的行为特征设置该页面的用户偏好权重；

相似程度计算模块，用于对于所述初始页面排名结果中的每个返回页面，计算该返回页面与当前查询用户的用户档案的相似程度；以及

重排名模块，用于根据各个返回页面与当前查询用户的用户档案的相似程度、初始页面排名结果以及各个返回页面的查询-页面相关程度，得到个性化搜索重排名结果。

与现有技术相比，本发明具有下列技术效果：

1、本发明能够充分适应用户对不同特征的偏好，满足不同用户的个性化需求，优化用户体验。

2、本发明能够适应用户档案中页面分布的差异性，排除不相关页面的影响，从而提高排名结果的准确性。

3、本发明能够动态跟踪用户偏好随时间的变化，从而提供更加准确的排名。

4、本发明能够提高用户满意程度的评判精度。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1示出了本发明一个实施例中的基于用户需求的自适应个性化搜索排名方法的整体流程；

图2示出了本发明一个实施例中λ-KNN算法的示意图；

图3示出了本发明一个实施例中的基于用户需求的自适应个性化搜索排名系统的框架示意图。

具体实施方式

根据本发明的一个实施例，提出了一种基于用户需求的自适应个性化搜索排名方法，该方法包括信息检索步骤，自适应用户档案创建步骤和个性化重排名步骤。下面对这些步骤进行详细描述。

一、信息检索步骤

在信息检索步骤中，接收用户提交的查询语句，利用搜索引擎进行查询，得到相关的各个页面，然后再根据各个页面和查询语句的语义相关程度返回初始页面排名结果。需注意的是，这个初始页面排名结果并不考虑语义的多义和查询语句的模糊等问题，如搜索词“模型”可能是指玩具模型也可能是指数学模型，初始结果只考虑和搜索词的关系，并不考虑用户偏好，它是为所有用户提供统一的结果。

然后，记录用户收到初始页面排名结果后的操作行为。该操作行为包括用户针对各个页面的点击次数和逗留时间。

表1示出了在一个例子中的搜索引擎针对搜索词“模型”所返回的初始页面排名结果。返回页面中包括军事模型、玩具模型、动画模型等多种内容，用户逗留时间依次分别为0s,20s,10s,15s,2s,5s,4s,5s,2s,1s。

表1

二、自适应用户档案创建步骤

本步骤主要是基于信息检索步骤所积累的数据，为每个用户构建自适应用户档案。该用户档案中记录该用户在页面排名结果后的历史操作行为，及所点击页面的多元页面特征。

所述自适应用户档案创建步骤包括下列子步骤：

步骤201：从信息检索步骤的结果中提取用户行为特征和页面特征。

本步骤中，为了适应用户多样的偏好和需求，需要提取用户行为特征和页面特征。其中，用户行为特征就是信息检索步骤所记录的用户收到初始页面排名结果后的操作行为。该操作行为包括用户针对各个页面的点击次数和逗留时间。

页面特征是指页面的多元特征，这些特征包括：页面中各类HMTL标签各自的出现频次，可读性等级和字符数，以及页面数据量。其中，各类HMTL标签各自的出现频次能够反映页面的布局，可读性等级和字符数能够直接反映用户的阅读难度，页面数据量可以间接反应多媒体资源的数量以及页面加载时间等信息，上述这些特征都与用户偏好相关。例如，有些用户偏好长且难的内容，而这样的内容可以由页面的字符数和可读性等级这两个特征体现；有些用户喜好多媒体资源多的页面，这种页面可以由页面数据量和页面所包含的HMTL标签类型(例如<meta>或者<img>等)及其出现频次来体现。

步骤202：提取页面多元特征后，将用户u点击过的页面构造成用户档案D_u。用户档案D_u中记录了用多元特征向量d_i＝{f_i1,f_i2,...,f_im}表征的用户u点击过的每个文档d_i的信息。其中，f_ik是页面d_i的第k个特征，m是特征的总数。

步骤203：为用户档案D_u中的每个文档d_i附上用户偏好权重w_i。

由于用户偏好可能会不断地变化，因此，在一个实施例中，为了适应偏好的动态改变，在设置用户偏好权重w_i时考虑到了用户偏好的衰减。具体如下：

在用户档案D_u中，对于任一文档d_i，在时间窗口t中，结合上一时间窗口的用户偏好权重w_i(t-1)和当前(即当前时间窗口t)的逗留权重最终计算出页面d_i的当前权重w_i(t)。根据本发明的一个实施例，页面在时间窗口t的逗留权重计算方法如下。

{dwellWeight}_{i}^{t} = \frac{{dwell}_{i}^{t}}{\max ({dwell}^{t})}

这里表示用户在当前时间窗口t下在页面d_i的逗留时间，max(dwell^t)表示在时间窗口t的最大逗留时间。

进一步地，结合w_i(t-1)和得到当前用户偏好权重w_i(t)。

w_{i} (t) = w_{i} (t - 1) \times e^{- (t - l a s t) \frac{l o n 2}{h l} + {dwellWeight}_{i}^{t}}

这里t-last表示自上次点击至当前的时间间隔，hl为衰减因子，它用于表示用户偏好的衰减速度。

这样，最终的用户档案D_u表示为D_u＝{(d₁,w₁(t)),(d₂,w₂(t)),...,(d_n,w_n(t))}，这里n是指用户u的用户档案D_u中的页面个数。

三、个性化重排名步骤

本步骤主要是基于用户档案D_u，对基于新的查询语句的初始页面排名结果进行个性化重排名。该个性化重排名步骤包括下列子步骤：

步骤301：计算初始页面排名结果中所返回的各个页面与用户档案D_u中各个页面的相似度。

步骤302：对搜索引擎返回的任一页面d_j(下文中称为返回页面d_j)，在用户档案中选择一组相关程度较高的页面作为参照，本文中把作为参照的这组页面称为页面组D_ug。基于新的查询语句所得的返回页面可能是用户档案中没有的新页面，因此，为了使搜索结果满足用户的个性化需求，需要结合用户个人的用户档案，对比用户档案中页面特征和返回页面的特征相似程度。

进一步地，由于用户档案中不同类型的页面的分布不均，如果页面组D_ug中的页面数目固定，那么可能会选到一些不相关的页面，影响最终的个性化排名结果的准确性。因此，在一个实施例中，所述步骤302中采用了一种λ-KNN算法来选择页面组D_ug。图2展示了λ-KNN算法的示意图，其中方块表示待分析的返回页面d_j，三角表示用户档案中的页面，黑三角表示和待分析的返回页面相关程度最高的k个页面，圆圈表示相似度阈值λ的取值范围。

该实施例的步骤302中，为了排除不相关页面的影响预先设置阈值λ。然后利用传统的KNN算法选取出和返回页面d_j相关程度最大的k个页面，再删除相关程度小于预设阈值λ的页面，最终得到了适应不同页面特征分布的所含页面数目不固定的页面组D_ug。

步骤303：计算当前返回页面d_j与页面组D_ug的相似度其中，w_i(t)是前面步骤所得到用户偏好权重，sim(d_i,d_j)是返回页面d_j和页面组D_ug中的页面d_i的相关程度(即相似度)。

s i m (d_{i}, d_{j}) = 1 - \frac{\sqrt{Σ_{m = 1}^{n} {(f_{i m} - f_{j m})}^{2}}}{n}

需说明的是，由于多元特征的取值范围不同，为便于计算，多元特征向量中的所有特征都归一化到区间[0,1]中。cscore_uj也可以称为页面d_j对于用户u的个性化页面特征相似度。

下面结合一个具体例子进行说明。为了简化说明，将表征页面的特征向量简化为只有三个特征，分别是：HMTL标签的出现频次，页面内容难度(可根据页面的可读性等级和字符数得出)，以及页面数据量。这三个特征均做归一化处理。

设用户档案中有10个页面A1-A10，偏好权重分别为0.4,0.5,0.6,0.7,0.5,0.8,0.9,0.5,0.4，特征向量分别为A1＝(0.3,0.5,0.7)，A2＝(0.3,0.2,0.5)，A3＝(0.8,0.1,0.2)，A4＝(0.1,0.1,0.1)，A5＝(0.2,0.9,0.2)，A6＝(0.3,0.1,0.7)，A7＝(0.5,0.6,0.8)，A8＝(0.7,0.2,0.1)，A9＝(0.6,0.5,0.2)，A10＝(0.2,0.2,0.8)。

为了计算初始结果页面(即返回页面)和用户档案的相似程度cscore，首先提取和返回页面相关程度较高的用户档案页面。为了简化过程，这里对初始结果的前3名进行重排名，且设KNN中k为3，假设这3个页面的特征向量B1＝(0.1,0.2,0.1)，B2＝(0.1,0.8,0.2)，B3＝(0.8,0.3,0.9)。

A1和B1的相关程度为

s i m (A 1, B 1) = 1 - \frac{\sqrt{{(0.3 - 0.1)}^{2} + {(0.5 - 0.2)}^{2} + {(0.7 - 0.1)}^{2}}}{3} = 0.77

分别计算A1-A10和B1-B3的相关程度得到和B1相关程度最高的3个页面为A2,A4,A9，相关程度为0.85,0.97,0.80。和B2相关程度最高的3个页面为A1,A5,A9，相关程度为0.79,0.95,0.81。和B3相关程度最高的3个页面为A1,A6,A7，相关程度为0.81,0.81,0.85。

设置λ为0.8，由于和B2相关程度最高的3个页面中A1的相关程度低于0.8，所以计算B2时不考虑A1的影响。结合偏好程度，得到B1的cscore为

\csc o r e = \frac{(\begin{matrix} 0.85 \\ 0.97 \\ 0.80 \end{matrix}) * (\begin{matrix} 0.5 & 0.7 & 0.5 \end{matrix})}{(0.4 + 0.5 + 0.6 + 0.7 + 0.5 + 0.8 + 0.9 + 0.5 + 0.4)} = 0.27

同理，可计算得到B2和B3的cscore分别为0.21、0.33。

步骤304：根据返回页面和用户档案的相似程度，初始排名和查询-页面相关程度这三个特征，以逗留时间长度为目标，利用基于机器学习算法LambdaMART预测用户满意程度。

在一个实施例中，自适应提取用户档案后，每个初始返回页面d_j都得到了个性化页面特征相似度cscore_uj，这个相似度能够表征该返回页面d_j与相应的用户u的用户档案的相似程度。另一方面，除了页面特征，个性化搜索结果还需要考虑和查询语句的关系，即查询-页面相关程度，本实施例中，用LDA值代表查询-页面相关程度。

Lambdamart算法是一种用于排序的有监督的机器学习算法，本实施例中，将由逗留时间计算出的满意程度排名作为该机器学习的输出目标(target)，将特征cscore_uj、LDA和搜索引擎返回的初始排名这三个特征作为输入特征，分析各特征对输出目标的影响，通过多次迭代分析训练出每个特征的分裂参数，学习完毕后，可得到训练后的个性化排名模型(也可称为重排名模型)。基于这个个性化排名模型，即可得到较准确输出结果。

由于训练目标是使输出结果和输出目标一致，所以更高精度的输出目标可以更精确地拟合用户满意程度，得到更满足用户需求的搜索结果。本实施例中，为了更好地评判用户对个性化搜索排名结果的满意程度，使用了用户在页面的逗留时间这一指标来评价用户的满意程度，逗留时间越长则满意程度越高。这与现有技术中仅依靠用户是否点击页面来评价用户的满意程度相比，能够更加客观地反映用户体验。

仍然以前文的例子为例进行说明。如前文所述，B1、B2和B3的cscore分别为0.27、0.21、0.33。再假设B1～B3的LDA值分别为(0.5,0.7,0.8)，B1～B3的初始排名分别为1、2、3。然后再基于网页重排名模型得到排名：B2、B1、B3，这个排名就是个性化搜索结果。在实践验证中，用户逗留时间与这个个性化搜索结果相符。如前文所述，上述重排名模型是以用户逗留时间为目标，将cscore、LDA和初始排名这三组特征放入机器学习算法LambdaMART中进行分析，由于机器学习算法的多次训练学习而得到的网页排名模型。

进一步地，发明人将本发明的算法(AMM算法)与只考虑话题的LDA算法进行了对比测试，在实际测试中，本发明的算法在测试集nDCG3下提高了10.3％，在nDCG5下提高了6.3％，在nDCG10下提高了5.2％。表2示出了AMM算法与LDA算法的对比测试数据。

表2

	nDCG3	nDCG5	nDCG10
				LDA	0.7014	0.7685	0.8561
AMM	0.7346	0.8170	0.9077
				improved	10.3％	6.3％	5.2％

进一步地，根据本发明的一个实施例，还提供了一种基于用户需求的自适应个性化搜索排名系统，图3示出了该系统的框架示意图。参考图3所述排名系统包括：信息检索模块、自适应用户档案模块和个性化重排名模块。其中，信息检索模块用于信息检索，即用于实现上述步骤一的功能。自适应用户档案模块用于自适应用户档案创建，即用于实现上述步骤二的功能。个性化重排名模块用于个性化重排名，即用于实现上述步骤三的功能。

最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其它的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims

1.一种基于用户需求的用户档案创建方法，包括下列步骤：

2.根据权利要求1所述的基于用户需求的用户档案创建方法，其特征在于，所述步骤1)中，所述能够反映页面布局的特征包括：页面中各类HMTL标签各自的出现频次；所述表征页面阅读难度的特征包括：页面的可读性等级和字符数。

3.根据权利要求1所述的基于用户需求的用户档案创建方法，其特征在于，所述步骤1)和2)中，用户对于页面的行为特征包括：该用户在该页面的逗留时间。

4.根据权利要求3所述的基于用户需求的用户档案创建方法，其特征在于，所述步骤2)还包括：对于所述用户档案中的每一个页面，在每个时间窗口，根据该页面在上一时间窗口的用户偏好权重和当前时间窗口的该用户在该页面的逗留时间，更新该页面的用户偏好权重。

5.一种个性化搜索排名方法，其特征在于，包括下列步骤：

6.根据权利要求5所述的个性化搜索排名方法，其特征在于，所述步骤b)中，所述用户档案根据权利要求1～4中任一项所述的基于用户需求的用户档案创建方法创建。

7.根据权利要求5所述的个性化搜索排名方法，其特征在于，所述步骤b)中，计算所述返回页面与当前查询用户的用户档案的相似程度的过程包括下列子步骤：

8.根据权利要求7所述的个性化搜索排名方法，其特征在于，所述步骤b1)还包括：选择与所述返回页面的页面相似度超过预设页面相似度阈值的用户档案页面组成所述参照页面组。

9.根据权利要求5所述的个性化搜索排名方法，其特征在于，所述步骤c)还包括：根据各个返回页面与当前查询用户的用户档案的相似程度，初始页面排名结果，以及查询-页面相关程度，基于个性化排名模型得出页面重排名结果；其中，所述个性化排名模型根据返回页面和用户档案的相似程度、初始页面排名结果和各个返回页面的查询-页面相关程度这三个特征，以页面逗留时间长度为目标，基于有监督的机器学习算法训练得出。

10.一种个性化搜索排名系统，包括：