CN105574095A

CN105574095A - 上下文敏感的用户行为智能预测方法

Info

Publication number: CN105574095A
Application number: CN201510919488.2A
Authority: CN
Inventors: 董政; 吴文杰; 陈露; 李学生
Original assignee: Chengdu Mo Yun Science And Technology Ltd
Current assignee: Chengdu Mo Yun Science And Technology Ltd
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-05-11

Abstract

本发明提供了一种上下文敏感的用户行为智能预测方法，该方法包括：通过用户行为信息建立兴趣向量，调整检索词的权值，向用户返回检索结果列表。本发明提出了一种上下文敏感的用户行为智能预测方法，有效提高互联网用户特征的识别准确率和时效性。

Description

上下文敏感的用户行为智能预测方法

技术领域

本发明涉及大数据，特别涉及一种上下文敏感的用户行为智能预测方法。

背景技术

随着移动互联网的发展，网络内容给用户提供了丰富的信息资源和服务然而网络上信息质量却是参差不齐，大量的信息被复制、转载，各种推广信息广告检索结果，已经影响了用户体验；如果对于所有用户相同的检索词输入返回一样的检索结果恐怕已经不是用户希望的。只采用检索词匹配的方式，而忽略独立用户的真正需求，也就是不结合用户行为(包括用户兴趣、用户偏好、用户查询记录)和检索词而对用户本次查询意图做出准确的判断，将无法给出符合用户需求的结果。现有的技术方案是通过用户的注视历史或个人描述信息为用户建立兴趣特征向量，再利用该向量对检索返回的检索结果进行相似度的计算，这往往将一些用户真正需要的却没有在向量内的信息排除在外。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种上下文敏感的用户行为智能预测方法，包括：

通过用户行为信息建立兴趣向量，调整检索词的权值，向用户返回检索结果列表。

优选地，所述通过用户行为信息建立兴趣向量，进一步包括：

基于ODP分类构建兴趣树结构，树结构的每个节点对应一个兴趣检索词，具有兴趣节点类型标识符，根据兴趣节点在兴趣树结构中的不同层次具有不同的权值，对树结构特征词进行别名和近义词扩充；

所述兴趣向量中的元素是一个键值对，分别是兴趣树结构中的标识符和具有的权值；在兴趣确定过程中设定阈值，只有达到该阈值的特征词才能被判别为兴趣，并在之后的兴趣更新阶段进行权值增加，或者权值减少；在检索结果特征词的提取上进行过滤，检索结果进行分词并取消停用词之后，采用低频阈值来筛选检索结果特征词；在原检索结果特征词提取规则上设置高频上限，即词条频率超过了高频阈值的词条不能被判别为检索结果特征词，在特征词确定的同时记录该词的词频和出现的位置信息，用于确定为兴趣特征词之后的权值计算；

兴趣特征词的确定在检索结果特征词汇判别之后，根据检索结果特征词所有页面出现的次数来确定，兴趣特征词的判别公式表示如下：

I_term＝(1/n)(T_page+T_search-d)+T_submit

其中，I_term是判别兴趣特征词时的兴趣度值，如果值大于1则判别为兴趣词；T_page是指包含兴趣特征词的兴趣对象数量；T_search是用户手动输入的检索词出现的次数；T_page和T_search是累加计算的；n是满足兴趣特征词条件的计数阈值，只有T_page+T_search-d的值大于等于n才能被判别为兴趣词；T_submit则是用户提交的兴趣词，该值只能为0或者1；

用户兴趣的更新包括，根据兴趣特征词使用频率计算兴趣词的权值的变化，在特征词判别为兴趣特征词后，设置其初始化权值为1，该值是兴趣词的最小权值，如果权值小于1那么该词则从兴趣向量中取消；在确定为兴趣特征词之后进行权值分配计算，该权值计算根据词频以及词条在页面中出现的位置；将权值计算公式表示为：

w_{i} = w_{0} + (1 / n) Σ_{i = 1}^{k} w_{p i}

其中w_i，表示兴趣特征词的权值，w₀是权值初始值，即判别为兴趣特征词后设置的初值为1，是包含兴趣特征词检索结果的平均权值，n为包含该兴趣特征词的检索结果数，k为兴趣特征词在所有检索结果中出现的总数；w_pi是相应检索结果中检索词的权值。

本发明相比现有技术，具有以下优点：

本发明提出了一种上下文敏感的用户行为智能预测方法，有效提高互联网用户特征的识别准确率，充分考虑到检索结果与用户查询内容的相关度，应用广泛，实现方便。

附图说明

图1是根据本发明实施例的上下文敏感的用户行为智能预测方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种上下文敏感的用户行为智能预测方法。图1是根据本发明实施例的上下文敏感的用户行为智能预测方法流程图。本发明的方案在原通用检索架构基础上增加用户兴趣模块，采用查询改进与权值设置结合方式。用户输入检索词后由兴趣向量调整查询信息，并根据用户兴趣设定不同的权值初始值，在返回结果列表中调整排列顺序。

在检索架构中，信息采集模块负责收集用户数据，包括用户检索词，注视行为，网页注视时间等能够反映用户特征的信息，为构建用户兴趣模型作准备。然后兴趣模块根据本次查询内容结合用户兴趣，优化调整用户检索检索词，同时将兴趣向量和调整后的查询词作为参数传递到排序公式中，最后把经过优化过滤的检索结果列表返回给用户端浏览器。

信息采集模块包括检索词提取和用户相关操作两部分：1)检索词提取，是对用户在检索界面输入的内容进行检索词分析提取，通过分词器对用户查询内容进行分词处理。每个词对应一个Term，最后得到一个查询向量V(q)＝(term₁，term₂，term₃…term_n)其中n>1，其中查询向量的每个维度都带有一个数值，表示检索词对应的权值，用来标识检索词的重要程度。2)获取用户相关操作信息。用户在注视结果列表的过程中，可能只是因为标题吸引而点击了排名靠前的检索结果，但是检索结果内容并不符合用户需求。所以首先要根据用户注视行为判别兴趣对象，再通过兴趣对象进行分析构建兴趣模型。

注视时间长度、在注视检索结果的时候是否进行内容复制，收藏等交互操作均表征兴趣对象的关系。综上考虑对用户注视检索结果进行估计从而得出检索结果是否为用户的兴趣对象，用作构建兴趣模型的参考内容。具体估计公式如：

Ip＝α×T_b+β×U_o

其中：

T_{b} = \frac{1}{\sqrt{2 π δ}} \exp (- \frac{{(Δ t - t)}^{2}}{2 δ^{2}})

U_o＝a×C_copy+b×S_save+G×R_reply

Ip表示检索结果兴趣度分值，α和β是调整系数，通过不同的值反映检索结果注视时间和检索结果交互操作在估计公式中占的比重，其中α+β＝1。T_b是用户在检索结果停留的时间维度，通过正态分布来计算，反映出用户的注视检索结果时间。注视时间△t与参考时间t的接近程度反映兴趣度，注视时间过长或者过短都会降低兴趣在检索结果注视时间上的分值，t是根据文档长度决定的，t和检索结果长度成正比关系。U₀是用户在检索结果上的交互操作，C_copy表示用户是否在检索结果进行复制操作，是则值为1，否值为0；S_save表示用户是否进行检索结果保存操作，是则值为1，否值为0；R_reply表示对于检索结果是否进行反馈相关操作，是则值为1，否值为0。a、b和c是U₀的调整系数，根据不同的操作对是否是兴趣对象评判的重要程度，分别对系数设置不同的值。

本发明将用户兴趣分成普遍兴趣和特定兴趣，这里的普遍兴趣不属于任何一个用户，它是脱离用户独立存在的，可以看作特征词构成的树结构。而特定兴趣则是上述树结构的节点集合，具有普遍兴趣的兴趣节点类型标识符，根据兴趣节点在兴趣树结构中的不同层次具有不同的权值。使得兴趣模型是脱离用户依赖，在索引阶段或者是离线阶段兴趣模型不受到限制的使用。本发明兴趣模型基于ODP分类构建的，树结构的每个节点对应一个兴趣检索词，为扩展兴趣模型的覆盖面以及在实际中的应用，还需要对树结构特征词进行别名和近义词扩充。

特定兴趣将兴趣特征词改成了特征词在兴趣树结构里的标识符，利用兴趣特征词扩展成兴趣词汇的集合，具体体现在用户兴趣模型的标识符，在还原用户兴趣和应用过程中，对树结构进行解析和扩展。一方面是近义词扩展，另一方面对有歧义或者是包含关系的特征词进行语义分析和兴趣特征词判别。用户兴趣是通过向量表示，向量中的元素是一个键值对，分别是兴趣模型中的标识符和具有权值。

一般用户兴趣模型的构建需要先经过检索结果预处理和检索结果分类再来实现。所使用的检索结果先经过兴趣对象判别。在兴趣确定上设定一个阈值，只有达到阈值的特征词才能被判别为兴趣，并在之后的兴趣更新阶段进行权值增加，或者权值减少到取消该兴趣。在检索结果特征词的提取上进行一定的过滤，检索结果进行分词并取消停用词等相应处理之后，采用低频阈值来筛选检索结果特征词。

为防止对特征词的提取造成误导的影响，在原检索结果特征词提取规则上设置了高频上限，在一定程度上遏制检索词堆砌的对用户兴趣判别的影响。词条频率超过了高频阈值的词条同样不能被判别为检索结果特征词，在特征词确定的同时记录该词的词频和出现的位置信息，用于确定为兴趣特征词之后的权值计算。兴趣特征词的确定在检索结果特征词汇判别之后，根据检索结果特征词所有页面出现的次数来确定，兴趣特征词的判别公式表示如下：

I_term＝(1/n)(T_page+T_search-d)+T_submit

其中，I_term是判别兴趣特征词时的兴趣度值，如果值大于1则判别为兴趣词。T_page是指包含兴趣特征词的兴趣对象数量；T_search是用户手动输入的检索检索词出现的次数；T_page和T_search是累加计算的。n是满足兴趣特征词条件的计数阈值，只有T_page+T_search-d的值大于等于n才能被判别为兴趣词。T_submit则是用户提交的兴趣词，该值只能为0或者1。

用户兴趣模型的更新策略依据是兴趣特征词使用频率的变化，具体计算体现兴趣词的权值变化。在特征词判别为兴趣特征词后，需要设置其初始化权值为1，该值是兴趣词的最小权值，如果权值小于1那么该词应该从兴趣向量中取消。在确定为兴趣特征词之后还需要根据词的重要性进行一次权值分配计算，除了词频还有根据词条在页面中出现的位置，位置关系的重要性通过检索结果中源文件标记来识别。

将权值计算公式表示为：

w_{i} = w_{0} + (1 / n) Σ_{i = 1}^{k} w_{p i}

其中w_i，表示兴趣特征词的权值，w₀是权值初始值，即判别为兴趣特征词后设置的初值为1，是包含兴趣特征词检索结果的平均权值，n为包含该兴趣特征词的检索结果数，k为兴趣特征词在所有检索结果中出现的总数。w_pi是相应检索结果中检索词的权值，同样如果文档中检索词出现的频率越高最后计算的也越大。

兴趣检索词不被用户使用，相当于用户在忽略该兴趣词，因此将兴趣忽略过程描述为：

F(t)＝e^-log2/(hSt)

其中，St是时间间隔，表示检索词最后一次更新到现在的时间，即当前时间减去最后一次更新时候的天数。h是预设周期，经过h天后F(t)的值为原值一半。

最后得到的权值更新计算公式为：

w_i＝w_i×F(t)+yN

其中，N为兴趣特征词被更新的次数，y为每次兴趣词被使用后权值增加系数。

在用户兴趣形成时默认都是短期兴趣，随着N的增加，表示该词经常被使用，当其值超过阈值就将该兴趣判别为长期兴趣，本发明使用的N阈值为100。

综上所述，本发明提出了一种上下文敏感的用户行为智能预测方法，有效提高互联网用户特征的识别准确率和时效性。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种上下文敏感的用户行为智能预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过用户行为信息建立兴趣向量，进一步包括：

I_term＝(1/n)(T_page+T_search-d)+T_submit

w_{i} = w_{0} + (1 / n) Σ_{i = 1}^{k} w_{p i}