CN109636473A

CN109636473A - 一种基于在线用户观影行为的兴趣偏好挖掘方法

Info

Publication number: CN109636473A
Application number: CN201811531375.5A
Authority: CN
Inventors: 廖好; 吴佼; 吴向阳; 张晓洁; 周明洋; 陆克中; 毛睿
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-04-16
Also published as: WO2020118649A1

Abstract

本发明适用于兴趣偏好挖掘研究技术领域，提供了一种基于在线用户观影行为的兴趣偏好挖掘方法，该方法包括步骤：S10、根据用户选择观影产品行为获取用户对观影产品的评分数据；S20、根据所述用户对观影产品的评分数据，过滤掉所述低评分数据集；S30、将所述高评分数据集的90％作为训练集，将所述高评分数据集的10％作为测试集；S40、训练所述训练集，估算每个用户的个性化参数；S50、根据每个用户的个性化参数预测该用户对未选择观影产品的偏好值；S60、根据偏好值大小对未选择观影产品进行递减排序，选择位于前列的多个观影产品作为该用户的推荐。本发明能够最大限度地满足对在线用户观影行为的兴趣偏好需求。

Description

一种基于在线用户观影行为的兴趣偏好挖掘方法

技术领域

本发明属于兴趣偏好挖掘研究技术领域，尤其涉及一种基于在线用户观影行为的兴趣偏好挖掘方法。

背景技术

随着互联网的兴起，人们在互联网中分享与交流着各类信息。人们在日常生活中享受着互联网带来的便捷服务的同时，产生了巨大的行为数据。人们的行为数据往往隐含了用户的偏好、习惯、行为模式等有价值信息。如果能通过用户的行为数据，挖掘其背后的用户行为发生机制和用户偏好，这不仅可以让人们更深刻的认识自身与发现人类的行为特征，而且还能帮助人们更高效且更精确的找到自己想要的信息。

近年来，人类行为动力学的研究慢慢兴起，人类行为动力学一般更侧重于分析人类在某一类特定行为上表现出来的一些规律。当前，不同的学者们在人类行为动力学领域有了广泛的研究，包括，在线系统、电子邮件往来、互联网金融交易、网页浏览等。大部分研究表明，人类的行为模式中的时间间隔分布常常呈现出偏离传统的泊松分布，而是表现出了一个具有长尾特征的幂律分布特性。有的文献利用一种简单的基于排队论的模型刻画人类行为在时间维度上呈现偏离泊松分布的特征。有的文献揭示了人类行为在空间维度上的某些行为特征，揭示出了基于人类的长程旅行行为表现出的独特性质，这种属性特征和传统的随机游走模式不尽相同。人类动力学从不同的视觉不同的维度对人类活动的行为模式进行了多方面的理解与探索。例如，电子邮件存在着非常低的病毒感染率但依然存在病毒风险问题，有的文献解释了人们处理电子邮件往来的间隔时间呈现非泊松分布的现象。有的文献用另一种方法解释了异质的接触网络度分布。随机过程和排队论的发展推动了人类行为动力学领域更多的发现与理解。一些人类行为动力学的研究具有一定的现实意义。例如，通过对人类长程出行行为的时间特性与规律的研究将促进对全球性的传染病的控制；对于非正常频繁跨国出行的异常行为来识别恐怖分子的研究、对于识别非正规目的的网络舆情控制行为的研究，体现了人类行为呈现的阵发性；对于公共设施和商业设施放置地点的选取研究体现了人类群体出行活动对交通建设和道路规划的潜在价值；对人类上网行为的分析将促进互联网的便捷服务。

大量研究表明，对于更偏向用户的自主性的行为，往往具有非泊松分布的统计特性。为了探究这一统计特性的根本原因，近年来不少动力学和非动力学模型相继被提出，这些模型往往基于现实生活中人类活动的真实背景做出的一系列假设。Barab á si提出了一种任务队列模型，这种模型从现实情况出发，探究影响人类行为的真正因素，探索非泊松分布特性的真正根源。除此之外，不同学者还从任务队列模型以外的其他视角研究别的模型等。

然而，尽管各个学者对人类行为的行为模式与规律进行了广泛的研究，但是用宏观模式的定量和量化用户兴趣行为的研究仍然非常有限。

发明内容

本发明实施例所要解决的技术问题在于提供一种基于在线用户观影行为的兴趣偏好挖掘方法，旨在解决现有技术中采用宏观模式的定量和量化用户兴趣行为研究有限的问题。

本发明实施例是这样实现的，提供一种基于在线用户观影行为的兴趣偏好挖掘方法，包括步骤：

S10、根据用户选择观影产品行为获取用户对观影产品的评分数据，所述用户对观影产品的评分数据由低评分数据集和高评分数据集组成；

S20、根据所述用户对观影产品的评分数据，过滤掉所述低评分数据集；

S30、将所述高评分数据集的90％作为训练集，将所述高评分数据集的10％作为测试集；

S40、利用机器学习方法，训练所述训练集，并在训练过程中不断估算每个用户的个性化参数；

S50、根据每个用户的个性化参数预测该用户对未选择观影产品的偏好值；

S60、根据该用户对未选择观影产品的偏好值大小对未选择观影产品进行递减排序，选择位于前列的多个观影产品作为该用户的推荐。

进一步地，所述用户对观影产品的评分数据由评分1-5中的各个评分数据组成，所述低评分数据集为低于评分3的各个评分数据组成，所述高评分数据集由评分3-5中的各个评分数据组成。

进一步地，在所述步骤S30与步骤S40之间，还包括如下步骤301：

将所述高评分数据集中的90％训练集按照9:1的比例再划分成第一训练集和第一测试集，利用机器学习方法，训练所述第一训练集，并在训练过程中不断估算每个用户的个性化参数。

进一步地，在步骤301中，将所述第一训练集按照9:1的比例再划分成第二训练集和第二测试集，利用机器学习方法，训练所述第二训练集，并在训练过程中不断估算每个用户的个性化参数。

本发明实施例与现有技术相比，有益效果在于：本发明从在线系统中的用户观影行为产生的数据入手，利用在线系统的用户选择观影产品行为数据，通过对在线系统中的用户行为数据进行多维度的分析获取用户对观影产品的评分数据。接着，根据用户对观影产品的评分数据过滤掉低评分数据集，将高评分数据集中的90％作为训练集，将高评分数据集中的10％作为测试集；利用机器学习方法，训练所述训练集，并在训练过程中不断估算每个用户的个性化参数；预测该用户对未选择观影产品的偏好值，最后根据偏好值的大小对未选择观影产品进行递减排序，选择位于前列的多个观影产品作为该用户的推荐，其能够最大限度地满足对在线用户观影行为的兴趣偏好需求。

附图说明

图1是本发明实施例提供的基于在线用户观影行为的兴趣偏好挖掘方法的流程图。

图2是本发明实施例中用户的最优个性化混合参数在MovieLens和Netflix中的分配值示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，是本发明实施例提供的一种基于在线用户观影行为的兴趣偏好挖掘方法，该兴趣偏好挖掘方法包括步骤：

S10、根据用户选择观影产品行为获取用户对观影产品的评分数据，用户对观影产品的评分数据由低评分数据集和高评分数据集组成；

S20、根据用户对观影产品的评分数据，过滤掉低评分数据集；

S30、将高评分数据集的90％作为训练集，将高评分数据集的10％作为测试集；

S40、利用机器学习方法，训练训练集，并在训练过程中不断估算每个用户的个性化参数；

上述实施例中，用户对观影产品的评分数据由评分1-5中的各个评分数据组成，低评分数据集为低于评分3的各个评分数据组成，高评分数据集由评分3-5中的各个评分数据组成。在上述步骤S20中，根据用户对观影产品的评分数据，过滤掉低于评分3的各个评分数据。

上述实施例中，在步骤S30与步骤S40之间，还包括如下步骤301：

将高评分数据集中的90％训练集按照9:1的比例再划分成第一训练集和第一测试集，利用机器学习方法，训练第一训练集。

将高评分数据集中的90％训练集按照9:1的比例再划分成第一训练集和第一测试集，利用机器学习方法，训练第一训练集，并在训练过程中不断估算每个用户的个性化参数。

在步骤301中，将上述的第一训练集按照9:1的比例再划分成第二训练集和第二测试集，利用机器学习方法，训练第二训练集，并在训练过程中不断估算每个用户的个性化参数。

本发明尝试在实际系统中进行数据模拟与测试，并取得了可观的效果。在本实施方式中，选择两个常用的真实评分系统：Netflix和MovieLens。为了测试算法的性能，使用2个基准数据集：Netflix和MovieLens。从MovieLens中选取了943个用户对1682部电影的100000条评分数据。评分等级从1至5逐渐递增的评分数据分别表示从差到好。出于推荐的目的，过滤掉评分低于3的评分数据，考虑评分3至5中的各个评分数据，在粗获取过程后，获得的数据包含了943个用户和1682个产品在内的82520个用户-产品对。Netflix数据是随机抽样了用户在Netflix网站的整个交互记录，最终获得了包含10000个用户，6000部电影的824802个用户-电影对。和MovieLens做同样的数据过滤，最后剩下了701947个用户-电影对。为了测试推荐的性能，本发明把真实数据被分成了两部分，一部分是占数据的90％训练集E_T，被认为是已知的信息。另一部分是隐藏起来用于检测算法准确程度的测试集E_p，占数据的10％。

对于评估推荐算法的性能最重要的一点考虑准确度。一个好的算法应该提供准确的推荐，这意味着每个用户可以在推荐列表的顶部找到自己喜欢的观影产品。本发明用排序分数RS(Rank score)来度量推荐算法的排序准确度，以建立一个较优的推荐产品排序，从而匹配用户的偏好设置。对于一个特定的用户，推荐系统可以产生用户未选择产品的排行榜，通过测量这个用户在测试集中的每个用户-产品链接对下的排行榜。例如，有一个有1000个未选择观影产品的活跃用户u₂，其中用户喜欢的观影产品i_b出现在用户u_a推荐列表的第10位，那么，对于用户u_a而言，产品i_b的排序分数为RS_ab＝10/1000＝0.01。将所有用户的排序分数求平均即得到用来度量推荐算法准确性的系统排序分数RS。排序分值越小，说明系统越趋向于把用户喜欢的商品排在前面，表明这样的算法更好，其关系如下：

式中，RS表示排序分数，RS_ab表示产品i_b的排序分数，E_P表示测试集。由于真实用户通常只考虑推荐列表的前几个，本发明也设置两个实际的准确度指标来考虑用户选择的产品在推荐列表里的数量，称为查准率(Precision)和查全率(Recall)。

对于用户u_a而言，推荐的查准率被定义为：

式中，P_a(N)表示查准率，d_a(N)表示在推荐列表前N位的位置，相关产品的数量(即为测试集中已经被用户u_a选择过的产品)，将所有用户的查准率求平均即得整个推荐系统的平均查准率。除了查准率，查全率也有类似的函数定义从另一个角度来评估推荐算法的准确度。对于用户u_a而言，推荐的查全率被定义为：

式中，RE_a(N)表示查全率，d_a(N)表示在推荐列表前N位的位置，相关产品的数量(即为测试集中已经被用户u_a选择过的产品)，N_a是测试集中用户a选择的产品数。平均所以用户的查全率，就可以得到整个系统的平均查全率。

本发明首先在MovieLens和Netflix数据下，比较多种算法对应于L＝50的排序分数、查准率和查全率。其中，HMass算法指的是物质扩散算法和异构的初始资源分配算法的结合。OMass算法物质扩散算法和带有个性化初始资源参数θ_i算法的结合。混合(Hybrids)算法是物质扩散和热传导算法的结合。OHybrid指的是混合算法并且为每个用户提供个性化参数λ_i。CoHybrid算法指的是混合算法加入了整体最优的初始资源参数θ_i和整体最优混合参数λ_i。OCoHybrid算法指的是CoHybrid算法的提升版，为每个用户结合了最优个性化初始资源参数θ_i和最优个性化混合参数λ_i。参数λ_i在[0,1]之间，设置步长为0.05，初始资源参数θ_i在[-5,5]之间，且步长为0.1。对于MovieLens数据，HMass，CoHybrids方法中最优θ_i＝0.8。Hybrids和CoHybrids中最优λ_i＝0.45。每个数字都是通过平均超过10个采用独立随机划分训练集和测试集运行获得的，得到表1的结果如下：

表1

该上述表1的结果表明，每个用户使用自己的个性化参数的算法性能普遍更好。以MovieLens为例，对OCoHybrids算法在排序分RS、查准率P(50)和查全率R(50)这三个指标上进行性能对比，分别可以提升9.01％，4.09％和7.9％的增强。而Netflix数据集，OCoHybrids算法在排序分RS上有较明显提升，以及P(50)和R(50)较之前的CoHybrids算法，分别提升了10.8％，0.9％和2.8％。

本发明考虑用户的最优个性化混合参数λ_i。在图2中，显示了在MovieLens和Netflix中的分配值。在MovieLens中，当λ_i＝0.5时接近一个峰值。在Netflix中，当λ_i＝0.9时也明显的接近一个峰值。这个结果表明，在真实系统中，每个用户都有适合自己的最优参数。其次，本发明进一步考虑用户的最优个性化初始资源参数θ_i，同时也发现每个用户具有不同的最优个性化初始资源参数θ_i。因此如果对所有用户使用同样的混合参数和初始化资源参数，很多用户就不能接收到最好的推荐。

同时，基于本发明提出的PIHP算法，将这些推荐算法做出性能比较，结果如表2：

表2

上述表2结果显示，PCoHybrids算法性能表现比所有提到过的指标更好。以MovieLens为例，在RS、查准率P(50)和查全率R(50)的指标下，PCoHybrids方法中分别有2.07％、3.3％和4.5％的提高。而Netflix数据集，PCoHybrids方法也就RS而言取得了较大的性能提升，以及P(20)和R(20)较之前的CO-Hybrids方法分别有2.01％、1.6％和1.1％的提高。实际上，设置个性化参数对于个人满意度更有意义，而且整体准确度仍然提高。在最优个性化参数的情况下，仍然有改进的空间，以帮助人们从人性化推荐系统中得到更满意的推荐。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于在线用户观影行为的兴趣偏好挖掘方法，其特征在于，包括步骤：

2.如权利要求1所述的在线用户观影行为的兴趣偏好挖掘方法，其特征在于，所述用户对观影产品的评分数据由评分1-5中的各个评分数据组成，所述低评分数据集为低于评分3的各个评分数据组成，所述高评分数据集由评分3-5中的各个评分数据组成。

3.如权利要求1所述的在线用户观影行为的兴趣偏好挖掘方法，其特征在于，在所述步骤S30与步骤S40之间，还包括如下步骤301：

4.如权利要求3所述的在线用户观影行为的兴趣偏好挖掘方法，其特征在于，在步骤301中，将所述第一训练集按照9:1的比例再划分成第二训练集和第二测试集，利用机器学习方法，训练所述第二训练集，并在训练过程中不断估算每个用户的个性化参数。