CN108664558B

CN108664558B - 一种面向大规模用户的网络电视个性化推荐服务方法

Info

Publication number: CN108664558B
Application number: CN201810293504.5A
Authority: CN
Inventors: 傅正斌; 赵建立; 耿夕娇; 肖玉; 王伟
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2020-05-05
Anticipated expiration: 2038-04-04
Also published as: CN108664558A

Abstract

本发明提供了一种面向大规模用户的网络电视个性化推荐服务方法，利用大规模用户及用户属性和行为等数据，实现基于大数据的用户画像建模，并且通过提取时间、地点、天气等情景信息，构建基于大数据的上下文建模。离线计算阶段，通过用户、物品双聚类解决算法可扩展性的问题，并结合矩阵分解、协同过滤等技术训练模型及拟合参数；在线计算阶段，设计基于二次矩阵抽样的增量计算推荐模型，利用新增加的交互数据，实现实时在线推荐。最终，融合离线阶段和在线阶段模型的推荐结果，形成初始的Top‑K推荐列表，再利用基于上下文建模中的信息完成上下文过滤，形成最终的Top‑N推荐列表，提高面向大规模用户的网络电视个性化推荐精度。

Description

一种面向大规模用户的网络电视个性化推荐服务方法

技术领域

本发明涉及网络电视个性化推荐服务领域，具体涉及一种面向大规模用户的网络电视个性化推荐服务方法。

背景技术

网络电视改变了用户传统、被动地收看方式，使自主播放互联网上海量的影视资源成为可能，但资源的种类和数量增长速度越来越快，如何在用户数量庞大、种类繁多的资源中甄别并获取有价值的信息成为制约网络电视发展的一个重要的瓶颈，个性化推荐技术能有效解决此类问题。

自1990年以来，推荐系统技术蓬勃发展，业界提出了各种各样的实用的推荐系统方案。推荐系统从最初的电子商务推荐到如今音乐、电影、社交网络、阅读、O2O、广告、旅游、新闻，搜索等领域。协同过滤算法(Collaborative Filtering)是最早被实际应用的推荐算法。协同过滤算法实现简单且高效，但是存在着冷启动(Cold start)以及矩阵稀疏性(sparsity)等问题。Hyung Jun Ahn提出了一种新的相似性度量方法以缓解冷启动问题，Andre Luiz Vizine Pereira等人于2015年进一步提出了协同聚类学习方法解决冷启动问题。当前为了提高协同过滤算法的推荐精度，上下文情景因素的应用越来越频繁。YangShuxin等人于2016年提出在不同的上下文因素下，用户会有不同的项目偏好，通过贝叶斯推断在不同上下文信息下用户喜好项目的概率，并以此来过滤推荐列表，提高算法的推荐精度。为了能够及时体现用户的反馈，Luo Xin等人于2016年提出一种基于矩阵分解的增量计算推荐算法，通过快速训练新增数据，降低算法计算复杂度，达到近在线推荐的目的。另外随着个性化推荐技术的快速发展和交互数据的积累，单一的推荐算法已经不能再满足用户的需求，组合推荐算法逐渐流行起来，它通过混合、加权、切换、级联、特征组合2种或2种以上推荐算法，充分利用各推荐算法的优势，从而获取更高的性能。近年来，随着互联网的高速发展，信息也呈几何倍数增加，但面向网络电视的个性化推荐技术依然面临处理数据量大、准确度不高、实时性不强和扩展性不好等问题。

发明内容

针对现有的网络电视在面向大规模用户和海量资源时出现的信息过载、推荐精度不高、实时性不强以及扩展性不好等问题，本发明提供了一种面向大规模用户的网络电视个性化推荐服务方法。

本发明采用以下的技术方案：

一种面向大规模用户的网络电视个性化推荐服务方法，包括以下步骤：

步骤1：网络电视用户画像建模：

(1)自大规模网络电视用户中完成信息的收集与处理，收集用户的基本属性数据、行为倾向数据及内容偏好数据；

(2)对收集到的数据进行预处理，数据处理完成后，通过数据挖掘、文本挖掘、自然语言处理技术对用户未知属性与行为进行预测；

(3)利用用户的基本属性信息通过贝叶斯分类算法进行分类，完成用户静态属性建模，利用用户的行为倾向、内容偏好行为信息通过逻辑回归算法进行用户动态行为建模；

步骤2：基于余弦相似度的网络电视上下文建模方法：

(1)对用户观看视频时的时间、地点和天气情景因素数据进行收集；

(2)对用户在不同情境因素条件下观看的视频做相关性分析，利用余弦相似度算法计算视频之间的相关性，基于上下文情景因素对视频影片进行分类，完成上下文建模，为后续的上下文过滤阶段做准备；

步骤3：离线计算阶段：

离线计算通过面向大规模用户网络电视的双聚类和矩阵分解的协同过滤算法进行；

利用聚类技术对大规模用户和资源进行聚类操作，然后对聚类形成的所有簇集进行矩阵分解，以此实现对大规模用户和资源的降维处理，最后利用协同过滤技术训练离线计算模型和拟合参数；

步骤4：在线计算阶段：

在线阶段通过基于二次矩阵抽样的增量计算推荐算法进行；

当新增数据达到设定阈值时，根据新增数据对原始矩阵进行行抽样和列抽样，抽取跟新增用户或物品相关的原始评分，形成稀疏性较低的子矩阵，以此来缓解增量矩阵的数据稀疏问题，完成第一次矩阵抽样；

然后在第一次矩阵抽样的基础上，对热门项目进行第二次抽样，形成维度较低的子矩阵，降低算法时间复杂度和计算开销，加快模型训练速度，完成第二次抽样；

在离线阶段训练的离线计算模型和拟合参数的基础上进行增量训练以及参数更新，最后形成初始的Top-K推荐列表；

步骤5：上下文过滤阶段：

利用上下文信息对步骤4中得到的Top-K推荐列表过滤优化，通过计算上下文信息之间的相似度，对推荐列表中与当前上下文关联度较小的项目进行过滤，形成新的Top-N推荐列表，完成网络电视个性化推荐服务。

本发明具有的有益效果是：

利用大规模用户及用户属性和行为等数据，实现基于大数据的用户画像建模，并且通过提取时间、地点、天气等情景信息，构建基于大数据的上下文建模。按照推荐算法的计算复杂度，将算法分为复杂度较高的离线计算阶段和实时性较好的在线计算阶段：离线计算阶段，通过用户、物品双聚类解决算法可扩展性的问题，并结合矩阵分解、协同过滤等技术训练模型及拟合参数；在线计算阶段，设计基于二次矩阵抽样的增量计算推荐模型，利用新增加的交互数据，实现实时在线推荐。最终，融合离线阶段和在线阶段模型的推荐结果，形成一个初始的Top-K推荐列表，再利用基于上下文建模中的信息完成上下文过滤，形成最终的Top-N推荐列表，提高面向大规模用户网络电视的个性化推荐精度，解决了推荐实时性不强、扩展性不好的问题。

附图说明

图1为面向大规模用户的网络电视个性化推荐服务方法的框图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

结合图1，一种面向大规模用户的网络电视个性化推荐服务方法，包括以下步骤：

步骤1：网络电视用户画像建模：

步骤2：随着对个性化推荐服务的研究逐步深入，研究发现，在传统的推荐系统中添加情景信息能够显著地提高算法模型的推荐精度。而现有的上下文建模忽略了上下文信息对于用户决策的影响力强弱问题，将各上下文信息以同等权重融入推荐过程中。实际上，网络电视每个上下文对用户决策的单独影响力都有所不同。

步骤2：基于余弦相似度的网络电视上下文建模方法：

(2)对用户在不同情境因素条件下观看的视频做相关性分析，利用余弦相似度算法计算视频之间的相关性，基于上下文情景因素对视频影片进行分类，完成上下文建模，为后续的上下文过滤阶段做准备。

步骤3：离线计算阶段：

协同过滤技术是信息推荐系统中最为成功的技术，也是目前应用最广泛的个性化推荐技术，但是随着网络电视用户数、物品数以及交互数据的指数型增加，单纯的协同过滤技术面对高维数据复杂度高的特点暴露无遗，其扩展性差的特点也越发明显。

步骤4：在线计算阶段：

传统的个性化推荐系统一般采用定期对全部数据进行训练的做法来更新模型，但在网络电视应用环境下，随着上线用户、物品的增多，以及交互数据的积累，这种方法会导致重复的计算开销，计算复杂度会指数增长甚至崩溃，更重要的是无法及时响应用户反馈。

在线阶段通过基于二次矩阵抽样的增量计算推荐算法进行；

在离线阶段训练的离线计算模型和拟合参数的基础上进行增量训练以及参数更新，最后形成初始的Top-K推荐列表。

在线计算阶段有效的降低了在线计算的复杂度，大幅度提高了计算效率，节约了时间损耗，达到快速增量计算的目的，及时响应用户的反馈，实现实时在线推荐。

步骤5：上下文过滤阶段：

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种面向大规模用户的网络电视个性化推荐服务方法，其特征在于，包括以下步骤：

步骤1：网络电视用户画像建模：

步骤2：基于余弦相似度的网络电视上下文建模方法：

步骤3：离线计算阶段：

利用聚类技术对大规模用户和网络电视的视频进行聚类操作，然后对聚类形成的所有簇集进行矩阵分解，以此实现对大规模用户和网络电视的视频的降维处理，最后利用协同过滤技术训练离线计算模型和拟合参数；

步骤4：在线计算阶段：

在线阶段通过基于二次矩阵抽样的增量计算推荐算法进行；

当新增数据达到设定阈值时，根据新增数据对原始矩阵进行行抽样和列抽样，抽取跟新增用户或网络电视的视频相关的原始评分，形成稀疏性较低的子矩阵，以此来缓解增量矩阵的数据稀疏问题，完成第一次矩阵抽样；

然后在第一次矩阵抽样的基础上，对网络电视的视频进行第二次抽样，形成维度较低的子矩阵，降低算法时间复杂度和计算开销，加快模型训练速度，完成第二次抽样；

步骤5：上下文过滤阶段：