CN108647996B

CN108647996B - 一种基于Spark的个性化推荐方法及系统

Info

Publication number: CN108647996B
Application number: CN201810322987.7A
Authority: CN
Inventors: 胡建国; 晏斌; 李凯祥; 全小虎
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2022-04-19
Anticipated expiration: 2038-04-11
Also published as: CN108647996A

Abstract

本发明公开了一种基于Spark的个性化推荐方法及系统，其中，所述个性化推荐方法包括：获取用户对商品的行为信息并进行用预处理，获取用户对商品的隐式反馈；根据用户对商品的隐式反馈进行用户对商品的交互矩阵构建处理，获取用户对商品的交互矩阵；根据用户对商品的交互矩阵进行商品相似度矩阵计算处理，获取商品相似度矩阵；根据商品相似度矩阵进行商品邻近集构建处理，获取商品邻近集；根据商品邻近集进行用户对商品的偏好值预测处理，获取用户对商品的偏好值；根据用户对商品的偏好值向用户进行商品推荐，并将推荐结果进行展示。在本发明实施例中，融合多源信息，充分利用用户对商品的行为信息，缓解数据稀疏和冷启动问题。

Description

一种基于Spark的个性化推荐方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于Spark的个性化推荐方法及系统。

背景技术

传统的推荐方法协同过滤算法，其仅仅基于用户行为数据设计，不需要用户和商品的具体属性，在工业界得到了很广泛的应用；基于协同过滤的自编码模型学习用户和项目的非线性表征，进而对目标用户进行推荐；基于内容的推荐算法，给目标用户推荐在内容上与该用户以往感兴趣的项目相似的项目；利用矩阵分解方法等线性结构学习用户与项目隐向量，通过用户和未知商品的隐向量的内积预测评分。

存在如下的缺点：协同过滤算法存在严重的数据稀疏问题和冷启动问题，对于评分较少或没有评分的用户与商品，协同过滤方法则无法做出准确的推荐；经典的协同过滤方法采用浅层模型无法学习到用户和项目的深层次特征；方法严重依赖人工设计特征，其有效性和扩展性非常有限。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于Spark的个性化推荐方法及系统，充分利用用户对商品的行为信息，缓解数据稀疏和冷启动问题。

为了解决上述技术问题，本发明实施例提供了一种基于Spark的个性化推荐方法，所述个性化推荐方法，包括：

获取用户对商品的行为信息并进行用预处理，获取用户对商品的隐式反馈；

根据用户对商品的隐式反馈进行用户对商品的交互矩阵构建处理，获取用户对商品的交互矩阵；

根据用户对商品的交互矩阵进行商品相似度矩阵计算处理，获取商品相似度矩阵；

根据商品相似度矩阵进行商品邻近集构建处理，获取商品邻近集；

根据商品邻近集进行用户对商品的偏好值预测处理，获取用户对商品的偏好值；

根据用户对商品的偏好值向用户进行商品推荐，并将推荐结果进行展示。

优选地，所述获取用户对商品的行为信息并进行用预处理，包括：

根据用户对商品的行为信息按不同权重进行线性加权转换处理，获取用户对商品的隐式反馈；

所述用户对商品的行为信息至少包括浏览、收藏、加入购物车、购买、评分或评论中的一种或多种组合；

所述隐式反馈为用户对商品的兴趣值。

优选地，所述根据用户对商品的隐式反馈进行用户对商品的交互矩阵构建处理，包括：

根据用户对商品的隐式反馈获取用户对商品的兴趣值；

根据用户对商品的兴趣值进行按照商品为键对应的聚合处理，获取商品为键对应的聚合；

对商品为键对应的聚合进行字典转换处理，获取字典结构

根据字典结构对商品为键对应的聚合进行稀疏向量重新表示处理，获取用户对商品的交互矩阵。

优选地，所述根据用户对商品的交互矩阵进行商品相似度矩阵计算处理，包括：

对用户对商品的交互矩阵进行逆用户频率进行相似度计算，获取第一相似矩阵；

采用卷积神经网络对用户对商品的交互矩阵进行离线计算商品的相似度矩阵，获取第二相似矩阵；

对第一相似矩阵和第二相似矩阵进行线性加权融合处理，获取商品相似度矩阵。

优选地，所述卷积神经网络由输入层、13个卷积层、3个全连接层和输出层依次构成。

优选地，所述对第一相似矩阵和第二相似矩阵进行线性加权融合处理的加权公式如下：

S＝(1-β)S¹+βS²；

其中，S为商品相似度矩阵，S¹为第一相似矩阵，S²为第二相似矩阵，β相似度权重，0≤β≤1。

优选地，所述根据商品相似度矩阵进行商品邻近集构建处理，包括：

根据商品相似度矩阵获取商品与商品之间的相似度；

对商品与商品之间的相似度进行排序处理，获取排序结果；

根据排序结果选取每个商品相似度较高的K个商品组成商品邻近集。

优选地，所述根据商品邻近集进行用户对商品的偏好值预测处理，包括：

根据商品邻近集计算用户对商品的偏好值，获取用户对商品的偏好值。

优选地，所述根据商品邻近集计算用户对商品的偏好值的计算公式如下：

其中，N(u)表示用户u偏好的商品的集合，j表示用户u偏好的商品的集合中的商品，S(j,k)表示与商品j相似度较高的K个商品的集合，i表示商品j相似度较高的K个商品的集合中的商品，W_ij表示商品i与商品j之间的相似度，R_uj表示用户u对商品j的偏好值；

表示用户u对商品i的偏好值。

另外，本发明实施例还提供了一种基于Spark的个性化推荐系统，所述个性化推荐系统，包括：

预处理模块：用于获取用户对商品的行为信息并进行用预处理，获取用户对商品的隐式反馈；

交互矩阵构建模块：用于根据用户对商品的隐式反馈进行用户对商品的交互矩阵构建处理，获取用户对商品的交互矩阵；

相似度矩阵计算模块：用于根据用户对商品的交互矩阵进行商品相似度矩阵计算处理，获取商品相似度矩阵；

邻近集构建模块：用于根据商品相似度矩阵进行商品邻近集构建处理，获取商品邻近集；

偏好值预测模块：用于根据商品邻近集进行用户对商品的偏好值预测处理，获取用户对商品的偏好值；

推荐展示模块：用于根据用户对商品的偏好值向用户进行商品推荐，并将推荐结果进行展示。

采用本发明实施例中的实施方法，有益效果如下：(1)方法融合多源信息，充分利用用户和项目丰富的元数据，文本，图像等数据，利用卷积神经网络学习项目非线性的多层次抽象特征表示，融合项目其他特征，缓解数据稀疏和冷启动问题；(2)本方案中的系统基于Hadoop,Spark大数据平台，集成海量数据存储，目标数据快速查询，大规模数据处理等功能。系统分布式训练推荐模型，拥有良好的加速性，线性的可扩展性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于Spark的个性化推荐方法实现需要的系统层结构示意图；

图2是本发明实施例中的基于Spark的个性化推荐方法的方法流程示意图；

图3是本发明实施例中的基于Spark的个性化推荐系统的系统结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1是本发明实施例中的基于Spark的个性化推荐方法实现需要的系统层结构示意图，如图1所示，系统层的实现如下：

基础平台层：基础平台层是系统架构的最底层，由搭建Hadoop和Spark高可用生态环境的计算机集群组成，计算机基于Linux操作系统，为整个系统提供存储、计算和运行的环境。主要包括数据存储平台和数据平台计算两个子层次。其中数据管理平台由HDFS、Hbase、Hive和Mysql四个部分组成，共同负责各类数据的存储；数据计算平台MapReduce和Spark组成由两个部分组成，负责数据的清洗、转换等处理工作。基础平台的HDFS(分布式文件系统)作为整个平台数据存储的基础，其高可靠的数据容错机制为整个系统的数据存储提供安全保障。

数据服务层：数据服务层主要提供数据存储服务和数据计算服务；其中数据存储服务主要包括应用数据、基础数据和算法模型的存储，如用户商品的元属性数据，用户的历史行为记录，还包括训练好的推荐模型，用户和商品特征以及推荐模型获取的推荐列表等，通过创建索引存储于Hive中，方便快速准确定位，同时商品数量与平台用户数量的大规模增长的情况下，可以通过扩展集群节点数量保证数据查询的高效性。数据计算主要是针对业务逻辑的需求进行数据预处理、特征提取和统计建模等。

推荐系统中各类关系型数据存储于Hive中，便于快速查询和数据统计处理。基于Hive的数据仓库是数据服务层的主要实现模块，实现系统的大规模数据存储功能，存储的数据主要分为基础数据、应用数据和算法模型数据。

基础数据的数据库主要有用户元数据库和商品元数据库，记录用户和商品的属性信息，以及用户行为数据库，包括浏览、购买、收藏和评分行为，保持相同的表结构，存储在四张表中，分别记为user_item_view、user_item_purchase、user_item_favorite、user_item_rating。

用户基本信息表

字段	类型	字段描述
			user_id	int	用户ID
user_name	char(40)	用户姓名
			gender	char(1)	用户性别
age	int	用户年龄
			career	char(60)	用户职业
city	char(120)	城市

用户行为数据表

商品元数据表

应用数据的数据库商品相似度数据库，包括基于内容的相似度，基于协同用户的相似度，基于商品图片的相似度等，表的结构相同，分别记为similarity_content、similarity_collborative、similarity_picture，以及推荐模型生成的推荐列表，结构如下表所示：

商品相似度表

字段	类型	字段描述
			item_id_a	int	用户ID
item_id_b	int	商品ID
			similarity	float	相似度

Top-N推荐商品列表

字段	类型	字段描述
			user_id	int	用户ID
item_id	int	商品ID
			prediction_rating	int	预测偏好值

业务逻辑层：业务逻辑层处于系统架构的中间层部分，主要采用面向接口的编程思想，减少业务和逻辑对象之间的依赖关系，简化系统的开发与实现过程。业务逻辑层主要由业务逻辑对象组成，在实现的时候对象特性被抽象出来，接收来自展示层的请求，根据需要调用业务逻辑层中的相应的抽象对象，再由抽象的对象进行具体的业务逻辑处理。如个性化推荐模型，用户管理、商品管理、用户登录、用户注册等。

结果展示：从基础数据中拉取目标用户u推荐结果信息，构建展示界面。同时，记录下用户对推荐结果的反馈行为。

下面对业务逻辑层个性化推荐模型进行详细介绍

模型基于Spark的物品多特征融合协同过滤方法进行训练，在基于Spark的物品多特征融合协同过滤方法中，根据迁移学习的思想，利用在图像分类领域表现良好的卷积神经网络VGG16模型，保留网络特征提取结构用于提到物品的图片特征，将图片特征线性加权融合物品的协同用户特征计算物品相似度矩阵，进而实现推荐。与传统基于物品协同过滤方法经实验对比表明，方法提升了推荐结果的准确率，并且在覆盖率和流行度明显优于传统协同过滤算法。同时方法基于Spark分布式实现，在特征提取和训练模型上的计算效率有了较大提高。

图2是本发明实施例中的基于Spark的个性化推荐方法的方法流程示意图，如图2所示，所述个性化推荐方法，包括：

S11：获取用户对商品的行为信息并进行用预处理，获取用户对商品的隐式反馈；

在本发明具体实施过程中，在本发明具体实施过程中，通过数据爬虫算法在系统平台采集用户的行为记录信息；其中用户的行为记录信息包括不限于系统中记录用户对项目的各种行为和跟着行为对应的发生时间、发生地点和对该行为的存储至的数据库中。

用户对项目的各种行为包括不限于以下行为的一种或多种组合，各种行为如下：浏览、收藏、加入购物车、购买、评分、评论、互动。

在进行线性加权转换的时候，首先赋予用户对项目的各种行为的一个权重值，例如浏览赋予0.05、收藏赋予0.2、加入购物车0.3、购买0.2、评分或评论赋予0.15、互动赋予0.1的权值，根据再根据用户进行了那些对项目的行为，再赋予对应行为的赋值，如每个行为赋值为1或者10或者100等；然后根据上述赋予的权值和对应项目的赋值进行线性加权转换处理，根据加权处理的结果来获取用户对项目的隐式反馈。

其中，该饮食反馈即为用户对项目的性趣值。

S12：根据用户对商品的隐式反馈进行用户对商品的交互矩阵构建处理，获取用户对商品的交互矩阵；

在本发明具体实施过程中，根据用户对商品的隐式反馈获取用户对商品的兴趣值；根据用户对商品的兴趣值进行按照商品为键对应的聚合处理，获取商品为键对应的聚合；对商品为键对应的聚合进行字典转换处理，获取字典结构；根据字典结构对商品为键对应的聚合进行稀疏向量重新表示处理，获取用户对商品的交互矩阵。

利用Spark从HDFS中读取用户历史评分数据的DateFrame，得到将用户对商品的隐式反馈，即用户对商品的兴趣值的三元组(u，i，r_ui)，然后由DateFrame将三元组转化为弹性分布式数据集，并进行map操作以商品为键，以用户和兴趣值为值，得到一记录为(商品，(用户，兴趣值))的弹性分布式数据集。

对上述获取的(商品，(用户，兴趣值))的弹性分布式数据集进行groupByKey算子操作，将所有以商品为键对应的值聚合为一条记录，得到形如(商品，iterable[用户，兴趣值])的弹性分布式数据集，键为商品，值为所有对商品有过评分等行为的用户及其评分等行为组成的可迭代元组对象，利用mapValues(dict)算子，将上述的(商品，iterable[用户，兴趣值])的弹性分布式数据集进一步转化为字典结构，即(商品,{用户1:兴趣值1,用户2:兴趣值2…}])。

对上述获取字典结构进行mapValues()操作将每个条记录的值用稀疏向量重新表示，得到以商品为键，用户为索引评分值为大小的稀疏向量,利用稀疏向量表示项目的特征对于用户与商品之间的大规模稀疏数据可以大大降低数据的存储空间，通过稀疏向量重新表示后即获得用户对商品的交互矩阵。

S13：根据用户对商品的交互矩阵进行商品相似度矩阵计算处理，获取商品相似度矩阵；

在本发明具体实施过程中，对用户对商品的交互矩阵进行逆用户频率进行相似度计算，获取第一相似矩阵；采用卷积神经网络对用户对商品的交互矩阵进行离线计算商品的相似度矩阵，获取第二相似矩阵；对第一相似矩阵和第二相似矩阵进行线性加权融合处理，获取商品相似度矩阵。

受启发于信息检索中利用逆文档频率(Inverse Document Frequency/IDF)修正单词频率，认为活跃用户对项目相似度贡献应小于不活跃用户，引入IUF(Inverse UserFrequency)对活跃用户进行，论文以用户评分总数定义用户活跃度，取其对数的倒数作为惩罚项，相似度计算方式如下：

其中，表Hadamard product(AoB)_ij＝(A)_ij(B)_ij，

表示矩阵R按列求和得到的向量，

从评分矩阵提取的项目i特征向量，g表示内积运算。

按照上述公式所示定义simCal，利用Spark的map算子遍历计算RDD内每一个项目对相似度，得到每一条记录为以物品对为键，它们的相似度为值的弹性分布式数据集，存入数据仓库Hive中，记为sim_item。

利用预训练的VGG16卷积神经网络离线计算项目相似度，在输入层将商品图片交换为224×224像素的3通道图片，经过设置的卷积网络结构，最终得到25088维的图片向量表征，最终利用余弦相似度度量项目相似度，得到项目相似度矩阵并存入Hive中，记为sim_pic。

该VGG16卷积神经网络由输入层、13个卷积层、3个全连接层和输出层依次构成。

通过逆用户频率进行相似度计算，获取第一相似矩阵；卷积神经网络对用户对商品的交互矩阵进行离线计算商品的相似度矩阵，获取第二相似矩阵；通过对第一相似矩阵与第二相似矩阵进行线性加权融合，其中线性加权融合公式如下：

S＝(1-β)S¹+βS²；

S14：根据商品相似度矩阵进行商品邻近集构建处理，获取商品邻近集；

在本发明具体实施过程中，根据商品相似度矩阵获取商品与商品之间的相似度；对商品与商品之间的相似度进行排序处理，获取排序结果；根据排序结果选取每个商品相似度较高的K个商品组成商品邻近集。

根据最后获取的融合后的商品相似矩阵，获取商品与商品之间的相似度；然后对商品与商品之间的相似度进行排序，可通过从小到大排序或者从大到小排序，可用冒泡等常用的排序方法进行排序，获取排序结果；在上述排序结果中选取每个商品相似度中相识度排序较高的K个商品，并采用K个商品组成商品邻近集。

S15：根据商品邻近集进行用户对商品的偏好值预测处理，获取用户对商品的偏好值；

在本发明具体实施过程中，根据商品邻近集计算用户对商品的偏好值，获取用户对商品的偏好值。

根据商品邻近集计算用户对商品的偏好值的计算公式如下：

表示用户u对商品i的偏好值。

S16：根据用户对商品的偏好值向用户进行商品推荐，并将推荐结果进行展示。

在本发明具体实施过程中，对于目标用户，依照用户对物品最终预测偏好结果集，与历史行为数据利用subtractByKey算子取差集，过滤历史行为中存在的记录，并进行sortBy算子操作按预测物品的偏好大小倒序排列，取前N项对应物品作为推荐结果。

图3是本发明实施例中的基于Spark的个性化推荐系统的系统结构组成示意图，如图3所示，所述个性化推荐系统，包括：

预处理模块11：用于获取用户对商品的行为信息并进行用预处理，获取用户对商品的隐式反馈；

交互矩阵构建模块12：用于根据用户对商品的隐式反馈进行用户对商品的交互矩阵构建处理，获取用户对商品的交互矩阵；

相似度矩阵计算模块13：用于根据用户对商品的交互矩阵进行商品相似度矩阵计算处理，获取商品相似度矩阵；

邻近集构建模块14：用于根据商品相似度矩阵进行商品邻近集构建处理，获取商品邻近集；

偏好值预测模块15：用于根据商品邻近集进行用户对商品的偏好值预测处理，获取用户对商品的偏好值；

推荐展示模块16：用于根据用户对商品的偏好值向用户进行商品推荐，并将推荐结果进行展示。

具体地，本发明实施例的系统相关功能模块的工作原理可参见方法实施例的相关描述，这里不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，ReadOnly Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于Spark的个性化推荐方法及系统进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。