CN102750336B

CN102750336B - 一种基于用户关联性的资源个性化推荐方法

Info

Publication number: CN102750336B
Application number: CN201210179907.XA
Authority: CN
Inventors: 孙健; 艾丽丽; 谢发川; 隆克平; 周伟强; 李江华; 王雁峰; 林威; 黎焯泓; 唐明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2012-06-04
Filing date: 2012-06-04
Publication date: 2014-09-24
Anticipated expiration: 2032-06-04
Also published as: CN102750336A

Abstract

本发明公开了一种基于用户关联性的资源个性化推荐方法，首先利用用户关联规则挖掘技术分析用户对资源的历史评分记录，挖掘出目标用户频繁集；然后选取项集中项数最多，其次支持度最高的一个目标用户频繁集，用于构建目标用户兴趣相似组；接着将目标用户兴趣相似组用户对资源的历史评分输入到Slope One算法中作为核心数据，对目标用户未访问资源进行评分预测。最后将评分预测值大于阈值的目标用户未访问资源，按照评分预测值大小推荐给目标用户。由于Slope One算法进行目标用户未访问资源评分预测过程中，使用与目标用户兴趣相似的用户进行预测，既降低了目标用户评分矩阵维度和中间计算的数据量，又提高了评分预测准确率。

Description

一种基于用户关联性的资源个性化推荐方法

技术领域

本发明属于网络应用个性化推荐技术领域，具体来讲，涉及一种基于用户关联性的资源个性化推荐方法。

背景技术

随着互联网的迅速发展，网络中的信息资源越来越丰富，使得人们从曾经苦恼于资源的匮乏，演变成资源过载的烦恼。面对海量的资源信息，用户往往难以发现最适合或自己最感兴趣的资源。因此，为了解决这种从海量资源中获取用户偏好信息的问题，资源个性化推荐系统被广泛应用到各大商务网站中。

协同过滤是目前应用最广泛和最成功的个性化推荐系统。它旨在根据目标用户的最近邻居对某个资源的评分逼近目标用户对该资源的评分。但是，随着网站规模的扩大，用户数目和资源数据量的急剧增加，使得用户评分矩阵极端稀疏。通过传统的协同过滤方法进行推荐会导致用户最近邻居计算准确性降低，推荐系统的资源推荐质量急剧下降。

Slope One是一种新颖的协同过滤方法，它能一定程度上克服传统协同过滤中用户评分数据极端稀疏的问题，因为Slope One对于新用户在数据量上要求较低。它旨在根据其他用户对资源的评分情况来预测目标用户的评分。另外，SlopeOne非常的轻量级，易于实现，能及时跟进推荐系统中的数据更新并提供新的预测值，但它存在以下缺点：

1、实际业务系统中，因资源及用户数据量过大使得通过Slope One构建的目标用户评分矩阵维度非常高，计算数据量庞大。

2、Slope One通过一种“普遍平均”的思想对目标用户进行评分预测，但这种“普遍平均”磨灭了用户个性化，评分预测准确率不高，影响资源推荐质量。

发明内容

本发明的目的在于克服现有技术不足，提供一种基于用户关联性的资源个性化推荐方法，以降低目标用户评分矩阵维度和中间计算的数据量，同时提高评分预测准确率，进而使得资源推荐质量得以提升。

为实现上述发明目的，本发明基于用户关联性的资源个性化推荐方法，其特征在于，包括以下步骤：

（1）、分析并挖掘出目标用户频繁集

将用户对资源的历史评分记录作为数据源，利用用户关联规则分析并挖掘出多个支持度达到要求的目标用户频繁集；

其中，用户关联规则是指目标用户与其他用户对一个或多个资源都进行了评分，目标用户与其他用户都进行了评分的资源数量为支持度；

目标用户频繁集包括由目标用户与其他用户组成的项集以及支持度；

（2）、构建目标用户兴趣相似组

在挖掘出的多个目标用户频繁集中，选取项集中项数，即用户数量最多的目标用户频繁集；如果选取的目标用户频繁集有多个，则进一步选取支持度最高的一个目标用户频繁集，用于构建目标用户兴趣相似组；

选出的目标用户频繁集项集中的用户作为目标用户兴趣相似组；

（3）、用Slope One算法进行预测评分

将目标用户兴趣相似组用户对资源的历史评分输入到Slope One算法中作为核心数据，对目标用户未访问资源进行评分预测；

（4）、推荐资源给目标用户

将评分预测值大于阈值的目标用户未访问资源，按照评分预测值大小推荐给目标用户。

本发明的发明目的是这样实现的：

本发明基于用户关联性的资源个性化推荐方法，首先利用用户关联规则挖掘技术分析用户对资源的历史评分记录，挖掘出目标用户频繁集；然后选取项集中项数，即用户数量最多的目标用户频繁集；如果选取的目标用户频繁集有多个，则进一步选取支持度最高的一个目标用户频繁集，用于构建目标用户兴趣相似组；接着将目标用户兴趣相似组用户对资源的历史评分输入到Slope One算法中作为核心数据，对目标用户未访问资源进行评分预测。最后将评分预测值大于阈值的目标用户未访问资源，按照评分预测值大小推荐给目标用户。由于Slope One算法进行目标用户未访问资源评分预测过程中，使用与目标用户兴趣相似的用户进行预测，既降低了目标用户评分矩阵维度和中间计算的数据量，又提高了评分预测准确率。

附图说明

图1是本发明基于用户关联性的资源个性化推荐方法一具体实施方式的原理框图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

在本实施例中，如图1所示，基于用户关联性的资源个性化推荐方法包括以下四个部分：

（1）、相似用户挖掘，即分析并挖掘出目标用户频繁集

（2）、相似用户选取，即构建目标用户兴趣相似组

（3）、评分预测，即用Slope One算法进行预测评分

（4）、资源推荐，即推荐资源给目标用户

在本实施例中，采用Apriori关联规则挖掘算法，得到目标用户频繁集。

Apriori算法是一种逐层搜索的迭代方法，用项集项数为k的目标用户频繁集用于搜索项集项数为k+1的目标用户频繁集。

首先扫描用户对资源的历史评分记录数据库，逐个收集与目标用户都对相同资源进行了评分的其他一个用户，并记录下目标用户与该其他用户都进行了评分的资源数量，得到多个项集项数为2的目标用户频繁集；然后，在得到的多个项集项数为2的目标用户频繁集基础上，搜索与目标用户都对相同资源进行了评分的其他两个用户，并记录下目标用户与该其他两个用户都进行了评分的资源数量，得到一个或多个项集项数为3的目标用户频繁集；依次类推，增加其他用户数量，直到找不到它们都对满足支持度的相同资源进行了评分为止。

实例

下面一个精简的实例对本发明进行说明。

在本实例中，资源为视频资源，评分为用户观看后对视频资源的打分。

用户对视频资源的历史评分记录构成一个数据库，该数据库为5个用户对4个视频资源的历史评分数据，具体如表1所示：

表1

在本实例中，如表1所示，用户集：{U₁,U₂,U₃,U₄,U₅}，评分集范围：{1,2,3,4,5}。表1中，Null表示该用户未对相应视频资源进行评分，没有访问过相应视频资源。

1、利用用户关联规则分析并挖掘出目标用户频繁集

在本实例中，首先需要对用户对资源的历史评分记录做预处理，只有用户评分值大于等于3分的评分才进行关联规则分析和挖掘，即只有评分值大于等于3分才认为用户观看过该视频资源并对用户的关联性具有正面的作用，低于3分的忽略不计。

为方便起见，将以用户为ID的事务数据转换为以视频资源为ID的事务数据。由此将表1用户历史评分数据库转换为表2用户观看历史数据库如下。

表2

在转换过程中，将视频资源用户评分大于等于3的标记为1，低于3的标记为空。

在本实例中，U1为目标用户。于是扫描表2用户观看历史数据库，采用Apriori算法逐层搜索迭代方法，积累每个目标用户与其他用户的观看资源计数，并收集满足最小支持度为2目标用户频繁集，如表3所示。

项集	支持度
		{U₁,U₂}	2
{U₁,U₃}	2
		{U₁,U₅}	3

表3

在本实例中，如表2、表3所示，目标用户U₁与其他用户U₂都进行了评分的视频资源为a、c，支持度达到2的要求，因此，构成一个项集为{U₁,U₂}、支持度为2的目标用户频繁集。同理，目标用户U₁与其他用户U₃都进行了评分的视频资源为a、d，支持度达到2的要求，构成一个项集为{U₁,U₃}、支持度为2的目标用户频繁集；目标用户U₁与其他用户U₅都进行了评分的视频资源为a、c、d，支持度达到3的要求，构成一个项集为{U₁,U₅}、支持度为3的目标用户频繁集。

而目标用户U₁与其他用户U₄都进行了评分的视频资源为c，支持度为1，达不到要求，就不能构成目标用户频繁集。

在得到的三个项集项数为2的目标用户频繁集，如表3所示的基础上，搜索与目标用户都对相同资源进行了评分的其他两个用户，并记录下目标用户与该其他两个用户都进行了评分的资源数量，得到两个项集项数为3的目标用户频繁集，如表4所示。

项集	支持度
		{U₁,U₂,U₅}	2
{U₁,U₃,U₅}	2

表4

在本实例中，如表2、3、4所示，在U₁,U₂的基础上，在三个项集项数为2的目标用户频繁集寻找另一其他用户，在本实例中，其他用户有U₃,U₅，然而，只有其他用户U₅与U₁,U₂对视频资源a、c都进行了评分，因此，构成一个项集为{U₁,U₂,U₅}、支持度为2的目标用户频繁集；同理，在在U₁,U₃的基础上，在三个项集项数为2的目标用户频繁集寻找另一其他用户，在本实例中，其他用户有U₃,U₅，然而，只有其他用户U₅与U₁,U₃对视频资源a、d都进行了评分，因此，构成一个项集为{U₁,U₃,U₅}、支持度为2的目标用户频繁集。

在U₁,U₂,U₅的基础上，其他用户U₃与用户U₁,U₂,U₅都进行了评分的视频资源只有a，支持度小于2；同理，在U₁,U₃,U₅的基础上，其他用户U₂与用户U₁,U₃,U₅都进行了评分的视频资源只有a，支持度也小于2。因此，停止搜索。

2、构建目标用户兴趣相似组

在挖掘出的五个目标用户频繁集，如表3、4中，选取项集中项数，即用户数量最多的目标用户频繁集，即表4中两个目标用户频繁集。在本实例中，取的目标用户频繁集有两个，则进一步选取支持度最高的一个目标用户频繁集，用于构建目标用户兴趣相似组。在本实例中，由于选取的两个目标用户频繁集支持度都为2，因此，选取项集为{U₁,U₂,U₅}的目标用户频繁集，如表5所示

项集	支持度
		{U₁,U₂,U₅}	2

表5

将选出的目标用户频繁集项集中的用户，即用户U₁,U₂,U₅作为目标用户兴趣相似组，如表6所示。

目标用户	目标用户兴趣相似组
		U₁	U₁,U₂,U₅

表6

（3）、用Slope One算法进行预测评分

目标用户兴趣相似组用户U₁,U₂,U₅对视频资源的历史评分如表7所示

表7

将表7的评分数据输入到Slope One算法中作为核心数据，对目标用户未访问资源b进行评分预测。

针对表7中的用户兴趣相似组评分，对目标用户U₁使用Slope One算法可得到评分U_1b，U_ij表示用户U_i对资源j的评分：

I_{1 b} = \frac{(U_{1 a} + U_{2 b} - U_{2 a}) + (U_{1 c} + U_{2 b} - U_{2 c}) + (U_{1 d} + U_{2 b} - U_{2 d})}{1 + 1 + 1}

= \frac{(3 + 4 - 3) + (4 + 4 - 4) + (4 - 2 + 5)}{3} = \frac{15}{3} = 5

（4）、推荐资源给目标用户

本实例中，用户评分范围为{1,2,3,4,5}，于是设阈值为4分，即评分预测值大于等于4分认为目标用户对该视频资源感兴趣，可以推荐；反之，则不推荐。在本实例中，目标用户U₁对于视频资源b的预测值为5，因此，推荐给目标用户U₁。

在本实例中，由于目标用户U₁未访问视频资源只有b，因此，直接推荐给目标用户U₁。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于用户关联性的资源个性化推荐方法，包括以下步骤：

(1)、分析并挖掘出目标用户频繁集

对用户对资源的历史评分记录做预处理，只有用户评分值大于等于设定阈值的评分才进行关联规则分析和挖掘，即只有评分值大于等于设定阈值才认为用户观看过视频资源并对用户的关联性具有正面的作用，低于设定阈值的忽略不计；

将预处理后的用户对资源的历史评分记录作为数据源，利用用户关联规则分析并挖掘出多个支持度达到要求的目标用户频繁集；

(2)、构建目标用户兴趣相似组

(3)、用Slope One算法进行预测评分

(4)、推荐资源给目标用户

将评分预测值大于阈值的目标用户未访问资源，按照评分预测值大小推荐给目标客户；

所述的用户关联规则分析并挖掘出多个支持度达到要求的目标用户频繁集为：