CN106126567A

CN106126567A - 基于可信数据推荐服务的方法

Info

Publication number: CN106126567A
Application number: CN201610435697.4A
Authority: CN
Inventors: 杨力; 王小琴; 田亚平; 姜奇; 王利军; 张冬冬
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-06-17
Filing date: 2016-06-17
Publication date: 2016-11-16

Abstract

本发明公开一种基于可信数据推荐服务的方法，解决了现有技术数据可信度不高，出现预测准确度低的问题，使本发明能够给用户推荐更为准确的项目，同时，采用扰动了训练集数据的方法使原训练集数据得到了隐藏，克服了现有技术用户信息泄露的问题，使本发明避免了用户信息的泄露，达到对用户信息的保护。其方法步骤为：(1)提取预测数据集；(2)扰动训练集数据；(3)计算训练集和三个子训练集中用户对项目的可信评分；(4)预测项目评分；(5)评估预测评分；(6)获得推荐项目。本发明不仅提高了预测准确度，同时实现了对用户的信息保护。

Description

基于可信数据推荐服务的方法

技术领域

本发明属于计算机技术领域，更进一步涉及到网络应用层通信技术领域和海量数据分析技术领域中的一种基于可信数据推荐服务的方法。本发明通过对网络商品数据的可信度进行量化，在此数据上进行网络商品评分的预测，从而为网络用户提供个性化商品推荐服务的同时实现对用户信息的保护。

背景技术

基于可信数据的推荐服务是指通过对网络数据的可信度进行量化之后，利用可信度高的数据对用户可能感兴趣的商品的评分进行预测，从而为用户提供更准确的商品推荐服务。目前，信息推荐方法中常见的都是利用用户的相似性来给用户提供更准确的推荐服务。

电子科技大学在其申请的专利“一种基于用户关联性的资源个性化推荐方法”(专利申请号：201210179907.X，公开号：CN 102750336 B)中公开了一种基于用户关联性的资源个性化推荐方法。该方法主要包括四个步骤：(1)利用用户关联规则挖掘技术分析用户对资源的历史评分记录，挖掘出目标用户频繁集。(2)选取项集中项数最多，其次支持度最高的一个目标用户频繁集，用于构建目标用户兴趣相似组。(3)将目标用户兴趣相似组用户对资源的历史评分输入到Slope One算法中作为核心数据，对目标用户未访问资源进行评分预测。(4)将评分预测值大于阈值的目标用户未访问资源，按照评分预测值大小推荐给目标用户。该方法存在的不足之处是，仅仅考虑了用户的支持度，却没有考虑该用户的评分数据的可信度问题，从而导致预测准确度低的问题。

腾讯科技(深圳)有限公司在其申请的专利“用户推荐方法和系统”(专利号：201210280588.1，公开号：CN 103581270 B)中公开一种用户推荐方法。该方法主要包括以下步骤：包括以下步骤：(1)获取触发推荐用户的指令。(2)根据所述指令生成候选推荐用户列表(3)读取用户社交质量数据，根据所述用户社交质量数据计算所述候选推荐用户列表中的用户的匹配成功率(4)从候选推荐用户列表中选取匹配成功率最高的至少一个用户进行推荐。该方法存在的不足之处在于，没有考虑用户列表中的用户的历史评分数据的可信度问题，同时也没有考虑对用户的信息进行保护的问题，从而导致用户信息的泄露。

孙丽梅在其发表的论文“基于动态k近邻的Slope One协同过滤推荐算法”(Journal of Frontiers of Computer Science and Technology，2011)中公开了一种动态k近邻和Slope One相结合的算法。该算法首先根据用户之间相似度的具体情况动态地为每个用户选择不同数目的近邻用户,然后利用近邻用户的评分数据生成项目之间的平均偏差,最后利用线性回归模型进行预测。该方法存在的不足之处在于，动态选择不同数目的近邻用户的时候没有考虑这些用户的历史评分数据的可信度问题，从而导致选取的近邻用户的数据可信度不高，出现预测准确度低的问题。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种基于可信数据推荐服务的方法，以实现为用户推荐高准确度的项目，同时加入了高斯噪声，对训练集数据进行扰动，实现对用户信息的保护。

本发明的设计思路：首先提取预测数据集，然后对预测数据集的训练集数据进行扰动，进一步计算用户对项目的可信评分，在此基础上，预测未评分用户的项目，进一步对预测评分进行评估，最后，对所有项目将测评分值按从大到小进行排序，将预测评分最高的前5个项目作为推荐对象输出给用户。

实现本发明目的的具体步骤包括如下：

(1)提取预测数据集：

(1a)从商品数据集中依次提取所有的项目编号组成一列预测数据集、依次提取所有的用户编号组成一列预测数据集、依次提取所有的用户对项目的评分组成一列预测数据集、依次提取所有的用户评分投票的总数组成一列预测数据集、依次提取所有的项目评分中帮助评分的用户数目组成一列预测数据集，将所有提取的五列预测数据组成预测数据集；

(1b)将预测数据集按照4：1的比率随机分为训练集和测试集，同时将该测试集复制为四份，得到第一个测试集，第二个测试集，第三个测试集，第四个测试集；

(1c)按照下式，计算训练集中用户对项目的评分列数据对应的可信度：

r = \frac{m}{n}

其中，r表示训练集中用户对项目的评分数据的可信度；m表示训练集中项目评分中投有用评分的用户数目；n表示训练集中用户评分投票的总数；

(1d)从训练集中提取可信度大于0.5的所有列的数据组成第一个子训练集S₁；从训练集中提取可信度大于0.8的所有列的数据组成第二个子训练集S₂；从训练集中提取可信度等于1的所有列的数据组成第三个子训练集S₃；

(2)扰动训练集数据：

分别在训练集、第一个子训练集S₁、第二个子训练集S₂、第三个子训练集S₃的用户对项目的评分数据列上加入呈高斯分布的一组随机数，实现对该列评分数据列的扰动；

(3)按照下式，分别计算训练集和三个子训练集中用户对项目的可信评分：

T_{p}^{i} = R_{p}^{i} * r

其中，表示用户p对项目i的可信评分；表示用户p对项目i的历史评分；*表示相乘操作；r表示用户对项目的评分的可信度；

(4)预测项目评分：

(4a)以训练集中的所有的用户编号为行，所有的项目编号为列，构建一个训练集矩阵；

(4b)以三个子训练集中的所有的用户编号为行，所有的项目编号为列，分别构建三个子训练集矩阵；

(4c)分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目，进行预测评分，得到了训练集预测评分列和三个子训练集预测评分列；

(5)评估预测评分：

(5a)在第一个测试集中新建一列，将训练集预测评分列添加到第一个测试集新建的列上，组成第一个测试集的用户对项目的预测评分列；

(5b)在第二个测试集、第三个测试集、第四个测试集中分别新建一列，将训练集预测评分列添加到第二个测试集、第三个测试集、第四个测试集中新建的列上，组成第二个测试集、第三个测试集、第四个测试集的用户对项目的预测评分列；

(5c)删除第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目没有进行预测评分的行；

(5d)采用平均绝对误差指标公式，分别对第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目的预测评分进行评估，得到了第一次评估后的预测评分；

(5e)采用均方根误差指标公式，分别第一次评估后的预测评分进行进一步的评估，得到第二次评估后的预测评分值；

(6)获得推荐项目

对所有项目第二次评估后的预测评分值按照从大到小进行排序，将预测评分最高的前5个项目作为推荐对象输出给用户。

本发明与现有技术相比，具有如下优点：

第一，由于本发明在计算训练集中所有用户对项目的评分列数据对应的可信评分的基础上，提取了可信度高的评分，进行未评分项目的预测，克服了现有技术数据可信度不高，出现预测准确度低的问题，使本发明能够给用户推荐更为准确的项目。

第二，由于本发明采用扰动了训练集数据的方法，使原训练集数据得到了隐藏，克服了现有技术用户信息泄露的问题，使本发明能够在给用户推荐更为准确的项目的同时，避免用户信息的泄露，达到对用户信息的保护。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图1对本发明详细描述如下。

步骤1.提取预测数据集。

从商品数据集中依次提取所有的项目编号组成一列预测数据集、依次提取所有的用户编号组成一列预测数据集、依次提取所有的用户对项目的评分组成一列预测数据集、依次提取所有的用户评分投票的总数组成一列预测数据集、依次提取所有的项目评分中帮助评分的用户数目组成一列预测数据集，将所有提取的五列预测数据组成预测数据集。

将预测数据集按照4：1的比率随机分为训练集和测试集，同时将该测试集复制为四份，得到第一个测试集，第二个测试集，第三个测试集，第四个测试集。

按照下式，计算训练集中用户对项目的评分列数据对应的可信度：

r = \frac{m}{n}

其中，r表示训练集中用户对项目的评分数据的可信度；m表示训练集中项目评分中投有用评分的用户数目；n表示训练集中用户评分投票的总数。

从训练集中提取可信度大于0.5的所有列的数据组成第一个子训练集S₁；从训练集中提取可信度大于0.8的所有列的数据组成第二个子训练集S₂；从训练集中提取可信度等于1的所有列的数据组成第三个子训练集S₃。

步骤2.扰动训练集数据。

分别在训练集、第一个子训练集S₁、第二个子训练集S₂、第三个子训练集S₃的用户对项目的评分数据列上加入呈高斯分布的一组随机数，实现对该列评分数据列的扰动。

步骤3.按照下式，分别计算训练集和三个子训练集中用户对项目的可信评分：

T_{p}^{i} = R_{p}^{i} * r

其中，表示用户p对项目i的可信评分；表示用户p对项目i的历史评分；*表示相乘操作；r表示用户对项目的评分的可信度。

步骤4.预测项目评分。

以训练集中的所有的用户编号为行，所有的项目编号为列，构建一个训练集矩阵。

以三个子训练集中的所有的用户编号为行，所有的项目编号为列，分别构建三个子训练集矩阵。

分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目，进行预测评分，得到了训练集预测评分列和三个子训练集预测评分列。

步骤5.评估预测评分。

在第一个测试集中新建一列，将训练集预测评分列添加到第一个测试集新建的列上，组成第一个测试集的用户对项目的预测评分列。

在第二个测试集、第三个测试集、第四个测试集中分别新建一列，将训练集预测评分列添加到第二个测试集、第三个测试集、第四个测试集中新建的列上，组成第二个测试集、第三个测试集、第四个测试集的用户对项目的预测评分列。

删除第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目没有进行预测评分的行。

采用平均绝对误差指标公式，分别对第一个测试集、第二个测试集、第三个测试集、第四个测试集中用户对项目的预测评分进行评估，得到了第一次评估后的预测评分。

采用均方根误差指标公式，分别第一次评估后的预测评分进行进一步的评估，得到第二次评估后的预测评分值。

步骤6.获得推荐项目。

Claims

1.一种基于可信数据推荐服务的方法，包括以下步骤：

(1)提取预测数据集：

r = \frac{m}{n}

(2)扰动训练集数据：

T_{p}^{i} = R_{p}^{i} * r

(4)预测项目评分：

(5)评估预测评分：

(6)获得推荐项目

2.根据权利要求1所述的基于可信数据推荐服务的方法，其特征在于，步骤(2)中所述的呈高斯分布所选取的是标准高斯分布。

3.根据权利要求1所述的基于可信数据推荐服务的方法，其特征在于，步骤(4c)中所述的分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目，进行预测评分的具体步骤如下：

第一步，按照下式，分别计算训练集矩阵和三个子训练集矩阵中用户给出评分的项目与用户未给出评分的项目的平均偏差：

D_{j}^{k} = \underset{i &Element; {UI}_{j}^{k}}{Σ} \frac{{R_{i}}^{j} - {R_{i}}^{k}}{| {UI}_{j}^{k} |}

其中，表示用户给出第k个评分项目与用户未给出的第j个评分项目的平均偏差；∑表示求和操作；∈表示属于关系；UI_j ^k表示共同评价过第k个评分项目和第j个评分项目的用户集合；i表示共同评价过项目I_k和项目I_j用户集合中的用户编号；|UI_j ^k|表示集合UI_j ^k的元素个数；R_j ⁱ表示第i个用户对第j个项目的评分；R_k ⁱ表示第i个用户对第k个项目的评分；

第二步，根据未给出评分的项目的平均偏差，按照下式，分别对训练集矩阵和三个子训练集矩阵中用户未给出评分的项目，进行预测评分：

{PR}_{j}^{u} = \frac{\underset{k &Element; {II}_{j}}{Σ} (D_{j}^{k} + R_{k}^{u})}{| {II}_{j} |}

其中，PR_j ^u表示第u个用户对第j个未给出评分项目的预测评分；∑表示求和操作；k表示与第j个项目同时被评价过的项目集合中的第k个项目；∈表示属于关系；II_j表示与第j个项目同时被评价过的项目集合；|II_j|表示项目集合II_j的元素个数；表示第u个用户给出评分的第k个项目与第u个用户未给出评分的第j个项目的平均偏差；R_k ^u表示第u个用户对第k个项目的评分。

4.根据权利要求1所述的基于可信数据推荐服务的方法，其特征在于，步骤(5d)中所述的平均绝对误差指标公式如下：

M A E = \frac{Σ_{q = 1}^{N} | {PR}_{u}^{q} - {R_{u}}^{q} |}{N}

其中，MAE表示测试集中预测评分的平均绝对误差；q表示测试集中项目的编号；∑表示求和操作；N表示测试集中项目的总数；PR_q ^u表示测试集中第u个用户对第q个项目的预测评分；R_q ^u表示测试集中第u个用户对第q个项目的评分。

5.根据权利要求1所述的基于可信数据推荐服务的方法，其特征在于，步骤(5e)中所述的均方根误差指标公式如下：

R M S E = \frac{\sqrt{Σ_{q = 1}^{N} {({PR}_{q}^{u} - {R_{q}}^{u})}^{2}}}{N}

其中，RMSE表示测试集中预测评分的均方根误差；q表示测试集中项目的编号；∑表示求和操作；N表示测试集中项目的总数；PR_q ^u表示测试集中用户U_u对第q个项目的预测评分；R_q ^u表示测试集中用户U_u对第q个项目的评分。