CN109408728A

CN109408728A - 一种基于覆盖算法的差分隐私保护推荐方法

Info

Publication number: CN109408728A
Application number: CN201811451578.3A
Authority: CN
Inventors: 张顺; 潘婷; 金闻达; 帅清耀; 还超
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-03-01
Anticipated expiration: 2038-11-30
Also published as: CN109408728B

Abstract

本发明公开了一种基于覆盖算法的差分隐私保护推荐方法，是依据用户对电影评分的数据集得到评分矩阵；将评分矩阵中用户对每部电影评分依次执行覆盖算法；将两个用户聚在同一簇的总次数进行统计得到用户关系矩阵；对用户关系矩阵的每一行进行合理标准化得到用户行标准矩阵；对用户行标准矩阵添加噪声实施干扰；对于目标用户，从用户行标准矩阵中随机抽取k个不同的用户得到相似用户序列；将相似用户序列中评分较高的电影推荐给目标用户。本发明能有效地保护用户隐私，同时提高电影推荐的准确性。

Description

一种基于覆盖算法的差分隐私保护推荐方法

技术领域

本发明涉及一种应用于推荐系统中的基于覆盖算法的差分隐私保护推荐方法。

背景技术

推荐系统是根据用户的兴趣爱好推荐符合用户兴趣的对象，传统的推荐算法主要有基于模型的协同过滤推荐算法和基于记忆的协同过滤推荐算法。

已有的一些针对电影推荐方法方案。这些方案中主要体现在：

1、基于模型的协同过滤推荐算法中，基于奇异值分解的协同过滤推荐算法，能够处理稀疏性较高的数据集，处理速度较快，但是当有新用户加入的时候，存在冷引导问题；基于隐含概率语义的协同过滤推荐算法，能够处理稀疏性较高的数据集，直接最小化训练集中的均分根误差，提高推荐准确性，但是当有新用户加入的时候，也存在冷引导问题。同时，基于模型的协同过滤推荐模型中，存在着隐私泄露的风险；

2、基于记忆的协同过滤推荐算法中，基于用户的协同过滤算法精确度较高，但是随着用户数量的增多，计算时间就会变得很长。而基于项目的协同过滤算法虽然不用考虑用户间的差别，但是精确度较差。同时，基于项目的协同过滤推荐模型中，存在着隐私泄露的风险。

以上两种类型的推荐算法中，基于用户的协同过滤算法是较为常见的算法，并且该算法有较高的精确度，但是，由于需要计算用户之间的相似度，随着用户数量的增多，使计算用户之间相似度的工作量随之增加，花费的计算时间变得很长。同样，基于用户的协同过滤模型中，也存在着隐私泄露的风险。

发明内容

本发明是为避免上述现有技术存的问题，提供一种基于覆盖算法的差分隐私推荐方法，以期能有效的提高电影推荐的准确性，并减少计算量，同时，为推荐系统提供隐私保护。

本发明为解决技术问题所采用的技术方案是：

本发明一种基于覆盖算法的差分隐私保护推荐方法的特点是按如下步骤进行：

步骤1、预处理：

获取m个用户U对n部电影V评分的数据集，其中，U＝{u₁,u₂,...,u_i,...,u_m}，u_i为第i个用户，i∈[1,m]，V＝{v₁,v₂,...,v_j,...,v_n}，v_j为第j部电影，j∈[1,n]；

将第i个用户u_i对第j部电影v_j的评分记为x_i,j，则m个用户U对n部电影V的评分所组成的评分矩阵记为X_m×n＝{X₁,X₂,...,X_j,...,X_n}，X_j表示所有用户对第j部电影v_j的评分，并有：X_j＝{x_1,j,x_2,j,...,x_i,j,...,x_m,j}；

步骤2、利用覆盖算法对所述所有用户对第j部电影v_j的评分X_j进行聚类处理，得到所有用户对第j部电影v_j的聚类结果c_j＝{c_1,j,c_2,j,...,c_p,j,...,c_a(j),j}，其中，a(j)为第j部电影v_j的聚类结果c_j中的簇的个数，且a(j)∈[1,m]；c_p,j为第j部电影v_j的聚类结果c_j中的第p个簇，且为第p个簇中第b个用户u_b存在的标志，若表示第p个簇中存在第b个用户u_b；若表示第p个簇中不存在第b个用户u_b；从而得到所有用户对所有电影的聚类结果C＝{c₁,c₂,...,c_j,...,c_n}；

步骤3：对于第j部电影v_j，按如下方式统计获得每两个用户聚在同一簇的次数：

步骤3.1、初始化p＝1；

步骤3.2、判断p＞a(j)是否成立，若成立，则执行步骤4；否则，执行步骤3.3；

步骤3.3、循环统计：

步骤3.3.1、将第q个用户u_q和第t个用户u_t对第j部电影v_j聚在同一簇的次数记为q∈[1,m-1]，t∈[q+1,m]；

步骤3.3.2、初始化q＝1；

步骤3.3.3、判断q＞m-1是否成立，若成立，则执行步骤3.4；否则，将q+1赋值给t，并执行步骤3.3.4；

步骤3.3.4、判断t＞m是否成立，若成立，则将q+1赋值给q，并返回步骤3.3.3；否则，执行步骤3.3.5；

步骤3.3.5、判断且是否成立，若成立，则将赋值给将t+1赋值给t，并返回执行步骤3.3.4；否则，将t+1赋值给t，并返回执行步骤3.3.4；

步骤3.4、将p+1赋值给p，并返回执行步骤3.2；

步骤4、对于n部电影V，按步骤3相同的方式依次获得第q个用户u_q和第t个用户u_t聚在同一簇的次数则第q个用户u_q和第t个用户u_t对于n部电影V聚在同一簇的总次数为

步骤5、按步骤4相同的方式，获得m个用户U中所有的任意两个用户对n部电影V聚在同一簇的总次数所组成的用户关系矩阵Z_m×m＝{Z₁,Z₂,...,Z_t,...,Z_m}；Z_t表示第t个用户u_t与所有用户聚在同一簇的总次数，并有Z_t＝{z_1,t,z_2,t,...,z_q,t,...,z_m,t}；

步骤6、采用离差标准化法对第t个用户u_t与所有用户聚在同一簇的总次数Z_t进行标准化处理，得到第t个用户u_t标准化后的总次数从而得到所有用户标准化后的总次数

步骤7、将所述第t个用户u_t标准化后的总次数作为第t个效用函数，执行指数机制向用户关系矩阵添加噪声，得到扰动后的总次数表示第t个用户u_t与所有用户聚在同一簇的扰动后的总次数；

步骤8、随机选取第x个用户u_x作为目标用户，且x∈[1,m]；

根据目标用户与所有用户聚在同一簇的扰动后的总次数的分布，随机抽取k个不同的用户并得到目标用户的相似用户序列O_x＝{o_x,1,o_x,2,...,o_x,w,...,o_x,k}，其中o_x,w表示目标用户的第w个相似用户；w∈[1,k]

步骤9、将目标用户的相似用户序列O_x中评分较高的前r部电影推荐给目标用户，从而完成电影推荐，r＜k。

与现有技术相比，本发明有益效果体现在：

1、本发明利用覆盖算法，针对每个电影对用户进行聚类，再将目标用户和其它各用户两两聚在同一簇的总次数进行统计，使用标准化之后，通过指数机制添加噪声实施干扰，从干扰后用户行标准矩阵中随机抽取k个不同的用户得到相似用户序列；将相似用户序列中评分较高的电影推荐给目标用户，完成电影推荐。相比于现有技术中的协同过滤算法，能够为推荐系统提供了隐私保护，同时有效提高了电影推荐的准确性。

2、本发明通过覆盖算法和统计操作得到潜在用户序列，潜在用户序列中排名越靠前的用户与目标用户的相似性越高。随着用户数量的增多，本发明采用覆盖算法和统计操作相比现有技术中基于用户的协同过滤算法需要大量计算用户之间相似度的情况，大大减少了计算量。

3、相对于现有技术中基于模型的协同过滤推荐算法，本发明不存在新用户加入时的冷引导问题。

附图说明

图1为本发明方法中主要步骤流程图。

具体实施方式

本实施例中，一种基于覆盖算法的差分隐私保护推荐方法，是应用于推荐系统中，如图1所示，该方法是按如下步骤进行：

步骤1、预处理：

首先，从网站上获取m个用户U对n部电影V评分的数据集，其中，U＝{u₁,u₂,...,u_i,...,u_m}，u_i为第i个用户，i∈[1,m]，V＝{v₁,v₂,...,v_j,...,v_n}，v_j为第j部电影，j∈[1,n]；本具体实施中，用户对电影评分数据集采用GroupLens研究组提供的MovieLens(www.grouplens.org)数据集ML-100k对算法进行评估，该数据集包含943个用户对1682个电影的100000个评分记录，每个用户至少对20部电影评分，评分范围为1-5之间的整数，代表喜好程度从低到高，该数据的评分稀疏度为93.7％，将数据集ML-100k随机分为占比为80％的训练集和20％的测试集，本实施例采用的用户对电影评分的数据集是指80％的训练数据集。

将第i个用户u_i对第j部电影v_j的评分记为x_i,j，则m个用户U对n部电影V的评分所组成的评分矩阵记为X_m×n＝{X₁,X₂,...,X_j,...,X_n}，X_j表示所有用户对第j部电影v_j的评分，并有：X_j＝{x_1,j,x_2,j,…,x_i,j,…,x_m,j}；

步骤2、如图1的步骤2所示，利用覆盖算法对所有用户对第j部电影v_j的评分X_j进行聚类处理，得到所有用户对第j部电影v_j的聚类结果c_j＝{c_1,j,c_2,j,…,c_p,j,…,c_a(j),j}，其中，a(j)为第j部电影v_j的聚类结果c_j中的簇的个数，且a(j)∈[1,m]；c_p,j为第j部电影v_j的聚类结果c_j中的第p个簇，且为第p个簇中第b个用户u_b存在的标志，若表示第p个簇中存在第b个用户u_b；若表示第p个簇中不存在第b个用户u_b；从而得到所有用户对所有电影的聚类结果C＝{c₁,c₂,…,c_j,…,c_n}；

覆盖算法按如下步骤进行：

第一步：求出所有未学习过样本的重心，并以离该重心最近的样本作为覆盖的圆心center；

第二步：求出其它所有还未聚类的样本与center的距离；

第三步：求出所有距离的平均距离d；

第四步：以平均距离d作为半径r；

第五步：求出球形覆盖；

第六步：求出当前球形覆盖的重心，获得新的覆盖，直到覆盖的样本数不再增加为止；

第七步：找到离当前覆盖的圆心最远的点作为下一步覆盖的圆心center；

第八步：重复第一步到第七步直到所有的样本全部覆盖结束；

第九步：对于包含点比较少的覆盖采用最短距离法；

a：对于要用最短距离法合并的覆盖，计算出两覆盖的圆心的距离；

b：将离得最近的两个覆盖合并为一个新的覆盖；

c：更新其他覆盖与新覆盖的最短距离；

d：重复b和c，确定最后的聚类数；

第十步：结束。

步骤3.1、初始化p＝1；

步骤3.3、循环统计：

步骤3.3.2、初始化q＝1；

步骤3.4、将p+1赋值给p，并返回执行步骤3.2；

步骤5、按步骤4相同的方式，获得m个用户U中所有的任意两个用户对n部电影V聚在同一簇的总次数所组成的用户关系矩阵Z_m×m＝{Z₁,Z₂,…,Z_t,…,Z_m}；Z_t表示第t个用户u_t与所有用户聚在同一簇的总次数，并有Z_t＝{z_1,t,z_2,t,…,z_q,t,…,z_m,t}；

步骤6、如图1的步骤3所示，采用离差标准化法对第t个用户u_t与所有用户聚在同一簇的总次数Z_t进行标准化处理，得到第t个用户u_t标准化后的总次数从而得到所有用户标准化后的总次数离差标准化法按式(1)计算：

步骤7、将第t个用户u_t标准化后的总次数作为第t个效用函数，执行指数机制向用户关系矩阵添加噪声，得到扰动后的总次数表示第t个用户u_t与所有用户聚在同一簇的扰动后的总次数；指数机制按式(2)计算：

式(2)中，Δ＝1，隐私预算ε＝0.1。

步骤8、如图1的步骤5所示，随机选取第x个用户u_x作为目标用户，且x∈[1,m]；

根据目标用户与所有用户聚在同一簇的扰动后的总次数的分布，随机抽取k个不同的用户并得到目标用户的相似用户序列O_x＝{o_x,1,o_x,2,…,o_x,w,…,o_x,k}，其中o_x,w表示目标用户的第w个相似用户，w∈[1,k]；

步骤9、将目标用户的相似用户序列O_x中评分较高的前r部电影推荐给目标用户，从而完成电影推荐，r＜k。本发明具体实施中，通过大量实验，计算出推荐系统的评价指标准确率Precision的平均值为0.67，召回率Recall的平均值为0.61。

Claims

1.一种基于覆盖算法的差分隐私保护推荐方法，其特征是按如下步骤进行：

步骤1、预处理：

步骤3.1、初始化p＝1；

步骤3.3、循环统计：

步骤3.3.2、初始化q＝1；

步骤3.4、将p+1赋值给p，并返回执行步骤3.2；

步骤8、随机选取第x个用户u_x作为目标用户，且x∈[1,m]；