CN109033453B

CN109033453B - 一种基于rbm与差分隐私保护的聚类的电影推荐方法及系统

Info

Publication number: CN109033453B
Application number: CN201810973951.5A
Authority: CN
Inventors: 陈志立; 乔明浩; 仲红; 张顺; 崔杰
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2021-10-26
Anticipated expiration: 2038-08-24
Also published as: CN109033453A

Abstract

本发明公开了一种基于RBM与差分隐私保护的聚类的电影推荐方法，包括：初始化阶段：收集所有用户对项目的评分信息，生成一个用户项目评分矩阵；聚类阶段：在得到的用户项目评分矩阵中，以单个用户为基础，对所有用户进行聚类操作，把所有用户分为k个类；生成推荐模型阶段：得到所有用户的聚类结果，然后在每个聚类中使用RMB算法生成各自的推荐模型；在线用户电影推荐阶段：用户登录系统，在推荐模型中选出评分高的且用户无观看记录的T个项目推送到用户界面。本发明还公开了一种基于RBM与差分隐私保护的聚类的电影推荐系统。本发明使用差分隐私技术中Laplace机制对聚类过程进行保护，再对每个聚类分别生成推荐模型，使得相同聚类用户的推荐结果更精确。

Description

一种基于RBM与差分隐私保护的聚类的电影推荐方法及系统

技术领域

本发明涉及推荐系统与信息安全技术领域，尤其涉及一种基于RBM与差分隐私保护的聚类的电影推荐方法及系统。

背景技术

随着网络技术的快速发展导致了信息的爆炸性增长，推荐系统是大量信息背景下最成功的信息过滤应用，推荐系统能非常有效的解决信息过载问题。对于电影推荐来说，推荐系统根据用户的观看历史，给用户推荐一些无观看记录但可能感兴趣的电影，在推荐系统的帮助下，用户可以快速的发现感兴趣或新的选择，同时对于公司来说，推荐系统增加了商品的销量，提高了公司的效益。

由于推荐系统能有效的解决信息过载，故推荐系统的发展十分迅速，推荐系统根据用户的历史记录进行个性化推荐，这引发了新的问题即用户越来越多的关注到个人隐私泄露问题。推荐系统为了向用户提供个性化推荐服务，在训练模型时，使用用户的历史记录进行模型训练，这些历史记录中可能包含用户不想让他人知道的隐私信息(如：个人的兴趣爱好)。所以推荐系统一方面可以使用户在大量信息的选择中解放出来，另一方面也会带来隐私泄露问题。

为了解决用户隐私泄露问题，便引入了一种全新的隐私保护方法——差分隐私。差分隐私的基本理念是当两个输入集基本相同时，即只有一条记录不同，其他记录完全相同时，输出集的概率分布也基本相同。这样根据输出的结果无法推断出具体的输入集，实现了输入集的隐私保护。而在基于RBM与差分隐私保护的聚类的电影推荐方法中，我们在聚类结果中用差分隐私的Laplace机制来保护单个用户的隐私，Laplace机制的应用主要是选取一个函数作为它的效用函数，然后在输出结果中加入服从Laplace分布的噪声，对于单个用户记录的改变，效用函数的差别越大即敏感度越大，隐私保护的效果越好，但是敏感度越大，输出数据的可用性也就越差，所以要合理选用效用函数。近几年，提出了一些基于差分隐私保护的聚类的电影推荐算法及基于RBM的推荐算法，如文献[Outlier-eliminated k-means clustering algorithm based on differential privacy preservation,2016]使用Laplace机制对每次迭代的聚类中心点加入噪声，但是随着迭代次数的增加，加入的噪声量会越来越大，影响结果的准确度。文献[Modeling Prediction in Recommender SystemsUsing Restricted Boltzmann Machine,2017]使用整个数据集来训练推荐模型，这种训练模型得到单个项目的权重为所有对同一项目评分的用户权重的平均值，这种训练模型弱化了同类爱好用户的兴趣。

现有的差分隐私保护的聚类算法中，把N个用户聚成k类，在聚类过程中，每次计算聚类中心点都会加入Laplace噪声，随着聚类次数的增加影响聚类的精确度，而且每个聚类中用户数量没有得到很好的控制。另外现有的RBM算法，在计算最终权重矩阵时，每个项目对应的权重为所有用户对此项目权重的平均，这极大削弱了相似用户间的影响。

据此，目前急需对现有技术进行改进，以得到一种基于RBM与差分隐私保护的聚类的电影推荐方法及系统。

发明内容

本发明的目的在于提供了一种基于RBM与差分隐私保护的聚类的电影推荐方法及系统，使用差分隐私技术中的Laplace机制对聚类过程进行保护，以保护用户个人隐私信息，然后对每个聚类分别生成推荐模型，使得相同聚类用户的推荐结果更精确。

本发明是通过以下技术方案实现的：一种基于RBM与差分隐私保护的聚类的电影推荐方法，该推荐方法包括以下流程：

S1、初始化阶段：收集所有用户对项目的评分信息，生成一个用户项目评分矩阵；

S2、聚类阶段：在得到的用户项目评分矩阵中，以单个用户为基础，对所有用户进行聚类操作，把所有用户分为k个类；

S3、生成推荐模型阶段：得到所有用户的聚类结果，然后在每个聚类中使用RMB算法生成各自的推荐模型；

S4、在线用户电影推荐阶段：用户登录系统，在推荐模型中选出评分高的且用户无观看记录的T个项目推送到用户界面。

作为本发明的优选方式之一，在所述的初始化阶段中：所述的用户对项目的评分信息为文件形式，其包括存储用户编号、项目编号、用户对项目的评分、评分时间；生成评分矩阵的具体方法为：模型训练首先把文件形式的评分信息进行处理，提取其中的用户编号、项目编号、用户对项目的评分，从而得到用户项目评分矩阵；其中用户数为N，项目数为M，评分范围为1-5，没有评分的项目默认评分为0。

作为本发明的优选方式之一，在所述的聚类阶段中，具体地，包括以下过程：

(1)随机生成k个M维的向量作为初始的聚类中心点；

(2)分别计算每个用户到这k个聚类中心点的距离，得到用户距离k个中心点的距离，用户属于距离其最近的中心点所确定的聚类；

(3)所有用户都完成计算后，分别计算每个聚类中所有用户的各维数据平均值，将其作为新的聚类中心点；

(4)在新的聚类中心点基础上重复步骤(2)、步骤(3)，直至聚类中心点不再改变为止，否则重复步骤(2)、步骤(3)直至聚类中心点不再改变；

(5)聚类稳定后判断每个聚类所含用户的数目，若其所含用户的数目大于2N/k，或小于N/2k，则需要重新聚类；

(6)待上述步骤完成，计算每个聚类的中心点并加入Laplace(5k/2εN)的噪声，然后对所有用户再进行一次聚类，得到最终聚类结果，此处加入噪声的目的是使用差分隐私对用户隐私进行保护，用到的邻近数据集为某个用户的项目评分被修改，在计算聚类中心点时，每个维度对应的敏感度为5k/2N，故每个维度添加服从Laplace(5k/2εN)分布的噪声值。

作为本发明的优选方式之一，在所述的生成推荐模型阶段中：具体地，包括以下过程：

(1)对于每个用户，使用RBM(Restricted Boltzmann Machines)推荐算法对M个电影项目进行评分，生成一个6行M列的矩阵，矩阵中的元素为0或1；

(2)若用户的评分为r,则在对应的r+1行填入1，此项目对应的其他行数据用0填充，每个用户作为一个RBM输入；

(3)RBM对应的显示层节点数为用户进行评分项目的数目，隐藏层的节点的个数为h，h在实验过程中根据经验取值，每个聚类中所有用户对应的隐藏层节点个数相同；

(4)每个用户训练其各自的权重矩阵，聚类中所有用户对于相同项目的权重为单个用户对此项目权重的平均值，最终得到聚类对应的权重矩阵。

作为本发明的优选方式之一，所述权重训练过程为：用户的评分向量作为RBM输入，得到隐藏层节点的输出值，然后以隐藏层值为输入，求出显示层节点对应的值，判断反馈的显示层值与原先输入显示层值的误差，当误差小于预先设定的阈值或达到预先设定的迭代上限，权重矩阵训练完成，若不满足结束条件，则调整权重矩阵继续迭代计算。

作为本发明的优选方式之一，所述在线用户电影推荐阶段具体包括：

推荐请求阶段：用户登录系统，默认向系统发送电影推荐请求；

请求处理阶段：系统接收到用户的电影推荐请求，首先查询用户在数据集中所属的聚类，若用户属于模型训练过程中的某个聚类，用对应的推荐模型对用户进行评分预测，若查询无法得知用户所属聚类的信息，则对用户进行聚类操作得到用户的聚类结果，用对应的推荐模型进行评分预测，并且记录此用户所属的聚类信息便于下次推荐使用；

评分预测阶段：得到用户所属的聚类信息，用对应聚类的推荐模型，把用户的历史评分向量作为推荐模型的输入，模型输出用户对所有项目的预测评分；

推荐阶段：得到用户对项目的预测评分，从中选择评分最高且用户无观看记录的T个项目推荐给用户。

本发明还公开了一种基于RBM与差分隐私保护的聚类的电影推荐系统，该推荐系统包括以下模块：

初始化模块：用于收集所有用户对项目的评分信息，生成一个用户项目评分矩阵；

聚类模块：用于在得到的用户项目评分矩阵中，以单个用户为基础，对所有用户进行聚类操作，把所有用户分为k个类；

生成推荐模型模块：在得到所有用户的聚类结果中，用于在每个聚类中使用RMB算法生成各自的推荐模型；

在线用户电影推荐模块：在用户登录系统时，用于在推荐模型中选出评分高的且用户无观看记录的T个项目并推送到用户界面。

本发明相比现有技术的优点在于：(1)本发明使用的差分隐私保护聚类方式，首先在聚类稳定后，要确保每个聚类中的用户数目不得超过2N/k，不得少于N/2k，否则重新进行聚类；在满足上述条件的前提下计算每个聚类的中心点，对中心点加入Laplace(5k/2εN)噪声，然后再进行一次聚类，得到最终的聚类结果。这样操作的优点在于，聚类结果同样实现了差分隐私保护，且只加入一次噪声，保证了聚类结果的精确性，同时每个聚类中的用户数目在一定范围，不会出现聚类中包含的用户数目过多或过少的问题。(2)本发明使用RBM算法，是在聚类的基础上计算权重矩阵，每个聚类用户的兴趣爱好是相似的，在聚类数据集中使用RBM生成对应的推荐模型，这使得同类用户的评分预测更精确。给用户进行评分预测时，首先判断用户所属的聚类，然后用对应聚类的推荐模型进行评分预测，很大程度提高了预测的精确度。

附图说明

图1是本发明实施例1的推荐方法的前三个阶段的流程图；

图2为本发明的实施例1的推荐方法的在线用户电影推荐阶段的流程图；

图3为本发明实施例1中的聚类的示意图；

图4为基于本发明实施例1中的RBM的双层神经网络示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

参见图1-4：本实施例的一种基于RBM与差分隐私保护的聚类的电影推荐方法，该推荐方法包括以下流程：

S1、初始化阶段：收集所有用户对项目的评分信息，生成一个用户项目评分矩阵；在所述的初始化阶段中：所述的用户对项目的评分信息为文件形式，其包括存储用户编号、项目编号、用户对项目的评分、评分时间；生成评分矩阵的具体方法为：模型训练首先把文件形式的评分信息进行处理，提取其中的用户编号、项目编号、用户对项目的评分，从而得到用户项目评分矩阵；其中用户数为N，项目数为M，评分范围为1-5，没有评分的项目默认评分为0；

S2、聚类阶段：在得到的用户项目评分矩阵中，以单个用户为基础，对所有用户进行聚类操作，把所有用户分为k个类；在所述的聚类阶段中，具体地，包括以下过程：

(1)随机生成k个M维的向量(每维数据范围0-5)作为初始的聚类中心点；

(2)分别计算每个用户到这k个聚类中心点的距离(用欧几里得距离)，得到用户距离k个中心点的距离，用户属于距离其最近的中心点所确定的聚类；

(6)待上述步骤完成，计算每个聚类的中心点并加入Laplace(5k/2εN)的噪声，然后对所有用户再进行一次聚类，得到最终聚类结果，此处加入噪声的目的是使用差分隐私对用户隐私进行保护，用到的邻近数据集为某个用户的项目评分被修改，在计算聚类中心点时，每个维度对应的敏感度为5k/2N，故每个维度添加服从Laplace(5k/2εN)分布的噪声值；

S3、生成推荐模型阶段：得到所有用户的聚类结果，然后在每个聚类中使用RMB算法生成各自的推荐模型；在所述的生成推荐模型阶段中：具体地，包括以下过程：

(4)每个用户训练其各自的权重矩阵，聚类中所有用户对于相同项目的权重为单个用户对此项目权重的平均值，最终得到聚类对应的权重矩阵；

S4、在线用户电影推荐阶段：用户登录系统，在推荐模型中选出评分高的且用户无观看记录的T个项目推送到用户界面；所述在线用户电影推荐阶段具体包括：

为了便于理解，假设有N个用户，M个电影项目，处理得到用户项目评分矩阵具体见下图表：

离线训练推荐模型：

对于用户项目评分矩阵，首先随机化初始化k个聚类中心点，分别计算每个用户到这k个聚类中心点的距离(欧几里得距离)，用户属于距离其最近的中心点所确定的聚类，每个聚类包含用户数目不得超过2N/k，不得少于N/2k。聚类稳定后计算每个聚类的中心点，并加入

噪声，然后的到差分隐私保护后的中心点，再对所有用户进行一次聚类，得到最终的聚类结果。

对于每个聚类，其包含的数据作为RBM的输入生成聚类的推荐模型。

具体如下，每个用户的评分，对应一个6行M列的矩阵，六行对应评分0-5，M列对应项目数，用户对项目的评分为r则在第r+1行存入1，此项目对应的其他行填充0，若用户没有对此项目评分，则在此项目对应列的第一行存入1，其余行填充0。RBM算法是一个提取不同项目特征的神经网络，分为两层，第一层为显示层，显示层每个节点对应单个用户已经评分的项目，第二行为隐藏层，隐藏层节点的个数根据经验设定在具体实验中进行调整，隐藏层节点表示显示层节点的特征。隐藏层与显示层之间全连接，显示层与显示层之间无连接，隐藏层与隐藏层之间无连接。显示层与隐藏层之间有一个权重矩阵，首先随机初始化权重矩阵，然后把用户的历史评分作为RBM算法的输入计算隐藏层节点的值，再以得到的隐藏层节点的值作为输入反馈得到显示层节点的值，比较反馈的显示层节点的值与用户原始评分值的差异调整权重矩阵，最终反馈值与输入值误差小于一定的阈值或达到迭代上限时，认为权重矩阵训练完成，每个用户对应一个权重矩阵，对于整个聚类的权重矩阵，为每个用户权重矩阵的平均。至此每个聚类得到对应的推荐模型。

在线用户电影推荐：

用户登录系统，默认其向系统发送推荐电影请求，系统接收到用户请求首先要判断用户所属的聚类，然后把其对所有项目的评分向量作为对应聚类推荐模型的输入，得到对所有项目评分的预测向量，然后从评分预测向量中挑选T个评分最高且用户没有观看记录的电影推荐给用户。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于RBM与差分隐私保护的聚类的电影推荐方法，其特征在于，该推荐方法包括以下流程：

S4、在线用户电影推荐阶段：用户登录系统，在推荐模型中选出评分高的且用户无观看记录的T个项目推送到用户界面；

在所述的聚类阶段中，具体地，包括以下过程：

（1）随机生成k个M维的向量作为初始的聚类中心点；

（2）分别计算每个用户到这k个聚类中心点的距离，得到用户距离k个中心点的距离，用户属于距离其最近的中心点所确定的聚类；

（3）所有用户都完成计算后，分别计算每个聚类中所有用户的各维数据平均值，将其作为新的聚类中心点；

（4）在新的聚类中心点基础上重复步骤（2）、步骤（3），直至聚类中心点不再改变为止，否则重复步骤（2）、步骤（3）直至聚类中心点不再改变；

（5）聚类稳定后判断每个聚类所含用户的数目，若其所含用户的数目大于2N/k，或小于N/2k，则需要重新聚类；

（6）待上述步骤完成，计算每个聚类的中心点并加入Laplace(5k/2εN)的噪声，然后对所有用户再进行一次聚类，得到最终聚类结果；

在所述的生成推荐模型阶段中：具体地，包括以下过程：

（1）对于每个用户，使用RBM推荐算法对M个电影项目进行评分，生成一个6行M列的矩阵，矩阵中的元素为0或1；

（2）若用户的评分为r,则在对应的r+1行填入1，此项目对应的其他行数据用0填充，每个用户作为一个RBM输入；

（3）RBM对应的显示层节点数为用户进行评分项目的数目，隐藏层的节点的个数为h，h在实验过程中根据经验取值，每个聚类中所有用户对应的隐藏层节点个数相同；

（4）每个用户训练其各自的权重矩阵，聚类中所有用户对于相同项目的权重为单个用户对此项目权重的平均值，最终得到聚类对应的权重矩阵。

2.根据权利要求1所述的基于RBM与差分隐私保护的聚类的电影推荐方法，其特征在于，在所述的初始化阶段中：

所述的用户对项目的评分信息为文件形式，其包括存储用户编号、项目编号、用户对项目的评分、评分时间；

生成用户项目评分矩阵的具体方法为：模型训练首先把文件形式的评分信息进行处理，提取其中的用户编号、项目编号、用户对项目的评分，从而得到用户项目评分矩阵；其中用户数为N，项目数为M，评分范围为1-5，没有评分的项目默认评分为0。

3.根据权利要求1所述的基于RBM与差分隐私保护的聚类的电影推荐方法，其特征在于，所述k个M维的向量的数据范围为0-5，所述距离为欧几里得距离。

4.根据权利要求1所述的基于RBM与差分隐私保护的聚类的电影推荐方法，其特征在于，所述权重训练过程为：用户的评分向量作为RBM输入，得到隐藏层节点的输出值，然后以隐藏层值为输入，求出显示层节点对应的值，判断反馈的显示层值与原先输入显示层值的误差，当误差小于预先设定的阈值或达到预先设定的迭代上限，权重矩阵训练完成，若不满足结束条件，则调整权重矩阵继续迭代计算。

5.根据权利要求1所述的基于RBM与差分隐私保护的聚类的电影推荐方法，其特征在于，所述在线用户电影推荐阶段具体包括：

6.一种根据权利要求1-5任一所述的基于RBM与差分隐私保护的聚类的电影推荐系统，其特征在于，该推荐系统包括以下模块：