CN108256000A

CN108256000A - 一种基于局部聚类的个性化差分隐私推荐方法

Info

Publication number: CN108256000A
Application number: CN201711484447.0A
Authority: CN
Inventors: 刘树波; 李永凯; 蔡朝晖; 王俊
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-07-06
Anticipated expiration: 2037-12-29
Also published as: CN108256000B

Abstract

本发明涉及一种基于局部聚类的个性化差分隐私推荐方法。针对不同用户对不同物品隐私需求不一致的情形，首先对用户资料数据集进行抽样，然后利用抽样数据集选取目标用户的含噪KNN，进而基于局部相似度对物品进行聚类并利用聚类结果对用户资料进行改写，最后利用改写后用户资料计算推荐结果。本发明提出的方案具有较高的可用性，并且能够精确的保证任意用户的隐私需求。

Description

一种基于局部聚类的个性化差分隐私推荐方法

技术领域

本发明属于具有隐私保护功能的推荐技术领域，尤其涉及一种个性化差分隐私协同过滤推荐方法。

背景技术

受益于电子设备制造技术的发展，人类社会每天都在产生大量的数据。据IBM的一份调查报告统计，在2002年，在线数据总量约为5EB(exabyte)。在2009年，该数据总量增至281EB，在7年时间内增长了56倍。另外，根据Forrester Research Inc.公司的研究，企业的储存的数据的总量每3年就翻一翻。明显的，现在无法单靠人力去全部浏览这些数据，并以此获取有效信息。推荐算法就是在这种情况下被提出，它可以让人们快速地从海量的数据中想要找到他们需要的信息。

这些推荐系统的一个核心技术是协作过滤(Collaborative Filtering,CF)算法。协同过滤算法通过学习类似用户(user-based)的模式或者发现类似物品(item-based)来预测用户的偏好。CF算法利用用户资料中的直接信息来提供精准的推荐。然而，这些信息具有的较高的敏感性，相关隐私信息的泄露得到广泛关注。而随着现代社会互联化、信息化的趋势不断深入，这种个人隐私泄露的风险越来越成为现实。基于这种隐私泄露的担忧，一系列带有隐私保护的协同过滤方案被提了出来。基于传统密码学的隐私保护方案或使用假名ID来隐藏用户记录真实ID，或使用一系列访问控制策略来将用户记录共享给特定用户组。这些方法被现有去匿名化攻击证明十分脆弱，安全性不强。

基于概率模型的差分隐私(Differential Privacy)模型被提出来应对以上诸多方案的不足。差分隐私要求单个记录数据对数据集处理结果的影响从概率上是微小可控的，并且差分隐私模型假定在最差情况下，攻击者拥有除数据本身以外的所有记录数据，这是攻击者理论上的攻击能力上限，因此能够抵御差分攻击即表明可以抵御所有已知和未知的隐私攻击。由于差分隐私具有上述隐私可量化、攻击能力可界定的良好性质，它被广泛地引入到诸多数据发布与查询应用领域。最近，将差分隐私方法也被引入到了CF推荐算法领域。值得一提的是，这些方法要么过于简单不能应对数据的更新；要么简单的认为所有用户的隐私偏好一致；要么没有考虑CF算法的局部化特点。

发明内容

针对现有技术存在的问题，本发明提供了一种基于局部聚类的个性化差分隐私推荐方法，适用于用户群体具有多种隐私偏好的个性化差分隐私推荐。

本发明思路如下：

在设计基于局部聚类的个性化差分隐私推荐方案时，需要注意到不同用户群体的隐私偏好不同。为实现个性化差分隐私，我们需要根据用户的隐私偏好对该用户的个人资料(如购买记录)进行抽样。在抽样时，我们计算某条记录的抽样概率，并将其与预设阈值进行比较。当该概率大于阈值时，该记录被保留；反之，该条记录被删除。利用抽样后的数据集，我们先计算目标用户的K-最临近邻居(KNN)；随后在KNN中将物品(item)进行聚类；之后利用该聚类结果对KNN中用户的个人资料，按照差分隐私原则进行改写；最后，利用改写后的用户资料完成对目标用户的推荐。

为解决上述技术问题，本发明的技术方案如下：

基于局部聚类的个性化差分隐私推荐方法，其特征在于，基于以下定义：推荐系统为这里为全体用户的集合、为全部物品的集合；令和分别表示用户和物品的数目；此外，推荐系统G中还保存有用户的评分资料和物品的属性资料；用户u的资料记作S_u，表示用户u对所有物品的评分，并且我们记S_u(i)＝r(u,i)，这里r(u,i)表示用户u对物品i的评分；物品的属性资料记作v_i，包含物品的相关特点，给定一个目标用户u′，我们的目标是基于用户u′的相似用户，为u′推荐k个其可能喜欢的物品；为表征这种相似关系，我们需要对用户间的距离进行定义；我们记用户u和用户v之间的距离为dis(u,v)，这里其中表示欧式距离；基于上述距离度量，能够得到目标用户u′的K最临近用户群KNN；

令推荐系统中的用户资料集合为并且令D(u)(i)＝r(u,i)＝S_u(i)；并

定义1，临近资料集：对于两个资料集D和D′，如果D′能够通过增加或者减少一个用户-物品评分数据得到D，那么我们称D和D′为临近资料集；更进一步，我们用表示D和D′为临近资料集，并且D＝D′∧r(u,i)或者这里r(u,i)为用户u对物品i的评分数据；

定义2，物品层个人用户隐私偏好：物品层个人用户隐私偏好为用户集到物品集的隐私偏好，记为这里隐私偏好值越小，隐私需求越高；符号P^u(i)表示用户对物品i的隐私偏好值；

对于用户u，记其K最临近用户集为KNN(u)；在此基础上，我们令u的临近社团为C(u)＝{u}∪KNN(u)；

定义3，基于聚类的物品分组：对于中的任意物品x,以及C(u)中的局部相似性度量θ(u)，物品x的基于聚类的物品分组G(x,u)为与x同属于同一聚类的所有物品集合，即:和x在度量θ(u)下属于同一类}；

定义4，基于聚类的物品集分组：对于中的任意物品集以及C(u)中的局部相似性度量θ(u)，物品集的基于聚类的物品集分组为与同属于同一聚类的所有物品集分组的集合，即:

定义5，个性化局部差分隐私：给定一个目标用户u₀，以及所有用户的物品层个人用户隐私偏好我们称一个推荐算法M满足-个性化局部差分隐私，当且仅当对于任意两个临近资料集D和D′，且并且对于的任意子集，有

该方法包括以下步骤：

步骤1，基于用户隐私偏好的个人资料抽样：在个性化差分隐私推荐中，不同用户具有不同的隐私偏好；为确保用户的隐私偏好得到精确保证，需要根据用户的隐私偏好对其个人资料进行抽样；抽样方法为：首先确定一个阈值T，随后计算某条记录的抽样概率，并将其与预设阈值进行比较；当该概率大于阈值时，该记录被保留；反之，该条记录被删除；

步骤2，基于抽样数据的目标用户KNN计算：在得到抽样后个人资料后，利用该抽样后数据，计算所有用户资料的局部敏感性哈希(LSH)；利用LSH值确定2K个备选用户作为目标用户KNN的备选集合；计算这2K个用户与目标用户的含噪相似度，并选取与目标用户最相似的K个用户作为目标用户的KNN；

步骤3，基于KNN内物品聚类的个人资料改写：得到目标用户的KNN后，利用物品属性信息以及物品在KNN中的相似度，计算物品间的局部相似度量；在局部相似度量的基础上，对物品进行聚类；基于物品聚类结果，对目标用户极其KNN内用户的资料信息进行改写；

步骤4，基于改写资料信息的推荐结果计算：根据改写后的用户资料信息，计算目标用户可能喜欢的物品结果。

在上述的基于局部聚类的个性化差分隐私推荐方法，步骤2中，采用LSH对抽样数据集进行预处理，得到备选KNN集合，进而计算备选用户与目标用户的相似度，提高计算效率。

在上述的基于局部聚类的个性化差分隐私推荐方法，步骤3中，利用物品属性信息以及物品在KNN中的相似度，计算物品间的局部相似度量并基于该度量对物品进行聚类。

在上述的基于局部聚类的个性化差分隐私推荐方法，步骤3中，利用局部聚类结果对用户资料进行改写；这种方式保证了任何敌手无法推断用户是否喜好某一物品，同时也保证了敌手无法推断用户是否喜好某一类较相近的物品。

本发明具有下述优点：1、不仅适用于用户隐私偏好各异的情形，也适用于用户隐私偏好一致的情形。2、利用KNN中物品的局部相似度进行聚类，不仅保护了用户资料中的某一条信息不被泄漏，还保护了局部相似度较高物品信息的泄漏，隐私保护程度更强。3、本发明计算效率较高，既可用于在线推荐，也可用于离线推荐，且推荐结果的精确度较现有方案高。

具体实施方式

下面将对与本发明相关的现有技术及本发明技术方案做进一步详细说明。

一、系统模型与隐私保护目标

1、系统模型

记本发明中的推荐系统为这里为全体用户的集合、为全部物品的集合。令和分别表示用户和物品的数目。此外，推荐系统G中还保存有用户的评分资料和物品的属性资料。用户u的资料记作S_u，表示用户u对所有物品的评分，并且我们记S_u(i)＝r(u,i)，这里r(u,i)表示用户u对物品i的评分。物品的属性资料记作v_i，它包含物品的相关特点，例如，某项运动是不是球类运动。

给定一个目标用户u′，我们的目标是基于用户u′的相似用户，为u′推荐k个其可能喜欢的物品。为表征这种相似关系，我们需要对用户间的距离进行定义。我们记用户u和用户v之间的距离为dis(u,v)，这里其中表示欧式距离。基于上述距离度量，我们可以很容易的找出目标用户u′的K最临近用户群KNN。

2、隐私保护目标

本发明拟在用户拥有不同隐私偏好的情形下，实现个性化的差分隐私推荐方案。令推荐系统中的用户资料集合为并且令D(u)(i)＝r(u,i)＝S_u(i)。在给出差分隐私的定义前，我们先引入以下先导概念。

定义1(临近资料集)对于两个资料集D和D′，如果D′能够通过增加或者减少一个用户-物品评分数据得到D，那么我们称D和D′为临近资料集。更进一步，我们用表示D和D′为临近资料集，并且D＝D′∧r(u,i)或者D′＝D∧r(u,i)，这里r(u,i)为用户u对物品i的评分数据。

一般来说，我们假设每个用户独立地指定其数据的隐私要求。个人用户隐私需求定义如下：

定义2(物品层个人用户隐私偏好)物品层个人用户隐私偏好为用户集到物品集的隐私偏好，记为这里隐私偏好值越小，隐私需求越高。符号P^u(i)表示用户对物品i的隐私偏好值。

对于用户u，记其K最临近用户集为KNN(u)。在此基础上，我们令u的临近社团为C(u)＝{u}∪KNN(u)。

定义3(基于聚类的物品分组)对于中的任意物品x,以及C(u)中的局部相似性度量θ(u)，物品x的基于聚类的物品分组G(x,u)为与x同属于同一聚类的所有物品集合，即:和x在度量θ(u)下属于同一类}。

基于定义3，很容易将该定义推广到集合层次：

定义4(基于聚类的物品集分组)对于中的任意物品集以及C(u)中的局部相似性度量θ(u)，物品集的基于聚类的物品集分组为与同属于同一聚类的所有物品集分组的集合，即:

有了上述基本概念，下面将给出本发明拟实现的隐私保护目标:个性化局部差分隐私：

定义5(个性化局部差分隐私)给定一个目标用户u₀，以及所有用户的物品层个人用户隐私偏好我们称一个推荐算法M满足-个性化局部差分隐私，当且仅当对于任意两个临近资料集D和D′，且并且对于的任意子集，有

在本发明中，我们目的在于设计基于差分隐私的个性化隐私保护推荐算法，以隐藏用于计算的个人资料信息。从其定义可以看出，个性化局部差分隐私不仅能提供原始差分隐私严格的隐私保护功能，而且还保证任意用户的隐私偏好得到满足。

二、相关现有技术

1、Laplace机制和指数机制

Laplace机制和指数机制是差分隐私中最为重要的基础机制。下面我们将阐明这两种机制的具体内容。

Laplace机制通过为原始数据添加服从Laplace分布的噪声来实现差分隐私。可以证明，任意单个元素的影响将会被添加的Laplace噪声掩盖。下面我们将给出形式化的说明。

定义6(全局敏感度):一个查询函数Q：D→R^d的L_k-全局敏感度为：

Δ_k(Q)＝max_i||Q(D(i))-Q(D(i)′)||_k

其中，D为数据库集合，D(i),D(i)′为临近数据集。L_k-全局敏感度Δ_k(Q)表示一条数据在数据库集合中任意数据库中的出入造成的最大变化。显然，这是噪声的上界，并且如果每次发布数据都以Δ_k(Q)为参考添添加噪音声，那么所有数据都可以被隐藏起来。因此，对于噪声应该如何在这个上界下添加，Laplace机制给出了量化可控方案。

定义7(Laplace机制)：给定任意全局敏感度为Δ(Q)的查询函数Q：D→R^d，随机算法M(D)＝Q(D)+Y满足ε-差分隐私，如果Y是从Laplace分布Lap(x|b)，b＝Δ(Q)/ε中随机采样得来。其中:

拉普拉斯机制针对的是数值型结果的发布，对于非数值型查询结果，如何满足差分隐私定义,发布一个统计结果，指数机制给出了一个量化可控方案。指数机制首先定义了一个效用函数最终的输出r∈R,而效用函数的敏感度被定义为：

Δ₁(q)＝max_i,o||q(D(i),O)-Q(D(i)′,O)||

其直观意义仍然是改变任意数据库的任意一条输入记录对效用的最大影响。在此基础上，指数机制被定义如下：

定义8(指数机制):一个机制M如果以正比于概率从输出集合R中选择r∈R输出，则称机制M为ε-差分隐私指数机制。

指数机制可以将非数值型结果按照它们各自效用值大小比例，以差分隐私方式输出。

2.局部敏感哈希(LSH)

我们使用局部敏感哈希(LSH)来去除系统中与目标用户的较不相似的用户。LSH是一种用于海量高维数据的近似最近邻快速查找技术。

定义9.(局部敏感哈希)设V为一系列向量的集合、d为向量间的距离度量函数。对于给定的两个距离r₁,r₂(r₁<r₂)和两个概率p₁,p₂(p₁>p₂)，我们称一族哈希函数H＝{h:VU}为(r₁,r₂,p₁,p₂)-敏感哈希，当且仅当对于任意v_i,v_j∈V：当d(v_i，v_j)<r₁时，Pr[h(v_i)＝h(v_j)]≥p₁；当d(v_i，v_j)>r₂时，Pr[h(v_i)＝h(v_j)]≤p₂。

本发明中采用定义在余弦相似度上的LSH。为计算S_u的LSH值，我们首先选取k个元素为+1或-1的随机向量r_m(1≤m≤k)，之后计算S_u与每个随机向量r_m的内积S_u·r_m。LSH(S_u)的第j位按照如下方式定义：

按照上述方式定义的LSH是(r₁,r₂,1-(1-p₁)^k,1-(1-p₂)^k)–敏感的,这里p₁＝(π-r₁)/π,p₂＝(π-r₂)/π。

三、技术方案

为实现个性化差分隐私推荐，我们需要根据用户的隐私偏好对该用户的个人资料(如购买记录)进行抽样。在抽样时，我们计算某条记录的抽样概率，并将其与预设阈值进行比较。当该概率大于阈值时，该记录被保留；反之，该条记录被删除。利用抽样后的数据集，我们先计算目标用户的K-最临近邻居(KNN)；随后在KNN中将物品(item)进行聚类；之后利用该聚类结果对KNN中用户的个人资料，按照差分隐私原则进行改写；最后，利用改写后的用户资料完成对目标用户的推荐。本发明提出了一种个性化差分隐私推荐方案LPDP。

LPDP推荐算法包含3个子算法，分别为算法1基于隐私偏好的个人资料抽样、算法2基于抽样数据集的KNN选取、算法3基于聚类的用户资料改写。下面将依次介绍LPDP的具体技术方案。

1、基于隐私偏好的个人资料抽样

基于隐私偏好的个人资料抽样是LPDP机制的第一步。该步骤非均匀的对用户-物品评分进行抽样，抽样概率取决于相应物品的个人隐私偏好和抽样阈值t。其具体技术方案如算法1所示：

算法1:基于隐私偏好的个人资料抽样

2、基于局部相似度的用户资料改写

基于局部相似度的用户资料改写，主要目的是利用局部相似度对用户资料进行改写。该部分包含两个子算法：算法2基于抽样数据集的KNN选取、算法3基于聚类的用户资料改写。

在得到抽样后个人资料后，利用该抽样后数据，计算所有用户资料的局部敏感性哈希(LSH)；利用LSH值确定2K个备选用户作为目标用户KNN的备选集合；计算这2K个用户与目标用户的含噪相似度，并选取与目标用户最相似的K个用户作为目标用户的KNN。具体技术细节如算法2所示：

算法2:基于抽样数据集的KNN选取

得到目标用户的KNN后，利用物品属性信息以及物品在KNN中的相似度，计算物品间的局部相似度量；其局部相似度度量按如下方式计算：

在局部相似度量的基础上，对物品利用Affinity Propagation(AP)算法进行聚类；基于物品聚类结果，对目标用户极其KNN内用户的资料信息进行改写。具体技术细节如算法3所示：

算法3基于聚类的用户资料改写

3、基于改写资料信息的推荐结果计算

根据改写后的用户资料信息D_m(C(u₀))，计算目标用户可能喜欢的物品结果。目标用户u₀对物品i的偏好函数q(D_m(C(u₀)),u₀,i)按照如下方案计算:

上述偏好函数用于评估用户u₀对物品i可能的喜好程度。一般来说，这个分数越高，越可能推荐项目i。

四、应用实例及效果分析

1、应用实例

(1)应用背景

基于用户评价的图书推荐系统，在现阶段催生了如豆瓣图书这种类型的商业应用。目前，这种图书推荐系统并未考虑用户的隐私需求。在此种应用环境中，主要的攻击威胁是利用用户的评价信息对用户进行身份的识别。考虑到职业因素与相关图书具有高度的相关性，例如，计算机行业从业者更倾向于阅读计算机类图书。为避免身份信息的泄漏，该类用户将认为计算机相关图书的隐私偏好要高于小说类图书。在此种应用环境下，采用本发明设计的算法，不仅能提供原始差分隐私严格的隐私保护功能，而且还保证任意用户的隐私偏好得到满足。同时，采用该方案的推荐结果，精确度较现有方案高。上述为本应用实例的背景。

(2)用户资料信息与隐私偏好

本应用背景中，图书推荐系统中用户对图书的评分结果。这里的隐私偏好，为用户对不同类型图书的隐私需求。当该类图书倾向于泄漏用户的身份信息时，用户对该类图书的隐私需求较高。

(3)推荐系统

本应用背景中，用户对图书的评分结果存储在图书推荐系统的服务器上。该推荐系统根据用户的隐私偏好对该用户-图书评分记录进行抽样。在抽样时，我们计算某条记录的抽样概率，并将其与预设阈值进行比较。当该概率大于阈值时，该记录被保留；反之，该条记录被删除。利用抽样后的数据集，我们先计算目标用户的K-最临近邻居(KNN)；随后在KNN中将图书进行聚类；之后利用该聚类结果对KNN中用户的个人资料，按照差分隐私原则进行改写；最后，利用改写后的用户资料完成对目标用户的图书推荐。

2、隐私性分析

本发明中提出的LPDP方案是满足-个性化局部差分隐私。这是由于，(1)算法2是满足t/2-差分隐私的；(2)对于算法3，改写过程满足t/2-差分隐私。根据差分隐私的组合性质，可知Step2和Step3满足t-差分隐私。另外由于Step4为Step2和Step3的后处理机制，因此Step2、Step3和Step4整体满足t-差分隐私。结合Step1的抽样方法，并利用抽样机制定理，可以证明Step1、Step2、Step3和Step4，即LPDP满足-个性化局部差分隐私。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.基于局部聚类的个性化差分隐私推荐方法，其特征在于，基于以下定义：推荐系统为这里为全体用户的集合、为全部物品的集合；令和分别表示用户和物品的数目；此外，推荐系统G中还保存有用户的评分资料和物品的属性资料；用户u的资料记作S_u，表示用户u对所有物品的评分，并且我们记S_u(i)＝r(u,i)，这里r(u,i)表示用户u对物品i的评分；物品的属性资料记作v_i，包含物品的相关特点，给定一个目标用户u′，我们的目标是基于用户u′的相似用户，为u′推荐k个其可能喜欢的物品；为表征这种相似关系，我们需要对用户间的距离进行定义；我们记用户u和用户v之间的距离为dis(u,v)，这里其中表示欧式距离；基于上述距离度量，能够得到目标用户u′的K最临近用户群KNN；

定义1，临近资料集：对于两个资料集D和D′，如果D′能够通过增加或者减少一个用户-物品评分数据得到D，那么我们称D和D′为临近资料集；更进一步，我们用表示D和D′为临近资料集，并且D＝D′∧r(u,i)或者D′＝D∧r(u,i)，这里r(u,i)为用户u对物品i的评分数据；

定义3，基于聚类的物品分组：对于中的任意物品x,以及C(u)中的局部相似性度量θ(u)，物品x的基于聚类的物品分组G(x,u)为与x同属于同一聚类的所有物品集合，即:

该方法包括以下步骤：

2.根据权利要求1所述的基于局部聚类的个性化差分隐私推荐方法，其特征在于，步骤2中，采用LSH对抽样数据集进行预处理，得到备选KNN集合，进而计算备选用户与目标用户的相似度，提高计算效率。

3.根据权利要求1所述的基于局部聚类的个性化差分隐私推荐方法，其特征在于，步骤3中，利用物品属性信息以及物品在KNN中的相似度，计算物品间的局部相似度量并基于该度量对物品进行聚类。

4.根据权利要求1所述的基于局部聚类的个性化差分隐私推荐方法，其特征在于，步骤3中，利用局部聚类结果对用户资料进行改写；这种方式保证了任何敌手无法推断用户是否喜好某一物品，同时也保证了敌手无法推断用户是否喜好某一类较相近的物品。