CN111259260B

CN111259260B - 一种基于排序分类的个性化推荐中的隐私保护方法

Info

Publication number: CN111259260B
Application number: CN202010235033.XA
Authority: CN
Inventors: 崔宗敏; 肖彦; 王立华; 杨潇; 吕小蕾
Original assignee: Jiujiang University
Current assignee: Jiujiang University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2023-06-02
Anticipated expiration: 2040-03-30
Also published as: CN111259260A

Abstract

一种基于排序分类的个性化推荐中的隐私保护方法，该方法提出的ESPRC框架的核心是处理用户数据在提交给第三方推荐服务之前，让用户的隐私得到保障的情况下，可以享受来自第三方服务的高质量推荐；用户数据的混淆处理首先对用户数据进行排序再分类，得到高敏类数据和低敏类数据；再对用户的高敏类数据进行数据保序混淆；最后对用户的低敏类数据进行数据噪声混淆。既保护了用户数据效用又保障了用户隐私安全。

Description

一种基于排序分类的个性化推荐中的隐私保护方法

技术领域

本发明涉及一种基于排序分类的个性化推荐中的隐私保护方法。

背景技术

随着互联网技术的快速发展，用户频繁的在各大网络平台上分享自己的活动数据。例如标签、评分、签到等用户数据。正是这些大量的用户数据的发布，促进了个性化推荐服务的发展。所以，许多用户也愿意将自己的活动数据传输给第三方推荐平台来获取更高质量的个性化推荐。在本文中，我们也将用户数据称之为公共数据。但是，往往用户也会将一些数据看作是自己私有的，并不愿意对外开放，例如用户性别、用户疾病、用户收入水平等，这些都可以看作是用户的隐私数据。由于公共数据与隐私数据之间会存在某种关联，所以一些攻击者可以从公共数据中推测出用户的隐私数据，造成用户隐私泄露。所以需在用户公共数据传输给不信任的推荐平台前，保护用户的隐私数据是非常重要的。

Sweeney,L.较早的提出了一个名为k-anonymity的正式保护模型，以及一组用于部署的随附策略，将其中每个人的信息与至少k-1个人的区分开，为真实系统提供隐私保护保证的基础。随着信息技术的发展，必须使用更复杂的模型来保护个人数据与隐私数据的关联。所以，Wong,R,C,W.提出了一个

-匿名模型来保护标识和与隐私数据的关系，采用一种本地编码算法，保护用户隐私。由于这些技术是针对某些特定的隐私数据，所以不具有通用性，而且匿名后的数据会很大程度上不能用于数据分析，失去数据效用。

Ahuja,R.提出了针对共处一地而定制的三种隐私机制，并在用户隐私和数据实用性方面提供了各种折衷方案，其中他们使用的欧氏距离（Euclidean distance）是一种常用的数据失真约束度量方式。Janowicz,K.则使用另外一种常用的度量方式JS距离（Jensen-Shannon distance）重点研究了一种称为语义签名的技术，以提取和共享有关地点的高维数据，保证数据分析的合理性。Gao,C.在Euclidean distance的基础上提出了一个新的度量方式称为语义欧式距离（SemanticEuclidean distance）并以此提出一个名为“隐私保护跨域位置推荐”的框架，先采用基于差异隐私的保护机制来隐藏每个用户的真实位置，并实现交互数据共享，然后开发了一种新的信心感知集体矩阵分解（CCMF）方法以有效利用交互数据。然后，Preethi,P.为了在隐私和数据实用程序之间保持平衡，引入了使用异构数据失真的隐私保护数据群集（PPDC）。在上述这些研究方法中，这些距离的度量是衡量用户真实数据与混淆数据之间差异，对于基于排名的推荐，并不能很好的约束数据失真。

Yang D在处理个性化推荐中的用户隐私保护问题上，就提出了一个可定制的隐私数据保护框架PrivRank，针对基于排名的个性化推荐，对用户所有的数据进行混淆并控制数据的排序损失。该框架运用的保序方法，在进行隐私保护后，可能会把用户最需要的第1名排到了后面，而把用户几乎不需要的排到了前面，显然，该框架不考虑用户偏好，将所有推荐不按排名进行隐私保护的方式存在两个问题：(1)也许推荐给用户的其实并不是用户真实最需要的；(2)为了使得排名损失控制在一定的范围内，也许隐私保护的强度不够，还是会产生一定的信息泄露风险。与此框架方法不同，我们对用户数据先排序分类，再对用户不同的数据分开处理。既保障了用户的隐私又提高了用户推荐的准确性。

发明内容

本发明其目的就在于提供一种基于排序分类的个性化推荐中的隐私保护方法，解决了现有技术存在用户整体的隐私保护性能不足、且推荐的准确性以及推荐效率低的问题。

为实现上述目的而采取的技术方案是，一种基于排序分类的个性化推荐中的隐私保护方法，该方法包括以下步骤：

a、用户数据建模：在形式上，用U表示用户集,I表示用户项目集即单个用户数据的数量，用D表示所有的用户数据，用Y表示所有的用户隐私数据；

,则用户u的数据集合表示为

，大小为|I|，

表示用户u的一种隐私数据，每个用户具有相同的数据量；在用户数据集合里可以展现这个用户对一些活动项目的喜爱程度，用

表示用户u的某个数据；用户订阅第三方推荐服务时，服务提供者将立即访问用户的数据集

，首先将用户数据按它的喜好程度进行排序，从高到低，分两类，一类是用户喜爱程度相对高的称为高敏类，另外一类是用户喜爱程度相对较低的称为低敏类；

b、对用户高敏类数据进行数据保序混淆，具体步骤如下：

1）首先对隐私泄露进行度量；混淆数据学习的主要思想是将用户高敏类数据混淆成另一个用户的高敏类数据，数据相似，但是隐私泄露减少了，并且还能用于第三方推荐服务；需要处理的用户数据为高敏类可以表示为

，混淆后的用户数据表示为

，该用户的隐私数据为

；在确定的用户隐私数据

的情况下，用户信息即为分别通过观察用户数据与用户混淆数据获取的信息量的差值

，可用来表示用户隐私泄露量MI；信息量的大小可用信息论方法中的熵来表示，互信息与熵之间密不可分；则从用户数据

中获取的信息量可以表示为H(

)，如公式（1）所示；

（1）

P(

)则表示用户数据

中某个数据

出现的概率；如需求得互信息的值，则还需要计算条件熵，

与

之间的条件熵如公式(2)所示；

（2）

与

分别表示数据

和数据

的联合概率和条件概率；最终互信息的计算如公式（3）所示；

（3）

2）然后在隐私泄露较小的情况下同时保证个性化推荐的数据效用，就需要限定数据失真范围T即排序损失程度；使用肯德尔相关系数Tau，用逆序对数量来量化两个排序列表的不一致程度；用户原始数据

和用户混淆数据

取第i个数据分别用

和

表示；

，如果有

且

>

或者

<

且

<

时，则认为（

，

）与（

，

）是一对顺序一致的元素对，则其数量可表示为E。如果有

>

且

<

或者

<

且

>

，则认为（

，

）与（

，

）是一对顺序不一致的元素对，则其数量可表示为F；具体的肯德尔相关系数计算如公式（4）、公式（5）、公式（6）、公式（7）所示；

（4）

（5）

（6）

（7）

其中

和

分别表示

中数据的总个数，重复数据视为一个数据；

和

分别表示

中第j个数据的个数，重复数据视为一个数据；

3）最后获取最优的用户混淆数据，在上述测量用户隐私泄露量与计算肯德尔相关系数的基础上，进行条件约束来获取最优用户混淆数据即将另一用户的高敏类数据赋予当前需要混淆数据的用户；在此过程中，依据用户的不同隐私数据，进行某一类隐私数据的保护；

c、对用户低敏类数据进行数据噪声混淆：采用差分隐私的思想；直接给用户数据加入噪声，该噪声的产生满足差分隐私不等式；噪声产生的机制是拉普拉斯；该机制依据不同的随机变量

值，使用不同的服从参数为μ和φ的Laplace逆累积分布函数，计算得出噪声值noise；直接在用户原有的数据上加上噪声值，保护用户隐私；在此机制基础上令其参数

等于0，形成新的Laplace逆累积分布函数，公式如（8）所示。

（8）

有益效果

与现有技术相比本发明具有以下优点。

1）本发明在隐私保护性能方面，通过用户数据的排序与分类，对用户低敏类数据进行了完全的隐私保护，从而提高了用户整体的隐私保护性能；

2）本发明在推荐质量方面，通过用户数据的排序与分类，对用户高敏类数据进行了数据保序混淆，保障了用户的偏好，提高了推荐的准确性；

3）本发明在推荐效率方面，通过用户数据的排序与分类，对用户高敏类和低敏类数据的不同处理，加快了推荐效率。

附图说明

以下结合附图对本发明作进一步详述。

图1为本发明实施例中的排名损失效果图；

图2为本发明实施例中的推理攻击示意图；

图3为本发明实施例中的工作流程模型图；

图4为本发明实施例中的排序及分类示意图；

图5为分类比率

等于10%时不同用户项目集I下的MAP的对比图；

图6为分类比率

等于10%时不同用户项目集I下的P的对比图；

图7为分类比率

等于10%时不同用户项目集I下的R的对比图；

图8为分类比率

等于20%时不同用户项目集I下的MAP的对比图；

图9为分类比率

等于20%时不同用户项目集I下的P的对比图；

图10为分类比率

等于20%时不同用户项目集I下的R的对比图；

图11为分类比率

等于10%时不同数据失真约束T下的MAP的对比图；

图12为分类比率

等于10%时不同数据失真约束T下的P的对比图；

图13为分类比率

等于10%时不同数据失真约束T下的R的对比图；

图14为分类比率

等于20%时不同数据失真约束T下的MAP的对比图；

图15为分类比率

等于20%时不同数据失真约束T下的P的对比图；

图16为分类比率

等于20%时不同数据失真约束T下的R的对比图；

图17为本发明实施例中的用户项目集I下的平均时间消耗对比图；

图18为本发明实施例中的数据失真约束T下的平均时间消耗对比图。

具体实施方式

一种基于排序分类的个性化推荐中的隐私保护方法，该方法包括以下步骤：

,则用户u的数据集合表示为

，大小为|I|，

b、对用户高敏类数据进行数据保序混淆，具体步骤如下：

，混淆后的用户数据表示为

，该用户的隐私数据为

；在确定的用户隐私数据

中获取的信息量可以表示为H(

)，如公式（1）所示；

（1）

P(

)则表示用户数据

中某个数据

出现的概率；如需求得互信息的值，则还需要计算条件熵，

与

之间的条件熵如公式(2)所示；

（2）

与

分别表示数据

和数据

（3）

和用户混淆数据

取第i个数据分别用

和

表示；

，如果有

且

>

或者

<

且

<

时，则认为（

，

）与（

，

）是一对顺序一致的元素对，则其数量可表示为E。如果有

>

且

<

或者

<

且

>

，则认为（

，

）与（

，

（4）

（5）

（6）

（7）

其中

和

分别表示

中数据的总个数，重复数据视为一个数据；

和

分别表示

中第j个数据的个数，重复数据视为一个数据；

等于0，形成新的Laplace逆累积分布函数，公式如（8）所示。

（8）

所述的步骤a中

为用户u的数据集合，该数据为用户在各大媒体平台上活动留下的数据。

所述的步骤a中对用户进行处理具体流程为：先将用户数据按它的喜好程度进行从高到低的排序，再分成两类，一类是用户喜爱程度相对高的称为高敏类，另外一类是用户喜爱程度相对较低的称为低敏类。

所述的步骤b中对用户高敏类数据进行数据保序混淆。

所述的步骤c中，对用户低敏类数据进行数据噪声混淆。

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白清晰，下面结合具体图示，进一步阐述本发明。

一种基于排序分类的个性化推荐中的隐私保护方法，也称为ESPRC（An efficientand secure privacy protection scheme for personalized recommendation based onsorting classification）框架，在用户数据提交给第三方推荐服务之前，对其进行混淆处理。先对用户数据进行排序再分类，得到高敏类数据和低敏类数据。再对用户的高敏类数据进行数据保序混淆。最后对用户的低敏类数据进行数据噪声混淆，既保护了用户数据效用又保障了用户隐私安全。

表1. 给出本发明中重要符号定义

本发明方法包括以下步骤：

a、用户数据建模；对于用户在各大媒体平台上的数据，例如给最喜欢的某些物品评分，给照片加标签等；在形式上，我们让U表示用户集,I表示用户项目集即单个用户数据的数量，用D表示所有的用户数据，用Y表示所有的用户隐私数据；

,则用户u的数据集合表示为

(大小为|I|)，

表示用户u的一种隐私数据；每个用户具有相同的数据量；在用户数据集合里可以展现这个用户对一些活动项目的喜爱程度，例如用户对某个物品的评分，用户的签到等；用

表示用户u的某个数据；当用户订阅第三方推荐服务时，服务提供者将立即访问用户的数据集

；

基于排名的推荐；基于用户数据建模，基于排名的推荐最终会输出一个用户的喜爱项目列表，其中跟用户历史喜欢项目最相似的项目会推荐给该用户。相关算法是利用用户已有的项目列表来预测缺失项目的排名列表。因此，数据混淆过程中产生的排名损失会影响基于排名的推荐算法。这种情况的排名损失用传统的欧氏距离来度量是不合适的。如图1所示，用户原始的数据

经过混淆处理后可能会形成混淆数据

或混淆数据

。由图可知，两种混淆数据与原始数据

的欧氏距离是相同的，但是这两种混淆数据的排序与原始数据

的排序是不同的。原始数据的排序是i₁<i₂<i₃，而混淆数据

的排序是i₁<i₃<i₂，但是，混淆数据

排序与原始数据排序一致。所以形成的这种排序损失会影响最终的基于排名的推荐算法效果。我们要考虑到在数据混淆过程中这种排名损失是重要的。

威胁模型；我们认为用户都存在两种类型数据：一是用户数据D（例如用户签到），用户愿意传输这些数据给第三方服务平台来获取个性化推荐；二是隐私数据Y（例如用户的性别，年龄），用户希望这部分数据不公开，保持隐私。但是，攻击者往往可以从用户数据D中获取到用户的隐私数据Y。一个简单的推理攻击如图2所示。像机器学习中的贝叶斯分类器和支持向量机等，可以进行简单的分类，即获取用户隐私。例如贝叶斯分类器通过分析用户数据得到分类概率，依据概率大小进行用户分类（分两类：男、女），用户隐私就被攻击者获取了。已知用户u数据集合

和隐私数据

，通过联合概率P(

,

)可知

与

相关联，对手通过观察

就可以得到

的一些相关知识。所以为了减少这样的隐私泄露，可以将用户数据

混淆化，这样对手就很难从混淆后的数据中获取

的相关知识。假设攻击者使用某种推理攻击方法来推测用户隐私数据

，则它可从用户的数据中获取的信息量可以表示为C。如果攻击者还是使用相同的方法从混淆后的用户数据推测用户隐私数据，则它可以获取的信息量表示为

。则用户的隐私泄露量可以用两个信息量的差值来衡量，表示为

，如公式为

。

数据失真约束；为了减少隐私泄露，我们将用户数据

混淆化。但又需要让混淆后的用户数据

还可以继续用于个性化推荐。所以在用户数据混淆的过程中，不仅需要对用户隐私泄露进行度量，还需要制定数据失真约束T，保证用户数据的效用。则数据失真约束模型可用公式

表示。

是

与

之间距离的度量，

则限制了数据失真范围。保障混淆数据的实用性。在给定的数据失真范围

下，最小化信息量差值

来获得最优的混淆数据。

ESPRC框架的工作流程如图3所示；当用户在各大媒体平台上相互交流时，会主动的分享自己的数据。例如签到，评分等，这些数据暗含了用户的偏好。当用户订阅第三方推荐服务时，它通常需要访问这些用户数据来完成推荐。而大量的用户数据容易使用户的隐私数据遭到推理攻击，造成隐私泄露。所以ESPRC框架将对用户数据进行混淆处理，避免此类问题的发生。ESPRC框架中用户数据混淆具体步骤如下：

如图4所示，我们先将用户数据按它的喜好程度进行排序，从高到低，分两类，一类是用户喜爱程度相对高的称为高敏类，例如图中编号为1的这类数据，另外一类是用户喜爱程度相对较低的称为低敏类，例如图中编号为2的这类数据。然后分别对这两类数据进行相应的处理。

b、对用户高敏类数据进行数据保序混淆；具体步骤如下：

首先对隐私泄露进行度量。我们混淆数据学习的主要思想是将用户高敏类数据混淆成另一个用户的高敏类数据，数据相似，但是隐私泄露减少了，并且还能用于第三方推荐服务。需要处理的用户数据为高敏类可以表示为

，混淆后的用户数据表示为

。该用户的隐私数据为

。在确定的用户隐私数据

的情况下，互信息即为分别通过观察用户数据与用户混淆数据获取的信息量的差值

，可用来表示用户隐私泄露量MI。信息量的大小可用信息论方法中的熵来表示，互信息与熵之间密不可分。则从用户数据

中获取的信息量可以表示为H(

)，如公式（3）所示。

（1）

P(

)则表示用户数据

中某个数据

出现的概率。如需求得互信息的值，则还需要计算条件熵，

与

之间的条件熵如公式(4)所示。

（2）

与

分别表示数据

和数据

的联合概率和条件概率。最终互信息的计算如公式（5）所示；

（3）

然后在隐私泄露较小的情况下同时保证个性化推荐的数据效用，就需要限定数据失真范围T即排序损失程度。使用肯德尔相关系数Tau，用逆序对数量来量化两个排序列表的不一致程度。用户原始数据

和用户混淆数据

取第i个数据分别用

和

表示。

，如果有

且

>

或者

<

且

<

时，则认为（

，

）与（

，

）是一对顺序一致的元素对，则其数量可表示为E。如果有

>

且

<

或者

<

且

>

，则认为（

，

）与（

，

）是一对顺序不一致的元素对，则其数量可表示为F。具体的肯德尔相关系数计算如公式（6）、公式（7）、公式（8）、公式（9）所示。

（4）

（5）

（6）

（7）

其中

和

分别表示

中数据（重复数据视为一个数据）的总个数。

和

分别表示

中第j个数据（重复数据视为一个数据）的个数。

最后获取最优的用户混淆数据，在上述测量用户隐私泄露量与计算肯德尔相关系数的基础上，进行条件约束来获取最优用户混淆数据即将另一用户的高敏类数据赋予当前需要混淆数据的用户。在此过程中，依据用户的不同隐私数据，进行某一类隐私数据（如性别）的保护。

c、对用户低敏类数据进行数据噪声混淆；采用差分隐私的思想。直接给用户数据加入噪声，该噪声的产生满足差分隐私不等式。噪声产生的机制是拉普拉斯。该机制依据不同的随机变量

值，使用不同的服从参数为μ和φ的Laplace逆累积分布函数，计算得出噪声值noise。直接在用户原有的数据上加上噪声值，保护用户隐私。我们在此机制基础上令其参数

等于0，形成新的Laplace逆累积分布函数，公式如（8）所示。

（8）

为验证框架的有效性，以及用户数据混淆处理的能力，将ESPRC框架与PrivRank框架进行对比，对比方面包括：

1.用户隐私保护性能对比；

2.推荐质量对比；

3.推荐效率对比。

1.攻击是通过每个用户处理后的数据推理出用户的隐私数据。如表1中所示，ESPRC框架处理后的用户数据的攻击精确值都低于PrivRank框架处理后的，这表明攻击ESPRC框架处理后的用户数据无法获得比PrivRank框架处理后的更多的用户隐私。这就意味着ESPRC框架处理后的用户数据可以更好的保护用户隐私。同时，随着ESPRC框架中用户分类比率Ratio的增大，攻击的精确度有小幅度增大到减小，所以在具体的环境中，可选择合适的用户分类比率，来保护用户隐私。

表1. 用户的隐私泄露

	Attack precision
		PrivRank框架	73.11%
ESPRC框架（Ratio=10%）	71.17%
		ESPRC框架（Ratio=20%）	71.01%
ESPRC框架（Ratio=30%）	70.16%
		ESPRC框架（Ratio=40%）	71.83%
ESPRC框架（Ratio=50%）	71.96%

2. 第一个方面，如图5~10所示，从用户项目集I变化的方面可知，随着用户项目集I的增大，并在用户分类比率

分别等于10%和20%的情况下，MAP、P、R三者在ESPRC框架和PrivRank框架下的有着不同的表现。在不同的用户分类比率

的情况下，ESPRC框架中MAP与R的值与PrivRank框架的相差不大，略微高一点，但是在查准率P上，随着用户项目集I的增大，ESPRC表现优异，大幅度高于PrivRank，说明ESPRC框架处理后的数据能更好用于推荐服务，提高推荐的准确性，能提供更多符合用户偏好的推荐结果。但是，其中MAP的值还是与查全率R相比相差明显，其值的提升，与ESPRC框架中的排序分类操作相关，在保证用户原始数据排序损失较小的情况下，对表现用户偏好明显的数据进行混淆处理的量合适，就越能减少最终推荐列表的排序损失，因为最符合用户偏好的预测推荐结果与用户数据中偏好表现明显的数据是有联系的。对于查全率R，则与查准率P是相互影响的，P越高，则R可能越低。在不同的用户分类比率

的情况下，ESPRC框架得到的P值较好，所以R值较低，但其R值仍然与PrivRank框架的差别较小。总体来说，ESPRC框架处理后的用户数据能更好的用于推荐服务。

第二个方面，如图11~16所示，从数据失真约束T变化的方面可得，在其它无关参数保持一致的情况下，并在用户分类比率

分别等于10%和20%的情况下，随着数据失真约束T值的增大，我们提出的ESPRC框架在MAP、P、R上都明显优于PrivRank框架。但随着用户分类比率

的增大，P与R的数值均有所波动，但也仍是优于PrivRank框架的。对于这明显的优势，主要是ESPRC框架对于表现用户高敏类数据进行失真约束，相对于PrivRank框架对于整体用户数据进行失真约束，能更好的保证用户的推荐质量，更能准确的预测用户的喜好。

3. 如图17所示，在用户项目集I下每次实验消耗时间的总和的平均值。依据ESPRC框架中的用户分类比率分别与PrivRank框架进行比较。从图17中可以看出ESPRC框架平均处理数据时间耗时，随着用户分类比率的增大，逐步增加。但ESPRC框架整体平均时间消耗仍然是少于PrivRank框架的，即使在用户分类比率

达到50%时，ESPRC框架平均时间消耗比PrivRank框架少1000s左右。总体而言，ESPRC框架在用户项目集I这个实验变量下的耗时比PrivRank框架要少，处理数据的效率更高。

如图18所示，是实验的另外一个变量数据失真约束T下的两个框架的平均时间消耗。从图中可以看出，在任何用户分类比率情况下，ESPRC框架处理数据的耗时要比PrivRank框架的少很多，但其中ESPRC框架也是随着用户分类比率

的增大时间消耗也在增加。这是由于在实验变量数据失真约束T在PrivRank框架中是针对用户整体数据，而在ESPRC框架中是针对排序分类后的用户高敏类数据而言，所以加快了ESPRC框架整体运行时间。

在本实施例中，隐私保护性能方面，通过用户数据的排序与分类，对用户低敏类数据进行了完全的隐私保护，从而提高了用户整体的隐私保护性能；在推荐质量方面，通过用户数据的排序与分类，对用户高敏类数据进行了数据保序混淆，保障了用户的偏好，提高了推荐的准确性；在推荐效率方面，通过用户数据的排序与分类，对用户高敏类和低敏类数据的不同处理，加快了推荐效率。

Claims

1.一种基于排序分类的个性化推荐中的隐私保护方法，其特征在于，该方法包括以下步骤：

则用户u的数据集合表示为D_u，大小为|I|，Y_u表示用户u的一种隐私数据，每个用户具有相同的数据量；在用户数据集合里可以展现这个用户对一些活动项目的喜爱程度，用d_u表示用户u的某个数据；用户订阅第三方推荐服务时，服务提供者将立即访问用户的数据集D_u，首先将用户数据按它的喜好程度进行排序，从高到低，分两类，一类是用户喜爱程度相对高的称为高敏类，另外一类是用户喜爱程度相对较低的称为低敏类；

b、对用户高敏类数据进行数据保序混淆，具体步骤如下：

1)首先对隐私泄露进行度量；混淆数据学习的主要思想是将用户高敏类数据混淆成另一个用户的高敏类数据，数据相似，但是隐私泄露减少了，并且还能用于第三方推荐服务；需要处理的用户数据为高敏类可以表示为