CN111259260B - 一种基于排序分类的个性化推荐中的隐私保护方法 - Google Patents

一种基于排序分类的个性化推荐中的隐私保护方法 Download PDF

Info

Publication number
CN111259260B
CN111259260B CN202010235033.XA CN202010235033A CN111259260B CN 111259260 B CN111259260 B CN 111259260B CN 202010235033 A CN202010235033 A CN 202010235033A CN 111259260 B CN111259260 B CN 111259260B
Authority
CN
China
Prior art keywords
data
user
privacy
confusion
sensitivity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010235033.XA
Other languages
English (en)
Other versions
CN111259260A (zh
Inventor
崔宗敏
肖彦
王立华
杨潇
吕小蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiujiang University
Original Assignee
Jiujiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiujiang University filed Critical Jiujiang University
Priority to CN202010235033.XA priority Critical patent/CN111259260B/zh
Publication of CN111259260A publication Critical patent/CN111259260A/zh
Application granted granted Critical
Publication of CN111259260B publication Critical patent/CN111259260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于排序分类的个性化推荐中的隐私保护方法,该方法提出的ESPRC框架的核心是处理用户数据在提交给第三方推荐服务之前,让用户的隐私得到保障的情况下,可以享受来自第三方服务的高质量推荐;用户数据的混淆处理首先对用户数据进行排序再分类,得到高敏类数据和低敏类数据;再对用户的高敏类数据进行数据保序混淆;最后对用户的低敏类数据进行数据噪声混淆。既保护了用户数据效用又保障了用户隐私安全。

Description

一种基于排序分类的个性化推荐中的隐私保护方法
技术领域
本发明涉及一种基于排序分类的个性化推荐中的隐私保护方法。
背景技术
随着互联网技术的快速发展,用户频繁的在各大网络平台上分享自己的活动数据。例如标签、评分、签到等用户数据。正是这些大量的用户数据的发布,促进了个性化推荐服务的发展。所以,许多用户也愿意将自己的活动数据传输给第三方推荐平台来获取更高质量的个性化推荐。在本文中,我们也将用户数据称之为公共数据。但是,往往用户也会将一些数据看作是自己私有的,并不愿意对外开放,例如用户性别、用户疾病、用户收入水平等,这些都可以看作是用户的隐私数据。由于公共数据与隐私数据之间会存在某种关联,所以一些攻击者可以从公共数据中推测出用户的隐私数据,造成用户隐私泄露。所以需在用户公共数据传输给不信任的推荐平台前,保护用户的隐私数据是非常重要的。
Sweeney,L.较早的提出了一个名为k-anonymity的正式保护模型,以及一组用于部署的随附策略,将其中每个人的信息与至少k-1个人的区分开,为真实系统提供隐私保护保证的基础。随着信息技术的发展,必须使用更复杂的模型来保护个人数据与隐私数据的关联。所以,Wong,R,C,W.提出了一个
Figure DEST_PATH_IMAGE001
-匿名模型来保护标识和与隐私数据的关系,采用一种本地编码算法,保护用户隐私。由于这些技术是针对某些特定的隐私数据,所以不具有通用性,而且匿名后的数据会很大程度上不能用于数据分析,失去数据效用。
Ahuja,R.提出了针对共处一地而定制的三种隐私机制,并在用户隐私和数据实用性方面提供了各种折衷方案,其中他们使用的欧氏距离(Euclidean distance)是一种常用的数据失真约束度量方式。Janowicz,K.则使用另外一种常用的度量方式JS距离(Jensen-Shannon distance)重点研究了一种称为语义签名的技术,以提取和共享有关地点的高维数据,保证数据分析的合理性。Gao,C.在Euclidean distance的基础上提出了一个新的度量方式称为语义欧式距离(SemanticEuclidean distance)并以此提出一个名为“隐私保护跨域位置推荐”的框架,先采用基于差异隐私的保护机制来隐藏每个用户的真实位置,并实现交互数据共享,然后开发了一种新的信心感知集体矩阵分解(CCMF)方法以有效利用交互数据。然后,Preethi,P.为了在隐私和数据实用程序之间保持平衡,引入了使用异构数据失真的隐私保护数据群集(PPDC)。在上述这些研究方法中,这些距离的度量是衡量用户真实数据与混淆数据之间差异,对于基于排名的推荐,并不能很好的约束数据失真。
Yang D在处理个性化推荐中的用户隐私保护问题上,就提出了一个可定制的隐私数据保护框架PrivRank,针对基于排名的个性化推荐,对用户所有的数据进行混淆并控制数据的排序损失。该框架运用的保序方法,在进行隐私保护后,可能会把用户最需要的第1名排到了后面,而把用户几乎不需要的排到了前面,显然,该框架不考虑用户偏好,将所有推荐不按排名进行隐私保护的方式存在两个问题:(1)也许推荐给用户的其实并不是用户真实最需要的;(2)为了使得排名损失控制在一定的范围内,也许隐私保护的强度不够,还是会产生一定的信息泄露风险。与此框架方法不同,我们对用户数据先排序分类,再对用户不同的数据分开处理。既保障了用户的隐私又提高了用户推荐的准确性。
发明内容
本发明其目的就在于提供一种基于排序分类的个性化推荐中的隐私保护方法,解决了现有技术存在用户整体的隐私保护性能不足、且推荐的准确性以及推荐效率低的问题。
为实现上述目的而采取的技术方案是,一种基于排序分类的个性化推荐中的隐私保护方法,该方法包括以下步骤:
a、用户数据建模:在形式上,用U表示用户集,I表示用户项目集即单个用户数据的数量,用D表示所有的用户数据,用Y表示所有的用户隐私数据;
Figure 777294DEST_PATH_IMAGE002
,则用户u的数据集合表示为
Figure DEST_PATH_IMAGE003
,大小为|I|,
Figure 976326DEST_PATH_IMAGE004
表示用户u的一种隐私数据,每个用户具有相同的数据量;在用户数据集合里可以展现这个用户对一些活动项目的喜爱程度,用
Figure DEST_PATH_IMAGE005
表示用户u的某个数据;用户订阅第三方推荐服务时,服务提供者将立即访问用户的数据集
Figure 162587DEST_PATH_IMAGE003
,首先将用户数据按它的喜好程度进行排序,从高到低,分两类,一类是用户喜爱程度相对高的称为高敏类,另外一类是用户喜爱程度相对较低的称为低敏类;
b、对用户高敏类数据进行数据保序混淆,具体步骤如下:
1)首先对隐私泄露进行度量;混淆数据学习的主要思想是将用户高敏类数据混淆成另一个用户的高敏类数据,数据相似,但是隐私泄露减少了,并且还能用于第三方推荐服务;需要处理的用户数据为高敏类可以表示为
Figure 758129DEST_PATH_IMAGE006
,混淆后的用户数据表示为
Figure DEST_PATH_IMAGE007
,该用户的隐私数据为
Figure 588813DEST_PATH_IMAGE004
;在确定的用户隐私数据
Figure 614538DEST_PATH_IMAGE004
的情况下,用户信息即为分别通过观察用户数据与用户混淆数据获取的信息量的差值
Figure 84834DEST_PATH_IMAGE008
,可用来表示用户隐私泄露量MI;信息量的大小可用信息论方法中的熵来表示,互信息与熵之间密不可分;则从用户数据
Figure 221417DEST_PATH_IMAGE006
中获取的信息量可以表示为H(
Figure 93558DEST_PATH_IMAGE006
),如公式(1)所示;
Figure DEST_PATH_IMAGE009
(1)
P(
Figure 365883DEST_PATH_IMAGE010
)则表示用户数据
Figure 323475DEST_PATH_IMAGE006
中某个数据
Figure 998170DEST_PATH_IMAGE010
出现的概率;如需求得互信息的值,则还需要计算条件熵,
Figure 724817DEST_PATH_IMAGE006
Figure 92345DEST_PATH_IMAGE007
之间的条件熵如公式(2)所示;
Figure DEST_PATH_IMAGE011
(2)
Figure 866792DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
分别表示数据
Figure 282861DEST_PATH_IMAGE010
和数据
Figure 864015DEST_PATH_IMAGE014
的联合概率和条件概率;最终互信息的计算如公式(3)所示;
Figure 808968DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
(3)
2)然后在隐私泄露较小的情况下同时保证个性化推荐的数据效用,就需要限定数据失真范围T即排序损失程度;使用肯德尔相关系数Tau,用逆序对数量来量化两个排序列表的不一致程度;用户原始数据
Figure 410326DEST_PATH_IMAGE006
和用户混淆数据
Figure 692403DEST_PATH_IMAGE007
取第i个数据分别用
Figure 269009DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
表示;
Figure 447181DEST_PATH_IMAGE020
,如果有
Figure DEST_PATH_IMAGE021
Figure 273185DEST_PATH_IMAGE022
Figure 356023DEST_PATH_IMAGE019
>
Figure DEST_PATH_IMAGE023
或者
Figure 583873DEST_PATH_IMAGE018
<
Figure 605050DEST_PATH_IMAGE022
Figure 246247DEST_PATH_IMAGE019
<
Figure 870126DEST_PATH_IMAGE023
时,则认为(
Figure 280379DEST_PATH_IMAGE018
Figure 328582DEST_PATH_IMAGE019
)与(
Figure 925917DEST_PATH_IMAGE022
Figure 87908DEST_PATH_IMAGE023
)是一对顺序一致的元素对,则其数量可表示为E。如果有
Figure 87088DEST_PATH_IMAGE018
>
Figure 309122DEST_PATH_IMAGE022
Figure 393752DEST_PATH_IMAGE019
<
Figure 625014DEST_PATH_IMAGE023
或者
Figure 690751DEST_PATH_IMAGE018
<
Figure 83687DEST_PATH_IMAGE022
Figure 921193DEST_PATH_IMAGE019
>
Figure 690566DEST_PATH_IMAGE023
,则认为(
Figure 929917DEST_PATH_IMAGE018
Figure 369120DEST_PATH_IMAGE019
)与(
Figure 693922DEST_PATH_IMAGE022
Figure 998477DEST_PATH_IMAGE023
)是一对顺序不一致的元素对,则其数量可表示为F;具体的肯德尔相关系数计算如公式(4)、公式(5)、公式(6)、公式(7)所示;
Figure 92335DEST_PATH_IMAGE024
(4)
Figure DEST_PATH_IMAGE025
(5)
Figure 30335DEST_PATH_IMAGE026
(6)
Figure DEST_PATH_IMAGE027
(7)
其中
Figure 248958DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
分别表示
Figure 297816DEST_PATH_IMAGE030
中数据的总个数,重复数据视为一个数据;
Figure DEST_PATH_IMAGE031
Figure 180934DEST_PATH_IMAGE032
分别表示
Figure 86573DEST_PATH_IMAGE030
中第j个数据的个数,重复数据视为一个数据;
3)最后获取最优的用户混淆数据,在上述测量用户隐私泄露量与计算肯德尔相关系数的基础上,进行条件约束来获取最优用户混淆数据即将另一用户的高敏类数据赋予当前需要混淆数据的用户;在此过程中,依据用户的不同隐私数据,进行某一类隐私数据的保护;
c、对用户低敏类数据进行数据噪声混淆:采用差分隐私的思想;直接给用户数据加入噪声,该噪声的产生满足差分隐私不等式;噪声产生的机制是拉普拉斯;该机制依据不同的随机变量
Figure DEST_PATH_IMAGE033
值,使用不同的服从参数为μ和φ的Laplace逆累积分布函数,计算得出噪声值noise;直接在用户原有的数据上加上噪声值,保护用户隐私;在此机制基础上令其参数
Figure 792492DEST_PATH_IMAGE034
等于0,形成新的Laplace逆累积分布函数,公式如(8)所示。
Figure DEST_PATH_IMAGE035
(8)
有益效果
与现有技术相比本发明具有以下优点。
1)本发明在隐私保护性能方面,通过用户数据的排序与分类,对用户低敏类数据进行了完全的隐私保护,从而提高了用户整体的隐私保护性能;
2)本发明在推荐质量方面,通过用户数据的排序与分类,对用户高敏类数据进行了数据保序混淆,保障了用户的偏好,提高了推荐的准确性;
3)本发明在推荐效率方面,通过用户数据的排序与分类,对用户高敏类和低敏类数据的不同处理,加快了推荐效率。
附图说明
以下结合附图对本发明作进一步详述。
图1为本发明实施例中的排名损失效果图;
图2为本发明实施例中的推理攻击示意图;
图3为本发明实施例中的工作流程模型图;
图4为本发明实施例中的排序及分类示意图;
图5为分类比率
Figure 570034DEST_PATH_IMAGE001
等于10%时不同用户项目集I下的MAP的对比图;
图6为分类比率
Figure 487175DEST_PATH_IMAGE001
等于10%时不同用户项目集I下的P的对比图;
图7为分类比率
Figure 266912DEST_PATH_IMAGE001
等于10%时不同用户项目集I下的R的对比图;
图8为分类比率
Figure 724438DEST_PATH_IMAGE001
等于20%时不同用户项目集I下的MAP的对比图;
图9为分类比率
Figure 538810DEST_PATH_IMAGE001
等于20%时不同用户项目集I下的P的对比图;
图10为分类比率
Figure 361273DEST_PATH_IMAGE001
等于20%时不同用户项目集I下的R的对比图;
图11为分类比率
Figure DEST_PATH_IMAGE002
等于10%时不同数据失真约束T下的MAP的对比图;
图12为分类比率
Figure 628306DEST_PATH_IMAGE001
等于10%时不同数据失真约束T下的P的对比图;
图13为分类比率
Figure 827206DEST_PATH_IMAGE001
等于10%时不同数据失真约束T下的R的对比图;
图14为分类比率
Figure 496085DEST_PATH_IMAGE001
等于20%时不同数据失真约束T下的MAP的对比图;
图15为分类比率
Figure 302498DEST_PATH_IMAGE001
等于20%时不同数据失真约束T下的P的对比图;
图16为分类比率
Figure 56827DEST_PATH_IMAGE001
等于20%时不同数据失真约束T下的R的对比图;
图17为本发明实施例中的用户项目集I下的平均时间消耗对比图;
图18为本发明实施例中的数据失真约束T下的平均时间消耗对比图。
具体实施方式
一种基于排序分类的个性化推荐中的隐私保护方法,该方法包括以下步骤:
a、用户数据建模:在形式上,用U表示用户集,I表示用户项目集即单个用户数据的数量,用D表示所有的用户数据,用Y表示所有的用户隐私数据;
Figure 652866DEST_PATH_IMAGE002
,则用户u的数据集合表示为
Figure 284836DEST_PATH_IMAGE003
,大小为|I|,
Figure 874080DEST_PATH_IMAGE004
表示用户u的一种隐私数据,每个用户具有相同的数据量;在用户数据集合里可以展现这个用户对一些活动项目的喜爱程度,用
Figure 591501DEST_PATH_IMAGE005
表示用户u的某个数据;用户订阅第三方推荐服务时,服务提供者将立即访问用户的数据集
Figure 189972DEST_PATH_IMAGE003
,首先将用户数据按它的喜好程度进行排序,从高到低,分两类,一类是用户喜爱程度相对高的称为高敏类,另外一类是用户喜爱程度相对较低的称为低敏类;
b、对用户高敏类数据进行数据保序混淆,具体步骤如下:
1)首先对隐私泄露进行度量;混淆数据学习的主要思想是将用户高敏类数据混淆成另一个用户的高敏类数据,数据相似,但是隐私泄露减少了,并且还能用于第三方推荐服务;需要处理的用户数据为高敏类可以表示为
Figure 676448DEST_PATH_IMAGE006
,混淆后的用户数据表示为
Figure 964823DEST_PATH_IMAGE007
,该用户的隐私数据为
Figure 435118DEST_PATH_IMAGE004
;在确定的用户隐私数据
Figure 571702DEST_PATH_IMAGE004
的情况下,用户信息即为分别通过观察用户数据与用户混淆数据获取的信息量的差值
Figure 53630DEST_PATH_IMAGE008
,可用来表示用户隐私泄露量MI;信息量的大小可用信息论方法中的熵来表示,互信息与熵之间密不可分;则从用户数据
Figure 250256DEST_PATH_IMAGE006
中获取的信息量可以表示为H(
Figure 801323DEST_PATH_IMAGE006
),如公式(1)所示;
Figure 476018DEST_PATH_IMAGE009
(1)
P(
Figure 937086DEST_PATH_IMAGE010
)则表示用户数据
Figure 301684DEST_PATH_IMAGE006
中某个数据
Figure 949834DEST_PATH_IMAGE010
出现的概率;如需求得互信息的值,则还需要计算条件熵,
Figure 428220DEST_PATH_IMAGE006
Figure 743795DEST_PATH_IMAGE007
之间的条件熵如公式(2)所示;
Figure 16644DEST_PATH_IMAGE011
(2)
Figure 683249DEST_PATH_IMAGE012
Figure 699746DEST_PATH_IMAGE013
分别表示数据
Figure 135407DEST_PATH_IMAGE010
和数据
Figure 576228DEST_PATH_IMAGE014
的联合概率和条件概率;最终互信息的计算如公式(3)所示;
Figure 995708DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE037
(3)
2)然后在隐私泄露较小的情况下同时保证个性化推荐的数据效用,就需要限定数据失真范围T即排序损失程度;使用肯德尔相关系数Tau,用逆序对数量来量化两个排序列表的不一致程度;用户原始数据
Figure 753580DEST_PATH_IMAGE006
和用户混淆数据
Figure 450271DEST_PATH_IMAGE007
取第i个数据分别用
Figure 189557DEST_PATH_IMAGE018
Figure 565175DEST_PATH_IMAGE019
表示;
Figure 923475DEST_PATH_IMAGE020
,如果有
Figure 342517DEST_PATH_IMAGE021
Figure 862491DEST_PATH_IMAGE022
Figure 725405DEST_PATH_IMAGE019
>
Figure 887396DEST_PATH_IMAGE023
或者
Figure 152155DEST_PATH_IMAGE018
<
Figure 639768DEST_PATH_IMAGE022
Figure 724399DEST_PATH_IMAGE019
<
Figure 424502DEST_PATH_IMAGE023
时,则认为(
Figure 540838DEST_PATH_IMAGE018
Figure 199352DEST_PATH_IMAGE019
)与(
Figure 36858DEST_PATH_IMAGE022
Figure 540652DEST_PATH_IMAGE023
)是一对顺序一致的元素对,则其数量可表示为E。如果有
Figure 655369DEST_PATH_IMAGE018
>
Figure 484785DEST_PATH_IMAGE022
Figure 340746DEST_PATH_IMAGE019
<
Figure 520667DEST_PATH_IMAGE023
或者
Figure 614525DEST_PATH_IMAGE018
<
Figure 614842DEST_PATH_IMAGE022
Figure 895782DEST_PATH_IMAGE019
>
Figure 6957DEST_PATH_IMAGE023
,则认为(
Figure 220901DEST_PATH_IMAGE018
Figure 392119DEST_PATH_IMAGE019
)与(
Figure 423004DEST_PATH_IMAGE022
Figure 806712DEST_PATH_IMAGE023
)是一对顺序不一致的元素对,则其数量可表示为F;具体的肯德尔相关系数计算如公式(4)、公式(5)、公式(6)、公式(7)所示;
Figure 609583DEST_PATH_IMAGE024
(4)
Figure 686124DEST_PATH_IMAGE025
(5)
Figure 207235DEST_PATH_IMAGE026
(6)
Figure 394634DEST_PATH_IMAGE027
(7)
其中
Figure 52011DEST_PATH_IMAGE028
Figure 299453DEST_PATH_IMAGE029
分别表示
Figure 558791DEST_PATH_IMAGE030
中数据的总个数,重复数据视为一个数据;
Figure 284302DEST_PATH_IMAGE031
Figure 61765DEST_PATH_IMAGE032
分别表示
Figure 480108DEST_PATH_IMAGE030
中第j个数据的个数,重复数据视为一个数据;
3)最后获取最优的用户混淆数据,在上述测量用户隐私泄露量与计算肯德尔相关系数的基础上,进行条件约束来获取最优用户混淆数据即将另一用户的高敏类数据赋予当前需要混淆数据的用户;在此过程中,依据用户的不同隐私数据,进行某一类隐私数据的保护;
c、对用户低敏类数据进行数据噪声混淆:采用差分隐私的思想;直接给用户数据加入噪声,该噪声的产生满足差分隐私不等式;噪声产生的机制是拉普拉斯;该机制依据不同的随机变量
Figure 710232DEST_PATH_IMAGE033
值,使用不同的服从参数为μ和φ的Laplace逆累积分布函数,计算得出噪声值noise;直接在用户原有的数据上加上噪声值,保护用户隐私;在此机制基础上令其参数
Figure 505013DEST_PATH_IMAGE034
等于0,形成新的Laplace逆累积分布函数,公式如(8)所示。
Figure 136982DEST_PATH_IMAGE035
(8)
所述的步骤a中
Figure 991806DEST_PATH_IMAGE003
为用户u的数据集合,该数据为用户在各大媒体平台上活动留下的数据。
所述的步骤a中对用户进行处理具体流程为:先将用户数据按它的喜好程度进行从高到低的排序,再分成两类,一类是用户喜爱程度相对高的称为高敏类,另外一类是用户喜爱程度相对较低的称为低敏类。
所述的步骤b中对用户高敏类数据进行数据保序混淆。
所述的步骤c中,对用户低敏类数据进行数据噪声混淆。
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白清晰,下面结合具体图示,进一步阐述本发明。
一种基于排序分类的个性化推荐中的隐私保护方法,也称为ESPRC(An efficientand secure privacy protection scheme for personalized recommendation based onsorting classification)框架,在用户数据提交给第三方推荐服务之前,对其进行混淆处理。先对用户数据进行排序再分类,得到高敏类数据和低敏类数据。再对用户的高敏类数据进行数据保序混淆。最后对用户的低敏类数据进行数据噪声混淆,既保护了用户数据效用又保障了用户隐私安全。
表1. 给出本发明中重要符号定义
Figure DEST_PATH_IMAGE039
本发明方法包括以下步骤:
a、用户数据建模;对于用户在各大媒体平台上的数据,例如给最喜欢的某些物品评分,给照片加标签等;在形式上,我们让U表示用户集,I表示用户项目集即单个用户数据的数量,用D表示所有的用户数据,用Y表示所有的用户隐私数据;
Figure 565351DEST_PATH_IMAGE002
,则用户u的数据集合表示为
Figure 36259DEST_PATH_IMAGE003
(大小为|I|),
Figure 522735DEST_PATH_IMAGE004
表示用户u的一种隐私数据;每个用户具有相同的数据量;在用户数据集合里可以展现这个用户对一些活动项目的喜爱程度,例如用户对某个物品的评分,用户的签到等;用
Figure 548460DEST_PATH_IMAGE005
表示用户u的某个数据;当用户订阅第三方推荐服务时,服务提供者将立即访问用户的数据集
Figure 753176DEST_PATH_IMAGE003
基于排名的推荐;基于用户数据建模,基于排名的推荐最终会输出一个用户的喜爱项目列表,其中跟用户历史喜欢项目最相似的项目会推荐给该用户。相关算法是利用用户已有的项目列表来预测缺失项目的排名列表。因此,数据混淆过程中产生的排名损失会影响基于排名的推荐算法。这种情况的排名损失用传统的欧氏距离来度量是不合适的。如图1所示,用户原始的数据
Figure 889760DEST_PATH_IMAGE003
经过混淆处理后可能会形成混淆数据
Figure 496321DEST_PATH_IMAGE040
或混淆数据
Figure DEST_PATH_IMAGE041
。由图可知,两种混淆数据与原始数据
Figure 170578DEST_PATH_IMAGE003
的欧氏距离是相同的,但是这两种混淆数据的排序与原始数据
Figure 737957DEST_PATH_IMAGE003
的排序是不同的。原始数据的排序是i1<i2<i3,而混淆数据
Figure 537286DEST_PATH_IMAGE041
的排序是i1<i3<i2,但是,混淆数据
Figure 139299DEST_PATH_IMAGE040
排序与原始数据排序一致。所以形成的这种排序损失会影响最终的基于排名的推荐算法效果。我们要考虑到在数据混淆过程中这种排名损失是重要的。
威胁模型;我们认为用户都存在两种类型数据:一是用户数据D(例如用户签到),用户愿意传输这些数据给第三方服务平台来获取个性化推荐;二是隐私数据Y(例如用户的性别,年龄),用户希望这部分数据不公开,保持隐私。但是,攻击者往往可以从用户数据D中获取到用户的隐私数据Y。一个简单的推理攻击如图2所示。像机器学习中的贝叶斯分类器和支持向量机等,可以进行简单的分类,即获取用户隐私。例如贝叶斯分类器通过分析用户数据得到分类概率,依据概率大小进行用户分类(分两类:男、女),用户隐私就被攻击者获取了。已知用户u数据集合
Figure 241248DEST_PATH_IMAGE003
和隐私数据
Figure 420556DEST_PATH_IMAGE004
,通过联合概率P(
Figure 898942DEST_PATH_IMAGE003
,
Figure 211587DEST_PATH_IMAGE004
)可知
Figure 750016DEST_PATH_IMAGE004
Figure 151041DEST_PATH_IMAGE003
相关联,对手通过观察
Figure 698697DEST_PATH_IMAGE003
就可以得到
Figure 399937DEST_PATH_IMAGE004
的一些相关知识。所以为了减少这样的隐私泄露,可以将用户数据
Figure 843688DEST_PATH_IMAGE003
混淆化,这样对手就很难从混淆后的数据中获取
Figure 542129DEST_PATH_IMAGE004
的相关知识。假设攻击者使用某种推理攻击方法来推测用户隐私数据
Figure 627897DEST_PATH_IMAGE004
,则它可从用户的数据中获取的信息量可以表示为C。如果攻击者还是使用相同的方法从混淆后的用户数据推测用户隐私数据,则它可以获取的信息量表示为
Figure 918064DEST_PATH_IMAGE042
。则用户的隐私泄露量可以用两个信息量的差值来衡量,表示为
Figure 798295DEST_PATH_IMAGE008
,如公式为
Figure DEST_PATH_IMAGE043
数据失真约束;为了减少隐私泄露,我们将用户数据
Figure 111596DEST_PATH_IMAGE003
混淆化。但又需要让混淆后的用户数据
Figure 873491DEST_PATH_IMAGE044
还可以继续用于个性化推荐。所以在用户数据混淆的过程中,不仅需要对用户隐私泄露进行度量,还需要制定数据失真约束T,保证用户数据的效用。则数据失真约束模型可用公式
Figure DEST_PATH_IMAGE045
表示。
Figure 221427DEST_PATH_IMAGE046
Figure 272560DEST_PATH_IMAGE003
Figure 135473DEST_PATH_IMAGE044
之间距离的度量,
Figure DEST_PATH_IMAGE047
则限制了数据失真范围。保障混淆数据的实用性。在给定的数据失真范围
Figure 235147DEST_PATH_IMAGE047
下,最小化信息量差值
Figure 499907DEST_PATH_IMAGE008
来获得最优的混淆数据。
ESPRC框架的工作流程如图3所示;当用户在各大媒体平台上相互交流时,会主动的分享自己的数据。例如签到,评分等,这些数据暗含了用户的偏好。当用户订阅第三方推荐服务时,它通常需要访问这些用户数据来完成推荐。而大量的用户数据容易使用户的隐私数据遭到推理攻击,造成隐私泄露。所以ESPRC框架将对用户数据进行混淆处理,避免此类问题的发生。ESPRC框架中用户数据混淆具体步骤如下:
如图4所示,我们先将用户数据按它的喜好程度进行排序,从高到低,分两类,一类是用户喜爱程度相对高的称为高敏类,例如图中编号为1的这类数据,另外一类是用户喜爱程度相对较低的称为低敏类,例如图中编号为2的这类数据。然后分别对这两类数据进行相应的处理。
b、对用户高敏类数据进行数据保序混淆;具体步骤如下:
首先对隐私泄露进行度量。我们混淆数据学习的主要思想是将用户高敏类数据混淆成另一个用户的高敏类数据,数据相似,但是隐私泄露减少了,并且还能用于第三方推荐服务。需要处理的用户数据为高敏类可以表示为
Figure 19746DEST_PATH_IMAGE006
,混淆后的用户数据表示为
Figure 104377DEST_PATH_IMAGE007
。该用户的隐私数据为
Figure 70059DEST_PATH_IMAGE004
。在确定的用户隐私数据
Figure 189325DEST_PATH_IMAGE004
的情况下,互信息即为分别通过观察用户数据与用户混淆数据获取的信息量的差值
Figure 582260DEST_PATH_IMAGE008
,可用来表示用户隐私泄露量MI。信息量的大小可用信息论方法中的熵来表示,互信息与熵之间密不可分。则从用户数据
Figure 419766DEST_PATH_IMAGE006
中获取的信息量可以表示为H(
Figure 923560DEST_PATH_IMAGE006
),如公式(3)所示。
Figure 162911DEST_PATH_IMAGE009
(1)
P(
Figure 723818DEST_PATH_IMAGE010
)则表示用户数据
Figure 923986DEST_PATH_IMAGE006
中某个数据
Figure 231471DEST_PATH_IMAGE010
出现的概率。如需求得互信息的值,则还需要计算条件熵,
Figure 590908DEST_PATH_IMAGE006
Figure 325646DEST_PATH_IMAGE007
之间的条件熵如公式(4)所示。
Figure 872165DEST_PATH_IMAGE011
(2)
Figure 717761DEST_PATH_IMAGE012
Figure 928775DEST_PATH_IMAGE013
分别表示数据
Figure 834414DEST_PATH_IMAGE010
和数据
Figure 868229DEST_PATH_IMAGE014
的联合概率和条件概率。最终互信息的计算如公式(5)所示;
Figure 517516DEST_PATH_IMAGE048
Figure 585967DEST_PATH_IMAGE037
(3)
然后在隐私泄露较小的情况下同时保证个性化推荐的数据效用,就需要限定数据失真范围T即排序损失程度。使用肯德尔相关系数Tau,用逆序对数量来量化两个排序列表的不一致程度。用户原始数据
Figure 662507DEST_PATH_IMAGE006
和用户混淆数据
Figure 918039DEST_PATH_IMAGE007
取第i个数据分别用
Figure 636596DEST_PATH_IMAGE018
Figure 556623DEST_PATH_IMAGE019
表示。
Figure 804065DEST_PATH_IMAGE020
,如果有
Figure 687838DEST_PATH_IMAGE021
Figure 678928DEST_PATH_IMAGE022
Figure 456391DEST_PATH_IMAGE019
>
Figure 874734DEST_PATH_IMAGE023
或者
Figure 370438DEST_PATH_IMAGE018
<
Figure 174007DEST_PATH_IMAGE022
Figure 337135DEST_PATH_IMAGE019
<
Figure 926380DEST_PATH_IMAGE023
时,则认为(
Figure 643800DEST_PATH_IMAGE018
Figure 711113DEST_PATH_IMAGE019
)与(
Figure 728748DEST_PATH_IMAGE022
Figure 488893DEST_PATH_IMAGE023
)是一对顺序一致的元素对,则其数量可表示为E。如果有
Figure 693610DEST_PATH_IMAGE018
>
Figure 561684DEST_PATH_IMAGE022
Figure 168246DEST_PATH_IMAGE019
<
Figure 99293DEST_PATH_IMAGE023
或者
Figure 791305DEST_PATH_IMAGE018
<
Figure 731580DEST_PATH_IMAGE022
Figure 192648DEST_PATH_IMAGE019
>
Figure 29017DEST_PATH_IMAGE023
,则认为(
Figure 208325DEST_PATH_IMAGE018
Figure 545766DEST_PATH_IMAGE019
)与(
Figure 999356DEST_PATH_IMAGE022
Figure 396840DEST_PATH_IMAGE023
)是一对顺序不一致的元素对,则其数量可表示为F。具体的肯德尔相关系数计算如公式(6)、公式(7)、公式(8)、公式(9)所示。
Figure 797865DEST_PATH_IMAGE024
(4)
Figure 79942DEST_PATH_IMAGE025
(5)
Figure 250023DEST_PATH_IMAGE026
(6)
Figure 365878DEST_PATH_IMAGE027
(7)
其中
Figure 254200DEST_PATH_IMAGE028
Figure 71458DEST_PATH_IMAGE029
分别表示
Figure 96046DEST_PATH_IMAGE030
中数据(重复数据视为一个数据)的总个数。
Figure 976277DEST_PATH_IMAGE031
Figure 351895DEST_PATH_IMAGE032
分别表示
Figure 975775DEST_PATH_IMAGE030
中第j个数据(重复数据视为一个数据)的个数。
最后获取最优的用户混淆数据,在上述测量用户隐私泄露量与计算肯德尔相关系数的基础上,进行条件约束来获取最优用户混淆数据即将另一用户的高敏类数据赋予当前需要混淆数据的用户。在此过程中,依据用户的不同隐私数据,进行某一类隐私数据(如性别)的保护。
c、对用户低敏类数据进行数据噪声混淆;采用差分隐私的思想。直接给用户数据加入噪声,该噪声的产生满足差分隐私不等式。噪声产生的机制是拉普拉斯。该机制依据不同的随机变量
Figure 120448DEST_PATH_IMAGE033
值,使用不同的服从参数为μ和φ的Laplace逆累积分布函数,计算得出噪声值noise。直接在用户原有的数据上加上噪声值,保护用户隐私。我们在此机制基础上令其参数
Figure 30635DEST_PATH_IMAGE034
等于0,形成新的Laplace逆累积分布函数,公式如(8)所示。
Figure DEST_PATH_IMAGE049
(8)
为验证框架的有效性,以及用户数据混淆处理的能力,将ESPRC框架与PrivRank框架进行对比,对比方面包括:
1.用户隐私保护性能对比;
2.推荐质量对比;
3.推荐效率对比。
1.攻击是通过每个用户处理后的数据推理出用户的隐私数据。如表1中所示,ESPRC框架处理后的用户数据的攻击精确值都低于PrivRank框架处理后的,这表明攻击ESPRC框架处理后的用户数据无法获得比PrivRank框架处理后的更多的用户隐私。这就意味着ESPRC框架处理后的用户数据可以更好的保护用户隐私。同时,随着ESPRC框架中用户分类比率Ratio的增大,攻击的精确度有小幅度增大到减小,所以在具体的环境中,可选择合适的用户分类比率,来保护用户隐私。
表1. 用户的隐私泄露
Attack precision
PrivRank框架 73.11%
ESPRC框架(Ratio=10%) 71.17%
ESPRC框架(Ratio=20%) 71.01%
ESPRC框架(Ratio=30%) 70.16%
ESPRC框架(Ratio=40%) 71.83%
ESPRC框架(Ratio=50%) 71.96%
2. 第一个方面,如图5~10所示,从用户项目集I变化的方面可知,随着用户项目集I的增大,并在用户分类比率
Figure 793839DEST_PATH_IMAGE002
分别等于10%和20%的情况下,MAP、P、R三者在ESPRC框架和PrivRank框架下的有着不同的表现。在不同的用户分类比率
Figure 712996DEST_PATH_IMAGE050
的情况下,ESPRC框架中MAP与R的值与PrivRank框架的相差不大,略微高一点,但是在查准率P上,随着用户项目集I的增大,ESPRC表现优异,大幅度高于PrivRank,说明ESPRC框架处理后的数据能更好用于推荐服务,提高推荐的准确性,能提供更多符合用户偏好的推荐结果。但是,其中MAP的值还是与查全率R相比相差明显,其值的提升,与ESPRC框架中的排序分类操作相关,在保证用户原始数据排序损失较小的情况下,对表现用户偏好明显的数据进行混淆处理的量合适,就越能减少最终推荐列表的排序损失,因为最符合用户偏好的预测推荐结果与用户数据中偏好表现明显的数据是有联系的。对于查全率R,则与查准率P是相互影响的,P越高,则R可能越低。在不同的用户分类比率
Figure 379541DEST_PATH_IMAGE001
的情况下,ESPRC框架得到的P值较好,所以R值较低,但其R值仍然与PrivRank框架的差别较小。总体来说,ESPRC框架处理后的用户数据能更好的用于推荐服务。
第二个方面,如图11~16所示,从数据失真约束T变化的方面可得,在其它无关参数保持一致的情况下,并在用户分类比率
Figure 809386DEST_PATH_IMAGE001
分别等于10%和20%的情况下,随着数据失真约束T值的增大,我们提出的ESPRC框架在MAP、P、R上都明显优于PrivRank框架。但随着用户分类比率
Figure 18840DEST_PATH_IMAGE050
的增大,P与R的数值均有所波动,但也仍是优于PrivRank框架的。对于这明显的优势,主要是ESPRC框架对于表现用户高敏类数据进行失真约束,相对于PrivRank框架对于整体用户数据进行失真约束,能更好的保证用户的推荐质量,更能准确的预测用户的喜好。
3. 如图17所示,在用户项目集I下每次实验消耗时间的总和的平均值。依据ESPRC框架中的用户分类比率分别与PrivRank框架进行比较。从图17中可以看出ESPRC框架平均处理数据时间耗时,随着用户分类比率的增大,逐步增加。但ESPRC框架整体平均时间消耗仍然是少于PrivRank框架的,即使在用户分类比率
Figure 718943DEST_PATH_IMAGE050
达到50%时,ESPRC框架平均时间消耗比PrivRank框架少1000s左右。总体而言,ESPRC框架在用户项目集I这个实验变量下的耗时比PrivRank框架要少,处理数据的效率更高。
如图18所示,是实验的另外一个变量数据失真约束T下的两个框架的平均时间消耗。从图中可以看出,在任何用户分类比率情况下,ESPRC框架处理数据的耗时要比PrivRank框架的少很多,但其中ESPRC框架也是随着用户分类比率
Figure 838209DEST_PATH_IMAGE050
的增大时间消耗也在增加。这是由于在实验变量数据失真约束T在PrivRank框架中是针对用户整体数据,而在ESPRC框架中是针对排序分类后的用户高敏类数据而言,所以加快了ESPRC框架整体运行时间。
在本实施例中,隐私保护性能方面,通过用户数据的排序与分类,对用户低敏类数据进行了完全的隐私保护,从而提高了用户整体的隐私保护性能;在推荐质量方面,通过用户数据的排序与分类,对用户高敏类数据进行了数据保序混淆,保障了用户的偏好,提高了推荐的准确性;在推荐效率方面,通过用户数据的排序与分类,对用户高敏类和低敏类数据的不同处理,加快了推荐效率。

Claims (2)

1.一种基于排序分类的个性化推荐中的隐私保护方法,其特征在于,该方法包括以下步骤:
a、用户数据建模:在形式上,用U表示用户集,I表示用户项目集即单个用户数据的数量,用D表示所有的用户数据,用Y表示所有的用户隐私数据;
Figure FDA0004187558770000011
则用户u的数据集合表示为Du,大小为|I|,Yu表示用户u的一种隐私数据,每个用户具有相同的数据量;在用户数据集合里可以展现这个用户对一些活动项目的喜爱程度,用du表示用户u的某个数据;用户订阅第三方推荐服务时,服务提供者将立即访问用户的数据集Du,首先将用户数据按它的喜好程度进行排序,从高到低,分两类,一类是用户喜爱程度相对高的称为高敏类,另外一类是用户喜爱程度相对较低的称为低敏类;
b、对用户高敏类数据进行数据保序混淆,具体步骤如下:
1)首先对隐私泄露进行度量;混淆数据学习的主要思想是将用户高敏类数据混淆成另一个用户的高敏类数据,数据相似,但是隐私泄露减少了,并且还能用于第三方推荐服务;需要处理的用户数据为高敏类可以表示为
Figure FDA0004187558770000012
混淆后的用户数据表示为
Figure FDA0004187558770000013
该用户的隐私数据为Yu;在确定的用户隐私数据Yu的情况下,用户信息即为分别通过观察用户数据与用户混淆数据获取的信息量的差值ΔC,可用来表示用户隐私泄露量MI;信息量的大小可用信息论方法中的熵来表示,互信息与熵之间密不可分;则从用户数据
Figure FDA0004187558770000021
中获取的信息量可以表示为
Figure FDA0004187558770000022
如公式(1)所示;
Figure FDA0004187558770000023
Figure FDA0004187558770000024
则表示用户数据
Figure FDA0004187558770000025
中某个数据
Figure FDA0004187558770000026
出现的概率;如需求得互信息的值,则还需要计算条件熵,
Figure FDA0004187558770000027
Figure FDA0004187558770000028
之间的条件熵如公式(2)所示;
Figure FDA0004187558770000029
Figure FDA00041875587700000210
Figure FDA00041875587700000211
分别表示数据
Figure FDA00041875587700000212
和数据
Figure FDA00041875587700000213
的联合概率和条件概率;最终互信息的计算如公式(3)所示;
Figure FDA00041875587700000214
2)然后在隐私泄露较小的情况下同时保证个性化推荐的数据效用,就需要限定数据失真范围T即排序损失程度;使用肯德尔相关系数Tau,用逆序对数量来量化两个排序列表的不一致程度;用户原始数据
Figure FDA00041875587700000215
和用户混淆数据
Figure FDA00041875587700000225
取第i个数据分别用
Figure FDA00041875587700000216
Figure FDA00041875587700000217
表示;
Figure FDA00041875587700000218
如果有
Figure FDA00041875587700000219
Figure FDA00041875587700000220
或者
Figure FDA00041875587700000221
Figure FDA00041875587700000222
时,则认为
Figure FDA00041875587700000223
Figure FDA00041875587700000224
是一对顺序一致的元素对,则其数量可表示为E,其中I表示用户项目集即单个用户数据的数量;如果有
Figure FDA0004187558770000031
Figure FDA0004187558770000032
或者
Figure FDA0004187558770000033
Figure FDA0004187558770000034
Figure FDA0004187558770000035
则认为
Figure FDA0004187558770000036
Figure FDA0004187558770000037
是一对顺序不一致的元素对,则其数量可表示为F;具体的肯德尔相关系数计算如公式(4)、公式(5)、公式(6)、公式(7)所示;
Figure FDA0004187558770000038
Figure FDA0004187558770000039
Figure FDA00041875587700000310
Figure FDA00041875587700000311
其中,
Figure FDA00041875587700000312
表示为
Figure FDA00041875587700000313
中数据的总个数,tu和tv分别表示
Figure FDA00041875587700000314
Figure FDA00041875587700000315
中数据的总个数,重复数据视为一个数据;cj和dj分别表示
Figure FDA00041875587700000316
Figure FDA00041875587700000317
中第j个数据的个数,重复数据视为一个数据;S则为
Figure FDA00041875587700000318
Figure FDA00041875587700000319
之间两两数据配对的总对数,因为
Figure FDA00041875587700000320
Figure FDA00041875587700000321
的数据总数是一致的,所以S可以用
Figure FDA00041875587700000322
的数据总个数来进行计算;A表示为
Figure FDA00041875587700000323
中重复数据进行两两数据配对的总对数;B表示为
Figure FDA00041875587700000324
中重复数据进行两两数据配对的总对数;
3)最后获取最优的用户混淆数据,在上述测量用户隐私泄露量与计算肯德尔相关系数的基础上,进行条件约束来获取最优用户混淆数据即将另一用户的高敏类数据赋予当前需要混淆数据的用户;在此过程中,依据用户的不同隐私数据,进行某一类隐私数据的保护;
数据失真约束;为了减少隐私泄露,我们将用户数据Du混淆化;但又需要让混淆后的用户数据Dv还可以继续用于个性化推荐;所以在用户数据混淆的过程中,不仅需要对用户隐私泄露进行度量,还需要制定数据失真约束T,保证用户数据的效用;则数据失真约束模型可用公式
Figure FDA0004187558770000041
表示;
dc(Du,Dv)是Du与Dv之间距离的度量,T则限制了数据失真范围;保障混淆数据的实用性;在给定的数据失真范围T下,最小化信息量差值ΔC来获得最优的混淆数据;
c、对用户低敏类数据进行数据噪声混淆:采用差分隐私的思想;直接给用户数据加入噪声,该噪声的产生满足差分隐私不等式;噪声产生的机制是拉普拉斯;该机制依据不同的随机变量α值,使用不同的服从参数为μ和
Figure FDA0004187558770000042
的Laplace逆累积分布函数,计算得出噪声值noise;直接在用户原有的数据上加上噪声值,保护用户隐私;在此机制基础上令其参数μ等于0,形成新的Laplace逆累积分布函数,公式如(8)所示:
Figure FDA0004187558770000051
2.根据权利要求1所述的一种基于排序分类的个性化推荐中的隐私保护方法,其特征在于,所述的步骤a中Du为用户u的数据集合,该数据为用户在各大媒体平台上活动留下的数据。
CN202010235033.XA 2020-03-30 2020-03-30 一种基于排序分类的个性化推荐中的隐私保护方法 Active CN111259260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010235033.XA CN111259260B (zh) 2020-03-30 2020-03-30 一种基于排序分类的个性化推荐中的隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010235033.XA CN111259260B (zh) 2020-03-30 2020-03-30 一种基于排序分类的个性化推荐中的隐私保护方法

Publications (2)

Publication Number Publication Date
CN111259260A CN111259260A (zh) 2020-06-09
CN111259260B true CN111259260B (zh) 2023-06-02

Family

ID=70951607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010235033.XA Active CN111259260B (zh) 2020-03-30 2020-03-30 一种基于排序分类的个性化推荐中的隐私保护方法

Country Status (1)

Country Link
CN (1) CN111259260B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897999B (zh) * 2020-07-27 2023-06-16 九江学院 一种用于视频推荐且基于lda的深度学习模型构建方法
CN112201072A (zh) * 2020-09-30 2021-01-08 姜锡忠 城市交通路径规划方法及系统
CN112163160B (zh) * 2020-10-12 2023-08-08 广西师范大学 基于知识图谱的敏感识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156388A (zh) * 2014-06-26 2014-11-19 西安邮电大学 个性化搜索中基于信任的隐私保持的协同过滤推荐方法
CN105009505A (zh) * 2013-08-09 2015-10-28 汤姆逊许可公司 基于矩阵因子分解和岭回归的隐私保护推荐的方法和系统
CN105339970A (zh) * 2013-02-06 2016-02-17 电子商品交易合伙人有限公司 用于推荐珠宝物品的方法
CN106096439A (zh) * 2016-06-03 2016-11-09 武汉大学 一种基于移动用户配置文件混淆的隐私保护系统及方法
CN107292189A (zh) * 2017-05-15 2017-10-24 温州大学瓯江学院 面向文本检索服务的用户隐私保护方法
CN107491557A (zh) * 2017-09-06 2017-12-19 徐州医科大学 一种基于差分隐私的TopN协同过滤推荐方法
CN110851860A (zh) * 2019-10-23 2020-02-28 国网天津市电力公司电力科学研究院 一种基于匿名化隐私技术的用电数据脱敏算法模型构建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105339970A (zh) * 2013-02-06 2016-02-17 电子商品交易合伙人有限公司 用于推荐珠宝物品的方法
CN105009505A (zh) * 2013-08-09 2015-10-28 汤姆逊许可公司 基于矩阵因子分解和岭回归的隐私保护推荐的方法和系统
CN104156388A (zh) * 2014-06-26 2014-11-19 西安邮电大学 个性化搜索中基于信任的隐私保持的协同过滤推荐方法
CN106096439A (zh) * 2016-06-03 2016-11-09 武汉大学 一种基于移动用户配置文件混淆的隐私保护系统及方法
CN107292189A (zh) * 2017-05-15 2017-10-24 温州大学瓯江学院 面向文本检索服务的用户隐私保护方法
CN107491557A (zh) * 2017-09-06 2017-12-19 徐州医科大学 一种基于差分隐私的TopN协同过滤推荐方法
CN110851860A (zh) * 2019-10-23 2020-02-28 国网天津市电力公司电力科学研究院 一种基于匿名化隐私技术的用电数据脱敏算法模型构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
实用的私有信息检索及其应用研究;花常琪;中国优秀硕士学位论文全文数据库(第10期);全文 *

Also Published As

Publication number Publication date
CN111259260A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111259260B (zh) 一种基于排序分类的个性化推荐中的隐私保护方法
Ammad-Ud-Din et al. Federated collaborative filtering for privacy-preserving personalized recommendation system
Bharadwaj et al. Fuzzy computational models for trust and reputation systems
US8990252B2 (en) Anonymity measuring device
Bilge et al. A scalable privacy-preserving recommendation scheme via bisecting k-means clustering
US12026281B2 (en) Method for creating avatars for protecting sensitive data
Casino et al. On privacy preserving collaborative filtering: Current trends, open problems, and new issues
Sangogboye et al. A framework for privacy-preserving data publishing with enhanced utility for cyber-physical systems
CN107766742B (zh) 非独立同分布环境下的多相关性差分隐私矩阵分解方法
US20200210457A1 (en) Linking incongruous personal data records, and applications thereof
Casino et al. Privacy preserving collaborative filtering with k-anonymity through microaggregation
Nilashi et al. A New Method for Collaborative Filtering Recommender Systems: The Case of Yahoo! Movies and TripAdvisor Datasets.
Alishahi et al. Add noise to remove noise: Local differential privacy for feature selection
Zheng et al. A matrix factorization recommendation system-based local differential privacy for protecting users’ sensitive data
Shambour A user-based multi-criteria recommendation approach for personalized recommendations
Mahesh Selvi et al. A privacy-aware deep learning framework for health recommendation system on analysis of big data
Wasid et al. Adaptive genetic algorithm for user preference discovery in multi-criteria recommender systems
Chen et al. Privacy-preserving hierarchical federated recommendation systems
Sakuma et al. Recommendation with k-anonymized ratings
Rodriguez-Garcia et al. Semantic noise: privacy-protection of nominal microdata through uncorrelated noise addition
Díaz et al. Comparison of machine learning models applied on anonymized data with different techniques
Tso et al. Attribute-aware collaborative filtering
Cortez-Rodriguez et al. Combining Rollout Designs and Clustering for Causal Inference under Low-order Interference
Felício et al. Preference-like score to cope with cold-start user in recommender systems
Alghamedy et al. Imputation strategies for cold-start users in nmf-based recommendation systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Cui Zongmin

Inventor after: Xiao Yan

Inventor after: Wang Lihua

Inventor after: Yang Xiao

Inventor after: Lv Xiaolei

Inventor before: Cui Zongmin

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant