CN102622544A

CN102622544A - 个性化服务中用户兴趣模型匿名化方法

Info

Publication number: CN102622544A
Application number: CN2012100472855A
Authority: CN
Inventors: 康海燕; 熊莉; 李清华
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2012-02-28
Filing date: 2012-02-28
Publication date: 2012-08-01

Abstract

个性化服务中用户兴趣模型匿名化方法是基于p-link隐私保护的用户兴趣模型匿名化方法。目的是解决用户隐私保护和提升个性化服务性能之间矛盾。该方法引入p-link隐私概念，p是对于隐私保护的度量。当用户组中的用户与组中任意关键词联系起来的概率不超过p时，用户组被认为是满足p-link，即攻击者根据背景知识链接确定某一用户的概率不超过p；要满足p-link隐私约束，需要对用户兴趣模型基于语义的扩增处理；根据用户兴趣模型之间的相似性，将相似的用户兴趣模型组合，形成等价用户组兴趣模型。提升个性化服务性能通过共享用户组兴趣模型实现，该方法可广泛应用于个性化检索、推荐等服务系统。该发明所属信息、计算机技术领域。

Description

个性化服务中用户兴趣模型匿名化方法

技术领域

该发明所属信息、计算机技术领域。

背景技术

实现个性化服务，需要跟踪和学习用户的兴趣和行为，生成用户兴趣模型，根据用户兴趣过滤信息以达到准确提供给用户所需信息的目的。然而，个性化检索面临一个重要问题：用户隐私安全。如何在保证用户隐私的前提下，提高用户兴趣模型在个性化服务中的共享是一个值得认真研究的问题。

发明内容

为了克服现有隐私保护技术的不足，提出了基于p-link隐私保护的用户兴趣模型匿名化方法。解决了用户隐私保护和提升个性化服务性能之间的矛盾。

该发明解决其技术问题所采用的技术方案是：隐匿用户模型中的标示符，引入p-link隐私概念，p是对于隐私保护的度量。当用户组中的用户与组中任意关键词联系起来的概率不超过p时，这个用户组被认为是满足p-link。即攻击者根据背景知识链接确定某一用户的概率不超过p；要满足p-link隐私的约束，需要对用户兴趣模型基于语义的扩增处理；根据用户兴趣模型之间的相似性，将相似的用户兴趣模型组合，形成基于p-link隐私保护等价用户组兴趣模型，再形成一个特殊用户兴趣作为组中所有用户兴趣的代表，应用在个性化服务之中，它被称为组质心(CUP)。

技术方案所依据的科学原理：(1)数据发布中隐私保护的k-匿名模型方法。k-匿名模型是通过对准标示符进行泛化、抑制等操作，使一个发布表中的一条记录r至少有k-1条记录与r在准标志符上的投影值相等，这样使得攻击者链接确定某一记录的概率降低为1/k。与k-匿名方法不同的是：用户兴趣模型的匿名化是聚类，根据相似性聚类得到等价用户组兴趣模型的兴趣条目，而k-匿名是对将要发布的数据通过泛化生成等价组。另外，k-匿名中的等价组要求至少包含k条记录，而等价组兴趣模型不需要限制用户的个数，而是需要满足p-link。(2)基于语义的扩增和聚类。用户兴趣模型扩增揭示了用户兴趣之间的相近语义，这使得集合分类更加可行和有效，同时为提升个性化服务性能奠定了基础。

本发明的有益效果是，在保证用户隐私安全的前提下，能够保持或提升个性化服务性能。

附图说明

下面结合附图和实例对本发明进一步说明。

图1是用户兴趣模型扩增示意图。

图1中，包括用户兴趣模型扩增处理的几种情况。在语言学中，上位词是指语义范围包括了其他词的词。同义词集的上位词是包括了根同义词集和所有它的上位词的同义词集列表。a1，a2可以代表scarlet(朱红)，vermilion(丹红)，carmine(洋红)，crimson(深红)；b1，b2分别代表aqua(浅绿)，emerald(翠绿)；A代表red(红)；B代表green(绿)；All代表color(颜色)；A是的a1，a2上位词；B是b1，b2的上位词；同样，All是A，B的上位词。

具体实施方式

个性化服务中用户兴趣模型匿名化方法，具体步骤如下：

(1)隐匿用户模型中的标示符，设置合理p-link初值。

(2)当p-link隐私条件不满足时，需要扩增处理，直到满足条件。扩增的第一步是同义词集的扩增，将用户资料中的所有单独的关键词扩增为同义词集。扩增的第二步是上位词集扩增，将用户资料中同义词集的所有上位词集以原同义词集相同的权重加入到用户兴趣模型中。

(3)根据用户兴趣模型之间的相似性，将相似性较大的用户兴趣模型组合，形成等价用户组兴趣模型。即在满足p-link隐私条件下，如何进行自动聚类→分组，尽可能p值小。

(4)分组后，计算各组的p值，取均值或最高值；计算组质心用户兴趣(CUP)。

(5)完成个性化服务中用户兴趣模型匿名化。

个性化服务中用户兴趣模型匿名化方法的算法描述：

/*

User类：用户类，用户id、兴趣条目集合、所属等价用户组ID号。

Interestltem类：兴趣条目类，兴趣关键词以及权值。

EquivalenceUserGroup类：等价用户组类，存放等价用户组的兴趣条目，以及所包含的用户集合。

Anonymization类：进行兴趣模型匿名化的主类。

设定p-link初始值。

*/

。

Claims

1.个性化服务中用户兴趣模型匿名化方法是基于p-link隐私保护的用户兴趣模型匿名化方法。其特征是：引入p-link隐私概念，p是对于隐私保护的度量。即攻击者根据背景知识链接确定某一用户的概率不超过p；满足p-link隐私约束，需要对用户兴趣模型基于语义的扩增处理；根据用户兴趣模型之间的相似性，将相似的用户兴趣模型组合，形成基于p-link隐私保护等价用户组兴趣模型。提升个性化服务性能通过共享用户组兴趣模型实现，解决了用户的隐私保护和提升个性化服务性能之间矛盾。

2.根据权利要求1所述的个性化服务中用户兴趣模型匿名化方法，其特征是：引入p-link隐私概念，p是对于隐私保护的度量。即攻击者根据背景知识链接确定某一用户的概率不超过p。

3.根据权利要求1所述的个性化服务中用户兴趣模型匿名化方法，其特征是：满足p-link隐私约束，需要对用户兴趣模型基于语义的扩增处理。

4.根据权利要求1所述的个性化服务中用户兴趣模型匿名化方法，其特征是：根据用户兴趣模型之间的相似性，将相似的用户兴趣模型组合，形成基于p-link隐私保护等价用户组兴趣模型，再形成一个特殊用户兴趣作为组中所有用户兴趣的代表，应用在个性化服务之中，它被称为组质心(CUP)。

5.根据权利要求1所述的个性化服务中用户兴趣模型匿名化方法，其特征是：提升个性化服务性能通过共享用户组兴趣模型实现，解决了用户的隐私保护和提升个性化服务性能之间矛盾。