CN112214793A

CN112214793A - 一种基于融合差分隐私的随机游走模型推荐方法

Info

Publication number: CN112214793A
Application number: CN202011064433.5A
Authority: CN
Inventors: 华雯丽; 黄刚; 唐震
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-12

Abstract

本发明公开了一种基于融合差分隐私的随机游走模型推荐方法，包括将网页关系图数据转化成二分图，基于PersonalRank随机游走迭代，得到节点的分值，以Top10的分值作为打分函数，以满足指数机制的概率输出推荐结果。本发明不仅能够保证推荐结果的准确性，同时也保证了目标用户以及其他用户对物品行为的隐私。

Description

一种基于融合差分隐私的随机游走模型推荐方法

技术领域

本发明涉及一种融合差分隐私的随机游走推荐的方法，属于推荐算法领域。

背景技术

近些年，由于移动互联网的兴起，人们随时随地可以上网交友，将人们拉近了彼此之间交流的距离。2020年第1季度，全球各大网络社交应用平台用户数量进一步膨胀：推特3.7亿，微信12亿，抖音5.18亿，Facebook20亿。庞大的社交网络数据，一方面，可以为人们提供越来越符合心意的推荐，Georg Groh和Christian Ehmig的研究表明，社会化推荐系统推荐结果的用户满意度明显高于基于协同过滤算法的几个真实推荐系统，最关键的是得到用户所有好友的选择结果，根据好友的选择给予推荐。但是与此同时，个人信息的选择暴露在网络中。所以，从保护用户隐私角度着手，保护图数据中用户行为的隐私是热点研究课题。

目前，隐私保护算法主要分为2类，一种是对用户节点匿名方法，比如k-匿名、1-多样和t-closeness等，但是网络图的特殊性，使得匿名数据遇到节点度数或者结构的攻击，更容易被识别出来，比如，在并不想披露朋友之间的关系的情况下，识别出该独特关系的图数据。

另一种，是由Dwork等人提出了定义极为严格的、与背景知识无关的新型隐私保护模型：差分隐私保护(differential privacy)，提供严格可证明的隐私保护，不仅丰富了隐私保护理论研究的内涵，目前更已被应用于实际产品中。

发明内容

发明目的：针对当前图的随机游推荐，无法保护用户行为隐私的问题，本发明提供一种基于融合差分隐私的随机游走模型推荐方法，保证随机游走推荐的同时，进行差分隐私操作，保护用户以及好友的个人隐私。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于融合差分隐私的随机游走模型推荐方法，获取网页关系图数据并处理成二分图，基于PersonalRank随机游走迭代，得到节点的分值，以Top10的分值作为打分函数，以满足指数机制的概率输出推荐结果，具体包括以下步骤：

步骤1，获取网页关系图数据，将网页关系图数据转化成二分图。

步骤2，基于PersonalRank随机游走迭代步骤1中得到的二分图，得到节点分值：

其中，PR(v)是节点v被访问到的节点分值，α代表用户继续访问节点v的概率，N为所有网页的数量，in(v)代表所有指向网页v的节点集合，out(v)代表节点v指向的其他网页集合，v′代表所有指向节点v的节点集合中的任意一个，PR(v′)代表节点v′被访问到的节点分值，v_u代表目标用户的节点，|out(v′)|代表网页v′指向的其他节点的边个数；

步骤3，如果满足迭代条件，即下次迭代和前一次的结果相同，或者超出迭代次数阈值iter_num。则筛去用户u已经选择的物品，并输出Top10结果，Top10代表节点分值最高的前十个。如果不满足迭代条件，返回步骤2重新计算节点分值。

步骤4，以Top10的分值作为打分函数，以满足指数机制的概率输出推荐结果item。

指数机制的概率方程如下：

e^{ε*PR(v)*10/2Δq}

其中，ε是隐私保护参数，PR(v)为步骤2计算的Top10分数列表中的一个，Δq为打分函数的敏感度。

优选的：打分函数的敏感度Δq为PR(v)max-PR(v)min，PR(v)max表示节点分值最大分值，PR(v)min表示节点分值最小分值。

优选的：打分函数q(D,r)→R，D表示输入数据集，r表示输出的实体对象，→R表示输出的范围为R。

优选的：迭代次数阈值iter_num＝100。

优选的：用户继续访问网页的概率α＝0.8。

优选的：初始目标节点的节点分值为1。

本发明相比现有技术，具有以下有益效果：

本发明每次输出的推荐结果不一定相同，分值高的节点输出概率更高，以满足指数机制的概率输出目标用户节点的推荐结果，攻击者不会通过查询作差得到目标用户或者其他用户对物品的行为，在保证用户的推荐准确的情况下，也保护了用户行为的隐私。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于融合差分隐私的随机游走模型推荐方法，如图1所示，包括以下步骤：

步骤1，获取网页关系图数据，设置迭代次数阈值iter_num＝100，用户继续访问网页的概率α＝0.8，初始目标节点的节点分值为1。输入网页关系图数据，将网页关系图数据转化成二分图。

步骤2，基于PersonalRank随机游走迭代步骤1中得到的二分图，得到节点分值，为了方便之后的指数机制计算，将节点分值乘以10：

节点分值的计算如下：

指数机制的概率方程如下：

e^{ε*PR(v)*10/2Δq}

其中，ε是隐私保护参数，用来表示隐私保护的程度，ε越小意味着隐私保护程度越高。PR(v)为步骤2计算的Top10分数列表，Δq为打分函数的敏感度，打分函数的敏感度Δq为PR(v)max-PR(v)min，PR(v)max表示节点分值最大分值中的一个，PR(v)min表示节点分值最小分值中的一个。打分函数q(D,r)→R，D表示输入数据集，r表示输出的实体对象，→R表示输出的范围为R。

本发明使用指数机制输出目标节点的推荐结果，攻击者不会通过查询作差得到目标用户或者其他用户对物品的行为，在保证用户的推荐准确的情况下，也保护了用户行为的隐私。因此本发明在保证了推荐结果的准确性，同时也保证了目标用户以及其他用户对物品行为的隐私。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于融合差分隐私的随机游走模型推荐方法，其特征在于，包括以下步骤：

步骤1，获取网页关系图数据，将网页关系图数据转化成二分图；

步骤3，如果满足迭代条件，即下次迭代和前一次的结果相同，或者超出迭代次数阈值iter_num；则筛去用户u已经选择的物品，并输出Top10结果，Top10代表节点分值最高的前十个，如果不满足迭代条件，返回步骤2重新计算节点分值；

步骤4，以Top10的分值作为打分函数，以满足指数机制的概率输出推荐结果item；

指数机制的概率方程如下：

e^{ε*PR(v)*10/2Δq}

其中，ε是隐私保护参数，PR(v)为步骤2计算的Top10分数列表，Δq为打分函数的敏感度。

2.根据权利要求1所述基于融合差分隐私的随机游走模型推荐方法，其特征在于：打分函数的敏感度Δq为PR(v)max-PR(v)min，PR(v)max表示节点分值中的最大分值，PR(v)min表示节点分值中的最小分值。

3.根据权利要求2所述基于融合差分隐私的随机游走模型推荐方法，其特征在于：打分函数q(D，r)→R，D表示输入数据集，r表示输出的实体对象，→R表示输出的范围为R。

4.根据权利要求3所述基于融合差分隐私的随机游走模型推荐方法，其特征在于：迭代次数阈值iter_num＝100。

5.根据权利要求4所述基于融合差分隐私的随机游走模型推荐方法，其特征在于：用户继续访问网页的概率α＝0.8。

6.根据权利要求5所述基于融合差分隐私的随机游走模型推荐方法，其特征在于：初始目标节点的节点分值为1。

7.根据权利要求6所述基于融合差分隐私的随机游走模型推荐方法，其特征在于：网页v被访问到的节点分值PR(v)乘以10。