CN109063836A

CN109063836A - 一种基于进化扰动的隐私链路保护方法

Info

Publication number: CN109063836A
Application number: CN201810683667.4A
Authority: CN
Inventors: 宣琦; 赵明浩; 俞山青; 傅晨波; 黄慧敏; 殳欣成
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-12-21

Abstract

一种基于进化扰动的隐私链路保护方法，包括以下步骤：S1：将网络连边划分为训练集和测试集，其中训练集是扰动对象，测试集用来评价算法有效性；S2：遗传算法包括染色体、适应度函数、选择算子、交叉算子和变异算子，具体设计如下：染色体由删除和增加的连边组成；适应度函数综合考虑了精度和AUC；选择算子为轮盘赌算法；使用单点交叉并处理了交叉冲突；变异算子为基于概率的逐点变异并处理了变异冲突；S3：将交叉和变异产生的子代以及父代的精英个体组成新的子代种群，迭代至遗传算法收敛。本发明利用遗传算法寻找最优连边扰动，在扰动量相同的情况下，达到比随机扰动或者启发式扰动更优的效果，同时也具备较好的迁移效果。

Description

一种基于进化扰动的隐私链路保护方法

技术领域

本发明涉及网络科学与链路预测领域，特别是涉及一种基于进化扰动的隐私链路保护方法。

背景技术

随着社交媒体的兴起，网上存有海量的用户数据。然而其中很多数据涉及到个人隐私，所以隐私数据安全性问题日益突出。链路预测是根据已观测到的网络结构预测缺失的或者未来会形成的链路。社交网络中某些涉及到隐私的连边需要隐藏，但是直接删除这些隐私连边，攻击者可能会利用链路预测技术重新预测出来，从而不能有效的保护这些隐私连边。传统的做法是在网络里加入连边扰动，即增加或者删除一些连边，从而达到降低隐私链路的可预测性。但是传统的连边扰动不能保证最优性，即扰动量一定的条件下，扰动效果不一定最好。

发明内容

为了克服传统随机扰动的盲目性以及启发式扰动的次优性的不足，本发明提出了一种基于进化扰动的隐私链路保护方法，即基于遗传算法的进化扰动策略，为了使得扰动更有意义，限制了扰动量，即增加和删除的连边数量，且假设增加和删除的连边总数相同，即维持扰动前后网络的总连边数不变。经过在多种链路预测算法的比较下，可以达到更优的结果并具有较好的迁移性。其中，本发明以资源分配指标(RA)为例，使用遗传算法找到最优的连边扰动。

本发明解决其技术问题所采用的技术方案如下：

一种基于进化扰动的隐私链路保护方法，所述方法包括以下步骤：

S1：假设无权无向网络G(V,E)，将网络所有连边划分为训练集E^T和测试集E^V，其中训练集是扰动对象，即向训练集增加以及删除连边，测试集是需要保护的隐私连边；

S2：使用遗传算法，迭代进化连边扰动，过程如下：

S2-1：染色体的设计：染色体由两部分组成，一部分是删除的连边，另一部分是增加的连边，限制了增加和删除的连边数量，且维持扰动前后网络的总连边数不变；

S2-2：适应度函数的设计：评价链路预测的效果是精度和AUC，设计了一种适应度函数，综合考虑了两者的影响；

S2-3：选择算子的设计：采用轮盘赌的选择方法，即根据适应度的值确定被选择的概率，通过指数函数变换，确保适应度函数恒为正值；

S2-4：交叉算子的设计：通过选择算子选择出一对较优的染色体，根据交叉率，使用单点交叉的方法；如果交叉后出现冲突，即染色体内包含相同的连边，则撤回该连边的交叉操作；

S2-5：变异算子的设计：通过选择算子选择出较优的染色体，遍历染色体内所有删除以及增加的连边，根据变异率随机替换染色体内的连边；如果变异后出现冲突，即染色体内包含相同的连边，则重新选取连边代替；

S3：将交叉和变异产生的子代以及父代的精英个体组成新的子代种群，迭代至遗传算法收敛后，将最优个体取出，加入到训练集里，分别用多种链路预测算法计算测试集的预测精度，检验算法的迁移性。

进一步，所述步骤2-2中，适应度函数如下：

其中δ(x)是指示函数，即x是真的话，取值为1；否则取值为0。α是可调参数，用来调节精度和AUC对适应度函数的影响程度；是扰动后网络的不存在连边的节点对，显然表示节点对的相似度值，选取RA作为衡量相似度的指标，即：

其中Γ(x)表示x的一跳邻居节点，k_z表示节点z的度值。

再进一步，所述步骤S3中，所述多种链路预测算法是指Common Neighbors，Jaccard，Preferential Attachment以及Adamic-Adar index。

更进一步，所述步骤S1中，Ω是网络里所有的节点对，其中Ω＝{(i,j)|{i,j}∈V,i≠j}，N是网络里所有不存在连边的节点对，显然N＝Ω-E；

所述S2-1中，删除的连边集合E_del，其中增加的连边集合E_add，其中由于维持扰动前后网络的总连边数不变，两者的数量相等，均为m；

所述S2-3中，根据适应度的值确定被父代被选择的概率为

所述S2-5中，随机选取删除的连边以及增加的连边替换染色体内的相应的连边，其中

本发明的有益效果为：利用遗传算法寻找最优连边扰动，在扰动量相同的情况下，达到比随机扰动或者启发式扰动更优的效果，同时也具备较好的迁移效果。

附图说明

图1为本发明实例涉及的基于进化扰动的隐私链路保护方法的流程图。

图2为本发明实例涉及的遗传算法中染色体的示意图。

图3为本发明实例涉及的遗传算法中交叉算子的示意图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1～图3，一种基于进化扰动的隐私链路保护方法，包括以下步骤：

S1：假设无权无向网络G(V,E)，将网络所有连边划分为训练集E^T和测试集E^V，其中训练集是扰动对象，即向训练集增加以及删除连边，测试集是需要保护的隐私链路。Ω是网络里所有的节点对，其中Ω＝{(i,j)|{i,j}∈V,i≠j}。N是网络里所有不存在连边的节点对，显然N＝Ω-E；

S2：为保证扰动前后网络总边数不变，假设增加及删除的连边条数均为m。使用遗传算法，迭代进化连边扰动，遗传算法中各个组成部分的设计如下：

S2-1：染色体的设计：染色体由两部分组成，一部分是删除的连边集合E_del，其中另一部分是增加的连边集合E_add，其中由于维持扰动前后网络的总连边数不变，两者的数量相等，均为m。图2为染色体的示意图；

S2-2：适应度函数的设计：链路预测的效果主要有精度和AUC衡量，本发明设计了一种新的适应度函数，综合考虑了两者的影响。适应度函数如下：

其中δ(x)是指示函数，即x是真的话，取值为1；否则取值为0。α是可调参数，用来调节精度和AUC对适应度函数的影响程度。是扰动后网络的不存在连边的节点对，显然表示节点对的相似度值，本发明选取resource allocation index(RA)作为衡量相似度的指标，即：

其中Γ(x)表示x的一跳邻居节点，k_z表示节点z的度值；

S2-3：选择算子的设计：通过指数函数变换，确保适应度函数恒为正值。采用轮盘赌的选择方法，根据适应度的值确定被父代被选择的概率，即

S2-4：交叉算子的设计：通过选择算子选择出一对较优的染色体，根据交叉率，使用单点交叉的方法，即随机选择交叉位置，并将两个染色体在交叉位置后的部分置换。如果交叉后出现冲突，即染色体内包含相同的连边，则撤回该连边的交叉操作，交叉算子的具体操作见图3；

S2-5：变异算子的设计：通过选择算子选择出较优的染色体，遍历染色体内所有删除以及增加的连边，根据变异率，随机选取删除的连边以及增加的连边替换染色体内的相应的连边，其中如果变异后出现冲突，即染色体内包含相同的连边，则重新选取连边代替；

S3：随机初始化以后，将交叉和变异得到的子代以及选择出来的父代精英组成新的子代种群，迭代进化至遗传算法收敛，最后将最优个体取出，加入到训练集里，分别用多种链路预测算法，包括Common Neighbors，Jaccard，Preferential Attachment以及Adamic-Adar index，计算测试集的预测精度，检验算法的迁移性。

如上所述为本发明的实例介绍，本发明是一种基于进化扰动的隐私链路保护方法，最终的实验结果表明基于遗传算法的进化扰动比随机扰动以及启发式扰动的效果要好，而且也具备较好的迁移性，达到了实际使用的要求。对发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于进化扰动的隐私链路保护方法，其特征在于，所述方法包括以下步骤：

S2：使用遗传算法，迭代进化连边扰动，过程如下：

2.如权利要求1所述的一种基于进化扰动的隐私链路保护方法，其特征在于，所述步骤2-2中，适应度函数如下：

其中δ(x)是指示函数，即x是真的话，取值为1；否则取值为0，α是可调参数，用来调节精度和AUC对适应度函数的影响程度；是扰动后网络的不存在连边的节点对，显然表示节点对的相似度值，选取RA作为衡量相似度的指标，即：

其中Γ(x)表示x的一跳邻居节点，k_z表示节点z的度值。

3.如权利要求1或2所述的一种基于进化扰动的隐私链路保护方法，其特征在于，所述步骤S3中，所述多种链路预测算法是指Common Neighbors，Jaccard，PreferentialAttachment以及Adamic-Adar index。

4.如权利要求1或2所述的一种基于进化扰动的隐私链路保护方法，其特征在于，所述步骤S1中，Ω是网络里所有的节点对，其中Ω＝{(i,j)|{i,j}∈V,i≠j}，N是网络里所有不存在连边的节点对，显然N＝Ω-E；

所述S2-3中，根据适应度的值确定被父代被选择的概率为