CN111723399B - 一种基于k-核的大规模社会网络有向图隐私保护方法 - Google Patents
一种基于k-核的大规模社会网络有向图隐私保护方法 Download PDFInfo
- Publication number
- CN111723399B CN111723399B CN202010543252.4A CN202010543252A CN111723399B CN 111723399 B CN111723399 B CN 111723399B CN 202010543252 A CN202010543252 A CN 202010543252A CN 111723399 B CN111723399 B CN 111723399B
- Authority
- CN
- China
- Prior art keywords
- node
- core
- nodes
- social network
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000010586 diagram Methods 0.000 claims description 33
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 14
- 238000012546 transfer Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000003094 perturbing effect Effects 0.000 claims description 4
- 230000010365 information processing Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0407—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
- H04L63/0421—Anonymous communication, i.e. the party's identifiers are hidden from the other party or parties, e.g. using an anonymizer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Bioethics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于k‑核的大规模社会网络有向图隐私保护方法,属于隐私保护领域;本发明与现有技术相比,具有以下技术特点:基于Pregel模型和分布式图处理系统GraphX“以节点为中心”的特点,通过在社会网络图中节点间的消息传递和节点值更新,实现对社会网络边隐私保护的同时保证节点核数不变,节点核数不变即保证了节点在社会网络中的影响力不变,保护社会网络社区结构,该方法提高了大规模社会网络有向图隐私保护的处理效率,保证了数据发布时的社区结构分析高可用性。
Description
技术领域
本发明属于隐私保护领域,尤其涉及一种基于k-核的大规模社会网络有向图隐私保护方法。
背景技术
随着社会发展,互联网在日常生活中扮演着越来越重要的角色,在线社会网络存储了大量用户的个人信息,以Facebook为例,2020年活跃用户达到25亿,每小时产生PB级数据,挖掘社会网络中蕴含的信息能够发现网络隐藏结构,社区结构在真实世界网络中是一个重要的特征并且广泛存在。通常,社区被认为是网络中的一组具有相同属性或相似角色的节点集合,研究网络的社区对于深入了解整个网络的结构起着重要的作用。然而,人们使用社交网络同时也面临着严重的隐私泄露和恶意攻击问题。在大规模发布图数据中保护节点社区稳定并且保护网络隐私信息有着重要的作用。在社会网络中,组成社会网络的各个元素均可能涉及到隐私信息,包括节点属性隐私与边连接隐私等。目前,社会网络隐私保护方法的研究已经取得积极的进展,研究者针对不同的社会网络隐私问题,提出多种隐私保护方法。
对于边连接隐私,即保护节点之间敏感连接边关系,研究者提出了不同的隐私保护方案,随机扰动技术就是其中之一。随机扰动,是指随机修改原始数据来降低攻击者的推断置信度。目前,针对边连接隐私保护大多采用匿名化模型来防止隐私信息的泄露和恶意攻击,基于随机扰动技术来保护敏感边连接关系。采用随机概率模型通过增删边、交换边等操作实现隐私保护。这种方法导致扰动后的图变成随机图,甚至无用图。为了提高匿名图的数据使用效率,基于子图结构的扰动,将原始网络图分割成若干子图,随机地在子图中进行扰动。
为解决大规模社会网络图处理效率问题,现有技术,中国发明专利公开了一种保持节点可达性的分布式社会网络隐私保护方法(公开号为CN107179954A),并具体设计了一种保持节点可达性的局部邻居的随机扰动算法,能够在随机扰动的同时保护节点之间的可达性,但是该算法忽略保护图结构信息,尤其是社区结构信息。社区结构是社会网络图的一个重要特征,匿名社会网络同时保护社区结构已成为国内外研究者关注的热点。图谱作为图的重要拓扑特征,将节点之间相似度比较,随机增删k条边,保持总体的图谱不变保护社区结构。基于图分割理论的社区划分算法,通过计算拉普拉斯矩阵,判断增删边对图谱影响。针对在线社会网络结构查询,使用差分隐私进行隐私保护,在匿名的同时保护社会网络社区结构。还有利用粗糙集的上近似概念,划分社区并进行匿名,匿名前后保持图的社区结构性质,但是划分社区进行匿名,算法执行效率低。
上述针对社会网络隐私保护的方法大部分只是简单解决了社会网络图中个体隐私泄露和社区保护问题,忽略了对大规模社会网络有向图匿名同时对图整体结构的保护,尤其是社区结构的保护。
发明内容
针对上述技术问题,本发明所要解决的技术问题是提供一种基于k-核的大规模社会网络有向图隐私保护方法,结合分布式图处理系统GraphX“以节点为中心”特点,能够有效保护边隐私并处理大规模图数据,同时保护图的整体结构。
本发明采用的技术方案如下:该方法中社会网络有向图用G={V,E}表示,其中,
V表示节点集,V={v1,v2,…,vn},其中的每一个节点对应于社会网络中的一个真实用户;
E表示边集,Euv=<vu,vv>表示由用户u指向用户v的有向社交连接,称用户u为源节点,用户v为目的节点;
在社会网络中,若要隐藏边<vu,vv>的存在,只需隐藏源节点u或目的节点v,仅知道源节点或目的节点,并不能推测出边的存在;
基于上述理论基础,本方法根据赋值概率p(0≤p≤1)保留边<vu,vv>,若边<vu,vv>的赋值概率为(1-p),则删除边并挑选节点随机邻居列表中的候选节点添加扰动边匿名社会网络图;本发明方法基于分布式图处理系统GraphX“以节点为中心”的特点完成节点信息传递,查找邻居节点和候选扰动节点的信息,根据概率赋值判断是否删除连接边,若删除,则选择一个候选节点添加边;若不删除,则保留边到输出结果;该方法具体包含如下步骤:
步骤001.对原始社会网络图数据进行预处理,分解社会网络图得到节点k-核数,分解过程由社会网络边缘到社会网络中心不断迭代;
具体步骤如下:首先判断是否存在度数为0的节点,若存在,则核数赋值为0;若不存在,判断是否存在度数为1的节点,若存在,则节点核数赋值为1,并且删除该节点和该节点的连接边,该类型节点为k-corona;继续判断删除边后是否存在度数不大于1的节点,若存在,则核数赋值为1并且继续删除节点和连接边直至图中没有度数小于等于1的节点,该类型节点为k-lamina;若不存在,判断是否存在度数为2的节点,直至得到图中所有节点的核数;
步骤002.原始社会网络图每个节点都生成一张随机邻居列表,节点随机邻居列表的数据结构由五元组(srcid,dstid,hops,core,ef_degree)构成;随机邻居列表中的srcid和dstid都为节点编号,hops表示节点本身设置为0,由步骤001得到的每个节点核数值分别赋值到对应节点随机邻居列表中的core值,根据邻居节点核数和度数计算得到ef_degree,若邻居节点的核数不小于自身节点,则有效度数加1;
步骤003.基于Pregel模型发送节点随机邻居列表,Pregel模型由信息发送、信息接收、信息处理组成;通过2次迭代寻找可达候选节点,迭代次数为节点之间的跳数;初始时节点首次发送信息时,若节点出度大于0,则节点状态为Active,并将节点自身的随机邻居列表发送给目的节点;若节点出度等于0,则节点状态为Inactive,不发送节点信息;当节点接收信息时,判断收到节点随机邻居列表值是否存在于本节点随机邻居列表中,若不存在,则修改srcid值为本节点编号,将hops值加1表示信息传播步数加1,core和ef_degree值保持不变,将更新的值继续发送下一节点;若存在,则丢弃接收到的节点随机邻居列表;
步骤004.根据步骤003生成带有随机邻居列表的社会网络图对图中的每一条边基于伯努利概率分布对边赋值,根据赋值判断是否边扰动;
步骤005.若边赋值为p,则不扰动,将连接边节点编号添加到EdgeRDD中;若边赋值为1-p,则扰动,根据连接边的节点随机邻居列表中core和ef_degree值判断连接边类型,不同情况选择判断不同扰动方案;
若连接边节点core值不同,则连接边类型为高核连接低核,为保证扰动后节点核数不变,选择高核节点的邻居节点作为候选节点,添加候选节点到低核节点的连接边;若连接边节点core值相同同时core值和ef_degree值也相同,则连接边类型为同核k-corona型边,为保证扰动后节点核数不变,分别选择源节点和目的节点的高核邻居添加两条扰动边;否则为同核节点相连并存在k-lamina型节点,选择k-lamina型节点的高核邻居节点作为候选节点连接另一个节点;
步骤006.将步骤005得到EdgeRDD值上传到云平台供用户使用。
进一步,步骤003中,基于Pregel模型发送节点随机邻居列表,为了增加候选节点的数量,基于GraphX中的reverse算子将社会网络图反转,社会网络图反转后源节点与目的节点互换;社会网络图反转之前,节点只能收到源节点发送的随机邻居列表信息,反转之后,源节点可以作为目的节点收到原目的节点发送的随机邻居列表信息,反转后节点的候选节点数量增加,为了区分正向与反向传递的信息,当反向传递节点信息时,dstid表示节点自身编号,srcid为可达邻居编号,hops是源节点与目的节点的最短路径长度,core和ef_degree为可达邻居节点的核数和有效度数。
进一步,步骤003中,为了扩大扰动范围,提高匿名图的安全强度,设置高于2跳邻居的扰动范围,通过大于2次且小于6次迭代寻找可达候选节点,根据六度空间理论可以得到6次迭代能够得到图中所有节点的信息;通过迭代更新正向与反向的随机邻居列表,扩大了候选节点的范围的同时增加了扰动的安全强度。
进一步,步骤005中,将社会网络图连接边分为3类,根据不同类型的连接边选择不同的扰动方案,选择候选节点添加连接边同时保证核数不变;为了尽可能保护节点之间的可达性,设置选择高核候选节点的条件,若选择源节点的高核邻居作为候选节点添加与目的节点的连接边,则优先选择源节点的反向传播节点作为候选节点添加连接边<高核候选节点,目的节点>,保证核数不变同时保证可达性;若目的节点的高核邻居节点作为候选节点添加与源节点的连接边,则优先选择目的节点的正向传播节点作为候选节点添加连接边<源节点,高核候选邻居>,保证核数不变同时保证可达性。
本发明的有益效果在于:本发明与现有技术相比,具有以下技术特点:基于Pregel模型和分布式图处理系统GraphX“以节点为中心”的特点,通过在社会网络图中节点间的消息传递和节点值更新,实现对社会网络边隐私保护的同时保证节点核数不变,节点核数不变即保证了节点在社会网络中的影响力不变,保护社会网络社区结构,该方法提高了大规模社会网络有向图隐私保护的处理效率,保证了数据发布时的社区结构分析高可用性。
附图说明
图1是本发明方法的流程图。
图2是本发明实施例中的原始社会网络有向图模型。
图3是本发明实施例中的原始社会网络有向图模型的k-核分解图。
图4是本发明实施例步骤002得到的节点的随机邻居列表结果图。
图5是本发明实施例中有向图节点随机邻居列表图。
图6是本发明实施例中高核连接低核扰动结果示意图。
图7是本发明实施例中同核k-corona连接节点扰动结果示意图。
图8是本发明实施例中同核存在k-lamina连接节点扰动结果示意图。
具体实施方式
尽管本发明可以许多不同的形式体现,但在此描述一个示例性实施例,并理解本公开应当被认为是提供本发明的原理的例子,并且这个例子并不意味着将本发明限定于在此描述和/或说明的优选实施例。
如图1所示,本发明设计了一种基于k-核的大规模社会网络有向图隐私保护方法,社会网络有向图G={V,E}中V表示节点集,V={v1,v2,…,vn},其中的每一个节点对应于社会网络中的一个真实用户;E表示边集,Euv=<vu,vv>表示由用户u指向用户v的有向社交连接,称用户u为源节点,用户v为目的节点;在社会网络中,若要隐藏边<vu,vv>的存在,只需隐藏源节点u或目的节点v,仅知道源节点或目的节点,并不能推测出边的存在;
基于上述理论,本发明提出一种基于k-核的大规模社会网络有向图隐私保护方法,其基本原理是:根据赋值概率p( )保留边<vu,vv>,若边<vu,vv>的赋值概率为(1-p),则删除边并挑选节点随机邻居列表中的候选节点添加扰动边匿名社会网络图,发布者可以根据概率p调整发布图的隐私级别。
本发明方法的特点是,基于分布式图处理系统GraphX“以节点为中心”的特点完成节点信息传递,查找邻居节点和候选扰动节点的信息,根据概率赋值判断是否删除连接边,若删除,则在候选节点中选择一个可达节点添加边;若不删除,则保留边到输出结果;该方法具体包含如下步骤:
步骤001.对原始社会网络图数据进行预处理,分解社会网络图得到节点k-核数,分解过程由社会网络边缘到社会网络中不断迭代进行;
具体步骤如下:首先判断是否存在度数为0的节点,若存在,则核数赋值为0;若不存在,判断是否存在度数为1的节点,若存在,则节点核数赋值为1,并且删除该节点和该节点的连接边,该类型节点为k-corona;继续判断删除边后是否存在度数不大于1的节点,若存在,则核数赋值为1并且继续删除节点和连接边直至图中没有度数小于等于1的节点,该类型节点为k-lamina;若不存在,判断是否存在度数为2的节点,直至得到图中所有节点的核数。
举例说明如下:图3为图2经过分解得到核数图,图3节点标签值为相应节点核数;例如节点v8度数为1,所以第一次分解图就得到节点v8核数为1并删除边<v4,v8>,下一步分解度数等于2的节点,v1的此时度数为2,则v1的核数赋值为2,核数类型2-corona型节点(此时为2-核节点第一次分解得到v1核数,节点类型为2-corona),删除节点v1和连接边<v4,v1>、<v1,v2>,此时节点v4的度数为2,则v4的核数赋值为2,核数类型2-lamina型节点(此时为2-核节点第二次分解得到节点v4核数,节点类型为2-lamina),删除节点v4和连接边<v4,v2>、<v5,v4>,根据k-核分解原则,此时其余节点已被分解删除,所有节点都得到相应核数。
步骤002.原始社会网络图每个节点都生成一张随机邻居列表,节点随机邻居列表的数据结构由五元组(srcid,dstid,hops,core,ef_degree)构成。随机邻居列表中的srcid和dstid都为节点编号,hops表示节点本身设置为0,由步骤001得到的每个节点核数值分别赋值到对应节点随机邻居列表中的core值。根据邻居节点核数和度数计算得到ef_degree,若邻居节点的核数不小于自身节点,则有效度数加1。
例如图4中的节点v4对应的随机邻居列表中的(44023),srcid和dstid都为节点v4的编号4,hops为0表示节点本身,core值是根据步骤001得到的节点核数2,根据v4节点的邻居{v1,v2,v5,v8},分别将邻居节点核数与v4节点核数比较得到{v1,v2,v5}的核数与v4相等,所以v4节点的ef_degree为3。依据此方法分别对其它节点计算得到节点的随机邻居列表结果图如图4所示。
步骤003.基于Pregel模型发送节点随机邻居列表。Pregel模型由信息发送、信息接收、信息处理组成。可以设置高于2跳邻居的扰动范围,本文以2跳邻居作为扰动范围为例。为了增大候选节点的范围,分别传递节点的正向和反向邻居随机列表,最终得到每个节点的随机邻居列表如图5所示。
(1) 正向传递随机邻居列表值。节点首次发送信息时,若节点出度(节点出度是指从该节点出发的边的条数)大于0,则节点状态为Active,并将节点自身的随机邻居列表发送给目的节点;若节点出度等于0,则节点状态为Inactive,不发送节点信息。当节点接收信息时,判断收到节点随机邻居列表值是否存在于本节点随机邻居列表中,若不存在,则修改srcid值为本节点编号,将hops值加1表示信息传播步数加1,core和ef_degree值保持不变,将更新的值继续发送下一节点;若存在,则丢弃接收到节点随机邻居列表。
本实施例中,每个节点随机邻居列表如图5所示,方框框选为反向传递随机邻居列表值,表中的列分别为节点编号、节点自身、一跳和二跳节点随机邻居列表,对应社会网络图中每个节点的随机邻居列表。
以节点v1为节点的随机邻居列表生成为例,步骤002对于每个节点生成随机邻居列表,节点v1、v4、v5生成自身随机邻居列表为(11022)、(44023)、(55022),节点v1将自己的随机邻居列表发送到节点v2,节点v5同时将自己的随机邻居列表发送到节点v4,将(44023)中srcid修改为节点v1编号,hops值加1得到(14123)添加到v1随机邻居列表中,将(55022)修改完成得到(45122)添加到v4随机邻居列表中,第二次迭代节点v1接收到v5的信息添加到节点随机邻居列表中,添加(15222),节点v1的2跳内正向随机邻居列表完成。
(2)反向传递随机邻居列表值,使用GraphX中的reverse算子将社会网络图反转,即交换目的节点和源节点。根据节点出度判断节点状态,发送节点随机邻居列表并接收信息,为了区分节点正向与反向传播信息,反向传递随机邻居列表接收信息时修改dstid值。每个节点随机邻居列表如图5所示,方框框选为反向传递随机邻居列表值,节点v1通过节点v2接收到{v2,v3}反向传递随机邻居列表值(22023)、(33122),修改dstid和hops值得到(21123)、(31222),节点v1的2跳内反向随机邻居列表完成。
步骤004.根据步骤003生成带有随机邻居列表的社会网络图对图中的每一条边基于伯努利概率分布对边赋值,根据赋值判断是否边扰动。
步骤005.若边赋值为p,则不扰动,将连接边节点编号添加到EdgeRDD中;若边赋值为1-p,则扰动,根据连接边的节点随机邻居列表中core和ef_degree值判断连接边类型,不同情况选择不同扰动方案。
若连接边节点core值不同,则为高核连接低核;若连接边节点core值相同同时core值和ef_degree值也相同,则连接边类型为同核k-corona型边;否则为同核节点相连并存在k-lamina型节点。判断图中的每一条边是否扰动,下面仅列举三种可能的扰动方案,所有的扰动边都可以归类为这三种类型。
(1)若高核连接低核,例如扰动边<v4,v8>,扰动结果图如图6所示,虚线为添加边,根据图5对应相关扰动节点{v4,v8}的自身随机邻居列表值(44023)和(88011),得到v4和v8核数分别为2和1,表明连接边是高核连接低核,删除连接边<v4,v8>,选择高核节点v4的可达邻居。候选节点有{v5,v6,v7,v1,v2,v3},优先选择节点{v1,v2,v3}保证节点之间可达性。随机选择节点v1,添加边<v1,v8>到GraphX中的EdgeRDD。由于k-核特点,删除连接边<v4,v8>对于高核节点v4无影响,对于低核节点v8添加高核连接边对低核节点核数无影响,对于候选节点添加低核节点连接边无影响;对于扰动边<v7,v5>,在节点随机邻居列表中比较节点v7与v5的核数,表明连接边是低核连接高核,删除连接边<v7,v5>,选择高核节点v5的邻居作为候选节点。候选节点有{v6,v4,v1,v2,v8},随机选择节点v6,添加边<v7,v6>到GraphX中的EdgeRDD。
(2)若同核k-corona型节点相连,例如扰动边<v6,v3>,如图7所示为扰动结果图。根据图5对应相关扰动节点{v6,v3}自身随机邻居列表值(66022)和(33022),得到v6和v3的core、ef_degree值都为2,表明连接边核数和有效度数都相同,则连接边类型为同核k-corona型节点相连,需要两次扰动。第一次扰动,保证节点v6核数不变,选择节点v3的高核邻居{v1,v2,v4}为候选节点,优先选择节点v2,添加连接边<v6,v2>到GraphX中的EdgeRDD,第二次扰动,保证节点v3核数不变,选择节点v6的高核邻居{v5,v4},优先选择节点v5,添加连接边<v5,v3>到GraphX中的EdgeRDD。
(3)若同核节点相连并存在k-lamina型节点,选择k-lamina型节点的邻居。例如扰动边<v4,v1>,如图6所示为扰动结果图,根据图8对应相关扰动节点{v4,v1}自身随机邻居列表值(44023)和(11022),得到v4和v1的core值为2,节点v4和v1的ef_degree为3、2,表明节点v4为2-lamina型节点,连接边类型为同核节点相连并存在k-lamina型节点,选择节点v4的邻居,候选节点有{v3,v5,v6},随机选择节点v3,添加连接边<v3,v1>到GraphX中的EdgeRDD,为了防止节点核数下降,节点v4的ef_degree值减1。
步骤006.将步骤005得到EdgeRDD值上传到云平台供用户使用。
虽然在此已对本发明的说明性实施例进行了描述,但本发明并不限于在此描述的实施例,而是包括任何和所有本领域的技术人员基于本公开而能理解的具有等同单元、修改、省略、(例如跨各个实施例的各方面的)组合、适配和/或变换的实施例。
Claims (4)
1.一种基于k-核的大规模社会网络有向图隐私保护方法,该方法中社会网络有向图用G={V,E}表示,其中,
V表示节点集,V={v1,v2,…,vn},其中的每一个节点对应于社会网络中的一个真实用户;
E表示边集,Euv=<vu,vv>表示由用户u指向用户v的有向社交连接,称用户u为源节点,用户v为目的节点;
在社会网络中,若要隐藏边<vu,vv>的存在,只需隐藏源节点u或目的节点v,仅知道源节点或目的节点,并不能推测出边的存在;
基于上述理论基础,本方法的其特征是,根据赋值概率p(0≤p≤1)保留边<vu,vv>,若边<vu,vv>的赋值概率为(1-p),则删除边并挑选节点随机邻居列表中的候选节点添加扰动边匿名社会网络图;本发明方法基于分布式图处理系统GraphX“以节点为中心”的特点完成节点信息传递,查找邻居节点和候选扰动节点的信息,根据概率赋值判断是否删除连接边,若删除,则选择一个候选节点添加边;若不删除,则保留边到输出结果;该方法具体包含如下步骤:
步骤001.对原始社会网络图数据进行预处理,分解社会网络图得到节点k-核数,分解过程由社会网络边缘到社会网络中心不断迭代;
具体步骤如下:首先判断是否存在度数为0的节点,若存在,则核数赋值为0;若不存在,判断是否存在度数为1的节点,若存在,则节点核数赋值为1,并且删除该节点和该节点的连接边,该类型节点为k-corona;继续判断删除边后是否存在度数不大于1的节点,若存在,则核数赋值为1并且继续删除节点和连接边直至图中没有度数小于等于1的节点,该类型节点为k-lamina;若不存在,判断是否存在度数为2的节点,直至得到图中所有节点的核数;
步骤002.原始社会网络图每个节点都生成一张随机邻居列表,节点随机邻居列表的数据结构由五元组(srcid,dstid,hops,core,ef_degree)构成;随机邻居列表中的srcid和dstid都为节点编号,hops表示节点本身设置为0,由步骤001得到的每个节点核数值分别赋值到对应节点随机邻居列表中的core值,根据邻居节点核数和度数计算得到ef_degree,若邻居节点的核数不小于自身节点,则有效度数加1;
步骤003.基于Pregel模型发送节点随机邻居列表,Pregel模型由信息发送、信息接收、信息处理组成;通过2次迭代寻找可达候选节点,迭代次数为节点之间的跳数;节点首次发送信息时,若节点出度大于0,则节点状态为Active,并将节点自身的随机邻居列表发送到目的节点;若节点出度等于0,则节点状态为Inactive,不发送节点信息;当节点接收信息时,判断收到节点随机邻居列表值是否存在于本节点随机邻居列表中,若不存在,则修改srcid值为本节点编号,将hops值加1表示信息传播步数加1,core和ef_degree值保持不变,将更新的值继续发送下一节点;若存在,则丢弃接收到的节点随机邻居列表;
步骤004.根据步骤003生成带有随机邻居列表的社会网络图对图中的每一条边基于伯努利概率分布赋值,根据赋值判断是否边扰动;
步骤005.若边赋值为p,则不扰动,将连接边节点编号添加到EdgeRDD中;若边赋值为1-p,则扰动,根据连接边的节点随机邻居列表中core和ef_degree值判断连接边类型,不同情况选择不同扰动方案;
若连接边节点core值不同,则连接边类型为高核连接低核,为保证扰动后节点核数不变,挑选高核节点的邻居节点作为候选节点,添加候选节点到低核节点的连接边;若连接边节点core值相同同时core值和ef_degree值也相同,则连接边类型为同核k-corona类型,为保证扰动后节点核数不变,分别选择源节点和目的节点的高核邻居添加两条扰动边;否则为同核节点相连并存在k-lamina类型节点,选择k-lamina类型节点的高核邻居节点作为候选节点连接另一个节点;
步骤006.将步骤005得到EdgeRDD值上传到云平台供用户使用。
2.根据权利要求1所述的基于k-核的大规模社会网络有向图隐私保护方法,其特征在于:步骤003中,基于Pregel模型发送节点随机邻居列表,为了增加候选节点的数量,基于GraphX中的reverse算子将社会网络图反转,社会网络图反转后源节点与目的节点互换;社会网络图反转之前,节点只能收到源节点发送的随机邻居列表信息,反转之后,源节点可以作为目的节点收到原目的节点发送的随机邻居列表信息,反转后节点的候选节点数量增加,为了区分正向与反向传递的信息,当反向传递节点信息时,dstid表示节点自身编号,srcid为可达邻居编号,hops是源节点与目的节点的最短路径长度,core和ef_degree为可达邻居节点的核数和有效度数。
3.根据权利要求1所述的基于k-核的大规模社会网络有向图隐私保护方法,其特征在于:步骤003中,为了扩大扰动范围,提高匿名图的安全强度,设置高于2跳邻居的扰动范围,通过大于2次且小于6次迭代寻找可达候选节点,根据六度空间理论可以得到6次迭代能够得到图中所有节点的信息;通过迭代更新正向与反向的随机邻居列表,扩大了候选节点的范围的同时增加了扰动的安全强度。
4.根据权利要求1所述的基于k-核的大规模社会网络有向图隐私保护方法,其特征在于:步骤005中,将社会网络图连接边分为3类,根据不同类型的连接边选择不同的扰动方案,选择候选节点添加连接边同时保证核数不变;为了尽可能保护节点之间的可达性,设置选择高核候选节点的条件,若选择源节点的高核邻居作为候选节点添加与目的节点的连接边,则优先选择源节点的反向传播节点作为候选节点添加连接边<高核候选节点,目的节点>,保证核数不变同时保证可达性;若目的节点的高核邻居节点作为候选节点添加与源节点的连接边,则优先选择目的节点的正向传播节点作为候选节点添加连接边<源节点,高核候选邻居>,保证核数不变同时保证可达性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010543252.4A CN111723399B (zh) | 2020-06-15 | 2020-06-15 | 一种基于k-核的大规模社会网络有向图隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010543252.4A CN111723399B (zh) | 2020-06-15 | 2020-06-15 | 一种基于k-核的大规模社会网络有向图隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723399A CN111723399A (zh) | 2020-09-29 |
CN111723399B true CN111723399B (zh) | 2023-08-29 |
Family
ID=72566814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010543252.4A Active CN111723399B (zh) | 2020-06-15 | 2020-06-15 | 一种基于k-核的大规模社会网络有向图隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723399B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380267B (zh) * | 2020-10-21 | 2022-08-05 | 山东大学 | 一种基于隐私图的社区发现方法 |
CN112383422B (zh) * | 2020-11-04 | 2021-11-02 | 浙江大学 | 加快一致性分布式算法收敛速度的网络拓扑优化方法 |
CN112199728B (zh) * | 2020-11-04 | 2022-07-19 | 同济大学 | 一种针对社交网络关系预测的隐私保护方法 |
CN113706326B (zh) * | 2021-08-31 | 2023-05-30 | 福建师范大学 | 基于矩阵运算的移动社会网络图修改方法 |
CN115277156B (zh) * | 2022-07-22 | 2023-05-23 | 福建师范大学 | 一种社交网络中抵抗邻居攻击的用户身份隐私保护方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107179954A (zh) * | 2017-04-25 | 2017-09-19 | 内蒙古科技大学 | 一种保持节点可达性的分布式社会网络隐私保护方法 |
CN110263831A (zh) * | 2019-06-06 | 2019-09-20 | 陕西师范大学 | 一种基于差分隐私的局部高阶图聚类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9275422B2 (en) * | 2013-05-29 | 2016-03-01 | International Business Machines Corporation | Distributed k-core view materialization and maintenance for graphs |
-
2020
- 2020-06-15 CN CN202010543252.4A patent/CN111723399B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107179954A (zh) * | 2017-04-25 | 2017-09-19 | 内蒙古科技大学 | 一种保持节点可达性的分布式社会网络隐私保护方法 |
CN110263831A (zh) * | 2019-06-06 | 2019-09-20 | 陕西师范大学 | 一种基于差分隐私的局部高阶图聚类方法 |
Non-Patent Citations (1)
Title |
---|
分布式个性化社会网络隐私保护方法;张文超;张晓琳;张臣;刘立新;何晓玉;;微电子学与计算机(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111723399A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723399B (zh) | 一种基于k-核的大规模社会网络有向图隐私保护方法 | |
Qian et al. | Social network de-anonymization and privacy inference with knowledge graph model | |
Liu et al. | Core-like groups result in invalidation of identifying super-spreader by k-shell decomposition | |
Norouzi et al. | Genetic algorithm application in optimization of wireless sensor networks | |
Gao et al. | Network immunization with distributed autonomy-oriented entities | |
CN109064348B (zh) | 一种在社交网络中封锁谣言社区并抑制谣言传播的方法 | |
Tu et al. | Secure data objects replication in data grid | |
Ambareesh et al. | HRDSS-WMSN: a multi-objective function for optimal routing protocol in wireless multimedia sensor networks using hybrid red deer salp swarm algorithm | |
Singh et al. | IM‐SSO: Maximizing influence in social networks using social spider optimization | |
Han et al. | Maximising influence in sensed heterogeneous social network with privacy preservation | |
Gurram et al. | A secure energy aware meta-heuristic routing protocol (SEAMHR) for sustainable IoT-wireless sensor network (WSN) | |
Jang | Meta‐heuristic algorithms for channel scheduling problem in wireless sensor networks | |
He et al. | Graph convolutional network-based rumor blocking on social networks | |
Wu et al. | A dynamic trust model exploiting the time slice in WSNs | |
Roy et al. | Design of robust and efficient topology using enhanced gene regulatory networks | |
Xu et al. | Data transmission reliability analysis of wireless sensor networks for social network optimization | |
Miranda-Pascual et al. | SoK: differentially private publication of trajectory data | |
CN115277115A (zh) | 一种用于解决网络上鲁棒信息传播问题的方法及系统 | |
Luo et al. | A relationship matrix resolving model for identifying vital nodes based on community in opportunistic social networks | |
Huang et al. | An effective data transmission scheme based on IoT system in opportunistic social networks | |
Wu et al. | A trajectory privacy protect method based on location pair reorganization | |
Stai et al. | Hyperbolic embedding for efficient computation of path centralities and adaptive routing in large-scale complex commodity networks | |
Niu et al. | K-hop centrality metric for identifying influential spreaders in dynamic large-scale social networks | |
Feng et al. | Recovering information recipients in social media via provenance | |
Zhao et al. | Unveiling the Role of Message Passing in Dual-Privacy Preservation on GNNs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |