CN111723399B - 一种基于k-核的大规模社会网络有向图隐私保护方法 - Google Patents

一种基于k-核的大规模社会网络有向图隐私保护方法 Download PDF

Info

Publication number
CN111723399B
CN111723399B CN202010543252.4A CN202010543252A CN111723399B CN 111723399 B CN111723399 B CN 111723399B CN 202010543252 A CN202010543252 A CN 202010543252A CN 111723399 B CN111723399 B CN 111723399B
Authority
CN
China
Prior art keywords
node
core
nodes
social network
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010543252.4A
Other languages
English (en)
Other versions
CN111723399A (zh
Inventor
张晓琳
李健
刘娇
高鹭
王永平
刘立新
张换香
刘心怡
何晓玉
于芳名
李卓麟
袁昊晨
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Science and Technology
Original Assignee
Inner Mongolia University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Science and Technology filed Critical Inner Mongolia University of Science and Technology
Priority to CN202010543252.4A priority Critical patent/CN111723399B/zh
Publication of CN111723399A publication Critical patent/CN111723399A/zh
Application granted granted Critical
Publication of CN111723399B publication Critical patent/CN111723399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
    • H04L63/0421Anonymous communication, i.e. the party's identifiers are hidden from the other party or parties, e.g. using an anonymizer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Bioethics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于k‑核的大规模社会网络有向图隐私保护方法,属于隐私保护领域;本发明与现有技术相比,具有以下技术特点:基于Pregel模型和分布式图处理系统GraphX“以节点为中心”的特点,通过在社会网络图中节点间的消息传递和节点值更新,实现对社会网络边隐私保护的同时保证节点核数不变,节点核数不变即保证了节点在社会网络中的影响力不变,保护社会网络社区结构,该方法提高了大规模社会网络有向图隐私保护的处理效率,保证了数据发布时的社区结构分析高可用性。

Description

一种基于k-核的大规模社会网络有向图隐私保护方法
技术领域
本发明属于隐私保护领域,尤其涉及一种基于k-核的大规模社会网络有向图隐私保护方法。
背景技术
随着社会发展,互联网在日常生活中扮演着越来越重要的角色,在线社会网络存储了大量用户的个人信息,以Facebook为例,2020年活跃用户达到25亿,每小时产生PB级数据,挖掘社会网络中蕴含的信息能够发现网络隐藏结构,社区结构在真实世界网络中是一个重要的特征并且广泛存在。通常,社区被认为是网络中的一组具有相同属性或相似角色的节点集合,研究网络的社区对于深入了解整个网络的结构起着重要的作用。然而,人们使用社交网络同时也面临着严重的隐私泄露和恶意攻击问题。在大规模发布图数据中保护节点社区稳定并且保护网络隐私信息有着重要的作用。在社会网络中,组成社会网络的各个元素均可能涉及到隐私信息,包括节点属性隐私与边连接隐私等。目前,社会网络隐私保护方法的研究已经取得积极的进展,研究者针对不同的社会网络隐私问题,提出多种隐私保护方法。
对于边连接隐私,即保护节点之间敏感连接边关系,研究者提出了不同的隐私保护方案,随机扰动技术就是其中之一。随机扰动,是指随机修改原始数据来降低攻击者的推断置信度。目前,针对边连接隐私保护大多采用匿名化模型来防止隐私信息的泄露和恶意攻击,基于随机扰动技术来保护敏感边连接关系。采用随机概率模型通过增删边、交换边等操作实现隐私保护。这种方法导致扰动后的图变成随机图,甚至无用图。为了提高匿名图的数据使用效率,基于子图结构的扰动,将原始网络图分割成若干子图,随机地在子图中进行扰动。
为解决大规模社会网络图处理效率问题,现有技术,中国发明专利公开了一种保持节点可达性的分布式社会网络隐私保护方法(公开号为CN107179954A),并具体设计了一种保持节点可达性的局部邻居的随机扰动算法,能够在随机扰动的同时保护节点之间的可达性,但是该算法忽略保护图结构信息,尤其是社区结构信息。社区结构是社会网络图的一个重要特征,匿名社会网络同时保护社区结构已成为国内外研究者关注的热点。图谱作为图的重要拓扑特征,将节点之间相似度比较,随机增删k条边,保持总体的图谱不变保护社区结构。基于图分割理论的社区划分算法,通过计算拉普拉斯矩阵,判断增删边对图谱影响。针对在线社会网络结构查询,使用差分隐私进行隐私保护,在匿名的同时保护社会网络社区结构。还有利用粗糙集的上近似概念,划分社区并进行匿名,匿名前后保持图的社区结构性质,但是划分社区进行匿名,算法执行效率低。
上述针对社会网络隐私保护的方法大部分只是简单解决了社会网络图中个体隐私泄露和社区保护问题,忽略了对大规模社会网络有向图匿名同时对图整体结构的保护,尤其是社区结构的保护。
发明内容
针对上述技术问题,本发明所要解决的技术问题是提供一种基于k-核的大规模社会网络有向图隐私保护方法,结合分布式图处理系统GraphX“以节点为中心”特点,能够有效保护边隐私并处理大规模图数据,同时保护图的整体结构。
本发明采用的技术方案如下:该方法中社会网络有向图用G={V,E}表示,其中,
V表示节点集,V={v1,v2,…,vn},其中的每一个节点对应于社会网络中的一个真实用户;
E表示边集,Euv=<vu,vv>表示由用户u指向用户v的有向社交连接,称用户u为源节点,用户v为目的节点;
在社会网络中,若要隐藏边<vu,vv>的存在,只需隐藏源节点u或目的节点v,仅知道源节点或目的节点,并不能推测出边的存在;
基于上述理论基础,本方法根据赋值概率p(0≤p≤1)保留边<vu,vv>,若边<vu,vv>的赋值概率为(1-p),则删除边并挑选节点随机邻居列表中的候选节点添加扰动边匿名社会网络图;本发明方法基于分布式图处理系统GraphX“以节点为中心”的特点完成节点信息传递,查找邻居节点和候选扰动节点的信息,根据概率赋值判断是否删除连接边,若删除,则选择一个候选节点添加边;若不删除,则保留边到输出结果;该方法具体包含如下步骤:
步骤001.对原始社会网络图数据进行预处理,分解社会网络图得到节点k-核数,分解过程由社会网络边缘到社会网络中心不断迭代;
具体步骤如下:首先判断是否存在度数为0的节点,若存在,则核数赋值为0;若不存在,判断是否存在度数为1的节点,若存在,则节点核数赋值为1,并且删除该节点和该节点的连接边,该类型节点为k-corona;继续判断删除边后是否存在度数不大于1的节点,若存在,则核数赋值为1并且继续删除节点和连接边直至图中没有度数小于等于1的节点,该类型节点为k-lamina;若不存在,判断是否存在度数为2的节点,直至得到图中所有节点的核数;
步骤002.原始社会网络图每个节点都生成一张随机邻居列表,节点随机邻居列表的数据结构由五元组(srcid,dstid,hops,core,ef_degree)构成;随机邻居列表中的srcid和dstid都为节点编号,hops表示节点本身设置为0,由步骤001得到的每个节点核数值分别赋值到对应节点随机邻居列表中的core值,根据邻居节点核数和度数计算得到ef_degree,若邻居节点的核数不小于自身节点,则有效度数加1;
步骤003.基于Pregel模型发送节点随机邻居列表,Pregel模型由信息发送、信息接收、信息处理组成;通过2次迭代寻找可达候选节点,迭代次数为节点之间的跳数;初始时节点首次发送信息时,若节点出度大于0,则节点状态为Active,并将节点自身的随机邻居列表发送给目的节点;若节点出度等于0,则节点状态为Inactive,不发送节点信息;当节点接收信息时,判断收到节点随机邻居列表值是否存在于本节点随机邻居列表中,若不存在,则修改srcid值为本节点编号,将hops值加1表示信息传播步数加1,core和ef_degree值保持不变,将更新的值继续发送下一节点;若存在,则丢弃接收到的节点随机邻居列表;
步骤004.根据步骤003生成带有随机邻居列表的社会网络图对图中的每一条边基于伯努利概率分布对边赋值,根据赋值判断是否边扰动;
步骤005.若边赋值为p,则不扰动,将连接边节点编号添加到EdgeRDD中;若边赋值为1-p,则扰动,根据连接边的节点随机邻居列表中core和ef_degree值判断连接边类型,不同情况选择判断不同扰动方案;
若连接边节点core值不同,则连接边类型为高核连接低核,为保证扰动后节点核数不变,选择高核节点的邻居节点作为候选节点,添加候选节点到低核节点的连接边;若连接边节点core值相同同时core值和ef_degree值也相同,则连接边类型为同核k-corona型边,为保证扰动后节点核数不变,分别选择源节点和目的节点的高核邻居添加两条扰动边;否则为同核节点相连并存在k-lamina型节点,选择k-lamina型节点的高核邻居节点作为候选节点连接另一个节点;
步骤006.将步骤005得到EdgeRDD值上传到云平台供用户使用。
进一步,步骤003中,基于Pregel模型发送节点随机邻居列表,为了增加候选节点的数量,基于GraphX中的reverse算子将社会网络图反转,社会网络图反转后源节点与目的节点互换;社会网络图反转之前,节点只能收到源节点发送的随机邻居列表信息,反转之后,源节点可以作为目的节点收到原目的节点发送的随机邻居列表信息,反转后节点的候选节点数量增加,为了区分正向与反向传递的信息,当反向传递节点信息时,dstid表示节点自身编号,srcid为可达邻居编号,hops是源节点与目的节点的最短路径长度,core和ef_degree为可达邻居节点的核数和有效度数。
进一步,步骤003中,为了扩大扰动范围,提高匿名图的安全强度,设置高于2跳邻居的扰动范围,通过大于2次且小于6次迭代寻找可达候选节点,根据六度空间理论可以得到6次迭代能够得到图中所有节点的信息;通过迭代更新正向与反向的随机邻居列表,扩大了候选节点的范围的同时增加了扰动的安全强度。
进一步,步骤005中,将社会网络图连接边分为3类,根据不同类型的连接边选择不同的扰动方案,选择候选节点添加连接边同时保证核数不变;为了尽可能保护节点之间的可达性,设置选择高核候选节点的条件,若选择源节点的高核邻居作为候选节点添加与目的节点的连接边,则优先选择源节点的反向传播节点作为候选节点添加连接边<高核候选节点,目的节点>,保证核数不变同时保证可达性;若目的节点的高核邻居节点作为候选节点添加与源节点的连接边,则优先选择目的节点的正向传播节点作为候选节点添加连接边<源节点,高核候选邻居>,保证核数不变同时保证可达性。
本发明的有益效果在于:本发明与现有技术相比,具有以下技术特点:基于Pregel模型和分布式图处理系统GraphX“以节点为中心”的特点,通过在社会网络图中节点间的消息传递和节点值更新,实现对社会网络边隐私保护的同时保证节点核数不变,节点核数不变即保证了节点在社会网络中的影响力不变,保护社会网络社区结构,该方法提高了大规模社会网络有向图隐私保护的处理效率,保证了数据发布时的社区结构分析高可用性。
附图说明
图1是本发明方法的流程图。
图2是本发明实施例中的原始社会网络有向图模型。
图3是本发明实施例中的原始社会网络有向图模型的k-核分解图。
图4是本发明实施例步骤002得到的节点的随机邻居列表结果图。
图5是本发明实施例中有向图节点随机邻居列表图。
图6是本发明实施例中高核连接低核扰动结果示意图。
图7是本发明实施例中同核k-corona连接节点扰动结果示意图。
图8是本发明实施例中同核存在k-lamina连接节点扰动结果示意图。
具体实施方式
尽管本发明可以许多不同的形式体现,但在此描述一个示例性实施例,并理解本公开应当被认为是提供本发明的原理的例子,并且这个例子并不意味着将本发明限定于在此描述和/或说明的优选实施例。
如图1所示,本发明设计了一种基于k-核的大规模社会网络有向图隐私保护方法,社会网络有向图G={V,E}中V表示节点集,V={v1,v2,…,vn},其中的每一个节点对应于社会网络中的一个真实用户;E表示边集,Euv=<vu,vv>表示由用户u指向用户v的有向社交连接,称用户u为源节点,用户v为目的节点;在社会网络中,若要隐藏边<vu,vv>的存在,只需隐藏源节点u或目的节点v,仅知道源节点或目的节点,并不能推测出边的存在;
基于上述理论,本发明提出一种基于k-核的大规模社会网络有向图隐私保护方法,其基本原理是:根据赋值概率p( )保留边<vu,vv>,若边<vu,vv>的赋值概率为(1-p),则删除边并挑选节点随机邻居列表中的候选节点添加扰动边匿名社会网络图,发布者可以根据概率p调整发布图的隐私级别。
本发明方法的特点是,基于分布式图处理系统GraphX“以节点为中心”的特点完成节点信息传递,查找邻居节点和候选扰动节点的信息,根据概率赋值判断是否删除连接边,若删除,则在候选节点中选择一个可达节点添加边;若不删除,则保留边到输出结果;该方法具体包含如下步骤:
步骤001.对原始社会网络图数据进行预处理,分解社会网络图得到节点k-核数,分解过程由社会网络边缘到社会网络中不断迭代进行;
具体步骤如下:首先判断是否存在度数为0的节点,若存在,则核数赋值为0;若不存在,判断是否存在度数为1的节点,若存在,则节点核数赋值为1,并且删除该节点和该节点的连接边,该类型节点为k-corona;继续判断删除边后是否存在度数不大于1的节点,若存在,则核数赋值为1并且继续删除节点和连接边直至图中没有度数小于等于1的节点,该类型节点为k-lamina;若不存在,判断是否存在度数为2的节点,直至得到图中所有节点的核数。
举例说明如下:图3为图2经过分解得到核数图,图3节点标签值为相应节点核数;例如节点v8度数为1,所以第一次分解图就得到节点v8核数为1并删除边<v4,v8>,下一步分解度数等于2的节点,v1的此时度数为2,则v1的核数赋值为2,核数类型2-corona型节点(此时为2-核节点第一次分解得到v1核数,节点类型为2-corona),删除节点v1和连接边<v4,v1>、<v1,v2>,此时节点v4的度数为2,则v4的核数赋值为2,核数类型2-lamina型节点(此时为2-核节点第二次分解得到节点v4核数,节点类型为2-lamina),删除节点v4和连接边<v4,v2>、<v5,v4>,根据k-核分解原则,此时其余节点已被分解删除,所有节点都得到相应核数。
步骤002.原始社会网络图每个节点都生成一张随机邻居列表,节点随机邻居列表的数据结构由五元组(srcid,dstid,hops,core,ef_degree)构成。随机邻居列表中的srcid和dstid都为节点编号,hops表示节点本身设置为0,由步骤001得到的每个节点核数值分别赋值到对应节点随机邻居列表中的core值。根据邻居节点核数和度数计算得到ef_degree,若邻居节点的核数不小于自身节点,则有效度数加1。
例如图4中的节点v4对应的随机邻居列表中的(44023),srcid和dstid都为节点v4的编号4,hops为0表示节点本身,core值是根据步骤001得到的节点核数2,根据v4节点的邻居{v1,v2,v5,v8},分别将邻居节点核数与v4节点核数比较得到{v1,v2,v5}的核数与v4相等,所以v4节点的ef_degree为3。依据此方法分别对其它节点计算得到节点的随机邻居列表结果图如图4所示。
步骤003.基于Pregel模型发送节点随机邻居列表。Pregel模型由信息发送、信息接收、信息处理组成。可以设置高于2跳邻居的扰动范围,本文以2跳邻居作为扰动范围为例。为了增大候选节点的范围,分别传递节点的正向和反向邻居随机列表,最终得到每个节点的随机邻居列表如图5所示。
(1) 正向传递随机邻居列表值。节点首次发送信息时,若节点出度(节点出度是指从该节点出发的边的条数)大于0,则节点状态为Active,并将节点自身的随机邻居列表发送给目的节点;若节点出度等于0,则节点状态为Inactive,不发送节点信息。当节点接收信息时,判断收到节点随机邻居列表值是否存在于本节点随机邻居列表中,若不存在,则修改srcid值为本节点编号,将hops值加1表示信息传播步数加1,core和ef_degree值保持不变,将更新的值继续发送下一节点;若存在,则丢弃接收到节点随机邻居列表。
本实施例中,每个节点随机邻居列表如图5所示,方框框选为反向传递随机邻居列表值,表中的列分别为节点编号、节点自身、一跳和二跳节点随机邻居列表,对应社会网络图中每个节点的随机邻居列表。
以节点v1为节点的随机邻居列表生成为例,步骤002对于每个节点生成随机邻居列表,节点v1、v4、v5生成自身随机邻居列表为(11022)、(44023)、(55022),节点v1将自己的随机邻居列表发送到节点v2,节点v5同时将自己的随机邻居列表发送到节点v4,将(44023)中srcid修改为节点v1编号,hops值加1得到(14123)添加到v1随机邻居列表中,将(55022)修改完成得到(45122)添加到v4随机邻居列表中,第二次迭代节点v1接收到v5的信息添加到节点随机邻居列表中,添加(15222),节点v1的2跳内正向随机邻居列表完成。
(2)反向传递随机邻居列表值,使用GraphX中的reverse算子将社会网络图反转,即交换目的节点和源节点。根据节点出度判断节点状态,发送节点随机邻居列表并接收信息,为了区分节点正向与反向传播信息,反向传递随机邻居列表接收信息时修改dstid值。每个节点随机邻居列表如图5所示,方框框选为反向传递随机邻居列表值,节点v1通过节点v2接收到{v2,v3}反向传递随机邻居列表值(22023)、(33122),修改dstid和hops值得到(21123)、(31222),节点v1的2跳内反向随机邻居列表完成。
步骤004.根据步骤003生成带有随机邻居列表的社会网络图对图中的每一条边基于伯努利概率分布对边赋值,根据赋值判断是否边扰动。
步骤005.若边赋值为p,则不扰动,将连接边节点编号添加到EdgeRDD中;若边赋值为1-p,则扰动,根据连接边的节点随机邻居列表中core和ef_degree值判断连接边类型,不同情况选择不同扰动方案。
若连接边节点core值不同,则为高核连接低核;若连接边节点core值相同同时core值和ef_degree值也相同,则连接边类型为同核k-corona型边;否则为同核节点相连并存在k-lamina型节点。判断图中的每一条边是否扰动,下面仅列举三种可能的扰动方案,所有的扰动边都可以归类为这三种类型。
(1)若高核连接低核,例如扰动边<v4,v8>,扰动结果图如图6所示,虚线为添加边,根据图5对应相关扰动节点{v4,v8}的自身随机邻居列表值(44023)和(88011),得到v4和v8核数分别为2和1,表明连接边是高核连接低核,删除连接边<v4,v8>,选择高核节点v4的可达邻居。候选节点有{v5,v6,v7,v1,v2,v3},优先选择节点{v1,v2,v3}保证节点之间可达性。随机选择节点v1,添加边<v1,v8>到GraphX中的EdgeRDD。由于k-核特点,删除连接边<v4,v8>对于高核节点v4无影响,对于低核节点v8添加高核连接边对低核节点核数无影响,对于候选节点添加低核节点连接边无影响;对于扰动边<v7,v5>,在节点随机邻居列表中比较节点v7与v5的核数,表明连接边是低核连接高核,删除连接边<v7,v5>,选择高核节点v5的邻居作为候选节点。候选节点有{v6,v4,v1,v2,v8},随机选择节点v6,添加边<v7,v6>到GraphX中的EdgeRDD。
(2)若同核k-corona型节点相连,例如扰动边<v6,v3>,如图7所示为扰动结果图。根据图5对应相关扰动节点{v6,v3}自身随机邻居列表值(66022)和(33022),得到v6和v3的core、ef_degree值都为2,表明连接边核数和有效度数都相同,则连接边类型为同核k-corona型节点相连,需要两次扰动。第一次扰动,保证节点v6核数不变,选择节点v3的高核邻居{v1,v2,v4}为候选节点,优先选择节点v2,添加连接边<v6,v2>到GraphX中的EdgeRDD,第二次扰动,保证节点v3核数不变,选择节点v6的高核邻居{v5,v4},优先选择节点v5,添加连接边<v5,v3>到GraphX中的EdgeRDD。
(3)若同核节点相连并存在k-lamina型节点,选择k-lamina型节点的邻居。例如扰动边<v4,v1>,如图6所示为扰动结果图,根据图8对应相关扰动节点{v4,v1}自身随机邻居列表值(44023)和(11022),得到v4和v1的core值为2,节点v4和v1的ef_degree为3、2,表明节点v4为2-lamina型节点,连接边类型为同核节点相连并存在k-lamina型节点,选择节点v4的邻居,候选节点有{v3,v5,v6},随机选择节点v3,添加连接边<v3,v1>到GraphX中的EdgeRDD,为了防止节点核数下降,节点v4的ef_degree值减1。
步骤006.将步骤005得到EdgeRDD值上传到云平台供用户使用。
虽然在此已对本发明的说明性实施例进行了描述,但本发明并不限于在此描述的实施例,而是包括任何和所有本领域的技术人员基于本公开而能理解的具有等同单元、修改、省略、(例如跨各个实施例的各方面的)组合、适配和/或变换的实施例。

Claims (4)

1.一种基于k-核的大规模社会网络有向图隐私保护方法,该方法中社会网络有向图用G={V,E}表示,其中,
V表示节点集,V={v1,v2,…,vn},其中的每一个节点对应于社会网络中的一个真实用户;
E表示边集,Euv=<vu,vv>表示由用户u指向用户v的有向社交连接,称用户u为源节点,用户v为目的节点;
在社会网络中,若要隐藏边<vu,vv>的存在,只需隐藏源节点u或目的节点v,仅知道源节点或目的节点,并不能推测出边的存在;
基于上述理论基础,本方法的其特征是,根据赋值概率p(0≤p≤1)保留边<vu,vv>,若边<vu,vv>的赋值概率为(1-p),则删除边并挑选节点随机邻居列表中的候选节点添加扰动边匿名社会网络图;本发明方法基于分布式图处理系统GraphX“以节点为中心”的特点完成节点信息传递,查找邻居节点和候选扰动节点的信息,根据概率赋值判断是否删除连接边,若删除,则选择一个候选节点添加边;若不删除,则保留边到输出结果;该方法具体包含如下步骤:
步骤001.对原始社会网络图数据进行预处理,分解社会网络图得到节点k-核数,分解过程由社会网络边缘到社会网络中心不断迭代;
具体步骤如下:首先判断是否存在度数为0的节点,若存在,则核数赋值为0;若不存在,判断是否存在度数为1的节点,若存在,则节点核数赋值为1,并且删除该节点和该节点的连接边,该类型节点为k-corona;继续判断删除边后是否存在度数不大于1的节点,若存在,则核数赋值为1并且继续删除节点和连接边直至图中没有度数小于等于1的节点,该类型节点为k-lamina;若不存在,判断是否存在度数为2的节点,直至得到图中所有节点的核数;
步骤002.原始社会网络图每个节点都生成一张随机邻居列表,节点随机邻居列表的数据结构由五元组(srcid,dstid,hops,core,ef_degree)构成;随机邻居列表中的srcid和dstid都为节点编号,hops表示节点本身设置为0,由步骤001得到的每个节点核数值分别赋值到对应节点随机邻居列表中的core值,根据邻居节点核数和度数计算得到ef_degree,若邻居节点的核数不小于自身节点,则有效度数加1;
步骤003.基于Pregel模型发送节点随机邻居列表,Pregel模型由信息发送、信息接收、信息处理组成;通过2次迭代寻找可达候选节点,迭代次数为节点之间的跳数;节点首次发送信息时,若节点出度大于0,则节点状态为Active,并将节点自身的随机邻居列表发送到目的节点;若节点出度等于0,则节点状态为Inactive,不发送节点信息;当节点接收信息时,判断收到节点随机邻居列表值是否存在于本节点随机邻居列表中,若不存在,则修改srcid值为本节点编号,将hops值加1表示信息传播步数加1,core和ef_degree值保持不变,将更新的值继续发送下一节点;若存在,则丢弃接收到的节点随机邻居列表;
步骤004.根据步骤003生成带有随机邻居列表的社会网络图对图中的每一条边基于伯努利概率分布赋值,根据赋值判断是否边扰动;
步骤005.若边赋值为p,则不扰动,将连接边节点编号添加到EdgeRDD中;若边赋值为1-p,则扰动,根据连接边的节点随机邻居列表中core和ef_degree值判断连接边类型,不同情况选择不同扰动方案;
若连接边节点core值不同,则连接边类型为高核连接低核,为保证扰动后节点核数不变,挑选高核节点的邻居节点作为候选节点,添加候选节点到低核节点的连接边;若连接边节点core值相同同时core值和ef_degree值也相同,则连接边类型为同核k-corona类型,为保证扰动后节点核数不变,分别选择源节点和目的节点的高核邻居添加两条扰动边;否则为同核节点相连并存在k-lamina类型节点,选择k-lamina类型节点的高核邻居节点作为候选节点连接另一个节点;
步骤006.将步骤005得到EdgeRDD值上传到云平台供用户使用。
2.根据权利要求1所述的基于k-核的大规模社会网络有向图隐私保护方法,其特征在于:步骤003中,基于Pregel模型发送节点随机邻居列表,为了增加候选节点的数量,基于GraphX中的reverse算子将社会网络图反转,社会网络图反转后源节点与目的节点互换;社会网络图反转之前,节点只能收到源节点发送的随机邻居列表信息,反转之后,源节点可以作为目的节点收到原目的节点发送的随机邻居列表信息,反转后节点的候选节点数量增加,为了区分正向与反向传递的信息,当反向传递节点信息时,dstid表示节点自身编号,srcid为可达邻居编号,hops是源节点与目的节点的最短路径长度,core和ef_degree为可达邻居节点的核数和有效度数。
3.根据权利要求1所述的基于k-核的大规模社会网络有向图隐私保护方法,其特征在于:步骤003中,为了扩大扰动范围,提高匿名图的安全强度,设置高于2跳邻居的扰动范围,通过大于2次且小于6次迭代寻找可达候选节点,根据六度空间理论可以得到6次迭代能够得到图中所有节点的信息;通过迭代更新正向与反向的随机邻居列表,扩大了候选节点的范围的同时增加了扰动的安全强度。
4.根据权利要求1所述的基于k-核的大规模社会网络有向图隐私保护方法,其特征在于:步骤005中,将社会网络图连接边分为3类,根据不同类型的连接边选择不同的扰动方案,选择候选节点添加连接边同时保证核数不变;为了尽可能保护节点之间的可达性,设置选择高核候选节点的条件,若选择源节点的高核邻居作为候选节点添加与目的节点的连接边,则优先选择源节点的反向传播节点作为候选节点添加连接边<高核候选节点,目的节点>,保证核数不变同时保证可达性;若目的节点的高核邻居节点作为候选节点添加与源节点的连接边,则优先选择目的节点的正向传播节点作为候选节点添加连接边<源节点,高核候选邻居>,保证核数不变同时保证可达性。
CN202010543252.4A 2020-06-15 2020-06-15 一种基于k-核的大规模社会网络有向图隐私保护方法 Active CN111723399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010543252.4A CN111723399B (zh) 2020-06-15 2020-06-15 一种基于k-核的大规模社会网络有向图隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010543252.4A CN111723399B (zh) 2020-06-15 2020-06-15 一种基于k-核的大规模社会网络有向图隐私保护方法

Publications (2)

Publication Number Publication Date
CN111723399A CN111723399A (zh) 2020-09-29
CN111723399B true CN111723399B (zh) 2023-08-29

Family

ID=72566814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010543252.4A Active CN111723399B (zh) 2020-06-15 2020-06-15 一种基于k-核的大规模社会网络有向图隐私保护方法

Country Status (1)

Country Link
CN (1) CN111723399B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380267B (zh) * 2020-10-21 2022-08-05 山东大学 一种基于隐私图的社区发现方法
CN112383422B (zh) * 2020-11-04 2021-11-02 浙江大学 加快一致性分布式算法收敛速度的网络拓扑优化方法
CN112199728B (zh) * 2020-11-04 2022-07-19 同济大学 一种针对社交网络关系预测的隐私保护方法
CN113706326B (zh) * 2021-08-31 2023-05-30 福建师范大学 基于矩阵运算的移动社会网络图修改方法
CN115277156B (zh) * 2022-07-22 2023-05-23 福建师范大学 一种社交网络中抵抗邻居攻击的用户身份隐私保护方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179954A (zh) * 2017-04-25 2017-09-19 内蒙古科技大学 一种保持节点可达性的分布式社会网络隐私保护方法
CN110263831A (zh) * 2019-06-06 2019-09-20 陕西师范大学 一种基于差分隐私的局部高阶图聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275422B2 (en) * 2013-05-29 2016-03-01 International Business Machines Corporation Distributed k-core view materialization and maintenance for graphs

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179954A (zh) * 2017-04-25 2017-09-19 内蒙古科技大学 一种保持节点可达性的分布式社会网络隐私保护方法
CN110263831A (zh) * 2019-06-06 2019-09-20 陕西师范大学 一种基于差分隐私的局部高阶图聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
分布式个性化社会网络隐私保护方法;张文超;张晓琳;张臣;刘立新;何晓玉;;微电子学与计算机(06);全文 *

Also Published As

Publication number Publication date
CN111723399A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111723399B (zh) 一种基于k-核的大规模社会网络有向图隐私保护方法
Qian et al. Social network de-anonymization and privacy inference with knowledge graph model
Liu et al. Core-like groups result in invalidation of identifying super-spreader by k-shell decomposition
Norouzi et al. Genetic algorithm application in optimization of wireless sensor networks
Gao et al. Network immunization with distributed autonomy-oriented entities
CN109064348B (zh) 一种在社交网络中封锁谣言社区并抑制谣言传播的方法
Tu et al. Secure data objects replication in data grid
Ambareesh et al. HRDSS-WMSN: a multi-objective function for optimal routing protocol in wireless multimedia sensor networks using hybrid red deer salp swarm algorithm
Singh et al. IM‐SSO: Maximizing influence in social networks using social spider optimization
Han et al. Maximising influence in sensed heterogeneous social network with privacy preservation
Gurram et al. A secure energy aware meta-heuristic routing protocol (SEAMHR) for sustainable IoT-wireless sensor network (WSN)
Jang Meta‐heuristic algorithms for channel scheduling problem in wireless sensor networks
He et al. Graph convolutional network-based rumor blocking on social networks
Wu et al. A dynamic trust model exploiting the time slice in WSNs
Roy et al. Design of robust and efficient topology using enhanced gene regulatory networks
Xu et al. Data transmission reliability analysis of wireless sensor networks for social network optimization
Miranda-Pascual et al. SoK: differentially private publication of trajectory data
CN115277115A (zh) 一种用于解决网络上鲁棒信息传播问题的方法及系统
Luo et al. A relationship matrix resolving model for identifying vital nodes based on community in opportunistic social networks
Huang et al. An effective data transmission scheme based on IoT system in opportunistic social networks
Wu et al. A trajectory privacy protect method based on location pair reorganization
Stai et al. Hyperbolic embedding for efficient computation of path centralities and adaptive routing in large-scale complex commodity networks
Niu et al. K-hop centrality metric for identifying influential spreaders in dynamic large-scale social networks
Feng et al. Recovering information recipients in social media via provenance
Zhao et al. Unveiling the Role of Message Passing in Dual-Privacy Preservation on GNNs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant