CN110490000A - 多图数据中频繁子图挖掘的差分隐私保护方法 - Google Patents

多图数据中频繁子图挖掘的差分隐私保护方法 Download PDF

Info

Publication number
CN110490000A
CN110490000A CN201910784740.1A CN201910784740A CN110490000A CN 110490000 A CN110490000 A CN 110490000A CN 201910784740 A CN201910784740 A CN 201910784740A CN 110490000 A CN110490000 A CN 110490000A
Authority
CN
China
Prior art keywords
polygon
collection
frontier juncture
candidate
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910784740.1A
Other languages
English (en)
Other versions
CN110490000B (zh
Inventor
王金艳
郑月月
李先贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN201910784740.1A priority Critical patent/CN110490000B/zh
Publication of CN110490000A publication Critical patent/CN110490000A/zh
Application granted granted Critical
Publication of CN110490000B publication Critical patent/CN110490000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种多图数据中频繁子图挖掘的差分隐私保护方法,考虑了在多图这一含有丰富信息的数据中进行频繁子图挖掘时可能存在的隐私问题,设计了满足差分隐私的扰动机制算法,通过限制多图中一对顶点之间所具有的边关系的数量,即计算多边拥有的边关系的最大限制数量Lmax,在噪音挖掘频繁种子的过程中,对于数量超过最大限制的多边,将其进行截断,这样能够提高挖掘结果可用性并保持较高的隐私保护等级,且也可以扩展到单边图的频繁模式挖掘当中。

Description

多图数据中频繁子图挖掘的差分隐私保护方法
技术领域
本发明涉及数据隐私保护技术领域,具体涉及一种多图数据中频繁子图挖掘的差分隐私保护方法。
背景技术
现实世界中的许多数据很容易建模为一个图形结构,实体表示为一个顶点,实体之间的交互表示为边。当图中一对顶点之间不仅仅存在一条边(一种边关系)的时候,将这样的图称之为多图(multigraph),即多图结构使我们能够表示一对顶点之间的多个关系。频繁子图挖掘(FSM)旨在找到出现在多图数据集中的超过用户给定阈值的子图。
近年来,从单个大图中挖掘频繁模式已经成为研究热点,也被应用于各个领域,如社交网络中,两个人之间可能有诸如Facebook,Twitter,LinkedIn等多个关系,发现社交网络多图中的频繁子图对发现社会互动的机制是至关重要的。如生物信息学领域中通过合并异构基因组和表型数据创建了多图,对其执行频繁子图挖掘操作之后可以识别疾病基因;另外频繁子图挖掘在资源描述框架(RDF)知识图(主语宾语顶点对之间由多个不同的谓语连接)结构中也有重要应用。
然而,在多图数据中,一对顶点之间的相互关系信息更加丰富,尽管挖掘出的频繁子图可以潜在的提供有价值的信息,但如果数据中含有敏感信息(如社交网络多图中,用户之间的互动关系),此时将挖掘结果未经处理直接发布或者共享出去的话,将会对参与数据的用户的隐私造成不可预知的威胁,即攻击者很容易从这些信息中推断或识别出参与者的隐私信息,所以频繁子图挖掘中的隐私保护问题也受到了广泛重视,需要采取措施来保护提供数据的用户的隐私。
目前,差分隐私已经成为最有发展潜力的隐私保护模型之一。差分隐私保护是通过在查询函数的返回值中加入适量的噪声来实现的,具有严格的数学证明,保证任一记录在数据集中或者不在数据集中时,对最终发布的查询结果几乎没有影响,使得攻击者无法得到查询结果间的差异。然而,在现有的满足差分隐私的频繁子图挖掘研究中主要针对单边图,无法应用到多图数据中。多图数据中频繁子图的挖掘会由于其丰富的图结构更容易泄露隐私,造成隐私泄露的问题主要是由于频繁子图模式和真实支持度计数。以社交网络图为例,如果攻击者利用这些未经处理的频繁子图模式和真实支持度信息,推断出了用户之间所存在的边关系,这就对参与数据的用户的隐私造成了威胁。
发明内容
本发明所要解决的是直接发布多图数据中挖掘的频繁子图模式及其真实支持度计数的时候,所导致的隐私泄露的问题,提供一种多图数据中频繁子图挖掘的差分隐私保护方法。
为解决上述问题,本发明是通过以下技术方案实现的:
多图数据中频繁子图挖掘的差分隐私保护方法,包括步骤如下:
步骤1、统计多图中每对顶点之间所包含的边关系类型,以得到每对顶点的多图子多边集;
步骤2、根据边关系类型的数量对步骤1所得到的多图子多边集进行分类统计,得到所有多图子多边集中最大边关系类型数量n;
步骤3、基于给定最大边关系限制数量Lmax,对步骤2所得到的所有多图子多边集进行噪音频繁挖掘后,得到频繁种子集合;
步骤3.1、对所有的边关系类型利用向下闭包性质,得到具有不同边关系类型数量j的多边集合即候选子多边集Cj
步骤3.2、基于每个候选子多边集Cj,对所有多图子多边集中,边关系类型数量大于最大边关系限制数量Lmax的多图子多边集进行智能截断操作,得到每个候选子多边集Cj对应的截断多边集E'j
步骤3.3、计算每个候选子多边集Cj中的每个元素在对应的截断多边集E'j中的支持度,并对其添加拉普拉斯噪音后,将噪音支持度大于等于设定阈值δ的元素加入到频繁种子集合中;
步骤4、对步骤3所得到的频繁种子集合进行深度优先遍历来扩展搜索空间,得到具有不同顶点对数i的子图集合即候选子图集Graphi
步骤5、分别计算步骤4所得到的各个候选子图集的最大支持度,并将其中最大支持度大于等于设定阈值δ的候选子图集作为筛选候选子图集;
步骤6、对于步骤5所得到的每个筛选候选子图集,分别计算该筛选候选子图集中的各个子图的支持度:若子图的支持度大于等于设定阈值δ,则该子图为频繁子图;否则,该子图为不频繁子图;
步骤7、对步骤6所选出的所有频繁子图进行差分隐私保护后,输出差分隐私保护后的频繁子图及其支持度;
上述i=1,2,…,m,m为多图中顶点对数,j=1,2,…,n,n为最大边关系类型数量。
上述步骤3中,最大边关系限制数量Lmax人为给定,或根据以下方法确定:
首先,计算满足式(1)的最小的待求边关系类型数量n’,
其中,n为所有子多边集中最大的边关系类型数量,n’为待求边关系类型数量,zj表示具有j种边关系类型的子多边集的数量,zj∈z,z为边关系数量集,η为设定的权值;
接着,将所求得的最小的待求边关系类型数量n’和所有子多边集中最大边关系类型数量n中的较小值,作为最大边关系限制数量Lmax
上述步骤3.2的具体过程如下;
步骤3.2.1、如果候选子多边集Cj中的元素存在于当前多图子多边集中,则将该元素添加到暂存集C'j中;
步骤3.2.2、根据暂存集C'j中各个元素在该暂存集C'j中的支持度,给定各个元素的初始权重,其中初始权重与支持度呈正比关系;
步骤3.2.3、从暂存集C'j中挑选出当前最高权重的元素,并将该元素加入到截断多边集E'j中,同时从暂存集C'j中删除该元素;
步骤3.2.4、根据下公式更新暂存集C'j中各个元素的权重,即
W'h=Whh
其中,W'h为元素h更新后的权重,Wh为元素h更新前的权重,αh为元素h中所含项的平均权重,H为元素h所含的项数,β为截断多边集E'j中的元素数量;
步骤3.2.5、若截断多边集E'j中元素的所有边关系类型数量未达到最大边关系限制数量Lmax,则返回步骤3.2.3;否则,则当前多图子多边集的智能截断操作结束;
步骤3.2.6、对所有多图子多边集中,边关系类型数量大于最大边关系限制数量Lmax的多图子多边集均进行步骤3.2.1-3.2.5的智能截断操作后,得到每个候选子多边集Cj对应的截断多边集E'j
上述j=1,2,…,n,n为最大边关系类型数量。
上述步骤3.2.6之后,还进一步包括步骤如下:
步骤3.2.7、对频繁种子集合中的元素按照支持度从小到大的顺序排列。
与现有技术相比,本发明具有如下特点:
1.针对以往的频繁子图挖掘的差分隐私保护中,都是对单边图进行操作的,本发明考虑了在多图这一含有丰富信息的数据中进行频繁子图挖掘时可能存在的隐私问题,使用差分隐私的方法保护数据隐私性,设计了满足差分隐私的扰动机制算法,并且该方法也可以扩展到单边图的频繁模式挖掘当中。
2.为了提高挖掘结果可用性并保持较高的隐私保护等级,本发明限制多图中一对顶点之间所具有的边关系的数量,即计算多边拥有的边关系的最大限制数量Lmax,在噪音挖掘频繁种子的过程中,对于数量超过最大限制的多边,将其进行截断。
附图说明
图1为多图数据中频繁子图挖掘的差分隐私保护方法的流程图。
图2为一个简单多图数据示意图。
图3为候选1-子图集合。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
由于多图数据中频繁子图的挖掘结果未经过隐私处理,直接发布频繁子图及其支持度将会导致个人信息的泄露,本发明提出一种多图数据中频繁子图挖掘的差分隐私保护方法,如图1所示,其具体步骤如下:
步骤1、统计多图G中每对顶点之间所包含的边关系类型,以得到每对顶点的子多边集Ei,并将所有的子多边集组成多图的总多边集E={Ei};i=1,2,…,m;m为多图G中顶点对数。
多图G基于原始的多图数据集所获得,即从某一特定的网络中得到关于网络关系的子图Gi,各个网络的子图Gi则共同构成了多图G。如图2所示的一个简单多图数据G,其包含的子多边集有:第一对顶点之间的子多边集E1={e1,e2,e3},第二对顶点之间的子多边集E2={e2,e4},第三对顶点之间的子多边集E3={e2,e5},第四对顶点之间的子多边集E4={e3},第五对顶点之间的子多边集E5={e1,e2,e3},第六对顶点之间的子多边集E6={e2},第七对顶点之间的子多边集E7={e2,e3}。则上述所有子多边集共同组成多图G的总多边集E={Ei},其中i∈[1,7]。
步骤2、根据边关系类型的数量对子多边集进行分类统计,得到边关系数量集z={zj},其中zj表示具有j种边关系类型的子多边集数量;j=1,2,…,n,n为所有子多边集中最大边关系类型数量。
上述e1、e2、e3、e4、e5表示不同的边关系类型,如图2中,e1表示lunch关系,e2表示facebook关系,e3表示coauthor关系,e4表示leisure关系,e5表示word关系,即图2中具有5中不同的边关系类型,即n=5。其中边关系数量为1的子多边集有E4和E6这两个多边,即z1=2。边关系数量为2的子多边集有E2、E3和E7,即z2=3,边关系数量为3的子多边集有E1和E5,即z3=2。最后可以得到边关系数量集z={zj}={z1,z2,z3}={2,3,2},j∈[1,3],其中其中zi表示具有j种边关系类型的子多边集数量。
步骤3、基于给定最大边关系限制数量Lmax,对总多边集E中的所有子多边集进行噪音频繁挖掘,得到繁种子集合F1
上述最大边关系限制数量Lmax既可以根据经验进行设定,也可以根据下述方法确定,即:
首先,计算满足下列公式的最小n’:
其中,zj∈z,η为由用户根据实验设置的最优值,对于不同的实验数据集该值的设置可能也不相同。在实施例中,η设定为85%。在本实施例中,由于要大于等于由于 因此只有在即L1=3时,才是满足式(1)的最小n’。
接着,将所求得的最小的待求边关系类型数量n’和所有子多边集中最大边关系类型数量n中的较小值,作为最大边关系限制数量Lmax=min{n’,n}。在本实施例中,Lmax=3。
考虑到随机截断多边的边关系所带来的信息损失和传播误差,在挖掘频繁种子的过程中,采用启发式的智能截断方法来尽可能的保留相关信息。具体来说,对所有子多边集进行噪音频繁挖掘,得到繁种子集合F1的具体过程如下:
步骤3.1、对所有的边关系类型利用向下闭包性质,分别生成候选子多边集Cj;其中j表示候选子多边集中所包含的边关系类型的数量,j=1,2,…,n,n为所有子多边集中最大边关系类型数量;
在本实施例中,候选子多边集C1={e1,e2,e3,e4,e5};候选子多边集C2={<e1,e2>,<e1,e3>,<e1,e4>,<e1,e5>,<e2,e3>,<e2,e4>,<e2,e5>,<e3,e4>,<e3,e5>,<e4,e5>};候选子多边集C3={<e1,e2,e3>,<e1,e2,e4>,<e1,e2,e5>,<e1,e3,e4>,<e1,e3,e5>,<e1,e4,e5>,<e2,e3,e4>,<e2,e3,e5>,<e2,e4,e5>,<e3,e4,e5>};候选子多边集C4={<e1,e2,e3,e4>,<e1,e2,e3,e5>,{<e1,e2,e4,e5>,<e1,e3,e4,e5>,<e2,e3,e4,e5>};候选子多边集C5={<e1,e2,e3,e4,e5>}。
步骤3.2、基于候选子多边集C1,依次对所有子多边集边关系类型大于最大边关系限制数量Lmax的子多边集Eq进行智能截断操作,得到截断多边集E'1;其中Eq∈E;即:
步骤3.2.1、如果候选子多边集C1中的元素存在于当前子多边集Eq中,则将该元素添加到暂存集C'1中;
步骤3.2.2、根据暂存集C'1中各个元素在该暂存集C'1中的支持度,给定各个元素的初始权重,其中初始权重与支持度呈正比关系;
步骤3.2.3、从暂存集C'1中挑选出最高权重的元素,并将其加入到截断多边集E'1中,同时从暂存集C'1中删除该元素;
步骤3.2.4、根据下公式更新暂存集C'1中各个元素的权重,即
W'h=Whh
其中,W'h为元素h更新后的权重,Wh为元素h更新前的权重,αh为元素h中所含项的平均权重,为H为元素h中所含的项数,β为当前截断多边集E'1中的元素数量。
如图2所示的一个简单多图数据G,第二对顶点之间的子多边集E2={e2,e4},E2的边关系类型数量是2,即它包含两个边关系类型e2和e4。以本实施例中的候选子多边集C2={<e1,e2>,<e1,e3>,<e1,e4>,<e1,e5>,<e2,e3>,<e2,e4>,<e2,e5>,<e3,e4>,<e3,e5>,<e4,e5>}为例。其中,<e1,e2>就是候选子多边集C2的一个元素,<e1,e5>中的e1就是元素的项。
步骤3.2.5、重复步骤3.2.1-3.2.4的过程,直到所有子多边集Eq均进行智能截断操作,由此得到截断多边集E'1
步骤3.2.6、计算候选子多边集C1中的每个元素在截断多边集E'1中的支持度,并对其添加拉普拉斯噪音,最后将支持度大于等于阈值δ的元素加入到频繁种子集合F1中;
使用拉普拉斯机制扰动每个元素的支持度,是为了使数据失真,从而达到隐私保护的效果。拉普拉斯机制是实现差分隐私保护的主要技术之一,而基于该机制所需要的噪音大小与全局敏感度Δq密切相关,Δq由以下公式计算得来:
根据Δq我们可以向每个元素的支持度中添加噪声Lap(Δq/ε),得到每个元素的支持度,ε控制着隐私保护的程度,ε越小隐私保护程度越高。
步骤3.3、重复步骤3.2,直到候选子多边集C2,C3,C4和C5都得到了对应的截断多边集E'2,E'3,E'4和E'5,且其中支持度大于等于阈值δ的元素都被加入到了频繁种子集合F1中。
步骤3.4、将频繁种子集合F1中的每个元素按照支持度从小到大的顺序排列,得到排序后的频繁种子集合F1={f1,f2,......}。
步骤4、对步骤3产生的频繁种子集合F1,通过深度优先遍历(DFS)的方式来扩展搜索空间,得到不同大小的候选子图集Graphi。其中,Graphi为大小(即顶点对数)为i的候选子图集;i=1,2,…,m;m为多图G中顶点对数。
步骤5、计算各个候选子图集的最大支持度,并将最大支持度大于等于设定阈值δ的候选子图集作为筛选候选子图集。
步骤5.1、使用频繁子图挖掘算法FSM来计算最大支持度集合ζ={ζ1,ζ2,ζ3,...},ζi表示在候选i-子图集Graphi中的i-子图所具有的最大支持度;
步骤5.2、使用二分搜索的方法来计算ζ中超过(大于等于)阈值δ的元素的数量,该数量即是所需要的最大频繁子图的大小Mg
步骤5.3、选取候选子图集Graph中大小小于等于Mg的候选子图集作为筛选出的筛选候选子图集Graphp。其中,Graphp为大小(即顶点对数)为p的候选子图集,p=1,2,…,Mg,Mg为最大频繁子图大小。
步骤6、对于步骤5所得到的每个筛选候选子图集,分别计算该筛选候选子图集中的各个子图的支持度:若子图的支持度大于等于设定阈值δ,则该子图为频繁子图;否则,该子图为不频繁子图。
步骤6.1、使用折半查找算法的思想来估算各个筛选候选子图集Graphp所含有的频繁子图的个数np,p=1,2,…,Mg,Mg为最大频繁子图大小。
步骤6.1.1、基于候选p-子图集合Graphp,将Graphp中的所有候选p-子图按照支持度升序进行排列,得到排序后的候选p-子图支持度集合Supp
步骤6.1.2、设定支持度阈值δ=2。令low=0,即让low指向支持度集合Sup1中的第一个元素。令high=|Supp|-1,即让high指向支持度集合Supp中的最后一个元素。
步骤6.1.3、如果low≤high,设置
在Supp中找到第mid个元素smid,向smid中加入拉普拉斯噪音,得到支持度nsmid
步骤6.1.4、当nsmid>δ时,high=mid-1;当nsmid<δ时,low=mid+1;
步骤6.1.5、重复步骤6.1.3-6.1.4的过程,直到low>high,最后输出|Supp|-1-high,即为候选p-子图集合Graphp中所包含的频繁子图的个数np
如图3所示的子图集合,是图2这个简单多图数据中所包含的候选1-子图Graph1,对候选1-子图集合Graph1中的所有子图的支持度按照升序排列后得到支持度集合Sup1={1,1,1,1,1,1,2,2,2,2,2,3,6}。本实施例中计算得到np=7。
步骤6.2、采用指数机制分别从每个候选子图Graphp中挑选出np个频繁子图,并将挑选出的频繁子图组成了频繁子图总集合FG={FGp},其中p∈[1,Mg]。
考虑到直接从整个候选子图空间Graphp中选择np个频繁子图效用性太低,所以在选择频繁模式之前先对候选集Graphp进行一次候选剪枝操作,将噪声支持度小于阈值的候选模式剔除,具体过程如下:
步骤6.2.1、对于Graphi中的每一个候选i-子图模式g,计算其支持度nsg
步骤6.2.2、把支持度nsg≥δ的所有候选i-子图模式添加入筛选候选集Si中,不满足阈值的则直接丢弃;
步骤6.2.3、使用指数机制从筛选候选集Si中不放回的挑选一个子图gi将子图gi加入到频繁子图集合FGi中;
步骤6.2.4、重复步骤6.2.3,直到不放回的挑选出ni个频繁子图,并输出频繁子图模式集FGi及其对应的噪音计数。
步骤6.2.5、重复步骤6.2.1-6.2.4,直到从候选子图总集合Graph={Graph1,Graph2,Graph3,...,GraphMg}中挑选出了所有的频繁子图,输出频繁子图模式总集合FG={FGp},其中p∈[1,Mg]。
步骤7、对步骤6所选出的所有频繁子图进行差分隐私保护,输出差分隐私保护后的频繁子图及其支持度。
本发明是用来处理多图数据中挖掘频繁子图时存在的隐私问题,发布满足差分隐私保护的频繁子图模式及其支持度。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (4)

1.多图数据中频繁子图挖掘的差分隐私保护方法,其特征是,包括步骤如下:
步骤1、统计多图中每对顶点之间所包含的边关系类型,以得到每对顶点的多图子多边集;
步骤2、根据边关系类型的数量对步骤1所得到的多图子多边集进行分类统计,得到所有多图子多边集中最大边关系类型数量n;
步骤3、基于给定最大边关系限制数量Lmax,对步骤2所得到的所有多图子多边集进行噪音频繁挖掘后,得到频繁种子集合;
步骤3.1、对所有的边关系类型利用向下闭包性质,得到具有不同边关系类型数量j的多边集合即候选子多边集Cj
步骤3.2、基于每个候选子多边集Cj,对所有多图子多边集中,边关系类型数量大于最大边关系限制数量Lmax的多图子多边集进行智能截断操作,得到每个候选子多边集Cj对应的截断多边集E'j
步骤3.3、计算每个候选子多边集Cj中的每个元素在对应的截断多边集E'j中的支持度,并对其添加拉普拉斯噪音后,将噪音支持度大于等于设定阈值δ的元素加入到频繁种子集合中;
步骤4、对步骤3所得到的频繁种子集合进行深度优先遍历来扩展搜索空间,得到具有不同顶点对数i的子图集合即候选子图集Graphi
步骤5、分别计算步骤4所得到的各个候选子图集的最大支持度,并将其中最大支持度大于等于设定阈值δ的候选子图集作为筛选候选子图集;
步骤6、对于步骤5所得到的每个筛选候选子图集,分别计算该筛选候选子图集中的各个子图的支持度:若子图的支持度大于等于设定阈值δ,则该子图为频繁子图;否则,该子图为不频繁子图;
步骤7、对步骤6所选出的所有频繁子图进行差分隐私保护后,输出差分隐私保护后的频繁子图及其支持度;
上述i=1,2,…,m,m为多图中顶点对数,j=1,2,…,n,n为最大边关系类型数量。
2.根据权利要求1所述多图数据中频繁子图挖掘的差分隐私保护方法,其特征是,步骤3中,最大边关系限制数量Lmax人为给定,或根据以下方法确定:
首先,计算满足式(1)的最小的待求边关系类型数量n’,
其中,n为所有子多边集中最大的边关系类型数量,n’为待求边关系类型数量,zj表示具有j种边关系类型的子多边集的数量,zj∈z,z为边关系数量集,η为设定的权值;
接着,将所求得的最小的待求边关系类型数量n’和所有子多边集中最大边关系类型数量n中的较小值,作为最大边关系限制数量Lmax
3.根据权利要求1所述多图数据中频繁子图挖掘的差分隐私保护方法,其特征是,步骤3.2的具体过程如下;
步骤3.2.1、如果候选子多边集Cj中的元素存在于当前多图子多边集中,则将该元素添加到暂存集C'j中;
步骤3.2.2、根据暂存集C'j中各个元素在该暂存集C'j中的支持度,给定各个元素的初始权重,其中初始权重与支持度呈正比关系;
步骤3.2.3、从暂存集C'j中挑选出当前最高权重的元素,并将该元素加入到截断多边集E'j中,同时从暂存集C'j中删除该元素;
步骤3.2.4、根据下公式更新暂存集C'j中各个元素的权重,即
W'h=Whh
其中,W'h为元素h更新后的权重,Wh为元素h更新前的权重,αh为元素h中所含项的平均权重,H为元素h所含的项数,β为截断多边集E'j中的元素数量;
步骤3.2.5、若截断多边集E'j中元素的所有边关系类型数量未达到最大边关系限制数量Lmax,则返回步骤3.2.3;否则,则当前多图子多边集的智能截断操作结束;
步骤3.2.6、对所有多图子多边集中,边关系类型数量大于最大边关系限制数量Lmax的多图子多边集均进行步骤3.2.1-3.2.5的智能截断操作后,得到每个候选子多边集Cj对应的截断多边集E'j
上述j=1,2,…,n,n为最大边关系类型数量。
4.根据权利要求3所述多图数据中频繁子图挖掘的差分隐私保护方法,其特征是,步骤3.2.6之后,还进一步包括步骤如下:
步骤3.2.7、对频繁种子集合中的元素按照支持度从小到大的顺序排列。
CN201910784740.1A 2019-08-23 2019-08-23 多图数据中频繁子图挖掘的差分隐私保护方法 Active CN110490000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910784740.1A CN110490000B (zh) 2019-08-23 2019-08-23 多图数据中频繁子图挖掘的差分隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910784740.1A CN110490000B (zh) 2019-08-23 2019-08-23 多图数据中频繁子图挖掘的差分隐私保护方法

Publications (2)

Publication Number Publication Date
CN110490000A true CN110490000A (zh) 2019-11-22
CN110490000B CN110490000B (zh) 2022-04-05

Family

ID=68553328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910784740.1A Active CN110490000B (zh) 2019-08-23 2019-08-23 多图数据中频繁子图挖掘的差分隐私保护方法

Country Status (1)

Country Link
CN (1) CN110490000B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395198A (zh) * 2020-11-19 2021-02-23 东北大学 一种基于区分子图挖掘的软件缺陷发现方法
CN114417068A (zh) * 2022-01-20 2022-04-29 三未信安科技股份有限公司 一种具有隐私性保护的大规模图数据匹配方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446978A (zh) * 2008-12-11 2009-06-03 南京大学 基于频繁项集挖掘的核心节点发现方法
CN103218397A (zh) * 2013-03-12 2013-07-24 浙江大学 一种基于无向图修改的社交网络隐私保护方法
CN104537025A (zh) * 2014-12-19 2015-04-22 北京邮电大学 频繁序列挖掘方法
CN104899292A (zh) * 2015-06-08 2015-09-09 哈尔滨工程大学 一种面向属性图集的频繁近似子图挖掘方法
CN105740245A (zh) * 2014-12-08 2016-07-06 北京邮电大学 频繁项集挖掘方法
CN106777065A (zh) * 2016-12-12 2017-05-31 郑州云海信息技术有限公司 一种频繁子图挖掘的方法及系统
US20180069694A1 (en) * 2016-09-06 2018-03-08 Nxp B.V. Software protection against differential fault analysis
CN109409128A (zh) * 2018-10-30 2019-03-01 南京邮电大学 一种面向差分隐私保护的频繁项集挖掘方法
CN109657498A (zh) * 2018-12-28 2019-04-19 广西师范大学 多条流中top-k共生模式挖掘的差分隐私保护方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446978A (zh) * 2008-12-11 2009-06-03 南京大学 基于频繁项集挖掘的核心节点发现方法
CN103218397A (zh) * 2013-03-12 2013-07-24 浙江大学 一种基于无向图修改的社交网络隐私保护方法
CN105740245A (zh) * 2014-12-08 2016-07-06 北京邮电大学 频繁项集挖掘方法
CN104537025A (zh) * 2014-12-19 2015-04-22 北京邮电大学 频繁序列挖掘方法
CN104899292A (zh) * 2015-06-08 2015-09-09 哈尔滨工程大学 一种面向属性图集的频繁近似子图挖掘方法
US20180069694A1 (en) * 2016-09-06 2018-03-08 Nxp B.V. Software protection against differential fault analysis
CN106777065A (zh) * 2016-12-12 2017-05-31 郑州云海信息技术有限公司 一种频繁子图挖掘的方法及系统
CN109409128A (zh) * 2018-10-30 2019-03-01 南京邮电大学 一种面向差分隐私保护的频繁项集挖掘方法
CN109657498A (zh) * 2018-12-28 2019-04-19 广西师范大学 多条流中top-k共生模式挖掘的差分隐私保护方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIANG CHENG 等: "A Two-Phase Algorithm for Differentially Private Frequent Subgraph Mining", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
姜国庆: "移动社交网络隐私保护算法及应用研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
熊平 等: "差分隐私保护及其应用", 《计算机学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395198A (zh) * 2020-11-19 2021-02-23 东北大学 一种基于区分子图挖掘的软件缺陷发现方法
CN112395198B (zh) * 2020-11-19 2022-04-22 东北大学 一种基于区分子图挖掘的软件缺陷发现方法
CN114417068A (zh) * 2022-01-20 2022-04-29 三未信安科技股份有限公司 一种具有隐私性保护的大规模图数据匹配方法

Also Published As

Publication number Publication date
CN110490000B (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN103927398B (zh) 基于最大频繁项集挖掘的微博炒作群体发现方法
CN109800573B (zh) 基于度匿名与链路扰动的社交网络保护方法
Lichtnwalter et al. Link prediction: fair and effective evaluation
Ruckelshaus et al. The Pacific salmon wars: what science brings to the challenge of recovering species
CN106202430A (zh) 基于关联规则的直播平台用户兴趣度挖掘系统及挖掘方法
CN100507943C (zh) 一种基于统计检测和结构检测的隐写分析系统
CN106980795A (zh) 社会网络数据隐私保护方法
CN110490000A (zh) 多图数据中频繁子图挖掘的差分隐私保护方法
CN106452825A (zh) 一种基于改进决策树的配用电通信网告警关联分析方法
CN110019074A (zh) 访问路径的分析方法、装置、设备及介质
Singh et al. Optimum oil production planning using infeasibility driven evolutionary algorithm
CN105630797B (zh) 数据处理方法及系统
CN108062363A (zh) 一种面向有源配电网的数据过滤方法及系统
CN108268460A (zh) 一种基于大数据的自动选择最优模型的方法
CN115021965B (zh) 一种基于生成式对抗网络的入侵检测系统的攻击数据的生成方法及系统
CN104462329B (zh) 一种适用于多样性环境的业务流程挖掘方法
TW201248432A (en) Data clustering method based on grid
CN109783696B (zh) 一种面向弱结构相关性的多模式图索引构建方法及系统
CN109002856A (zh) 一种基于随机游走的流量特征自动生成方法与系统
CN113158206A (zh) 一种基于决策树的文档安全等级划分方法
CN106506567A (zh) 一种基于行为评判的隐蔽式网络攻击主动发现方法
CN110069548A (zh) 一种基于循环方式的关联规则合并方法
CN107577681B (zh) 一种基于社交媒体图片的地域分析、推荐方法及系统
CN108366048A (zh) 一种基于无监督学习的网络入侵检测方法
CN114490835A (zh) 一种高效用项集挖掘方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant