CN110490000A

CN110490000A - 多图数据中频繁子图挖掘的差分隐私保护方法

Info

Publication number: CN110490000A
Application number: CN201910784740.1A
Authority: CN
Inventors: 王金艳; 郑月月; 李先贤
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-11-22
Anticipated expiration: 2039-08-23
Also published as: CN110490000B

Abstract

本发明公开一种多图数据中频繁子图挖掘的差分隐私保护方法，考虑了在多图这一含有丰富信息的数据中进行频繁子图挖掘时可能存在的隐私问题，设计了满足差分隐私的扰动机制算法，通过限制多图中一对顶点之间所具有的边关系的数量，即计算多边拥有的边关系的最大限制数量L_max，在噪音挖掘频繁种子的过程中，对于数量超过最大限制的多边，将其进行截断，这样能够提高挖掘结果可用性并保持较高的隐私保护等级，且也可以扩展到单边图的频繁模式挖掘当中。

Description

多图数据中频繁子图挖掘的差分隐私保护方法

技术领域

本发明涉及数据隐私保护技术领域，具体涉及一种多图数据中频繁子图挖掘的差分隐私保护方法。

背景技术

现实世界中的许多数据很容易建模为一个图形结构，实体表示为一个顶点，实体之间的交互表示为边。当图中一对顶点之间不仅仅存在一条边(一种边关系)的时候，将这样的图称之为多图(multigraph)，即多图结构使我们能够表示一对顶点之间的多个关系。频繁子图挖掘(FSM)旨在找到出现在多图数据集中的超过用户给定阈值的子图。

近年来，从单个大图中挖掘频繁模式已经成为研究热点，也被应用于各个领域，如社交网络中，两个人之间可能有诸如Facebook，Twitter，LinkedIn等多个关系，发现社交网络多图中的频繁子图对发现社会互动的机制是至关重要的。如生物信息学领域中通过合并异构基因组和表型数据创建了多图，对其执行频繁子图挖掘操作之后可以识别疾病基因；另外频繁子图挖掘在资源描述框架(RDF)知识图(主语宾语顶点对之间由多个不同的谓语连接)结构中也有重要应用。

然而，在多图数据中，一对顶点之间的相互关系信息更加丰富，尽管挖掘出的频繁子图可以潜在的提供有价值的信息，但如果数据中含有敏感信息(如社交网络多图中，用户之间的互动关系)，此时将挖掘结果未经处理直接发布或者共享出去的话，将会对参与数据的用户的隐私造成不可预知的威胁，即攻击者很容易从这些信息中推断或识别出参与者的隐私信息，所以频繁子图挖掘中的隐私保护问题也受到了广泛重视，需要采取措施来保护提供数据的用户的隐私。

目前，差分隐私已经成为最有发展潜力的隐私保护模型之一。差分隐私保护是通过在查询函数的返回值中加入适量的噪声来实现的，具有严格的数学证明，保证任一记录在数据集中或者不在数据集中时，对最终发布的查询结果几乎没有影响，使得攻击者无法得到查询结果间的差异。然而，在现有的满足差分隐私的频繁子图挖掘研究中主要针对单边图，无法应用到多图数据中。多图数据中频繁子图的挖掘会由于其丰富的图结构更容易泄露隐私，造成隐私泄露的问题主要是由于频繁子图模式和真实支持度计数。以社交网络图为例，如果攻击者利用这些未经处理的频繁子图模式和真实支持度信息，推断出了用户之间所存在的边关系，这就对参与数据的用户的隐私造成了威胁。

发明内容

本发明所要解决的是直接发布多图数据中挖掘的频繁子图模式及其真实支持度计数的时候，所导致的隐私泄露的问题，提供一种多图数据中频繁子图挖掘的差分隐私保护方法。

为解决上述问题，本发明是通过以下技术方案实现的：

多图数据中频繁子图挖掘的差分隐私保护方法，包括步骤如下：

步骤1、统计多图中每对顶点之间所包含的边关系类型，以得到每对顶点的多图子多边集；

步骤2、根据边关系类型的数量对步骤1所得到的多图子多边集进行分类统计，得到所有多图子多边集中最大边关系类型数量n；

步骤3、基于给定最大边关系限制数量L_max，对步骤2所得到的所有多图子多边集进行噪音频繁挖掘后，得到频繁种子集合；

步骤3.1、对所有的边关系类型利用向下闭包性质，得到具有不同边关系类型数量j的多边集合即候选子多边集C_j；

步骤3.2、基于每个候选子多边集C_j，对所有多图子多边集中，边关系类型数量大于最大边关系限制数量L_max的多图子多边集进行智能截断操作，得到每个候选子多边集C_j对应的截断多边集E'_j；

步骤3.3、计算每个候选子多边集C_j中的每个元素在对应的截断多边集E'_j中的支持度，并对其添加拉普拉斯噪音后，将噪音支持度大于等于设定阈值δ的元素加入到频繁种子集合中；

步骤4、对步骤3所得到的频繁种子集合进行深度优先遍历来扩展搜索空间，得到具有不同顶点对数i的子图集合即候选子图集Graph_i；

步骤5、分别计算步骤4所得到的各个候选子图集的最大支持度，并将其中最大支持度大于等于设定阈值δ的候选子图集作为筛选候选子图集；

步骤6、对于步骤5所得到的每个筛选候选子图集，分别计算该筛选候选子图集中的各个子图的支持度：若子图的支持度大于等于设定阈值δ，则该子图为频繁子图；否则，该子图为不频繁子图；

步骤7、对步骤6所选出的所有频繁子图进行差分隐私保护后，输出差分隐私保护后的频繁子图及其支持度；

上述i＝1,2,…,m，m为多图中顶点对数，j＝1,2,…,n，n为最大边关系类型数量。

上述步骤3中，最大边关系限制数量L_max人为给定，或根据以下方法确定：

首先，计算满足式(1)的最小的待求边关系类型数量n’，

其中，n为所有子多边集中最大的边关系类型数量，n’为待求边关系类型数量，z_j表示具有j种边关系类型的子多边集的数量，z_j∈z，z为边关系数量集，η为设定的权值；

接着，将所求得的最小的待求边关系类型数量n’和所有子多边集中最大边关系类型数量n中的较小值，作为最大边关系限制数量L_max。

上述步骤3.2的具体过程如下；

步骤3.2.1、如果候选子多边集C_j中的元素存在于当前多图子多边集中，则将该元素添加到暂存集C'_j中；

步骤3.2.2、根据暂存集C'_j中各个元素在该暂存集C'_j中的支持度，给定各个元素的初始权重，其中初始权重与支持度呈正比关系；

步骤3.2.3、从暂存集C'_j中挑选出当前最高权重的元素，并将该元素加入到截断多边集E'_j中，同时从暂存集C'_j中删除该元素；

步骤3.2.4、根据下公式更新暂存集C'_j中各个元素的权重，即

W'_h＝W_h+α_h*β

其中，W'_h为元素h更新后的权重，W_h为元素h更新前的权重，α_h为元素h中所含项的平均权重，H为元素h所含的项数，β为截断多边集E'_j中的元素数量；

步骤3.2.5、若截断多边集E'_j中元素的所有边关系类型数量未达到最大边关系限制数量L_max，则返回步骤3.2.3；否则，则当前多图子多边集的智能截断操作结束；

步骤3.2.6、对所有多图子多边集中，边关系类型数量大于最大边关系限制数量L_max的多图子多边集均进行步骤3.2.1-3.2.5的智能截断操作后，得到每个候选子多边集C_j对应的截断多边集E'_j；

上述j＝1,2,…,n，n为最大边关系类型数量。

上述步骤3.2.6之后，还进一步包括步骤如下：

步骤3.2.7、对频繁种子集合中的元素按照支持度从小到大的顺序排列。

与现有技术相比，本发明具有如下特点：

1.针对以往的频繁子图挖掘的差分隐私保护中，都是对单边图进行操作的，本发明考虑了在多图这一含有丰富信息的数据中进行频繁子图挖掘时可能存在的隐私问题，使用差分隐私的方法保护数据隐私性，设计了满足差分隐私的扰动机制算法，并且该方法也可以扩展到单边图的频繁模式挖掘当中。

2.为了提高挖掘结果可用性并保持较高的隐私保护等级，本发明限制多图中一对顶点之间所具有的边关系的数量，即计算多边拥有的边关系的最大限制数量L_max，在噪音挖掘频繁种子的过程中，对于数量超过最大限制的多边，将其进行截断。

附图说明

图1为多图数据中频繁子图挖掘的差分隐私保护方法的流程图。

图2为一个简单多图数据示意图。

图3为候选1-子图集合。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

由于多图数据中频繁子图的挖掘结果未经过隐私处理，直接发布频繁子图及其支持度将会导致个人信息的泄露，本发明提出一种多图数据中频繁子图挖掘的差分隐私保护方法，如图1所示，其具体步骤如下：

步骤1、统计多图G中每对顶点之间所包含的边关系类型，以得到每对顶点的子多边集E_i，并将所有的子多边集组成多图的总多边集E＝{E_i}；i＝1,2,…,m；m为多图G中顶点对数。

多图G基于原始的多图数据集所获得，即从某一特定的网络中得到关于网络关系的子图G_i，各个网络的子图G_i则共同构成了多图G。如图2所示的一个简单多图数据G，其包含的子多边集有：第一对顶点之间的子多边集E₁＝{e₁，e₂，e₃}，第二对顶点之间的子多边集E₂＝{e₂，e₄}，第三对顶点之间的子多边集E₃＝{e₂，e₅}，第四对顶点之间的子多边集E₄＝{e₃}，第五对顶点之间的子多边集E₅＝{e₁，e₂，e₃}，第六对顶点之间的子多边集E₆＝{e₂}，第七对顶点之间的子多边集E₇＝{e₂，e₃}。则上述所有子多边集共同组成多图G的总多边集E＝{E_i}，其中i∈[1，7]。

步骤2、根据边关系类型的数量对子多边集进行分类统计，得到边关系数量集z＝{z_j}，其中z_j表示具有j种边关系类型的子多边集数量；j＝1,2,…,n，n为所有子多边集中最大边关系类型数量。

上述e₁、e₂、e₃、e₄、e₅表示不同的边关系类型，如图2中，e₁表示lunch关系，e₂表示facebook关系，e₃表示coauthor关系，e₄表示leisure关系，e₅表示word关系，即图2中具有5中不同的边关系类型，即n＝5。其中边关系数量为1的子多边集有E₄和E₆这两个多边，即z₁＝2。边关系数量为2的子多边集有E₂、E₃和E₇，即z₂＝3，边关系数量为3的子多边集有E₁和E₅，即z₃＝2。最后可以得到边关系数量集z＝{z_j}＝{z₁，z₂，z₃}＝{2，3，2}，j∈[1，3]，其中其中z_i表示具有j种边关系类型的子多边集数量。

步骤3、基于给定最大边关系限制数量L_max，对总多边集E中的所有子多边集进行噪音频繁挖掘，得到繁种子集合F¹；

上述最大边关系限制数量L_max既可以根据经验进行设定，也可以根据下述方法确定，即：

首先，计算满足下列公式的最小n’：

其中，z_j∈z，η为由用户根据实验设置的最优值，对于不同的实验数据集该值的设置可能也不相同。在实施例中，η设定为85％。在本实施例中，由于要大于等于由于因此只有在即L₁＝3时，才是满足式(1)的最小n’。

接着，将所求得的最小的待求边关系类型数量n’和所有子多边集中最大边关系类型数量n中的较小值，作为最大边关系限制数量L_max＝min{n’，n}。在本实施例中，L_max＝3。

考虑到随机截断多边的边关系所带来的信息损失和传播误差，在挖掘频繁种子的过程中，采用启发式的智能截断方法来尽可能的保留相关信息。具体来说，对所有子多边集进行噪音频繁挖掘，得到繁种子集合F¹的具体过程如下：

步骤3.1、对所有的边关系类型利用向下闭包性质，分别生成候选子多边集C_j；其中j表示候选子多边集中所包含的边关系类型的数量，j＝1,2,…,n，n为所有子多边集中最大边关系类型数量；

在本实施例中，候选子多边集C₁＝{e₁，e₂，e₃，e₄，e₅}；候选子多边集C₂＝{<e₁，e₂>，<e₁，e₃>，<e₁，e₄>，<e₁，e₅>，<e₂，e₃>，<e₂，e₄>，<e₂，e₅>，<e₃，e₄>，<e₃，e₅>，<e₄，e₅>}；候选子多边集C₃＝{<e₁，e₂，e₃>,<e₁，e₂，e₄>,<e₁，e₂，e₅>,<e₁，e₃，e₄>,<e₁，e₃，e₅>,<e₁，e₄，e₅>,<e₂，e₃，e₄>,<e₂，e₃，e₅>,<e₂，e₄，e₅>,<e₃，e₄，e₅>}；候选子多边集C₄＝{<e₁，e₂，e₃，e₄>,<e₁，e₂，e₃，e₅>,{<e₁，e₂，e₄，e₅>,<e₁，e₃，e₄，e₅>,<e₂，e₃，e₄，e₅>}；候选子多边集C₅＝{<e₁，e₂，e₃，e₄，e₅>}。

步骤3.2、基于候选子多边集C₁，依次对所有子多边集边关系类型大于最大边关系限制数量L_max的子多边集E_q进行智能截断操作，得到截断多边集E'₁；其中E_q∈E；即：

步骤3.2.1、如果候选子多边集C₁中的元素存在于当前子多边集E_q中，则将该元素添加到暂存集C'₁中；

步骤3.2.2、根据暂存集C'₁中各个元素在该暂存集C'₁中的支持度，给定各个元素的初始权重，其中初始权重与支持度呈正比关系；

步骤3.2.3、从暂存集C'₁中挑选出最高权重的元素，并将其加入到截断多边集E'₁中，同时从暂存集C'₁中删除该元素；

步骤3.2.4、根据下公式更新暂存集C'₁中各个元素的权重，即

W'_h＝W_h+α_h*β

其中，W'_h为元素h更新后的权重，W_h为元素h更新前的权重，α_h为元素h中所含项的平均权重，为H为元素h中所含的项数，β为当前截断多边集E'₁中的元素数量。

如图2所示的一个简单多图数据G，第二对顶点之间的子多边集E₂＝{e₂，e₄}，E₂的边关系类型数量是2，即它包含两个边关系类型e₂和e₄。以本实施例中的候选子多边集C₂＝{<e₁，e₂>，<e₁，e₃>，<e₁，e₄>，<e₁，e₅>，<e₂，e₃>，<e₂，e₄>，<e₂，e₅>，<e₃，e₄>，<e₃，e₅>，<e₄，e₅>}为例。其中，<e₁，e₂>就是候选子多边集C₂的一个元素，<e₁，e₅>中的e₁就是元素的项。

步骤3.2.5、重复步骤3.2.1-3.2.4的过程，直到所有子多边集E_q均进行智能截断操作，由此得到截断多边集E'₁；

步骤3.2.6、计算候选子多边集C₁中的每个元素在截断多边集E'₁中的支持度，并对其添加拉普拉斯噪音，最后将支持度大于等于阈值δ的元素加入到频繁种子集合F¹中；

使用拉普拉斯机制扰动每个元素的支持度，是为了使数据失真，从而达到隐私保护的效果。拉普拉斯机制是实现差分隐私保护的主要技术之一，而基于该机制所需要的噪音大小与全局敏感度Δq密切相关，Δq由以下公式计算得来：

根据Δq我们可以向每个元素的支持度中添加噪声Lap(Δq/ε)，得到每个元素的支持度，ε控制着隐私保护的程度，ε越小隐私保护程度越高。

步骤3.3、重复步骤3.2，直到候选子多边集C₂，C₃，C₄和C₅都得到了对应的截断多边集E'₂，E'₃，E'₄和E'₅，且其中支持度大于等于阈值δ的元素都被加入到了频繁种子集合F¹中。

步骤3.4、将频繁种子集合F¹中的每个元素按照支持度从小到大的顺序排列，得到排序后的频繁种子集合F¹＝{f₁,f₂,......}。

步骤4、对步骤3产生的频繁种子集合F¹，通过深度优先遍历(DFS)的方式来扩展搜索空间，得到不同大小的候选子图集Graph_i。其中，Graph_i为大小(即顶点对数)为i的候选子图集；i＝1,2,…,m；m为多图G中顶点对数。

步骤5、计算各个候选子图集的最大支持度，并将最大支持度大于等于设定阈值δ的候选子图集作为筛选候选子图集。

步骤5.1、使用频繁子图挖掘算法FSM来计算最大支持度集合ζ＝{ζ₁，ζ₂，ζ₃，...},ζ_i表示在候选i-子图集Graph_i中的i-子图所具有的最大支持度；

步骤5.2、使用二分搜索的方法来计算ζ中超过(大于等于)阈值δ的元素的数量，该数量即是所需要的最大频繁子图的大小M_g。

步骤5.3、选取候选子图集Graph中大小小于等于M_g的候选子图集作为筛选出的筛选候选子图集Graph_p。其中，Graph_p为大小(即顶点对数)为p的候选子图集，p＝1,2,…,M_g，M_g为最大频繁子图大小。

步骤6、对于步骤5所得到的每个筛选候选子图集，分别计算该筛选候选子图集中的各个子图的支持度：若子图的支持度大于等于设定阈值δ，则该子图为频繁子图；否则，该子图为不频繁子图。

步骤6.1、使用折半查找算法的思想来估算各个筛选候选子图集Graph_p所含有的频繁子图的个数n_p，p＝1,2,…,M_g，M_g为最大频繁子图大小。

步骤6.1.1、基于候选p-子图集合Graph_p，将Graph_p中的所有候选p-子图按照支持度升序进行排列，得到排序后的候选p-子图支持度集合Sup_p；

步骤6.1.2、设定支持度阈值δ＝2。令low＝0，即让low指向支持度集合Sup₁中的第一个元素。令high＝|Sup_p|-1，即让high指向支持度集合Sup_p中的最后一个元素。

步骤6.1.3、如果low≤high，设置

在Sup_p中找到第mid个元素s_mid，向s_mid中加入拉普拉斯噪音，得到支持度ns_mid；

步骤6.1.4、当ns_mid>δ时，high＝mid-1；当ns_mid<δ时，low＝mid+1；

步骤6.1.5、重复步骤6.1.3-6.1.4的过程，直到low＞high，最后输出|Sup_p|-1-high，即为候选p-子图集合Graph_p中所包含的频繁子图的个数n_p。

如图3所示的子图集合，是图2这个简单多图数据中所包含的候选1-子图Graph₁，对候选1-子图集合Graph₁中的所有子图的支持度按照升序排列后得到支持度集合Sup₁＝{1,1,1,1,1,1,2,2,2,2,2,3,6}。本实施例中计算得到n_p＝7。

步骤6.2、采用指数机制分别从每个候选子图Graph_p中挑选出n_p个频繁子图，并将挑选出的频繁子图组成了频繁子图总集合FG＝{FG_p}，其中p∈[1，M_g]。

考虑到直接从整个候选子图空间Graph_p中选择n_p个频繁子图效用性太低，所以在选择频繁模式之前先对候选集Graph_p进行一次候选剪枝操作，将噪声支持度小于阈值的候选模式剔除，具体过程如下：

步骤6.2.1、对于Graph_i中的每一个候选i-子图模式g，计算其支持度ns_g；

步骤6.2.2、把支持度ns_g≥δ的所有候选i-子图模式添加入筛选候选集S_i中，不满足阈值的则直接丢弃；

步骤6.2.3、使用指数机制从筛选候选集S_i中不放回的挑选一个子图g_i将子图g_i加入到频繁子图集合FG_i中；

步骤6.2.4、重复步骤6.2.3，直到不放回的挑选出n_i个频繁子图，并输出频繁子图模式集FG_i及其对应的噪音计数。

步骤6.2.5、重复步骤6.2.1-6.2.4，直到从候选子图总集合Graph＝{Graph₁，Graph₂，Graph₃，...,Graph_Mg}中挑选出了所有的频繁子图，输出频繁子图模式总集合FG＝{FG_p},其中p∈[1，M_g]。

步骤7、对步骤6所选出的所有频繁子图进行差分隐私保护，输出差分隐私保护后的频繁子图及其支持度。

本发明是用来处理多图数据中挖掘频繁子图时存在的隐私问题，发布满足差分隐私保护的频繁子图模式及其支持度。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.多图数据中频繁子图挖掘的差分隐私保护方法，其特征是，包括步骤如下：

2.根据权利要求1所述多图数据中频繁子图挖掘的差分隐私保护方法，其特征是，步骤3中，最大边关系限制数量L_max人为给定，或根据以下方法确定：

首先，计算满足式(1)的最小的待求边关系类型数量n’，

3.根据权利要求1所述多图数据中频繁子图挖掘的差分隐私保护方法，其特征是，步骤3.2的具体过程如下；

步骤3.2.4、根据下公式更新暂存集C'_j中各个元素的权重，即

W'_h＝W_h+α_h*β

上述j＝1,2,…,n，n为最大边关系类型数量。

4.根据权利要求3所述多图数据中频繁子图挖掘的差分隐私保护方法，其特征是，步骤3.2.6之后，还进一步包括步骤如下：