CN107092837A

CN107092837A - 一种支持差分隐私的频繁项集挖掘方法和系统

Info

Publication number: CN107092837A
Application number: CN201710273748.2A
Authority: CN
Inventors: 丁晓锋; 金海�; 陈龙
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-04-25
Filing date: 2017-04-25
Publication date: 2017-08-25

Abstract

本发明公开了一种支持差分隐私的频繁项集挖掘方法，属于计算机数据隐私保护和数据挖掘领域。本发明包括：采用截断事务的方法去处理原始数据集，用基于指数差分机制的方法去避免截断过程中泄露隐私；然后我们构造一个树形结构，每个节点对应事务的一个项，关于事务的频繁信息存储在事务最后一个项对应的节点中，用拉普拉斯噪声初始化每个节点的支持度以避免在构造树的过程中泄露隐私；然后我们将构造的树转化为一颗FP树，便于我们使用FP‑Growth方法去挖掘频繁项集。本发明能够使发布后的频繁项集满足差分隐私的安全需求，同时能够满足相比于原始频繁项集，发布频繁项集与其相似度较高，具有较高的数据可用性，同时相比于以往的算法，具有更高的效率。

Description

一种支持差分隐私的频繁项集挖掘方法和系统

技术领域

本发明属于计算机数据隐私保护和数据挖掘技术领域，更具体地，涉及一种支持差分隐私的频繁项集挖掘方法和系统。

背景技术

随着大数据时代的到来，越来越多的数据正在被一些统计机构采集和分析。有时，这些机构会发布一些数据供第三方使用，而这些数据可能涵盖数据被采集者的一些敏感信息，例如某病人患有某种疾病等。因此，直接发布这些数据会造成数据被采集者的隐私泄露。为了保护数据被采集者的隐私，数据发布方必须采取隐私保护措施。

目前，隐私保护被广泛应用于频繁项集(frequent itemsets)挖掘中，现有常用的支持隐私保护的频繁项集挖掘方法主要是PrivBasis方法，其主要是采用迭代的思想去挖掘频繁项集，PrivBasis提出了一种θ-基集合的概念，他们通过找出一个θ-基集合，因为任何一个项集都是一个θ-基的子集，所以他们通过θ-基找出所有的频繁项集及其支持度。

然而，现有的上述频繁项集挖掘方法存在以下技术问题：首先，该方法在迭代的过程中需要多次访问原始数据集，会导致挖掘方法的效率低下；同时，由于该方法会产生较大的θ-基集合,绝大多数产生的θ-基都和最后的挖掘结果没有任何关系，从而导致资源浪费。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供一种支持差分隐私的频繁项集挖掘方法和系统，其目的在于，解决现有频繁项集挖掘方法中需要多次访问原始数据集导致挖掘方法的效率低下，以及由于产生大量无用的θ-基导致资源浪费的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种支持差分隐私的频繁项集挖掘方法，包括以下步骤：

(1)接收输入数据集D＝{D₁，D₂，…，D_n}、隐私预算ε、以及返回的频繁项集数量k，根据输入数据集D确定常数集合C＝{C₁，C₂，…，C_m}，并根据常数集合C确定长度阈值l，根据指数差分的方法将输入数据集D中长度大于l的事务截断为长度为l的事务，从而形成新的输入数据集DN，其中数据集D中的每一个元素被称为一个事务，其表示一个项的集合，n表示事务的数量，m表示输入数据集D中事务的最大长度，C_m表示长度为m的事务的个数；

(2)根据步骤(1)得到的输入数据集DN构造树形结构；,

(3)将步骤(2)得到的树形结构转换为FP树，通过最小二乘法对转换后得到的FP树进行处理，以得到新FP树；

(4)采用FP-Growth算法对新FP树进行数据挖掘，以得到频繁项集，对得到的频繁项集的支持度添加拉普拉斯噪声，对添加拉普拉斯噪声后的频繁项集而言，按照项集支持度从大到小的排序输出支持度最大的k个频繁项集。

优选地，步骤(1)具体包括以下子步骤：

(1-1)接收输入数据集D＝{D₁，D₂，…，D_n}、隐私预算ε，根据输入数据集确定常数集合C＝{C₁，C₂，…，C_m}，并根据常数集合C确定长度阈值l，使之满足如下公式：

p为比例因子，其取值范围是0.7至0.9；

(1-2)扫描输入数据集D，以获取指数差分方法中所使用的打分函数q：

q(D,N_g)＝f_D(N_g)

其中g的取值是从1到输入数据集D中项的总个数，N_g表示输入数据集D中某个事务的一个项，f_D(N_g)表示项N_g在输入数据集D中出现的次数，打分函数q用于表示某个项在输入数据集D中的支持度；

(1-3)根据打分函数q获取输入数据集D中各个项的选取概率如下：

其中z表示某个需要截断的事务中项的个数，ε₁表示计算选取概率过程中所采用的第一隐私预算因子，其取值范围是0.1到0.3之间，S(q)表示打分函数q的敏感度，其是根据如下公式确定：

其中q(D,r)表示根据输入数据集D得到的所有项的打分函数q(D,N_g)所组成的集合，D′表示输入数据集D的相邻数据集，其是通过将输入数据集D中增加或删除一个事务所形成的；

(1-4)根据获取的输入数据集D中各个项的选取概率采用指数差分的方法截断输入数据集D中所有长度大于l的事务，以得到新输入数据集DN；

优选地，步骤(2)具体包括以下子步骤：

(2-1)遍历步骤(1)得到的输入数据集DN，以得到所有的项，计算每个项I_h在输入数据集DN中的支持度，对全部项按照其支持度进行从大到小的排序，并针对输入数据集DN中的每个事务，将其所包括的项按照上述项的排序方式进行排序。

(2-2)新建树形结构，初始化一个空的根节点，依次将输入数据集DN中排序后的每个事务作为树枝加到树形结构中，事务的每个项对应一个节点，该事务中的第一个项作为根节点的子节点，其中树形结构中位于一个树枝上的项具有相同的前缀，若一个事务中某个项具有与其它事务相同的前缀，则只需对该事务中剩余的项构造节点，每个节点具有属性值，包括项的名称、以及在树形结构中具有相同前缀的项在输入数据集DN中的支持度，利用拉普拉斯函数初始化节点的支持度，即laplace(S(Q)/ε₂)，对每个事务对应的树形结构中的最后一个节点的支持度进行加1操作，将所有事务添加到树形结构中，从而得到最终的树形结构；其中ε₂表示初始化每个节点的支持度过程中所采用的第二隐私预算因子，其取值范围是0.5到0.7之间，S(Q)表示采用拉普拉斯函数初始化节点支持度的敏感度，其是按照如下公式确定：

其中Q表示树形结构中每个节点的支持度的集合，节点的支持度等于以该节点作为树枝上最后一个节点的事务在输入数据集DN中的支持度加上该节点采用拉普拉斯噪声初始化的支持度。

优选地，步骤(3)具体包括以下子步骤：

(3-1)将树形结构中每个节点的支持度传递到其所有祖先节点，接收到该支持度的各个祖先节点将其支持度加上所接收到的支持度作为新的支持度，从而形成FP树；

(3-2)使用最小二乘法对FP树中所有节点的支持度所组成的支持度向量进行处理，以满足同一父节点下所有子节点的支持度之和小于该父亲节点的支持度，从而得到新FP树。

优选地，步骤(3-2)中最小二乘法所使用的的目标函数如下公式所示：

其中minimize表示求最小值，是调整后的支持度向量，是调整前的支持度向量。

优选地，目标函数的其约束条件为：

其中c是一个y*y大小的方阵，y表示FP树中所有节点的数量，矩阵c中的矩阵元素是按照如下公式确定:

其中，succ(w_u)代表FP树中某个节点w_u的子节点。

优选地，步骤(4)中，添加拉普拉斯噪声是通过计算实现，其中，ε₃表示向频繁项集支持度添加噪声所采用的第三隐私预算因子，其取值为ε-ε₁-ε₂，ΔP表示添加拉普拉斯噪声的敏感度，且等于：

ΔP＝|P(D)-P(D′)|＝t

其中，P表示得到的频繁项集的集合，t是得到的频繁项集的个数。

按照本发明的另一方面，提供了一种支持差分隐私的频繁项集挖掘系统，包括：

第一模块，用于接收输入数据集D＝{D₁，D₂，…，D_n}、隐私预算ε、以及返回的频繁项集数量k，根据输入数据集D确定常数集合C＝{C₁，C₂，…，C_m}，并根据常数集合C确定长度阈值l，根据指数差分的方法将输入数据集D中长度大于l的事务截断为长度为l的事务，从而形成新的输入数据集DN，其中数据集D中的每一个元素被称为一个事务，其表示一个项的集合，n表示事务的数量，m表示输入数据集D中事务的最大长度，C_m表示长度为m的事务的个数；

第二模块，用于根据第一模块得到的输入数据集DN构造树形结构；

第三模块，用于将第二模块得到的树形结构转换为FP树，通过最小二乘法对转换后得到的FP树进行处理，以得到新FP树；

第四模块，用于采用FP-Growth算法对新FP树进行数据挖掘，以得到频繁项集，对得到的频繁项集的支持度添加拉普拉斯噪声，对添加拉普拉斯噪声后的频繁项集而言，按照项集支持度从大到小的排序输出支持度最大的k个频繁项集。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，，能够取得下列有益效果：

(1)本发明能够解决现有频繁项集挖掘方法中需要多次访问原始数据集从而导致挖掘方法效率低下的技术问题：由于本发明采用了FP-Growth方法挖掘频繁项集，在整个挖掘过程中只需要访问输入数据集两次，挖掘效率高；

(2)本发明能够解决现有频繁项集挖掘方法中由于产生大量无用的θ-基导致资源浪费的技术问题：由于本发明在实现过程中不会产生无用的θ-基，因此避免了资源浪费的情况发生。

(3)经过本方法挖掘得到的频繁项集可用性高，与不经过隐私处理得到的真实频繁项集相似度高。

(4)本发明通过差分隐私的方法，能够完全避免数据挖掘过程中个体隐私信息的泄露。

(5)本发明步骤(3)中得到的树形结构，相比于以往的树结构可以保证更小的敏感度。

(6)本发明的实现方式简单，速度快。

附图说明

图1是本发明支持差分隐私的频繁项集挖掘方法的总体流程图；

图2是本发明方法中根据输入数据集构造的树形结构；

图3是本发明方法中根据输入数据集构造的树形结构转换得到的FP树；

图4是本发明方法中关于项d的条件FP树。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明支持差分隐私的频繁项集挖掘方法包括以下步骤：

(1)接收输入数据集D＝{D₁，D₂，…，D_n}、隐私预算ε、以及返回的频繁项集数量k，根据输入数据集D确定常数集合C＝{C₁，C₂，…，C_m}，并根据常数集合C确定长度阈值l，根据指数差分的方法将输入数据集D中长度大于l的事务截断为长度为l的事务，从而形成新的输入数据集DN，其中数据集D中的每一个元素被称为一个事务，其表示一个项的集合，n表示事务的数量，m表示输入数据集D中事务的最大长度，C₁表示长度为1的事务的个数，C₂表示长度为2的事务的个数，…，以此类推，C_m表示长度为m的事务的个数；例如，如下表1所示：

元素序号	事务
		1	a,b,c
2	a,b
		3	c,d
4	c,d,e
		5	a,c,d,e,f
6	b,c
		7	a,b,c
8	a,c,e
		9	a,d,e
10	b,c,e

表1

从上表中可以看到，输入数据集D包括10个事务，其中长度为1的事务的个数为0，即C₁＝0，长度为2的事务的个数为3，即C₂＝3，长度为3的事务的个数为6，即C₃＝6，长度为4的事务的个数为0，即C₄＝0，长度为5的事务的个数为1，即C₅＝1，且m＝5。

本步骤具体包括以下子步骤：

即找出一个正整数l,使得长度小于等于l的事务个数之和大于等于总事务数的一个百分比，其中p的取值范围是0.7至0.9，优选值是0.8；

q(D,N_g)＝f_D(N_g)

其中g的取值是从1到输入数据集D中项的总个数，N_g表示输入数据集D中某个事务的一个项，f_D(N_g)表示项N_g在输入数据集D中出现的次数，比如，从上述表1可以看出，g的取值是从1到6，N₁＝a,N₂＝b,N₃＝c,N₄＝d,N₅＝e,N₆＝f，且有f_D(N₁)＝6,f_D(N₂)＝5，f_D(N₃)＝8，f_D(N₄)＝4，f_D(N₅)＝5，f_D(N₆)＝1；打分函数q用于表示某个项在输入数据集D中的支持度；

其中z表示某个需要截断的事务中项的个数，ε₁表示计算选取概率过程中所采用的第一隐私预算因子，其取值范围是0.1到0.3之间，优选为0.1，S(q)表示打分函数q的敏感度，其是根据如下公式确定：

其中q(D,r)表示根据输入数据集D得到的所有项的打分函数q(D,N_g)所组成的集合，对于上表1的实例而言，q(D,r)＝{6,5,8,4,5,1}；D′表示输入数据集D的相邻数据集，其是通过将输入数据集D中增加或删除一个事务所形成的；

如下表2所示，其为经过本步骤处理后得到的新的输入数据集DN：

元素序号	事务
		1	a,b,c
2	a,b
		3	c,d
4	c,d,e
		5	a,c,d,e
6	b,c
		7	a,b,c
8	a,c,e
		9	a,d,e
10	b,c,e

表2

(2)根据步骤(1)得到的输入数据集DN构造树形结构；,

本步骤具体包括以下子步骤:

(2-1)遍历步骤(1)得到的输入数据集DN，以得到所有的项，计算每个项Ih在输入数据集DN中的支持度(其计算过程和上述步骤(1-2)中的描述完全相同，在此不再赘述)，对全部项按照其支持度进行从大到小的排序(如下表3所示)，并针对输入数据集DN中的每个事务，将其所包括的项按照上述项的排序方式进行排序(如下表4所示)。

项	支持度
		c	8
a	6
		b	5
e	5
		d	4

表3

元素序号	排序后的事务
		1	c,a,b
2	a,b
		3	c,d
4	c,e,d
		5	c,a,e,d
6	c,b
		7	c,a,b
8	c,a,e
		9	a,e,d
10	c,b,e

表4

(2-2)新建树形结构，初始化一个空的根节点，依次将输入数据集DN中排序后的每个事务作为树枝加到树形结构中，事务的每个项对应一个节点，该事务中的第一个项作为根节点的子节点，其中树形结构中位于一个树枝上的项具有相同的前缀，若一个事务中某个项具有与其它事务相同的前缀，则只需对该事务中剩余的项构造节点，每个节点具有属性值，包括项的名称(例如c)、以及在树形结构中具有相同前缀的项在输入数据集DN中的支持度，利用拉普拉斯函数初始化节点的支持度，即laplace(S(Q)/ε₂)，对每个事务对应的树形结构中的最后一个节点的支持度进行加1操作，将所有事务添加到树形结构中，从而得到最终的树形结构；其中ε₂表示初始化每个节点的支持度过程中所采用的第二隐私预算因子，其取值范围是0.5到0.7之间，优选为0.5，S(Q)表示采用拉普拉斯函数初始化节点支持度的敏感度，其是按照如下公式确定：

例如，对于事务1，其包含项a,b,c，排序后为c,a,b,将其加入到树中，初始化3个节点c,a和b,并向b节点的支持度加1，构造完成的树形结构如图2所示。

(3)将步骤(2)得到的树形结构转换为频繁模式树(Frequent pattern tree，简称FP树)，通过最小二乘法对转换后得到的FP树进行处理，以得到新FP树；

本步骤具体包括以下子步骤：

(3-1)将树形结构中每个节点的支持度传递到其所有祖先节点，接收到该支持度的各个祖先节点将其支持度加上所接收到的支持度作为新的支持度，从而形成FP树，如图3所示；

对于本发明的树形结构,相比于FP树,只是每个事物的最后一个节点包含其频繁度信息，而FP树是关于这个事务相关的每个节点都包含其频繁度信息，因此我们需要将最后一个节点的频繁度传递到每个相关的节点上。因为在做差分隐私处理的时候将每个节点都当作最后一个节点采用了噪声初始化，因此传递的时候，我们将每个节点的支持度传递给其所有的祖先节点。

(3-2)使用最小二乘法对FP树中所有节点的支持度所组成的支持度向量进行处理，以满足同一父节点下所有子节点的支持度之和小于该父亲节点的支持度，从而得到新FP树；

经过步骤(3-1)转化得到的FP树可能有部分节点违背了这个原则，因此我们需要做出调整，同时我们需要保证调整做出的改变尽可能的小，以保证挖掘结果的可用性，调整的目标函数如下公式所示：

其中minimize表示求最小值，是调整后的支持度向量，是调整前的支持度向量，对于上述目标函数，其约束条件为：

其中c是一个y*y大小的方阵，其中y表示FP树中所有节点的数量，矩阵c中的矩阵元素是按照如下公式确定:

其中，succ(w_u)代表FP树中某个节点w_u的子节点。

(4)采用FP-Growth算法对新FP树进行数据挖掘，以得到频繁项集，对得到的频繁项集的支持度添加拉普拉斯噪声(即计算laplace(ΔP/ε₃))，对添加拉普拉斯噪声后的频繁项集而言，按照项集支持度从大到小的排序输出支持度最大的k个频繁项集。其中，ε₃表示向频繁项集支持度添加噪声所采用的第三隐私预算因子，其取值为ε-ε₁-ε₂，添加拉普拉斯噪声的敏感度按照如下公式确定：

ΔP＝|P(D)-P(D′)|＝t

例如，按照FP-Growth算法挖掘频繁项集，例如对于项d,设定支持度阈值时3，d的支持度为5.91，所以<d>是频繁项集，d在新FP树中有四个路径分别是<c,a,e,d>,<c,e,d>,<c,d>,<a,e,d>，根据这4个路径构造d的条件FP树如图4所示，挖掘得到d的频繁模式<e,d>,<c,d>和<c,e,d>。挖掘完成后向所有的频繁模式支持度加入噪声，排序输出最大的k个频繁模式。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种支持差分隐私的频繁项集挖掘方法，其特征在于，包括以下步骤：

(2)根据步骤(1)得到的输入数据集DN构造树形结构；,

2.根据权利要求1所述的频繁项集挖掘方法，其特征在于，步骤(1)具体包括以下子步骤：

其中p为比例因子，其取值范围是0.7至0.9；

q(D,N_g)＝f_D(N_g)

(1-4)根据获取的输入数据集D中各个项的选取概率采用指数差分的方法截断输入数据集D中所有长度大于l的事务，以得到新输入数据集DN。

3.根据权利要求2所述的频繁项集挖掘方法，其特征在于，步骤(2)具体包括以下子步骤：

(2-1)遍历步骤(1)得到的输入数据集DN，以得到所有的项，计算每个项Ih在输入数据集DN中的支持度，对全部项按照其支持度进行从大到小的排序，并针对输入数据集DN中的每个事务，将其所包括的项按照上述项的排序方式进行排序。

(2-2)新建树形结构，初始化一个空的根节点，依次将输入数据集DN 中排序后的每个事务作为树枝加到树形结构中，事务的每个项对应一个节点，该事务中的第一个项作为根节点的子节点，其中树形结构中位于一个树枝上的项具有相同的前缀，若一个事务中某个项具有与其它事务相同的前缀，则只需对该事务中剩余的项构造节点，每个节点具有属性值，包括项的名称(例如c)、以及在树形结构中具有相同前缀的项在输入数据集DN中的支持度，利用拉普拉斯函数初始化节点的支持度，即laplace(S(Q)/ε₂)，对每个事务对应的树形结构中的最后一个节点的支持度进行加1操作，将所有事务添加到树形结构中，从而得到最终的树形结构；其中ε₂表示初始化每个节点的支持度过程中所采用的第二隐私预算因子，其取值范围是0.5到0.7之间，S(Q)表示采用拉普拉斯函数初始化节点支持度的敏感度，其是按照如下公式确定：

4.根据权利要求3所述的频繁项集挖掘方法，其特征在于，步骤(3)具体包括以下子步骤：

5.根据权利要求4所述的频繁项集挖掘方法，其特征在于，步骤(3-2)中最小二乘法所使用的的目标函数如下公式所示：

6.根据权利要求5所述的频繁项集挖掘方法，其特征在于，目标函数的其约束条件为：

其中，succ(w_u)代表FP树中某个节点w_u的子节点。

7.根据权利要求5所述的频繁项集挖掘方法，其特征在于，步骤(4)中，添加拉普拉斯噪声是通过计算实现，其中，ε₃表示向频繁项集支持度添加噪声所采用的第三隐私预算因子，其取值为ε-ε₁-ε₂，ΔP表示添加拉普拉斯噪声的敏感度，且等于：

ΔP＝|P(D)-P(D′)|＝t

8.一种支持差分隐私的频繁项集挖掘系统，其特征在于，包括：