CN107526975A

CN107526975A - 一种基于差分隐私保护决策树的方法

Info

Publication number: CN107526975A
Application number: CN201710680315.9A
Authority: CN
Inventors: 孟小峰; 郭胜娜
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2017-08-10
Filing date: 2017-08-10
Publication date: 2017-12-29

Abstract

本发明涉及一种基于差分隐私保护决策树的方法，其步骤：对原始数据集以抽样概率p进行抽样得到数据集样本，且得到的数据集满足ln(1+p(e^ε‑1))‑差分隐私：对抽样得到的数据集进行初步处理，将连续属性和离散属性一起参与隐私保护下的决策选择；根据抽取的数据集样本初始化C4.5决策树，利用稀疏向量方法判断决策树中的结点是否继续分裂；递归构建决策树。本发明分类准确率越高，在保护隐私的同时，能够高效准确的构建决策树。

Description

一种基于差分隐私保护决策树的方法

技术领域

本发明涉及一种决策树隐私保护方法，特别是关于一种基于差分隐私保护决策树的方法。

背景技术

随着硬件和科技的发展，及时有效地收集大量数据已不是难题，但是如何从这些数据中挖掘有用的知识和价值是人们研究的难点。分类算法是人们常用的数据挖掘工具，它能够很好支持精确营销、个性偏好和信用分析等应用，广泛受到金融行业以及公司的喜爱。决策树是其中一种常见的分类算法，构建决策树时，首先需要决定依据哪个属性来分裂结点，这个决定是由结点中的数据所支配。此外，一旦决策树构建完成，叶节点是可以输出关于类的计数信息，也是由结点中的数据所支配。正因为上面的决定和输出都是直接基于数据，差分隐私认为涉及到对数据信息的发布都有可能泄露隐私，因此需要提供一种差分隐私保护决策树算法。

由于差分隐私保护决策树方法的核心技术为对决策树中非叶结点利用指数机制选取何种分裂规则来减少隐私预算的分配，以及如何对叶节点添加适量的拉普拉斯噪音。但是，它们主要有两点不足：1)仅仅在小的空间数据上进行决策分类，当数据点达到百万级别时，会产生大量的分类树，导致选择方法低效；2)在构建决策树过程中，会逐层分配隐私代价，当树的高度很大时，可能会耗尽隐私预算。

发明内容

针对上述问题，本发明的目的是提供一种基于差分隐私保护决策树的方法，该方法分类准确率越高，在保护隐私的同时，能够高效准确的构建决策树。

为实现上述目的，本发明采取以下技术方案：一种基于差分隐私保护决策树的方法，其特征在于包括以下步骤：1)对原始数据集以抽样概率p进行抽样得到数据集样本，且得到的数据集满足ln(1+p(e^ε-1))-差分隐私：2)对抽样得到的数据集进行初步处理，将连续属性和离散属性一起参与隐私保护下的决策选择；3) 根据抽取的数据集样本初始化C4.5决策树，利用稀疏向量方法判断决策树中的结点是否继续分裂；4)递归构建决策树。

进一步，所述步骤1)中，以假设的抽样概率p对原始数据集进行Bernoulli 随机抽样，被选中的样本放到空间样本中，否则舍弃，并计算整个决策树构建在抽样概率p下所需的隐私预算ε_p；其中，隐私预算ε_p是由数据拥有者或是数据发布者根据用户的隐私需求所预先指定的，隐私需求越高，则隐私预算ε_p值越小，ε_p＝ε₁+ε₂，ε₁表示第一阶段隐私预算，ε₂表示第二阶段隐私预算。

进一步，所述步骤1)中，给定一个数据集D，且算法A在数据集D上满足ε- 差分隐私；如果方法A_p操作如下：以概率p从数据集D中抽取样本获得数据集D_p，然后算法A作用于数据集D_p，则数据集D_p满足ln(1+p(e^ε-1))-差分隐私。

进一步，所述步骤2)中，具体步骤为：2.1)设s代表任意连续属性值细分方案集S中的一个方案，u(D,s)表示当前方案s的可用性，对连续属性值细分方案集S中的方案s权重用指数机制以概率p(s)选中方案s；2.2)权重确定后，连续属性的细分方案s以概率直接和离散属性一起参与属性可用性选择；而离散属性就以概率参与属性选择。

进一步，所述概率p(s)为：

式中，ε为隐私预算，Δu表示敏感度。

进一步，所述步骤3)中，利用稀疏向量方法判断决策树中的结点是否继续分裂过程如下：3.1)确定阈值θ，将计数查询结果count()与阈值θ作对比，如果 count()＞θ，则为找到查询结果，否则继续；3.2)对阈值θ添加拉普拉斯噪音，得到加过拉普拉斯噪音之后的阈值noi(θ)；3.3)对每一个结点的查询结果count(v)添加拉普拉斯噪音，将得到的noicount(v)，并将添加拉普拉斯噪音的查询结果 noicount(v)与加过拉普拉斯噪音之后的阈值noi(θ)进行比较，如果 noicount(v)≥noi(θ)，说明此结点不满足隐私需求，需要将此结点进行分裂；如果 noicount(v)＜noi(θ)，将此节点定义为叶节点，然后对其中的结点进行归类标签。

进一步，所述步骤3.1)中，阈值θ的确定方法是：对不添加噪音构造出的决策树的叶节点进行计数，得到每一个叶节点计数查询 {count(v₁),count(v₂),...,count(v_n)}，然后对得到这些数值集合求得平均值作为最终要确定的阈值θ；v_i表示叶子节点，i＝1,2，…，n。

进一步，所述步骤3.3)中，添加拉普拉斯噪音进行响应计数查询的隐私保护：

式中，Lap(2/ε₁)为拉普拉斯噪音。

进一步，所述步骤4)中，构建过程如下：4.1)记录根节点在l₁层；4.2)当 l_i＜h时，遍历l_i+1中所有结点v_j；v_j∈l_i+1，l_i为当前层，h为树高度；4.3)若v_j是叶节点，则noicount(p(v_j))＝noicount(p(v_j))+noicount(v_j)，p(v_j)表示v_j的父结点；反之，S＝S∪v_j；4.4)将变量i加1，记录h-1层为当前层；4.5)当l_i＞1时，遍历l_i中结点v_j，且v_j∈S，并满足：noicount(p(v_j))＝noicount(p(v_j))+noicount(v_j)； 4.6)更新v_j的父结点，完成决策树构建。

本发明由于采取以上技术方案，其具有以下优点：1、本发明提出了融合抽样与SVT方法的决策树隐私保护方法，在满足差分隐私的情况下，采用伯努利抽样对大规模原始数据进行抽样，在构建决策树过程中，利用SVT方法来判断结点是否继续分裂；分类准确率越高。2、本发明选择max(D,s)为可用性函数的分类结果准确度高于以InfoGain(D,s)为可用性函数的分类结果，本发明采用在指数机制下 max(D,s)能够以更高的概率选择更好的分类属性，从而提高分类结果的准确度。3、本发明针对数据挖掘中经典的贪婪决策树C4.5的差分隐私保护，在新的大数据背景下保护隐私的同时，能够高效准确的构建决策树。采用Bernoulli抽样实验解决大数据问题，同时利用SVT方法来判断结点是否分裂，如果满足分裂条件，则根据指数机制选择分类属性的方案。4、本发明为了减少查询次数造成的隐私预算的快速消耗，采用SVT方法，即通过阈值的办法来控制计数查询中添加的噪音量。

具体实施方式

下面结合实施例对本发明进行详细的描述。

本发明提供一种基于差分隐私保护决策树的方法，该方法针对数据挖掘中经典的贪婪决策树C4.5的差分隐私保护，向训练数据集提交查询，在数据集计算查询答案，然后差分隐私保护机制以某种方式来更改此答案，以达到保护数据集中每一个人的隐私的目的。本发明包括以下步骤：

1)采用Bernoulli(伯努利)随机抽样原理对原始数据集以抽样概率p进行抽样得到数据集样本，且得到的数据集满足ln(1+p(e^ε-1))-差分隐私：

以假设的抽样概率p对原始数据集进行Bernoulli随机抽样，被选中的样本放到空间样本中，否则舍弃，并计算整个决策树构建在抽样概率p下所需的隐私预算ε_p。其中，隐私预算ε_p是由数据拥有者或是数据发布者根据用户的隐私需求所预先指定的，隐私需求越高，则隐私预算ε_p值越小，通常设为0.01，0.1或是1 等。ε_p＝ε₁+ε₂，ε₁表示第一阶段隐私预算，ε₂表示第二阶段隐私预算。

为使得隐私保护决策树算法满足ε-差分隐私而计算出的隐私预算ε_p值得到保证，Bernoulli抽样方法需满足ln(1+p(e^ε-1))-差分隐私：

给定一个数据集D，且算法A在数据集D上满足ε-差分隐私。如果方法A_p操作如下：以概率p从数据集D中抽取样本获得数据集D_p，然后算法A作用于数据集D_p，则数据集D_p满足ln(1+p(e^ε-1))-差分隐私。其中，ε是隐私预算。

ε-差分隐私：对于任何一对邻近数据集D和D'，一个随机函数B满足ε-差分隐私，对于任何S∈Rang(B)，有:

Pr[A(D)＝S]≤e^ε·Pr[A(D')＝S]；

式中，Pr表示概率，S表示细分方案集。

通过ln(1+p(e^ε-1))-差分隐私，使得Bernoulli随机抽样出来的新数据集上进行相应的决策树构建，且能够保证抽样出的数据集同样满足特定的隐私代价。就可以在选择出的能够一定程度代表整体数据特征的记录进行后续隐私保护决策树构建。

2)对抽样得到的数据集进行初步处理，将连续属性和离散属性一起参与隐私保护下的决策选择，以减少调用指数机制次数；

2.1)设s代表任意连续属性值细分方案集S中的一个方案，u(D,s)表示当前方案s的可用性。为了使得连续属性和离散属性一起参与选择，对连续属性值细分方案集S中的方案s权重用指数机制以如下的概率选中方案s：

式中，Δu表示敏感度。

2.2)权重确定后，连续属性的细分方案s以概率直接和离散属性一起参与属性可用性选择；而离散属性就以概率参与属性选择。

上述步骤中，确定在度量属性细分方案可用性时选用的可用性函数：信息增益和最大类频数和。

设x表示记录中的某个属性，对x细分方案可表示为s:x→{x₁,x₂,...,x_q}，x₁,x₂,...,x_q表示x的细分值。D_x表示属性值为x的数据集，|D_x|表示D_x的记录个数。 D_xj表示属性值为x_j(j＝1,2,...,q)构成的数据集。细分方案s:x→{x₁,x₂,...,x_q}就是将数据集D_x划分成若干个子数据集D_x1,D_x2,...,D_xq。设数据集D_x的分类属性有m个不同的取值，即定义了m个不同的类C_i(i＝1,2,...,m)，每个类C_i中的记录个数为c_i。

信息增益的可用性函数，即u(D,s)＝InfoGain(D,s)；首先计算数据集D_x的熵：

其中：p_i＝c_i/|D_x|。方案s:x→{x₁,x₂,...,x_q}产生的信息增益为 InfoGain(D，s)＝I(D_x)-H(D_x)，其中，是所有子集的熵的加权和，I(D_xj)是数据集D_xj的熵。由于I(D_r)的最大值是log₂m，E(D_x)的最小值为 0。所以信息增益函数的敏感度为Δu＝log₂m。

最大类频数和的可用性函数，即u(D,s)＝max(D,s)；其中，

对于D_x的任一子集D_xj，是指具有最多元组的结点中的记录个数。由上式可以看出，max(D,s)的敏感度为1。因此，本发明采用最大类频数和的可用性函数。

3)根据抽取的数据集样本初始化C4.5决策树，利用SVT(稀疏向量)方法判断决策树中的结点是否继续分裂，从而使得隐私预算的分配不再依赖于树的高度，解决递归构建决策树时隐私预算的快速耗尽的问题。

由于隐私预算分配与决策树的高度息息相关，树的高度过高，会使得隐私预算快速耗尽，每次查询和选择分裂属性的隐私预算ε很小，从而噪音量变大决策导致精度快速下降；树的高度过低，会直接影响决策树的可用性与准确度。以往隐私保护方法中实验都是根据用户的需求，将决策树设为固定高度。

SVT方法是用来查找大于某个阈值的查询计数。利用SVT(稀疏向量)方法判断决策树中的结点是否继续分裂过程如下：

3.1)确定阈值θ，将计数查询结果count()与阈值θ作对比，如果count()＞θ，则为找到查询结果，否则继续。

阈值θ的确定方法是：对不添加噪音构造出的决策树的叶节点进行计数，得到每一个叶节点计数查询{count(v₁),count(v₂),...,count(v_n)}，然后对得到这些数值集合求得平均值作为最终要确定的阈值θ。其中，v_i表示叶子节点，i＝1,2，…，n。

3.2)对阈值θ添加拉普拉斯噪音，得到加过拉普拉斯噪音之后的阈值noi(θ)；

3.3)对每一个结点的查询结果count(v)添加拉普拉斯噪音，将得到的 noicount(v)，并将添加拉普拉斯噪音的查询结果noicount(v)与加过拉普拉斯噪音之后的阈值noi(θ)进行比较，如果noicount(v)≥noi(θ)，说明此结点不满足隐私需求，需要将此结点进行分裂；如果noicount(v)＜noi(θ)，可以将此节点定义为叶节点，然后对其中的结点进行归类标签。

步骤3.3)中，添加拉普拉斯噪音进行响应计数查询的隐私保护：

式中，Lap(2/ε₁)为拉普拉斯噪音。

在利用SVT方法判断结点是否分裂的过程中，并不会像以往的通过不断迭代分割隐私预算来保护隐私，它每次判断所需的隐私预算值都为ε₁，这就不会因为多次迭代而迅速消耗隐私预算，从而造成噪音量大。

4)递归构建决策树：

4.1)记录根节点在l₁层；

4.2)当l_i＜h时，遍历l_i+1中所有结点v_j；v_j∈l_i+1，l_i为当前层，h为树高度；

4.3)若v_j是叶节点，则noicount(p(v_j))＝noicount(p(v_j))+noicount(v_j)， p(v_j)表示v_j的父结点；反之，S＝S∪v_j；

4.4)将变量i加1，记录h-1层为当前层；

4.5)当l_i＞1时，遍历l_i中结点v_j，且v_j∈S，并满足：

noicount(p(v_j))＝noicount(p(v_j))+noicount(v_j)；

4.6)更新v_j的父结点，完成决策树构建。

上述各实施例仅用于说明本发明，各部件的结构、尺寸、设置位置及形状都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别部件进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种基于差分隐私保护决策树的方法，其特征在于包括以下步骤：

1)对原始数据集以抽样概率p进行抽样得到数据集样本，且得到的数据集满足ln(1+p(e^ε-1))-差分隐私：

2)对抽样得到的数据集进行初步处理，将连续属性和离散属性一起参与隐私保护下的决策选择；

3)根据抽取的数据集样本初始化C4.5决策树，利用稀疏向量方法判断决策树中的结点是否继续分裂；

4)递归构建决策树。

2.如权利要求1所述的一种基于差分隐私保护决策树的方法，其特征在于：所述步骤1)中，以假设的抽样概率p对原始数据集进行Bernoulli随机抽样，被选中的样本放到空间样本中，否则舍弃，并计算整个决策树构建在抽样概率p下所需的隐私预算ε_p；其中，隐私预算ε_p是由数据拥有者或是数据发布者根据用户的隐私需求所预先指定的，隐私需求越高，则隐私预算ε_p值越小，ε_p＝ε₁+ε₂，ε₁表示第一阶段隐私预算，ε₂表示第二阶段隐私预算。

3.如权利要求1或2所述的一种基于差分隐私保护决策树的方法，其特征在于：所述步骤1)中，给定一个数据集D，且算法A在数据集D上满足ε-差分隐私；如果方法A_p操作如下：以概率p从数据集D中抽取样本获得数据集D_p，然后算法A作用于数据集D_p，则数据集D_p满足ln(1+p(e^ε-1))-差分隐私。

4.如权利要求1所述的一种基于差分隐私保护决策树的方法，其特征在于：所述步骤2)中，具体步骤为：

2.1)设s代表任意连续属性值细分方案集S中的一个方案，u(D,s)表示当前方案s的可用性，对连续属性值细分方案集S中的方案s权重用指数机制以概率p(s)选中方案s；

5.如权利要求4所述的一种基于差分隐私保护决策树的方法，其特征在于：所述概率p(s)为：

式中，ε为隐私预算，Δu表示敏感度。

6.如权利要求1所述的一种基于差分隐私保护决策树的方法，其特征在于：所述步骤3)中，利用稀疏向量方法判断决策树中的结点是否继续分裂过程如下：

3.1)确定阈值θ，将计数查询结果count()与阈值θ作对比，如果count()＞θ，则为找到查询结果，否则继续；

3.3)对每一个结点的查询结果count(v)添加拉普拉斯噪音，将得到的noicount(v)，并将添加拉普拉斯噪音的查询结果noicount(v)与加过拉普拉斯噪音之后的阈值noi(θ)进行比较，如果noicount(v)≥noi(θ)，说明此结点不满足隐私需求，需要将此结点进行分裂；如果noicount(v)＜noi(θ)，将此节点定义为叶节点，然后对其中的结点进行归类标签。

7.如权利要求6所述的一种基于差分隐私保护决策树的方法，其特征在于：所述步骤3.1)中，阈值θ的确定方法是：对不添加噪音构造出的决策树的叶节点进行计数，得到每一个叶节点计数查询{count(v₁),count(v₂),...,count(v_n)}，然后对得到这些数值集合求得平均值作为最终要确定的阈值θ；v_i表示叶子节点，i＝1,2，…，n。

8.如权利要求6或7所述的一种基于差分隐私保护决策树的方法，其特征在于：所述步骤3.3)中，添加拉普拉斯噪音进行响应计数查询的隐私保护：

式中，Lap(2/ε₁)为拉普拉斯噪音。

9.如权利要求1所述的一种基于差分隐私保护决策树的方法，其特征在于：所述步骤4)中，构建过程如下：

4.1)记录根节点在l₁层；

4.3)若v_j是叶节点，则noicount(p(v_j))＝noicount(p(v_j))+noicount(v_j)，p(v_j)表示v_j的父结点；反之，S＝S∪v_j；

4.4)将变量i加1，记录h-1层为当前层；

4.5)当l_i＞1时，遍历l_i中结点v_j，且v_j∈S，并满足：

noicount(p(v_j))＝noicount(p(v_j))+noicount(v_j)；

4.6)更新v_j的父结点，完成决策树构建。