CN108875401B

CN108875401B - 一种基于改进kd树数据结构的隐私保护方法

Info

Publication number: CN108875401B
Application number: CN201810344633.2A
Authority: CN
Inventors: 汪小寒; 罗永龙; 张泽培; 韩慧慧; 夏芸; 左开中
Original assignee: Anhui Normal University
Current assignee: Hefei Keyiguo Information Technology Co ltd
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2021-11-26
Anticipated expiration: 2038-04-17
Also published as: CN108875401A

Abstract

本发明适用于计算机数据隐私保护技术领域，提供了一种基于改进KD树数据结构的隐私保护方法，该方法先按照一定的概率比率选取部分维度来代替从全部维度中寻找最优的维度，将局部最优维度作为全局最优维度，然后在该维度上寻找最优划分点，最优划分点的选取上采用了一种双区间寻找方法，通过增大划分点的搜索范围，找出最优划分点，可以让划分更加合理、提高数据质量，从而弥补概率选最优维度算法在数据质量上的不足，保证算法匿名后数据质量和可用性更高。

Description

一种基于改进KD树数据结构的隐私保护方法

技术领域

本发明属于计算机数据隐私保护技术领域，提供了一种基于改进KD树数据结构的隐私保护方法。

背景技术

当前，不同的机构为了研究等目的而产生的大量数据催进了与数据相关的研究，机构之间的数据共享也有利于研究的进展。然而，直接发布原始数据可能会导致在这些数据中提供敏感信息的用户的隐私安全问题。隐私保护数据挖掘是数据挖掘领域的一个热点领域，与数据安全相关的主题受到了国内外研究者的广泛关注。k-匿名算法在数据发布中是一种很有前景的隐私保护机制，它将每个标识符的属性从数据集中推广到至少k-1个。换言之，k-匿名定义了每个匿名组中具有最少k个元组。划分是k匿名机制中常用的方法，如二划分方法、取整划分方法、基于投影区域密度划分、基于KD树的最优投影划分等，基于投影区域密度划分的k匿名算法采用取整划分函数和属性维选择策略，通过提高记录点的投影区域密度来合理划分临时匿名组，解决了“取整划分过程中没有考匿名组相邻数据点距离导致不必要的信息损失”的问题，使划分后泛化产生的信息损失较小，数据使用性更高，并从理论上证明了该算法产生的匿名组规模在最坏的情况下小于2*k，在发布数据足够大时，产生的匿名组平均规模经足够趋近于k，但是基于投影区域密度划分的k匿名算法在划分时，相同的划分点在不同的投影维度上划分结果不同，不是任何投影维度都能保证划分时最佳的。

发明内容

本发明实施例提供了一种基于改进KD树数据结构的隐私保护方法，旨在解决基于投影区域密度划分的k匿名法算在划分时，相同的划分点在不同的投影维度上划分结果不同，不是任何投影维度都能保证划分时最佳的问题。

本发明是这样实现的，一种基于改进KD树数据结构的隐私保护方法，该方法包括如下步骤：

S1、将原始数据表存储为m维向量，所述m维向量称为结点；

S2、创建一个列队及KD树的根结点，将根结点及结点放入列队中；

S3、判断队列中的每个结点是否k匿名条件，若满足，至直接出队，若不满足，则保留在列队，保留在列队中的结点称为待划分结点；

S4、当列队中的待划分结点不为空时，取队头结点，计算队头结点每个属性的维度聚合度量，将维度聚合度量的最大值作为该结点最优维度属性；

S5、获取最优维度属性下的最优划分点p，最优划分点为数据点均域最小值对应的点；

S6、在最优划分点p处进行划分，将当前结点划分为两个容量较小的匿名等价簇n_l和n_r，n_l和n_r即为p结点的子结点，即生成左、右子树，

S7、将子节点n_l和子节点n_r入队；

S8、返回步骤S4，直到队列中的待划分结点为空，即所有的结点均满足匿名条件出队，KD树构建完成；

S9、遍历每个叶子结点，得到每个叶子结点中的等价簇中的数据并进行匿名化，生成匿名表T。

进一步的，所述步骤S4中最优维度属性的获取方法包括如下步骤：

S41、用概率方法随机从队头结点所有属性中选取一定比例的维度，生成待判维度集合；

S42、遍历待判维度集合中的每个维度，计算对应维度上超投影点的方差值，

S43、将最大方差值对应的属性维度作为最优维度。

进一步的，步骤S5中最优划分点的获取方法包括如下步骤：

S51、将最优维度上的对所有投影点进行排序；

S52、计算最优维度的两个区间的上限及下限，即bbv1和bbv2的下限、及tbv1和tbv2的上限；

在本发明实施例中，步骤S52具体包括如下步骤：

S521、计算参数α及参数β；

S522、计算两个区间的下界及上界，并将两个区间合并为分界点确定区间；

S523、遍历分界点确定区间内的每个潜在划分点，计算每个潜在划分点的划分系数pm；

S524、将划分系数最大值对应的潜在划分点作为最佳划分点p。

进一步的，两区间的下界及上界的计算公式具体如下：

区间bv1的下界bbv1计算公式为：

区间bv1的上界tbv1计算公式为：

区间bv2的下界bbv2计算公式为：

区间bv2的下界tbv2计算公式为：

进一步的，结点是否满足k匿名条件的判断方法具体如下：

S31、依次检测各结点中的元素个数；

S32、若检测到结点中元素个数大于2*k，则判断为不满足k匿名条件，若结点中元素个数大于k小于2*k，满足k匿名条件，若结点中元素个数小于k，则直接对结点进行抑制。

本发明提供基于改进KD树数据结构的隐私保护方法具有如下有益效果：

1、兼顾全局寻优和局部寻优，提出了一种概率寻最优维度的思想，先按照一定的概率比率选取部分维度来代替从全部维度中寻找最优的维度，将局部最优维度作为全局最优维度，然后在该维度上寻找最优划分点，可以大大提高时间效率。

2、最优划分点的选取上采用了一种双区间的寻找方法，通过增大划分点的搜索范围，找出最优划分点，可以让划分更加合理、提高数据质量，从而弥补概率选最优维度算法在数据质量上的不足，保证算法匿名后数据质量和可用性更高。

3、通过新设计的KD树来存储划分后的数据空间，不同于传统KD树所有结点均是一个数据点，本文的KD树所有结点均是一个集合，非叶子结点对应着待划分的匿名集合，叶子节点是最终的k匿名集合。

4、提出了一种基于扩展的KD树的概率寻优划分k匿名算法，不同于传统k匿名算法以牺牲时间效率来获取数据质量的提高，本文算法兼顾匿名后数据的可用性和算法的时间效率，并从理论上证明了算法的正确性，从实验上验证了算法的有效性。

附图说明

图1为本发明实施例提供的基于改进KD树数据结构的隐私保护方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

专业术语解释说明：

1.匿名等价簇中心(Esc,Equivalence set center)，假设某个匿名等价簇(即待划分结点)中含有n个数据点，每个数据点有m个属性，记为

对任意第j属性维度上计算其期望值，记为EQI_j，公式表示如下

其中，a_ij是数据集中第i条记录的第j个元素值，全部m个属性维度上的期望值EQI₁、EQI₂、…、EQI_m，对应在m维空间中是一个数据点P(EQI₁,EQI₂，…,EQI_m)，记为匿名等价簇中心。

2.M级结点：若KD树中的一个结点包含的等价簇中有m个数据点，则此树结点称为M级结点。

3.匿名等价簇域(Esr,Equivalence set range)：等价簇中每个数据含有m个准标识符属性，将其全部映射到m维空间，被表示成一个点。能覆盖等价簇中所有数据点的m维空间区域称为匿名等价簇域，其值记为Esr，公式表示如下：

4.匿名数据点均域(Adr,Average data range)：匿名等价簇X中共有a个数据点，每个数据点平均所占空间区域的大小称为匿名数据点均域，记为Adr，公式表示如下：

其中，Esr为该等价簇的匿名等价簇域，数据点均域越小表明数据信息的损失越小。

5.维度聚合度量(Agree)：表示M级结点中数据在第j列属性上投影点离散程度，记为Agree_j。假设该H级结点node中含有h个数据点，每个数据点有m个属性，记为

公式表示如下：

6.划分系数(Partiton metic,Pm)：是划分好坏的标准，一个临时匿名等价簇可以看成一个待匿名数据集X，在某一个划分点分裂成二个规模更小的临时匿名等价簇X₁、X₂，则划分系数pm计算如下：

其中，Adr_X、

分别为为临时匿名等价簇X、X₁、X₂的数据点均域，数据点均域越小，划分系数值越小，信息损失越小，划分更好。

本文对传统KD树改进，每个结点均是一颗待划分的m维数据点的二叉树，所有非根结点可以视作一个超平面把空间分成的两个部分，该结点的左子树对应超平面的左边，右子树对应超平面的右边，本文KD树的基本形式是存储m维空间数据点，KD树的每个内部结点是由一个集合构成，集合中的点和高维空间中的点对应，树中的每个结点的数据集合被分成两个不相交的子集，分别和该结点的左孩子结点及右孩子结点对应，最终的叶子结点就是满足k匿名度要求的集合，每个叶子结点对应一个匿名组，全体叶子结点就是匿名组的集合。

图1为本发明实施例提供的基于改进KD树数据结构的隐私保护方法流程图，该方法包括如下步骤：

S1、将原始数据表存储为m维向量，一个m维向量称为一个结点；

将待发布的原始数据表以多为向量的形式读入内存，并保存在一份多维数组中，m为数据的维度，即准标识符属性个数；

在本发明实施例中，结点是否满足k匿名条件的判断方法具体如下：

S31、依次检测各结点中的元素个数；

S32、若检测到结点中元素个数大于2*k，则判断为不满足k匿名条件，若结点中元素个数大于k小于2*k，满足k匿名条件，若结点中元素个数小于k，则直接对结点进行抑制，因为该结点无法满足匿名条件。

S4、当列队中的待划分结点不为空时，取队头结点，计算队头结点每个属性的维度聚合度量，将维度聚合度量的最大值作为该结点的最优维度属性；

维度聚合度量Agree_j越大，表明数据点在j维度上的投影点越分散，在离散度大的维度上划分能够不破坏原有数据的聚集状态，生成的KD树更加均衡，数据分布更加均匀，划分效果更好。

在本发明实施例中，步骤S4具体包括如下步骤：

S41、先按照一定的概率比率选取部分维度来代替从全部维度中寻找最优的维度，生成待判维度集合；

S43、将最大方差值对应的属性维度作为最优维度。

相对于全局维度寻优，这种概率维度寻优方式以较小的数据质量损失来提高时间效率，可以取得更好的数据可用性与时间效率的平衡，取得最大的价值。

在本发明实施例中，最优划分点的选取上采用了一种双区间的寻找方法，通过增大划分点的搜索范围，找出最优划分结点，可以让划分更加合理、提高数据质量，从而弥补概率选最优维度算法在数据质量上的不足，保证算法匿名后数据质量和可用性更高，基于双区间寻找方法的最优划分点获取方法包括如下步骤：

S51、将最优维度上的对所有投影点进行排序；

在本发明实施例中，步骤S52具体包括如下步骤：

S521、计算参数α及参数β，在本发明实施例中，参数α及参数β的计算满足如下两个条件：条件1：α·k+β等于结点数；条件2：β取值小于k，条件1及条件2的结合即可计算出参数α及参数β；

S522、分别计算两区间的下界及上界，并将两个区间合并为分界点确定区间；

区间bv1的下界bbv1计算公式为：

区间bv1的上界tbv1计算公式为：

区间bv2的下界bbv2计算公式为：

区间bv2的下界tbv2计算公式为：

分界点确定区间的计算公式为：[bbv,tbv]＝[bbv1,tbv1]∪[bbv2,tbv2]。

在本发明实施例中，潜在划分点就是存在于两个区间[bbv1,tbv1]和[bbv2,tbv2]中的数据结点中的所有元素，基于两区间中每个潜在划分点都可以对结点进行划分。

S524、将划分系数最大值对应的潜在划分点作为最佳划分点p；

在本发明实施例中，候选最优划分点p_i下的划分系数为：

其中，α·k+β表示数据结点总数，bpdr表示候选最优划分点p_i的下界匿名等价簇域，i表示该下界的数据结点数量，apdr表示候选最优划分点p_i的上界匿名等价簇域；因此根据匿名数据点均域的计算公式可知

最优划分点p_i下界匿名数据点均域：

最优划分点p_i上界匿名数据点均域：

原始匿名数据点均域：

因此，

在本发明中的划分是指用垂直于最优划分维度且经过最优划分点的超平面将原数据空间划分为两个空间，即为n_l和n_r；

S7、将子节点n_l和子节点n_r入队；

S9、遍历每个叶子结点，得到每个叶子结点中的等价簇中的数据并进行匿名化，生成匿名表T；

叶子结点就是满足k匿名度要求的集合，每个叶子结点对应一个匿名组，全体叶子结点就是匿名组的集合。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改建KD树数据结构的隐私保护方法，其特征在于，所述方法包括如下步骤：

S1、将原始数据表存储为m维向量，一个所述m维向量称为一个结点；

S4、当列队中的待划分结点不为空时，取队头结点，计算队头结点每个属性的维度聚合度量，将维度聚合度量的最大值作为所述结点的最优维度属性；

S7、将子节点n_l和子节点n_r入队；

所述步骤S4中最优维度属性的获取方法包括如下步骤：

S43、将最大方差值对应的属性维度作为最优维度；

步骤S5中最优划分点的获取方法包括如下步骤：

S51、将最优维度上的对所有投影点进行排序；

步骤S52具体包括如下步骤：

S521、计算参数α及参数β；

两区间的下界及上界的计算公式具体如下：

区间bv1的下界bbv1计算公式为：

区间bv1的上界tbv1计算公式为：

区间bv2的下界bbv2计算公式为：

区间bv2的下界tbv2计算公式为：

2.如权利要求1所述基于改建KD树数据结构的隐私保护方法，其特征在于，结点是否满足k匿名条件的判断方法具体如下：

S31、依次检测各结点中的元素个数；

S32、若检测到结点中元素个数大于2*k，则判定为不满足k匿名条件，若结点中元素个数大于k小于2*k，则判定为满足k匿名条件，若结点中元素个数小于k，则直接对结点进行抑制。