CN109726758A

CN109726758A - 一种基于差分隐私的数据融合发布算法

Info

Publication number: CN109726758A
Application number: CN201811616199.5A
Authority: CN
Inventors: 李万杰; 张兴; 史伟; 曹光辉
Original assignee: Liaoning University of Technology
Current assignee: Liaoning Yiai IOT Co.,Ltd.
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-07
Anticipated expiration: 2038-12-28
Also published as: CN109726758B

Abstract

本发明公开了一种基于差分隐私的数据融合发布机制，包括：步骤一、确定多个数据拥有者，通过分类融合算法对数据集进行数据融合；步骤二、对融合后的数据进行个性化的差分隐私处理，并根据差分情况设置相应的隐私预算；步骤三、向融合并分级后的数据集中加入与其对应的Laplace噪声，得到具有不同隐私保护级别的融合后的隐私数据。本算法解决了当前数据融合发布算法无法抵御背景知识攻击的缺点，并提供个性化服务的分级发布，同时减少数据融合花费时间并保证了融合发布后的数据具有较好的质量和价值。

Description

一种基于差分隐私的数据融合发布算法

技术领域

本发明涉及一种数据融合发布算法，特别是一种基于差分隐私的数据融合发布算法。

背景技术

大数据共享时代的到来，数据的融合可以做更好地决策分析。例如，人口普查记录的融合能够更全面满足生活情况的调研，病人医疗数据的融合有利于医院分析疾病成因等信息。然而在数据共享带来极大方便的同时，共享的数据存在着隐私泄露的问题。不同的用户对于数据的使用需求不同，当用户的信任等级不同、访问权限不同时，需要发布隐私保护程度不同的数据，这就需要对数据进行分级发布。因此，在数据融合的过程中不泄露数据隐私的前提下，针对用户的不同信任等级、不同访问权限或对数据使用的不同需求，对数据进行融合分级发布，以便达到实现不同等级隐私保护的目的。

国内外学者在数据融合安全发布方面展开了广泛地研究。文献“AMODEL FOR P-ROTECTING PRIVACY，作者：Latanyasweeney”，记载，现有的K-Anonymity及其改进算法是重要的隐私保护方法。K-Anonymity要求发布的数据记录中至少存在k-1条记录，使得攻击无法识别区分，从而保护用户的隐私信息。K-Anonymity在数据融合方面的研究也一直备受关注。文献“A secure distributed framework for achieving k-anonymity，作者Wei J”中，提出一种安全分布式框架实现了满足K-匿名的数据融合，但当数据量庞大时，该方法花费的时间过长，而且不能实现三表及以上的数据融合，但是在每次进行特殊化处理时要计算两方安全最大值，使得整个算法花费较大的时间。文献“基于k-匿名的多源数据融合算法研究，作者：杨月平”中，提出了一种基于K-Anonymity结合自顶向下分类树算法的数据融合算法，减少融合过程所花费的时间，提高融合数据的准确性，但是，这种模型很难抵制背景知识攻击等变体攻击。文献“基于动态分类树构造的集值型数据差分隐私保护方法，作者：郑剑”中提出了CDTT算法，该算法在差分隐私保护下，构建动态分类树，有效地解决了上述问题，但其算法并没有考虑到用户分级的情况，使得发布的数据利用率不高。

发明内容

本发明设计开发了一种基于差分隐私的数据融合发布算法，能够克服现有算法无法抵御背景知识攻击的缺点，使融合后的数据能够较好地保护数据隐私且不会导致隐私预算耗尽，减少数据融合花费时间并保证了融合发布后的数据具有较高的质量和价值。

本发明提供的技术方案为：

一种基于差分隐私的数据融合发布算法，包括：

步骤一、确定多个数据拥有者，通过分类融合算法对数据集进行数据融合；

步骤二、对融合后的数据进行个性化的差分隐私处理，并根据差分情况设置相应的隐私预算；

步骤三、向融合并分级后的数据集中加入与其对应的Laplace噪声，得到具有不同隐私保护级别的融合后的隐私数据。

优选的是，所述步骤一包括：

对数据集进行初始化，构造数据集D的矩阵A，找到A中出现任意两项出现次数最多对应的项集M_max[i,j]，设Q₁＝M_max[i,j]；在i,j所在行找出次数最小的项集M_min[t,s]，在t,s所在行找到最大的项集M_max[a,b]，设Q₂＝M_max[a,b]，迭代上述步骤，得到的初始数据集包括：D₀，D₁，D₂，...，D_H；

其中，A为n*n的方阵，其中n表示数据集D的全集。

优选的是，所述步骤二包括：

步骤1、选出D₀出现一次的记录，根据此记录中任意两项出现的次数，选择两项作为第一个分支，然后选出的次数出现最少的两项，选择在其所在行中的最大的值作为第二个分支，依次迭代地选取其它项集与这两个分支组合，直至所有的项集被选出；

步骤2、为D₀构造分类树C-Tree_(i-1)，然后为需要D₀与融合的数据集D₁，D₂，...，D_H，设置更新增量H，查询用户通过可信代理服务器利用假名机制获得与其身份对应的假名标识符；

步骤3、对查询用户进行等级划分，数据融合发布系统根据用户身份对应等级，设置不同的隐私预算ε_i，发布具有相应隐私保护程度的数据集。

优选的是，所述步骤二中，根据查询用户的访问权限、付费情况以及对于数据使用的不同需求，进行等级划分，访问权限高或付费多的资源需要分配高等级，反之则分配低等级。

优选的是，所述步骤三包括：

步骤a、当数据集D_i与D₀融合时，先将D_i中记录添加到C-Tree_(i-1)的根节点，其中D_i表示待融合的数据集，i的取值范围为[1,H]；

步骤b、对D_i中的记录g_i，当记录g_i不为空且被分配到C-Tree_(i-1)的非叶子节点中，就按照C-Tree_(i-1)的分类方法分配该记录；

当记录g_i被分配到C-Tree_(i-1)的叶子结点，则分割该节点并重新分配该节点的差分隐私预算；

当记录g_i为空，则对下一条记录做上述步骤，直至所有记录分配完生成新的分类树C-Tree_(i)；

步骤c、根据分配好的隐私预算向C-Tree_(i)的叶子节点添加Laplace噪音，最后依次迭代对于不同的隐私预算参数ε_i进行上述步骤，得到具有不同隐私保护级别的融合后的隐私数据。

优选的是，所述步骤三中构造初始分类树的时间复杂度为O(|L|·|I|)，|L|表示初始数据集的长度，数据融合的时间复杂度为O(N·|D|·|I|)，N表示融合数据集个数，|D|表示融合数据集长度。

本发明的有益效果：(1)多个数据源拥有者通过分类融合算法融合数据；(2)对融合后的数据进行个性化的差分隐私处理，在进行差分隐私处理的过程中，根据用户的权限等级或付费情况，设置合理的隐私预算参数；(3)在用户进行查询时，为保护查询用户的身份不被泄露，使用假名机制来实现对用户的隐私保护。

本算法解决了当前数据融合发布算法无法抵御背景知识攻击的缺点，并提供个性化服务的分级发布，同时减少数据融合花费时间并保证了融合发布后的数据具有较好的质量和价值。

对于数据信息需求而言，基于差分隐私的数据融合方法融合后的数据具有可靠的利用率，可以实现决策分析等操作工作；对于数据隐私而言，使用差分隐私保护方法能够弥补K-匿名不能抵制背景知识攻击的缺点，而且不会导致隐私预算耗尽等问题。

附图说明

图1为本发明所述的Laplace概率密度函数的结构示意图。

图2为本发明所述的简单数据集分类树示意图。

图3为本发明所述的满足差分隐私保护的数据融合发布框架图。

图4为本发明所述的隐私参数与查询结果错误率的对应关系图。

图5为本发明所述的两方数据融合花费时间对比图。

图6为本发明所述的三方数据融合花费时间对比图。

图7为本发明所述的ε＝0.005时的分类精度图。

图8为本发明所述的ε＝0.05时的分类精度图。

图9为本发明所述的ε＝0.1时的分类精度图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1-9所示，本发明提供一种基于差分隐私的数据融合发布算法，具体包括：首先对多个数据拥有者的数据表进行融合，每张数据表代表完整数据集的一部分属性；然后由于数据使用者的权限等级、付费情况或对于发布数据的使用需求不同，需要对用户进行分级处理，利用用户的等级划分，对数据属性的重要度进行划分，按照重要程度设置不同的隐私预算；最后在融合数据集中加入与其对应的Laplace噪声，同时保证融合发布后的数据满足具有较好的利用率，可以有效地提供决策分析等操作；以及数据能够较好地保护数据隐私且不会导致隐私预算耗尽等问题。

数据融合是指将两个数据集通过记录中的相同ID合并或将不存在的ID记录加入集合，融合形成新的具有更多属性、更为全面的数据集。数据的融合有利于数据分析者做更好地决策分析。例如，表1为3个用户A、B、C在超市S₁购买啤酒I₁、可乐I₂、牛奶I₃产生的购物数据，表2为4个用户A、B、C、D在超市S₂购买啤酒I₁、可乐I₂、牛奶I₃、咖啡I₄产生的购物数据，将表1和表2的数据融合生成新的融合数据表3，为统计并挖掘分析用户的购买行为做好准备。

表1超市S₁购物数据

表2超市S2购物数据

表3融合后购物数据

差分隐私保护技术通过向原始数据集的转换或其统计结果添加噪声来达到隐私保护的目的。该方法确保了在任一数据集中更改一条记录的操作而不影响查询的输出结果。此外，该模型可以抵御攻击者掌握了除某一记录外的所有信息的背景知识攻击，具体描述如下：

给定两个数据集D和D'，二者完全相同或者至多相差一条记录，给定随机算法A，Range(A)表示A的值域，S为Range(A)的子集。如果A满足式(1)，则算法A满足ε-差分隐私。

Pr[A(D)∈S]≤e^ε×Pr[A(D′)∈S] (1)

其中，概率Pr[·]表示算法的概率，由算法A决定；ε为隐私预算，表示算法A的隐私保护程度，ε的值越小，A的隐私保护程度越高。

实现差分隐私保护常介入两种噪声机制，分别是拉普拉斯机制和指数机制。

在本发明中，作为一种优选，采用Laplace噪音机制。

Laplace机制通过将服从Laplace分布的噪声介入准确的查询统计结果来达到ε-差分隐私保护的目的。设Laplace分布Lap(b)位置参数为0的概率密度函数为p(x)，其表示形式为：

给定数据集D，对于任一查询函数f：D→R^d，其敏感度为Δf，则随机算法A(D)＝f(D)+Y提供ε-差分隐私保护。其中，f(D)表示对于数据集D的查询函数；A(D)表示经过算法A加入噪声后的输出结果；Y～Lap(Δf/ε)为随机噪声，表示Y是服从尺度参数为Δf/ε的Laplace噪声分布。

如图1所示，从不同参数的Laplace分布可知，当ε的值越小，介入的噪声越大。

如图2所示，图2给出了数据集T＝{T₁,T₂,T₃,T₄}的分类树。分类树采用泛化技术作为形成分类树的核心技术，将给定数据集中的项作为叶子结点，泛化叶子结点作为分类树的节点，树的根节点是所有叶子结点的集合，其具体表现形式为child(v)→v。

图中T{1,2,3,4}是分类树的根结点，例如T{1}和T{2}是叶子结点，泛化为T{1,2}作为分类树的节点。在数据融合时，数据拥有者提供数据表的属性分类树。

如图3所示，数据分级融合发布主要由多个数据源、可信代理及查询用户组成。(1)多个数据源拥有者通过分类融合算法融合数据；(2)对融合后的数据进行个性化的差分隐私处理，在进行差分隐私处理的过程中，根据用户的权限等级或付费情况，设置合理的隐私预算参数；(3)在用户进行查询时，为保护查询用户的身份不被泄露，使用假名机制来实现对用户的隐私保护。

在系统初始化阶段，首先，查询用户需要通过可信代理服务器利用假名机制获得与其身份对应的假名标识符(Alias(ID)，ID为用户身份)。其次，依据用户访问权限、付费情况或对于数据使用的不同需求，进行等级划分，访问权限高或付费多的资源需要分配高等级，反之则分配低等级(相应等级记为L)。可信代理将用户等级存储至查询服务器。数据融合发布系统根据用户身份对应等级，设置不同的隐私预算ε，发布具有相应隐私保护程度的数据集。身份假名与相应隐私预算等级划分如表4所示。

表4身份假名-隐私预算等级划分表

在数据融合发布算法中，通过介入不同数值拉普拉斯噪声实现敏感数据的隐私保护，本算法根据设定的用户不同等级以及与用户等级相应的的隐私预算ε，实现不同隐私保护程度与查询用户级别的对应关系，最终输出介入不同数值拉普拉斯噪声的差分隐私融合算法融合后的数据，实现对融合的数据分级化发布。

对于数据融合而言，具体如下：

首先初始化一个数据集D₀，选出D₀出现一次的记录，根据此记录中任意两项出现的次数，选择两项作为第一个分支，然后选出的次数出现最少的两项，选择在其所在行中的最大的值作为第二个分支，依次迭代地选取其它项集与这两个分支组合，直至所有的项集被选出，为D₀构造分类树C-Tree₍₀₎；

然后设置更新增量H以及与查询用户级别对应的隐私预算ε_i，其中根据查询用户授权或付费情况等方式来划分用户级别，按照支付金额或授权大小，为用户分配高级别或低级别，并且相应获得的查询结果的准确性也遵循从高到低的原则；

当新的数据集D_i与D₀融合时，先将D_i中记录添加到C-Tree_(i-1)的根节点，对D_i中的记录作下列步骤：(1)如果某记录不为空且被分配到C-Tree_(i-1)的非叶子节点中，就按照C-Tree_(i-1)的分类方法分配该记录；(2)如果某记录被分配到C-Tree_(i-1)的叶子结点，则分割该节点并重新分配该节点的差分隐私预算；(3)如果某记录为空，则对下一条记录做上述步骤，直至所有记录分配完生成新的分类树C-Tree_(i)；

根据分配好的隐私预算向C-Tree_(i)的叶子节点添加Laplace噪音，最后依次迭代对于不同的隐私预算参数ε进行以上步骤即可，最终产生具有不同隐私保护级别的融合后的隐私数据。

基于差分隐私的数据融合发布算法的具体过程如下：

步骤a、对多个数据拥有者拥有的数据集进行初始化，得到的初始数据集包括：D₀，D₁，D₂，...，D_H，设置查询用户为ID_(m)，查询用户通过可信代理服务器利用假名机制获得与其身份对应的假名标识符(Alias(ID)，ID为用户身份)。其次，依据用户访问权限、付费情况或对于数据使用的不同需求，进行等级划分，访问权限高或付费多的资源需要分配高等级，反之则分配低等级(相应等级记为L)。数据融合发布系统根据用户身份对应等级，设置不同的隐私预算ε_i对ID_(m)设置假名为Alias(ID_(m))，查询等级为L_m，隐私预算为ε_m，设置更新增量为H。

根据用户查询等级L_m，判定所需的隐私预算等级ε_m。

对于更新增量进行隐私预算分配，其中ε'_m为新增数据记录的总体隐私预算。

步骤b、构造D₀的矩阵A，A为n*n的方阵，其中n表示数据集D₀的全集，找到A中任意两项出现次数最多对应的项集M_max[i,j]，Q₁＝M_max[i,j]，其中Q₁表示矩阵A中最大二项集；

在i,j所在行找出次数最小的项集M_min[t,s]，在t,s所在行找到最大的项集M_max[a,b]，Q₂＝M_max[a,b]，其中Q₂表示t,s所在行的最大二项集。

迭代上述步骤对于Q₁,Q₂，得到D₀的分类树C-Tree₍₀₎。

步骤c、对D₁，D₂，...，D_H进行如下步骤：

设V表示所有融合的数据集全集，则V＝D₀，D₁，D₂，...，D_H；

设G表示数据集D_i中的所有记录，即表示G＝D_i中的所有记录；

C-Tree₍₀₎的根结点作为记录g的划分g→cut，记作g→cut＝C-Tree₍₀₎；

g的隐私预算为

设g中的每一条记录g_i的隐私预算记为g_i→α，对于g_i的隐私预算，则有

将G添加到C-Tree_(i-1)的根结点，当g_i不为空且不是叶子结点，按照C-Tree_(i-1)的分类方法分配此节点，即：

将更新完成的g_i加入到更新完成的数据集合当中，记作V＝g_i∪V；(3)。

当g_i不为空或g_i分配到叶子结点，则分割该节点，执行(1)至(3)，

当gi为空时，则重复步骤c并返回C-Tree_(i)；

步骤d、分配D_i中的所有记录，根据分配好的隐私预算向C-Tree_(i)的叶子节点添加Laplace噪音，发布融合后的C-Tree_(i)中叶子结点的信息，得到加不同隐私预算参数ε噪音的融合数据集D′_i。

正确性：(1)对于数据信息需求而言，基于差分隐私的数据融合方法融合后的数据具有可靠的利用率，可以实现决策分析等操作工作；(2)对于数据隐私而言，使用差分隐私保护方法能够弥补K-匿名不能抵制背景知识攻击的缺点，而且不会导致隐私预算耗尽等问题。

复杂性：算法主要花费表现在以下两个方面：

(1)构造分类树。选出数据集出现一次的记录，根据此记录中任意两项出现的次数，选择两项作为第一个分支，然后选出的次数出现最少的两项，选择在其所在行中的最大的值作为第二个分支，依次迭代地选取其它项集与这两个分支组合，直至所有的项集被选出，在此过程中，需要根据任意两项出现的次数生成关系矩阵，遍历整个数据集。

(2)数据融合隐私预算分配。当新的数据集D_i进行融合时，D_i中的记录被插入到C-Tree_(i-1)的根结点中，迭代地分配到不同的分支中，并且重新分配隐私预算。在此过程中需要根据分类树将融合的数据记录划分为单个子分割。

其中，构造初始分类树的时间复杂度为O(|L|·|I|)，|L|表示初始数据集的长度，数据融合的时间复杂度为O(N·|D|·|I|)，N表示融合数据集个数，|D|表示融合数据集长度。

在本发明中，作为一种优选，采用下载的Income数据集，该数据集包含Age、Education、Gender、Birthplace、Work-class、Occupation、Income、Race、Maritalstatus等8个属性，其中Income为敏感属性，该数据集的8个属性全部为数值型数据。

对于用户等级的划分标准，可依据发布数据错误率来衡量。若数据使用者期望得到查询结果错误率小于1％的数据，则取ε＝0.1；若期望查询结果错误率在10％～20％之间的数据，则取ε＝0.005。由此可见，可以把ε取自集合(0.001,0.1)，按照ε的取值大小来对应划分用户等级。如图4所示、

为了验证本发明在提供较好的隐私保护水平下，数据具有较好的可用性，实验工作是与CDTT算法的性能进行比较，测试针对不同的差分隐私预算参数ε，不同数量的属性，不用数量的数据表，完成数据融合所花费的时间和得到融合发布记录的分类精度。

(1)分类所花费时间实验：

算法花费时间可用每秒所完成的分类数据量(T/s)来评估。T/s的结果越大表示完成分类的数量越大，说明算法所花费的时间越少，算法的性能越好。

实验中取ε＝0.005，数据集记录数为10k-400k，分别取融合记录有3个属性、5个属性进行本文算法和CDTT算法，比较二者花费时间。

图5为Income数据集分为两方数据，比较本文算法与CDTT算法进行数据融合时花费的时间，Qi表示融合记录的属性数量。从图5中可以看出，在相同的隐私预算参数ε，相同的Qi下，本文算法进行数据融合所花费时间比CDTT算法花费更少。

实验中取ε＝0.005，数据集记录数为10k-400k，分别取融合记录有3个属性、5个属性进行本文算法，比较在不同数量的属性情况下，本算法进行三方数据融合所花费的时间。

图6为本算法在属性不同情况下，三方数据融合所花费的时间。从图6中可以看出，融合同一大小的数据记录数，属性增加时，花费时间会增加；随着数据记录数的增加，二者花费时间基本相同。

实验中分别取ε＝0.01、ε＝0.05、ε＝0.1满足分级条件，Qi＝5，以此进行实验，对比提出算法与CDTT算法融合后数据分类的精确度。图7为不同ε下两种算法的分类精度图。

从图7、图8、图9中可以看出，当ε值较小时，即用户等级较低，两种算法分类精度基本一致，但随着隐私预算参数的增加，即用户等级的增大，本文提出的算法相比于CDTT算法分类精度相对较高，数据质量相对较好。

总而言之，通过上面几个分析对比可以看出，本方法相比于CDTT算法，在相同的隐私保护程度下，花费时间更少，发布的数据质量更好。同时，弥补了传统的隐私保护算法不能分级融合发布的缺陷。

在计算机平台上搭建开发环境，作为一种优选，本发明中选用Income数据集，包括：Age、Education、Gender、Birthplace、Work-class、Occupation、Income、Race、Maritalstatus等8个属性，其中Income为敏感属性，该数据集的8个属性全部为数值型数据。

取隐私预算ε＝0.005的条件下，数据集记录数为10k-400k，分别取融合记录有3个属性、5个属性进行本文算法和CDTT算法，比较二者花费时间。

如图7-9所示，分别取ε＝0.01、ε＝0.05、ε＝0.1满足分级条件，Qi＝5，以此进行实验，对比提出算法与CDTT算法融合后数据分类的精确度。图7为不同ε下两种算法的分类精度图。当ε值较小时，即用户等级较低，两种算法分类精度基本一致，但随着隐私预算参数的增加，即用户等级的增大，本文提出的算法相比于CDTT算法分类精度相对较高，数据质量相对较好。

本文提出的基于差分隐私的数据分级融合发布机制，在数据融合发布过程中，保持了融合后数据的可用性，同时保护了数据中的敏感信息。本文方法与基于K-匿名系列方法相比，在融合的过程中，主要有三处改进：第一点是将将数据融合与差分隐私保护结合，将差分隐私技术引用到数据融合中，使得融合发布后的数据更具安全性；第二点采用分级方法，使得融合后的数据对于隐私保护程度更具针对性；第三点提出的基于分类树的隐私预算方法能够更合理地分配隐私预算，避免隐私预算的过早耗尽。实验表明，本文算法既能在一定程度上减少花费时间实现数据的分级融合，又能保持数据的可用性且能够有效的保护敏感数据的隐私性。未来将继续研究差分隐私保护在数据融合发布中的应用。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于差分隐私的数据融合发布算法，其特征在于，包括：

2.根据权利要求1所述的基于差分隐私的数据融合发布算法，其特征在于，所述步骤一包括：

其中，A为n*n的方阵，其中n表示数据集D的全集。

3.根据权利要求2所述的基于差分隐私的数据融合发布算法，其特征在于，所述步骤二包括：

4.根据权利要求3所述的基于差分隐私的数据融合发布算法，其特征在于，所述步骤二中，根据查询用户的访问权限、付费情况以及对于数据使用的不同需求，进行等级划分，访问权限高或付费多的资源需要分配高等级，反之则分配低等级。

5.根据权利要求4所述的基于差分隐私的数据融合发布算法，其特征在于，所述步骤三包括：

6.根据权利要求5所述的基于差分隐私的数据融合发布算法，其特征在于，所述步骤三中构造初始分类树的时间复杂度为O(|L|·|I|)，|L|表示初始数据集的长度，数据融合的时间复杂度为O(N·|D|·|I|)，N表示融合数据集个数，|D|表示融合数据集长度。