CN110334546B

CN110334546B - 基于主成分分析优化的差分隐私高维数据发布保护方法

Info

Publication number: CN110334546B
Application number: CN201910608605.1A
Authority: CN
Inventors: 史伟; 李万杰; 张兴; 张青云
Original assignee: Liaoning University of Technology
Current assignee: Liaoning Youzhi Internet of Things Co.,Ltd.
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2021-11-23
Anticipated expiration: 2039-07-08
Also published as: CN110334546A

Abstract

本发明公开了基于主成分分析优化的差分隐私高维数据发布保护方法，包括以下步骤：步骤一、计算原始数据属性的信息熵，确定属性重要度阈值，对所述原始数据中的属性进行筛选；步骤二、利用主成分分析法对所述筛选数据进行降维，确定最优k值，从而确定最佳的发布数据；其中，在降维过程中，产生的投影矩阵进行个性化的加噪得到加躁数据，并且使所述加躁数据满足差分隐私；以及在降维过程中，进行多次的主成分个数k值的选取，通过互信息评价机制，计算所述原始数据与所述加噪数据的互信息，确定了所述最优k值。本发明提供了基于主成分分析优化的差分隐私高维数据发布保护方法，确保数据隐私信息不被泄露的同时，发布的数据更好地接近与原始数据。

Description

基于主成分分析优化的差分隐私高维数据发布保护方法

技术领域

本发明涉及隐私保护数据发布技术领域，尤其涉及基于主成分分析优化的差分隐私高维数据发布保护方法。

背景技术

目前，许多数据收集机构需要将所收集原始数据(例如医疗数据、金融数据等)发布出去，以便于数据分析、挖掘，能够从发布的数据中产生更为有效地决策支持，如图1所示，为数据发布示意图。然而，发布的原始数据中涉及了大量的个人敏感信息，直接发布数据会致使个人隐私的严重泄露。因此，数据发布者需要通过特殊的保护技术处理隐私数据后将数据发布出去。

现阶段，主要的隐私保护数据发布技术大致上分为3类：1)基于数据加密的发布技术。例如AES加密、RSA加密等。2)基于限制条件的发布技术。根据原始数据特性，有选择性地发布含有敏感数据的数据，例如：k-匿名模型、l-多样性模型、t-近似模型等。3)基于数据失真的发布技术。使得隐私数据失真的同时，保持原始数据的某些特性。这样的技术主要有：随机扰动、凝聚、交换技术、注入噪声等。

作为基于数据失真的差分隐私保护技术，已成为隐私保护重点研究方向之一。现阶段，对于数据发布的研究主要聚焦于一维或低维数据。然而，这些数据发布方法均不适用于高维数据的发布，无法解决在处理高维数据发布时，随着维度和维度值域的增加，形成的发布空间以指数型增长，遭遇“维度灾难”的问题。因此，如何为数据研究者提供大量有效信息的同时，利用差分隐私技术保证原始高维数据的隐私安全变得极具挑战。

发明内容

本发明为解决目前的技术不足之处，提供了基于主成分分析优化的差分隐私高维数据发布保护方法，确保数据隐私信息不被泄露的同时，发布的数据更好地接近与原始数据。

本发明提供的技术方案为：基于主成分分析优化的差分隐私高维数据发布保护方法，包括以下步骤：

步骤一、计算原始数据属性的信息熵，确定属性重要度阈值，对所述原始数据中的属性进行筛选；

步骤二、利用主成分分析法对所述筛选数据进行降维，确定最优k值，从而确定最佳的发布数据；

其中，在降维过程中，产生的投影矩阵进行个性化的加噪得到加躁数据，并且使所述加躁数据满足差分隐私；以及

在降维过程中，进行多次的主成分个数k值的选取，通过互信息评价机制，计算所述原始数据与所述加噪数据的互信息，确定了所述最优k值。

优选的是，所述步骤一中信息熵H(X)计算方法为：

其中，X为离散型随机变量，p(x)表示x发生的概率。

优选的是，属性重要度阈值Th满足：

其中，Th为属性重要度阈值，k为选取主成分的个数，N为所有属性个数。

优选的是，在所述步骤一中，对原始数据中的属性进行筛选的具体方法为：

计算原始数据集D中各个属性的信息熵，按照信息熵的大小排列属性，属性重要度阈值作为界限，将信息熵大于阈值的属性保留，信息熵小于阈值的属性剔除，得到筛选后数据集D_o。

优选的是，所述主成分分析法具体为：

对多个原始随机变量组成的数据集X＝{x₁,x₂,…,x_n}的协方差矩阵进行分解，重新组合转变为几个各维度间彼此不相关的变量Q＝{y₁,y₂,…,y_m}，m<n。

优选的是，所述步骤二中，数据降维过程中加噪的方法为：

对筛选后的数据D_o的数据矩阵为X进行归一化处理：

计算数据集中的数据记录的协方差矩阵：

其中，m为数据集中数据记录个数；

对协方差矩阵进行特征分解：

Cov＝U^TCU

其中，C为协方差矩阵Cov特征分解后的对角矩阵，U表示特征值所对应的特征向量构成的特征矩阵；

选取k个特征值所对应的k个特征向量组成矩阵U_k，将原始数据投影到矩阵U_k上，得到投影矩阵：

在投影矩阵Z中添加Laplace噪声，得到噪声矩阵Z_o；

还原得到原始数据矩阵的低阶近似矩阵：

优选的是，所述Laplace噪声具体为：

数据集D，对于任一查询函数f：D→R_d，其敏感度为Δf，则随机算法A(D)＝f(D)+Y提供ε-差分隐私保护；其中，Y～Lap(Δf/ε)为随机噪声，表示Y是服从尺度参数为Δf/ε的Laplace噪声分布，ε为隐私预算，R_d为D的经过查询函数f所对应的值域。

优选的是，互信息评价机制：

计算不同主成分个数k值下的噪声数据与原始数据的互信息大小，利用均值法，将最接近均值的k值，作为发布数据安全性和实用性达到最优的主成分个数。

优选的是，所述互信息满足：

其中，X和Y表示两个离散随机变量；p(x,y)表示X和Y的联合概率分布函数；p(x)和p(y)分别表示X和Y的边缘概率分布函数。

优选的是，所述差分隐私具体包括：

对于随机算法A，当其满足以下关系式，则算法A满足ε-差分隐私：

P_r[A(D)∈S]≤e^ε×Pr[A(D′)∈S]

其中，概率Pr[·]为算法的概率，ε为隐私预算，D和D'为两个完全相同或者至多相差一条记录的数据集，S为A的值域的子集。

本发明所述的有益效果：

1)满足差分隐私的高维数据发布方法，引入PCA算法并在属性降维时，采取属性重要度衡量对属性筛选，优化PCA处理数据的时间和空间，解决维度灾难问题；

2)在降维过程中设计满足个性化的隐私保护的Laplace噪声添加机制，实现满足不同任务需求的高维数据发布；

3)针对数据降维时，主成分个数k的选取，提出互信息评价机制，利用互信息确定最优的k值。

附图说明

图1为本发明的数据发布示意图。

图2为本发明的主成分分析优化的差分隐私高维数据发布保护框架。

图3为本发明的个性化的加噪策略。

图4(a)为本发明的Adult数据集下SVM(education)分类结果。

图4(b)为本发明的Adult数据集下SVM(marital)分类结果。

图4(c)为本发明的Adult数据集下SVM(salary)分类结果。

图5(a)为本发明的Diabetes数据集下SVM(gender)分类结果。

图5(b)为本发明的Diabetes数据集下SVM(race)分类结果。

图5(c)为本发明的Diabetes数据集下SVM(readmitted)分类结果。

图6(a)为本发明的TIC数据集下SVM(house)分类结果。

图6(b)为本发明的TIC数据集下SVM(marital)分类结果。

图6(c)为本发明的TIC数据集下SVM(salary)分类结果。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图2所示，本发明的基于主成分分析优化的差分隐私高维数据发布保护方法，提出了一种基于主成分分析优化的差分隐私高维数据发布方法PCAO_PPDP，该方法利用基于信息熵的主成分分析法对数据进行降维，利用满足个性化的Laplace机制确保PCAO_PPDP满足差分隐私的要求。理论分析表明，所提的PCAO_PPDP算法满足ε-差分隐私；实验结果表明，与现有的研究工作相比，PCAO_PPDP算法产生的数据集的数据效用性均优于PrivBayes和JTree算法。

差分隐私保护技术通过向原始数据集的转换或其统计结果添加噪声来达到隐私保护的目的。该方法确保了在任一数据集中更改一条记录的操作而不影响查询的输出结果。此外，该模型可以抵御攻击者掌握了除某一记录外的所有信息的背景知识攻击。

差分隐私

给定两个数据集D和D'，二者完全相同或者至多相差一条记录，给定随机算法A，Range(A)表示A的值域，S为Range(A)的子集。如果A满足式(1)，则算法A满足ε-差分隐私。

P_r[A(D)∈S]≤e^ε×Pr[A(D′)∈S] (1)

其中，概率P_r[·]表示算法的概率，由算法A决定；ε为隐私预算，表示算法A的隐私保护程度，ε的值越小，A的隐私保护程度越高。

实现差分隐私保护常介入两种噪声机制，分别是拉普拉斯机制和指数机制。本发明主要采用Laplace噪音机制。

Laplace机制

给定数据集D，对于任一查询函数f：D→R_d，其敏感度为Δf，则随机算法A(D)＝f(D)+Y提供ε-差分隐私保护。其中，Y～Lap(Δf/ε)为随机噪声，表示Y是服从尺度参数为Δf/ε的Laplace噪声分布。

Laplace机制通过将服从Laplace分布的噪声介入准确的查询统计结果来达到ε-差分隐私保护的目的。设Laplace分布Lap(b)位置参数为0的概率密度函数为P(x)，其表示形式为

信息熵与互信息

信息熵表示事件中包含信息量的平均量。信息熵越高，表示包含的信息量越大；反之，信息上越小，表示包含的信息量越少。信息熵的具体含义为：

设X是一个离散型随机变量，则X的信息熵为：

其中，p(x)表示x发生的概率。

互信息(Mutual Information)是2个或2个以上随机变量间相互依赖性的量度。它度量两个事件之间信息量的相关性。互信息的定义为：

由式(3)和式(4)推倒可得互信息与信息熵之间的关系：

I(X,Y)＝H(X)+H(Y)＝H(X,Y) (5)

主成分分析法

主成分分析法(PCA)是通过对多个原始随机变量组成的数据集X＝{x₁,x₂,…,x_n}的协方差矩阵进行分解，重新组合转变为少数几个各维度间彼此不相关的变量Q＝{y₁,y₂,…,y_m}，m<n，使得Q中尽可能保留X的信息，从而对高维数据进行降维。

在高维数据发布时，现有的大多数方法都会遭受维度“灾难”的问题，引入较大的噪声，导致发布的数据的可用性很低。因此，在高维数据发布中，设计出既能解决维度灾难带来数据可用性较低的问题又能满足数据隐私安全的发布方法是亟需迫切的。本发明提出了一种基于主成分分析优化的差分隐私高维数据发布保护方法，对高维数据进行降维优化及隐私保护，经该方法产生的发布数据满足：1)具有较好的数据效用，利于数据挖掘、分析操作等；

2)满足差分隐私保护，为数据提供最优的隐私保护效果。

高维数据发布机制

基于主成分分析优化的差分隐私高维数据发布方法的运行机制，如图2所示。

基于主成分分析优化的差分隐私高维数据发布方法具体的步骤如下：

1)首先确定属性重要度阈值，对原始数据中的属性进行筛选，将原始数据中的无用属性和缺失值较多的属性剔除。

2)对经过属性筛选后的数据，利用主成分分析法对数据进行降维。对降维过程中，产生的投影矩阵进行个性化的加噪，使得数据满足差分隐私。

3)在数据的降维过程中，进行多次的主成分个数k值的选取，通过互信息评价机制，计算原始数据与加噪数据的互信息，确定最优的k值，从而确定最佳的发布数据。

筛选属性

本算法通过计算属性的信息熵，作为属性重要度衡量指标，利用属性重要度阈值，对属性进行筛选。

信息熵应用于衡量属性“重要”程度时，该属性的信息熵越大，表示该属性包含的信息量越多，则属性的“重要”程度越高；反之属性的信息熵越小，表示该属性包含的信息量越小，属性的“重要”程度越低。在数据降维时，尽可能保留属性重要度越高的属性，剔除重要度越低的属性。在衡量属性保留或者舍弃时，本发明以属性重要度阈值作为界限。阈值的确定采用以下方案：

计算选择的属性在数据中的所占的比重。计算式如式(6)所示：

通过计算数据集中各个属性的信息熵，按照重要度大小排列属性，以属性重要度阈值作为界限，属性的重要度>阈值时，说明该属性包含的信息量多于阈值下的信息量，在数据降维时保留该属性；反之属性的信息熵<阈值时，表示该属性包含的信息量少于阈值下的信息量，在数据降维时剔除该属性。

数据降维加噪

若数据集D经筛选属性后产生的数据集为D_o，利用主成分分析法对其进行降维，降维过程如下：

设D_o的数据矩阵为X，对数据进行归一化处理：

计算样本(样本指代数据集中的数据记录)的协方差矩阵：

其中，m为数据集中数据记录个数；

对协方差矩阵进行特征分解：

Cov＝U^TCU (8)

C表示Cov特征分解后的对角矩阵，U表示特征值所对应的特征向量构成的特征矩阵。

在投影矩阵Z中添加Laplace噪声，得到噪声矩阵Z_o。

还原得到原始数据矩阵的低阶近似矩阵：

在投影矩阵上添加Laplace噪声，由于不同的属性的敏感程度不同，需要为不同的敏感属性添加不同的噪声量，提供不同的隐私保护程度，因此本发明设计了个性化的添加噪声的方式，其过程如图3所示。

敏感度

设数据集D中存在n个敏感属性为{P₁,P₂,…,P_n}，其对应的敏感属性值为{A₁,A₂,…,A_n}，根据Ai为敏感属性设置需要被保护的程度，该保护程度数值化后的值就称之为敏感属性的敏感度，记作S_i。

根据敏感属性值A_i，计算各属性的敏感度S_i，按照敏感度值将属性划分三个等级Levels，如表1所示：

表1敏感属性划分等级

从低到高对敏感属性等级分配与之对应的隐私预算，如表2所示：

表2隐私预算分配对应表

为数据使用者制定使用数据属性的策略：所使用的数据中无敏感属性、仅有弱敏感属性、包含中敏感属性但不包含强敏感属性、包含强敏感4种策略。针对这4种策略，数据拥有者设计添加与之对应不同级别的噪声，以此来降低敏感属性，满足个性化的数据隐私保护。(例如，数据使用者使用的数据包含强敏感属性H和弱敏感属性S，则数据拥有者按照强敏感属性与弱敏感属性对应的隐私预算比例ε₃，对数据集添加Laplace噪声；如果数据使用者使用的数据包含中敏感属性M和弱敏感属性S，则数据拥有者按照中敏感属性对应的隐私预算ε₂，对数据集添加Laplace噪声；如果数据使用者使用的数据只包含弱敏感属性S，则数据拥有者按照弱敏感属性对应的隐私预算，对数据集添加Laplace噪声。)之后将添加噪声的投影矩阵进行还原，得到最终的发布数据集。

主成分个数k的选取，在整个算法过程中阈值进行人为的选取是不切实际的，主成分分析k值的选择很大程度地影响着数据的安全性、可用性以及处理数据花费时间。k值选择过小，导致较多的属性被剔除，还原后的噪声数据的可用性较低；k值选择过大，还原后的噪声数据更加接近原始数据，但是数据的安全性降低。因此，怎样选择最优的主成分个数k是PCA优化算法的挑战之一。

互信息评价机制

本发明引进互信息的概念，通过计算不同主成分个数k值下的噪声数据与原始数据的互信息大小，利用均值法，将最接近均值的k值，作为发布数据安全性和实用性达到最优的主成分个数。

互信息越大，变量之间的相关性越强，数据实用性越强。用互信息去衡量加噪后的数据集更接近原始数据集的关系是可行的。

算法描述

基于主成分分析优化的差分隐私高维数据发布算法，如算法1所示。算法1对优化主成分分析的高维数据发布的实现进行了概述。利用属性重要度筛选属性、最优主成分个数k的确定方法对主成分分析法在差分隐私数据发布中的改进，很大程度地提升了数据的可用性和减小了数据处理的时间。

算法1PCAO_PPDP

Input：原始数据集S_m×n，属性重要度阈值Th，差分隐私预算ε

Output：发布数据集S″

1.对每一个属性做以下操作：

2.计算属性c_i的信息熵H(c_i)

3.IF

4.移动c_i至数据集S_p′_×n

5.END IF

6.END

7.计算b₁₁,b_i21,…,b_p1

8.

9.得到向量B＝[b₁₁,b₂₁,…,b_p1]^T

10.计算S′_p×n的协方差矩阵Cov

11.

12.计算Cov＝U^TCU

其中C＝Λ＝diag[λ₁,λ₂,...,λ_p]

13.选择U中最大的k个特征向量组成特征向量矩阵U_p×k

14.k值的选取，根据互信息值确定

15.计算得到投影矩阵Z_k×n

16.对投影矩阵Z_k×n添加噪声

17.

18.得到带有噪声的矩阵Z_(noise)

19.计算e₁₁,e₂₁,…,e_p1

20.得到向量E_(noise)＝[e₁₁,e₂₁,…,e_p1]^T

21.还原数据集S″

22.S″＝U_p×k×Z_(noise)+repmat(E_(noise),1,n)

23.求出互信息I(S_m×n,S″)，确定最优K值。

算法隐私保护效果分析

定理所提出的PCAO_PPDP算法满足ε-差分隐私保护。

证明：由算法可知：

噪音矩阵为：

由Laplace机制即证：

对于

，函数

的敏感度为

是k×n的矩阵，每个样本只对S_p′_×n的一列产生影响，由全局敏感度得，证明任意样本S₁′和S₂′满足

即可。

因为特征向量矩阵U_p×k中的任意两个特征向量互相正交，则有：

所以：

得证。

得出结论：PACO_PPDP算法满足ε-差分隐私保护。

实验评价

为了对PCAO_PPDP算法的有效性进行验证，将采用具体的实验进行分析说明。

实验设置

实验环境：Windows10操作系统，Intel(R)Core(TM)i3-8100 CPU 3.6GHz，16G内存。所涉及的算法和代码用Python实现。

实验数据：实验中采用UCI Adult、Diabetes 130-US hospitals for years1999-2008Data Set(Diabetes)和TIC三个数据集，三者均被广泛运用于数据发布。Adult是美国人口普查数据，记录了48842条个人信息；Diabetes是1999-2008年美国130家医院的糖尿病患者数据，记录了101767条糖尿病患者信息；TIC是某保险公司的客户信息数据，记录了98220条客户信息。数据集的数据类型、样本数及维度如表3所示：

表3数据集描述

为了评估本算法的性能，分别采用以上三种数据集，对PCAO-PPDP、PrivBayes、JTree算法以及不加噪声(NoPrivacy)对进行高维数据发布时，采用SVM分类算法度量数据的有效性。使用发布后的数据构建SVM分类模型，选择一个属性作为分类属性，其他属性作为特征，训练SVM分类器，并且做出预测。本发明针对不同数据集选取不同的属性作为分类属性，具体选择将在下文中描述。为进一步评价算法的有效性，使用误分类率(Misclassification rate)作为数据可用性的衡量标准，来度量发布数据的SVM分类结果的准确性。

首先在Adult、Diabetes、TIC数据集上，通过3种算法生成添加噪声后的发布数据集，将70％的生成数据作为训练集，30％的数据作为测试集，然后在发布数据集上构建SVM分类器。基于3种算法为随机算法，为了减少只进行一次实验产生不可避免地误差，因此在三种数据集上分别进行了10次实验，计算实验结果的平均值作为最终的实验结果。

在Adult数据集上，分别以(1)是否拥有大学学历；(2)是否结婚；(3)是否年薪大于50K作为分类属性做出预测。在Diabetes数据集上，分别以(1)是否为男性；(2)种族是否为X人；(3)是否再次入住医院作为分类属性做出预测。在TIC数据集上，分别以(1)是否拥有房子；(2)是否结婚；(3)收入是否大于30K作为分类属性做出预测图4、图5及图6分别展示了3种算法在Adults、Diabetes、TIC数据集上的误分类结果。

图4(a)、图4(b)和图4(c)中，在属性个数为14的Adults数据集上，即使在加入噪声最多，分类精度最低的情况下，PCAO_PPDP的误分类率明显低于JTree算法，更低于PrivBayes算法近2倍多。

图5(a)、图5(b)和图5(c)中，在属性个数为55的Diabetes数据集上，虽然3种算法的误分类率的差距在逐渐缩小，但是PCAO_PPDP算法仍优于PrivBayes和JTree算法。

图6(a)、图6(b)和图6(c)中，在属性个数为86的TIC数据集上，即使数据维度很高，PCAO_PPDP的误分类率同样低于PrivBayes和JTree。

由图4、图5、图6可以看出，3种算法生成的数据集在SVM分类时，尽管随着数据集数据维度的增加，产生的结果的误分类率之间的差距在逐渐缩小。但经PCAO_PPDP算法生成的数据集的分类结果仅次于没有添加噪声是的分类结果，仍然在很大程度上优于PrivBayes算法和JTree算法。这也说明，EPAO_PPDP算法产生的数据集较PrivBayes和JTree算法获得更好的数据效用。

针对高维数据发布问题，首先，阐述了隐私保护的研究背景和意义，其次，分析总结现有的高维数据发布的文献的优点与不足，最后，基于文献中的不足，本发明提出了一种满足差分隐私保护的基于主成分分析优化的高维数据发布方法PCAO_PPDP。理论分析表明，PCAO_PPDP不但对高维数据发布具有较好的优化而且满足差分隐私。实验结果表明，PCAO_PPDP算法生成的数据集较现有的同类算法具有较好的效用性。未来将研究在动态高维数据发布的差分隐私保护方法。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。