CN110334546B - 基于主成分分析优化的差分隐私高维数据发布保护方法 - Google Patents

基于主成分分析优化的差分隐私高维数据发布保护方法 Download PDF

Info

Publication number
CN110334546B
CN110334546B CN201910608605.1A CN201910608605A CN110334546B CN 110334546 B CN110334546 B CN 110334546B CN 201910608605 A CN201910608605 A CN 201910608605A CN 110334546 B CN110334546 B CN 110334546B
Authority
CN
China
Prior art keywords
data
attribute
principal component
matrix
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910608605.1A
Other languages
English (en)
Other versions
CN110334546A (zh
Inventor
史伟
李万杰
张兴
张青云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Youzhi Internet of Things Co.,Ltd.
Original Assignee
Liaoning University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University of Technology filed Critical Liaoning University of Technology
Priority to CN201910608605.1A priority Critical patent/CN110334546B/zh
Publication of CN110334546A publication Critical patent/CN110334546A/zh
Application granted granted Critical
Publication of CN110334546B publication Critical patent/CN110334546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于主成分分析优化的差分隐私高维数据发布保护方法,包括以下步骤:步骤一、计算原始数据属性的信息熵,确定属性重要度阈值,对所述原始数据中的属性进行筛选;步骤二、利用主成分分析法对所述筛选数据进行降维,确定最优k值,从而确定最佳的发布数据;其中,在降维过程中,产生的投影矩阵进行个性化的加噪得到加躁数据,并且使所述加躁数据满足差分隐私;以及在降维过程中,进行多次的主成分个数k值的选取,通过互信息评价机制,计算所述原始数据与所述加噪数据的互信息,确定了所述最优k值。本发明提供了基于主成分分析优化的差分隐私高维数据发布保护方法,确保数据隐私信息不被泄露的同时,发布的数据更好地接近与原始数据。

Description

基于主成分分析优化的差分隐私高维数据发布保护方法
技术领域
本发明涉及隐私保护数据发布技术领域,尤其涉及基于主成分分析优化的差分隐私高维数据发布保护方法。
背景技术
目前,许多数据收集机构需要将所收集原始数据(例如医疗数据、金融数据等)发布出去,以便于数据分析、挖掘,能够从发布的数据中产生更为有效地决策支持,如图1所示,为数据发布示意图。然而,发布的原始数据中涉及了大量的个人敏感信息,直接发布数据会致使个人隐私的严重泄露。因此,数据发布者需要通过特殊的保护技术处理隐私数据后将数据发布出去。
现阶段,主要的隐私保护数据发布技术大致上分为3类:1)基于数据加密的发布技术。例如AES加密、RSA加密等。2)基于限制条件的发布技术。根据原始数据特性,有选择性地发布含有敏感数据的数据,例如:k-匿名模型、l-多样性模型、t-近似模型等。3)基于数据失真的发布技术。使得隐私数据失真的同时,保持原始数据的某些特性。这样的技术主要有:随机扰动、凝聚、交换技术、注入噪声等。
作为基于数据失真的差分隐私保护技术,已成为隐私保护重点研究方向之一。现阶段,对于数据发布的研究主要聚焦于一维或低维数据。然而,这些数据发布方法均不适用于高维数据的发布,无法解决在处理高维数据发布时,随着维度和维度值域的增加,形成的发布空间以指数型增长,遭遇“维度灾难”的问题。因此,如何为数据研究者提供大量有效信息的同时,利用差分隐私技术保证原始高维数据的隐私安全变得极具挑战。
发明内容
本发明为解决目前的技术不足之处,提供了基于主成分分析优化的差分隐私高维数据发布保护方法,确保数据隐私信息不被泄露的同时,发布的数据更好地接近与原始数据。
本发明提供的技术方案为:基于主成分分析优化的差分隐私高维数据发布保护方法,包括以下步骤:
步骤一、计算原始数据属性的信息熵,确定属性重要度阈值,对所述原始数据中的属性进行筛选;
步骤二、利用主成分分析法对所述筛选数据进行降维,确定最优k值,从而确定最佳的发布数据;
其中,在降维过程中,产生的投影矩阵进行个性化的加噪得到加躁数据,并且使所述加躁数据满足差分隐私;以及
在降维过程中,进行多次的主成分个数k值的选取,通过互信息评价机制,计算所述原始数据与所述加噪数据的互信息,确定了所述最优k值。
优选的是,所述步骤一中信息熵H(X)计算方法为:
Figure GDA0003326362570000021
其中,X为离散型随机变量,p(x)表示x发生的概率。
优选的是,属性重要度阈值Th满足:
Figure GDA0003326362570000022
其中,Th为属性重要度阈值,k为选取主成分的个数,N为所有属性个数。
优选的是,在所述步骤一中,对原始数据中的属性进行筛选的具体方法为:
计算原始数据集D中各个属性的信息熵,按照信息熵的大小排列属性,属性重要度阈值作为界限,将信息熵大于阈值的属性保留,信息熵小于阈值的属性剔除,得到筛选后数据集Do
优选的是,所述主成分分析法具体为:
对多个原始随机变量组成的数据集X={x1,x2,…,xn}的协方差矩阵进行分解,重新组合转变为几个各维度间彼此不相关的变量Q={y1,y2,…,ym},m<n。
优选的是,所述步骤二中,数据降维过程中加噪的方法为:
对筛选后的数据Do的数据矩阵为X进行归一化处理:
Figure GDA0003326362570000031
计算数据集中的数据记录的协方差矩阵:
Figure GDA0003326362570000032
其中,m为数据集中数据记录个数;
对协方差矩阵进行特征分解:
Cov=UTCU
其中,C为协方差矩阵Cov特征分解后的对角矩阵,U表示特征值所对应的特征向量构成的特征矩阵;
选取k个特征值所对应的k个特征向量组成矩阵Uk,将原始数据投影到矩阵Uk上,得到投影矩阵:
Figure GDA0003326362570000033
在投影矩阵Z中添加Laplace噪声,得到噪声矩阵Zo
还原得到原始数据矩阵的低阶近似矩阵:
Figure GDA0003326362570000034
优选的是,所述Laplace噪声具体为:
数据集D,对于任一查询函数f:D→Rd,其敏感度为Δf,则随机算法A(D)=f(D)+Y提供ε-差分隐私保护;其中,Y~Lap(Δf/ε)为随机噪声,表示Y是服从尺度参数为Δf/ε的Laplace噪声分布,ε为隐私预算,Rd为D的经过查询函数f所对应的值域。
优选的是,互信息评价机制:
计算不同主成分个数k值下的噪声数据与原始数据的互信息大小,利用均值法,将最接近均值的k值,作为发布数据安全性和实用性达到最优的主成分个数。
优选的是,所述互信息满足:
Figure GDA0003326362570000035
其中,X和Y表示两个离散随机变量;p(x,y)表示X和Y的联合概率分布函数;p(x)和p(y)分别表示X和Y的边缘概率分布函数。
优选的是,所述差分隐私具体包括:
对于随机算法A,当其满足以下关系式,则算法A满足ε-差分隐私:
Pr[A(D)∈S]≤eε×Pr[A(D′)∈S]
其中,概率Pr[·]为算法的概率,ε为隐私预算,D和D'为两个完全相同或者至多相差一条记录的数据集,S为A的值域的子集。
本发明所述的有益效果:
1)满足差分隐私的高维数据发布方法,引入PCA算法并在属性降维时,采取属性重要度衡量对属性筛选,优化PCA处理数据的时间和空间,解决维度灾难问题;
2)在降维过程中设计满足个性化的隐私保护的Laplace噪声添加机制,实现满足不同任务需求的高维数据发布;
3)针对数据降维时,主成分个数k的选取,提出互信息评价机制,利用互信息确定最优的k值。
附图说明
图1为本发明的数据发布示意图。
图2为本发明的主成分分析优化的差分隐私高维数据发布保护框架。
图3为本发明的个性化的加噪策略。
图4(a)为本发明的Adult数据集下SVM(education)分类结果。
图4(b)为本发明的Adult数据集下SVM(marital)分类结果。
图4(c)为本发明的Adult数据集下SVM(salary)分类结果。
图5(a)为本发明的Diabetes数据集下SVM(gender)分类结果。
图5(b)为本发明的Diabetes数据集下SVM(race)分类结果。
图5(c)为本发明的Diabetes数据集下SVM(readmitted)分类结果。
图6(a)为本发明的TIC数据集下SVM(house)分类结果。
图6(b)为本发明的TIC数据集下SVM(marital)分类结果。
图6(c)为本发明的TIC数据集下SVM(salary)分类结果。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图2所示,本发明的基于主成分分析优化的差分隐私高维数据发布保护方法,提出了一种基于主成分分析优化的差分隐私高维数据发布方法PCAO_PPDP,该方法利用基于信息熵的主成分分析法对数据进行降维,利用满足个性化的Laplace机制确保PCAO_PPDP满足差分隐私的要求。理论分析表明,所提的PCAO_PPDP算法满足ε-差分隐私;实验结果表明,与现有的研究工作相比,PCAO_PPDP算法产生的数据集的数据效用性均优于PrivBayes和JTree算法。
差分隐私保护技术通过向原始数据集的转换或其统计结果添加噪声来达到隐私保护的目的。该方法确保了在任一数据集中更改一条记录的操作而不影响查询的输出结果。此外,该模型可以抵御攻击者掌握了除某一记录外的所有信息的背景知识攻击。
差分隐私
给定两个数据集D和D',二者完全相同或者至多相差一条记录,给定随机算法A,Range(A)表示A的值域,S为Range(A)的子集。如果A满足式(1),则算法A满足ε-差分隐私。
Pr[A(D)∈S]≤eε×Pr[A(D′)∈S] (1)
其中,概率Pr[·]表示算法的概率,由算法A决定;ε为隐私预算,表示算法A的隐私保护程度,ε的值越小,A的隐私保护程度越高。
实现差分隐私保护常介入两种噪声机制,分别是拉普拉斯机制和指数机制。本发明主要采用Laplace噪音机制。
Laplace机制
给定数据集D,对于任一查询函数f:D→Rd,其敏感度为Δf,则随机算法A(D)=f(D)+Y提供ε-差分隐私保护。其中,Y~Lap(Δf/ε)为随机噪声,表示Y是服从尺度参数为Δf/ε的Laplace噪声分布。
Laplace机制通过将服从Laplace分布的噪声介入准确的查询统计结果来达到ε-差分隐私保护的目的。设Laplace分布Lap(b)位置参数为0的概率密度函数为P(x),其表示形式为
Figure GDA0003326362570000061
信息熵与互信息
信息熵表示事件中包含信息量的平均量。信息熵越高,表示包含的信息量越大;反之,信息上越小,表示包含的信息量越少。信息熵的具体含义为:
设X是一个离散型随机变量,则X的信息熵为:
Figure GDA0003326362570000062
其中,p(x)表示x发生的概率。
互信息(Mutual Information)是2个或2个以上随机变量间相互依赖性的量度。它度量两个事件之间信息量的相关性。互信息的定义为:
Figure GDA0003326362570000063
其中,X和Y表示两个离散随机变量;p(x,y)表示X和Y的联合概率分布函数;p(x)和p(y)分别表示X和Y的边缘概率分布函数。
由式(3)和式(4)推倒可得互信息与信息熵之间的关系:
I(X,Y)=H(X)+H(Y)=H(X,Y) (5)
主成分分析法
主成分分析法(PCA)是通过对多个原始随机变量组成的数据集X={x1,x2,…,xn}的协方差矩阵进行分解,重新组合转变为少数几个各维度间彼此不相关的变量Q={y1,y2,…,ym},m<n,使得Q中尽可能保留X的信息,从而对高维数据进行降维。
在高维数据发布时,现有的大多数方法都会遭受维度“灾难”的问题,引入较大的噪声,导致发布的数据的可用性很低。因此,在高维数据发布中,设计出既能解决维度灾难带来数据可用性较低的问题又能满足数据隐私安全的发布方法是亟需迫切的。本发明提出了一种基于主成分分析优化的差分隐私高维数据发布保护方法,对高维数据进行降维优化及隐私保护,经该方法产生的发布数据满足:1)具有较好的数据效用,利于数据挖掘、分析操作等;
2)满足差分隐私保护,为数据提供最优的隐私保护效果。
高维数据发布机制
基于主成分分析优化的差分隐私高维数据发布方法的运行机制,如图2所示。
基于主成分分析优化的差分隐私高维数据发布方法具体的步骤如下:
1)首先确定属性重要度阈值,对原始数据中的属性进行筛选,将原始数据中的无用属性和缺失值较多的属性剔除。
2)对经过属性筛选后的数据,利用主成分分析法对数据进行降维。对降维过程中,产生的投影矩阵进行个性化的加噪,使得数据满足差分隐私。
3)在数据的降维过程中,进行多次的主成分个数k值的选取,通过互信息评价机制,计算原始数据与加噪数据的互信息,确定最优的k值,从而确定最佳的发布数据。
筛选属性
本算法通过计算属性的信息熵,作为属性重要度衡量指标,利用属性重要度阈值,对属性进行筛选。
信息熵应用于衡量属性“重要”程度时,该属性的信息熵越大,表示该属性包含的信息量越多,则属性的“重要”程度越高;反之属性的信息熵越小,表示该属性包含的信息量越小,属性的“重要”程度越低。在数据降维时,尽可能保留属性重要度越高的属性,剔除重要度越低的属性。在衡量属性保留或者舍弃时,本发明以属性重要度阈值作为界限。阈值的确定采用以下方案:
计算选择的属性在数据中的所占的比重。计算式如式(6)所示:
Figure GDA0003326362570000081
通过计算数据集中各个属性的信息熵,按照重要度大小排列属性,以属性重要度阈值作为界限,属性的重要度>阈值时,说明该属性包含的信息量多于阈值下的信息量,在数据降维时保留该属性;反之属性的信息熵<阈值时,表示该属性包含的信息量少于阈值下的信息量,在数据降维时剔除该属性。
数据降维加噪
若数据集D经筛选属性后产生的数据集为Do,利用主成分分析法对其进行降维,降维过程如下:
设Do的数据矩阵为X,对数据进行归一化处理:
Figure GDA0003326362570000082
计算样本(样本指代数据集中的数据记录)的协方差矩阵:
Figure GDA0003326362570000083
其中,m为数据集中数据记录个数;
对协方差矩阵进行特征分解:
Cov=UTCU (8)
C表示Cov特征分解后的对角矩阵,U表示特征值所对应的特征向量构成的特征矩阵。
选取k个特征值所对应的k个特征向量组成矩阵Uk,将原始数据投影到矩阵Uk上,得到投影矩阵:
Figure GDA0003326362570000084
在投影矩阵Z中添加Laplace噪声,得到噪声矩阵Zo
还原得到原始数据矩阵的低阶近似矩阵:
Figure GDA0003326362570000085
在投影矩阵上添加Laplace噪声,由于不同的属性的敏感程度不同,需要为不同的敏感属性添加不同的噪声量,提供不同的隐私保护程度,因此本发明设计了个性化的添加噪声的方式,其过程如图3所示。
敏感度
设数据集D中存在n个敏感属性为{P1,P2,…,Pn},其对应的敏感属性值为{A1,A2,…,An},根据Ai为敏感属性设置需要被保护的程度,该保护程度数值化后的值就称之为敏感属性的敏感度,记作Si
根据敏感属性值Ai,计算各属性的敏感度Si,按照敏感度值将属性划分三个等级Levels,如表1所示:
表1敏感属性划分等级
Figure GDA0003326362570000091
从低到高对敏感属性等级分配与之对应的隐私预算,如表2所示:
表2隐私预算分配对应表
Figure GDA0003326362570000092
为数据使用者制定使用数据属性的策略:所使用的数据中无敏感属性、仅有弱敏感属性、包含中敏感属性但不包含强敏感属性、包含强敏感4种策略。针对这4种策略,数据拥有者设计添加与之对应不同级别的噪声,以此来降低敏感属性,满足个性化的数据隐私保护。(例如,数据使用者使用的数据包含强敏感属性H和弱敏感属性S,则数据拥有者按照强敏感属性与弱敏感属性对应的隐私预算比例ε3,对数据集添加Laplace噪声;如果数据使用者使用的数据包含中敏感属性M和弱敏感属性S,则数据拥有者按照中敏感属性对应的隐私预算ε2,对数据集添加Laplace噪声;如果数据使用者使用的数据只包含弱敏感属性S,则数据拥有者按照弱敏感属性对应的隐私预算,对数据集添加Laplace噪声。)之后将添加噪声的投影矩阵进行还原,得到最终的发布数据集。
主成分个数k的选取,在整个算法过程中阈值进行人为的选取是不切实际的,主成分分析k值的选择很大程度地影响着数据的安全性、可用性以及处理数据花费时间。k值选择过小,导致较多的属性被剔除,还原后的噪声数据的可用性较低;k值选择过大,还原后的噪声数据更加接近原始数据,但是数据的安全性降低。因此,怎样选择最优的主成分个数k是PCA优化算法的挑战之一。
互信息评价机制
本发明引进互信息的概念,通过计算不同主成分个数k值下的噪声数据与原始数据的互信息大小,利用均值法,将最接近均值的k值,作为发布数据安全性和实用性达到最优的主成分个数。
互信息越大,变量之间的相关性越强,数据实用性越强。用互信息去衡量加噪后的数据集更接近原始数据集的关系是可行的。
算法描述
基于主成分分析优化的差分隐私高维数据发布算法,如算法1所示。算法1对优化主成分分析的高维数据发布的实现进行了概述。利用属性重要度筛选属性、最优主成分个数k的确定方法对主成分分析法在差分隐私数据发布中的改进,很大程度地提升了数据的可用性和减小了数据处理的时间。
算法1PCAO_PPDP
Input:原始数据集Sm×n,属性重要度阈值Th,差分隐私预算ε
Output:发布数据集S″
1.对每一个属性做以下操作:
2.计算属性ci的信息熵H(ci)
3.IF
Figure GDA0003326362570000101
4.移动ci至数据集Sp×n
5.END IF
6.END
7.计算b11,bi21,…,bp1
8.
Figure GDA0003326362570000111
9.得到向量B=[b11,b21,…,bp1]T
10.计算S′p×n的协方差矩阵Cov
11.
Figure GDA0003326362570000112
12.计算Cov=UTCU
其中C=Λ=diag[λ12,...,λp]
13.选择U中最大的k个特征向量组成特征向量矩阵Up×k
14.k值的选取,根据互信息值确定
15.计算得到投影矩阵Zk×n
Figure GDA0003326362570000113
16.对投影矩阵Zk×n添加噪声
17.
Figure GDA0003326362570000114
18.得到带有噪声的矩阵Z(noise)
19.计算e11,e21,…,ep1
20.得到向量E(noise)=[e11,e21,…,ep1]T
21.还原数据集S″
22.S″=Up×k×Z(noise)+repmat(E(noise),1,n)
23.求出互信息I(Sm×n,S″),确定最优K值。
算法隐私保护效果分析
定理所提出的PCAO_PPDP算法满足ε-差分隐私保护。
证明:由算法可知:
噪音矩阵为:
Figure GDA0003326362570000115
由Laplace机制即证:
对于
Figure GDA0003326362570000116
,函数
Figure GDA0003326362570000117
的敏感度为
Figure GDA0003326362570000118
Figure GDA0003326362570000119
是k×n的矩阵,每个样本只对Sp×n的一列产生影响,由全局敏感度得,证明任意样本S1′和S2′满足
Figure GDA0003326362570000121
即可。
因为特征向量矩阵Up×k中的任意两个特征向量互相正交,则有:
Figure GDA0003326362570000122
所以:
Figure GDA0003326362570000123
得证。
得出结论:PACO_PPDP算法满足ε-差分隐私保护。
实验评价
为了对PCAO_PPDP算法的有效性进行验证,将采用具体的实验进行分析说明。
实验设置
实验环境:Windows10操作系统,Intel(R)Core(TM)i3-8100 CPU 3.6GHz,16G内存。所涉及的算法和代码用Python实现。
实验数据:实验中采用UCI Adult、Diabetes 130-US hospitals for years1999-2008Data Set(Diabetes)和TIC三个数据集,三者均被广泛运用于数据发布。Adult是美国人口普查数据,记录了48842条个人信息;Diabetes是1999-2008年美国130家医院的糖尿病患者数据,记录了101767条糖尿病患者信息;TIC是某保险公司的客户信息数据,记录了98220条客户信息。数据集的数据类型、样本数及维度如表3所示:
表3数据集描述
Figure GDA0003326362570000124
为了评估本算法的性能,分别采用以上三种数据集,对PCAO-PPDP、PrivBayes、JTree算法以及不加噪声(NoPrivacy)对进行高维数据发布时,采用SVM分类算法度量数据的有效性。使用发布后的数据构建SVM分类模型,选择一个属性作为分类属性,其他属性作为特征,训练SVM分类器,并且做出预测。本发明针对不同数据集选取不同的属性作为分类属性,具体选择将在下文中描述。为进一步评价算法的有效性,使用误分类率(Misclassification rate)作为数据可用性的衡量标准,来度量发布数据的SVM分类结果的准确性。
首先在Adult、Diabetes、TIC数据集上,通过3种算法生成添加噪声后的发布数据集,将70%的生成数据作为训练集,30%的数据作为测试集,然后在发布数据集上构建SVM分类器。基于3种算法为随机算法,为了减少只进行一次实验产生不可避免地误差,因此在三种数据集上分别进行了10次实验,计算实验结果的平均值作为最终的实验结果。
在Adult数据集上,分别以(1)是否拥有大学学历;(2)是否结婚;(3)是否年薪大于50K作为分类属性做出预测。在Diabetes数据集上,分别以(1)是否为男性;(2)种族是否为X人;(3)是否再次入住医院作为分类属性做出预测。在TIC数据集上,分别以(1)是否拥有房子;(2)是否结婚;(3)收入是否大于30K作为分类属性做出预测图4、图5及图6分别展示了3种算法在Adults、Diabetes、TIC数据集上的误分类结果。
图4(a)、图4(b)和图4(c)中,在属性个数为14的Adults数据集上,即使在加入噪声最多,分类精度最低的情况下,PCAO_PPDP的误分类率明显低于JTree算法,更低于PrivBayes算法近2倍多。
图5(a)、图5(b)和图5(c)中,在属性个数为55的Diabetes数据集上,虽然3种算法的误分类率的差距在逐渐缩小,但是PCAO_PPDP算法仍优于PrivBayes和JTree算法。
图6(a)、图6(b)和图6(c)中,在属性个数为86的TIC数据集上,即使数据维度很高,PCAO_PPDP的误分类率同样低于PrivBayes和JTree。
由图4、图5、图6可以看出,3种算法生成的数据集在SVM分类时,尽管随着数据集数据维度的增加,产生的结果的误分类率之间的差距在逐渐缩小。但经PCAO_PPDP算法生成的数据集的分类结果仅次于没有添加噪声是的分类结果,仍然在很大程度上优于PrivBayes算法和JTree算法。这也说明,EPAO_PPDP算法产生的数据集较PrivBayes和JTree算法获得更好的数据效用。
针对高维数据发布问题,首先,阐述了隐私保护的研究背景和意义,其次,分析总结现有的高维数据发布的文献的优点与不足,最后,基于文献中的不足,本发明提出了一种满足差分隐私保护的基于主成分分析优化的高维数据发布方法PCAO_PPDP。理论分析表明,PCAO_PPDP不但对高维数据发布具有较好的优化而且满足差分隐私。实验结果表明,PCAO_PPDP算法生成的数据集较现有的同类算法具有较好的效用性。未来将研究在动态高维数据发布的差分隐私保护方法。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (4)

1.基于主成分分析优化的差分隐私高维数据发布保护方法,其特征在于,包括以下步骤:
步骤一、计算原始数据属性的信息熵,确定属性重要度阈值,对所述原始数据中的属性进行筛选;
步骤二、利用主成分分析法对筛选数据进行降维,确定最优k值,从而确定最佳的发布数据;
其中,在降维过程中,产生的投影矩阵进行个性化的加噪得到加噪数据,并且使所述加噪数据满足差分隐私;以及
在降维过程中,进行多次的主成分个数k值的选取,通过互信息评价机制,计算所述原始数据与所述加噪数据的互信息,确定了所述最优k值;
所述步骤二中,数据降维过程中加噪的方法为:
对筛选后的数据Do的数据矩阵为X进行归一化处理:X-X;
计算数据集中的数据记录的协方差矩阵:
Figure FDF0000014027960000011
其中,m为数据集中数据记录个数;
对协方差矩阵进行特征分解:
Cov=UTCU
其中,C为协方差矩阵Cov特征分解后的对角矩阵,U表示特征值所对应的特征向量构成的特征矩阵;
选取k个特征值所对应的k个特征向量组成矩阵Uk,将原始数据投影到矩阵Uk上,得到投影矩阵:
Figure FDF0000014027960000012
在投影矩阵Z中添加Laplace噪声,得到噪声矩阵Zo
还原得到原始数据矩阵的低阶近似矩阵:
Figure FDF0000014027960000013
所述Laplace噪声具体为:
数据集D,对于任一查询函数f:D→Rd,其敏感度为Δf,则随机算法A(D)=f(D)+Y提供ε-差分隐私保护;其中,Y~Lap(Δf/ε)为随机噪声,表示Y是服从尺度参数为Δf/ε的Laplace噪声分布,ε为隐私预算,Rd为数据集D的经过查询函数f所对应的值域;
互信息评价机制:
计算不同主成分个数k值下的噪声数据与原始数据的互信息大小,利用均值法,将最接近均值的k值,作为发布数据安全性和实用性达到最优的主成分个数;
所述互信息满足:
Figure FDF0000014027960000021
其中,X和Y表示两个离散随机变量;p(x,y)表示X和Y的联合概率分布函数;p(x)和p(y)分别表示X和Y的边缘概率分布函数;
在所述步骤一中,对原始数据中的属性进行筛选的具体方法为:
计算原始数据集D中各个属性的信息熵,按照信息熵的大小排列属性,属性重要度阈值作为界限,将信息熵大于阈值的属性保留,信息熵小于阈值的属性剔除,得到筛选后数据集Do
所述步骤二中,所述主成分分析法具体为:
对多个原始随机变量组成的数据集X={x1,x2,…,xn}的协方差矩阵进行分解,重新组合转变为几个各维度间彼此不相关的变量Q={y1,y2,…,ym},m<n。
2.根据权利要求1所述的基于主成分分析优化的差分隐私高维数据发布保护方法,其特征在于,所述步骤一中信息熵H(X)计算方法为:
Figure FDF0000014027960000022
其中,X为离散型随机变量,p(x)表示x发生的概率。
3.根据权利要求2所述的基于主成分分析优化的差分隐私高维数据发布保护方法,其特征在于,所述属性重要度阈值Th满足:
Figure FDF0000014027960000031
其中,Th为属性重要度阈值,k为选取主成分的个数,N为所有属性个数。
4.根据权利要求3所述的基于主成分分析优化的差分隐私高维数据发布保护方法,其特征在于,所述差分隐私具体包括:
对于随机算法A,当其满足以下关系式,则算法A满足ε-差分隐私:
Pr[A(D)∈S]≤eε×Pr[A(D′)∈S]
其中,概率Pr[·]为算法的概率,ε为隐私预算,D和D'为两个完全相同或者至多相差一条记录的数据集,S为A的值域的子集。
CN201910608605.1A 2019-07-08 2019-07-08 基于主成分分析优化的差分隐私高维数据发布保护方法 Active CN110334546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910608605.1A CN110334546B (zh) 2019-07-08 2019-07-08 基于主成分分析优化的差分隐私高维数据发布保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910608605.1A CN110334546B (zh) 2019-07-08 2019-07-08 基于主成分分析优化的差分隐私高维数据发布保护方法

Publications (2)

Publication Number Publication Date
CN110334546A CN110334546A (zh) 2019-10-15
CN110334546B true CN110334546B (zh) 2021-11-23

Family

ID=68143258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910608605.1A Active CN110334546B (zh) 2019-07-08 2019-07-08 基于主成分分析优化的差分隐私高维数据发布保护方法

Country Status (1)

Country Link
CN (1) CN110334546B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401479B (zh) * 2020-04-17 2022-05-17 支付宝(杭州)信息技术有限公司 多方联合对隐私数据进行降维处理的方法和装置
CN112199849B (zh) * 2020-10-16 2022-07-26 西北工业大学 一种基于信息熵在线分解的高维问题优化方法
CN112464154B (zh) * 2020-11-27 2024-03-01 中国船舶重工集团公司第七0四研究所 一种基于无监督学习的自动筛选有效特征的方法
CN117520824A (zh) * 2024-01-03 2024-02-06 浙江省白马湖实验室有限公司 一种基于信息熵的分布式光纤数据特征重构方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975589A (zh) * 2016-05-06 2016-09-28 哈尔滨理工大学 一种高维数据的特征选择方法及装置
CN106407363A (zh) * 2016-09-08 2017-02-15 电子科技大学 一种基于信息熵的超高维数据降维算法
CN106991447A (zh) * 2017-04-06 2017-07-28 哈尔滨理工大学 一种嵌入式多类别属性标签动态特征选择算法
CN108537288A (zh) * 2018-04-19 2018-09-14 辽宁大学 一种基于互信息的实时特征提取方法
CN108776763A (zh) * 2018-06-08 2018-11-09 哈尔滨工程大学 一种基于属性相关的差分隐私保护方法
CN109189776A (zh) * 2018-10-24 2019-01-11 广东电网有限责任公司 一种数据降维方法
CN109376549A (zh) * 2018-10-25 2019-02-22 广州电力交易中心有限责任公司 一种基于差分隐私保护的电力交易大数据发布方法
CN109492428A (zh) * 2018-10-29 2019-03-19 南京邮电大学 一种面向主成分分析的差分隐私保护方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279641A (zh) * 2014-06-12 2016-01-27 中兴通讯股份有限公司 互联网支付的注册认证、实现方法及装置
FR3047586A1 (fr) * 2016-02-09 2017-08-11 Orange Procede et dispositif d'anonymisation de donnees stockees dans une base de donnees
CN107463993B (zh) * 2017-08-04 2020-11-24 贺志尧 基于互信息-核主成分分析-Elman网络的中长期径流预报方法
CN107871087B (zh) * 2017-11-08 2020-10-30 广西师范大学 分布式环境下高维数据发布的个性化差分隐私保护方法
CN109150538B (zh) * 2018-07-16 2021-06-25 广州大学 一种指纹与声纹融合身份认证方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975589A (zh) * 2016-05-06 2016-09-28 哈尔滨理工大学 一种高维数据的特征选择方法及装置
CN106407363A (zh) * 2016-09-08 2017-02-15 电子科技大学 一种基于信息熵的超高维数据降维算法
CN106991447A (zh) * 2017-04-06 2017-07-28 哈尔滨理工大学 一种嵌入式多类别属性标签动态特征选择算法
CN108537288A (zh) * 2018-04-19 2018-09-14 辽宁大学 一种基于互信息的实时特征提取方法
CN108776763A (zh) * 2018-06-08 2018-11-09 哈尔滨工程大学 一种基于属性相关的差分隐私保护方法
CN109189776A (zh) * 2018-10-24 2019-01-11 广东电网有限责任公司 一种数据降维方法
CN109376549A (zh) * 2018-10-25 2019-02-22 广州电力交易中心有限责任公司 一种基于差分隐私保护的电力交易大数据发布方法
CN109492428A (zh) * 2018-10-29 2019-03-19 南京邮电大学 一种面向主成分分析的差分隐私保护方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Differentially Private Distributed Principal Component Analysis;Hafiz Imtiaz 等;《2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20180913;第2206-2210页 *
一种带隐私保护的基于标签的推荐算法研究;曹春萍 等;《计算机科学》;20170831;第44卷(第8期);第135页 *
基于差分隐私的海量数据发布方法研究;颜飞 等;《计算机应用与软件》;20181130;第35卷(第11期);第314-320页 *

Also Published As

Publication number Publication date
CN110334546A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN110334546B (zh) 基于主成分分析优化的差分隐私高维数据发布保护方法
Song et al. Pufferfish privacy mechanisms for correlated data
Li et al. On nonparametric conditional independence tests for continuous variables
Way et al. Effect of finite sample size on feature selection and classification: a simulation study
Ma et al. Variable selection in partly linear regression model with diverging dimensions for right censored data
Ubaru et al. Applications of trace estimation techniques
Cui et al. Max-linear competing factor models
Christensen A Method for Pricing American Options Using Semi‐Infinite Linear Programming
Bittracher et al. Optimal reaction coordinates: Variational characterization and sparse computation
Wang et al. Nonparametric multivariate kurtosis and tailweight measures
Xu et al. Laplace input and output perturbation for differentially private principal components analysis
Chen et al. Sparsity fuzzy C-means clustering with principal component analysis embedding
Kabán Fractional norm regularization: Learning with very few relevant features
CN114547686A (zh) 一种高维度海量数据发布隐私保护方法
Chen et al. A multidimensional Hilbert transform approach for barrier option pricing and survival probability calculation
Protter et al. Order book queue Hawkes Markovian modeling
Liu et al. Effect of correlation on combining diagnostic information from two images of the same patient
Farshadmoghadam et al. European option under a skew version of the GBM model with transaction costs by an RBF method
Galarza et al. An EM algorithm for estimating the parameters of the multivariate skew-normal distribution with censored responses
Ling et al. An Improved K-means Algorithm Based on Multiple Clustering and Density
McLachlan et al. Estimation of classification rules from partially classified data
Mendonça et al. DiPCoDing: a differentially private approach for correlated data with clustering
Rincon Hidalgo et al. Local wavelet‐vaguelette‐based functional classification of gene expression data
Tomassi et al. Sufficient dimension reduction for censored predictors
Qi et al. Mixture factorized ornstein-uhlenbeck processes for time-series forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221229

Address after: Room 204-8, Block B, Floor 2, Building A, No. 6, Yinka East Road, Hunnan District, Shenyang, Liaoning Province, 110000

Patentee after: Liaoning Youzhi Internet of Things Co.,Ltd.

Address before: 121001, 169 street, Guta District, Liaoning, Jinzhou

Patentee before: LIAONING University OF TECHNOLOGY