CN102880834A - 一种保持数据数字特征的隐私信息保护方法 - Google Patents

一种保持数据数字特征的隐私信息保护方法 Download PDF

Info

Publication number
CN102880834A
CN102880834A CN2012103199094A CN201210319909A CN102880834A CN 102880834 A CN102880834 A CN 102880834A CN 2012103199094 A CN2012103199094 A CN 2012103199094A CN 201210319909 A CN201210319909 A CN 201210319909A CN 102880834 A CN102880834 A CN 102880834A
Authority
CN
China
Prior art keywords
prime
data
centerdot
cov
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103199094A
Other languages
English (en)
Other versions
CN102880834B (zh
Inventor
桂小林
杨攀
田丰
代敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201210319909.4A priority Critical patent/CN102880834B/zh
Publication of CN102880834A publication Critical patent/CN102880834A/zh
Application granted granted Critical
Publication of CN102880834B publication Critical patent/CN102880834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种保持数据数字特征的隐私信息保护方法,数据库表格T包含两列敏感信息,X与Y,对X和Y的数据进行混淆变换,生成X’和Y’,使X’、Y’与X、Y的数字特征相同;按属性值的不同对X和Y进行分类统计,同样使每类的数字特征不变,包括下列步骤:步骤一:将X和Y的数据划分为小组,首先按指定属性对X,Y进行第1级分组,然后再按照距离细分每个1级分组,得到{(X1,Y1),(X2,Y2),...,(Xn,Yn)};步骤二:对每组(Xk,Yk),利用标准正态分布产生高斯随机数并经变换,生成(X′k,Y′k);步骤三:将X和Y的数据分别替换为对应的X’和Y’的数据。该方法降低对分类和聚类结果的影响,从而克服了传统混淆变换只能保证单组数据总体期望、方差不变的缺陷,具有更好的科学性和更高的实际应用价值。

Description

一种保持数据数字特征的隐私信息保护方法
【技术领域】
本发明属于云计算环境下的用户隐私安全保护领域,涉及对用户数据进行挖掘时的隐私信息保护方法。
【背景技术】
随着云计算的发展,越来越多的云服务开始收集用户信息,进行处理,以满足用户所需要求。对这些共享数据的处理,挖掘,找出有用信息,使人们收益良多,为用户带来很大便利,但同时也带来了新的问题,用户要处理的数据不乏一些隐私信息,将这些信息置于开放性的第三方,就会面临隐私泄露的威胁。目前学者多采用对数据进行加密,使攻击者很难从加密的信息得到原始信息,但加密的信息进行计算是一个难点。数据匿名化把用户身份信息匿名,但隐私信息本身不变,还是可以被攻击者得到。另一种方法是对数据进行混淆变换,使其与原始信息不同,但保证所需的结果不变,如要保证数据的期望和方差不变,传统的方法是生成指定期望和方差的高斯随机数来替换原始数据,但是如果有两组隐私数据,传统方法破坏了这两组的协方差,另外,该方法只保证了总体的期望,方差,当按某属性分组统计时,统计结果也遭到破坏,同时,其对分类,聚类的结果影响也很大。
【发明内容】
本发明的目的在于提出一种保持数据数字特征的隐私信息保护方法,以解决上述技术问题。
为了达到上述目的,本发明采用的技术方案如下:
一种保持数据数字特征的隐私信息保护方法,数据库表格T包含两列敏感信息,X与Y,对X和Y的数据进行混淆变换,生成X’和Y’,使X’、Y’与X、Y的数字特征相同;按属性值的不同对X和Y进行分类统计,同样使每类的数字特征不变,包括下列步骤:
步骤一:将X和Y的数据划分为小组,首先按指定属性对X,Y进行第1级分组,然后再按照距离细分每个1级分组,得到{(X1,Y1),(X2,Y2),...,(Xn,Yn)};
步骤二:对每组(Xk,Yk),利用标准正态分布产生高斯随机数并经变换,生成(X′k,Y′k),使
| ( X k , Y k ) | = | ( X k ′ , Y k ′ ) | E ( X k ) = E ( X k ′ ) D ( X k ) = D ( X k ′ ) E ( Y k ) = E ( Y k ′ ) D ( Y k ) = D ( Y k ′ ) cov ( X k , Y k ) = cov ( X k ′ , Y k ′ ) - - - ( 2 )
步骤三:将X和Y的数据分别替换为对应的X’和Y’的数据。
本发明进一步的改进在于:原数据数据库表格T满足,D(X)>0且D(Y)>0,|(X,Y)|≥3,第1级划分所参照的属性由用户指定,第1级划分后,每组均满足
|(Xk,Yk)|>2+max(αxkyk)         (1)
其中,αxk表示Xk中相同数值的个数,αyk表示Yk中相同数值的个数。
本发明进一步的改进在于:变换后的两组数据与原数据的期望、方差和协方差均相等。
本发明进一步的改进在于:变换后的数据与原数据,在按属性进行分组统计时,每组的期望、方差和协方差均相等。
本发明进一步的改进在于:步骤一中,按属性分类统计数据的数字特征,使每类的数字特征不变,采用如下方法:
(1)按指定属性集初步划分(X,Y):
1.1)所有可能参与统计的属性集合记为A;
1.2)对A中的连续型属性进行离散化;
1.3)i=1;
1.4)(X,Y)中第一个数对(x1,y1)作为(Xi,Yi)1,(Xi,Yi)1表示对(X,Y)的第1级划分;
1.5)找出所有与(x1,y1)在A集合所指定的属性的值都相同的数对,加入(Xi,Yi)1
1.6)(X,Y)=(X,Y)\(Xi,Yi)1,若(X,Y)不为空,i=i+1,返回1.3);
1.7)结束,返回{(X1,Y1)1,(X2,Y2)1,...,(Xn,Yn)1};
(2)按距离细分每个(Xi,Yi)1
进一步细分每个(Xi,Yi)1,采用如下方法:
2.1)将(Xi,Yi)1中Xi和Yi的数值标准化到[0,1]区间,将(Xi,Yi)1看做平面的点;
2.2)j=1;
2.3)(Xi,Yi)1中第一个点(x1,y1)作为(Xj,Yj)i2,(Xj,Yj)i2表示对(X,Y)的第2级划分;
2.4)(Xi,Yi)1=(Xi,Yi)1\(Xj,Yj)i2,利用欧几里得距离公式计算两点距离,从(Xi,Yi)1中找出与(Xj,Yj)i2内所有点的平均距离最近的点,加入(Xj,Yj)i2
2.5)若(Xj,Yj)i2不满足式(1),返回2.4);
2.6)若(Xi,Yi)1不为空,且|(Xi,Yi)1|≥3,j=j+1,返回2.3);否则,将(Xi,Yi)1加入(Xj,Yj)i2
2.7)结束,返回{(X1,Y1)i2,(X2,Y2)i2,...,(Xn,Yn)i2};
(3)所有2级划分构成(X,Y)的最终划分{(X1,Y1),(X2,Y2),...,(Xn,Yn)}。
本发明进一步的改进在于:采用如下方法得到满足式(2)的(X′k,Y′k):
(1)若 cov ( X k , Y k ) = D ( X k ) D ( Y k )
1.1)生成nk个随机数Ak,其中nk=|(Xk,Yk)|
1.2) X ′ k = A ′ k · D ( X k ) D ( A ′ k ) + E ( X k ) - E ( A ′ k ) · D ( X k ) D ( A ′ k )
1.3) Y ′ k = X ′ k · D ( Y k ) D ( X ′ k ) + E ( Y k ) - E ( X ′ k ) · D ( Y k ) D ( X ′ k )
所得(X′k,Y′k)满足式(2);
(2)若 cov ( X k , Y k ) = D ( X k ) D ( Y k )
2.1)生成nk个随机数Ak
2.2) X ′ k = A ′ k · D ( X k ) D ( A ′ k ) + E ( X k ) - E ( A ′ k ) · D ( X k ) D ( A ′ k )
2.3) Y ′ k = - X ′ k · D ( Y k ) D ( X ′ k ) + E ( Y k ) + E ( X ′ k ) · D ( Y k ) D ( X ′ k )
所得(X′k,Y′k)满足式(2);否则,继续如下方法:
(3)生成协方差为0的两组数;
3.1)生成两组各nk个随机数Ak1和Ak2
3.2)A′k2=Ak2-E(Ak2),则E(A′k2)=0;
3.3)任取j∈[1,n],ai∈Ak1,b′i∈A′k2
3.4)
Figure BDA00002091514000048
当i≠j时,a′i=ai,当i=j时,a′i=a
cov ( A ′ k 1 , A ′ k 2 ) = E ( A ′ k 1 A ′ k 2 ) - E ( A ′ k 1 ) E ( A ′ k 2 )
= E ( A ′ k 1 A ′ k 2 )
= 1 n k ( Σ i = 1 , i ≠ j n k a ′ i b ′ i + ab ′ j )
= 0
若cov(X,Y)=0,则
3.5) X ′ k = A ′ k 1 · D ( X k ) D ( A ′ k 1 ) + E ( X k ) - E ( A ′ k 1 ) · D ( X k ) D ( A ′ k 1 )
3.6) Y ′ k = A ′ k 2 · D ( Y k ) D ( A ′ k 2 ) + E ( Y k ) - E ( A ′ k 2 ) · D ( Y k ) D ( A ′ k 2 )
所得(X′k,Y′k)满足式(2);否则,继续如下方法:
(4)变换止A’k1和A’k2
4.1) d = D ( X k ) cov ( X k , Y k )
4.2) B k 1 = A ′ k 1 · σ B 1 D ( A ′ k 1 ) + μ B 1 - E ( A ′ k 1 ) · σ B 1 D ( A ′ k 1 ) , 其中
μ B 1 = E ( X k ) d , σ B 1 = D ( X k ) d 2
显然,E(Bk1)=μB1
Figure BDA000020915140000511
4.3) B k 2 = A ′ k 2 · σ B 2 D ( A ′ k 2 ) + μ B 2 - E ( A ′ k 2 ) · σ B 2 D ( A ′ k 2 ) , 其中
μB2=E(Yk)-E(Bk1), σ B 2 = D ( Y k ) - D ( B k 1 )
显然,E(Bk2)=μB2
Figure BDA000020915140000514
同时cov(Bk1,Bk2)=0
(5)得到(X′k,Y′k):
5.1)X′k=dBk1
5.2)Y′k=Bk1+Bk2
本发明进一步的改进在于:所述属性值为离散型变量,连续型变量首先需要进行离散化。
相对于现有技术,本发明具有以下优点:将多组数据合并,则合并后数据的数字特征(期望,方差,协方差)只与各分组的数据量及数字特征有关,而与具体数据值无关。本发明利用这一思想,首先对数据进行分组,然后对每组进行变换,保证各组的数字特征不变,则总体的数字特征不变。按属性进行分组可以保证按属性分类统计的数字特征不变,同时可以降低对数据挖掘结果的影响。
发明人利用UCI的数据集KEGG Metabolic Reaction Network(Undirected)和Adult进行实验,选择两个连续型属性作为要变换的敏感信息,发明人分别评估了本发明方法对总体数字特征的影响;对按属性分组统计的数字特征的影响;对分类和聚类结果的影响。实验结果表明,本发明方法对数字特征的结果没有影响,对分类聚类结果的影响也小于传统的方法。
【附图说明】
图1为两种方法对统计结果的影响图,说明对数据集中的两个属性分别按照本发明方法(方法1)和传统的方法(方法2)进行变换,对比他们对统计结果的影响,参照图中纵轴表示变换的结果与原结果的平均相对误差,横轴表示参与对比的项目。
图2为两种方法对分组统计的影响图,说明对一个包含的数据集的两个属性分别按照本发明方法(方法1)和传统的方法(方法2)进行变换,然后按照不同的属性分组统计期望,方差和协方差,对比他们对统计结果的影响,参照图中纵轴表示变换的结果与原结果的平均相对误差,横轴表示参与对比的项目。
图3为两种方法对分类结果的影响图,说明对不同属性(不包括ID)的数据集的两个属性分别按照本发明方法(方法1)和传统的方法(方法2)进行变换,对比他们对分类结果的影响,参照图中纵轴表示变换的结果相对于原结果的准确率,横轴表示参与分类的属性数。
图4为两种方法对聚类结果的影响图(2个属性),说明对一个只有两个属性(不包括ID)的数据集的两个属性分别按照本发明方法(方法1)和传统的方法(方法2)进行变换,对比他们对聚类结果的影响,参照图中纵轴表示变换的结果与原结果的F1度量值,横轴表示聚类结束的阈值。
图5为两种方法对聚类结果的影响图(8个属性),说明对一个有8个属性(不包括ID)的数据集的两个属性分别按照本发明方法(方法1)和传统的方法(方法2)进行变换,对比他们对聚类结果的影响,参照图中纵轴表示变换的结果与原结果的F1度量值,横轴表示聚类结束的阈值。
图6为两种方法对聚类结果的影响图(28个属性),说明对一个有28个属性(不包括ID)的数据集的两个属性分别按照本发明方法(方法1)和传统的方法(方法2)进行变换,对比他们对聚类结果的影响,参照图中纵轴表示变换的结果与原结果的F1度量值,横轴表示聚类结束的阈值。
【具体实施方式】
下面结合附图说明和具体实施方式对本发明做进一步详细说明。
本发明一种保持数据数字特征的隐私信息保护方法,数据库表格T包含两列敏感信息,X与Y,对X和Y的数据进行混淆变换,生成X’和Y’,使X’、Y’与X、Y的数字特征(期望,方差,协方差)相同,即xi∈X,x′i∈X′,xi≠x′i,且E(X)=E(X′),E(Y)=E(Y′),D(X)=D(X′),D(Y)=D(Y′),cov(X,Y)=cov(X′,Y′),同时,若按属性值的不同(如不同性别,不同职业)对X和Y进行分类统计,同样保证每类的数字特征不变。包括下列步骤:
步骤一:将X和Y的数据划分为{(X1,Y1),(X2,Y2),...,(Xn,Yn)}:将X和Y的数据划分为小组,首先按指定属性对X,Y进行第1级分组,然后再按照距离细分每个1级分组,得到{(X1,Y1),(X2,Y2),...,(Xn,Yn)}。
当|(Xk,Yk)|<3时,给定期望和方差,则(Xk,Yk)唯一,故在给定期望、方差和协方差,要产生不同于(Xk,Yk)的新数据,则|(Xk,Yk)|>2
若Xk或Yk中的数据都相同,即方差为0,则变换后的数据也与原数据相同,因此,若用αxk表示Xk中相同的数值个数,αyk表示Yk中相同数值的个数则
|(Xk,Yk)|>2+max(αxkyk)         (1)
基于上面分析,根据用户要求,按属性分类统计数据的数字特征,要保证其结果不变,采用如下方法:
(1)按指定属性集初步划分(X,Y)。
1)所有可能参与统计的属性集合记为A
2)对A中的连续型属性进行离散化;
3)i=1;
4)(X,Y)中第一个数对(x1,y1)作为(Xi,Yi)1,(Xi,Yi)1表示对(X,Y)的第1级划分;
5)找出所有与(x1,y1)在A集合所指定的属性的值都相同的数对,加入(Xi,Yi)1
6)(X,Y)=(X,Y)\(Xi,Yi)1,若(X,Y)不为空,i=i+1,返回3);
7)结束,返回{(X1,Y1)1,(X2,Y2)1,...,(Xn,Yn)1}。
(2)按距离细分每个(Xi,Yi)1
为了减少对数据挖掘(分类,聚类)结果的影响,可以进一步细分每个(Xi,Yi)1,采用如下方法:
1)将(Xi,Yi)1中Xi和Yi的数值标准化到[0,1]区间,将(Xi,Yi)1看做平面的点;
2)j=1;
3)(Xi,Yi)1中第一个点(x1,y1)作为(Xj,Yj)i2,(Xj,Yj)i2表示对(X,Y)的第2级划分;
4)(Xi,Yi)1=(Xi,Yi)1\(Xj,Yj)i2,利用欧几里得距离公式计算两点距离,从(Xi,Yi)1中找出与(Xj,Yj)i2内所有点的平均距离最近的点,加入(Xj,Yj)i2
5)若(Xj,Yj)i2不满足式(1),返回4);
6)若(Xi,Yi)1不为空,且|(Xi,Yi)1|≥3,j=j+1,返回3);否则,将(Xi,Yi)1加入(Xj,Yj)i2
7)结束,返回{(X1,Y1)i2,(X2,Y2)i2,...,(Xn,Yn)i2}。
(3)所有2级划分构成(X,Y)的最终划分{(X1,Y1),(X2,Y2),...,(Xn,Yn)}
步骤二:对每组(Xk,Yk),利用标准正态分布产生高斯随机数并经变换,生成(X′k,Y′k),使
| ( X k , Y k ) | = | ( X k ′ , Y k ′ ) | E ( X k ) = E ( X k ′ ) D ( X k ) = D ( X k ′ ) E ( Y k ) = E ( Y k ′ ) D ( Y k ) = D ( Y k ′ ) cov ( X k , Y k ) = cov ( X k ′ , Y k ′ ) - - - ( 2 )
已知X,Y,则对于两个数组B1和B2,且cov(B1,B2)=0,
X = d B 1 Y = B 1 + B 2
在cov(X,Y)≠0时,可得如下关系
d = D ( X ) cov ( X , Y ) E ( B 1 ) = E ( X ) d E ( B 2 ) = E ( Y ) - E ( B 1 ) D ( B 1 ) = D ( X ) d 2 D ( B 2 ) = D ( Y ) - D ( B 1 )
根据以上原理,采用如下方法得到满足式(2)的(X′k,Y′k):
(1)若 cov ( X k , Y k ) = D ( X k ) D ( Y k )
1)生成nk个随机数Ak,其中nk=|(Xk,Yk)|
2) X ′ k = A ′ k · D ( X k ) D ( A ′ k ) + E ( X k ) - E ( A ′ k ) · D ( X k ) D ( A ′ k )
3) Y ′ k = X ′ k · D ( Y k ) D ( X ′ k ) + E ( Y k ) - E ( X ′ k ) · D ( Y k ) D ( X ′ k )
所得(X′k,Y′k)满足式(2);
(2)若 cov ( X k , Y k ) = - D ( X k ) D ( Y k )
1)生成nk个随机数Ak
2) X ′ k = A ′ k · D ( X k ) D ( A ′ k ) + E ( X k ) - E ( A ′ k ) · D ( X k ) D ( A ′ k )
3) Y ′ k = - X ′ k · D ( Y k ) D ( X ′ k ) + E ( Y k ) + E ( X ′ k ) · D ( Y k ) D ( X ′ k )
所得(X′k,Y′k)满足式(2);否则,继续如下方法:
(3)生成协方差为0的两组数;
1)生成两组各nk个随机数Ak1和Ak2
2)A′k2=Ak2-E(Ak2),则E(A′k2)=0
3)任取j∈[1,nk],
Figure BDA00002091514000111
ai∈Ak1,b′i∈A′k2
4)
Figure BDA00002091514000112
当i≠j时,a′i=ai,当i=j时,a′i=a
cov ( A ′ k 1 , A ′ k 2 ) = E ( A ′ k 1 A ′ k 2 ) - E ( A ′ k 1 ) E ( A ′ k 2 )
= E ( A ′ k 1 A ′ k 2 )
= 1 n k ( Σ i = 1 , i ≠ j n k a ′ i b ′ i + ab ′ j )
= 0
若cov(X,Y)=0,则
5) X ′ k = A ′ k 1 · D ( X k ) D ( A ′ k 1 ) + E ( X k ) - E ( A ′ k 1 ) · D ( X k ) D ( A ′ k 1 )
6) Y ′ k = A ′ k 2 · D ( Y k ) D ( A ′ k 2 ) + E ( Y k ) - E ( A ′ k 2 ) · D ( Y k ) D ( A ′ k 2 )
所得(X′k,Y′k)满足式(2);否则,继续如下方法:
(4)变换A’k1和A’k2
1) d = D ( X k ) cov ( X k , Y k )
2) B k 1 = A ′ k 1 · σ B 1 D ( A ′ k 1 ) + μ B 1 - E ( A ′ k 1 ) · σ B 1 D ( A ′ k 1 ) , 其中
μ B 1 = E ( X k ) d , σ B 1 = D ( X k ) d 2
显然,E(Bk1)=μB1,
Figure BDA000020915140001113
3) B k 2 = A ′ k 2 · σ B 2 D ( A ′ k 2 ) + μ B 2 - E ( A ′ k 2 ) · σ B 2 D ( A ′ k 2 ) , 其中
μB2=E(Yk)-E(Bk1), σ B 2 = D ( Y k ) - D ( B k 1 )
显然,E(Bk2)=μB2,
Figure BDA00002091514000123
同时cov(Bk1,Bk2)=0
(5)得到(X′k,Y′k)
1)X′k=dBk1
2)Y′k=Bk1+Bk2
由上述方法得到的(X′k,Y′k)满足式(2)。
步骤三:将X和Y的数据分别替换为对应的X’和Y’的数据。
X和Y分别由X1,X2,...Xn和Y1,Y2,...Yn构成,X’和Y’分别由X’1,X’2,...X’n和Y’1,Y’2,...Y’n构成,对于0≤k≤n,Xk,Yk,X’k,Y’k满足式(2),则E(X)=E(X’),E(Y)=E(Y’),D(X)=D(X’),D(Y)=D(Y’),cov(X,Y)=cov(X’,Y’)。
因此,经过上述步骤得到的X’,Y’,即隐藏了敏感信息,又保持数字特征,同时,将相近信息分为一组,组内进行混淆变换,可以减少变换对数据挖掘结果的影响。
为了评测本发明的性能,发明人通过UCI的数据集Adult和KEGGMetabolic Reaction Network(Undirected)进行测试。首先选择不同的两列属性作为要隐藏的敏感信息,分别用本发明的方法和传统的方法对信息进行加密,参照图1,是本发明的方法(方法1)与传统方法(方法2)对数据数字特征的影响,包括期望,方差,协方差。用百分误差来表示,可见,两种方法都能保证期望和方差不变,但传统的方法无法保证协方差不变,本发明则同样能保证协方差不变。
本发明方法可以根据不同属性对数据分组,再进行变换,从而保证一些分组统计的结果不变。例如,对UCI的数据集adult,按照education,race,sex分组,三个属性值都相同才分为一组,组内进行变换。按education,race,sex的任意组合进行分组统计,参照图2,是本发明方法(方法1)和传统方法(方法2)对统计结果的影响,用百分误差表示,可见,本发明方法能保持统计结果不变,而传统方法则有一定的误差,甚至误差很大。
对数据分组,进行组内混淆变换,可以减少其对数据挖掘结果的影响。分别对数据集Adult的原数据和变换后的数据进行分类,对比分类结果,如参照图3所示,准确率指变换后的结果与原结果一致的概率,可见,传统方法(方法2)对分类结果的影响较大,并且分类属性越少,影响越大;而本发明方法(方法1)影响更小,并且在属性的个数较少时依然能保证较小的影响。
分别对数据集KEGG Metabolic Reaction Network(Undirected)的原始数据和变换后数据进行聚类,对比聚类结果。不同于比对分类时所用的准确率,这里的准确率p表示任意两对象,变换的结果聚为一类,原结果也聚为一类的概率;同时有召回率r表示原结果聚为一类,现结果也聚为一类的概率,本实验用F1度量来评估两种方法对聚类结果的影响。
F 1 = 2 pr p + r
参照图4、图6,是在不同属性个数以及不同相似度阈值下,本发明方法(方法1)和传统方法(方法2)对聚类结果影响的比较。由图可以看出,第一,聚类的相似度阈值越高,变换对结果的影响越大;第二,属性越多,变换对结果的影响越小;第三,本发明方法对聚类结果的影响比传统方法更小。

Claims (7)

1.一种保持数据数字特征的隐私信息保护方法,其特征在于,数据库表格T包含两列敏感信息,X与Y,对X和Y的数据进行混淆变换,生成X’和Y’,使X’、Y’与X、Y的数字特征相同;按属性值的不同对X和Y进行分类统计,同样使每类的数字特征不变,包括下列步骤:
步骤一:将X和Y的数据划分为小组,首先按指定属性对X,Y进行第1级分组,然后再按照距离细分每个1级分组,得到{(X1,Y1),(X2,Y2),...,(Xn,Yn)};
步骤二:对每组(Xk,Yk),利用标准正态分布产生高斯随机数并经变换,生成(X′k,Y′k),使
| ( X k , Y k ) | = | ( X k ′ , Y k ′ ) | E ( X k ) = E ( X k ′ ) D ( X k ) = D ( X k ′ ) E ( Y k ) = E ( Y k ′ ) D ( Y k ) = D ( Y k ′ ) cov ( X k , Y k ) = cov ( X k ′ , Y k ′ ) - - - ( 2 )
步骤三:将X和Y的数据分别替换为对应的X’和Y’的数据。
2.根据权利要求1所述的一种保持数据数字特征的隐私信息保护方法,其特征在于,原数据数据库表格T满足,D(X)>0且D(Y)>0,|(X,Y)|≥3,第1级划分所参照的属性由用户指定,第1级划分后,每组均满足
|(Xk,Yk)|>2+max(αxkyk)        (1)
其中,αxk表示Xk中相同数值的个数,αyk表示Yk中相同数值的个数。
3.根据权利要求1所述的一种保持数据数字特征的隐私信息保护方法,其特征在于,变换后的两组数据与原数据的期望、方差和协方差均相等。
4.根据权利要求1所述的一种保持数据数字特征的隐私信息保护方法,其特征在于,变换后的数据与原数据,在按属性进行分组统计时,每组的期望、方差和协方差均相等。
5.根据权利要求2所述的一种保持数据数字特征的隐私信息保护方法,其特征在于,步骤一中,按属性分类统计数据的数字特征,使每类的数字特征不变,采用如下方法:
(1)按指定属性集初步划分(X,Y):
1.1)所有可能参与统计的属性集合记为A;
1.2)对A中的连续型属性进行离散化;
1.3)i=1;
1.4)(X,Y)中第一个数对(x1,y1)作为(Xi,Yi)1,(Xi,Yi)1表示对(X,Y)的第1级划分;
1.5)找出所有与(x1,y1)在A集合所指定的属性的值都相同的数对,加入(Xi,Yi)1
1.6)(X,Y)=(X,Y)\(Xi,Yi)1,若(X,Y)不为空,i=i+1,返回1.3);
1.7)结束,返回{(X1,Y1)1,(X2,Y2)1,...,(Xn,Yn)1};
(2)按距离细分每个(Xi,Yi)1
进一步细分每个(Xi,Yi)1,采用如下方法:
2.1)将(Xi,Yi)1中Xi和Yi的数值标准化到[0,1]区间,将(Xi,Yi)1看做平面的点;
2.2)j=1;
2.3)(Xi,Yi)1中第一个点(x1,y1)作为(Xj,Yj)i2,(Xj,Yj)i2表示对(X,Y)的第2级划分;
2.4)(Xi,Yi)1=(Xi,Yi)1\(Xj,Yj)i2,利用欧几里得距离公式计算两点距离,从(Xi,Yi)1中找出与(Xj,Yj)i2内所有点的平均距离最近的点,加入(Xj,Yj)i2
2.5)若(Xj,Yj)i2不满足式(1),返回2.4);
2.6)若(Xi,Yi)1不为空,且|(Xi,Yi)1|≥3,j=j+1,返回2.3);否则,将(Xi,Yi)1加入(Xj,Yj)i2
2.7)结束,返回{(X1,Y1)i2,(X2,Y2)i2,...,(Xn,Yn)i2};
(3)所有2级划分构成(X,Y)的最终划分{(X1,Y1),(X2,Y2),...,(Xn,Yn)}。
6.根据权利要求2所述的一种保持数据数字特征的隐私信息保护方法,其特征在于,采用如下方法得到满足式(2)的(X′k,Y′k):
(1)若 cov ( X k , Y k ) = D ( X k ) D ( Y k )
1.1)生成nk个随机数Ak,其中nk=|(Xk,Yk)|
1.2) X ′ k = A ′ k · D ( X k ) D ( A ′ k ) + E ( X k ) - E ( A ′ k ) · D ( X k ) D ( A ′ k )
1.3) Y ′ k = X ′ k · D ( Y k ) D ( X ′ k ) + E ( Y k ) - E ( X ′ k ) · D ( Y k ) D ( X ′ k )
所得(X′k,Y′k)满足式(2);
(2)若 cov ( X k , Y k ) = - D ( X k ) D ( Y k )
2.1)生成nk个随机数Ak
2.2) X ′ k = A ′ k · D ( X k ) D ( A ′ k ) + E ( X k ) - E ( A ′ k ) · D ( X k ) D ( A ′ k )
2.3) Y ′ k = - X ′ k · D ( Y k ) D ( X ′ k ) + E ( Y k ) + E ( X ′ k ) · D ( Y k ) D ( X ′ k )
所得(X′k,Y′k)满足式(2);否则,继续如下方法:
(3)生成协方差为0的两组数;
3.1)生成两组各nk个随机数Ak1和Ak2
3.2)A′k2=Ak2-E(Ak2),则E(A′k2)=0;
3.3)任取j∈[1,n],
Figure FDA00002091513900041
ai∈Ak1,b′i∈A′k2
3.4)当i≠j时,a′i=ai,当i=j时,a′i=a
cov ( A ′ k 1 , A ′ k 2 ) = E ( A ′ k 1 A ′ k 2 ) - E ( A ′ k 1 ) E ( A ′ k 2 )
= E ( A ′ k 1 A ′ k 2 )
= 1 n k ( Σ i = 1 , i ≠ j n k a ′ i b ′ i + ab ′ j )
= 0
若cov(Xk,Yk)=0,则
3.5) X ′ k = A ′ k 1 · D ( X k ) D ( A ′ k 1 ) + E ( X k ) - E ( A ′ k 1 ) · D ( X k ) D ( A ′ k 1 )
3.6) Y ′ k = A ′ k 2 · D ( Y k ) D ( A ′ k 2 ) + E ( Y k ) - E ( A ′ k 2 ) · D ( Y k ) D ( A ′ k 2 )
所得(X′k,Y′k)满足式(2);否则,继续如下方法:
(4)变换A’k1和A’k2
4.1) d = D ( X k ) cov ( X k , Y k )
4.2) B k 1 = A ′ k 1 · σ B 1 D ( A ′ k 1 ) + μ B 1 - E ( A ′ k 1 ) · σ B 1 D ( A ′ k 1 ) , 其中
μ B 1 = E ( X k ) d , σ B 1 = D ( X k ) d 2
显然,E(Bk1)=μB1,
Figure FDA000020915139000413
4.3) B k 2 = A ′ k 2 · σ B 2 D ( A ′ k 2 ) + μ B 2 - E ( A ′ k 2 ) · σ B 2 D ( A ′ k 2 ) , 其中
μB2=E(Yk)-E(Bk1), σ B 2 = D ( Y k ) - D ( B k 1 )
显然,E(Bk2)=μB2,同时cov(Bk1,Bk2)=0
(5)得到(X′k,Y′k):
5.1)X′k=dBk1
5.2)Y′k=Bk1+Bk2
7.根据权利要求1所述的一种保持数据数字特征的隐私信息保护方法,其特征在于,所述属性值为离散型变量或连续型变量预先进行离散化后形成的变量。
CN201210319909.4A 2012-09-03 2012-09-03 一种保持数据数字特征的隐私信息保护方法 Active CN102880834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210319909.4A CN102880834B (zh) 2012-09-03 2012-09-03 一种保持数据数字特征的隐私信息保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210319909.4A CN102880834B (zh) 2012-09-03 2012-09-03 一种保持数据数字特征的隐私信息保护方法

Publications (2)

Publication Number Publication Date
CN102880834A true CN102880834A (zh) 2013-01-16
CN102880834B CN102880834B (zh) 2014-12-10

Family

ID=47482155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210319909.4A Active CN102880834B (zh) 2012-09-03 2012-09-03 一种保持数据数字特征的隐私信息保护方法

Country Status (1)

Country Link
CN (1) CN102880834B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294959A (zh) * 2013-05-29 2013-09-11 南京信息工程大学 一种抗统计分析的文本信息隐藏方法
CN103500226A (zh) * 2013-10-23 2014-01-08 中国农业银行股份有限公司 一种去除敏感数据敏感性的方法及装置
CN104270465A (zh) * 2014-10-23 2015-01-07 成都双奥阳科技有限公司 一种云存储的保护系统
CN104657388A (zh) * 2013-11-22 2015-05-27 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN105554024A (zh) * 2016-01-18 2016-05-04 成都陌云科技有限公司 一种互联网返利销售平台的数据收集与传输系统
CN105721435A (zh) * 2016-01-18 2016-06-29 成都陌云科技有限公司 一种返利销售平台的数据传输方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886009B (zh) * 2017-11-20 2020-09-08 北京大学 防隐私泄露的大数据生成方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731401A (zh) * 2005-08-26 2006-02-08 清华大学 数据挖掘中一种基于混合互信息的特征选择方法
US7200757B1 (en) * 2002-05-13 2007-04-03 University Of Kentucky Research Foundation Data shuffling procedure for masking data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7200757B1 (en) * 2002-05-13 2007-04-03 University Of Kentucky Research Foundation Data shuffling procedure for masking data
CN1731401A (zh) * 2005-08-26 2006-02-08 清华大学 数据挖掘中一种基于混合互信息的特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RUWEI HUANG 等: "Research on Privacy-Preserving Cloud Storage Framework Supporting Ciphertext Retrieval", 《2011 INTERNATIONAL CONFERENCE ON NETWORK COMPUTING AND INFORMATION SECURITY》, 31 December 2011 (2011-12-31) *
傅鹤岗等: "多维敏感k-匿名隐私保护模型", 《计算机工程》, vol. 38, no. 3, 29 February 2012 (2012-02-29) *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294959A (zh) * 2013-05-29 2013-09-11 南京信息工程大学 一种抗统计分析的文本信息隐藏方法
CN103294959B (zh) * 2013-05-29 2015-11-25 南京信息工程大学 一种抗统计分析的文本信息隐藏方法
CN103500226A (zh) * 2013-10-23 2014-01-08 中国农业银行股份有限公司 一种去除敏感数据敏感性的方法及装置
CN103500226B (zh) * 2013-10-23 2016-05-25 中国农业银行股份有限公司 一种去除敏感数据敏感性的方法及装置
CN104657388A (zh) * 2013-11-22 2015-05-27 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN104270465A (zh) * 2014-10-23 2015-01-07 成都双奥阳科技有限公司 一种云存储的保护系统
CN105554024A (zh) * 2016-01-18 2016-05-04 成都陌云科技有限公司 一种互联网返利销售平台的数据收集与传输系统
CN105721435A (zh) * 2016-01-18 2016-06-29 成都陌云科技有限公司 一种返利销售平台的数据传输方法
CN105721435B (zh) * 2016-01-18 2019-05-03 成都陌云科技有限公司 一种返利销售平台的数据传输方法

Also Published As

Publication number Publication date
CN102880834B (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
CN102880834B (zh) 一种保持数据数字特征的隐私信息保护方法
Leydesdorff et al. Integrated impact indicators compared with impact factors: An alternative research design with policy implications
CN101615248B (zh) 年龄估计方法、设备和人脸识别系统
CN104462184B (zh) 一种基于双向抽样组合的大规模数据异常识别方法
CN103745200B (zh) 一种基于词袋模型的人脸图像识别方法
Gradín Conditional occupational segregation of minorities in the US
CN102789499A (zh) 基于物品间情景化隐式关系的协同过滤方法
CN103425994B (zh) 一种用于模式分类的特征选择方法
CN107430610A (zh) 从分布式数据学习
CN102306190A (zh) 粗糙集中属性集变化时规则集动态更新方法
Churski et al. Where do Cohesion Policy funds flow and do they have any impact? The Polish lesson
CN103970651A (zh) 基于组件安全属性的软件体系结构安全性评估方法
Tai et al. K-aggregation: improving accuracy for differential privacy synthetic dataset by utilizing k-anonymity algorithm
Pinillos-Franco et al. Hostile attitudes toward immigrants and refugees are associated with poor self-rated health. Analysis of 21 European countries
Prasad et al. Vertical collaborative fuzzy C-means for multiple EEG data sets
CN101410831B (zh) 对于对象的顺序稳定的分类的线性无监督方法
Rahim Educational Data Mining (EDM) on the use of the internet in the world of Indonesian education
Jiang et al. Examining the determinants of China’s inward FDI using grey matrix relational analysis model
Li et al. Improve individual fairness in federated learning via adversarial training
Verma et al. A new set of cluster driven composite development indicators
CN110941663B (zh) 证件信息的关联规则获取方法及装置
Tan et al. THE SURGE IN INTRA-ASEAN OUTWARD FOREIGN DIRECT INVESTMENT AND ITS KEY DETERMINANTS: EVIDENCE USING POOLED MEAN GROUP APPROACH.
Jungbok Multivariate analysis of variance in marketing research
González-Lorente et al. Classification of European countries according to indicators related to electricity generation
Stollwerk Estimating subnational opinion with cluster-sampled polls: Challenges and suggestions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant