CN102880834A

CN102880834A - 一种保持数据数字特征的隐私信息保护方法

Info

Publication number: CN102880834A
Application number: CN2012103199094A
Authority: CN
Inventors: 桂小林; 杨攀; 田丰; 代敏
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2012-09-03
Filing date: 2012-09-03
Publication date: 2013-01-16
Anticipated expiration: 2032-09-03
Also published as: CN102880834B

Abstract

本发明公开一种保持数据数字特征的隐私信息保护方法，数据库表格T包含两列敏感信息，X与Y，对X和Y的数据进行混淆变换，生成X’和Y’，使X’、Y’与X、Y的数字特征相同；按属性值的不同对X和Y进行分类统计，同样使每类的数字特征不变，包括下列步骤：步骤一：将X和Y的数据划分为小组，首先按指定属性对X，Y进行第1级分组，然后再按照距离细分每个1级分组，得到{(X₁,Y₁),(X₂,Y₂),...,(X_n,Y_n)};步骤二：对每组(X_k,Y_k)，利用标准正态分布产生高斯随机数并经变换，生成(X′_k,Y′_k)；步骤三：将X和Y的数据分别替换为对应的X’和Y’的数据。该方法降低对分类和聚类结果的影响，从而克服了传统混淆变换只能保证单组数据总体期望、方差不变的缺陷，具有更好的科学性和更高的实际应用价值。

Description

一种保持数据数字特征的隐私信息保护方法

【技术领域】

本发明属于云计算环境下的用户隐私安全保护领域，涉及对用户数据进行挖掘时的隐私信息保护方法。

【背景技术】

随着云计算的发展，越来越多的云服务开始收集用户信息，进行处理，以满足用户所需要求。对这些共享数据的处理，挖掘，找出有用信息，使人们收益良多，为用户带来很大便利，但同时也带来了新的问题，用户要处理的数据不乏一些隐私信息，将这些信息置于开放性的第三方，就会面临隐私泄露的威胁。目前学者多采用对数据进行加密，使攻击者很难从加密的信息得到原始信息，但加密的信息进行计算是一个难点。数据匿名化把用户身份信息匿名，但隐私信息本身不变，还是可以被攻击者得到。另一种方法是对数据进行混淆变换，使其与原始信息不同，但保证所需的结果不变，如要保证数据的期望和方差不变，传统的方法是生成指定期望和方差的高斯随机数来替换原始数据，但是如果有两组隐私数据，传统方法破坏了这两组的协方差，另外，该方法只保证了总体的期望，方差，当按某属性分组统计时，统计结果也遭到破坏，同时，其对分类，聚类的结果影响也很大。

【发明内容】

本发明的目的在于提出一种保持数据数字特征的隐私信息保护方法，以解决上述技术问题。

为了达到上述目的，本发明采用的技术方案如下：

一种保持数据数字特征的隐私信息保护方法，数据库表格T包含两列敏感信息，X与Y，对X和Y的数据进行混淆变换，生成X’和Y’，使X’、Y’与X、Y的数字特征相同；按属性值的不同对X和Y进行分类统计，同样使每类的数字特征不变，包括下列步骤：

步骤一：将X和Y的数据划分为小组，首先按指定属性对X，Y进行第1级分组，然后再按照距离细分每个1级分组，得到{(X₁,Y₁),(X₂,Y₂),...,(X_n,Y_n)};

步骤二：对每组(X_k,Y_k)，利用标准正态分布产生高斯随机数并经变换，生成(X′_k,Y′_k)，使

\{\begin{matrix} | (X_{k}, Y_{k}) | = | (X_{k}^{'}, Y_{k}^{'}) | \\ E (X_{k}) = E (X_{k}^{'}) \\ D (X_{k}) = D (X_{k}^{'}) \\ E (Y_{k}) = E (Y_{k}^{'}) \\ D (Y_{k}) = D (Y_{k}^{'}) \\ cov (X_{k}, Y_{k}) = cov (X_{k}^{'}, Y_{k}^{'}) \end{matrix} - - - (2)

步骤三：将X和Y的数据分别替换为对应的X’和Y’的数据。

本发明进一步的改进在于：原数据数据库表格T满足，D(X)>0且D(Y)>0，｜(X,Y)｜≥3，第1级划分所参照的属性由用户指定，第1级划分后，每组均满足

｜(X_k,Y_k)｜＞2+max(α_xk,α_yk) （1）

其中，α_xk表示X_k中相同数值的个数，α_yk表示Y_k中相同数值的个数。

本发明进一步的改进在于：变换后的两组数据与原数据的期望、方差和协方差均相等。

本发明进一步的改进在于：变换后的数据与原数据，在按属性进行分组统计时，每组的期望、方差和协方差均相等。

本发明进一步的改进在于：步骤一中，按属性分类统计数据的数字特征，使每类的数字特征不变，采用如下方法：

（1）按指定属性集初步划分(X,Y)：

1.1）所有可能参与统计的属性集合记为A；

1.2）对A中的连续型属性进行离散化；

1.3）i＝1；

1.4）(X,Y)中第一个数对(x₁,y₁)作为(X_i,Y_i)₁，(X_i,Y_i)₁表示对(X,Y)的第1级划分；

1.5）找出所有与(x₁,y₁)在A集合所指定的属性的值都相同的数对，加入(X_i,Y_i)₁；

1.6）(X,Y)＝(X,Y)\(X_i,Y_i)₁，若(X,Y)不为空，i＝i+1，返回1.3）；

1.7）结束，返回{(X₁,Y₁)₁,(X₂,Y₂)₁,...,(X_n,Y_n)₁}；

（2）按距离细分每个(X_i,Y_i)₁：

进一步细分每个(X_i,Y_i)₁，采用如下方法：

2.1）将(X_i,Y_i)₁中X_i和Y_i的数值标准化到[0,1]区间，将(X_i,Y_i)₁看做平面的点；

2.2）j=1；

2.3）(X_i,Y_i)₁中第一个点(x₁,y₁)作为(X_j,Y_j)_i2，(X_j,Y_j)_i2表示对(X,Y)的第2级划分；

2.4）(X_i,Y_i)₁＝(X_i,Y_i)₁\(X_j,Y_j)_i2，利用欧几里得距离公式计算两点距离，从(X_i,Y_i)₁中找出与(X_j,Y_j)_i2内所有点的平均距离最近的点，加入(X_j,Y_j)_i2；

2.5）若(X_j,Y_j)_i2不满足式（1），返回2.4）；

2.6）若(X_i,Y_i)₁不为空，且｜(X_i,Y_i)₁｜≥3，j＝j+1，返回2.3）；否则，将(X_i,Y_i)₁加入(X_j,Y_j)_i2；

2.7）结束，返回{(X₁,Y₁)_i2,(X₂,Y₂)_i2,...,(X_n,Y_n)_i2}；

（3）所有2级划分构成(X,Y)的最终划分{(X₁,Y₁),(X₂,Y₂),...,(X_n,Y_n)}。

本发明进一步的改进在于：采用如下方法得到满足式（2）的(X′_k,Y′_k)：

（1）若

cov (X_{k}, Y_{k}) = \sqrt{D (X_{k}) D (Y_{k})}

1.1)生成n_k个随机数A_k，其中n_k＝｜(X_k,Y_k)｜

1.2)

{X^{'}}_{k} = {A^{'}}_{k} \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k})}} + E (X_{k}) - E ({A^{'}}_{k}) \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k})}}

1.3)

{Y^{'}}_{k} = {X^{'}}_{k} \cdot \sqrt{\frac{D (Y_{k})}{D ({X^{'}}_{k})}} + E (Y_{k}) - E ({X^{'}}_{k}) \cdot \sqrt{\frac{D (Y_{k})}{D ({X^{'}}_{k})}}

所得(X′_k,Y′_k)满足式（2）；

（2）若

cov (X_{k}, Y_{k}) = \sqrt{D (X_{k}) D (Y_{k})}

2.1)生成n_k个随机数A_k

2.2)

{X^{'}}_{k} = {A^{'}}_{k} \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k})}} + E (X_{k}) - E ({A^{'}}_{k}) \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k})}}

2.3)

{Y^{'}}_{k} = - {X^{'}}_{k} \cdot \sqrt{\frac{D (Y_{k})}{D ({X^{'}}_{k})}} + E (Y_{k}) + E ({X^{'}}_{k}) \cdot \sqrt{\frac{D (Y_{k})}{D ({X^{'}}_{k})}}

所得(X′_k,Y′_k)满足式（2）；否则，继续如下方法：

（3）生成协方差为0的两组数；

3.1)生成两组各n_k个随机数A_k1和A_k2；

3.2)A′_k2＝A_k2-E(A_k2)，则E(A′_k2)＝0；

3.3)任取j∈[1,n],a_i∈A_k1,b′_i∈A′_k2；

3.4)

当i≠j时,a′_i＝a_i，当i＝j时，a′_i＝a

则

cov ({A^{'}}_{k 1}, {A^{'}}_{k 2}) = E ({A^{'}}_{k 1} {A^{'}}_{k 2}) - E ({A^{'}}_{k 1}) E ({A^{'}}_{k 2})

= E ({A^{'}}_{k 1} {A^{'}}_{k 2})

= \frac{1}{n_{k}} (Σ_{i = 1, i &NotEqual; j}^{n_{k}} {a^{'}}_{i} {b^{'}}_{i} + {ab}^{'}_{j})

= 0

若cov(X，Y)＝0，则

3.5)

{X^{'}}_{k} = {A^{'}}_{k 1} \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k 1})}} + E (X_{k}) - E ({A^{'}}_{k 1}) \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k 1})}}

3.6)

{Y^{'}}_{k} = {A^{'}}_{k 2} \cdot \sqrt{\frac{D (Y_{k})}{D ({A^{'}}_{k 2})}} + E (Y_{k}) - E ({A^{'}}_{k 2}) \cdot \sqrt{\frac{D (Y_{k})}{D ({A^{'}}_{k 2})}}

所得(X′_k，Y′_k)满足式(2)；否则，继续如下方法：

(4)变换止A’_k1和A’_k2

4.1)

d = \frac{D (X_{k})}{cov (X_{k}, Y_{k})}

4.2)

B_{k 1} = {A^{'}}_{k 1} \cdot \frac{σ_{B 1}}{\sqrt{D ({A^{'}}_{k 1})}} + μ_{B 1} - E ({A^{'}}_{k 1}) \cdot \frac{σ_{B 1}}{\sqrt{D ({A^{'}}_{k 1})}},

其中

μ_{B 1} = \frac{E (X_{k})}{d},

σ_{B 1} = \sqrt{\frac{D (X_{k})}{d^{2}}}

显然，E(B_k1)＝μ_B1，

4.3)

B_{k 2} = {A^{'}}_{k 2} \cdot \frac{σ_{B 2}}{\sqrt{D ({A^{'}}_{k 2})}} + μ_{B 2} - E ({A^{'}}_{k 2}) \cdot \frac{σ_{B 2}}{\sqrt{D ({A^{'}}_{k 2})}},

其中

μ_B2＝E(Y_k)-E(B_k1)，

σ_{B 2} = \sqrt{D (Y_{k}) - D (B_{k 1})}

显然，E(B_k2)＝μ_B2，

同时cov(B_k1，B_k2)＝0

(5)得到(X′_k，Y′_k)：

5.1）X′_k＝dB_k1；

5.2）Y′_k＝B_k1+B_k2。

本发明进一步的改进在于：所述属性值为离散型变量，连续型变量首先需要进行离散化。

相对于现有技术，本发明具有以下优点：将多组数据合并，则合并后数据的数字特征（期望，方差，协方差）只与各分组的数据量及数字特征有关，而与具体数据值无关。本发明利用这一思想，首先对数据进行分组，然后对每组进行变换，保证各组的数字特征不变，则总体的数字特征不变。按属性进行分组可以保证按属性分类统计的数字特征不变，同时可以降低对数据挖掘结果的影响。

发明人利用UCI的数据集KEGG Metabolic Reaction Network(Undirected)和Adult进行实验，选择两个连续型属性作为要变换的敏感信息，发明人分别评估了本发明方法对总体数字特征的影响；对按属性分组统计的数字特征的影响；对分类和聚类结果的影响。实验结果表明，本发明方法对数字特征的结果没有影响，对分类聚类结果的影响也小于传统的方法。

【附图说明】

图1为两种方法对统计结果的影响图，说明对数据集中的两个属性分别按照本发明方法（方法1）和传统的方法（方法2）进行变换，对比他们对统计结果的影响，参照图中纵轴表示变换的结果与原结果的平均相对误差，横轴表示参与对比的项目。

图2为两种方法对分组统计的影响图，说明对一个包含的数据集的两个属性分别按照本发明方法（方法1）和传统的方法（方法2）进行变换，然后按照不同的属性分组统计期望，方差和协方差，对比他们对统计结果的影响，参照图中纵轴表示变换的结果与原结果的平均相对误差，横轴表示参与对比的项目。

图3为两种方法对分类结果的影响图，说明对不同属性（不包括ID）的数据集的两个属性分别按照本发明方法（方法1）和传统的方法（方法2）进行变换，对比他们对分类结果的影响，参照图中纵轴表示变换的结果相对于原结果的准确率，横轴表示参与分类的属性数。

图4为两种方法对聚类结果的影响图（2个属性），说明对一个只有两个属性（不包括ID）的数据集的两个属性分别按照本发明方法（方法1）和传统的方法（方法2）进行变换，对比他们对聚类结果的影响，参照图中纵轴表示变换的结果与原结果的F₁度量值，横轴表示聚类结束的阈值。

图5为两种方法对聚类结果的影响图（8个属性），说明对一个有8个属性（不包括ID）的数据集的两个属性分别按照本发明方法（方法1）和传统的方法（方法2）进行变换，对比他们对聚类结果的影响，参照图中纵轴表示变换的结果与原结果的F₁度量值，横轴表示聚类结束的阈值。

图6为两种方法对聚类结果的影响图（28个属性），说明对一个有28个属性（不包括ID）的数据集的两个属性分别按照本发明方法（方法1）和传统的方法（方法2）进行变换，对比他们对聚类结果的影响，参照图中纵轴表示变换的结果与原结果的F₁度量值，横轴表示聚类结束的阈值。

【具体实施方式】

下面结合附图说明和具体实施方式对本发明做进一步详细说明。

本发明一种保持数据数字特征的隐私信息保护方法，数据库表格T包含两列敏感信息，X与Y，对X和Y的数据进行混淆变换，生成X’和Y’，使X’、Y’与X、Y的数字特征（期望，方差，协方差）相同，即x_i∈X,x′_i∈X′,x_i≠x′_i，且E(X)＝E(X′)，E(Y)＝E(Y′)，D(X)＝D(X′)，D(Y)＝D(Y′)，cov(X,Y)＝cov(X′,Y′)，同时，若按属性值的不同（如不同性别，不同职业）对X和Y进行分类统计，同样保证每类的数字特征不变。包括下列步骤：

步骤一：将X和Y的数据划分为{(X₁,Y₁),(X₂,Y₂),...,(X_n,Y_n)}：将X和Y的数据划分为小组，首先按指定属性对X，Y进行第1级分组，然后再按照距离细分每个1级分组，得到{(X₁,Y₁),(X₂,Y₂),...,(X_n,Y_n)}。

当｜(X_k,Y_k)｜＜3时，给定期望和方差，则(X_k,Y_k)唯一，故在给定期望、方差和协方差，要产生不同于(X_k,Y_k)的新数据，则｜(X_k,Y_k)｜＞2

若X_k或Y_k中的数据都相同，即方差为0，则变换后的数据也与原数据相同，因此，若用α_xk表示X_k中相同的数值个数，α_yk表示Y_k中相同数值的个数则

｜(X_k,Y_k)|＞2+max(α_xk,α_yk) (1)

基于上面分析，根据用户要求，按属性分类统计数据的数字特征，要保证其结果不变，采用如下方法：

(1)按指定属性集初步划分(X,Y)。

1)所有可能参与统计的属性集合记为A

2)对A中的连续型属性进行离散化；

3)i＝1；

4)(X,Y)中第一个数对(x₁,y₁)作为(X_i,Y_i)₁，(X_i,Y_i)₁表示对(X,Y)的第1级划分；

5)找出所有与(x₁,y₁)在A集合所指定的属性的值都相同的数对，加入(X_i,Y_i)₁；

6)(X,Y)＝(X,Y)\(X_i,Y_i)₁，若(X,Y)不为空，i＝i+1，返回3）；

7)结束，返回{(X₁,Y₁)₁,(X₂,Y₂)₁,...,(X_n,Y_n)₁}。

(2)按距离细分每个(X_i,Y_i)₁

为了减少对数据挖掘（分类，聚类）结果的影响，可以进一步细分每个(X_i,Y_i)₁，采用如下方法：

1)将(X_i,Y_i)₁中X_i和Y_i的数值标准化到[0,1]区间，将(X_i,Y_i)₁看做平面的点；

2)j=1；

3)(X_i,Y_i)₁中第一个点(x₁,y₁)作为(X_j,Y_j)_i2，(X_j,Y_j)_i2表示对(X,Y)的第2级划分；

4)(X_i,Y_i)₁＝(X_i,Y_i)₁\(X_j,Y_j)_i2，利用欧几里得距离公式计算两点距离，从(X_i,Y_i)₁中找出与(X_j,Y_j)_i2内所有点的平均距离最近的点，加入(X_j,Y_j)_i2；

5)若(X_j,Y_j)_i2不满足式（1），返回4）；

6)若(X_i,Y_i)₁不为空，且|(X_i,Y_i)₁|≥3，j＝j+1，返回3）；否则，将(X_i,Y_i)₁加入(X_j,Y_j)_i2；

7)结束，返回{(X₁,Y₁)_i2,(X₂,Y₂)_i2,...,(X_n,Y_n)_i2}。

(3)所有2级划分构成(X,Y)的最终划分{(X₁,Y₁),(X₂,Y₂),...,(X_n,Y_n)}

\{\begin{matrix} | (X_{k}, Y_{k}) | = | (X_{k}^{'}, Y_{k}^{'}) | \\ E (X_{k}) = E (X_{k}^{'}) \\ D (X_{k}) = D (X_{k}^{'}) \\ E (Y_{k}) = E (Y_{k}^{'}) \\ D (Y_{k}) = D (Y_{k}^{'}) \\ cov (X_{k}, Y_{k}) = cov (X_{k}^{'}, Y_{k}^{'}) \end{matrix} - - - (2)

已知Ｘ，Y，则对于两个数组B₁和B₂，且cov(B₁,B₂)＝0，

令

\{\begin{matrix} X = d B_{1} \\ Y = B_{1} + B_{2} \end{matrix}

在cov(X，Y)≠0时,可得如下关系

\{\begin{matrix} d = \frac{D (X)}{cov (X, Y)} \\ E (B_{1}) = \frac{E (X)}{d} \\ E (B_{2}) = E (Y) - E (B_{1}) \\ D (B_{1}) = \frac{D (X)}{d^{2}} \\ D (B_{2}) = D (Y) - D (B_{1}) \end{matrix}

根据以上原理，采用如下方法得到满足式（2）的(X′_k,Y′_k)：

(1)若

cov (X_{k}, Y_{k}) = \sqrt{D (X_{k}) D (Y_{k})}

1)生成n_k个随机数A_k，其中n_k＝｜(X_k,Y_k)｜

2)

{X^{'}}_{k} = {A^{'}}_{k} \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k})}} + E (X_{k}) - E ({A^{'}}_{k}) \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k})}}

3)

{Y^{'}}_{k} = {X^{'}}_{k} \cdot \sqrt{\frac{D (Y_{k})}{D ({X^{'}}_{k})}} + E (Y_{k}) - E ({X^{'}}_{k}) \cdot \sqrt{\frac{D (Y_{k})}{D ({X^{'}}_{k})}}

所得(X′_k,Y′_k)满足式（2）；

(2)若

cov (X_{k}, Y_{k}) = - \sqrt{D (X_{k}) D (Y_{k})}

1)生成n_k个随机数A_k

2)

{X^{'}}_{k} = {A^{'}}_{k} \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k})}} + E (X_{k}) - E ({A^{'}}_{k}) \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k})}}

3)

{Y^{'}}_{k} = - {X^{'}}_{k} \cdot \sqrt{\frac{D (Y_{k})}{D ({X^{'}}_{k})}} + E (Y_{k}) + E ({X^{'}}_{k}) \cdot \sqrt{\frac{D (Y_{k})}{D ({X^{'}}_{k})}}

所得(X′_k,Y′_k)满足式（2）；否则，继续如下方法：

(3)生成协方差为0的两组数；

1)生成两组各n_k个随机数A_k1和A_k2

2)A′_k2＝A_k2-E(A_k2)，则E(A′_k2)＝0

3)任取j∈[1,n_k]，

a_i∈A_k1,b′_i∈A′_k2

4)

当i≠j时,a′_i＝a_i，当i＝j时，a′_i＝a

则

cov ({A^{'}}_{k 1}, {A^{'}}_{k 2}) = E ({A^{'}}_{k 1} {A^{'}}_{k 2}) - E ({A^{'}}_{k 1}) E ({A^{'}}_{k 2})

= E ({A^{'}}_{k 1} {A^{'}}_{k 2})

= \frac{1}{n_{k}} (Σ_{i = 1, i &NotEqual; j}^{n_{k}} {a^{'}}_{i} {b^{'}}_{i} + {ab}^{'}_{j})

= 0

若cov(X，Y)=0,则

5)

{X^{'}}_{k} = {A^{'}}_{k 1} \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k 1})}} + E (X_{k}) - E ({A^{'}}_{k 1}) \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k 1})}}

6)

{Y^{'}}_{k} = {A^{'}}_{k 2} \cdot \sqrt{\frac{D (Y_{k})}{D ({A^{'}}_{k 2})}} + E (Y_{k}) - E ({A^{'}}_{k 2}) \cdot \sqrt{\frac{D (Y_{k})}{D ({A^{'}}_{k 2})}}

所得(X′_k,Y′_k)满足式（2）；否则，继续如下方法：

(4)变换A’_k1和A’_k2

1)

d = \frac{D (X_{k})}{cov (X_{k}, Y_{k})}

2)

B_{k 1} = {A^{'}}_{k 1} \cdot \frac{σ_{B 1}}{\sqrt{D ({A^{'}}_{k 1})}} + μ_{B 1} - E ({A^{'}}_{k 1}) \cdot \frac{σ_{B 1}}{\sqrt{D ({A^{'}}_{k 1})}},

其中

μ_{B 1} = \frac{E (X_{k})}{d},

σ_{B 1} = \sqrt{\frac{D (X_{k})}{d^{2}}}

显然，E(B_k1)＝μ_B1,

3)

B_{k 2} = {A^{'}}_{k 2} \cdot \frac{σ_{B 2}}{\sqrt{D ({A^{'}}_{k 2})}} + μ_{B 2} - E ({A^{'}}_{k 2}) \cdot \frac{σ_{B 2}}{\sqrt{D ({A^{'}}_{k 2})}},

其中

μ_B2＝E(Y_k)-E(B_k1),

σ_{B 2} = \sqrt{D (Y_{k}) - D (B_{k 1})}

显然，E(B_k2)＝μ_B2,

同时cov(B_k1,B_k2)＝0

(5)得到(X′_k,Y′_k)

1)X′_k＝dB_k1

2)Y′_k＝B_k1+B_k2

由上述方法得到的(X′_k,Y′_k)满足式（2）。

步骤三：将X和Y的数据分别替换为对应的X’和Y’的数据。

X和Y分别由X₁，X₂,...X_n和Y₁,Y₂,...Y_n构成，X’和Y’分别由X’₁，X’₂,...X’_n和Y’₁,Y’₂,...Y’_n构成，对于0≤k≤n，X_k，Y_k，X’_k，Y’_k满足式（2），则E(X)=E(X’)，E(Y)=E(Y’)，D(X)=D(X’)，D(Y)=D(Y’)，cov(X，Y)=cov(X’,Y’)。

因此，经过上述步骤得到的X’,Y’，即隐藏了敏感信息，又保持数字特征，同时，将相近信息分为一组，组内进行混淆变换，可以减少变换对数据挖掘结果的影响。

为了评测本发明的性能，发明人通过UCI的数据集Adult和KEGGMetabolic Reaction Network(Undirected)进行测试。首先选择不同的两列属性作为要隐藏的敏感信息，分别用本发明的方法和传统的方法对信息进行加密，参照图1，是本发明的方法（方法1）与传统方法（方法2）对数据数字特征的影响，包括期望，方差，协方差。用百分误差来表示，可见，两种方法都能保证期望和方差不变，但传统的方法无法保证协方差不变，本发明则同样能保证协方差不变。

本发明方法可以根据不同属性对数据分组，再进行变换，从而保证一些分组统计的结果不变。例如，对UCI的数据集adult，按照education,race,sex分组，三个属性值都相同才分为一组，组内进行变换。按education,race,sex的任意组合进行分组统计，参照图2，是本发明方法（方法1）和传统方法（方法2）对统计结果的影响，用百分误差表示，可见，本发明方法能保持统计结果不变，而传统方法则有一定的误差，甚至误差很大。

对数据分组，进行组内混淆变换，可以减少其对数据挖掘结果的影响。分别对数据集Adult的原数据和变换后的数据进行分类，对比分类结果，如参照图3所示，准确率指变换后的结果与原结果一致的概率，可见，传统方法（方法2）对分类结果的影响较大，并且分类属性越少，影响越大；而本发明方法（方法1）影响更小，并且在属性的个数较少时依然能保证较小的影响。

分别对数据集KEGG Metabolic Reaction Network(Undirected)的原始数据和变换后数据进行聚类，对比聚类结果。不同于比对分类时所用的准确率，这里的准确率p表示任意两对象，变换的结果聚为一类，原结果也聚为一类的概率；同时有召回率r表示原结果聚为一类，现结果也聚为一类的概率，本实验用F₁度量来评估两种方法对聚类结果的影响。

F_{1} = \frac{2 pr}{p + r}

参照图4、图6，是在不同属性个数以及不同相似度阈值下，本发明方法（方法1）和传统方法（方法2）对聚类结果影响的比较。由图可以看出，第一，聚类的相似度阈值越高，变换对结果的影响越大；第二，属性越多，变换对结果的影响越小；第三，本发明方法对聚类结果的影响比传统方法更小。

Claims

1.一种保持数据数字特征的隐私信息保护方法，其特征在于，数据库表格T包含两列敏感信息，X与Y，对X和Y的数据进行混淆变换，生成X’和Y’，使X’、Y’与X、Y的数字特征相同；按属性值的不同对X和Y进行分类统计，同样使每类的数字特征不变，包括下列步骤：

\{\begin{matrix} | (X_{k}, Y_{k}) | = | (X_{k}^{'}, Y_{k}^{'}) | \\ E (X_{k}) = E (X_{k}^{'}) \\ D (X_{k}) = D (X_{k}^{'}) \\ E (Y_{k}) = E (Y_{k}^{'}) \\ D (Y_{k}) = D (Y_{k}^{'}) \\ cov (X_{k}, Y_{k}) = cov (X_{k}^{'}, Y_{k}^{'}) \end{matrix} - - - (2)

步骤三：将X和Y的数据分别替换为对应的X’和Y’的数据。

2.根据权利要求1所述的一种保持数据数字特征的隐私信息保护方法，其特征在于，原数据数据库表格T满足，D(X)>0且D(Y)>0，｜(X,Y)｜≥3，第1级划分所参照的属性由用户指定，第1级划分后，每组均满足

｜(X_k,Y_k)｜＞2+max(α_xk,α_yk) （1）

3.根据权利要求1所述的一种保持数据数字特征的隐私信息保护方法，其特征在于，变换后的两组数据与原数据的期望、方差和协方差均相等。

4.根据权利要求1所述的一种保持数据数字特征的隐私信息保护方法，其特征在于，变换后的数据与原数据，在按属性进行分组统计时，每组的期望、方差和协方差均相等。

5.根据权利要求2所述的一种保持数据数字特征的隐私信息保护方法，其特征在于，步骤一中，按属性分类统计数据的数字特征，使每类的数字特征不变，采用如下方法：

（1）按指定属性集初步划分(X,Y)：

1.1）所有可能参与统计的属性集合记为A；

1.2）对A中的连续型属性进行离散化；

1.3）i＝1；

1.7）结束，返回{(X₁,Y₁)₁,(X₂,Y₂)₁,...,(X_n,Y_n)₁}；

（2）按距离细分每个(X_i,Y_i)₁：

进一步细分每个(X_i,Y_i)₁，采用如下方法：

2.2）j=1；

2.5）若(X_j,Y_j)_i2不满足式（1），返回2.4）；

2.6）若(X_i,Y_i)₁不为空，且|(X_i,Y_i)₁|≥3，j＝j+1，返回2.3）；否则，将(X_i,Y_i)₁加入(X_j,Y_j)_i2；

2.7）结束，返回{(X₁,Y₁)_i2,(X₂,Y₂)_i2,...,(X_n,Y_n)_i2}；

6.根据权利要求2所述的一种保持数据数字特征的隐私信息保护方法，其特征在于，采用如下方法得到满足式（2）的(X′_k,Y′_k)：

（1）若

cov (X_{k}, Y_{k}) = \sqrt{D (X_{k}) D (Y_{k})}

1.1)生成n_k个随机数A_k，其中n_k＝|(X_k,Y_k)|

1.2)

{X^{'}}_{k} = {A^{'}}_{k} \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k})}} + E (X_{k}) - E ({A^{'}}_{k}) \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k})}}

1.3)

{Y^{'}}_{k} = {X^{'}}_{k} \cdot \sqrt{\frac{D (Y_{k})}{D ({X^{'}}_{k})}} + E (Y_{k}) - E ({X^{'}}_{k}) \cdot \sqrt{\frac{D (Y_{k})}{D ({X^{'}}_{k})}}

所得(X′_k,Y′_k)满足式（2）；

（2）若

cov (X_{k}, Y_{k}) = - \sqrt{D (X_{k}) D (Y_{k})}

2.1)生成n_k个随机数A_k

2.2)

{X^{'}}_{k} = {A^{'}}_{k} \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k})}} + E (X_{k}) - E ({A^{'}}_{k}) \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k})}}

2.3)

{Y^{'}}_{k} = - {X^{'}}_{k} \cdot \sqrt{\frac{D (Y_{k})}{D ({X^{'}}_{k})}} + E (Y_{k}) + E ({X^{'}}_{k}) \cdot \sqrt{\frac{D (Y_{k})}{D ({X^{'}}_{k})}}

所得(X′_k,Y′_k)满足式（2）；否则，继续如下方法：

（3）生成协方差为0的两组数；

3.1)生成两组各n_k个随机数A_k1和A_k2；

3.2)A′_k2＝A_k2-E(A_k2)，则E(A′_k2)＝0；

3.3)任取j∈[1,n],

a_i∈A_k1,b′_i∈A′_k2；

3.4)当i≠j时,a′_i＝a_i，当i＝j时，a′_i＝a

则

cov ({A^{'}}_{k 1}, {A^{'}}_{k 2}) = E ({A^{'}}_{k 1} {A^{'}}_{k 2}) - E ({A^{'}}_{k 1}) E ({A^{'}}_{k 2})

= E ({A^{'}}_{k 1} {A^{'}}_{k 2})

= \frac{1}{n_{k}} (Σ_{i = 1, i &NotEqual; j}^{n_{k}} {a^{'}}_{i} {b^{'}}_{i} + {ab}^{'}_{j})

= 0

若cov(X_k,Y_k)=0,则

3.5)

{X^{'}}_{k} = {A^{'}}_{k 1} \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k 1})}} + E (X_{k}) - E ({A^{'}}_{k 1}) \cdot \sqrt{\frac{D (X_{k})}{D ({A^{'}}_{k 1})}}

3.6)

{Y^{'}}_{k} = {A^{'}}_{k 2} \cdot \sqrt{\frac{D (Y_{k})}{D ({A^{'}}_{k 2})}} + E (Y_{k}) - E ({A^{'}}_{k 2}) \cdot \sqrt{\frac{D (Y_{k})}{D ({A^{'}}_{k 2})}}

所得(X′_k,Y′_k)满足式（2）；否则，继续如下方法：

（4）变换A’_k1和A’_k2

4.1)

d = \frac{D (X_{k})}{cov (X_{k}, Y_{k})}

4.2)

B_{k 1} = {A^{'}}_{k 1} \cdot \frac{σ_{B 1}}{\sqrt{D ({A^{'}}_{k 1})}} + μ_{B 1} - E ({A^{'}}_{k 1}) \cdot \frac{σ_{B 1}}{\sqrt{D ({A^{'}}_{k 1})}},

其中

μ_{B 1} = \frac{E (X_{k})}{d},

σ_{B 1} = \sqrt{\frac{D (X_{k})}{d^{2}}}

显然，E(B_k1)＝μ_B1,

4.3)

B_{k 2} = {A^{'}}_{k 2} \cdot \frac{σ_{B 2}}{\sqrt{D ({A^{'}}_{k 2})}} + μ_{B 2} - E ({A^{'}}_{k 2}) \cdot \frac{σ_{B 2}}{\sqrt{D ({A^{'}}_{k 2})}},

其中

μ_B2＝E(Y_k)-E(B_k1),

σ_{B 2} = \sqrt{D (Y_{k}) - D (B_{k 1})}

显然，E(B_k2)＝μ_B2,同时cov(B_k1,B_k2)＝0

（5）得到(X′_k,Y′_k)：

5.1）X′_k＝dB_k1；

5.2）Y′_k＝B_k1+B_k2。

7.根据权利要求1所述的一种保持数据数字特征的隐私信息保护方法，其特征在于，所述属性值为离散型变量或连续型变量预先进行离散化后形成的变量。