CN108776763B

CN108776763B - 一种基于属性相关的差分隐私保护方法

Info

Publication number: CN108776763B
Application number: CN201810589946.4A
Authority: CN
Inventors: 董宇欣; 陈福坤; 褚慈; 谢晓东; 印桂生; 韩启龙; 王红滨; 万丽; 秦帅; 白云鹏
Original assignee: Harbin Engineering University
Current assignee: Harbin Oceanwide Technology Development Co ltd
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2022-02-11
Anticipated expiration: 2038-06-08
Also published as: CN108776763A

Abstract

本发明公开了一种基于属性相关的差分隐私保护方法，属于信息安全技术领域。本发明采取投影转换的思想，提出了新的面向属性相关的隐私保护方法。该方法不仅考虑了属性之间存在相关性的情况，而且利用这种相关关系减少噪声的加入。即利用最大信息系数衡量各敏感属性相关关系，构建最大信息系数矩阵；从而构造投影算子，获得投影矩阵，该结构的使用使得维度降低，在提供相同的隐私保证的情况下，所需噪声数减少。

Description

一种基于属性相关的差分隐私保护方法

技术领域

本发明属于信息安全技术领域，具体涉及一种基于属性相关的差分隐私保护方法。

背景技术

差分隐私保护数据发布根据实现环境不同可分为两种，即交互式数据发布和非交互式数据发布。在交互式环境下，用户向数据管理者提出查询请求，数据管理者根据查询请求对数据集进行操作并将结果进行必要的干扰后反馈给用户，用户不能看到数据集全貌，从而保护数据集中的个体隐私。在非交互式环境下，数据管理者针对所有可能的查询，在满足差分隐私的条件下一次性发布所有查询的结果。或者，数据管理者发布一个原始数据集的“净化”版本，这是一个不精确的数据集，用户可对该版本的数据集自行进行所需的查询操作。

发明内容

本发明的目的是为了解决现有隐私保护方法存在发布数据的可用性差，信息的隐匿率过高的问题，提出的一种基于属性相关的差分隐私保护方法。

本发明的目的是这样实现的：

一种基于属性相关的差分隐私保护方法，其特征在于，包含以下步骤：

步骤一设输入样本X＝[X₁,X₂,…X_N]，N为样本个数，每一个样本X_l＝[x_l1,x_l2,…,x_ln]^T∈Rⁿ，对输入数据X进行标准化：得到标准化矩阵计算矩阵Z的最大信息系数矩阵C_i,j＝MIC(z_i,z_j)；其特征在于：

给定有序对数据集D＝{(x_i，y_i)，i＝1，2，...，n}，将X轴分成数量为x的格子，将Y轴分成了数量为y的格子，从而得出x×y格式的网格划分，并且用G表示，把位于D点同时进入了G中的网格而存在的比例判定为它的概率分配D|_G；所有的数据集D，当其具有一定的固定性时，每一个网格划分都有它自己的概率分布特征D|_G；最大信息系数MIC定义为：

步骤二数据降维，构建投影算子；数据降维是采用线性变换的方式将高维空间的数据投影变换到低维空间上；

步骤三根据投影算子，将原始数据投影到另一个空间中，得到相应的投影矩阵；

计算F_k×n＝Φ×Z，得到投影矩阵F_k×n；对投影矩阵F_k×n中的元素f_ij添加噪声，计算f_ij＝f_ij+lap(Δf/ε)，f_ij构成矩阵F_noisy；添加服从拉普拉斯分布的噪声，其中Δf为全局敏感度；

步骤四计算D＝U_k×F_noisy+repmat(E_noisy,1,n)，即将加噪后的投影矩阵还原；E为原始特征变量对应的均值，E_noisy为加噪后均值，防止均值泄露隐私；

步骤五发布还原数据集D，使得发布后的数据能够在差分隐私的框架下为相关的查询和数据挖掘等工作提供支持。

本发明的技术效果为：

本发明不仅考虑了属性之间存在相关性的情况，而且利用这种相关关系减少噪声的加入。即利用最大信息系数衡量各敏感属性相关关系，构建最大信息系数矩阵；从而构造投影算子，获得投影矩阵，该结构的使用使得维度降低，在提供相同的隐私保证的情况下，所需噪声数减少。

附图说明

图1为本发明的流程框图；

图2为不同隐私预算下，传统差分隐私算法与该发明的MICPCA算法、MICSMT算法发布数据，用分类器进行分类得到的正确率对比图；

图3为选取降维算子维度k取不同的值时，传统差分隐私算法与该发明的MICPCA算法、MICSMT算法发布数据得到的分类准确率对比图；

图4为原始数据集在不同程度的隐私保护预算下经过传统差分隐私算法与该发明的MICPCA算法、MICSMT算法算法处理后的均方误差的影响对比图；

图5为原始数据集在抽取数据量不同的情况下下经过传统差分隐私算法与该发明的MICPCA算法、MICSMT算法算法处理后的均方误差的影响对比图；

具体实施方式

下面结合附图对本发明的新概念减摇减阻船舶作出以下详细说明：

本发明针对现有的隐私保护方法在发布属性具有相关性的数据时，存在因推断攻击而泄露隐私的问题和因添加过量噪声而破坏匿名数据效用性的问题，采取投影转换的思想，提出了新的面向属性相关的隐私保护方法。该方法不仅考虑了属性之间存在相关性的情况，而且利用这种相关关系减少噪声的加入。即利用最大信息系数衡量各敏感属性相关关系，构建最大信息系数矩阵；从而构造投影算子，获得投影矩阵，该结构的使用使得维度降低，在提供相同的隐私保证的情况下，所需噪声数减少。对应的两个算法均基于投影转换的思想，只是在获取投影算子时有所不同。基于最大信息系数的主成分分析的差分隐私数据发布(Maximal Information Coefficient based Principal Components Analysisbased Privacy-preserving data publishing，MICPCA)算法在构建投影算子时以改进的主成分分析为基础，而基于最大信息系数的稀疏矩阵变换的差分隐私数据发布(MaximalInformation Coefficient based Sparse Matrix Transform based Privacy-preserving data publishing，MICSMT)算法则是以连续的吉文斯旋转的方式构建投影算子。两个算法虽存在差异性，但是最终发布的数据均在一定程度上保障了个人信息安全的同时，数据的效用性也得到了相应的提高。

目前，对于如何在发布数据的过程中保护个人隐私这一问题，无论国内还是国外，都在积极的研究，学者们提出了多种方法和相应的算法，它们针对具体的实际问题，各有特点。本发明在前人研究的基础上，针对于现有的方法存在处理后数据信息损失量过大、可用性差的缺点。同时，表明现有的方法没有考虑属性间的相关关系，处理后的数据依然具有泄露隐私的风险，提出了基于属性相关的差分隐私保护方法，其主要观点和内容如下：

(1)MICPCA算法。在数据发布过程中，如何保证数据有效性与发布后的安全性一直是数据发布时需要着重考虑并亟待解决的问题。如今，我们处于信息化不断加快的社会中，所有的行业领域中拥有的个人数据都在极速的增加，而随着各个行业数据融合共享的深化，数据维度复杂程度越来越高。现有的隐私保护方法在该情况下，存在一系列问题，比如维度的增加，数据的可用性明显降低，信息的隐匿率较高等等，而且这些方法没有考虑到属性之间的关联性，从而导致信息泄露。因此，如何更安全、更高效的发布多敏感属性数据迫在眉睫。本算法基于投影转换的思想建立有针对性的隐私保护方法。

该算法在构建投影算子时以改进的主成分分析(PCA)为基础。传统的PCA中用协方差来度量随机变量间的相关关系，这是一种常见的度量方法，此方法一般只适用于呈线性关系或者近似线性关系的变量之间，当变量之间关系是线性关系时，PCA算法呈现出很好的降维效果，但是该度量方法无法衡量变量间非线性依赖程度，当变量间存在的关联关系呈现非线性或者其他复杂函数关系时，该算法性能缺失。然而由于自然界千变万化，各种事物之间的关系也是多种多样的，自然规律存在相当大的复杂性及不确定性，现实世界中变量之间存在许多非线性相关关系而且无法用简单的数学公式表达。为了度量数据间非线性相关性的强弱，基于阈值相关、互信息、相位同步等度量方法先后被提出。最大信息系数是由互信息发展而来，克服了互信息对于连续变量计算不方便的缺点。基于MIC计算变量之间相关程度比协方差矩阵更具有一般性的意义。采用可以度量变量间的非线性相关性的MIC矩阵替换协方差矩阵，从而改善对属性相关性的度量。

MICPCA算法从最大信息系数的角度进行主成分计算，可提供更多特征之间的线性、非线性关系信息，转换后的主成分与传统的主成分相比所需维数更低，即投影算子更为合适。将原始数据集投影变换到另一个空间中，在投影矩阵上添加服从拉普拉斯分布的噪声，最后将投影矩阵进行还原发布，使其在同样的隐私保护程度下，对数据所加噪声更小，数据可用性更高。该算法主要分为四部分：首先，将原始数据集归一化后计算最大信息系数矩阵，最大信息系数有效的衡量变量之间的相关关系；其次，对最大信息系数矩阵进行特征值分解，选取合适的k个特征向量构成投影算子；然后，进行投影转换得到投影矩阵，线性变换函数的敏感度是

隐私预算为ε/2，故需对投影矩阵中元素添加服从

的噪声。将噪声矩阵线性变换还原；最后，由于数据做了归一化处理，给还原矩阵中元素加上添加了服从Lap(2m/ε)噪声的均值，即可得到发布数据集。

该算法利用差分隐私的两个重要性质--序列组合性和并行组合性，使得其满足ε-差分隐私。在该算法中，分别在投影变换和还原数据两个步骤中添加服从拉普拉斯分布的噪声。由序列组合性，给各部分分配隐私预算为ε/2。由敏感度、并行组合性，给各部分添加服从Lap(2Δf/ε)的噪声，其中Δf为函数的全局敏感度。该算法比传统的拉普拉斯机制加了更少的噪音。在相同的隐私保护水平下，MICPCA算法发布的数据相比于传统差分隐私算法更接近于原始数据，保留部分分布特征。为研究分析数据提供的可用性更强。

(2)MICSMT算法。MICPCA算法从很大程度上解决了以往算法只能单一描述线性关联关系的问题。从某种意义上打破了PCA算法的局限性，使之实用性更强，但是仍然存在很多问题，如现有数据集数据量大和维度高的问题。为了进一步的解决算推演出来的新问题，进而提出了MICSMT算法。该算法使用最大信息系数的最大似然估计得到更加精确的最大信息系数矩阵，SMT使映射的过程显示为一个连续的在两个坐标轴所展开的平面中的旋转，如此一来，从根本上实现了数据的降维，还大大提高了算法的效率。比MICPCA算法更加快速高效，通过SMT降维效果更加理想，得到的投影算子维数更低，添加的总噪声数更小，发布数据可用性更高。

MICSMT算法基于样本的最大信息系数的最大似然估计，对数据进行稀疏矩阵变换，SMT将投影变换表示成一个连续的吉文斯旋转的过程，利用SMT变换得到低维数据，对降低维度后的数据添加服从拉普拉斯分布的随机噪声，实现差分隐私数据发布。经过最大似然估计得到的样本最大信息系数与真实最大信息系数更加接近。与MICPCA算法相比，该算法将映射表示成一个连续的吉文斯旋转的过程。该方法更完善的解决了数据脱密的问题。用更少的噪声、更优的降维、更高的效率实现了既保证数据之间关联关系高度有效的同时，确保数据的私密性。

MICSMT算法将全部隐私预算ε分为两部分B₁＝ε/2和B₂＝ε/2，B₁用于投影转换过程中，为投影矩阵中的元素添加拉普拉斯噪声，B₂用于矩阵还原过程中，为变量均值加入Laplace噪声。按照差分隐私的并行组合性，两个过程中的总体隐私预算仍分别为B₁和B₂。又由于差分隐私的序列组合性，MICSMT算法的全部隐私预算为B₁+B₂＝ε，它具有ε-差分隐私。MICSMT算法相比于MICPCA算法，在降维过程中具有更好的降维效果，并且效率更高。从而使得在相同的隐私保护程度下，MICSMT算法发布的数据可用性高于MICPCA算法。

两个算法均基于投影转换的思想，只是在获取投影算子时有所不同。MICPCA算法在构建投影算子时以改进的主成分分析为基础，而MICSMT算法则是以连续的吉文斯旋转的方式构建投影算子。两个算法虽存在差异性，但是最终发布的数据均在一定程度上保障了个人信息安全的同时，数据的实用性也得到了相应的提高。

本发明利用最大信息系数衡量相关性。对于最大信息系数(maximal informationcoefficient，MIC)的定义，是由David N.Reshef和Yakir A.Reshef等人提出的，最大信息系数是一种度量变量间的相关程度的方法。它可以对大量的关系进行分辨，其中不仅存在函数关系，还含有非函数关系，并不是局限于线性关系。最大信息系数MIC属于信息论研究中常用的重要理论，它在发展的过程将互信息做为了基础条件。对于两个变量之间所存在的非线性依赖的具体程度大小能够通过互信息进行测量，并且该相关性与互信息量的大小是成正比的。最大信息系数MIC能够避免互信息在处理连续的变量时出现的信息遗漏，且变量属性之间所存在的关联能够通过最大信息系数MIC准确的计算出来。因此，能够使用最大信息系数MIC计算变量属性所存在的关联性，这种计算方法也存在着普遍性的特点。给定有序对数据集D＝{(x_i，y_i)，i＝1，2，...，n}，假设将X轴分成数量为x的格子，将Y轴分成了数量为y的格子，从而得出了x×y格式的网格划分，并且用G表示，把位于D点同时进入了G中的网格而存在的比例近似判定为它的概率分配D|_G。所有的数据集D，当其具有一定的固定性时，每一个网格划分都有它自己的概率分布特征D|_G。最大信息系数MIC定义为：

这里所提及的B(n)表示的是能够被搜查到的网格上限，具有掌握最大信息系数MIC可以测试出的相关关系之间存在的复杂度的功能。

本发明采用投影转换的思想，比传统的拉普拉斯机制加了更少的噪音。传统拉普拉斯机制，一共有nm个噪声数据，每个噪声数据为Lap(m/ε)，总噪声为

MICPCA算法噪声来源有两个：一个是在投影矩阵添加噪声，一个是在均值添加噪声。前者共有nk个数据，每个数据所加噪声为

总噪音为

后者共有nm个数据，每个数据所加噪声为Lap(2/ε)，总噪声为

因此本发明比传统拉普拉斯机制所加噪声更小。即在相同的隐私保护水平下，本发明发布的数据相比于传统差分隐私算法更接近于原始数据，保留部分分布特征。为研究分析数据提供的可用性更强。

表1 MICPCA算法、MICSMT算法与传统PCA算法得到的主成分贡献率和累积贡献率

通过实验数据分析，如表1所示相同维度的情况下，MICSMT得到的主成分累积贡献率要高于MICPCA得到的主成分累积贡献率，MICPCA得到的主成分累积贡献率高于PCA得到的主成分累积贡献率。如三个算法得到的主成分中，第一主成分的累积贡献率分别为50.235％、58.792％、60.672％。并且这种优势持续保持。在选择主成分维数时，若以累积贡献率为90％为限选择主成分维数，则MICSMT仅需要3维，MICPCA需要4维，PCA却更高维度。由于函数的全局敏感度与投影算子的维度k有关，k越小，全局敏感度越小。在保证相同隐私保护程度情况下，加入的噪声越小，数据效用更好。由图2可知，算法处理后的数据的实用性并没有受到很大影响，即为了达到隐私保护的目的，所失去的分类精度的代价不大。可以看到隐私与保护预算为1时，MICPCA算法所消耗的分类精度代价小于8％，而MICSMT算法比MICPCA算法更优，近消耗6％左右。MICPCA得出的结果不如MICSMT好，这是因为MICSMT算法加入的噪声更小，数据可用性更强。由图3可知，两种算法的分类准确率与主成分维度成正比，且维度相同时，MICSMT算法的分类正确率高于MICPCA算法。MICSMT算法在维度为6时达到饱和，MICPCA算法在维度为7的时候达到饱和，此时两者的分类准确率为85.9％。由图4中均方误差结果所示，可以看到随着隐私预算ε升高，数据发布均方误差下降。虽然在隐私预算ε＝0.1时，数据发布均方误差较大，但是本文提出的两种算法发布的数据均方误差相对于传统的差分隐私数据发布误差来讲小得多，同时MICSMT算法与MICPCA算法与传统差分隐私数据发布算法相比隐私预算越低，误差下降越明显，因此均方误差越小。图5则显示了相同条件下三种算法分别对不同数据量大小的数据集进行处理后产生的均方误差的对比结果。从图中可以看出，对于不同大小的数据集，均方误差都低于3×10⁵。同时从图中还可以发现，总体上，随着实验数据的增加，经过处理后的实验结果的均方误差却越来越小。这主要是因为实验数据越多，数据集中每个属性取值的个数也会逐渐增多，而且每个属性值出现的次数也会越来越多，进而使得记录中属性值的分布也就变得更加均匀，属性间的相关关系更加明显，属性间相关关系越多，降维效果越好，总体添加的噪声数越小，最后造成的均方误差也就越少。

总而言之，通过上面几个对比分析可以看出，本方法提出的MICPCA算法与MICSMT算法相比于传统的差分隐私算法，在相同的隐私保护程度下，发布数据的效用更强，更有效的保留了原始数据的信息。同时，MICSMT算法无论是在发布数据可用性还是运算效率上都优于MICPCA算法。

一种基于属性相关的差分隐私保护方法，通过以下步骤实现，并通过图1的流程框图直观的表示出来：

步骤一：假设输入样本X＝[X₁,X₂,…X_N]，N为样本个数，每一个样本X_l＝[x_l1,x_l2,…,x_ln]^T∈Rⁿ，对输入数据X进行标准化：得到标准化矩阵计算矩阵Z的最大信息系数矩阵C_i,j＝MIC(z_i,z_j)。计算两个变量的最大信息系数的过程中，数据集的规模非常重要。如果数据集规模小，可以在较短时间内求得精确的最优解。

步骤二：该方法是使用降维的思想，故构建降维算子是该方法的核心内容之一。数据降维是采用线性变换的方式将高维空间的数据投影变换到低维空间上。一个线性变换本质上是一个函数，一旦确定了函数对于定义域中每一个元素的作用，也就确定了函数；

步骤三：根据投影算子，将原始数据投影到另一个空间中，得到相应的投影矩阵。

计算F_k×n＝Φ×Z，得到投影矩阵F_k×n；对投影矩阵F_k×n中的元素f_ij添加噪声，计算f_ij＝f_ij+lap(Δf/ε)，f_ij构成矩阵F_noisy。添加服从拉普拉斯分布的噪声，其中Δf为定义3.5中的全局敏感度。

步骤四：计算D＝U_k×F_noisy+repmat(E_noisy,1,n)，即将加噪后的投影矩阵还原。E为原始特征变量对应的均值，E_noisy为加噪后均值，防止均值泄露隐私。

步骤五：发布还原数据D，使得发布后的数据能够在差分隐私的框架下为相关的查询和数据挖掘等工作提供支持。

Claims

1.一种基于属性相关的差分隐私保护方法，其特征在于，包含以下步骤：

步骤一设输入样本X＝[X₁,X₂,…X_N]，N为样本个数，每一个样本X_l＝[x_l1,x_l2,…,x_ln]^T∈Rⁿ，n代表样本X_l的维度，对输入数据X进行标准化：得到标准化矩阵计算矩阵Z的最大信息系数矩阵C_i,j＝MIC(z_i,z_j)；其特征在于：

给定有序对数据集D＝{(x_i，y_i)，i＝1，2，...，n}，将X轴分成数量为x的格子，将Y轴分成了数量为y的格子，从而得出x×y格式的网格划分，并且用G表示，把位于D点同时进入了G中的网格而存在的比例判定为它的概率分配D|G；所有的数据集D，当其具有一定的固定性时，每一个网格划分都有它自己的概率分布特征D|G；最大信息系数MIC定义为：

计算F_k×n＝Φ×Z，得到投影矩阵F_k×n,Z代表对输入数据X进行标准化得到的标准化矩阵，Φ代表投影算子；对投影矩阵F_k×n中的元素f_ij添加噪声，计算f_ij＝f_ij+lap(Δf/ε)，f_ij构成矩阵F_noisy；添加服从拉普拉斯分布的噪声，其中Δf为全局敏感度，ε是隐私预算的2倍；

步骤四计算D＝U_k×F_noisy+repmat(E_noisy,1,n)，即将加噪后的投影矩阵还原，U_k是线性变换还原系数；E为原始特征变量对应的均值，E_noisy为加噪后均值，防止均值泄露隐私；

步骤五发布还原数据集D，使得发布后的数据能够在差分隐私的框架下为相关的查询和数据挖掘工作提供支持。