CN116305292B

CN116305292B - 基于差分隐私保护的政务数据发布方法及系统

Info

Publication number: CN116305292B
Application number: CN202310552582.3A
Authority: CN
Inventors: 杨军; 沈博; 杨菲; 徐勇勇
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-08-08
Anticipated expiration: 2043-05-17
Also published as: CN116305292A

Abstract

本发明涉及一种基于差分隐私保护的政务数据发布方法及系统，属于隐私数据安全保护技术领域，该方法包括：获取政务数据的原始数据集D、特征集F和类别集C；基于特征集F中特征与类别集C之间的相关性获取候选数据集；对候选数据集进行初始归一化处理、数据中心化和重新归一化处理得到数据集；获取满足差分隐私保护的样本协方差矩阵，并发布满足差分隐私保护的合成数据集D^*，本申请提供的方法及系统可减少利用高斯生成模型合成数据时引入的噪声量；并基于高斯生成模型进行差分隐私政务数据发布，将预处理后的数据进行随机正交投影，基于高斯生成模型产生满足差分隐私保护的合成数据，提高发布结果的可用性。

Description

基于差分隐私保护的政务数据发布方法及系统

技术领域

本发明涉及隐私数据安全保护技术领域，尤其涉及一种基于差分隐私保护的政务数据发布方法及系统。

背景技术

互联网、大数据、人工智能等新一代信息技术的发展，极大地便利政府采集、获取来自各类系统的政务数据，如财政、城建、医疗、教育、人口普查等数据。挖掘或分析海量政务数据产生的隐含价值与知识，可为政府部门提供决策支持，提升政务实施效能。尽管政务数据的内在价值给人民群众生活生产带来了便利，但也为不法分子树立了攻击目标，由于数据中通常包含个人敏感信息，直接发布或共享数据将引起隐私泄露问题，这使得政务数据在共享与应用时面临难以预料的安全风险。

目前已有的隐私保护政务数据发布技术主要通过匿名化、加密、扰动等方式对敏感信息进行保护，以保证发布数据的隐私安全。基于匿名化的隐私保护技术根据不同的数据类型与应用场景，通过泛化、抑制、分解等方式隐藏原始数据集中数据所有者和敏感信息之间的一一对应关系，产生满足隐私保护需求又保证数据可用的匿名数据集。但该类方法通常缺乏形式化的隐私保护定义，无法有效度量发布数据的隐私安全程度。基于数据加密的隐私保护数据发布技术具有极高的安全性保证，但其加密操作会带来大量的计算开销，这使其难以应用于大规模数据发布场景。

以差分隐私为代表的数据扰动技术解决了匿名化模型的不足，对隐私泄露风险给出了严格的、定量化的表示和证明。但将差分隐私模型应用于隐私保护政务大数据发布中的研究工作较少，主要因为政务数据具有体量大、维度高的特点，使用差分隐私对其进行保护时，需要添加大量扰动噪声到原始数据，导致发布结果准确性较低，直接制约了差分隐私在隐私保护政务大数据发布中的应用。同时，将差分隐私模型应用于隐私保护时存在以下问题：基于生成学习模型的隐私保护数据发布方法利用原始数据的参数分布或定义适当的模型表示原始数据，当数据分布未知或模型定义不准确时，使得发布结果可用性较低；基于投影变换的方法在求解样本协方差矩阵的基础上进行降维，构建可表达原始数据集的概要，存在隐私预算分配不合理和未能充分捕获数据间关系的问题，无法最大化原始数据的可用性的问题。

发明内容

本发明意在提供一种基于差分隐私保护的政务数据发布方法及系统，以解决现有技术中存在的不足，本发明要解决的技术问题通过以下技术方案来实现。

本发明提供的基于差分隐私保护的政务数据发布方法，包括：

步骤S1：获取包括多条待发布的政务数据的原始数据集 D，并获取所述原始数据集D的特征集F和类别集C，其中，特征集F为原始数据集D中每条数据的特征的集合，类别集C为原始数据集D中每条数据的类别的集合；

步骤S2：基于最大信息系数计算特征集F中特征与类别集C之间的相关性，获取最大信息系数最大时对应的特征F_K，并基于特征F_K选取特征集F中其余特征中的多个的特征，获取由特征F_K和基于特征F_K选取的特征组成的候选数据集；

步骤S3：对所述候选数据集进行初始归一化处理得到数据集D_nor，获取数据集D_nor的样本均值，根据样本均值和相邻归一化数据集D_nor和/>进行候选数据集的数据中心化，得到待发布数据集/>，并对待发布数据集/>进行重新归一化处理得到数据集/>；

步骤S4：获取正交投影矩阵W，通过正交投影矩阵W将数据集投影到低维空间，获得低维数据集/>，通过低维数据集/>获取满足差分隐私保护的样本协方差矩阵/>，并通过满足差分隐私保护的样本协方差矩阵/>发布满足差分隐私保护的合成数据集D^*。

在上述方案中，步骤S2包括：

基于最大信息系数计算特征集F中特征与类别集C之间的相关性，并根据计算结果对特征集F中所有特征进行降序排序，获取最大信息系数最大时对应的特征F_K；

计算特征集F中其余特征与特征F_K之间的最大信息系数，根据计算结果对特征集F中其余特征进行降序排序；

设定候选数据个数的阈值σ_MIC，根据阈值σ_MIC选取特征F_K以及特征集F中其余特征中排序靠前的特征组成候选数据集。

在上述方案中，所述步骤S3包括：

对所述候选数据集进行初始归一化处理得到数据集D_nor，获取数据集D_nor的样本均值μ，其中，样本均值μ为数据集D_nor中所有数据的平均值；

通过相邻归一化数据集D_nor和计算样本均值μ的敏感度/>；

通过样本均值μ的敏感度以及样本均值μ的差分隐私预算/>，获取拉普拉斯噪声/>，对样本均值μ添加拉普拉斯噪声/>得到包含噪声的样本均值/>；

通过包含噪声的样本均值进行候选数据集的数据中心化，得到待发布数据集；

对待发布数据集进行重新归一化处理得到数据集/>。

在上述方案中，所述样本均值μ的敏感度通过以下计算公式获取：

；

其中，d_i为数据集D_nor中的第i个数据，为数据集/>中的第i个数据，/>表示取上限函数，/>表示1-范数，/>表示矩阵F-范数，p表示d_i和/>的数据维度，/>表示查询函数。

在上述方案中，通过包含噪声的样本均值进行候选数据集的数据中心化采用的公式为：

，其中，1表示所有值为1的向量。

在上述方案中，步骤S4包括：

将待发布数据集的列向量进行施密特正交化，得到正交向量组构成正交投影矩阵W，通过正交投影矩阵W将数据集/>投影到低维空间，获得低维数据集/>；

计算低维数据集的样本协方差矩阵Σ以及低维数据集/>的敏感度/>；

根据样本协方差矩阵Σ以及敏感度获取满足差分隐私保护的样本协方差矩阵；

通过满足差分隐私保护的样本协方差矩阵获取满足差分隐私保护的高斯生成模型/>；

通过高斯生成模型发布满足差分隐私保护的合成数据集D^*。

在上述方案中，所述根据样本协方差矩阵Σ以及敏感度获取满足差分隐私保护的样本协方差矩阵/>包括：

通过敏感度以及样本协方差矩阵Σ的差分隐私预算ϵ_Σ获取拉普拉斯噪声；

对样本协方差矩阵Σ的添加拉普拉斯噪声得到满足差分隐私保护的样本协方差矩阵/>。

本发明提供的基于差分隐私保护的政务数据发布系统，采用如上所述的基于差分隐私保护的政务数据发布方法进行政务数据发布，所述系统包括：

原始数据采集模块，用于获取包括多条待发布的政务数据的原始数据集D，并获取所述原始数据集D的特征集F和类别集C，其中，特征集F为原始数据集D中每条数据的特征的集合，类别集C为原始数据集D中每条数据的类别的集合；

候选数据集获取模块，用于基于最大信息系数计算特征集F中特征与类别集C之间的相关性，获取最大信息系数最大时对应的特征F_K，并基于特征F_K选取特征集F中其余特征中的多个的特征，获取由特征F_K和基于特征F_K选取的特征组成的候选数据集；

待发布数据获取模块，用于对所述候选数据集进行初始归一化处理得到数据集D_nor，获取数据集D_nor的样本均值，根据样本均值和相邻归一化数据集D_nor和/>进行候选数据集的数据中心化，得到待发布数据集/>，并对待发布数据集/>进行重新归一化处理得到数据集/>；

数据发布模块，用于获取正交投影矩阵W，通过正交投影矩阵W将数据集投影到低维空间，获得低维数据集/>，通过低维数据集/>获取满足差分隐私保护的样本协方差矩阵/>，并通过满足差分隐私保护的样本协方差矩阵/>发布满足差分隐私保护的合成数据集D^*。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于差分隐私保护的政务数据发布方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于差分隐私保护的政务数据发布方法的步骤。

本发明实施例包括以下优点：

本发明实施例提供的基于差分隐私保护的政务数据发布方法及系统，基于最大信息系数和Dvoretzky定理，对原始政务数据进行预处理，在保留原始数据多种函数关系的基础上，使处理后数据分布近似高斯分布，减少利用高斯生成模型合成数据时引入的噪声量；并基于高斯生成模型进行差分隐私政务数据发布，将预处理后的数据进行随机正交投影，使预处理后的数据在低维空间上的投影接近高斯分布，基于高斯生成模型产生满足差分隐私保护的合成数据，提高发布结果的可用性。

附图说明

图1是本发明的一种基于差分隐私保护的政务数据发布方法的步骤图。

图2是本发明的形成候选数据集的步骤图。

图3是本发明的形成待发布数据集的步骤图。

图4是本发明的发布满足差分隐私保护的合成数据集的步骤图。

图5是本发明的一种基于差分隐私保护的政务数据发布系统的组成图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

如图1所示，本发明提供一种基于差分隐私保护的政务数据发布方法，包括：

步骤S1：获取包括多条待发布的政务数据的原始数据集D，并获取所述原始数据集D的特征集F和类别集C，其中，特征集F为原始数据集D中每条数据的特征的集合，类别集C为原始数据集D中每条数据的类别的集合。

步骤S2：基于最大信息系数计算特征集F中特征与类别集C之间的相关性，获取最大信息系数最大时对应的特征F_K，并基于特征F_K选取特征集F中其余特征中的多个的特征，获取由特征F_K和基于特征F_K选取的特征组成的候选数据集。

如图2所示，步骤S2包括：

步骤S21：基于最大信息系数计算特征集F中特征与类别集C之间的相关性，并根据计算结果对特征集F中所有特征进行降序排序，获取最大信息系数最大时对应的特征F_K；

步骤S22：计算特征集F中其余特征与特征F_K之间的最大信息系数，根据计算结果对特征集F中其余特征进行降序排序；

步骤S23：设定候选数据个数的阈值σ_MIC，根据阈值σ_MIC选取特征F_K以及特征集F中其余特征中排序靠前的特征组成候选数据集。

具体地，步骤S21中，可在计算特征集F中特征与类别集C之间的相关性之前，滤除最大信息系数计算特征集F中无用或有缺失值的特征，从而可降低数据稀疏性。

具体地，通过以上步骤形成候选数据集，可降低引入额外扰动误差对隐私保护水平造成影响。

步骤S3：对所述候选数据集进行初始归一化处理得到数据集D_nor，获取数据集D_nor的样本均值，根据样本均值和相邻归一化数据集D_nor和/>进行候选数据集的数据中心化，得到待发布数据集/>，并对待发布数据集/>进行重新归一化处理得到数据集/>。

如图3所示，步骤S3包括：

步骤S31：对所述候选数据集进行初始归一化处理得到数据集D_nor，获取数据集D_nor的样本均值μ，其中，/>，数据集D_nor满足

Dvoretzky定理条件，样本均值/>，d_i为数据集D_nor中的第i个数据，样本均值μ为数据集D_nor中所有数据的平均值；

步骤S32：通过相邻归一化数据集D_nor和计算样本均值μ的敏感度/>；

步骤S33：通过样本均值μ的敏感度以及样本均值μ的差分隐私预算/>获取拉普拉斯噪声/>，对样本均值μ添加拉普拉斯噪声/>得到包含噪声的样本均值/>，其中，为保证发布数据满足/>差分隐私保护，为/>分配/>隐私预算，；

步骤S34：通过包含噪声的样本均值进行候选数据集的数据中心化，得到待发布数据集/>；

步骤S35：对待发布数据集进行重新归一化处理得到数据集/>，其中，由于通过包含噪声的样本均值/>进行候选数据集的数据中心化，得到待发布数据集/>无法满足Dvoretzky定理条件/>，需对待发布数据集/>重新归一化。

在本实施例中，经过以上步骤获取的数据集满足Dvoretzky定理中的正则化条件，其中，ξ为单位球面上的数据样本。

具体地，所述样本均值μ的敏感度通过以下计算公式获取：

；

具体地，通过包含噪声的样本均值进行候选数据集的数据中心化采用的公式为：

，其中，1表示所有值为1的向量。

如图4所示，步骤S4包括：

步骤S41：将待发布数据集的列向量进行施密特正交化，得到正交向量组构成正交投影矩阵W，通过正交投影矩阵W将数据集/>投影到低维空间，获得低维数据集/>，其中，正交投影矩阵W满足：W^TW=I，I为单位矩阵。

步骤S42：计算低维数据集的样本协方差矩阵Σ以及低维数据集/>的敏感

度，其中，/>，/>为/>中的第i个数据，/>为/>中的第i个数据，/>，/>和/>为相邻低维数据集，/>为/>中的第i个数据，/>为中的第i个数据，/>表示取上限函数，/>表示1-范数，/>表示矩阵F-范数，/>表示查询函数；

步骤S43：根据样本协方差矩阵Σ以及敏感度获取满足差分隐私保护的样本协方差矩阵/>；

步骤S44：通过满足差分隐私保护的样本协方差矩阵获取满足差分隐私保护的高斯生成模型/>；

步骤S45：通过高斯生成模型发布满足差分隐私保护的合成数据集D^*。

具体地，高斯分布的密度函数为：

；

将低维数据集的数据样本/>代入到高斯分布的密度函数中，得到：

其中，k表示数据样本的维度，det表示求协方差矩阵/>的行列式，exp表示以自然对数底数e为底数的指数运算；

通过以上计算结果组成数据集。

具体地，通过高斯生成模型发布满足差分隐私保护的合成数据集，可有效抵抗直接发布满足差分隐私保护的估计模型参数带来的推理攻击，提高满足差分隐私保护下发布数据的可用性。

具体地，步骤S43包括：

通过敏感度以及样本协方差矩阵Σ的差分隐私预算/>获取拉普拉斯噪声；

对样本协方差矩阵Σ的添加拉普拉斯噪声得到满足差分隐私保护的样本协方差矩阵/>，其中，/>。

具体地，根据差分隐私定义，证明合成数据集满足差分隐私，如下所示：

隐私预算ϵ消耗包括步骤S34中计算与步骤S44中通过满足差分隐私保护的样本协方差矩阵/>获取满足差分隐私保护的高斯生成模型/>两个阶段，要证明本发明提出的方法满足/>差分隐私，证得两阶段消耗的隐私预算/>、/>总和为/>即可；

在步骤S34中，对于任意相邻的归一化数据集D_nor、，均值的敏感度/>，其中/>表示取上限函数，/>表示矩阵F范数；差分隐私保护后的均值为/>，/>表示符合拉普拉斯分布的噪声；设/>，/>，/>，令/>，，则有/>，因此，加噪后的均值μ满足/>差分隐私。

同理，对于任意相邻的低维数据集、/>，协方差矩阵Σ的敏感度/>、为，加噪后的协方差矩阵/>满足/>差分隐私，根据顺序组合性质，即假设算法/>有n个算法/>组成，每个算法满足/>差分隐私，其中/>表示算法/>的输出，如果/>，则算法/>满足/>差分隐私。因此，由顺序组合性质可证使用本发明产生的数据集D^*满足/>差分隐私。

如图5所示，本发明提供一种基于差分隐私保护的政务数据发布系统，采用如上所述的基于差分隐私保护的政务数据发布方法进行政务数据发布，包括：

进一步地，本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于差分隐私保护的政务数据发布方法的步骤。

进一步地，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于差分隐私保护的政务数据发布方法的步骤。

应该指出，上述详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位，如旋转90度或处于其他方位，并且对这里所使用的空间相对描述作出相应解释。

在上面详细的说明中，参考了附图，附图形成本文的一部分。在附图中，类似的符号典型地确定类似的部件，除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下，其他实施方案可以被使用，并且可以作其他改变。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于差分隐私保护的政务数据发布方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于差分隐私保护的政务数据发布方法，其特征在于，步骤S2包括：

3.根据权利要求1所述的基于差分隐私保护的政务数据发布方法，其特征在于，所述步骤S3包括：

对所述候选数据集进行初始归一化处理得到数据集D_nor，获取数据集D_nor的样本均值/>，其中，样本均值/>为数据集D_nor中所有数据的平均值；

通过相邻归一化数据集D_nor和计算样本均值/>的敏感度/>；

通过样本均值的敏感度/>以及样本均值/>的差分隐私预算/>，获取拉普拉斯噪声，对样本均值/>添加拉普拉斯噪声/>得到包含噪声的样本均值μ^DP；

通过包含噪声的样本均值μ^DP进行候选数据集的数据中心化，得到待发布数据集；

对待发布数据集进行重新归一化处理得到数据集/>。

4.根据权利要求3所述的基于差分隐私保护的政务数据发布方法，其特征在于，所述样本均值的敏感度∆f_μ通过以下计算公式获取：

；

5.根据权利要求3所述的基于差分隐私保护的政务数据发布方法，其特征在于，通过包含噪声的样本均值 ^DP进行候选数据集的数据中心化采用的公式为：

，其中，1表示所有值为1的向量。

6.根据权利要求1所述的基于差分隐私保护的政务数据发布方法，其特征在于，步骤S4包括：

根据样本协方差矩阵Σ以及敏感度获取满足差分隐私保护的样本协方差矩阵Σ^DP；

通过满足差分隐私保护的样本协方差矩阵Σ^DP获取满足差分隐私保护的高斯生成模型N(μ^DP,Σ^DP)；

通过高斯生成模型发布满足差分隐私保护的合成数据集D^*。

7.根据权利要求6所述的基于差分隐私保护的政务数据发布方法，其特征在于，所述根据样本协方差矩阵Σ以及敏感度获取满足差分隐私保护的样本协方差矩阵Σ^DP包括：

通过敏感度以及样本协方差矩阵Σ的差分隐私预算/>获取拉普拉斯噪声/>；

对样本协方差矩阵Σ的添加拉普拉斯噪声得到满足差分隐私保护的样本协方差矩阵Σ^DP。

8.一种基于差分隐私保护的政务数据发布系统，采用如权利要求1-7任一项所述的基于差分隐私保护的政务数据发布方法进行政务数据发布，其特征在于，所述系统包括：

数据发布模块，用于获取正交投影矩阵W，通过正交投影矩阵W将数据集投影到低维空间，获得低维数据集/>，通过低维数据集/>获取满足差分隐私保护的样本协方差矩阵Σ^DP，并通过满足差分隐私保护的样本协方差矩阵Σ^DP发布满足差分隐私保护的合成数据集D^*。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的基于差分隐私保护的政务数据发布方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于差分隐私保护的政务数据发布方法的步骤。