CN116305292B - 基于差分隐私保护的政务数据发布方法及系统 - Google Patents
基于差分隐私保护的政务数据发布方法及系统 Download PDFInfo
- Publication number
- CN116305292B CN116305292B CN202310552582.3A CN202310552582A CN116305292B CN 116305292 B CN116305292 B CN 116305292B CN 202310552582 A CN202310552582 A CN 202310552582A CN 116305292 B CN116305292 B CN 116305292B
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- differential privacy
- privacy protection
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000011159 matrix material Substances 0.000 claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000010606 normalization Methods 0.000 claims abstract description 10
- 238000009826 distribution Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 239000002131 composite material Substances 0.000 claims description 8
- 230000035945 sensitivity Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于差分隐私保护的政务数据发布方法及系统,属于隐私数据安全保护技术领域,该方法包括:获取政务数据的原始数据集D、特征集F和类别集C;基于特征集F中特征与类别集C之间的相关性获取候选数据集;对候选数据集进行初始归一化处理、数据中心化和重新归一化处理得到数据集;获取满足差分隐私保护的样本协方差矩阵,并发布满足差分隐私保护的合成数据集D*,本申请提供的方法及系统可减少利用高斯生成模型合成数据时引入的噪声量;并基于高斯生成模型进行差分隐私政务数据发布,将预处理后的数据进行随机正交投影,基于高斯生成模型产生满足差分隐私保护的合成数据,提高发布结果的可用性。
Description
技术领域
本发明涉及隐私数据安全保护技术领域,尤其涉及一种基于差分隐私保护的政务数据发布方法及系统。
背景技术
互联网、大数据、人工智能等新一代信息技术的发展,极大地便利政府采集、获取来自各类系统的政务数据,如财政、城建、医疗、教育、人口普查等数据。挖掘或分析海量政务数据产生的隐含价值与知识,可为政府部门提供决策支持,提升政务实施效能。尽管政务数据的内在价值给人民群众生活生产带来了便利,但也为不法分子树立了攻击目标,由于数据中通常包含个人敏感信息,直接发布或共享数据将引起隐私泄露问题,这使得政务数据在共享与应用时面临难以预料的安全风险。
目前已有的隐私保护政务数据发布技术主要通过匿名化、加密、扰动等方式对敏感信息进行保护,以保证发布数据的隐私安全。基于匿名化的隐私保护技术根据不同的数据类型与应用场景,通过泛化、抑制、分解等方式隐藏原始数据集中数据所有者和敏感信息之间的一一对应关系,产生满足隐私保护需求又保证数据可用的匿名数据集。但该类方法通常缺乏形式化的隐私保护定义,无法有效度量发布数据的隐私安全程度。基于数据加密的隐私保护数据发布技术具有极高的安全性保证,但其加密操作会带来大量的计算开销,这使其难以应用于大规模数据发布场景。
以差分隐私为代表的数据扰动技术解决了匿名化模型的不足,对隐私泄露风险给出了严格的、定量化的表示和证明。但将差分隐私模型应用于隐私保护政务大数据发布中的研究工作较少,主要因为政务数据具有体量大、维度高的特点,使用差分隐私对其进行保护时,需要添加大量扰动噪声到原始数据,导致发布结果准确性较低,直接制约了差分隐私在隐私保护政务大数据发布中的应用。同时,将差分隐私模型应用于隐私保护时存在以下问题:基于生成学习模型的隐私保护数据发布方法利用原始数据的参数分布或定义适当的模型表示原始数据,当数据分布未知或模型定义不准确时,使得发布结果可用性较低;基于投影变换的方法在求解样本协方差矩阵的基础上进行降维,构建可表达原始数据集的概要,存在隐私预算分配不合理和未能充分捕获数据间关系的问题,无法最大化原始数据的可用性的问题。
发明内容
本发明意在提供一种基于差分隐私保护的政务数据发布方法及系统,以解决现有技术中存在的不足,本发明要解决的技术问题通过以下技术方案来实现。
本发明提供的基于差分隐私保护的政务数据发布方法,包括:
步骤S1:获取包括多条待发布的政务数据的原始数据集 D,并获取所述原始数据集D的特征集F和类别集C,其中,特征集F为原始数据集D中每条数据的特征的集合,类别集C为原始数据集D中每条数据的类别的集合;
步骤S2:基于最大信息系数计算特征集F中特征与类别集C之间的相关性,获取最大信息系数最大时对应的特征FK,并基于特征FK选取特征集F中其余特征中的多个的特征,获取由特征FK和基于特征FK选取的特征组成的候选数据集;
步骤S3:对所述候选数据集进行初始归一化处理得到数据集Dnor,获取数据集Dnor的样本均值,根据样本均值和相邻归一化数据集Dnor和/>进行候选数据集的数据中心化,得到待发布数据集/>,并对待发布数据集/>进行重新归一化处理得到数据集/>;
步骤S4:获取正交投影矩阵W,通过正交投影矩阵W将数据集投影到低维空间,获得低维数据集/>,通过低维数据集/>获取满足差分隐私保护的样本协方差矩阵/>,并通过满足差分隐私保护的样本协方差矩阵/>发布满足差分隐私保护的合成数据集D*。
在上述方案中,步骤S2包括:
基于最大信息系数计算特征集F中特征与类别集C之间的相关性,并根据计算结果对特征集F中所有特征进行降序排序,获取最大信息系数最大时对应的特征FK;
计算特征集F中其余特征与特征FK之间的最大信息系数,根据计算结果对特征集F中其余特征进行降序排序;
设定候选数据个数的阈值σMIC,根据阈值σMIC选取特征FK以及特征集F中其余特征中排序靠前的特征组成候选数据集。
在上述方案中,所述步骤S3包括:
对所述候选数据集进行初始归一化处理得到数据集Dnor,获取数据集Dnor的样本均值μ,其中,样本均值μ为数据集Dnor中所有数据的平均值;
通过相邻归一化数据集Dnor和计算样本均值μ的敏感度/>;
通过样本均值μ的敏感度以及样本均值μ的差分隐私预算/>,获取拉普拉斯噪声/>,对样本均值μ添加拉普拉斯噪声/>得到包含噪声的样本均值/>;
通过包含噪声的样本均值进行候选数据集的数据中心化,得到待发布数据集;
对待发布数据集进行重新归一化处理得到数据集/>。
在上述方案中,所述样本均值μ的敏感度通过以下计算公式获取:
;
其中,di为数据集Dnor中的第i个数据,为数据集/>中的第i个数据,/>表示取上限函数,/>表示1-范数,/>表示矩阵F-范数,p表示di和/>的数据维度,/>表示查询函数。
在上述方案中,通过包含噪声的样本均值进行候选数据集的数据中心化采用的公式为:
,其中,1表示所有值为1的向量。
在上述方案中,步骤S4包括:
将待发布数据集的列向量进行施密特正交化,得到正交向量组构成正交投影矩阵W,通过正交投影矩阵W将数据集/>投影到低维空间,获得低维数据集/>;
计算低维数据集的样本协方差矩阵Σ以及低维数据集/>的敏感度/>;
根据样本协方差矩阵Σ以及敏感度获取满足差分隐私保护的样本协方差矩阵;
通过满足差分隐私保护的样本协方差矩阵获取满足差分隐私保护的高斯生成模型/>;
通过高斯生成模型发布满足差分隐私保护的合成数据集D*。
在上述方案中,所述根据样本协方差矩阵Σ以及敏感度获取满足差分隐私保护的样本协方差矩阵/>包括:
通过敏感度以及样本协方差矩阵Σ的差分隐私预算ϵΣ获取拉普拉斯噪声;
对样本协方差矩阵Σ的添加拉普拉斯噪声得到满足差分隐私保护的样本协方差矩阵/>。
本发明提供的基于差分隐私保护的政务数据发布系统,采用如上所述的基于差分隐私保护的政务数据发布方法进行政务数据发布,所述系统包括:
原始数据采集模块,用于获取包括多条待发布的政务数据的原始数据集D,并获取所述原始数据集D的特征集F和类别集C,其中,特征集F为原始数据集D中每条数据的特征的集合,类别集C为原始数据集D中每条数据的类别的集合;
候选数据集获取模块,用于基于最大信息系数计算特征集F中特征与类别集C之间的相关性,获取最大信息系数最大时对应的特征FK,并基于特征FK选取特征集F中其余特征中的多个的特征,获取由特征FK和基于特征FK选取的特征组成的候选数据集;
待发布数据获取模块,用于对所述候选数据集进行初始归一化处理得到数据集Dnor,获取数据集Dnor的样本均值,根据样本均值和相邻归一化数据集Dnor和/>进行候选数据集的数据中心化,得到待发布数据集/>,并对待发布数据集/>进行重新归一化处理得到数据集/>;
数据发布模块,用于获取正交投影矩阵W,通过正交投影矩阵W将数据集投影到低维空间,获得低维数据集/>,通过低维数据集/>获取满足差分隐私保护的样本协方差矩阵/>,并通过满足差分隐私保护的样本协方差矩阵/>发布满足差分隐私保护的合成数据集D*。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于差分隐私保护的政务数据发布方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于差分隐私保护的政务数据发布方法的步骤。
本发明实施例包括以下优点:
本发明实施例提供的基于差分隐私保护的政务数据发布方法及系统,基于最大信息系数和Dvoretzky定理,对原始政务数据进行预处理,在保留原始数据多种函数关系的基础上,使处理后数据分布近似高斯分布,减少利用高斯生成模型合成数据时引入的噪声量;并基于高斯生成模型进行差分隐私政务数据发布,将预处理后的数据进行随机正交投影,使预处理后的数据在低维空间上的投影接近高斯分布,基于高斯生成模型产生满足差分隐私保护的合成数据,提高发布结果的可用性。
附图说明
图1是本发明的一种基于差分隐私保护的政务数据发布方法的步骤图。
图2是本发明的形成候选数据集的步骤图。
图3是本发明的形成待发布数据集的步骤图。
图4是本发明的发布满足差分隐私保护的合成数据集的步骤图。
图5是本发明的一种基于差分隐私保护的政务数据发布系统的组成图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
如图1所示,本发明提供一种基于差分隐私保护的政务数据发布方法,包括:
步骤S1:获取包括多条待发布的政务数据的原始数据集D,并获取所述原始数据集D的特征集F和类别集C,其中,特征集F为原始数据集D中每条数据的特征的集合,类别集C为原始数据集D中每条数据的类别的集合。
步骤S2:基于最大信息系数计算特征集F中特征与类别集C之间的相关性,获取最大信息系数最大时对应的特征FK,并基于特征FK选取特征集F中其余特征中的多个的特征,获取由特征FK和基于特征FK选取的特征组成的候选数据集。
如图2所示,步骤S2包括:
步骤S21:基于最大信息系数计算特征集F中特征与类别集C之间的相关性,并根据计算结果对特征集F中所有特征进行降序排序,获取最大信息系数最大时对应的特征FK;
步骤S22:计算特征集F中其余特征与特征FK之间的最大信息系数,根据计算结果对特征集F中其余特征进行降序排序;
步骤S23:设定候选数据个数的阈值σMIC,根据阈值σMIC选取特征FK以及特征集F中其余特征中排序靠前的特征组成候选数据集。
具体地,步骤S21中,可在计算特征集F中特征与类别集C之间的相关性之前,滤除最大信息系数计算特征集F中无用或有缺失值的特征,从而可降低数据稀疏性。
具体地,通过以上步骤形成候选数据集,可降低引入额外扰动误差对隐私保护水平造成影响。
步骤S3:对所述候选数据集进行初始归一化处理得到数据集Dnor,获取数据集Dnor的样本均值,根据样本均值和相邻归一化数据集Dnor和/>进行候选数据集的数据中心化,得到待发布数据集/>,并对待发布数据集/>进行重新归一化处理得到数据集/>。
如图3所示,步骤S3包括:
步骤S31:对所述候选数据集进行初始归一化处理得到数据集Dnor,获取数据集Dnor的样本均值μ,其中,/>,数据集Dnor满足
Dvoretzky定理条件,样本均值/>,di为数据集Dnor中的第i个数据,样本均值μ为数据集Dnor中所有数据的平均值;
步骤S32:通过相邻归一化数据集Dnor和计算样本均值μ的敏感度/>;
步骤S33:通过样本均值μ的敏感度以及样本均值μ的差分隐私预算/>获取拉普拉斯噪声/>,对样本均值μ添加拉普拉斯噪声/>得到包含噪声的样本均值/>,其中,为保证发布数据满足/>差分隐私保护,为/>分配/>隐私预算,;
步骤S34:通过包含噪声的样本均值进行候选数据集的数据中心化,得到待发布数据集/>;
步骤S35:对待发布数据集进行重新归一化处理得到数据集/>,其中,由于通过包含噪声的样本均值/>进行候选数据集的数据中心化,得到待发布数据集/>无法满足Dvoretzky定理条件/>,需对待发布数据集/>重新归一化。
在本实施例中,经过以上步骤获取的数据集满足Dvoretzky定理中的正则化条件,其中,ξ为单位球面上的数据样本。
具体地,所述样本均值μ的敏感度通过以下计算公式获取:
;
其中,di为数据集Dnor中的第i个数据,为数据集/>中的第i个数据,/>表示取上限函数,/>表示1-范数,/>表示矩阵F-范数,p表示di和/>的数据维度,/>表示查询函数。
具体地,通过包含噪声的样本均值进行候选数据集的数据中心化采用的公式为:
,其中,1表示所有值为1的向量。
步骤S4:获取正交投影矩阵W,通过正交投影矩阵W将数据集投影到低维空间,获得低维数据集/>,通过低维数据集/>获取满足差分隐私保护的样本协方差矩阵/>,并通过满足差分隐私保护的样本协方差矩阵/>发布满足差分隐私保护的合成数据集D*。
如图4所示,步骤S4包括:
步骤S41:将待发布数据集的列向量进行施密特正交化,得到正交向量组构成正交投影矩阵W,通过正交投影矩阵W将数据集/>投影到低维空间,获得低维数据集/>,其中,正交投影矩阵W满足:WTW=I,I为单位矩阵。
步骤S42:计算低维数据集的样本协方差矩阵Σ以及低维数据集/>的敏感
度,其中,/>,/>为/>中的第i个数据,/>为/>中的第i个数据,/>,/>和/>为相邻低维数据集,/>为/>中的第i个数据,/>为中的第i个数据,/>表示取上限函数,/>表示1-范数,/>表示矩阵F-范数,/>表示查询函数;
步骤S43:根据样本协方差矩阵Σ以及敏感度获取满足差分隐私保护的样本协方差矩阵/>;
步骤S44:通过满足差分隐私保护的样本协方差矩阵获取满足差分隐私保护的高斯生成模型/>;
步骤S45:通过高斯生成模型发布满足差分隐私保护的合成数据集D*。
具体地,高斯分布的密度函数为:
;
将低维数据集的数据样本/>代入到高斯分布的密度函数中,得到:
其中,k表示数据样本的维度,det表示求协方差矩阵/>的行列式,exp表示以自然对数底数e为底数的指数运算;
通过以上计算结果组成数据集。
具体地,通过高斯生成模型发布满足差分隐私保护的合成数据集,可有效抵抗直接发布满足差分隐私保护的估计模型参数带来的推理攻击,提高满足差分隐私保护下发布数据的可用性。
具体地,步骤S43包括:
通过敏感度以及样本协方差矩阵Σ的差分隐私预算/>获取拉普拉斯噪声;
对样本协方差矩阵Σ的添加拉普拉斯噪声得到满足差分隐私保护的样本协方差矩阵/>,其中,/>。
具体地,根据差分隐私定义,证明合成数据集满足差分隐私,如下所示:
隐私预算ϵ消耗包括步骤S34中计算与步骤S44中通过满足差分隐私保护的样本协方差矩阵/>获取满足差分隐私保护的高斯生成模型/>两个阶段,要证明本发明提出的方法满足/>差分隐私,证得两阶段消耗的隐私预算/>、/>总和为/>即可;
在步骤S34中,对于任意相邻的归一化数据集Dnor、,均值的敏感度/>,其中/>表示取上限函数,/>表示矩阵F范数;差分隐私保护后的均值为/>,/>表示符合拉普拉斯分布的噪声;设/>,/>,/>,令/>,,则有/>,因此,加噪后的均值μ满足/>差分隐私。
同理,对于任意相邻的低维数据集、/>,协方差矩阵Σ的敏感度/>、为,加噪后的协方差矩阵/>满足/>差分隐私,根据顺序组合性质,即假设算法/>有n个算法/>组成,每个算法满足/>差分隐私,其中/>表示算法/>的输出,如果/>,则算法/>满足/>差分隐私。因此,由顺序组合性质可证使用本发明产生的数据集D*满足/>差分隐私。
如图5所示,本发明提供一种基于差分隐私保护的政务数据发布系统,采用如上所述的基于差分隐私保护的政务数据发布方法进行政务数据发布,包括:
原始数据采集模块,用于获取包括多条待发布的政务数据的原始数据集D,并获取所述原始数据集D的特征集F和类别集C,其中,特征集F为原始数据集D中每条数据的特征的集合,类别集C为原始数据集D中每条数据的类别的集合;
候选数据集获取模块,用于基于最大信息系数计算特征集F中特征与类别集C之间的相关性,获取最大信息系数最大时对应的特征FK,并基于特征FK选取特征集F中其余特征中的多个的特征,获取由特征FK和基于特征FK选取的特征组成的候选数据集;
待发布数据获取模块,用于对所述候选数据集进行初始归一化处理得到数据集Dnor,获取数据集Dnor的样本均值,根据样本均值和相邻归一化数据集Dnor和/>进行候选数据集的数据中心化,得到待发布数据集/>,并对待发布数据集/>进行重新归一化处理得到数据集/>;
数据发布模块,用于获取正交投影矩阵W,通过正交投影矩阵W将数据集投影到低维空间,获得低维数据集/>,通过低维数据集/>获取满足差分隐私保护的样本协方差矩阵/>,并通过满足差分隐私保护的样本协方差矩阵/>发布满足差分隐私保护的合成数据集D*。
进一步地,本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于差分隐私保护的政务数据发布方法的步骤。
进一步地,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于差分隐私保护的政务数据发布方法的步骤。
应该指出,上述详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位,如旋转90度或处于其他方位,并且对这里所使用的空间相对描述作出相应解释。
在上面详细的说明中,参考了附图,附图形成本文的一部分。在附图中,类似的符号典型地确定类似的部件,除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下,其他实施方案可以被使用,并且可以作其他改变。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于差分隐私保护的政务数据发布方法,其特征在于,所述方法包括:
步骤S1:获取包括多条待发布的政务数据的原始数据集 D,并获取所述原始数据集D的特征集F和类别集C,其中,特征集F为原始数据集D中每条数据的特征的集合,类别集C为原始数据集D中每条数据的类别的集合;
步骤S2:基于最大信息系数计算特征集F中特征与类别集C之间的相关性,获取最大信息系数最大时对应的特征FK,并基于特征FK选取特征集F中其余特征中的多个的特征,获取由特征FK和基于特征FK选取的特征组成的候选数据集 ;
步骤S3:对所述候选数据集进行初始归一化处理得到数据集Dnor,获取数据集Dnor的样本均值,根据样本均值和相邻归一化数据集Dnor和/>进行候选数据集的数据中心化,得到待发布数据集/>,并对待发布数据集/>进行重新归一化处理得到数据集/>;
步骤S4:获取正交投影矩阵W,通过正交投影矩阵W将数据集投影到低维空间,获得低维数据集/>,通过低维数据集/>获取满足差分隐私保护的样本协方差矩阵/>,并通过满足差分隐私保护的样本协方差矩阵/>发布满足差分隐私保护的合成数据集D*。
2.根据权利要求1所述的基于差分隐私保护的政务数据发布方法,其特征在于,步骤S2包括:
基于最大信息系数计算特征集F中特征与类别集C之间的相关性,并根据计算结果对特征集F中所有特征进行降序排序,获取最大信息系数最大时对应的特征FK;
计算特征集F中其余特征与特征FK之间的最大信息系数,根据计算结果对特征集F中其余特征进行降序排序;
设定候选数据个数的阈值σMIC,根据阈值σMIC选取特征FK以及特征集F中其余特征中排序靠前的特征组成候选数据集。
3.根据权利要求1所述的基于差分隐私保护的政务数据发布方法,其特征在于,所述步骤S3包括:
对所述候选数据集进行初始归一化处理得到数据集Dnor,获取数据集Dnor的样本均值/>,其中,样本均值/>为数据集Dnor中所有数据的平均值;
通过相邻归一化数据集Dnor和计算样本均值/>的敏感度/>;
通过样本均值的敏感度/>以及样本均值/>的差分隐私预算/>,获取拉普拉斯噪声,对样本均值/>添加拉普拉斯噪声/>得到包含噪声的样本均值μDP;
通过包含噪声的样本均值μDP进行候选数据集的数据中心化,得到待发布数据集;
对待发布数据集进行重新归一化处理得到数据集/>。
4.根据权利要求3所述的基于差分隐私保护的政务数据发布方法,其特征在于,所述样本均值的敏感度∆fμ通过以下计算公式获取:
;
其中,di为数据集Dnor中的第i个数据,为数据集/>中的第i个数据,/>表示取上限函数,/>表示1-范数,/>表示矩阵F-范数,p表示di和/>的数据维度,/>表示查询函数。
5.根据权利要求3所述的基于差分隐私保护的政务数据发布方法,其特征在于,通过包含噪声的样本均值 DP进行候选数据集的数据中心化采用的公式为:
,其中,1表示所有值为1的向量。
6.根据权利要求1所述的基于差分隐私保护的政务数据发布方法,其特征在于,步骤S4包括:
将待发布数据集的列向量进行施密特正交化,得到正交向量组构成正交投影矩阵W,通过正交投影矩阵W将数据集/>投影到低维空间,获得低维数据集/>;
计算低维数据集的样本协方差矩阵Σ以及低维数据集/>的敏感度/>;
根据样本协方差矩阵Σ以及敏感度获取满足差分隐私保护的样本协方差矩阵ΣDP;
通过满足差分隐私保护的样本协方差矩阵ΣDP获取满足差分隐私保护的高斯生成模型N(μDP ,ΣDP);
通过高斯生成模型发布满足差分隐私保护的合成数据集D*。
7.根据权利要求6所述的基于差分隐私保护的政务数据发布方法,其特征在于,所述根据样本协方差矩阵Σ以及敏感度获取满足差分隐私保护的样本协方差矩阵ΣDP包括:
通过敏感度以及样本协方差矩阵Σ的差分隐私预算/>获取拉普拉斯噪声/>;
对样本协方差矩阵Σ的添加拉普拉斯噪声得到满足差分隐私保护的样本协方差矩阵ΣDP。
8.一种基于差分隐私保护的政务数据发布系统,采用如权利要求1-7任一项所述的基于差分隐私保护的政务数据发布方法进行政务数据发布,其特征在于,所述系统包括:
原始数据采集模块,用于获取包括多条待发布的政务数据的原始数据集D,并获取所述原始数据集D的特征集F和类别集C,其中,特征集F为原始数据集D中每条数据的特征的集合,类别集C为原始数据集D中每条数据的类别的集合;
候选数据集获取模块,用于基于最大信息系数计算特征集F中特征与类别集C之间的相关性,获取最大信息系数最大时对应的特征FK,并基于特征FK选取特征集F中其余特征中的多个的特征,获取由特征FK和基于特征FK选取的特征组成的候选数据集;
待发布数据获取模块,用于对所述候选数据集进行初始归一化处理得到数据集Dnor,获取数据集Dnor的样本均值,根据样本均值和相邻归一化数据集Dnor和/>进行候选数据集的数据中心化,得到待发布数据集/>,并对待发布数据集/>进行重新归一化处理得到数据集/>;
数据发布模块,用于获取正交投影矩阵W,通过正交投影矩阵W将数据集投影到低维空间,获得低维数据集/>,通过低维数据集/>获取满足差分隐私保护的样本协方差矩阵ΣDP,并通过满足差分隐私保护的样本协方差矩阵ΣDP发布满足差分隐私保护的合成数据集D*。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的基于差分隐私保护的政务数据发布方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于差分隐私保护的政务数据发布方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310552582.3A CN116305292B (zh) | 2023-05-17 | 2023-05-17 | 基于差分隐私保护的政务数据发布方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310552582.3A CN116305292B (zh) | 2023-05-17 | 2023-05-17 | 基于差分隐私保护的政务数据发布方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116305292A CN116305292A (zh) | 2023-06-23 |
CN116305292B true CN116305292B (zh) | 2023-08-08 |
Family
ID=86826155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310552582.3A Active CN116305292B (zh) | 2023-05-17 | 2023-05-17 | 基于差分隐私保护的政务数据发布方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116305292B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015026386A1 (en) * | 2013-08-19 | 2015-02-26 | Thomson Licensing | Method and apparatus for utility-aware privacy preserving mapping through additive noise |
CN105975589A (zh) * | 2016-05-06 | 2016-09-28 | 哈尔滨理工大学 | 一种高维数据的特征选择方法及装置 |
CN108776763A (zh) * | 2018-06-08 | 2018-11-09 | 哈尔滨工程大学 | 一种基于属性相关的差分隐私保护方法 |
CN109376549A (zh) * | 2018-10-25 | 2019-02-22 | 广州电力交易中心有限责任公司 | 一种基于差分隐私保护的电力交易大数据发布方法 |
CN114969829A (zh) * | 2022-06-30 | 2022-08-30 | 中国人民解放军战略支援部队信息工程大学 | 基于主成分分析和函数机制的差分隐私线性回归方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140196151A1 (en) * | 2013-01-10 | 2014-07-10 | Microsoft Corporation | Preserving geometric properties of datasets while protecting privacy |
-
2023
- 2023-05-17 CN CN202310552582.3A patent/CN116305292B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015026386A1 (en) * | 2013-08-19 | 2015-02-26 | Thomson Licensing | Method and apparatus for utility-aware privacy preserving mapping through additive noise |
CN105975589A (zh) * | 2016-05-06 | 2016-09-28 | 哈尔滨理工大学 | 一种高维数据的特征选择方法及装置 |
CN108776763A (zh) * | 2018-06-08 | 2018-11-09 | 哈尔滨工程大学 | 一种基于属性相关的差分隐私保护方法 |
CN109376549A (zh) * | 2018-10-25 | 2019-02-22 | 广州电力交易中心有限责任公司 | 一种基于差分隐私保护的电力交易大数据发布方法 |
CN114969829A (zh) * | 2022-06-30 | 2022-08-30 | 中国人民解放军战略支援部队信息工程大学 | 基于主成分分析和函数机制的差分隐私线性回归方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116305292A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111373403B (zh) | 一种用于隐藏原始数据以保护个人信息的混淆网络的学习方法和测试方法,以及其学习装置和测试装置 | |
CN107704877B (zh) | 一种基于深度学习的图像隐私感知方法 | |
Zhao et al. | Bayesian group factor analysis with structured sparsity | |
Zhang et al. | Robust non-negative matrix factorization | |
Andrews et al. | Model-based clustering, classification, and discriminant analysis via mixtures of multivariate t-distributions: the t EIGEN family | |
Mackey | Deflation methods for sparse PCA | |
CN112116017B (zh) | 基于核保持的图像数据降维方法 | |
Nguyen et al. | Practical and theoretical aspects of mixture‐of‐experts modeling: An overview | |
Papastergiou et al. | Tensor Decomposition for Multiple‐Instance Classification of High‐Order Medical Data | |
Yang et al. | Structural graphical lasso for learning mouse brain connectivity | |
Dong et al. | Feature extraction through contourlet subband clustering for texture classification | |
Luo et al. | Feature inference attack on shapley values | |
Franco-Pedroso et al. | Gaussian mixture models of between-source variation for likelihood ratio computation from multivariate data | |
CN113642409A (zh) | 一种人脸匿名化系统及方法、终端 | |
CN113569910A (zh) | 账户类型识别方法、装置、计算机设备及存储介质 | |
Jiang et al. | Unlearnable examples give a false sense of security: Piercing through unexploitable data with learnable examples | |
Rezaei et al. | Protecting sensitive attributes via generative adversarial networks | |
CN116305292B (zh) | 基于差分隐私保护的政务数据发布方法及系统 | |
Tjoa et al. | Enhancing the confidence of deep learning classifiers via interpretable saliency maps | |
Gyamfi et al. | Malware detection using convolutional neural network, a deep learning framework: comparative analysis | |
CN108009586B (zh) | 封顶概念分解方法及图像聚类方法 | |
Scrucca et al. | Projection pursuit based on Gaussian mixtures and evolutionary algorithms | |
Rezgui et al. | Enhancing soft biometric face template privacy with mutual information-based image attacks | |
Remes et al. | A mutually-dependent Hadamard kernel for modelling latent variable couplings | |
Cheng et al. | Bayesian nonparametrics for non-exhaustive learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |