CN114547686A - 一种高维度海量数据发布隐私保护方法 - Google Patents

一种高维度海量数据发布隐私保护方法 Download PDF

Info

Publication number
CN114547686A
CN114547686A CN202210156949.5A CN202210156949A CN114547686A CN 114547686 A CN114547686 A CN 114547686A CN 202210156949 A CN202210156949 A CN 202210156949A CN 114547686 A CN114547686 A CN 114547686A
Authority
CN
China
Prior art keywords
data
matrix
attribute
privacy
privacy protection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210156949.5A
Other languages
English (en)
Inventor
褚治广
彭栋栋
徐忠全
张兴
张巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University of Technology
Original Assignee
Liaoning University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University of Technology filed Critical Liaoning University of Technology
Priority to CN202210156949.5A priority Critical patent/CN114547686A/zh
Publication of CN114547686A publication Critical patent/CN114547686A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种高维度海量数据发布隐私保护方法,通过引入属性重要度优化PCA算法对数据进行降维,减少花费时间和空间;在降维过程中设计了满足个性化的差分隐私保护策略,针对不同敏感属性设计不同保护程度;首次将互信息评价机制引入PCA算法,评价降维过程中选择不同的主成分个数所生成的数据,确定最优的主成分个数。

Description

一种高维度海量数据发布隐私保护方法
技术领域
本发明涉及信息技术安全技术领域,更具体的是,本发明涉及一种高维 度海量数据发布隐私保护方法。
背景技术
目前,许多数据收集机构需要将所收集原始数据(例如医疗数据、金融 数据等)发布出去,以便于数据分析、挖掘,能够从发布的数据中产生更为 有效地决策支持。然而,发布的原始数据中涉及了大量的个人敏感信息,直 接发布数据会致使个人隐私的严重泄露。因此,数据发布者需要通过特殊的 保护技术处理隐私数据后将数据发布出去。
在现有技术中,对于高维数据发布方法的研究,已有少量研究成果,然 而这些方法都存在着一些问题:
PriView算法构建k个属性对的边缘分布,然后估计出高维数据的联合分 布。该方法假设数据中的所有属性对相互独立,均等地处理属性对,然而在 实际的高维数据集中,属性之间大都存在相关性。
PrivBayes算法使用指数机制满足差分隐私条件下,结合贝叶斯网络近似 属性之间的联合分布,生成高维数据集。然而利用指数机制挑选属性对时, 受到候选空间的大小的制约,候选空间越大,指数机制挑选属性对的精度越 低。
JTree算法采用稀疏向量技术寻找属性对的关联性,通过联合树构造属性 关系图所确定的边缘分布估计相应的联合分布。然而稀疏向量技术不满足差 分隐私,致使JTree算法不能满足差分隐私的要求。
PrivPfC算法结合投影直方图和卡方关联测试达到高维数据发布的目的, 然而,投影直方图并没有考虑到属性之间的相关性,导致发布精度较低。
Hb算法结合直方图技术和层次树发布高维数据,但是当数据维度较高时, 该方法发布的数据实用性越来越低。
2013年,Xiao等人提出一种基于主成分分析的差分隐私数据发布方法, 该方法首先构建噪声协方差矩阵,然后通过还原加噪后的投影矩阵来发布数 据。然而在构建噪声协方差矩阵时浪费了一部分隐私预算,而且该方法在处 理属性维度较大的数据时,处理时间无法满足实际要求。
现阶段,对于数据发布的研究主要聚焦于一维或低维数据,然而,这些 数据发布方法均不适用于高维数据的发布,无法解决在处理高维数据发布时, 随着维度和维度值域的增加,形成的发布空间以指数型增长,遭遇“维度灾 难”的问题,引入较大的噪声,导致发布的数据的可用性很低。因此,在高 维数据发布中,如何为数据研究者提供大量有效信息的同时,设计出既能解 决维度灾难带来数据可用性较低的问题又能满足数据隐私安全的发布方法是 亟需迫切的。
发明内容
本发明的目的是设计开发了一种高维度海量数据发布隐私保护方法,通 过属性筛选优化了数据降维,并在数据降维中对不同敏感属性设计不同保护 程度,结合互信息确定最优的主成分个数,在数据隐私信息不被泄露的同时, 使得发布的数据更好地接近与原始数据。
本发明提供的技术方案为:
一种高维度海量数据发布隐私保护方法,包括如下步骤:
步骤一、对原始数据进行属性筛选;
步骤二、对属性筛选后的数据以主成分分析法进行降维并加入噪声获得 原始数据矩阵的低阶近似矩阵;
步骤三、对所述原始数据矩阵的低阶近似矩阵的敏感偏好进行分级,将 不同大小的噪声添加到低阶近似矩阵中不同敏感偏好的属性中获得加噪数据;
步骤四、根据所述加噪数据和原始数据的互信息确定最优的主成分个数 K,确定最佳发布数据。
优选的是,所述步骤一具体包括如下步骤:
步骤1、计算每个属性的重要度:
Figure BDA0003512556810000031
式中,f(ci)为属性ci的重要度,H(ci)为属性ci的信息熵,H(Sm×n)为原始 数据的信息熵;
步骤2、若f(ci)≥Th,则在数据降维时保留属性ci
若f(ci)<Th,则在数据降维时剔除属性ci
式中,Th为属性重要度阈值。
优选的是,所述属性的信息熵满足:
Figure BDA0003512556810000032
式中,H(X)为X的信息熵,X为离散型随机变量,p(x)为x发生的概率。
优选的是,所述步骤二具体包括如下步骤:
步骤1、对属性筛选后的数据矩阵进行归一化处理:
Figure BDA0003512556810000033
步骤2、计算样本的协方差矩阵:
Figure BDA0003512556810000034
式中,w为样本数量;
步骤3、对协方差矩阵进行特征分解:
Cov=UTCU;
式中,C为Cov特征分解后的对角矩阵,U为特征值所对应的特征向量构 成的特征矩阵;
步骤4、选取k个特征值所对应的k个特征向量组成矩阵Uk,将原始数据 投影到矩阵Uk上,得到投影矩阵:
Figure BDA0003512556810000035
步骤5、在所示投影矩阵中添加Laplace噪声,得到噪声矩阵Z0,还原得 到原始数据矩阵的低阶近似矩阵:
Figure BDA0003512556810000036
优选的是,所述步骤三具体包括:
步骤1、确定原始数据矩阵的低阶近似矩阵Q的敏感偏好度集合 DSP={sp1,sp2,…,spn};
其中,spi为敏感属性Pi(i=1,2,…,n)的敏感偏好度;
步骤2、根据所述敏感偏好度将敏感属性划分为m个等级,对应m个隐 私保护强度;
步骤3、计算隐私造价:
Tij=Gi×εj
式中,εj为隐私预算,Gi为隐私保护强度,Tij为隐私预算为εj对于隐私保 护强度Gi对应的敏感偏好等级的隐私造价;
步骤4、每个初始敏感属性的隐私损失Pli=0,
步骤5、计算Tij,用Tij-Pli表示敏感属性在Gi下的信息量损失;
步骤6、根据损失函数构造偏好隐私预算分配图PA;
步骤7、检查图中是否存在完美匹配:
如果存在,匹配过程结束,得到一个最优匹配;
否则存在受限隐私预算,把与受限隐私预算关联的敏感属性的Plj加一个 单位Plj+1,重复上述过程,直到存在完美匹配结束。
优选的是,所述spi的取值范围为[0,1]。
优选的是,所述互信息满足:
I(X,Y)=H(X)+H(Y)-H(X,Y);
式中,I(X,Y)为离散型随机变量X和离散型随机变量Y的互信息,H(Y)为 离散型随机变量Y信息熵,H(X,Y)为离散型随机变量X和离散型随机变量Y的 联合信息熵。
本发明所述的有益效果:
本发明设计开发的一种高维度海量数据发布隐私保护方法,优于 PrivBayes算法和JTree算法,对高维数据进行降维优化及隐私保护,经该方 法产生的发布数据满足:1)具有较好的数据效用,利于数据挖掘、分析操作 等;2)满足差分隐私保护,为数据提供最优的隐私保护效果。
附图说明
图1为本发明所述高维度海量数据发布隐私保护方法的框架示意图。
具体实施方式
下面结合对本发明做进一步的详细说明,以令本领域技术人员参照说明 书文字能够据以实施。
本发明提供的一种高维度海量数据发布隐私保护方法,先通过属性重要 度阈值,对原始数据中的属性进行筛选,将原始数据中的无用属性和缺失值 较多的属性剔除,再利用主成分分析法对数据进行降维,降维期间,对产生 的投影矩阵加入Laplace噪声,使得数据满足差分隐私,再在满足差分隐私的 前提下,对数据属性的敏感偏好进行分级,并结合最优匹配理论来分配隐私 预算,将不同大小的噪声添加到数据集中不同敏感偏好的属性中,实现个性 化的噪声添加方法,使发布的数据具有更好的可用性,在数据的降维过程中,进行多次的主成分个数K值的选取,通过互信息评价机制,计算原始数据与 加噪数据的互信息,确定最优的K值,从而确定最佳的发布数据,使得在数 据隐私信息不被泄露的同时,使得发布的数据更好地接近与原始数据。
如图1所示,本发明提供的一种高维度海量数据发布隐私保护方法,具 体包括如下步骤:
一、筛选数据
步骤1、确定原始数据的属性重要度阈值,从而对原始数据中的属性进 行筛选,将原始数据中的无用属性和缺失值较多的属性剔除;
在本实施例中,通过属性的信息熵作为属性重要度衡量指标,再以属性 的信息熵和属性重要度阈值,对属性进行筛选;
设X是一个离散型随机变量(属性筛选后的数据D0的数据矩阵),则X的 信息熵为:
Figure BDA0003512556810000051
式中,p(x)为x发生的概率;
计算选择的属性在数据中的所占的比重即为属性重要度,计算式为:
Figure BDA0003512556810000061
式中,f(ci)为属性ci的重要度,H(ci)为属性ci的信息熵,H(Sm×n)为原始 数据的信息熵;
步骤2、若f(ci)≥Th,则说明该属性包含的信息量多于阈值下的信息量, 在数据降维时保留该属性ci
若f(ci)<Th,则说明该属性包含的信息量少于阈值下的信息量,在数据 降维时剔除该属性ci
式中,Th为属性重要度阈值。
二、降维添噪:对经过属性筛选后的数据,利用主成分分析法对数据进 行降维,对降维过程中,对产生的投影矩阵加入Laplace噪声,使得数据满足 差分隐私。
具体包括:
若原始数据集D经筛选属性后产生的数据集为D0,利用主成分分析法对 其进行降维,降维过程如下:
设D0的数据矩阵为X,对数据进行归一化处理:
Figure BDA0003512556810000062
式中,
Figure BDA0003512556810000063
为X的样本均值;
计算样本的协方差矩阵:
Figure BDA0003512556810000064
式中,w为样本数量;
对协方差矩阵进行特征分解:
Cov=UTCU;
式中,C为Cov特征分解后的对角矩阵,U为特征值所对应的特征向量构 成的特征矩阵。
选取k个特征值所对应的k个特征向量组成矩阵Uk,将原始数据投影到矩 阵Uk上,得到投影矩阵:
Figure BDA0003512556810000065
在投影矩阵Z中添加Laplace噪声,得到噪声矩阵Z0,还原得到原始数据 矩阵的低阶近似矩阵:
Figure BDA0003512556810000071
三、个性化添噪:在投影矩阵上添加Laplace噪声,由于用户对自身数据 的隐私需求不同,不同的属性的敏感程度不同,因此需要为不同的敏感属性 添加不同的噪声量,提供不同的隐私保护程度,因此本发明设计了个性化的 添加噪声的策略。
在满足差分隐私的前提下,对数据属性的敏感偏好进行分级,并结合最 优匹配理论来分配隐私预算,将不同大小的噪声添加到数据集中不同敏感偏 好的属性中,实现个性化的噪声添加方法,使发布的数据具有更好的可用性;
对敏感属性偏好进行量化,表示敏感属性的重要程度,称为敏感偏好度 spi,敏感偏好度反映了数据拥有者要求对敏感属性数据进行保护的倾向程度, 可以由数据拥有者的主观评价或敏感程度而确定,在本实施例中具体包括如 下步骤:
步骤1、设原始数据矩阵的低阶近似矩阵Q中存在n个敏感属性 {P1,P2,...,Pn},敏感属性Pi(i=1,2,…,n)的数据不愿被披露程度权重作为Pi的 敏感偏好度spi,由每一个敏感属性的敏感偏好度spi组成DSP={sp1,sp2,…,spn} 为D的敏感偏好度集合,其中spi为[0,1]区间中的一个数值;
步骤2、据敏感属性敏感偏好度值spi,将敏感属性划分为m个等级,对 应m个隐私保护强度,具体如表1所示:
表1敏感属性等级与隐私预算对应表
Figure BDA0003512556810000072
步骤3、计算隐私造价:
Tij=Gi×εj
式中,εj为隐私预算,Gi为隐私保护强度,Tij为隐私预算为εj对于隐私保 护强度Gi对应的敏感偏好等级的隐私造价;
步骤4、设置每个初始敏感属性的隐私损失Pli=0;
步骤5、计算Tij,用Tij-Pli表示敏感属性在Gi下的信息量损失;
步骤6、根据损失函数构造偏好隐私预算分配图,能为发布数据提供最 大数据效用的隐私预算与每个敏感属性等级之间的连线形成的图为一个偏好 隐私预算分配图PA;
步骤7、检查图中是否存在完美匹配:
如果存在,匹配过程结束,得到一个最优匹配;
否则存在受限隐私预算,把与受限隐私预算关联的敏感属性的Plj加一个 单位Plj+1,重复上述过程,直到存在完美匹配结束;
其中,设有二部图(x,y),如果找到一组匹配数最大的方案,记为最大匹 配,若|x|=|y|=匹配数时,该匹配方案为最优匹配(PM)。
四、确定主成分个数:在数据的降维过程中,进行多次的主成分个数K 值的选取,通过互信息评价机制,计算原始数据与加噪数据的互信息,确定 最优的K值,从而确定最佳的发布数据。
步骤1、计算互信息:
互信息(Mutual Information)是2个或2个以上随机变量间相互依赖性的量 度,它度量两个事件之间信息量的相关性。
互信息的定义为:
Figure BDA0003512556810000081
式中,X和Y为两个离散随机变量,p(x,y)为X和Y的联合概率分布函数, p(x)和p(y)分别为X和Y的边缘概率分布函数;
由此可得互信息与信息熵之间的关系:
I(X,Y)=H(X)+H(Y)-H(X,Y);
步骤2、通过引进互信息的概念,计算不同主成分个数K值下的噪声数 据与原始数据的互信息大小,利用均值法,将最接近均值的K值,作为发布 数据安全性和实用性达到最优的主成分个数。
本发明的具体计算过程为:
Input:原始数据集D=Sm×n,属性重要度阈值Th,差分隐私预算ε
Output:发布数据集S″
1.对每一个属性做以下操作:
2.计算属性ci的信息熵H(ci)
3.IF
Figure BDA0003512556810000091
4.移动ci至数据集Sp×n
5.END IF
6.END
7.计算b11,b21,...,bk1
8.
Figure BDA0003512556810000092
9.设bi1为数据集D的Laplace噪声位置参数,得到向量B=[b11,b21,...,bk1]T 10.计算S′p×n的协方差矩阵Cov
11.
Figure BDA0003512556810000093
12.计算Cov=UTCU,
其中C=Λ=diag[λ12,...,λp]
13.选择U中最大的k个特征向量组成特征向量矩阵Up×k
14.k值的选取,根据互信息值确定
15.计算得到投影矩阵Zk×n
Figure BDA0003512556810000094
16.对投影矩阵Zk×n添加噪声
17.
Figure BDA0003512556810000095
18.得到带有噪声的矩阵Z(noise)
19.计算e11,e21,...,en1
20.设ei1为投影矩阵Zk×n的Laplace噪声位置参数,得到向量 E(noise)=[e11,e21,...,ek1]T
21.还原数据集S″
22.S″=Up×k×Z(noise)+repmat(E(noise),1,n)
23.求出互信息I(Sm×n,S″),确定最优K值。
本发明设计开发的一种高维度海量数据发布隐私保护方法(PCAO_PPDP),与JTree算法、PrivBayes算法相比,生成的数据集在SVM 分类时,尽管随着数据集数据维度的增加,产生的结果的误分类率之间的差 距在逐渐缩小。但经PCAO_PPDP算法生成的数据集的分类结果仅此于没有 添加噪声是的分类结果,仍然在很大程度上优于PrivBayes算法和JTree算法。 这也说明,PCAO_PPDP算法产生的数据集较PrivBayes和JTree算法获得更 好的数据效用。
本发明设计开发的一种高维度海量数据发布隐私保护方法,在很大程度 上优于PrivBayes算法和JTree算法,对高维数据进行降维优化及隐私保护, 经该方法产生的发布数据满足:1)具有较好的数据效用,利于数据挖掘、分 析操作等;2)满足差分隐私保护,为数据提供最优的隐私保护效果。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方 式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领 域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范 围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的实 施例。

Claims (7)

1.一种高维度海量数据发布隐私保护方法,其特征在于,包括如下步骤:
步骤一、对原始数据进行属性筛选;
步骤二、对属性筛选后的数据以主成分分析法进行降维并加入噪声获得原始数据矩阵的低阶近似矩阵;
步骤三、对所述原始数据矩阵的低阶近似矩阵的敏感偏好进行分级,将不同大小的噪声添加到低阶近似矩阵中不同敏感偏好的属性中获得加噪数据;
步骤四、根据所述加噪数据和原始数据的互信息确定最优的主成分个数K,确定最佳发布数据。
2.如权利要求1所述的高维度海量数据发布隐私保护方法,其特征在于,所述步骤一具体包括如下步骤:
步骤1、计算每个属性的重要度:
Figure FDA0003512556800000011
式中,f(ci)为属性ci的重要度,H(ci)为属性ci的信息熵,H(Sm×n)为原始数据的信息熵;
步骤2、若f(ci)≥Th,则在数据降维时保留属性ci
若f(ci)<Th,则在数据降维时剔除属性ci
式中,Th为属性重要度阈值。
3.如权利要求2所述的高维度海量数据发布隐私保护方法,其特征在于,所述属性的信息熵满足:
Figure FDA0003512556800000012
式中,H(X)为X的信息熵,X为属性筛选后的数据D0的数据矩阵,p(x)为x发生的概率。
4.如权利要求3所述的高维度海量数据发布隐私保护方法,其特征在于,所述步骤二具体包括如下步骤:
步骤1、对属性筛选后的数据矩阵进行归一化处理:
Figure FDA0003512556800000021
步骤2、计算样本的协方差矩阵:
Figure FDA0003512556800000022
式中,w为样本数量;
步骤3、对协方差矩阵进行特征分解:
Cov=UTCU;
式中,C为Cov特征分解后的对角矩阵,U为特征值所对应的特征向量构成的特征矩阵;
步骤4、选取k个特征值所对应的k个特征向量组成矩阵Uk,将原始数据投影到矩阵Uk上,得到投影矩阵:
Figure FDA0003512556800000023
步骤5、在所示投影矩阵中添加Laplace噪声,得到噪声矩阵Z0,还原得到原始数据矩阵的低阶近似矩阵:
Figure FDA0003512556800000024
5.如权利要求4所述的高维度海量数据发布隐私保护方法,其特征在于,所述步骤三具体包括:
步骤1、确定原始数据矩阵的低阶近似矩阵Q的敏感偏好度集合DSP={sp1,sp2,…,spn};
其中,spi为敏感属性Pi(i=1,2,…,n)的敏感偏好度;
步骤2、根据所述敏感偏好度将敏感属性划分为m个等级,对应m个隐私保护强度;
步骤3、计算隐私造价:
Tij=Gi×εj
式中,εj为隐私预算,Gi为隐私保护强度,Tij为隐私预算为εj对于隐私保护强度Gi对应的敏感偏好等级的隐私造价;
步骤4、每个初始敏感属性的隐私损失Pli=0,
步骤5、计算Tij,用Tij-Pli表示敏感属性在Gi下的信息量损失;
步骤6、根据损失函数构造偏好隐私预算分配图PA;
步骤7、检查图中是否存在完美匹配:
如果存在,匹配过程结束,得到一个最优匹配;
否则存在受限隐私预算,把与受限隐私预算关联的敏感属性的Plj加一个单位Plj+1,重复上述过程,直到存在完美匹配结束。
6.如权利要求5所述的高维度海量数据发布隐私保护方法,其特征在于,所述spi的取值范围为[0,1]。
7.如权利要求6所述的高维度海量数据发布隐私保护方法,其特征在于,所述互信息满足:
I(X,Y)=H(X)+H(Y)-H(X,Y);
式中,I(X,Y)为离散型随机变量X和离散型随机变量Y的互信息,H(Y)为离散型随机变量Y信息熵,H(X,Y)为离散型随机变量X和离散型随机变量Y的联合信息熵。
CN202210156949.5A 2022-02-21 2022-02-21 一种高维度海量数据发布隐私保护方法 Pending CN114547686A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210156949.5A CN114547686A (zh) 2022-02-21 2022-02-21 一种高维度海量数据发布隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210156949.5A CN114547686A (zh) 2022-02-21 2022-02-21 一种高维度海量数据发布隐私保护方法

Publications (1)

Publication Number Publication Date
CN114547686A true CN114547686A (zh) 2022-05-27

Family

ID=81676103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210156949.5A Pending CN114547686A (zh) 2022-02-21 2022-02-21 一种高维度海量数据发布隐私保护方法

Country Status (1)

Country Link
CN (1) CN114547686A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702214A (zh) * 2023-08-02 2023-09-05 山东省计算中心(国家超级计算济南中心) 基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702214A (zh) * 2023-08-02 2023-09-05 山东省计算中心(国家超级计算济南中心) 基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统
CN116702214B (zh) * 2023-08-02 2023-11-07 山东省计算中心(国家超级计算济南中心) 基于相干邻近度与贝叶斯网络的隐私数据发布方法及系统

Similar Documents

Publication Publication Date Title
Wan et al. A hybrid text classification approach with low dependency on parameter by integrating K-nearest neighbor and support vector machine
Jorgensen et al. Publishing attributed social graphs with formal privacy guarantees
US6735589B2 (en) Method of reducing dimensionality of a set of attributes used to characterize a sparse data set
CN110334546B (zh) 基于主成分分析优化的差分隐私高维数据发布保护方法
Milani et al. Using different ELECTRE methods in strategic planning in the presence of human behavioral resistance
Chu et al. A review of goodness of fit tests for Pareto distributions
Gálvez et al. Enforcing fairness in private federated learning via the modified method of differential multipliers
CN113254988A (zh) 高维敏感数据隐私分级保护发布方法、系统、介质及设备
Modi et al. A comparative analysis of feature selection methods and associated machine learning algorithms on Wisconsin breast cancer dataset (WBCD)
CN114547686A (zh) 一种高维度海量数据发布隐私保护方法
Aggarwal Bridging the gap between probabilistic and fuzzy entropy
Wong et al. Feature selection and feature extraction: highlights
Yunos et al. Predictive modelling for motor insurance claims using artificial neural networks
CN114117141A (zh) 一种自适应密度聚类方法、存储介质及系统
CN115630964B (zh) 面向高维隐私数据的相关性数据交易框架的构造方法
JP7143599B2 (ja) メタデータ評価装置、メタデータ評価方法、およびメタデータ評価プログラム
Lapko et al. Estimating the integral of the square of derivatives of symmetric probability densities of one-dimensional random variables
CN116167078A (zh) 基于最大权重匹配的差分隐私合成数据发布方法
WO2022257457A1 (zh) 产品数据的融合方法、装置、设备及存储介质
Mishra et al. Improving the efficacy of clustering by using far enhanced clustering algorithm
Song et al. Conditional distance correlation screening for sparse ultrahigh-dimensional models
Lapko et al. Selection of the blur coefficient for probability density kernel estimates under conditions of large samples
Zuanetti et al. A lognormal model for insurance claims data
CN113962327A (zh) 数据分类方法、装置及电子设备
Ding et al. Optimal setting for Hurst index estimation and its application in Chinese stock market

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination