CN107766740A - 一种Spark 框架下的基于差分隐私保护的数据发布方法 - Google Patents

一种Spark 框架下的基于差分隐私保护的数据发布方法 Download PDF

Info

Publication number
CN107766740A
CN107766740A CN201710984658.4A CN201710984658A CN107766740A CN 107766740 A CN107766740 A CN 107766740A CN 201710984658 A CN201710984658 A CN 201710984658A CN 107766740 A CN107766740 A CN 107766740A
Authority
CN
China
Prior art keywords
data
secret protection
msub
method based
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710984658.4A
Other languages
English (en)
Inventor
颜飞
张兴
李畅
史伟
李万杰
李帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University of Technology
Original Assignee
Liaoning University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University of Technology filed Critical Liaoning University of Technology
Priority to CN201710984658.4A priority Critical patent/CN107766740A/zh
Publication of CN107766740A publication Critical patent/CN107766740A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • G06F16/152File search processing using file content signatures, e.g. hash values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种Spark框架下的基于差分隐私保护的数据发布方法,包括:步骤1:将原始数据集导入Hadoop分布式文件系统,从Hadoop分布式文件系统读取到Spark框架形成弹性分布式数据集并分类统计;步骤2:对k‑means聚类算法进行二范数关联优化,然后利用优化后的k‑means聚类算法对分类统计形成的待发布数据集进行聚类分组;步骤3:对每个分组求均值:步骤4:在各分组的均值上添加Laplace噪声得到数据集;步骤5:对差分隐私保护后的发布数据进行直方图发布。本发明所述的一种Spark框架下的基于差分隐私保护的数据发布方法,能够提高判断离群点和差值集的计算效率,并有效控制直方图数据发布方法中离群点对发布数据的敏感度的影响。

Description

一种Spark框架下的基于差分隐私保护的数据发布方法
技术领域
本发明涉及大数据安全领域,更具体的是,本发明涉及一种Spark框架下的基于差分隐私保护的数据发布方法。
背景技术
随着信息网络和基于信息网络的各种应用的不断发展和普及,大量的个人隐私数据被收集存储,例如医疗健康数据、在线交易数据、网络存储数据等。对这些数据集进行分析可使人们获得更深层次的数据价值,但使用不当则会导致数据的隐私泄露事件不断发生,所泄露的内容类型很多,包括个人身份信息、网络访问习惯、兴趣爱好乃至邮件内容。隐私泄露问题已成为人们广泛关注的焦点。隐私数据泄露不仅会影响到个人利益,甚至威胁到国家的网络空间安全。尤其是面对如此复杂的大数据背景,如何保护数据的隐私安全尤为重要。
差分隐私(Differential Privacy,DP)作为一种新型、轻量级的隐私保护算法,通过对发布数据进行随意扰动,为数据的隐私保护提供了一种崭新的方法。而如何在满足差分隐私的前提下提高发布统计数据的可用性及算法的计算效率是当前差分隐私数据发布研究的核心问题。
发明内容
本发明的目的是设计开发了一种Spark框架下的基于差分隐私保护的数据发布方法,能够提高判断离群点和差值集的计算效率,并有效控制直方图数据发布方法中离群点对发布数据的敏感度的影响。
本发明提供的技术方案为:
一种Spark框架下的基于差分隐私保护的数据发布方法,包括如下步骤:
步骤1:将原始数据集导入Hadoop分布式文件系统,从Hadoop分布式文件系统读取到Spark框架形成弹性分布式数据集并分类统计;
步骤2:对k-means聚类算法进行二范数关联优化,然后利用优化后的k-means聚类算法对分类统计形成的待发布数据集进行聚类分组C={C1,C2,…,Ck};
步骤3:对每个分组求均值:
其中,Ck_avg为每个分组均值,xi为每个分组中的样本,n为每个分组的样本量;
步骤4:在各分组的均值Ck_avg上添加Laplace噪声得到数据集Ds={C1',C2',…,Ck'},所述各组分均值添加Laplace噪声为Ck'_avg:
Ck'_avg=Ck_avg+Lapdk(1/ε)
其中,ε为隐私预算,d为查询维数;
步骤5:对差分隐私保护后的发布数据Ds进行直方图发布。
优选的是,所述步骤1中数据集分类:采用Hash_map按照数据属性进行分类统计,形成中间数据集D'。
优选的是,所述步骤2中,k-means聚类算法采用距离优化方法,将样本数据与其二范数进行关联优化。
优选的是,所述k-means聚类算法包括如下步骤:
步骤2.1:初始化k个数据作为初始聚类中心,形成聚类样本;
步骤2.2:遍历数据样本,将数据点的坐标(x,y)与其二范数进行关联,构成<(x,y),||(x,y)||2>的键值对形式,将二范数之差的平方值与最近的中心点的距离进行比较,若二范数之差的平方值小于最近的中心点的距离,则进行真正的欧氏距离计算,若真正的欧氏距离小于最近的中心点的距离,将距离最小的归类到聚类中心,形成k个聚类;
步骤2.3:计算各聚类内数据均值,更新聚类中心;
步骤2.4:循环步骤2.1-2.3,直到达到指定迭代次数或者聚类收敛,输出聚类分组C={C1,C2,…,Ck}。
优选的是,所述步骤2中利用k-means聚类算法形成分组最优划分与合并。
优选的是,所述步骤4中,查询维数d为一维。
优选的是,所述步骤4中,隐私预算ε为0.01
本发明至少具备以下有益效果:
(1)本发明所述的一种Spark框架下的基于差分隐私的数据发布方法,能够满足大数据背景下的差分隐私保护直方图发布方法的目的,在于满足海量数据计算效率的要求下提供有效的隐私保护。
(2)本发明所述的一种Spark框架下的基于差分隐私的数据发布方法,能够实现分组最优合并,平衡了数据隐私保护和数据可用性的关系,使得满足数据隐私保护的同时保障数据具有较好的可用性。
附图说明
图1为本发明所述Spark框架下的基于差分隐私保护的数据发布方法的数据处理流程图。
图2为本发明所述实施例的直方图发布结果。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本发明可以有许多不同的形式实施,而不应该理解为限于再次阐述的实施例,相反,提供这些实施例,使得本公开将是彻底和完整的。
如图1所示,本发明提供一种Spark框架下的基于差分隐私保护的数据发布方法,包括如下步骤:
步骤1:将原始数据集导入Hadoop分布式文件系统,从Hadoop分布式文件系统读取到Spark框架形成弹性分布式数据集并分类统计;
步骤2:采用Hash_map按照数据属性进行分类统计,形成中间数据集D';
步骤3:对k-means聚类算法进行二范数关联优化,然后利用优化后的k-means聚类算法对分类统计形成的待发布数据集进行聚类分组C={C1,C2,…,Ck};
步骤4:对每个分组求均值:
其中,Ck_avg为每个分组均值,xi为每个分组中的样本,n为每个分组的样本量;
步骤5:在各分组的均值Ck_avg上添加Laplace噪声得到数据集Ds={C1',C2',…,Ck'},所述各组分均值添加Laplace噪声为Ck'_avg:
Ck'_avg=Ck_avg+Lapdk(1/ε)
其中,ε为隐私预算,本实施例中,隐私预算ε的取值为0.01;d为查询维数,通常情况下,查询维数d为一维;
步骤6:对差分隐私保护后的发布数据Ds进行直方图发布。
所述步骤3中,k-means聚类算法采用距离优化方法,将样本数据与其二范数进行关联优化,利用k-means聚类算法形成了分组最优划分与合并,避免了距离的重复计算,降低了k-means聚类过程的计算开销。
所述k-means聚类算法包括如下步骤:
步骤3.1:初始化k个数据作为初始聚类中心,形成聚类样本;
步骤3.2:遍历数据样本,将数据点的坐标(x,y)与其二范数进行关联,构成<(x,y),||(x,y)||2>的键值对形式,将二范数之差的平方值(boundDistance)与最近的中心点的距离(bestDistance)进行比较,若二范数之差的平方值小于最近的中心点的距离(即boundDistance<bestDistance),则进行真正的欧氏距离(realDistance)计算,若真正的欧氏距离小于最近的中心点的距离(即realDistance<bestDistance),将距离最小的归类到聚类中心,形成k个聚类;
步骤3.3:计算各聚类内数据均值,更新聚类中心;
步骤3.4:循环步骤3.1-3.3,直到达到指定迭代次数或者聚类收敛,输出聚类分组C={C1,C2,…,Ck}。
实施例
某疾病监控中心,需周期性更新某些疾病确诊患者,而所发布数据又不能泄露确诊患者年龄、住址等隐私信息。因此,可采用本发明所述方法对发布数据进行处理,待数据隐私保护后再发布。具体步骤如下:
步骤1:将各地区各诊所收集数据上传至某疾病控制中心Hadoop平台。
步骤2:某疾病控制中心对各地区各诊所所上传数据进行分类统计,得到各类疾病统计中间数据D'。示例数据表如下:
疾病类型 数量
A 1
B 5
C 6
D 25
E 31
F 61
步骤3:采用k-means聚类算法进行分组划分,得到最优分组划分:C={C1,C2,C3},其中C1={1,5,6},C2={25,31},C3={61}。
以免将上表所示数据直接发布,拥有相关背景知识的人很容易推断A类疾病患者的所有隐私信息。
步骤4:对每个分组求均值:C1_avg=4,C2_avg=28,C3_avg=61,则分组数据为:C={{4,4,4},{28,28},61}。
步骤5:在各分组的均值Ck_avg上添加Laplace噪声得到数据集Ds={{4.45,4.45,4.45},{28.62,28.62},61.5}。
步骤6:对差分隐私保护后的发布数据Ds进行直方图发布,如图2所示。
直方图是一种利用分箱技术近似描述数据统计信息,按照某属性将一个比较大的数据集划分成不相交的桶,并由一个数字表示每个桶的特征,从而形成直方图发布方法。但通常采用直方图发布方法存在离群点导致数据高敏感的问题,而且还会在分组划分中造成误差。本发明所述的Spark框架下的基于差分隐私保护的数据发布方法解决了上述问题,并且满足ε-差分隐私保护,适用于Spark框架,能够提高判断离群点和差值集的计算效率,并有效控制直方图数据发布方法中离群点对发布数据的敏感度的影响,并可达到快速聚合相似分组和合并分组最优化的效果。尤其是该方法在海量数据的隐保护处理中可提高隐私性和处理效率,同时保证了发布数据的可用性。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (7)

1.一种Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,包括如下步骤:
步骤1:将原始数据集导入Hadoop分布式文件系统,从Hadoop分布式文件系统读取数据到Spark框架形成弹性分布式数据集并分类统计;
步骤2:对k-means聚类算法进行二范数关联优化,然后利用优化后的k-means聚类算法对分类统计形成的发布数据集进行聚类分组C={C1,C2,…,Ck};
步骤3:对每个分组求均值:
<mrow> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>_</mo> <mi>a</mi> <mi>v</mi> <mi>g</mi> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> </mrow>
其中,Ck_avg为每个分组均值,xi为每个分组中的样本,n为每个分组的样本量;
步骤4:在各分组的均值Ck_avg上添加Laplace噪声得到数据集Ds={C1',C2',…,Ck'},所述各组分均值添加Laplace噪声为Ck'_avg:
<mrow> <msup> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>&amp;prime;</mo> </msup> <mo>_</mo> <mi>a</mi> <mi>v</mi> <mi>g</mi> <mo>=</mo> <msub> <mi>C</mi> <mi>k</mi> </msub> <mo>_</mo> <mi>a</mi> <mi>v</mi> <mi>g</mi> <mo>+</mo> <msub> <mi>Lap</mi> <msub> <mi>d</mi> <mi>k</mi> </msub> </msub> <mrow> <mo>(</mo> <mn>1</mn> <mo>/</mo> <mi>&amp;epsiv;</mi> <mo>)</mo> </mrow> </mrow>
其中,ε为隐私预算,d为查询维数;
步骤5:对差分隐私保护后的发布数据Ds进行直方图发布。
2.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤1中数据集分类采用Hash_map按照数据属性进行分类统计,形成中间数据集D'。
3.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤2中,k-means聚类算法采用距离优化方法,将样本数据与其二范数进行关联优化。
4.如权利要求3所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述k-means聚类算法包括如下步骤:
步骤2.1:初始化k个数据作为初始聚类中心,形成聚类样本;
步骤2.2:遍历数据样本,将数据点的坐标(x,y)与其二范数进行关联,构成<(x,y),||(x,y)||2>的键值对形式,将二范数之差的平方值与最近的中心点的距离进行比较,若二范数之差的平方值小于最近的中心点的距离,则进行真正的欧氏距离计算,若真正的欧氏距离小于最近的中心点的距离,将距离最小的归类到聚类中心,形成k个聚类;
步骤2.3:计算各聚类内数据均值,更新聚类中心;
步骤2.4:循环步骤2.1-2.3,直到达到指定迭代次数或者聚类收敛,输出聚类分组C={C1,C2,…,Ck}。
5.如权利要求4所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤2中利用k-means聚类算法形成分组最优划分与合并。
6.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤4中,查询维数d为一维。
7.如权利要求1所述的Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,所述步骤4中,隐私预算ε为0.01。
CN201710984658.4A 2017-10-20 2017-10-20 一种Spark 框架下的基于差分隐私保护的数据发布方法 Pending CN107766740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710984658.4A CN107766740A (zh) 2017-10-20 2017-10-20 一种Spark 框架下的基于差分隐私保护的数据发布方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710984658.4A CN107766740A (zh) 2017-10-20 2017-10-20 一种Spark 框架下的基于差分隐私保护的数据发布方法

Publications (1)

Publication Number Publication Date
CN107766740A true CN107766740A (zh) 2018-03-06

Family

ID=61269801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710984658.4A Pending CN107766740A (zh) 2017-10-20 2017-10-20 一种Spark 框架下的基于差分隐私保护的数据发布方法

Country Status (1)

Country Link
CN (1) CN107766740A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280491A (zh) * 2018-04-18 2018-07-13 南京邮电大学 一种面向差分隐私保护的k均值聚类方法
CN108446568A (zh) * 2018-03-19 2018-08-24 西北大学 一种去趋势分析差分隐私保护的直方图数据发布方法
CN108763956A (zh) * 2018-05-24 2018-11-06 辽宁工业大学 一种基于分形维数的流式数据差分隐私保护发布方法
CN109492429A (zh) * 2018-10-30 2019-03-19 华南师范大学 一种数据发布的隐私保护方法
CN109558426A (zh) * 2018-11-22 2019-04-02 河南财经政法大学 一种基于差分隐私的流式直方图的发布方法
CN110750725A (zh) * 2019-10-24 2020-02-04 河北经贸大学 保护隐私的用户画像生成方法、终端设备及存储介质
CN110968612A (zh) * 2018-09-30 2020-04-07 华为技术有限公司 键值对数据的收集方法和装置
CN111242196A (zh) * 2020-01-06 2020-06-05 广西师范大学 可解释性深度学习的差分隐私保护方法
CN111737744A (zh) * 2020-06-22 2020-10-02 安徽工业大学 一种基于差分隐私的数据发布方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809408A (zh) * 2015-05-08 2015-07-29 中国科学技术大学 一种基于差分隐私的直方图发布方法
CN105046160A (zh) * 2015-07-21 2015-11-11 东华大学 一种基于直方图的面向数据流差分隐私发布方法
CN105608389A (zh) * 2015-10-22 2016-05-25 广西师范大学 医疗数据发布的差分隐私保护方法
CN106778314A (zh) * 2017-03-01 2017-05-31 全球能源互联网研究院 一种基于k‑means的分布式差分隐私保护方法
CN106991335A (zh) * 2017-02-20 2017-07-28 南京邮电大学 一种基于差分隐私保护的数据发布方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809408A (zh) * 2015-05-08 2015-07-29 中国科学技术大学 一种基于差分隐私的直方图发布方法
CN105046160A (zh) * 2015-07-21 2015-11-11 东华大学 一种基于直方图的面向数据流差分隐私发布方法
CN105608389A (zh) * 2015-10-22 2016-05-25 广西师范大学 医疗数据发布的差分隐私保护方法
CN106991335A (zh) * 2017-02-20 2017-07-28 南京邮电大学 一种基于差分隐私保护的数据发布方法
CN106778314A (zh) * 2017-03-01 2017-05-31 全球能源互联网研究院 一种基于k‑means的分布式差分隐私保护方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
孟小峰等: "《大数据隐私管理》", 《计算机研究与发展》 *
朱光辉等: "《SCoS:基于Spark的并行谱聚类算法设计与实现》", 《计算机学报》 *
李洪成等: "《MapReduce框架下的支持差分隐私保护的k-means聚类方法》", 《通信学报》 *
高志强等: "《基于spark的支持隐私保护的聚类算法》", 《网络与信息安全学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446568A (zh) * 2018-03-19 2018-08-24 西北大学 一种去趋势分析差分隐私保护的直方图数据发布方法
CN108446568B (zh) * 2018-03-19 2021-04-13 西北大学 一种去趋势分析差分隐私保护的直方图数据发布方法
CN108280491B (zh) * 2018-04-18 2020-03-06 东莞市盟大塑化科技有限公司 一种面向差分隐私保护的k均值聚类方法
CN108280491A (zh) * 2018-04-18 2018-07-13 南京邮电大学 一种面向差分隐私保护的k均值聚类方法
CN108763956B (zh) * 2018-05-24 2020-09-15 辽宁工业大学 一种基于分形维数的流式数据差分隐私保护发布方法
CN108763956A (zh) * 2018-05-24 2018-11-06 辽宁工业大学 一种基于分形维数的流式数据差分隐私保护发布方法
CN110968612A (zh) * 2018-09-30 2020-04-07 华为技术有限公司 键值对数据的收集方法和装置
CN110968612B (zh) * 2018-09-30 2023-07-18 华为技术有限公司 键值对数据的收集方法和装置
CN109492429A (zh) * 2018-10-30 2019-03-19 华南师范大学 一种数据发布的隐私保护方法
CN109492429B (zh) * 2018-10-30 2020-10-16 华南师范大学 一种数据发布的隐私保护方法
CN109558426A (zh) * 2018-11-22 2019-04-02 河南财经政法大学 一种基于差分隐私的流式直方图的发布方法
CN110750725A (zh) * 2019-10-24 2020-02-04 河北经贸大学 保护隐私的用户画像生成方法、终端设备及存储介质
CN111242196A (zh) * 2020-01-06 2020-06-05 广西师范大学 可解释性深度学习的差分隐私保护方法
CN111242196B (zh) * 2020-01-06 2022-06-21 广西师范大学 可解释性深度学习的差分隐私保护方法
CN111737744A (zh) * 2020-06-22 2020-10-02 安徽工业大学 一种基于差分隐私的数据发布方法

Similar Documents

Publication Publication Date Title
CN107766740A (zh) 一种Spark 框架下的基于差分隐私保护的数据发布方法
Chen et al. Global nanotechnology development from 1991 to 2012: patents, scientific publications, and effect of NSF funding
CN104809408B (zh) 一种基于差分隐私的直方图发布方法
CN105512167B (zh) 一种基于混合数据库的多业务用户数据管理系统及其方法
Wang et al. A review of differential privacy in individual data release
CN108052543A (zh) 一种基于图分析聚类的微博相似账号检测方法
Wang et al. Unifying virtual and physical worlds: Learning toward local and global consistency
Kim et al. Privacy-preserving data cube for electronic medical records: An experimental evaluation
CN108763956A (zh) 一种基于分形维数的流式数据差分隐私保护发布方法
CN109271806A (zh) 基于用户行为的隐私保护机制研究
JP2019507425A (ja) サービス処理方法と、データ処理方法及び装置
CN103366009B (zh) 一种基于自适应聚类的图书推荐方法
WO2016032503A1 (en) Secure information retrieval based on hash transforms
Li et al. The parametric modified limited penetrable visibility graph for constructing complex networks from time series
Wang et al. Semi-supervised multi-instance interpretable models for flu shot adverse event detection
Chander et al. A parallel fractional lion algorithm for data clustering based on MapReduce cluster framework
CN104216994B (zh) 一种列联表数据发布的隐私保护方法
Philip et al. MCD: mutual clustering across multiple social networks
CN113743496A (zh) 一种基于聚类映射的k-匿名数据处理方法及系统
CN108959956A (zh) 基于贝叶斯网络的差分隐私数据发布方法
Podlesny et al. Minimising information loss on anonymised high dimensional data with greedy in-memory processing
Mandapati et al. A hybrid algorithm for privacy preserving in data mining
CN106599726B (zh) 一种基于MapReduce的分布式数据匿名处理方法
Gaur et al. Comprehensive analysis of data clustering algorithms
Mohammed et al. Complementing privacy and utility trade-off with self-organising maps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180306