CN113672979A - 基于桶结构划分的差分隐私非等距直方图发布方法和装置 - Google Patents

基于桶结构划分的差分隐私非等距直方图发布方法和装置 Download PDF

Info

Publication number
CN113672979A
CN113672979A CN202110954120.5A CN202110954120A CN113672979A CN 113672979 A CN113672979 A CN 113672979A CN 202110954120 A CN202110954120 A CN 202110954120A CN 113672979 A CN113672979 A CN 113672979A
Authority
CN
China
Prior art keywords
histogram
equidistant
grouping
interval
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110954120.5A
Other languages
English (en)
Other versions
CN113672979B (zh
Inventor
郑啸
汪志伟
刘欢
王权鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Technology AHUT
Original Assignee
Anhui University of Technology AHUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Technology AHUT filed Critical Anhui University of Technology AHUT
Priority to CN202110954120.5A priority Critical patent/CN113672979B/zh
Publication of CN113672979A publication Critical patent/CN113672979A/zh
Application granted granted Critical
Publication of CN113672979B publication Critical patent/CN113672979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Computer Hardware Design (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了基于桶结构划分的差分隐私非等距直方图发布方法和装置,利用两种方法对数据库生成直方图H1和H2以及各自的加噪声的直方图,并比较两种添加噪声的直方图在重叠分组区间内与真实值的差距大小以及重新划分前后非等距直方图H1’在该重叠分组区间内的全局误差的大小,从而确定是否需要替换原始直方图H1从而获得非等距直方图H3,并将H3进行加噪后发布。通过引入基于贪心分组的直方图结构,对已有非等距直方图结构的桶边界进行重划分,降低非等距直方图的发布误差,使发布的直方图在满足隐私保护的要求下更精准的反映出数据的分布特征。

Description

基于桶结构划分的差分隐私非等距直方图发布方法和装置
技术领域
本发明涉及数据隐私保护技术领域,具体涉及一种基于桶结构划分的差分隐私非等距直方图发布方法和装置。
背景技术
随着大数据时代的到来,每天都有海量的信息数据产生,信息技术的深入和普及使得各种机构能够轻松收集大量信息数据,以多种形式发布统计结果,并对信息数据进行数据分析研究。虽然数据分析能从发布数据中获得有价值的信息,但同时也会带来个人隐私泄露的问题。
直方图技术是一种近似估计数据分布的常用技术,该技术将数据按照某种属性划分成不相交的桶,每个桶由频数或计数表示其特征。如果在进行数据发布的过程中直接发布原始直方图数据而不进行隐私保护,攻击者可以结合背景知识推断出个人的敏感信息,导致个人信息泄露。
现有的基于差分隐私的直方图发布技术大多都是对直方图进行加噪和重构,一般通过对临近位置的桶进行合并取均值,以此降低直方图的全局敏感度,产生的直方图多是等距直方图,在一定程度上隐藏了数据的一些重要信息,即未能考虑到数据的稀疏性,因此考虑非等距直方图的隐私保护十分必要。
专利号201910961197.8的专利申请“一种基于差分隐私的非等距直方图发布方法”,该申请案中利用数据的稀疏性,使用不均匀的经验分布函数构建非等距直方图,向非等距直方图任一分组的组高添加拉普拉斯噪声,最后发布基于差分隐私的非等距直方图。但该方法通过经验公式获取分组数,在数据越稀疏的区域会生成组距更大的直方图,根据该方法为各个分组加噪时的隐私预算公式,组距越大的分组将被添加更大的噪声,在一定长度的查询内噪声累积过快,使得直方图的准确度下降,可用度降低。
发明内容
本申请实施例提供了基于桶结构划分的差分隐私非等距直方图发布方法,以至少解决现有的技术中发布的非等距直方图的噪声过大所带来的准确度下降的技术问题。
根据本申请的一个方面,提供了一种基于桶结构划分的差分隐私非等距直方图发布方法,
将待处理的数据库表进行数据预处理,包括以键值对<key,value>的形式读取数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;按照key值从小到大的顺序将n个不同key值的键值对排序并获得对应的原始直方图H;
将上述预处理后排序的键值对生成原始非等距直方图H1和非等距直方图H1’,所述非等距直方图H1’由原始非等距直方图H1添加噪声后获得;
将上述预处理后排序的键值对利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案,计算分组方案中各个分组对应的真实值,获得直方图H2和基于该分组方案得到的直方图H2’,所述基于分组方案得到的直方图H2’由直方图H2添加噪声后获得;
遍历非等距直方图H1’和基于分组的直方图H2’所有重叠的分组区间D,对于每一个重叠的分组区间D,判断非等距直方图H1’和基于分组的直方图H2’分别与该区间D的真实值之间的差距,若基于分组的直方图H2’与所述真实值之间的差距更小,利用该重叠的分组区间D对应的基于分组的直方图H2’的区间端点将对应的非等距直方图H1’的区间重新划分,并对重新划分后的区间赋予对应的区间真实值添加噪声后的值,若重新划分后的区间所产生的全局误差小于重新划分前的非等距直方图H1’在该区间所产生的全局误差,则将该区间D对应的原始非等距直方图H1替换为重新划分并赋予对应的区间真实值后的形式;如此遍历所有上述重叠的分组区间,将原始非等距直方图H1替换形成非等距直方图H3;
将非等距直方图H3添加噪声后发布。
进一步的,在本发明中,所述利用贪心聚类算法生成原始基于分组的直方图H2的方法如下:
将贪心聚类算法的误差评价函数设为全局误差
Figure BDA0003219756010000021
其中:
Ci为分组,其中
Figure BDA0003219756010000027
表示该组的频数均值,|Ci|表示该组中桶个数,ε为总体隐私预算,
Figure BDA0003219756010000022
为重构误差,
Figure BDA0003219756010000023
为噪音误差。
进一步的,在本发明中,所述利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案的方法如下:
从左至右贪婪划分原始直方图H,针对每个当前处理的桶Hj
计算直方图中桶Hj并入组Ci时分组Hj∪Ci产生的误差
Figure BDA0003219756010000024
Figure BDA0003219756010000025
计算直方图中桶Hj不并入组Ci时产生的误差
Figure BDA0003219756010000026
其中AE(Ci)为组Ci的重构误差;
若桶Hj并入组Ci时产生的误差比不并入组Ci时产生的误差更低,将桶Hj并入组Ci,否则桶Hj生成新的分组;
上述组Ci为原始直方图H中桶的集合。
进一步的,在本发明中,所述原始非等距直方图H1添加噪声和原始基于分组的直方图H2添加噪声的全局敏感度Δf相同。
进一步的,在本发明中,所述全局敏感度Δf的计算公式为:
Figure BDA0003219756010000031
其中N为原始直方图H中各组频数之和,ni为当前组频数,ΔBi为组距,i为组的序号。
进一步的,在本发明中,所述添加噪声的方法为按照差分隐私定义对待添加噪声的直方图中的每一分组Ci的真实值均添加拉普拉斯噪声,所述真实值为
Figure BDA0003219756010000032
所述添加拉普拉斯噪声为
Figure BDA0003219756010000033
其中,Hj为分组Ci中的直方图,Hi为整体直方图结构中所有的桶,n为桶的数量,ΔBi为分组Ci的组距,εg为隐私预算参数。
本发明的第二个方面,提供一种基于桶结构划分的差分隐私非等距直方图发布装置,包括
预处理模块,用于将待处理的数据库表进行数据预处理,包括以键值对<key,value>的形式读取数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;按照key值从小到大的顺序将n个不同key值的键值对排序并获得对应的原始直方图H;
第一获得模块,用于将上述原始直方图H生成原始非等距直方图H1和非等距直方图H1’,所述非等距直方图H1’由原始非等距直方图H1添加噪声后获得;
第二获得模块,用于将上述原始直方图H利用贪心聚类算法生成原始基于分组的直方图H2和基于分组的直方图H2’,所述基于分组的直方图H2’由原始基于分组的直方图H2添加噪声后获得;
替换模块,用于遍历非等距直方图H1’和基于分组的直方图H2’所有重叠的分组区间D,对于每一个重叠的分组区间D,判断非等距直方图H1’和基于分组的直方图H2’分别与该区间D的真实值之间的差距,若基于分组的直方图H2’与所述真实值之间的差距更小,利用该重叠的分组区间D对应的基于分组的直方图H2’的区间端点将对应的非等距直方图H1’的区间重新划分,并对重新划分后的区间赋予对应的区间真实值添加噪声后的值,若重新划分后的区间所产生的全局误差小于重新划分前的非等距直方图H1’在该区间所产生的全局误差,则将该区间D对应的原始非等距直方图H1替换为重新划分并赋予对应的区间真实值后的形式;如此遍历所有上述重叠的分组区间,将原始非等距直方图H1替换形成非等距直方图H3;
发布模块,用于将非等距直方图H3添加噪声后发布。
本发明的第三个方面,提供一种处理器,用于执行软件,所述软件用于执行上述任一项所述的方法。
本发明的第三个方面,提供一种存储器,用于存储软件,所述软件用于执行上述任一项所述的方法。
在本申请实施例中,采用了将待处理的数据库表进行数据预处理,将待处理的数据库表进行数据预处理,包括以键值对<key,value>的形式读取数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;按照key值从小到大的顺序将n个不同key值的键值对排序并获得对应的原始直方图H;将上述预处理后排序的键值对生成原始非等距直方图H1和非等距直方图H1’,所述非等距直方图H1’由原始非等距直方图H1添加噪声后获得;将上述预处理后排序的键值对利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案,计算分组方案中各个分组对应的真实值,获得直方图H2和基于该分组方案得到的直方图H2’,所述基于分组方案得到的直方图H2’由直方图H2添加噪声后获得;遍历非等距直方图H1’和基于分组的直方图H2’所有重叠的分组区间D,对于每一个重叠的分组区间D,判断非等距直方图H1’和基于分组的直方图H2’分别与该区间D的真实值之间的差距,若基于分组的直方图H2’与所述真实值之间的差距更小,利用该重叠的分组区间D对应的基于分组的直方图H2’的区间端点将对应的非等距直方图H1’的区间重新划分,并对重新划分后的区间赋予对应的区间真实值添加噪声后的值,若重新划分后的区间所产生的全局误差小于重新划分前的非等距直方图H1’在该区间所产生的全局误差,则将该区间D对应的原始非等距直方图H1替换为重新划分并赋予对应的区间真实值后的形式;如此遍历所有上述重叠的分组区间,将原始非等距直方图H1替换形成非等距直方图H3;将非等距直方图H3添加噪声后发布。通过本申请解决了现有的技术中发布的非等距直方图的噪声过大所带来的准确度下降的技术问题,从而使得所发布的直方图可用性提高。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于桶结构划分的差分隐私非等距直方图发布方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
针对按照中国专利申请201910961197.8中的方法发布的非等距直方图具有积累噪声过快的问题,提出一种在发布之前减少噪声的方法。如图1所示为本发明实施例的流程图,该方法包括以下步骤:
将待处理的数据库表进行数据预处理,包括以键值对<key,value>的形式读取数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;按照key值从小到大的顺序将n个不同key值的键值对排序并获得对应的原始直方图H;
将上述预处理后排序的键值对生成原始非等距直方图H1和非等距直方图H1’,所述非等距直方图H1’由原始非等距直方图H1添加噪声后获得;
将上述预处理后排序的键值对利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案,计算分组方案中各个分组对应的真实值,获得直方图H2和基于该分组方案得到的直方图H2’,所述基于分组方案得到的直方图H2’由直方图H2添加噪声后获得;
遍历非等距直方图H1’和基于分组的直方图H2’所有重叠的分组区间D,对于每一个重叠的分组区间D,判断非等距直方图H1’和基于分组的直方图H2’分别与该区间D的真实值之间的差距,若基于分组的直方图H2’与所述真实值之间的差距更小,利用该重叠的分组区间D对应的基于分组的直方图H2’的区间端点将对应的非等距直方图H1’的区间重新划分,并对重新划分后的区间赋予对应的区间真实值添加噪声后的值,若重新划分后的区间所产生的全局误差小于重新划分前的非等距直方图H1’在该区间所产生的全局误差,则将该区间D对应的原始非等距直方图H1替换为重新划分并赋予对应的区间真实值后的形式;如此遍历所有上述重叠的分组区间,将原始非等距直方图H1替换形成非等距直方图H3;
将非等距直方图H3添加噪声后发布。
上述方法通过引入基于贪心分组的直方图结构,对已有非等距直方图结构的桶边界进行重划分,降低非等距直方图的发布误差,使发布的直方图在满足隐私保护的要求下更精准的反映出数据的分布特征。
具体的,上述方法中,原始非等距直方图H1和非等距直方图H1’是按照中国专利申请201910961197.8中的方法所涉及到的直方图,其中原始非等距直方图H1即为该专利的步骤7所对应的计算结果,非等距直方图H1’即为该专利方法的最终输出。在上述实施例中,通过预处理步骤使得数据具有规律的排序,确保后续按照上述中国专利申请获得的直方图和按照贪心聚类算法获得的直方图具有统一的处理对象,以便于后续步骤能够进行对比和替换。通过对重叠区间的两组直方图与区间真实值之间的差距比较,得到按照上述已公开的专利申请获得的直方图是否更优,如果不是,则重新划分并进一步用比较全局误差大小的方式判断是否需要替换,如此两层判断确保将原始非等距直方图H1中会造成噪声积累过快的情况得以改善。
在上述实施例中,贪心聚类算法能够重新构建一个直方图,用于之后与现有专利中的直方图进行比对。在上述实施例中,为了能够有效进行两组直方图比对,设置所述原始非等距直方图H1添加噪声和原始基于分组的直方图H2添加噪声的全局敏感度Δf相同。
具体的,上述实施例中,根据差分隐私中对于全局敏感度的定义,直方图中原始数据集某一条记录的改变对于直方图发布统计计数查询函数f的查询结果的最大改变就是f的敏感度,因此非等距直方图的敏感度
Figure BDA0003219756010000061
其推导过程为:
Figure BDA0003219756010000062
Figure BDA0003219756010000063
即所述全局敏感度Δf的计算公式为:
Figure BDA0003219756010000064
其中N为原始直方图H中各组频数之和,ni为当前组频数,ΔBi为组距,i为组的序号。
更为具体的,所述利用贪心聚类算法生成原始基于分组的直方图H2的方法如下:
将贪心聚类算法的误差评价函数设为全局误差
Figure BDA0003219756010000065
其中Ci为分组,其中
Figure BDA0003219756010000066
表示该组的频数均值,|Ci|表示该组中桶个数,ε为总体隐私预算,决定向该组均值
Figure BDA0003219756010000067
添加的拉普拉斯噪声的大小,生成的直方图结构本身并不额外消耗隐私预算,
Figure BDA0003219756010000068
为重构误差,
Figure BDA0003219756010000069
为噪音误差。
贪心聚类算法最大的特点是它在每一步做出的选择,是就当前情况而言,是最优的选择,具体到本实施例中,所述利用贪心聚类算法生成原始基于分组的直方图H2的方法过程即为采用贪心分组思想自适应获得全局误差
Figure BDA00032197560100000610
最小的直方图的过程,具体该方法如下:
从左至右贪婪划分直方图H,针对每个当前处理的桶Hj
计算直方图中桶Hj并入组Ci时分组Hj∪Ci产生的误差
Figure BDA00032197560100000611
Figure BDA00032197560100000612
计算直方图中桶Hj不并入组Ci时产生的误差
Figure BDA00032197560100000613
其中AE(Ci)为组Ci的重构误差;
若桶Hj并入组Ci时产生的误差比不并入组Ci时产生的误差更低,将桶Hj并入组Ci,否则桶Hj生成新的分组;
上述组Ci为原始直方图H中桶的集合。
更为具体的,所述采用贪心分组思想计算桶Hj不并入组Ci时产生的误差
Figure BDA0003219756010000071
因为桶Hj可能与从左至右任意桶合并,其误差值需要通过极端情况下的懒散下界确定,其懒散下界公式为:
Figure BDA0003219756010000072
其中n为直方图中所有桶的数量。
具体的,上述实施例中,生成原始非等距直方图H1和原始基于分组的直方图H2,需要对上述两个直方图添加噪声。所述添加噪声的方法为按照差分隐私定义对待添加噪声的直方图中的每一分组Ci的真实值均添加拉普拉斯噪声,所述真实值为
Figure BDA0003219756010000073
所述添加拉普拉斯噪声为
Figure BDA0003219756010000074
以基于分组的直方图H2’为例,
Figure BDA0003219756010000075
其中
Figure BDA0003219756010000076
Figure BDA0003219756010000077
其中,Hj为分组Ci中的直方图,Hi为整体直方图结构中所有的桶,n为桶的数量,ΔBi为分组Ci的组距,εg为隐私预算参数。所述隐私预算εi计算公式为:
Figure BDA0003219756010000078
Figure BDA0003219756010000079
ε为待发布的直方图的总体隐私预算。
生成了两组直方图之后,需要按照上述方法进行对比。具体的,分别计算基于贪心分组加噪后的直方图结构H′2与加噪后的非等距直方图结构H′1在重叠区间内与该区间真实值的距离|H′2-H|和|H′1-H|,记H′2在重叠区的左边界为BaL,右边界为BaR,记H′1中包含该重叠区间的组区间左边界为BbL,右边界为BbR,其中该区间内的真实值
Figure BDA00032197560100000710
Cj为组区间(BaL,BaR),|Cj|为组距大小,当|H′2-H|-|H′1-H|<0时,分别以BaL和BaR作为新边界对非等距直方图H′1组区间(BbL,BbR)进行重新划分。得到组区间(BbL,BaL),(BaL,BaR),(BaR,BbR),根据直方图发布全局误差
Figure BDA00032197560100000711
直方图发布误差由重构误差和噪声误差组成,分组越多,重构误差越少,而区间内分组增多时相应分组的组距ΔBi会减小,非等距直方图对于各个分组组高添加噪声时的隐私预算策略
Figure BDA0003219756010000081
组距越小时将会分配更多的隐私预算,添加更少的噪声,以控制长范围查询时的累加噪声,当分组(BbL,BaL),(BaL,BaR),(BaR,BbR)结构产生的全局误差
Figure BDA0003219756010000082
较原始非等距直方图全局误差
Figure BDA0003219756010000083
更小时,划分新的非等距直方图组区间,并根据组区间构建新的非等距直方图结构H3
在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应于不同的步骤可以通过不同的模块来实现。具体在本发明的实施例中,上述计算机程序即对应于基于桶结构划分的差分隐私非等距直方图发布装置,包括
预处理模块,用于将待处理的数据库表进行数据预处理,包括以键值对<key,value>的形式读取数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;按照key值从小到大的顺序将n个不同key值的键值对排序并获得对应的原始直方图H;
第一获得模块,用于将上述原始直方图H生成原始非等距直方图H1和非等距直方图H1’,所述非等距直方图H1’由原始非等距直方图H1添加噪声后获得;
第二获得模块,用于将上述预处理后排序的键值对利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案,计算分组方案中各个分组对应的真实值,获得直方图H2和基于该分组方案得到的直方图H2’,所述基于分组方案得到的直方图H2’由直方图H2添加噪声后获得;
替换模块,用于遍历非等距直方图H1’和基于分组的直方图H2’所有重叠的分组区间D,对于每一个重叠的分组区间D,判断非等距直方图H1’和基于分组的直方图H2’分别与该区间D的真实值之间的差距,若基于分组的直方图H2’与所述真实值之间的差距更小,利用该重叠的分组区间D对应的基于分组的直方图H2’的区间端点将对应的非等距直方图H1’的区间重新划分,并对重新划分后的区间赋予对应的区间真实值添加噪声后的值,若重新划分后的区间所产生的全局误差小于重新划分前的非等距直方图H1’在该区间所产生的全局误差,则将该区间D对应的原始非等距直方图H1替换为重新划分并赋予对应的区间真实值后的形式;如此遍历所有上述重叠的分组区间,将原始非等距直方图H1替换形成非等距直方图H3;
发布模块,用于将非等距直方图H3添加噪声后发布。
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (9)

1.基于桶结构划分的差分隐私非等距直方图发布方法,其特征在于,
将待处理的数据库表进行数据预处理,包括以键值对<key,value>的形式读取数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;按照key值从小到大的顺序将n个不同key值的键值对排序并获得对应的原始直方图H;
将上述预处理后排序的键值对生成原始非等距直方图H1和非等距直方图H1’,所述非等距直方图H1’由原始非等距直方图H1添加噪声后获得;
将上述预处理后排序的键值对利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案,计算分组方案中各个分组对应的真实值,获得直方图H2和基于该分组方案得到的直方图H2’,所述基于分组方案得到的直方图H2’由直方图H2添加噪声后获得;
遍历非等距直方图H1’和基于分组的直方图H2’所有重叠的分组区间D,对于每一个重叠的分组区间D,判断非等距直方图H1’和基于分组的直方图H2’分别与该区间D的真实值之间的差距,若基于分组的直方图H2’与所述真实值之间的差距更小,利用该重叠的分组区间D对应的基于分组的直方图H2’的区间端点将对应的非等距直方图H1’的区间重新划分,并对重新划分后的区间赋予对应的区间真实值添加噪声后的值,若重新划分后的区间所产生的全局误差小于重新划分前的非等距直方图H1’在该区间所产生的全局误差,则将该区间D对应的原始非等距直方图H1替换为重新划分并赋予对应的区间真实值后的形式;如此遍历所有上述重叠的分组区间,将原始非等距直方图H1替换形成非等距直方图H3;
将非等距直方图H3添加噪声后发布。
2.根据权利要求1所述的方法,其特征在于:所述利用贪心聚类算法生成原始基于分组的直方图H2的方法如下:
将贪心聚类算法的误差评价函数设为全局误差
Figure FDA0003219749000000011
其中:
Ci为分组,其中
Figure FDA0003219749000000012
表示该组的频数均值,|Ci|表示该组中桶个数,ε为总体隐私预算,
Figure FDA0003219749000000013
为重构误差,
Figure FDA0003219749000000014
为噪音误差。
3.根据权利要求2所述的方法,其特征在于:所述利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案的方法如下:
从左至右贪婪划分原始直方图H,针对每个当前处理的桶Hj
计算直方图中桶Hj并入组Ci时分组Hj∪Ci产生的误差
Figure FDA0003219749000000015
Figure FDA0003219749000000021
计算直方图中桶Hj不并入组Ci时产生的误差
Figure FDA0003219749000000022
其中AE(Ci)为组Ci的重构误差;
若桶Hj并入组Ci时产生的误差比不并入组Ci时产生的误差更低,将桶Hj并入组Ci,否则桶Hj生成新的分组;
上述组Ci为原始直方图H中桶的集合。
4.根据权利要求1所述的方法,其特征在于:所述原始非等距直方图H1添加噪声和原始基于分组的直方图H2添加噪声的全局敏感度Δf相同。
5.根据权利要求1所述的方法,其特征在于:所述全局敏感度Δf的计算公式为:
Figure FDA0003219749000000023
其中N为原始直方图H中各组频数之和,ni为当前组频数,ΔBi为组距,i为组的序号。
6.根据权利要求5所述的方法,其特征在于:所述添加噪声的方法为按照差分隐私定义对待添加噪声的直方图中的每一分组Ci的真实值均添加拉普拉斯噪声,所述真实值为
Figure FDA0003219749000000024
Figure FDA0003219749000000025
所述添加拉普拉斯噪声为
Figure FDA0003219749000000026
其中,Hj为分组Ci中的直方图,Hi为整体直方图结构中所有的桶,n为桶的数量,ΔBi为分组Ci的组距,εg为隐私预算参数。
7.基于桶结构划分的差分隐私非等距直方图发布装置,其特征在于:包括
预处理模块,用于将待处理的数据库表进行数据预处理,包括以键值对<key,value>的形式读取数据库表中N条记录,得到N个键值对;其中,key值表示数据库表中某一列的属性值,value值表示数据库表中某一敏感属性列的值;将key值相同的键值对合并,并将key值相同的键值对的value值累加,生成n个不同key值的键值对;按照key值从小到大的顺序将n个不同key值的键值对排序并获得对应的原始直方图H;
第一获得模块,用于将上述原始直方图H生成原始非等距直方图H1和非等距直方图H1’,所述非等距直方图H1’由原始非等距直方图H1添加噪声后获得;
第二获得模块,用于将上述预处理后排序的键值对利用贪心聚类算法获得原始直方图H基于分组的直方图分组方案,计算分组方案中各个分组对应的真实值,获得直方图H2和基于该分组方案得到的直方图H2’,所述基于分组方案得到的直方图H2’由直方图H2添加噪声后获得;
替换模块,用于遍历非等距直方图H1’和基于分组的直方图H2’所有重叠的分组区间D,对于每一个重叠的分组区间D,判断非等距直方图H1’和基于分组的直方图H2’分别与该区间D的真实值之间的差距,若基于分组的直方图H2’与所述真实值之间的差距更小,利用该重叠的分组区间D对应的基于分组的直方图H2’的区间端点将对应的非等距直方图H1’的区间重新划分,并对重新划分后的区间赋予对应的区间真实值添加噪声后的值,若重新划分后的区间所产生的全局误差小于重新划分前的非等距直方图H1’在该区间所产生的全局误差,则将该区间D对应的原始非等距直方图H1替换为重新划分并赋予对应的区间真实值后的形式;如此遍历所有上述重叠的分组区间,将原始非等距直方图H1替换形成非等距直方图H3;
发布模块,用于将非等距直方图H3添加噪声后发布。
8.一种处理器,用于执行软件,其特征在于,所述软件用于执行权利要求1至6中任一项所述的方法。
9.一种存储器,用于存储软件,其特征在于,所述软件用于执行权利要求1至6中任一项所述的方法。
CN202110954120.5A 2021-08-19 2021-08-19 基于桶结构划分的差分隐私非等距直方图发布方法和装置 Active CN113672979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110954120.5A CN113672979B (zh) 2021-08-19 2021-08-19 基于桶结构划分的差分隐私非等距直方图发布方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110954120.5A CN113672979B (zh) 2021-08-19 2021-08-19 基于桶结构划分的差分隐私非等距直方图发布方法和装置

Publications (2)

Publication Number Publication Date
CN113672979A true CN113672979A (zh) 2021-11-19
CN113672979B CN113672979B (zh) 2024-02-09

Family

ID=78543903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110954120.5A Active CN113672979B (zh) 2021-08-19 2021-08-19 基于桶结构划分的差分隐私非等距直方图发布方法和装置

Country Status (1)

Country Link
CN (1) CN113672979B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628360A (zh) * 2023-07-25 2023-08-22 北京科技大学 一种基于差分隐私的社交网络直方图发布方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492047A (zh) * 2018-11-22 2019-03-19 河南财经政法大学 一种基于差分隐私的精确直方图的发布方法
CN110795758A (zh) * 2019-10-11 2020-02-14 安徽工业大学 一种基于差分隐私的非等距直方图发布方法
CN112417500A (zh) * 2020-11-18 2021-02-26 华南师范大学 一种隐私保护的数据流统计发布方法
CN112667712A (zh) * 2020-12-31 2021-04-16 安徽工业大学 一种基于差分隐私的分组精准直方图数据发布方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492047A (zh) * 2018-11-22 2019-03-19 河南财经政法大学 一种基于差分隐私的精确直方图的发布方法
CN110795758A (zh) * 2019-10-11 2020-02-14 安徽工业大学 一种基于差分隐私的非等距直方图发布方法
CN112417500A (zh) * 2020-11-18 2021-02-26 华南师范大学 一种隐私保护的数据流统计发布方法
CN112667712A (zh) * 2020-12-31 2021-04-16 安徽工业大学 一种基于差分隐私的分组精准直方图数据发布方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙岚等: "基于桶划分的差分隐私直方图发布贪心算法", 《厦门大学学报(自然科学版)》, vol. 56, no. 6, pages 770 - 775 *
徐文涛等: "一种基于桶重构的差分隐私直方图发布方法", 《通信技术》, vol. 52, no. 2, pages 409 - 417 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628360A (zh) * 2023-07-25 2023-08-22 北京科技大学 一种基于差分隐私的社交网络直方图发布方法及装置

Also Published As

Publication number Publication date
CN113672979B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
US20200356901A1 (en) Target variable distribution-based acceptance of machine learning test data sets
CN115454779A (zh) 基于聚类分析的云监控流数据检测方法、装置及存储介质
CN104731816A (zh) 一种处理异常业务数据的方法和装置
CN110019353B (zh) 一种数据处理方法及装置
CN110728526B (zh) 地址识别方法、设备以及计算机可读介质
CN112199722B (zh) 一种基于K-means的差分隐私保护聚类方法
Sun et al. Differential privacy-preserving density peaks clustering based on shared near neighbors similarity
CN110457182A (zh) 一种负载均衡集群实例运行指标监控系统
CN113672979A (zh) 基于桶结构划分的差分隐私非等距直方图发布方法和装置
JP2006516775A (ja) 構造化されていないデータの大集合における類似性および修正履歴の特定
CN107506466B (zh) 一种小文件存储方法及系统
CN110851434A (zh) 一种数据存储方法、装置及设备
CN114626092A (zh) 具有关联关系的多字段数据的脱敏方法、系统、装置及计算机存储介质
CN109669621B (zh) 一种文件管理方法、文件管理系统、电子设备及存储介质
CN110019210B (zh) 数据写入方法及设备
EP3945694B1 (en) Block data access method, block data storage method, and apparatuses thereof
CN115564156A (zh) 基于机器学习的事务聚集发生预警方法及其应用
CN113342274A (zh) 一种数据处理方法及装置
KR20220089592A (ko) 재현자료 db 생성 알고리즘
CN113297107A (zh) 一种数据处理方法、装置以及电子设备
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法
CN111562423B (zh) 一种地铁杂散电流对埋地管线影响范围计算方法及装置
CN117435135B (zh) 关于重复数据删除的存储空间回收的方法、装置和系统
Liu et al. A Differential Privacy K-Means Algorithm for Improving Privacy Budget Allocation
CN117806564A (zh) 数据存储方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant