CN113434897B - 优先兼顾小桶可用性的差分隐私直方图发布方法及系统 - Google Patents

优先兼顾小桶可用性的差分隐私直方图发布方法及系统 Download PDF

Info

Publication number
CN113434897B
CN113434897B CN202110345856.2A CN202110345856A CN113434897B CN 113434897 B CN113434897 B CN 113434897B CN 202110345856 A CN202110345856 A CN 202110345856A CN 113434897 B CN113434897 B CN 113434897B
Authority
CN
China
Prior art keywords
histogram
grouping
bucket
privacy
grouped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110345856.2A
Other languages
English (en)
Other versions
CN113434897A (zh
Inventor
徐正全
陈友勤
毛立晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110345856.2A priority Critical patent/CN113434897B/zh
Publication of CN113434897A publication Critical patent/CN113434897A/zh
Application granted granted Critical
Publication of CN113434897B publication Critical patent/CN113434897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种优先兼顾小桶可用性的差分隐私直方图发布方法及系统,进行初步扰动,包括将一部分隐私预算结合拉普拉斯差分隐私机制对原始直方图进行初步扰动,得到初步扰动后的中间直方图;阈值函数处理,包括对初步扰动后的中间直方图进行阈值处理;排序,包括对更新后的中间直方图实施排序,得到从小到大排序的直方图;分组聚类,包括利用剩余的隐私预算,对已按从小到大排序的直方图进行按序分组,得到分组集合;发布,包括对分组集合中的每个分组结合剩余的隐私预算生成最终噪声,得到实施扰动后的扰动直方图并用于发布。本发明不仅满足了严格的ε‑差分隐私保护,同时还实现了重构误差和噪声误差的平衡。

Description

优先兼顾小桶可用性的差分隐私直方图发布方法及系统
技术领域
本发明属于信息安全领域,具体涉及一种优先兼顾小桶可用性的差分隐私直方图发布方法及系统。
背景技术
随着移动互联网的快速发展以及移动设备的广泛普及,基于各种App应用,每天都会产生大量的数据。虽然通过对数据的采集、提取和发布可以帮助用户从繁杂的数据中高效、快速、准确地获取所需信息,但是隐私安全问题也随之越来越严峻。这些隐私信息的泄露给用户带来的潜在或直接危害,使得用户个人的隐私安全成为热门话题。
数据的隐私保护问题最早由统计学家Dalenius在20世纪70年代末提出。他认为,保护数据库中的隐私信息,就是要使任何用户(包括合法用户和潜在的攻击者)在访问数据库的过程中无法获取关于任意个体的确切信息。虽然这一定义具有理论上的指导意义,但显然它是主观的和模糊的,所以学者们在后续的研究中以这一定义为目标,提出了许多量化指标更明确、可操作性更强的隐私保护模型和方法。目前,数据隐私保护方法主要有匿名、加密和随机扰动。在这三种方法中,匿名隐私保护主要是通过泛化或隐匿方式实现敏感信息的保护,其建立在特殊的攻击假设及一定的背景知识基础上且其安全性无法从数学上严格分析和证明的。常见的匿名技术有k-匿名、l-多样性、t-近邻性以及它们的改进策略。加密技术是基于密码学实现对数据的保护,虽然可以确保较高的安全性,但其只能针对特定计算方式的应用且算法复杂度较高,并不适用在大数据分析挖掘的应用场景。随机扰动技术能够保证较好的数据可用性,对分析挖掘结果的影响较小,是目前重要的隐私保护手段。在基于随机扰动的方法中,差分隐私技术由于具有严格的数学公理化模型,并对攻击者的背景知识没有限制,是一种从数学上严格定义保护强度和可用性的隐私保护手段,近年来其已成为隐私保护研究的热门领域。
差分隐私被认为是事实上标准的隐私定义,并应用于许多隐私保护场景,其中,直方图便是一种非常典型的应用。直方图采用分箱技术,针对数据库表中的一列属性或多列属性将数据库表划分成不相交的区域,并对每个区域采用某种特征统计值表示以了解各类数据的分布。直方图可用于人口普查与人口流动、路况信息、疾病发现、产品检验、日常个人活动包括生活开销、网页浏览、APP应用等的统计,以利于国家人口管理、资源配置优化、国民医疗服务改善、产品优产、乃至生活开销等个人行为的管理。然而,若将原始直方图直接用于发布,那么可能面临个人隐私的泄露问题。比如,某医院对本月来院就医的病人进行患病类型统计,其中统计出患有糖尿病的患者有3人,若其他患病类型的人数及其糖尿病患者中2 人已知,那么若能掌握到病人的就医情况,这第3位糖尿病患者就会很容易被推测出。所以,在发布直方图之前,需要经过隐私处理后方以提供给后续使用者分析与查询。
在差分隐私直方图发布中,数据库表删除一条记录或增加一条记录,对频数直方图的发布或查询结果的影响是1,其敏感度是很小的。因此,直方图的发布在差分隐私研究中也是备受关注的。然而,原始数据分布的不均匀促使由数据构造的直方图中存在大小不一的统计量(桶),而大小不一的统计量在满足ε-差分隐私发布的隐私需求下,虽然均承担着等量的绝对噪声量,但在单位量上的精度,小的统计量往往比大的统计量低,即相同的绝对噪声量对不同的真实统计量所造成的影响是不同的。例如,标准偏差为8的对于一个真实统计量为 10000的来说也许是可以接受的,但是对于一个真实统计量为1的来说那绝对是不可接受的,尤其在那种分布十分不均匀的情况下,更为突出。
纵观差分隐私直方图发布的相关方法中,主要存在以下问题:
(1)大多数方法直接忽略了在分布不均背景下的小数据统计量的精度问题;
(2)部分方法关注了数据分布不均的问题,但也仅仅侧重于数据的总体统计量的绝对精度或者大的统计量的绝对精度;
(3)有些方法还通过劣化了小的统计量精度以达到提高数据总体统计量或者大的统计量的绝对精度要求;
(4)偶尔一两个方法虽然考虑了相对精度,但是所涉及的算法并不是那么高效和稳健的。
本质上,绝对噪声(精度)采用绝对误差衡量,而相对噪声(精度)采用相对误差衡量。然而,绝对误差本身存在着无法衡量该误差对不同真实值影响程度的局限性,而相对误差恰好能打破这个局限,即采用绝对误差与真实值之间的比值进行刻画,反而能很好地反映出噪声量对不同真实值的影响程度。与此同时,面对这大数据的环境,所设计的算法特别需要兼顾实现上的效率。
所以,基于通过对传统满足ε-差分隐私的直方图发布中的误差分析并得出在数据分布不均的背景下,小桶往往比大桶承担着相对更大的单位噪声量的基础上,结合大数据环境与实际应用考虑,本发明设计了一种在满足ε-差分隐私需求下,采用相对误差作为度量指标,优先优化直方图中小桶的精度,并使得直方图中总体的平均相对误差近似最小的高效的差分隐私直方图发布方法。
发明内容
本发明所要解决的问题是,对传统满足ε-差分隐私的直方图发布,在数据分布不均的背景下,提供了小桶和大桶均承担着相对平衡的单位噪声量。
为了实现上述目的,本发明提出的技术方案如下:
步骤A,初步扰动,包括将一部分隐私预算ε1结合拉普拉斯差分隐私机制对原始直方图进行初步扰动,得到初步扰动后的中间直方图;
步骤B,阈值函数处理,包括根据隐私预算ε1设置阈值,对初步扰动后的中间直方图进行阈值处理,当中间直方图中的桶的值小于阈值时,则变更为0,反之,保持不变;
步骤C,排序,包括对步骤B更新后的中间直方图实施排序,得到从小到大排序的直方图;
步骤D,分组聚类,包括利用剩余的隐私预算ε2=ε-ε1,对已按从小到大排序的直方图进行按序分组,得到分组集合,ε是总隐私预算;实现过程包括以下子步骤,
步骤D1,初始化分组集合为空集,当前最优分组包括第一个桶,待分组起始桶标识为1;
步骤D2,若已经对所有桶分组完毕,直接进入步骤D3,当还有待分的桶时,进行以下子步骤:
步骤D2-1,根据待分组起始桶标识初始化当前分组,并记为当前分组的最优分组;
步骤D2-2,遍历当前分组和待分组起始桶之后的桶构成的各种连续区域组合,寻找一个误差最小的组合,然后进入步骤D2-3;
步骤D2-3,更新已分组的集合和待分组桶的起始标识,接着下一个分组是从待分组桶的起始标识开始,重新回到步骤D2进行分组,直到所有的桶均已分组完毕;
步骤D3,返回分组集合;
步骤E,发布,包括对分组集合中的每个分组计算一个均值,然后对每个桶采用所属分组的均值进行近似表示,接着结合剩余的隐私预算以拉普拉斯机制生成噪声样本值后与所属分组包含桶的个数之间的比值作为最终噪声的大小,得到实施扰动后的扰动直方图,并用于发布。
而且,步骤A的实现包括以下子步骤,
步骤A1,计算一部分隐私预算ε1=rate×ε,0<rate<1,其中,rate是隐私预算分配占比,ε是总隐私预算;
步骤A2,对原始直方图H={H1,H2,…,Hn}实现初步差分隐私扰动,得到中间直方图
Figure RE-GDA0003213474140000031
其中
Figure RE-GDA0003213474140000041
而Lap(1/ε1)是一个以1/ε1为尺度的拉普拉斯噪声,其分布为:
Figure RE-GDA0003213474140000042
其中,H1,H2,…,Hn是直方图中的桶,n是桶数量,x是噪声变量,λ是尺度参数。
而且,步骤B中所述的阈值函数Threshold如下:
Figure RE-GDA0003213474140000043
其中,θ=ηlog(n)/ε1,η>0是一个调节参数,n为直方图中桶的个数,桶标号i=1,2,…n。
而且,所述利用从小到大的排序算法Ascending_Sort实施排序的实现方式如下,对于原始直方图是无序的情况下,采取常见的从小到大的排序方式进行实现;针对已是有序的原始直方图,则采取保序规则进行排序处理,以降低步骤A所进行的初步扰动而引起的排序误差,进而进一步影响之后的分组聚类和发布。
而且,步骤D2-2寻找一个误差最小的组合时,
当前最小平均相对误差为min=E[err(Ci)],其中分组Ci平均相对误差
Figure RE-GDA0003213474140000044
即分组Ci相对误差的期望;
Figure RE-GDA0003213474140000045
其含义是分组Ci中所包含的桶
Figure RE-GDA0003213474140000046
的平均值,|Ci|代表分组Ci中桶的个数。
而且,步骤A的实现包括以下子步骤,
步骤E1,将分组聚类阶段得到的分组集合CS中的每个分组计算均值,即
Figure RE-GDA0003213474140000047
其中 Ci∈CS;
步骤E2,对每个Ci∈CS中的每个桶
Figure RE-GDA0003213474140000048
计算加噪后的桶
Figure RE-GDA0003213474140000049
步骤E3,发布扰动直方图
Figure RE-GDA00032134741400000410
而且,发布的扰动直方图满足ε-差分隐私。
另一方面,本发明提供一种优先兼顾小桶可用性的差分隐私直方图发布系统,用于实现如上所述的一种优先兼顾小桶可用性的差分隐私直方图发布方法。
而且,包括以下模块,
第一模块,用于初步扰动,包括将一部分隐私预算ε1结合拉普拉斯差分隐私机制对原始直方图进行初步扰动,得到初步扰动后的中间直方图;
第二模块,用于阈值函数处理,包括根据隐私预算ε1设置阈值,对初步扰动后的中间直方图进行阈值处理,当中间直方图中的桶的值小于阈值时,则变更为0,反之,保持不变;
第三模块,用于排序,包括对第二模块更新后的中间直方图实施排序,得到从小到大排序的直方图;
第四模块,用于分组聚类,包括利用剩余的隐私预算ε2=ε-ε1,对已按从小到大排序的直方图进行按序分组,得到分组集合,ε是总隐私预算;实现过程包括以下子步骤,
步骤D1,初始化分组集合为空集,当前最优分组包括第一个桶,待分组起始桶标识为1;
步骤D2,若已经对所有桶分组完毕,直接进入步骤D3,当还有待分的桶时,进行以下子步骤:
步骤D2-1,根据待分组起始桶标识初始化当前分组,并记为当前分组的最优分组;
步骤D2-2,遍历当前分组和待分组起始桶之后的桶构成的各种连续区域组合,寻找一个误差最小的组合,然后进入步骤D2-3;
步骤D2-3,更新已分组的集合和待分组桶的起始标识,接着下一个分组是从待分组桶的标识开始,重新回到步骤D2进行分组,直到所有的桶均已分组完毕;
步骤D3,返回分组集合;
第五模块,用于发布,包括对分组集合中的每个分组计算一个均值,然后对每个桶采用所属分组的均值进行近似表示,接着结合剩余的隐私预算以拉普拉斯机制生成噪声样本值后与所属分组包含桶的个数之间的比值作为最终噪声的大小,得到实施扰动后的扰动直方图,并用于发布。
或者,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种优先兼顾小桶可用性的差分隐私直方图发布方法。
与现有的差分隐私直方图发布技术相比,本发明提供的一种优先兼顾小桶可用性的差分隐私直方图发布技术方案,更适用于分布十分不均且有大量小数据存在的大数据集的应用场景,其显著的优点是:
(1)相对精度平衡
本发明是对相对精度的平衡,采用相对误差作为度量准则。绝对精度采用绝对误差衡量,而相对精度采用相对误差衡量。之所以本方法不采用绝对误差,那是因为绝对误差本身存在着无法衡量该误差对不同真实值影响程度的局限性,而相对误差恰好能打破这个局限,即采用绝对误差与真实值之间的比值进行刻画,反而能很好地反映出噪声量对不同真实值的影响程度。尤其,在数据分布十分不均的情况下,绝对误差度量下的精度对小数据而言往往是不可接受的。然而,绝大多数差分隐私直方图发布的方法仅考虑绝对误差,即使他们所设计的算法处理之前隐含着对数据的预处理,比如在直方图发布之前,采用合并桶的预处理,使得直方图分布变得更均匀,之后再通过差分隐私实施扰动。这种做法是将结构调整和差分隐私扰动分开处理,所以这种做法往往并不能达到最佳的调整。而本发明的方法中,充分考虑了结构误差和噪声误差作为一个整体来权衡的分组聚类,充分平衡了结构误差和噪声误差,这对于小数据而言,更能容易吸纳合并桶的个数以实现自身精度的提升。
(2)小数据桶优先提升
本发明通过按照从小到大的排序方法,优先从小桶开始进行分组聚类。传统差分隐私直方图发布方法中,大多数方法直接忽略了在分布不均背景下的小数据统计量的精度问题;部分方法关注了数据分布不均的问题,但也仅仅侧重于数据的总体统计量的绝对精度或者大的统计量的绝对精度;有些方法还通过劣化了小的统计量精度以达到提高数据总体统计量或者大的统计量的绝对精度要求。所以,本方法优先关注了小数据的精度,在数据分布十分不均的情况下,通过从小到大的排序方法,从小桶开始优先优化精度,这对数据分布十分不均的应用,在严格保证差分隐私保护的同时,提升数据发布的接受率和合理性。
(3)高算法效率
本发明采用一种近似的贪心分组聚类规则。同时兼顾结构误差和噪声误差的分组聚类方法其实可以采用动态规划的方法找到最优的分组,然而这样的方法对于给定分组组数k的前提下,需要O(kn2)算法复杂度,更何况在未给定分组组数的情况下,需要O(n4)才能运算出最终的最优分组结果。所以,这种运算代价在现实大数据集的应用分析是不切实际的。所以,本方法在不给定分组组数的情况下,提出了先从小到大排序,然后结合结构误差和噪声误差按序分组,使得每次待分组的总体平均相对误差均是最佳的方法,从而大大提升了分组聚类的效率,又不乏得到一个小数据和大数据平均相对误差之间平衡的直方图发布。
综上,依照本发明所提供的优先兼顾小桶可用性的差分隐私直方图发布方法,不仅满足了严格的ε-差分隐私保护,同时还实现了重构误差和噪声误差的平衡,不仅提升了小桶的发布精度,同时还满足总体的相对平均误差近似最优的目标,尤其是在分布十分不均的情况下,提供一个更合理更可靠更高效的直方图发布。在大数据应用与分析中,具有重要的市场价值。
附图说明
图1为本发明实施例的总体方案框架图。
图2为本发明实施例的分组聚类过程示意图。
具体实施方式
以下结合附图和实施例具体说明本发明的技术方案。
本发明提供一种优先兼顾小桶可用性的差分隐私直方图发布方法,不仅满足了严格的ε- 差分隐私保护的同时,提升了小桶的发布精度,同时满足总体的相对平均误差得到近似最小化的目标,其构思由来如下:
具体而言,通过满足ε-差分隐私的直方图发布中的误差进行公式化分析得出本发明所要探讨的问题,即以直方图发布为应用背景,在数据分布十分不均的情况下,小桶往往比大桶承担着相对更大的单位噪声量,例如相对误差的期望:
Figure RE-GDA0003213474140000071
其中Hj是直方图中的一个桶,
Figure RE-GDA0003213474140000072
且Lap(λ)是满足尺度参数为
Figure RE-GDA0003213474140000073
的拉普拉斯分布,其分布详见发明内容中描述。同样地,通过误差公式的分析,本发明得出通过合并桶,并以均值的形式近似表示该桶,可以提升相对精度。例如,假定直方图为H={1,2,2,2,2,2,100},ε=0.1,按照每个桶独立地进行拉普拉斯扰动,那么桶的值为1的相对误差为10,桶的值为2的相对误差为5,而桶的值为100的相对误差为0.1,由此可知值为1的小桶的误差是值为100的大桶的误差的100倍,值为2的小桶的误差是值为100的大桶的误差的50倍。那么,将值为2的桶合并成一个组,那么桶的值为2的相对误差可降低为1<5,由此可知通过分组可以改善小桶的相对误差,但是如果将值为1的桶也合并到值为2的桶的分组中,此时还会引起一种误差,那便是结构误差。由于此时均值为
Figure RE-GDA0003213474140000074
近似表示1和2的值会引起结构误差。所以,本发明既要考虑分组以减小由于差分隐私保护的扰动而引起的噪声误差,同时还要考虑分组而引起的结构误差,所以在分组聚类的过程中,结合结构误差和噪声误差作为一个整体来进行平衡,此处的误差均指的是相对误差。
那么如何才能得到平衡呢?本发明通过分析,得出分组规则,即“数量越接近的桶尽量分到同一个组内以尽可能实现相对误差的减小”。另外,于分布十分不均而言,精度差的往往是值小的桶,所以本发明又引入此规则,即“按从小到大的排序以优先优化小桶的精度”。但是,由于直接基于直方图H排序会破坏ε-差分隐私,所以本发明将一部分隐私预算ε1对直方图H 进行初步扰动之后再实现从小到大排序,而剩余一部分隐私预算ε2用于最后的发布。然而,经过初步扰动之后的直方图
Figure RE-GDA0003213474140000081
也具有噪声误差,所以为了缓解这部分噪声误差对后续正确排序的影响,引入了阈值函数。
以上便是本发明构思的来龙去脉,接下来将结合附图对具体技术方案作进一步说明。
本发明实施例提供一种优先兼顾小桶可用性的差分隐私直方图发布方法,总体流程框架如图1所示,涉及初步扰动、阈值函数处理、排序、分组聚类和发布等5个步骤,其具体实施步骤如下,其中分组聚类详见图2所示。
步骤A,初步扰动,即将一部分隐私预算结合拉普拉斯差分隐私机制对原始直方图进行初步扰动,得到初步扰动的直方图,其实施步骤如下:
步骤A1,计算一部分隐私预算ε1=rate×ε,0<rate<1,其中,rate是隐私预算分配占比,ε是总隐私预算;
步骤A2,对原始直方图H={H1,H2,…,Hn}实现初步差分隐私扰动,得到中间直方图
Figure RE-GDA0003213474140000082
其中
Figure RE-GDA0003213474140000083
而Lap(1/ε1)是一个以1/ε1为尺度的拉普拉斯噪声,其分布为:
Figure RE-GDA0003213474140000084
其中,H1,H2,…,Hn是直方图中的桶,n是桶数量,x是噪声变量,λ是尺度参数。
步骤B,阈值函数处理,即根据门限阈值函数Threshold,对中间直方图
Figure RE-GDA0003213474140000085
进行阈值处理,返回结果替换更新原始的中间直方图
Figure RE-GDA0003213474140000086
Figure RE-GDA0003213474140000087
其实施步骤如下:
步骤B1,计算阈值θ=ηlog(n)/ε1,其中,η是调节参数,取η=0.9(η>0可根据具体应用调节情况调节),n为直方图中桶的个数,ε1为步骤A1中的隐私预算;
步骤B2,对中间直方图
Figure RE-GDA0003213474140000088
根据阈值函数Threshold:
Figure RE-GDA0003213474140000089
处理,即当中间直方图
Figure RE-GDA00032134741400000810
中的桶
Figure RE-GDA00032134741400000811
的值小于θ时,则变更为0,反之,保持不变;桶标号 i=1,2,…n。
步骤C,排序,因为步骤A进行了初步扰动,本步骤为了更接近原始数据的排序,提出进行保序。利用从小到大的排序算法Ascending_Sort对步骤B更新后的中间直方图
Figure RE-GDA00032134741400000812
实施排序,返回结果替换
Figure RE-GDA0003213474140000091
Figure RE-GDA0003213474140000092
对于原始直方图是无序的情况下,采取常见的从小到大的排序方式进行实现,但是针对已是有序的原始直方图,采取保序规则进行排序处理,以降低数据预处理阶段中的步骤A所进行的初步扰动而引起的排序误差,进而进一步影响之后的分组聚类和发布。
为便于实施参考起见,提供其实施步骤介绍如下:
当type标识原始直方图为有序直方图且从小到大排序,则采取从小到大的保序规则对中间直方图
Figure RE-GDA0003213474140000093
实现排序(参见文献Boosting the Accuracy of Differentially-Private Queries Through Consistency的3.1部分);当type标识原始直方图为有序直方图且从大到小排序,则采取从大到小的保序规则对中间直方图
Figure RE-GDA0003213474140000094
实现排序(同前者),然后逆向按从小到大的顺序输出结果;当type标识原始直方图为无序直方图,则采用选择排序方式selectSort对中间直方图
Figure RE-GDA0003213474140000095
进行排序。
步骤D,分组聚类,即利用剩余的隐私预算,对已按从小到大排序的直方图进行按序分组,得到分组集合,其实施步骤如下:
步骤D1,输入步骤C所得任意类型的从小到大排序后的中间直方图
Figure RE-GDA0003213474140000096
和隐私预算ε2=ε-ε1,初始化分组集合
Figure RE-GDA0003213474140000097
当前最优分组包括第一个桶,记为
Figure RE-GDA0003213474140000098
待分组起始桶标识l=1;
步骤D2,当l≤n即表示还有待分组的桶时,进行对当前分组的处理,否则直接进入步骤D3;对当前分组的处理包含子步骤如下:
步骤D2-1,根据待分组起始桶标识l初始化当前分组为
Figure RE-GDA0003213474140000099
计算当前最小平均相对误差为min=E[err(Ci)],其中分组Ci平均相对误差
Figure RE-GDA00032134741400000910
即分组Ci相对误差的期望;
Figure RE-GDA00032134741400000911
其含义是分组Ci中所包含的桶
Figure RE-GDA00032134741400000912
的平均值,|Ci|代表分组Ci中桶的个数。由于此处Ci中仅包含一个
Figure RE-GDA00032134741400000913
因此记录当前最优分组的右端点d=l;
步骤D2-2,令变量r从l+1到n以遍历各种组合情况,即遍历当前分组和待分组起始桶之后的桶形成的各种连续区域组合,即
Figure RE-GDA00032134741400000914
…寻找一个误差最小的组合,
实施例中,该步骤包括判断是否已经遍历当前分组的各种组合,初次执行以下子步骤时,可初始化令r=l+1;后续流程可采用是否r=n+1实现判断,如果是n+1则说明遍历已经完成直接进入步骤D2-3,否则进入执行以下子步骤:
步骤D2-2-1,计算合并分组
Figure RE-GDA0003213474140000101
的相对平均误差
Figure RE-GDA0003213474140000102
步骤D2-2-2,与当前最小平均相对误差min比较,
Figure RE-GDA0003213474140000103
即代表合并分组
Figure RE-GDA0003213474140000104
具有更小的平均相对误差,则进行如下子步骤:
步骤D2-2-2-1,更新
Figure RE-GDA0003213474140000105
和d=r,作为当前最优分组、最小平均相对误差和最优分组的右端点;然后进入步骤D2-2-3;
否则,直接进入步骤D2-2-3;
步骤D2-2-3,更新当前分组
Figure RE-GDA0003213474140000106
然后令r=r+1,重新回到步骤D2-2进行当前遍历是否完成的判断,直到与
Figure RE-GDA0003213474140000107
合并之后的分组比较,得出平均相对误差最小的当前最优分组
Figure RE-GDA0003213474140000108
步骤D2-3,更新已分组的集合和待分组桶的标识即
Figure RE-GDA0003213474140000109
和l=d+1,接着返回步骤D2,直到所有的桶均已分组;
步骤D3,返回分组集合CS。
步骤E,发布,即对分组集合中的每个分组计算一个均值,然后对每个桶采用所属分组的均值进行近似表示,接着结合剩余的隐私预算以拉普拉斯机制生成噪声样本值后与所属分组包含桶的个数之间的比值作为最终噪声的大小,进行实施扰动,并用于发布,其实施步骤如下:
步骤E1,将分组聚类阶段得到的分组集合CS中的每个分组计算均值,即
Figure RE-GDA00032134741400001010
其中 Ci∈CS;
步骤E2,对每个Ci∈CS中的每个桶
Figure RE-GDA00032134741400001011
计算加噪后的桶
Figure RE-GDA00032134741400001012
其中Lap(1/ε2)与步骤A中的定义相同;
步骤E3,发布扰动直方图
Figure RE-GDA00032134741400001013
所述的步骤A和步骤E,每个桶均是加入的是独立同分布的拉普拉斯噪声,分别采用ε1和ε2的隐私预算实施扰动以达到各自隐私保护的目的,其中ε=ε12。步骤A为了保证直方图在排序过程中免受隐私的侵犯;步骤E为了保证所发布的直方图具有隐私保护。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
在一些可能的实施例中,提供一种优先兼顾小桶可用性的差分隐私直方图发布系统,包括以下模块,
第一模块,用于初步扰动,包括将一部分隐私预算ε1结合拉普拉斯差分隐私机制对原始直方图进行初步扰动,得到初步扰动后的中间直方图;
第二模块,用于阈值函数处理,包括根据隐私预算ε1设置阈值,对初步扰动后的中间直方图进行阈值处理,当中间直方图中的桶的值小于阈值时,则变更为0,反之,保持不变;
第三模块,用于排序,包括对第二模块更新后的中间直方图实施排序,得到从小到大排序的直方图;
第四模块,用于分组聚类,包括利用剩余的隐私预算ε2=ε-ε1,对已按从小到大排序的直方图进行按序分组,得到分组集合,ε是总隐私预算;实现过程包括以下子步骤,
步骤D1,初始化分组集合为空集,当前最优分组包括第一个桶,待分组起始桶标识为1;
步骤D2,若已经对所有桶分组完毕,直接进入步骤D3,当还有待分的桶时,进行以下子步骤:
步骤D2-1,根据待分组起始桶标识初始化当前分组,并记为当前分组的最优分组;
步骤D2-2,遍历当前分组和待分组起始桶之后的桶构成的各种连续区域组合,寻找一个误差最小的组合,然后进入步骤D2-3;
步骤D2-3,更新已分组的集合和待分组桶的起始标识,接着下一个分组是从待分组桶的标识开始,重新回到步骤D2进行分组,直到所有的桶均已分组完毕;
步骤D3,返回分组集合;
第五模块,用于发布,包括对分组集合中的每个分组计算一个均值,然后对每个桶采用所属分组的均值进行近似表示,接着结合剩余的隐私预算以拉普拉斯机制生成噪声样本值后与所属分组包含桶的个数之间的比值作为最终噪声的大小,得到实施扰动后的扰动直方图,并用于发布。
在一些可能的实施例中,提供一种优先兼顾小桶可用性的差分隐私直方图发布系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种优先兼顾小桶可用性的差分隐私直方图发布方法。
在一些可能的实施例中,提供一种优先兼顾小桶可用性的差分隐私直方图发布系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种优先兼顾小桶可用性的差分隐私直方图发布方法。
本文中所描述的具体实施例仅是对本发明方案作举例说明,并不用于限定发明,例如,排序过程的选择排序,可以采用其他的排序算法同样适用。本发明所属技术领域的技术人员可以对所描述的具体实施做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种优先兼顾小桶可用性的差分隐私直方图发布方法,其特征在于:包括以下步骤,
步骤A,初步扰动,包括将一部分隐私预算ε1结合拉普拉斯差分隐私机制对原始直方图进行初步扰动,得到初步扰动后的中间直方图;
步骤B,阈值函数处理,包括根据隐私预算ε1设置阈值,对初步扰动后的中间直方图进行阈值处理,当中间直方图中的桶的值小于阈值时,则变更为0,反之,保持不变;
步骤C,排序,包括对步骤B更新后的中间直方图实施排序,得到从小到大排序的直方图;
步骤D,分组聚类,包括利用剩余的隐私预算ε2=ε-ε1,对已按从小到大排序的直方图进行按序分组,得到分组集合,ε是总隐私预算;实现过程包括以下子步骤,
步骤D1,初始化分组集合为空集,当前最优分组包括第一个桶,待分组起始桶标识为1;
步骤D2,若已经对所有桶分组完毕,直接进入步骤D3,当还有待分的桶时,进行以下子步骤:
步骤D2-1,根据待分组起始桶标识初始化当前分组,并记为当前分组的最优分组;
步骤D2-2,遍历当前分组和待分组起始桶之后的桶构成的各种连续区域组合,寻找一个误差最小的组合,然后进入步骤D2-3;
步骤D2-3,更新已分组的集合和待分组桶的起始标识,接着下一个分组是从待分组桶的起始标识开始,重新回到步骤D2进行分组,直到所有的桶均已分组完毕;
步骤D3,返回分组集合;
步骤E,发布,包括对分组集合中的每个分组计算一个均值,然后对每个桶采用所属分组的均值进行近似表示,接着结合剩余的隐私预算以拉普拉斯机制生成噪声样本值后与所属分组包含桶的个数之间的比值作为最终噪声的大小,得到实施扰动后的扰动直方图,并用于发布。
2.如权利要求1所述的一种优先兼顾小桶可用性的差分隐私直方图发布方法,其特征在于:步骤A的实现包括以下子步骤,
步骤A1,计算一部分隐私预算ε1=rate×ε,0<rate<1,其中,rate是隐私预算分配占比,ε是总隐私预算;
步骤A2,对原始直方图H={H1,H2,…,Hn}实现初步差分隐私扰动,得到中间直方图
Figure FDA0003000667200000011
其中
Figure FDA0003000667200000012
而Lap(1/ε1)是一个以1/ε1为尺度的拉普拉斯噪声,其分布为:
Figure FDA0003000667200000021
其中,H1,H2,…,Hn是直方图中的桶,n是桶数量,x是噪声变量,λ是尺度参数。
3.如权利要求2所述的一种优先兼顾小桶可用性的差分隐私直方图发布方法,其特征在于:步骤B中所述的阈值函数Threshold如下:
Figure FDA0003000667200000022
其中,θ=ηlog(n)/ε1,η>0是一个调节参数,n为直方图中桶的个数,桶标号i=1,2,…n。
4.如权利要求3所述的一种优先兼顾小桶可用性的差分隐私直方图发布方法,其特征在于:所述利用从小到大的排序算法Ascending_Sort实施排序的实现方式如下,
对于原始直方图是无序的情况下,采取常见的从小到大的排序方式进行实现;针对已是有序的原始直方图,则采取保序规则进行排序处理,以降低步骤A所进行的初步扰动而引起的排序误差,进而进一步影响之后的分组聚类和发布。
5.如权利要求4所述的一种优先兼顾小桶可用性的差分隐私直方图发布方法,其特征在于:步骤D2-2寻找一个误差最小的组合时,
当前最小平均相对误差为min=E[err(Ci)],其中分组Ci平均相对误差
Figure FDA0003000667200000023
即分组Ci相对误差的期望;
Figure FDA0003000667200000024
其含义是分组Ci中所包含的桶
Figure FDA0003000667200000025
的平均值,|Ci|代表分组Ci中桶的个数。
6.如权利要求5所述的一种优先兼顾小桶可用性的差分隐私直方图发布方法,其特征在于:步骤E的实现包括以下子步骤,
步骤E1,将分组聚类阶段得到的分组集合CS中的每个分组计算均值,即
Figure FDA0003000667200000026
其中Ci∈CS;
步骤E2,对每个Ci∈CS中的每个桶
Figure FDA0003000667200000027
计算加噪后的桶
Figure FDA0003000667200000028
步骤E3,发布扰动直方图
Figure FDA0003000667200000029
7.如权利要求1或2或3或4或5或6所述的一种优先兼顾小桶可用性的差分隐私直方图发布方法,其特征在于:发布的扰动直方图满足ε-差分隐私。
8.一种优先兼顾小桶可用性的差分隐私直方图发布系统,其特征在于:用于实现如权利要求1-7任一项所述的一种优先兼顾小桶可用性的差分隐私直方图发布方法。
9.根据权利要求8所述优先兼顾小桶可用性的差分隐私直方图发布系统,其特征在于:包括以下模块,
第一模块,用于初步扰动,包括将一部分隐私预算ε1结合拉普拉斯差分隐私机制对原始直方图进行初步扰动,得到初步扰动后的中间直方图;
第二模块,用于阈值函数处理,包括根据隐私预算ε1设置阈值,对初步扰动后的中间直方图进行阈值处理,当中间直方图中的桶的值小于阈值时,则变更为0,反之,保持不变;
第三模块,用于排序,包括对第二模块更新后的中间直方图实施排序,得到从小到大排序的直方图;
第四模块,用于分组聚类,包括利用剩余的隐私预算ε2=ε-ε1,对已按从小到大排序的直方图进行按序分组,得到分组集合,ε是总隐私预算;实现过程包括以下子步骤,
步骤D1,初始化分组集合为空集,当前最优分组包括第一个桶,待分组起始桶标识为1;
步骤D2,若已经对所有桶分组完毕,直接进入步骤D3,当还有待分的桶时,进行以下子步骤:
步骤D2-1,根据待分组起始桶标识初始化当前分组,并记为当前分组的最优分组;
步骤D2-2,遍历当前分组和待分组起始桶之后的桶构成的各种连续区域组合,寻找一个误差最小的组合,然后进入步骤D2-3;
步骤D2-3,更新已分组的集合和待分组桶的起始标识,接着下一个分组是从待分组桶的标识开始,重新回到步骤D2进行分组,直到所有的桶均已分组完毕;
步骤D3,返回分组集合;
第五模块,用于发布,包括对分组集合中的每个分组计算一个均值,然后对每个桶采用所属分组的均值进行近似表示,接着结合剩余的隐私预算以拉普拉斯机制生成噪声样本值后与所属分组包含桶的个数之间的比值作为最终噪声的大小,得到实施扰动后的扰动直方图,并用于发布。
10.根据权利要求8所述优先兼顾小桶可用性的差分隐私直方图发布系统,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1-7任一项所述的一种优先兼顾小桶可用性的差分隐私直方图发布方法。
CN202110345856.2A 2021-03-31 2021-03-31 优先兼顾小桶可用性的差分隐私直方图发布方法及系统 Active CN113434897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110345856.2A CN113434897B (zh) 2021-03-31 2021-03-31 优先兼顾小桶可用性的差分隐私直方图发布方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110345856.2A CN113434897B (zh) 2021-03-31 2021-03-31 优先兼顾小桶可用性的差分隐私直方图发布方法及系统

Publications (2)

Publication Number Publication Date
CN113434897A CN113434897A (zh) 2021-09-24
CN113434897B true CN113434897B (zh) 2022-07-05

Family

ID=77752943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110345856.2A Active CN113434897B (zh) 2021-03-31 2021-03-31 优先兼顾小桶可用性的差分隐私直方图发布方法及系统

Country Status (1)

Country Link
CN (1) CN113434897B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284620A (zh) * 2017-07-19 2019-01-29 中国移动通信集团黑龙江有限公司 一种发布数据的生成方法、装置和服务器
CN109492047A (zh) * 2018-11-22 2019-03-19 河南财经政法大学 一种基于差分隐私的精确直方图的发布方法
CN111737744A (zh) * 2020-06-22 2020-10-02 安徽工业大学 一种基于差分隐私的数据发布方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102175167B1 (ko) * 2018-05-09 2020-11-05 서강대학교 산학협력단 K-평균 클러스터링 기반의 데이터 마이닝 시스템 및 이를 이용한 k-평균 클러스터링 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284620A (zh) * 2017-07-19 2019-01-29 中国移动通信集团黑龙江有限公司 一种发布数据的生成方法、装置和服务器
CN109492047A (zh) * 2018-11-22 2019-03-19 河南财经政法大学 一种基于差分隐私的精确直方图的发布方法
CN111737744A (zh) * 2020-06-22 2020-10-02 安徽工业大学 一种基于差分隐私的数据发布方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
自适应差分隐私预算分配策略的直方图发布算法;唐海霞;《计算机应用研究》;20200731;第1952-1963页 *

Also Published As

Publication number Publication date
CN113434897A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
Idri et al. Missing data techniques in analogy-based software development effort estimation
TWI804575B (zh) 確定高風險用戶的方法及裝置、電腦可讀儲存媒體、和計算設備
CA2892301C (en) Data records selection
US10430605B1 (en) Differentially private database permissions system
CN112949837A (zh) 一种基于可信网络的目标识别联邦深度学习方法
CN110915165A (zh) 用于众包、分析和/或匹配个人数据的系统和方法
CN109446844B (zh) 一种面向大数据发布的隐私保护方法及系统
Khokhar et al. Quantifying the costs and benefits of privacy-preserving health data publishing
JP2018538587A (ja) リスク評価方法およびシステム
EP3736723B1 (en) Differentially private budget tracking using renyi divergence
Aminifar et al. Extremely randomized trees with privacy preservation for distributed structured health data
US11669806B2 (en) Retirement score calculator
Huang Causal mediation of semicompeting risks
Pandey et al. Stratified linear systematic sampling based clustering approach for detection of financial risk group by mining of big data
CN116186757A (zh) 一种效用增强的条件特征选择差分隐私数据发布方法
Liu et al. Bitcoin address clustering based on change address improvement
CN113434897B (zh) 优先兼顾小桶可用性的差分隐私直方图发布方法及系统
US8204900B2 (en) Metrics library
Gou et al. Encoding the citation life-cycle: the operationalization of a literature-aging conceptual model
CN116705310A (zh) 围术期风险评估的数据集构建方法、装置、设备及介质
Yu et al. Large-scale group decision-making
Zhu Personal information security environment monitoring and law protection using big data analysis
Ning et al. Dp-agm: a differential privacy preserving method for binary relationship in mobile networks
CN108846577B (zh) 一种基于情境分析的群体任务分配方法
Tu et al. A novel grey relational clustering model under sequential three-way decision framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant