CN112417500A - 一种隐私保护的数据流统计发布方法 - Google Patents

一种隐私保护的数据流统计发布方法 Download PDF

Info

Publication number
CN112417500A
CN112417500A CN202011294795.3A CN202011294795A CN112417500A CN 112417500 A CN112417500 A CN 112417500A CN 202011294795 A CN202011294795 A CN 202011294795A CN 112417500 A CN112417500 A CN 112417500A
Authority
CN
China
Prior art keywords
data
histogram
divided
privacy
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011294795.3A
Other languages
English (en)
Other versions
CN112417500B (zh
Inventor
范冰冰
蔡伟源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202011294795.3A priority Critical patent/CN112417500B/zh
Publication of CN112417500A publication Critical patent/CN112417500A/zh
Application granted granted Critical
Publication of CN112417500B publication Critical patent/CN112417500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种隐私保护的数据流统计发布方法,应用于数据流中的统计数据发布。该方法包括:利用固定大小的滑动窗口对数据流选取一定时间长度的数据,实时计算前一个发布与当前时刻的数据点的差异度;自适应地循环分配隐私预算,确定直方图的发布方式;使用轮盘赌选择排序算法,对当前时刻的数据进行排序,得到排序后的直方图数据;对排序后的直方图数据进行基于贪心思想聚类划分操作,得到多个分组;对得到的多个分组进行均值替代后添加噪声,发布对应的加噪直方图。本发明通过将轮盘赌选择与贪心聚类分组方法结合对直方图数据进行快速精确的排序分组,降低直方图数据的发布误差,有效保证数据流发布的数据可用性。

Description

一种隐私保护的数据流统计发布方法
技术领域
本发明属于数据开放共享与隐私保护技术领域,具体涉及一种隐私保护的数据流统计发布方法。
背景技术
数据开放共享能产生巨大的经济和社会价值:促进数据资源流通,提升政府治理能力和社会监管能力。而数据流的统计数据含有公民的个人信息,直接其发布到平台上进行开放共享会容易造成公民隐私泄露。有关数据流发布的隐私保护技术研究比较少。传统的隐私保护数据发布技术如数据匿名以及数据加密等无法满足数据流发布的隐私保护需求:数据匿名需要特殊的攻击假设和一定的背景知识,而且匿名处理后的数据被泛化为更概括性的值导致可用性较低;数据加密技术更适合用于数据传输方面的隐私保护,其计算开销较大,很少应用在数据开放共享领域中。
新颖的差分隐私技术能提供严谨的隐私保护强度定量分析和数学论证,能无视攻击者的最大背景知识,仍能保证记录的隐私信息不被泄露,同时保留数据的统计不变性。差分隐私技术一般用于静态数据发布中,动态数据流发布的应用研究接近一片空白;直接运用处理静态数据的差分隐私发布技术会为每个滑动窗口设定固定的隐私预算,添加定量的噪声,容易令窗口内积累的噪声过大导致数据的发布误差过大,数据失真度过高,降低发布数据的可用性;当需要根据数据特点调整窗口大小时会因为固定分配的隐私预算造成预算过早耗尽,缺少加噪的部分发布数据容易泄露用户隐私信息。当动态数据的更新频次超过给定阈值,差分隐私保护机制容易因预算耗尽而失败,发布数据的隐私信息便缺少有效保护。
为了在一定程度上克服现有技术存在的问题于与不足,本发明提供一种隐私保护的数据流统计发布方法。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种隐私保护的数据流统计发布方法,能够较好的满足流式数据发布的隐私保护需求。
本发明的目的是通过下述技术方案实现的:
一种隐私保护的数据流统计发布方法,包括以下步骤:
步骤一:利用固定大小的滑动窗口对数据流选取一定时间长度的数据,实时计算前一个发布与当前时刻的数据点的差异度;
步骤二:自适应地循环分配隐私预算,确定直方图的发布方式;
步骤三:使用轮盘赌选择排序算法,对当前时刻的数据进行排序,得到排序后的直方图数据;
步骤四:对所述排序后的直方图数据进行基于贪心思想的聚类划分操作,得到多个分组;
步骤五:对得到的多个分组进行均值替代后添加噪声,发布对应的加噪直方图;
优选的,在所述步骤一中,所述利用固定大小的滑动窗口对数据流选取一定时间长度的数据,实时计算前一个发布与当前时刻的数据点的差异度包括:
给定一个无限生成的数据流表示为T={D1,D2,…,Di-1,Di,…},其中,数据点Di表示为在时间区间[i-1,i)下,数据流中所有用户发生事件xi1、xi2、…、xid等的记录的统计数序列,Di={xi1,xi2,…,xid},其中,xij,j=1,2,…d为数据流在第i个时间戳下,发生了事件xj的记录{xj=1,0,…,0}的频数,对于任意时间戳i,激活一个w时间长度的滑动窗口覆盖i-w+1到i时间戳上的数据集,截选部分数据Tw={Di-w+1,Di-w+2,…,Di};
实时计算前一个发布与当前时刻的数据点的差异度
Figure BDA0002784893050000021
其计算方式为:
Figure BDA0002784893050000022
其中,
Figure BDA0002784893050000023
表示在时间戳i-1下发布的加噪直方图对应的数据,
Figure BDA0002784893050000024
k=1,2,…,d是指i-1时刻发布的加噪直方图中的事件k的桶计数。
优选的,在所述步骤二中,所述的自适应地循环分配隐私预算,确定直方图的发布方式包括:
计算数据点Di的待分配隐私预算εi,若当前时刻i小于窗口长度w,令
Figure BDA0002784893050000031
否则,
Figure BDA0002784893050000032
其中,ε代表总的隐私预算,εk为k时刻发布的数据点已分配的预算大小;
将前一个发布与当前时刻的数据点的差异度与待添加的噪声规模比较大小,如果差异度小于待添加的噪声规模,用前一个发布的直方图作为当前时刻数据点的发布,不分配隐私预算;
如果差异度大于待添加的噪声规模,给当前时刻的数据点分配隐私预算εi,用于后续发布,其中,待添加的噪声是指服从拉普拉斯分布的随机变量
Figure BDA0002784893050000033
S(F)为全局敏感度,噪声规模是指它的方差
Figure BDA0002784893050000034
优选的,所述步骤三中,轮盘赌选择排序算法包括以下步骤:
(3.1).将待发布的数据点转换为对应的直方图,从直方图中选择最小的桶计数ht作为选择条件,初始化一个空的排序队列,将ht从直方图中移除后加入到排序队列中;
(3.2).根据给出的选择条件,计算直方图中剩余桶计数的适应度;
(3.3).计算直方图中每个桶计数的选择概率和累计概率,然后用轮盘赌选择方法从中选择出一个桶计数hj,作为选择条件ht的下一个取值,将hj从直方图中移除后加入到排序队列的末端,更新选择条件的值为桶计数hj,即令ht=hj
(3.4).重复执行步骤(3.2)和步骤(3.3),直至直方图为空集,得到所述排序队列即为排序后的直方图数据。
优选的,所述桶计数的适应度和所述选择概率包括:
任意桶计数hi的适应度用fi表示,计算方式为
Figure BDA0002784893050000035
其中,隐私预算εi1是待分配隐私预算εi的组成部分,εi=εi1i2,u(H,hi)为效用函数,u(H,hi)=-|ht-hi|,Δu为效用函数的全局敏感度;
所述的选择概率是指从直方图H中选择出桶计数hi的概率P(H,hi),其计算方式为:
Figure BDA0002784893050000036
优选的,所述轮盘赌选择排序算法是一个随机算法,其输出范围为所述排队序列,每次选择以正比于
Figure BDA0002784893050000041
的概率选择出桶计数hj作为下一个桶计数,满足基于指数机制的εi1-差分隐私保护。
优选的,所述用轮盘赌选择方法从中选择出一个桶计数hj是指:使用均匀分布在[0,1]区间的随机变量生成一个随机数r,从直方图中选择一个桶计数hk,使得Qk-1<r≤Qk,k=1,2,…,n成立,更新桶计数hj的值为hk,其中,累计概率
Figure BDA0002784893050000042
Q0=0,Qn=1。
优选的,在所述步骤四中,所述对排序后的直方图数据进行基于贪心思想的聚类划分操作,得到多个分组包括:
(4.1).创建一个空分组作为待划分分组,将所述排序后的直方图的第一个桶计数作为待划分分组的第一个元素,令排序后的直方图的第二个桶计数为待划分分量;
(4.2).计算待划分分组的分组误差、待划分分量的误差下界与分组合并误差;
(4.3).如果所述误差下界与所述分组误差的和大于所述分组合并误差,将待划分分量添加到待划分分组,更新待划分分量为排序后直方图的下一个桶计数;否则,当前待划分分组完成划分,初始化一个空分组为待划分分组,继续判断待划分分量是否加入到待划分分组中;
(4.4)重复步骤(4.2)和(4.3),直至排序后的直方图所有元素完成划分,得到多个分组。
优选的,在所述步骤四中,所述待划分分组误差的、待划分分量的误差下界与分组合并误差的计算方式如下:
Figure BDA0002784893050000043
Figure BDA0002784893050000044
其中,分组合并误差与分组误差的计算方式相同,
Figure BDA0002784893050000045
是待划分分量,εi2=εii1;Gi为当前待划分分组,|Gi|表示第i个分组Gi包含的桶计数数量,
Figure BDA0002784893050000046
表示分组Gi的桶计数平均值,分组误差下界是指令待划分分组Gi达到分组误差最小的效果,对待划分分量
Figure BDA0002784893050000047
与后续所有元素划分至同一分组生成最小近似误差与噪声误差的保守估计值。
优选的,在所述步骤五中,所述对得到的多个分组进行均值替代后添加噪声,发布对应的加噪直方图包括:
对得到的直方图的多个分组,用其分组的计数平均值替换分组内的各个桶计数,然后添加服从拉普拉斯分布的随机变量Lap(1/εi2),发布满足ε-差分隐私保护的加噪直方图
Figure BDA0002784893050000051
本发明与现有技术相比所具有的优点与有益效果如下:
(1).本发明通过将相邻时刻的数据分布差异和噪声扰动比较,选择直方图的发布方式,根据不同的发布方式自适应地使用二分法对滑动窗口内的数据分配剩余的隐私预算,确保任意滑动窗口的累计隐私预算不超过总预算ε,满足差分隐私保护机制,数据流统计信息的发布的隐私性得到有效保证。
(2).本发明在根据发布方式不同,节省的隐私预算越多,后续时刻发布的数据可用预算更多,需要添加的噪声更少,整体的发布误差也就越少;结合本发明中的选择排序和聚类分组方法,将直方图的数据高效而准确的分组,有效降低数据的分组误差,令发布的数据更接近真实值,数据发布的可用性得到保证。
附图说明
附图1是根据本发明一个实施例的隐私保护的数据流统计发布方法流程图;
附图2是基于滑动窗口模型的数据流统计数据直方图发布示例图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供一种隐私保护的数据流统计发布方法,包括以下步骤:
步骤一:设定总隐私预算ε,用预设固定大小为w的滑动窗口,从实时产生的数据流T={D1,D2,…,Di-1,Di,…}中获取部分数据Tw={Di-w+1,Di-w+2,…,Di},实时计算前一个发布与当前时刻的数据点的差异度
Figure BDA0002784893050000061
其计算方式为:
Figure BDA0002784893050000062
其中,数据集Di表示在时间区间[i-1,i)内原始数据集属性上的计数序列Di={xi1,xi2,…,xid},d是属性取值的个数,
Figure BDA0002784893050000063
表示在时间戳i-1下发布的加噪直方图对应的数据,以
Figure BDA0002784893050000064
表示,
Figure BDA0002784893050000065
k=1,2,…是指i-1时刻发布的直方图中的事件k的桶计数。
步骤二:自适应地循环分配隐私预算,计算数据点Di的待分配隐私预算εi,若处于发布早期,数据流积累的时间长度小于窗口长度,即i<w,令
Figure BDA0002784893050000066
对窗口内w个数据点预先均分剩余隐私预算,使得ε以平稳的速度进行分配;否则,
Figure BDA0002784893050000067
其中,ε代表总的隐私预算,ε可以取0.01,0.1,ln2,ln3,1.0等值,
Figure BDA0002784893050000068
为k时刻发布的数据点已分配的预算大小。
将前一个发布与当前时刻的数据点的差异度
Figure BDA0002784893050000069
与待添加的噪声规模λi 2比较,确定直方图的发布方式。如果差异度
Figure BDA00027848930500000610
用前一个发布
Figure BDA00027848930500000611
作为Di的伪发布,即
Figure BDA00027848930500000612
εi=0;
如果差异度
Figure BDA00027848930500000613
给当前时刻数据集Di分配隐私预算εi,用于后续发布
Figure BDA00027848930500000614
其中,噪声是指服从拉普拉斯分布的随机变量
Figure BDA00027848930500000615
其均值为0,标准差为
Figure BDA00027848930500000616
方差为
Figure BDA00027848930500000617
S(F)是指全局敏感度,计数查询下,S(F)=1;
步骤三:使用轮盘赌选择排序算法,对当前时刻的数据进行排序,得到排序后的直方图数据,其具体步骤为:
(3.1).待发布的数据点Di={xi1,xi2,…,xid}转换为对应的直方图Hi={h1,h2,…,hn}。其中,xi1=h1,xi2=h2,…,xid=hn,d=n。从Hi中选择最小的桶计数作为ht,将ht从Hi中移除后加入到排序队列Hsorted中;
(3.2).将ht作为下一个桶计数的选择条件,计算Hi中剩余桶计数的适应度。其中,直方图Hi={h1,h2,…,hn}中的任意桶计数hi的适应度用fi表示,
Figure BDA0002784893050000071
隐私预算εi1是εi的组成部分,εi1建议取0.1εi、0.3εi、0.5εi等值。u(H,hi)为效用函数,其计算方式为u(H,hi)=-|ht-hi|。Δu为效用函数的全局敏感度。计数查询下,Δu=1。
(3.3).计算直方图中每个桶计数的选择概率和累计概率,选择概率是指从直方图Hi中选择出桶计数hi的概率P(H,hi),其计算方式为
Figure BDA0002784893050000072
其中分母表示为所有个体的适应度之和,分子表示个体hi的适应度。累计概率Qi的计算方式为
Figure BDA0002784893050000073
然后用轮盘赌选择方法从
Figure BDA0002784893050000074
中选择出一个桶计数hj,即使用均匀分布在[0,1]区间的随机变量生成一个随机数r,从样本集合Hsample选出一个桶计数hk,令hj=hk,使得Qk-1<r≤Qk,k=1,2,…,θ成立。其中,Q0=0,Qθ=1。作为选择条件ht的下一个取值,将hj从Hi移除后加入到排序队列Hsorted的末端,令ht=hj
(3.4).重复执行步骤(3.2)和步骤(3.3),直至直方图Hi为空集。得到排序后的直方图数据Hsorted={c1,c2,…cn}。
步骤四:对所述排序后的直方图数据进行基于贪心思想的聚类划分操作,得到多个分组。其过程如下:
(4.1).创建一个空分组
Figure BDA0002784893050000075
令当前待划分分组Gi=G1。将所述排序后的直方图Hsorted={c1,c2,…cn}中的第一个元素c1添加到分组Gi中。令当前待划分变量
Figure BDA0002784893050000076
(4.2).计算分组Gi的分组误差Error(Gi):
Figure BDA0002784893050000077
Figure BDA0002784893050000078
计算
Figure BDA00027848930500000717
分组误差下界
Figure BDA0002784893050000079
Figure BDA00027848930500000710
计算
Figure BDA00027848930500000711
加入到分组Gi的合并分组误差
Figure BDA00027848930500000712
其中,隐私预算εi2是分配给当前时刻数据集的隐私预算εi的部分,εi2=εii1。|Gi|表示第i个分组Gi包含的桶计数个数,
Figure BDA00027848930500000713
表示分组
Figure BDA00027848930500000714
的计数平均值;分组误差下界
Figure BDA00027848930500000715
是指令当前分组Gi达到分组误差最小的效果,对待划分分量
Figure BDA00027848930500000716
与后续所有元素划分至同一组生成最小近似误差与噪声误差的保守估计,分组误差由近似误差与噪声误差组成;。
(4.3)比较合并分组误差
Figure BDA0002784893050000081
和分组误差Error(Gi)与分组误差下界
Figure BDA0002784893050000082
的和的大小,如果
Figure BDA0002784893050000083
则待划分分量
Figure BDA0002784893050000084
加入到分组Gi中,下标j前移;否则,当前分组Gi完成划分,下标i前移,判断待划分分量
Figure BDA0002784893050000085
是否加入到新的当前分组Gi中。
(4.4).重复步骤(4.2)和(4.3),直至直方图Hsorted={c1,c2,…cn}所有元素被划分形成m个分组G={G1,G2,…,Gm}。
步骤五:对得到的直方图G={G1,G2,…,Gm}每个分组内的桶计数ci,用分组的计数平均值进行替代,然后添加服从拉普拉斯分布的随机变量Lap(1/εi2)。即
Figure BDA0002784893050000086
发布满足ε-差分隐私保护的加噪直方图
Figure BDA0002784893050000087
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种隐私保护的数据流统计发布方法,其特征在于,包括以下步骤:
步骤一:利用固定大小的滑动窗口对数据流选取一定时间长度的数据,实时计算前一个发布与当前时刻的数据点的差异度;
步骤二:自适应地循环分配隐私预算,确定直方图的发布方式;
步骤三:使用轮盘赌选择排序算法,对当前时刻的数据进行排序,得到排序后的直方图数据;
步骤四:对所述排序后的直方图数据进行基于贪心思想的聚类划分操作,得到多个分组;
步骤五:对得到的多个分组进行均值替代后添加噪声,发布对应的加噪直方图。
2.根据权利要求1所述的隐私保护的数据流统计发布方法,其特征在于,在所述步骤一中,所述利用固定大小的滑动窗口对数据流选取一定时间长度的数据,实时计算前一个发布与当前时刻的数据点的差异度包括:
给定一个无限生成的数据流表示为T={D1,D2,...,Di-1,Di,...},其中,数据点Di表示为在时间区间[i-1,i)下,数据流中所有用户发生事件xi1、xi2、...、xid等的记录的统计数序列,Di={xi1,xi2,...,xid}。,其中,xij,j=1,2,...d为数据流在第i个时间戳下,发生了事件xj的记录{xj=1,0,...,0}的频数,对于任意时间戳i,激活一个w时间长度的滑动窗口覆盖i-w+1到i时间戳上的数据集,截选部分数据Tw={Di-w+1,Di-w+2,...,Di}。;
实时计算前一个发布与当前时刻的数据点的差异度
Figure FDA0002784893040000011
其计算方式为:
Figure FDA0002784893040000012
其中,
Figure FDA0002784893040000013
表示在时间戳i-1下发布的加噪直方图对应的数据,
Figure FDA0002784893040000014
是指i-1时刻发布的加噪直方图中的事件k的桶计数。
3.根据权利要求1所述的隐私保护的数据流统计发布方法,其特征在于,在所述步骤二中,所述的自适应地循环分配隐私预算,确定直方图的发布方式包括:
计算数据点Di的待分配隐私预算εi,若当前时刻i小于窗口长度w,令
Figure FDA0002784893040000015
否则,
Figure FDA0002784893040000016
其中,ε代表总的隐私预算,εk为k时刻发布的数据点已分配的预算大小;
将前一个发布与当前时刻的数据点的差异度与待添加的噪声规模比较大小,如果差异度小于待添加的噪声规模,用前一个发布的直方图作为当前时刻数据点的发布,不分配隐私预算;
如果差异度大于待添加的噪声规模,给当前时刻的数据点分配隐私预算εi,用于后续发布,其中,待添加的噪声是指服从拉普拉斯分布的随机变量
Figure FDA0002784893040000021
S(F)为全局敏感度,噪声规模是指它的方差
Figure FDA0002784893040000022
4.根据权利要求1所述的隐私保护的数据流统计发布方法,其特征在于,所述步骤三中,轮盘赌选择排序算法包括以下步骤:
(3.1).将待发布的数据点转换为对应的直方图,从直方图中选择最小的桶计数ht作为选择条件,初始化一个空的排序队列,将ht从直方图中移除后加入到排序队列中;
(3.2).根据给出的选择条件,计算直方图中剩余桶计数的适应度;
(3.3).计算直方图中每个桶计数的选择概率和累计概率,然后用轮盘赌选择方法从中选择出一个桶计数hj,作为选择条件ht的下一个取值,将hj从直方图中移除后加入到排序队列的末端,更新选择条件的值为桶计数hj,即令ht=hj
(3.4).重复执行步骤(3.2)和步骤(3.3),直至直方图为空集,得到所述排序队列即为排序后的直方图数据。
5.根据权利要求4所述的隐私保护的数据流统计发布方法,其特征在于,所述桶计数的适应度和所述选择概率包括:
任意桶计数hi的适应度用fi表示,计算方式为
Figure FDA0002784893040000023
其中,隐私预算εi1是待分配隐私预算εi的组成部分,εi=εi1i2。,u(H,hi)为效用函数,u(H,hi)=-|ht-hi|。,Δu为效用函数的全局敏感度;
所述的选择概率是指从直方图H中选择出桶计数hi的概率P(H,hi),其计算方式为:
Figure FDA0002784893040000024
6.根据权利要求4所述的隐私保护的数据流统计发布方法,其特征在于,所述轮盘赌选择排序算法是一个随机算法,其输出范围为所述排队序列,每次选择以正比于
Figure FDA0002784893040000031
的概率选择出桶计数hj作为下一个桶计数,满足基于指数机制的εi1-差分隐私保护。
7.根据权利要求4所述的隐私保护的数据流统计发布方法,其特征在于,所述用轮盘赌选择方法从中选择出一个桶计数hj是指:使用均匀分布在[0,1]区间的随机变量生成一个随机数r,从直方图中选择一个桶计数hk,使得Qk-1<r≤Qk,k=1,2,...,n成立,更新桶计数hj的值为hk。,其中,累计概率
Figure FDA0002784893040000032
Q0=0,Qn=1。
8.根据权利要求1所述的隐私保护的数据流统计发布方法,其特征在于,在所述步骤四中,所述对排序后的直方图数据进行基于贪心思想的聚类划分操作,得到多个分组包括:
(4.1).创建一个空分组作为待划分分组,将所述排序后的直方图的第一个桶计数作为待划分分组的第一个元素,令排序后的直方图的第二个桶计数为待划分分量;
(4.2).计算待划分分组的分组误差、待划分分量的误差下界与分组合并误差;
(4.3).如果所述误差下界与所述分组误差的和大于所述分组合并误差,将待划分分量添加到待划分分组,更新待划分分量为排序后直方图的下一个桶计数;否则,当前待划分分组完成划分,初始化一个空分组为待划分分组,继续判断待划分分量是否加入到待划分分组中;
(4.4)重复步骤(4.2)和(4.3),直至排序后的直方图所有元素完成划分,得到多个分组。
9.根据权利要求8所述的隐私保护的数据流统计发布方法,其特征在于,在所述步骤四中,所述待划分分组误差的、待划分分量的误差下界与分组合并误差的计算方式如下:
Figure FDA0002784893040000033
Figure FDA0002784893040000034
其中,分组合并误差与分组误差的计算方式相同,
Figure FDA0002784893040000035
是待划分分量,εi2=εii1;Gi为当前待划分分组,|Gi|表示第i个分组Gi包含的桶计数数量,
Figure FDA0002784893040000041
表示分组Gi的桶计数平均值,分组误差下界是指令待划分分组Gi达到分组误差最小的效果,对待划分分量
Figure FDA0002784893040000043
与后续所有元素划分至同一分组生成最小近似误差与噪声误差的保守估计值。
10.根据权利要求9所述的隐私保护的数据流统计发布方法,其特征在于,在所述步骤五中,所述对得到的多个分组进行均值替代后添加噪声,发布对应的加噪直方图包括:
对得到的直方图的多个分组,用其分组的计数平均值替换分组内的各个桶计数,然后添加服从拉普拉斯分布的随机变量Lap(1/εi2),发布满足ε-差分隐私保护的加噪直方图
Figure FDA0002784893040000042
CN202011294795.3A 2020-11-18 2020-11-18 一种隐私保护的数据流统计发布方法 Active CN112417500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011294795.3A CN112417500B (zh) 2020-11-18 2020-11-18 一种隐私保护的数据流统计发布方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011294795.3A CN112417500B (zh) 2020-11-18 2020-11-18 一种隐私保护的数据流统计发布方法

Publications (2)

Publication Number Publication Date
CN112417500A true CN112417500A (zh) 2021-02-26
CN112417500B CN112417500B (zh) 2024-07-19

Family

ID=74773380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011294795.3A Active CN112417500B (zh) 2020-11-18 2020-11-18 一种隐私保护的数据流统计发布方法

Country Status (1)

Country Link
CN (1) CN112417500B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672979A (zh) * 2021-08-19 2021-11-19 安徽工业大学 基于桶结构划分的差分隐私非等距直方图发布方法和装置
CN113779633A (zh) * 2021-09-16 2021-12-10 咪咕文化科技有限公司 一种数据处理方法、装置及设备
CN114780974A (zh) * 2022-04-07 2022-07-22 中南民族大学 基于二分裂变的差分隐私直方图发布方法、系统及设备
CN115329898A (zh) * 2022-10-10 2022-11-11 国网浙江省电力有限公司杭州供电公司 基于差分隐私策略的分布式机器学习方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100069444A (ko) * 2008-12-16 2010-06-24 한국전자통신연구원 다수의 데이터 릴리즈를 지원하는 프라이버시 보존 데이터 클러스터링 방법
CN104090952A (zh) * 2014-07-02 2014-10-08 华中科技大学 一种估算滑动窗口下的数据流平均值的方法与系统
US20140317010A1 (en) * 2011-11-02 2014-10-23 Thomson Licensing Privacy auction mechanism
CN105046160A (zh) * 2015-07-21 2015-11-11 东华大学 一种基于直方图的面向数据流差分隐私发布方法
CN108763956A (zh) * 2018-05-24 2018-11-06 辽宁工业大学 一种基于分形维数的流式数据差分隐私保护发布方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100069444A (ko) * 2008-12-16 2010-06-24 한국전자통신연구원 다수의 데이터 릴리즈를 지원하는 프라이버시 보존 데이터 클러스터링 방법
US20140317010A1 (en) * 2011-11-02 2014-10-23 Thomson Licensing Privacy auction mechanism
CN104090952A (zh) * 2014-07-02 2014-10-08 华中科技大学 一种估算滑动窗口下的数据流平均值的方法与系统
CN105046160A (zh) * 2015-07-21 2015-11-11 东华大学 一种基于直方图的面向数据流差分隐私发布方法
CN108763956A (zh) * 2018-05-24 2018-11-06 辽宁工业大学 一种基于分形维数的流式数据差分隐私保护发布方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龚振 等: "数据集的语义关联发现方法研究", 计算机应用与软件, vol. 35, no. 8, 31 August 2018 (2018-08-31), pages 83 - 86 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672979A (zh) * 2021-08-19 2021-11-19 安徽工业大学 基于桶结构划分的差分隐私非等距直方图发布方法和装置
CN113672979B (zh) * 2021-08-19 2024-02-09 安徽工业大学 基于桶结构划分的差分隐私非等距直方图发布方法和装置
CN113779633A (zh) * 2021-09-16 2021-12-10 咪咕文化科技有限公司 一种数据处理方法、装置及设备
CN113779633B (zh) * 2021-09-16 2024-04-09 咪咕文化科技有限公司 一种数据处理方法、装置及设备
CN114780974A (zh) * 2022-04-07 2022-07-22 中南民族大学 基于二分裂变的差分隐私直方图发布方法、系统及设备
CN114780974B (zh) * 2022-04-07 2024-10-29 中南民族大学 基于二分裂变的差分隐私直方图发布方法、系统及设备
CN115329898A (zh) * 2022-10-10 2022-11-11 国网浙江省电力有限公司杭州供电公司 基于差分隐私策略的分布式机器学习方法及系统

Also Published As

Publication number Publication date
CN112417500B (zh) 2024-07-19

Similar Documents

Publication Publication Date Title
CN112417500A (zh) 一种隐私保护的数据流统计发布方法
Jiang et al. Model pruning enables efficient federated learning on edge devices
CN111475848B (zh) 保障边缘计算数据隐私的全局和局部低噪声训练方法
Cai et al. Dynamic sample selection for federated learning with heterogeneous data in fog computing
CN104951465B (zh) 应用推荐方法及装置
CN111694839B (zh) 基于大数据的时间序列指数构建方法、装置及计算机设备
Ma et al. Fast-convergent federated learning with class-weighted aggregation
CN109032630B (zh) 一种参数服务器中全局参数的更新方法
Ye et al. Multiple privacy regimes mechanism for local differential privacy
CN106156142A (zh) 一种文本聚类的处理方法、服务器及系统
Zhang et al. Device Scheduling and Assignment in Hierarchical Federated Learning for Internet of Things
Liu et al. DYNAMITE: Dynamic Interplay of Mini-Batch Size and Aggregation Frequency for Federated Learning with Static and Streaming Dataset
Wu et al. Historical information-based differential evolution for dynamic optimization problem
CN112685162A (zh) 边缘服务器异构计算资源的高效能调度方法、系统和介质
CN109285015A (zh) 一种虚拟资源的分配方法及系统
WO2023005264A1 (zh) 一种数据处理方法和装置
CN114118381B (zh) 基于自适应聚合稀疏通信的学习方法、装置、设备及介质
CN114723071A (zh) 一种基于客户端分类和信息熵的联邦学习方法及装置
Wen et al. Pargen: A parallel method for partitioning data stream applications in mobile edge computing
Ge et al. Accelerate distributed deep learning with cluster-aware sketch quantization
CN108875786B (zh) 基于Storm的食品数据并行计算一致性问题的优化方法
Al Jawarneh et al. SpatialSSJP: QoS-Aware Adaptive Approximate Stream-Static Spatial Join Processor
Wang et al. Privacy-Preserving Federated Generative Adversarial Network for IoT
CN111598390A (zh) 服务器高可用性评估方法、装置、设备和可读存储介质
CN108234180B (zh) 一种种子用户分配优化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant