CN113672956A - 面向数值分布计算的本地化差分隐私保护方法及系统 - Google Patents

面向数值分布计算的本地化差分隐私保护方法及系统 Download PDF

Info

Publication number
CN113672956A
CN113672956A CN202110962372.2A CN202110962372A CN113672956A CN 113672956 A CN113672956 A CN 113672956A CN 202110962372 A CN202110962372 A CN 202110962372A CN 113672956 A CN113672956 A CN 113672956A
Authority
CN
China
Prior art keywords
data
batch
data owner
distribution
owner client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110962372.2A
Other languages
English (en)
Other versions
CN113672956B (zh
Inventor
郭山清
白兴涛
唐朋
胡程瑜
刘高源
杨晨旭
赵洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110962372.2A priority Critical patent/CN113672956B/zh
Publication of CN113672956A publication Critical patent/CN113672956A/zh
Application granted granted Critical
Publication of CN113672956B publication Critical patent/CN113672956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了面向数值分布计算的本地化差分隐私保护方法及系统,服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者客户端数据的样本分布;基于所述样本分布,服务器获取第二批数据拥有者客户端数据,并计算第二批数据拥有者客户端数据的样本分布;服务器将前两批数据拥有者客户端数据的样本分布汇总,并发布;基于前t‑1批数据拥有者客户端数据的样本分布,服务器获取并计算第t批数据拥有者客户端数据的样本分布;服务器将前T批数据拥有者客户端数据的样本分布汇总,并发布;服务器基于汇总后的样本分布,按照累计分布,计算汇总后的样本分布的样本频率。实现数值分布计算过程中的数据拥有者客户端隐私保护。

Description

面向数值分布计算的本地化差分隐私保护方法及系统
技术领域
本发明涉及数据安全与隐私保护技术领域,特别是涉及面向数值分布计算 的本地化差分隐私保护方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有 技术。
每个数据拥有者客户端个体拥有一条数值属性的数据,比如数据拥有者客 户端个人的工资,或是年龄,或是浏览某一特定页面的时间等。实际应用中, 为了完成某些特定的查询任务,如均值查询,范围查询等,需要收集所有数据 拥有者客户端个体所拥有的数据来计算整体数据的数值分布。然而,数据中往 往包含数据拥有者客户端个体的敏感信息,数据拥有者客户端不太会想要分享 个人的真实数据给任何第三方数据收集者。因此,需要解决满足隐私保护的数 值属性数据数值分布计算问题。
本地化差分隐私作为一种新的隐私保护模型,不依赖与任何宣称自己是可信 的第三方实体,从数据拥有者客户端个体的角度出发对每个数据拥有者客户端 的真实数据提供隐私保护,即便第三方数据收集者是恶意的,也能够保证数据 拥有者客户端个体的隐私不被泄露。在该模型中,数据拥有者客户端通过在本 地将自己的真实数据添加适量噪音加以扰动,并将扰动后的数据发送给第三方 数据收集者,第三方数据收集者在收到所有数据拥有者客户端添加了扰动的数 据之后,对所有数据拥有者客户端的真实数据所组成的数据集的数值分布进行 计算。
基于该模型,现有工作提出了一些方案来解决该问题。
其中,一部分工作直接利用针对分类属性数据的频数估计协议来完成数值分 布计算,具体来说,首先对要收集的数据拥有者客户端数据所在的数值域通过 等距的数据分箱技术进行离散化,将离散后的每个箱子看做一个单独的分类, 并将数据拥有者客户端的数据所属的类标记为数据拥有者客户端个体所属的一 个分类属性,这样就将数据拥有者客户端的数值属性数据转化为分类属性的数 据,接着数据拥有者客户端会将添加了扰动之后的分类属性数据发送给第三方 数据收集者,最后第三方数据收集者会对收集到的数据进行统计集成并给出原 来的数值属性数据频率分布的计算结果。然而该方法没有考虑数值属性数据的 有序性特点,将每个分类看做一个黑盒模型,导致分布估计的准确性下降。
另一部分工作从信息论的角度出发,提出将数据拥有者客户端的真实数据进 行扰动时,将其扰动为其附近的一个数值比扰动为距离其较远的一个数值所带 来的有用信息更多,基于此观察提出了Square Wave(SW)扰动机制,并采用 ExpectationMaximization with Smoothing(EMS)算法作为后处理算法重构了数 值分布,提高了数值分布的准确性。
但是,发明人发现,以上方法在给出数值分布的计算结果时,并没有考虑利 用关于数据集的真实分布的先验知识所带来的有用信息,也没有考虑到数值分 布计算过程中的数据隐私保护。
发明内容
为了解决现有技术的不足,本发明提供了面向数值分布计算的本地化差分 隐私保护方法及系统;
第一方面,本发明提供了面向数值分布计算的本地化差分隐私保护方法;
面向数值分布计算的本地化差分隐私保护方法,包括:
服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者客户 端数据的样本分布;
基于第一批数据拥有者客户端数据的样本分布,服务器获取第二批数据拥 有者客户端数据,并计算第二批数据拥有者客户端数据的样本分布;
服务器将前两批数据拥有者客户端数据的样本分布汇总,并发布;
基于前t-1批数据拥有者客户端数据的样本分布,服务器获取第t批数据拥 有者客户端数据,并计算第t批数据拥有者客户端数据的样本分布;
服务器将前T批数据拥有者客户端数据的样本分布汇总,并发布;
服务器基于汇总后的样本分布,按照累计分布,计算汇总后的样本分布的 样本频率。
第二方面,本发明提供了面向数值分布计算的本地化差分隐私保护系统;
面向数值分布计算的本地化差分隐私保护系统,包括:服务器,和若干个 数据拥有者客户端;
服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者客户 端数据的样本分布;
基于第一批数据拥有者客户端数据的样本分布,服务器获取第二批数据拥 有者客户端数据,并计算第二批数据拥有者客户端数据的样本分布;
服务器将前两批数据拥有者客户端数据的样本分布汇总,并发布;
基于前t-1批数据拥有者客户端数据的样本分布,服务器获取第t批数据拥 有者客户端数据,并计算第t批数据拥有者客户端数据的样本分布;
服务器将前T批数据拥有者客户端数据的样本分布汇总,并发布;
服务器基于汇总后的样本分布,按照累计分布,计算汇总后的样本分布的 样本频率。
与现有技术相比,本发明的有益效果是:
在本地化场景下,每个数据拥有者客户端个体拥有一条数值类型的数据, 这被称为数值属性数据。为了完成某些特定的查询任务,如范围查询,需要收 集所有数据拥有者客户端个体的数据来计算整体数据的数值分布。然而,数据 中往往包含数据拥有者客户端个体的敏感信息。因此,需要解决满足隐私保护 的数值属性数据数值分布计算问题。该方法利用关于整体数据的分布的先验知 识来减小计算数值分布时的误差。本发明相对于已有的计算方法,能够为每个 数据拥有者客户端个体提供隐私保护的同时,显著提高计算结果的精度。
本发明从利用数据集分布的先验知识的角度出发,提出基于累计分布映射 的数值属性数据数值分布计算方法,以进一步提高分布计算结果的精度。也能 够实现数值分布计算过程中的数据拥有者客户端隐私保护。
本发明附加方面的优点将在下面的描述中部分给出,或通过本发明的实践了 解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。 除非另有指明,本发明使用的所有技术和科学术语具有与本发明所属技术领域 的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图 限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确 指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括” 和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系 列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步 骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备 固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和数据拥有者客户端同意的基 础上,对数据的合法应用。
术语介绍:
1.1累计分布映射
累计分布映射可以看做是一种数据转换算法,它将数据拥有者客户端个体 的数据本身和整个数据所满足的概率分布的累计分布建立一一映射关系,并通 过该映射将数据拥有者客户端个体的数据进行转换。例如,某公司的所有员工 的月工资处于区间[7k,15k)内,经过统计得到,月工资位于区间[7k,9k)内的 员工占比为40%,月工资位于区间[9k,11k)内的员工占比为30%,月工资位于 [11k,13k)内的员工占比为20%,月工资位于[13k,15k)内的员工占比为10%, 由此可以得到该公司员工月工资数据分布情况。有了月工资数据的概率分布后, 假设每个区间内的数据服从均匀分布,则可以计算区间[7k,15k)内任意一点v 的累计分布F(v)。例如,当v=12k时,
Figure BDA0003222554450000061
也就是说可以建立数据拥有者客户端个体的数据v与所有数据拥有者客户端的 数据所满足的样本分布的累计分布F(v)之间的映射关系
Figure BDA0003222554450000062
使得
Figure BDA0003222554450000063
且这种映射关系是一一映射,即不存在两个数据拥有者客户端的不同数据映射 到同一个累计分布值。
1.2本地化差分隐私
差分隐私作为一种较好的隐私保护技术,可以为数据集中个体敏感信息提 供一种严格的、可量化的隐私保护。差分隐私采用隐私参数ε来度量对数据拥有 者客户端个体的敏感信息的隐私保护强度,ε越小,表示所提供的隐私强度越高。 差分隐私在实际应用时,分为中心化差分隐私和去中心化的差分隐私两种模型。 其中,去中心化的差分隐私也被称为本地化差分隐私,相比于中心化的差分隐 私模型,它不依赖与任何可信的第三方,在本地就对数据拥有者客户端的数据 进行保护,是一种更强健的隐私保护模型。该模型一般包含如下过程:
Encode:是由数据拥有者客户端通过采用某种编码算法来完成的,该算法 以数据拥有者客户端个人的真实数据v作为输入,并给出一个编码值x作为输出 结果,即有Encode(v)=x。
Perturb:在得到编码值x后,数据拥有者客户端又采用某种随机响应算法对 编码值x进行扰动,得到扰动结果y,即有y=Perturb(Encode(v)),并将该扰动 结果y报告给第三方数据收集者。为了方便,令PE(·)来表示编码和扰动两种算 法的组合,即PE(·)=Perturb(Encode(·))。由于PE(·)是以数据拥有者客户端的 真实数据作为输入进行计算的,为了保护数据拥有者客户端个人隐私,PE(·)应 该满足下文中给出的本地化差分隐私的定义。
Aggregate:由第三方数据收集者采用某种统计算法来完成,该算法以所有数 据拥有者客户端的报告值作为输入,并输出关于数据拥有者客户端的真实数据 的某些统计信息的估计结果,如估计某公司内所有员工的月工资处于某一特定 区间的员工占比。
基于该模型,下面给出本地化差分隐私的定义。
本地化差分隐私:给定一个随机算法ψ(·)和隐私参数ε,其中ε≥0,对于数 据集D中任意的两个输入v1∈D,v2∈D和任意的输出结果
Figure BDA0003222554450000071
当且仅当ψ(·)满 足:
Pr[ψ(v1)=T]≤eε×Pr[ψ(v2)=T],
则称算法ψ(·)是满足ε-本地化差分隐私的,其中
Figure BDA0003222554450000072
表示算法ψ(·)的所有可能的输出结果所组成的集合,Pr[·]表示随机算法的输出为某个特定结果的概率。
也就是说,在该模型中,数据拥有者客户端采用满足上述定义的算法PE(·)对 个人数据添加扰动,以此来保护个人的隐私。在实际应用中,PE(·)主要是一类 随机响应算法。
基于累计分布映射和本地化差分隐私这两个要素,我们给出满足本地化差 分隐私的数值属性数据数值分布计算问题的形式化描述:
存在n个数据拥有者(即数据拥有者客户端)和1个聚合服务器,每个数据 拥有者客户端Uk(其中1≤k≤n)拥有一条数值类型的数据vk。所有数据拥有 者客户端的数据组成了一个数据集D={v1,v2,…,vn},聚合服务器想要知道数据 集D中的数据拥有者客户端数据的数值分布f(v1,v2,…,vn)。为了保护数据拥有 者客户端个体的隐私,即便聚合服务器声称自己是可信的,数据拥有者客户端 也不会将自己的真实数据报告给它,而是采用某种本地化差分隐私算法ψ对真实 数据vk添加适量的噪音,得到带有噪音的结果
Figure RE-GDA0003260655850000081
Figure RE-GDA0003260655850000082
之 后将
Figure RE-GDA0003260655850000083
报告给服务器。服务器在收到所有数据拥有者客户端的报告值后,尽可 能准确地推断数值分布f(v1,v2,…,vn),并给出该分布的计算结果
Figure RE-GDA0003260655850000084
使得
Figure RE-GDA0003260655850000085
本发明的目的在于,设计算法对数据拥有者客户端的数值属性数据进行收 集,该算法能够为每一个数据拥有者客户端提供隐私保护,即算法满足本地化 差分隐私的定义,并且在收集到所有数据后,能够更有效的给出数值分布的计 算结果,显著提高了分布估计结果的精度。
本发明的核心思想是:
在没有任何先验知识的假设下首先收集一部分数据拥有者客户端的数据, 在获得了这部分数据拥有者客户端数据的样本分布后,相当于获得了关于整个 数据集分布的一部分先验知识,然后利用这部分先验知识可以指导后续数据拥 有者客户端数据的收集,提高收集的数据效用。
接下来考虑如何利用先验知识来指导后续数据拥有者客户端数据的收集。现 有的研究工作中已经提出了一些Frequency Oracle协议对数据拥有者客户端的数 据进行收集并给出了在所要收集的所有数据组成的数据集中某个特定数值点i的 真实频率fi的估计值
Figure RE-GDA0003260655850000086
即fi表示在所有数据拥有者客户端中,数据拥有者客户 端个人所拥有的真实数据等于该特定数值v的数据拥有者客户端人数占比,
Figure RE-GDA0003260655850000087
表 示聚合服务器根据收集到的对真实数据加了扰动的报告值后计算得到的fi的估 计结果。有研究者对这些协议的数据精度进行了分析并得出以下结论:
Figure RE-GDA0003260655850000088
且si~N(0,σi),
其中,σi表示
Figure RE-GDA0003260655850000089
的方差且σi=a+b*fi
Figure RE-GDA00032606558500000810
n为数据 拥有者客户端人数参数,p*与q*为扰动概率参数且
Figure RE-GDA0003260655850000091
也就是说,估计值
Figure RE-GDA0003260655850000092
可以看作是在真实频率fi的基础上加上一部分服从正态分 布的噪音si。基于上述结论,考虑从整个数据集的样本分布的角度出发,以 Kullback-leibler(KL)散度作为评价指标对数据精度作进一步的分析。
假定数据集的真实分布和根据协议计算得到的估计分布分别表示为P和Q, 数据集的数据域为[1,d],则有:
Figure BDA0003222554450000093
对上式求期望得:
Figure BDA0003222554450000094
由于
Figure BDA0003222554450000095
利用调和平均数不大于自身的算术平均数知,
Figure BDA0003222554450000096
当且仅当
Figure BDA0003222554450000097
时取等号。也就是说,当数据集的分布是均匀分布时,收集数据所带来的误差是最小的。
实施例一
本实施例提供了面向数值分布计算的本地化差分隐私保护方法;
如图1所示,面向数值分布计算的本地化差分隐私保护方法,包括:
S1:服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者 客户端数据的样本分布;
S2:基于第一批数据拥有者客户端数据的样本分布,服务器获取第二批数 据拥有者客户端数据,并计算第二批数据拥有者客户端数据的样本分布;
S3:服务器将前两批数据拥有者客户端数据的样本分布汇总,并公开发布 给所有数据拥有者客户端;
S4:基于前t-1批数据拥有者客户端数据的样本分布,服务器获取第t批数 据拥有者客户端数据,并计算第t批数据拥有者客户端数据的样本分布;t为正 整数;
S5:服务器将前T批数据拥有者客户端数据的样本分布汇总,并公开发布 给所有数据拥有者客户端;T为正整数;
S6:服务器基于汇总后的样本分布,按照累计分布,计算汇总后的样本分 布的样本频率。
进一步地,所述S1:服务器获取第一批数据拥有者客户端数据,并计算第 一批数据拥有者客户端数据的样本分布;具体包括:
S11:第一批数据拥有者客户端,均对自己的真实数据添加扰动,生成扰动 数据;服务器采集第一批数据拥有者客户端所生成的扰动数据;其中,第一批 数据拥有者客户端数量占整体数据拥有者客户端数量的
Figure BDA0003222554450000101
S12:服务器计算第一批数据拥有者客户端数据的样本分布。
进一步地,所述S11:第一批数据拥有者客户端,均对自己的真实数据添加 扰动,生成扰动数据;是采用方波(Square Wave(SW))扰动机制实现扰动的 添加。
进一步地,所述S11:第一批数据拥有者客户端,均对自己的真实数据添加 扰动,生成扰动数据;具体包括:
S111:第一批数据拥有者客户端,均将自己的真实数据压缩为区间[0,1]上的 浮点数,记区间[0,1]=D;
S112:设置表示隐私保护强度的参数ε的取值,ε越大,表示提供的隐私保 护强度越高,反之则越低;
对于S111中得到的每一个数据拥有者客户端的浮点数v,该算法以如下概 率输出扰动结果
Figure BDA0003222554450000111
即有:
Figure BDA0003222554450000112
其中D=[0,1]表示S111中得到的所有数据拥有者客户端的浮点数可能的取 值集合,
Figure BDA0003222554450000113
表示所有可能的扰动结果的取值集合,
Figure BDA0003222554450000114
是 一个正数,
Figure BDA0003222554450000115
表示将某个浮点数v通过方波(SW)扰动机制扰动为 某个值
Figure BDA0003222554450000116
的概率,p与q都是正数且
Figure BDA0003222554450000117
S113:在得到扰动结果
Figure BDA0003222554450000118
后,数据拥有者客户端将其报告给服务器。
进一步地,所述S12:服务器计算第一批数据拥有者客户端数据的样本分布; 是服务器在拿到第一批数据拥有者客户端的报告结果后,采用带有平滑的期望 最大化(Expectation Maximization with Smoothing(EMS))算法作为后处理算法 来推断第一批数据拥有者客户端的真实数据的样本分布。该算法采用最大似然 估计的思想,通过多次迭代来进行计算。
进一步地,所述S12:服务器计算第一批数据拥有者客户端数据的样本分布; 具体包括:
S121:区间划分:将SW算法的输入域D和输出域
Figure RE-GDA0003260655850000119
都等距划分为K个相互独 立的子区间,并将每个区间看作一个独立的桶,记划分输入域D的K个桶(从左 到右)分别为B1,B2,…,BK;划分输出域
Figure RE-GDA00032606558500001110
的K个桶(从左到右)分别为
Figure RE-GDA00032606558500001111
S122:计算概率转移矩阵:定义一个K×K维的概率转移矩阵M来刻画SW 扰动算法的扰动过程,其中Mj,i表示,当数据拥有者客户端的数据v作为SW扰 动算法的输入落在划分输入域的第i个桶内即v∈Bi时,SW扰动算法以概率Mj,i输出扰动结果
Figure BDA0003222554450000121
且扰动结果
Figure BDA0003222554450000122
落在划分输出域的第j个桶内,即有
Figure BDA0003222554450000123
假定 划分输入域的每个桶内的数据是服从均匀分布的,计算矩阵M中的元素Mj,i, i,j=1,2,…,K;
S123:统计报告值:在收到所有数据拥有者客户端的扰动结果后,服务器统 计数据拥有者客户端的扰动值落在划分输出域
Figure RE-GDA0003260655850000124
的K个桶内的数据点的个数,记 落入桶
Figure RE-GDA0003260655850000125
内的数据点个数为nj,j=1,2,…,K;
S124:计算第一批数据拥有者客户端数据的样本分布:采用多次迭代的方 式计算数据拥有者客户端的真实数据点落在桶Bi内的样本占比,并给出最终的 计算结果
Figure RE-GDA0003260655850000126
Figure RE-GDA0003260655850000127
进一步地,所述S124具体步骤包括:
S1241:计算期望。对
Figure RE-GDA0003260655850000128
设定
Figure RE-GDA0003260655850000129
为均匀分布,即令
Figure RE-GDA00032606558500001210
计算
Figure RE-GDA00032606558500001211
其中,
Figure RE-GDA00032606558500001212
表示第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的 用户占比,
Figure RE-GDA00032606558500001213
表示已知当前的数据集服从分布
Figure RE-GDA00032606558500001214
并且数据拥 有者客户端的数据v作为SW扰动算法的输入落在划分输入域的第i个桶内即 v∈Bi时,SW扰动算法输出扰动结果
Figure RE-GDA00032606558500001215
且扰动结果
Figure RE-GDA00032606558500001216
落在划分输出域的第j个 桶内的条件概率;
Figure RE-GDA00032606558500001217
表示已知当前的数据集分布
Figure RE-GDA00032606558500001218
为均匀分布时,SW 扰动算法输出扰动结果
Figure RE-GDA0003260655850000131
且扰动结果
Figure RE-GDA0003260655850000132
落在划分输出域的第j个桶内的条件概率。
S1242:期望最大化。由S1241得到的计算结果对分布估计结果
Figure RE-GDA0003260655850000133
进行更新, 即对
Figure RE-GDA0003260655850000134
Figure RE-GDA0003260655850000135
其中,Pi是由S1241中得到的参数,
Figure RE-GDA0003260655850000136
表示第一批数据拥有者客户端的数据落 在划分输入域的第i个桶内更新后的用户占比。
S1243:平滑操作。对S1242中得到的更新结果
Figure RE-GDA0003260655850000137
利用平滑算法进行处理, 即对
Figure RE-GDA0003260655850000138
Figure RE-GDA0003260655850000139
其中,等式右边中的
Figure RE-GDA00032606558500001310
Figure RE-GDA00032606558500001311
是由S1242中得到的第一批数据拥有者 客户端的数据分别落在划分输入域的第i-1、第i+1和第i个桶内的用户占比; 等式左边的
Figure RE-GDA00032606558500001312
表示由S1242中得到的第一批数据拥有者客户端的数据落在划分 输入域的第i个桶内的用户占比经过平滑操作之后的结果。
S1244:计算当前更新后的分布参数
Figure RE-GDA00032606558500001313
下的似然函数
Figure RE-GDA00032606558500001314
Figure RE-GDA00032606558500001315
其中,n1表示第一批数据拥有者客户端的人数,
Figure RE-GDA00032606558500001316
表示第k个数据拥有者客 户端的报告值,
Figure RE-GDA00032606558500001317
表示由S1243中得到的第一批数据拥有者客户端的数据落在 划分输入域的第i个桶内的用户占比;
Figure RE-GDA00032606558500001318
的取值取决于
Figure RE-GDA00032606558500001319
落在输出域
Figure RE-GDA00032606558500001320
上的位置,是一个概率值。
比如,当
Figure RE-GDA00032606558500001321
时,该概率值就等于Mj,i
S1245:判断停止迭代条件:根据S1244计算得到的在当前迭代下的似然函 数的结果,假设当前为第t+1次迭代过程,对于一个正数τ来说,当
Figure BDA0003222554450000141
Figure BDA0003222554450000142
时,带有平滑的期望最大化(EMS)算法收敛,即停止进行操作, 并将当前的估计值
Figure BDA0003222554450000143
作为最终的输出结果,否则,继续执行S1241~S1243中的操 作对参数
Figure BDA0003222554450000144
进行更新,并执行S1244再次计算似然函数以判断是否停止迭代;
由于该似然函数是一个凹函数,根据凸优化理论,该算法一定会收敛。
S1246:输出并公开样本分布:由S1245最终得到的第一批数据拥有者客户 端的数据在数据域D上的样本分布
Figure RE-GDA0003260655850000145
计算每个桶内的样本密度
Figure RE-GDA0003260655850000146
记此时的桶分割点集合为R1={Q1,0,Q1,1,…,Q1,K}, 且
Figure RE-GDA0003260655850000147
其中下角标中的1表示第一批数据拥有者客户端。 聚合服务器将集合R1和样本分布
Figure RE-GDA0003260655850000148
进行公开,以便收集第二批数 据拥有者客户端的数据。
应理解的,所述S1在没有任何关于数据集先验知识的前提下,对第一批数 据拥有者客户端的数据进行收集,并根据收集来的数据计算第一批数据拥有者 客户端的真实数据的样本分布。
应理解的,S11的第一批数据拥有者客户端,均对自己的真实数据添加扰动, 生成扰动数据;是出于保护隐私的考虑。
进一步地,所述S2:基于第一批数据拥有者客户端数据的样本分布,服务 器获取第二批数据拥有者客户端(占整体数据拥有者客户端数量的
Figure BDA0003222554450000149
)数据,并计 算第二批数据拥有者客户端数据的样本分布;具体包括:
S21:第二批数据拥有者客户端首先将自己的真实数据压缩为区间[0,1]上的 浮点数;
S22:服务器在获得了第一批数据的样本分布后,按照累计分布的定义,可 以计算出区间[0,1]上任意一点v的累计分布F1(v)。根据任何一个概率分布的累 计分布是服从均匀分布的,通过第一批数据的样本分布,将第二批数据拥有者 客户端的数据v与第一批数据的样本分布的累计分布值F1(v)建立映射关系,并通 过映射关系将第二批数据拥有者客户端的数据进行转化,即有 映射
Figure BDA0003222554450000151
[0,1]→[0,1]
v→F1(v)
S23:利用方波(SW)扰动算法对S22得到的将第二批数据拥有者客户端 的数据进行转化后的数据F1(v)添加扰动,并将扰动结果上传给服务器;
S24:利用带有平滑的期望最大化(EMS)算法计算,将第二批数据拥有者 客户端的数据进行转化后的数据F1(v)的样本分布,并输出每个区间的样本密度, 记为p2k,1≤k≤K。其中,下标2表示第二批数据拥有者客户端;
S25:由于映射
Figure BDA0003222554450000152
是一个双射,v与F1(v)是一一对应的,从而映射前关于第 二批原始数据v∈[0,1]的分布的K个桶的样本频率与映射后关于数据F1(v)∈ [0,1]的分布的K个桶的样本频率也是一一对应的(从左往右看)。那么得到映射 前关于第二批原始数据分布的K个桶的样本频率为x2k=p2k,这K个桶的分割点 坐标根据映射关系计算得到,记此时桶分割点集合为:
R2=Q2,0,Q2,1,…,Q2,K}。
有了分割点的坐标便得到每个桶的宽度w2k=Q2,k-1-Q2,k
同样地,利用桶内样本频率x2k和桶的宽度w2k,计算该桶内样本分布的密 度
Figure BDA0003222554450000153
在获得了第一批数据拥有者客户端的样本分布后,利用第一批数据拥有者 客户端的样本分布作为先验知识来指导第二批数据的收集。采用基于累计分布 函数来建立映射的方法对第二批数据进行转化,使得转化后的数据服从均匀分 布。
进一步的,所述S3:服务器将前两批数据拥有者客户端数据的样本分布汇 总,并发布;具体包括:
S31:将桶分割点集合R1与R2取并集,并将集合中的元素按照从小到大的顺 序进行排列,便得到了合并后的分界点集合。
S32:S31中得到的分界点将整个区间划分成多个小区间,按照统计得到的 第一批数据拥有者客户端数据在桶分割集合R1下的样本密度h1k和第二批数据 拥有者客户端数据在桶分割集合R2下的样本密度h2k,计算在合并后的分界点集 合下,每个区间的样本密度,即为这两批数据在该区间的样本密度取平均,并 将该计算结果进行公开。
进一步的,所述S4:基于前t-1批数据拥有者客户端数据的样本分布,服务 器获取第t批数据拥有者客户端(占整体数据拥有者客户端数量的
Figure BDA0003222554450000161
)数据,并计算 第t批数据拥有者客户端数据的样本分布;具体包括:
收集并计算第t批数据拥有者客户端数据的样本分布,3≤t≤T。与S3中 对第二批数据拥有者客户端的计算步骤是类似的,唯一不同的地方在于,此时 是根据将前t-1批数据拥有者客户端数据的统计结果汇总之后得到的样本分布 来建立映射关系
Figure BDA0003222554450000162
的。
记计算得到关于第t批数据拥有者客户端数据的样本分布的K个桶的样本密 度为htk,1≤k≤K,且桶分割点集合为Rt={Qt,0,Qt,1,…,Qt,K},3≤t≤T。
进一步的,所述S5:服务器将前T批数据拥有者客户端数据的样本分布汇 总,并发布;具体包括:
服务器在获得了前T批数据拥有者客户端数据的样本分布后,相当于完成了 所有数据拥有者客户端数据的收集和统计,需要将前T次的统计结果进行汇总。
汇总的方法与S3采用的方法是一样的。也是首先将分割点集合R1,R2,…,RT取并集,并将集合中的元素按照从小到大的顺序进行排列,便得到了合并后的 分界点集合;下一步按照前T轮统计获得的样本密度h1,k,h2,k,…,hT,k,1≤k≤K, 计算在合并后的分界点集合下,每个区间的样本密度,即为前T轮统计在该区间 的样本密度取平均。
进一步的,所述S6:服务器基于汇总后的样本分布,按照累计分布,计算 汇总后的样本分布的样本频率;具体包括:
输出最终的样本分布。服务器根据得到的汇总后的样本分布,按照累计分 布的定义,计算汇总后的样本分布在桶分割点集合R1下每个桶内的样本频率, 记这K个内的样本频率分别为
Figure RE-GDA0003260655850000171
本发明涉及到两类实体,n个数据拥有者客户端和1个服务器。每个数据拥 有者客户端Uk(其中1≤k≤n)拥有一条数据vk。服务器利用n个数据拥有者 客户端的数据计算其整体数据的数值分布,并保证每一个数据拥有者客户端的 隐私保护需求。该方法主要利用有关数据拥有者客户端个体的整体数据的分布 的先验知识来减小收集数据的误差。通过对已有的计算方法进行分析发现,来 数据拥有者客户端个体的整体数据的分布服从均匀分布时,计算数值分布的误 差是最小的。
假定要收集的数据拥有者客户端的数据所在的数据域为[1,d],数据拥有者 客户端总数为n,收集的轮数为T。
为了更好地验证本发明一种满足本地化差分隐私的数值属性数据数值分布 计算方法的效果,本发明将本发明中方法在三种数据集上与现有方法进行了对 比。这三种数据集包括一个合成的数据集即Synthetic Beta(5,2)dataset和两个公 开的源于真实世界的数据集Taxi pickup time dataset和Retirement dataset。对 比方法包括Hierarchy-based methods和基于Square Wave mechanism的计算方 法。实验结果表明,本发明计算出的数值分布具有更高的精度。
实施例二本实施例提供了面向数值分布计算的本地化差分隐私保护系统;
面向数值分布计算的本地化差分隐私保护系统,包括:服务器,和若干个 数据拥有者客户端;
服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者客户 端数据的样本分布;
基于第一批数据拥有者客户端数据的样本分布,服务器获取第二批数据拥 有者客户端数据,并计算第二批数据拥有者客户端数据的样本分布;
服务器将前两批数据拥有者客户端数据的样本分布汇总,并发布;
基于前t-1批数据拥有者客户端数据的样本分布,服务器获取第t批数据拥 有者客户端数据,并计算第t批数据拥有者客户端数据的样本分布;
服务器将前T批数据拥有者客户端数据的样本分布汇总,并发布;
服务器基于汇总后的样本分布,按照累计分布,计算汇总后的样本分布的 样本频率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领 域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则 之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.面向数值分布计算的本地化差分隐私保护方法,其特征是,包括:
服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者客户端数据的样本分布;
基于第一批数据拥有者客户端数据的样本分布,服务器获取第二批数据拥有者客户端数据,并计算第二批数据拥有者客户端数据的样本分布;
服务器将前两批数据拥有者客户端数据的样本分布汇总,并发布;
基于前t-1批数据拥有者客户端数据的样本分布,服务器获取第t批数据拥有者客户端数据,并计算第t批数据拥有者客户端数据的样本分布;
服务器将前T批数据拥有者客户端数据的样本分布汇总,并发布;
服务器基于汇总后的样本分布,按照累计分布,计算汇总后的样本分布的样本频率。
2.如权利要求1所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者客户端数据的样本分布;具体包括:
第一批数据拥有者客户端,均对自己的真实数据添加扰动,生成扰动数据;服务器采集第一批数据拥有者客户端所生成的扰动数据;其中,第一批数据拥有者客户端数量占整体数据拥有者客户端数量的
Figure FDA0003222554440000011
服务器计算第一批数据拥有者客户端数据的样本分布。
3.如权利要求2所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,第一批数据拥有者客户端,均对自己的真实数据添加扰动,生成扰动数据;是采用方波扰动机制实现扰动的添加。
4.如权利要求2所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,第一批数据拥有者客户端,均对自己的真实数据添加扰动,生成扰动数据;具体包括:
第一批数据拥有者客户端,均将自己的真实数据压缩为区间[0,1]上的浮点数,记区间[0,1]=D;
设置表示隐私保护强度的参数ε的取值,ε越大,表示提供的隐私保护强度越高,反之则越低;
对于得到的每一个数据拥有者客户端的浮点数v,该算法以如下概率输出扰动结果
Figure FDA0003222554440000021
即有:
Figure FDA0003222554440000022
其中D=[0,1]表示得到的所有数据拥有者客户端的浮点数可能的取值集合,
Figure FDA0003222554440000023
表示所有可能的扰动结果的取值集合,
Figure FDA0003222554440000024
是一个正数,
Figure FDA0003222554440000025
表示将某个浮点数v通过方波扰动机制扰动为某个值
Figure FDA0003222554440000026
的概率,p与q都是正数且
Figure FDA0003222554440000027
在得到扰动结果
Figure FDA0003222554440000028
后,数据拥有者客户端将其报告给服务器。
5.如权利要求2所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,服务器计算第一批数据拥有者客户端数据的样本分布;是服务器在拿到第一批数据拥有者客户端的报告结果后,采用带有平滑的期望最大化算法作为后处理算法来推断第一批数据拥有者客户端的真实数据的样本分布;该算法采用最大似然估计的思想,通过多次迭代来进行计算。
6.如权利要求2所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,服务器计算第一批数据拥有者客户端数据的样本分布;具体包括:
区间划分:将SW算法的输入域D和输出域
Figure RE-FDA0003260655840000029
都等距划分为K个相互独立的子区间,并将每个区间看作一个独立的桶,记划分输入域D的K个桶分别为B1,B2,…,BK;划分输出域
Figure RE-FDA0003260655840000031
的K个桶分别为
Figure RE-FDA0003260655840000032
计算概率转移矩阵:定义一个K×K维的概率转移矩阵M来刻画SW扰动算法的扰动过程,其中Mj,i表示,当数据拥有者客户端的数据v作为SW扰动算法的输入落在划分输入域的第i个桶内即v∈Bi时,SW扰动算法以概率Mj,i输出扰动结果
Figure RE-FDA0003260655840000033
且扰动结果
Figure RE-FDA0003260655840000034
落在划分输出域的第j个桶内,即有
Figure RE-FDA0003260655840000035
假定划分输入域的每个桶内的数据是服从均匀分布的,计算矩阵M中的元素Mj,i,i,j=1,2,…,K;
统计报告值:在收到所有数据拥有者客户端的扰动结果后,服务器统计数据拥有者客户端的扰动值落在划分输出域
Figure RE-FDA0003260655840000036
的K个桶内的数据点的个数,记落入桶
Figure RE-FDA0003260655840000037
内的数据点个数为nj,j=1,2,…,K;
计算第一批数据拥有者客户端数据的样本分布:采用多次迭代的方式计算数据拥有者客户端的真实数据点落在桶Bi内的样本占比,并给出最终的计算结果
Figure RE-FDA0003260655840000038
i=1,2,…,K,记
Figure RE-FDA0003260655840000039
7.如权利要求6所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,所述计算第一批数据拥有者客户端数据的样本分布;具体步骤包括:
(1)计算期望:对
Figure RE-FDA00032606558400000310
设定
Figure RE-FDA00032606558400000311
为均匀分布,即令
Figure RE-FDA00032606558400000312
计算
Figure RE-FDA00032606558400000313
其中,
Figure RE-FDA00032606558400000314
表示第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比,
Figure RE-FDA00032606558400000315
表示已知当前的数据集服从分布
Figure RE-FDA00032606558400000316
并且数据拥有者客户端的数据v作为SW扰动算法的输入落在划分输入域的第i个桶内即v∈Bi时,SW扰动算法输出扰动结果
Figure RE-FDA0003260655840000041
且扰动结果
Figure RE-FDA0003260655840000042
落在划分输出域的第j个桶内的条件概率;
Figure RE-FDA0003260655840000043
表示已知当前的数据集分布
Figure RE-FDA0003260655840000044
为均匀分布时,SW扰动算法输出扰动结果
Figure RE-FDA0003260655840000045
且扰动结果
Figure RE-FDA0003260655840000046
落在划分输出域的第j个桶内的条件概率;
(2)期望最大化:由(1)得到的计算结果对分布估计结果
Figure RE-FDA0003260655840000047
进行更新,即对
Figure RE-FDA0003260655840000048
Figure RE-FDA0003260655840000049
其中,Pi是由(1)中得到的参数,
Figure RE-FDA00032606558400000410
表示第一批数据拥有者客户端的数据落在划分输入域的第i个桶内更新后的用户占比;
(3)平滑操作:对(2)中得到的更新结果
Figure RE-FDA00032606558400000411
利用平滑算法进行处理,即对
Figure RE-FDA00032606558400000412
Figure RE-FDA00032606558400000413
其中,等式右边中的
Figure RE-FDA00032606558400000414
Figure RE-FDA00032606558400000415
是由(2)中得到的第一批数据拥有者客户端的数据分别落在划分输入域的第i-1、第i+1和第i个桶内的用户占比;等式左边的
Figure RE-FDA00032606558400000416
表示由(2)中得到的第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比经过平滑操作之后的结果;
(4)计算当前更新后的分布参数
Figure RE-FDA00032606558400000417
下的似然函数
Figure RE-FDA00032606558400000418
Figure RE-FDA00032606558400000419
其中,n1表示第一批数据拥有者客户端的人数,
Figure RE-FDA00032606558400000420
表示第k个数据拥有者客户端的报告值,
Figure RE-FDA00032606558400000421
表示由(3)中得到的第一批数据拥有者客户端的数据落在划分输入域的第i个桶内的用户占比;
Figure RE-FDA00032606558400000422
的取值取决于
Figure RE-FDA00032606558400000423
落在输出域
Figure RE-FDA00032606558400000424
上的位置,是一个概率值;
(5)判断停止迭代条件:根据(4)计算得到的在当前迭代下的似然函数的结果,假设当前为第t+1次迭代过程,对于一个正数τ来说,当
Figure RE-FDA0003260655840000051
Figure RE-FDA0003260655840000052
时,带有平滑的期望最大化算法收敛,即停止进行操作,并将当前的估计值
Figure RE-FDA0003260655840000053
作为最终的输出结果,否则,继续执行(1)~(3)中的操作对参数
Figure RE-FDA0003260655840000054
进行更新,并执行(4)再次计算似然函数以判断是否停止迭代;
(6)输出并公开样本分布:由(5)最终得到的第一批数据拥有者客户端的数据在数据域D上的样本分布
Figure RE-FDA0003260655840000055
计算每个桶内的样本密度
Figure RE-FDA0003260655840000056
记此时的桶分割点集合为R1={Q1,0,Q1,1,…,Q1,K},且
Figure RE-FDA0003260655840000057
其中下角标中的1表示第一批数据拥有者客户端;聚合服务器将集合R1和样本分布
Figure RE-FDA0003260655840000058
进行公开,以便收集第二批数据拥有者客户端的数据。
8.如权利要求1所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,所述基于第一批数据拥有者客户端数据的样本分布,服务器获取第二批数据拥有者客户端数据,并计算第二批数据拥有者客户端数据的样本分布;具体包括:
第二批数据拥有者客户端首先将自己的真实数据压缩为区间[0,1]上的浮点数;
服务器在获得了第一批数据的样本分布后,按照累计分布的定义,可以计算出区间[0,1]上任意一点v的累计分布F1(v);根据任何一个概率分布的累计分布是服从均匀分布的,通过第一批数据的样本分布,将第二批数据拥有者客户端的数据v与第一批数据的样本分布的累计分布值F1(v)建立映射关系,并通过映射关系将第二批数据拥有者客户端的数据进行转化,即有
映射
Figure FDA0003222554440000061
[0,1]→[0,1]
v→F1(v)
利用方波扰动算法对得到的将第二批数据拥有者客户端的数据进行转化后的数据F1(v)添加扰动,并将扰动结果上传给服务器;
利用带有平滑的期望最大化算法计算,将第二批数据拥有者客户端的数据进行转化后的数据F1(v)的样本分布,并输出每个区间的样本密度,记为p2k,1≤k≤K;其中,下标2表示第二批数据拥有者客户端;
由于映射
Figure FDA0003222554440000062
是一个双射,v与F1(v)是一一对应的,从而映射前关于第二批原始数据v∈[0,1]的分布的K个桶的样本频率与映射后关于数据F1(v)∈[0,1]的分布的K个桶的样本频率也是一一对应的;那么得到映射前关于第二批原始数据分布的K个桶的样本频率为x2k=p2k,这K个桶的分割点坐标根据映射关系计算得到,记此时桶分割点集合为:
R2={Q2,0,Q2,1,…,Q2,K};
有了分割点的坐标便得到每个桶的宽度w2k=Q2,k-1-Q2,k
同样地,利用桶内样本频率x2k和桶的宽度w2k,计算该桶内样本分布的密度
Figure FDA0003222554440000063
在获得了第一批数据拥有者客户端的样本分布后,利用第一批数据拥有者客户端的样本分布作为先验知识来指导第二批数据的收集;采用基于累计分布函数来建立映射的方法对第二批数据进行转化,使得转化后的数据服从均匀分布。
9.如权利要求1所述的面向数值分布计算的本地化差分隐私保护方法,其特征是,服务器将前两批数据拥有者客户端数据的样本分布汇总,并发布;具体包括:
将桶分割点集合R1与R2取并集,并将集合中的元素按照从小到大的顺序进行排列,便得到了合并后的分界点集合;
利用得到的分界点将整个区间划分成多个小区间,按照统计得到的第一批数据拥有者客户端数据在桶分割集合R1下的样本密度h1k和第二批数据拥有者客户端数据在桶分割集合R2下的样本密度h2k,计算在合并后的分界点集合下,每个区间的样本密度,即为这两批数据在该区间的样本密度取平均,并将该计算结果进行公开;
或者,
基于前t-1批数据拥有者客户端数据的样本分布,服务器获取第t批数据拥有者客户端数据,并计算第t批数据拥有者客户端数据的样本分布;具体包括:
收集并计算第t批数据拥有者客户端数据的样本分布,3≤t≤T;与对第二批数据拥有者客户端的计算步骤是类似的,唯一不同的地方在于,此时是根据将前t-1批数据拥有者客户端数据的统计结果汇总之后得到的样本分布来建立映射关系
Figure RE-FDA0003260655840000071
的;
记计算得到关于第t批数据拥有者客户端数据的样本分布的K个桶的样本密度为htk,1≤k≤K,且桶分割点集合为Rt={Qt,0,Qt,1,…,Qt,K},3≤t≤T;
或者,
服务器将前T批数据拥有者客户端数据的样本分布汇总,并发布;具体包括:
服务器在获得了前T批数据拥有者客户端数据的样本分布后,相当于完成了所有数据拥有者客户端数据的收集和统计,需要将前T次的统计结果进行汇总;
汇总的方法,是首先将分割点集合R1,R2,…,RT取并集,并将集合中的元素按照从小到大的顺序进行排列,便得到了合并后的分界点集合;下一步按照前T轮统计获得的样本密度h1,k,h2,k,…,hT,k,1≤k≤K,计算在合并后的分界点集合下,每个区间的样本密度,即为前T轮统计在该区间的样本密度取平均;
或者,
服务器基于汇总后的样本分布,按照累计分布,计算汇总后的样本分布的样本频率;具体包括:
输出最终的样本分布;服务器根据得到的汇总后的样本分布,按照累计分布的定义,计算汇总后的样本分布在桶分割点集合R1下每个桶内的样本频率,记这K个内的样本频率分别为
Figure RE-FDA0003260655840000081
10.面向数值分布计算的本地化差分隐私保护系统,其特征是,包括:服务器,和若干个数据拥有者客户端;
服务器获取第一批数据拥有者客户端数据,并计算第一批数据拥有者客户端数据的样本分布;
基于第一批数据拥有者客户端数据的样本分布,服务器获取第二批数据拥有者客户端数据,并计算第二批数据拥有者客户端数据的样本分布;
服务器将前两批数据拥有者客户端数据的样本分布汇总,并发布;
基于前t-1批数据拥有者客户端数据的样本分布,服务器获取第t批数据拥有者客户端数据,并计算第t批数据拥有者客户端数据的样本分布;
服务器将前T批数据拥有者客户端数据的样本分布汇总,并发布;
服务器基于汇总后的样本分布,按照累计分布,计算汇总后的样本分布的样本频率。
CN202110962372.2A 2021-08-20 2021-08-20 面向数值分布计算的本地化差分隐私保护方法及系统 Active CN113672956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110962372.2A CN113672956B (zh) 2021-08-20 2021-08-20 面向数值分布计算的本地化差分隐私保护方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110962372.2A CN113672956B (zh) 2021-08-20 2021-08-20 面向数值分布计算的本地化差分隐私保护方法及系统

Publications (2)

Publication Number Publication Date
CN113672956A true CN113672956A (zh) 2021-11-19
CN113672956B CN113672956B (zh) 2023-09-22

Family

ID=78544802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110962372.2A Active CN113672956B (zh) 2021-08-20 2021-08-20 面向数值分布计算的本地化差分隐私保护方法及系统

Country Status (1)

Country Link
CN (1) CN113672956B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795758A (zh) * 2019-10-11 2020-02-14 安徽工业大学 一种基于差分隐私的非等距直方图发布方法
CN112131600A (zh) * 2020-09-21 2020-12-25 刘西蒙 差分隐私下基于svm的信用违约预测方法
CN112261020A (zh) * 2020-10-15 2021-01-22 中国电子科技集团公司第五十四研究所 一种分布式远程外包数据审计系统及方法
CN113128537A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 样本处理方法和相关装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795758A (zh) * 2019-10-11 2020-02-14 安徽工业大学 一种基于差分隐私的非等距直方图发布方法
CN113128537A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 样本处理方法和相关装置及存储介质
CN112131600A (zh) * 2020-09-21 2020-12-25 刘西蒙 差分隐私下基于svm的信用违约预测方法
CN112261020A (zh) * 2020-10-15 2021-01-22 中国电子科技集团公司第五十四研究所 一种分布式远程外包数据审计系统及方法

Also Published As

Publication number Publication date
CN113672956B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
Xie et al. Active sparse mobile crowd sensing based on matrix completion
Chulani et al. Bayesian analysis of empirical software engineering cost models
CN113962314B (zh) 一种基于联邦学习的非侵入式企业负荷分解方法
CN108846517A (zh) 一种分位数概率性短期电力负荷预测集成方法
CN110222991B (zh) 基于rf-gbdt的计量装置故障诊断方法
CN107886161A (zh) 一种提高复杂信息系统效能的全局敏感性分析方法
Wang et al. Privacy preserving collaborative computing: Heterogeneous privacy guarantee and efficient incentive mechanism
CN107886160B (zh) 一种bp神经网络区间需水预测方法
CN110428270A (zh) 基于逻辑回归算法的渠道潜在偏好客户识别方法
CN113780684A (zh) 一种基于lstm神经网络的智慧楼宇用户用能行为预测方法
CN110471957A (zh) 基于频繁模式树的本地化差分隐私保护频繁项集挖掘方法
CN111815065A (zh) 基于长短时记忆神经网络的短期电力负荷预测方法
Tian et al. A network traffic prediction method based on IFS algorithm optimised LSSVM
Wang et al. An AHP-weighted aggregated data quality indicator (AWADQI) approach for estimating embodied energy of building materials
CN106302681A (zh) 一种基于物联网的数据显示服务器系统
CN103345552A (zh) 电力ict通信网可靠性的评估方法及系统
CN114116828A (zh) 多维网络指标的关联规则分析方法、设备和存储介质
CN107220907A (zh) 一种采用秩和比综合评价的谐波污染用户分级方法
CN113723716A (zh) 一种客流分级预警异常告警方法、设备及存储介质
CN114064746A (zh) 一种信息设备运行状态评估方法
Bayram et al. On the restricted Neyman–Pearson approach for composite hypothesis-testing in presence of prior distribution uncertainty
CN118037000A (zh) 基于数字经济的城市资源动态调度方法及系统
CN113672956B (zh) 面向数值分布计算的本地化差分隐私保护方法及系统
Mastelic et al. Data velocity scaling via dynamic monitoring frequency on ultrascale infrastructures
Shen et al. An efficient sensor quantization algorithm for decentralized estimation fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant