CN113111383B - 一种垂直分割数据的个性化差分隐私保护方法及系统 - Google Patents
一种垂直分割数据的个性化差分隐私保护方法及系统 Download PDFInfo
- Publication number
- CN113111383B CN113111383B CN202110431749.1A CN202110431749A CN113111383B CN 113111383 B CN113111383 B CN 113111383B CN 202110431749 A CN202110431749 A CN 202110431749A CN 113111383 B CN113111383 B CN 113111383B
- Authority
- CN
- China
- Prior art keywords
- data
- privacy protection
- divided data
- privacy
- marginal distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000009826 distribution Methods 0.000 claims abstract description 87
- 230000002776 aggregation Effects 0.000 claims abstract description 25
- 238000004220 aggregation Methods 0.000 claims abstract description 25
- 230000003044 adaptive effect Effects 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 31
- 238000000638 solvent extraction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 9
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 208000015181 infectious disease Diseases 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 208000035473 Communicable disease Diseases 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000005541 medical transmission Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000003094 perturbing effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据安全与隐私保护领域,提供了一种垂直分割数据的个性化差分隐私保护方法及系统,其中,该方法在聚合服务器内完成,包括基于隐私预算分割来调整垂直分割数据的隐私保护强度;以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布,并按照调整后的相应隐私保护强度在每一个边际分布中加入相适应的噪音,以满足差分隐私保护要求;根据含有噪音的垂直分割数据属性集合的边际分布,一致性校验估算并调整多个垂直分割数据属性集合的真实边际分布,最终展示出不同属性的垂直分割数据的关系图且同时满足垂直分割数据的个性化差分隐私保护。
Description
技术领域
本发明属于数据安全与隐私保护领域,尤其涉及一种垂直分割数据的个性化差分隐私保护方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
分布式场景下,大规模数据的不同的属性往往分布在不同的节点,这被称之为垂直分割数据。同一组个体的不同属性分别属于不同的局部数据集。例如,同一个城市的医院和银行分别拥有市民的医疗数据和金融数据。实际应用中,为了完成数据分析、数据降维和数据生成等任务,需要计算不同节点间属性的边际分布。然而,发明人发现,数据中往往包含个体的敏感信息,而且不同节点的局部数据集中属性的隐私保护强度需求可能不同,现有技术往往无法满足个性化差分隐私保护的目的,而且无法准确得到不同属性的垂直分割数据的关联关系。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种垂直分割数据的个性化差分隐私保护方法及系统,其能够在满足每一方局部数据集个性化隐私保护的同时,显著提高垂直分割数据的边际分布计算结果的精度,最终展示出不同属性的垂直分割数据的关系图,实现了个性化差分隐私保护,有利于个性化信息隐私的安全性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种垂直分割数据的个性化差分隐私保护方法。
一种垂直分割数据的个性化差分隐私保护方法,其在聚合服务器内完成,包括:
基于隐私预算分割来调整垂直分割数据的隐私保护强度;
以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布,并按照调整后的相应隐私保护强度在每一个边际分布中加入相适应的噪音,以满足差分隐私保护要求;
根据含有噪音的垂直分割数据属性集合的边际分布,一致性校验估算并调整多个垂直分割数据属性集合的真实边际分布,最终展示出不同属性的垂直分割数据的关系图且同时满足垂直分割数据的个性化差分隐私保护。
需要说明的是,本发明生成的不同属性的个性化差分隐私保护数据集合,实现了个性化差分隐私保护,有利于个性化信息隐私的安全性。
本发明的第二个方面提供一种垂直分割数据的个性化差分隐私保护系统。
一种垂直分割数据的个性化差分隐私保护系统,其包括:
隐私预算分割模块,其用于基于隐私预算分割来调整垂直分割数据的隐私保护强度;
边界分布计算模块,其用于以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布,并按照调整后的相应隐私保护强度在每一个边际分布中加入相适应的噪音,以满足差分隐私保护要求;
一致性校验模块,其用于根据含有噪音的垂直分割数据属性集合的边际分布,一致性校验估算并调整多个垂直分割数据属性集合的真实边际分布,最终展示出不同属性的垂直分割数据的关系图且同时满足垂直分割数据的个性化差分隐私保护。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的垂直分割数据的个性化差分隐私保护方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的垂直分割数据的个性化差分隐私保护方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明提供了一种垂直分割数据的个性化差分隐私保护方法,解决了不同节点的局部数据集中属性的隐私保护强度需求可能不同,从而无法满足个性化差分隐私保护的目的问题,采用从属性角度考虑的隐私预算划分技术和基于最大似然估计的一致性校验技术,实现了在为每一方提供个性化的差分隐私保护的同时,达到正确计算属性集合在垂直分割数据中的边际分布的目的,本发明最终展示出不同属性的垂直分割数据的关系图,实现了个性化差分隐私保护,有利于个性化信息隐私的安全性。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的垂直分割数据的个性化差分隐私保护方法流程图;
图2是本发明实施例的垂直分割数据示例;
图3是本发明实施例的一致性校验过程;
图4(a)是本发明实施例在数据集NLTCS上各种隐私保护方法比对结果;
图4(b)是本发明实施例在数据集BR2000上各种隐私保护方法比对结果。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
在垂直分割数据边际分布计算的过程中,可以在边际分布计算过程中为每一方局部数据集提供差分隐私保护,并且能够满足每一方不同的隐私保护强度需求。本发明首次解决了满足个性化差分隐私的垂直分割数据边际分布计算问题,现有工作主要解决单方场景下满足个性化差分隐私的边际分布计算问题。其中,一部分工作基于采样方法,对原始数据集中记录进行采样,得到采样数据集,接着利用采样数据集计算属性(或属性集合)的边际分布,并在计算结果中加入适量噪音以满足差分隐私保护要求。以上方法相当于对关于原始数据集的统计信息进行了随机扰动以达到隐私保护目的。其随机性来自于两方面,一方面是随机采样对原始数据集中每条记录带来的随机性,另一方面是差分隐私中噪音对采样数据集中每条记录带来的随机性。在差分隐私中的噪音对采样数据集中每条记录带来的随机性相同的条件下,通过对原始数据集中记录进行不同概率的采样,即隐私强度需求大的被选中的概率小,隐私强度需求小的被选中的概率大,以调整采样方法对原始数据集中不同隐私强度需求的记录带来的随机性大小,进而从整体上满足原始数据集中不同记录的隐私保护强度需求。
本实施例涉及到三个关键要素,即垂直分割数据、个性化差分隐私、边际分布计算。下面首先分别介绍这三个要素;然后,基于这三个要素,给出垂直分割场景中满足个性化差分隐私的边际分布计算问题的形式化定义。
1.1垂直分割数据
垂直分割关系数据集可以看作是一个整体关系数据集被按属性分成多组,每一组为一个局部数据集,分别属于不同的数据拥有者。这多组局部数据集对应同一组记录(个体),这些记录通过ID关联,但不同局部数据集包含不同的属性。
例如,某个地区的医院和银行分别拥有该地区市民的医疗信息(如市民的年龄、身高、体重、患病史等信息)和金融信息(如市民的存款记录、余额等信息)。
如图2所示。
1.2个性化差分隐私
差分隐私作为一种较好的隐私保护模型,可以为数据集中个体敏感信息体提供一种严格、可量化的隐私保护。差分隐私采用隐私参数ε来度量对个体敏感信息的隐私保护强度。特别地,ε越小,表示隐私保护强度越大。在垂直分割场景,由于不同局部数据集中属性不同,而不同属性的敏感程度可能不同。因此,不同局部数据集的隐私需求可能不同。这样,作用在这组局部数据集上的统计函数需要满足每一方局部数据集不同的隐私保护需求,既满足个性化差分隐私需求。个性化差分隐私定义是在相邻数据集集合的基础上。其中,相邻数据集集合可以描述为:
也就是说,对于两个相邻数据集集合,有且仅有一对局部数据集相差一条记录,其他(K-1)对局部数据集相同。基于相邻数据集集合,个性化差分隐私可以定义为:
1.3边际分布计算
在垂直分割场景中,边际分布计算主要是指计算来自不同局部数据集的属性集合的边际分布。例如,存在局部数据集D1,D2,分别包含属性和现有即A1,A2来自不同的数据集D1,D2。A1,A2可能分别只包含一个属性,也可能包含多个属性。(A1,A2)的边际分布可以表示为Pr(A1,A2)。对于任意和Pr(A1=a1,A2=a2)称为边际分布Pr(A1,A2)的一项。其中和分别表示属性A1,A2的取值空间。
在垂直分割场景中,一般采用内积计算方法分别计算边际分布的每一项。例如,对于边际分布Pr(A1,A2)中的一项Pr(A1=a1,A2=a2),首先通过遍历数据集A1和A2,分别得到两个0-1向量,记为v1={v11,v12,...,v1m}和v2={v21,v22,...,v2m},其中m表示每个局部数据集中记录的个数。对于v1中任何一个元素v1i,当D1中第i条记录的属性A1的取值为a1,则v1i为1,否则为零。同理,对于v2中任何一个元素v2i,当D2中第i条记录的属性A2的取值为a2,则v2i为1,否则为零。然后,计算向量v1和v2的内积v1·v2,则Pr(A1=a1,A2=a2)=(v1·v2)/m。
1.4问题定义
基于垂直分割数据、个性化差分隐私和边际分布计算三个要素,我们给出垂直分割场景中满足个性化差分隐私的边际分布计算问题的形式化描述:
存在K个数据拥有者P1,...,PK,每个数据拥有者Pk(1≤k≤K)拥有一个局部数据集Dk和一个隐私参数εk。D1,...,DK对应同一组个体,但包含不同的属性,即D1,...,DK可以认为是将整体数据集按属性垂直分割成K份局部数据集。现在要统计属性组合(A1,...,AK)的边际分布Pr(A1,...,AK),其中Ak属于数据集Dk,且保证统计函数能够为每一方局部数据集提供εi-差分隐私保护。
为了方便计算,一般会引入一个第三方。在第三方协助下,数据拥有者共同计算属性组合的边际分布。我们假设数据拥有者和第三方都是半可信的,即“诚实但好奇”的。他们会认真执行协议,但可能会利用自己的背景知识、接收到的中间结果或最终计算结果推断(其他)局部数据集中个体敏感信息。另外,我们假设数据拥有者之间或者数据拥有者与第三方之间存在合谋,因此需要防止他们的合谋攻击。
本发明的目的在于,在分布式场景下利用垂直分割数据计算属性集合的边际分布的过程中,能够为每一方提供差分隐私保护,并且能够满足每一方局部数据集个性化隐私保护要求,同时能够显著提高计算结果的精度。
本发明的核心思想是:采用从属性角度考虑的隐私预算划分技术和基于最大似然估计的一致性校验技术,在为每一方提供个性化的差分隐私保护的同时,能够正确计算属性集合在垂直分割数据中的边际分布。
如图1所示,本实施例提供了一种垂直分割数据的个性化差分隐私保护方法,该方法在聚合服务器内完成。
其中,涉及到两类实体,K个数据拥有者和1个聚合服务器。每个数据拥有者Pk(其中1≤k≤K)拥有一组数据Dk和一个指定的隐私预算εk。聚合服务器利用K个数据拥有者的数据计算给定属性集合的边际分布,并保证每一个数据拥有者的隐私保护需求。其中,Xk为来自数据集Dk的属性集合。该方法的特征是采用了隐私预算划分和一致性后处理技术,在为每一方提供个性化的差分隐私保护的同时,能够正确计算属性集合在垂直分割数据中全局边际分布。该方法包括以下步骤:
S101:基于隐私预算分割来调整垂直分割数据的隐私保护强度。即将取值较大的隐私预算进行分割。具体包括如下子步骤:
基于隐私预算分割来调整垂直分割数据的隐私保护强度的过程为:
将垂直分割数据中的隐私参数按照设定顺序排序;
将排序后的隐私参数按照从小到大,任意两个相邻的隐私参数作差分解,得到分割后的隐私预算。
在单方场景或水平分割场景(即数据按记录分成多组分别属于不同的数据拥有者,这多组数据含有相同的属性,但包含不同的个体)中,个性化差分隐私问题是指不同记录隐私保护强度需求不同。为解决以上问题,往往利用采样方法对记录的隐私保护强度进行调整,即按照不同的概率对记录进行采样得到采样数据集,接着基于采样数据集进行统计分析。由于采样对原始数据集中不同的记录带来不同程度的随机性,因此即使差分隐私技术对采样数据集中个体带来的随机性相同的条件下,整个过程中对原始数据集中记录带来的随机性也不相同,从而可以满足不同记录个性化的隐私保护强度需求。然而,在垂直分割场景下,不同属性的隐私保护需求强度不同,从记录层面进行隐私保护强度调整的采样方法将“失效”。因此本发明从属性角度出发,提出基于隐私预算分割的隐私保护强度调整的方法。具体包括如下子步骤:
步骤1.1:将隐私参数ε1,ε2,...,εK从小到大进行排序,不妨假设ε1<ε2<…<εK;
步骤1.2:将ε1,ε2,...,εK分解为ε1-ε0,ε2-ε1,...,εK-εK-1,其中ε0=0。
S102:以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布,并按照调整后的相应隐私保护强度在每一个边际分布中加入相适应的噪音,以满足差分隐私保护要求。
具体可描述为:在第一轮交互中,数据拥有者P1,...,PK和聚合服务器共同计算给定属性组合(x1,...,xK)的边际分布Pr(x1,...,xK),并按照隐私参数ε1在Pr(x1,...,xK)中加入噪音,从而保证为每一方提供ε1-差分隐私保护;在以后的K-1轮中,对于任意一个k∈{2,3,...,K},数据拥有者Pk,...,PK和聚合服务器共同计算属性组合(xk,...,xK)的边际分布Pr(xk,...,xK),并按照隐私参数(εk-εk-1)在Pr(xk,....,xK)中加入拉普拉斯噪音,从而保证为每一方提供(εk-εk-1)-差分隐私保护;经过以上过程,我们得到含有噪音的边际分布Pr(x1,...,xK)、Pr(x2,...,xK)、……、Pr(xK)。在每一轮计算中,由于每一方的统计结果包含局部数据集中个体敏感信息,因此一方面需要保证计算过程中每一方统计结果的值不能泄露给聚合服务器和其他数据拥有者,同时需要保证计算的边际分布满足差分隐私保护要求,即防止攻击者利用计算结果推断每一方局部数据集中个体敏感信息。为了满足以上隐私要求,需要以一种安全的方式计算聚合结果。具体包括如下子步骤:
在分布式场景下,为了保证为每一方局部数据集提供差分隐私保护,并且尽可能地减小计算结果精度的损失,所有的数据拥有者共同以一种安全的方式在整体计算结果中加入一份拉普拉斯噪音。在单方场景下,噪音由某一个数据拥有者单独生成,然后直接将其注入真实的统计结果中,接着发布含有噪音的统计结果。这样,攻击者无法获取噪音的大小,也就无法推断真实的统计结果。与单方场景不同,在多方场景下,噪音是由多个数据拥有者共同生成。这时需要考虑不能让任何一个数据拥有者获悉噪音的大小,同时需要考虑,即使数据拥有者拥有噪音的部分信息,对于任意一个数据拥有者或者部分合谋的数据拥有者来讲,噪音的规模(也就是噪音的随机性)也不会降低。为了达到以上要求,本发明采用一种分布式拉普拉斯噪音生成方法。该方法基于以下性质:
η=μ-λ·sgn(u)·ln(1-2|u|), (1)
服从拉普拉斯分布,μ为位置参数,λ为尺度参数。
基于性质1,可以通过以下两个阶段生成拉普拉斯噪音:1)借助聚合服务器,数据拥有者共同以一种安全的方式生成一个区间内服从均匀分布的随机变量;2)将位置参数μ设为0,尺度参数λ设为S/ε,根据公式(1),计算拉普拉斯噪音η,其中,S表示边际分布计算函数的敏感度,其值为2,ε表示隐私预算,其值为εi-εi-1(i∈{1,2,...,K})。具体步骤如下:
步骤2.1.2:每一个相关的数据拥有者Pk(k∈{i,i+1,...,K})在本地生成一个长度为L的0-1串<vk1,...,vkL>。由于双精度浮点数长度为8字节,即64位,因此,L往往取值为64。每一位vkl为随机变量,取值空间为{0,1},且取每一种值的概率均为即
步骤2.1.3:对于任意一个l∈{1,...,L},数据拥有者和聚合服务器利用门限同态加密技术计算:
步骤2.1.4:分别计算u的正负符号sgn(u)和u的绝对值|u|:
步骤2.2:边际分布计算。在垂直分割场景,由于属性分布在不同的局部数据集,因此在满足隐私保护条件下计算边际分布比较复杂,需要借助一些额外的安全协议,例如安全内积计算协议(the secure scalar product protocol(SSPP))。具体包括如下子步骤:
步骤2.2.1:每一个相关的数据拥有者Pk在本地为属性集合xk的每一种取值xk生成一个长度为|Dk|的标识向量其中|Dk|表示数据集Dk中记录个数。由于所有局部数据集包含的记录个数相同,因此可将|Dk|简单记为|D|。向量中每一个元素可以按如下方式计算:
步骤2.2.2:数据拥有者和聚合服务器以密文的形式共同计算从而得到符合记录的条数。将计算结果划分成(K-i+1)个随机数ri,...,rK的和,并将这些随机数分别分发给(K-i+1)个相关的数据拥有者
步骤2.2.3:数据拥有者在本地计算ck(x)=rk(x)+ηk,其中x表示(xi,...,xK),并将计算结果发送给聚合服务器;
步骤2.2.5:基于以上聚合结果,聚合服务器计算:
S103:根据含有噪音的垂直分割数据属性集合的边际分布,一致性校验估算并调整多个垂直分割数据属性集合的真实边际分布,最终展示出不同属性的垂直分割数据的关系图且同时满足垂直分割数据的个性化差分隐私保护。
这样,对于同一个属性集合聚合服务器可以得到多个不同的含有噪音的边际分布ω1k、ω2k、……、ωkk。在给定原始垂直分割数据的条件下,属性组合的真实边际分布是确定的,可以看作常量。之所以会得到多个不同的含有噪音的统计结果ω1k、ω2k、……、ωkk,是因为噪音是随机的。
步骤3.2:对于任意一个属性集合根据其多个含有噪音的边际分布,利用最大似然估计方法,估算其真实的边际分布,记为在给定原始垂直分割数据的条件下,属性组合的真实边际分布是确定的,可以看作常量。之所以会得到多个不同的含有噪音的统计结果ω1k、ω2k、……、ωkk,是因为噪音是随机的。因为噪音服从拉普拉斯分布,因此含有噪音的统计结果也服从拉普拉斯分布,从而可以计算每一种统计结果发生的概率,进一步可以计算所有结果共同发生的概率。以的真实边际分布为参数,以所有结果共同发生的概率为似然函数,利用最大似然估计,可以估算的真实边际分布。
为了更直观说明本实施例的方法的优势,如图4(a)和图4(b)所示,本实施例的PBS方法、MV方法和SAV方法比较。其中,PBS方法表示本实施例的基于隐私预算分割的边际分布式计算,MV方法表示直接根据隐私保护强度要求最大的一方加入噪音,SAV方法表示基于采样的统计方法。实验结果表明,本实施例的方法能够为每一方提供差分隐私保护,并且能够满足每一方局部数据集个性化隐私保护要求,同时能够显著提高计算结果的精度。
例如:
现有一家医院拥有一组用户的医疗数据,铁路部门拥有该组用户的出行记录。现要计算医疗数据中用户是否感染某一传染病这一属性x1和出行记录数据中目的地这一属性x2的联合分布(也就是这属性组合(x1,x2)的边际分布),以便于分析传染病传播途径。最终给出医疗数据中用户是否感染某一传染病这一属性和和出行记录数据中目的地这一属性的关联关系图,从而得到传染病传播途径。
其中,医院和铁路部门称为两个数据拥有者,分别记为P1和P2,所拥有的数据集分别记为D1和D2,指定的隐私预算分别记为ε1和ε2。
可将隐私参数ε1,ε2从小到大进行排序,不妨假设ε1<ε2;将ε1,ε2分解为ε1-ε0,ε2-ε1,其中ε0=0。
以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布的可描述为:在第一轮交互中,数据拥有者P1,P2,和聚合服务器共同计算给定属性组合(x1,x2)的边际分布Pr(x1,x2),并按照隐私参数ε1在Pr(x1,x2)中加入噪音,从而保证为每一方提供ε1-差分隐私保护;在第二轮中,P2和聚合服务器共同计算属性x2的边际分布x2,并按照隐私参数ε2-ε1在pr(X2)中加入拉普拉斯噪音,从而保证为每一方提供(ε2-ε1)-差分隐私保护;经过以上过程,我们得到含有噪音的边际分布Pr(x1,x2)、pr(X2)。
聚合服务器根据得到的边际分布Pr(x1,x2)、pr(X2),计算(x1,x2)最终的边际分布,具体包括如下子步骤:
这样,对于同一个属性集合聚合服务器可以得到多个不同的含有噪音的边际分布ω1k、ω2k、……、ωkk。在给定原始垂直分割数据的条件下,属性组合的真实边际分布是确定的,可以看作常量。之所以会得到多个不同的含有噪音的统计结果ω1k、ω2k、……、ωkk,是因为噪音是随机的。
对于任意一个属性集合根据其多个含有噪音的边际分布,利用最大似然估计方法,估算其真实的边际分布,记为在给定原始垂直分割数据的条件下,属性组合的真实边际分布是确定的,可以看作常量。之所以会得到多个不同的含有噪音的统计结果ω1k、ω2k、……、ωkk,是因为噪音是随机的。因为噪音服从拉普拉斯分布,因此含有噪音的统计结果也服从拉普拉斯分布,从而可以计算每一种统计结果发生的概率,进一步可以计算所有结果共同发生的概率。以的真实边际分布为参数,以所有结果共同发生的概率为似然函数,利用最大似然估计,可以估算的真实边际分布。
实施例二
本实施例提供了一种垂直分割数据的个性化差分隐私保护系统,其包括:
隐私预算分割模块,其用于基于隐私预算分割来调整垂直分割数据的隐私保护强度;
边界分布计算模块,其用于以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布,并按照调整后的相应隐私保护强度在每一个边际分布中加入相适应的噪音,以满足差分隐私保护要求;
一致性校验模块,其用于根据含有噪音的垂直分割数据属性集合的边际分布,一致性校验估算并调整多个垂直分割数据属性集合的真实边际分布,最终展示出不同属性的垂直分割数据的关系图且同时满足垂直分割数据的个性化差分隐私保护。
此处需要说明的是,本实施例的垂直分割数据的个性化差分隐私保护系统中的各个模块,与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的垂直分割数据的个性化差分隐私保护方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的垂直分割数据的个性化差分隐私保护方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种垂直分割数据的个性化差分隐私保护方法,其特征在于,该方法在聚合服务器内完成,包括:
基于隐私预算分割来调整垂直分割数据的隐私保护强度;具体过程为:
将垂直分割数据中的隐私参数按照设定顺序排序;
将排序后的隐私参数按照从小到大,任意两个相邻的隐私参数作差分解,得到分割后的隐私预算;
以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布,并按照调整后的相应隐私保护强度在每一个边际分布中加入相适应的噪音,以满足差分隐私保护要求;
根据含有噪音的垂直分割数据属性集合的边际分布,一致性校验估算并调整多个垂直分割数据属性集合的真实边际分布,最终展示出不同属性的垂直分割数据的关系图且同时满足垂直分割数据的个性化差分隐私保护。
2.如权利要求1所述的垂直分割数据的个性化差分隐私保护方法,其特征在于,所述噪音为分布式拉普拉斯噪音。
3.如权利要求1所述的垂直分割数据的个性化差分隐私保护方法,其特征在于,基于尺度参数、随机变量的正负符号和绝对值,计算拉普拉斯噪音,并将拉普拉斯噪音被分解若干项的和,分别分配给每一个数据拥有者。
4.如权利要求3所述的垂直分割数据的个性化差分隐私保护方法,其特征在于,在计算拉普拉斯噪音中,所述尺度参数为边际分布计算函数的敏感度与隐私预算的比值。
5.如权利要求1所述的垂直分割数据的个性化差分隐私保护方法,其特征在于,聚合服务器和数据拥有者以密文的形式共同计算符合相应属性集合的条数。
6.如权利要求1所述的垂直分割数据的个性化差分隐私保护方法,其特征在于,根据含有噪音的垂直分割数据属性集合的边际分布,利用最大似然估计方法,估算并调整多个垂直分割数据属性集合的真实边际分布。
7.一种垂直分割数据的个性化差分隐私保护系统,其特征在于,包括:
隐私预算分割模块,其用于基于隐私预算分割来调整垂直分割数据的隐私保护强度;具体过程为:
将垂直分割数据中的隐私参数按照设定顺序排序;
将排序后的隐私参数按照从小到大,任意两个相邻的隐私参数作差分解,得到分割后的隐私预算;
边界分布计算模块,其用于以多次与数据拥有者交互的形式共同计算多组垂直分割数据的属性集合的边际分布,并按照调整后的相应隐私保护强度在每一个边际分布中加入相适应的噪音,以满足差分隐私保护要求;
一致性校验模块,其用于根据含有噪音的垂直分割数据属性集合的边际分布,一致性校验估算并调整多个垂直分割数据属性集合的真实边际分布,最终展示出不同属性的垂直分割数据的关系图且同时满足垂直分割数据的个性化差分隐私保护。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的垂直分割数据的个性化差分隐私保护方法中的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的垂直分割数据的个性化差分隐私保护方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110431749.1A CN113111383B (zh) | 2021-04-21 | 2021-04-21 | 一种垂直分割数据的个性化差分隐私保护方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110431749.1A CN113111383B (zh) | 2021-04-21 | 2021-04-21 | 一种垂直分割数据的个性化差分隐私保护方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111383A CN113111383A (zh) | 2021-07-13 |
CN113111383B true CN113111383B (zh) | 2022-05-20 |
Family
ID=76719366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110431749.1A Expired - Fee Related CN113111383B (zh) | 2021-04-21 | 2021-04-21 | 一种垂直分割数据的个性化差分隐私保护方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111383B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218602B (zh) * | 2021-12-10 | 2024-06-07 | 南京航空航天大学 | 一种基于垂直分割的差分隐私异构多属性数据发布方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009437A (zh) * | 2016-10-27 | 2018-05-08 | 中兴通讯股份有限公司 | 数据发布方法和装置及终端 |
CN109299436A (zh) * | 2018-09-17 | 2019-02-01 | 北京邮电大学 | 一种满足本地差分隐私的偏好排序数据收集方法 |
CN111414641A (zh) * | 2020-03-13 | 2020-07-14 | 中国科学院信息工程研究所 | 一种基于采样的个性化差分隐私保护方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145682B2 (en) * | 2010-02-25 | 2012-03-27 | Microsoft Corporation | Differentially private data release |
US11087025B2 (en) * | 2018-12-10 | 2021-08-10 | Sap Se | Differential privacy processing of IoT streaming data using generative adversarial networks |
-
2021
- 2021-04-21 CN CN202110431749.1A patent/CN113111383B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009437A (zh) * | 2016-10-27 | 2018-05-08 | 中兴通讯股份有限公司 | 数据发布方法和装置及终端 |
CN109299436A (zh) * | 2018-09-17 | 2019-02-01 | 北京邮电大学 | 一种满足本地差分隐私的偏好排序数据收集方法 |
CN111414641A (zh) * | 2020-03-13 | 2020-07-14 | 中国科学院信息工程研究所 | 一种基于采样的个性化差分隐私保护方法及系统 |
Non-Patent Citations (4)
Title |
---|
Differentially Private Publication of Vertically Partitioned Data;Peng Tang et al.;《IEEE Transactions on Dependable and Secure Computing》;20190315;第18卷(第2期);全文 * |
满足差分隐私的多方数据发布技术研究;唐朋;《中国博士学位论文全文数据库 信息科技辑》;20190815(第8期);全文 * |
面向轨迹数据发布的个性化差分隐私保护机制;田丰等;《计算机学报》;20200815;第44卷(第4期);全文 * |
面向高维数据发布的个性化差分隐私算法;马苏杭等;《计算机系统应用》;20210330;第30卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113111383A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | PPO-CPQ: a privacy-preserving optimization of clinical pathway query for e-healthcare systems | |
Tong et al. | Trajectorynet: A dynamic optimal transport network for modeling cellular dynamics | |
Liu et al. | Privacy-preserving object detection for medical images with faster R-CNN | |
CN110334548B (zh) | 一种基于差分隐私的数据异常检测方法 | |
US20220004933A1 (en) | Privacy-preserving asynchronous federated learning for vertical partitioned data | |
WO2021114921A1 (zh) | 基于隐私保护的关系网络构建方法及装置 | |
Yang et al. | Potential flow generator with L 2 optimal transport regularity for generative models | |
Hof et al. | Methods for analyzing data from probabilistic linkage strategies based on partially identifying variables | |
CN113379042B (zh) | 保护数据隐私的业务预测模型训练方法及装置 | |
CN112799708A (zh) | 联合更新业务模型的方法及系统 | |
CN104484616A (zh) | 一种MapReduce数据处理框架下的隐私保护方法 | |
Liu et al. | Privacy preserving decision tree mining from perturbed data | |
Zhao et al. | CORK: A privacy-preserving and lossless federated learning scheme for deep neural network | |
CN113111383B (zh) | 一种垂直分割数据的个性化差分隐私保护方法及系统 | |
Ni et al. | Federated learning model with adaptive differential privacy protection in medical IoT | |
Cai et al. | Econometrics with privacy preservation | |
Dong et al. | PADP-FedMeta: A personalized and adaptive differentially private federated meta learning mechanism for AIoT | |
Mitrovska et al. | Secure federated learning for Alzheimer's disease detection | |
CN116776155A (zh) | 一种基于联邦学习的模型训练方法、装置、设备和介质 | |
CN113094751B (zh) | 一种个性化隐私数据处理方法、装置、介质及计算机设备 | |
Adibi et al. | Distributed statistical min-max learning in the presence of Byzantine agents | |
CN111368337B (zh) | 保护隐私的样本生成模型构建、仿真样本生成方法及装置 | |
Bulusu et al. | On convex stochastic variance reduced gradient for adversarial machine learning | |
CN112182638A (zh) | 一种基于本地化差分隐私模型的直方图数据发布方法及系统 | |
Böhler | Input Secrecy & Output Privacy: Efficient Secure Computation of Differential Privacy Mechanisms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220520 |