CN106570422B - 一种差分隐私噪声动态分配的实现方法 - Google Patents

一种差分隐私噪声动态分配的实现方法 Download PDF

Info

Publication number
CN106570422B
CN106570422B CN201611007705.1A CN201611007705A CN106570422B CN 106570422 B CN106570422 B CN 106570422B CN 201611007705 A CN201611007705 A CN 201611007705A CN 106570422 B CN106570422 B CN 106570422B
Authority
CN
China
Prior art keywords
layer
data
grid
noise
standard deviation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611007705.1A
Other languages
English (en)
Other versions
CN106570422A (zh
Inventor
周国强
周洪飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201611007705.1A priority Critical patent/CN106570422B/zh
Publication of CN106570422A publication Critical patent/CN106570422A/zh
Application granted granted Critical
Publication of CN106570422B publication Critical patent/CN106570422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2111Location-sensitive, e.g. geographical location, GPS

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种差分隐私噪声动态分配的实现方法,该方法用于解决减少所发布的数据在基于差分隐私保护算法处理过程中产生相对误差的问题,最终实现提高数据的查询精度和有用性。在划分阶段运用AG算法对二维空间数据集进行划分,得到两层划分。在加入噪声阶段,先计算每一层的每个格子的标准差半径,并且计算每个格子在当层所有格子的标准差半径中所占比例,然后按照每个格子所占比例分配当层的总隐私预算。最终,针对每个区域分布情况的不同,动态加入不同的噪声对数据进行扰动,实现减少相对误差,从而有效的提高查询结果的精确度,即提高数据的有用性。

Description

一种差分隐私噪声动态分配的实现方法
技术领域
本发明涉及数据挖掘中二维空间数据集发布的隐私保护领域,具体涉及一种基于标准差圆半径的差分隐私噪声动态分配方法。
背景技术
随着地理位置采集技术在移动设备上的广泛使用,通过收集用户的移动轨迹数据(即空间数据集)实现对用户行为习惯的分析已成为热门研究。为了能够获取有用的用户行为模型,大量的用户个人历史位置信息被收集和分析。但是一个主要的担忧是,用户的位置信息伴随着的大量个人隐私存在被泄露的风险。因而用户在分享位置信息的同时如何保护个人隐私是一个具有挑战性的问题。
空间数据集被攻击、推理可能导致个人兴趣爱好、行为模式、社会习惯、健康状况等隐私信息的暴露,通过传统的隐私保护算法包括K-匿名等对隐私数据进行保护,有一定的隐私保护效果,但是这些算法没有严格定义攻击模型,对攻击者所掌握的知识未能作出的定量化定义,往往会遭到一致性攻击和背景知识攻击,使得数据的隐私和有用性得不到有效的保障。差分隐私是一个极为严格的攻击模型,并对隐私泄露风险给出了严谨、定量化的表示和证明。差分隐私保护在大大降低隐私泄露风险的同时,极大地保证了数据的有用性。
但是,当前基于差分隐私保护算法的研究主要是通过减少绝对误差,即通过测算全局敏感度,适当的减少对查询结果加入噪声的规模来提高查询结果的精确度。然而,所加入的噪声值的大小和查询结果的规模的大小毫无关联。局部区域添加过多噪声,容易产生较大的相对误差,从而导致整体的查询结果的准确性得不到有效的保证,即数据的有用性大大降低。
因而,在基于差分隐私的数据发布隐私保护研究工作中,关于如何减少数据处理过程中产生的相对误差进而提高数据的查询精度和有用性成为了本发明要解决的问题。
发明内容
本发明目的在于针对上述现有技术的不足,提供了一种差分隐私噪声动态分配的实现方法,该方法用于解决减少所发布的数据在基于差分隐私保护算法处理过程中产生相对误差的问题,最终实现提高数据的查询精度和有用性。在划分阶段运用AG算法对二维空间数据集进行划分,得到两层划分。在加入噪声阶段,先计算每一层的每个格子的标准差半径,并且计算每个格子在当层所有格子的标准差半径中所占比例,然后按照每个格子所占比例分配当层的总隐私预算。最终,针对每个区域分布情况的不同,动态加入不同的噪声对数据进行扰动,实现减少相对误差,从而有效的提高查询结果的精确度,即提高数据的有用性。
本发明解决其技术问题所采取的技术方案是:一种基于标准差圆(StandardDeviation Circle,SDC)半径的差分隐私(Differential Privacy)噪声动态分配算法(SDC-DP算法),包含以下步骤:
步骤1:数据集的处理
对于给定的空间数据集,本发明将其中的每条位置信息记录视为一个二维坐标点,将其映射在矩形二维平面区域内,最终本发明划定一个包含这些点的矩形区域作为本发明的研究对象。
步骤2:引用改进的AG算法先对数据集进行层次划分
给定的矩形区域内,本发明引用改进的AG算法对其进行自适应网格划分,得到两层划分。在第一层,实行粗粒度划分,形成m1×m1个格子。同时,分配给第一层数据总隐私预算:ε1=ε×α,其中0<α<1,ε是总隐私预算。然后,将第一层各个格子按照格子中的点的个数再次划分为m2×m2个子格子。同时,分配给第二层数据总隐私预算为:ε2=ε-ε1
步骤3:计算每个格子中数据的隐私保护需求
在运用AG算法对数据集划分的过程中,求出每个格子中数据的标准差圆半径占当层所有格子的标准差圆半径的比例,并依此表示每个格子中数据的隐私保护需求。
步骤4:噪声加入
按照上述步骤3得到的比例把当层的总隐私预算分配到每个格子中,根据每个格子所分配得到相应的隐私预算,对每个格子中的数据查询结果加入相应的Laplace噪声,进而得到带噪声的查询结果。
步骤5:结果发布
将经过处理后、带有噪声的计数查询结果进行发布。
进一步地,本发明所述步骤3中通过计算获得每个格子中数据的标准差圆半径占当层所有格子的标准差圆半径的比例,并且用这个比例表示每个格子中数据的隐私保护需求。
进一步地,本发明所述步骤3中的每个格子中的数据的标准差圆半径通过以下公式计算得到:
Figure BDA0001154152090000031
其中,
Figure BDA0001154152090000032
是分布在某一空间数据集点的坐标值的平均数,xi,yi是各个点的横、纵坐标值,n为所在空间的点的数量,r为标准差圆的半径。
进一步地,本发明所述步骤3中每个格子的隐私保护需求通过计算获取得到每个格子中的数据的标准差圆半径在当层所有格子的标准差半径中所占的比例表示。计算公式如下:
Figure BDA0001154152090000033
其中,ri是第i个区域的标准差圆半径,sumj表示包第i个区域在内的第j层所有区域的标准差圆半径之和。
进一步地,本发明所述步骤2中应用改进的AG算法进行层次划分,所述的划分粒度计算包括:
在第一层,实行粗粒度划分,形成m1×m1个格子,其中m1的取值,文献中采用独立于数据的启发式计算方式求得:
Figure BDA0001154152090000034
其中,N表示整个矩形区域内所有点的个数;ε是总隐私预算;C1是经过实验论证设定为C1=10.
分配给第一层数据总隐私预算的部分预算:ε1=ε×α,其中0<α<1。然后,将第一层各个格子按照格子中的点的个数再次划分为m2×m2个子格子,
Figure BDA0001154152090000041
其中,N'是对应的第一层格子查询得到的点的个数;ε2=ε-ε1;C2常量
Figure BDA0001154152090000042
进一步地,本发明所述步骤4中,噪声的加入是通过权利4中求得的每个格子的隐私保护需求,加入相应的隐私预算,包括:
第一层的某个格子Ri,其标准差圆半径为ri,第一层总隐私预算是ε1,该层所有格子的标准差圆半径之和为sum,则格子Ri被分配到的隐私预算为:
Figure BDA0001154152090000043
根据每个格子所分配得到的隐私预算,对每个格子中的数据查询结果加入相应的Laplace噪声,进而得到带噪声的查询结果:
Ni’=Ni+lap(εi)
其中,Ni表示某一层中第i个原始的技术查询结果;Ni'表示某一层中第i个带有噪声用于发布的计数查询结果;lap(εi)表示参数为εi的Laplace分布函数的结果。
有益效果:
1、本发明首次提出运用计算数据的标准差圆半径表示其离散程度,进而很好地表示其隐私保护需求力度。
2、本发明根据数据不同的隐私保护需求,动态分配噪声,有效地减少加入噪声过程中易产生较多的相对误差,很好地提高数据的有用性。
附图说明
图1为本发明的SDC-DP算法中数据数据处理流程图。
图2为本引用的AG算法的示意图。
具体实施方式
下面结合说明书附图对本发明创造作进一步的详细说明。
如图1所示,本发明为了减少所发布的数据在基于差分隐私保护算法处理过程中产生的相对误差,先计算每层格子中数据的标准差圆半径所占比例表示数据的离散程度,最后根据离散程度动态分配相应的隐私预算。实现减少相对误差,进而提高数据的查询精度和有用性。
方法流程:
本发明提供了一种差分隐私噪声动态分配的实现方法,该方法包括如下步骤:
步骤1:数据集的处理,包含以下内容:
对于给定的空间数据集,本发明将其中的每条记录视为一个二维坐标点,将其映射在矩形二维平面区域内,最终本发明划定一个包含这些点的矩形区域作为本发明的研究对象。
步骤2:应用改进的AG算法进行层次划分,包括以下内容:
给定的矩形区域内,本发明应用改进的AG算法对其进行自适应网格划分,得到两层划分。
AG算法采用两层划分,每层有不同粒度的划分。在第一层,实行粗粒度划分,形成m1×m1个格子,其中m1的取值,采用独立于数据的启发式计算方式求得,
Figure BDA0001154152090000051
其中,N表示整个矩形区域内所有点的个数;ε是总隐私预算;C1是经过实验论证设定为C1=10.
分配给第一层数据总隐私预算:ε1=ε×α,其中0<α<1。然后,将第一层各个格子按照格子中的点的个数再次划分为m2×m2个子格子,
Figure BDA0001154152090000052
其中,N'是对应的第一层格子查询得到点的个数;ε2=ε-ε1;C2常量为
Figure BDA0001154152090000055
步骤3:计算隐私保护需求,包括以下内容:
在运用AG算法对数据集划分的过程中,先根据计算公式,求得每个格子的标准差圆半径:
Figure BDA0001154152090000053
其中,
Figure BDA0001154152090000054
是分布在某一空间数据集点的坐标值的平均数,xi,yi是各个点的横、纵坐标值,n为所在空间的点的数量,r为标准差圆的半径。
再根据公式,求出每个格子标准差圆半径占当层所有格子的标准差圆半径的比例,并依此表示每个格子数据的隐私保护需求:
Figure BDA0001154152090000061
其中,ri是第i个区域的标准差圆半径,sumj表示包第i个区域在内的第j层所有区域的标准差圆半径之和。
步骤4:噪声加入,包括以下内容:
按照步骤(3)得到的比例把当层的总隐私预算分配到每个格子中,举例分析:第一层的某个格子Ri,其标准差圆半径为ri,第一层总隐私预算是ε1,该层所有格子的标准差圆半径之和为sum,则格子Ri被分配到的隐私预算为:
Figure BDA0001154152090000062
根据每个格子所分配得到的隐私预算,对每个格子中的数据查询结果加入相应的Laplace噪声,进而得到带噪声的查询结果,
Ni’=Ni+lap(εi)
其中,Ni表示某一层中第i个原始的技术查询结果;Ni'表示某一层中第i个带有噪声用于发布的计数查询结果;lap(εi)表示参数为εi的Laplace分布函数的结果。
步骤5:结果发布,包括以下内容:
将经过处理后、带有噪声的计数查询结果进行发布。
如图2所示,是AG算法的一个举例。第一层A、B、C、D四个格子。N'是在这些格子中数据点的真实计数基础上,得到相应的隐私预算,动态加入相应的Laplace噪声后计算得到。A、B、C、D四个格子分别再继续划分,形成第二层划分的格子。同样,为每个格子中的计数结果动态分配隐私预算,最终,动态加入相应的噪声。
本发明不限于上述实施例,一切采用等同替换或等效替换形成的技术方案均属于本发明要求保护的范围。

Claims (4)

1.一种差分隐私噪声动态分配的实现方法,其特征在于,所述方法包括如下步骤:
步骤1:数据集的处理;
对于给定的空间数据集,将其中的每条位置信息记录视为一个二维坐标点,将其映射在矩形二维平面区域内,最终划定一个包含这些点的矩形区域作为研究对象;
步骤2:引用自适应网格划分算法先对数据集进行层次划分;
在第一层,实行粗粒度划分,形成m1×m1个格子,其中m1为第一层的划分粒度,同时,分配给第一层数据总隐私预算:ε1=ε×α,其中α为常数,范围为0<α<1,ε是总隐私预算,然后,将第一层各个格子按照格子中的点的个数再次划分为m2×m2个子格子,其中m2为第二层的划分粒度,同时,分配给第二层数据总隐私预算为:ε2=ε-ε1;其中划分粒度计算如下:
在第一层,实行粗粒度划分,形成m1×m1个格子,其中m1的取值,采用独立于数据的启发式计算方式求得:
Figure FDA0002453519150000011
其中,N表示整个矩形区域内所有点的个数;ε是总隐私预算;C1是经过实验论证设定为C1=10;
分配给第一层数据总隐私预算:ε1=ε×α,其中0<α<1,然后,将第一层各个格子按照格子中的点的个数再次划分为m2×m2个子格子,
Figure FDA0002453519150000012
其中,N'是对应的第一层格子查询得到的点的个数;ε2=ε-ε1
步骤3:计算每个格子中数据的隐私保护需求;
在运用自适应网格划分算法对数据集划分的过程中,求出每个格子中数据的标准差圆半径占当层所有格子的标准差圆半径的比例,并依此表示每个格子中数据的隐私保护需求;
步骤4:噪声加入;
按照上述步骤3得到的比例把当层的总隐私预算分配到每个格子中,根据每个格子所分配得到相应的隐私预算,对每个格子中的数据查询结果加入相应的Laplace噪声,进而得到带噪声的查询结果;
步骤5:结果发布;
将经过处理后、带有噪声的计数查询结果进行发布。
2.根据权利要求1所述的一种差分隐私噪声动态分配的实现方法,其特征在于,所述步骤3中的每个格子中的数据的标准差圆半径通过以下公式计算得到:
Figure FDA0002453519150000021
其中,
Figure FDA0002453519150000022
是分布在某一空间数据集点的坐标值的平均数,xi,yi是各个点的横、纵坐标值,n为所在空间的点的数量,r为标准差圆的半径。
3.根据权利要求1所述的一种差分隐私噪声动态分配的实现方法,其特征在于,所述步骤3中每个格子的隐私保护需求通过计算获取得到每个格子中的数据的标准差圆半径在当层所有格子的标准差半径中所占的比例表示,计算公式如下:
Figure FDA0002453519150000023
其中,ri是第i个区域的标准差圆半径,sumj表示第i个区域的第j层所有区域的标准差圆半径之和。
4.根据权利要求1所述的一种差分隐私噪声动态分配的实现方法,其特征在于,所述步骤4中,噪声的加入是通过步骤3中求得的每个格子的隐私保护需求,加入相应的隐私预算,包括:
第一层的某个格子Ri,其标准差圆半径为ri,第一层总隐私预算是ε1,该层所有格子的标准差圆半径之和为sum,则格子Ri被分配到的隐私预算为:
Figure FDA0002453519150000024
根据每个格子所分配得到的隐私预算,对每个格子中的数据查询结果加入相应的Laplace噪声,进而得到带噪声的查询结果:
Ni’=Ni+lap(εi)
其中,Ni表示某一层中第i个原始的计数查询结果;Ni'表示某一层中第i个带有噪声用于发布的计数查询结果;lap(εi)表示参数为εi的Laplace分布函数的结果。
CN201611007705.1A 2016-11-16 2016-11-16 一种差分隐私噪声动态分配的实现方法 Active CN106570422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611007705.1A CN106570422B (zh) 2016-11-16 2016-11-16 一种差分隐私噪声动态分配的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611007705.1A CN106570422B (zh) 2016-11-16 2016-11-16 一种差分隐私噪声动态分配的实现方法

Publications (2)

Publication Number Publication Date
CN106570422A CN106570422A (zh) 2017-04-19
CN106570422B true CN106570422B (zh) 2020-06-05

Family

ID=58542141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611007705.1A Active CN106570422B (zh) 2016-11-16 2016-11-16 一种差分隐私噪声动态分配的实现方法

Country Status (1)

Country Link
CN (1) CN106570422B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107302521B (zh) * 2017-05-23 2021-03-23 全球能源互联网研究院有限公司 一种用户隐私数据的发送方法和接收方法
CN109284620A (zh) * 2017-07-19 2019-01-29 中国移动通信集团黑龙江有限公司 一种发布数据的生成方法、装置和服务器
CN107368752B (zh) * 2017-07-25 2019-06-28 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN108197492B (zh) * 2017-12-29 2021-06-01 南京邮电大学 一种基于差分隐私预算分配的数据查询方法及系统
CN108763947B (zh) * 2018-01-19 2020-07-07 北京交通大学 时间-空间型的轨迹大数据差分隐私保护方法
CN108537055B (zh) * 2018-03-06 2022-04-05 南京邮电大学 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统
CN108595976B (zh) * 2018-03-27 2022-02-08 西安电子科技大学 基于差分隐私的安卓终端传感器信息保护方法
CN108563962A (zh) * 2018-05-03 2018-09-21 桂林电子科技大学 一种基于空间位置服务的差分隐私保护方法
CN109472155B (zh) * 2018-10-11 2022-03-15 电子科技大学 一种空间众包中的差分隐私空间数据发布方法
CN109726587B (zh) * 2018-12-21 2020-08-21 盐城师范学院 一种基于差分隐私的空间数据划分方法
CN109902512B (zh) * 2019-03-04 2022-10-04 南京邮电大学 一种空间数据集的差分隐私的隐私保护方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069371A (zh) * 2015-07-28 2015-11-18 武汉大学 一种地理空间数据的用户隐私保护方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8619984B2 (en) * 2009-09-11 2013-12-31 Microsoft Corporation Differential privacy preserving recommendation
US8661047B2 (en) * 2010-05-17 2014-02-25 Microsoft Corporation Geometric mechanism for privacy-preserving answers

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069371A (zh) * 2015-07-28 2015-11-18 武汉大学 一种地理空间数据的用户隐私保护方法及系统

Also Published As

Publication number Publication date
CN106570422A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN106570422B (zh) 一种差分隐私噪声动态分配的实现方法
Luo et al. Global subsoil organic carbon turnover times dominantly controlled by soil properties rather than climate
Castellani et al. A distance-to-target weighting method for Europe 2020
Webb et al. Computing room acoustics with CUDA-3D FDTD schemes with boundary losses and viscosity
Pozzer et al. Mortality attributable to ambient air pollution: A review of global estimates
CN109726587B (zh) 一种基于差分隐私的空间数据划分方法
Wang et al. Standard and goal-oriented adaptive mesh refinement applied to radiation transport on 2D unstructured triangular meshes
Jeffery et al. The effect of spatial aggregation on performance when mapping a risk of disease
CN115994496B (zh) 城市公园高分辨率大气co2浓度三维场的数值模拟方法
Albani et al. Source characterization of airborne pollutant emissions by hybrid metaheuristic/gradient-based optimization techniques
Yan et al. Differential private spatial decomposition and location publishing based on unbalanced quadtree partition algorithm
Farcaş et al. Road traffic noise: GIS tools for noise mapping and a case study for Skåne region
CN110378146A (zh) 云服务环境下基于模糊理论的医疗大数据隐私保护方法
Kocsis et al. Flash flood vulnerability mapping based on FFPI using GIS spatial analysis case study: Valea Rea catchment area, Romania
Wang et al. Integrative models explain the relationships between species richness and productivity in plant communities
Nelson et al. Modeling pastoralist movement in response to environmental variables and conflict in Somaliland: Combining agent-based modeling and geospatial data
Xu et al. Privacy preserving online matching on ridesharing platforms
Liu et al. How urban morphology relates to the urban heat island effect: A multi-indicator study
Zhu et al. Development and case study of a science-based software platform to support policy making on air quality
Yang et al. Quantitative evaluation of soil water and wind erosion rates in Pakistan
Yan et al. Achieving differential privacy publishing of location-based statistical data using grid clustering
Sun et al. Regional differences in energy and environmental performance: an empirical study of 283 cities in China
Durães et al. Hydrosedimentologic disturbance index applied to watersheds of Minas Gerais state
Mattfeldt A brief introduction to computer‐intensive methods, with a view towards applications in spatial statistics and stereology
Ayoub et al. Proxymix: Influence of Spatial Configuration on Human Collaboration through Agent-based Visualization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant