CN108197492B - 一种基于差分隐私预算分配的数据查询方法及系统 - Google Patents

一种基于差分隐私预算分配的数据查询方法及系统 Download PDF

Info

Publication number
CN108197492B
CN108197492B CN201711481753.9A CN201711481753A CN108197492B CN 108197492 B CN108197492 B CN 108197492B CN 201711481753 A CN201711481753 A CN 201711481753A CN 108197492 B CN108197492 B CN 108197492B
Authority
CN
China
Prior art keywords
query
differential privacy
privacy budget
differential
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711481753.9A
Other languages
English (en)
Other versions
CN108197492A (zh
Inventor
杨庚
王璇
唐海霞
夏春婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201711481753.9A priority Critical patent/CN108197492B/zh
Publication of CN108197492A publication Critical patent/CN108197492A/zh
Application granted granted Critical
Publication of CN108197492B publication Critical patent/CN108197492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种基于差分隐私预算分配的数据查询方法,实现在数据查询和发布过程中的隐私保护。该方案利用差分隐私保护的序列组合性质,通过建立一个对差分隐私预算总量无穷次、不均匀分割,得到一个隐私预算序列,根据序列中每一项分配的隐私预算,计算添加在数据中的Laplace随机噪声。本发明方法简单、易操作且不限制查询种类,既保证了隐私预算可以无穷分割,满足差分隐私保护条件,又能保证添加噪声的增加速度变慢,使发布的数据尽可能反映真实数据,且又保护了数据的隐私。本发明还提出一种基于差分隐私预算分配的数据查询系统。

Description

一种基于差分隐私预算分配的数据查询方法及系统
技术领域
本发明涉及一种数据查询服务中的差分隐私预算分配方案,属于信息安全技术领域。
背景技术
信息时代的飞速发展,使得数据的获取变得日益容易,这为数据查询的安全性提出了更高的要求。随着隐私保护技术的提出与发展,差分隐私保护方法成为目前一种热门的隐私保护技术。隐私预算如何分配是差分隐私保护技术中经常涉及到的重要问题。差分隐私通过噪声机制实现,即向输出结果中添加随机噪声来保护数据安全,添加的噪声越大,数据越安全,然而,数据的可用性越低,反之亦然。
对于差分隐私预算ε的无穷分配,较为常规的一种思路是二分法,即分配给第i次查询的隐私预算
Figure BDA0001533970380000011
这一方案简单易操作,但是会导致隐私预算耗尽过快,在查询次数较大时,分得的隐私预算接近于0,因此效果并不理想。
发明内容
本发明所要解决的问题就是针对背景技术中的缺陷,本发明提出一种数据查询服务中可行的差分隐私预算分配方案,实现隐私预算ε的无穷分配,即
Figure BDA0001533970380000012
从而使得无穷次数据查询满足ε-差分隐私保护要求。
为了解决上述问题,采用如下技术方案:
一种基于差分隐私预算分配的数据查询方法,该方法包括以下步骤:
步骤一、根据隐私保护需求程度,设定差分隐私预算总量ε;
步骤二、生成差分隐私预算序列:
计算在每次数据查询中的差分隐私预算,记该差分隐私预算序列为{εi},i∈N+,其中N+为所有大于0的正整数集合,根据级数和公式:
Figure BDA0001533970380000013
εi的取值由下列公式计算:
Figure BDA0001533970380000014
则有
Figure BDA0001533970380000015
n为自然数;
步骤三、根据用户提交的查询以及该查询的敏感度,采用差分隐私机制计算随机噪声;
步骤四、计算含有噪声的查询结果,并向用户返回该结果。
进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,步骤一中设定差分隐私预算总量ε∈[0.01,1]。
进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,ε的大小决定了差分隐私方法对隐私的保护的安全程度,ε越小,隐私保护程度越高;ε越大,隐私保护程度越低。
进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,计算随机噪声具体如下:
记fi为用户提交的第f个查询,Δfi是该查询的敏感度,根据差分隐私机制,生成服从Laplace分布的随机噪声,记为η,
Figure BDA0001533970380000021
进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,所述Laplace分布的位置参数为0、尺度参数为λ,记为Laplace(λ),其概率密度函数如下:
Figure BDA0001533970380000022
其中:λ为尺度参数,e为自然常数。
进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,查询的敏感度与查询种类有关;对计数查询,敏感度值取1。
进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,在步骤四中,对原始数据集D,记fi(D)为查询fi的真实结果,则添加了随机噪声后的结果为fi(D)+η,记为Mi(D),即Mi(D)=fi(D)+η。
本发明还提出一种基于差分隐私预算分配的数据查询系统,包括:
差分隐私预算总量设定模块,用于根据隐私保护需求程度,设定差分隐私预算总量;
差分隐私预算序列生成模块,用于计算在每次数据查询中的差分隐私预算,生成差分隐私预算序列;
随机噪声计算模块,用于根据用户提交的查询、该查询的敏感度,采用差分隐私预算序列计算随机噪声;
查询结果返回模块,用于计算含有噪声的查询结果,并向用户返回该结果。
本发明采用上述技术方案,与现有技术相比,具有以下技术效果:
本发明针对现有技术中隐私预算耗尽过快的缺陷,提出一种更为理想的分配方案,使得差分隐私预算消耗得更为缓慢,本发明方法简单、易操作且不限制查询种类,既保证了隐私预算可以无穷分割,满足差分隐私保护条件,又能保证添加噪声的增加速度变慢,使发布的数据尽可能反映真实数据,且又保护了数据的隐私。
附图说明
图1是本发明的差分隐私预算序列{εi}生成流程图。
图2是无穷次数据查询的噪声结果生成流程图。
具体实施方式
下面结合附图对本发明的技术方案的实施作进一步的详细描述,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
在数据查询服务中,记作用于数据集D上的随机算法为Mi(f∈N+),满足Mi(D)=fi(D)+η,
Figure BDA0001533970380000031
其中fi(D)为查询fi的真实结果,Δfi为查询fi的敏感度,εi为隐私保护预算。根据差分隐私的序列组合性质,如果
Figure BDA0001533970380000032
则算法M(M1(D),M2(D),...)提供ε-差分隐私保护,即无穷次数据查询不违背ε-差分隐私保护要求。基于此,本发明提出一种基于差分隐私预算分配的数据查询方法,该方法包括以下步骤:
步骤一:设定差分隐私预算总量
取差分隐私预算总量ε∈[0.01,1],ε的大小决定了差分隐私方法对隐私的保护的安全程度。ε越小,隐私保护程度越高;ε越大,隐私保护程度越低。不同的保护需求决定了ε的不同取值。
步骤二:生成差分隐私预算序列
计算在每次数据查询中的差分隐私预算,记该差分隐私预算序列为{εi},f∈N+,其中N+为所有大于0的正整数集合。根据级数和公式:
Figure BDA0001533970380000033
εi的取值可由下列公式计算:
Figure BDA0001533970380000034
Figure BDA0001533970380000035
Figure BDA0001533970380000041
Figure BDA0001533970380000042
则有
Figure BDA0001533970380000043
满足差分隐私序列组合性质。
步骤三:根据用户提交的查询,计算随机噪声
记fi为用户提交的第f个查询(f∈N+),Δfi是该查询的敏感度,与查询种类有关。对计数查询,敏感度值取1。所述Laplace分布的位置参数为0、尺度参数为λ,记为Laplace(λ),其概率密度函数如下:
Figure BDA0001533970380000044
其中:λ为尺度参数,e为自然常数。
根据差分隐私机制,生成服从Laplace分布的随机噪声,记为η,
Figure BDA0001533970380000045
步骤四:计算含有噪声的查询结果
对原始数据集D,记fi(D)为查询fi的真实结果,则添加了随机噪声后的结果为fi(D)+η,记为Mi(D),即Mi(D)=fi(D)+η。
步骤五:向用户返回噪声结果
针对用户的上述查询fi(f∈N+),返回用户查询结果Mi(D)。由于Mi(D)中包含了满足差分隐私保护的随机噪声,真实数据得到了保护。
以下进一步介绍本发明的具体实施例:
本发明的差分隐私预算序列{εi}生成方式如图1所示,令ε=0.1,因为
Figure BDA0001533970380000046
所以有:
Figure BDA0001533970380000047
Figure BDA0001533970380000048
Figure BDA0001533970380000049
美国年龄收入数据共有21583529条记录,记该数据集为D。每条记录包含了年龄和收入信息,下面对该数据集进行查询。为了简化操作,我们设查询集F={f|f求收入在区间[2000,5000]内的总人数},即f1=f2=...=fn=...=f,Δf1=Δf2=...=Δfn=...=Δf=1,f1(D)=f2(D)=...=fn(D)=...=f(D)=941026。
如图2所示,无穷次查询实现过程如下:
Step 1初始化f=1;
Step 2输入fi
Stcp 3生成εi,并产生随机噪声
Figure BDA0001533970380000051
Step 4计算Mi(D)=fi(D)+η;
Step 5输出Mi(D);
Step 6f++;
Step 7转Step 2。
作为本发明进一步的具体实施例,无穷次数据查询的噪声结果生成过程如下:
(1)当用户提交查询f1时,将产生一个随机噪声
Figure BDA0001533970380000052
Figure BDA0001533970380000053
例如,η=2.0453,那么查询f1的噪声结果M1(D)=941026+2.0453=941028.0453。
(2)当用户提交查询f2时,将产生一个随机噪声
Figure BDA0001533970380000054
Figure BDA0001533970380000055
例如,η=-2.6791,那么查询f2的噪声结果M2(D)=941026-2.6791=941023.3209。
(3)当用户提交查询f3时,将产生一个随机噪声
Figure BDA0001533970380000056
Figure BDA0001533970380000057
例如,η=10.3418,那么查询f3的噪声结果M3(D)=941026+10.3418=941036.3418。
(4)后面的查询以此类推。
经过100次查询,消耗的隐私预算量累计为:0.099009900990099;
经过1000次查询,消耗的隐私预算量累计为:0.099900099900100。
综上所述,本发明提出了一种差分隐私预算分配方案,通过对隐私预算总量ε进行无穷次、非均匀分割,从而实现无穷次数据查询消耗的隐私预算永远小于等于隐私预算总量,根据差分隐私的序列组合性质,无穷次查询始终满足ε-差分隐私保护要求。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于差分隐私预算分配的数据查询方法,其特征在于,该方法包括以下步骤:
步骤一、根据隐私保护需求程度,设定差分隐私预算总量ε;
步骤二、生成差分隐私预算序列:
计算在每次数据查询中的差分隐私预算,记该差分隐私预算序列为{εi},i∈N+,其中N+为所有大于0的正整数集合,根据级数和公式:
Figure FDA0002902398380000011
εi的取值由下列公式计算:
Figure FDA0002902398380000012
则有
Figure FDA0002902398380000013
n为自然数;
步骤三、根据用户提交的查询以及该查询的敏感度,采用差分隐私机制计算随机噪声;计算随机噪声具体如下:
记fi为用户提交的第i个查询,Δfi是该查询的敏感度,根据差分隐私机制,生成服从Laplace分布的随机噪声,记为η,
Figure FDA0002902398380000014
步骤四、计算含有噪声的查询结果,并向用户返回该结果;其中,对原始数据集D,记fi(D)为查询fi的真实结果,则添加了随机噪声后的结果为fi(D)+η,记为Mi(D),即Mi(D)=fi(D)+η。
2.根据权利要求1所述的一种基于差分隐私预算分配的数据查询方法,其特征在于,步骤一中设定差分隐私预算总量ε∈[0.01,1]。
3.根据权利要求2所述的一种基于差分隐私预算分配的数据查询方法,其特征在于,ε的大小决定了差分隐私方法对隐私的保护的安全程度,ε越小,隐私保护程度越高;ε越大,隐私保护程度越低。
4.根据权利要求1所述的一种基于差分隐私预算分配的数据查询方法,其特征在于,所述Laplace分布的位置参数为0、尺度参数为λ,记为Laplace(λ),其概率密度函数如下:
Figure FDA0002902398380000015
其中:λ为尺度参数,e为自然常数。
5.根据权利要求1所述的一种基于差分隐私预算分配的数据查询方法,其特征在于,查询的敏感度与查询种类有关;对计数查询,敏感度值取1。
6.一种基于差分隐私预算分配的数据查询系统,其特征在于,包括:
差分隐私预算总量设定模块,用于根据隐私保护需求程度,设定差分隐私预算总量;
差分隐私预算序列生成模块,用于计算在每次数据查询中的差分隐私预算,生成差分隐私预算序列;
随机噪声计算模块,用于根据用户提交的查询、该查询的敏感度,采用差分隐私预算序列计算随机噪声;计算随机噪声具体为:记fi为用户提交的第i个查询,Δfi是该查询的敏感度,根据差分隐私机制,生成服从Laplace分布的随机噪声,记为η,
Figure FDA0002902398380000021
查询结果返回模块,用于计算含有噪声的查询结果,并向用户返回该结果;其中,对原始数据集D,记fi(D)为查询fi的真实结果,则添加了随机噪声后的结果为fi(D)+η,记为Mi(D),即Mi(D)=fi(D)+η。
CN201711481753.9A 2017-12-29 2017-12-29 一种基于差分隐私预算分配的数据查询方法及系统 Active CN108197492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711481753.9A CN108197492B (zh) 2017-12-29 2017-12-29 一种基于差分隐私预算分配的数据查询方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711481753.9A CN108197492B (zh) 2017-12-29 2017-12-29 一种基于差分隐私预算分配的数据查询方法及系统

Publications (2)

Publication Number Publication Date
CN108197492A CN108197492A (zh) 2018-06-22
CN108197492B true CN108197492B (zh) 2021-06-01

Family

ID=62586854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711481753.9A Active CN108197492B (zh) 2017-12-29 2017-12-29 一种基于差分隐私预算分配的数据查询方法及系统

Country Status (1)

Country Link
CN (1) CN108197492B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492429B (zh) * 2018-10-30 2020-10-16 华南师范大学 一种数据发布的隐私保护方法
CN109558747B (zh) * 2018-11-14 2021-06-04 南京邮电大学 一种智能电网中隐私兼容的数据收集和支付方法
CN109362032B (zh) * 2018-12-11 2020-06-30 安徽大学 一种基于位置服务的用户位置个性化差分隐私保护方法
CN109918939B (zh) * 2019-01-25 2023-08-11 东华大学 基于hmm的用户查询风险评估和隐私保护方法
CN109858282B (zh) * 2019-02-12 2020-12-25 北京信息科技大学 一种社交网络关系数据隐私保护方法及系统
CN110889141B (zh) * 2019-12-11 2022-02-08 百度在线网络技术(北京)有限公司 数据分布图隐私处理方法、装置和电子设备
CN112613065A (zh) * 2020-12-02 2021-04-06 北京明朝万达科技股份有限公司 一种基于差分隐私保护的数据共享方法及装置
CN114547688B (zh) * 2022-02-24 2024-05-17 余姚市亿盛金属制品有限公司 窗帘智能生产车间数据的差分隐私保护方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050267A (zh) * 2014-06-23 2014-09-17 中国科学院软件研究所 基于关联规则满足用户隐私保护的个性化推荐方法及系统
CN105069371A (zh) * 2015-07-28 2015-11-18 武汉大学 一种地理空间数据的用户隐私保护方法及系统
CN106570422A (zh) * 2016-11-16 2017-04-19 南京邮电大学 一种差分隐私噪声动态分配的实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8375030B2 (en) * 2010-12-03 2013-02-12 Mitsubishi Electric Research Laboratories, Inc. Differentially private aggregate classifier for multiple databases

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050267A (zh) * 2014-06-23 2014-09-17 中国科学院软件研究所 基于关联规则满足用户隐私保护的个性化推荐方法及系统
CN105069371A (zh) * 2015-07-28 2015-11-18 武汉大学 一种地理空间数据的用户隐私保护方法及系统
CN106570422A (zh) * 2016-11-16 2017-04-19 南京邮电大学 一种差分隐私噪声动态分配的实现方法

Also Published As

Publication number Publication date
CN108197492A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN108197492B (zh) 一种基于差分隐私预算分配的数据查询方法及系统
Yang et al. Pyramid sketch: A sketch framework for frequency estimation of data streams
Luo et al. Rosetta: A robust space-time optimized range filter for key-value stores
CN108537055B (zh) 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统
CN109409128B (zh) 一种面向差分隐私保护的频繁项集挖掘方法
CN102629258B (zh) 重复数据删除方法和装置
US8271462B2 (en) Method for creating a index of the data blocks
Riedel Active disks: Remote execution for network-attached storage
CN101963982B (zh) 基于位置敏感哈希的删冗存储系统元数据管理方法
Ordonez et al. FREM: fast and robust EM clustering for large data sets
US8176021B2 (en) Optimized reverse key indexes
CN101777017B (zh) 一种连续数据保护系统的快速恢复方法
US9361321B1 (en) Backend capacity report for de-duplicated storage systems
CN104054071A (zh) 访问存储设备的方法和存储设备
CN109492429B (zh) 一种数据发布的隐私保护方法
Ertl Probminhash–a class of locality-sensitive hash algorithms for the (probability) jaccard similarity
Wang et al. ABACUS: Address-partitioned bloom filter on address checking for uniqueness in IoT blockchain
US9380126B2 (en) Data collection and distribution management
Goyal et al. Lossy conservative update (LCU) sketch: Succinct approximate count storage
Araújo et al. Schema-agnostic blocking for streaming data
CN110019017B (zh) 一种基于访问特征的高能物理文件存储方法
CN104407982A (zh) 一种ssd盘片垃圾回收方法
Wang et al. CCF-LRU: hybrid storage cache replacement strategy based on counting cuckoo filter hot-probe method
Brasileiro Araújo et al. Incremental blocking for entity resolution over web streaming data
US9213639B2 (en) Division of numerical values based on summations and memory mapping in computing systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant