CN108197492B - 一种基于差分隐私预算分配的数据查询方法及系统 - Google Patents
一种基于差分隐私预算分配的数据查询方法及系统 Download PDFInfo
- Publication number
- CN108197492B CN108197492B CN201711481753.9A CN201711481753A CN108197492B CN 108197492 B CN108197492 B CN 108197492B CN 201711481753 A CN201711481753 A CN 201711481753A CN 108197492 B CN108197492 B CN 108197492B
- Authority
- CN
- China
- Prior art keywords
- query
- differential privacy
- privacy budget
- differential
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公布了一种基于差分隐私预算分配的数据查询方法,实现在数据查询和发布过程中的隐私保护。该方案利用差分隐私保护的序列组合性质,通过建立一个对差分隐私预算总量无穷次、不均匀分割,得到一个隐私预算序列,根据序列中每一项分配的隐私预算,计算添加在数据中的Laplace随机噪声。本发明方法简单、易操作且不限制查询种类,既保证了隐私预算可以无穷分割,满足差分隐私保护条件,又能保证添加噪声的增加速度变慢,使发布的数据尽可能反映真实数据,且又保护了数据的隐私。本发明还提出一种基于差分隐私预算分配的数据查询系统。
Description
技术领域
本发明涉及一种数据查询服务中的差分隐私预算分配方案,属于信息安全技术领域。
背景技术
信息时代的飞速发展,使得数据的获取变得日益容易,这为数据查询的安全性提出了更高的要求。随着隐私保护技术的提出与发展,差分隐私保护方法成为目前一种热门的隐私保护技术。隐私预算如何分配是差分隐私保护技术中经常涉及到的重要问题。差分隐私通过噪声机制实现,即向输出结果中添加随机噪声来保护数据安全,添加的噪声越大,数据越安全,然而,数据的可用性越低,反之亦然。
发明内容
为了解决上述问题,采用如下技术方案:
一种基于差分隐私预算分配的数据查询方法,该方法包括以下步骤:
步骤一、根据隐私保护需求程度,设定差分隐私预算总量ε;
步骤二、生成差分隐私预算序列:
计算在每次数据查询中的差分隐私预算,记该差分隐私预算序列为{εi},i∈N+,其中N+为所有大于0的正整数集合,根据级数和公式:
εi的取值由下列公式计算:
步骤三、根据用户提交的查询以及该查询的敏感度,采用差分隐私机制计算随机噪声;
步骤四、计算含有噪声的查询结果,并向用户返回该结果。
进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,步骤一中设定差分隐私预算总量ε∈[0.01,1]。
进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,ε的大小决定了差分隐私方法对隐私的保护的安全程度,ε越小,隐私保护程度越高;ε越大,隐私保护程度越低。
进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,计算随机噪声具体如下:
进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,所述Laplace分布的位置参数为0、尺度参数为λ,记为Laplace(λ),其概率密度函数如下:
其中:λ为尺度参数,e为自然常数。
进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,查询的敏感度与查询种类有关;对计数查询,敏感度值取1。
进一步的,本发明所提出的基于差分隐私预算分配的数据查询方法,在步骤四中,对原始数据集D,记fi(D)为查询fi的真实结果,则添加了随机噪声后的结果为fi(D)+η,记为Mi(D),即Mi(D)=fi(D)+η。
本发明还提出一种基于差分隐私预算分配的数据查询系统,包括:
差分隐私预算总量设定模块,用于根据隐私保护需求程度,设定差分隐私预算总量;
差分隐私预算序列生成模块,用于计算在每次数据查询中的差分隐私预算,生成差分隐私预算序列;
随机噪声计算模块,用于根据用户提交的查询、该查询的敏感度,采用差分隐私预算序列计算随机噪声;
查询结果返回模块,用于计算含有噪声的查询结果,并向用户返回该结果。
本发明采用上述技术方案,与现有技术相比,具有以下技术效果:
本发明针对现有技术中隐私预算耗尽过快的缺陷,提出一种更为理想的分配方案,使得差分隐私预算消耗得更为缓慢,本发明方法简单、易操作且不限制查询种类,既保证了隐私预算可以无穷分割,满足差分隐私保护条件,又能保证添加噪声的增加速度变慢,使发布的数据尽可能反映真实数据,且又保护了数据的隐私。
附图说明
图1是本发明的差分隐私预算序列{εi}生成流程图。
图2是无穷次数据查询的噪声结果生成流程图。
具体实施方式
下面结合附图对本发明的技术方案的实施作进一步的详细描述,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
在数据查询服务中,记作用于数据集D上的随机算法为Mi(f∈N+),满足Mi(D)=fi(D)+η,其中fi(D)为查询fi的真实结果,Δfi为查询fi的敏感度,εi为隐私保护预算。根据差分隐私的序列组合性质,如果则算法M(M1(D),M2(D),...)提供ε-差分隐私保护,即无穷次数据查询不违背ε-差分隐私保护要求。基于此,本发明提出一种基于差分隐私预算分配的数据查询方法,该方法包括以下步骤:
步骤一:设定差分隐私预算总量
取差分隐私预算总量ε∈[0.01,1],ε的大小决定了差分隐私方法对隐私的保护的安全程度。ε越小,隐私保护程度越高;ε越大,隐私保护程度越低。不同的保护需求决定了ε的不同取值。
步骤二:生成差分隐私预算序列
计算在每次数据查询中的差分隐私预算,记该差分隐私预算序列为{εi},f∈N+,其中N+为所有大于0的正整数集合。根据级数和公式:
εi的取值可由下列公式计算:
即
…
…
步骤三:根据用户提交的查询,计算随机噪声
记fi为用户提交的第f个查询(f∈N+),Δfi是该查询的敏感度,与查询种类有关。对计数查询,敏感度值取1。所述Laplace分布的位置参数为0、尺度参数为λ,记为Laplace(λ),其概率密度函数如下:
其中:λ为尺度参数,e为自然常数。
步骤四:计算含有噪声的查询结果
对原始数据集D,记fi(D)为查询fi的真实结果,则添加了随机噪声后的结果为fi(D)+η,记为Mi(D),即Mi(D)=fi(D)+η。
步骤五:向用户返回噪声结果
针对用户的上述查询fi(f∈N+),返回用户查询结果Mi(D)。由于Mi(D)中包含了满足差分隐私保护的随机噪声,真实数据得到了保护。
以下进一步介绍本发明的具体实施例:
…
美国年龄收入数据共有21583529条记录,记该数据集为D。每条记录包含了年龄和收入信息,下面对该数据集进行查询。为了简化操作,我们设查询集F={f|f求收入在区间[2000,5000]内的总人数},即f1=f2=...=fn=...=f,Δf1=Δf2=...=Δfn=...=Δf=1,f1(D)=f2(D)=...=fn(D)=...=f(D)=941026。
如图2所示,无穷次查询实现过程如下:
Step 1初始化f=1;
Step 2输入fi;
Step 4计算Mi(D)=fi(D)+η;
Step 5输出Mi(D);
Step 6f++;
Step 7转Step 2。
作为本发明进一步的具体实施例,无穷次数据查询的噪声结果生成过程如下:
例如,η=2.0453,那么查询f1的噪声结果M1(D)=941026+2.0453=941028.0453。
(4)后面的查询以此类推。
经过100次查询,消耗的隐私预算量累计为:0.099009900990099;
经过1000次查询,消耗的隐私预算量累计为:0.099900099900100。
综上所述,本发明提出了一种差分隐私预算分配方案,通过对隐私预算总量ε进行无穷次、非均匀分割,从而实现无穷次数据查询消耗的隐私预算永远小于等于隐私预算总量,根据差分隐私的序列组合性质,无穷次查询始终满足ε-差分隐私保护要求。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于差分隐私预算分配的数据查询方法,其特征在于,该方法包括以下步骤:
步骤一、根据隐私保护需求程度,设定差分隐私预算总量ε;
步骤二、生成差分隐私预算序列:
计算在每次数据查询中的差分隐私预算,记该差分隐私预算序列为{εi},i∈N+,其中N+为所有大于0的正整数集合,根据级数和公式:
εi的取值由下列公式计算:
步骤三、根据用户提交的查询以及该查询的敏感度,采用差分隐私机制计算随机噪声;计算随机噪声具体如下:
步骤四、计算含有噪声的查询结果,并向用户返回该结果;其中,对原始数据集D,记fi(D)为查询fi的真实结果,则添加了随机噪声后的结果为fi(D)+η,记为Mi(D),即Mi(D)=fi(D)+η。
2.根据权利要求1所述的一种基于差分隐私预算分配的数据查询方法,其特征在于,步骤一中设定差分隐私预算总量ε∈[0.01,1]。
3.根据权利要求2所述的一种基于差分隐私预算分配的数据查询方法,其特征在于,ε的大小决定了差分隐私方法对隐私的保护的安全程度,ε越小,隐私保护程度越高;ε越大,隐私保护程度越低。
5.根据权利要求1所述的一种基于差分隐私预算分配的数据查询方法,其特征在于,查询的敏感度与查询种类有关;对计数查询,敏感度值取1。
6.一种基于差分隐私预算分配的数据查询系统,其特征在于,包括:
差分隐私预算总量设定模块,用于根据隐私保护需求程度,设定差分隐私预算总量;
差分隐私预算序列生成模块,用于计算在每次数据查询中的差分隐私预算,生成差分隐私预算序列;
随机噪声计算模块,用于根据用户提交的查询、该查询的敏感度,采用差分隐私预算序列计算随机噪声;计算随机噪声具体为:记fi为用户提交的第i个查询,Δfi是该查询的敏感度,根据差分隐私机制,生成服从Laplace分布的随机噪声,记为η,
查询结果返回模块,用于计算含有噪声的查询结果,并向用户返回该结果;其中,对原始数据集D,记fi(D)为查询fi的真实结果,则添加了随机噪声后的结果为fi(D)+η,记为Mi(D),即Mi(D)=fi(D)+η。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711481753.9A CN108197492B (zh) | 2017-12-29 | 2017-12-29 | 一种基于差分隐私预算分配的数据查询方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711481753.9A CN108197492B (zh) | 2017-12-29 | 2017-12-29 | 一种基于差分隐私预算分配的数据查询方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108197492A CN108197492A (zh) | 2018-06-22 |
CN108197492B true CN108197492B (zh) | 2021-06-01 |
Family
ID=62586854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711481753.9A Active CN108197492B (zh) | 2017-12-29 | 2017-12-29 | 一种基于差分隐私预算分配的数据查询方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197492B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492429B (zh) * | 2018-10-30 | 2020-10-16 | 华南师范大学 | 一种数据发布的隐私保护方法 |
CN109558747B (zh) * | 2018-11-14 | 2021-06-04 | 南京邮电大学 | 一种智能电网中隐私兼容的数据收集和支付方法 |
CN109362032B (zh) * | 2018-12-11 | 2020-06-30 | 安徽大学 | 一种基于位置服务的用户位置个性化差分隐私保护方法 |
CN109918939B (zh) * | 2019-01-25 | 2023-08-11 | 东华大学 | 基于hmm的用户查询风险评估和隐私保护方法 |
CN109858282B (zh) * | 2019-02-12 | 2020-12-25 | 北京信息科技大学 | 一种社交网络关系数据隐私保护方法及系统 |
CN110889141B (zh) * | 2019-12-11 | 2022-02-08 | 百度在线网络技术(北京)有限公司 | 数据分布图隐私处理方法、装置和电子设备 |
CN112613065A (zh) * | 2020-12-02 | 2021-04-06 | 北京明朝万达科技股份有限公司 | 一种基于差分隐私保护的数据共享方法及装置 |
CN114547688B (zh) * | 2022-02-24 | 2024-05-17 | 余姚市亿盛金属制品有限公司 | 窗帘智能生产车间数据的差分隐私保护方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050267A (zh) * | 2014-06-23 | 2014-09-17 | 中国科学院软件研究所 | 基于关联规则满足用户隐私保护的个性化推荐方法及系统 |
CN105069371A (zh) * | 2015-07-28 | 2015-11-18 | 武汉大学 | 一种地理空间数据的用户隐私保护方法及系统 |
CN106570422A (zh) * | 2016-11-16 | 2017-04-19 | 南京邮电大学 | 一种差分隐私噪声动态分配的实现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8375030B2 (en) * | 2010-12-03 | 2013-02-12 | Mitsubishi Electric Research Laboratories, Inc. | Differentially private aggregate classifier for multiple databases |
-
2017
- 2017-12-29 CN CN201711481753.9A patent/CN108197492B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050267A (zh) * | 2014-06-23 | 2014-09-17 | 中国科学院软件研究所 | 基于关联规则满足用户隐私保护的个性化推荐方法及系统 |
CN105069371A (zh) * | 2015-07-28 | 2015-11-18 | 武汉大学 | 一种地理空间数据的用户隐私保护方法及系统 |
CN106570422A (zh) * | 2016-11-16 | 2017-04-19 | 南京邮电大学 | 一种差分隐私噪声动态分配的实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108197492A (zh) | 2018-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197492B (zh) | 一种基于差分隐私预算分配的数据查询方法及系统 | |
Yang et al. | Pyramid sketch: A sketch framework for frequency estimation of data streams | |
Luo et al. | Rosetta: A robust space-time optimized range filter for key-value stores | |
CN108537055B (zh) | 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统 | |
CN109409128B (zh) | 一种面向差分隐私保护的频繁项集挖掘方法 | |
CN102629258B (zh) | 重复数据删除方法和装置 | |
US8271462B2 (en) | Method for creating a index of the data blocks | |
Riedel | Active disks: Remote execution for network-attached storage | |
CN101963982B (zh) | 基于位置敏感哈希的删冗存储系统元数据管理方法 | |
Ordonez et al. | FREM: fast and robust EM clustering for large data sets | |
US8176021B2 (en) | Optimized reverse key indexes | |
CN101777017B (zh) | 一种连续数据保护系统的快速恢复方法 | |
US9361321B1 (en) | Backend capacity report for de-duplicated storage systems | |
CN104054071A (zh) | 访问存储设备的方法和存储设备 | |
CN109492429B (zh) | 一种数据发布的隐私保护方法 | |
Ertl | Probminhash–a class of locality-sensitive hash algorithms for the (probability) jaccard similarity | |
Wang et al. | ABACUS: Address-partitioned bloom filter on address checking for uniqueness in IoT blockchain | |
US9380126B2 (en) | Data collection and distribution management | |
Goyal et al. | Lossy conservative update (LCU) sketch: Succinct approximate count storage | |
Araújo et al. | Schema-agnostic blocking for streaming data | |
CN110019017B (zh) | 一种基于访问特征的高能物理文件存储方法 | |
CN104407982A (zh) | 一种ssd盘片垃圾回收方法 | |
Wang et al. | CCF-LRU: hybrid storage cache replacement strategy based on counting cuckoo filter hot-probe method | |
Brasileiro Araújo et al. | Incremental blocking for entity resolution over web streaming data | |
US9213639B2 (en) | Division of numerical values based on summations and memory mapping in computing systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |