CN109492429B - 一种数据发布的隐私保护方法 - Google Patents
一种数据发布的隐私保护方法 Download PDFInfo
- Publication number
- CN109492429B CN109492429B CN201811273045.0A CN201811273045A CN109492429B CN 109492429 B CN109492429 B CN 109492429B CN 201811273045 A CN201811273045 A CN 201811273045A CN 109492429 B CN109492429 B CN 109492429B
- Authority
- CN
- China
- Prior art keywords
- data
- query
- packet
- vector
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据发布的隐私保护方法,为数据的开放共享发布提供了一种新型隐私保护发布方法,本发明主要是对数据库进行批量查询操作后得到的具有一定统计特性的数据,通过对数据精确有效地添加满足ε‑差分隐私保护预算的随机噪声,最后将噪声扰动结果通过直方图发布的方式返回给用户。本发明在差分隐私保护预算ε前提下,保证了数据中包含的个体隐私几乎不可能被泄露,同时所发布的数据基本保持原有的统计特性,具有更高的可用性,对发布数据进一步实现挖掘学习利用和价值发现。
Description
技术领域
本发明属于数据开放和隐私保护技术领域,具体涉及一种数据发布的隐私保护方法。
背景技术
随着数据开放成为大数据时代的必然趋势,普遍认为隐私保护是数据开放中不可避免的关键问题之一。差分隐私直方图发布方法作为隐私保护数据发布的一种重要形式,通过对原始数据的统计结果添加噪声扰动,使得攻击者在统计意义上无论拥有多少背景知识,都无法有效地获取个体隐私。另外,该技术使个体敏感数据失真的同时,又能基本保持数据的全局统计特性,故而保留了数据受隐私保护发布后的价值。
差分隐私直方图方法是一种非交互式的隐私保护数据发布机制,该机制通常首先对数据库进行常见的批量查询操作(如计数查询),然后对结果(批量数据)进行加噪处理,加噪结果以直方图的形式展示给用户。在数据开放中,批量数据是发布得最多的数据种类。早期是采用匿名机制对批量数据中包含的用户隐私进行抑制或擦除,而目前常见的差分隐私直方图发布方法则是采用噪声扰动的方式对批量数据直接添加噪声扰动后进行发布。
目前,现有差分隐私直方图发布方法不能较好地应用于数据开放中的隐私保护数据发布,一方面是数据种类繁多,没有统一的发布业务流程;另一方面,直接添加噪声的发布方法发布的数据相对原始数据噪声扰动过大,降低了再次利用挖掘学习的价值。
因此,需要一种数据发布的隐私保护方法,针对批量数据这种应用场景,实现可用性更高的隐私保护数据发布。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种数据发布的隐私保护方法,是面向批量数据的差分隐私直方图发布方法,可以根据用户向数据开放平台提交的批量查询请求,从数据库中获取相应的批量数据,并对批量数据添加满足给定的差分隐私保护要求的随机噪声,最后将噪声扰动结果通过直方图发布的方式返回给用户,可以有效地保护数据中包含的个体隐私不被泄露,同时提高返回的直方图发布的结果的可用性。
为了达到上述目的,本发明采用以下技术方案:本发明公开了一种数据发布的隐私保护方法,其特征在于,包括下述步骤:
P1:计算全局敏感度,获取用户的批量查询请求,形成一个查询函数集F,求得查询函数集F的全局敏感度S(F);
所述查询函数集F由用户提交的所有批量查询请求对应的查询函数f组成;所述全局敏感度是查询函数集F中局部敏感度Δf的最大值,所述局部敏感度Δf指的是增加或减少数据库中任意一条记录后查询函数f输出的最大值,即其中D1和D2为数据库中相差一条记录的任意两个子集;所述批量查询请求,为数据库常见的聚类查询请求,所述聚类查询请求包含聚类计数查询和聚类平均查询;
P2:获取初始批量数据,将查询函数集F作用于数据开放平台中的目标数据库,得到结果集R,将所述结果集R的每个元素表示为一个向量T,所述向量T作为待发布的批量数据;
P4:对排序后的批量数据进行分组重构,使用基于回溯策略的贪心聚类方法对排序后的批量数据的所有分量进行分组,将每个分组的平均值替换组内的每个分量;
P6:将二次加噪后的批量数据表示成直方图的形式,返回给用户。
作为优选的技术方案,在步骤P2中,所述的初始批量数据是查询函数f的输出结果T,用一个向量T=<x1,x2,...,xn>表示,后续对向量各分量的操作能根据下标快速计算,其中包含对向量各分量的加噪、排序、分组和重构操作。
作为优选的技术方案,所述查询函数集F是动态更新的,其中包含的每个查询函数f对应用户提交的一个批量查询请求,查询函数的输入是查询请求指定的数据库的任意一个子集,查询函数的输出是一个n维的实数向量T,其中n小于数据库的记录数。
作为优选的技术方案,在步骤P3中,所述批量数据加噪排序包括下述步骤:
P31:设定系统的差分隐私保护预算ε,根据向量T的维度生成随机噪声向量Y=<Y1,Y2,...,Yn>,Y的每个分量均为一个独立的随机变量;
P32:向量T添加随机噪声向量Y,得到加噪的向量<x1+Y1,x2+Y2,...,xn+Yn>;
作为优选的技术方案,在步骤P4中,对排序后的批量数据进行分组重构的具体步骤为:
P42:计算当前分组Ci的分组误差err(Ci),计算当前分量不划分到当前分组Ci而产生的误差下界假设当前分量划分到当前分组Ci,计算新的分组误差判断是否满足,若满足,则进行步骤P43;否则进行步骤P44;
P44:初始化空的分组Ci+1,分量作为分组Ci+1的第一个元素,更新当前分组Ci=Ci+1,更新当前待划分的分量判断当前分组编号i>2是否满足,若满足,进行步骤P45;否则进行P42,其中i表示当前分组编号;
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明和差分隐私保护的传统方法相比较,本方法提出的回溯分组方法和实现技术,在划分分组上更具精确与合理性,达到了更小的误差效果,较好解决了数据开放中差分隐私保护的误差问题。
(2)在隐私保护系统中使用本方法的实际实现,在差分隐私保护一定预算ε前提下,本方法可实现每个批量数据分量的噪声扰动更小,更接近原始数据,从而使发布数据的可用性更高。
附图说明
图1是根据本发明一个实施例的数据发布的隐私保护方法流程图;
图2是根据本发明一个实施例的对批量数据进行加噪排序流程图;
图3是根据本发明一个实施例的对加噪排序后数据进行分组重构流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例一种数据发布的隐私保护方法,具体包括下述步骤:
P1:计算全局敏感度,获取用户的批量查询请求,形成一个查询函数集F,求得查询函数集F的全局敏感度S(F);所述查询函数集F由用户提交的所有批量查询请求对应的查询函数f组成;所述全局敏感度是查询函数集F中局部敏感度Δf的最大值,所述局部敏感度Δf指的是增加或减少数据库中任意一条记录对查询函数f输出的最大值,即其中D1和D2为数据库中相差一条记录的任意两个子集;所述批量查询请求,为数据库常见的聚类查询请求,如聚类计数查询和聚类平均查询等等;
P2:获取批量数据,首先将查询函数集F作用于数据开放平台中的目标数据库,得到的结果集R,将结果集的每个元素表示为一个向量T,作为待发布的批量数据;所述批量数据是查询函数f的输出结果T,用一个向量T=<x1,x2,...,xn>表示;
如图2所示,对批量数据进行加噪排序的具体步骤为:
P32:向量T添加随机噪声向量Y,得到加噪的向量<x1+Y1,x2+Y2,...,xn+Yn>;
P4:对排序后的批量数据进行分组重构,使用基于回溯策略的贪心聚类方法对排序后的批量数据的所有分量进行分组,将每个分组的平均值替换组内的每个分量;
如图3所示,步骤P4中对加噪排序后数据进行分组重构的具体步骤为:
P42:计算当前分组Ci的分组误差err(Ci),计算当前分量不划分到当前分组Ci而产生的误差下界假设当前分量划分到当前分组Ci,计算新的分组误差判断是否满足,若满足,则进行步骤P43;否则进行步骤P44;所述分组误差的计算公式为其中所述的误差下界计算公式为
P6:将二次加噪后的批量数据表示成直方图的形式,返回给用户。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种数据发布的隐私保护方法,其特征在于,包括下述步骤:
P1:计算全局敏感度,获取用户的批量查询请求,形成一个查询函数集F,求得查询函数集F的全局敏感度S(F);
所述查询函数集F由用户提交的所有批量查询请求对应的查询函数f组成;所述全局敏感度是查询函数集F中局部敏感度Δf的最大值,所述局部敏感度Δf指的是增加或减少数据库中任意一条记录后查询函数f输出的最大值,即其中D1和D2为数据库中相差一条记录的任意两个子集;所述批量查询请求,为数据库常见的聚类查询请求,所述聚类查询请求包含聚类计数查询和聚类平均查询;
P2:获取初始批量数据,将查询函数集F作用于数据开放平台中的目标数据库,得到结果集R,将所述结果集R的每个元素表示为一个向量T,所述向量T作为待发布的批量数据;
P4:对排序后的批量数据进行分组重构,使用基于回溯策略的贪心聚类方法对排序后的批量数据的所有分量进行分组,将每个分组的平均值替换组内的每个分量;
对排序后的批量数据进行分组重构的具体步骤为:
P42:计算当前分组Ci的分组误差err(Ci),计算当前分量不划分到当前分组Ci而产生的误差下界假设当前分量划分到当前分组Ci,计算新的分组误差判断是否满足,若满足,则进行步骤P43;否则进行步骤P44;
P44:初始化空的分组Ci+1,分量作为分组Ci+1的第一个元素,更新当前分组Ci=Ci+1,更新当前待划分的分量判断当前分组编号i>2是否满足,若满足,进行步骤P45;否则进行P42,其中i表示当前分组编号;
P6:将二次加噪后的批量数据表示成直方图的形式,返回给用户。
2.根据权利要求1所述的数据发布的隐私保护方法,其特征在于,在步骤P2中,所述的初始批量数据是查询函数f的输出结果T,用一个向量T=<x1,x2,...,xn>表示,后续对向量各分量的操作能根据下标快速计算,其中包含对向量各分量的加噪、排序、分组和重构操作。
3.根据权利要求1所述的数据发布的隐私保护方法,其特征在于,所述查询函数集F是动态更新的,其中包含的每个查询函数f对应用户提交的一个批量查询请求,查询函数的输入是查询请求指定的数据库的任意一个子集,查询函数的输出是一个n维的实数向量T,其中n小于数据库的记录数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811273045.0A CN109492429B (zh) | 2018-10-30 | 2018-10-30 | 一种数据发布的隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811273045.0A CN109492429B (zh) | 2018-10-30 | 2018-10-30 | 一种数据发布的隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492429A CN109492429A (zh) | 2019-03-19 |
CN109492429B true CN109492429B (zh) | 2020-10-16 |
Family
ID=65693396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811273045.0A Active CN109492429B (zh) | 2018-10-30 | 2018-10-30 | 一种数据发布的隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492429B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135180B (zh) * | 2019-05-15 | 2021-04-06 | 苏州大学 | 满足节点差分隐私的度分布直方图发布方法 |
CN111506924B (zh) * | 2020-06-08 | 2023-10-13 | Oppo广东移动通信有限公司 | 一种差分隐私保护方法、装置及计算机可读存储介质 |
CN111737744B (zh) * | 2020-06-22 | 2022-09-30 | 安徽工业大学 | 一种基于差分隐私的数据发布方法 |
CN114611127B (zh) * | 2022-03-15 | 2022-10-28 | 湖南致坤科技有限公司 | 一种数据库数据安全管理系统 |
CN117910031A (zh) * | 2023-12-22 | 2024-04-19 | 国网青海省电力公司信息通信公司 | 数据查询方法、装置、非易失性存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279713A (zh) * | 2013-06-08 | 2013-09-04 | 广西师范大学 | 一种优化的社交网络图数据发布隐私保护方法 |
CN104809408A (zh) * | 2015-05-08 | 2015-07-29 | 中国科学技术大学 | 一种基于差分隐私的直方图发布方法 |
CN105989161A (zh) * | 2015-03-04 | 2016-10-05 | 华为技术有限公司 | 一种处理大数据的方法和装置 |
CN106991335A (zh) * | 2017-02-20 | 2017-07-28 | 南京邮电大学 | 一种基于差分隐私保护的数据发布方法 |
CN107766740A (zh) * | 2017-10-20 | 2018-03-06 | 辽宁工业大学 | 一种Spark 框架下的基于差分隐私保护的数据发布方法 |
CN107832631A (zh) * | 2017-11-13 | 2018-03-23 | 上海斐讯数据通信技术有限公司 | 一种数据发布的隐私保护方法和系统 |
CN108197492A (zh) * | 2017-12-29 | 2018-06-22 | 南京邮电大学 | 一种基于差分隐私预算分配的数据查询方法及系统 |
CN108537055A (zh) * | 2018-03-06 | 2018-09-14 | 南京邮电大学 | 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9471791B2 (en) * | 2011-08-18 | 2016-10-18 | Thomson Licensing | Private decayed sum estimation under continual observation |
-
2018
- 2018-10-30 CN CN201811273045.0A patent/CN109492429B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279713A (zh) * | 2013-06-08 | 2013-09-04 | 广西师范大学 | 一种优化的社交网络图数据发布隐私保护方法 |
CN105989161A (zh) * | 2015-03-04 | 2016-10-05 | 华为技术有限公司 | 一种处理大数据的方法和装置 |
CN104809408A (zh) * | 2015-05-08 | 2015-07-29 | 中国科学技术大学 | 一种基于差分隐私的直方图发布方法 |
CN106991335A (zh) * | 2017-02-20 | 2017-07-28 | 南京邮电大学 | 一种基于差分隐私保护的数据发布方法 |
CN107766740A (zh) * | 2017-10-20 | 2018-03-06 | 辽宁工业大学 | 一种Spark 框架下的基于差分隐私保护的数据发布方法 |
CN107832631A (zh) * | 2017-11-13 | 2018-03-23 | 上海斐讯数据通信技术有限公司 | 一种数据发布的隐私保护方法和系统 |
CN108197492A (zh) * | 2017-12-29 | 2018-06-22 | 南京邮电大学 | 一种基于差分隐私预算分配的数据查询方法及系统 |
CN108537055A (zh) * | 2018-03-06 | 2018-09-14 | 南京邮电大学 | 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统 |
Non-Patent Citations (3)
Title |
---|
《Towards Accurate Histogram Publication under Differential Privacy》;Xiaojian Zhang;《SIAM international conference on data mining》;20140426;第965-973页 * |
《基于桶划分的差分隐私直方图发布贪心算法》;孙岚等;《厦门大学学报(自然科学版)》;20131130;第52卷(第6期);第770-775页 * |
《差分隐私下一种精确直方图发布方法》;张啸剑等;《计算机研究与发展》;20161231;第53卷(第5期);第1106-1117页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109492429A (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492429B (zh) | 一种数据发布的隐私保护方法 | |
WO2023097929A1 (zh) | 一种基于改进型kgat模型的知识图谱推荐方法及系统 | |
CN111712810B (zh) | 用于知识图的动态访问控制 | |
Castellano et al. | Competing activation mechanisms in epidemics on networks | |
CN106126700B (zh) | 一种微博谣言传播的分析方法 | |
EP3690677A1 (en) | Differentially private query budget refunding | |
CN114116198A (zh) | 一种移动车辆的异步联邦学习方法、系统、设备及终端 | |
CN109409128B (zh) | 一种面向差分隐私保护的频繁项集挖掘方法 | |
CN107249035B (zh) | 一种等级动态可变的共享重复数据存储和读取方法 | |
CN109726587B (zh) | 一种基于差分隐私的空间数据划分方法 | |
Liu et al. | Recent advances on federated learning: A systematic survey | |
CN108280366B (zh) | 一种基于差分隐私的批量线性查询方法 | |
US20170091190A1 (en) | Computer system programmed to identify common subsequences in logs | |
CN114356540B (zh) | 一种参数更新方法、装置、电子设备和存储介质 | |
CN107633257B (zh) | 数据质量评估方法及装置、计算机可读存储介质、终端 | |
CN111127233A (zh) | 一种社交网络无向有权图中用户核值计算方法 | |
CN112417500A (zh) | 一种隐私保护的数据流统计发布方法 | |
Liu et al. | Strong social graph based trust-oriented graph pattern matching with multiple constraints | |
CN113157198A (zh) | 管理缓存的方法、设备和计算机程序产品 | |
Chen et al. | Privacy-preserving hierarchical federated recommendation systems | |
Lin et al. | Sequence optimization for media objects with due date constraints in multimedia presentations from digital libraries | |
CN117473188A (zh) | 一种显示数据的渲染方法、装置、电子设备及存储介质 | |
CN117407921A (zh) | 基于必连和勿连约束的差分隐私直方图发布方法及系统 | |
CN117391858A (zh) | 一种基于图神经网络的归纳式区块链账户分配方法及装置 | |
CN117035045A (zh) | 模型参数更新方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230614 Address after: Building G1, No. 17, Software Road, Tianhe District, Guangzhou, Guangdong 510660 Patentee after: GUANGZHOU BINGO SOFTWARE CO.,LTD. Address before: 510631 School of computer science, South China Normal University, 55 Zhongshan Avenue West, Tianhe District, Guangzhou City, Guangdong Province Patentee before: SOUTH CHINA NORMAL University |
|
TR01 | Transfer of patent right |