CN104216994B - 一种列联表数据发布的隐私保护方法 - Google Patents
一种列联表数据发布的隐私保护方法 Download PDFInfo
- Publication number
- CN104216994B CN104216994B CN201410457822.2A CN201410457822A CN104216994B CN 104216994 B CN104216994 B CN 104216994B CN 201410457822 A CN201410457822 A CN 201410457822A CN 104216994 B CN104216994 B CN 104216994B
- Authority
- CN
- China
- Prior art keywords
- packet
- substitution
- data
- basic data
- contingency table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种列联表数据发布的隐私保护方法,属于计算机数据隐私保护领域。本发明包括:确定列联表内每个分组的初始替换基数和最终替换基数,记录敏感值基于指数机制进行的随机替换,重新计算替换后的每个分组并输出新的列联表。本发明能够使处理后的列联表满足ε‑差分隐私的安全需求,同时支持任意原数据所支持的查询,并且处理后的数据误差小,精确度高,使得数据可用性更强。
Description
技术领域
本发明属于计算机数据隐私保护技术领域,更具体地,涉及一种列联表数据发布的隐私保护方法。
背景技术
数据发布的隐私保护技术是近年来数据挖掘领域的一项研究热点。随着大数据时代的到来,越来越多的数据正在被一些统计机构采集和分析。有时,这些机构会发布一些数据供第三方使用,而这些数据可能涵盖数据被采集者的一些敏感信息,例如某病人患有某种疾病等。因此,直接发布这些数据会造成数据被采集者的隐私泄露。为了保护数据被采集者的隐私,数据发布方必须采取隐私保护措施。
列联表(Contingency Table)指的是按两个或多个属性将数据分类时所列出的频数表,是一种典型的非交互式数据发布形式。例如,在发布数据的时候,按“准身份标识属性”与“敏感属性”将数据分类,排列为一个m×n的二维列联表,记作T。准身份标识属性指的是类似“性别”、“年龄”、“邮编”这种可以通过联接外部数据获取个体身份的属性,记作UQI={qv1,qv2,...,qvm},包含m个变量值。敏感属性指的包含个体隐私信息的属性,例如所患疾病等,记作Us={sv1,sv2,...,svn},包含n个变量值。二维列联表T中的分组T(a,i)表示准身份标识属性值为qva、敏感属性值为svi的样本个数。
ε-差分隐私(ε-Differential Privacy)是一种隐私安全模型,其假设一个足够强大的攻击者对于整个数据集有且仅有一个元素是未知的,并要求一个安全的算法应该保证无论一个用户是否出现在该数据集中,都不会给查询结果造成显著差异。参数ε限制了元素“在”与“不在”数据集中的可能性之间的差异程度。ε越小,差异性就应该越小,安全要求也越高。基于ε-差分隐私模型的算法都采用随机机制,让攻击者根据输出结果无法分辨某个目标人物是否出现在原数据集中。
给定一个隐私保护机制M和数据集D,如果对于任意数据集D'(D与D'最多相差一个元素),以及都有:
那么,M满足ε-差分隐私。
敏感度(Sensitivity)是差分隐私的一个重要概念。对于任意查询函数q,q的敏感度记作:
Δq=max||q(D)-q(D')||
实现差分隐私的方式主要分为两种,一种为拉普拉斯机制(Laplace Mechanism),基于这种机制的算法会将拉普拉斯随机数作为噪音添加到查询结果上。另一种为指数机制(Exponential Mechanism),是一种用于设计差分隐私算法的技术。一般来讲,基于指数机制的算法的主要目的是在于保证ε-差分隐私的同时,最大化一个输入和一个输出间的随机映射的可用性。
目前实现差分隐私的算法都是在给出特定的查询函数后,通过对查询结果变形,例如直接添加噪音,或通过可逆函数变形后添加噪音来实现。直接添加噪音的方法不能保证数据一致性,且精确度较低;可逆变形在线性转换上,算法速度是一个瓶颈。且这些方法灵活性不高,一旦查询函数或查询条件改变,算法需要重新设计。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供一种列联表数据发布的隐私保护方法,本发明的基本思想是将记录的敏感属性值随机替换,保证数据满足差分隐私,且支持任意原数据所支持的查询,并具有较高的精确度。
本发明提供一种列联表数据发布的隐私保护方法,包括:
步骤1确定列联表T的每个分组T(a,i)的替换基数Φ(a,i),包括以下子步骤:
(1-1)确定每个分组T(a,i)的初始替换基数Φ0(a,i),其中,1≤a≤m,1≤i≤n,m对应准身份标识属性的个数,n对应敏感属性的个数,m为大于或等于1的整数,n为大于或者等于1的整数;
(1-2)为每个初始替换基数Φ0(a,i)加上一个随机非负整数yi,得到每个分组T(a,i)的所述替换基数Φ(a,i);
步骤2对于每一个分组T(a,i),根据其所述替换基数Φ(a,i),取任意Φ(a,i)条记录,将其原有的敏感值随机替换为敏感属性集合Us中的任意敏感值,其中,所述敏感属性集合Us为包含个体隐私信息属性的集合;
步骤3重新计算每个分组T(a,i)的记录个数,得到新分组T*(a,i)并输出。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
1、经本发明处理后的数据满足ε-差分隐私的安全需求,同时具有较高精确度和可用性;
2、经本发明处理后的列联表计数结果均为非负数,且列联表每一行总和与处理前相同。因此,可以保证数据的一致性原则;
3、本发明不限制查询函数、查询条件以及查询次数,具有灵活性高的特点。
附图说明
图1为本发明列联表数据发布的隐私保护方法的总体流程图;
图2为本发明实施例采用的原始的列联表T;
图3为本发明实施例中列联表T的第一行数据;
图4为本发明实施例中列联表T的第一行数据的初始替换基数的确定;
图5为本发明实施例中随机数Y的随机分配示例;
图6为本发明实施例中列联表T的第一行数据的最终替换基数的确定;
图7为本发明实施例中列联表T的第一行数据敏感值随机替换的过程示意图;
图8所示为本发明实施例中每个新分组T*(1,i)的计算过程。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1所示为本发明列联表数据发布的隐私保护方法的总体流程图,包括以下步骤:
步骤1输入列联表T(m行×n列)及参数ε(表示用户自定义的安全参数,ε≥0),并确定列联表T的每个分组T(a,i)的替换基数Φ(a,i),其中,a表示列联表T的第a行,i表示列联表T第i列(1≤a≤m,1≤i≤n),m对应准身份标识属性的个数,n对应敏感属性的个数,m为大于或等于1的整数,n为大于或者等于1的整数,具体包括以下子步骤:
(1-1)确定每个分组T(a,i)的初始替换基数Φ0(a,i),初始替换基数Φ0(a,i)的确定按照如下公式所示:
即当分组T(a,i)的记录个数大于等于1的时候,该分组的初始替换基数Φ0(a,i)设为1;当分组T(a,i)的记录个数等于0的时候,该分组的初始替换基数Φ0(a,i)设为0;
(1-2)为每个初始替换基数Φ0(a,i)加上一个随机非负整数yi,得到每个分组的最终替换基数Φ(a,i)。关于随机非负整数yi的生成:首先,产生一个随机正整数Y(服从拉普拉斯分布Lap(1/ε)),再将该随机正整数Y按均匀分布随机分配为n个正整数之和,即其中,n表示列联表的列数。
步骤2对于每一个分组T(a,i),根据其最终替换基数Φ(a,i),取出任意Φ(a,i)条记录,将其原有的敏感值随机替换为敏感属性集合Us={sv1,sv2,...,svn}中的任意敏感值,其中敏感属性指的包含个体隐私信息的属性。上述敏感值的随机替换基于指数机制,即敏感属性集合Us中元素被随机抽样的概率为:
其中,dist(svi,svj)表示敏感值svi与svj(1≤i≤n,1≤j≤n)之间的距离;λ=Δdist/ε,Δdist表示距离函数dist的敏感度,ε表示用户自定义的安全参数。
步骤3重新统计每个分组的记录个数,得到新的列联表T*并输出。
图2所示为本发明实施例采用的原始的列联表T,记录了某医院的病人信息,其中,<性别、年龄>是记录的准身份标识属性,<疾病>是敏感属性,在本发明实施例中,包括:流感、肺炎、消化不良和胃溃疡。利用本发明处理图2中的每行数据,例如第1行,具体包括以下步骤:
步骤1对列联表T中的第1行(如图3所示),确定每个分组T(1,i)(1≤i≤4)的最终替换基数Φ(1,i)。具体的,T(1,1)指“性别为女,年龄为12,患有流感”的病人有13个;T(1,2)指“性别为女,年龄为12,患有肺炎”的病人有11个;T(1,3)指“性别为女,年龄为12,患有消化不良”的病人有14个;T(1,4)指“性别为女,年龄为12,患有胃溃疡”的病人有0个。要确定该行所有分组的最终替换基数,具体包括以下子步骤:
(1-1)确定分组T(1,i)的初始替换基数Φ0(1,i)(如图4所示)。由于T(1,1),T(1,2)和T(1,3)大于0,因此设Φ0(1,1),Φ0(1,2),Φ0(1,3)为1;由于T(1,4)等于0,因此设置Φ0(1,4)为0;
(1-2)为每个初始替换基数Φ0(1,i)加上一个随机非负整数yi,得到每个分组T(1,i)的最终替换基数Φ(1,i):首先,产生一个随机正整数Y,在本发明实施例中,随机正整数Y=4。再随机将Y分配到各个分组T(1,i)中,该随机分配服从[1,n]上的均匀分布,即每个分组得到同等配额的概率是相等的。在本发明实施例中,如图5所示,Y被随机分配为[2,1,1,0],即y1=2,y2=1,y3=1,y4=0。在各初始替换基数Φ0(1,i)的基础上添加随机非负整数yi,可得到每个分组T(1,i)的最终替换基数Φ(1,i)。图6所示为本发明实施例中第一行每个分组的最终替换基数,其中,Φ(1,1)=Φ0(1,1)+y1=3,以此类推,得到Φ(1,2)=2,Φ(1,3)=2,Φ(1,4)=0。
步骤2从每个分组T(1,i)中取出同其替换基数相等个数的记录进行敏感值替换。图7所示为本发明实施例中进行敏感值替换的过程示意图。在分组T(1,1)中,任意提取3条记录,分别将其敏感信息“流感”随机替换成“流感,肺炎,消化不良,胃溃疡”中的一种。在图7中该三条记录被随机替换为了“肺炎”、“消化不良”以及“流感”。在分组T(1,2)中,有2条记录的敏感信息(肺炎)分别被替换成了胃溃疡和流感。有2条记录的敏感信息(消化不良)分别被替换成了胃溃疡和消化不良。在分组T(1,4)中,没有进行任何替换操作。
步骤3重新计算每个新分组T*(1,i)的值。图8所示为本发明实施例中每个新分组T*(1,i)的计算过程,例如T*(1,1)是由T(1,1)减去被替换的记录个数3,再加上由随机替换形成的新的记录个数2而得。其余分组以此类推,得到新的列联表T*。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种列联表数据发布的隐私保护方法,其特征在于,包括:
步骤1确定列联表T的每个分组T(a,i)的替换基数Φ(a,i),包括以下子步骤:
(1-1)确定每个分组T(a,i)的初始替换基数Φ0(a,i),其中,1≤a≤m,1≤i≤n,m对应准身份标识属性的个数,n对应敏感属性的个数,m为大于或等于1的整数,n为大于或者等于1的整数;
(1-2)为每个初始替换基数Φ0(a,i)加上一个随机非负整数yi,得到每个分组T(a,i)的替换基数Φ(a,i);
步骤2对于每一个分组T(a,i),根据其所述替换基数Φ(a,i),取任意Φ(a,i)条记录,将其原有的敏感值随机替换为敏感属性集合Us中的任意敏感值,其中,所述敏感属性集合Us为包含个体隐私信息属性的集合;
步骤3重新计算每个分组T(a,i)的记录个数,得到新分组T*(a,i)并输出。
2.如权利要求1所述的方法,其特征在于,在所述子步骤(1-1)中,所述初始替换基数Φ0(a,i)按照如下公式确定:
即当所述分组T(a,i)的记录个数大于等于1的时候,其初始替换基数Φ0(a,i)设为1;当所述分组T(a,i)的记录个数等于0的时候,其初始替换基数Φ0(a,i)设为0。
3.如权利要求1或2所述的方法,其特征在于,在所述子步骤(1-2)中,由拉普拉斯分布产生随机正整数Y,再将所述随机正整数Y按均匀分布随机分配为n个正整数之和,即其中,n表示所述列联表T的列数。
4.如权利要求1或2所述的方法,其特征在于,在所述步骤2中,所述敏感值的随机替换基于指数机制,即所述敏感属性集合Us中元素被随机抽样的概率为:
其中,dist(svi,svj)表示敏感值svi与svj之间的距离;λ=Δdist/ε,Δdist表示距离函数dist的敏感度,ε表示用户自定义的安全参数。
5.如权利要求1或2所述的方法,其特征在于,所述步骤3中计算所述新分组T*(a,i)的值的方法为由每个分组T(a,i)减去被替换的记录个数,再加上新添加的记录个数而得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410457822.2A CN104216994B (zh) | 2014-09-10 | 2014-09-10 | 一种列联表数据发布的隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410457822.2A CN104216994B (zh) | 2014-09-10 | 2014-09-10 | 一种列联表数据发布的隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104216994A CN104216994A (zh) | 2014-12-17 |
CN104216994B true CN104216994B (zh) | 2017-06-20 |
Family
ID=52098484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410457822.2A Active CN104216994B (zh) | 2014-09-10 | 2014-09-10 | 一种列联表数据发布的隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104216994B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112018017269A2 (pt) * | 2016-02-22 | 2019-01-15 | Tata Consultancy Services Ltd | sistemas e métodos para a computação de uma relação de privacidade-utilidade de dados |
CN109388662B (zh) * | 2017-08-02 | 2021-05-25 | 创新先进技术有限公司 | 一种基于共享数据的模型训练方法及装置 |
CN107688752B (zh) * | 2017-08-21 | 2020-11-20 | 哈尔滨工程大学 | 一种面向多视图聚类挖掘的个性化隐私保护方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279499A (zh) * | 2013-05-09 | 2013-09-04 | 北京信息科技大学 | 个性化信息检索中用户隐私保护方法 |
CN103699851A (zh) * | 2013-11-22 | 2014-04-02 | 杭州师范大学 | 一种面向云存储的远程数据完整性验证方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090182797A1 (en) * | 2008-01-10 | 2009-07-16 | Microsoft Corporation | Consistent contingency table release |
-
2014
- 2014-09-10 CN CN201410457822.2A patent/CN104216994B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279499A (zh) * | 2013-05-09 | 2013-09-04 | 北京信息科技大学 | 个性化信息检索中用户隐私保护方法 |
CN103699851A (zh) * | 2013-11-22 | 2014-04-02 | 杭州师范大学 | 一种面向云存储的远程数据完整性验证方法 |
Non-Patent Citations (3)
Title |
---|
"The price of privately releasing contingency tables and the spectra of random matrices with correlated rows";SP Kasiviswanathan et.al;《Proceedings of the forty-second ACM symposium on Theory of computing》;20100608;第775-784页 * |
"基于敏感元组的隐私数据保护方法";胡新平等;《东南大学学报》;20100930;第40卷(第5期);第911-916页 * |
"面向数据发布和分析的差分隐私保护";张啸剑;《计算机学报》;20140430;第37卷(第4期);第927-949页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104216994A (zh) | 2014-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Leung et al. | Machine learning and OLAP on big COVID-19 data | |
US10467433B2 (en) | Event processing system | |
CN106021541B (zh) | 区分准标识符属性的二次k‑匿名隐私保护算法 | |
CN103530334B (zh) | 基于比较模板的数据匹配系统和方法 | |
CN109711186B (zh) | 内存数据库中的数据匿名化 | |
CN104216994B (zh) | 一种列联表数据发布的隐私保护方法 | |
CN107273757B (zh) | 一种基于l-diversity规则和MDAV算法的处理大数据的方法 | |
JP6892454B2 (ja) | データの秘匿性−実用性間のトレードオフを算出するためのシステムおよび方法 | |
Cooper et al. | Computing hypermatrix spectra with the Poisson product formula | |
Mueller et al. | SoK: Differential privacy on graph-structured data | |
Fan et al. | Differentially private anomaly detection with a case study on epidemic outbreak detection | |
Wang et al. | T-closeness slicing: A new privacy-preserving approach for transactional data publishing | |
Abduljabbar et al. | SEPIM: Secure and efficient private image matching | |
Rehem et al. | Record of hospitalizations for ambulatory care sensitive conditions: validation of the hospital information system | |
CN108536866A (zh) | 基于话题转移熵的微博隐蔽关键用户分析方法 | |
Antonatos et al. | Prima: an end-to-end framework for privacy at scale | |
Schnell et al. | Building a national perinatal data base without the use of unique personal identifiers | |
Majeed et al. | Group Privacy: An Underrated but Worth Studying Research Problem in the Era of Artificial Intelligence and Big Data | |
Mueller et al. | Differentially Private Guarantees for Analytics and Machine Learning on Graphs: A Survey of Results | |
CN107832633B (zh) | 关系事务数据发布的隐私保护方法 | |
CN110008748A (zh) | 数据动态更新隐私保护方法及语义贴近度计算方法 | |
Liu et al. | Transactional data anonymization for privacy and information preservation via disassociation and local suppression | |
Patel et al. | Privacy preservation for big data healthcare management | |
CN103729414B (zh) | 一种统计信息交互频率的方法及其装置 | |
WO2015157798A1 (en) | Method of processing statistical data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |