CN104077538A - 一种数据周期性发布的隐私保护方法 - Google Patents
一种数据周期性发布的隐私保护方法 Download PDFInfo
- Publication number
- CN104077538A CN104077538A CN201410321751.3A CN201410321751A CN104077538A CN 104077538 A CN104077538 A CN 104077538A CN 201410321751 A CN201410321751 A CN 201410321751A CN 104077538 A CN104077538 A CN 104077538A
- Authority
- CN
- China
- Prior art keywords
- grouping
- data
- gid
- individual
- extensive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种数据周期性发布的隐私保护方法。数据初次发布时,先扫描原始数据记录确定个体并基于身份进行重新编码,然后基于个体关联SA分组和保持个体关联的(k,l)匿名模型实现首次信息发布;在周期性后续发布时,先计算待发布数据和前次发布数据相同个体间的SA分组距离,再基于ε-分组不变性规则,利用局部重编码方法泛化元组进行信息发布。本发明充分考虑前后两次发布数据之间的个体关联性,保证了个体的隐私信息。
Description
技术领域
本发明属于信息隐私保护发布安全领域,具体涉及一种数据周期性发布的隐私保护方法。
背景技术
大量医疗信息具有统计分析和病情研究的重要价值,为了满足这些隐私信息共享、科学研究等多方面的需要,必须对这些信息进行隐私保护发布处理。K-匿名是传统表数据领域的一类重要的隐私保护技术,但是这种技术仅适用于静态数据的发布,而且该技术也容易受到攻击。
医疗数据的发布通常具有周期性发布的特点,同时在待发布表中一个个体可能对应多条记录,在发布时应该从个体的角度去考虑其隐私的保护,并且考虑多次发布时发布数据之间的关联性。
医疗数据表属性分为三类:显式标识符(Identifier),指能清楚标识用户身份的属性,为了保护个人信息,常常在数据发布前将这些属性删除或加密;准标识符QI(QuasiIdentifier),即同时存在于隐私表与外表中,可以利用链接来标识个体信息的一组属性称为准标识符属性;敏感属性SA(Sensitive Attribute),该类属性包含了个体的隐私信息。
发明内容
针对传统表数据领域隐私保护技术存在的问题,本发明提供一种数据周期性发布的隐私保护方法,从个体的角度保证了的隐私信息的安全,抵制了表间的链接攻击,在保护隐私的同时最大程度地满足了数据的可用性。
为实现上述目的,本发明具体技术方案如下:一种数据周期性发布的隐私保护方法,包括如下步骤:
(1)预处理待发布表T,生成数据表T(QI,GID,ID,SA);
(2)初始化发布表T*;T*为空匿名表,结构与T(QI,GID,ID,SA)相同;
(3)判断数据表T(QI,GID,ID,SA)是否为首次发布,如果是首次发布转步骤(4),否则转步骤(8);
(4)设定安全保护参数k、l和ε;
(5)对表T(QI,GID,ID,SA)进行泛化发布;
(6)元组移回处理;
(7)检查表T(QI,GID,ID,SA)记录是否已经全泛化,若未全泛化转步骤(5),否则转步骤(12);
(8)计算T*(j-1)和T(j)中同一个体的SA分组距离;
(9)根据SA分组距离将T(j)分成两组T’和T”;
(10)基于ε-分组不变性规则发布T(j);
(11)判断T”是否已全泛化;如果完成转步骤(12),否则转步骤(5);
(12)数据发布完成,表T*为最终隐私保护发布信息。
进一步地,上述步骤(1)中,预处理待发布表包括如下步骤:
(1.1)根据医疗数据属性的分类,对待发布的数据表中属于同一个体的记录进行ID标注,表示为三类属性的表形式T(QI,ID,SA);
(1.2)初始化每一个体为一个分组,添加分组标号GID,表示为T(QI,GID,ID,SA);
(1.3)合并具有相同QI的分组;
(1.4)删除显示标识符;
进一步地,上述步骤(5)中,泛化发布包括如下步骤:
(5.1)采用自底向上的局部重编码方法对表T(QI,GID,ID,SA)中的QI属性进行泛化;
(5.2)每泛化一次就会出现一些相同的QI分组,合并具有相同QI的分组,并重新标记GID;
(5.3)将满足个体关联的(k,l)-匿名约束的分组移除到匿名表T*中;
进一步地,上述步骤(5.3)中,个体关联(k,l)-匿名约束条件是发布表T*(QI,GID,ID,SA)必须满足表中的任何一个QI分组中至少包含k个不同的个体和l个距离大于一个设定值ε的个体关联SA分组。
进一步地,上述步骤(8)中,计算分组距离的方法包括如下步骤:
(8.1)根据医疗常识确认两个敏感属性值v1和v2之间的关联度,用RSA(v1,v2)表示,RSA∈[0,1],RSA越接近1关联度越强,当v1=v2时,RSA=1;
(8.2)基于关联度计算SA分组距离,设GI1 SA和GI2 SA分别为两个体I1和I2的SA分组,两分组之间的敏感属性关联度可表示为,用RSA(I1,I2)表示,则个体SA分组间的距离可表示为min(1-RSA(I1,I2)),用DisSA(I1,I2)表示。
进一步地,上述步骤(10)中,ε-分组不变性规则的要求是出现在表T*(j-1)和T*(j)中的同一个体I’和I”表示,如果DisSA(I',I'')≤ε,那么在发布个体I”时,表T*(j)中含有I”的QI分组与T*(j-1)中含有I’的QI分组必须具有相同的个体数,并且两个QI分组间对应的个体分组距离都必须小于等于ε。
本发明充分考虑了医疗数据中一个个体可能对应多条记录,且同一个体可能由于年龄等属性的变化而具有不同的QI属性的特点,在发布处理时利用个体关联(k,l)-匿名约束模型尽可能地考虑个体的隐私而非记录层次上的隐私,同时在后续发布时利用ε-分组不变性规则充分考虑前后两次发布数据之间的个体关联性,保证了个体的隐私信息。
附图说明
图1为本发明数据周期性发布的隐私保护方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步描述。
如图1所示,本发明提供了一种数据周期性发布的隐私保护方法,包括以下步骤:
(1)预处理待发布表,包括如下步骤:
(1.1)根据医疗数据属性的分类,对待发布的数据表中属于同一个体的记录进行ID标注,表示为三类属性的表形式T(QI,ID,SA);作为本发明的一个具体实施例的待发布表如表1所示;
表1
(1.2)初始化每一个体为一个分组,添加分组标号GID,表示为形式T(QI,GID,ID,SA);
(1.3)合并具有相同QI的分组;
(1.4)删除显示标识符;本发明具体实施例的待发布表预处理后的结果如表2所示;
表2
(2)初始化发布表T*,T*为结构与T(QI,GID,ID,SA)相同的空匿名表;
(3)判断数据表T(QI,GID,ID,SA)是否为首次发布,如果是首次发布转步骤(4),否则转步骤(8);
(4)设定安全保护参数k、l和ε,其中,k为匿名参数,表示发布表的每个QI分组必须至少包含k个不同个体;l为多样性参数,表示发布表的每个QI分组至少包含l个不同的SA分组(同属一个个体的多个敏感属性值构成一个SA分组);ε为SA分组距离阈值,表示发布表的每个QI分组中SA分组间距离至少要大于ε;
(5)对表T(QI,GID,ID,SA)进行泛化发布;泛化发布是基于保持个体关联(k,l)-匿名约束的,包括如下步骤:
(5.1)采用自底向上的局部重编码方法对表T(QI,GID,ID,SA)中的QI属性进行泛化;
(5.2)每泛化一次就会出现一些相同的QI分组,合并具有相同QI的分组,并重新标记GID;本发明具体实施例中,对表2泛化后的结果如表3所示;
表3
(5.3)将满足个体关联的(k,l)-匿名约束的分组移除到匿名表T*中;其中,个体关联(k,l)-匿名约束条件是发布表T*(QI,GID,ID,SA)必须满足表中的任何一个QI分组中至少包含k个不同的个体和l个距离大于一个设定值ε的个体关联SA分组。
(6)元组移回处理;检查匿名表T*中所有分组,若分组存在移出部分个体QI元组,仍满足个体关联的(k,l)-匿名约束时,则将这些元组移回到表T(QI,GID,ID,SA)中;
(7)检查表T(QI,GID,ID,SA)记录是否已经全泛化,若未全泛化转步骤(5),否则转步骤(12);
(8)计算T*(j-1)和T(j)中同一个体的SA分组距离,其中,T*(j-1)是第j-1次的发布数据,T(j)表示第j次待发布数据(j>1),计算分组距离的方法包括如下步骤:
(8.1)根据医疗常识确认两个敏感属性值v1和v2之间的关联度,该关联度指的是同一个体同时患有v1和v2病情的可能性(百分比),用RSA(v1,v2)表示,RSA∈[0,1],RSA越接近1关联度越强,当v1=v2时,RSA=1。
(8.2)基于关联度计算SA分组距离,设GI1 SA和GI2 SA分别为两个体I1和I2的SA分组,两分组之间的敏感属性关联度可表示为,用RSA(I1,I2)表示,则个体SA分组间的距离可表示为min(1-RSA(I1,I2)),用DisSA(I1,I2)表示。
(9)根据SA分组距离将T(j)分成两组T’和T”,距离小于等于ε的个体组成记录集T’,其余组成记录集T”;
(10)基于ε-分组不变性规则发布T(j);对记录集T’中的所有个体记录进行发布处理,按照顺序逐一选取T’中的一个个体记录,根据该个体在表T*(j-1)中的对应QI分组,将该个体与记录集T”一起,采用自底向上的局部重编码方法泛化元组,构造满足ε-分组不变性规则的QI分组;将所得到的QI分组添加到T*,并删除T’和T”中的对应记录;其中,ε-分组不变性规则的要求是出现在表T*(j-1)和T*(j)中的同一个体I’和I”表示,如果DisSA(I',I'')≤ε,那么在发布个体T”时,表T*(j)中含有I”的QI分组与T*(j-1)中含有I’的QI分组必须具有相同的个体数,并且两个QI分组间对应的个体分组距离都必须小于等于ε。
(11)判断T”是否已全泛化;如果完成转步骤(12),否则转步骤(5);
(12)数据发布完成,表T*为最终隐私保护发布信息。
Claims (6)
1.一种数据周期性发布的隐私保护方法,其特征在于,包括如下步骤:
(1)预处理待发布表T,生成数据表T(QI,GID,ID,SA);
(2)初始化发布表T*;T*为空匿名表,结构与T(QI,GID,ID,SA)相同;
(3)判断数据表T(QI,GID,ID,SA)是否为首次发布,如果是首次发布转步骤(4),否则转步骤(8);
(4)设定安全保护参数k、l和ε;
(5)对表T(QI,GID,ID,SA)进行泛化发布;
(6)元组移回处理;
(7)检查表T(QI,GID,ID,SA)记录是否已经全泛化,若未全泛化转步骤(5),否则转步骤(12);
(8)计算T*(j-1)和T(j)中同一个体的SA分组距离;
(9)根据SA分组距离将T(j)分成两组T’和T”;
(10)基于ε-分组不变性规则发布T(j);
(11)判断T”是否已全泛化;如果完成转步骤(12),否则转步骤(5);
(12)数据发布完成,表T*为最终隐私保护发布信息。
2.如权利要求1所述的一种数据周期性发布的隐私保护方法,其特征在于:步骤(1)中,所述预处理待发布表包括如下步骤:
(1.1)根据医疗数据属性的分类,对待发布的数据表中属于同一个体的记录进行ID标注,表示为三类属性的表形式T(QI,ID,SA);
(1.2)初始化每一个体为一个分组,添加分组标号GID,表示为T(QI,GID,ID,SA);
(1.3)合并具有相同QI的分组;
(1.4)删除显示标识符。
3.如权利要求1所述的一种数据周期性发布的隐私保护方法,其特征在于:步骤(5)中,所述泛化发布包括如下步骤:
(5.1)采用自底向上的局部重编码方法对表T(QI,GID,ID,SA)中的QI属性进行泛化;
(5.2)每泛化一次就会出现一些相同的QI分组,合并具有相同QI的分组,并重新标记GID;
(5.3)将满足个体关联的(k,l)-匿名约束的分组移除到匿名表T*中。
4.如权利要求3所述的一种数据周期性发布的隐私保护方法,其特征在于:步骤(5.3)中,所述个体关联(k,l)-匿名约束条件是发布表T*(QI,GID,ID,SA)必须满足表中的任何一个QI分组中至少包含k个不同的个体和l个距离大于一个设定值ε的个体关联SA分组。
5.如权利要求1所述的一种数据周期性发布的隐私保护方法,其特征在于:步骤(8)中,所述计算分组距离的方法包括如下步骤:
(8.1)根据医疗常识确认两个敏感属性值v1和v2之间的关联度,用RSA(v1,v2)表示,RSA∈[0,1],RSA越接近1关联度越强,当v1=v2时,RSA=1;
(8.2)基于关联度计算SA分组距离,设GI1 SA和GI2 SA分别为两个体I1和I2的SA分组,两分组之间的敏感属性关联度可表示为用RSA(I1,I2)表示,则个体SA分组间的距离可表示为min(1-RSA(I1,I2)),用DisSA(I1,I2)表示。
6.如权利要求1所述的一种数据周期性发布的隐私保护方法,其特征在于:步骤(10)中,所述ε-分组不变性规则的要求是出现在表T*(j-1)和T*(j)中的同一个体I’和I”表示,如果DisSA(I',I'')≤ε,那么在发布个体I”时,表T*(j)中含有I”的QI分组与T*(j-1)中含有I’的QI分组必须具有相同的个体数,并且两个QI分组间对应的个体分组距离都必须小于等于ε。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410321751.3A CN104077538A (zh) | 2014-07-07 | 2014-07-07 | 一种数据周期性发布的隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410321751.3A CN104077538A (zh) | 2014-07-07 | 2014-07-07 | 一种数据周期性发布的隐私保护方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104077538A true CN104077538A (zh) | 2014-10-01 |
Family
ID=51598788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410321751.3A Pending CN104077538A (zh) | 2014-07-07 | 2014-07-07 | 一种数据周期性发布的隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104077538A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688751A (zh) * | 2017-08-17 | 2018-02-13 | 复旦大学 | 一种社交媒体用户行为时间模式的自适应隐私保护方法 |
-
2014
- 2014-07-07 CN CN201410321751.3A patent/CN104077538A/zh active Pending
Non-Patent Citations (4)
Title |
---|
HUA JIN等: "《Fifth International Conference on Digital Image Processing》", 19 July 2013 * |
吕大鹏等: "《第二十四届中国数据库学术会议论文集》", 20 October 2007 * |
宋玉等: "《2010通信理论与技术新发展-第十五届全国青年通信学术会议论文集(下册)》", 6 August 2010 * |
张志祥等: "基于有损连接的个性化隐私保护", 《计算机工程与设计》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688751A (zh) * | 2017-08-17 | 2018-02-13 | 复旦大学 | 一种社交媒体用户行为时间模式的自适应隐私保护方法 |
CN107688751B (zh) * | 2017-08-17 | 2021-02-26 | 复旦大学 | 一种社交媒体用户行为时间模式的自适应隐私保护方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Murthy et al. | A comparative study of data anonymization techniques | |
WO2016119275A1 (zh) | 网络账号识别匹配方法 | |
CN104866735B (zh) | 一种数值型关系数据库水印的嵌入及提取验证方法 | |
DE102018101307A1 (de) | Techniken für SGX-Enklaven-Fernauthentifizierung | |
CN102855448B (zh) | 一种字段级数据库加密装置 | |
CN106022155A (zh) | 用于数据库安全管理的方法及服务器 | |
CN106650487A (zh) | 基于多维敏感数据发布的多部图隐私保护方法 | |
Jin et al. | 3D textured model encryption via 3D Lu chaotic mapping | |
CN103500302A (zh) | 一种安全锁隐藏程序的系统及方法 | |
CN205901794U (zh) | 一种对大数据内容进行选择性加密的系统 | |
CN104657670A (zh) | 一种基于数据加密的配置文件安全使用方法 | |
CN107562521A (zh) | 一种资源管理方法及装置 | |
CN106250453A (zh) | 基于云存储的数值型数据的密文检索方法及装置 | |
CN104077538A (zh) | 一种数据周期性发布的隐私保护方法 | |
CN110443068B (zh) | 隐私保护方法和装置 | |
CN106685893B (zh) | 一种基于社交网络群的权限控制方法 | |
Sreedhar et al. | A genetic TDS and BUG with pseudo-identifier for privacy preservation over incremental data sets | |
CN111191253B (zh) | 一种数据加密组合方法 | |
CN204362091U (zh) | 一种指纹识别路由器 | |
CN102622544A (zh) | 个性化服务中用户兴趣模型匿名化方法 | |
CN106951865A (zh) | 一种基于海明距离的隐私保护生物识别方法 | |
CN104361066A (zh) | 一种基于权限的非结构化全文检索系统 | |
CN102946311B (zh) | 一种增强对称密钥体系安全性的密钥分散方法 | |
Yue-Qin et al. | Trusted Access Control model based on role and task in cloud computing | |
Lopriore | Key management in tree shaped hierarchies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141001 |