CN104077538A - 一种数据周期性发布的隐私保护方法 - Google Patents

一种数据周期性发布的隐私保护方法 Download PDF

Info

Publication number
CN104077538A
CN104077538A CN201410321751.3A CN201410321751A CN104077538A CN 104077538 A CN104077538 A CN 104077538A CN 201410321751 A CN201410321751 A CN 201410321751A CN 104077538 A CN104077538 A CN 104077538A
Authority
CN
China
Prior art keywords
grouping
data
gid
individual
extensive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410321751.3A
Other languages
English (en)
Inventor
张志祥
金华
华进
韩小祥
朱鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN201410321751.3A priority Critical patent/CN104077538A/zh
Publication of CN104077538A publication Critical patent/CN104077538A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种数据周期性发布的隐私保护方法。数据初次发布时,先扫描原始数据记录确定个体并基于身份进行重新编码,然后基于个体关联SA分组和保持个体关联的(k,l)匿名模型实现首次信息发布;在周期性后续发布时,先计算待发布数据和前次发布数据相同个体间的SA分组距离,再基于ε-分组不变性规则,利用局部重编码方法泛化元组进行信息发布。本发明充分考虑前后两次发布数据之间的个体关联性,保证了个体的隐私信息。

Description

一种数据周期性发布的隐私保护方法
技术领域
本发明属于信息隐私保护发布安全领域,具体涉及一种数据周期性发布的隐私保护方法。
背景技术
大量医疗信息具有统计分析和病情研究的重要价值,为了满足这些隐私信息共享、科学研究等多方面的需要,必须对这些信息进行隐私保护发布处理。K-匿名是传统表数据领域的一类重要的隐私保护技术,但是这种技术仅适用于静态数据的发布,而且该技术也容易受到攻击。
医疗数据的发布通常具有周期性发布的特点,同时在待发布表中一个个体可能对应多条记录,在发布时应该从个体的角度去考虑其隐私的保护,并且考虑多次发布时发布数据之间的关联性。
医疗数据表属性分为三类:显式标识符(Identifier),指能清楚标识用户身份的属性,为了保护个人信息,常常在数据发布前将这些属性删除或加密;准标识符QI(QuasiIdentifier),即同时存在于隐私表与外表中,可以利用链接来标识个体信息的一组属性称为准标识符属性;敏感属性SA(Sensitive Attribute),该类属性包含了个体的隐私信息。
发明内容
针对传统表数据领域隐私保护技术存在的问题,本发明提供一种数据周期性发布的隐私保护方法,从个体的角度保证了的隐私信息的安全,抵制了表间的链接攻击,在保护隐私的同时最大程度地满足了数据的可用性。
为实现上述目的,本发明具体技术方案如下:一种数据周期性发布的隐私保护方法,包括如下步骤:
(1)预处理待发布表T,生成数据表T(QI,GID,ID,SA);
(2)初始化发布表T*;T*为空匿名表,结构与T(QI,GID,ID,SA)相同;
(3)判断数据表T(QI,GID,ID,SA)是否为首次发布,如果是首次发布转步骤(4),否则转步骤(8);
(4)设定安全保护参数k、l和ε;
(5)对表T(QI,GID,ID,SA)进行泛化发布;
(6)元组移回处理;
(7)检查表T(QI,GID,ID,SA)记录是否已经全泛化,若未全泛化转步骤(5),否则转步骤(12);
(8)计算T*(j-1)和T(j)中同一个体的SA分组距离;
(9)根据SA分组距离将T(j)分成两组T’和T”;
(10)基于ε-分组不变性规则发布T(j);
(11)判断T”是否已全泛化;如果完成转步骤(12),否则转步骤(5);
(12)数据发布完成,表T*为最终隐私保护发布信息。
进一步地,上述步骤(1)中,预处理待发布表包括如下步骤:
(1.1)根据医疗数据属性的分类,对待发布的数据表中属于同一个体的记录进行ID标注,表示为三类属性的表形式T(QI,ID,SA);
(1.2)初始化每一个体为一个分组,添加分组标号GID,表示为T(QI,GID,ID,SA);
(1.3)合并具有相同QI的分组;
(1.4)删除显示标识符;
进一步地,上述步骤(5)中,泛化发布包括如下步骤:
(5.1)采用自底向上的局部重编码方法对表T(QI,GID,ID,SA)中的QI属性进行泛化;
(5.2)每泛化一次就会出现一些相同的QI分组,合并具有相同QI的分组,并重新标记GID;
(5.3)将满足个体关联的(k,l)-匿名约束的分组移除到匿名表T*中;
进一步地,上述步骤(5.3)中,个体关联(k,l)-匿名约束条件是发布表T*(QI,GID,ID,SA)必须满足表中的任何一个QI分组中至少包含k个不同的个体和l个距离大于一个设定值ε的个体关联SA分组。
进一步地,上述步骤(8)中,计算分组距离的方法包括如下步骤:
(8.1)根据医疗常识确认两个敏感属性值v1和v2之间的关联度,用RSA(v1,v2)表示,RSA∈[0,1],RSA越接近1关联度越强,当v1=v2时,RSA=1;
(8.2)基于关联度计算SA分组距离,设GI1 SA和GI2 SA分别为两个体I1和I2的SA分组,两分组之间的敏感属性关联度可表示为,用RSA(I1,I2)表示,则个体SA分组间的距离可表示为min(1-RSA(I1,I2)),用DisSA(I1,I2)表示。
进一步地,上述步骤(10)中,ε-分组不变性规则的要求是出现在表T*(j-1)和T*(j)中的同一个体I’和I”表示,如果DisSA(I',I'')≤ε,那么在发布个体I”时,表T*(j)中含有I”的QI分组与T*(j-1)中含有I’的QI分组必须具有相同的个体数,并且两个QI分组间对应的个体分组距离都必须小于等于ε。
本发明充分考虑了医疗数据中一个个体可能对应多条记录,且同一个体可能由于年龄等属性的变化而具有不同的QI属性的特点,在发布处理时利用个体关联(k,l)-匿名约束模型尽可能地考虑个体的隐私而非记录层次上的隐私,同时在后续发布时利用ε-分组不变性规则充分考虑前后两次发布数据之间的个体关联性,保证了个体的隐私信息。
附图说明
图1为本发明数据周期性发布的隐私保护方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步描述。
如图1所示,本发明提供了一种数据周期性发布的隐私保护方法,包括以下步骤:
(1)预处理待发布表,包括如下步骤:
(1.1)根据医疗数据属性的分类,对待发布的数据表中属于同一个体的记录进行ID标注,表示为三类属性的表形式T(QI,ID,SA);作为本发明的一个具体实施例的待发布表如表1所示;
表1
(1.2)初始化每一个体为一个分组,添加分组标号GID,表示为形式T(QI,GID,ID,SA);
(1.3)合并具有相同QI的分组;
(1.4)删除显示标识符;本发明具体实施例的待发布表预处理后的结果如表2所示;
表2
(2)初始化发布表T*,T*为结构与T(QI,GID,ID,SA)相同的空匿名表;
(3)判断数据表T(QI,GID,ID,SA)是否为首次发布,如果是首次发布转步骤(4),否则转步骤(8);
(4)设定安全保护参数k、l和ε,其中,k为匿名参数,表示发布表的每个QI分组必须至少包含k个不同个体;l为多样性参数,表示发布表的每个QI分组至少包含l个不同的SA分组(同属一个个体的多个敏感属性值构成一个SA分组);ε为SA分组距离阈值,表示发布表的每个QI分组中SA分组间距离至少要大于ε;
(5)对表T(QI,GID,ID,SA)进行泛化发布;泛化发布是基于保持个体关联(k,l)-匿名约束的,包括如下步骤:
(5.1)采用自底向上的局部重编码方法对表T(QI,GID,ID,SA)中的QI属性进行泛化;
(5.2)每泛化一次就会出现一些相同的QI分组,合并具有相同QI的分组,并重新标记GID;本发明具体实施例中,对表2泛化后的结果如表3所示;
表3
(5.3)将满足个体关联的(k,l)-匿名约束的分组移除到匿名表T*中;其中,个体关联(k,l)-匿名约束条件是发布表T*(QI,GID,ID,SA)必须满足表中的任何一个QI分组中至少包含k个不同的个体和l个距离大于一个设定值ε的个体关联SA分组。
(6)元组移回处理;检查匿名表T*中所有分组,若分组存在移出部分个体QI元组,仍满足个体关联的(k,l)-匿名约束时,则将这些元组移回到表T(QI,GID,ID,SA)中;
(7)检查表T(QI,GID,ID,SA)记录是否已经全泛化,若未全泛化转步骤(5),否则转步骤(12);
(8)计算T*(j-1)和T(j)中同一个体的SA分组距离,其中,T*(j-1)是第j-1次的发布数据,T(j)表示第j次待发布数据(j>1),计算分组距离的方法包括如下步骤:
(8.1)根据医疗常识确认两个敏感属性值v1和v2之间的关联度,该关联度指的是同一个体同时患有v1和v2病情的可能性(百分比),用RSA(v1,v2)表示,RSA∈[0,1],RSA越接近1关联度越强,当v1=v2时,RSA=1。
(8.2)基于关联度计算SA分组距离,设GI1 SA和GI2 SA分别为两个体I1和I2的SA分组,两分组之间的敏感属性关联度可表示为,用RSA(I1,I2)表示,则个体SA分组间的距离可表示为min(1-RSA(I1,I2)),用DisSA(I1,I2)表示。
(9)根据SA分组距离将T(j)分成两组T’和T”,距离小于等于ε的个体组成记录集T’,其余组成记录集T”;
(10)基于ε-分组不变性规则发布T(j);对记录集T’中的所有个体记录进行发布处理,按照顺序逐一选取T’中的一个个体记录,根据该个体在表T*(j-1)中的对应QI分组,将该个体与记录集T”一起,采用自底向上的局部重编码方法泛化元组,构造满足ε-分组不变性规则的QI分组;将所得到的QI分组添加到T*,并删除T’和T”中的对应记录;其中,ε-分组不变性规则的要求是出现在表T*(j-1)和T*(j)中的同一个体I’和I”表示,如果DisSA(I',I'')≤ε,那么在发布个体T”时,表T*(j)中含有I”的QI分组与T*(j-1)中含有I’的QI分组必须具有相同的个体数,并且两个QI分组间对应的个体分组距离都必须小于等于ε。
(11)判断T”是否已全泛化;如果完成转步骤(12),否则转步骤(5);
(12)数据发布完成,表T*为最终隐私保护发布信息。

Claims (6)

1.一种数据周期性发布的隐私保护方法,其特征在于,包括如下步骤:
(1)预处理待发布表T,生成数据表T(QI,GID,ID,SA);
(2)初始化发布表T*;T*为空匿名表,结构与T(QI,GID,ID,SA)相同;
(3)判断数据表T(QI,GID,ID,SA)是否为首次发布,如果是首次发布转步骤(4),否则转步骤(8);
(4)设定安全保护参数k、l和ε;
(5)对表T(QI,GID,ID,SA)进行泛化发布;
(6)元组移回处理;
(7)检查表T(QI,GID,ID,SA)记录是否已经全泛化,若未全泛化转步骤(5),否则转步骤(12);
(8)计算T*(j-1)和T(j)中同一个体的SA分组距离;
(9)根据SA分组距离将T(j)分成两组T’和T”;
(10)基于ε-分组不变性规则发布T(j);
(11)判断T”是否已全泛化;如果完成转步骤(12),否则转步骤(5);
(12)数据发布完成,表T*为最终隐私保护发布信息。
2.如权利要求1所述的一种数据周期性发布的隐私保护方法,其特征在于:步骤(1)中,所述预处理待发布表包括如下步骤:
(1.1)根据医疗数据属性的分类,对待发布的数据表中属于同一个体的记录进行ID标注,表示为三类属性的表形式T(QI,ID,SA);
(1.2)初始化每一个体为一个分组,添加分组标号GID,表示为T(QI,GID,ID,SA);
(1.3)合并具有相同QI的分组;
(1.4)删除显示标识符。
3.如权利要求1所述的一种数据周期性发布的隐私保护方法,其特征在于:步骤(5)中,所述泛化发布包括如下步骤:
(5.1)采用自底向上的局部重编码方法对表T(QI,GID,ID,SA)中的QI属性进行泛化;
(5.2)每泛化一次就会出现一些相同的QI分组,合并具有相同QI的分组,并重新标记GID;
(5.3)将满足个体关联的(k,l)-匿名约束的分组移除到匿名表T*中。
4.如权利要求3所述的一种数据周期性发布的隐私保护方法,其特征在于:步骤(5.3)中,所述个体关联(k,l)-匿名约束条件是发布表T*(QI,GID,ID,SA)必须满足表中的任何一个QI分组中至少包含k个不同的个体和l个距离大于一个设定值ε的个体关联SA分组。
5.如权利要求1所述的一种数据周期性发布的隐私保护方法,其特征在于:步骤(8)中,所述计算分组距离的方法包括如下步骤:
(8.1)根据医疗常识确认两个敏感属性值v1和v2之间的关联度,用RSA(v1,v2)表示,RSA∈[0,1],RSA越接近1关联度越强,当v1=v2时,RSA=1;
(8.2)基于关联度计算SA分组距离,设GI1 SA和GI2 SA分别为两个体I1和I2的SA分组,两分组之间的敏感属性关联度可表示为用RSA(I1,I2)表示,则个体SA分组间的距离可表示为min(1-RSA(I1,I2)),用DisSA(I1,I2)表示。
6.如权利要求1所述的一种数据周期性发布的隐私保护方法,其特征在于:步骤(10)中,所述ε-分组不变性规则的要求是出现在表T*(j-1)和T*(j)中的同一个体I’和I”表示,如果DisSA(I',I'')≤ε,那么在发布个体I”时,表T*(j)中含有I”的QI分组与T*(j-1)中含有I’的QI分组必须具有相同的个体数,并且两个QI分组间对应的个体分组距离都必须小于等于ε。
CN201410321751.3A 2014-07-07 2014-07-07 一种数据周期性发布的隐私保护方法 Pending CN104077538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410321751.3A CN104077538A (zh) 2014-07-07 2014-07-07 一种数据周期性发布的隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410321751.3A CN104077538A (zh) 2014-07-07 2014-07-07 一种数据周期性发布的隐私保护方法

Publications (1)

Publication Number Publication Date
CN104077538A true CN104077538A (zh) 2014-10-01

Family

ID=51598788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410321751.3A Pending CN104077538A (zh) 2014-07-07 2014-07-07 一种数据周期性发布的隐私保护方法

Country Status (1)

Country Link
CN (1) CN104077538A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688751A (zh) * 2017-08-17 2018-02-13 复旦大学 一种社交媒体用户行为时间模式的自适应隐私保护方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HUA JIN等: "《Fifth International Conference on Digital Image Processing》", 19 July 2013 *
吕大鹏等: "《第二十四届中国数据库学术会议论文集》", 20 October 2007 *
宋玉等: "《2010通信理论与技术新发展-第十五届全国青年通信学术会议论文集(下册)》", 6 August 2010 *
张志祥等: "基于有损连接的个性化隐私保护", 《计算机工程与设计》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688751A (zh) * 2017-08-17 2018-02-13 复旦大学 一种社交媒体用户行为时间模式的自适应隐私保护方法
CN107688751B (zh) * 2017-08-17 2021-02-26 复旦大学 一种社交媒体用户行为时间模式的自适应隐私保护方法

Similar Documents

Publication Publication Date Title
Murthy et al. A comparative study of data anonymization techniques
WO2016119275A1 (zh) 网络账号识别匹配方法
CN104866735B (zh) 一种数值型关系数据库水印的嵌入及提取验证方法
DE102018101307A1 (de) Techniken für SGX-Enklaven-Fernauthentifizierung
CN102855448B (zh) 一种字段级数据库加密装置
CN106022155A (zh) 用于数据库安全管理的方法及服务器
CN106650487A (zh) 基于多维敏感数据发布的多部图隐私保护方法
Jin et al. 3D textured model encryption via 3D Lu chaotic mapping
CN103500302A (zh) 一种安全锁隐藏程序的系统及方法
CN205901794U (zh) 一种对大数据内容进行选择性加密的系统
CN104657670A (zh) 一种基于数据加密的配置文件安全使用方法
CN107562521A (zh) 一种资源管理方法及装置
CN106250453A (zh) 基于云存储的数值型数据的密文检索方法及装置
CN104077538A (zh) 一种数据周期性发布的隐私保护方法
CN110443068B (zh) 隐私保护方法和装置
CN106685893B (zh) 一种基于社交网络群的权限控制方法
Sreedhar et al. A genetic TDS and BUG with pseudo-identifier for privacy preservation over incremental data sets
CN111191253B (zh) 一种数据加密组合方法
CN204362091U (zh) 一种指纹识别路由器
CN102622544A (zh) 个性化服务中用户兴趣模型匿名化方法
CN106951865A (zh) 一种基于海明距离的隐私保护生物识别方法
CN104361066A (zh) 一种基于权限的非结构化全文检索系统
CN102946311B (zh) 一种增强对称密钥体系安全性的密钥分散方法
Yue-Qin et al. Trusted Access Control model based on role and task in cloud computing
Lopriore Key management in tree shaped hierarchies

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141001