CN107832633B - 关系事务数据发布的隐私保护方法 - Google Patents

关系事务数据发布的隐私保护方法 Download PDF

Info

Publication number
CN107832633B
CN107832633B CN201711174376.4A CN201711174376A CN107832633B CN 107832633 B CN107832633 B CN 107832633B CN 201711174376 A CN201711174376 A CN 201711174376A CN 107832633 B CN107832633 B CN 107832633B
Authority
CN
China
Prior art keywords
data set
group
generalized
information loss
merged
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711174376.4A
Other languages
English (en)
Other versions
CN107832633A (zh
Inventor
王金艳
周思明
李先贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Meishi Information Technology Co ltd
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN201711174376.4A priority Critical patent/CN107832633B/zh
Publication of CN107832633A publication Critical patent/CN107832633A/zh
Application granted granted Critical
Publication of CN107832633B publication Critical patent/CN107832633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种关系事务数据发布的隐私保护方法,先将含有敏感属性的记录和不含有敏感属性的记录区分记录,计算出每个分组所需要含有敏感属性记录的记录数,采用关系属性最小信息损失的聚类方法进行初始化聚类,使得每个聚类中均分了包含敏感属性的记录并拥有不少于k条的记录。再对每个初始化的聚类,通过设定数据类型的信息损失的上界阈值,另外一个或者同一个数据类型的信息损失要达到最小信息损失,并采用关于关系数据和事务数据信息损失的相对最优方式的合并策略。后对于最终合并好的集群,再进行不确定性匿名,以期在集群中每个事务的任意子集推断敏感属性的概率不超过一个阈值ρ。这样就有效的保护了敏感属性被推测从而泄露的隐私安全。

Description

关系事务数据发布的隐私保护方法
技术领域
本发明涉及数据隐私保护技术领域,具体一种涉及关系事务数据发布的隐私保护方法。
背景技术
随着愈来愈多的商务和医疗数据的发布,通过对这些数据进行数据挖掘和数据分析等工作,在商业营销、群体行为趋势、疾病预测和科学研究等方面,具有极大参考和实际意义,带来了巨大的经济和社会收益。然而这些研究与个人信息息息相关,与之带来的隐私问题日益严重,是如今信息时代的热门话题。虽然数据发布技术使得数据交换和共享变得高效和便捷,但是如何针对其中的隐私泄露问题进行保护成为了研究的热门。当今的商务和医疗数据中需要发布个人的关系数据和事务数据的联合数据集,不仅仅是针对单一的数据进行发布,我们称之为关系事务数据集发布的隐私保护。然而保护这样的数据集的隐私和研究效用是如今的研究挑战。
在现有的隐私保护研究中,大多数的研究主要针对单个数据类型的数据集上,但是对于关系事务的联合数据集来说,并不能满足隐私保护的要求,因为敌手的背景知识包含关系属性和事务属性,更容易造成身份泄露,推测出敏感属性。现有的匿名模型(k,km)-匿名,即阻止知道个人关系属性和至多m项的事务属性的敌手链接记录到个人。虽然实现了目的,但是同样存在3个方面的问题:
(1)虽然保障了记录链接攻击,但是不能保证属性链接攻击。
(2)仅能保护事务数据中长度不超过m的组合,对于长度超过m的组合不施加任何保护。
(3)将事务属性全部当成敏感属性,直接对敏感属性操作,使得信息损失较大;未区分事务属性中可能包含敏感属性和非敏感属性,使得敏感属性可被推测,从而泄露隐私。
现有的面向关系事务数据集的隐私保护技术主要还是限制背景知识来对数据进行泛化的匿名处理方法,但其隐私模型对事务属性中的敏感属性缺乏保护。实际上事务属性中有非敏感和敏感属性的区分。例如,一般感冒和艾滋病的敏感程度有极大差异。那么就需要解决用非敏感属性来推测敏感属性导致隐私泄露的问题。
发明内容
本发明所要解决的是现有隐私保护方法在面向关系事务联合数据的发布时,存在信息损失过多以及事务数据中敏感属性存在以导致隐私泄露的问题,提供关系事务数据发布的隐私保护方法。
为解决上述问题,本发明是通过以下技术方案实现的:
关系事务数据发布的隐私保护方法,包括步骤如下:
步骤1、初始化数据,将原始表数据进行初始化聚类;
步骤1.1、将原始数据集中含有敏感属性的记录和不含有敏感属性的记录区分记录;
步骤1.2、根据给定的k值和原始数据集中记录的总条数确定分组数;
步骤1.3、将含有敏感属性的记录和不含有敏感属性的记录采用关系属性概化的最小信息损失度量的聚类方法均分到各个分组中,使得每个分组的记录条数至少有k条,至多不超过2k-1条;
步骤2、对初始化聚类之后的分组采用相对最优合并策略进行聚类合并概化,得到最终合并概化好的数据集;
步骤3、利用ρ-不确定性匿名模型对最终合并概化好的数据集进行自顶向下的概化和全局抑制,使得直到每个分组内含敏感属性记录的置信度均小于设定阈值ρ,从而得到最终匿名发布数据;
其中,k为大于1的整数,ρ为大于0且小于1的小数。
上述步骤1.1中,需要先对原始数据集中的记录进行简单匿名后,再在对原始数据集中含有敏感属性的记录和不含有敏感属性的记录区分记录。
上述步骤1.2中,分组数等于原始数据集中记录的总条数除以k的商再取整。
上述步骤2中的具体子步骤为:
步骤2.1、从初始化聚类后形成的当前数据集中随机选择1个分组作为当前种子分组;
步骤2.2、逐一将当前数据集中未进行过合并的各个分组与当前种子分组进行合并,并计算各个合并分组中的关系属性概化后的合并分组概化信息损失度量;
步骤2.3、选择合并分组概化信息损失度量最小的合并方式,并将该合并方式所对应的数据集作为中间数据集,并计算中间数据集中所有分组中的关系属性概化后的平均概化信息损失度量;
步骤2.4、判断平均概化信息损失度量是否超过设定阈值δ:
若没有超过,则该合并方式成立,将中间数据集作为当前数据集,并从此当前数据集未进行过合并的分组中再随机选择1个分组作为当前种子分组,并返回步骤2.2,直到当前数据集不存在未进行过合并的分组,并转至步骤 2.5;
如果超过,则该合并方式不成立,并转至步骤2.5;
步骤2.5、将当前数据集作为最终数据集,并对最终数据集中每个分组没有进行概化的关系属性进行概化,得到最终合并概化好的数据集。
上述步骤2中的具体子步骤为:
步骤2.1、计算初始化聚类后形成的当前数据集中各个分组中关系属性概化后的分组概化信息损失度量,并将分组概化信息损失度量最小的分组作为当前种子分组;
步骤2.2、逐一将当前数据集中未进行过合并的各个分组与当前种子分组进行合并,并计算各个合并分组中的事务属性匿名后的合并分组匿名信息损失度量;
步骤2.3、选择合并分组匿名信息损失度量最小的合并方式,并将该合并方式所对应的数据集作为中间数据集,并计算中间数据集中所有分组中的关系属性概化后的平均概化信息损失度量;
步骤2.4、判断平均概化信息损失度量是否超过设定阈值δ:
若没有超过,则该合并方式成立,将中间数据集作为当前数据集,并从此当前数据集未进行过合并的分组中选择分组概化信息损失度量最小的分组作为当前种子分组,并返回步骤2.2,直到当前数据集不存在未进行过合并的分组,并转至步骤2.5;
如果超过,则该合并方式不成立,并转至步骤2.5;
步骤2.5、将当前数据集作为最终数据集,并对最终数据集中每个分组没有进行概化的关系属性进行概化,得到最终合并概化好的数据集。
上述步骤2中的具体子步骤为:
步骤2.1、计算初始化聚类后形成的当前数据集中各个分组中关系属性概化后的分组概化信息损失度量,并将分组概化信息损失度量最小的分组作为当前种子分组;
步骤2.2、逐一将当前数据集中未进行过合并的各个分组与当前种子分组进行合并,并计算各个合并分组中的关系属性概化后的合并分组概化信息损失度量和事务属性匿名后的合并分组匿名信息损失度量;
步骤2.3、选择合并分组概化信息损失度量和合并分组匿名信息损失度量之和最小的合并方式,并将该合并方式所对应的数据集作为中间数据集,并计算中间数据集中所有分组中的关系属性概化后的平均概化信息损失度量;
步骤2.4、判断平均概化信息损失度量是否超过设定阈值δ:
若没有超过,则该合并方式成立,将中间数据集作为当前数据集,并从此当前数据集未进行过合并的分组中选择分组概化信息损失度量最小的分组作为当前种子分组,并返回步骤2.2,直到当前数据集不存在未进行过合并的分组,并转至步骤2.5;
如果超过,则该合并方式不成立,并转至步骤2.5;
步骤2.5、将当前数据集作为最终数据集,并对最终数据集中每个分组没有进行概化的关系属性进行概化,得到最终合并概化好的数据集。
与现有技术相比,本发明具有如下特点:
1、采用均分含敏感属性记录的k-匿名模型的聚类方式。由于均分了含敏感属性的记录,使得最后的匿名能够减少概化个数,将敏感属性的推导概率控制在阈值ρ内,大大提高数据效用,减少平均信息损失。
2、在进行完初始化聚类之后,根据合并之后是否超过最小信息损失阈值,将每个分组进行合并,运用3种合并策略来达到目的,这样减少了最终匿名操作,并且减少了平均信息损失,提高了效率。
3、将各个分组中关系属性概化后的值当做非敏感属性,即在每个分组的事务中加上一个固定非敏感属性,采用ρ-不确定性模型,通过抑制和自顶向下概化的手段保证了任何敏感属性的推测概率至多到ρ,这样使得关系事务数据集联合起来,保护了敏感属性不被推测,保全了数据的健全的同时尽可能保证了效用。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
本发明基于(k,ρ)匿名的关系事务数据发布的隐私保护方法,主要包括将原始表数据进行初始化聚类结构、对集群进行聚类合并和最终聚类分组的隐私保护策略三大部分。首先,将含有敏感属性的记录和不含有敏感属性的记录区分记录,计算出初始化聚类时每个分组需要含有敏感属性记录的记录数,采用关系属性概化后最小信息损失的聚类方法进行初始化聚类,使得每个聚类中均分了包含敏感属性的记录并拥有不少于k条的记录。然后对每个初始化的聚类,进行合理的合并策略,这个策略是关于关系数据和事务数据信息损失的相对最优方式,设定一个数据类型的信息损失的上界阈值,另外一个或者同一个数据类型的信息损失要达到最小信息损失。最后对于最终合并好的集群,再进行不确定性匿名,以期在集群中每个事务的任意子集推断敏感属性的概率不超过一个阈值ρ。这样就有效的保护了敏感属性被推测从而泄露的隐私安全。
具体来说,一种关系事务数据发布的隐私保护方法,具体实现过程如下:
步骤一:初始化数据,将原始表数据进行初始化聚类。
如表1所示,原始数据集中Id、name、Demographics列下Age、Origin 和Gender为关系属性,Diagnosis codes列下的Disease为事务属性,其中 053.71和458.1代表的是敏感疾病的诊断编码其它为非敏感疾病。
Figure BDA0001477895350000041
Figure BDA0001477895350000051
表1
根据设定的k值,将包含敏感属性的记录均分在每一个聚类中,例如,记录1、3、6和7包含敏感属性,那么需要将这样的记录均分到每个一个分组中。聚类完成之后,使得每个分组的记录条数至少有k条。
步骤1.1、将用户的名字去掉只留下Id实现简单匿名,此时原始数据中准标识符为除了Id和事务属性之外的属性。而事务属性中包含敏感属性和非敏感属性。
第一次遍历整个数据集,数据集D的总记录数表示为|D|,含有敏感属性的记录和不含有敏感属性的记录区分记录,其记录数分别表示为NumSen和NumNsen。根据公式:
bukSen=NumSen/(|D|/k)
bukNsen=NumNsen/(|D|/k)
计算出聚类操作的时候均分含敏感属性记录,每个分组需要拥有的含敏感属性的记录条数,表示为bukSen。例如,我们设定的k值为3,记录总条数为35,则分组数为11组。又例如,我们设定的k值为2,含敏感属性记录的个数为4,总共有分4个分组,那么每个分组中需要有1条含敏感属性的记录,bukSen的值为1。那么反之只包含非敏感属性记录均分到每个分组的记录条数的值为1,称之为bukNsen。
步骤1.2、采用关系属性概化最小信息损失的聚类方法进行初始化聚类;
在聚类的时候,归一化惩罚即信息损失度量NCP计算公式如下:
Figure BDA0001477895350000052
Figure BDA0001477895350000053
Figure BDA0001477895350000054
其中,给定一个关系属性的概化层次树
Figure BDA0001477895350000055
|Z|表示的是分类属性Z在层次树中的叶子数或者表示为数值属性Z的范围大小,对应
Figure BDA0001477895350000056
表示的是分类属性Z的概化层次树中以节点v为根的子树叶子数量或者数值属性Z范围长度,参数ωi∈[0,1]代表属性重要性权重,i∈[0,v]表示的是一条记录中所有关系属性。
根据步骤1.1中我们得到的bukSen和bukNsen值,阈值Threshold=min (bukSen,bukNsen),两者中最小值,在实例中即为1。
先在数据集D里面随机选择一条记录,然后根据两条记录概化之后最小NCP找到另外一条记录聚类在一起,直到满足Threshold条记录,此时第一个分组中拥有Threshold条记录。这里随机选择的是记录5,满足Threshold 条记录的要求,直接进行下一步。
步骤1.3、当步骤1.2中这样的记录条数达到Threshold之后,开始计算还需要分别添加多少记录进入这个分组,以满足步骤1.1中计算得出的 bukSen和bukNsen值。之后在整个数据集中遍历得到与第一个分组最小NCP 的记录,并判断是否添加进分组,直到满足步骤1.1中的bukSen和bukNsen 值。
实例中,记录5是含非敏感属性记录,那么还需要添加1条含敏感属性的记录来满足buksen的值。那么根据步骤1.2中公式,记录5和其他记录的关系属性一一计算得出记录7的合并概化之后的信息损失最小,记录7是含敏感属性的记录,刚好第一个达到buksen值。那么第一个分组就聚类出来了。
步骤1.4、进行步骤1.2到1.3的循环,步骤1.2之后,当添加进入分组时判断记录是否包含敏感属性和非敏感属性,然后判断是否添加。这样便完成了多个分组的聚类。如表2所示,记录{0,1},{2,3},{5,7},{4,6} 分成了4个分组。
步骤1.5、进行完步骤1.4之后,可能剩余其他记录并没有被分组,剩余记录数为|D|mod k,剩余的记录随机选择一条,与各个分组计算合并概化后的信息损失度量,将这条记录放入与之度量值最小的那个分组。重复上述过程,直到所有剩余记录分入各个分组。
初始化聚类完成之后,使得每个分组的记录条数至少有k条,至多不超过2k-1条,如表2所示。
Figure BDA0001477895350000061
表2
步骤二:对分组进行聚类合并。
为了更好的保护隐私,并且提高数据的实用性和匿名的效率。我们将初始化后的分组根据分组之间最小NCP并且整个数据集的NCP不超过设定的阈值δ,进行合并操作。因为合并之后的事务属性中含非敏感属性记录变多,使得最终利用ρ-不确定性匿名模型进行概化保护的时候减少概化项,提高敏感属性的保护程度。同样可以根据合并的之后的分组内平均信息损失来进行合并,只要总体的数据集关系属性的NCP不超过设定的阈值δ。
对于每个聚类之后的分组进行相对最优合并策略;这个策略是关于关系数据和事务数据相对信息损失最小的相对最优方式,设定一个数据类型的信息损失的上界阈值,另外一个或者同一个数据类型的信息损失要达到最小信息损失,或者两种数据类型平衡选择最小信息损失来考虑。这三种策略同时考虑。
策略一:设定关系属性信息损失的上界阈值为δ,根据步骤一中得到的初始化聚类表,随机选择一个分组,作为种子。然后遍历整个数据集中的所有分组与这个种子分组进行合并概化计算NCP,找到最小的NCP值,那么这个分组和种子进行合并。
在实例中,分组{0,1}作为种子,种子与分组{2,3}合并概化之后的NCP 为0.4625,但是种子分组和其余的2个分组的合并概化之后的NCP为0.4781 和0.6812,所以选择概化后最小NCP的分组{2,3}与种子合并在一起。
之后计算整个数据集关系属性的NCP是否超过我们设定的阈值δ=0.6,没有超过则这个合并可行,更新数据集,重新选择种子进行上述循环,并且每个分组只能合并一次,直到数据集不在改变,整个数据集的NCP满足阈值。若不可行则跳出循环,返回最近一次更新的数据集。
实例中,种子{0,1}和分组{2,3}的合并没有让整个数据集的NCP超过阈值0.6,那么这个合并可行,更新数据集,进行下一次循环的时,{5,7}和{4,6} 不能进行合并,返回最近一次更新数据集。
这样就得到策略一的最终聚类合并表,如表3所示。
Figure BDA0001477895350000071
表3
该策略一的具体子步骤为:
步骤2.1、从初始化聚类后形成的当前数据集中随机选择1个分组作为当前种子分组;
步骤2.2、逐一将当前数据集中未进行过合并的各个分组与当前种子分组进行合并,并计算各个合并分组中的关系属性概化后的合并分组概化信息损失度量;
步骤2.3、选择合并分组概化信息损失度量最小的合并方式,并将该合并方式所对应的数据集作为中间数据集,并计算中间数据集中所有分组中的关系属性概化后的平均概化信息损失度量;
步骤2.4、判断平均概化信息损失度量是否超过设定阈值δ:
若没有超过,则该合并方式成立,将中间数据集作为当前数据集,并从此当前数据集未进行过合并的分组中再随机选择1个分组作为当前种子分组,并返回步骤2.2,直到当前数据集不存在未进行过合并的分组,并转至步骤 2.5;
如果超过,则该合并方式不成立,并转至步骤2.5;
步骤2.5、将当前数据集作为最终数据集,并对最终数据集中每个分组没有进行概化的关系属性进行概化,得到最终合并概化好的数据集。
策略二:设定关系属性信息损失的上界阈值为δ,根据步骤一中得到的初始化聚类表,再将种子和其他分组先进行合并然后进行步骤3中对事务属性进行的ρ不确定性的匿名操作,计算出匿名操作的平均信息损失度量,种子C和每一个分组都有一个匿名操作后的平均信息损失度量的值,对这个值所对应的分组使用升序排列,即每个分组Ci(i∈[1,t))可以表示为{C1、、、Ct}。
先与序列值最小的进行合并,即C和C1。判断合并之后整个数据集的关系属性的NCP是否满足最开始设定的阈值δ。若超过这个阈值,重新选择种子分组和C2进行上述计算。若没有超过阈值,这个合并可以进行,然后更新数据集,并且重新选择下一个最小NCP的分组C作为种子,每个分组只能合并一次,直到数据集不在改变。至此整个策略二的聚类合并就完成。
该策略二的具体子步骤为:
步骤2.1、计算初始化聚类后形成的当前数据集中各个分组中关系属性概化后的分组概化信息损失度量,并将分组概化信息损失度量最小的分组作为当前种子分组;
步骤2.2、逐一将当前数据集中未进行过合并的各个分组与当前种子分组进行合并,并计算各个合并分组中的事务属性匿名后的合并分组匿名信息损失度量;
步骤2.3、选择合并分组匿名信息损失度量最小的合并方式,并将该合并方式所对应的数据集作为中间数据集,并计算中间数据集中所有分组中的关系属性概化后的平均概化信息损失度量;
步骤2.4、判断平均概化信息损失度量是否超过设定阈值δ:
若没有超过,则该合并方式成立,将中间数据集作为当前数据集,并从此当前数据集未进行过合并的分组中选择分组概化信息损失度量最小的分组作为当前种子分组,并返回步骤2.2,直到当前数据集不存在未进行过合并的分组,并转至步骤2.5;
如果超过,则该合并方式不成立,并转至步骤2.5;
步骤2.5、将当前数据集作为最终数据集,并对最终数据集中每个分组没有进行概化的关系属性进行概化,得到最终合并概化好的数据集。
策略三:设定关系属性信息损失的上界阈值为δ,同理,进行上述策略二的工作,产生升序排列如{C1、、、Ct},对关系数据也进行相同处理。选择一个拥有最小NCP的分组C作为种子与其他的分组分别计算合并概化后的信息损失度量的值,分组通过升序排列,如{C1、C2、、Cu}。
根据这两个升序排列的值,寻找一个分组,序列值相加最小,即(t+u)最小,先合并概化在一起。再计算整体的NCP是否超过阈值,决定这个合并是否可行。不行则重新选择另外一个序列值相加最小的分组进行计算判断。可行则更新数据集,重新选择一个最小NCP分组C作为种子,每个分组只能合并一次,直到数据集不再改变,等同于策略二中的判断操作。
该策略三的具体子步骤为:
步骤2.1、计算初始化聚类后形成的当前数据集中各个分组中关系属性概化后的分组概化信息损失度量,并将分组概化信息损失度量最小的分组作为当前种子分组;
步骤2.2、逐一将当前数据集中未进行过合并的各个分组与当前种子分组进行合并,并计算各个合并分组中的关系属性概化后的合并分组概化信息损失度量和事务属性匿名后的合并分组匿名信息损失度量;
步骤2.3、选择合并分组概化信息损失度量和合并分组匿名信息损失度量之和最小的合并方式,并将该合并方式所对应的数据集作为中间数据集,并计算中间数据集中所有分组中的关系属性概化后的平均概化信息损失度量;
步骤2.4、判断平均概化信息损失度量是否超过设定阈值δ:
若没有超过,则该合并方式成立,将中间数据集作为当前数据集,并从此当前数据集未进行过合并的分组中选择分组概化信息损失度量最小的分组作为当前种子分组,并返回步骤2.2,直到当前数据集不存在未进行过合并的分组,并转至步骤2.5;
如果超过,则该合并方式不成立,并转至步骤2.5;
步骤2.5、将当前数据集作为最终数据集,并对最终数据集中每个分组没有进行概化的关系属性进行概化,得到最终合并概化好的数据集。
步骤三:最终聚类分组的隐私保护策略。
根据步骤二中的策略,在最终合并好的分组中,我们需要实现ρ-不确定性匿名模型使得每个分组内敏感属性的推测概率少于设定阈值ρ,从而得到最终匿名发布表。
需要控制敏感关联规则的置信度,其置信度为conf(χ→α)。
根据定义我们需要控制敏感关联规则的置信度,其置信度的计算公式为:
Figure BDA0001477895350000101
其中sup(χ)表示一条事务记录的任意子集
Figure BDA0001477895350000103
在这个分组C中的个数,sup(χα)表示在分组中任意子集和敏感属性共同存在的记录个数。χ→α是敏感关联规则,那么conf(χ→α)表示在这个分组中任意事务子集推导出敏感属性的置信度。
在利用ρ-不确定性匿名模型的自顶向下的概化和全局抑制的方式,直到每个分组中都满足ρ不确定性,那么可以说保证了敏感属性记录不被超过ρ的概率推断。参考表4,其中ρ的值为0.6。
Figure BDA0001477895350000102
表4
至此,整个数据匿名过程已完成,我们可以得到如表4所示的匿名数据发布图。如表4所示的匿名表能够很好保护敏感属性与其敏感关联规则的安全,同时又很好的保留了数据效用性,对于数据查询和关联性规则挖掘等重要的数据应用领域具有很好的实用性。
本发明采用(k,ρ)-匿名模型来实现面向关系事务数据集的敏感属性的保护,以达到保护隐私的目的,并围绕提高数据效用性,减少信息损失,提升匿名效率的目标来实施保护隐私的匿名操作策略是本发明的目的。该隐私保护策略,着重于考虑数据效用的提高,与此同时能够提升匿名的效率。发布的这种匿名数据表,有相对健全的事务数据并且能够保证敏感属性的推测概率达到一个安全的范围,达到隐私保护的目的。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (3)

1.关系事务数据发布的隐私保护方法,其特征是,包括步骤如下:
步骤1、初始化数据,将原始表数据进行初始化聚类;
步骤1.1、将原始数据集中含有敏感属性的记录和不含有敏感属性的记录区分记录;
步骤1.2、根据给定的k值和原始数据集中记录的总条数确定分组数;
步骤1.3、将含有敏感属性的记录和不含有敏感属性的记录采用关系属性概化的最小信息损失度量的聚类方法均分到各个分组中,使得每个分组的记录条数至少有k条,至多不超过2k-1条;
步骤2、对初始化聚类之后的分组采用相对最优合并策略进行聚类合并概化,得到最终合并概化好的数据集;其中相对最优合并策略包括以下三种策略:
策略一:
步骤2.1、从初始化聚类后形成的当前数据集中随机选择1个分组作为当前种子分组;
步骤2.2、逐一将当前数据集中未进行过合并的各个分组与当前种子分组进行合并,并计算各个合并分组中的关系属性概化后的合并分组概化信息损失度量;
步骤2.3、选择合并分组概化信息损失度量最小的合并方式,并将该合并方式所对应的数据集作为中间数据集,并计算中间数据集中所有分组中的关系属性概化后的平均概化信息损失度量;
步骤2.4、判断平均概化信息损失度量是否超过设定阈值δ:
若没有超过,则该合并方式成立,将中间数据集作为当前数据集,并从此当前数据集未进行过合并的分组中再随机选择1个分组作为当前种子分组,并返回步骤2.2,直到当前数据集不存在未进行过合并的分组,并转至步骤2.5;
如果超过,则该合并方式不成立,并转至步骤2.5;
步骤2.5、将当前数据集作为最终数据集,并对最终数据集中每个分组没有进行概化的关系属性进行概化,得到最终合并概化好的数据集;
策略二:
步骤2.1、计算初始化聚类后形成的当前数据集中各个分组中关系属性概化后的分组概化信息损失度量,并将分组概化信息损失度量最小的分组作为当前种子分组;
步骤2.2、逐一将当前数据集中未进行过合并的各个分组与当前种子分组进行合并,并计算各个合并分组中的事务属性匿名后的合并分组匿名信息损失度量;
步骤2.3、选择合并分组匿名信息损失度量最小的合并方式,并将该合并方式所对应的数据集作为中间数据集,并计算中间数据集中所有分组中的关系属性概化后的平均概化信息损失度量;
步骤2.4、判断平均概化信息损失度量是否超过设定阈值δ:
若没有超过,则该合并方式成立,将中间数据集作为当前数据集,并从此当前数据集未进行过合并的分组中选择分组概化信息损失度量最小的分组作为当前种子分组,并返回步骤2.2,直到当前数据集不存在未进行过合并的分组,并转至步骤2.5;
如果超过,则该合并方式不成立,并转至步骤2.5;
步骤2.5、将当前数据集作为最终数据集,并对最终数据集中每个分组没有进行概化的关系属性进行概化,得到最终合并概化好的数据集;
策略三:
步骤2.1、计算初始化聚类后形成的当前数据集中各个分组中关系属性概化后的分组概化信息损失度量,并将分组概化信息损失度量最小的分组作为当前种子分组;
步骤2.2、逐一将当前数据集中未进行过合并的各个分组与当前种子分组进行合并,并计算各个合并分组中的关系属性概化后的合并分组概化信息损失度量和事务属性匿名后的合并分组匿名信息损失度量;
步骤2.3、选择合并分组概化信息损失度量和合并分组匿名信息损失度量之和最小的合并方式,并将该合并方式所对应的数据集作为中间数据集,并计算中间数据集中所有分组中的关系属性概化后的平均概化信息损失度量;
步骤2.4、判断平均概化信息损失度量是否超过设定阈值δ:
若没有超过,则该合并方式成立,将中间数据集作为当前数据集,并从此当前数据集未进行过合并的分组中选择分组概化信息损失度量最小的分组作为当前种子分组,并返回步骤2.2,直到当前数据集不存在未进行过合并的分组,并转至步骤2.5;
如果超过,则该合并方式不成立,并转至步骤2.5;
步骤2.5、将当前数据集作为最终数据集,并对最终数据集中每个分组没有进行概化的关系属性进行概化,得到最终合并概化好的数据集;
步骤3、利用ρ-不确定性匿名模型对最终合并概化好的数据集进行自顶向下的概化和全局抑制,使得直到每个分组内含敏感属性记录的置信度均小于设定阈值ρ,从而得到最终匿名发布数据;
其中,k为大于1的整数,ρ为大于0且小于1的小数。
2.根据权利要求1所述的关系事务数据发布的隐私保护方法,其特征是,步骤1.1中,需要先对原始数据集中的记录进行简单匿名后,再在对原始数据集中含有敏感属性的记录和不含有敏感属性的记录区分记录。
3.根据权利要求1所述的关系事务数据发布的隐私保护方法,其特征是,步骤1.2中,分组数等于原始数据集中记录的总条数除以k的商再取整。
CN201711174376.4A 2017-11-22 2017-11-22 关系事务数据发布的隐私保护方法 Active CN107832633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711174376.4A CN107832633B (zh) 2017-11-22 2017-11-22 关系事务数据发布的隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711174376.4A CN107832633B (zh) 2017-11-22 2017-11-22 关系事务数据发布的隐私保护方法

Publications (2)

Publication Number Publication Date
CN107832633A CN107832633A (zh) 2018-03-23
CN107832633B true CN107832633B (zh) 2020-12-15

Family

ID=61653270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711174376.4A Active CN107832633B (zh) 2017-11-22 2017-11-22 关系事务数据发布的隐私保护方法

Country Status (1)

Country Link
CN (1) CN107832633B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765216A (zh) * 2019-10-22 2020-02-07 中国银行股份有限公司 数据挖掘方法、装置、计算机设备及计算机可读存储介质
CN111222164B (zh) * 2020-01-10 2022-03-25 广西师范大学 联盟链数据发布的隐私保护方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090049069A1 (en) * 2007-08-09 2009-02-19 International Business Machines Corporation Method, apparatus and computer program product for preserving privacy in data mining
CN102542209A (zh) * 2010-12-21 2012-07-04 日电(中国)有限公司 数据匿名方法和系统
CN104123504A (zh) * 2014-06-27 2014-10-29 武汉理工大学 一种基于频繁项检索的云平台隐私保护方法
US20140324915A1 (en) * 2013-04-25 2014-10-30 International Business Machines Corporation Guaranteeing anonymity of linked data graphs
CN105512566A (zh) * 2015-11-27 2016-04-20 电子科技大学 一种基于k-匿名的健康数据隐私保护方法
CN106778346A (zh) * 2016-12-22 2017-05-31 广西师范大学 事务型数据流发布的隐私保护方法
CN107273757A (zh) * 2017-04-23 2017-10-20 西安电子科技大学 一种基于l‑diversity规则和MDAV算法的处理大数据的方法
CN107358116A (zh) * 2017-06-29 2017-11-17 华中科技大学 一种多敏感属性数据发布中的隐私保护方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090049069A1 (en) * 2007-08-09 2009-02-19 International Business Machines Corporation Method, apparatus and computer program product for preserving privacy in data mining
CN102542209A (zh) * 2010-12-21 2012-07-04 日电(中国)有限公司 数据匿名方法和系统
US20140324915A1 (en) * 2013-04-25 2014-10-30 International Business Machines Corporation Guaranteeing anonymity of linked data graphs
CN104123504A (zh) * 2014-06-27 2014-10-29 武汉理工大学 一种基于频繁项检索的云平台隐私保护方法
CN105512566A (zh) * 2015-11-27 2016-04-20 电子科技大学 一种基于k-匿名的健康数据隐私保护方法
CN106778346A (zh) * 2016-12-22 2017-05-31 广西师范大学 事务型数据流发布的隐私保护方法
CN107273757A (zh) * 2017-04-23 2017-10-20 西安电子科技大学 一种基于l‑diversity规则和MDAV算法的处理大数据的方法
CN107358116A (zh) * 2017-06-29 2017-11-17 华中科技大学 一种多敏感属性数据发布中的隐私保护方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A n onymizing Data with Relational and;Giorgos Poulis,el al.;《European Conference on Machine Learning and Knowledge Discovery in Databases》;20131231;第353-369页 *
Anonymizing datasets with demographics and diagnosis codes in the;Giorgos Poulis,et al.;《Journal of Biomedical Informatics》;20170131;第76-96页 *
ρ -uncer tainty:Inference-Proof Transaction Anonymization;Jianneng Cao,et al.;《Proc.of the 36th International Conference on Very Large Data Bases》;20100917;第1033-1044页 *
一种高效的微聚集k-匿名算法;王茜 等;《世界科技研究与成展》;20130228;第35卷(第1期);第38-40,55页 *
基于K匿名数据集的隐私推理;李祖德;《中国优秀硕士学位论文全文数据库 信息科技辑》;20070815(第02期);正文第36-47页 *

Also Published As

Publication number Publication date
CN107832633A (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
Kabir et al. Efficient systematic clustering method for k-anonymization
Poulis et al. Anonymizing data with relational and transaction attributes
US8812524B2 (en) Method and system for preserving privacy of a dataset
CN106021541B (zh) 区分准标识符属性的二次k‑匿名隐私保护算法
CN109543445B (zh) 一种基于条件概率分布的隐私保护数据发布方法
CN107766745B (zh) 层次数据发布中的分级隐私保护方法
CN106650487B (zh) 基于多维敏感数据发布的多部图隐私保护方法
Wang et al. Big data privacy in biomedical research
Gkoulalas-Divanis et al. Utility-guided clustering-based transaction data anonymization.
Yin et al. Attribute couplet attacks and privacy preservation in social networks
JP6398724B2 (ja) 情報処理装置、および、情報処理方法
Gionis et al. k-Anonymization revisited
CN110378148B (zh) 一种面向云平台的多域数据隐私保护方法
Dai et al. A privacy-preserving multi-keyword ranked search over encrypted data in hybrid clouds
CN107832633B (zh) 关系事务数据发布的隐私保护方法
Wang et al. Fused lasso with the adaptation of parameter ordering in combining multiple studies with repeated measurements
Loukides et al. Utility-aware anonymization of diagnosis codes
CN107070932B (zh) 社会网络动态发布中防止标签邻居攻击的匿名方法
Sariyar et al. Reconsidering anonymization-related concepts and the term “identification” against the backdrop of the European legal framework
Li et al. A generalization model for multi-record privacy preservation
Parameshwarappa et al. Anonymization of daily activity data by using ℓ-diversity privacy model
CN108959956B (zh) 基于贝叶斯网络的差分隐私数据发布方法
CN111859441A (zh) 一种缺失数据的匿名方法、存储介质
Podlesny et al. Attribute compartmentation and greedy UCC discovery for high-dimensional data anonymization
CN110399746B (zh) 一种基于敏感度分级的匿名数据发布方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240205

Address after: Room 61213, building 3, No. 1800, Panyuan Road, Changxing Town, Chongming District, Shanghai

Patentee after: Shanghai Chengkang Intellectual Property Service Co.,Ltd.

Country or region after: China

Address before: 541004 No. 15 Yucai Road, Guilin, the Guangxi Zhuang Autonomous Region

Patentee before: Guangxi Normal University

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240222

Address after: Room 501, 5th Floor, Building 2, Green Valley Information Industry Park, No. 368 Chengbei Street, Liandu District, Lishui City, Zhejiang Province, 323000

Patentee after: Zhejiang Meishi Information Technology Co.,Ltd.

Country or region after: China

Address before: Room 61213, building 3, No. 1800, Panyuan Road, Changxing Town, Chongming District, Shanghai

Patentee before: Shanghai Chengkang Intellectual Property Service Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right