CN112632612B - 一种医疗数据发布匿名化方法 - Google Patents

一种医疗数据发布匿名化方法 Download PDF

Info

Publication number
CN112632612B
CN112632612B CN202011579236.7A CN202011579236A CN112632612B CN 112632612 B CN112632612 B CN 112632612B CN 202011579236 A CN202011579236 A CN 202011579236A CN 112632612 B CN112632612 B CN 112632612B
Authority
CN
China
Prior art keywords
distance
sensitivity
diseases
disease
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011579236.7A
Other languages
English (en)
Other versions
CN112632612A (zh
Inventor
郭永安
冷建宇
乔露雨
朱洪波
杨龙祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202011579236.7A priority Critical patent/CN112632612B/zh
Publication of CN112632612A publication Critical patent/CN112632612A/zh
Application granted granted Critical
Publication of CN112632612B publication Critical patent/CN112632612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种医疗数据发布匿名化方法。通过构建(w,k,d)‑匿名模型,首先将不同疾病敏感结合实际评判标准给出不同的敏感度评分,利用评分将敏感属性划分为不同的等级,计算每种疾病的权重值,限制每个等价类内的平均权重值小于给定的约束值w0;其次,对这些疾病从语义层次的距离进行约束,保证语义上的多样性,要求等价类内的平均距离要大于给定的约束值d0,最终实现敏感属性的个性化保护。该模型既从敏感等级这个维度上保护了严重疾病这个隐含属性的泄露,又从疾病语义分类这个维度上保护了疾病部位或者器官这个隐含属性的泄露,更好地针对疾病这个敏感属性进行了隐私保护。

Description

一种医疗数据发布匿名化方法
技术领域
本发明涉及医疗信息隐私保护,具体涉及一种医疗数据发布匿名化方法。
背景技术
随着云计算和大数据的发展,从数据中挖掘信息、发现规律、帮助决策已经得到越来越广的使用,这也使得数据已成为研究机构、企业、乃至国家争相获取和保护的资源。另一方面,由于这些数据往往包含个人不愿透露的敏感信息,加之个人信息的过度收集以及监管制度的不完善,使得个人隐私安全问题成为了阻碍数据开放共享和大数据发展的一大难题。为保护个人隐私安全,数据匿名化技术应运而生。例如,医院收集患者数据并将其共享到外部医疗中心,以帮助其进行医学研究。这种情况下需要保证用户的个人隐私信息不被泄露的同时能够分享有效的医疗数据,就可以使用数据匿名化的方式。
匿名化的概念被提出有一段时间了。Sweeney等人最早提出了首个匿名模型k-anonymity,其基本思想是“将个体身份隐藏在一个大小至少为k的组中,使该个体与其他至少k-1个个体不可区分”。这k条记录组成一个等价类。因此,满足k-anonymity的匿名数据集能够有效地防止基于准标识符的链接攻击。另一方面,k-anonymity虽然直观地给出了个体的最大身份披露风险为1/k,但是由于没有对敏感属性进行约束,使得攻击者仍能够根据目标个体所在等价类的敏感属性的分布特征对目标个体的敏感属性值进行推测。Machanavajjhala等人针对k-anonymity的缺陷,提出了l-diversity匿名模型,它要求等价类的敏感属性至少有l个“表现良好”的敏感属性值,该模型增加了对等价类中敏感属性的多样性要求,从而有效地防止了同质性攻击。然而,由于没有考虑敏感属性的分布以及不同敏感属性值之间的相似性,满足l-diversity的匿名数据集无法抵御相似性攻击。Li等人从敏感属性分布的角度出发,提出了t-closeness匿名模型。Li等人认为整个数据集中敏感属性值的分布信息不属于个人隐私,反而是有价值的信息,隐私泄露的根本原因在于个体记录所在等价类的敏感属性分布与整个数据集的敏感属性分布之间的差异。因此,t-closeness要求每个等价类的敏感属性分布与整个数据集的敏感属性分布之间的距离不超过t,从而有效地防止了相似性攻击,减少了攻击者从匿名数据集上获得的关于个体敏感属性的信息增益。Nergiz等人提出了δ-presence匿名模型,引出了存在性隐私披露的概念。δ-presence要求攻击者只能在一定的概率区间内确定目标个体的记录是否存在于数据集中,从而间接地限制了目标个体的身份披露风险和敏感属性披露风险。然而由于δ-presence假设数据发布者拥有和攻击者相同的外部公开数据集,因此不符合绝大多数的现实场景。
大多数匿名模型都没有针对医疗数据的特殊模型,由于没有考虑一些医疗数据的特点,所以没有做到很好的保护。很多由k-匿名延伸出来的模型都是对于敏感属性的种类或者出现频率做出了一些限制,来更好的保护敏感属性,大都是针对链接攻击的保护以及对于同质性攻击的保护。但是对于医疗数据,我们应该知道一种疾病包含的隐藏信息至少包含2层:疾病包含的隐藏信息包含了疾病的敏感程度,对于癌症和流感我们需要保护的程度是不一样的;疾病包含的隐藏信息也包含了患病的器官,这个信息的泄露也会给个人带来一系列的困扰,所以建立一种既从敏感属性分级也从敏感属性基于语义分类的模型就对于疾病相关的隐私保护尤为迫切。
发明内容
发明目的:针对现有技术的不足,本发明提出一种医疗数据发布匿名化方法,通过构建(w,k,d)-匿名模型,同时从敏感属性分级和敏感属性基于语义分类两方面对于疾病相关的数据表进行隐私保护。
技术方案:一种医疗数据发布匿名化方法,包括以下步骤:
(1)分析整个数据集,求出所需要的参数fmax、fmin,其中fmax是整个数据集中出现次数最多的疾病出现的频率,fmin是整个数据集中出现次数最少的疾病所出现的频率,根据语义层次树计算疾病之间的语义距离;
(2)对疾病基于语义分析,生成语义哈希桶,将属于同一类别的疾病划分在一个桶里,对哈希桶按照元组个数进行降序排列;
(3)从记录数最大的哈希桶中任选一条记录作为等价类的初始质心,并计算其他记录与初始质心之间的距离Dist,选择距离Dist最小的前k条记录,构成初始等价类;
(4)向初始等价类中添加新记录,每次选择元组构成新的等价类都计算新等价类中疾病的平均权重值w,以及新等价类中的所有疾病之间的平均语义距离d,如果满足平均权重值w小于等于预设权重阈值w0,且平均语义距离d值大于等于给定距离阈值d0,则将选择的元组加入等价类,若不满足则重新选择元组;
(5)不断重复步骤(3)和(4),直到无法再向等价类中添加满足条件的记录,得到符合个性化(w,k,d)-匿名约束的等价类;
(6)针对符合个性化(w,k,d)-匿名约束的等价类,实施泛化处理,并且隐藏不符合要求的元组,最终得到一张匿名表。
进一步地,所述平均语义距离d计算方法如下:
假设等价类原来已有r条记录,原来的等价类中疾病之间的总距离为dtotal,按如下公式计算出加入新的记录后所有疾病的平均距离
Figure BDA0002864387210000031
Figure BDA0002864387210000032
di,r+1为当前第r+1条记录的疾病与原等价类第i个疾病之间的距离。
所述dtotal通过将等价类中所有疾病的语义距离相加而得到,两种疾病之间的语义距离为语义层次树中最近公共祖先所在高度与叶子节点所在高度之差。
所述平均权重值w计算方法如下:
设疾病的属性值按照敏感程度共分为m级,其中第1级的敏感程度最高,某一疾病a在整个数据集中的出现频率为fa,且处于敏感程度分级中的第n级,其敏感度权重wa由频率敏感度
Figure BDA0002864387210000033
和分级敏感度
Figure BDA0002864387210000034
进行加权得出,对等价类中所有的疾病的敏感度权重求平均值,即为平均权重值w;
其中疾病a的分级敏感度
Figure BDA0002864387210000035
的计算公式如下:
Figure BDA0002864387210000036
疾病a的频率敏感度
Figure BDA0002864387210000037
的计算公式如下:
Figure BDA0002864387210000038
疾病a的敏感度权重wa的计算公式如下:
Figure BDA0002864387210000039
其中α用来控制频率敏感度
Figure BDA00028643872100000310
与分级敏感度
Figure BDA00028643872100000311
的权重。
所述距离Dist的计算方法如下:
令初始质心所在记录为t1,另一条记录为t2,t12表示2条记录泛化后相同的记录,Distortion(t1,t12)表示由记录t1泛化至t12的距离,Distortion(t2,t12)表示由记录t2泛化至t12的距离;
设记录t1中包含v个准标识符属性,可以得到每个准标识符属性的泛化树T,树的高度为h,1,2,…,h-1,h依次代表根节点到相应叶子节点的层次,level(vs)表示第s个准标识符属性泛化前的高度,level(v′s)表示第s个准标识符属性泛化后的高度,当第s个准标识符属性vs从level(vs)级泛化到level(v′s)级时,根据下式得到该泛化的加权层次距离:
Figure BDA0002864387210000041
其中wdj,j-1表示节点j与j-1之间的权重,
Figure BDA0002864387210000042
β为指数权重,β≥1,2≤j≤h;
根据下式计算记录t1泛化前后的距离:
Figure BDA0002864387210000043
根据与记录t1相同的计算方法,得到记录t2泛化前后的距离Distortion(t2,t12),按照下式得到记录t1和t2之间的距离Dist:
Dist(t1,t2)=Distortion(t1,t12)+Distortion(t2,t12)。
有益效果:本发明(w,k,d)匿名的建立,首先由专家将不同疾病敏感结合实际评判标准给出不同的敏感度评分,利用评分将敏感属性划分为不同的等级,计算每种疾病的权重值,限制每个等价类内的平均权重值小于给定的约束值w0;其次,对这些疾病从语义层次的距离进行约束,保证语义上的多样性,要求等价类内的平均距离要大于给定的约束值d0,最终实现敏感属性的个性化保护。该模型可以有效地保护数据表,由于把疾病从语义上进行区分,避免了相似性攻击,并且加上对于敏感等级的约束,避免了同质性攻击等问题。该模型的特点就是既从敏感等级这个维度上保护了严重疾病这个隐含属性的泄露,又从疾病语义分类这个维度上保护了疾病部位或者器官这个隐含属性的泄露,更好地针对疾病这个敏感属性进行了隐私保护。
附图说明
图1为本发明实施例提供的疾病语义层次树示意图;
图2为本发明实施例提供的医疗数据发布匿名化方法流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
为了促进对发明技术方案的理解,首先对描述中将出现的术语给出定义。这些术语包括:
标识符:唯一能够反映个体属性的标志,比如:身份证、姓名等。
准标识符:无法直接分辨出个体,但是能够利用外部表链接识别个体的属性。比如说:性别、生日等。
敏感属性:人们极力保护的个人隐私信息的属性,如:疾病、收入等。
元组:一条数组包含的所有内容,包括准标识符、标识符和敏感属性,也称为记录。
等价类:当多条数据记录在准标识符上不可区分时,称这些记录构成了一个等价类。
同质性攻击:指同一个等价类内敏感属性值完全相同,如果攻击者根据背景知识判断出某个体位于该等价类中,那么由于等价类中所有敏感属性完全一样就一定会造成敏感信息泄露。
链接攻击:知道个体的记录在该匿名数据集中,并通过关于目标个体准标识符的背景知识或外部数据集,对发布的匿名数据集进行链接。
相似性攻击:在等价类中,也许具有不同的敏感属性值,但是它们有着相似的语义,攻击者利用这一特点可以获取个体的隐私信息。
泛化:基于属性的泛化层次或分类树的概念,在泛化层次中,更高级别的属性值具有更加概括的含义,一般指用高层次的属性代替低层次属性。泛化的逆向操作称为特化。
本发明提供一种医疗数据发布匿名化模型:(w,k,d)-匿名模型,该模型同时从敏感属性分级和敏感属性基于语义分类两方面对于疾病相关的数据表进行隐私保护。
该模型主要参数有3个,也是以k-anonymity模型为基础构成的,其中的参数k表示在同一个等价类中至少包含k条记录,这是模型所要求的最基本内容。k值的设定可以根据数据集的大小具体确定,但k至少要保证大于等于2,理论上k值越大,保护效果更强,正常情况下为4到10这个区间即可。由于等价类的大小至少为k,因此通过准标识符链接到特定个人的概率(身份披露风险)至多为1/k。如表1所示,该表是一个3-anonymity数据表。这张表是由原始的数据表删除姓名后,再将年龄泛化到一个区间,进而保证至少一个等价类里面的所有准标识符都是一致的,进而避免了疾病这个敏感属性的泄露。表中简单的包含了2个等价类A、B,2个等价类中都至少包含了3条记录,所以可以称这个表为3-anonymity数据表。等价类即为除去敏感属性外,每条记录其它的准标识符信息是一致的,通过最终泛化的方式使得在准标识符上无法区分,有时也把在实现过程中但是未泛化的一组记录集合称为等价类。
表1 3-anonymity数据表示例
Figure BDA0002864387210000061
d参数是形容疾病语义之间的距离的一个参数,要求对一个等价类内的所有疾病之间的语义距离求平均,得到的值大于等于给定参数d0。如图1所示,这是一张常见的疾病基于语义的分类树。所谓敏感属性语义层次树,指的是利用h高的树来反映不同敏感属性之间的语义关系,其中,1,2,…,h-1,h依次代表的是根节点到叶节点。子节点属于父节点中的子类,叶子节点代表一定的属性值。语义层次树是根据疾病的种类按照常见的分类方式进行分类形成的一种树形数据结构,通过对数据集中包含的疾病从属于人体的9大系统,在从各系统具体区分属于那个部位的疾病,在区分具体疾病的名字。举例说明,图1中的胃炎和胃溃疡同属胃病这个父节点之下,所以他们之间的语义距离可以用1来形容,也就是最近公共祖先所在高度与叶子节点所在高度之差即为两种疾病之间的语义距离。再比如胃炎和阑尾炎之间的最近公共祖先是消化系统,所以这两种疾病之间的距离为2;同理胃炎和骨折之间的最近公共祖先是疾病,所以语义距离为3。相同疾病之间的距离可以认为是0。当一条新的记录想要加入一个等价类时,假设等价类原来已有r条记录,原来的等价类中疾病之间的总距离为dtotal,表示等价类中的每2条记录之间的语义层次距离之和,可以计算出加入新的记录后所有疾病的平均距离
Figure BDA0002864387210000062
计算公式如下:
Figure BDA0002864387210000063
di,r+1表示当前第r+1条记录的疾病与原等价类第i个疾病之间的距离。若满足这个距离小于给定的参数d0,则把该条记录加入,并且修改dtotal的值,这个值也是公式(1)的分子部分。由此可知,当一个等价类内部的都是距离为1的疾病或者相同的疾病的时候,这时候会造成该等价类内部疾病类型过于单一,也就是等价类的平均语义距离过小,对于患者也是一种隐私泄露,可以被人猜测到疾病的器官,这种信息的泄露如果用来对一些针对性的产品推销或者诈骗都是比较危险的。通过对于d的约束,保证了每个等价类内部的疾病种类的多样性,从语义上区分开多种疾病之间的相似性,保证每个等价类内相似语义的减少,以避免泄露疾病部位这个敏感的信息。具体的d0值可以根据数据表的具体情况分析得到最佳值。
w是表示每个等价类的平均敏感度的一个参数,要求等价类中所有的疾病的敏感度权重的平均值小于等于预设阈值w0。设疾病的属性值按照敏感程度共分为m级,其中第1级的敏感程度最高,某一疾病a在整个数据集中的出现频率为fa,且处于敏感程度分级中的第n级,其敏感度权重wa由频率敏感度
Figure BDA0002864387210000071
和分级敏感度
Figure BDA0002864387210000072
进行加权得出。疾病a的分级敏感度
Figure BDA0002864387210000073
的计算公式如下:
Figure BDA0002864387210000074
如表2所示,假设将疾病等级分为4级,癌症和艾滋病都是最严重的n=1,哮喘的n=2,阑尾炎的n=3,流感的n=4;可以通过公式(2)计算出对应的权重值。
表2疾病分级敏感度权重示例
Figure BDA0002864387210000075
疾病a的频率敏感度
Figure BDA0002864387210000076
的计算公式如下:
Figure BDA0002864387210000077
其中,fmax是整个数据集中出现次数最多的疾病出现的频率,fmin是整个数据集中出现次数最少的疾病所出现的频率,疾病a的敏感度权重wa的计算公式如下:
Figure BDA0002864387210000078
其中α用来控制频率敏感度
Figure BDA0002864387210000079
与分级敏感度
Figure BDA00028643872100000710
的权重(默认取α=0.5)。
为了更好的表示泛化的相关信息,定义加权层次距离WHD。首先确定某一准标识符的一棵泛化树T,h代表树的高度,1,2,…,h-1,h,依次代表根节点到叶子节点的层次,这个泛化树可以根据不同属性的特点自己定义。其中用wdj,j-1表示节点j与j-1之间的权重(2≤j≤h)。当准标识符属性从p级泛化到q级时,其中p>q,则该泛化的加权层次距离定义为:
Figure BDA0002864387210000081
其中,
Figure BDA0002864387210000082
β为权重指数,β≥1。在定义了加权层次距离后,可以用它来表示一条记录泛化前后的距离,假设t1、t2为2条记录,t12表示2条记录泛化后相同的记录。Distortion(t1,t12)表示由t1泛化至t12的距离,t1中包含v个准标识符属性,level(vs)表示第s个准标识符属性泛化前的高度,level(v′s)表示第s个准标识符属性泛化后的高度,公式如下:
Figure BDA0002864387210000083
同样地,可以得到Distortion(t2,t12),进而可以来计算2条未泛化元组之间的距离,可用Dist来表示,具体定义如下:
Dist(t1,t2)=Distortion(t1,t12)+Distortion(t2,t12) (7)
在建立了模型之后,通过一个算法来实现相应的模型,完成最终匿名化。实现过程如图2所示。主要流程如下:
(1)分析整个数据集,数据集一般包含年龄、邮政编码、国籍、性别、教育程度、种族、疾病等信息,求出所需要的参数包括fmax、fmin等,根据语义层次树计算每种疾病之间的语义距离。
(2)对疾病基于语义分析,将疾病按照语义层次树上属于同一部位或者是处于第三层(若根节点为第一层)进行分类,相同则划分在一个桶里,生成语义哈希桶,然后对哈希桶按照元组个数进行降序排列。
(3)从记录数最大的哈希桶中任选一个记录作为等价类的初始质心,并根据距离初始质心最近的要求(即质心与该元组之间的Dist最小)依次选择k条记录,每次选择元组构成新的等价类都要计算等价类中的w平均权重值,如果满足就加入等价类,若不满足,则重新选择新元组。
(4)对初始等价类进行是否满足平均语义距离大于等于阈值d0的判断:若等价类满足,则构建满足要求的等价类成功。相反,就需要在等价类中加入新的元组。
(5)不断重复(3)、(4)步骤,直到最终不符合个性化(w,k,d)-匿名要求,整个数据集若最终仍然有极个别记录无法加入等价类的记录,则隐匿这些记录。
(6)针对符合个性化(w,k,d)-匿名约束的数据集,实施泛化处理,最终得到一张匿名表。

Claims (5)

1.一种医疗数据发布匿名化方法,其特征在于,包括以下步骤:
(1)分析整个数据集,求出所需要的参数fmax、fmin,其中fmax是整个数据集中出现次数最多的疾病出现的频率,fmin是整个数据集中出现次数最少的疾病所出现的频率,根据语义层次树计算疾病之间的语义距离;
(2)对疾病基于语义分析,生成语义哈希桶,将属于同一类别的疾病划分在一个桶里,对哈希桶按照元组个数进行降序排列;
(3)从记录数最大的哈希桶中任选一条记录作为等价类的初始质心,并计算其他记录与初始质心之间的距离Dist,选择距离Dist最小的前k条记录,构成初始等价类;
(4)向初始等价类中添加新记录,每次选择元组构成新的等价类都计算新等价类中疾病的平均权重值w,以及新等价类中的所有疾病之间的平均语义距离d,如果满足平均权重值w小于等于预设权重阈值w0,且平均语义距离d值大于等于给定距离阈值d0,则将选择的元组加入等价类,若不满足则重新选择元组;
(5)不断重复步骤(3)和(4),直到无法再向等价类中添加满足条件的记录,得到符合个性化(w,k,d)-匿名约束的等价类;
(6)针对符合个性化(w,k,d)-匿名约束的等价类,实施泛化处理,并且隐藏不符合要求的元组,最终得到一张匿名表。
2.根据权利要求1所述的医疗数据发布匿名化方法,其特征在于,所述平均语义距离d计算方法如下:
假设等价类原来已有r条记录,原来的等价类中疾病之间的总距离为dtotal,按如下公式计算出加入新的记录后所有疾病的平均距离
Figure FDA0002864387200000011
Figure FDA0002864387200000012
di,r+1为当前第r+1条记录的疾病与原等价类第i个疾病之间的距离。
3.根据权利要求2所述的医疗数据发布匿名化方法,其特征在于,所述dtotal通过将等价类中所有疾病的语义距离相加而得到,两种疾病之间的语义距离为语义层次树中最近公共祖先所在高度与叶子节点所在高度之差。
4.根据权利要求1所述的医疗数据发布匿名化方法,其特征在于,所述平均权重值w计算方法如下:
设疾病的属性值按照敏感程度共分为m级,其中第1级的敏感程度最高,某一疾病a在整个数据集中的出现频率为fa,且处于敏感程度分级中的第n级,其敏感度权重wa由频率敏感度
Figure FDA0002864387200000021
和分级敏感度
Figure FDA0002864387200000022
进行加权得出,对等价类中所有的疾病的敏感度权重求平均值,即为平均权重值w;
其中疾病a的分级敏感度
Figure FDA0002864387200000023
的计算公式如下:
Figure FDA0002864387200000024
疾病a的频率敏感度
Figure FDA0002864387200000025
的计算公式如下:
Figure FDA0002864387200000026
疾病a的敏感度权重wa的计算公式如下:
Figure FDA0002864387200000027
其中α用来控制频率敏感度
Figure FDA0002864387200000028
与分级敏感度
Figure FDA0002864387200000029
的权重。
5.根据权利要求1所述的医疗数据发布匿名化方法,其特征在于,所述距离Dist的计算方法如下:
令初始质心所在记录为t1,另一条记录为t2,t12表示2条记录泛化后相同的记录,Distortion(t1,t12)表示由记录t1泛化至t12的距离,Distortion(t2,t12)表示由记录t2泛化至t12的距离;
设记录t1中包含v个准标识符属性,可以得到每个准标识符属性的泛化树T,树的高度为h,1,2,…,h-1,h依次代表根节点到相应叶子节点的层次,level(vs)表示第s个准标识符属性泛化前的高度,level(v′s)表示第s个准标识符属性泛化后的高度,当第s个准标识符属性vs从level(vs)级泛化到level(v′s)级时,根据下式得到该泛化的加权层次距离:
Figure FDA00028643872000000210
其中wdj,j-1表示节点j与j-1之间的权重,
Figure FDA00028643872000000211
β为指数权重,β≥1,2≤j≤h;
根据下式计算记录t1泛化前后的距离:
Figure FDA00028643872000000212
根据与记录t1相同的计算方法,得到记录t2泛化前后的距离Distortion(t2,t12),按照下式得到记录t1和t2之间的距离Dist:
Dist(t1,t2)=Distortion(t1,t12)+Distortion(t2,t12)。
CN202011579236.7A 2020-12-28 2020-12-28 一种医疗数据发布匿名化方法 Active CN112632612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011579236.7A CN112632612B (zh) 2020-12-28 2020-12-28 一种医疗数据发布匿名化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011579236.7A CN112632612B (zh) 2020-12-28 2020-12-28 一种医疗数据发布匿名化方法

Publications (2)

Publication Number Publication Date
CN112632612A CN112632612A (zh) 2021-04-09
CN112632612B true CN112632612B (zh) 2022-09-23

Family

ID=75325791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011579236.7A Active CN112632612B (zh) 2020-12-28 2020-12-28 一种医疗数据发布匿名化方法

Country Status (1)

Country Link
CN (1) CN112632612B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360552A (zh) * 2021-06-03 2021-09-07 南方电网科学研究院有限责任公司 一种基于数据敏感等级的多维度图形化展示研究方法
CN114817977B (zh) * 2022-03-18 2024-03-29 西安电子科技大学 基于敏感属性值约束的匿名保护方法
CN114661680B (zh) * 2022-05-25 2022-08-12 蓝象智联(杭州)科技有限公司 一种私有数据隐匿共享方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512566B (zh) * 2015-11-27 2018-07-31 电子科技大学 一种基于k-匿名的健康数据隐私保护方法
CN108133146A (zh) * 2017-06-01 2018-06-08 徐州医科大学 基于二次划分的敏感属性l-diversity隐私保护方法
CN107766745B (zh) * 2017-11-14 2020-11-10 广西师范大学 层次数据发布中的分级隐私保护方法
CN110659513B (zh) * 2019-09-29 2022-12-06 哈尔滨工程大学 一种面向多敏感属性数据发布的匿名隐私保护方法
CN110807208B (zh) * 2019-10-31 2022-02-18 北京工业大学 一种满足用户个性化需求的k匿名隐私保护方法

Also Published As

Publication number Publication date
CN112632612A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112632612B (zh) 一种医疗数据发布匿名化方法
US11615288B2 (en) Secure broker-mediated data analysis and prediction
Harron et al. Methodological developments in data linkage
Sweeney Datafly: A system for providing anonymity in medical data
US20160071208A1 (en) Systems and Method for Improving Computation Efficiency in the Detection of Fraud Indicators for Loans with Multiple Applicants
TW201426578A (zh) 匿名資料集的產生方法及裝置與風險評估方法及裝置
US11182502B2 (en) Systems and methods for computing data privacy-utility tradeoff
CN111785384A (zh) 基于人工智能的异常数据识别方法及相关设备
CN113722611A (zh) 政务服务的推荐方法、装置、设备及计算机可读存储介质
Anjum et al. τ-safety: A privacy model for sequential publication with arbitrary updates
CN117521117B (zh) 一种医疗数据应用安全与隐私保护方法及系统
Sandbukt et al. Testing the Static-99R as a global screen for risk of sex crime recidivism in a Norwegian routine sample
Srijayanthi et al. Design of privacy preserving model based on clustering involved anonymization along with feature selection
Xu et al. Implications of data anonymization on the statistical evidence of disparity
Ganguly et al. A review of the role of causality in developing trustworthy ai systems
Sangaiah et al. Privacy-aware and ai techniques for healthcare based on k-anonymity model in internet of things
Zhang et al. Differential privacy medical data publishing method based on attribute correlation
Laqueur et al. Machine learning analysis of handgun transactions to predict firearm suicide risk
Orooji et al. Flexible adversary disclosure risk measure for identity and attribute disclosure attacks
Putra et al. Determination of the Precaution Covid-19 Pandemic (PCP) Level Based on Dominant and Priority of Symptoms
Podoliaka et al. Privacy Attacks Based on Correlation of Dataset Identifiers: Assessing the Risk
Agarwal et al. Data and Model Privacy
Putra et al. Determination of the precaution Covid‐19 (PCP) level in the adjoined Covid‐19 monitoring area
Mishra et al. Accurate Cardiac Arrest Risk Forecasting with Ensemble Learning
Yang et al. VRIL: A Tuple Frequency-based Identity Privacy Protection Framework for Metaverse

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant