CN112632612B

CN112632612B - 一种医疗数据发布匿名化方法

Info

Publication number: CN112632612B
Application number: CN202011579236.7A
Authority: CN
Inventors: 郭永安; 冷建宇; 乔露雨; 朱洪波; 杨龙祥
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-09-23
Anticipated expiration: 2040-12-28
Also published as: CN112632612A

Abstract

本发明提出了一种医疗数据发布匿名化方法。通过构建(w,k,d)‑匿名模型，首先将不同疾病敏感结合实际评判标准给出不同的敏感度评分，利用评分将敏感属性划分为不同的等级，计算每种疾病的权重值，限制每个等价类内的平均权重值小于给定的约束值w₀；其次，对这些疾病从语义层次的距离进行约束，保证语义上的多样性，要求等价类内的平均距离要大于给定的约束值d₀，最终实现敏感属性的个性化保护。该模型既从敏感等级这个维度上保护了严重疾病这个隐含属性的泄露，又从疾病语义分类这个维度上保护了疾病部位或者器官这个隐含属性的泄露，更好地针对疾病这个敏感属性进行了隐私保护。

Description

一种医疗数据发布匿名化方法

技术领域

本发明涉及医疗信息隐私保护，具体涉及一种医疗数据发布匿名化方法。

背景技术

随着云计算和大数据的发展，从数据中挖掘信息、发现规律、帮助决策已经得到越来越广的使用，这也使得数据已成为研究机构、企业、乃至国家争相获取和保护的资源。另一方面，由于这些数据往往包含个人不愿透露的敏感信息，加之个人信息的过度收集以及监管制度的不完善，使得个人隐私安全问题成为了阻碍数据开放共享和大数据发展的一大难题。为保护个人隐私安全，数据匿名化技术应运而生。例如，医院收集患者数据并将其共享到外部医疗中心，以帮助其进行医学研究。这种情况下需要保证用户的个人隐私信息不被泄露的同时能够分享有效的医疗数据，就可以使用数据匿名化的方式。

匿名化的概念被提出有一段时间了。Sweeney等人最早提出了首个匿名模型k-anonymity，其基本思想是“将个体身份隐藏在一个大小至少为k的组中，使该个体与其他至少k-1个个体不可区分”。这k条记录组成一个等价类。因此，满足k-anonymity的匿名数据集能够有效地防止基于准标识符的链接攻击。另一方面，k-anonymity虽然直观地给出了个体的最大身份披露风险为1/k，但是由于没有对敏感属性进行约束，使得攻击者仍能够根据目标个体所在等价类的敏感属性的分布特征对目标个体的敏感属性值进行推测。Machanavajjhala等人针对k-anonymity的缺陷，提出了l-diversity匿名模型，它要求等价类的敏感属性至少有l个“表现良好”的敏感属性值，该模型增加了对等价类中敏感属性的多样性要求，从而有效地防止了同质性攻击。然而，由于没有考虑敏感属性的分布以及不同敏感属性值之间的相似性，满足l-diversity的匿名数据集无法抵御相似性攻击。Li等人从敏感属性分布的角度出发，提出了t-closeness匿名模型。Li等人认为整个数据集中敏感属性值的分布信息不属于个人隐私，反而是有价值的信息，隐私泄露的根本原因在于个体记录所在等价类的敏感属性分布与整个数据集的敏感属性分布之间的差异。因此，t-closeness要求每个等价类的敏感属性分布与整个数据集的敏感属性分布之间的距离不超过t，从而有效地防止了相似性攻击，减少了攻击者从匿名数据集上获得的关于个体敏感属性的信息增益。Nergiz等人提出了δ-presence匿名模型，引出了存在性隐私披露的概念。δ-presence要求攻击者只能在一定的概率区间内确定目标个体的记录是否存在于数据集中，从而间接地限制了目标个体的身份披露风险和敏感属性披露风险。然而由于δ-presence假设数据发布者拥有和攻击者相同的外部公开数据集，因此不符合绝大多数的现实场景。

大多数匿名模型都没有针对医疗数据的特殊模型，由于没有考虑一些医疗数据的特点，所以没有做到很好的保护。很多由k-匿名延伸出来的模型都是对于敏感属性的种类或者出现频率做出了一些限制，来更好的保护敏感属性，大都是针对链接攻击的保护以及对于同质性攻击的保护。但是对于医疗数据，我们应该知道一种疾病包含的隐藏信息至少包含2层：疾病包含的隐藏信息包含了疾病的敏感程度，对于癌症和流感我们需要保护的程度是不一样的；疾病包含的隐藏信息也包含了患病的器官，这个信息的泄露也会给个人带来一系列的困扰，所以建立一种既从敏感属性分级也从敏感属性基于语义分类的模型就对于疾病相关的隐私保护尤为迫切。

发明内容

发明目的：针对现有技术的不足，本发明提出一种医疗数据发布匿名化方法，通过构建(w,k,d)-匿名模型，同时从敏感属性分级和敏感属性基于语义分类两方面对于疾病相关的数据表进行隐私保护。

技术方案：一种医疗数据发布匿名化方法，包括以下步骤：

(1)分析整个数据集，求出所需要的参数f_max、f_min，其中f_max是整个数据集中出现次数最多的疾病出现的频率，f_min是整个数据集中出现次数最少的疾病所出现的频率，根据语义层次树计算疾病之间的语义距离；

(2)对疾病基于语义分析，生成语义哈希桶，将属于同一类别的疾病划分在一个桶里，对哈希桶按照元组个数进行降序排列；

(3)从记录数最大的哈希桶中任选一条记录作为等价类的初始质心，并计算其他记录与初始质心之间的距离Dist，选择距离Dist最小的前k条记录，构成初始等价类；

(4)向初始等价类中添加新记录，每次选择元组构成新的等价类都计算新等价类中疾病的平均权重值w，以及新等价类中的所有疾病之间的平均语义距离d，如果满足平均权重值w小于等于预设权重阈值w₀，且平均语义距离d值大于等于给定距离阈值d₀，则将选择的元组加入等价类，若不满足则重新选择元组；

(5)不断重复步骤(3)和(4)，直到无法再向等价类中添加满足条件的记录，得到符合个性化(w,k,d)-匿名约束的等价类；

(6)针对符合个性化(w,k,d)-匿名约束的等价类，实施泛化处理，并且隐藏不符合要求的元组，最终得到一张匿名表。

进一步地，所述平均语义距离d计算方法如下：

假设等价类原来已有r条记录，原来的等价类中疾病之间的总距离为d_total，按如下公式计算出加入新的记录后所有疾病的平均距离

d_i,r+1为当前第r+1条记录的疾病与原等价类第i个疾病之间的距离。

所述d_total通过将等价类中所有疾病的语义距离相加而得到，两种疾病之间的语义距离为语义层次树中最近公共祖先所在高度与叶子节点所在高度之差。

所述平均权重值w计算方法如下：

设疾病的属性值按照敏感程度共分为m级，其中第1级的敏感程度最高，某一疾病a在整个数据集中的出现频率为f_a，且处于敏感程度分级中的第n级，其敏感度权重w_a由频率敏感度

和分级敏感度

进行加权得出，对等价类中所有的疾病的敏感度权重求平均值，即为平均权重值w；

其中疾病a的分级敏感度

的计算公式如下：

疾病a的频率敏感度

的计算公式如下：

疾病a的敏感度权重w_a的计算公式如下：

其中α用来控制频率敏感度

与分级敏感度

的权重。

所述距离Dist的计算方法如下：

令初始质心所在记录为t₁，另一条记录为t₂，t₁₂表示2条记录泛化后相同的记录，Distortion(t₁,t₁₂)表示由记录t₁泛化至t₁₂的距离，Distortion(t₂,t₁₂)表示由记录t₂泛化至t₁₂的距离；

设记录t₁中包含v个准标识符属性，可以得到每个准标识符属性的泛化树T，树的高度为h，1,2,…,h-1,h依次代表根节点到相应叶子节点的层次，level(v_s)表示第s个准标识符属性泛化前的高度，level(v′_s)表示第s个准标识符属性泛化后的高度，当第s个准标识符属性v_s从level(v_s)级泛化到level(v′_s)级时，根据下式得到该泛化的加权层次距离：

其中wd_j,j-1表示节点j与j-1之间的权重，

β为指数权重，β≥1，2≤j≤h；

根据下式计算记录t₁泛化前后的距离：

根据与记录t₁相同的计算方法，得到记录t₂泛化前后的距离Distortion(t₂,t₁₂)，按照下式得到记录t₁和t₂之间的距离Dist：

Dist(t₁,t₂)＝Distortion(t₁,t₁₂)+Distortion(t₂,t₁₂)。

有益效果：本发明(w,k,d)匿名的建立，首先由专家将不同疾病敏感结合实际评判标准给出不同的敏感度评分，利用评分将敏感属性划分为不同的等级，计算每种疾病的权重值，限制每个等价类内的平均权重值小于给定的约束值w₀；其次，对这些疾病从语义层次的距离进行约束，保证语义上的多样性，要求等价类内的平均距离要大于给定的约束值d₀，最终实现敏感属性的个性化保护。该模型可以有效地保护数据表，由于把疾病从语义上进行区分，避免了相似性攻击，并且加上对于敏感等级的约束，避免了同质性攻击等问题。该模型的特点就是既从敏感等级这个维度上保护了严重疾病这个隐含属性的泄露，又从疾病语义分类这个维度上保护了疾病部位或者器官这个隐含属性的泄露，更好地针对疾病这个敏感属性进行了隐私保护。

附图说明

图1为本发明实施例提供的疾病语义层次树示意图；

图2为本发明实施例提供的医疗数据发布匿名化方法流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

为了促进对发明技术方案的理解，首先对描述中将出现的术语给出定义。这些术语包括：

标识符：唯一能够反映个体属性的标志，比如：身份证、姓名等。

准标识符：无法直接分辨出个体，但是能够利用外部表链接识别个体的属性。比如说：性别、生日等。

敏感属性：人们极力保护的个人隐私信息的属性，如：疾病、收入等。

元组：一条数组包含的所有内容，包括准标识符、标识符和敏感属性，也称为记录。

等价类：当多条数据记录在准标识符上不可区分时，称这些记录构成了一个等价类。

同质性攻击：指同一个等价类内敏感属性值完全相同，如果攻击者根据背景知识判断出某个体位于该等价类中，那么由于等价类中所有敏感属性完全一样就一定会造成敏感信息泄露。

链接攻击：知道个体的记录在该匿名数据集中，并通过关于目标个体准标识符的背景知识或外部数据集，对发布的匿名数据集进行链接。

相似性攻击：在等价类中，也许具有不同的敏感属性值，但是它们有着相似的语义，攻击者利用这一特点可以获取个体的隐私信息。

泛化：基于属性的泛化层次或分类树的概念，在泛化层次中，更高级别的属性值具有更加概括的含义，一般指用高层次的属性代替低层次属性。泛化的逆向操作称为特化。

本发明提供一种医疗数据发布匿名化模型：(w,k,d)-匿名模型，该模型同时从敏感属性分级和敏感属性基于语义分类两方面对于疾病相关的数据表进行隐私保护。

该模型主要参数有3个，也是以k-anonymity模型为基础构成的，其中的参数k表示在同一个等价类中至少包含k条记录，这是模型所要求的最基本内容。k值的设定可以根据数据集的大小具体确定，但k至少要保证大于等于2，理论上k值越大，保护效果更强，正常情况下为4到10这个区间即可。由于等价类的大小至少为k，因此通过准标识符链接到特定个人的概率(身份披露风险)至多为1/k。如表1所示，该表是一个3-anonymity数据表。这张表是由原始的数据表删除姓名后，再将年龄泛化到一个区间，进而保证至少一个等价类里面的所有准标识符都是一致的，进而避免了疾病这个敏感属性的泄露。表中简单的包含了2个等价类A、B，2个等价类中都至少包含了3条记录，所以可以称这个表为3-anonymity数据表。等价类即为除去敏感属性外，每条记录其它的准标识符信息是一致的，通过最终泛化的方式使得在准标识符上无法区分，有时也把在实现过程中但是未泛化的一组记录集合称为等价类。

表1 3-anonymity数据表示例

d参数是形容疾病语义之间的距离的一个参数，要求对一个等价类内的所有疾病之间的语义距离求平均，得到的值大于等于给定参数d₀。如图1所示，这是一张常见的疾病基于语义的分类树。所谓敏感属性语义层次树，指的是利用h高的树来反映不同敏感属性之间的语义关系，其中，1,2,…,h-1,h依次代表的是根节点到叶节点。子节点属于父节点中的子类，叶子节点代表一定的属性值。语义层次树是根据疾病的种类按照常见的分类方式进行分类形成的一种树形数据结构，通过对数据集中包含的疾病从属于人体的9大系统，在从各系统具体区分属于那个部位的疾病，在区分具体疾病的名字。举例说明，图1中的胃炎和胃溃疡同属胃病这个父节点之下，所以他们之间的语义距离可以用1来形容，也就是最近公共祖先所在高度与叶子节点所在高度之差即为两种疾病之间的语义距离。再比如胃炎和阑尾炎之间的最近公共祖先是消化系统，所以这两种疾病之间的距离为2；同理胃炎和骨折之间的最近公共祖先是疾病，所以语义距离为3。相同疾病之间的距离可以认为是0。当一条新的记录想要加入一个等价类时，假设等价类原来已有r条记录，原来的等价类中疾病之间的总距离为d_total，表示等价类中的每2条记录之间的语义层次距离之和，可以计算出加入新的记录后所有疾病的平均距离

计算公式如下：

d_i,r+1表示当前第r+1条记录的疾病与原等价类第i个疾病之间的距离。若满足这个距离小于给定的参数d₀，则把该条记录加入，并且修改d_total的值，这个值也是公式(1)的分子部分。由此可知，当一个等价类内部的都是距离为1的疾病或者相同的疾病的时候，这时候会造成该等价类内部疾病类型过于单一，也就是等价类的平均语义距离过小，对于患者也是一种隐私泄露，可以被人猜测到疾病的器官，这种信息的泄露如果用来对一些针对性的产品推销或者诈骗都是比较危险的。通过对于d的约束，保证了每个等价类内部的疾病种类的多样性，从语义上区分开多种疾病之间的相似性，保证每个等价类内相似语义的减少，以避免泄露疾病部位这个敏感的信息。具体的d₀值可以根据数据表的具体情况分析得到最佳值。

w是表示每个等价类的平均敏感度的一个参数，要求等价类中所有的疾病的敏感度权重的平均值小于等于预设阈值w₀。设疾病的属性值按照敏感程度共分为m级，其中第1级的敏感程度最高，某一疾病a在整个数据集中的出现频率为f_a，且处于敏感程度分级中的第n级，其敏感度权重w_a由频率敏感度

和分级敏感度

进行加权得出。疾病a的分级敏感度

的计算公式如下：

如表2所示，假设将疾病等级分为4级，癌症和艾滋病都是最严重的n＝1，哮喘的n＝2，阑尾炎的n＝3，流感的n＝4；可以通过公式(2)计算出对应的权重值。

表2疾病分级敏感度权重示例

疾病a的频率敏感度

的计算公式如下：

其中，f_max是整个数据集中出现次数最多的疾病出现的频率，f_min是整个数据集中出现次数最少的疾病所出现的频率，疾病a的敏感度权重w_a的计算公式如下：

其中α用来控制频率敏感度

与分级敏感度

的权重(默认取α＝0.5)。

为了更好的表示泛化的相关信息，定义加权层次距离WHD。首先确定某一准标识符的一棵泛化树T，h代表树的高度，1,2,…,h-1,h，依次代表根节点到叶子节点的层次，这个泛化树可以根据不同属性的特点自己定义。其中用wd_j,j-1表示节点j与j-1之间的权重(2≤j≤h)。当准标识符属性从p级泛化到q级时，其中p>q，则该泛化的加权层次距离定义为：

其中，

β为权重指数，β≥1。在定义了加权层次距离后，可以用它来表示一条记录泛化前后的距离，假设t₁、t₂为2条记录，t₁₂表示2条记录泛化后相同的记录。Distortion(t₁,t₁₂)表示由t₁泛化至t₁₂的距离，t₁中包含v个准标识符属性，level(v_s)表示第s个准标识符属性泛化前的高度，level(v′_s)表示第s个准标识符属性泛化后的高度，公式如下：

同样地，可以得到Distortion(t₂,t₁₂)，进而可以来计算2条未泛化元组之间的距离，可用Dist来表示，具体定义如下：

Dist(t₁,t₂)＝Distortion(t₁，t₁₂)+Distortion(t₂，t₁₂) (7)

在建立了模型之后，通过一个算法来实现相应的模型，完成最终匿名化。实现过程如图2所示。主要流程如下：

(1)分析整个数据集，数据集一般包含年龄、邮政编码、国籍、性别、教育程度、种族、疾病等信息，求出所需要的参数包括f_max、f_min等，根据语义层次树计算每种疾病之间的语义距离。

(2)对疾病基于语义分析，将疾病按照语义层次树上属于同一部位或者是处于第三层(若根节点为第一层)进行分类，相同则划分在一个桶里，生成语义哈希桶，然后对哈希桶按照元组个数进行降序排列。

(3)从记录数最大的哈希桶中任选一个记录作为等价类的初始质心，并根据距离初始质心最近的要求(即质心与该元组之间的Dist最小)依次选择k条记录，每次选择元组构成新的等价类都要计算等价类中的w平均权重值，如果满足就加入等价类，若不满足，则重新选择新元组。

(4)对初始等价类进行是否满足平均语义距离大于等于阈值d₀的判断：若等价类满足，则构建满足要求的等价类成功。相反，就需要在等价类中加入新的元组。

(5)不断重复(3)、(4)步骤，直到最终不符合个性化(w,k,d)-匿名要求，整个数据集若最终仍然有极个别记录无法加入等价类的记录，则隐匿这些记录。

(6)针对符合个性化(w,k,d)-匿名约束的数据集，实施泛化处理，最终得到一张匿名表。