CN110008748A

CN110008748A - 数据动态更新隐私保护方法及语义贴近度计算方法

Info

Publication number: CN110008748A
Application number: CN201910271659.3A
Authority: CN
Inventors: 王杰华; 陈虹云; 朱晓辉; 高瞻; 丁卫平
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-07-12

Abstract

本发明涉及数据动态更新隐私保护及语义贴近度计算方法，针对原始数据集T₀，原始数据集T₀得到的(α，k)匿名数据集T’，数据集T’包括k个等价类，其包含三个模块添加模块A(insert模块)，删除模块B(delete模块)，修改模块C(modify模块)；有益效果是：一方面，解决了现实生活中动态数据集发布的隐私保护问题；另一方面，通过计算语义贴近度，快速且准确地在等价类中定位，很大程度上提高效率。

Description

数据动态更新隐私保护方法及语义贴近度计算方法

技术领域

本发明属于隐私保护技术领域，尤其涉及一种数据发布中的隐私保护技术。

背景技术

在信息时代的背景下，大数据技术不断地发展，数据在日常生活当中变得尤为重要。在人们进行数据共享的同时，这些信息中的个人隐私也随之被共享，如果相关机构处理不当甚至是不采取任何措施直接进行发布，则会造成更多的隐私泄露。

随着医院信息化的飞速发展，大量纸质化的信息已逐步被电子化信息存储所替代，大量的数据被动态地存储在网络上。为了满足医疗信息共享和医学研究的需求，数据采集者需将已采集的数据信息进行整理发布。采集到的信息往往涉及到患者的个人隐私问题，如果不加以处理直接进行发布，将会造成大量隐私信息的泄露。

只有在数据发布前对其进行隐私保护处理，才能切实保证患者隐私信息的安全。在现实生活中，医疗机构的信息是不断更新的，仅进行一次匿名发布不能满足医学研究中动态更新集与匿名数据集同步统一的需求。目前，隐私匿名保护的研究主要集中于对静态数据的研究，而对于动态数据的研究还处于起步阶段。

(隐私信息):假设R(A)表示一个关系，其中A为属性，R为关系；假设Q为标识符属性，W为敏感属性并且满足条件Q∩W＝φ，V(Y)＝{V₁(A₁)，V₂(A₂)，...，V_n(A_n)}，V(Y)表示发布数据集关系的视图，S(P，W)表示发布的隐私信息。

在一般情况下，Q和W都是单属性，例如“张三的胃溃疡”，则是由“张三”和“胃溃疡”这两个单属性组合而成；“李四的社保号”，则是由“李四”和“社保号”两个单属性组合而成的。如果发布表中的属性都是单属性，则Q和W都是单属性。

(标识符属性，Identifier)：该类属性可以唯一标识个体的身份，例如：公民身份证号。

(准标识符属性，Quasi-identifierattribute，QI)：该类属性通过与外部信息相结合，可以唯一识别个体。例如：年龄和邮编等。

(敏感属性，Sensitive Attribute，SA)：该类属性包含个体隐私信息，如收入和疾病等。

(等价类，Equivalence class)：将匿名数据表T*划分为若干个数据集，E＝{e₁,e₂,...,e_n},|ei|≥k(i＝1,2,..,n)，|e_i|代表数据集e_i的大小，满足数据集e_i中每条记录在准标识符属性数据集上具有相同值的条件。【等面向数据库应用的隐私保护研究综述[J].计算机学报，2009】

数据匿名化技术包括泛化技术、隐匿技术、分割技术、交换技术；

泛化是指对原始数据集中的准标识符属性进行修改，使用不确定的范围来代替原始具体的数据。设原数据集T，泛化后数据集T’，对于任意元组都存在t∈T,t'∈T'，满足t[Ai]→t'[Ai],(1≤i≤n)，同时t[S]＝t'[S]。t[Ai]指元组t中的准标识符属性，t[S]指元组t中的敏感属性，t[Ai]→t'[Ai]是指对t[Ai]的泛化操作，泛化后敏感属性值不变。

如下表中，元组1{John，28，Carpenter，100100，Flu}进行泛化操作之后为{[20，29]，Blue-collar，1001**，Flu}。其中“John”为标识符属性，直接进行隐匿操作，“Flu”为敏感属性，保持不变。

医院病历记录

匿名数据表

在静态数据隐私保护方面，已经有很多研究成果。比如201110308034.3、201580084362.6专利公开的技术。

k-anonymity匿名模型是最早被提出的一种针对关系型数据的隐私保护模型。随后Terrovitis等人提出了(k，m)-anonymity隐私模型，通过泛化层次树来对数据进行泛化处理实现隐私保护。提出了(α，k)-匿名模型，为每个等价类的敏感值设置了统一的频率约束，要求每个等价类的任意一个敏感属性值出现的频率不大于α，满足了数据的多样性要求。但上述匿名模型都只适用于静态数据集的匿名发布。

在动态数据隐私保护方面，J.Byun等人最先对持续增长数据集的发布做了相应的研究，对于少量的数据先不进行发布，当满足一定数量之后再进行发布，但是存在延迟时间不确定、数据更新不及时的问题。胡秀金等人提出一种基于分类树的差分隐私保护下的动态集值型数据发布的算法。武毅等人提出了结合局部重编码泛化和隐匿技术提出了一种面向动态集值属性数据重发布的隐私保护模型，但在重发布中引入了相对较多的伪记录，数据失真度较高。

隐私保护通常是在数据发布或共享之前，采用数据抑制、数据泛化和数据隐匿等技术对数据集中的相关属性进行处理，使个人的标志信息与敏感数据失去关联，从而达到隐私保护的目的。

发明内容

[技术问题]

因此，发明结合语义贴近度的计算方法，在(α，k)-匿名模型基础上提出了一种针对医疗数据发布的支持数据动态更新的算法。

[技术方案]

为了解决上述问题，本发明采用如下技术方案：

数据动态更新隐私保护方法，

针对原始数据集T₀，原始数据集T0得到的(α，k)匿名数据集T’，数据集T’包括k个等价类；

A.当对(α，k)匿名数据集T’添加数据集T，数据集T包括m个元组t，其执行步骤为：

1.1计算元组t与等价类的语义贴近度，定位与元组t语义贴近度最大的等价类，进行相应的添加操作，

1.2当元组t添加完成，形成新(α，k)匿名数据集T*，判断新(α，k)匿名数据集T*是否满足(α，k)-匿名约束条件：

1.2.1满足，结束添加作业，

1.2.2不满足，添加伪记录，结束添加作业；

1.3输出数据集TT*；

B.当对(α，k)匿名数据集进行删除，其执行步骤为：

2.1输入删除条件

2.2将(α，k)匿名数据集T’或原始数据集T0中所有满足删除条件的元组删除，形成修改后的(α，k)匿名数据集T”，

2.3元组删除完成后，判断等价类个数是否小于k:

2.3.1满足，在(α，k)匿名数据集T”中选择与(α，k)匿名数据集T”中等价类语义贴近度最大的等价类，将两个等价类进行泛化合并，

2.3.2合并结束，判断是否满足(α，k)匿名约束：

2.3.2.1满足，结束删除作业，

2.3.2.2不满足，添加伪记录，结束删除作业；

2.4输出数据集TT*；

C.当对(α，k)匿名数据集进行修改，其执行步骤为：

3.1输入修改条件θ，

3.2当修改条件θ仅包含敏感属性时：

3.2.1根据修改条件θ，确定所述修改数据在(α，k)匿名数据集T’中所在等价类再进行修改，

3.2.2判断是否满足(α，k)匿名约束：

3.2.2.1满足，结束修改作业，

3.2.2.2不满足，添加伪记录，结束修改作业；

3.3当修改条件θ中包含标准标识符属性：

3.3.1执行B和A模块，

3.3.2判断是否满足(α，k)匿名约束：

3.3.2.1满足，结束修改作业，

3.3.2.2不满足，添加伪记录，结束修改作业；

3.4输出数据集TT*。

优选的，步骤3.3执行步骤为：

先执行模块B，再执行模块A。

优选的，语义贴近度计算方法为：针对(α，k)匿名数据集T’，数据集T，t为数据集T’中的元组，t’为数据集T的元组，对于任意元组t∈T,t'∈T'，只针对数值型属性，元组t与等价类e_j的语义贴近度记为SED(t,e_j)；

式中n代表等价类ej中数值型属性的个数，t[Ai]＝a，ej中的Ai的值在区间[b,c]上；当SED(t,ej)＝n时，SED(A_i)＝1,t[Ai]∈t'[Ai](1≤i≤n)，其中t’为ej中的任一元组。

优选的，B.当对(α，k)匿名数据集进行删除，其执行步骤为：

2.1输入删除条件

2.2判断删除条件是否只含敏感属性，

2.2.1满足，将(α，k)匿名数据集T’中只含敏感属性的元组删除，形成修改后的(α，k)匿名数据集T”，

2.2.2不满足，定位原始数据集T₀中满足删除条件的元组，进行泛化，然后从(α，k)匿名数据集T’删除，形成修改后的(α，k)匿名数据集T”，

2.3元组删除完成后，判断等价类个数是否小于k:

2.3.2合并结束，判断是否满足(α，k)匿名约束：

2.3.2.1满足，结束删除作业，

2.3.2.2不满足，添加伪记录，结束删除作业；

2.4输出数据集TT*。

优选的，步骤1.2.2步骤为：

添加伪记录，判断添加伪记录后(α，k)匿名数据集T*是否满足(α，k)-匿名约束条件：

1.2.2.1满足，结束添加作业；

1.2.2.2.不满足，继续添加伪记录，执行步骤1.2.2；

步骤2.3.2.2步骤为：

2.3.2.2.1满足，结束删除作业，

2.3.2.2.2不满足，继续添加伪记录，执行步骤骤2.3.2.2；

步骤3.3.2.2步骤为：

添加伪记录，判断是否满足(α，k)匿名约束：

3.3.2.2.1满足，结束修改作业，

3.3.2.2.2不满足，继续添加伪记录，执行步骤3.3.2.2。

数据动态更新隐私保护方法中所用的语义贴近度计算方法，

语义贴近度：针对第一数据集，第二数据集，t为第一数据集中的元组，t’第二数据集的元组，对于任意元组t∈T,t'∈T'，只针对数值型属性，元组t与等价类e_j的语义贴近度记为SED(t,e_j)；

[有益效果]

本发明的有益效果是：

1.一方面，解决了现实生活中动态数据集发布的隐私保护问题；另一方面，通过计算语义贴近度，快速且准确地在等价类中定位，很大程度上提高效率；

2.对准标识符进行匿名操作，并且要求匿名等价类中的记录数至少为k，这样就可以破坏个人与记录之间的匿名关系，从而可以达到隐私保护的目的。

附图说明

图1为本发明流程图；

图2为本发明添加模块A流程图；

图3为本发明删除模块B流程图；

图4为本发明修改模块C流程图；

具体实施方式

下面结合附图对本发明进行进一步说明：

对原始数据集T₀，原始数据集T₀得到的(α，k)匿名数据集T’，数据集T’包括k个等价类；其包含三个模块添加模块A(insert模块)，删除模块B(delete模块)，修改模块C(modify模块)；

1.2.1满足，结束添加作业，

1.2.2不满足，添加伪记录，结束添加作业；

1.3输出数据集TT*；

输入：(α，k)-匿名数据集T’，待添加数据集T；

待添加数据集T中有m个元组，T’中有n个等价类

输出：更新后的(α，k)-匿名数据集TT*

B.当对(α，k)匿名数据集进行删除，其执行步骤为：

2.1输入删除条件

2.3元组删除完成后，判断等价类个数是否小于k:

2.3.2合并结束，判断是否满足(α，k)匿名约束：

2.3.2.1满足，结束删除作业，

2.3.2.2不满足，添加伪记录，结束删除作业；

2.4输出数据集TT*；

①Delete模块伪代码实现

输入：原始数据集T，(α，k)-匿名数据集T’，删除条件

输出：更新后的(α，k)-匿名数据集TT’

C.当对(α，k)匿名数据集进行修改，其执行步骤为：

3.1输入修改条件θ，

3.2当修改条件θ仅包含敏感属性时：

3.2.2判断是否满足(α，k)匿名约束：

3.2.2.1满足，结束修改作业，

3.2.2.2不满足，添加伪记录，结束修改作业；

3.3当修改条件θ中包含标准标识符属性：

3.3.1执行B和A模块，

3.3.2判断是否满足(α，k)匿名约束：

3.3.2.1满足，结束修改作业，

3.3.2.2不满足，添加伪记录，结束修改作业；

3.4输出数据集TT*。

输入：原始数据集T，(α，k)-匿名数据集T’，修改条件

输出：更新后的(α，k)-匿名数据集TT’

一种优选的执行方式为：步骤3.3执行步骤为：

先执行模块B，再执行模块A。

其中，语义贴近度计算方法为：针对(α，k)匿名数据集T’，数据集T，t为数据集T’中的元组，t’为数据集T的元组，对于任意元组t∈T,t'∈T'，只针对数值型属性，元组t与等价类e_j的语义贴近度记为SED(t,e_j)；

模块B一种更具体的执行方式为，当对(α，k)匿名数据集进行删除，其执行步骤为：

2.1输入删除条件

2.2判断删除条件是否只含敏感属性，

2.3元组删除完成后，判断等价类个数是否小于k:

2.3.2合并结束，判断是否满足(α，k)匿名约束：

2.3.2.1满足，结束删除作业，

2.3.2.2不满足，添加伪记录，结束删除作业；

2.4输出数据集TT*。

步骤1.2.2步骤为：

1.2.2.1满足，结束添加作业；

1.2.2.2.不满足，继续添加伪记录，执行步骤1.2.2；

步骤2.3.2.2步骤为：

2.3.2.2.1满足，结束删除作业，

2.3.2.2.2不满足，继续添加伪记录，执行步骤骤2.3.2.2；

步骤3.3.2.2步骤为：

添加伪记录，判断是否满足(α，k)匿名约束：

3.3.2.2.1满足，结束修改作业，

3.3.2.2.2不满足，继续添加伪记录，执行步骤3.3.2.2。

数据动态更新隐私保护方法中所用的语义贴近度计算方法，

式中n代表等价类ej中数值型属性的个数，t[Ai]＝a，ej中的Ai的值在区间[b,c]上；当SED(t,ej)＝n时，SED(Ai)＝1,t[Ai]∈t'[Ai](1≤i≤n)，其中t’为ej中的任一元组。

本领域的技术人员可以明确，在不脱离本发明的总体精神以及构思的情形下，可以做出对于以上实施例的各种变型。其均落入本发明的保护范围之内。本发明的保护方案以本发明所附的权利要求书为准。

Claims

1.数据动态更新隐私保护方法，其特征在于：

针对原始数据集T0，原始数据集T0得到的(α，k)匿名数据集T’，数据集T’包括k个等价类；

1.2.1满足，结束添加作业，

1.2.2不满足，添加伪记录，结束添加作业；

1.3输出数据集TT*；

B.当对(α，k)匿名数据集进行删除，其执行步骤为：

2.1输入删除条件

2.3元组删除完成后，判断等价类个数是否小于k:

2.3.2合并结束，判断是否满足(α，k)匿名约束：

2.3.2.1满足，结束删除作业，

2.3.2.2不满足，添加伪记录，结束删除作业；

2.4输出数据集TT*；

C.当对(α，k)匿名数据集进行修改，其执行步骤为：

3.1输入修改条件θ，

3.2当修改条件θ仅包含敏感属性时：

3.2.2判断是否满足(α，k)匿名约束：

3.2.2.1满足，结束修改作业，

3.2.2.2不满足，添加伪记录，结束修改作业；

3.3当修改条件θ中包含标准标识符属性：

3.3.1执行B和A模块，

3.3.2判断是否满足(α，k)匿名约束：

3.3.2.1满足，结束修改作业，

3.3.2.2不满足，添加伪记录，结束修改作业；

3.4输出数据集TT*。

2.根据权利要求1所述的数据动态更新隐私保护方法，其特征在于：步骤3.3执行步骤为：

先执行模块B，再执行模块A。

3.根据权利要求1所述的数据动态更新隐私保护方法，其特征在于：

语义贴近度计算方法为：针对(α，k)匿名数据集T’，数据集T，t为数据集T’中的元组，t’为数据集T的元组，对于任意元组t∈T,t'∈T'，只针对数值型属性，元组t与等价类e_j的语义贴近度记为SED(t,e_j)；

式中n代表等价类ej中数值型属性的个数，t[Ai]＝a，ej中的Ai的值在区间[b,c]上；当SED(t,ej)＝n时，SED(Ai)＝1,t[Ai]∈t'[Ai](1≤i≤n)，其中t’为e_j中的任一元组。

4.根据权利要求1所述的数据动态更新隐私保护方法，其特征在于：

B.当对(α，k)匿名数据集进行删除，其执行步骤为：

2.1输入删除条件

2.2判断删除条件是否只含敏感属性，

2.2.2不满足，定位原始数据集T0中满足删除条件的元组，进行泛化，然后从(α，k)匿名数据集T’删除，形成修改后的(α，k)匿名数据集T”，

2.3元组删除完成后，判断等价类个数是否小于k:

2.3.2合并结束，判断是否满足(α，k)匿名约束：

2.3.2.1满足，结束删除作业，

2.3.2.2不满足，添加伪记录，结束删除作业；

2.4输出数据集TT*。

5.根据权利要求1所述的数据动态更新隐私保护方法，其特征在于：

步骤1.2.2步骤为：

1.2.2.1满足，结束添加作业；

1.2.2.2.不满足，继续添加伪记录，执行步骤1.2.2。

6.根据权利要求5所述的数据动态更新隐私保护方法，其特征在于：

步骤2.3.2.2步骤为：

2.3.2.2.1满足，结束删除作业，

2.3.2.2.2不满足，继续添加伪记录，执行步骤骤2.3.2.2。

7.根据权利要求6所述的数据动态更新隐私保护方法，其特征在于：

步骤3.3.2.2步骤为：

添加伪记录，判断是否满足(α，k)匿名约束：

3.3.2.2.1满足，结束修改作业，

3.3.2.2.2不满足，继续添加伪记录，执行步骤3.3.2.2。

8.权利要求1所述的数据动态更新隐私保护方法中所用的语义贴近度计算方法，其特征在于：

式中n代表等价类ej中数值型属性的个数，t[Ai]＝a，ej中的Ai的值在区间[b,c]上；当SED(t,e_j)＝n时，SED(A_i)＝1,t[Ai]∈t'[Ai](1≤i≤n)，其中t’为e_j中的任一元组。