CN113127924A

CN113127924A - 数据匿名方法与数据匿名系统

Info

Publication number: CN113127924A
Application number: CN202010401584.9A
Authority: CN
Inventors: 高铭智; 潘佑宣; 吕品慧; 吕姵萱; 王邦杰; 刘凯诚
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2019-12-30
Filing date: 2020-05-13
Publication date: 2021-07-16

Abstract

本公开提供了一种数据匿名方法与数据匿名系统。数据匿名方法包括以下步骤。获得一数据集。数据集包括数个直接识别栏位、数个间接识别栏位及数个事件纪录。各个事件纪录包括一活动及一时间戳记。将各个直接识别栏位的内容取代为一假名。通过一k匿名聚合算法这些间接识别栏位归类为数个等价类。根据时间戳记串接对应于各个直接识别栏位的该些活动，以获得数个事件序列。根据这些事件序列之间的数个编辑距离，获得一近似度阶层树。根据近似度阶层树，以k匿名的方式聚合这些事件序列，以获得至少一群组。概化群组的这些事件序列。

Description

数据匿名方法与数据匿名系统

技术领域

本公开有关于一种数据匿名方法与数据匿名系统。

背景技术

数据集可能会含有直接识别栏位(direct-identifier)、间接识别栏位(quasi-identifier，indirect-identifier)及事件纪录(event log)。k匿名算法(k-anonymityalgorithm)可以进行数据匿名。对于直接识别栏位，k匿名算法将直接识别栏位取代为假名(pseudonym)。对于间接识别栏位，k匿名算法将间接识别栏位归类为数个等价类(equivalence class)，并概化这些等价类，直到各个等价类之数据量大于k。然而，对应于相同直接识别栏位的事件纪录可以被串接为事件序列(event sequence)。事件序列的变化大于事件纪录的变化。如果对事件序列执行上述的步骤，将会损失相当多的信息。

公开内容

本公开是有关于一种数据匿名方法与数据匿名系统。具有间接识别栏位(quasi-identifier)与事件纪录(event log)的数据集可以在不损失过多信息的前提下进行匿名化处理。

根据本公开的一实施例，提出一种数据匿名方法(data anonymity method)。数据匿名方法包括以下步骤。获得数据集。数据集包括数个直接识别栏位(direct-identifier)、数个间接识别栏位(quasi-identifier)及数个事件纪录(event log)。各个事件纪录包括活动(activity)及时间戳记(timestamp)。将各个直接识别栏位的内容取代为假名(pseudonym)。通过k匿名聚合算法(group-by algorithm with k-anonymity)将这些间接识别栏位归类为数个等价类。各个等价类具有大于k的数据量。根据时间戳记串接对应于各个直接识别栏位的该些活动，以获得数个事件序列。根据这些事件序列之间的数个编辑距离(edit distance)，获得近似度阶层树(similarity hierarchy tree)。根据近似度阶层树，以k匿名的方式聚合这些事件序列，以获得至少一群组。群组具有大于k的数据量。概化群组的这些事件序列。

根据本公开的一实施例，提出一种数据匿名系统(data anonymity system)。数据匿名系统包括输入单元、假名化单元(pseudonym unit)、归类单元、串接单元、建树单元、聚合单元(grouping unit)及概化单元(generalizing unit)。输入单元用以获得数据集。数据集包括数个直接识别栏位(direct-identifier)、数个间接识别栏位(quasi-identifier)及数个事件纪录(event log)。各个事件纪录包括活动(activity)及时间戳记(timestamp)。假名化单元用以将各个直接识别栏位的内容取代为假名(pseudonym)。归类单元用以通过k匿名聚合算法(group-by algorithm with k-anonymity)将这些间接识别栏位归类为数个等价类。各个等价类具有大于k的数据量。串接单元用以根据时间戳记串接对应于各个直接识别栏位的这些活动，以获得数个事件序列。建树单元用以根据这些事件序列之间的数个编辑距离(edit distance)，获得近似度阶层树(similarity hierarchytree)。聚合单元根据近似度阶层树，以k匿名的方式聚合这些事件序列，以获得至少一群组。群组具有大于k的数据量。概化单元用以概化群组的这些事件序列。

为了对本公开的上述及其他方面有更佳的了解，下文特举实施例，并配合所附图式详细说明如下：

附图说明

图1绘示根据一实施例的数据匿名系统(data anonymity system)的方块图；

图2绘示根据一实施例的数据匿名方法的流程图；

图3绘示根据一实施例的数据集；

图4绘示直接识别栏位已被取代的数据集；

图5绘示间接识别栏位已被概化且活动已被串接的数据集；

图6绘示出近似度阶层树(similarity hierarchy tree)；

图7～图9示例说明根据一实施例的步骤S140；

图10示例说明步骤S150；

图11绘示数据量为6的群组；

图12示例说明不同数据匿名方法的信息损失；

图13绘示根据另一实施例的数据匿名方法的流程图；

图14示例说明图13的各步骤。

附图标记说明

1000：数据匿名系统

110：输入单元

111：假名化单元

112：归类单元

120：串接单元

130：建树单元

140：聚合单元

150：概化单元

AT：活动

a0-a1：第六阶群集

b0-b1：第五阶群集

c0-c2：第四阶群集

C1，C2：曲线

c11，c12，c1138：第一中心

c21，c22，c223：第二中心

d0，d7：第三阶群集

DI：直接识别栏位

DS：数据集

e0-e23：第二阶群集

EC：等价类

EL：事件纪录

f0-f138：第一阶群集

G1，G2，G3，G4：群组

QI：间接识别栏位

S110，S111，S112，S120，S130，S140，S150，S210，S220，S230：步骤

SQ：事件序列

TT：时间戳记

TTS：时间戳记序列

TR：近似度阶层树

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

请参照图1，其绘示根据一实施例的数据匿名系统(data anonymity system)1000的方块图。数据匿名系统1000包括输入单元110、假名化单元(pseudonym unit)111、归类单元112、串接单元120、建树单元130、聚合单元(grouping unit)140及概化单元(generalizing unit)150。输入单元110例如是无线传输模块、数据传输线、读卡机或数据总线。假名化单元111、归类单元112、串接单元120、建树单元130、聚合单元140及概化单元150例如是电路、芯片、电路板数组程序码或储存程序码的储存装置。在数据匿名系统1000中，建立了近似度阶层树(similarity hierarchy tree)TR来辅助数个事件序列(eventsequence)SQ的聚合程序，使得事件序列SQ可以被概化。以下通过流程图详细说明数据匿名系统1000的各元件的运作。

请参照图2，其绘示根据一实施例的数据匿名方法的流程图。在步骤S110中，输入单元110获得数据集DS。数据集DS包括数个直接识别栏位(direct-identifier)DI、数个间接识别栏位(quasi-identifier)QI及数个事件纪录(event log)EL。请参照图3，其绘示根据一实施例的数据集DS。在图3之例子中，各个事件纪录EL包括活动(activity)AT及时间戳记(timestamp)TT。举例来说，直接识别栏位DI例如是身分证号码或姓名；活动AT例如是就医过程；间接识别栏位QI例如是年龄。

接着，请参照图4，其绘示直接识别栏位DI已被取代的数据集DS。在步骤S111中，假名化单元111将各个直接识别栏位DI的内容取代为假名(pseudonym)。

然后，请参照图5，其绘示间接识别栏位QI已被概化且活动AT已被串接的数据集。在步骤S112中，归类单元112通过k匿名聚合算法(group-by algorithm with k-anonymity)将间接识别栏位QI归类为数个等价类(equivalence class)EC。各个等价类EC具有大于k的数据量。举例来说，间接识别栏位QI例如是“年龄为1、2、3、…、99”。在各个等价类EC中，间接识别栏位QI的内容是相同的。等价类EC例如是“年龄为20”、“年龄为25”；“年龄为30”、“年龄为35”，依此类推。“年龄为1、2、3、4、5”可以被合并为“年龄为5”；“年龄为6、7、8、9、10”可以合并为“年龄为10”；“年龄为11、12、13、14、15”可以被合并为“年龄为15”；依此类推。“年龄为1、2、3、…、99”被归类为“年龄为5、10、15、20、25、…、90、95”。

接着，在步骤S120中，串接单元120根据时间戳记TT串接对应于各个直接识别栏位DI的活动AT，以获得数个事件序列(event sequence)SQ。举例来说，“ER Registration”、“ER triage”、“ER Sepsis Triage”等活动AT通过“@”串接而获得“@ER Registration@ERtriage@ER Sepsis Triage”的事件序列SQ。在此步骤中，各个事件序列SQ的活动AT按时间顺序排列。举例来说，“ER Registration”、“ER triage”、“ER Sepsis Triage”按照时间记录，所以事件序列SQ记录为“@ER Registration@ER triage@ER Sepsis Triage”。

接着，请参照图6，其绘示出近似度阶层树(similarity hierarchy tree)TR。在步骤S130，建树单元130根据事件序列SQ之间的数个编辑距离(edit distance)，获得近似度阶层树TR。编辑距离为量化两个字符串的不相似程度的一种方法，其计算某一字符串转换成另一字符串的最少操作数。若某些事件序列SQ之间的编辑距离小于一预定值，则将这些事件序列SQ归类为同一群集。

请参照图6，所有的事件序列SQ被归类为数个第一阶群集(first level cluster)f0、f1、…、f138。第一阶群集f0、f1、…、f138的数据量相近。第一阶群集f0、f1、…、f138分别具有第一中心c11、c12、…、c1138。第一中心c11、c12、…、c1138分别为第一阶群集f0、f1、…、f138之中位数。

第一中心c11、c12、…、c1138被归类为数个第二阶群集(second level cluster)e0、e1、…、e23。第二阶群集e0、e1、…、e23的数据量相近。第二阶群集e0、e1、…、e23分别具有第二中心c21、c22、…、c223。第二中心c21、c22、…、c223分别为第二阶群集e0、e1、…、e23之中位数。

第二中心c21、c22、…、c223被归类为数个第三阶群集(third level cluster)d0、…、d7。第三阶群集d0、…、d7的数据量相近。接下来的阶层也采取此方式来建构。

然后，请参照图7～图9，其示例说明根据一实施例的步骤S140。在步骤S140中，聚合单元140根据近似度阶层树TR，以k匿名的方式聚合事件序列SQ，以获得至少一群组。各个群组具有大于k的数据量。举例来说，k例如是3。

如图7的例子所示，在“年龄为20”的等价类EC中，存在6种事件序列SQ(“@ERRegistration@ER Triage@CRP@LacticAcid@Leuc...”、“@ER Registration@ER Triage@CRP@Leucocytes@ER S…”、“@ER Registration@ER Triage@ER Sepsis Triage@”、“@ERRegistration@ER Triage@ER Sepsis Triage@IV...”、“@ER Registration@ER Triage@ERSepsis Trage@Le...”、“@ER Registration@ER Triage@Leucocytes@CRP@Lact...”)。聚合单元140聚合数据量最多的5个相同的事件序列SQ(即“@ER Registration@ER Triage@ERSepsis Triage@”)，以获得群组G1。群组G1的数据量大于k(k例如是3)。在聚合这5个相同事件序列SQ(即“@ER Registration@ER Triage@ER Sepsis Triage@”)之后，来剩下6个事件序列SQ(即“@ER Registration@ER Triage@CRP@LacticAcid@Leuc...”、“@ERRegistration@ER Triage@CRP@Leucocytes@ER S…”、“@ER Registration@ER Triage@ERSepsis Triage@IV...”、“@ER Registration@ER Triage@ER Sepsis Trage@Le...”、“@ERRegistration@ER Triage@Leucocytes@CRP@Lact...”)。

请参照图8，对于“年龄为20”的等价类EC而言，剩余的这6个事件序列SQ个别被标示出第一阶群集f0～f138的其中之一。举例来说，“@ER Registration@ER Triage@CRP@LacticAcid@Leuc...”被标示为第一阶群集f14；“@ER Registration@ER Triage@ERSepsis Triage@Le...”被标示为第一阶群集f83；“@ER Registration@ER Triage@ERSepsis Triage@IV...”被标示为第一阶群集f54；依此类推。聚合单元140聚合被标示为第一阶群集f83的3个事件序列SQ(“@ER Registration@ER Triage@ER Sepsis Triage@Le...”、“@ER Registration@ER Triage@CRP@L@ER S...”、“@ER Registration@ERTriage@ER Sepsis Triage@Le...”)，以获得一群组G2(其数据量为3)。群组G2的数据量等于k(k＝3)。在根据第一阶群集f83聚合这3个事件序列SQ之后，还剩余3个事件序列SQ(“@ERRegistration@ER Triage@CRP@LacticAcid@Leuc...”、“@ER Registration@ER Triage@ERSepsis Triage@IV...”、“@ER Registration@ER Triage@Leucocytes@CRP@Lact...”)，其分别被标示为第一阶群集f14、f54、f121。

请参照图9，这3个剩余的事件序列SQ(“@ER Registration@ER Triage@CRP@LacticAcid@Leuc...”、“@ER Registration@ER Triage@ER Sepsis Triage@IV...”、“@ERRegistration@ER Triage@Leucocytes@CRP@Lact...”)被个别标示为第二阶群集e0～e23的其中之一。举例来说，“@ER Registration@ER Triage@CRP@LacticAcid@Leuc...”被标示为第二阶群集e7；“@ER Registration@ER Triage@ER Sepsis Triage@IV...”被标示为第二阶群集e7；“@ER Registration@ER Triage@Lecicytes@Lact...”被标示为第二阶群集e16。在这3个剩余的事件序列SQ中，第二阶群集e7的数量最多，其数量为2。但由于数量并未大于或等于k(k＝3)，故这3个剩余的事件序列SQ无法根据第二阶群集e7来进行聚合。

请参照图9，这3个剩余的事件序列SQ更被个别地标示为第三阶群集d0～d7的其中之一。举例来说，“@ER Registration@ER Triage@CRP@LacticAcid@Leuc...”被标示为第三阶群集d5；“@ER Registration@ER Triage@ER Sepsis Triage@IV...”被标示为第三阶群集d5；“@ER Registration@ER Triage@Lecicytes@Lact...”被标示为第三阶群集d5。聚合单元140聚合这3个标示为第三阶群集d5的事件序列SQ，以获得数据量为3的群组G3。

请参照图10，其示例说明步骤S150。如图9及图10所示，事件序列SQ被聚合为群组G1、群组G2及群组G3。在群组G1中，所有的事件序列SQ皆相同，故群组G1的事件序列SQ不需要概化。

如图9及图10所示，在步骤S150中，概化单元150概化群组G2之事件序列SQ。在群组G2中，“@ER Registration@ER Triage@ER Sepsis Triage@Le...”的数量为2，“@ERRegistration@ER Triage@CRP@Leucocytes@ER S…”的数量为1。“@ER Registration@ERTriage@ER Sepsis Triage@Le...”为数量最多者。故群组G2之各个事件序列SQ被取代为数量最多之“@ER Registration@ER Triage@ER Sepsis Triage@Le...”，“@ERRegistration@ER Triage@ER Sepsis Triage@Le...”为群组G2之概化序列(generalization sequence)。

如图9及图10所示，在步骤S150中，概化单元150概化群组G3之事件序列SQ。群组G3之各个事件序列SQ被取代为“@ER Registration@ER Triage@CRP@LacticAcid@Leuc....”、“@ER Registration@ER Triage@CRP@LacticAcid@Leuc....”为群组G3的概化序列。

如上所述，具有间接识别栏位QI及事件纪录EL的数据集DS可以在不损失过多信息的前提下进行匿名化处理。

倘若某一群组的数据量大于(n-1)×k且小于或等于n×k，则这个群组的事件序列SQ可以被取代为n个概化序列。举例来说，请参照图11，其绘示数据量为6的群组G4。在图11中，群组G4的数据量为6(6＝2×k)，故群组G4的事件序列SQ被取代为2个概化序列(即“@ERRegistration@ER Triage@ER Sepsis Triage@Le...”及“@ER Registration@ER Triage@CRP@Leucocyies@ER S...”)。

在另一例中，倘若某一群组的数据量为7(7大于(3—1)×k且小于3×k)，这个群组的事件序列SQ会被取代为3个概化序列。

请参照图12，其示例说明不同数据匿名方法的信息损失。曲线C1说明本公开的数据匿名方法的信息损失。曲线C2说明传统数据匿名方法的信息损失。如图12所示，对于任何k的数值，曲线C1的事件序列SQ的变化程度明显高于曲线C2的时间序列SQ的变化程度。因此，本公开的数据匿名方法的信息损失明显低于传统数据匿名方法的信息损失。

请参照图13及图14。图13绘示根据另一实施例之数据匿名方法的流程图，图14示例说明图13之各步骤。在一实施例中，时间戳记TT可以在不损失过多信息的前提下进行匿名化处理。在步骤S210中，概化单元150概化时间戳记TT。举例来说，“2019—3-26”、“2019-7-28”及“2019—10-30”分别被概化为“3”、“7”及“10”。

接着，在步骤S220中，串接单元120串接对应于各个直接识别栏位DI的时间戳记，以获得数个时间戳记序列(timestamps sequence)TTS，例如是“[3，7，10]”、“[2，4，9]”、“[1，3，11]”。

然后，在步骤S230中，概化单元150概化时间戳记序列TTS。举例来说，“[3，7，10]”、“[2，4，9]”及“[1，3，11]被取代为“[[1-4]，[7—11]]”。在此步骤中，[1-4]涵盖到所有的时间戳记序列TTS，并且[7—11]也涵盖到所有的时间戳记序列TTS。因此，“[[1-4]，[7—11]]”具有最小的信息损失。[t1，t2]的信息损失可以由下式(1)计算：

(t2-t1)/(时间戳记最大值-时间戳记最小值)………(1)

如上所述，时间戳记TT可以在不损失过多信息的前提下进行匿名化处理。

根据上述实施例，事件序列SQ及时间戳记序列TTS皆可以在不损失过多信息的前提下进行匿名化处理。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种数据匿名方法，包括：

获得数据集，该数据集包括多个直接识别栏位、多个间接识别栏位及多个事件纪录，各该事件纪录包括活动及时间戳记；

将各该直接识别栏位的内容取代为一假名；

通过k匿名聚合算法将该些间接识别栏位归类为多个等价类，各该等价类具有大于k的数据量；

根据该时间戳记串接对应于各该直接识别栏位的该些活动，以获得多个事件序列；

根据该些事件序列之间的多个编辑距离，获得近似度阶层树；

根据该近似度阶层树，以k匿名的方式聚合该些事件序列，以获得至少一群组，该至少一群组具有大于k的数据量；以及

概化该群组的该些事件序列。

2.根据权利要求1所述的数据匿名方法，其中在串接该些活动，以获得该些事件序列的步骤中，各该事件序列的该些活动按时间顺序排列。

3.根据权利要求1所述的数据匿名方法，其中在获得该近似度阶层树的步骤中，所有的该些事件序列被归类为该近似度阶层树的多个第一阶群集。

4.根据权利要求3所述的数据匿名方法，其中在获得该近似度阶层树的步骤中，各该第一阶群集具有第一中心，该些第一中心被归类为该近似度阶层树的多个第二阶层群集。

5.根据权利要求4所述的数据匿名方法，其中在获得该近似度阶层树的步骤中，各该第二阶群集具有第二中心，该些第二中心被归类为该近似度阶层树的多个第三阶群集。

6.根据权利要求1所述的数据匿名方法，其中在聚合该些事件序列的步骤中，对应于该近似度阶层树的同一阶群集的该些事件序列被聚合。

7.根据权利要求1所述的数据匿名方法，其中在概化该群组的该些事件序列的步骤中，该群组的各该事件序列被取代为概化序列。

8.根据权利要求7所述的数据匿名方法，其中在概化该群组的该些事件序列的步骤中，该些事件序列中重复最多者被选择为该概化序列。

9.根据权利要求1所述的数据匿名方法，其中在概化该群组的该些事件序列的步骤中，若该群组的数据量大于(n-1)×k且小于或等于n×k，则该群组的该些事件序列被取代为n个概化序列。

10.根据权利要求1所述的数据匿名方法，更包括：

概化该些时间戳记；

串接对应于各该直接识别栏位的该些时间戳记，以获得多个时间戳记序列；以及

概化该些时间戳记序列。

11.一种数据匿名系统，包括：

输入单元，用以获得数据集，该数据集包括多个直接识别栏位、多个间接识别栏位及多个事件纪录，各该事件纪录包括活动及时间戳记；

假名化单元，用以将各该直接识别栏位的内容取代为假名；

归类单元，用以通过k匿名聚合算法将该些间接识别栏位归类为多个等价类，各该等价类具有大于k的数据量；

串接单元，用以根据该时间戳记串接对应于各该直接识别栏位的该些活动，以获得多个事件序列；

建树单元，用以根据该些事件序列之间的多个编辑距离，获得近似度阶层树；

聚合单元，根据该近似度阶层树，以k匿名的方式聚合该些事件序列，以获得至少一群组，该至少一群组具有大于k的数据量；以及

概化单元，用以概化该群组的该些事件序列。

12.根据权利要求11所述的数据匿名系统，其中该串接单元按时间顺序排列各该事件序列的该些活动。

13.根据权利要求11所述的数据匿名系统，其中该建树单元将所有的该些事件序列归类为该近似度阶层树的多个第一阶群集。

14.根据权利要求13所述的数据匿名系统，其中在该近似度阶层树中，各该第一阶群集具有第一中心，该些第一中心被归类为该近似度阶层树的多个第二阶层群集。

15.根据权利要求14所述的数据匿名系统，其中在该近似度阶层树中，各该第二阶群集具有第二中心，该些第二中心被归类为该近似度阶层树之多个第三阶群集。

16.根据权利要求11所述的数据匿名系统，其中该聚合单元聚合对应于该近似度阶层树的同一阶群集的该些事件序列。

17.根据权利要求11所述的数据匿名系统，其中该概化单元将该群组的各该事件序列取代为概化序列。

18.根据权利要求17所述的数据匿名系统，其中该概化单元将该些事件序列中重复最多者选择为该概化序列。

19.根据权利要求11所述的数据匿名系统，其中若该群组的数据量大于(n-1)×k且小于或等于n×k，则该概化单元将该群组的该些事件序列取代为n个概化序列。

20.根据权利要求11所述的数据匿名系统，其中该概化单元更用以概化该些时间戳记，该串接单元更用以串接对应于各该直接识别栏位的该些时间戳记，以获得多个时间戳记序列，并且该概化单元更用以概化该些时间戳记序列。