CN109564616A

CN109564616A - 个人信息去标识化方法及装置

Info

Publication number: CN109564616A
Application number: CN201780048000.0A
Authority: CN
Inventors: 崔大祐; 劝祐奭; 黄明式; 金尚煜; 金基兑
Original assignee: Fasoo com Co Ltd
Current assignee: Fasoo com Co Ltd
Priority date: 2016-06-30
Filing date: 2017-06-27
Publication date: 2019-04-02
Also published as: US20220277106A1; EP3480721A1; JP6825016B2; JP2019527409A; WO2018004236A1; EP3480721A4; US11354436B2; US20190228183A1

Abstract

本发明公开一种个人信息的去标识化方法及装置。个人信息去标识化方法包括：从数据库获取包括记录的原始表格的步骤，该记录记入了表示个人信息的原始数据；针对包含于原始表格的各个记录记入的原始数据实施泛化，生成泛化数据的步骤；设定由原始数据和泛化数据组成的泛化层模型的步骤；基于泛化层模型，生成包括多个候选节点的原始晶格的步骤；以及设定包括至少一个候选节点的最终晶格的步骤，该至少一个候选节点是在包含于原始晶格的多个候选节点中符合预先设定的标准的候选节点。因此，本发明可以更有效地进行个人信息的去标识化。

Description

个人信息去标识化方法及装置

技术领域

本发明涉及一种数据处理技术，具体涉及一种基于遗传算法，对于包括个人信息在内的表格有效实施去标识化的技术。

背景技术

随着信息通信技术(例如，大数据相关技术)的发展，收集个人信息的技术、分析收集到的个人信息的技术等也得到了发展。个人信息包括居民身份证号码、住址、邮政编码、姓名、生年月日、性别、疾病、年薪等。如此，随着大数据技术的发展，个人信息可以应用于多种区域。例如，企业基于个人信息，针对特定消费者开展本公司商品、服务等的广告业务，由此，消费者从企业轻易地获取与本人需要的商品、服务相关的信息。

但是，盲目使用个人信息，可能会侵犯作为信息主体的个人的基本权利。要想解决这种弊端，可以考虑个人信息去标识化技术。去标识化技术是指删除或替代(即，针对表示个人信息的数据实施泛化)部分或全部个人信息，从而达到即使与其他数据结合也无法辨认特定个人的目的。针对个人信息实施去标识化时，根据泛化水平(level)，个人信息泛化范围也会有所不同。针对所有泛化水平分别实施个人信息去标识化时，会为了生成去标识化的个人信息消耗较多的时间。

并且，各个泛化水平在个人信息的可用性、再辨认危险性等方面也会有所不同。例如，针对个人信息中相对多的部分实施泛化时，分析去标识化的个人信息时，错误出现相对多，由此会削弱去标识化个人信息的可用性。反之，针对个人信息中相对少的部分实施泛化时，可能会相对容易地推测到或再辨认到去标识化的个人信息，由此会提高去标识化个人信息的再辨认危险性。

并且，为了针对个人信息实施去标识化，首先应该从数据库获取包括个人信息的表格。从数据库获取的表格包括各种各样的较多信息，在生成包含需要信息的表格的时候，会消耗较多的时间。

发明内容

技术问题

为了解决上述问题，本发明的目的是提供一种对于个人信息有效地实施去标识化的方法及装置。

为了解决上述问题，本发明的另一目的是提供一种对于包含个人信息的表格的记录设定属性的方法及装置。

解决问题的方案

为了达到上述目的，本发明一实施例中个人信息去标识化装置实施的个人信息去标识化方法包括：从数据库获取包括记录的原始表格的步骤，该记录记入了表示个人信息的原始数据；基于泛化水平，针对包含于所述原始表格的各个记录记入的原始数据实施泛化，生成泛化数据的步骤；设定由所述原始数据和所述泛化数据组成的泛化层模型的步骤；基于所述泛化层模型表示的层次结构，生成包括多个候选节点的原始晶格的步骤，该多个候选节点表示用于指出各类个人信息的泛化水平的表格；以及设定包括至少一个候选节点的最终晶格的步骤，该至少一个候选节点是在包含于所述原始晶格的所述多个候选节点中符合预先设定的标准的候选节点。

其中，所述个人信息去标识化方法还可包括：针对包含于所述原始表格的各个记录分别设定属性的步骤。

其中，所述属性可以划分为ID、QI、SA和IA；可以将记入有原始数据的记录设定为ID，该原始数据表示明确地辨认特定个人的个人信息；可以将记入有原始数据的记录设定为QI，该原始数据表示默认辨认特定个人的个人信息；可以将记入有原始数据的记录设定为SA，该原始数据表示敏感度高于预先设定的标准的个人信息；可以将记入有原始数据的记录设定为IA，该原始数据表示敏感度低于SA的个人信息。

其中，所述个人信息去标识化方法还可包括：针对包含于所述原始表格的记录中，所述属性设定为ID的记录，进行遮蔽处理的步骤。

其中，所述个人信息去标识化方法还可包括：依据原始数据表示的个人信息的种类设定所述泛化水平的步骤，该原始数据记入在包含于所述原始表格的记录中，所述属性设定为QI的记录。

其中，可以针对记入在包含于所述表格的记录中，所述属性设定为QI的记录的原始数据，依据泛化水平进行泛化。

其中，设定所述最终晶格的步骤可以包括：在包含于所述原始晶格的多个候选节点中选择至少一个候选节点的步骤；基于所述至少一个候选节点表示的泛化水平，对于所述原始表格实施去标识化，从而生成去标识化表格的步骤；将与符合预先设定的抑制标准的去标识化表格对应的候选节点设定为最终节点的步骤；以及设定包括所述最终节点的所述最终晶格的步骤，所述最终节点与符合所述预先设定的标准的候选节点相对应。

其中，所述去标识化表格可以以K-匿名性为基础生成，或者以所述K-匿名性和L-多元性为基础生成，或者以所述K-匿名性和T-接近性为基础生成。

其中，所述预先设定的抑制标准可以表示构成所述去标识化表格的相同群组中，不符合所述预先设定的K-匿名性的相同群组的比率。

其中，所述个人信息去标识化方法还可包括：计算与包含于所述最终晶格的至少一个最终节点对应的去标识化表格的再辨认危险性和有用性的步骤。

为了达到上述目的，本发明另一实施例的个人信息去标识化装置包括处理器以及用于保存通过所述处理器实施的至少一个指令的存储器；所述至少一个指令从数据库获取包括记入有表示个人信息的原始数据的记录的原始表格，基于泛化水平，对于分别记入在包含于所述原始表格的各个记录的原始数据实施泛化，从而生成泛化数据，设定由所述原始数据和所述泛化数据组成的泛化层模型，基于所述泛化层模型表示的层次结构，生成包括多个候选节点的原始晶格，而该多个候选节点表示用于指出各类个人信息泛化水平的表格，并设定包括至少一个候选节点的最终晶格，而该至少一个候选节点是包含于所述原始晶格的所述多个候选节点中符合预先设定的标准的候选节点。

其中，所述至少一个指令还可以分别设定包含于所述原始表格的各记录的属性。

其中，所述至少一个指令还可以针对包含于所述原始表格的记录中，所述属性设定为ID的记录进行遮蔽处理。

其中，所述至少一个指令还可以依据原始数据表示的个人信息的种类设定所述泛化水平，该原始数据记入在包含于所述原始表格的记录中，所述属性设定为QI的记录。

其中，可以针对记入在包含于所述表格的记录中，所述属性设定为QI的记录的原始数据，依据泛化水平实施泛化。

其中，所述至少一个指令在设定所述最终晶格时，可以在包含于所述原始晶格的多个候选节点中选择至少一个候选节点，基于所述至少一个候选节点表示的泛化水平，对于所述原始表格实施去标识化，从而生成去标识化表格，将与符合预先设定的抑制标准的去标识化表格对应的候选节点设定为最终节点，并且设定包括所述最终节点的所述最终晶格，而所述最终节点与符合所述预先设定的标准的候选节点相对应。

其中，所述至少一个指令还可计算与包含于所述最终晶格的至少一个最终节点对应的去标识化表格的再辨认危险性和有用性。

为了达到上述目的，本发明又另一实施例的个人信息去标识化装置实施的个人信息去标识化方法包括：基于分别记入在包含于原始表格的各记录的原始数据表示的各类个人信息的泛化水平，生成包括由表示各类个人信息泛化水平的至少一个节点组成的多个层次的原始晶格的步骤；在所述多个层次中，将层-n的任一节点设定为选择节点-1，将层-m的任一节点设定为选择节点-2的步骤；基于与所述选择节点-1和所述选择节点-2分别对应的去标识化表格的抑制值比率和预先设定的抑制临界值的对比结果，将所述原始晶格的任一节点分别设定为交叉节点和变异节点的步骤；以及设定由所述选择节点-1、所述选择节点-2、所述交叉节点和所述变异节点中与抑制值比率低于所述预先设定的抑制临界值的去标识化表格对应的节点组成的最终晶格的步骤，所述n和m分别是自然数，所述去标识化表格是基于与节点表示的泛化水平对应的数据，对于所述原始表格实施去标识化的结果，所述抑制值的比率是指构成所述去标识化表格的相同群组中，不符合预先设定的K-匿名性的相同群组的比率。

其中，在所述原始晶格内，所述选择节点-1可以与所述选择节点-2相连。

其中，所述层-n可以是在所述原始晶格的多个层次中，与最低层相距2/3的层，所述层-m可以是在所述原始晶格的多个层次中，与最低层相距1/3的层。

其中，与所述选择节点-1和所述选择节点-2分别对应的去标识化表格的抑制值比率低于所述预先设定的抑制临界值时，所述交叉节点可以设定为在所述多个层次中，所述层-m和最低层的间距的1/2的层的任一节点，所述变异节点可以设定为在所述多个层次，属于所述层-m的节点中，除了所述选择节点-2之外的任一节点。

其中，与所述选择节点-1对应的去标识化表格的抑制值比率低于所述事先设定的抑制临界值，与所述选择节点-2对应的去标识化表格的抑制值比率高于所述预先设定的抑制临界值时，所述交叉节点可以设定为在所述多个层次中，所述层-n和所述层-m的间距的1/2的层的任一节点，所述变异节点可以设定为在所述多个层次，属于所述层-n的节点中，除了所述选择节点-1之外的任一节点。

其中，与所述选择节点-1和所述选择节点-2分别对应的去标识化表格的抑制值比率高于所述预先设定的抑制临界值时，所述交叉节点可以设定为在所述多个层次中，所述层-n和最高层的间距的1/2的层的任一节点，所述变异节点可以设定为在所述多个层次，属于所述层-n的节点中，除了所述选择节点-1之外的任一节点。

其中，构成所述最终晶格的节点的数量可以是在所述多个层次中，包含节点最多的层的节点数量的x倍以上，所述x可以是大于0的实数。

为了达到上述目的，本发明又另一实施例的个人信息去标识化装置包括处理器以及用于保存通过所述处理器实施的至少一个指令的存储器；所述至少一个指令基于分别记入在包含于所述原始表格的各记录的原始数据表示的各类个人信息的泛化水平，生成包括由表示各类个人信息的泛化水平的至少一个节点构成的多个层次的原始晶格；在所述多个层次中，将层-n的任一节点设定为选择节点-1，将层-m的任一节点设定为选择节点-2；基于与所述选择节点-1和所述选择节点-2分别对应的去标识化表格的抑制值比率和预先设定的抑制临界值的对比结果，将所述原始晶格的任一节点分别设定为交叉节点和变异节点，并且，设定由所述选择节点-1、所述选择节点-2、所述交叉节点和所述变异节点中与抑制值比率低于所述预先设定的抑制临界值的去标识化表格对应的节点组成的最终晶格；所述n和m分别是自然数，所述去标识化表格是以与节点表示的泛化水平对应的数据为基础，对于所述原始表格实施去标识化的结果，而所述抑制值的比率是指在记入所述原始表格的记录的原始数据中，为生成所述去标识化表格设定为抑制值的比率。

其中，与所述选择节点-1和所述选择节点-2分别对应的去标识化表格的抑制值比率低于所述预先设定的抑制临界值时，所述交叉节点可以设定为在所述多个层次中，所述层-m和最低层的间隔的1/2的层的任一节点，所述变异节点可以设定为在所述多个层次，属于所述层-m的节点中，除了所述选择节点-2之外的任一节点。

其中，与所述选择节点-1对应的去标识化表格的抑制值比率低于所述预先设定的抑制临界值，与所述选择节点-2对应的去标识化表格的抑制值比率高于所述预先设定的抑制临界值时，所述交叉节点可以设定为在所述多个层次，所述层-n和所述层-m的间距的1/2的层的任一节点，所述变异节点可以设定为在所述多个层次，属于所述层-n的节点中，除了所述选择节点-1之外的任一节点。

其中，构成所述最终晶格的节点的数量可以是所述多个层次中包含节点最多的层的节点数量的x倍以上，所述x可以是大于0的实数。

为了达到上述目的，本发明又另一实施例的个人信息去标识化装置针对包括个人信息的表格的记录设定属性的方法包括：

设定为搜索所述个人信息以及设定所述记录的属性采用的常规表达式的步骤；设定所述表格的搜索对象范围的步骤；依据所述常规表达式，在所述表格中，所述搜索对象范围表示的区域内搜索所述个人信息的步骤；以及依据所述常规表达式设定记入所述个人信息的所述记录的属性的步骤。

其中，所述搜索对象范围可以表示构成所述表格的记录的数量。

其中，所述表格还包括非-个人信息，所述常规表达式可以用于搜索所述非-个人信息以及用于设定记入有所述非-个人信息的所述记录的属性。

其中，所述记录的属性可以划分为ID、QI、SA和IA。

其中，在设定所述记录的属性的步骤，可以将记入有明确辨认特定个人的个人信息的记录的属性设定为ID，可以将记入有默认辨认特定个人的个人信息的记录的属性设定为QI，可以将记入有敏感度高于预先设定标准的个人信息的记录的属性设定为SA，可以将记入有敏感度低于SA的个人信息的记录的属性设定为IA。

其中，设定所述记录的属性的方法还包括：设定是否针对记入在具有ID属性的记录的个人信息实施遮蔽处理的步骤。

为了达到上述目的，本发明又另一实施例的个人信息去标识化装置包括处理器以及用于保存通过所述处理器实施的至少一个指令的存储器；所述至少一个指令用于搜索个人信息以及设定包括所述个人信息的表格的记录的属性的常规表达式，设定所述表格的搜索对象范围，并依据所述常规表达式，在所述表格中，所述搜索对象范围表示的区域内搜索所述个人信息，并且，依据所述常规表达式，设定记入有所述个人信息的所述记录的属性。

其中，所述表格还可包括非-个人信息，所述常规表达式可以用于搜索所述非-个人信息以及用于设定记入有所述非-个人信息的所述记录的属性。

其中，所述记录的属性可以划分为ID、QI、SA和IA。

其中，设定所述记录的属性时，所述至少一个指令可以将记入有明确辨认特定个人的个人信息的记录的属性设定为ID，将记入有默认辨认特定个人的个人信息的记录的属性设定为QI，将记入有敏感度高于预先设定标准的个人信息的记录的属性设定为SA设定，将记入有敏感度低于SA的个人信息的记录的属性设定为IA。

其中，所述至少一个指令还可以设定是否针对记入在属性为ID的记录的个人信息实施遮蔽处理。

发明的效果

本发明对于与符合预先设定标准的泛化水平对应的个人信息实施去标识化，所以可以迅速实施去标识化程序。并且，可以提高去标识化个人信息的可用性，降低去标识化个人信息的再辨认危险性(或者去除个人信息的再辨认危险性)。

并且，可以考虑顾客的数据类型、使用目的等实施个人信息的去标识化，从而进一步提高去标识化个人信息的可用性。为个人信息的去标识化应用遗传算法，从而迅速实施个人信息的去标识化。

并且，可以有效(或者迅速)设定包含个人信息的表格的记录的属性，从而更迅速地实施个人信息的去标识化。

附图说明

图1是示出实施本发明方法的个人信息去标识化装置一实施例的方框图。

图2是示出个人信息去标识化方法一实施例的流程图。

图3是示出记录属性设定方法一实施例的流程图。

图4是示出表格一实施例的概念图。

图5是示出GH模型设定方法一实施例的流程图。

图6是示出针对邮政编码记录的GH模型一实施例的概念图。

图7是示出针对年龄记录的GH模型一实施例的概念图。

图8是示出针对国籍记录的GH模型一实施例的概念图。

图9是示出针对性别记录的GH模型一实施例的概念图。

图10是示出去标识化表格一实施例的概念图。

图11是示出去标识化表格另一实施例的概念图。

图12是示出原始晶格一实施例的概念图。

图13是示出最终晶格设定方法的流程图。

图14是示出包括遮蔽处理记录的表格的一实施例的概念图。

具体实施方式

实施发明的最佳形式

为了达到上述目的，本发明一实施例的个人信息去标识化装置实施的个人信息去标识化方法包括：从数据库获取包括记录的原始表格的步骤，该记录记入了表示个人信息的原始数据；基于泛化水平，针对包含于所述原始表格的各个记录记入的原始数据实施泛化，生成泛化数据的步骤；设定由所述原始数据和所述泛化数据组成的泛化层模型的步骤；基于所述泛化层模型表示的层次结构，生成包括多个候选节点的原始晶格的步骤，该多个候选节点表示用于指出各类个人信息的泛化水平的表格；以及设定包括至少一个候选节点的最终晶格的步骤，该至少一个候选节点是在包含于所述原始晶格的所述多个候选节点中符合预先设定的标准的候选节点。

本发明实施形态

本发明可以进行多种变更，也可以具备多种实施例，以下，参考附图举例详细说明特定实施例，但本发明不受特定实施形态的限制，应当理解为，包括在本发明的思想和技术范围的所有变更、等同物乃至替代物均包括在本发明的权利要求范围之内。

第一、第二等术语用于说明多种构成要素，但所述构成要素不应该受到所述术语的限制。所述术语只用于区别一构成要素和另一构成要素。例如，在不脱离本发明权利要求范围的前提下，第一构成要素可以命名为第2构成要素，与此类似，第二构成要素也同样命名为第1构成要素。以及/或者术语包括多个相关记载项目的组合或多个相关记载项目中的某一项。

提到某构成要素与其他构成要素“相连”或“接入”时，应当理解为，可以与其另一构成要素直接连接或接入，但也可以中间具备其他构成要素。与此相反，提到某构成要素与其他构成要素“直接连接”或“直接接入”时，应当理解为，中间不具备其他构成要素。

本发明使用术语的目的仅限于说明特定实施例，其目的并不在于限定本发明。在单数的表达上，只要文句里没有明确指出不相同，包括复数的表达。本发明中“包括”或“具备”术语应当理解为，在指出说明书上记载的特征、数字、步骤、动作、构成要素、部件或其组合，并不排除与一个或其以上其他特征或数字、步骤、动作、构成要素、部件或其组合的存在或添加。

只要没有做出其他定义，包括技术或科学术语在内，这里使用的所有术语的含义与本发明所属技术领域的技术人员通常理解的含义相同。含义与通常使用的字典里定义的含义相同的术语应当解释成与阐述相关技术的文句具有的含义相同，只要本发明里没有做出明确定义，不应当解释成理想化或过于形式化的含义。

以下，参考附图进一步详细说明本发明的优选实施例。在说明本发明的过程中，为了使整体理解更容易，对于附图上相同构成要素使用相同的参考符号，对于相同的构成要素，将省略重复说明。

如图1所示，个人信息去标识化装置100包括至少一个处理器110和存储器120。并且，个人信息去标识化装置100还包括与网络连接实施通信的网络接口装置130、输入接口装置140、输出接口装置150和保存装置160等。包含于个人信息去标识化装置100的各个构成要素通过总线170(bus)连接相互进行通信。个人信息去标识化装置100也可以简称为“去标识化装置100”。

处理器110可以实施保存在存储器120及/或保存装置160的程序指令(programcommand)。处理器110可以是中央处理器(central processing unit：CPU)、图形处理器(graphics processing unit：GPU)或者本发明中方法实施的专用处理器。存储器120和保存装置160由易失性存储介质及/或非易失性存储介质组成，例如，存储器120可以由读取专用存储器(read only memory：ROM)及/或随机存取存储器(random access memory：RAM)组成。

其中，去标识化装置100可以是台式计算机(desktop computer)、便携式计算机(laptop computer)、平板(tablet)PC、无线电话机(wireless phone)、移动手机(mobilephone)、智能手机(smart phone)等。

并且，详解去标识化装置100实施的方法(例如，信号的传输或接收)时，与其对应的其他装置仍然可以实施与去标识化装置100实施的方法相对应的方法(例如，信号的传输或接收)。即，详解去标识化装置100的动作时，与其对应的其他装置可以实施与去标识化装置100的动作相对应的动作。反之，详解其他装置的动作时，与其对应的去标识化装置100可以实施与其他装置的动作相应的动作。

图2是示出个人信息去标识化方法一实施例的流程图。

如图2所示，个人信息去标识化方法可以通过包括在参考图1说明的去标识化装置100(例如，去标识化装置100中包含的处理器110)实施。去标识化装置100从数据库(database)(或者CSV(comma-separated values)文件等)获取由多个记录(record)组成的表格(table)(S200)。表示个人信息的原始数据可以分别计入在多个记录。并且，表示除了个人信息之外的信息(以下，称作“非—个人信息”)的原始数据还可以分别计入在多个记录。数据库可以设置在去标识化装置100内，或者可以设置在其他装置(如服务器)内。

为了获取表格，去标识化装置100生成用于接入至数据库的接入信息(例如，IP(internet protocol)地址、端口(port)编码、ID(identifier)、SID(system ID)、密码等)。并且，接入信息通过去标识化装置100的输入接口装置140取至用户。去标识化装置100基于生成的接入信息，允许接入数据库时，从数据库获取由多个记录组成的表格。

去标识化装置100可以分别设定包含于表格的多个记录的各个属性(S210)，还可以按照以下方法设定记录的属性。

图3是示出记录属性设定方法一实施例的流程图。

如图3所示，去标识化装置100可以设定常规表达式(regular expression)(S211)。常规表达式用于搜索记入在表格的记录的个人信息、非-个人信息等。因此，去标识化装置100可以设定即将依据常规表达式得到搜索的个人信息的种类。个人信息的种类包括居民身份证号码(或护照号码、SSN(social security number))、姓名、住址、邮政编码、年龄、国籍、性别、疾病等。并且，去标识化装置100可以设定即将依据常规表达式得到搜索的非-个人信息的种类。非-个人信息的种类包括患者编号等。个人信息和非-个人信息的种类信息可以通过去标识化装置100的输入接口装置140取至用户。

并且，常规表达式可以用于设定记入有搜索到的个人信息、非-个人信息等的记录的属性。记录的属性可以划分为ID(identifier)、QI(quasi-identifier)、SA(sensitiveattribute)、IA(insensitive attribute)或者NSA(non-SA)等。ID可以表示明确(explicit)辨认特定个人的个人信息。只依据用ID设定的一条个人信息也可以辨认特定个人。例如，去标识化装置100可以设定将记入有居民身份证号码、姓名、住址等的记录的属性设定为ID的常规表达式。QI可以表示默认(non-explicit)辨认特定个人的个人信息。不能只依据设定为QI的一条个人信息辨认特定个人，但是可以通过设定为QI的一条个人信息和其他个人信息的组合进行辨认。例如，去标识化装置100可以以将记入有邮政编码、年龄、国籍、性别等的记录的属性设定为QJ的方式设定常规表达式。

SA可以表示要求保护的敏感性个人信息(例如，敏感度高于预先设定标准的个人信息)。用SA设定的个人信息被公开时，特定个人的信息安全上可能会发生问题。例如，去标识化装置100可以以将记入有疾病等的记录的属性设定为SA的方式设定常规表达式。IA可以表示敏感度不高的个人信息，或者，IA也可以表示具有的敏感度低于SA的个人信息。设定为IA的个人信息被公开时，特定个人的信息安全上不会发生问题。例如，去标识化装置100可以以将记入有邮政编码、年龄、国籍、性别等的记录的属性设定为IA的方式设定常规表达式。

去标识化装置100设定表格的搜索对象范围(S212)。搜索对象范围可以表示表格的部分区域，也可以在搜索对象范围表示的区域适用步骤S211中设定的常规表达式。即，只使用搜索对象范围内的原始数据，可以了解表格内所有原始数据表示的个人信息的种类(或非-个人信息的种类)，决定记入有原始数据的记录的属性。搜索对象范围可以表示记录的数量(例如，表格中横排(row)数量)。例如，可以将搜索对象范围设定为100个、1000个等。这里，可以根据需要省略步骤S212。搜索对象范围信息可以通过去标识化装置100的输入接口装置140取至用户。

去标识化装置100可以设定属性设定为ID的记录的处理方式(S213)。例如，属性设定为ID的记录的处理方式可以划分为以下方式：第一种处理方式，去标识化装置100可以从表格除去属性设定为ID的记录，从而使表格不包含属性设定为ID的记录；第二种处理方式，去标识化装置100可以对于记入在属性设定为ID的记录的原始数据实施遮蔽(masking)处理，从而使表格不包含属性设定为ID的记录等，将经过遮蔽处理的数据记入到属性设定为ID的记录；第三种处理方式，去标识化装置100可以直接沿用记入在属性设定为ID的记录的原始数据。

去标识化装置100可以在表格中依据搜索对象范围表示的区域适用常规表达式(S214)。例如，去标识化装置100可以依据常规表达式，在搜索对象范围内搜索相应于个人信息的原始数据，也可以确认与搜索到的原始数据相对应的个人信息的种类。去标识化装置100可以基于确认的个人信息的种类设定记录的属性。

进一步，去标识化装置100可以将包含于表格的居民身份证号码记录(即，记入有表示居民身份证号码的原始数据的记录)、姓名记录(即，记入有表示姓名的原始数据的记录)和住址记录(即，记入有表示住址的原始数据的记录)的属性设定为ID。属性设定为ID的记录可以称作“ID记录”，因此，ID记录可以包括居民身份证号码记录、姓名记录和住址记录。去标识化装置100可以将包含于表格的邮政编码记录(即，记入有表示邮政编码的原始数据的记录)、年龄记录(即，记入有表示年龄的原始数据的记录)、国籍记录(即，记入有表示国籍的原始数据的记录)和性别记录(即，记入有表示性别的原始数据的记录)的属性设定为QI。属性设定为QI的记录可以称作“QI记录”，因此，QI记录可以包括邮政编码记录、年龄记录、国籍记录和性别记录。

去标识化装置100可以将包含于表格的疾病记录(即，记入有表示疾病的原始数据的记录)的属性设定为SA。属性设定为SA的记录可以称作“SA记录”，因此，SA记录可以包括疾病记录。去标识化装置100可以将包含于表格的邮政编码记录、年龄记录、国籍记录和性别记录的属性设定为IA。属性设定为IA的记录可以称作“IA记录”，因此，IA记录可以包括邮政编码记录、年龄记录、国籍记录和性别记录。这里，可以将包含于表格的邮政编码记录、年龄记录、国籍记录和性别记录的属性设定为QI和IA。依据上述方法进行处理的表格如下。

图4是示出表格一实施例的概念图。

如图4所示，表格400可以包括多个记录。多个记录里分别记入的原始数据可以表示作为个人信息的居民身份证号码(或者护照号码、SSN)、姓名、住址、邮政编码、年龄、国籍、性别、疾病等。可以将构成表格400的居民身份证号码记录、姓名记录和住址记录设定为ID记录，将构成表格400的邮政编码记录、年龄记录、国籍记录和性别记录设定为QI记录，将构成表格400的疾病记录设定为SA记录，将构成表格400的邮政编码记录、年龄记录、国籍记录和性别记录设定为IA记录。

再参照图3，去标识化装置100可以依据步骤S213设定的处理方式处理属性设定为ID的记录。去标识化装置100通过输出接口装置150显示出包括设定完属性的多个记录的表格(S215)。这里，包含于表格的多个记录可以分别同时表示原始数据(即，个人信息)和设定的属性。去标识化装置100可以接收用户要求修改已设定属性的信息，基于接收到的信息修改该记录的属性。然后，去标识化装置100通过输出接口装置150显示出包括修改完属性的多个记录的表格。去标识化装置100可以接收用户确认完属性的信息，此时，可以实施下一步骤。这里，可以通过去标识化装置100的输入接口装置140接收要求修改属性的信息和确认完属性的信息。

再次参考图2时可知，去标识化装置100可以设定包含于表格的QI记录的泛化层(generalization hierarchy：GH)模型(model)(S220)。GH模型的设置方法如下。

图5是示出GH模型设定方法一实施例的流程图。

如图5所示，去标识化装置100可以设定记入在QI记录的原始数据的泛化水平(level)(S221)。去标识化装置100可以依据QI记录的种类(即，邮政编码记录、年龄记录、国籍记录、性别记录)设定泛化水平。例如，去标识化装置100可以将邮政编码记录泛化水平的范围设定为泛化水平-0至泛化水平-2，将年龄记录泛化水平的范围设定为泛化水平-0至泛化水平-3，将国籍记录泛化水平的范围设定为泛化水平-0至泛化水平-2，将性别记录泛化水平的范围设定为泛化水平-0至泛化水平-1。

各个泛化水平可以分别设定相同的原始数据泛化范围。例如泛化水平-1，以个位数设定泛化范围，表示年龄的“28”、“29”、“21”和“23”可以泛化成“2*”。例如泛化水平-2，以十位数设定泛化范围，表示邮政编码的“13053”和“13068”可以泛化成“130**”。

去标识化装置100可以将记入在QI记录的原始数据的泛化水平设定为泛化水平-0(S222)。然后，去标识化装置100可以以泛化水平的范围为基础，设定即将泛化的数据的范围，以即将泛化的数据的范围为基础，对于原始数据实施泛化，将泛化的数据设定为相应泛化水平(例如，泛化水平-1、泛化水平-2、泛化水平-3等)(S223)。实施泛化的数据的范围是泛化水平-0时最小，随着泛化水平变高变大。

去标识化装置100可以逐次连接泛化水平低的数据和泛化水平高的数据，从而生成GH模型(S224)。GH模型中，可在最低层安排与泛化水平-0相对应的原始数据，泛化水平-0上一层安排与泛化水平-1相对应的泛化数据，泛化水平-1上一层安排与泛化水平-2相对应的泛化数据，泛化水平-2上一层安排与泛化水平-3相对应的泛化数据。GH模型中，最高层的所有数据可以泛化成一个数据。GH模型的实施例如下。

图6是示出针对邮政编码记录的GH模型一实施例的概念图。

如图6所示，邮政编码记录的GH模型可以由泛化水平-0至泛化水平-2组成。记入在邮政编码记录的原始数据“13053”、“13068”、“14850”和“14853”的泛化水平可以设定为泛化水平-0。记入在邮政编码记录的原始数据中，“13053”和“13068”可以泛化成“130**”，经过泛化的数据“130**”的泛化水平可以设定为泛化水平-1。记入在邮政编码记录的原始数据中，“14850”和“14853”可以泛化成“148**”，经过泛化的数据“148**”的泛化水平可以设定为泛化水平-1。与泛化水平-1相对应的“130**”和“148**”可以泛化成“*****”(或者，“1****”)，经过泛化的数据“*****”(或者，“1****”)的泛化水平可以设定为泛化水平-2。邮政编码记录的GH模型不受上述内容的限制，可以设定成多种模式。

图7是示出针对年龄记录的GH模型一实施例的概念图。

如图7所示，年龄记录的GH模型可以由泛化水平-0至泛化水平-3组成。记入在年龄记录的原始数据“28”、“29”、“21”、“23”、“31”、“37”、“36”、“35”、“47”、“49”、“50”和“55”的泛化水平可以设定为泛化水平-0。记入在年龄记录的原始数据中，“28”、“29”、“21”和“23”可以泛化成“2*”，经过泛化的数据“2*”的泛化水平可以设定为泛化水平-1。记入在年龄记录的原始数据中，“31”、“37”、“36”和“35”可以泛化成“3*”，经过泛化的数据“3*”的泛化水平可以设定为泛化水平-1。记入在年龄记录的原始数据中，“47”和“49”可以泛化成“4*”，经过泛化的数据“4*”的泛化水平可以设定为泛化水平-1。记入在年龄记录的原始数据中，“50”和“55”可以泛化成“5*”，经过泛化的数据“5*”的泛化水平可以设定为泛化水平-1。

与泛化水平-1相对应的“2*”和“3*”可以泛化成“<40”，经过泛化的数据“<40”的泛化水平可以设定为泛化水平-2。与泛化水平-1相对应的“4*”和“5*”可以泛化成“≥40”，经过泛化的数据“≥40”的泛化水平可以设定为泛化水平-2。与泛化水平-2相对应的“<40”和“≥40”可以泛化成“**”，经过泛化的数据“**”的泛化水平可以设定为泛化水平-3。年龄记录的GH模型不受上述内容的限制，可以设定成多种模式。

图8是示出针对国籍记录的GH模型一实施例的概念图。

如图8所示，国籍记录的GH模型可以由泛化水平-0至泛化水平-2组成。记入在国籍记录的原始数据“韩国”、“日本”、“英国”和“德国”的泛化水平可以设定为泛化水平-0。记入在国籍记录的原始数据中，“韩国”和“日本”可以泛化成“亚洲”，经过泛化的数据“亚洲”的泛化水平可以设定为泛化水平-1。记入在国籍记录的原始数据中，“英国”和“德国”可以泛化成“欧洲”，经过泛化的数据“欧洲”的泛化水平可以设定为泛化水平-1。与泛化水平-1相对应的“亚洲”和“欧洲”可以泛化成“全世界”(或者，“**”)，经过泛化的数据“全世界”(或者，“**”)的泛化水平可以设定为泛化水平-2。国籍记录的GH模型不受上述内容的限制，可以设定成多种模式。

图9是示出针对性别记录的GH模型一实施例的概念图。

如图9所示，性别记录的GH模型可以由泛化水平-0和泛化水平-1组成。记入在性别记录的原始数据“男”和“女”的泛化水平可以设定成泛化水平-0。与泛化水平-0相对应的“男”和“女”可以泛化成“人类”(或者，“*”)，经过泛化的数据“人类”(或者，“*”)的泛化水平设定为泛化水平-1。性别记录的GH模型不受上述内容的限制，可以设定成多种模式。

再参照图2，去标识化装置100可以设定表格去标识化使用的参数(parameter)(以下，称作“去标识化参数”)(S230)。去标识化参数包括K-匿名性(anonymity)、L-多元性(diversity)、T-接近性(closeness)等。为表格的去标识化，可以采用K-匿名性、“K-匿名性+L-多元性”或者“K-匿名性+T-接近性”。因此，去标识化装置100基本上可以设定K-匿名性，还可以设定L-多元性或T-接近性。

进一步，去标识化装置100可以设定K-匿名性的K值。去标识化装置100也可以通过输入接口装置140从用户获取K-匿名性的K值，采用获得的K-匿名性的K值。K-匿名性的K值表示构成相同群组的横排数量。

其中，表格可以包括至少一个相同群组(equivalence class)，在一个相同群组中，ID记录表示相同数据(例如，原始数据、泛化数据)。即，记入有相同数据的ID记录和与该ID记录相关的其他记录(例如，QI记录、SA记录、IA记录等)可以构成一个相同群组。表格以K-匿名性为基础实施去标识化，K-匿名性的K值是4时(即，4-匿名性时)，去标识化的表格如下。

图10是示出去标识化表格一实施例的概念图。

如图10所示，相同群组可以分别包括邮政编码记录、年龄记录、国籍记录、性别记录和疾病记录。这里，如图10所示，去标识化的表格400可以是从图4所示表格400去除居民身份证号码记录、姓名记录和住址记录的表格。可以在各个相同群组，邮政编码记录可以表示相同数据，年龄记录可以表示相同数据。

例如，在相同群组-1中，邮政编码记录可以表示“130**”，年龄记录可以表示“<30”。在相同群组-2中，邮政编码记录尅表示“1485*”，年龄记录可以表示“≥40”。在相同群组-3中，邮政编码记录可以表示“130**”，年龄记录表示“3*”。

再参照图2，去标识化装置100可以设定L-多元性的L值。去标识化装置100也可以通过输入接口装置140从用户获取L-多元性的L值，采用获取的L-多元性的L值。L-多元性的L值可以是记入在分别属于表格内相同群组的SA记录的数据中相互不同的数据的数量。如图11所示，在经过去标识化的表格400内，相同群组-1中，L-多元性的L值可以是2(即，疾病记录表示的不同疾病的数量)，相同群组-2中，L-多元性的L值可以是3，相同群组-3中，L-多元性的L值可以是1。表格可以基于K-匿名性和L-多元性实施去标识化，K-匿名性的K值是4，而L-多元性的L值是3时(即，4-匿名性和3-多元性时)，经过去标识化的表格如下。

图11是示出去标识化表格另一实施例的概念图。

如图11所示，在经过去标识化的表格400，相同群组-1中，疾病记录可以表示3种不同疾病(即，胃炎、支气管炎、肺炎等)，相同群组-2中，疾病记录可以表示3种不同疾病(即，肺炎、胃炎、支气管炎)，相同群组-3中，疾病记录可以表示3种不同疾病(即，胃炎、支气管炎、肺炎)。

再次参考图2时可知，去标识化装置100可以设定T-接近性的T值。去标识化装置100也可以通过输入接口装置140从用户获取T-接近性的T值，采用获取的的T-接近性的T值。表格可以K-匿名性、L-多元性和T-接近性(或者，K-匿名性和T-接近性)为基础实施去标识化。T-接近性的T值可以是分别属于表格内相同群组的SA记录表示的数据的相互差距。例如，表格包括年薪记录时，对于表格实施去标识化，以使其在表格的各相同群组分别通过年薪记录表示的年薪之间的差距(即，相差)位于T-接近性T值以内。

去标识化装置100可以设定抑制值比率的临界值(以下，称作“抑制临界值”)(S240)。去标识化装置100也可以通过输入接口装置140从用户获取抑制临界值，采用获取的抑制临界值。抑制值比率可以表示经过去标识化的表格中不符合K-匿名性的相同群组的比率。抑制值比率也可以表示经过去标识化的表格中不符合K-匿名性的记录的比率。依据以下数学公式1计算抑制值比率。

【公式1】

抑制值比率(％)＝(去标识化表格中不符合K-匿名性的记录数量)/去标识化表格中总记录数量X100

以多元化值设定抑制临界值。例如，可以将抑制临界值设定为10％。

去标识化装置100可以基于GH模型生成原始晶格(lattice)(S250)。原始晶格可以包括多个节点，多个节点可以分别表示GH模型表示的泛化水平和与该泛化水平对应的记录。即，去标识化装置100可以设定用于表示GH模型表示的泛化水平和与该泛化水平对应的记录的节点，依据泛化水平的次序连接节点，从而生成原始晶格。基于图6所示邮政编码记录的GH模型、图7所示年龄记录的GH模型以及图9所示性别记录的GH模型生成的原始晶格如下。

图12是示出原始晶格一实施例的概念图。

如图12所示，原始晶格可以包括多个节点，可以由层-0至层-6组成。各层可以分别具备至少一个节点。例如，最低层(即，层-0)和最高层(即，层-6)分别具备一个节点。层-1和层-5可以分别具备3个节点。层-2可以具备5个节点。层-3和层-4可以分别具备6个节点。

其中，a₀可以表示图7所示GH模型中水平-0的年龄记录，a₁可以表示图7所示GH模型中水平-1的年龄记录，a₂可以表示图7所示GH模型中水平-2的年龄记录，a₃可以表示图7所示GH模型中水平-3的年龄记录。b₀可以表示图6所示GH模型中水平-0的邮政编码记录，b₁可以表示图6所示GH模型中水平-1的邮政编码记录，

b₂可以表示图6所示GH模型中水平-2的邮政编码记录。c₀表可以示图9所示GH模型中水平-0的性别记录，c₁可以表示图9所示GH模型中水平-1的性别记录。

因此，“a₀、b₀、c₀”节点可以表示水平-0的年龄记录、水平-0的邮政编码记录和层-0的性别记录。“a₁、b₀、c₀”节点可以表示水平-1的年龄记录、层-0的邮政编码记录和水平-0的性别记录。“a₁、b₁、c₀”节点表示水平-1的年龄记录、水平-1的邮政编码记录和水平-0的性别记录。

去标识化装置100应用遗传算法(genetic algorithm)，在原始晶格内设定最终晶格(S260)。最终晶格的设定方法如下。

图13是示出最终晶格设定方法的流程图。

如图13所示，去标识化装置100可以在图12所示原始晶格，将与最低层相距2/3的位置对应的层-4的节点中任一节点设定为选择节点A，将与最低层相距1/3的位置对应的层-2的节点中任一节点设定为选择节点B(S261)。选择节点A与选择节点B可以相连。例如，去标识化装置100将层-4的“a₂、b₂、c₀”节点设定为选择节点A，将层-2的“a₁、b₁、c₀”节点设定为选择节点B。

去标识化装置100对于分别对应选择节点A和选择节点B的表格实施去标识化(S262)。去标识化装置100可以生成符合上述步骤S230设定的去标识化参数(例如，K-匿名性、L-多元性、T-接近性)的去标识化表格。将针对与选择节点A相对应的表格实施去标识化的结果可以称作“去标识化表格A”，将针对与选择节点B相对应的表格实施去标识化的结果可以称作“去标识化表格B”。

去标识化装置100可以判断去标识化表格A和去标识化表格B的抑制值比率是否都低于抑制临界值(S263)。去标识化表格A和去标识化表格B的抑制值比率均低于抑制临界值时(以下，称作“例1”)，去标识化装置100按照如下方法设定最终晶格。

例1、最终晶格设定方法

去标识化装置100在原始晶格，可以将与选择节点B所属层-2和最低层(即，层-0)的间距的1/2的位置对应的层-1的节点中的任一节点设定为交叉节点，将层-2的节点中的除了选择节点B之外的任一节点设定为变异节点(S263-1)。例如，去标识化装置100可以将层-1的“a₀、b₁、c₀”节点设定为交叉节点，将层-2的“a₀、b₂、c₀”的节点设定为变异节点。

去标识化装置100可以针对与交叉节点和变异节点分别对应的表格实施去标识化(S266)。即，由于去标识化表格B的抑制值比率低于抑制临界值，与属于选择节点B上层的节点对应的表格可以不实施去标识化。去标识化装置100可以生成符合上述步骤S230设定的去标识化参数(例如，K-匿名性、L-多元性、T-接近性)的去标识化表格。

并且，去标识化装置100可以判断步骤S266生成的去标识化表格的抑制值比率是否低于抑制临界值。去标识化装置100可以计算(counting)符合“抑制值比率≤抑制临界值”的节点(例如，选择节点B、交叉节点、变异节点)的数量。

可以反复实施步骤S261至步骤S266，直到符合“抑制值比率≤抑制临界值”的节点(例如，选择节点B、交叉节点、变异节点)的数量比构成原始晶格的层中包含节点最多的层的节点数量(例如，图14中具有6个)的x倍多为止。这里，x可以是大于0的实数。例如，x可以设定为0.8、1或1.2。x不受上述内容的限制，可以设定成多种模式。

例如，可以将与选择节点B所属层-2和最低层(即，层-0)的间距的2/3的位置对应的层的任一节点设定为选择节点A’。并且，将与选择节点B所属层-2和最低层(即，层-0)的间距的1/3的位置对应的层的任一节点设定为选择节点B’。以选择节点A’和选择节点B’为基础，可以重新实施步骤S262至步骤S266。反复实施该过程，直到符合“抑制值比率≤抑制临界值”的节点的数量比构成原始晶格的层中包含节点最多的层的节点数量的x倍多为止。

去标识化装置100可以设定包括符合“抑制值比率≤抑制临界值”的节点(例如，选择节点B、交叉节点、变异节点等)的最终晶格(S267)。

另外，不相应于例1时，去标识化装置100可以判断去标识化表格A的抑制值比率是否低于抑制临界值，去标识化表格B的抑制值比率是否高于抑制临界值(S264)。去标识化表格A的抑制值比率低于抑制临界值，去标识化表格B的抑制值比率高于抑制临界值时(以下，称作“例2”)，去标识化装置100可以按照如下方法选择最终晶格。

例2、最终晶格设定方法

去标识化装置100可以在原始晶格，将与选择节点A所属层-4和选择节点B所属层-2的间距的1/2的位置对应的层-3的节点中任一节点设定为交叉节点，将层-4的节点中，除了选择节点A之外的任一节点设定为变异节点(S264-1)。例如，去标识化装置100可以将层-3的“a₁、b₁、c₁”的节点设定为交叉节点，层-4的“a₂、b₁、c₁”节点设定为变异节点。

去标识化装置100可以对于与交叉节点和变异节点分别对应的表格实施去标识化(S266)。即，由于去标识化表格B的抑制值比率高于抑制临界值，选择节点B下一层节点可以不实施去标识化。去标识化装置100可以生成符合上述步骤S230设定的去标识化参数(例如，K-匿名性、L-多元性、T-接近性)的去标识化表格。

并且，去标识化装置100可以判断步骤S266生成的去标识化表格的抑制值比率是否低于抑制临界值。去标识化装置100可以计算符合“抑制值比率≤抑制临界值”的节点(例如，选择节点A、交叉节点、变异节点)的数量。

可以反复实施步骤S261至步骤S266，直到符合“抑制值比率≤抑制临界值”的节点(例如，选择节点A、交叉节点、变异节点)的数量比构成原始晶格的层中包含节点最多的层的节点数量(例如，图14中具有6个)的x倍多为止。这里，x可以是大于0的实数。例如，x可以设定为0.8、1或1.2。x不受上述内容的限制，可以设定成多种模式。

例如，可以将与选择节点A所属层-4和选择节点B所属层-2的间距的2/3的位置对应的层的任一节点设定为选择节点A’。可以将与选择节点A所属层-4和选择节点B所属层-2的间距的1/3的位置对应的层的任一节点设定为选择节点B’。以选择节点A’和选择节点B’为基础，可以重新实施步骤S262至步骤S266。可以反复实施该过程，直到符合“抑制值比率≤抑制临界值”的节点的数量比构成原始晶格的层中包含节点最多的层的节点数量的x倍多为止。

去标识化装置100可以设定包括符合“抑制值比率≤抑制临界值”的节点(例如，选择节点A、交叉节点、变异节点等)的最终晶格(S267)。

另外，不相应于例1和例2时，去标识化装置100可以判断去标识化表格A和去标识化表格B各抑制值比率是否都高于抑制临界值(S265)。去标识化表格A和去标识化表格B的各抑制值比率都高于抑制临界值时(以下，称作“例3”)，去标识化装置100可以按照如下方法选择最终晶格。

例3、最终晶格设定方法

去标识化装置100在原始晶格，将与选择节点A所属层-4和最高层(即，层-6)的间距的1/2的位置对应的层-5的节点中任一节点设定为交叉节点，将层-4的节点中，除了选择节点A之外的任一节点设定为变异节点(S265-1)。例如，去标识化装置100可以将层-5的“a₃、b₁、c₁”节点设定为交叉节点，将层-4的“a₂、b₁、c₁”节点设定为变异节点。

去标识化装置100可以对于交叉节点和变异节点分别对应的表格实施去标识化(S266)。去标识化装置100可以生成符合上述步骤S230设定的去标识化参数(例如，K-匿名性、L-多元性、T-接近性)的去标识化表格。

并且，去标识化装置100可以判断步骤S266生成的去标识化表格的抑制值比率是否低于抑制临界值。去标识化装置100可以计算符合“抑制值比率≤抑制临界值”的节点(例如，交叉节点、变异节点)的数量。

可以反复实施步骤S261至步骤S266，直到符合“抑制值比率≤抑制临界值”的节点(例如，交叉节点、变异节点)的数量比构成原始晶格的层中包含节点最多的层的节点数量(例如，图14中具有6个)的x倍多为止。这里，x可以是大于0的实数。例如，x可以设定为0.8、1或1.2。x不受上述内容的限制，可以设定成多种模式。

例如，可以将与选择节点A所属层-4和最高层(即，层-6)的间距的2/3的位置对应的层的任一节点设定为选择节点A’。并且，可以将与选择节点A所属层-4和最高层(即，层-6)的间距的1/3的位置对应的层的任一节点设定为选择节点B’。以选择节点A’和选择节点B’为基础，可以重新实施步骤S262至步骤S266。可以反复实施该过程，直到符合“抑制值比率≤抑制临界值”的节点的数量比构成原始晶格的层中包含节点最多的层的节点数量的x倍多为止。

去标识化装置100设定包括符合“抑制值比率≤抑制临界值”的节点(例如，交叉节点、变异节点等)的最终晶格(S267)。

并且，去标识化装置100通过输出接口装置150显示出最终晶格，将最终晶格存储在保存装置160(或者，数据库)，并通过网络接口装置130将最终晶格传输到其他装置。

再次参考图2时可知，去标识化装置100针对记入在包含于去标识化表格的ID记录的原始数据的全部区域或部分区域进行遮蔽处理(S270)。例如，如果预先设定了记入在ID记录的原始数据中即将进行遮蔽处理的区域(例如，部分区域)，就可以针对预先设定的区域进行遮蔽处理。记入在ID记录的原始数据没有预先设定即将遮蔽处理的区域时，可以针对全部区域进行遮蔽处理。在个人信息去标识化方法中，步骤S270并不是必备步骤，可以根据需要取消。包括经过遮蔽处理的记录的表格的一实施例如下。

图14是示出包括遮蔽处理记录的表格的一实施例的概念图。

如图14所示，记入在包含于表格400的居民身份证号码记录的原始数据中，部分区域可以进行遮蔽处理。例如，记入在居民身份证号码记录的原始数据中，“-”之后的区域可以进行遮蔽处理。记入在包含于表格400的姓名记录的原始数据中，全部区域可以进行遮蔽处理。记入在包含于表格400的住址记录的原始数据中，部分区域可以进行遮蔽处理。例如，记入在住址记录的原始数据中，“首尔市”之后的区域可以进行遮蔽处理。

其次，以下说明用于表示去标识化表格的危险性的参数。

可以依据构成去标识化表格相同群组的横排数量的倒数表示再辨认危险性(re-identification risk)。再辨认危险性会随着构成相同群组的横排的最多数量、最少数量、平均数量发生变化。

依据以下数学公式2计算示例(sample)危险性。

【公式2】

示例危险性(％)＝相同群组的基数(cardinality)为1的记录数量/总记录数量X100

【Table 1】

示例比率	群组大小	群组危险性
			0.01	3016200	11.98％
0.1	301620	23.91％
			0.2	150810	31.13％
0.3	100540	33.99％
			0.4	75405	36.37％
0.5	60324	38.45％
			0.6	50270	40.32％
0.7	43088	42.03％
			0.8	37702	43.62％
0.9	33513	44.76％

再次，以下说明用于表示去标识化表格的可用性的参数。

精确性(precision)可以用于检测属于晶格的各个节点的精确性，表示GH模型的平均高度。GH模型中，泛化水平越高，精确性越低，数据损失越多。依据以下数学公式3计算精确性。

【公式3】

Prec(GT)可以表示泛化表格(generalization table：GT)(即，去标识化表格)的精确性。N_A可以表示属于表格的变数(例如，图12中邮政编码、年龄、国籍、性别、疾病)的数量。N可以表示构成表格的横排的数量。可以表示GH模型中相应变数的泛化水平。可以表示GH模型中相应变数的泛化水平的最大值。

分辨力衡量标准(discernability metric)可以是考虑相同群组的大小、GH模型中泛化水平等的参数。分辨力衡量标准可以表示相同群组内泛化数据的分辨能力。依据以下数学公式4计算分辨力衡量标准。

【公式4】

DM可以表示分辨力衡量标准。Fi可以表示相同群组的大小。K可以表示相同群组的数量。N可以表示横排(例如，构成表格的横排)的数量。

熵(entropy)表示相同群组内泛化数据的分辨能力或信息量。依据以下数学公式5计算熵。

【公式5】

Pr(a_r|b_r′)可以表示熵，Αr可以表示原始数据，Br可以表示泛化数据，R_ij可以表示记入有原始数据的记录，R’_ij可以表示记入有泛化数据的记录，I可以表示指示函数(indicator function)。

并且，去标识化装置100可以通过输出接口装置150显示出属于最终晶格的节点的危险性参数(例如，再辨认危险性、示例危险性、群组危险性等)和可用性参数(例如，精确性、分辨力衡量标准、熵等)。并且，去标识化装置100可以通过输出接口装置150显示出与属于最终晶格的节点对应的表格的去标识化之前及之后(即，原始表格和去标识化表格的对比结果)状态。

本发明的方法采用可以通过多种计算机手段实施的程序指令形态得到实施，记入计算机可读介质。计算机可读介质以单独或组合的模式包括程序指令、数据文件、数据结构等。记入在计算机可读介质的程序指令是为本发明特意设计和构成的，但也可以是计算机软件技术领域技术人员熟知而使用的。

计算机可读介质包括特别设置而存储和实施程序命令的硬件装置，如只读存储器(rom)、随机存取存储器(ram)、闪存(flash memory)等。程序指令比如包括通过编译程序(compiler)制作的机械语言代码以及使用解释器(interpreter)等通过计算机实施的高级语言代码。为了进行本发明的动作，上述硬件装置包括至少一个软件模块，反过来也相同。

上述内容参考实施例详细说明了本发明，本发明技术领域的技术人员应当理解，在不脱离以下权利要求范围阐述的本发明的思想和领域的范围内，可以对本发明进行多方面的修改和变更。。

Claims

1.一种个人信息去标识化方法，其特征在于，个人信息去标识化装置实施的个人信息去标识化方法中，包括：

从数据库获取包括记录的原始表格的步骤，该记录记入了表示个人信息的原始数据；

基于泛化水平，针对包含于所述原始表格的各个记录记入的原始数据()实施泛化，生成泛化数据的步骤；

设定由所述原始数据和所述泛化数据组成的泛化层模型的步骤；

基于所述泛化层模型表示的层次结构，生成包括多个候选节点的原始晶格的步骤，该多个候选节点表示用于指出各类个人信息的泛化水平的表格；以及

设定包括至少一个候选节点的最终晶格的步骤，该至少一个候选节点是在包含于所述原始晶格的所述多个候选节点中符合预先设定的标准的候选节点。

2.根据权利要求1所述的个人信息去标识化方法，其特征在于，所述个人信息去标识化方法还包括：针对包含于所述原始表格的各个记录分别设定属性的步骤。

3.根据权利要求2所述的个人信息去标识化方法，其特征在于，所述属性划分为ID、QI、SA和IA；将记入有原始数据的记录设定为ID，该原始数据表示明确地辨认特定个人的个人信息；将记入有原始数据的记录设定为QI，该原始数据表示默认辨认特定个人的个人信息；将记入有原始数据的记录设定为SA，该原始数据表示敏感度高于预先设定的标准的个人信息；将记入有原始数据的记录设定为IA，该原始数据表示敏感度低于SA的个人信息。

4.根据权利要求3所述的个人信息去标识化方法，其特征在于，所述个人信息去标识化方法还包括：针对包含于所述原始表格的记录中，所述属性设定为ID的记录，进行遮蔽处理的步骤。

5.根据权利要求3所述的个人信息去标识化方法，其特征在于，所述个人信息去标识化方法还包括：依据原始数据表示的个人信息的种类设定所述泛化水平的步骤，该原始数据记入在包含于所述原始表格的记录中，所述属性设定为QI的记录。

6.根据权利要求3所述的个人信息去标识化方法，其特征在于，针对记入在包含于所述表格的记录中，所述属性设定为QI的记录的原始数据，依据泛化水平进行泛化。

7.根据权利要求1所述的个人信息去标识化方法，其特征在于，设定所述最终晶格的步骤包括：

在包含于所述原始晶格的多个候选节点中选择至少一个候选节点的步骤；

基于所述至少一个候选节点表示的泛化水平，对于所述原始表格实施去标识化，从而生成去标识化表格的步骤；

将与符合预先设定的抑制标准的去标识化表格对应的候选节点设定为最终节点的步骤；以及

设定包括所述最终节点的所述最终晶格的步骤，所述最终节点与符合所述预先设定的标准的候选节点相对应。

8.根据权利要求7所述的个人信息去标识化方法，其特征在于，所述去标识化表格以K-匿名性为基础生成，或者以所述K-匿名性和L-多元性为基础生成，或者以所述K-匿名性和T-接近性为基础生成。

9.根据权利要求8所述的个人信息去标识化方法，其特征在于，所述预先设定的抑制标准表示构成所述去标识化表格的相同群组中，不符合预先设定的所述K-匿名性的相同群组的比率。

10.根据权利要求1所述的个人信息去标识化方法，其特征在于，所述个人信息去标识化方法还包括：计算与包含于所述最终晶格的至少一个最终节点对应的去标识化表格的再辨认危险性和有用性的步骤。

11.一种个人信息去标识化装置，其特征在于，包括：

处理器；以及

用于保存通过所述处理器实施的至少一个指令的存储器，

所述至少一个指令中，

从数据库获取包括记入有表示个人信息的原始数据的记录的原始表格；

基于泛化水平，对于分别记入在包含于所述原始表格的各个记录的原始数据实施泛化，从而生成泛化数据；

设定由所述原始数据和所述泛化数据组成的泛化层模型；

基于所述泛化层模型表示的层次结构，生成包括多个候选节点的原始晶格，而该多个候选节点表示用于指出各类个人信息泛化水平的表格；

并且，设定包括至少一个候选节点的最终晶格，而该至少一个候选节点是包含于所述原始晶格的所述多个候选节点中符合预先设定的标准的候选节点。

12.根据权利要求11所述的个人信息去标识化装置，其特征在于，所述至少一个指令还分别设定包含于所述原始表格的各记录的属性。.

13.根据权利要求12所述的个人信息去标识化装置，其特征在于，所述属性划分为ID、QI、SA和IA；将记入有原始数据的记录设定为ID，该原始数据表示明确地辨认特定个人的个人信息；将记入有原始数据的记录设定为QI，该原始数据表示默认辨认特定个人的个人信息；将记入有原始数据的记录设定为SA，该原始数据表示敏感度高于预先设定的标准的个人信息；将记入有原始数据的记录设定为IA，该原始数据表示敏感度低于SA的个人信息。

14.根据权利要求13所述的个人信息去标识化装置，其特征在于：所述至少一个指令还针对包含于所述原始表格的记录中，所述属性设定为ID的记录进行遮蔽处理。

15.根据权利要求13所述的个人信息去标识化装置，其特征在于，所述至少一个指令还依据原始数据表示的个人信息的种类设定所述泛化水平，该原始数据记入在包含于所述原始表格的记录中，所述属性设定为QI的记录。

16.根据权利要求13所述的个人信息去标识化装置，其特征在于，针对记入在包含于所述表格的记录中，所述属性设定为QI的记录的原始数据，依据泛化水平实施泛化。

17.根据权利要求11所述的个人信息去标识化装置，其特征在于，

所述至少一个指令在设定所述最终晶格时，

在包含于所述原始晶格的多个候选节点中选择至少一个候选节点；

基于所述至少一个候选节点表示的泛化水平，对于所述原始表格实施去标识化，从而生成去标识化表格；

将与符合预先设定的抑制标准的去标识化表格对应的候选节点设定为最终节点；并且

设定包括所述最终节点的所述最终晶格，而所述最终节点与符合所述预先设定的标准的候选节点相对应。

18.根据权利要求17所述的个人信息去标识化装置，其特征在于，所述去标识化表格以K-匿名性为基础生成，或者以所述K-匿名性和L-多元性为基础生成，或者以所述K-匿名性和T-接近性为基础生成。

19.根据权利要求18所述的个人信息去标识化装置，其特征在于，所述预先设定的抑制标准表示构成所述去标识化表格的相同群组中，不符合所述预先设定的K-匿名性的相同群组的比率。

20.根据权利要求11所述的个人信息去标识化装置，其特征在于，所述至少一个指令还计算与包含于所述最终晶格的至少一个最终节点对应的去标识化表格的再辨认危险性和有用性。