CN109522740A

CN109522740A - 健康数据的去隐私化处理方法及系统

Info

Publication number: CN109522740A
Application number: CN201811203455.8A
Authority: CN
Inventors: 金以东; 李雪莉; 王语莫; 周大胜
Original assignee: Ebaotech Internet Medical Information Technology (beijing) Co Ltd
Current assignee: Ebaotech Internet Medical Information Technology (beijing) Co Ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2019-03-26
Anticipated expiration: 2038-10-16
Also published as: CN109522740B

Abstract

本申请提供一种健康数据的去隐私化处理方法及系统，方法包括：获取健康数据；判断获取的健康数据是结构化数据还是非结构化数据；对于非结构化数据，分别提取非结构化数据中的英文与数字类数据以及中文字符类数据；对非结构化数据中的中文字符类数据进行维特比分词，得到中文字符的分词结果；对非结构化数据中的中文字符类数据的分词结果进行维特比分类，得到结构化数据；对获取的结构化数据和处理得到的结构化数据进行去隐私化处理；输出经过掩码与转码后的去隐私化健康数据。本申请通过分词和分类处理将非结构化数据转换成结构化数据，通过对结构化数据进行敏感信息标记和脱敏处理，能够使健康数据在公开时不暴露隐私信息。

Description

健康数据的去隐私化处理方法及系统

技术领域

本申请属于信息安全技术领域，具体涉及一种健康数据的去隐私化处理方法及系统。

背景技术

随着大数据技术的发展，信息的商品化特性逐渐增强。个人健康数据是个人隐私的一部分，其通常包含以下信息：姓名、医院名、药品名、机构名、身份证号、手机号和地址等。由于基于群体的健康数据分析有着相当高的潜在价值，例如，可以在获得许可的前提下有针对性地进行推送服务、商品等商业操作，因此，在保证个人私密信息不泄露的前提下公开个人健康数据是非常有必要的。然而，现有技术中只能通过对结构化数据进行脱敏处理来保证个人信息的私密性。其中的结构化数据指的是已经明确知道数据类别的数据。例如，一条结构化数据在数据库中的词条标识为：姓名，值为：张某某。现有技术中可以通过词条标识匹配对词条标识的值进行脱敏处理，具体的脱敏方式为：将敏感词条标识的值掩码或删除。现有技术并不能对非结构化数据进行脱敏处理，而且也不能解决信息脱敏后的回溯问题。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供了一种健康数据的去隐私化处理方法及系统。

根据本申请实施例的第一方面，本申请提供了一种健康数据的去隐私化处理方法，其包括以下步骤：

获取健康数据；

判断获取的健康数据是结构化数据还是非结构化数据；

对于非结构化数据，分别提取非结构化数据中的英文与数字类数据以及中文字符类数据；

对非结构化数据中的中文字符类数据进行维特比分词，得到中文字符的分词结果；

对非结构化数据中的中文字符类数据的分词结果进行维特比分类，得到结构化数据；

对获取的结构化数据和处理得到的结构化数据进行去隐私化处理；

输出经过掩码与转码后的去隐私化健康数据。

进一步地，所述步骤分别提取非结构化数据中的英文与数字类数据以及中文字符类数据采用正则表达式进行提取，所述英文与数字类数据包括身份证号、手机号和地址号，所述中文字符类数据包括姓名、病名、医院名、机构名和地址。

进一步地，所述步骤对非结构化数据中的中文字符类数据进行维特比分词的过程为：

根据中文字符分词的观测概率和分词的初始概率，计算第一个中文字符的分词概率，采用以下公式：

式中，φ₁表示第一个中文字符的分词概率；p_i,k表示中文字符分词的观测概率，具体地，表示第k个字符分别为词头B、词身M、词尾E和其他O的概率；s_i表示分词的初始概率；

根据第一个中文字符的分词概率对应得到第一个中文字符对应的分词结果，第一个中文字符对应的分词结果为词头B、词身M、词尾E和其他O中的一种；

根据上一个中文字符的分词概率、分词转换概率和中文字符分词的观测概率，计算得到剩余字符的分词概率，采用以下公式循环迭代，顺次计算剩余各字符的分词概率；

其中，φ_x表示第x个中文字符的分词概率，其中x＞1；p_j,k表示中文字符分词的观测概率，t_i,j表示分词转换概率，φ_x-1,i表示上一中文字符的分词概率，即第x-1个中文字符的分词概率；

根据剩余各字符的分词概率对应得到剩余各字符的分词结果；剩余各字符的分词结果为词头B、词身M、词尾E和其他O中的一种；

根据各字符的分词结果在字符串中的位置得到非结构化数据中的中文字符类数据的分词结果。

更进一步地，所述步骤对非结构化数据中的中文字符类数据的分词结果进行维特比分类的过程为：

根据中文字符分类的观测概率和分类的初始概率，计算第一个词的分类概率，采用以下公式：

式中，θ₁表示第一个词的分类概率，q_i,k表示中文字符分类的观测概率，u_i表示分类的初始概率；

根据第一个词的分类概率对应得到第一个词对应的分类结果，第一个词对应的分类结果为姓名N、病名D、医院H、机构G和地址A中的一种；

根据上一个词的分类概率、分类转换概率和中文字符分类的观测概率，计算得到剩余词的分类概率；采用以下公式循环迭代，顺次计算剩余各字符的分词概率；

式中，θ_x表示第x个词的分类概率，其中x＞1；q_j,k表示中文字符分类的观测概率，v_i,j表示分类转换概率，φ_x-1,i表示上一词的分类概率，即第x-1个词的分类概率；

根据剩余各词的分类概率对应得到剩余各词的分类结果，剩余各词的分类结果为姓名N、病名D、医院H、机构G和地址A中的一种。

根据各词的分类结果，得到结构化数据。

进一步地，所述步骤对获取的结构化数据和处理得到的结构化数据进行去隐私化处理的过程为：

对结构化数据进行敏感信息标记，其过程为：

将敏感词库中的所有敏感词条目与词条标识进行向量匹配，进行验证；其中，对于第i个词条，如果

则将该词条标识下的词条标记为敏感词，否则不予标记；

对标记为敏感词的词条进行脱敏处理，其具体包括：

对非标记类敏感词进行掩码处理；

对标记类敏感词进行转码处理。

更进一步地，所述步骤对标记类敏感词进行转码处理的过程为：

假设标记类敏感词对应的码值为m，转码后的词条对应的码值为c；取整数g，使得g>m；取随机整数r；根据以下公式：

c＝m+gr，

计算得到转码后的词条对应的码值c。

更进一步地，所述健康数据的去隐私化处理方法还包括以下步骤：

对转码后的词条进行信息回溯处理，得到转码前的标记类敏感词，其过程为：

根据去隐私化健康数据中标记类信息，采用以下公式：

m＝c％g，％表示取余，

计算得到转码处理前的标记类信息。

根据本申请实施例的第二方面，本申请提供了一种健康数据的去隐私化处理系统，其包括：

获取模块，用于获取一段健康数据；

判断模块，用于判断获取的健康数据是结构化数据还是非结构化数据；

提取模块，用于提取非结构化数据中的英文与数字类数据以及中文字符类数据；

分词模块，用于对非结构化数据中的中文字符类数据进行分词，得到中文字符的分词结果；

分类模块，用于对非结构化数据中的中文字符类数据的分词结果进行分类，得到结构化数据；

处理模块，用于对结构化数据进行去隐私化处理；处理模块包括标记模块、掩码处理模块和转码处理模块，标记模块用于对结构化数据进行敏感信息标记，掩码处理模块用于对非标记类敏感词进行掩码处理，转码处理模块用于对标记类敏感词进行转码处理；

输出模块，用于输出经过掩码与转码后的去隐私化健康数据。

进一步地，所述健康数据的去隐私化处理系统还包括信息回溯模块，所述信息回溯模块用于对转码后的词条进行信息回溯处理，得到转码前的标记类敏感词。

根据本申请实施例的第三方面，本申请提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

根据本申请的上述具体实施方式可知，至少具有以下有益效果：本申请通过分词和分类处理将非结构化数据转换成结构化数据，通过对结构化数据进行敏感信息标记和脱敏处理，能够使健康数据在公开时不暴露隐私信息。另外，通过对标记类数据的转码处理，使得数据在去隐私化处理后，依然能够通过预设的算法进行信息回溯，便于原始信息的查询。采用本申请还能够灵活的对敏感信息进行设置。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本申请所欲主张的范围。

附图说明

下面的所附附图是本申请的说明书的一部分，其示出了本申请的实施例，所附附图与说明书的描述一起用来说明本申请的原理。

图1为本申请具体实施方式提供的一种健康数据的去隐私化处理方法的流程图。

图2为本申请具体实施方式提供的一种健康数据的去隐私化处理方法中向量匹配过程示意图。

图3为本申请具体实施方式提供的一种健康数据的去隐私化处理系统的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本申请所揭示内容的精神，任何所属技术领域技术人员在了解本申请内容的实施例后，当可由本申请内容所教示的技术，加以改变及修饰，其并不脱离本申请内容的精神与范围。

本申请的示意性实施例及其说明用于解释本申请，但并不作为对本申请的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等，并非特别指称次序或顺位的意思，也非用以限定本申请，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以细微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的细微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

如图1所示，本申请提供了一种健康数据的去隐私化处理方法，其包括以下步骤：

S1、获取健康数据。

S2、判断获取的健康数据是结构化数据还是非结构化数据，具体地，如果获取的健康数据为有明确词条标识的词序列，则该健康数据为结构化数据；否则，该健康数据为非结构化数据。

S3、如果该健康数据为非结构化数据，则提取非结构化数据中的英文与数字类数据以及中文字符类数据。具体地，可以采用正则表达式进行提取。如果该健康数据为结构化数据，则进入步骤S6。

其中，英文与数字类数据包括身份证号、手机号和地址号等。中文字符类数据包括姓名、病名、医院名、机构名和地址等。

S4、对非结构化数据中的中文字符类数据进行维特比分词，得到中文字符的分词结果，其具体过程为：

S41、根据中文字符分词的观测概率和分词的初始概率，计算第一个中文字符的分词概率，其具体过程为：

根据各中文字符在中文字符类数据中的相对位置，各中文字符均可以为词头B、词身M、词尾E和其他O中的一种。

获取词头B、词身M、词尾E和其他O四种类型分词的初始概率。

获取中文字符类数据中各中文字符分别为词头B、词身M、词尾E和其他O的概率，即中文字符分词的观测概率。

根据公式计算中文字符类数据中第一个中文字符的分词概率。其中，φ₁表示第一个中文字符的分词概率；p_i,k表示中文字符分词的观测概率，具体地，表示第k个字符分别为词头B、词身M、词尾E和其他O的概率；s_i表示分词的初始概率。

根据第一个中文字符的分词概率对应得到第一个中文字符对应的分词结果。其中，第一个中文字符对应的分词结果为词头B、词身M、词尾E和其他O中的一种。

S42、根据上一个中文字符的分词概率、分词转换概率和中文字符分词的观测概率，计算得到剩余字符的分词概率。

具体地，采用以下公式循环迭代，顺次计算剩余各字符的分词概率。

其中，φ_x表示第x个中文字符的分词概率，其中x＞1；p_j,k表示中文字符分词的观测概率，t_i,j表示分词转换概率，φ_x-1,i表示上一中文字符的分词概率，即第x-1个中文字符的分词概率。

根据剩余各字符的分词概率对应得到剩余各字符的分词结果。其中，剩余各字符的分词结果为词头B、词身M、词尾E和其他O中的一种。

S43、根据各字符的分词结果在字符串中的位置得到非结构化数据中的中文字符类数据的分词结果。

S5、对非结构化数据中的中文字符类数据的分词结果进行维特比分类，得到结构化数据，其具体过程为：

S51、根据中文字符分类的观测概率和分类的初始概率，计算第一个词的分类概率，其具体过程为：

根据各词词意，各词均可以属于姓名N、病名D、医院H、机构G和地址A中五种类型词条标识的一种。

获取姓名N、病名D、医院H、机构G和地址A五种类型词条标识的分类的初始概率。

获取中文字符的分词结果中各词分别属于姓名N、病名D、医院H、机构G和地址A的概率，即中文字符分类的观测概率。

根据公式计算中文字符的分词结果中第一个词的分类概率。其中，θ₁表示第一个词的分类概率，q_i,k表示中文字符分类的观测概率，u_i表示分类的初始概率。

根据第一个词的分类概率对应得到第一个词对应的分类结果。其中，第一个词对应的分类结果为姓名N、病名D、医院H、机构G和地址A中的一种。

S52、根据上一个词的分类概率、分类转换概率和中文字符分类的观测概率，计算得到剩余词的分类概率。

其中，θ_x表示第x个词的分类概率，其中x＞1；q_j,k表示中文字符分类的观测概率，v_i,j表示分类转换概率，φ_x-1,i表示上一词的分类概率，即第x-1个词的分类概率。

根据剩余各词的分类概率对应得到剩余各词的分类结果。其中，剩余各词的分类结果为姓名N、病名D、医院H、机构G和地址A中的一种。

S53、根据各词的分类结果，得到结构化数据。

S6、对结构化数据进行去隐私化处理，如图2所示，其具体过程为：

S61、对结构化数据进行敏感信息标记，其具体过程为：

将敏感词库中的所有敏感词条目与词条标识进行向量匹配，进行验证。其中，对于第i个词条，如果

则将该词条标识下的词条标记为敏感词，否则不予标记。

S62、对标记为敏感词的词条进行脱敏处理，其具体包括：

对非标记类敏感词进行掩码处理。具体地，可以利用*、+、X等字符代替非标记类敏感词；

对标记类敏感词进行转码处理。具体地，对标记类敏感词进行转码处理的过程为：

假设标记类敏感词对应的码值为m，转码后的词条对应的码值为c。取整数g，使得g>m；取随机整数r。根据以下公式：

c＝m+gr，

计算得到转码后的词条对应的码值c。

S7、输出经过掩码与转码后的去隐私化健康数据。

本申请健康数据的去隐私化处理方法还包括以下步骤：

对转码后的词条进行信息回溯处理，得到转码前的标记类敏感词，其具体过程为：

根据去隐私化健康数据中标记类信息，采用以下公式：

m＝c％g，

计算得到转码处理前的标记类信息。

在技术层面，本申请实施例提出的健康数据的去隐私化处理方法通过对非结构化数据进行脱敏处理，能够实现在不暴露隐私信息的前提下公开健康数据。同时本申请实施例还提供了标记类数据的转码处理方法，使得数据在去隐私化处理后，依然能够通过预设的算法进行信息回溯，便于原始信息的查询。

在应用层面，本申请实施例提出的健康数据的去隐私化处理方法可以根据预先设置的敏感词库设置不同的敏感词。例如，无需对姓名进行脱敏处理时，则将姓名从敏感词库中移除即可。

在一个具体的实施例中，假设读取了以下健康数据：北京医院与卫生研究所对身份证号是123456的张三进行了肺结核治疗的会诊。采用本申请健康数据的去隐私化处理方法，对以上健康数据进行去隐私化处理，其具体过程为：

根据获取的健康数据没有明确的词条标识，判定该健康数据为非结构化数据。

利用正则表达式分别提取非结构化数据中的英文与数字类数据以及中文字符类数据。其中，提取出的英文与数字类数据为：123456。提取出的中文字符类数据包括：“北京医院与卫生研究所对身份证号是”以及“的张三进行了肺结核治疗的会诊”。

对上述中文字符类数据进行维特比分词，得到“北京医院与卫生研究所对身份证号是”的分词结果为：‘B M M E O B M M M E O O O O O O’；“的张三进行了肺结核治疗的会诊”的分词结果为：‘O B E O O O B M E O O O O O’。

其中，采用以下公式计算中文字符类数据中第一个中文字符的分词概率：

式中，φ₁表示第一个中文字符的分词概率；p_i,k表示中文字符分词的观测概率，具体地，表示第k个字符分别为词头B、词身M、词尾E和其他O的概率；s_i表示分词的初始概率。

采用以下公式循环迭代，顺次计算剩余各字符的分词概率。

式中，φ_x表示第x个中文字符的分词概率，其中x＞1；p_j,k表示中文字符分词的观测概率，t_i,j表示分词转换概率，φ_x-1,i表示上一中文字符的分词概率，即第x-1个中文字符的分词概率。

如表1所示，词头B、词身M、词尾E和其他O四种类型分词的初始概率表为：

表1分词的初始概率表

词头B	词身M	词尾E	其他O
				s<sub>1</sub>	s<sub>2</sub>＝-10<sup>10</sup>	s<sub>3</sub>＝-10<sup>10</sup>	s<sub>4</sub>

中文字符分词的观测概率如表2所示。其中，p_1,k表示第k个字符为词头B的概率，p_2,k表示第k个字符为词身M的概率，p_3,k表示第k个字符为词尾E的概率，p_4,k表示第k个字符为其他O的概率。

表2中文字符分词的观测概率表

张

三

院

所

市

……

k

……

词头B

p11

p12

p13

p14

p15

p1k

词身M

p21

p22

p23

p24

p25

p2k

词尾E

p31

p32

p33

p34

p35

p3k

其他O

p41

p42

p43

p44

p45

p4k

……

如表3所示，在分词转换概率表中，分词转换概率t_i,j，i＝1、2、3、4,j＝1、2、3、4，其中，t₁₁表示当前中文字符为词头B，其上一中文字符也为词头B的概率；同理，t₄₁表示当前中文字符为词头B，其上一中文字符为其他O的概率；同理，t₃₄表示当前中文字符为其他O，其上一中文字符为词尾E的概率。

表3分词转换概率表

	词头B	词身M	词尾E	其他O
					词头B	t<sub>11</sub>＝-10<sup>10</sup>	t<sub>12</sub>	t<sub>13</sub>	t<sub>14</sub>＝-10<sup>10</sup>
词身M	t<sub>21</sub>＝-10<sup>10</sup>	t<sub>22</sub>	t<sub>23</sub>	t<sub>24</sub>＝-10<sup>10</sup>
					词尾E	t<sub>31</sub>	t<sub>32</sub>＝-10<sup>10</sup>	t<sub>33</sub>＝-10<sup>10</sup>	t<sub>34</sub>
其他O	t<sub>41</sub>	t<sub>42</sub>＝-10<sup>10</sup>	t<sub>43</sub>＝-10<sup>10</sup>	t<sub>44</sub>

根据分词结果中所有B、E在字符串中的位置，得到非结构化数据中的中文字符类数据的分词结果：“北京医院”、“卫生研究所”、“张三”、“肺结核”。

对以上分词结果进行维特比分类，得到结构化数据为：姓名N：“张三”；病名D：“肺结核”；医院H：“北京医院”；机构A：“卫生研究所”。

其中，采用以下公式计算中文字符的分词结果中第一个词的分类概率：

式中，θ₁表示第一个词的分类概率，q_i,k表示中文字符分类的观测概率，u_i表示分类的初始概率。

采用以下公式循环迭代，顺次计算剩余各字符的分词概率。

式中，θ_x表示第x个词的分类概率，其中x＞1；q_j,k表示中文字符分类的观测概率，v_i,j表示分类转换概率，φ_x-1,i表示上一词的分类概率，即第x-1个词的分类概率。

如表4所示，姓名N、病名D、医院H、机构G和地址A中五种类型词条标识的分类的初始概率分别为：u₁～u₅。

表4分类的初始概率表

姓名N	病名D	医院H	机构G	地址A
					u<sub>1</sub>	u<sub>2</sub>	u<sub>3</sub>	u<sub>4</sub>	u<sub>5</sub>

中文字符分类的观测概率如表5所示。其中，q_1,k表示第k个字符属于姓名N的概率，p_2,k表示第k个字符为词身M的概率，p_3,k表示第k个字符为词尾E的概率，p_4,k表示第k个字符为其他O的概率。

表5中文字符分类的观测概率表

张

三

院

所

市

……

k

……

姓名N

q11

q12

q13

q14

q15

q1k

病名D

q21

q22

q23

q24

q2`5

q2k

医院H

q31

q32

q33

q34

q35

q3k

机构G

q41

q42

q43

q44

q45

q4k

地址A

q51

q52

q53

q54

q55

q5k

……

如表6所示，在分类转换概率表中，分类转换概率v_i,j，i＝1、2、3、4、5,j＝1、2、3、4、5，其中，v₁₁表示当前字符属于姓名N，其上一字符也属于姓名N的概率；同理，t₄₁表示当前字符属于姓名N，其上一字符属于机构G的概率；同理，t₃₄表示当前字符属于机构G，其上一字符属于医院H的概率。

表6分类转换概率表

	姓名N	病名D	医院H	机构G	地址A
						姓名N	v<sub>11</sub>	v<sub>12</sub>	v<sub>13</sub>	v<sub>14</sub>	v<sub>15</sub>
病名D	v<sub>21</sub>	v<sub>22</sub>	v<sub>23</sub>	v<sub>24</sub>	v<sub>25</sub>
						医院H	v<sub>31</sub>	v<sub>32</sub>	v<sub>33</sub>	v<sub>34</sub>	v<sub>35</sub>
机构G	v<sub>41</sub>	v<sub>42</sub>	v<sub>43</sub>	v<sub>44</sub>	v<sub>45</sub>
						地址A	v<sub>51</sub>	v<sub>52</sub>	v<sub>53</sub>	v<sub>54</sub>	v<sub>55</sub>

根据各词的分类结果，得到的结构化数据为：

姓名N：“张三”、病名D：“肺结核”、医院H：“北京医院”、机构：“卫生研究所”。

例如，对结构化数据进行去隐私化处理后得到：

***与***对身份证号是0x47C5D7的***进行了***治疗的会诊。

进行信息回溯处理时，令g＝654321，则m＝c％g＝0x47C5D7％g＝123456，％表示取余。

如图3所示，本申请实施例还提供了一种健康数据的去隐私化处理系统，其包括：

获取模块1，用于获取一段健康数据。

判断模块2，用于判断获取的健康数据是结构化数据还是非结构化数据。

提取模块3，用于提取非结构化数据中的英文与数字类数据以及中文字符类数据。具体地，可以采用正则表达式进行提取，还可以采用其他算法提取文本中的英文与数字类数据以及中文字符类数据。

分词模块4，用于对非结构化数据中的中文字符类数据进行分词，得到中文字符的分词结果。具体地，可以采用维特比算法对非结构化数据中的中文字符类数据进行分词，还可以采用RNN或LSTM等人工神经网络进行分词。

分类模块5，用于对非结构化数据中的中文字符类数据的分词结果进行分类，得到结构化数据。具体地，可以采用维特比算法对分词结果进行分类，还可以采用RNN或LSTM等人工神经网络进行分类。

处理模块6，用于对结构化数据进行去隐私化处理。具体地，处理模块6包括标记模块、掩码处理模块和转码处理模块。标记模块用于对结构化数据进行敏感信息标记，掩码处理模块用于对非标记类敏感词进行掩码处理，转码处理模块用于对标记类敏感词进行转码处理。

本申请实施例健康数据的去隐私化处理系统还包括信息回溯模块，其用于对转码后的词条进行信息回溯处理，得到转码前的标记类敏感词。

需要说明的是：上述实施例提供的去隐私化处理系统仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将去隐私化处理系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的去隐私化处理系统与去隐私化处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请健康数据的去隐私化处理系统通过分词模块4和分类模块5将非结构化数据转换成结构化数据，再通过处理模块6对结构化数据进行去隐私化处理，本申请能够对非结构化健康数据进行去隐私化处理，从而能够实现在不暴露隐私信息的前提下公开健康数据的目的。本申请还能够对转码后的词条进行信息回溯处理，得到转码前的标记类敏感词。

基于上述去隐私化处理系统中各模块的硬件实现，为了实现本申请实施例提供的去隐私化处理方法，本申请实施例还提供了一种健康数据的去隐私化处理装置，其包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器。其中所述处理器用于运行所述计算机程序时，执行如下步骤：

获取健康数据。

判断获取的健康数据是结构化数据还是非结构化数据。

对于非结构化数据利用正则表达式分别提取非结构化数据中的英文与数字类数据以及中文字符类数据。对非结构化数据中的中文字符类数据进行维特比分词，得到中文字符的分词结果。

对非结构化数据中的中文字符类数据的分词结果进行维特比分类，得到结构化数据。

对结构化数据进行去隐私化处理，包括：对结构化数据进行敏感信息标记；对标记为敏感词的词条进行脱敏处理，其中，对非标记类敏感词进行掩码处理，对标记类敏感词进行转码处理。

所述处理器用于运行所述计算机程序时，还执行如下步骤：对转码后的词条进行信息回溯处理，得到转码前的标记类敏感词。

在示例性实施例中，本申请实施例还提供了一种计算机存储介质，是计算机可读存储介质，例如，包括计算机程序的存储器，上述计算机程序可由去隐私化处理系统中的处理器执行，以完成上述去隐私化处理方法中的所述步骤。计算机可读存储介质可以是磁性随机存取存储器(FRAM，ferromagnetic random access memory)、只读存储器(ROM，ReadOnly Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-OnlyMemory)等存储器。

以上所述仅为本申请示意性的具体实施方式，在不脱离本申请的构思和原则的前提下，任何本领域的技术人员所做出的等同变化与修改，均应属于本申请保护的范围。

Claims

1.一种健康数据的去隐私化处理方法，其特征在于，包括以下步骤：

获取健康数据；

判断获取的健康数据是结构化数据还是非结构化数据；

输出经过掩码与转码后的去隐私化健康数据。

2.根据权利要求1所述的健康数据的去隐私化处理方法，其特征在于，所述步骤分别提取非结构化数据中的英文与数字类数据以及中文字符类数据采用正则表达式进行提取，所述英文与数字类数据包括身份证号、手机号和地址号，所述中文字符类数据包括姓名、病名、医院名、机构名和地址。

3.根据权利要求1或2所述的健康数据的去隐私化处理方法，其特征在于，所述步骤对非结构化数据中的中文字符类数据进行维特比分词的过程为：

4.根据权利要求3所述的健康数据的去隐私化处理方法，其特征在于，所述步骤对非结构化数据中的中文字符类数据的分词结果进行维特比分类的过程为：

根据剩余各词的分类概率对应得到剩余各词的分类结果，剩余各词的分类结果为姓名N、病名D、医院H、机构G和地址A中的一种；

根据各词的分类结果，得到结构化数据。

5.根据权利要求1或2所述的健康数据的去隐私化处理方法，其特征在于，所述步骤对获取的结构化数据和处理得到的结构化数据进行去隐私化处理的过程为：

对结构化数据进行敏感信息标记，其过程为：

则将该词条标识下的词条标记为敏感词，否则不予标记；

对标记为敏感词的词条进行脱敏处理，其具体包括：

对非标记类敏感词进行掩码处理；

对标记类敏感词进行转码处理。

6.根据权利要求5所述的健康数据的去隐私化处理方法，其特征在于，所述步骤对标记类敏感词进行转码处理的过程为：

c＝m+gr，

计算得到转码后的词条对应的码值c。

7.根据权利要求6所述的健康数据的去隐私化处理方法，其特征在于，还包括以下步骤：

根据去隐私化健康数据中标记类信息，采用以下公式：

m＝c％g，％表示取余，

计算得到转码处理前的标记类信息。

8.一种健康数据的去隐私化处理系统，其特征在于，包括：

获取模块，用于获取一段健康数据；

9.根据权利要求8所述的健康数据的去隐私化处理系统，其特征在于，还包括信息回溯模块，所述信息回溯模块用于对转码后的词条进行信息回溯处理，得到转码前的标记类敏感词。

10.一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。