CN110289059A

CN110289059A - 医疗数据处理方法、装置、存储介质及电子设备

Info

Publication number: CN110289059A
Application number: CN201910509394.6A
Authority: CN
Inventors: 张志立; 李军; 李祎嵩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-09-27

Abstract

本发明提供一种医疗数据处理方法、装置、存储介质及电子设备。本发明提供的医疗数据处理方法，包括：先通过预设敏感词库定位出待处理医疗数据中的敏感词集合，然后，根据预设脱敏规则对敏感词集合中敏感词进行脱敏处理，以将敏感词替换为脱敏字符串，再输出经脱敏处理完成后的脱敏医疗数据。本发明提供的医疗数据处理方法，通过预设敏感词库对整段数据进行定位的方式，实现了对不同形式的医疗数据进行通用的脱敏处理，进而减少因需适配不同格式所产生的额外定制化脱敏算法开发工作。

Description

医疗数据处理方法、装置、存储介质及电子设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种医疗数据处理方法、装置、存储介质及电子设备。

背景技术

随着“互联网+医疗健康”战略的发展，电子病历数据库作为最主要、数据价值最高的医疗数据来源，是医疗大数据发展的主要源泉。

目前，由于医院对医疗数据的处理能力有限，医院只能够通过和第三方公司合作，以进行医疗数据的挖掘及处理。但是，医疗数据中存在着大量患者的个人信息与疾病情况等隐私信息，在进行对外数据共享处理时，存在患者隐私信息泄露的隐患，因此，在医院和第三方合作的过程中，医院为了数据安全一般要求有两点：第一、病历数据不出院，在医院内部处理；第二、合作的第三方公司看到的数据是经过脱敏处理的。

但是，由于每个医院通常都有自己单独的病历管理系统，因此，每个医院所形成的病历形式不尽相同，甚至是同一个医院内不同科室所形成的病历形式也是同样不尽相同。而对于不同形式的病历，在进行脱敏处理的时候，需要单独定制的专门的脱敏方案，极其消耗人力和时间，并且后期对于脱敏数据的维护难度也非常大。

发明内容

本发明提供一种医疗数据处理方法、装置、存储介质及电子设备，以实现对不同形式的医疗数据进行通用的脱敏处理，从而减少因需适配不同格式所产生的额外定制化脱敏算法开发工作。

第一方面，本发明提供一种医疗数据处理方法，包括：

根据预设敏感词库定位待处理医疗数据中的敏感词集合；

根据预设脱敏规则对所述敏感词集合中敏感词进行脱敏处理，以将所述敏感词替换为脱敏字符串；

输出经所述脱敏处理完成后的脱敏医疗数据。

在一种可能的设计中，所述根据预设脱敏规则对所述敏感词集合中敏感词进行脱敏处理，包括：

获取所述敏感词集合中每个所述敏感词的字符长度；

根据所述字符长度对所述敏感词集合中的所述敏感词按照字符长度递减的顺序进行排序，以生成排序后敏感词集合；

根据所述预设脱敏规则对所述排序后敏感词集合中所述敏感词依次进行所述脱敏处理。

在一种可能的设计中，所述根据所述预设脱敏规则对所述排序后敏感词集合中所述敏感词依次进行所述脱敏处理，包括：

将所述排序后敏感词集合中所述敏感词替换为预设符号字符串，其中，所述预设符号字符串的字符长度与对应的所述敏感词的字符长度相同；或者

根据预设加密算法将所述排序后敏感词集合中所述敏感词替换为可逆加密字符串；或者

根据预设加密算法将所述排序后敏感词集合中所述敏感词替换为非可逆加密字符串。

在一种可能的设计中，所述输出经所述脱敏处理完成后的脱敏医疗数据，包括：

获取所述待处理医疗数据的第一文件格式信息；

将经所述脱敏处理完成后的所述脱敏医疗数据按照所述第一文件格式信息进行输出。

在一种可能的设计中，所述第一文件格式信息为数据库格式、文本格式以及XML格式中的任意一种。

在一种可能的设计中，所述预设敏感词库包括：地名库、姓名库、职业名称库、医院名称库、公司名称库以及诊所名称库中的至少一种。

在一种可能的设计中，在所述输出经所述脱敏处理完成后的脱敏医疗数据之前，还包括：

根据预设正则表达式对所述敏感编码集合中敏感编码进行脱敏处理，以将所述敏感编码替换为脱敏字符串。

在一种可能的设计中，所述预设脱敏规则用于定位并替换邮政编码、电话号码、邮箱地址、身份证号码、病历编号以及医保卡编号中的至少一种。

在一种可能的设计中，所述医疗数据为病历数据。

第二方面，本发明还提供一种医疗数据处理装置，包括：

定位模块，用于根据预设敏感词库定位待处理医疗数据中的敏感词集合；

处理模块，用于根据预设脱敏规则对所述敏感词集合中敏感词进行脱敏处理，以将所述敏感词替换为脱敏字符串；

输出模块，用于输出经所述脱敏处理完成后的脱敏医疗数据。

在一种可能的设计中，所述处理模块，具体用于：

获取所述敏感词集合中每个所述敏感词的字符长度；

在一种可能的设计中，所述处理模块，具体用于：

在一种可能的设计中，所述输出模块，具体用于：

获取所述待处理医疗数据的第一文件格式信息；

在一种可能的设计中，所述处理模块，还用于：

在一种可能的设计中，所述预设正则表达式用于定位并替换邮政编码、电话号码、邮箱地址、身份证号码、病历编号以及医保卡编号中的至少一种。

在一种可能的设计中，所述医疗数据为病历数据。

第三方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任意一种可能的医疗数据处理方法。

第四方面，本公开还提供一种电子设备，包括：

处理器；以及，

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行第一方面中任意一种可能的医疗数据处理方法。

本发明提供的一种医疗数据处理方法、装置、存储介质及电子设备，先通过预设敏感词库定位出待处理医疗数据中的敏感词集合，然后，根据预设脱敏规则对敏感词集合中敏感词进行脱敏处理，以将敏感词替换为脱敏字符串，再输出经脱敏处理完成后的脱敏医疗数据，由于是通过预设敏感词库对整段数据进行定位的方式，因此，其定位的方式依赖于数据的具体格式，从而实现对不同形式的医疗数据进行通用的脱敏处理，进而减少因需适配不同格式所产生的额外定制化脱敏算法开发工作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的医疗数据处理方法的应用场景图；

图2是根据一示例性实施例示出的医疗数据处理方法的流程示意图；

图3是根据另一示例性实施例示出的医疗数据处理方法的流程示意图；

图4是图3所示实施例中医疗数据处理方法的数据脱敏处理的数据交互示意图；

图5是根据一示例性实施例示出的医疗数据处理装置的结构示意图；

图6为本发明根据一示例性实施例示出的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据一示例性实施例示出的医疗数据处理方法的应用场景图。如图1所示，本实施例提供的医疗数据处理方法，可以是适用于对不同机构数据(例如，由机构数据服务器101所提供)，例如不同医疗单位中的不同格式医疗数据进行脱敏处理。其中，更为具体的，电子病历数据库作为最主要、数据价值最高的医疗数据来源，本实施例提供的医疗数据处理方法，可以应用在对于不同医院的不同格式的病历数据进行脱敏处理。

继续参照图1，本实施例提供的医疗数据处理方法可以应用于构建医疗大数据。其中，医疗数据可以为不同机构数据服务器101所提供的病历数据，其中，机构数据服务器101可以为多个医院所对应的，用于存储病历数据的服务器，例如，可以为北京XX医院、上海XX医院、广东XX医院以及浙江XX医院各自所对应的服务器。

由于每个医院通常都有自己单独的病历管理系统，因此，每个医院所形成的病历形式不尽相同。

在一种可能的情况中，不同医院可能采用不同格式来保存病历数据，例如北京XX医院所采用的是数据库格式，上海XX医院所采用的是文本格式，广东XX医院所采用的是XML格式，而浙江XX医院所采用的是其他格式。

而在另一种可能的情况中，即使对于同一个医院内所采用的同一种格式，但是由于不同科室数据要求不同，所形成的病历形式也可能存在较大的差异，例如，对于广东XX医院，全院可能所采用的病历数据均为XML格式，但是每个科室可以根据自己科室的特点进行部分格式自定义适配，因此，即使同一个医院不同可以可存在病历中定义的格式标签不一样的情况，从而导致院内数据也是非常多样化。

为了能够对不同形式的病历数据进行通用处理，在本实施例中，可以将不同机构数据服务器101所存储的数据输入至一个医疗数据脱敏引擎102中进行脱敏处理，其中，医疗数据脱敏引擎102可以安装于医院自身的服务器中，也可以是设置在外部符合安全条件的服务器中。

经过医疗数据脱敏引擎102进行脱敏处理后的病历数据，可以进一步输出至云端，以构建云端大数据，从而为后续的医疗数据的进一步分析提供数据基础。

可见，本实施例提供的医疗数据处理方法通过设置通用的医疗数据脱敏引擎，从而可以对不同形式的医疗数据进行处理，以减少因需适配不同格式所产生的额外定制化脱敏算法开发工作。

图2是根据一示例性实施例示出的医疗数据处理方法的流程示意图。如图2所示，本实施例提供的医疗数据处理方法，包括：

步骤201、根据预设敏感词库定位待处理医疗数据中的敏感词集合。

具体的，在对医疗数据进行脱敏处理以前，首先需要获取到待处理医疗数据，其中，为了对本实施例的实现进行详细的描述，可以选取病历数据作为医疗数据进行详细说明。可以是通过获取存储于各个医院数据服务器中的病历数据作为脱敏处理的数据输入。此外，值得理解的，本实施例中的待处理医疗数据可以为医疗数据库中整段且未没有任何标记的数据，例如，可以为医疗数据库中的文字、字母以及数字的任意排布或者组合所形成的数据。

然后，根据预设敏感词库定位待处理医疗数据中的敏感词集合。其中，需要理解的，预设敏感词库可以是包括：地名库、姓名库、职业名称库、医院名称库、公司名称库以及诊所名称库中的至少一种。而对于上述的地名库、姓名库、职业名称库、医院名称库、公司名称库以及诊所名称库，可以是自行构建的词库、也可以是引入现有已经构建完成的词库、还可以是在现有已经构建完成的词库的基础上进行定制优化的词库。

对于每一份待处理病历数据，通过遍历预设敏感词库的方式，查找匹配当前待处理病历数据中所存在的敏感词，并将查找到的敏感词汇集为敏感词集合。

步骤202、根据预设脱敏规则对敏感词集合中敏感词进行脱敏处理。

在获取到敏感词集合之后，可以根据预设脱敏规则对敏感词集合中敏感词进行脱敏处理，以将敏感词替换为脱敏字符串。具体的，可以是生成一个可以替代敏感词集合的脱敏词集合，然后通过利用将脱敏词集合替换所查找到的敏感词集合的方式，实现脱敏处理。

在一种可能的实现方式中，上述的脱敏处理，可以是将敏感词集合中敏感词替换为预设符号字符串，例如，将敏感词“广东XX医院”替换为“******”；还可以根据预设加密算法将敏感词集合中敏感词替换为可逆加密字符串，例如，将敏感词“广东XX医院”替换为“某某某某某某”，而根据“某某某某某某”可以进行解密，从而获得“广东XX医院”，其中，对于预设加密算法在本实施例中不作具体限定，只需保证此处的预设加密算法为可解密的算法即可；还可以是根据预设加密算法将敏感词集合中敏感词替换为非可逆加密字符串，例如，将敏感词“广东XX医院”替换为“某某某某某某”，但是根据“某某某某某某”无法进行解密，其中，此处的预设加密算法可以为随机的加密算法，对于预设加密算法在本实施例中不作具体限定，只需保证此处的预设加密算法为不可解密的算法即可。

此外，为了对待处理医疗数据中的敏感编码，例如数字编号、字母以及符号等敏感信息进行脱敏处理，还可以根据预设正则表达式对敏感编码集合中敏感编码进行脱敏处理，以将敏感编码替换为脱敏字符串。值得理解的，可以利用正则表达式进行字符串操作，具体的，正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。其中，对于上述的待处理医疗数据中的敏感编码，则可以为邮政编码、电话号码、邮箱地址、身份证号码、病历编号以及医保卡编号中的至少一种。可见，在本实施例中，可以选取邮政编码、电话号码、邮箱地址、身份证号码、病历编号以及医保卡编号作为特征词库，然后再进行脱敏处理时，直接使用正则表达式进行一次脱敏处理即可

步骤203、输出经脱敏处理完成后的脱敏医疗数据。

在对待处理医疗数据中的敏感词完成脱敏处理后，即将待处理医疗数据中的敏感词替换为脱敏字符串之后，还需输出经脱敏处理完成后的脱敏医疗数据。

值得说明的，对于输出脱敏医疗数据可以是采用任意格式，例如，输入的待处理医疗数据可以为数据库格式、文本格式以及XML格式，而输出的脱敏医疗数据可以采用统一的数据格式，如数据库格式、文本格式以及XML格式中的任意一种格式；此外，为了能够使得输出脱敏医疗数据能够更好地适配原提供数据医院的数据格式，还可以先获取待处理医疗数据的第一文件格式信息，然后，将经脱敏处理完成后的脱敏医疗数据按照第一文件格式信息进行输出。

在本实施例中，先通过预设敏感词库定位出待处理医疗数据中的敏感词集合，然后，根据预设脱敏规则对敏感词集合中敏感词进行脱敏处理，以将敏感词替换为脱敏字符串，再输出经脱敏处理完成后的脱敏医疗数据，由于是通过预设敏感词库对整段数据进行定位的方式，因此，其定位的方式依赖于数据的具体格式，从而实现对不同形式的医疗数据进行通用的脱敏处理，进而减少因需适配不同格式所产生的额外定制化脱敏算法开发工作。

图3是根据另一示例性实施例示出的医疗数据处理方法的流程示意图，图4是图3所示实施例中医疗数据处理方法的数据脱敏处理的数据交互示意图。如图3-图4所示，本实施例提供的医疗数据处理方法，包括：

步骤301、根据预设敏感词库定位待处理医疗数据中的敏感词集合。

值得说明的，本实施例中的步骤301的具体实现方式参照图2所示实施例中步骤201的描述，这里不再进行赘述。

步骤302、获取敏感词集合中每个敏感词的字符长度。

步骤303、根据字符长度对敏感词集合中的敏感词按照字符长度递减的顺序进行排序。

其中，为了提高待处理医疗数据中敏感词的脱敏程度，在进行脱敏处理之前，还可以先对敏感词集合中每个敏感词进行排序。具体的，可以是遍历敏感词集合中的每个敏感词，并对每个敏感词进行字符长度计算，然后按照长度由大至小进行排列，从而生成排序后敏感词集合。例如，敏感词集合中包括：“广东XX医院”以及“广东”，那么在进行排序之后，“广东XX医院”排列在“广东”之前。

步骤304、根据预设脱敏规则对排序后敏感词集合中敏感词依次进行脱敏处理。

在根据字符长度对敏感词集合中的敏感词按照字符长度递减的顺序进行排序之后，遍历排序后敏感词集合，依次对排序后敏感词集合中敏感词依次进行脱敏处理。

具体的，可以将排序后敏感词集合中敏感词替换为预设符号字符串，其中，预设符号字符串的字符长度与对应的敏感词的字符长度相同；还可以是根据预设加密算法将排序后敏感词集合中敏感词替换为可逆加密字符串；还可以是根据预设加密算法将排序后敏感词集合中敏感词替换为非可逆加密字符串。

值得说明的，在本实施例中，在进行脱敏处理前，先对敏感词集合中每个敏感词按照字符长度进行降序排序，然后按照排序后的顺序进行依次脱敏，可以大大提高脱敏程度。

为了说明上述排序方式可以大大提高脱敏程度的效果，此处通过举例对比的方式进行详细说明，例如，可以是病历数据中包含了“广东XX医院”的信息，则此时，根据预设地名库可以定位出敏感词“广东”，而根据预设医院名称库还可以定位出敏感词“广东XX医院”。

在第一种情况中，若在对敏感词集合中敏感词进行脱敏处理之前，未对敏感词集合中的敏感词进行排序，则存在“广东”在“广东XX医院”之前进行脱敏的情况，而在对“广东”进行脱敏之后，例如脱敏为“某某”，则“广东XX医院”则也对应变化为“某某XX医院”，而会导致无法继续对“某某XX医院”进行脱敏。而在很多情况下，根据“某某XX医院”还可以看出用户的隐私信息，例如“某某儿童医院”。

而在第二中情况中，若在对敏感词集合中敏感词进行脱敏处理之前，先进行上述的方式的排序，则“广东XX医院”就会排序在“广东”之前，并且也是先对“广东XX医院”进行脱敏处理，此时，则不会对字符长度较短的敏感词“广东”造成影响。

步骤305、输出经脱敏处理完成后的脱敏医疗数据。

值得说明的，本实施例中的步骤305的具体实现方式参照图2所示实施例中步骤203的描述，这里不再进行赘述。

此外，在对待处理医疗数据完成脱敏处理，并输出脱敏医疗数据之后，可以对输出的脱敏医疗数据进行评估，以进一步筛选未被脱敏的一些常用敏感词，并将这些敏感词，扩展添加至敏感词库中，从而不断提高对于待处理医疗数据的脱敏质量。

图5是根据一示例性实施例示出的医疗数据处理装置的结构示意图。如图5所示，本实施例提供的医疗数据处理装置400，包括：

定位模块401，用于根据预设敏感词库定位待处理医疗数据中的敏感词集合；

处理模块402，用于根据预设脱敏规则对所述敏感词集合中敏感词进行脱敏处理，以将所述敏感词替换为脱敏字符串；

输出模块403，用于输出经所述脱敏处理完成后的脱敏医疗数据。

在一种可能的设计中，所述处理模块402，具体用于：

获取所述敏感词集合中每个所述敏感词的字符长度；

在一种可能的设计中，所述处理模块402，具体用于：

在一种可能的设计中，所述输出模块403，具体用于：

获取所述待处理医疗数据的第一文件格式信息；

在一种可能的设计中，所述处理模块402，还用于：

在一种可能的设计中，所述医疗数据为病历数据。

值得说明的，图5所示实施例中所提供的医疗数据处理装置，可用于执行上述任一实施例提供的方法，具体实现方式和技术效果类似，这里不再赘述。

以上处理模块402可以被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

图6为本发明根据一示例性实施例示出的电子设备的结构示意图。如图5所示，本实施例提供的一种电子设备500，包括：

处理器501；以及，

存储器502，用于存储所述处理器的可执行指令，该存储器还可以是flash(闪存)；

其中，所述处理器501配置为经由执行所述可执行指令来执行上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器502既可以是独立的，也可以跟处理器501集成在一起。

当所述存储器502是独立于处理器501之外的器件时，所述电子设备50，还可以包括：

总线503，用于连接所述处理器501以及所述存储器502。

本实施例还提供一种可读存储介质，可读存储介质中存储有计算机程序，当电子设备的至少一个处理器执行该计算机程序时，电子设备执行上述的各种实施方式提供的方法。

本实施例还提供一种程序产品，该程序产品包括计算机程序，该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种医疗数据处理方法，其特征在于，包括：

根据预设敏感词库定位待处理医疗数据中的敏感词集合；

输出经所述脱敏处理完成后的脱敏医疗数据。

2.根据权利要求1所述的医疗数据处理方法，其特征在于，所述根据预设脱敏规则对所述敏感词集合中敏感词进行脱敏处理，包括：

获取所述敏感词集合中每个所述敏感词的字符长度；

3.根据权利要求2所述的医疗数据处理方法，其特征在于，所述根据所述预设脱敏规则对所述排序后敏感词集合中所述敏感词依次进行所述脱敏处理，包括：

4.根据权利要求1-3中任意一项所述的医疗数据处理方法，其特征在于，所述输出经所述脱敏处理完成后的脱敏医疗数据，包括：

获取所述待处理医疗数据的第一文件格式信息；

5.根据权利要求4所述的医疗数据处理方法，其特征在于，所述第一文件格式信息为数据库格式、文本格式以及XML格式中的任意一种。

6.根据权利要求1-3中任意一项所述的医疗数据处理方法，其特征在于，所述预设敏感词库包括：地名库、姓名库、职业名称库、医院名称库、公司名称库以及诊所名称库中的至少一种。

7.根据权利要求1-3中任意一项所述的医疗数据处理方法，其特征在于，在所述输出经所述脱敏处理完成后的脱敏医疗数据之前，还包括：

8.根据权利要求7所述的医疗数据处理方法，其特征在于，所述预设正则表达式用于定位并替换邮政编码、电话号码、邮箱地址、身份证号码、病历编号以及医保卡编号中的至少一种。

9.根据权利要求1-3中任意一项所述的医疗数据处理方法，其特征在于，所述医疗数据为病历数据。

10.一种医疗数据处理装置，其特征在于，包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-9任一项所述的医疗数据处理方法。

12.一种电子设备，其特征在于，包括：

处理器；以及，

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任一项所述的医疗数据处理方法。