CN114255465A

CN114255465A - 不规则医疗报告单图像中敏感信息脱敏方法及系统

Info

Publication number: CN114255465A
Application number: CN202111567540.4A
Authority: CN
Inventors: 王珏
Original assignee: Suzhou Liangyihui Network Technology Co ltd
Current assignee: Suzhou Liangyihui Network Technology Co ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-29

Abstract

本发明公开了一种不规则医疗报告单图像中敏感信息脱敏方法及系统，本发明的不规则医疗报告单图像中敏感信息脱敏方法及系统针对医疗报告单照片普遍存在的形变和扭曲问题，在对敏感信息进行脱敏时，首先对具有形变和扭曲的医疗报告单图像进行自动校正，并进一步准确识别敏感信息并对敏感信息精准定位，最终实现对敏感信息的打码脱敏。解决了业内长期存在的不规则医疗报告单中敏感信息的脱敏难题。

Description

不规则医疗报告单图像中敏感信息脱敏方法及系统

技术领域

本发明涉及图像脱敏技术领域，特别涉及一种不规则医疗报告单图像中敏感信息脱敏方法及系统。

背景技术

随着互联网技术的迅速发展及普及应用，我们正在向“万物互联”时代迈进，日常生活中的各行各业都与互联网有着密不可分的联系。“互联网+医疗”是一个新兴的，并且与我们每个人都息息相关的领域。同时它也是我国医疗健康产业未来发展的新方向。在信息化时代，目前几乎所有的医院和绝大多数的诊所都已实现了完善的信息化的医疗系统。病人的检查结果和诊断信息最终都以医疗报告单的形式呈现出来，为医生和病人提供了很大的方便。同时，这些医疗报告单还具有很大的潜在价值，比如可以用在智能医疗、在线问诊以及医学研究等众多领域。但由于医疗报告单中存在着很多敏感信息，比如病人姓名、病人编号、联系方式，病人住址、医院名称、医生姓名等。为保证这些敏感信息在不会被泄露和恶意窃取的前提下能够继续发挥医疗报告单的潜在价值，需要利用相关的图像脱敏技术对医疗报告单中的敏感信息进行脱敏处理。

传统的图像脱敏技术通常采用替换图像的方式进行脱敏处理，但在需要脱敏的图像数量较大时，这种通过替换图像的脱敏处理容易产生遗漏以及由于疏忽导致的错误替换现象，使得用户的敏感信息不能得到很好的安全保障。目前，使用较多的图像脱敏技术通常针对图像中的敏感信息区域进行模糊处理，或者通过添加水印、添加马赛克等方式对敏感信息进行遮挡。这就需要对图片中需要脱敏的敏感信息区域进行准确的识别和定位，然后对敏感信息区域进行相应脱敏处理。

目前，所能收集到的医疗报告单，其中绝大部分均是由人工使用手机等电子设备手持拍摄的。这就造成了所收集的医疗报告单中存在程度不一的形变和扭曲现象，为敏感信息区域的识别和定位增加了难度。同时，所收集的医疗报告单的形式多种多样，敏感信息区域的分布具有很大的差别，为敏感信息的识别和定位进一步增加了困难。目前针对固定格式的医疗报告单的敏感信息脱敏已有相关的研究和较为成熟的技术，但针对这种人工手持设备拍摄的医疗报告单信息脱敏技术的研究较少，有很多存在的问题需要被解决。

发明内容

本发明要解决的技术问题是提供一种可将具有形变和扭曲的医疗报告单图像校正、准确识别出敏感信息并脱模的不规则医疗报告单图像中敏感信息脱敏方法。

为了解决上述问题，本发明提供了一种不规则医疗报告单图像中敏感信息脱敏方法，其包括以下步骤：

S1、利用霍夫变换对具有形变和扭曲的医疗报告单图像进行自动校正；

S2、使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测，得到所有文本信息的文本框位置坐标，所述文本框位置坐标为文本框四个顶点的像素位置；

S3、基于文本框位置坐标，使用训练好的CRNN模型对文本框中的文本信息进行识别，并得到相应的文本信息；

S4、基于得到的文本信息及预先设定的敏感信息范围，使用关键词匹配和THULAC词性标注，识别出文本信息中的敏感信息，并定位敏感信息区域的位置坐标；

S5、基于定位出的敏感信息区域的位置坐标，使用像素覆盖的方式对敏感信息区域进行脱敏处理。

作为本发明的进一步改进，步骤S1包括：

S11、利用霍夫变换检测出原始医疗报告单图像中文本信息的倾斜角度；

S12、基于原始医疗报告单图像及倾斜角度，计算出仿射变换矩阵；

S13、通过仿射变换矩阵得到校正后的医疗报告单图像。

作为本发明的进一步改进，步骤S2包括：使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测，得到包括医疗报告单中所有文本信息的文本框位置坐标的列表text_coor_list，列表text_coor_list中包含文本框四个顶点的像素位置。

作为本发明的进一步改进，步骤S3包括：

S31、将已校正的医疗报告单图像列表text_coor_list输入训练好的CRNN模型；

S32、遍历列表text_coor_list，基于每个文本框四个顶点的像素位置，将医疗报告单图像中对应的区域裁剪下来输入到训练好的CRNN模型中；

S33、输出识别结果列表text_cont_list，列表text_cont_list中的每个元素的形式为[corrdinate,content,confidence]，分别表示每个文本框四个顶点像素位置、文本框中的文本内容和识别置信度。

作为本发明的进一步改进，步骤S4包括：

S41、遍历列表text_cont_list，使用THULAC对每个文本框的文本识别内容content进行分词，并标注词性，返回词性标注列表char_list；

S42、遍历词性标注列表char_list，判断当前词cur_word是否在预先设定的敏感信息集合sens_set中，如果在，则标注该词为敏感信息；如果不在，则根据词性进行进一步判断；

S43、根据已被标注为敏感信息的当前词cur_word，检索出该词在当前文本框中的索引位置text_ind和该词的长度text_len，然后根据当前文本框左上角和右下角的坐标位置，将该文本框按照汉字占两个字符，英文字母和单个数字占一个字符进行均等划分，即可确定已被标注为敏感信息的当前词cur_word在医疗报告单中的像素位置word_loc。

作为本发明的进一步改进，步骤S42中，根据词性进行进一步判断，包括：

S421、如果当前词cur_word的词性是人名，则标注当前词为敏感信息；

S422、如果当前词cur_word的词性是地名，则标注当前词为敏感信息；

S423、如果当前词cur_word的词性是数词，则根据数词长度进行判断；

S424、如果当前词cur_word的词性是电子邮箱，则标注当前词为敏感信息。

作为本发明的进一步改进，所述根据数词长度进行判断，包括：

如果当前词cur_word的长度是11位，并且以1开头，表示当前词cur_word为手机号，则标注该词为敏感信息；

如果当前词cur_word的长度是18位，并且符合身份证号码校验规则，表示当前词cur_word是身份证号码，则标注该词为敏感信息。

为了解决上述问题，本发明还提供了一种不规则医疗报告单图像中敏感信息脱敏系统，其包括以下模块：

图像自动校正模块，用于利用霍夫变换对具有形变和扭曲的医疗报告单图像进行自动校正；

文本信息检测模块，用于使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测，得到所有文本信息的文本框位置坐标；

文本信息识别模块，用于基于文本框位置坐标，使用训练好的CRNN模型对文本框中的文本信息进行识别，并得到相应的文本信息；

敏感信息识别与定位模块，用于基于得到的文本信息及预先设定的敏感信息范围，使用关键词匹配和THULAC词性标注，识别出文本信息中的敏感信息，并定位敏感信息区域的位置坐标；

图像脱敏模块，用于基于定位出的敏感信息区域的位置坐标，使用像素覆盖的方式对敏感信息区域进行脱敏处理。

作为本发明的进一步改进，所述图像自动校正模块，包括以下子模块：

倾斜角度检测子模块，用于利用霍夫变换检测出原始医疗报告单图像中文本信息的倾斜角度；

仿射变换矩阵子模块，用于基于原始医疗报告单图像及倾斜角度，计算出仿射变换矩阵；

图像校正子模块，用于通过仿射变换矩阵得到校正后的医疗报告单图像。

作为本发明的进一步改进，所述文本信息检测模块，用于使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测，得到包括医疗报告单中所有文本信息的文本框位置坐标的列表text_coor_list，列表text_coor_list中包含文本框四个顶点的像素位置。

本发明的有益效果：

本发明的不规则医疗报告单图像中敏感信息脱敏方法及系统针对医疗报告单照片普遍存在的形变和扭曲问题，在对敏感信息进行脱敏时，首先对具有形变和扭曲的医疗报告单图像进行自动校正，并进一步准确识别敏感信息并对敏感信息精准定位，最终实现对敏感信息的打码脱敏。解决了业内长期存在的不规则医疗报告单中敏感信息的脱敏难题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明优选实施例中基于不规则医疗报告单图像中敏感信息脱敏方法的流程图；

图2是本发明优选实施例中的敏感信息定位示意图；

图3是本发明优选实施例中基于不规则医疗报告单图像中敏感信息脱敏系统的示意图；

图4是本发明优选实施例中的原始医疗报告单图像；

图5是本发明优选实施例中校正后的医疗报告单图像；

图6是本发明优选实施例中脱敏后的医疗报告单图像。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

如图1所示，为本发明优选实施例中基于不规则医疗报告单图像中敏感信息脱敏方法，包括以下步骤：

步骤S1、利用霍夫变换对具有形变和扭曲的医疗报告单图像进行自动校正；可选地，步骤S1包括以下步骤：

步骤S11、利用霍夫变换检测出原始医疗报告单图像中文本信息的倾斜角度；

步骤S12、基于原始医疗报告单图像及倾斜角度，计算出仿射变换矩阵；

步骤S13、通过仿射变换矩阵得到校正后的医疗报告单图像。

具体地，输入原始医疗报告单图像image_ori，利用霍夫变换检测出原始医疗报告单image_ori中文本信息的倾斜角度θ，然后基于原始医疗报告单图像image_ori及倾斜角度θ，计算出仿射变换矩阵M，最后通过仿射变换矩阵M得到已校正的医疗报告单图像image_rot＝M×image_ori。

步骤S2、使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测，得到所有文本信息的文本框位置坐标，所述文本框位置坐标为文本框四个顶点的像素位置；

可选地，步骤S2包括：使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测，得到包括医疗报告单中所有文本信息的文本框位置坐标的列表text_coor_list，列表text_coor_list中包含文本框四个顶点的像素位置。

步骤S3、基于文本框位置坐标，使用训练好的CRNN模型对文本框中的文本信息进行识别，并得到相应的文本信息；可选地，步骤S3包括以下步骤：

步骤S31、将已校正的医疗报告单图像列表text_coor_list输入训练好的CRNN模型；

步骤S32、遍历列表text_coor_list，基于每个文本框四个顶点的像素位置，将医疗报告单图像中对应的区域裁剪下来输入到训练好的CRNN模型中；

步骤S33、输出识别结果列表text_cont_list，列表text_cont_list中的每个元素的形式为[corrdinate,content,confidence]，分别表示每个文本框四个顶点像素位置、文本框中的文本内容和识别置信度。

步骤S4、基于得到的文本信息及预先设定的敏感信息范围，使用关键词匹配和THULAC词性标注，识别出文本信息中的敏感信息，并定位敏感信息区域的位置坐标；可选地，步骤S4包括：

步骤S41、遍历列表text_cont_list，使用THULAC对每个文本框的文本识别内容content进行分词，并标注词性，返回词性标注列表char_list；

步骤S42、遍历词性标注列表char_list，判断当前词cur_word是否在预先设定的敏感信息集合sens_set中，如果在，则标注该词为敏感信息；如果不在，则根据词性进行进一步判断；进一步地，步骤S42中，根据词性进行进一步判断，包括：

步骤S421、如果当前词cur_word的词性是人名，则标注当前词为敏感信息；

步骤S422、如果当前词cur_word的词性是地名，则标注当前词为敏感信息；

步骤S423、如果当前词cur_word的词性是数词，则根据数词长度进行判断；具体包括：

步骤S424、如果当前词cur_word的词性是电子邮箱，则标注当前词为敏感信息。

步骤S43、根据已被标注为敏感信息的当前词cur_word，检索出该词在当前文本框中的索引位置text_ind和该词的长度text_len，然后根据当前文本框左上角和右下角的坐标位置(w₁,h₁)和(w₂,h₂)，参照图2，将该文本框按照汉字占两个字符，英文字母和单个数字占一个字符进行均等划分，即可确定已被标注为敏感信息的当前词cur_word在医疗报告单中的像素位置word_loc。

步骤S5、基于定位出的敏感信息区域的位置坐标，使用像素覆盖的方式对敏感信息区域进行脱敏处理。

具体地，对已校正的医疗报告单图像和包含该图像中所有敏感信息区域的像素位置列表word_loc_list，遍历该位置列表word_loc_list，将图像中的敏感区域进行像素覆盖处理，达到对医疗报告单中敏感信息的保护作用。

本发明的不规则医疗报告单图像中敏感信息脱敏方法针对医疗报告单照片普遍存在的形变和扭曲问题，在对敏感信息进行脱敏时，首先对具有形变和扭曲的医疗报告单图像进行自动校正，并进一步准确识别敏感信息并对敏感信息精准定位，最终实现对敏感信息的打码脱敏。解决了业内长期存在的不规则医疗报告单中敏感信息的脱敏难题。

本发明优选实施例还公开了一种不规则医疗报告单图像中敏感信息脱敏系统，所述不规则医疗报告单图像中敏感信息脱敏系统包括以下模块：

图像自动校正模块，用于利用霍夫变换对具有形变和扭曲的医疗报告单图像进行自动校正；可选地，所述图像自动校正模块，包括以下子模块：

具体地，所述文本信息检测模块用于使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测，得到包括医疗报告单中所有文本信息的文本框位置坐标的列表text_coor_list，列表text_coor_list中包含文本框四个顶点的像素位置。

具体地，所述文本信息识别模块用于执行以下步骤：

具体地，所述敏感信息识别与定位模块用于执行以下步骤：

为了验证本发明的有效性，在其中一实施例中，利用本发明的不规则医疗报告单图像中敏感信息脱敏方法对真实医疗报告单图像进行脱模处理，其中，原始医疗报告单图像如图4所示，经过校正后的医疗报告单图像如图5所示，最终脱敏后的医疗报告单图像为图6。自此验证了本发明不规则医疗报告单图像中敏感信息脱敏方法的可行性和有效性。

以上实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种不规则医疗报告单图像中敏感信息脱敏方法，其特征在于，包括以下步骤：

2.如权利要求1所述的不规则医疗报告单图像中敏感信息脱敏方法，其特征在于，步骤S1包括：

S13、通过仿射变换矩阵得到校正后的医疗报告单图像。

3.如权利要求1所述的不规则医疗报告单图像中敏感信息脱敏方法，其特征在于，步骤S2包括：使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测，得到包括医疗报告单中所有文本信息的文本框位置坐标的列表text_coor_list，列表text_coor_list中包含文本框四个顶点的像素位置。

4.如权利要求1所述的不规则医疗报告单图像中敏感信息脱敏方法，其特征在于，步骤S3包括：

5.如权利要求4所述的不规则医疗报告单图像中敏感信息脱敏方法，其特征在于，步骤S4包括：

6.如权利要求5所述的不规则医疗报告单图像中敏感信息脱敏方法，其特征在于，步骤S42中，根据词性进行进一步判断，包括：

7.如权利要求6所述的不规则医疗报告单图像中敏感信息脱敏方法，其特征在于，所述根据数词长度进行判断，包括：

8.一种不规则医疗报告单图像中敏感信息脱敏系统，其特征在于，包括以下模块：

9.如权利要求8所述的不规则医疗报告单图像中敏感信息脱敏系统，其特征在于，所述图像自动校正模块，包括以下子模块：

10.如权利要求8所述的不规则医疗报告单图像中敏感信息脱敏系统，其特征在于，所述文本信息检测模块，用于使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测，得到包括医疗报告单中所有文本信息的文本框位置坐标的列表text_coor_list，列表text_coor_list中包含文本框四个顶点的像素位置。