CN114255465A - 不规则医疗报告单图像中敏感信息脱敏方法及系统 - Google Patents
不规则医疗报告单图像中敏感信息脱敏方法及系统 Download PDFInfo
- Publication number
- CN114255465A CN114255465A CN202111567540.4A CN202111567540A CN114255465A CN 114255465 A CN114255465 A CN 114255465A CN 202111567540 A CN202111567540 A CN 202111567540A CN 114255465 A CN114255465 A CN 114255465A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- sensitive information
- medical report
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001788 irregular Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000000586 desensitisation Methods 0.000 claims abstract description 23
- 230000009466 transformation Effects 0.000 claims description 21
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 19
- 102100032202 Cornulin Human genes 0.000 claims description 14
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000003702 image correction Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Computer Security & Cryptography (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种不规则医疗报告单图像中敏感信息脱敏方法及系统,本发明的不规则医疗报告单图像中敏感信息脱敏方法及系统针对医疗报告单照片普遍存在的形变和扭曲问题,在对敏感信息进行脱敏时,首先对具有形变和扭曲的医疗报告单图像进行自动校正,并进一步准确识别敏感信息并对敏感信息精准定位,最终实现对敏感信息的打码脱敏。解决了业内长期存在的不规则医疗报告单中敏感信息的脱敏难题。
Description
技术领域
本发明涉及图像脱敏技术领域,特别涉及一种不规则医疗报告单图像中敏感信息脱敏方法及系统。
背景技术
随着互联网技术的迅速发展及普及应用,我们正在向“万物互联”时代迈进,日常生活中的各行各业都与互联网有着密不可分的联系。“互联网+医疗”是一个新兴的,并且与我们每个人都息息相关的领域。同时它也是我国医疗健康产业未来发展的新方向。在信息化时代,目前几乎所有的医院和绝大多数的诊所都已实现了完善的信息化的医疗系统。病人的检查结果和诊断信息最终都以医疗报告单的形式呈现出来,为医生和病人提供了很大的方便。同时,这些医疗报告单还具有很大的潜在价值,比如可以用在智能医疗、在线问诊以及医学研究等众多领域。但由于医疗报告单中存在着很多敏感信息,比如病人姓名、病人编号、联系方式,病人住址、医院名称、医生姓名等。为保证这些敏感信息在不会被泄露和恶意窃取的前提下能够继续发挥医疗报告单的潜在价值,需要利用相关的图像脱敏技术对医疗报告单中的敏感信息进行脱敏处理。
传统的图像脱敏技术通常采用替换图像的方式进行脱敏处理,但在需要脱敏的图像数量较大时,这种通过替换图像的脱敏处理容易产生遗漏以及由于疏忽导致的错误替换现象,使得用户的敏感信息不能得到很好的安全保障。目前,使用较多的图像脱敏技术通常针对图像中的敏感信息区域进行模糊处理,或者通过添加水印、添加马赛克等方式对敏感信息进行遮挡。这就需要对图片中需要脱敏的敏感信息区域进行准确的识别和定位,然后对敏感信息区域进行相应脱敏处理。
目前,所能收集到的医疗报告单,其中绝大部分均是由人工使用手机等电子设备手持拍摄的。这就造成了所收集的医疗报告单中存在程度不一的形变和扭曲现象,为敏感信息区域的识别和定位增加了难度。同时,所收集的医疗报告单的形式多种多样,敏感信息区域的分布具有很大的差别,为敏感信息的识别和定位进一步增加了困难。目前针对固定格式的医疗报告单的敏感信息脱敏已有相关的研究和较为成熟的技术,但针对这种人工手持设备拍摄的医疗报告单信息脱敏技术的研究较少,有很多存在的问题需要被解决。
发明内容
本发明要解决的技术问题是提供一种可将具有形变和扭曲的医疗报告单图像校正、准确识别出敏感信息并脱模的不规则医疗报告单图像中敏感信息脱敏方法。
为了解决上述问题,本发明提供了一种不规则医疗报告单图像中敏感信息脱敏方法,其包括以下步骤:
S1、利用霍夫变换对具有形变和扭曲的医疗报告单图像进行自动校正;
S2、使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测,得到所有文本信息的文本框位置坐标,所述文本框位置坐标为文本框四个顶点的像素位置;
S3、基于文本框位置坐标,使用训练好的CRNN模型对文本框中的文本信息进行识别,并得到相应的文本信息;
S4、基于得到的文本信息及预先设定的敏感信息范围,使用关键词匹配和THULAC词性标注,识别出文本信息中的敏感信息,并定位敏感信息区域的位置坐标;
S5、基于定位出的敏感信息区域的位置坐标,使用像素覆盖的方式对敏感信息区域进行脱敏处理。
作为本发明的进一步改进,步骤S1包括:
S11、利用霍夫变换检测出原始医疗报告单图像中文本信息的倾斜角度;
S12、基于原始医疗报告单图像及倾斜角度,计算出仿射变换矩阵;
S13、通过仿射变换矩阵得到校正后的医疗报告单图像。
作为本发明的进一步改进,步骤S2包括:使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测,得到包括医疗报告单中所有文本信息的文本框位置坐标的列表text_coor_list,列表text_coor_list中包含文本框四个顶点的像素位置。
作为本发明的进一步改进,步骤S3包括:
S31、将已校正的医疗报告单图像列表text_coor_list输入训练好的CRNN模型;
S32、遍历列表text_coor_list,基于每个文本框四个顶点的像素位置,将医疗报告单图像中对应的区域裁剪下来输入到训练好的CRNN模型中;
S33、输出识别结果列表text_cont_list,列表text_cont_list中的每个元素的形式为[corrdinate,content,confidence],分别表示每个文本框四个顶点像素位置、文本框中的文本内容和识别置信度。
作为本发明的进一步改进,步骤S4包括:
S41、遍历列表text_cont_list,使用THULAC对每个文本框的文本识别内容content进行分词,并标注词性,返回词性标注列表char_list;
S42、遍历词性标注列表char_list,判断当前词cur_word是否在预先设定的敏感信息集合sens_set中,如果在,则标注该词为敏感信息;如果不在,则根据词性进行进一步判断;
S43、根据已被标注为敏感信息的当前词cur_word,检索出该词在当前文本框中的索引位置text_ind和该词的长度text_len,然后根据当前文本框左上角和右下角的坐标位置,将该文本框按照汉字占两个字符,英文字母和单个数字占一个字符进行均等划分,即可确定已被标注为敏感信息的当前词cur_word在医疗报告单中的像素位置word_loc。
作为本发明的进一步改进,步骤S42中,根据词性进行进一步判断,包括:
S421、如果当前词cur_word的词性是人名,则标注当前词为敏感信息;
S422、如果当前词cur_word的词性是地名,则标注当前词为敏感信息;
S423、如果当前词cur_word的词性是数词,则根据数词长度进行判断;
S424、如果当前词cur_word的词性是电子邮箱,则标注当前词为敏感信息。
作为本发明的进一步改进,所述根据数词长度进行判断,包括:
如果当前词cur_word的长度是11位,并且以1开头,表示当前词cur_word为手机号,则标注该词为敏感信息;
如果当前词cur_word的长度是18位,并且符合身份证号码校验规则,表示当前词cur_word是身份证号码,则标注该词为敏感信息。
为了解决上述问题,本发明还提供了一种不规则医疗报告单图像中敏感信息脱敏系统,其包括以下模块:
图像自动校正模块,用于利用霍夫变换对具有形变和扭曲的医疗报告单图像进行自动校正;
文本信息检测模块,用于使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测,得到所有文本信息的文本框位置坐标;
文本信息识别模块,用于基于文本框位置坐标,使用训练好的CRNN模型对文本框中的文本信息进行识别,并得到相应的文本信息;
敏感信息识别与定位模块,用于基于得到的文本信息及预先设定的敏感信息范围,使用关键词匹配和THULAC词性标注,识别出文本信息中的敏感信息,并定位敏感信息区域的位置坐标;
图像脱敏模块,用于基于定位出的敏感信息区域的位置坐标,使用像素覆盖的方式对敏感信息区域进行脱敏处理。
作为本发明的进一步改进,所述图像自动校正模块,包括以下子模块:
倾斜角度检测子模块,用于利用霍夫变换检测出原始医疗报告单图像中文本信息的倾斜角度;
仿射变换矩阵子模块,用于基于原始医疗报告单图像及倾斜角度,计算出仿射变换矩阵;
图像校正子模块,用于通过仿射变换矩阵得到校正后的医疗报告单图像。
作为本发明的进一步改进,所述文本信息检测模块,用于使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测,得到包括医疗报告单中所有文本信息的文本框位置坐标的列表text_coor_list,列表text_coor_list中包含文本框四个顶点的像素位置。
本发明的有益效果:
本发明的不规则医疗报告单图像中敏感信息脱敏方法及系统针对医疗报告单照片普遍存在的形变和扭曲问题,在对敏感信息进行脱敏时,首先对具有形变和扭曲的医疗报告单图像进行自动校正,并进一步准确识别敏感信息并对敏感信息精准定位,最终实现对敏感信息的打码脱敏。解决了业内长期存在的不规则医疗报告单中敏感信息的脱敏难题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明优选实施例中基于不规则医疗报告单图像中敏感信息脱敏方法的流程图;
图2是本发明优选实施例中的敏感信息定位示意图;
图3是本发明优选实施例中基于不规则医疗报告单图像中敏感信息脱敏系统的示意图;
图4是本发明优选实施例中的原始医疗报告单图像;
图5是本发明优选实施例中校正后的医疗报告单图像;
图6是本发明优选实施例中脱敏后的医疗报告单图像。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
如图1所示,为本发明优选实施例中基于不规则医疗报告单图像中敏感信息脱敏方法,包括以下步骤:
步骤S1、利用霍夫变换对具有形变和扭曲的医疗报告单图像进行自动校正;可选地,步骤S1包括以下步骤:
步骤S11、利用霍夫变换检测出原始医疗报告单图像中文本信息的倾斜角度;
步骤S12、基于原始医疗报告单图像及倾斜角度,计算出仿射变换矩阵;
步骤S13、通过仿射变换矩阵得到校正后的医疗报告单图像。
具体地,输入原始医疗报告单图像image_ori,利用霍夫变换检测出原始医疗报告单image_ori中文本信息的倾斜角度θ,然后基于原始医疗报告单图像image_ori及倾斜角度θ,计算出仿射变换矩阵M,最后通过仿射变换矩阵M得到已校正的医疗报告单图像image_rot=M×image_ori。
步骤S2、使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测,得到所有文本信息的文本框位置坐标,所述文本框位置坐标为文本框四个顶点的像素位置;
可选地,步骤S2包括:使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测,得到包括医疗报告单中所有文本信息的文本框位置坐标的列表text_coor_list,列表text_coor_list中包含文本框四个顶点的像素位置。
步骤S3、基于文本框位置坐标,使用训练好的CRNN模型对文本框中的文本信息进行识别,并得到相应的文本信息;可选地,步骤S3包括以下步骤:
步骤S31、将已校正的医疗报告单图像列表text_coor_list输入训练好的CRNN模型;
步骤S32、遍历列表text_coor_list,基于每个文本框四个顶点的像素位置,将医疗报告单图像中对应的区域裁剪下来输入到训练好的CRNN模型中;
步骤S33、输出识别结果列表text_cont_list,列表text_cont_list中的每个元素的形式为[corrdinate,content,confidence],分别表示每个文本框四个顶点像素位置、文本框中的文本内容和识别置信度。
步骤S4、基于得到的文本信息及预先设定的敏感信息范围,使用关键词匹配和THULAC词性标注,识别出文本信息中的敏感信息,并定位敏感信息区域的位置坐标;可选地,步骤S4包括:
步骤S41、遍历列表text_cont_list,使用THULAC对每个文本框的文本识别内容content进行分词,并标注词性,返回词性标注列表char_list;
步骤S42、遍历词性标注列表char_list,判断当前词cur_word是否在预先设定的敏感信息集合sens_set中,如果在,则标注该词为敏感信息;如果不在,则根据词性进行进一步判断;进一步地,步骤S42中,根据词性进行进一步判断,包括:
步骤S421、如果当前词cur_word的词性是人名,则标注当前词为敏感信息;
步骤S422、如果当前词cur_word的词性是地名,则标注当前词为敏感信息;
步骤S423、如果当前词cur_word的词性是数词,则根据数词长度进行判断;具体包括:
如果当前词cur_word的长度是11位,并且以1开头,表示当前词cur_word为手机号,则标注该词为敏感信息;
如果当前词cur_word的长度是18位,并且符合身份证号码校验规则,表示当前词cur_word是身份证号码,则标注该词为敏感信息。
步骤S424、如果当前词cur_word的词性是电子邮箱,则标注当前词为敏感信息。
步骤S43、根据已被标注为敏感信息的当前词cur_word,检索出该词在当前文本框中的索引位置text_ind和该词的长度text_len,然后根据当前文本框左上角和右下角的坐标位置(w1,h1)和(w2,h2),参照图2,将该文本框按照汉字占两个字符,英文字母和单个数字占一个字符进行均等划分,即可确定已被标注为敏感信息的当前词cur_word在医疗报告单中的像素位置word_loc。
步骤S5、基于定位出的敏感信息区域的位置坐标,使用像素覆盖的方式对敏感信息区域进行脱敏处理。
具体地,对已校正的医疗报告单图像和包含该图像中所有敏感信息区域的像素位置列表word_loc_list,遍历该位置列表word_loc_list,将图像中的敏感区域进行像素覆盖处理,达到对医疗报告单中敏感信息的保护作用。
本发明的不规则医疗报告单图像中敏感信息脱敏方法针对医疗报告单照片普遍存在的形变和扭曲问题,在对敏感信息进行脱敏时,首先对具有形变和扭曲的医疗报告单图像进行自动校正,并进一步准确识别敏感信息并对敏感信息精准定位,最终实现对敏感信息的打码脱敏。解决了业内长期存在的不规则医疗报告单中敏感信息的脱敏难题。
本发明优选实施例还公开了一种不规则医疗报告单图像中敏感信息脱敏系统,所述不规则医疗报告单图像中敏感信息脱敏系统包括以下模块:
图像自动校正模块,用于利用霍夫变换对具有形变和扭曲的医疗报告单图像进行自动校正;可选地,所述图像自动校正模块,包括以下子模块:
倾斜角度检测子模块,用于利用霍夫变换检测出原始医疗报告单图像中文本信息的倾斜角度;
仿射变换矩阵子模块,用于基于原始医疗报告单图像及倾斜角度,计算出仿射变换矩阵;
图像校正子模块,用于通过仿射变换矩阵得到校正后的医疗报告单图像。
具体地,输入原始医疗报告单图像image_ori,利用霍夫变换检测出原始医疗报告单image_ori中文本信息的倾斜角度θ,然后基于原始医疗报告单图像image_ori及倾斜角度θ,计算出仿射变换矩阵M,最后通过仿射变换矩阵M得到已校正的医疗报告单图像image_rot=M×image_ori。
文本信息检测模块,用于使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测,得到所有文本信息的文本框位置坐标;
具体地,所述文本信息检测模块用于使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测,得到包括医疗报告单中所有文本信息的文本框位置坐标的列表text_coor_list,列表text_coor_list中包含文本框四个顶点的像素位置。
文本信息识别模块,用于基于文本框位置坐标,使用训练好的CRNN模型对文本框中的文本信息进行识别,并得到相应的文本信息;
具体地,所述文本信息识别模块用于执行以下步骤:
步骤S31、将已校正的医疗报告单图像列表text_coor_list输入训练好的CRNN模型;
步骤S32、遍历列表text_coor_list,基于每个文本框四个顶点的像素位置,将医疗报告单图像中对应的区域裁剪下来输入到训练好的CRNN模型中;
步骤S33、输出识别结果列表text_cont_list,列表text_cont_list中的每个元素的形式为[corrdinate,content,confidence],分别表示每个文本框四个顶点像素位置、文本框中的文本内容和识别置信度。
敏感信息识别与定位模块,用于基于得到的文本信息及预先设定的敏感信息范围,使用关键词匹配和THULAC词性标注,识别出文本信息中的敏感信息,并定位敏感信息区域的位置坐标;
具体地,所述敏感信息识别与定位模块用于执行以下步骤:
步骤S41、遍历列表text_cont_list,使用THULAC对每个文本框的文本识别内容content进行分词,并标注词性,返回词性标注列表char_list;
步骤S42、遍历词性标注列表char_list,判断当前词cur_word是否在预先设定的敏感信息集合sens_set中,如果在,则标注该词为敏感信息;如果不在,则根据词性进行进一步判断;进一步地,步骤S42中,根据词性进行进一步判断,包括:
步骤S421、如果当前词cur_word的词性是人名,则标注当前词为敏感信息;
步骤S422、如果当前词cur_word的词性是地名,则标注当前词为敏感信息;
步骤S423、如果当前词cur_word的词性是数词,则根据数词长度进行判断;具体包括:
如果当前词cur_word的长度是11位,并且以1开头,表示当前词cur_word为手机号,则标注该词为敏感信息;
如果当前词cur_word的长度是18位,并且符合身份证号码校验规则,表示当前词cur_word是身份证号码,则标注该词为敏感信息。
步骤S424、如果当前词cur_word的词性是电子邮箱,则标注当前词为敏感信息。
步骤S43、根据已被标注为敏感信息的当前词cur_word,检索出该词在当前文本框中的索引位置text_ind和该词的长度text_len,然后根据当前文本框左上角和右下角的坐标位置(w1,h1)和(w2,h2),参照图2,将该文本框按照汉字占两个字符,英文字母和单个数字占一个字符进行均等划分,即可确定已被标注为敏感信息的当前词cur_word在医疗报告单中的像素位置word_loc。
图像脱敏模块,用于基于定位出的敏感信息区域的位置坐标,使用像素覆盖的方式对敏感信息区域进行脱敏处理。
具体地,对已校正的医疗报告单图像和包含该图像中所有敏感信息区域的像素位置列表word_loc_list,遍历该位置列表word_loc_list,将图像中的敏感区域进行像素覆盖处理,达到对医疗报告单中敏感信息的保护作用。
为了验证本发明的有效性,在其中一实施例中,利用本发明的不规则医疗报告单图像中敏感信息脱敏方法对真实医疗报告单图像进行脱模处理,其中,原始医疗报告单图像如图4所示,经过校正后的医疗报告单图像如图5所示,最终脱敏后的医疗报告单图像为图6。自此验证了本发明不规则医疗报告单图像中敏感信息脱敏方法的可行性和有效性。
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (10)
1.一种不规则医疗报告单图像中敏感信息脱敏方法,其特征在于,包括以下步骤:
S1、利用霍夫变换对具有形变和扭曲的医疗报告单图像进行自动校正;
S2、使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测,得到所有文本信息的文本框位置坐标,所述文本框位置坐标为文本框四个顶点的像素位置;
S3、基于文本框位置坐标,使用训练好的CRNN模型对文本框中的文本信息进行识别,并得到相应的文本信息;
S4、基于得到的文本信息及预先设定的敏感信息范围,使用关键词匹配和THULAC词性标注,识别出文本信息中的敏感信息,并定位敏感信息区域的位置坐标;
S5、基于定位出的敏感信息区域的位置坐标,使用像素覆盖的方式对敏感信息区域进行脱敏处理。
2.如权利要求1所述的不规则医疗报告单图像中敏感信息脱敏方法,其特征在于,步骤S1包括:
S11、利用霍夫变换检测出原始医疗报告单图像中文本信息的倾斜角度;
S12、基于原始医疗报告单图像及倾斜角度,计算出仿射变换矩阵;
S13、通过仿射变换矩阵得到校正后的医疗报告单图像。
3.如权利要求1所述的不规则医疗报告单图像中敏感信息脱敏方法,其特征在于,步骤S2包括:使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测,得到包括医疗报告单中所有文本信息的文本框位置坐标的列表text_coor_list,列表text_coor_list中包含文本框四个顶点的像素位置。
4.如权利要求1所述的不规则医疗报告单图像中敏感信息脱敏方法,其特征在于,步骤S3包括:
S31、将已校正的医疗报告单图像列表text_coor_list输入训练好的CRNN模型;
S32、遍历列表text_coor_list,基于每个文本框四个顶点的像素位置,将医疗报告单图像中对应的区域裁剪下来输入到训练好的CRNN模型中;
S33、输出识别结果列表text_cont_list,列表text_cont_list中的每个元素的形式为[corrdinate,content,confidence],分别表示每个文本框四个顶点像素位置、文本框中的文本内容和识别置信度。
5.如权利要求4所述的不规则医疗报告单图像中敏感信息脱敏方法,其特征在于,步骤S4包括:
S41、遍历列表text_cont_list,使用THULAC对每个文本框的文本识别内容content进行分词,并标注词性,返回词性标注列表char_list;
S42、遍历词性标注列表char_list,判断当前词cur_word是否在预先设定的敏感信息集合sens_set中,如果在,则标注该词为敏感信息;如果不在,则根据词性进行进一步判断;
S43、根据已被标注为敏感信息的当前词cur_word,检索出该词在当前文本框中的索引位置text_ind和该词的长度text_len,然后根据当前文本框左上角和右下角的坐标位置,将该文本框按照汉字占两个字符,英文字母和单个数字占一个字符进行均等划分,即可确定已被标注为敏感信息的当前词cur_word在医疗报告单中的像素位置word_loc。
6.如权利要求5所述的不规则医疗报告单图像中敏感信息脱敏方法,其特征在于,步骤S42中,根据词性进行进一步判断,包括:
S421、如果当前词cur_word的词性是人名,则标注当前词为敏感信息;
S422、如果当前词cur_word的词性是地名,则标注当前词为敏感信息;
S423、如果当前词cur_word的词性是数词,则根据数词长度进行判断;
S424、如果当前词cur_word的词性是电子邮箱,则标注当前词为敏感信息。
7.如权利要求6所述的不规则医疗报告单图像中敏感信息脱敏方法,其特征在于,所述根据数词长度进行判断,包括:
如果当前词cur_word的长度是11位,并且以1开头,表示当前词cur_word为手机号,则标注该词为敏感信息;
如果当前词cur_word的长度是18位,并且符合身份证号码校验规则,表示当前词cur_word是身份证号码,则标注该词为敏感信息。
8.一种不规则医疗报告单图像中敏感信息脱敏系统,其特征在于,包括以下模块:
图像自动校正模块,用于利用霍夫变换对具有形变和扭曲的医疗报告单图像进行自动校正;
文本信息检测模块,用于使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测,得到所有文本信息的文本框位置坐标;
文本信息识别模块,用于基于文本框位置坐标,使用训练好的CRNN模型对文本框中的文本信息进行识别,并得到相应的文本信息;
敏感信息识别与定位模块,用于基于得到的文本信息及预先设定的敏感信息范围,使用关键词匹配和THULAC词性标注,识别出文本信息中的敏感信息,并定位敏感信息区域的位置坐标;
图像脱敏模块,用于基于定位出的敏感信息区域的位置坐标,使用像素覆盖的方式对敏感信息区域进行脱敏处理。
9.如权利要求8所述的不规则医疗报告单图像中敏感信息脱敏系统,其特征在于,所述图像自动校正模块,包括以下子模块:
倾斜角度检测子模块,用于利用霍夫变换检测出原始医疗报告单图像中文本信息的倾斜角度;
仿射变换矩阵子模块,用于基于原始医疗报告单图像及倾斜角度,计算出仿射变换矩阵;
图像校正子模块,用于通过仿射变换矩阵得到校正后的医疗报告单图像。
10.如权利要求8所述的不规则医疗报告单图像中敏感信息脱敏系统,其特征在于,所述文本信息检测模块,用于使用训练好的DBNet模型对已校正的医疗报告单图像进行文本信息检测,得到包括医疗报告单中所有文本信息的文本框位置坐标的列表text_coor_list,列表text_coor_list中包含文本框四个顶点的像素位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111567540.4A CN114255465A (zh) | 2021-12-20 | 2021-12-20 | 不规则医疗报告单图像中敏感信息脱敏方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111567540.4A CN114255465A (zh) | 2021-12-20 | 2021-12-20 | 不规则医疗报告单图像中敏感信息脱敏方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114255465A true CN114255465A (zh) | 2022-03-29 |
Family
ID=80793360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111567540.4A Pending CN114255465A (zh) | 2021-12-20 | 2021-12-20 | 不规则医疗报告单图像中敏感信息脱敏方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114255465A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792423A (zh) * | 2022-05-20 | 2022-07-26 | 北京百度网讯科技有限公司 | 文档图像的处理方法、装置和存储介质 |
-
2021
- 2021-12-20 CN CN202111567540.4A patent/CN114255465A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792423A (zh) * | 2022-05-20 | 2022-07-26 | 北京百度网讯科技有限公司 | 文档图像的处理方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008933B (zh) | 一种通用智能阅卷系统和方法 | |
CN112037077B (zh) | 基于人工智能的印章识别方法、装置、设备及存储介质 | |
US10198661B2 (en) | System for determining alignment of a user-marked document and method thereof | |
CN110807454B (zh) | 基于图像分割的文字定位方法、装置、设备及存储介质 | |
CN105260733A (zh) | 用于处理图像信息的方法和装置 | |
CN112418206B (zh) | 基于位置检测模型的图片分类方法及其相关设备 | |
CN106934767A (zh) | 一种试卷生成及评分方法及系统 | |
CN109242856A (zh) | 一种纸质作业电子化批阅方法及装置 | |
CN114359553B (zh) | 一种基于物联网的签章定位方法、系统及存储介质 | |
CN107895142A (zh) | 一种基于视觉标记的试卷试题内容自动分割方法及系统 | |
WO2021143058A1 (zh) | 基于图像的信息比对方法、装置、电子设备及计算机可读存储介质 | |
CN107067399A (zh) | 一种试卷图像分割处理方法 | |
CN112308046A (zh) | 图像的文本区域定位方法、装置、服务器及可读存储介质 | |
CN114255465A (zh) | 不规则医疗报告单图像中敏感信息脱敏方法及系统 | |
CN112580108A (zh) | 签名和印章完整性验证方法及计算机设备 | |
CN112749649A (zh) | 一种智能识别并生成电子合同的方法及系统 | |
CN112396057B (zh) | 一种字符识别方法、装置及电子设备 | |
CN117131385A (zh) | 标签内容校对方法 | |
CN116994269A (zh) | 一种图像文档中印章相似度比对方法及对比系统 | |
CN111666882A (zh) | 一种手写体试题答案提取方法 | |
CN111414914A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN111967469B (zh) | 一种畸形文本矫正方法、系统及文字识别方法 | |
CN113627442A (zh) | 医疗信息的录入方法、装置、设备及存储介质 | |
CN113936286A (zh) | 图像文本识别方法、装置、计算机设备及存储介质 | |
CN107045635A (zh) | 一种网上阅卷系统的试卷图像分页分题处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |