CN115688166A - 信息脱敏处理方法、装置、计算机设备及可读存储介质 - Google Patents
信息脱敏处理方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN115688166A CN115688166A CN202211233979.8A CN202211233979A CN115688166A CN 115688166 A CN115688166 A CN 115688166A CN 202211233979 A CN202211233979 A CN 202211233979A CN 115688166 A CN115688166 A CN 115688166A
- Authority
- CN
- China
- Prior art keywords
- medical record
- picture
- desensitization
- information
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供一种信息脱敏处理方法、装置、计算机设备及可读存储介质,包括:接收病历图片,提取病历图片的属性信息;若能够根据属性信息确定病历图片的病历类型,则从模板库中获取相应于病历类型的脱敏模板;若无法根据属性信息确定病历图片的病历类型,则通过裁剪规则从病历图片上裁切标识图片,对标识图片进行文本识别得到图片文本信息,及对图片文本信息进行命名实体识别得到命名词组;若能够根据命名词组确定病历图片的病历类型,则从模板库中获取相应于病历类型的脱敏模板;基于脱敏模板对病历图片进行脱敏处理得到脱敏图片。本申请不仅提高了脱敏处理的效率,还在面对大量的病历图片的脱敏作业时,仍然可以保持较高的准确度。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种信息脱敏处理方法、装置、计算机设备及可读存储介质。
背景技术
病案记录了患者的整个诊疗过程,是非常重要的医学资料,在质量管理、诊疗水平提升、临床教学和科研上都有举足轻重的作用。目前是纸质患者病历和患者病历数字化翻拍共存时期,在产生的各种图片类型病历中在科研以及实验中都会作为重要的数据分析依据,在对这些资源进行使用时,就需要对图片上的敏感信息进行不同维度不同程度的脱敏处理,以在保障用户隐私安全前提下使用。
然而,发明人发现,当前对病历信息中的敏感信息的识别,及对其进行脱敏处理的操作通常是采用人工作业,不仅效率缓慢,而且在面对大量病历图片需要脱敏的情况时,人工作业很容易因长时间作业造成脱敏准确度低下的情况发生。
发明内容
本申请提供的信息脱敏处理方法、装置、计算机设备及可读存储介质,用以解决当前脱敏处理效率缓慢,以及在面对大量病历图片需要脱敏的情况时,脱敏准确度低下的情况发生的问题。
第一方面,本申请提供一种信息脱敏处理方法,包括:
接收病历图片,提取所述病历图片的属性信息,其中,所述属性信息描述了所述病历图片的特征和/或表征了所述病历图片的来源;
若能够根据所述属性信息确定所述病历图片的病历类型,则从预置的模板库中获取相应于所述病历类型的脱敏模板;
若无法根据所述属性信息确定所述病历图片的病历类型,则通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,及对所述图片文本信息进行命名实体识别得到命名词组;
若能够根据所述命名词组确定所述病历图片的病历类型,则从所述模板库中获取相应于所述病历类型的脱敏模板;
基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片。
上述方案中,所述通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息之前,所述方法还包括:
旋转所述病历图片以调整所述病历图片的展示角度,使所述病历图片中文字的排列方向与水平方向一致。
上述方案中,所述通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,包括:
提取所述裁剪规则中的位置参数和第一裁剪参数,根据所述第一裁剪参数对所述病历图片上相应于所述位置参数的部分进行裁剪得到裁切图片;
执行OCR识别进程,用于对裁切图片进行OCR识别得到反映所述裁切图片中文字内容的识别文本信息,对所述识别文本信息进行去噪处理得到图像文本信息;
若确定所述图像文本信息的内容不少于预置的文本阈值,则将所述裁切图片设为所述裁切标识图片;
若确定所述图像文本信息的内容为空,或所述图像文本信息的内容的数据量少于所述文本阈值,则调整所述第一裁剪参数得到第二裁剪参数,根据所述第二裁剪参数对所述病历数据进行裁剪得到裁切图片并执行所述OCR识别进程。
上述方案中,所述对所述图片文本信息进行命名实体识别得到命名词组,包括:
对所述图片文本信息进行分词处理得到至少一个文本词汇;
对所述文本词汇进行向量化处理得到至少一个词汇向量;
对所述词汇向量进行命名实体识别得到所述命名词组,其中,所述命名词组是指由至少一个命名实体按照预置的排列规则所构建的词语组合。
上述方案中,所述基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片,包括:
识别所述病历图片中的两个锚点,其中,所述锚点是预设在所述病历图片中位于同一行上的两个标记点;
连接所述两个锚点形成连接线,计算所述连接线与水平方向之间的夹角,将所述夹角设为偏转角度;
根据所述偏转角度转动所述病历图片使所述连接线处于所述水平方向;
将所述脱敏模板加载在所述病历图片的上一层,识别所述病历图片上与所述脱敏模板中敏感标注对应的敏感位置;
对所述病历图片上相应于所述敏感位置的部分进行颜色覆盖,对所述病历图片进行脱敏处理得到脱敏图片。
上述方案中,所述对所述图片文本信息进行命名实体识别得到命名词组之后,所述方法还包括:
若无法根据所述命名词组确定所述病历图片的病历类型,则对所述病历图片进行文本识别得到病历文本信息,识别所述病历文本信息中的敏感信息,并对所述病历图片中的所述敏感信息进行脱敏处理,使所述病历图片转为脱敏图片。
上述方案中,所述对所述病历图片中的所述敏感信息进行脱敏处理,使所述病历图片转为脱敏图片之后,所述方法还包括:
对所述病历文本信息进行命名实体识别得到命名词组,将所述敏感信息在所述病历图片上的位置信息设为脱敏位置,将所述命名词组录入预置的空白模板中以作为所述空白模板的病历类型,及将所述脱敏位置载入所述空白模板中使所述空白模板转为新增的脱敏模板,将所述新增的脱敏模板录入所述模板库中。
第二方面,本申请提供一种信息脱敏处理方法,包括:
输入提取模块,用于接收病历图片,提取所述病历图片的属性信息,其中,所述属性信息描述了所述病历图片的特征和/或表征了所述病历图片的来源;
属性模板模块,用于在能够根据所述属性信息确定所述病历图片的病历类型时,从预置的模板库中获取相应于所述病历类型的脱敏模板;
命名词组模块,用于在无法根据所述属性信息确定所述病历图片的病历类型时,通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,及对所述图片文本信息进行命名实体识别得到命名词组;
词组模板模块,用于在能够根据所述命名词组确定所述病历图片的病历类型时,从所述模板库中获取相应于所述病历类型的脱敏模板;
脱敏处理模块,用于基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片。
第三方面,本申请提供一种计算机设备,包括:处理器以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求上述的信息脱敏处理方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述的信息脱敏处理方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的信息脱敏处理方法。
本申请提供的信息脱敏处理方法、装置、计算机设备及可读存储介质,通过根据病历图片的属性信息或命名词组确定病历图片的病历类型,并获取相应于所述病历类型的脱敏模板,通过具有敏感标注的脱敏模板识别病历图片中的敏感信息所在的位置,并在所述病历图片上的所述位置上进行颜色覆盖,以实现对所述病历图片进行快速脱敏处理得到脱敏图片的技术效果,不仅提高了脱敏处理的效率,还因脱敏模板准确的标注了病历图片中敏感信息的位置,因此即使面对大量的病历图片的脱敏作业,仍然可以保持较高的准确度。
同时,在无法根据属性信息确定病历图片的病历类型时,通过从所述病历图片上裁切标识图片,并对所述标识图片进行文本识别得到图片文本信息,及对所述图片文本信息进行命名实体识别得到命名词组,以便于后续通过命名词组获得所述病历图片的病历类型,因此,实现了仅通过对病历图片中的指定位置进行部分裁剪,并获取信息量极为有限的标识图片,及对所述标识图片进行OCR识别的方式,在保证能够获得病历图片中表征所述病历类别的关键信息的同时,还极大的降低了后续OCR识别,以及对所述图片文本信息进行命名实体识别所消耗的计算资源,提高了命名词组的运算效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的一种信息脱敏处理方法的实施例1的流程图;
图3为本申请实施例提供的一种信息脱敏处理方法的实施例2的流程图;
图4为本发明提供的一种信息脱敏处理装置的程序模块示意图;
图5为本发明计算机设备中计算机设备的硬件结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
请参阅图1,本申请具体的应用场景为:运行有信息脱敏处理方法的服务器2,与用于上传病历图片的客户端3连接。
服务器2接收病历图片,提取病历图片的属性信息。
若服务器2能够根据属性信息确定病历图片的病历类型,则从模板库4中获取相应于病历类型的脱敏模板。
若服务器2无法根据属性信息确定病历图片的病历类型,则通过裁剪规则从病历图片上裁切标识图片,对标识图片进行文本识别得到图片文本信息,及对图片文本信息进行命名实体识别得到命名词组。
若服务器2能够根据命名词组确定病历图片的病历类型,则从模板库4中获取相应于病历类型的脱敏模板。
服务器2基于脱敏模板对病历图片进行脱敏处理得到脱敏图片,服务器2将脱敏图片返回至客户端3。
本申请提供的数据传输的方法,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
实施例1:
请参阅图2,本申请一种信息脱敏处理方法,包括:
S101:接收病历图片,提取所述病历图片的属性信息,其中,所述属性信息描述了所述病历图片的特征和/或表征了所述病历图片的来源。
本步骤中,所述病历图片记载有患者病历,其通过扫描或拍摄纸质患者病历获得,所述属性信息为所述病历图片的文件名,或所述病历图片的数据库路径,所述文件名,例如:北京大学肿瘤医院胃病病理报告单,及所述数据库路径,例如:北京大学/肿瘤医院/胃病/ 病理报告单均能够表征病历图片的来源。
S102:若能够根据所述属性信息确定所述病历图片的病历类型,则从预置的模板库中获取相应于所述病历类型的脱敏模板。
本步骤中,所述模板库中保存有至少一个脱敏模板,所述脱敏模板的名称为相应于所述脱敏模板的病历图片的病历类型,所述脱敏模板通过敏感标注对所述病历图片中敏感信息的位置进行了标注。
于本实施例中,所述脱敏模板和所述病历类型以键值对的形式保存在所述模板库中,其中,病历类型为键值对中的主键,脱敏模板为键值对中的键值。
S103:若无法根据所述属性信息确定所述病历图片的病历类型,则通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,及对所述图片文本信息进行命名实体识别得到命名词组。
本步骤中,如果无法根据所述属性信息确定所述病历图片的病历类型,那么就从所述病历图片上裁切标识图片,并对所述标识图片进行文本识别得到图片文本信息,及对所述图片文本信息进行命名实体识别得到命名词组,以便于后续通过命名词组获得所述病历图片的病历类型,仅通过对病历图片中的指定位置进行部分裁剪,获取信息量极为有限的标识图片,并对所述标识图片进行OCR识别的方式,在保证能够获得病历图片中表征所述病历类别的关键信息的同时,还极大的降低了后续OCR识别,以及对所述图片文本信息进行命名实体识别所消耗的计算资源,提高了命名词组的运算效率。
在一个优选的实施例中,所述通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息之前,所述方法还包括:
S11:旋转所述病历图片以调整所述病历图片的展示角度,使所述病历图片中文字的排列方向与水平方向一致;
本步骤中,通过调整所述病历图片展示角度,使所述文字的展示方向与所述标准方向一致,以确保后续能够通过所述裁切规则顺利的从病理图片上裁切下所需的标识图片。
具体地,所述调整所述病历图片的旋转角度,使所述病历图片中文字的方向与预置的标准方向一致,包括:
将所述病历图片上任一文字设为目标文字片段,对所述目标文字进行OCR识别得到目标文字信息,获取相应于所述目标文字信息的标准文字图片,其中,所述目标文字片段是指所述病历图片中内容为所述目标文字信息的图片部分,所述标准文字图片是指内容为目标文字信息的文字图像,所述标准文字图片中目标文字信息的方向为所述标准方向;
调整所述标准文字图片的尺寸,使所述标准文字图片的尺寸与所述目标文字片段的尺寸一致;
将所述目标文字片段与所述标准文字图片进行比对,得到所述目标文字片段相对于所述标准文字图片的偏转角度;
根据所述偏转角度对所述病历图片进行转动,使转动后的病历图片中的目标文字片段与所述标准文字图片重合,用以实现所述病历图片中文字的方向与所述标准方向一致。
在一个优选的实施例中,所述通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,包括:
S12:提取所述裁剪规则中的位置参数和第一裁剪参数,根据所述第一裁剪参数对所述病历图片上相应于所述位置参数的部分进行裁剪得到裁切图片。
本步骤中,所述位置参数表征了需要在病历图片上进行裁剪的位置,例如:位置参数为病历图片的病历的标题位置,
所述第一裁剪参数表征了需要在病历图片上的裁剪尺寸,其至少包括裁剪长度和裁剪高度,裁剪长度与病历图片中文字的行方向一致,裁剪高度与病历图片中文字的列方向一致。
S13:执行OCR识别进程,用于对裁切图片进行OCR识别得到反映所述裁切图片中文字内容的识别文本信息,对所述识别文本信息进行去噪处理得到图像文本信息。
本步骤中,OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
S14:若确定所述图像文本信息的内容不少于预置的文本阈值,则将所述裁切图片设为所述裁切标识图片。
本步骤中,所述文本阈值的定义得到的图像文本信息是否符合要求的规则参数,如果图像文本信息中的字数不少于文本阈值,则说明能够从得到的裁切图片中获得需要的命名词组。
S15:若确定所述图像文本信息的内容为空,或所述图像文本信息的内容的数据量少于所述文本阈值,则调整所述第一裁剪参数得到第二裁剪参数,根据所述第二裁剪参数对所述病历数据进行裁剪得到裁切图片并执行所述OCR识别进程。
本步骤中,如果图像文本信息中的字数少于文本阈值中定义的字数,则说明无法从裁切图片中获得需要的命名词组,因此,需要调整第一裁剪参数,以扩大裁剪高度和裁剪长度并得到第二裁剪参数,通过对根据第二裁剪参数得到的裁切图片进行OCR识别,将得到相比于第一裁剪参数对应的裁切图片更多的文字,进而提高文字的获取数量,以便于更加准确全面的获得需要的命名词组。
在一个优选的实施例中,所述对所述图片文本信息进行命名实体识别得到命名词组,包括:
S16:对所述图片文本信息进行分词处理得到至少一个文本词汇;
本步骤中,采用分词组件(例如:HanLP、结巴分词、FudanNLP等分词服务接口) 对所述图片文本信息进行分词处理,得到所述文本词汇。
S17:对所述文本词汇进行向量化处理得到至少一个词汇向量;
本步骤中,通过长短期记忆网络(LSTM)对文本词汇进行编码,用以对文本词汇进行向量化处理并得到分布式向量,将所述分布式向量作为所述词汇向量。
其中,长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。
LSTM模型由于遗忘门的出现,就出现了选择性,可以说LSTM不仅实现了联系上下文,因此,通过长短期记忆网络能够结合各文本词汇之间的关系,生成表征一个文本词汇本身以及表征一个文本词汇与其上下文的文本词汇之间关联关系的词汇向量。
S18:对所述词汇向量进行命名实体识别得到所述命名词组,其中,所述命名词组是指由至少一个命名实体按照预置的排列规则所构建的词语组合。
本步骤中,通过条件随机场模型(CRF)对所述词汇向量进行命名实体识别得到所述命名词组,其中,所述条件随机场模型中预设了排列规则,例如:地理名词、机构名词、医学名词和专业词汇。
条件随机场(conditional random field,简称CRF)模型,是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。如同马尔科夫随机场,条件随机场为无向性之图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场当中,随机变量Y的分布为条件机率,给定的观察值则为随机变量X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在有效率的算法可供演算。条件随机场跟隐藏式马可夫模型常被一起提及,条件随机场对于输入和输出的机率分布,没有如隐藏式马可夫模型那般强烈的假设存在。
因此,通过条件随机场模型对所述词汇向量进行命名实体识别,能够快速准确的获得符合排列规则的命名实体,并将符合排列规则的命名实体设为所述词语组合。
示例性地,获得的文本词汇为:BEIJINGCANCERHOSPITAL北京大学肿瘤医院胃病病理报告单患者姓名张三,通过长短期记忆网络对该文本词汇进行向量化处理得到词汇向量,通过条件随机场模型对词汇向量进行命名实体识别,得到符合排列规则“地理名词、机构名词、医学名词和专业词汇”的命名词组,即:北京大学肿瘤医院胃病病理报告单。
S104:若能够根据所述命名词组确定所述病历图片的病历类型,则从所述模板库中获取相应于所述病历类型的脱敏模板。
本步骤中,所述模板库中保存有至少一个脱敏模板,所述脱敏模板的名称为相应于所述脱敏模板的病历图片的病历类型,所述脱敏模板通过敏感标注对所述病历图片中敏感信息的位置进行了标注。
于本实施例中,所述脱敏模板和所述病历类型以键值对的形式保存在所述模板库中,其中,病历类型为键值对中的主键,脱敏模板为键值对中的键值。
S105:基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片。
为确保能够快速对病历图片进行脱敏处理,本步骤通过具有敏感标注的脱敏模板识别病历图片中的敏感信息所在的位置,并在所述病历图片上的所述位置上进行颜色覆盖,以实现对所述病历图片进行快速脱敏处理得到脱敏图片的技术效果,不仅提高了脱敏处理的效率,还因脱敏模板准确的标注了病历图片中敏感信息的位置,因此即使面对大量的病历图片的脱敏作业,仍然可以保持较高的准确度。
示例性地,敏感标注是预先设置在脱敏模板上的标注记号,所述脱敏模板为透明的计算机模板,使得计算机能够快速识别出病历图片被敏感标注覆盖的位置,并将该位置所对应的信息设为敏感信息,并对该位置进行颜色覆盖。
在一个优选的实施例中,所述基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片,包括:
S21:识别所述病历图片中的两个锚点,其中,所述锚点是预设在所述病历图片中位于同一行上的两个标记点;
S22:连接所述两个锚点形成连接线,计算所述连接线与水平方向之间的夹角,将所述夹角设为偏转角度;
S23:根据所述偏转角度转动所述病历图片使所述连接线处于所述水平方向;
S24:将所述脱敏模板加载在所述病历图片的上一层,识别所述病历图片上与所述脱
敏模板中敏感标注对应的敏感位置;
S25:对所述病历图片上相应于所述敏感位置的部分进行颜色覆盖,对所述病历图片 5进行脱敏处理得到脱敏图片。
本实例中,由于纸质患者病历在被拍摄和被扫描之时,可能会出现歪斜,导致得到的病历图片相比于原纸质患者病历出现偏转;
如果直接将脱敏模板加在到所述病历图片之上,将会使脱敏模板上的敏感标注覆盖在所述病历图片的非敏感信息上,造成脱敏作业失败的情况发生。
0通过将病历图片进行转动,使转动后的病历图片能够与原纸质患者病历重合,保证脱
敏模板上的敏感标注覆盖在所述病历图片的敏感信息上,确保了脱敏作业的脱敏准确度和成功率。
实施例2:
请参阅图3,本申请一种信息脱敏处理方法,包括:
5S201:接收病历图片,提取所述病历图片的属性信息,其中,所述属性信息描述了所
述病历图片的特征和/或表征了所述病历图片的来源。
本步骤与实施例1中的S101相同。
S202:判断所述属性信息是否具有表征病历类型的命名实体;
若是,则确定能够根据所述属性信息确定所述病历图片的病历类型;
0若否,则确定无法根据所述属性信息确定所述病历图片的病历类型。
本步骤中,表征病历类型的命名实体至少具有一个;如果属性信息中具有相应于所有所述命名实体的词汇,则说明能够根据所述属性信息确定病历图片的病历类型;如果属性信息中缺少至少一个相应于所述命名实体的词汇,则说明无法根据所述属性信息确定病历图片的病历类型。
5示例性地,所述命名实体包括:地理名词、机构名词、医学名词和专业词汇;
如果属性信息为:北京大学肿瘤医院胃病病理报告单,其中包括:地理名词:北京大学,机构名词:肿瘤医院,医学名词:胃病,专业词汇:病历报告单,能够反映病历图片的来源的名词包括地理名词、机构名词、医学名词和专业词汇,因此,能够根据所述属性
信息确定所述病历图片的病历类型,所述病历类型为:北京大学肿瘤医院胃病病理报告单。 0如果属性信息为:北京大学病理报告单,其包括:地理名词:北京大学,专业词汇:
病历报告单,即:能够反映病历图片的来源的名词只有地理名词和专业词汇,因此,无法根据所述属性信息确定所述病历图片的病历类型。
S203:若能够根据所述属性信息确定所述病历图片的病历类型,则从预置的模板库中获取相应于所述病历类型的脱敏模板。
5本步骤与实施例1中的S102相同。
S204:若无法根据所述属性信息确定所述病历图片的病历类型,则通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,及
对所述图片文本信息进行命名实体识别得到命名词组。
本步骤与实施例1中的S103相同。
S205:判断所述命名词组是否具有表征病历类型的命名实体;
若是,则确定能够根据所述命名词组确定所述病历图片的病历类型;
若否,则确定无法根据所述命名词组确定所述病历图片的病历类型。
本步骤中,表征病历类型的命名实体至少具有一个;如果命名词组中具有相应于所有所述命名实体的词汇,则说明能够根据所述命名词组确定病历图片的病历类型;如果命名词组中缺少至少一个相应于所述命名实体的词汇,则说明无法根据所述命名词组确定病历图片的病历类型。
示例性地,所述命名实体包括:地理名词、机构名词、医学名词和专业词汇;
如果命名词组为:北京大学肿瘤医院胃病病理报告单,其中包括:地理名词:北京大学,机构名词:肿瘤医院,医学名词:胃病,专业词汇:病历报告单,能够反映病历图片的来源的名词包括地理名词、机构名词、医学名词和专业词汇,因此,能够根据所述命名词组确定所述病历图片的病历类型,所述病历类型为:北京大学肿瘤医院胃病病理报告单。
如果命名词组为:北京大学病理报告单,其包括:地理名词:北京大学,专业词汇:病历报告单,即:能够反映病历图片的来源的名词只有地理名词和专业词汇,因此,无法根据所述命名词组确定所述病历图片的病历类型。
S206:若能够根据所述命名词组确定所述病历图片的病历类型,则从所述模板库中获取相应于所述病历类型的脱敏模板。
本步骤与实施例1中的S104相同。
S207:基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片。
本步骤与实施例1中的S105相同。
S208:若无法根据所述命名词组确定所述病历图片的病历类型,则对所述病历图片进行文本识别得到病历文本信息,识别所述病历文本信息中的敏感信息,并对所述病历图片中的所述敏感信息进行脱敏处理,使所述病历图片转为脱敏图片。
本步骤中,对于无法通过脱敏模板进行脱敏处理的病历图片,首先对所述病历图片进行文本识别得到病历文本信息,识别所述病历文本信息中的敏感信息,然后通过在所述病历图片中相应于所述敏感信息的位置进行颜色覆盖,以实现对病历图片进行脱敏处理,使所述病历图片转为脱敏图片,扩大了本申请适用范围。
在一个优选的实施例中,所述对所述病历图片进行文本识别得到病历文本信息,识别所述病历文本信息中的敏感信息,并对所述病历图片中的所述敏感信息进行脱敏处理,使所述病历图片转为脱敏图片。
S81:对所述病历图片进行OCR文本识别得到病历文本信息;
S82:识别所述病历文本信息中的敏感元数据,将所述敏感元数据对应的信息设为敏感信息,其中,所述敏感元数据是对应患者个人信息及隐私信息的元数据;
S83:识别所述敏感信息在所述病历图片上的位置坐标,对所述病历图片中相应于所述位置坐标的部分进行颜色覆盖,并对所述病历图片中的所述敏感信息进行脱敏处理,使所述病历图片转为脱敏图片。
本实例中,所述敏感元数据可根据需要调整,通过对所述病历图片进行OCR文本识别得到病历文本信息;识别所述病历文本信息中的敏感元数据,将所述敏感元数据对应的信息设为敏感信息,例如:敏感元数据为“姓名”,那么敏感元数据对应的信息“张三”则为敏感信息;
识别所述敏感信息在所述病历图片上的位置坐标,其中,所述位置坐标包括X轴方向上的行坐标和Y轴方向上的列坐标,用以锁定所述敏感信息在病历图片中的位置。
通过对所述病历图片中相应于所述位置坐标的部分进行颜色覆盖(例如:在该部分上涂抹指定的颜色,或者在该部分上覆盖马赛克等),并对所述病历图片中的所述敏感信息进行脱敏处理,使所述病历图片转为脱敏图片。
S209:对所述病历文本信息进行命名实体识别得到命名词组,将所述敏感信息在所述病历图片上的位置信息设为脱敏位置,将所述命名词组录入预置的空白模板中以作为所述空白模板的病历类型,及将所述脱敏位置载入所述空白模板中使所述空白模板转为新增的脱敏模板,将所述新增的脱敏模板录入所述模板库中。
为实现能够对无法根据所述命名词组确定病历类型的病历图片的在后续的脱敏处理中,能够直接调用脱敏模板进行脱敏,提高该病历类型的病历图片的脱敏效率,本步骤通过对所述病历文本信息进行分词处理得到至少一个病历词汇;对所述病历词汇进行向量化处理得到至少一个病历向量;对所述病历向量进行命名实体识别得到所述命名词组,其中,所述命名词组是指由至少一个命名实体按照预置的排列规则所构建的词语组合。
具体地,采用分词组件(例如:HanLP、结巴分词、FudanNLP等分词服务接口)对所述病历文本信息进行分词处理,得到所述病历词汇。
通过长短期记忆网络(LSTM)对病历词汇进行编码,用以对病历词汇进行向量化处理并得到分布式向量,将所述分布式向量作为所述病历向量。
通过条件随机场模型(CRF)对所述病历向量进行命名实体识别得到所述命名词组,其中,所述条件随机场模型中预设了排列规则,例如:地理名词、机构名词、医学名词和专业词汇。
然后将所述敏感信息在所述病历图片上的位置信息设为脱敏位置,将所述命名词组录入预置的空白模板中以作为所述空白模板的病历类型,其中,所述空白模板是尺寸与病历图片一致,且透明的计算机模板。
最后,将所述脱敏位置载入所述空白模板中使所述空白模板转为新增的脱敏模板,其中,所述脱敏位置将为所述脱敏模板的敏感标注。
实施例3:
请参阅图4,本申请提供一种信息脱敏处理装置1,包括:
输入提取模块11,用于接收病历图片,提取所述病历图片的属性信息,其中,所述属性信息描述了所述病历图片的特征和/或表征了所述病历图片的来源;
属性模板模块13,用于在能够根据所述属性信息确定所述病历图片的病历类型时,从预置的模板库中获取相应于所述病历类型的脱敏模板;
命名词组模块14,用于在无法根据所述属性信息确定所述病历图片的病历类型时,通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,及对所述图片文本信息进行命名实体识别得到命名词组;
词组模板模块16,用于在能够根据所述命名词组确定所述病历图片的病历类型时,从所述模板库中获取相应于所述病历类型的脱敏模板;
脱敏处理模块17,用于基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片。
可选的,所述信息脱敏处理装置1,还包括:
第一判断模块12,用于判断所述属性信息是否具有表征病历类型的命名实体;若是,则确定能够根据所述属性信息确定所述病历图片的病历类型;若否,则确定无法根据所述属性信息确定所述病历图片的病历类型。
第二判断模块15,用于判断所述命名词组是否具有表征病历类型的命名实体;若是,则确定能够根据所述命名词组确定所述病历图片的病历类型;若否,则确定无法根据所述命名词组确定所述病历图片的病历类型。
脱敏操作模块18,用于在无法根据所述命名词组确定所述病历图片的病历类型时,对所述病历图片进行文本识别得到病历文本信息,识别所述病历文本信息中的敏感信息,并对所述病历图片中的所述敏感信息进行脱敏处理,使所述病历图片转为脱敏图片。
模板新建模块19,用于对所述病历文本信息进行命名实体识别得到命名词组,将所述敏感信息在所述病历图片上的位置信息设为脱敏位置,将所述命名词组录入预置的空白模板中以作为所述空白模板的病历类型,及将所述脱敏位置载入所述空白模板中使所述空白模板转为新增的脱敏模板,将所述新增的脱敏模板录入所述模板库中。
实施例4:
为实现上述目的,本申请还提供一种计算机设备5,包括:处理器以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现上述的信息脱敏处理方法,其中,信息脱敏处理装置的组成部分可分散于不同的计算机设备中,计算机设备5可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个应用服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器51、处理器52,如图5所示。需要指出的是,图5仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。本实施例中,存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器51可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例三的信息脱敏处理装置的程序代码等。此外,存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。处理器52在一些实施例中可以是中央处理器(Central Processing Unit, CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中,处理器52用于运行存储器51中存储的程序代码或者处理数据,例如运行信息脱敏处理装置,以实现上述实施例的信息脱敏处理方法。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称 CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
为实现上述目的,本申请还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机执行指令,程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储实现所述信息脱敏处理方法的计算机执行指令,被处理器52执行时实现上述实施例的信息脱敏处理方法。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的信息脱敏处理方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (10)
1.一种信息脱敏处理方法,其特征在于,包括:
接收病历图片,提取所述病历图片的属性信息,其中,所述属性信息描述了所述病历图片的特征和/或表征了所述病历图片的来源;
若能够根据所述属性信息确定所述病历图片的病历类型,则从预置的模板库中获取相应于所述病历类型的脱敏模板;
若无法根据所述属性信息确定所述病历图片的病历类型,则通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,及对所述图片文本信息进行命名实体识别得到命名词组;
若能够根据所述命名词组确定所述病历图片的病历类型,则从所述模板库中获取相应于所述病历类型的脱敏模板;
基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片。
2.根据权利要求1所述的信息脱敏处理方法,其特征在于,所述通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息之前,所述方法还包括:
旋转所述病历图片以调整所述病历图片的展示角度,使所述病历图片中文字的排列方向与水平方向一致。
3.根据权利要求1所述的信息脱敏处理方法,其特征在于,所述通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,包括:
提取所述裁剪规则中的位置参数和第一裁剪参数,根据所述第一裁剪参数对所述病历图片上相应于所述位置参数的部分进行裁剪得到裁切图片;
执行OCR识别进程,用于对裁切图片进行OCR识别得到反映所述裁切图片中文字内容的识别文本信息,对所述识别文本信息进行去噪处理得到图像文本信息;
若确定所述图像文本信息的内容不少于预置的文本阈值,则将所述裁切图片设为所述裁切标识图片;
若确定所述图像文本信息的内容为空,或所述图像文本信息的内容的数据量少于所述文本阈值,则调整所述第一裁剪参数得到第二裁剪参数,根据所述第二裁剪参数对所述病历数据进行裁剪得到裁切图片并执行所述OCR识别进程。
4.根据权利要求1所述的信息脱敏处理方法,其特征在于,所述对所述图片文本信息进行命名实体识别得到命名词组,包括:
对所述图片文本信息进行分词处理得到至少一个文本词汇;
对所述文本词汇进行向量化处理得到至少一个词汇向量;
对所述词汇向量进行命名实体识别得到所述命名词组,其中,所述命名词组是指由至少一个命名实体按照预置的排列规则所构建的词语组合。
5.根据权利要求1所述的信息脱敏处理方法,其特征在于,所述基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片,包括:
识别所述病历图片中的两个锚点,其中,所述锚点是预设在所述病历图片中位于同一行上的两个标记点;
连接所述两个锚点形成连接线,计算所述连接线与水平方向之间的夹角,将所述夹角设为偏转角度;
根据所述偏转角度转动所述病历图片使所述连接线处于所述水平方向;
将所述脱敏模板加载在所述病历图片的上一层,识别所述病历图片上与所述脱敏模板中敏感标注对应的敏感位置;
对所述病历图片上相应于所述敏感位置的部分进行颜色覆盖,对所述病历图片进行脱敏处理得到脱敏图片。
6.根据权利要求1所述的信息脱敏处理方法,其特征在于,所述对所述图片文本信息进行命名实体识别得到命名词组之后,所述方法还包括:
若无法根据所述命名词组确定所述病历图片的病历类型,则对所述病历图片进行文本识别得到病历文本信息,识别所述病历文本信息中的敏感信息,并对所述病历图片中的所述敏感信息进行脱敏处理,使所述病历图片转为脱敏图片。
7.根据权利要求6所述的信息脱敏处理方法,其特征在于,所述对所述病历图片中的所述敏感信息进行脱敏处理,使所述病历图片转为脱敏图片之后,所述方法还包括:
对所述病历文本信息进行命名实体识别得到命名词组,将所述敏感信息在所述病历图片上的位置信息设为脱敏位置,将所述命名词组录入预置的空白模板中以作为所述空白模板的病历类型,及将所述脱敏位置载入所述空白模板中使所述空白模板转为新增的脱敏模板,将所述新增的脱敏模板录入所述模板库中。
8.一种信息脱敏处理方法,其特征在于,包括:
输入提取模块,用于接收病历图片,提取所述病历图片的属性信息,其中,所述属性信息描述了所述病历图片的特征和/或表征了所述病历图片的来源;
属性模板模块,用于在能够根据所述属性信息确定所述病历图片的病历类型时,从预置的模板库中获取相应于所述病历类型的脱敏模板;
命名词组模块,用于在无法根据所述属性信息确定所述病历图片的病历类型时,通过预置的裁剪规则从所述病历图片上裁切标识图片,对所述标识图片进行文本识别得到图片文本信息,及对所述图片文本信息进行命名实体识别得到命名词组;
词组模板模块,用于在能够根据所述命名词组确定所述病历图片的病历类型时,从所述模板库中获取相应于所述病历类型的脱敏模板;
脱敏处理模块,用于基于所述脱敏模板对所述病历图片进行脱敏处理得到脱敏图片。
9.一种计算机设备,其特征在于,包括:处理器以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至7任一项所述的信息脱敏处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的信息脱敏处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211233979.8A CN115688166A (zh) | 2022-10-10 | 2022-10-10 | 信息脱敏处理方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211233979.8A CN115688166A (zh) | 2022-10-10 | 2022-10-10 | 信息脱敏处理方法、装置、计算机设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115688166A true CN115688166A (zh) | 2023-02-03 |
Family
ID=85065223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211233979.8A Pending CN115688166A (zh) | 2022-10-10 | 2022-10-10 | 信息脱敏处理方法、装置、计算机设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115688166A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116305285A (zh) * | 2023-03-30 | 2023-06-23 | 肇庆学院 | 结合人工智能的病患信息脱敏处理方法及系统 |
-
2022
- 2022-10-10 CN CN202211233979.8A patent/CN115688166A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116305285A (zh) * | 2023-03-30 | 2023-06-23 | 肇庆学院 | 结合人工智能的病患信息脱敏处理方法及系统 |
CN116305285B (zh) * | 2023-03-30 | 2024-04-05 | 肇庆学院 | 结合人工智能的病患信息脱敏处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4676225B2 (ja) | スキャン・ドキュメントから電子フォームに取り込むための方法および装置 | |
CN111695439B (zh) | 图像结构化数据提取方法、电子装置及存储介质 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN112396047B (zh) | 训练样本生成方法、装置、计算机设备和存储介质 | |
CN112036145A (zh) | 财务报表的识别方法、装置、计算机设备与可读存储介质 | |
CN111428656A (zh) | 基于深度学习的移动端身份证识别方法、移动设备 | |
CN112651392A (zh) | 证件信息的获取方法及装置、存储介质、计算机设备 | |
CN115688166A (zh) | 信息脱敏处理方法、装置、计算机设备及可读存储介质 | |
US10691884B2 (en) | System and method for cheque image data masking using data file and template cheque image | |
CN117076455A (zh) | 一种基于智能识别的保单结构化存储方法、介质及系统 | |
JP2009276937A (ja) | 辞書作成装置、認識装置、認識方法及び認識プログラム | |
CN114220103B (zh) | 图像识别方法、装置、设备及计算机可读存储介质 | |
CN115578736A (zh) | 证件信息提取方法、装置、存储介质及设备 | |
CN114299509A (zh) | 一种获取信息的方法、装置、设备及介质 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
US11335108B2 (en) | System and method to recognise characters from an image | |
CN111695441B (zh) | 图像文档处理方法、装置及计算机可读存储介质 | |
CN113642642A (zh) | 控件识别方法及装置 | |
CN113887375A (zh) | 一种文本识别方法、装置、设备及存储介质 | |
CN113807343A (zh) | 文字识别方法、装置、计算机设备及存储介质 | |
CN112287763A (zh) | 图像处理方法、装置、设备及介质 | |
CN112347957A (zh) | 行人重识别方法、装置、计算机设备及存储介质 | |
CN115631493B (zh) | 文本区确定方法、系统及相关装置 | |
CN117612181A (zh) | 图像识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |