CN117612172B

CN117612172B - 脱敏位置定位及脱敏方法、装置、电子设备与存储介质

Info

Publication number: CN117612172B
Application number: CN202410096149.8A
Authority: CN
Inventors: 朱智源; 陈跃; 兰红林; 何梦娜; 伍丕; 杨鑫
Original assignee: Chengdu Yixing Technology Co ltd
Current assignee: Chengdu Yixing Technology Co ltd
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-03-19
Anticipated expiration: 2044-01-24
Also published as: CN117612172A

Abstract

本发明提供一种脱敏位置定位及脱敏方法、装置、电子设备与存储介质，定位方法包括：通过OpenCV对经OCR识别获取的需要脱敏的关键词所在单行文本段进行目标轮廓识别；按垂直方向合并轮廓；根据需要脱敏的关键词通过一般位置方案粗略预估目标区域，并映射到轮廓位置；截取目标区域内图片进行识别，判断识别字符与关键词是否一致：若不一致，则根据不同匹配情况重新形成新的目标区域，然后返回截取识别步骤以新的目标区域截取图片进行识别，直到循环处理为一致时，计算出脱敏位置在整个图片中的坐标。本发明可实现脱敏字符的精确定位，脱敏处理后能较好地保留原始病历文档样式，适用于PDF或图片格式的病历文档脱敏。

Description

脱敏位置定位及脱敏方法、装置、电子设备与存储介质

技术领域

本发明属于病历脱敏技术领域，涉及一种脱敏位置定位及脱敏方法、装置、电子设备与存储介质。

背景技术

在医疗行业的电子病历文档共享场景中，由于病历的查阅者有不同的查阅权限，一般情况，对于患者本人或其主治医师能查阅完整的病历文档，对于其他一些查阅者需要通过一定的方法处理后，让其不能查看到敏感信息，这就需要脱敏处理。这些需要脱敏的内容一般是患者的一些基本信息，如姓名、身份证号码、电话号码；又或者是一些特殊疾病等。

在数据中心采集的病历文档中，由于这些病历文档来自不同的系统，一部分病历文档采用word文档、html或者可被二次编辑处理的PDF，另一些PDF文档被加密等方法处理后不能被解析，还有其他一些采用扫描生成的PDF或图片。对于第一类可被文字编辑处理的文档脱敏难度不大，后面两类文档的脱敏尤其难以处理。如word、未加密处理的文档类PDF，这些文档的共同点是可以通过文档的编码规则，来提取出其中的文字、修改其中的文字，这类脱敏是通过修改敏感信息的文字，比较容易实现脱敏。对文档使用OCR提取出其中的文字来进行脱敏信息处理的，使用自定义显示格式，一般采用纯文本加上指定的字体，再呈现给查阅者，其主体文档已失去了原有的展示样式。为了较好地保留原展示样式，就需要对需要脱敏的字符进行定位。

目前，现有技术中已有的一些对图片类病历脱敏信息定位的方式是基于字符宽度的计算，这种方式一般是按中文字符宽度为2、其他字符宽度为1的基本假设计算。这种方式对于统一字体统一字号的纯文本有较好的定位效果，但对于电子病历文书这样的类似word排版的页面，会有以下两方面的问题导致定位存在不精准的问题：

第一方面，如果一行中部分文字使用不同的字号、使用不同的间距、不同字体，并使用加粗、斜体等不同的样式，均会导致字符宽度变化，从而导致定位不精准；

第二方面，OCR对标点符号很难识别出全角符号和半角符号，也难以获取到空格、制表符等空白符号，占宽度为2的全角符号识别为半角符号会导致定位计算结果不准确问题，同样把空格符忽略，也会导致计算结果不准确。

发明内容

为解决上述相关现有技术不足，本发明提供一种脱敏位置定位及脱敏方法、装置、电子设备与存储介质，实现脱敏字符的精确定位，脱敏处理后能较好地保留原始病历文档样式，适用于PDF或图片格式的病历文档脱敏。

为了实现本发明的目的，拟采用以下方案：

一种脱敏位置定位方法，包括：

通过OpenCV对经OCR识别获取的需要脱敏的关键词所在单行文本段进行目标轮廓识别，并按轮廓最左侧位置排序；

按垂直方向合并轮廓，忽略纵坐标，保留横坐标；

根据需要脱敏的关键词，通过一般位置方案粗略预估对应的目标区域，并映射到轮廓位置；

截取映射后的目标区域内图片进行识别，判断识别字符与关键词是否一致：若一致，则根据所述单行文本段在整个图片中的坐标以及识别字符在所述单行文本段中的坐标计算出脱敏位置在整个图片中的坐标；若不一致，则根据不同匹配情况重新形成新的目标区域，然后返回截取识别步骤以新的目标区域截取图片进行识别；

其中，根据不同匹配情况重新形成新的目标区域，包括：

识别字符与关键词有重叠区域，且识别字符两侧均未与关键词两侧对齐时，将目标区域的两侧横坐标分别按对应侧的识别字符比关键词所少字符数对应的轮廓区域向外扩展，或按对应侧的识别字符比关键词所多字符数对应的轮廓区域向内收缩；

识别字符与关键词有重叠区域，且识别字符其中一侧与关键词一侧对齐，仅另一侧末尾字符不同时：若识别的字符数量等于关键词数量，从另一侧将目标区域的横坐标往外侧扩展一个字符区域；若识别的字符数量小于关键词数量，从另一侧将目标区域的横坐标往外侧扩展所少字符数对应的轮廓区域；若识别的字符数量大于关键词数量，从另一侧将目标区域的横坐标往内侧收缩所多字符数对应的轮廓区域；

其余情况，则将目标区域的两侧均向外扩展一个字符区域；

其中，重叠区域内的识别字符与关键词相同。

进一步，通过一般位置方案粗略预估对应的目标区域，包括：

按英文及英文字符占一个位置宽度、中文字符及全角字符占用两个位置宽度的字符宽度假设遍历所述单行文本段，计算总位置宽度个数，并计算关键词在总位置宽度序列中的位置；

根据行的总宽度和总位置宽度个数，以及所计算的关键词在总位置宽度序列中的位置，计算关键词在所述单行文本段中的四角坐标；

根据所述单行文本段在整个图片中的坐标以及关键词的四角坐标，计算关键词在整个图片中的坐标，以实现粗略预估对应的目标区域。

一种病历文档脱敏方法，包括：

对图片格式的病历文档进行开源OCR识别，识别结果包含以行为基本元素的区域块，这些行元素数据包含行文本段内容以及行文本段整体的四个顶点坐标，然后进行格式化以统一数据格式，同时获取图片的全量文本；

根据外部传入的患者信息或使用NER识别病历文档获得的患者信息，生成需要脱敏的关键词及掩码方式；

在全量文本中查找是否存在需要脱敏的关键词：

若不存在，则响应为不需要处理，结束流程；

若存在，则进行精简数组处理，丢弃与脱敏无关文本段，保留需要脱敏的关键词所在文本段，并从识别结果的行元素数据中获取到需要脱敏的关键词所在的单行文本段在整个图片中的坐标，然后采用所述的脱敏位置定位方法进行脱敏位置定位，以计算出脱敏位置在整个图片中的坐标；

分解需要脱敏的关键词，得到关键词中每个脱敏字符的位置坐标；

根据掩码方式，在脱敏字符的位置绘制遮罩方框，或进一步在绘制的遮罩方框上绘制*号。

进一步，若传入的病历文档为PDF文件，先进行PDF文件向图片格式的转换。若PDF文件转换为图片后得到多个病历文档图片，依次对各个图片进行脱敏处理；所有图片均脱敏处理完成后，将同一个PDF文件对应的多个图片按先后顺序命名后压缩，返回给请求端。

进一步，分解需要脱敏的关键词，得到关键词中每个脱敏字符的位置坐标，通过如下步骤实现：

按英文及英文字符占一个位置宽度、中文字符及全角字符占用两个位置宽度的字符宽度假设遍历所述单行文本段，计算总位置宽度个数，并计算每个脱敏字符在总位置宽度序列中的位置；

根据行的总宽度和总位置宽度个数，以及每个脱敏字符在总位置宽度序列中的位置，计算每个脱敏字符在所述单行文本段中的四角坐标；

根据所述单行文本段在整个图片中的坐标以及每个脱敏字符在所述单行文本段中的四角坐标，计算得到关键词中每个脱敏字符在整个图片中的位置坐标。

一种脱敏位置定位装置，包括：

轮廓识别模块，用于通过OpenCV对经OCR识别获取的需要脱敏的关键词所在单行文本段进行目标轮廓识别，并按轮廓最左侧位置排序；

轮廓合并模块，用于按垂直方向合并轮廓，忽略纵坐标，保留横坐标；

轮廓映射模块，用于根据需要脱敏的关键词，通过一般位置方案粗略预估对应的目标区域，并映射到轮廓位置；

位置识别模块，用于截取映射后的目标区域内图片进行识别，判断识别字符与关键词是否一致：

若一致，则根据所述单行文本段在整个图片中的坐标以及识别字符在所述单行文本段中的坐标计算出脱敏位置在整个图片中的坐标；

若不一致，则根据不同匹配情况重新形成新的目标区域，然后返回截取识别步骤，以新的目标区域重新截取图片进行识别。

其中，根据不同匹配情况重新形成新的目标区域，包括：

其余情况，则将目标区域的两侧均向外扩展一个字符区域；

其中，重叠区域内的识别字符与关键词相同。

一种病历文档脱敏装置，包括：

OCR识别模块，用于对图片格式的病历文档进行开源OCR识别，识别结果包含以行为基本元素的区域块，这些行元素数据包含行文本段内容以及行文本段整体的四个顶点坐标，然后进行格式化以统一数据格式，同时获取图片的全量文本；

关键词模块，用于根据外部传入的患者信息或使用NER识别病历文档获得的患者信息，生成需要脱敏的关键词及掩码方式；

定位模块，用于在全量文本中查找是否存在需要脱敏的关键词：若不存在，则响应为不需要处理，结束流程；若存在，则进行精简数组处理，丢弃与脱敏无关文本段，保留需要脱敏的关键词所在文本段，并从识别结果的行元素数据中获取到需要脱敏的关键词所在的单行文本段在整个图片中的坐标；然后采用所述的脱敏位置定位方法或装置进行脱敏位置定位，以计算出脱敏位置在整个图片中的坐标；

分词模块，用于分解需要脱敏的关键词，得到关键词中每个脱敏字符的位置坐标；

遮掩模块，用于根据掩码方式，在脱敏字符的位置绘制遮罩方框，或进一步在绘制的遮罩方框上绘制*号。

本发明的有益效果在于：

本发明的脱敏位置定位方法，在基于orc识别的基础上，进一步基于宽度假设的一般粗略估计和映射轮廓位置，并基于多种重叠情形采取滑动、外扩/内收的循环处理再识别方式，可以实现脱敏字符的精确定位，解决了在电子病历文档脱敏定位中由于不同字号、不同间距、不同字体，以及加粗、倾斜等不同样式而导致字符宽度变化引起定位不精准的问题；并且本发明脱敏方法还能较好地保留原始病历文档样式，适用于PDF或图片格式的病历文档脱敏。

附图说明

图1示出了本申请实施例的脱敏位置定位方法流程图。

图2示出了本申请实施例的目标轮廓识别示例。

图3示出了本申请实施例的目标轮廓合并示例。

图4示出了本申请实施例的一般位置方案流程图。

图5示出了本申请实施例的映射轮廓位置示例。

图6示出了本申请实施例的情形一的重叠区域示例。

图7示出了本申请实施例的情形二的重叠区域示例。

图8示出了本申请实施例的脱敏位置定位装置结构框图。

图9示出了本申请实施例的病历文档脱敏方法流程图。

图10示出了本申请实施例的分解需要脱敏的关键词的步骤流程图。

图11示出了本申请实施例的病历文档脱敏装置结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面结合附图对本发明的实施方式进行详细说明，但本发明所描述的实施例是本发明一部分实施例，而不是全部的实施例。

本申请实施例的一个方面，提供一种脱敏位置定位方法及装置，属于精确位置定位方案，主要通过对文本段的目标轮廓识别，根据单行文字不存在横向位置重合的特点，合并目标轮廓（例如：“吕”字，目标轮廓检测到上下两块区域，但由于其存在横向位置重合，则合并为一个区域）；最终，文本段的所有目标轮廓为可以使用竖向分割线分割的从左到右的目标轮廓。基于对原文本段的位置区域使用分割线分割成小块区域识别，定位字符。具体的，脱敏位置定位方法流程如图1所示，包括如下流程步骤：

第一步，通过OpenCV对已经通过OCR识别获取到的需要脱敏的关键词所在的单行文本段进行目标轮廓识别。这里，单行识别信息说明：{"text":"单行文本","position":[left, top, right,bottom], "posInText":"该行文本在text中的位置",[脱敏词在文本的index]}。其中，以左上角为坐标原点，left表示左侧坐标、top表示上侧坐标，right表示右侧坐标，bottom表示底侧坐标。

具体使用cv.findContours算法进行轮廓查找，并按轮廓最左侧位置排序。通常一个文字会获得多个轮廓区域，这些区域一般没有像素层面的连接，如“福”字可能会识别出4个轮廓区域，包含：示字旁、一、口、田。

具体以单行文本段“患者种三峰八年前感不规则上腹部疼痛，油腻饮食后发作，体检发现胆囊结石，未予特殊治疗。”进行示例说明，这里“种三峰”仅为示例说明，不代表真名。识别轮廓后，“种”字检测为左右两个区域，“三”字则被检测为每行一个区域，如图2所示为上述示例的部分目标轮廓识别情况。排序是为了方便后面进行合并。

第二步，按垂直方向合并轮廓，忽略纵坐标，保留横坐标（如：轮廓1：left，right）。垂直方向重合的轮廓，可以视为同一个字，如“福”字的一、口、田视为一体，示字旁在轮廓识别上无法区分是另外一个字还是这个字的一部分。

在示例中，“三”字的三横的三个区域，由于在坐标纵向重叠，这三个区域合并为一个区域，取最小的left，最小的top，最大的right，最大的bottom，形成一个矩形区域。而对于“种”字，由于在坐标纵向没有重叠，因此不能合并。如图3所示为合并轮廓的示意图。

第三步，根据需要脱敏的关键词，通过一般位置方案粗略预估对应的目标区域，并映射到轮廓位置。其中，通过一般位置方案粗略预估对应的目标区域的方式，即为类似现有技术的基于字符宽度计算的方式，通过设置基本宽度假设进行实现，主要用于内容比较规范，字体比较统一的情况，因为该方案基于以下假设：英文及英文字符占一个位置宽度，中文字符及全角字符占用两个字符宽度，如果在同一段文本中有不同字体字号，相同的文字占用不同的宽度，则不适用于一般位置方案，需要适用精确定位方案。但一般位置方案的优势是能适用较少的计算资源实现。因此对于病历文档来说，其仅能实现粗略定位，因此作为一般位置方案用于粗略预估目标区域，具体步骤可参见如图4所示流程：（1）按英文及英文字符占一个位置宽度、中文字符及全角字符占用两个位置宽度的字符宽度假设遍历所述单行文本段，计算总位置宽度个数，并计算关键词在总位置宽度序列中的位置。这里，单行识别信息说明：{"text":"单行文本","position":[left, top, right,bottom], "posInText":"该行文本在text中的位置",[脱敏词在文本的index]}。这里宽度序列是指按文本行中的每个字符的宽度相加，如“姓名: 种三峰”，“姓、名、钟、三、峰”分别占2个位置宽度，“:”占1个位置宽度，则“三”的宽度序列位置为[8,9]，这里以1为起始位置。（2）根据行的总宽度和总位置宽度个数，以及所计算的关键词在总位置宽度序列中的位置，计算关键词在所述单行文本段中的四角坐标。（3）根据所述单行文本段在整个图片中的坐标以及关键词的四角坐标，计算关键词在整个图片中的坐标，以实现粗略预估对应的目标区域。

随后，将粗略预估的目标区域映射到轮廓位置，一个被脱敏的词语的粗略位置为横坐标的left、right，映射到轮廓位置为新的left、right，如果left在一个轮廓上，则取该轮廓的left，如果right在一个轮廓上，则取该轮廓的right，从而实现通过映射前序步骤获取的轮廓来进行目标区域位置调整。比如按预估的目标区域范围如图5中第一行文字及其方框所示，方框右侧小于了“年”字右侧的区域，即未包括完“年”的轮廓区域，因此，调整方案为将方框往右侧扩大，如图4中第二行文字及其方框所示，扩大范围与当前粗略预估的方框右侧与“年”字的目标轮廓右侧的坐标差异值匹配。而对于左侧而言，虽然预估的目标区域方框也仅包括了“种”字的一部分，方框右侧刚好在“禾”和“中”之间，是与前序步骤识别合并后的目标区域轮廓范围一致，则无需调整。

第四步，截取映射后的目标区域内图片进行识别，判断识别字符与关键词是否一致：若一致，则根据所述单行文本段在整个图片中的坐标以及识别字符在所述单行文本段中的坐标计算出脱敏位置在整个图片中的坐标；若不一致，则根据不同匹配情况重新形成新的目标区域，然后返回截取识别步骤以新的目标区域截取图片进行识别。

具体的，根据不同匹配情况重新形成新的目标区域，根据不同的重叠情况，包括以下情形：

情形一：识别字符与关键词有重叠区域，且识别字符两侧均未与关键词两侧对齐时，将目标区域的两侧横坐标分别按对应侧的识别字符比关键词所少字符数对应的轮廓区域向外扩展，或按对应侧的识别字符比关键词所多字符数对应的轮廓区域向内收缩。这里，重叠区域内的识别字符与关键词相同。

在前文所述示例文字段中，以“种三峰”作为关键词，如图6中左侧第一行的情形，识别字符为实线框内的“者种三”，与虚线框中关键词的“种三峰”有重叠区域“种三”，但是实线框与虚线框两侧均未对齐，左侧多了“者”的轮廓区域，右侧少了“山”和“夆”，因此需要将目标区域的实线框左侧按“者”对应的轮廓区域向内收缩，将实线框右侧按“山”和“夆”的轮廓区域向外扩展，而后重新进行截取识别判断，直到达到图6中右侧的一行识别字符与关键词完全匹配的情况。如图6中左侧第二行的情形，识别字符为实线框内的“三峰丿”，与虚线框中的关键词“种三峰”有重叠的“三峰”，但实线框与虚线框两侧均未对齐，左侧少了“种”的轮廓区域，右侧多了“丿”的轮廓区域，因此需要将目标区域的实线框左侧按“种”对应的轮廓区域向外扩展，右侧按“丿”的轮廓区域向内收缩。又如图6中左侧第三行的情形，识别字符为实线框内的“中三山”，与虚线框内的“种三峰”有重叠“中三山”，但左侧少了“禾”，右侧少了“夆”，也需要进行两侧分别向外扩展的调整，再如图6中左侧第四行的情形，识别字符为实线框内的“者种三峰丿”，与虚线框内的“种三峰”有重叠“种三峰”，但左侧多了“者”，右侧多了“丿”，也需要进行两侧分别向内收缩的调整。

情形二：识别字符与关键词有重叠区域，且识别字符其中一侧与关键词一侧对齐时，且仅另一侧末尾字符不同时：

（1）若识别的字符数量等于关键词数量，从另一侧将目标区域的横坐标往外侧扩展一个字符区域。如图7中的左侧的第一行，识别字符的目标区域为实线框的“中三峰”，与关键词对应的虚线框中的“种三峰”，右侧已对齐，且仅从左侧有差异，则从左侧将实线框向外扩展一个字符，左侧的一个字符刚好对应为“禾”的位置，则从“中三峰”区域扩展为了“种三峰”；又如图7中左侧的第二行，实线框的“钟三山”与虚线框中的“种三峰”相比，左侧已对齐，且仅从右侧有差异，则从右侧将实线框向外扩展一个字符，右侧的一个字符刚好对应为“夆”，则从“钟三山”区域扩展为了“种三峰”。

（2）若识别的字符数量小于关键词数量，从另一侧将目标区域的横坐标往外侧扩展所少字符数对应的轮廓区域。如图7中左侧的第三行，识别字符的目标区域为实线框的“三峰”，与关键词对应的虚线框中的“种三峰”，右侧已对齐，且仅从左侧有差异，则从左侧将实线框向外扩展所少字符“种”对应的轮廓区域，则从“三峰”区域扩展为了“种三峰”；又如图7中左侧的第四行，实线框的“种三”与虚线框的“种三峰”，左侧已对齐，且仅从右侧有差异，则从右侧将实线框向外扩展所少字符“峰”对应的轮廓区域，则从“种三”区域扩展为了“种三峰”。

（3）若识别的字符数量大于关键词数量，从另一侧将目标区域的横坐标往内侧收缩所多字符数对应的轮廓区域。如图7中左侧的第五行，识别字符的目标区域为实线框的“者种三峰”，与关键词对应的虚线框中的“种三峰”，右侧已对齐，且仅从左侧有差异，则从左侧将实线框向内收缩所多字符“者”对应的轮廓区域，则从“者种三峰”区域收缩为了“种三峰”；又如图7中左侧的第六行，实线框的“种三峰八”与虚线框的“种三峰”，左侧已对齐，且仅从右侧有差异，则从右侧将实线框向内收缩所多字符“丿”和“㇏”对应的轮廓区域，则从“种三峰八”区域收缩为了“种三峰”。

对于除情形一和情形二以外的其余情形，将目标区域的两侧均向外扩展一个字符区域。

即如果不准确，通过滑动窗口、扩大缩小窗口的方式进一步调整脱敏窗口，这是一个循环处理过程，直到确认定位与脱敏信息一致实现精确定位。

具体的，本实例的脱敏位置定位装置，如图8所示，包括轮廓识别模块、轮廓合并模块、轮廓映射模块、位置识别模块。

轮廓识别模块通过OpenCV对经OCR识别获取的需要脱敏的关键词所在单行文本段进行目标轮廓识别，并按轮廓最左侧位置排序。

轮廓合并模块按垂直方向合并轮廓，忽略纵坐标，保留横坐标。

轮廓映射模块根据需要脱敏的关键词，通过一般位置方案粗略预估对应的目标区域，并映射到轮廓位置。

位置识别模块截取映射后的目标区域内图片进行识别，判断识别字符与关键词是否一致：

若不一致，则根据不同匹配情况重新形成新的目标区域，然后返回截取识别步骤，以新的目标区域重新截取图片进行识别。其中，位置识别模块在根据不同匹配情况重新形成新的目标区域时：识别字符与关键词有重叠区域，且识别字符两侧均未与关键词两侧对齐时，将目标区域的两侧横坐标分别按对应侧的识别字符比关键词所少字符数对应的轮廓区域向外扩展，或按对应侧的识别字符比关键词所多字符数对应的轮廓区域向内收缩；识别字符与关键词有重叠区域，且识别字符其中一侧与关键词一侧对齐，仅另一侧末尾字符不同时：若识别的字符数量等于关键词数量，从另一侧将目标区域的横坐标往外侧扩展一个字符区域；若识别的字符数量小于关键词数量，从另一侧将目标区域的横坐标往外侧扩展所少字符数对应的轮廓区域；若识别的字符数量大于关键词数量，从另一侧将目标区域的横坐标往内侧收缩所多字符数对应的轮廓区域；其余情况，则将目标区域的两侧均向外扩展一个字符区域。

本申请实施例的另一方面，提供一种病历文档脱敏方法及装置。其中，如图9所示，病历文档脱敏方法包括如下步骤：

第一步，对图片格式的病历文档进行开源OCR识别，识别结果包含以行为基本元素的区域块，这些行元素数据包含行文本段内容以及行文本段整体的四个顶点坐标，然后进行格式化以统一数据格式，同时获取图片的全量文本。目前，各开源OCR识别后的结果虽然格式不完全相同，但主要都是文本行数组及文本行对应的坐标和识别准确概率，各文本行在原始文档中所有文字均分别在同一行。文本行（即单行本文段）坐标则为文本行在原始文档/整个图片中的坐标，包括左上角顶点坐标、右上角顶点坐标、右下角顶点坐标、左下角顶点坐标。为兼容不同的OCR，这里统一格式化为同一种数据格式。同时获取图片的全量文本，用于后续的脱敏关键字的查找，以及扩充文本行信息：各文本行在整页文本中的序列位置（解决脱敏词分布在两个文本行的问题）。单张图片识别格式说明：{"text":"单张图片所有文本","OCR":[{"text":"单行文本","position":[left, top, right,bottom], "posInText":"行文本在text中的位置"}]}。

第二步，根据外部传入的患者信息（为病历结构化数据中已知，在患者建档时已录入），或使用NER识别病历文档（对全量文本做命名实体识别患者姓名）获得的患者信息，生成需要脱敏的关键词及掩码方式。需要脱敏的关键词如患者姓名“种三峰”，则后续对查找到的“种三峰”进行处理。掩码方式可以是处理为“□”或“*”等。

第三步，在全量文本中查找是否存在需要脱敏的关键词：若不存在，则响应为不需要处理，结束流程；若存在，则继续进行流程。

先进行精简数组处理，丢弃与脱敏无关文本段，保留需要脱敏的关键词所在文本段，并从识别结果的行元素数据中获取需要脱敏的关键词所在的单行文本段在整个图片中的坐标，然后采用前文实施例所述的脱敏位置定位方法进行脱敏位置定位，以计算出脱敏位置在整个图片中的坐标。示例：["脱敏词",left, top, right,bottom]，如：["种三峰",30,50, 120, 60]。

第四步，分解需要脱敏的关键词，得到关键词中每个脱敏字符的位置坐标。此步骤可通过类似一般位置方案的方式进行，如图10所示可通过如下步骤实现：

（1）按英文及英文字符占一个位置宽度、中文字符及全角字符占用两个位置宽度的字符宽度假设遍历所述单行文本段，计算总位置宽度个数，并计算每个脱敏字符在总位置宽度序列中的位置；

（2）根据行的总宽度和总位置宽度个数，以及每个脱敏字符在总位置宽度序列中的位置，计算每个脱敏字符在所述单行文本段中的四角坐标；

（3）根据所述单行文本段在整个图片中的坐标以及每个脱敏字符在所述单行文本段中的四角坐标，计算得到关键词中每个脱敏字符在整个图片中的位置坐标。示例：["脱敏字符",left, top, right,bottom]，如：[["三",60,50, 90, 60]，["峰",90,50, 120,60]]。

第五步，根据掩码方式，在脱敏字符的位置绘制遮罩方框，将“种三峰”绘制成“种□□”，或进一步在绘制的遮罩方框上绘制*号，比如遮罩方框为白色轮廓和白色填充的基础上绘制*号，绘制成“种**”。

在本实例中，若传入的病历文档为PDF文件，先进行PDF文件向图片格式的转换。若PDF文件转换为图片后得到多个病历文档图片，依次对各个图片进行脱敏处理；所有图片均脱敏处理完成后，将同一个PDF文件对应的多个图片按先后顺序命名后压缩，返回给请求端。

具体的，本实例的病历文档脱敏装置，如图11所示，包括OCR识别模块、关键词模块、定位模块、分词模块、遮掩模块。

其中，OCR识别模块用于对图片格式的病历文档进行开源OCR识别，识别结果包含以行为基本元素的区域块，这些行元素数据包含行文本段内容以及行文本段整体的四个顶点坐标，然后进行格式化以统一数据格式，同时获取图片的全量文本。关键词模块用于根据外部传入的患者信息或使用NER识别病历文档获得的患者信息，生成需要脱敏的关键词及掩码方式。

定位模块用于在全量文本中查找是否存在需要脱敏的关键词：若不存在，则响应为不需要处理，结束流程；若存在，则进行精简数组处理，丢弃与脱敏无关文本段，保留需要脱敏的关键词所在文本段，并从识别结果的行元素数据中获取需要脱敏的关键词所在的单行文本段在整个图片中的坐标；然后采用前文实施例脱敏位置定位方法或装置进行脱敏位置定位，以计算出脱敏位置在整个图片中的坐标。

分词模块用于分解需要脱敏的关键词，得到关键词中每个脱敏字符的位置坐标；遮掩模块用于根据掩码方式，在脱敏字符的位置绘制遮罩方框，或进一步在绘制的遮罩方框上绘制*号。

本申请实施例的又一方面，提供一种电子设备，包括：至少一个处理器和存储器；其中，所述存储器存储有计算机执行指令；在所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行前文实施例所述的脱敏位置定位方法，或执行前文实施例所述的病历文档脱敏方法。

本申请实施例的再一方面，一种计算机可读存储介质，其上存储有计算机程序，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行前文实施例所述的脱敏位置定位方法，或执行前文实施例所述的病历文档脱敏方法。

以上所述仅为本发明的优选实施例，并不表示是唯一的或是限制本发明。本领域技术人员应理解，在不脱离本发明的范围情况下，对本发明进行的各种改变或同等替换，均属于本发明保护的范围。

Claims

1.一种脱敏位置定位方法，其特征在于，包括：

按垂直方向合并轮廓，忽略纵坐标，保留横坐标；

根据需要脱敏的关键词，通过一般位置方案粗略预估对应的目标区域，并映射到轮廓位置；其中，通过一般位置方案粗略预估对应的目标区域，包括：按英文及英文字符占一个位置宽度、中文字符及全角字符占用两个位置宽度的字符宽度假设遍历所述单行文本段，计算总位置宽度个数，并计算关键词在总位置宽度序列中的位置；根据行的总宽度和总位置宽度个数，以及所计算的关键词在总位置宽度序列中的位置，计算关键词在所述单行文本段中的四角坐标；根据所述单行文本段在整个图片中的坐标以及关键词的四角坐标，计算关键词在整个图片中的坐标，以实现粗略预估对应的目标区域；

截取映射后的目标区域内图片进行识别，判断识别字符与关键词是否一致：

若不一致，则根据不同匹配情况重新形成新的目标区域，然后返回截取识别步骤以新的目标区域截取图片进行识别；

其中，根据不同匹配情况重新形成新的目标区域，包括：

其余情况，则将目标区域的两侧均向外扩展一个字符区域；

其中，重叠区域内的识别字符与关键词相同。

2.一种病历文档脱敏方法，其特征在于，包括：

在全量文本中查找是否存在需要脱敏的关键词：

若不存在，则响应为不需要处理，结束流程；

若存在，则进行精简数组处理，丢弃与脱敏无关文本段，保留需要脱敏的关键词所在文本段，并从识别结果的行元素数据中获取需要脱敏的关键词所在的单行文本段在整个图片中的坐标，然后采用如权利要求1所述的脱敏位置定位方法进行脱敏位置定位，以计算出脱敏位置在整个图片中的坐标；

3.根据权利要求2所述的病历文档脱敏方法，其特征在于，若传入的病历文档为PDF文件，先进行PDF文件向图片格式的转换。

4.根据权利要求3所述的病历文档脱敏方法，其特征在于，若PDF文件转换为图片后得到多个病历文档图片，依次对各个图片进行脱敏处理；所有图片均脱敏处理完成后，将同一个PDF文件对应的多个图片按先后顺序命名后压缩，返回给请求端。

5.根据权利要求2所述的病历文档脱敏方法，其特征在于，分解需要脱敏的关键词，得到关键词中每个脱敏字符的位置坐标，通过如下步骤实现：

6.一种脱敏位置定位装置，其特征在于，包括：

轮廓映射模块，用于根据需要脱敏的关键词，通过一般位置方案粗略预估对应的目标区域，并映射到轮廓位置；其中，通过一般位置方案粗略预估对应的目标区域，包括：按英文及英文字符占一个位置宽度、中文字符及全角字符占用两个位置宽度的字符宽度假设遍历所述单行文本段，计算总位置宽度个数，并计算关键词在总位置宽度序列中的位置；根据行的总宽度和总位置宽度个数，以及所计算的关键词在总位置宽度序列中的位置，计算关键词在所述单行文本段中的四角坐标；根据所述单行文本段在整个图片中的坐标以及关键词的四角坐标，计算关键词在整个图片中的坐标，以实现粗略预估对应的目标区域；

若不一致，则根据不同匹配情况重新形成新的目标区域，然后返回截取识别步骤，以新的目标区域重新截取图片进行识别；

其中，根据不同匹配情况重新形成新的目标区域，包括：

其余情况，则将目标区域的两侧均向外扩展一个字符区域；

其中，重叠区域内的识别字符与关键词相同。

7.一种病历文档脱敏装置，其特征在于，包括：

定位模块，用于在全量文本中查找是否存在需要脱敏的关键词：若不存在，则响应为不需要处理，结束流程；若存在，则进行精简数组处理，丢弃与脱敏无关文本段，保留需要脱敏的关键词所在文本段，并从识别结果的行元素数据中获取需要脱敏的关键词所在的单行文本段在整个图片中的坐标；然后采用如权利要求6所述的脱敏位置定位装置进行脱敏位置定位，以计算出脱敏位置在整个图片中的坐标；

8.一种电子设备，包括：至少一个处理器和存储器；其中，所述存储器存储有计算机执行指令；其特征在于，在所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1所述的脱敏位置定位方法，或执行如权利要求2~5中任意一项所述的病历文档脱敏方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1所述的脱敏位置定位方法，或执行如权利要求2~5中任意一项所述的病历文档脱敏方法。