CN114023414A

CN114023414A - 一种体检报告多层次结构录入方法、系统以及存储介质

Info

Publication number: CN114023414A
Application number: CN202111187198.5A
Authority: CN
Inventors: 朱敬华; 石秀峰; 潘春伟; 邓志豪
Original assignee: Zhejiang Helian Network Technology Co ltd
Current assignee: Zhejiang Helian Network Technology Co ltd
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2022-02-08

Abstract

本发明为一种体检报告多层次结构录入方法、系统以及存储介质，包括以下步骤：S1：接收体检报告图片集，通过OCR识别技术将图片转换成带坐标信息的文本块序列；S2：对所述文本块序列，根据文本块的坐标按阅读顺序进行排序，按行分组，行间按y坐标轴从小到大排列，行内文本块按x轴坐标从小到大排列；S3：将距离近的文本块进行合并，对每个文本行进行分类，并标注所属逻辑块；S4：通过文本行的标签确定文本行所属的逻辑块；S5：对每个逻辑块通过结构化提取算法提取相应的信息。本发明有效解决不同体检机构间体检报告不统一，不利于线上查阅以及管理问题，有效地将来自不同体检机构且格式不一的体检报告，以统一的结构存储于后台的数据库中。

Description

一种体检报告多层次结构录入方法、系统以及存储介质

技术领域

本发明涉及数据处理技术领域，具体为一种体检报告多层次结构录入方法、系统以及存储介质。

背景技术

随着社会经济的发展和医疗卫生水平的不断提高，人们对健康的需求越来越大，健康体检及健康管理成为人们追求健康必不可少的活动。由于不同医疗机构的体检报告模板不一致，且用户获取的体检报告多种多样(纸质报告、PDF文件或者其他电子报告)，给体检报告的线上化及基于体检的线上服务带来困难。所以，对于提供线上体检业务或者健管业务的互联网健康平台，需要将来自不同机构的体检报告，以统一的结构存储在后台的数据库中，以便能提供线上体检和健康管理服务。

一方面，随着移动互联网的发展，用户可以非常便利地将纸质体检报告通过拍照存储在移动设备中。另一方面随着人工智能尤其是深度学习在计算机视觉、自然语言处理等领域的应用日渐成熟，我们可以通过相关技术将不同机构的体检报告以统一的结构抽取信息到数据库中。

为了解决上述问题，本领域工作人员对体检报告录入方法、系统进行了不同的研究：

中国专利申请201710244503.7公开了一种体检数据匹配方法、体检数据匹配系统、存储介质和电子设备，该方法包括：获取目标体检报告，其中，所述目标体检报告包含一个或多个目标体检项目以及与各目标体检项目分别对应的目标体检数据；确定所述目标体检项目与该所述目标体检项目对应的体检数据的标准编码格式之间的映射关系；根据所述映射关系将各所述目标体检数据的编码格式转换成标准编码格式；以及分别将各所述目标体检项目与各所述目标体检项目对应的经转换编码格式的所述目标体检数据结合以生成经匹配的体检报告，并存储所述经匹配的体检报告。本公开可以实现不同体检机构的体检数据统一编码存储。

该技术方案通过建立一个标准编码数据库的，然后通过目标体检报告与标准码数据库的不同进行匹配，进而实现体检报告的统一；然而，由于各医院单位的体检报告频繁更新，标准的编码数据库也需要更新，不利于后续体检报告的生成，存在滞后性，其次，各医院的体检报告格式多种多样，例如有纸质报告、PDF文件或者其他形式的体检报告，在获取体目标体检报告时，难度增加，且该技术方案中并未披露获取目标体检报告方法。

中国专利申请202110144841.X公开了一种用于识别体检报告的方法、计算设备和计算机可读存储介质。该方法包括：响应于确定待识别的体检报告的类型为第一预定类型，解析待识别的体检报告，以便生成多个文字块信息和多个坐标信息；基于所识别的机构属性信息，遍历关于体检指标的知识图谱，以便确定体检指标集合和对应的标准体检指标集合；基于所确定的体检指标集合，遍历多个文字块信息，以便确定目标体检指标的坐标信息；基于目标体检指标的坐标信息，确定与目标体检指标对应的目标体检指标值；以及基于目标体检指标值和对应的标准体检指标集合，生成关于待识别的体检报告的体检数据。本公开能够有效识别体检报告，而且无需预先为每家体检机构定制识别模版。

然而，该专利申请方案中，只识别了体检指标和指标值，同时利用知识图谱进行一些标准化映射，依赖于体检机构的体检指标知识图谱信息来匹配指标名称，然后依赖指标名称块的位置与指标值块的位置坐标关系来识别指标值。对于体检报告而言，依赖于知识图谱存在着相对的局限性，影响录入体检报告的效率以及精确度。

因此有必要对体检报告多层次结构录入方法、系统以及存储介质进行进一步的改进，以解决上述的各种不端。

发明内容

本申请的目的：在于解决和克服现有技术和应用的不足，提供体检报告多层次结构录入方法、系统以及存储介质，有效解决不同体检机构间体检报告不统一，不利于线上查阅以及管理问题，有效地将来自不同体检机构且格式不一的体检报告，以统一的结构存储于后台的数据库中，有利于机构线上查阅，且及时提供健康管理服务。

本申请的目的是通过如下技术方案来完成的，一种体检报告多层次结构录入方法，其特征在于，包括以下步骤：

S1：接收体检报告图片集，通过OCR识别技术将图片转换成带坐标信息的文本块序列；

S2：对所述文本块序列，根据文本块的坐标按阅读顺序进行排序，按行分组，行间按y坐标轴从小到大排列，行内文本块按x轴坐标从小到大排列；

S3：将距离近的文本块进行合并，对每个文本行进行分类，进而得到每个文本行的类别标签，并标注所属逻辑块；

S4：通过文本行的标签确定文本行所属的逻辑块；

S5：对每个逻辑块通过结构化提取算法提取相应的信息，存入多层次结构中。

优选地，所述体检报告内容包括但不限于总检、建议、检查结果。

优选地，所述OCR识别技术包括图片预处理、文字检测、文字识别、文本块处理四个步骤。

优选地，所述逻辑块为总检、建议、检查结果，所述检查结果包含一系列检查项，所述检查项包含一系列指标项。

优选地，所述结构化提取算法包括但不限于段落提取算法，表格提取算法，实体关系抽取算法。

本发明还提供一种体检报告多层次结构录入系统，包括：

文档预处理模块，用于处理体检报告，将格式不一的体检报告转换为大小一致的图片格式，并按原始顺序排序；

文字检测模块，用于检测图片的文本块位置，并切割得到文本块的子图片；

文字识别模块，用于识别所述字图片中的文字，并将体检报告转化为二维文本块数据集；

文本块处理模块，根据坐标位置对每页的文本块按行分组，并按坐标顺序排列行，进而得到按页、行、块三个维度组织的三维的文本块数据集。

文本分类模块，用于对每个文本行进行分类，进而得到每个文本行的类别标签。

逻辑块定位模块，通过文本行的标签确定文本行所属的逻辑块。

逻辑块结构化模块，对每个逻辑块通过结构化提取算法提取相应的信息，存入多层次结构中。

优选地，所述文本处理模块去除页眉页码以及无关信息。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序可以被计算机处理器执行实现如权利要求1至5中的任意一项所述方法的计算机可读指令。

本申请与现有技术相比，至少具有以下明显优点和效果：

在本发明中，通过文档预处理模块，文字检测模块，文字识别模块，文本块处理模块，文本分类模块，逻辑块定位模块，逻辑块结构化模块，有效地将来自不同体检机构且格式不一的体检报告，以统一的结构存储于后台的数据库中，一方面，采用了多种格式录入体检报告，减轻了工作人员的工作负担，有利于提高录入体检报告的效率以及精确度，另一方面，将统一结构后的体检报告存储于数据库中，有利于机构线上查阅，且及时提供健康管理服务。

在本发明中，通过坐标信息还原文本块的阅读顺序，根据坐标位置按行分组，且行内文本块按x轴坐标，行间按y坐标进行排序，然后确定多层次结构中每个逻辑块包含的行，即逻辑块定位，最后针对不同的逻辑块采用不同的结构化算法提取逻辑块的结构化内容，不依赖于体检机构的体检指标知识图谱信息，需要预训练序列标注算法模型、文本分类模型、NER模型等来支持逻辑块的定位、逻辑块的结构化，有利于提高录入体检报告的效率以及精确度。

附图说明

图1是本申请的体检报告多层次结构内容示意图。

图2是本申请中OCR识别流程示意图。

图3是本申请中多层次结构化信息提取流程示意图。

图4是本申请中体检报告部分内容示意图。

图5是本申请中体检报告多层次结构录入方法、系统的流程图。

图6是本申请中整体结构示意图。

本申请中的附图标记：

100体检报告、1总检、2建议、3检查结果、4纸质报告、5识别设备、6照片集、7服务器、8数据库。

具体实施方式

结合附图和以下说明描述了本申请的特定实施例以教导本领域技术人员如何制造和使用本申请的最佳模式。为了教导申请原理，已简化或省略了一下常规方面。本领域技术人员应该理解源自这些实施例的变形落在本申请的范围内。本领域技术人员应该理解下述特征能够以各种方式结合以形成本申请的多个变型。本申请中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。由此，本申请并不局限于下述特定实施例，而仅由权利要求和它们的等同物限定。

如图1至图3所示，本申请的体检报告多层次结构录入方法，步骤如下：

S1：接收体检报告100图片集，通过OCR识别技术将图片转换成带坐标信息的文本块序列；

S4：通过文本行的标签确定文本行所属的逻辑块；

通过文档预处理模块，文字检测模块，文字识别模块，文本块处理模块，文本分类模块，逻辑块定位模块，逻辑块结构化模块，有效地将来自不同体检机构且格式不一的体检报告100，以统一的结构存储于后台的数据库8中，一方面，采用了多种格式录入体检报告100，减轻了工作人员的工作负担，有利于提高录入体检报告100的效率以及精确度，另一方面，将统一结构后的体检报告100存储于数据库8中，有利于机构线上查阅，且及时提供健康管理服务。

下面将对本公开的示例性实施方式的体检报告100多层次结构录入方法的各步骤进行说明。

接受用户上传的拍照或者扫描的体检报告100正文照片集6，通过OCR识别技术将图片转换成带坐标信息的文本块序列。所述需录入的体检报告100正文为多层次结构，图1示出了根据本公开的实施例的体检报告100多层次结构内容示意图，如图1所示，多层次结构包括但不限于总检1、建议2、检查结果3等报告页内容，总检1包括但不限于总检1内容、总检1医生、总检1日期，建议2包括但不限于建议2内容、审核者、审核日期，检查结果3包括但不限于项目名称、值、单位、参考范围、检查者、检查时间，检查结果3是由一个或者多个体检检查项组成，体检检查项则由一个或者多个指标项组成。

图2示出了根据本公开的实施例的OCR识别流程示意图。如图2所示，包括图片预处理、文字检测、文字识别、文本块处理四个步骤。

首先，需要对图片进行缩放转化成固定尺寸，以匹配文字检测算法的输入数据的尺寸。

文字检测算法调用预训练的文字检测模型PSENET，对每张图片进行文字检测，识别图片的文本块区域，从而得到文本块图片集，其中每个文本块都带有区域坐标信息。PSENET是一种场景文字检测算法，对于各种形状的文本具有较好的检测效果，对于自然拍照的报告图片可能产生一些弯曲或变形有较好的检测效果。

文字识别算法调用预训练的文字识别模型CRNN，对每张文本块图片进行文字识别，识别出图片中的文字，即每张文本块图片通过文字识别算法处理后可以得到一个文本块，从而对于每页报告都能得到一个文本块序列。CRNN模型是一种端到端的文字识别模型，对于不定长的文本具有较好的识别效果。为了提高体检报告100的文字识别效果，CRNN模型基于大量的体检报告100标注数据训练得到。

文本块处理对每一页的文字块根据区域坐标按行分组，行内按区域中心坐标y排序，从而获取体检报告100的文本数据集。

文本块处理：对于所述文本块序列，根据文本块的坐标按阅读顺序进行排序，按行分组，行间按y坐标轴从小到大排列，行内文本块按x轴坐标从小到大排列。

图4示出了根据本公开的实施例的体检报告100部分内容的示意图。如图4所示，将体检报告100中的文本块的坐标按阅读顺序进行排序，例如：“总检1”、“建议2”、“检查结果3”，按行进行分组，例如：文本块“血压：”、“145mmHg”、“↑”、“89-139”为一组；文本块“体重指数：”、“28.23”、“↑”、“18.5-23.9”为一组，行间按y坐标轴从小到大排列，行内文本块按x轴坐标从小到大排列，进而得到一个按页、行、块，三个维度组织的三维的文本块数据集。此外，可将页眉页脚等无关信息通过规则过滤掉，减少后续操作的干扰。

文本块分类，首先进行文本块合并，根据文本块特征：文本块坐标，文字内容、与前一文本块的间隔、与后一文本块间隔，将距离近的文本块进行合并，例如图4所示，“145mmHg”文本块可能被识别成多个文本块“145”、“mmHg”，但块距离较近，故将其进行合并。然后对每个文本行调用预训练的文本分类模型进行分类，为文本行标注所属逻辑块。

所述逻辑块为：总检1、建议2、检查结果3，检查结果3包含一系列检查项。一般地，检查项是以一个表格存在，表格中包含了该检查项的一系列指标项。文本行标注采用BIO标注，即标注总检1、建议2的起始、中间和结尾，检查结果3的起始、中间和结尾，检查项的起始、中间和结尾，除此之外，还有一个其他标签。

文本分类模型为Transformer预训练模型，基于报告的标注数据集训练得到的模型。为了减少训练时间，以一个已发布的预训练Transformer模型在自身标注数据集上进行微调可以得到较好的分类效果。

S4：通过文本行的标签确定文本行所属的逻辑块；

对跨页的逻辑块，需进行逻辑块跨页合并；根据页内文本块的坐标范围，计算页的长和宽，在合并页时，以第一页为基准，其他页的坐标按长宽计算相应坐标的缩放比，进而对文本块的坐标进行缩放。

对于标签为其他的文本行，结合先验知识进行纠正。比如检查项逻辑块的起始标签缺失，可以根据检查项中表格的表头前一行为检查项的起始位置这个先验知识来调整该行的标签为检查项起始标签。

S5：对每个逻辑块通过结构化提取算法提取相应的信息，存入多层次结构中。所述结构化提取算法包括但不限于段落提取算法，表格提取算法，实体关系抽取算法。

在确认各逻辑块的范围后，根据逻辑块的特征，不同的逻辑块结构化提取算法有所不同。

对于总检1、建议2这种逻辑块，一般由大段的文字构成其主要内容，由医生名字及日期结尾。对于段落型的总检1、建议2内容提取相对较简单，只需将逻辑块内各段落的文本块合并起来即可，例如图3所示，体检报告100的总检1的总检内容：从“【一般检查】”行，到“甘油三脂：1.8mmol/L↑0.56-1.7”行，逐行进行文本合并，合并时注意根据位置信息识别出段落中的缩进信息并适当增加空格及换行符。总检1、总检医生、总检日期通过命名实体识别(NER)技术识别人名和日期即可。

检查结果3的结构化提取较复杂，检查结果3是由一系列的检查项组成，检查项通常由一个表格组成，表格中包含了各项指标项的结果，有些检查项会在表格的最后一行添加检查项的小结。在表格之后是该检查项结果的检查医生和检查日期。不难发现，检查结果3的提取难点在于检查项表格的结构复杂多样，有些表格是一行一个指标项，有些是一行两个指标项，有些指标项会占据多行。检查小结和检查医生、和检查日期较易提取。检查小结可根据正则表达式或者关键词提取，检查医生和检查日期可通过NER识别人名和日期来提取。检查小结、检查医生和检查日期识别后从逻辑块中移除，减少对指标项识别的干扰。最后，通过表格结构，单元格的内容及先验知识提取指标项。

一种指标项结构化提取示例，如图4所示，首先确定每列的类别，类别为：项目名称、指标值、单位、参考范围。由于表头相对较固定，可以构建表头词库来实现列的类别识别。确定列的类别后，可以确定表格结构，如果一行有两个指标项，则是一行两个指标。对于一行一个指标的提取，只需将对应列的单元格内容提取到相应的类别中。本申请对于一行两个指标的结构化提取算法采取：第一个指标名称到第二个指标名称之间的列提取到第一个指标的相应类别中，第二个指标项名称后的列提取到第二个指标的相应类别中。例如，一行中有两个指标名称为“血压”、“体重”对应有两个指标值为“145mmHg”、“67.9kg”，将第一个项目名称到第二个项目名称之间的列提取到第一个项目的相应类别中，即“项目名称：血压，指标值：145mmHg”，将第二个项目名称后的列提取到第二个指项目的相应类别中，即“项目名称：体重，指标值：67.9kg”。

下面将对本公开的示例性实施方式的体检报告100多层次结构录入系统进行说明。

文字识别模块，用于识别所述字图片中的文字，并将体检报告100转化为二维文本块数据集；

文本分类模块，用于对每个文本行进行分类，进而得到每个文本行的类别标签；

逻辑块定位模块，通过文本行的标签确定文本行所属的逻辑块，

逻辑块机构化模块，对每个逻辑块通过结构化提取算法提取相应的信息，存入多层次结构中。

图5示出了根据本公开的实施例的体检报告100多层次结构录入方法、系统的流程图。如图5所示，将体检报告100文档，通过文档预处理模块将多种体检报告100格式的报告页转换为图片集，并通过OCR识别技术将图片转换成带坐标信息的文本块列表，对于文本块列表，根据文本块的坐标按阅读顺序进行排序，按行分组，行间按y坐标轴从小到大排列，行内文本块按x轴坐标从小到大排列，文本块分类模块将距离近的文本块进行合并，对每个文本行进行分类，进而得到每个文本行的类别标签，并标注所属逻辑块，逻辑定位模块对每个逻辑块通过结构化提取算法提取相应的信息，存入多层次结构中，最终生成结构化体检报告100。

图6示出了根据本公开的实施例的结构示意图。如图6所示，包括纸质报告4、识别设备5、照片集6、服务器7、结构化体检报告100库，前端接受用户上传体检报告100文件，如果是PDF文件，先转换成图片集。如果是纸质报告4，则经过识别设备5，例如扫描仪、手机，相机等识别设备5进行按顺序识别体检报告100并将照片上传，拍照时提供水平和垂直的参考平行线供用户对齐纸张或者文字的水平和垂直线。实现体检报告100多层次结构录入方法、系统的软件部署在服务器7，并以Restful接口对外提供服务。前端发送请求到服务器7，提取报告的多层结构信息，存储到数据库8中。

需要进一步说明的是，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可以被计算机处理器执行实现如权利要求1至5中的任意一项所述方法的计算机可读指令。所述计算机程序可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上、部分在远程计算设备上执行、或者完全在远程计算设备或服务器7上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

由于本领域技术人员能够很容易想到，利用申请的构思和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种体检报告多层次结构录入方法，其特征在于，包括以下步骤：

S4：通过文本行的标签确定文本行所属的逻辑块；

2.根据权利要求1所述的一种体检报告多层次结构录入方法，其特征在于：所述体检报告包括但不限于总检、建议、检查结果。

3.根据权利要求1所述的一种体检报告多层次结构录入方法，其特征在于，所述OCR识别技术包括图片预处理、文字检测、文字识别、文本块处理四个步骤。

4.根据权利要求1所述的一种体检报告多层次结构录入方法，其特征在于，所述逻辑块为总检、建议、检查结果，所述检查结果包含一系列检查项，所述检查项包含一系列指标项。

5.根据权利要求1所述的一种体检报告多层次结构录入方法，其特征在于，所述结构化提取算法包括但不限于段落提取算法，表格提取算法，实体关系抽取算法。

6.一种体检报告多层次结构录入系统，其特征在于，包括：

逻辑块定位模块，通过文本行的标签确定文本行所属的逻辑块；

7.根据权利要求6所述的一种体检报告多层次结构录入系统，其特征在于，所述文本处理模块去除页眉页码以及无关信息。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序可以被计算机处理器执行实现如权利要求1至5中的任意一项所述方法的计算机可读指令。