CN112686258A

CN112686258A - 体检报告信息结构化方法、装置、可读存储介质和终端

Info

Publication number: CN112686258A
Application number: CN202011455492.5A
Authority: CN
Inventors: 杨芬; 杨旭; 王晓亮; 杜文凯; 王丹丹
Original assignee: GRG Banking Equipment Co Ltd
Current assignee: GRG Banking Equipment Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-04-20

Abstract

本发明提供了一种体检报告信息结构化方法、装置、可读存储介质和终端，通过OCR检测和识别算法，确定体检单内文本信息的位置，识别体检单内的文字；版面布局恢复算法，即将识别出的文本信息按从上到下、从左到右的顺序依次排列，恢复至与原pdf文件布局一直的文本内容；文本信息提取算法，即从文本中提取个人信息、体检单总结分析信息、体检项详细信息。本发明针对种类繁多、场景复杂的报告，可以得到高准确率、高鲁棒性的报告分类和信息提取。使得保险领域对于体检报告的人工或简单信息提取起到了极大地改善，可在医院、金融和保险等领域可得到广泛应用。

Description

体检报告信息结构化方法、装置、可读存储介质和终端

技术领域

本发明涉及信息检测或智能视觉技术领域，具体涉及一种体检报告信息结构化方法、装置、可读存储介质和终端。

背景技术

为便于保险公司在投保人投保前可以详细了解其情况，最终决定是否接受其投保或者是选取合适险种，需要进行投保人体检单的信息提取并运用。鉴于不同体检机构的体检报告单版式不同，导致信息提取难度增大，亟需解决。

早期的体检类报告的信息大多需要人工提取和分析，效率十分低下，而且长时间的识别和提取过程也会使人眼疲劳，所以人工录入已经不适应于当今计算机等领域飞速发展的现状。

随着科学技术的进步，医疗和保险领域也在逐渐走向数字化，许多医疗体检报告单是通过纸质形式进行存储的，这就意味着不同医院之间的体检或患者病例数据是独立的，不利于各医院间的信息交互和电子信息录入及提取。因此，如何实现报告中表格文字识别，使得纸质的医疗体检报告单数字化很有必要。

目前，市面上存在一些表格文字识别APP，通过透视变换对医疗体检报告单图像进行矫正，再经过相关处理识别出文本框中的文字并输出Excel，但是这类APP无法定位所有文本框，并且文字识别错误率极高，也并不能有效地按格式将图片表格输入Excel中。

此外，随着人工智能的兴起，图像识别技术逐步应用于安全、军事、医疗、智能交通等领域，机器视觉中的人脸识别和指纹识别等技术越来越多的使用到公共安全、金融和航空航天等安全领域。在医疗领域，通过图像识别技术可以进行各类医学图像分析和诊断，一方面可以大大降低医疗的成本，另一方面也有助于提高医疗质量和效率。虽然已出现了自动识别或自动提取证件信息的技术，然而对于复杂场景，质检视频清晰度极差，质检要求多样，目前算法均是解决单一问题，如从高质量的图像中识别人脸和文字信息，难以直接转化为复杂的业务判断。

如报告在视觉内未对准、光照不均、外光场干扰、杂物覆盖等，导致报告轮廓、表格、文字模糊，不利于报告内容的精确提取，从而导致报告信息提取效率降低或失败。为此也出现了一些解决上述问题的深度学习方法：该方法在模型训练阶段应用大量标注数据对深度网络进行训练，拟合网络参数，实现OCR(Optical Character Recognition，光学字符识别)检测算法的建模，在模型预测阶段，将整张图像作为网络的输入，通过网络前向推理实现表格及字符区域的检测。该方法为目前较为流行的字符检测方法，而对于报告检测项数值及号码检测任务，该方法存在如下缺陷(1)非报告区域图像也参加了网络推理过程，一方面浪费了计算资源，另一方面对于非报告区域存在的字符存在误检测需要额外增加处理逻辑进行剔除；(2)该方案计算资源消耗较大，训练和推理时间长；(3)因神经网络的不可解释行，该方法定位的字符区域边框存无法精确定位字符最小外接矩形框，甚至会切掉部分字符区域，即传统的体检报告图像光学识别(OCR)技术主要面向高清扫描的图像，该方法要求识别的图像拥有干净的背景、使用规范的印刷体并具有较高的分辨率。但是，自然场景中存在文本背景噪声大、文本分布不规范和自然光源影响等问题，OCR技术在实际自然场景中检测率并不理想，针对体检报告等报告识别给后面步骤的字符识别带来压力。

基于以上情况，体检报告等报告的智能检测、识别和提取中，不能根据实际应用场景的变化和复杂程度做出快速准确高效的响应，即实际应用场景的多样化和复杂化给体检报告的检测识别提出了更高的要求。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种体检报告信息结构化方法、装置、可读存储介质和终端，其能解决上述问题。

一种体检报告信息结构化方法，方法包括以下步骤：

S1 OCR检测，确定体检单内文本信息的位置；

S2 OCR识别，识别体检单内的文字；

S3版面布局恢复，将识别出的文本信息按从上到下从左到右的顺序依次排列，恢复至与原pdf文件布局一致的文本内容；

S4文本信息提取，从步骤S3的文本中提取需求信息，需求信息包括两部分，一部分是个人信息抽取和总结分析抽取，即从文本段落中提取出个人基本信息、体检总结分析；另一部分是表格信息抽取，即从表格中提取出体检项检测结果信息，包括体检项目名称、项目检查结果、项目单位、项目参考值。

优选的，步骤S1和S2的过程包括以下步骤：S121表格检测，检测体检单图像中的表格；S122单元格OCR检测，获取表格内的所有单元格，检测单元格内的OCR；S123表格区域涂白，将检测到的图像表格区域进行填充，涂白；S124非表格区域检测，将涂白剩余区域应用投影检测方法检测OCR位置信息；S125 OCR识别。

优选的，步骤S1中，OCR检测方法是基于投影的检测。

优选的，步骤S2中OCR识别采用DenseNet+CTC识别模型。

优选的，步骤S3的版面布局恢复包括以下步骤：

S31字符区域排序，按照字符区域位置进行从左到右、从上到下的排序；设排序后的字符区域为

其中s_i懨(x_i1，y_i1，x_i2，y_i2，)表示排序后的第i个字符区域,x_i1，y_i1分别为第i个字符区域左上顶点的横坐标和纵坐标,x_i2，y_i2分别为第i个字符区域右下顶点的横坐标和纵坐标；

S32字符区域行对齐，对于排序后的字符区域，两相邻字符区域的纵轴坐标插值大于预设阈值，则换行,否则相邻区域为同一行；即对于排序后的字符区域

若排序相邻的字符区域s_i,s_i+1满足y_i+11-y_i1＞T,则字符区域s_i,s_i+1需换行,s_i+1为新一行的第一个字符区域,若排序相邻的字符区域s_i,s_i+1不满足y_i+11-y_i1＞T,则字符区域s_i,s_i+1为同一行字符区域；

S33表头检测，遍历对齐后行的文本信息，若行文本信息与预制表头相似度大于预设阈值，则检测该行为表头即标题文本行；

S34字符区域列对齐，应用位置信息将非标题文本行按照标题文本行进行对齐；设标题文本行

其中t_m懨(x_m1，y_m1，x_m2，y_m2)表示标题文本行T的第m个字符区域,x_m1，y_m1分别为第m个字符区域左上顶点的横坐标和纵坐标,x_m2，y_m2分别为第m个字符区域右下顶点的横坐标和纵坐标；对于非标题文本行

其中u_n懨(x_n1，y_n1，x_n2，y_n2)表示非标题文本行U的第n个字符区域,x_n1，y_n1分别为第n个字符区域左上顶点的横坐标和纵坐标,x_n2，y_n2分别为第n个字符区域右下顶点的横坐标和纵坐标；若对于任意的m和n,t_m与u_n满足x_m1≤x_n1≤x_m2,则区域u_n对齐至标题文本行T的第m列；

S35输出表格化文本，行列对齐完成输出文本表格化文本。

优选的，在步骤S4的人信息抽取包括：从文本段落部分抽取个人信息，设计规则模板，采用匹配方式抽取出包括但不限于姓名、出生日期、婚姻状况信息。

优选的，在步骤S4的表格信息抽为从表格中抽取出检查详细结果，对表格信息的清洗包括：

a.采用Jaccard相似度算法找出表头，根据表头定位出表格，并对表头缺字、错字进行纠正，同时进行实体对齐处理；

b.对每个表格内容进行有效信息提取，即剔除包括页眉页脚的无效的杂质信息，并对缺失符号进行填补；

c.多行对齐及分行处理，表格内存在多行的内容进行多行对齐处理，同一检查项目名称太长则被分成多行。

本发明还提供了一种体检报告信息结构化装置，所述装置包括电讯连接的获取输入单元、图像处理单元、信息提取单元、和信息输出单元；其中，

获取输入单元，通过摄像组件获取待提取信息的报告图片及标准的注册报告；

图像处理单元，通过处理器中的深度学习算法和图像处理算法对输入的报告图片进行处理，依次获得初步的粗糙的报告区域掩膜、报告区域精修的掩膜、扣取的原图区域和仿射变换矫正后的矫正图像；

信息提取单元，通过处理器中的信息提取算法将矫正图像的报告类别和信息；

信息输出单元，处理器将输入报告提取的类别和信息结果在显示器上显示并存储至存储器。

本发明还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行前述方法的步骤。

本发明还提供了一种终端，包括存储器和处理器，所述存储器上储存有注册图片和能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行前述方法的步骤。

相比现有技术，本发明的有益效果在于：本申请通过OCR检测和识别算法，确定体检单内文本信息的位置，识别体检单内的文字；版面布局恢复算法，即将识别出的文本信息按从上到下、从左到右的顺序依次排列，恢复至与原pdf文件布局一直的文本内容；文本信息提取算法，即从文本中提取个人信息、体检单总结分析信息、体检项详细信息。本发明针对种类繁多、场景复杂的报告，可以得到高准确率、高鲁棒性的报告分类和信息提取。使得保险领域对于体检报告的人工或简单信息提取起到了极大地改善，可在医院、金融和保险等领域可得到广泛应用。

附图说明

图1为本发明一种体检报告信息结构化方法的流程图；

图2为ORC检测、识别流程图；

图3为版面恢复流程图；

图4为文本信息抽取图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例

一种体检报告信息结构化方法，方法包括以下步骤。

S1 OCR检测，确定体检单内文本信息的位置；

S2 OCR识别，识别体检单内的文字；

其中，参见图1，体检单信息结构化算法流程包括文字检测和识别、表格检测和布局分析对齐、文本信息提取三大模块，模块之间相互耦合共同完成信息结构化功能。

图像算法对应文字检测和识别，其中包括采用carft模型进行体检机构识别。而OCR检测方法是基于投影的检测，OCR识别采用DenseNet+CTC识别模型。

布局分析算法实现根据表格类型的版面对齐，采用通用模型实现满足特定条件的版面布局，按类别处理实现具有独特的版面布局。

文本抽取算法实现文本分析，同样的采用通用模型和按类别处理的方式，实现①基本信息：姓名、性别、出生日期；②体检机构、汇总分析；③体检项结果：内科、外科、血常规等。

最后将提取的文本信息与原文档等尺寸的报告以json格式输出。

说明1：JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScript Programming Language,Standard ECMA-2623rd Edition-December 1999的一个子集。JSON是一个标记符的序列，包含六个构造字符、字符串、数字和三个字面名。正因此，可以很好地匹配应用到本方案的坐标标注。

说明2：DenseNet+CTC模型。

其中，DenseNet在网络的前面层和后面层创建了短路径连接,减少了输入信息和梯度信息的消失。DenseNet结构中层与层之间的连接线采用密集连接–当前层的输入是之前所有层的输出集合，具体算法内容采用现有即可，此处不再赘述。

CTC模型就是先将一段信号x作为输入输入到encoder中，输出h,再经过一个classifier产生token distribution,最后经过一个softmax输出最后结果。其不要求输入输出是严格对齐的，具体算法内容采用现有即可，此处不再赘述。

通过二者的结合，可以实现非严格要求对齐的文本或图像信息输入，得到一个相对较高的检测识别效果。

进一步的，参见图2，步骤S1和S2的过程包括以下步骤：

S121表格检测，检测体检单图像中的表格。

S122单元格OCR检测，获取表格内的所有单元格，检测单元格内的OCR。

S123表格区域涂白，将检测到的图像表格区域进行填充，涂白。

S124非表格区域检测，将涂白剩余区域应用投影检测方法检测OCR位置信息。

S125 OCR识别。

进一步的，参见图3，步骤S3的版面布局恢复包括以下步骤：

S35输出表格化文本，行列对齐完成输出文本表格化文本。

说明：Jaccard相似度算法，即Jaccard similarity coefficient或Jaccardindex，用于比较有限样本集之间的相似性和差异性。可用于文本的查重与去重，文本的相似度比较，计算对象的距离用于数据聚类，用于衡量有限样本集之间的相似程度。

第二实施例

本发明还提供了一种体检报告信息结构化装置，所述装置包括电讯连接的获取输入单元、图像处理单元、信息提取单元、和信息输出单元。

获取输入单元，通过摄像组件获取待提取信息的报告图片及标准的注册报告；获取单元利用硬件设备，包括但不限于手机，IPAD，普通摄像头，CCD工业相机、扫描仪等，对证件正面进行图像信息采集，注意采集到的图像应完全的包含证件的四条边界，并且倾斜不超过正负20°，且人眼能分辨证件号码和边缘直线。

图像处理单元，通过处理器中的深度学习算法和图像处理算法对输入的报告图片进行处理，依次获得初步的粗糙的报告区域掩膜、报告区域精修的掩膜、扣取的原图区域和仿射变换矫正后的矫正图像。以为后续信息提取做准备。

其中的采集的图像，是通过摄像头采集的图像，可以是一张静态图像(即：单独采集的图像)，也可以是一张视频中图像(即从采集的视频中按照预设标准或随机选取的一张图像)，均可用于本发明证件的图像源，本发明实施例对于图像的来源、性质、大小等等所有属性均无限制。

信息输出单元，处理器将输入报告提取的类别和信息结果在显示器上显示并存储至存储器。其中，显示器包括但不限于平板电脑、计算机、手机等的显示屏，将处理器提取的证件对比分类显示。

本领域技术人员基于本公开实施例的记载可以知悉，除了神经网络外，在本公开实施例还可以利用例如但不限于：基于图像处理的字符检测算法(例如，基于直方图粗分割和奇异值特征的字符/号码检测算法，基于二进小波变换的字符/号码检测算法，等等)，对采集图像进行字符检测。另外，除了神经网络外，在本公开实施例也可以利用例如但不限于：基于图像处理的证件检测算法(例如，边缘检测法，数学形态学法，基于纹理分析的定位方法，行检测和边缘统计法，遗传算法，霍夫(Hough)变换和轮廓线法，基于小波变换的方法，等等)，对采集图像进行证件检测。

本公开实施例中，通过神经网络对采集报告图像进行检测识别时，可以预先利用报告样本图像对神经网络进行训练，使得训练好的神经网络能够实现对报告中信息的有效检测。

第三实施例

本发明还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行前述方法的步骤。其中，所述方法请参见前述部分的详细介绍，此处不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

第四实施例

本发明还提供了一种终端，包括存储器和处理器，所述存储器上储存有注册图片和能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行前述方法的步骤。其中，所述方法请参见前述部分的详细介绍，此处不再赘述。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、装置、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种体检报告信息结构化方法，其特征在于，方法包括以下步骤：

S1 OCR检测，确定体检单内文本信息的位置；

S2 OCR识别，识别体检单内的文字；

其中文本段落的部分相对简单，但表格部分布局恢复往往难度较大，涉及到列与列对齐、行与行对齐、内容左对齐或居中对齐等；

2.根据权利要求1所述的方法，其特征在于，步骤S1和S2的过程包括以下步骤：

S121表格检测，检测体检单图像中的表格；

S122单元格OCR检测，获取表格内的所有单元格，检测单元格内的OCR；

S123表格区域涂白，将检测到的图像表格区域进行填充，涂白；

S124非表格区域检测，将涂白剩余区域应用投影检测方法检测OCR位置信息；

S125 OCR识别。

3.根据权利要求1所述的方法，其特征在于：步骤S1中，OCR检测方法是基于投影的检测。

4.根据权利要求1所述的方法，其特征在于，步骤S2中OCR识别采用DenseNet+CTC识别模型。

5.根据权利要求1或2所述的方法，其特征在于，步骤S3的版面布局恢复包括以下步骤：

S31字符区域排序，按照字符区域位置进行从左到右、从上到下的排序；

S32字符区域行对齐，对于排序后的字符区域，两相邻字符区域的纵轴坐标大于预设阈值，则换行，否则相邻区域为同一行；即对于排序后的字符区域

若排序相邻的字符区域s_i，s_i+1满足y_{i+1 1}-y_i1＞T，则字符区域s_i，s_i+1需换行，s_i+1为新一行的第一个字符区域，若排序相邻的字符区域s_i，s_i+1不满足y_{i+1 1}-y_i1＞T，则字符区域s_i，s_i+1为同一行字符区域；

S33表头检测，遍历行对齐的文本信息，若行文本信息与预制表头相似度大于预设阈值，则检测改行为表头；

S34字符区域列对齐，应用位置信息将非标题文本区域与标题文本区域进行对齐；设标题文本行

其中t_m＝(x_m1，y_m1，x_m2，y_m2)表示标题文本行T的第m个字符区域，x_m1，y_m1分别为第m个字符区域左上顶点的横坐标和纵坐标，x_m2，y_m2分别为第m个字符区域右下顶点的横坐标和纵坐标；对于非标题文本行

其中u_n＝(x_n1，y_n1，x_n2，y_n2)表示非标题文本行U的第n个字符区域，x_n1，y_n1分别为第n个字符区域左上顶点的横坐标和纵坐标，x_n2，y_n2分别为第n个字符区域右下顶点的横坐标和纵坐标；若对于任意的m和n，t_m与u_n满足x_m1≤x_n1≤x_m2，则区域u_n对齐至标题文本行T的第m列；

S35输出表格化文本，行列对齐完成输出文本表格化文本。

6.根据权利要求1所述的方法，其特征在于，在步骤S4的人信息抽取包括：从文本段落部分抽取个人信息，设计规则模板，采用匹配方式抽取出包括但不限于姓名、出生日期、婚姻状况信息。

7.根据权利要求1或6所述的方法，其特征在于，在步骤S4的表格信息抽为从表格中抽取出检查详细结果，对表格信息的清洗包括：

8.一种体检报告信息结构化装置，其特征在于：所述装置包括电讯连接的获取输入单元、图像处理单元、信息提取单元、和信息输出单元；其中，

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于：所述计算机指令运行时执行权利要求1-7任一项所述方法的步骤。

10.一种终端，包括存储器和处理器，其特征在于：所述存储器上储存有注册图片和能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行权利要求1-7任一项所述方法的步骤。