CN113988028A

CN113988028A - 基于模版匹配和ocr坐标的图片表格还原方法及系统

Info

Publication number: CN113988028A
Application number: CN202111074957.7A
Authority: CN
Inventors: 刘大海
Original assignee: Beijing Zuoyi Technology Co ltd
Current assignee: Beijing Zuoyi Technology Co ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2022-01-28
Anticipated expiration: 2041-09-14
Also published as: CN113988028B

Abstract

本发明实施例提供一种基于模版匹配和OCR坐标的图片表格还原方法及系统，属于信息处理领域。所述方法包括：获取图片表格，并根据预设OCR模型进行所述图片表格的识别，合并识别后的图片表格中每一行内的识别目标内容，获得多个抽取块；将多个抽取块与抽取模板库中的抽取模板进行匹配，筛选出各抽取块的最佳匹配模板，并根据所述最佳匹配模板输出解析结果；根据所述解析结果，在规定格式下输出解析表格。本发明方案根据行业特性和OCR识别结果对图片表格进行解析，转化方法简单，技术门槛低。

Description

基于模版匹配和OCR坐标的图片表格还原方法及系统

技术领域

本发明涉及信息处理领域，具体地，涉及一种基于模版匹配和OCR坐标的图片表格还原方法及一种基于模版匹配和OCR坐标的图片表格还原系统。

背景技术

在生产和生活过程中，时常需要进行图片表格计算机录入，特别是医疗机构中，需要对患者的纸质病历报告进行收录。现在主要通过手动录入或付费OCR软件进行图片表格收录，这对于录入效率和录入成本，均造成了很大的影响。即使通过现有的OCR软件进行图片表格识别，依旧存在以下诸多问题，第一便是极度依赖OCR检测结果和人工设计的规则，对于不同样式的表格，需做针对性开发，推广性差；第二是依赖传统图像处理算法，在鲁棒性方面较欠缺，并且对于没有可见线的表格，传统方法很吃力，很难把所有行/列间隙提取出来；第三还存在解决方案没有次第，一旦出现错误案例，无法从中间步骤快速干预修复，只能重新调整模型，看似省事，实则不适合工程落地。针对目前图片表格识别方法的诸多问题，需要创造一种新的图片表格还原的方法。

发明内容

本发明实施方式的目的是提供一种基于模版匹配和OCR坐标的图片表格还原方法及系统，以至少解决现有图盘识别方法技术门槛高和适用性低的问题。

为了实现上述目的，本发明第一方面提供一种基于模版匹配和OCR坐标的图片表格还原方法，所述方法包括：获取图片表格，并根据预设OCR模型进行所述图片表格的识别，合并识别后的图片表格中每一行内的识别目标内容，获得多个抽取块；将多个抽取块与抽取模板库中的抽取模板进行匹配，筛选出各抽取块的最佳匹配模板，并根据所述最佳匹配模板输出解析结果；根据所述解析结果，在规定格式下输出解析表格。

可选的，所述方法还包括：选择应用所述方法进行图片表格还原的行业领域；提取与所选择的行业领域相关的历史数据构建所述抽取模板库。

可选的，与所选择的行业领域相关的历史数据包括：行业领域内出现过的实体词汇、属性词汇、关系词汇、高频短语和历史表格。

可选的，所述抽取模板包括：模板表达式和单元标注；其中，所述模板表达式包括多个块，每一个块代表同一行内的对应一个单元格内的内容；所述单元标注为：抽取模板的各单元格内的内容的含义标注，和该抽取模板内多个块的关联标注。

可选的，所述根据预设OCR模型进行所述图片表格的识别，其中，图片表格的识别结果为：识别目标、每一识别目标的坐标、每一识别目标的大小和图片的旋转角度；其中，所述识别目标为字符或字符块，所述字符块包括多个横向间隔小于预设间隔阈值的字符。

可选的，所述合并识别后的图片表格中每一行内的识别目标内容，获得多个抽取块，包括：对每两个识别目标的左上角坐标求差，将求差结果小于0的对应两个识别目标做异行处理，直至完成所有识别目标的分行；将同一行内的识别目标按照坐标顺序拼接，形成一个抽取块；完成所有行的行内识别目标拼接，获得多个抽取块。

可选的，所述将多个抽取块与抽取模板库中的抽取模板进行匹配，筛选出各抽取块的最佳匹配模板，包括：将每一抽取块作为检索条件，在所述抽取模板库中进行匹配检索；对于每一抽取块，筛选出匹配字数最多的抽取模板作为该抽取块的最佳匹配模板；若匹配字数最多的抽取模板存在有多个，则根据图片表格的识别目标的坐标计算对应的抽取模板的每两个识别目标的间距和，选择其中间距和最大的抽取模板为最佳匹配模板。

可选的，在所述根据所述最佳匹配模板输出解析结果之前，所述方法还包括：根据所述识别结果分别进行表格行对齐和列对齐；其中，所述行对齐基于对比两个识别目标的重叠比实现；所述列对齐基于所述每一识别目标的坐标进行聚类实现；将完成行对齐和列对齐的表格信息作为第一解析结果。

可选的，所述根据所述最佳匹配模板输出解析结果，包括：将完成最佳匹配模板的匹配结果信息作为第二解析结果，根据所述第一解析结果和所述第二解析结果，获得最终解析结果，包括：遍历所述第一解析结果的每一行，依次计算与所述第二解析结果的相似度；当存在相似度大于预设相似度阈值时，则保留获得该相似度结果的第二解析结果中的对应行作为最终解析结果中的对应行；当不存在相似度大于预设相似度阈值时，则保留第一解析结果中的对应行作为最终解析结果中的对应行；直到所述第一解析结果中的每一行均对比计算完成后，整合每一行的保留结果，作为最终解析结果。

可选的，所述根据所述解析结果，在规定格式下输出解析表格，包括：获取规定格式；获取所述规定格式提供的空白模板或根据所述规定格式生成对应的空白模板；根据所述解析结果在所述空白模板中进行数据填充，获得填充后的表格作为解析表格；输出所述解析表格。

本发明第二方面提供一种基于模版匹配和OCR坐标的图片表格还原系统，所述系统包括：采集单元，用于获取图片表格；处理单元，用于：根据预设OCR模型进行所述图片表格的识别，合并识别后的图片表格中每一行内的识别目标内容，获得多个抽取块；将多个抽取块与抽取模板库中的抽取模板进行匹配，筛选出各抽取块的最佳匹配模板，并根据所述最佳匹配模板输出解析结果；输出单元，用于根据所述解析结果，在规定格式下输出解析表格。

通过上述技术方案，利用OCR模型进行简单的识别目标识别，识别完成后，基于行业历史数据构建的抽取模板进行识别内容语义识别。并根据识别内容获得表格准确的解析结果。然后根据用户需求，对应输出解析结果。转化方法简单，技术门槛低，任何企业或个人都可以使用该方法实现图片表格还原。

本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施方式的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施方式，但并不构成对本发明实施方式的限制。在附图中：

图1是本发明一种实施方式提供的基于模版匹配和OCR坐标的图片表格还原方法的步骤流程图；

图2是本发明一种实施方式提供的抽取块获取步骤流程图；

图3是本发明一种实施方式提供的基于模版匹配和OCR坐标的图片表格还原系统的系统结构图。

附图标记说明

10-采集单元；20-处理单元；30-输出单元。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图3是本发明一种实施方式提供的基于模版匹配和OCR坐标的图片表格还原系统的系统结构图。如图3所示，本发明实施方式提供一种基于模版匹配和OCR坐标的图片表格还原系统，所述系统包括：采集单元10，用于获取图片表格；处理单元20，用于：根据预设OCR模型进行所述图片表格的识别，合并识别后的图片表格中每一行内的识别目标内容，获得多个抽取块；将多个抽取块与抽取模板库中的抽取模板进行匹配，筛选出各抽取块的最佳匹配模板，并根据所述最佳匹配模板输出解析结果；输出单元30，用于根据所述解析结果，在规定格式下输出解析表格。

图1是本发明一种实施方式提供的基于模版匹配和OCR坐标的图片表格还原方法的方法流程图。如图1所示，本发明实施方式提供一种基于模版匹配和OCR坐标的图片表格还原的方法，所述方法包括：

步骤S10：获取图片表格，并根据预设OCR模型进行所述图片表格的识别，合并识别后的图片表格中每一行内的识别目标内容，获得多个抽取块。

具体的，采集单元10获取需要识别的图片表格，根据OCR模型进行图片表格识别，具体的，如图2，包括以下步骤：

步骤S101：对图像表格进行旋转校正，获得正向图像。

具体的，在图像采集过程中，可能因为拍摄角度造成图像存在一定的旋转角度。众所周知，表格文件，根据行和列呈水平和竖直分布，若直接在存在旋转角度的图像上进行表格识别，容易将斜向的数据归为一列或一行。所以，进行OCR之前，优选地，进行图像校正。首先，选择对应的参照物，表格中存在横线或竖线，即使是数据不完全被方框包围，但依旧存在表头横向。选择表格中任一条横线作为参考线。当图像信息存在一定角度时，该作为参考线的横线必定与水平直线呈现对应的倾角。优选的，利用霍夫变换进行直线识别和调整。霍夫变换是图像处理中从图像中识别几何形状的基本方法之一，主要用来从图像中分离出具有某种相同特征的几何形状，最基本的霍夫变换是从黑白图像中检测直线。通过识别的直线，将直线修正为水平，从而使得整张图像随之正向。优选的，为了避免将竖向直线识别为参考直线，使得整张图像大角度反转，优选的，限定旋转校正的最大角度为45°。

步骤S102：对正向图像进行OCR，获得识别信息。

具体的，OCR可通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字。在检测过程中，通过运用图像形态学变换、纹理提取、边缘检测等手段进行文字定位和识别。进行这些识别是，主要需要获取的识别信息有图像信息中每个字符、每个字符的坐标、每个字符的高度、每个字符的宽度和图像信息的旋转角度。其中，图像信息的旋转角度为相对于原表格正向排列的旋转角度，存在0°、90°、180°和270°四种情况。即受图像采集角度和图像导入影响，图像可能出现多种角度的倒向，通过旋转校正后，直线保持横平竖直，但图像整体依旧可能存在多个方向的正向旋转。规定原表格正向排列的左上角点位坐标为(0，0)，按照图片像素，横坐标从左向右逐渐增加，纵坐标从上到下逐渐增加。若旋转角度不为0°，则需要进行坐标校正，把图片转换成可读状态下的图片坐标。即图像存在多个方向的正向旋转时，首先对图像进行翻转或对坐标进行定义，保证最终的识别信息与实际相符。

步骤S103：根据识别信息获得多个抽取块。

具体的，OCR模型是对单个字符或多个字符组成的字符块进行识别，将这些可以识别的内容作为识别目标。OCR结果便会获得多个字符或多个字符块，一块里面是连续的好多个字符和这个块的坐标及大小。如果只给出了块坐标，每个字符的坐标可以通过使用块大小除以该块内字符的个数估计出来。不管OCR结果是什么粒度，OCR结果的顺序都是按照或者说可以按照图片从左到右，从上到下的顺序依次排列给出。按照上述规律，进行行切分。当字符或块的左上角坐标减上一个字符或块的左上角坐标小于零时，表示此处需要换行。不需要换行时，将当前字符或块与上一个字符或块拼在一起，然后将每一行的字符或块合在一起，获得一个抽取块。依次类推，完成所有行的内容合并，获得每一行的抽取块，整合获得多个抽取块。例如，存在如下表格：

平均血红蛋白含量	31
		白细胞计数	33.5
白细胞介素	156
		淋巴细胞百分数	26.4
红细胞平均体积	95.2
		单核细胞百分数	6.6

表一检查报告举例表

根据抽取块的合并规则，将这些行区分出来，然后进行逐行合并，便可以得到如下抽取块：“平均血红蛋白含量31”、“白细胞计数33.5”、“白细胞介素156”、“淋巴细胞百分数26.4”、“红细胞平均体积95.2”、“单核细胞百分数6.9”。

步骤S20：将多个抽取块与抽取模板库中的抽取模板进行匹配，筛选出各抽取块的最佳匹配模板，并根据所述最佳匹配模板输出解析结果。

具体的，获得抽取块后，便可以根据抽取块和抽取模板进行匹配识别，根据抽取模板进行抽取块的语义识别，获得表格的完整内容。优选的，需要构建对应的抽取模板，根据应用行业的行业特性，各行业有其常规使用的表格类型的惯用短语。在医疗领域，病例报告和检查报告单等常出现的报告单大多都以表格类型进行呈现。这些表格内容常出现具体指标和对应的参数值，所以，在限定行业内，表格内容和形式具有很强的规律性。基于行业特征进行针对性的图片表格识别，将会极大缩短句意识别时间，仅需要根据行业规律进行模板套用，将会极大提高图片表格的识别效率。所以，首先需要详细获知应用行业的特性规律，制定对应的模板。行业规律隐藏在行业内大量的历史数据中，则根据应用行业的具体类型，在行业内的知识库和公用信息库对应行业知识信息库中进行历史数据提取。这些历史包括领域内出现过的实体词汇、属性词汇、关系词汇、高频短语和历史表格。这些专业词汇或常用词汇常出现在表格中，理论上进行图标表格识别时，根据词汇相似度匹配，便可快速完成数据意义识别和归类。采集单元10在选定的知识库中，进行规定专业词汇收集和高频词汇统计，完成历史数据收集，并将收集完成的历史数据发送到处理单元20。

完成历史数据提取后，处理单元20便需要根据历史数据进行抽取模板生成。优选的，预设抽取模板表达式和单元标注；其中，所述模板表达式包括多个块，每一个块代表同一行内的对应一个单元格内的内容；所述单元标注为所述各单元格内容的含义标注和所述模板内多个块的关联标注。例如，规定抽取模板格式为：

[CHECK_NAME]{value:0,10000}10|0＝ne|1＝value

其中，[CHECK_NAME]{value:0,10000}为模板表达式；[CHECK_NAME]为第一个块，表示一类实体，该块内容便为领域内出现过的实体词汇、属性词汇、关系词汇或高频短语。{value:0,10000}为另一个块，该块内容代表0-10000之间的一个数。10|0＝ne|1＝value为单元标注；10代表该模板权重，也可以看成是模板质量，0＝ne表示模板的第1个位置是实体,ne代表实体，1＝value表示模板的第2个位置是数值。

在构造模板时，需要考虑到连续数字的情况。例如，“白细胞介素156”，在行业内，实体词典中既有“白细胞介素”，也有“白细胞介素1”。想要准确识别语义和对应的参数，至少需要构造两个模板：

[CHECK_NAME]{num:2}10|0＝ne|1＝value

[CHECK_NAME]{num:3}10|0＝ne|1＝value

其中，[CHECK_NAME]表示此处匹配医疗检验检查实体，即可匹配获得“白细胞介素”或“白细胞介素1”；{num:2}表示此处匹配两个数字，{num:3}表示此处匹配三个数字。在使用过程中，这两个模板都会匹配到“白细胞介素156”。

进行多个抽取块与抽取模板库中的抽取模板进行匹配时，首先，根据行坐标顺序，自上而下进行匹配，调取第一行的抽取块，然后在抽取模板库中进行模板匹配检索，当匹配字数大于预设值时，便将对应抽取模板作为候选模板。一个抽取块可能命中多个候选模板，为了从中识别出最佳抽取模板，进行匹配字数统计。对比每一个抽取模板的匹配字数，选择匹配字数最多的抽取模板为最佳抽取模板。若匹配字数最多的抽取模板存在有多个，则计算模板匹配出来的各单元的间距累加和，选择列间距最大的模板。例如，上述获得的“白细胞计数33.5”抽取模板，有两个模板命中了该抽取块。分别为一个模板的解析结果是“白细胞计数3”和“3.5”，另一个模板的解析结果是“白细胞计数”和“33.5”。因为这两个模板的匹配字数相同，因为上述表格中，真正的解析结果为“白细胞计数”和“33.5”，“白细胞计数”和“33.5”之间的间距和大于“白细胞计数3”和“3.5”，所以通过计算单元间距和，可以判定“白细胞计数”和“33.5”是最终的解析结构。

在另一种可能的实施方式中，行业涉及历史数据体量很大，或后续增加新的专业词汇，导致之前的模板构建不完善。在后续使用过程中，部分数据无法通过模板进行识别，会导致解析效果降低。为了避免这种情况发生，优选的，在进行模板匹配的同时，还进行另一种图片表格识别方法进行表格识别。

具体的，完成行对齐后，根据识别信息计算后一个字符与前一个字符的间隔，然后对比计算结果与预设间隔阈值，对比获得一个大于预设间隔阈值的计算结果后，将该两个相邻字符对进行计数一次，累计所有计数，对比计数结果和预设数量阈值，当数量大于预设数量阈值时，认为存在有规律的间隔，判定存在表格。然后，在行对齐表格的结果上，进行列对齐，使用聚类算法，对存储到A中的表格进行聚类，聚类的特征使用字符的坐标，聚类结果里相同类别的数据表示表格中的一列。例如，选择DBSCAN聚类算法，半径和半径内的样本数目两个参数，半径分别使用字符宽度平均值×1.5、字符宽度平均值×2、字符宽度平均值×2.5，半径内的样本数目都设置为1，训练三个DBSCAN模型，根据训练结果进行坐标聚类，将相同类别的数据判定为同一列。优选的，为了提高对齐准确率，选择不同的聚类算法或相同聚类算法但不同参数进行表格坐标聚类，获得多个聚类结果；以每一行的行号作为索引，根据预设筛选算法在所述多个聚类结果中筛选出对应的最佳行；以每一行的最佳行组成表格信息，将该表格信息作为解析信息。

获得另一种解析信息后，便可以对比连两种解析结果，筛选出最佳的结果。优选的，进行逐行对比；若所述最佳匹配模板结果对应行与所述列对齐解析信息对应行之间的相似度大于预设相似度阈值，则选择并保留最佳匹配模板结果中的对应行；若所述最佳匹配模板结果对应行与所述列对齐解析信息对应行之间的相似度小于预设相似度阈值，则选择并保留所述列对齐解析信息中的对应行；直到完成多有行对比，整合保留的各行信息，获得最终解析结果。

步骤S30：根据所述解析结果，在规定格式下输出解析表格。

具体的，获取所述规定格式；获取所述规定格式提供的空白模板或根据所述规定格式生成对应的空白模板；根据所述最终解析结果在所述空白模板中进行数据填充，获得填充后的表格；输出所述填充后的表格。根据用户需求，在规定的格式下导出图片表格的内容，进行内容填充时，以最佳解析结果进行填充。

本领域技术人员可以理解实现上述实施方式的方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上结合附图详细描述了本发明的可选实施方式，但是，本发明实施方式并不限于上述实施方式中的具体细节，在本发明实施方式的技术构思范围内，可以对本发明实施方式的技术方案进行多种简单变型，这些简单变型均属于本发明实施方式的保护范围。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施方式对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施方式的思想，其同样应当视为本发明实施方式所公开的内容。

Claims

1.一种基于模版匹配和OCR坐标的图片表格还原方法，其特征在于，所述方法包括：

获取图片表格，并根据预设OCR模型进行所述图片表格的识别，合并识别后的图片表格中每一行内的识别目标内容，获得多个抽取块；

将多个抽取块与抽取模板库中的抽取模板进行匹配，筛选出各抽取块的最佳匹配模板，并根据所述最佳匹配模板输出解析结果；

根据所述解析结果，在规定格式下输出解析表格。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

选择应用所述方法进行图片表格还原的行业领域；

提取与所选择的行业领域相关的历史数据构建所述抽取模板库。

3.根据权利要求2所述的方法，其特征在于，与所选择的行业领域相关的历史数据包括：

行业领域内出现过的实体词汇、属性词汇、关系词汇、高频短语和历史表格。

4.根据权利要求1所述的方法，其特征在于，所述抽取模板包括：

模板表达式和单元标注；其中，

所述模板表达式包括多个块，每一个块代表同一行内的对应一个单元格内的内容；

所述单元标注为：抽取模板的各单元格内的内容的含义标注，和该抽取模板内多个块的关联标注。

5.根据权利要求1所述的方法，其特征在于，所述根据预设OCR模型进行所述图片表格的识别，其中，图片表格的识别结果为：识别目标、每一识别目标的坐标、每一识别目标的大小和图片的旋转角度；其中，所述识别目标为字符或字符块，所述字符块包括多个横向间隔小于预设间隔阈值的字符。

6.根据权利要求5所述的方法，其特征在于，所述合并识别后的图片表格中每一行内的识别目标内容，获得多个抽取块，包括：

对每两个识别目标的左上角坐标求差，将求差结果小于0的对应两个识别目标做异行处理，直至完成所有识别目标的分行；

将同一行内的识别目标按照坐标顺序拼接，形成一个抽取块；

完成所有行的行内识别目标拼接，获得多个抽取块。

7.根据权利要求5所述的方法，其特征在于，所述将多个抽取块与抽取模板库中的抽取模板进行匹配，筛选出各抽取块的最佳匹配模板，包括：

将每一抽取块作为检索条件，在所述抽取模板库中进行匹配检索；

对于每一抽取块，筛选出匹配字数最多的抽取模板作为该抽取块的最佳匹配模板；

若匹配字数最多的抽取模板存在有多个，则根据图片表格的识别目标的坐标计算对应的抽取模板的每两个识别目标的间距和，选择具有最大间距和的抽取模板为最佳匹配模板。

8.根据权利要求5所述的方法，其特征在于，在所述根据所述最佳匹配模板输出解析结果之前，所述方法还包括：

根据所述识别结果分别进行表格行对齐和列对齐；其中，

所述行对齐基于对比两个识别目标的重叠比实现；

所述列对齐基于所述每一识别目标的坐标进行聚类实现；

将完成行对齐和列对齐的表格信息作为第一解析结果。

9.根据权利要求8所述的方法，其特征在于，所述根据所述最佳匹配模板输出解析结果，包括：

将完成最佳匹配模板的匹配结果信息作为第二解析结果，根据所述第一解析结果和所述第二解析结果，获得最终解析结果，包括：

遍历所述第一解析结果的每一行，依次计算与所述第二解析结果的相似度；

当存在相似度大于预设相似度阈值时，则保留获得该相似度结果的第二解析结果中的对应行作为最终解析结果中的对应行；

当不存在相似度大于预设相似度阈值时，则保留第一解析结果中的对应行作为最终解析结果中的对应行；

直到所述第一解析结果中的每一行均对比计算完成后，整合每一行的保留结果，作为最终解析结果。

10.根据权利要求9所述的方法，其特征在于，所述根据所述解析结果，在规定格式下输出解析表格，包括：

获取规定格式；

获取所述规定格式提供的空白模板或根据所述规定格式生成对应的空白模板；

根据所述最终解析结果在所述空白模板中进行数据填充，获得填充后的表格作为解析表格；

输出所述解析表格。

11.一种基于模版匹配和OCR坐标的图片表格还原系统，其特征在于，所述系统包括：

采集单元，用于获取图片表格；

处理单元，用于：

根据预设OCR模型进行所述图片表格的识别，合并识别后的图片表格中每一行内的识别目标内容，获得多个抽取块；

输出单元，用于根据所述解析结果，在规定格式下输出解析表格。