CN113989823A

CN113989823A - 基于ocr坐标的图片表格还原方法及系统

Info

Publication number: CN113989823A
Application number: CN202111074953.9A
Authority: CN
Inventors: 刘大海
Original assignee: Beijing Zuoyi Technology Co ltd
Current assignee: Beijing Zuoyi Technology Co ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2022-01-28
Anticipated expiration: 2041-09-14
Also published as: CN113989823B

Abstract

本发明提供一种基于OCR坐标的图片表格还原方法及系统，属于信息处理领域。所述方法包括：获取图片表格的图像；对所述图像进行旋转校正，获得正向图像；对所述正向图像进行OCR识别，获得识别信息；根据预设聚类算法和所述识别信息对所述图片表格进行对齐操作，获得表格信息；根据预设需求填充并输入所述表格信息。本发明方案基于OCR识别结果坐标进行表格行和列对齐，通过计算字符坐标进行表格还原，具有很强的通用性和实用性。

Description

基于OCR坐标的图片表格还原方法及系统

技术领域

本发明涉及信息处理领域，具体地涉及一种基于OCR坐标的图片表格还原方法及一种基于OCR坐标的图片表格还原系统。

背景技术

在生产和生活过程中，时常需要进行图片表格进行计算机录入，特别是医疗机构中，需要对患者的纸质病历报告进行收录。现在主要通过手动录入或付费OCR软件进行图片表格收录，这对于录入效率和录入成本，均造成了很大的影响。即使通过现有的OCR软件进行图片表格识别，依旧存在以下诸多问题，第一便是极度依赖OCR检测结果和人工设计的规则，对于不同样式的表格，需做针对性开发，推广性差；第二为依赖传统图像处理算法，在鲁棒性方面较欠缺，并且对于没有可见线的表格，传统方法很吃力，很难把所有行/列间隙提取出来；第三还存在解决方案没有次第，一旦出现错误案例，无法从中间步骤快速干预修复，只能重新调整模型，看似省事，实则不适合工程落地的问题。针对目前图片表格识别方法的诸多问题，需要创造一种新的图片表格还原的方法。

发明内容

本发明实施方式的目的是提供一种基于OCR坐标的图片表格还原方法及系统，以至少解决目前图片表格识别方法使用成本高、技术门槛高、转换复杂的问题。

为了实现上述目的，本发明第一方面提供一种基于OCR坐标的图片表格还原的方法，所述方法包括：获取图片表格的图像；对所述图像进行旋转校正，获得正向图像；对所述正向图像进行OCR识别，获得识别信息；根据预设聚类算法和所述识别信息对所述图片表格进行对齐操作，获得表格信息；根据预设需求填充并输入所述表格信息。

可选的，所述对所述图像进行旋转校正，获得正向图像，包括：识别所述图像中的直线信息；利用霍夫变换将所述直线信息调整为水平直线。

可选的，所述对所述图像进行旋转校正中，旋转校正的校正角度范围为≤45°。

可选的，所述识别信息包括：所述图像中每个识别目标、每个识别目标的坐标、每个识别目标的高度、每个识别目标的宽度和所述图像的旋转角度；其中，所述识别目标包括：单个字符，或由多个连续间隔小于预设间隔阈值的字符组成的字符块。

可选的，所述每个字符的坐标确定规则包括：规定原图片表格正向排列的左上角点为坐标为(0，0)，按照图片像素，横坐标从左向右逐渐增加，纵坐标从上到下逐渐增加。

可选的，所述根据预设聚类算法和所述识别信息对所述图片表格进行对齐操作，包括：进行行对齐，包括：根据所述图像中每个识别目标的坐标、每个识别目标的高度和每个识别目标的宽度进行每两个识别目标之间的纵向重叠比计算；对比每两个识别目标之间的纵向重叠比与预设纵向重叠比阈值；将纵向重叠比小于预设纵向重叠比阈值的两个识别目标归为一行，完成行对齐；进行列对齐，包括：根据所述识别信息获得模型特征，并根据预设聚类算法和所述模型特征进行聚类；将聚类结果类别相同的数据归为同一列，完成列对齐。

可选的，所述根据所述识别信息获得模型特征包括：根据所述每个识别目标的坐标和每个识别目标的宽度获得每个识别目标的左坐标和右坐标；将所述每个识别目标的左坐标和/或所述每个识别目标的右坐标作为模型特征。

可选的，所述方法还包括：选择不同的聚类算法，或选择同一聚类算法但不同参数，进行图片表格坐标聚类，获得多个候选表格；以每一行的行号作为索引，根据预设筛选算法在所述多个候选表格中筛选出对应的最佳行；以每一行筛选出的最佳行组成表格信息。

可选的，所诉根据预设筛选算法在所述多个候选表格中筛选出对应的最佳行，包括：提取所述多个候选表格没各行索引下的所有行结果；使用聚类评估算法依次评估所述所有行结果中每一行的列对齐偏差值；提取每一行对齐效果偏差值最小的候选表格中的对应行，作为表格信息中对应行索引的最佳行。

可选的，所述使用聚类评估算法依次评估所述所有行结果中每一行的列对齐偏差值，包括：使用多个不同预设聚类评估算法分别进行列对齐偏差值评估，获得多个评估结果；利用预设加权算法进行所述多个评估结果综合分析，获得唯一列对齐偏差值。

本发明第二方面提供一种基于OCR坐标的图片表格还原的系统，所述系统包括：采集单元，用于获取图片表格的图像；处理单元，用于：对所述图像进行旋转校正，获得正向图像；对所述正向图像进行OCR识别，获得识别信息；根据预设聚类算法和所述识别信息对所述图片表格进行对齐操作，获得表格信息；输出单元，用于根据预设需求填充并输入所述表格信息。

另一方面，本发明提供一种计算机可读储存介质，该计算机可读存储介质上储存有指令，其在计算机上运行时使得计算机执行上述的基于OCR坐标的图片表格还原的方法。

通过上述技术方案，基于OCR识别结果，基于字符坐标进行行和列的对齐，并不局限于基于直线识别进行单元格识别。有利于不存在具体表格方框线的图片表格识别。且在获得表格信息后，根据需求输出表格信息，提高了系统的智能性和适用性。

本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施方式的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施方式，但并不构成对本发明实施方式的限制。在附图中：

图1是本发明一种实施方式提供的基于OCR坐标的图片表格还原方法的步骤流程图；

图2是本发明一种实施方式提供的基于OCR坐标的图片表格还原系统的系统结构图。

附图标记说明

10-采集单元；20-处理单元；30-输出单元。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图2是本发明一种实施方式提供的基于OCR坐标的图片表格还原系统的系统结构图。如图2所示，本发明实施方式提供一种基于OCR坐标的图片表格还原的系统，所述系统包括：采集单元10，用于获取图片表格的图像；处理单元20，用于：对所述图像进行旋转校正，获得正向图像；对所述正向图像进行OCR识别，获得识别信息；根据预设聚类算法和所述识别信息对所述图片表格进行对齐操作，获得表格信息；输出单元30，用于根据预设需求填充并输入所述表格信息。

图1是本发明一种实施方式提供的基于OCR坐标的图片表格还原的方法的步骤流程图。如图1所示，本发明实施方式提供一种基于OCR坐标的图片表格还原的方法，所述方法包括：

步骤S10：获取图片表格的图像信息。

具体的，在生产生活中，时常需要将纸质表格进行计算机留档存储，目前是主要通过手动录入或OCR(Optical Character Recognition，光学字符识别)软件识别。其中，OCR软件识别一方面大多需要付费使用，另一方面，极度依赖OCR检测结果和人工设计的规则，对于不同样式的表格，需做针对性开发，推广性差。且依赖传统图像处理算法，在鲁棒性方面较欠缺，并且对于没有可见线的表格，传统方法很吃力，很难把所有行/列间隙提取出来。本发明基于OCR技术，利用表格本身的像素属性，进行无差别表格识别，适用性更广。首先，需要采集表格的图像信息，采集模块用于采集该图像信息。优选的，采集模块获得图像信息后，对图像信息进行预处理，包括降噪、平滑和色度增强等，便于后续像素识别，避免干扰，造成识别错误。

步骤S20：对所述图像信息进行旋转校正，获得正向图像。

具体的，在图像采集过程中，可能因为拍摄角度造成图像存在一定的旋转角度。众所周知，表格文件，根据行和列呈水平和竖直分布，若直接在存在旋转角度的图像上进行表格识别，容易将斜向的数据归为一列或一行。所以，进行OCR之前，优选地，进行图像校正。首先，选择对应的参照物，表格中存在横线或竖线，即使是数据不完全被方框包围，但依旧存在表头横向。选择表格中任一条横线作为参考线。当图像信息存在一定角度时，该作为参考线的横线必定与水平直线呈现对应的倾角。优选的，利用霍夫变换进行直线识别和调整。霍夫变换是图像处理中从图像中识别几何形状的基本方法之一，主要用来从图像中分离出具有某种相同特征的几何形状，最基本的霍夫变换是从黑白图像中检测直线。通过识别的直线，将直线修正为水平，从而使得整张图像随之正向。优选的，为了避免将竖向直线识别为参考直线，使得整张图像大角度反转，优选的，限定旋转校正的最大角度为45°。

步骤S30：对所述正向图像进行OCR，获得识别信息。

具体的，OCR可通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字。在检测过程中，通过运用图像形态学变换、纹理提取、边缘检测等手段进行文字定位和识别。进行这些识别是，主要需要获取的识别信息有图像信息中每个识别目标、每个识别目标的坐标、每个识别目标的高度、每个识别目标的宽度和图像信息的旋转角度。识别目标包括：单个字符，或由多个连续间隔小于预设间隔阈值的字符组成的字符块。其中，图像信息的旋转角度为相对于原表格正向排列的旋转角度，存在0°、90°、180°和270°四种情况。即受图像采集角度和图像导入影响，图像可能出现多种角度的倒向，通过旋转校正后，直线保持横平竖直，但图像整体依旧可能存在多个方向的正向旋转。规定原表格正向排列的左上角点位坐标为(0，0)，按照图片像素，横坐标从左向右逐渐增加，纵坐标从上到下逐渐增加。若旋转角度不为0°，则需要进行坐标校正，把图片转换成可读状态下的图片坐标。即图像存在多个方向的正向旋转时，首先对图像进行翻转或对坐标进行定义，保证最终的识别信息与实际相符。例如，通过OCR步骤，获得识别结果为[(x1,y1,w1,h1,"正"),(x2,y2,w2,h2,"常")]；其中，表示图片中识别出，“正常”两个字，“正”字左上角像素的坐标是(x1,y1)，字符宽度w1，高度h1；“常”字左上角像素的坐标是(x2,y2)字符宽度w2，高度h2。

步骤S40：根据预设聚类算法和所述识别信息对所述图片表格进行对齐操作，获得表格信息。

具体的，上述已知，本发明方案不局限于直线进行表格识别，而是根据字符坐标进行对应行和列对齐，实现表格行列识别。所以，获得OCR识别信息后，需要根据该识别信息进行表格各行各列的逐一对齐。具体的，包括以下步骤：

步骤S401：进行表格行对齐。

具体的，受干扰因素和识别精度影响，识别信息中的坐标识别结果一般会存在抖动。即对同一行的字，行坐标一般会有几个像素的偏差，因为有偏差的存在，所以对表格的坐标按照从大到小或者从上到下的排序是会排乱的。行对齐的原理便是保证两个识别目标之间纵向重叠比在预设重叠比阈值内，当二者的重叠比很小时，便可判定这两个识别目标在同一行内。首先需要计算两个字符或两个字符块之间的重叠比，以上述“正常”的OCR识别信息位列，重叠比h的计算公式为：

优选的，选定每一行第一个字符或字符块为参考字符，后续每一个字符与当前字符进行重叠比计算，获得多个每一次计算结果h，整合获得重叠比集合R_h(h₁，h₂，。。。，h_n)。然后对比每一个重叠比和预设重叠比阈值H，筛选出其中重叠比小于H的字符或字符块，将这些字符和字符块判定为与该行参考字符处于同一行。进行每一行逐一对齐，完成所有行对齐。

步骤S402：行对齐后，根据识别信息计算后一个识别目标与前一个识别目标的间隔，然后对比计算结果与预设间隔阈值，对比获得一个大于预设间隔阈值的计算结果后，将该两个相邻识别目标对进行计数一次，累计所有计数，对比计数结果和预设数量阈值，当数量大于预设数量阈值时，认为存在有规律的间隔，判定存在表格。然后，在行对齐表格的结果上，进行列对齐，使用聚类算法，对存储到A中的表格进行聚类，聚类的特征使用字符的坐标，聚类结果里相同类别的数据表示表格中的一列。例如，选择DBSCAN聚类算法，半径和半径内的样本数目两个参数，半径分别使用字符宽度平均值×1.5、字符宽度平均值×2、字符宽度平均值×2.5，半径内的样本数目都设置为1，训练三个DBSCAN模型，根据训练结果进行坐标聚类，将相同类别的数据判定为同一列。

在一种可能的实施方式中，选择不同的聚类算法或相同聚类算法但不同参数进行表格坐标聚类，获得多个聚类结果；以每一行的行号作为索引，根据预设筛选算法在所述多个聚类结果中筛选出对应的最佳行；以每一行的最佳行组成表格信息。其中，根据预设筛选算法在所述多个候选表格中筛选出对应的最佳行，包括：提取所述多个候选表格每个行索引下的所有行结果；使用预设聚类评估算法依次评估所述所有行结果中每一行的列对齐偏差值；提取每一行对齐效果偏差值最小的候选表格中的对应行，作为表格信息中对应行索引的最佳行。为保证聚类评估算法的效果，优选的，选择多个不同的聚类评估算法，然后获得多个评估结果，通过预设的加权算法进行结果综合分析，例如经验加权和加权平均，获得唯一准确的评估结果。

步骤S50：根据预设需求填充并输入所述表格信息。

具体的，完成行对齐和列对齐后，对应表格格式和内容便已经完全识别并获取，即完整的表格信息。然后根据实际需求，例如完整还原表格或在新建表格中进行数据填充，均可以直接调用该表格信息，在预设模板中导出完整表格。

在一种可能的实施方式中，需要进行某检验报告单识别。首先获取对应检验报告单的图像信息，然后使用霍夫变换对图像做小角度校正，校正后图片里面的斜线会变成水平的线。然后调用OCR接口或者开源的OCR模型对图片进行图像识别，得到图像中每个字符的坐标，生成如下格式：“[([450,13,36,22,"结果"]，[(450,13,14,22,"结")，(470,13,14,22,"果")])，([977,13,33,21,"单位"]，[(977,13,13,21,"单")，(995,13,13,21,"位")])]”，列表的每个元素是元组，每个元组分为两部分，第一部分是字符块的坐标，第二部分是字符块内每个字符的坐标。坐标格式为：[字符左上角坐标x,字符左上角坐标y,字符宽度，字符高度]。然后根据OCR结果进行表格进行对齐，行对齐的方法是计算两个字符或者两个字符块之间纵向上的重叠比，预设重叠比阈值为0.5，如果计算重叠比h>0.5，则认为两个字符或者两个字符块在一行上。行对齐后，根据OCR结果进行表格检测，识别图片中哪些行是表格区域。识别方法是使用OCR结果，计算后一个字符与前一个字符的间隔，当有2处间隔大于M像素时,则认为检测到表格行。M＝字符宽度平均值×3，将满足条件的行作为待处理的表格存储到容器A。使用多种聚类算法，分别对存储到A中的表格进行聚类，聚类算法使用DBSCAN和OPTICS算法,聚类的特征使用字符左上角坐标x，DBSCAN需要设置半径和半径内的样本数目两个参数，半径分别使用字符宽度平均值×1.5、字符宽度平均值×2、字符宽度平均值×2.5，半径内的样本数目都设置为1，训练三个DBSCAN模型；OPTICS不需要设置半径，但需要设置样本数目都为1，训练一个OPTICS模型。

综上训练了四个聚类模型。使用上述四个聚类模型得到四种列对齐结果，聚类结果相同类别的数据表示表格中的一列。此时，OCR结果完成了行对齐和列对齐，可以生成四个表格，此时表格的最小单元是字符块，也就是单元格。以行号建立索引，遍历索引，取出四个表格中每个表格里该行号对应的行，分别计算行内每个字符块的间隔，对间隔进行累加得到间隔和，计算间隔累加和除以该行单元格数量得到G，G最大的行作为筛选出的行。对每一行分别按照该方法找到最佳行，最佳行组成了最终的表格。最后将表格以二维列表的形式返回，第一维列表表示每一行，第二维列表表示每一列。

在另一种可能的实施方式中，进行行对齐时，OCR接口或者OCR模型可以直接检测行，这在行线和列线完整且清晰时容易实现。所以先进行行线和列线判断，若能够直接识别行线，则不需要进行行对齐步骤，跳过该步骤，提高识别效率。进行列对齐时，也可以选用谱聚类、k-mean、层次聚类等方法，即能够进行坐标聚类的方法，均可作为列对齐原理方法。

在另一种可能的实施方式中，在筛选表格行的时候，可以不筛选每一行，而是直接使用轮廓系数或者兰德系数或者聚类纯度等聚类指标选择哪一种聚类效果最好，即那个表格是最佳的。

本发明实施方式还提供一种计算机可读储存介质，该计算机可读存储介质上储存有指令，其在计算机上运行时使得计算机执行上述的基于OCR坐标的图片表格还原的方法。

本领域技术人员可以理解实现上述实施方式的方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上结合附图详细描述了本发明的可选实施方式，但是，本发明实施方式并不限于上述实施方式中的具体细节，在本发明实施方式的技术构思范围内，可以对本发明实施方式的技术方案进行多种简单变型，这些简单变型均属于本发明实施方式的保护范围。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施方式对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施方式的思想，其同样应当视为本发明实施方式所公开的内容。

Claims

1.一种基于OCR坐标的图片表格还原方法，其特征在于，所述方法包括：

获取图片表格的图像；

对所述图像进行旋转校正，获得正向图像；

对所述正向图像进行OCR识别，获得识别信息；

根据预设聚类算法和所述识别信息对所述图片表格进行对齐操作，获得表格信息；

根据预设需求填充并输出所述表格信息。

2.根据权利要求1所述的方法，其特征在于，所述对所述图像进行旋转校正，获得正向图像，包括：

识别所述图像中的直线信息；

利用霍夫变换将所述直线信息调整为水平直线。

3.根据权利要求2所述的方法，其特征在于，所述对所述图像进行旋转校正中，旋转校正的校正角度范围为≤45°。

4.根据权利要求1所述的方法，其特征在于，所述识别信息包括：

所述图像中每个识别目标、每个识别目标的坐标、每个识别目标的高度、每个识别目标的宽度和所述图像的旋转角度；其中，

所述识别目标包括：

单个字符，或

由多个连续间隔小于预设间隔阈值的字符组成的字符块。

5.根据权利要求4所述的方法，其特征在于，所述每个识别目标的坐标确定规则包括：规定原图片表格正向排列的左上角点位坐标为(0，0)，按照图片像素，横坐标从左向右逐渐增加，纵坐标从上到下逐渐增加。

6.根据权利要求5所述的方法，其特征在于，所述根据预设聚类算法和所述识别信息对所述图片表格进行对齐操作，包括：

进行行对齐，包括：

根据所述图像中每个识别目标的坐标、每个识别目标的高度和每个识别目标的宽度进行每两个识别目标之间的纵向重叠比计算；

对比每两个识别目标之间的纵向重叠比与预设纵向重叠比阈值；

将纵向重叠比小于预设纵向重叠比阈值的两个识别目标归为一行，完成行对齐；

进行列对齐，包括：

根据所述识别信息获得模型特征，并根据预设聚类算法和所述模型特征进行聚类；

将聚类结果类别相同的数据归为同一列，完成列对齐。

7.根据权利要求6所述的方法，其特征在于，所述根据所述识别信息获得模型特征包括：

根据所述每个识别目标的坐标和每个识别目标的宽度获得每个识别目标的左坐标和右坐标；

将所述每个识别目标的左坐标和/或所述每个识别目标的右坐标作为模型特征。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

选择不同的聚类算法，或选择同一聚类算法但不同参数，进行图片表格聚类，获得多个候选表格；

以每一行的行号作为索引，根据预设筛选算法在所述多个候选表格中筛选出对应的最佳行；

以每一行筛选出的最佳行组成表格信息。

9.根据权利要求8所述的方法，其特征在于，所述根据预设筛选算法在所述多个候选表格中筛选出对应的最佳行，包括：

提取所述多个候选表格每个行索引下的所有行结果；

使用预设聚类评估算法依次评估所述所有行结果中每一行的列对齐偏差值；

提取每一行对齐效果偏差值最小的候选表格中的对应行，作为表格信息中对应行索引的最佳行。

10.根据权利要求9所述的方法，其特征在于，所述使用聚类评估算法依次评估所述所有行结果中每一行的列对齐偏差值，包括：

使用多个不同预设聚类评估算法分别进行列对齐偏差值评估，获得多个评估结果；

利用预设加权算法进行所述多个评估结果综合分析，获得唯一列对齐偏差值。

11.一种基于OCR坐标的图片表格还原系统，其特征在于，所述系统包括：

采集单元，用于获取图片表格的图像；

处理单元，用于：

对所述图像进行旋转校正，获得正向图像；

对所述正向图像进行OCR识别，获得识别信息；

输出单元，用于根据预设需求填充并输入所述表格信息。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，其在计算机上运行时，使得计算机执行权利要求1-10中任一项权利要求所述的基于OCR坐标的图片表格还原方法。