CN113901950A

CN113901950A - 一种高准确率的表格ocr识别方法及系统

Info

Publication number: CN113901950A
Application number: CN202111308402.4A
Authority: CN
Inventors: 张绍君
Original assignee: Shanghai Para Software Co ltd
Current assignee: Shanghai Para Software Co ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-01-07

Abstract

本申请涉及一种上述高准确率的表格OCR识别方法及系统，包括获取待识别图片，并将所述待识别图片转换为待处理灰度图；对所述待处理灰度图做去噪及克隆处理，并生成水平矩阵和垂直矩阵；根据所述水平矩阵和所述垂直矩阵生成交点矩阵；获取所述交点矩阵中的矩形轮廓，并对所述矩形轮廓进行筛选，获取合法矩形轮廓；根据所述合法矩形轮廓，从所述待识别图片中裁剪该合法矩形轮廓为多个矩形小图片，并对各所述矩形小图片进行OCR识别，识别后获取识别后数据；将所述识别后数据转换为JSON格式数据。本发明利用OpenCV库中的图像处理函数，结合OCR文字识别技术，对文档表格进行识别和处理，进一步实现提高表格OCR识别的准确率，提升OCR识别效率。

Description

一种高准确率的表格OCR识别方法及系统

技术领域

本申请涉及计算机技术领域，特别是涉及一种高准确率的表格OCR识别方法及系统。

背景技术

随着信息化无纸化办公的普及，很多纸质化的文档需要录入系统，但是由于全球各地区发展不平衡，落后地区还是有大量的使用纸质文档，文档中有很多重要的数据需要提取出来录入信息化系统进行分析和存储，而目前文档中的表格识别仅仅是提取文字进行堆砌，放到文档中后则文不对题，完全无法阅读和使用，因此便衍生出了OCR识别技术。

目前，OCR识别技术的准确率是技术人员所倾向解决的问题，如申请号为CN201911184085.2的发明专利中，公开了一种OCR识别准确率的计算方法、装置、设备以及存储介质，通过获取OCR识别结果中的文字信息，将OCR识别结果中的文字信息与原始文本中的正确文字信息进行逐行匹配，根据匹配结果统计OCR识别结果中的文字信息中每行匹配失败的文字数量，根据正确文字信息的每行文字总数量与匹配失败的文字数量计算OCR识别结果中的文字信息中每行文字的OCR识别准确率；根据每行文字的OCR识别准确率计算所有行文字的OCR识别准确率。

虽然，上述技术方案提高了测试的效率，但是目前的OCR识别技术仍然存在准确率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高表格OCR识别准确率的高准确率的表格OCR识别方法及系统。

本发明技术方案如下：

一种高准确率的表格OCR识别方法，所述方法包括：

步骤S100：获取待识别图片，并将所述待识别图片转换为待处理灰度图；

步骤S200：对所述待处理灰度图做去噪及克隆处理，并生成水平矩阵和垂直矩阵；

步骤S300：根据所述水平矩阵和所述垂直矩阵生成交点矩阵；

步骤S400：获取所述交点矩阵中的矩形轮廓，并对所述矩形轮廓进行筛选，获取合法矩形轮廓；

步骤S500：根据所述合法矩形轮廓，从所述待识别图片中裁剪该合法矩形轮廓为多个矩形小图片，并对各所述矩形小图片进行OCR识别，识别后获取识别后数据；

步骤S600：将所述识别后数据转换为JSON格式数据；或，将所述识别后数据按照与所述矩形小图片对应于所述待识别图片中的原始位置进行摆放。

具体而言，步骤S400：获取所述交点矩阵中的矩形轮廓，并对所述矩形轮廓进行筛选，获取合法矩形轮廓，具体包括：

步骤S410：在所述交点矩阵中查找以获取矩形轮廓；

步骤S420：计算所有的所述矩形轮廓的轮廓面积，每个轮廓面积均包括面积大小和轮廓点数；

步骤S430：基于所述面积大小和所述轮廓点数，按照预设的第一筛选规则对所述矩形轮廓进行筛选，筛选后获取合法矩形轮廓。

具体而言，步骤S300：根据所述水平矩阵和所述垂直矩阵生成交点矩阵；具体包括：

步骤S310：对水平矩阵进行腐蚀和膨胀操作，生成去噪后水平矩阵；

步骤S320：对垂直矩阵进行腐蚀和膨胀操作，生成去噪后垂直矩阵；

步骤S330：根据所述去噪后水平矩阵和所述去噪后垂直矩阵生成交点矩阵。

具体而言，步骤S200：对所述待处理灰度图做去噪及克隆处理，并生成水平矩阵和垂直矩阵，具体包括：

步骤S210：获取所述待处理灰度图的矩形结构，并对所述待处理灰度图做腐蚀操作，并获取腐蚀后灰度图；

步骤S220：对所述腐蚀后灰度图进行自适应阈值化操作；

步骤S230：克隆两个自适应阈值操作后的结构，一个作为水平矩阵，另一个作为垂直矩阵。

具体而言，步骤S100：获取待识别图片，并将所述待识别图片转换为待处理灰度图，具体包括：

步骤S110：加载待识别图片到内存中；

步骤S120：在内存中的待识别图片转换为待处理灰度图。

具体而言，一种高准确率的表格OCR识别系统，所述系统包括：

图片识别模块，用于获取待识别图片，并将所述待识别图片转换为待处理灰度图；

克隆处理模块，用于对所述待处理灰度图做去噪及克隆处理，并生成水平矩阵和垂直矩阵；

交点矩阵模块，用于根据所述水平矩阵和所述垂直矩阵生成交点矩阵；

矩形轮廓模块，用于获取所述交点矩阵中的矩形轮廓，并对所述矩形轮廓进行筛选，获取合法矩形轮廓；

合法矩形模块，用于根据所述合法矩形轮廓，从所述待识别图片中裁剪该合法矩形轮廓为多个矩形小图片，并对各所述矩形小图片进行OCR识别，识别后获取识别后数据；

数据识别模块，用于将所述识别后数据转换为JSON格式数据；或，将所述识别后数据按照与所述矩形小图片对应于所述待识别图片中的原始位置进行摆放。

具体而言，所述矩形轮廓模块还用于：在所述交点矩阵中查找以获取矩形轮廓；

计算所有的所述矩形轮廓的轮廓面积，每个轮廓面积均包括面积大小和轮廓点数；

基于所述面积大小和所述轮廓点数，按照预设的第一筛选规则对所述矩形轮廓进行筛选，筛选后获取合法矩形轮廓。

具体而言，所述系统还包括：

腐蚀去噪模块，用于对水平矩阵进行腐蚀和膨胀操作，生成去噪后水平矩阵；

膨胀操作模块，用于对垂直矩阵进行腐蚀和膨胀操作，生成去噪后垂直矩阵；

水平生成模块，用于根据所述去噪后水平矩阵和所述去噪后垂直矩阵生成交点矩阵。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述高准确率的表格OCR识别方法所述的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述高准确率的表格OCR识别方法所述的步骤。

本发明实现技术效果如下：

上述高准确率的表格OCR识别方法及系统，依次通过获取待识别图片，并将所述待识别图片转换为待处理灰度图；对所述待处理灰度图做去噪及克隆处理，并生成水平矩阵和垂直矩阵；根据所述水平矩阵和所述垂直矩阵生成交点矩阵；获取所述交点矩阵中的矩形轮廓，并对所述矩形轮廓进行筛选，获取合法矩形轮廓；根据所述合法矩形轮廓，从所述待识别图片中裁剪该合法矩形轮廓为多个矩形小图片，并对各所述矩形小图片进行OCR识别，识别后获取识别后数据；将所述识别后数据转换为JSON格式数据；或，将所述识别后数据按照与所述矩形小图片对应于所述待识别图片中的原始位置进行摆放，进而利用OpenCV库中的图像处理函数，结合OCR文字识别技术，对文档表格进行识别和处理，进一步实现提高表格OCR识别的准确率，提升OCR识别效率。

附图说明

图1为一个实施例中高准确率的表格OCR识别方法的流程示意图；

图2为一个实施例中高准确率的表格OCR识别系统的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种能够提高表格OCR识别准确率的高准确率的表格OCR识别方法及系统。其中，所述提高准确率的表格OCR识别方法，具体包括：

步骤S300：根据所述水平矩阵和所述垂直矩阵生成交点矩阵；

在一个实施例中，步骤S400：获取所述交点矩阵中的矩形轮廓，并对所述矩形轮廓进行筛选，获取合法矩形轮廓，具体包括：

步骤S410：在所述交点矩阵中查找以获取矩形轮廓；

具体地，计算轮廓面积contourArea。

进一步地，所述第一筛选规则为忽略轮廓面积小于40的，再忽略掉轮廓点数小于4个点的，为合法矩形轮廓，进而满足上述第一筛选规则的，即可保存合法的矩形轮廓。

在一个实施例中，步骤S300：根据所述水平矩阵和所述垂直矩阵生成交点矩阵；具体包括：

进一步地，本步骤中通过获取水平方向的结构化元素，并在水平方向做腐蚀膨胀处理，如本实施例中，可以采用OpenCV库中的函数进行处理，如下：

Mat horizontalStructure＝getStructuringElement(MORPH_RECT,Size(horizontalsize,1))；

erode(horizontal,horizontal,horizontalStructure,Point(-1,-1))；//腐蚀

dilate(horizontal,horizontal,horizontalStructure,Point(-1,-1))；//膨胀

接着，获取垂直方向的结构化元素，并在垂直方向做腐蚀膨胀处理，同理，本实施例中，可以采用OpenCV库中的函数进行处理，如下：

Mat verticalStructure＝getStructuringElement(MORPH_RECT,Size(1,verticalsize))；

erode(vertical,vertical,verticalStructure,Point(-1,-1))；//腐蚀；

dilate(vertical,vertical,verticalStructure,Point(-1,-1))；//膨胀。

更进一步地，对所述去噪后水平矩阵和所述去噪后垂直矩阵进行逻辑与的掩码操作bitwise_and，输出交点矩阵。

在一个实施例中，步骤S200：对所述待处理灰度图做去噪及克隆处理，并生成水平矩阵和垂直矩阵，具体包括：

进一步地，获取所述待处理灰度图的矩形结构，并对所述待处理灰度图做矩形MORPH_RECT腐蚀erode处理，把黑色区域变大。

步骤S220：对所述腐蚀后灰度图进行自适应阈值化操作；

自适应阈值化操作adaptiveThreshold，作用就是二值化算法，非黑即白处理。

本实施例中，可以采用OpenCV库中的函数进行处理，如下：

Mat horizontal＝thresh.clone()；

Mat vertical＝thresh.clone()。

在一个实施例中，步骤S100：获取待识别图片，并将所述待识别图片转换为待处理灰度图，具体包括：

步骤S110：加载待识别图片到内存中；

步骤S120：在内存中的待识别图片转换为待处理灰度图。

需要说明的是，上述OpenCV库中的函数举例由本领域技术人员自行进行查阅相关函数，上述举例并非限定，当然，本领域技术人员可以选择其他函数进行，此处不作细化限定。

综上所述，本发明所述提高准确率的表格OCR识别方法及系统，依次通过获取待识别图片，并将所述待识别图片转换为待处理灰度图；对所述待处理灰度图做去噪及克隆处理，并生成水平矩阵和垂直矩阵；根据所述水平矩阵和所述垂直矩阵生成交点矩阵；获取所述交点矩阵中的矩形轮廓，并对所述矩形轮廓进行筛选，获取合法矩形轮廓；根据所述合法矩形轮廓，从所述待识别图片中裁剪该合法矩形轮廓为多个矩形小图片，并对各所述矩形小图片进行OCR识别，识别后获取识别后数据；将所述识别后数据转换为JSON格式数据；或，将所述识别后数据按照与所述矩形小图片对应于所述待识别图片中的原始位置进行摆放，进而利用OpenCV库中的图像处理函数，结合OCR文字识别技术，对文档表格进行识别和处理，进一步实现提高表格OCR识别的准确率，提升OCR识别效率。

在一个实施例中，如图2所示，提供一种高准确率的表格OCR识别系统，所述系统包括：

在一个实施例中，所述矩形轮廓模块还用于：在所述交点矩阵中查找以获取矩形轮廓；

在一个实施例中，所述系统还包括：

在一个实施例中，所述系统还包括中间图像处理模块，所述中间图像处理模块用于：

获取所述待处理灰度图的矩形结构，并对所述待处理灰度图做腐蚀操作，并获取腐蚀后灰度图；对所述腐蚀后灰度图进行自适应阈值化操作；克隆两个自适应阈值操作后的结构，一个作为水平矩阵，另一个作为垂直矩阵。

在一个实施例中，所述中间图像处理模块还用于：加载待识别图片到内存中，在内存中的待识别图片转换为待处理灰度图。

在一个实施例中，如图3所示，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述高准确率的表格OCR识别方法所述的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种高准确率的表格OCR识别方法，其特征在于，所述方法包括：

步骤S300：根据所述水平矩阵和所述垂直矩阵生成交点矩阵；

2.根据权利要求1所述的高准确率的表格OCR识别方法，其特征在于，步骤S400：获取所述交点矩阵中的矩形轮廓，并对所述矩形轮廓进行筛选，获取合法矩形轮廓，具体包括：

步骤S410：在所述交点矩阵中查找以获取矩形轮廓；

3.根据权利要求1所述的高准确率的表格OCR识别方法，其特征在于，步骤S300：根据所述水平矩阵和所述垂直矩阵生成交点矩阵；具体包括：

4.根据权利要求1所述的高准确率的表格OCR识别方法，其特征在于，步骤S200：对所述待处理灰度图做去噪及克隆处理，并生成水平矩阵和垂直矩阵，具体包括：

步骤S220：对所述腐蚀后灰度图进行自适应阈值化操作；

5.根据权利要求1-4任一项所述的高准确率的表格OCR识别方法，其特征在于，步骤S100：获取待识别图片，并将所述待识别图片转换为待处理灰度图，具体包括：

步骤S110：加载待识别图片到内存中；

步骤S120：在内存中的待识别图片转换为待处理灰度图。

6.一种高准确率的表格OCR识别系统，其特征在于，所述系统包括：

7.根据权利要求6所述的高准确率的表格OCR识别系统，其特征在于，所述矩形轮廓模块还用于：在所述交点矩阵中查找以获取矩形轮廓；

8.根据权利要求6所述的高准确率的表格OCR识别系统，其特征在于，所述系统还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。