CN112364834A

CN112364834A - 一种基于深度学习和图像处理的表格识别的还原方法

Info

Publication number: CN112364834A
Application number: CN202011414603.8A
Authority: CN
Inventors: 王禛贤; 吴伟峰
Original assignee: Shanghai Dienian Information Technology Co ltd
Current assignee: Shanghai Dienian Information Technology Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-02-12

Abstract

本发明适用于光学字符识别技术领域，具体是一种基于深度学习和图像处理的表格识别的还原方法，包括如下步骤：利用显著目标检测提取图像中的线段；并由满足一定长度的线段计算图像的偏转角度，初步校正表格的倾斜角度；根据各线条形成的组合区域提取图像的最大凸包；以横向纵向线条交点数量、凸包面积筛选处理结果，得到符合条件的表格图像凸包进行透视变换，进一步校正表格的倾斜角度以及一定的畸变；对校正后的交点坐标按照一定规则进行合并排序，得出单元格坐标；利用文字检测算法提取文本框坐标；将该表格及其单元格内文字内容按照一定比例还原至word页面；进而提供了一种鲁棒性强、形式简单、实现方便的解决方法。

Description

一种基于深度学习和图像处理的表格识别的还原方法

技术领域

本发明涉及光学字符识别技术领域，具体是一种基于深度学习和图像处理的表格识别的还原方法。

背景技术

OCR（optical character recognition）文字识别是指电子设备检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

随着基于深度学习理论的OCR技术的迅速发展，卷积神经网络和长短期记忆网络占据了愈发重要的地位。基于显著目标检测的表格线检测方法和后续的图像处理算法结合的方法具有比传统方法更加鲁棒的性能的同时，在实现和部署运行速度上也具有较好的性能。随着现代社会对文档电子化管理的需求愈加频繁，表格电子化作为还原原始文档格式的重要部分，寻求一种鲁棒性强，实现简便的表格识别及还原方法变得尤为重要。

经典的传统表格识别方法主要包含通过对待识别图像进行二值化获取表格线的处理方式，该方式在图像明暗不均衡，背景复杂的情况下很难取得较好的表格线识别结果，从而难以准确地还原表格真实结构；

现行的表格文本还原方法主流方式有两种：一是通过整张表格的文本字符串检测框和单元格位置重叠阈值判断文本内容是否从属于该单元格；二是截取各个单元格区域图像进行文本识别，在表格还原阶段将其结果填充至所属单元格内；其中第一种方法很难区分从属于不同单元格但绝对距离接近的两个文本实例，从而导致还原结果出错，第二种方法需要进行多次文本检测算法的遍历从而导致文本识别过程具有较高的时延，同时单元格边缘区域文本识别这一场景需要对单元格边界有极其精准的判断，具有较高的复杂度。

发明内容

本发明的目的在于提供一种基于深度学习和图像处理的表格识别的还原方法，以解决上述背景技术中提出的问题。为实现上述目的，本发明提供如下技术方案：

一种基于深度学习和图像处理的表格识别的还原方法，包括如下步骤：

步骤1：利用显著目标检测提取图像中的线段；

获取待识别图像中的表格ROI（Region of Interest，感兴趣）区域；

步骤2：对步骤1中得到的线条图像进行形态学运算，求得横向线段和纵向线段；并由满足一定长度的线段计算图像的偏转角度，初步校正表格的倾斜角度；

根据表格ROI区域横向线段和纵向线段交点以及单元格最小外接矩形得到各个单元格相对于表格ROI区域的坐标信息，以及跨行列的合并信息；

步骤3：根据各线条形成的组合区域提取图像的最大凸包；以横向纵向线条交点数量、凸包面积筛选处理结果，得到符合条件的表格图像凸包进行透视变换，进一步校正表格的倾斜角度以及一定的畸变；

步骤4：对校正后的交点坐标按照一定规则进行合并排序，得出单元格坐标；

对所述表格ROI区域进行文本检测和识别得到表格内的各个字符内容及其相对于表格ROI区域的坐标信息；根据所述表格ROI区域内各个单元格坐标信息和各个字符坐标信息，将各个字符识别结果填充至合并后的单元格内；

步骤5：利用文字检测算法提取文本框坐标，截取文字区域图像由CRNN算法进行文字识别；

步骤6：利用CRNN算法的CTC解码过程得出单字坐标，该单字坐标经由文本框坐标映射到原图像区域，结合单元格坐标以确定该字的单元格归属；

步骤7：将该表格及其单元格内文字内容按照一定比例还原至word页面。

在本发明基于深度学习和图像处理的表格识别的还原方法中：所述获取待识别图像中的表格ROI区域，包括：

应用SOD（Salient Object Detection，显著目标检测）方法检测待识别图像中属于表格结构的线段将其作为显著目标与背景分离；

根据所述显著目标图像进行形态学运算得到分别含有横向线段和纵向线段的两幅图像并按照一定的规则进行噪声线段的删除；

待识别图像校正，利用所述纵向线段图像获取待识别图像的偏转角，并对待识别图像、横向线段图像、纵向线段图像进行旋转校正。

作为进一步的方案：根据所述旋转校正后的横向线段图像、纵向线段图像求和获得表格掩膜图像；

对所述表格掩膜图像求外接矩形获取初步的表格ROI区域，对该ROI区域进行透视变换校正。

作为进一步的方案：所述待识别图像校正，包括：

对纵向线段应用Hough直线拟合算法，求得拟合直线结果的纵向统计线段长度大于图像高度的一定比例的平均角度确定第一阶段的图像偏转角度；

将待识别图像、横向线段图像和纵向线段图像均进行上述图像偏转角度的相反数值的旋转，使得表格的偏转角近似为0。

优化的：对所述所得横向线段和纵向线段图像求和运算，得到表格的掩膜图像；

对所述所得表格掩膜图像求外接矩形，得到待识别图像、横向线段图像、纵向线段图像的ROI区域；对所述ROI区域进行透视变换二次校正。

在本发明基于深度学习和图像处理的表格识别的还原方法中：获取待识别所述各个字符的坐标信息，包括：

获取待识别图像的表格ROI区域的文本框坐标；

根据所述文本框坐标得到待识别文本区域，截取该区域图像利用CRNN算法进行识别；

根据所述识别阶段进行CTC解码，获取文本框内的图像片段和各个字符的从属关系，从而获取单个字符在文本框内的坐标。

作为进一步的方案：根据所述单个字符在文本框内的坐标以及文本框坐标，建立字符坐标与文本框坐标的映射关系，从而获取单个字符在表格ROI区域的坐标。

与现有技术相比，本发明基于深度学习和图像处理的表格识别的还原方法，包括如下步骤：利用显著目标检测提取图像中的线段；并由满足一定长度的线段计算图像的偏转角度，初步校正表格的倾斜角度；根据各线条形成的组合区域提取图像的最大凸包；以横向纵向线条交点数量、凸包面积筛选处理结果，得到符合条件的表格图像凸包进行透视变换，进一步校正表格的倾斜角度以及一定的畸变；对校正后的交点坐标按照一定规则进行合并排序，得出单元格坐标；利用文字检测算法提取文本框坐标，截取文字区域图像由CRNN算法进行文字识别；利用CRNN算法的CTC解码过程得出单字坐标，该单字坐标经由文本框坐标映射到原图像区域，结合单元格坐标以确定该字的单元格归属；将该表格及其单元格内文字内容按照一定比例还原至word页面。进而提供了一种鲁棒性强、形式简单、实现方便的解决方法。

附图说明

图1为本发明基于深度学习和图像处理的表格识别的还原方法的流程框图。

图2为本发明基于深度学习和图像处理的表格识别的还原方法中的待识别表格示意图。

图3为本发明基于深度学习和图像处理的表格识别的还原方法中的显著目标检测结果示意图。

图4为本发明基于深度学习和图像处理的表格识别的还原方法中的初始表格ROI区域示意图。

图5为本发明基于深度学习和图像处理的表格识别的还原方法中的校正后的表格ROI区域示意图。

图6为本发明基于深度学习和图像处理的表格识别的还原方法中的CTC解码单字坐标在表格ROI区域示意图。

图7为本发明基于深度学习和图像处理的表格识别的还原方法中的表格还原至word的最终结果示意图。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步详细地说明。

针对上述问题，本发明的目的在于提供一种基于深度学习和图像处理的表格识别的还原方法，以解决上述提出的问题。为实现上述目的，本发明提供如下技术方案：

本发明实施例中，如图1所示，一种基于深度学习和图像处理的表格识别的还原方法，包括如下步骤：

步骤1：利用显著目标检测提取图像中的线段；

获取待识别图像中的表格ROI区域；

本发明实施例中，所述获取待识别图像中的表格ROI区域，包括：应用SOD方法检测待识别图像中属于表格结构的线段将其作为显著目标与背景分离；根据所述显著目标图像进行形态学运算得到分别含有横向线段和纵向线段的两幅图像并按照一定的规则进行噪声线段的删除；待识别图像校正，利用所述纵向线段图像获取待识别图像的偏转角，并对待识别图像、横向线段图像、纵向线段图像进行旋转校正；：根据所述旋转校正后的横向线段图像、纵向线段图像求和获得表格掩膜图像；对所述表格掩膜图像求外接矩形获取初步的表格ROI区域，对该ROI区域进行透视变换校正。

本发明实施例中，所述待识别图像校正，包括：对纵向线段应用Hough直线拟合算法，求得拟合直线结果的纵向统计线段长度大于图像高度的一定比例的平均角度确定第一阶段的图像偏转角度；将待识别图像、横向线段图像和纵向线段图像均进行上述图像偏转角度的相反数值的旋转，使得表格的偏转角近似为0；对所述所得横向线段和纵向线段图像求和运算，得到表格的掩膜图像；对所述所得表格掩膜图像求外接矩形，得到待识别图像、横向线段图像、纵向线段图像的ROI区域；对所述ROI区域进行透视变换二次校正。

本发明实施例中，获取待识别所述各个字符的坐标信息，包括：获取待识别图像的表格ROI区域的文本框坐标；根据所述文本框坐标得到待识别文本区域，截取该区域图像利用CRNN算法进行识别；根据所述识别阶段进行CTC解码，获取文本框内的图像片段和各个字符的从属关系，从而获取单个字符在文本框内的坐标。

具体的，根据所述单个字符在文本框内的坐标以及文本框坐标，建立字符坐标与文本框坐标的映射关系，从而获取单个字符在表格ROI区域的坐标。

本发明基于深度学习和图像处理的表格识别的还原方法，包括如下步骤：利用显著目标检测提取图像中的线段；并由满足一定长度的线段计算图像的偏转角度，初步校正表格的倾斜角度；根据各线条形成的组合区域提取图像的最大凸包；以横向纵向线条交点数量、凸包面积筛选处理结果，得到符合条件的表格图像凸包进行透视变换，进一步校正表格的倾斜角度以及一定的畸变；对校正后的交点坐标按照一定规则进行合并排序，得出单元格坐标；利用文字检测算法提取文本框坐标，截取文字区域图像由CRNN算法进行文字识别；利用CRNN算法的CTC解码过程得出单字坐标，该单字坐标经由文本框坐标映射到原图像区域，结合单元格坐标以确定该字的单元格归属；将该表格及其单元格内文字内容按照一定比例还原至word页面。进而提供了一种鲁棒性强、形式简单、实现方便的解决方法。

如附图2所示，采用一种显著目标检测方法检测待识别图像中存在的线段将其作为显著目标与背景分离；

根据所述显著目标图像进行形态学运算得到分别含有横向线段和纵向线段的两幅图像，将各条线段的端点坐标进行排序，对于横向线段图像若端点坐标的x坐标的最大值与第二大值的差值大于该端点最大值所属直线长度的10%，则视为横向线段图像并无与该线段平行的线段，即该线段作为噪声被消去，重复上述步骤直至条件不被满足为止；同理，对于纵向线段图像若端点坐标的y坐标的最大值与第二大值的差值大于该端点最大值所属直线长度的10%，则视为横向线段图像并无与该线段平行的线段，即该线段作为噪声被消去，重复上述步骤直至条件不被满足为止；

将待识别图像、横向线段图像和纵向线段图像均进行上述图像偏转角度的相反数值的旋转，使得表格的偏转角近似为0；对所述所得横向线段和纵向线段图像求和运算，得到表格的掩膜图像；

如附图4所示，对所述所得表格掩膜图像求外接矩形，得到待识别图像、横向线段图像、纵向线段图像的ROI区域；

通过对表格掩膜图像应用Douglas-Peucker算法拟合获取表格的近似四边形凸包并对该凸包求角点；取上述掩膜图像外接矩形的长宽分别为h, w，取四个顶点为(0, 0)，(w,0)，(w, h)，(0, h)，从而求得四个角点和四个顶点之间的透视变换矩阵M，并将待识别图像、横向线段图像、纵向线段图像的ROI区域校正为大小为(w, h)的图像；其中校正后的待识别图像的ROI区域如附图5所示；

在透视校正的过程中，表格外围四个边框线段有一定概率被消去，需要在横向线段图像的点(1, 1)至点(w-1, 1)，点(1, h-1)至点(w-1, h-1)，纵向线段图像的点(1, 1)至点(1, h-1)，点(w-1, 1)至点(w-1, h-1)补充四条线段；

通过对上述所得横向线段和纵向线段ROI图像求与运算，得到表格中各个单元格的顶点坐标；

通过对上述取各个单元格的顶点坐标的x坐标和y坐标进行排序并且按照一定规则进行归并，可以得到待识别图像中表格的列数为归并后的x坐标数量减一，行数为归并后的y坐标数量减一；

通过对上述所得横向线段和纵向线段图像ROI求和运算，得到表格掩膜ROI图像；

通过对上述表格掩膜ROI图像求各个二级轮廓的最小外接矩即可获得单元格图像坐标；

利用文字检测算法对待识别图像ROI区域进行文本框检测，将检测到的文本框送入CRNN模型进行识别，利用CTC解码获取的结果形式包含单个字符的识别结果、单个字符的置信度、相对文本框的单个字符坐标信息；

如附图6所示，利用文本框在待识别图像ROI区域的坐标信息和上述文本框内单个字符相对文本框的坐标信息可以得到单字在待识别图像ROI区域的映射关系，即可得到每个字符在待识别图像ROI区域的坐标；

通过对比每个字符和单元格相对于ROI区域的坐标信息，将每个字符结果填充进其归属的单元格内，将待识别表格按照一定比例还原至word页面，最终的结果如附图7所示。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度学习和图像处理的表格识别的还原方法，其特征在于，包括如下步骤：

步骤1：利用显著目标检测提取图像中的线段；

获取待识别图像中的表格ROI区域；

2.根据权利要求1所述的一种基于深度学习和图像处理的表格识别的还原方法，其特征在于，

所述获取待识别图像中的表格ROI区域，包括：

应用SOD方法检测待识别图像中属于表格结构的线段将其作为显著目标与背景分离；

3.根据权利要求2所述的一种基于深度学习和图像处理的表格识别的还原方法，其特征在于，

根据所述旋转校正后的横向线段图像、纵向线段图像求和获得表格掩膜图像；

4.根据权利要求2所述的一种基于深度学习和图像处理的表格识别的还原方法，其特征在于，

所述待识别图像校正，包括：

5.根据权利要求4所述的一种基于深度学习和图像处理的表格识别的还原方法，其特征在于，

对所述所得横向线段和纵向线段图像求和运算，得到表格的掩膜图像；

6.根据权利要求1所述的一种基于深度学习和图像处理的表格识别的还原方法，其特征在于，

获取待识别所述各个字符的坐标信息，包括：

获取待识别图像的表格ROI区域的文本框坐标；

7.根据权利要求6所述的一种基于深度学习和图像处理的表格识别的还原方法，其特征在于，根据所述单个字符在文本框内的坐标以及文本框坐标，建立字符坐标与文本框坐标的映射关系，从而获取单个字符在表格ROI区域的坐标。