CN112507876A

CN112507876A - 一种基于语义分割的有线表格图片解析方法和装置

Info

Publication number: CN112507876A
Application number: CN202011439017.9A
Authority: CN
Inventors: 陈贺; 刘张宇; 邹志龙
Original assignee: Digital Technology Beijing Co ltd
Current assignee: Digital Workshop Nanjing Technology Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-16

Abstract

本发明公开了一种基于语义分割的有线表格图片解析方法和装置，涉及图像处理技术领域。该方法包括对表格图片进行预处理、对预处理后的表格图片进行语义分割处理、对语义分割后的表格图片进行处理、基于联通域计算表格图片单元格的位置信息、基于表格线聚类重绘表格图片并获取表格布局、基于投影解析计算表格并获取表格行列信息以及行宽和列宽、基于原始表格布局切割单元格进行文字识别从而生成可编辑文本。本发明克服折横、光纤、印章等干扰项带来误差的缺陷，增强了解析有线表格图片的通用型与抗干扰性，对比已有技术方法，本发明能够高效地解析有线表格，不需要人工解析，减少了人力，具有良好的效果。

Description

一种基于语义分割的有线表格图片解析方法和装置

技术领域

本发明属于计算机处理技术领域，尤其涉及图像处理领域和自然语言处理领域，具体涉及一种基于语义分割的有线表格图片解析方法和装置。

背景技术

目前，深度学习在计算机视觉领域发展迅速，它已经完全超越了传统方法的准确率与效率，引起业界对其的普遍关注。深度学习是机器学习领域中的一个分支，通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。研究深度学习的目的在于建立与模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。然而，解析表格图片是指将表格图片中的表格图片转换成可编辑的表格文本，并且保留原始表格图片的单元格位置信息、行列信息以及合并单元格信息，该过程需要用到表格解析技术。

现有的技术中，解析表格图片的方法多种多样，主要分为两大类方法，基于投影算法解析表格图片和基于文字定位解析表格图片。在基于投影算法解析表格图片中，发现干扰项(折横，光线，印章等)引起的误差较大，并且干扰项不能很好的去除。另外，对于手机拍摄的表格图片，由于不是笔直的表格线，投影算法在该类表格图片中不能很好地应用。在基于文字定位解析表格图片中，对于密集表格图片和含有合并单元格的图片则不能进行有效的表格提取。

因此，需要一种通用的、性能高效、准确率高的解析表格图片的方法。

发明内容

本发明的目的是为了克服已有技术的缺陷，为了解决现有技术方法不能有效解析通用表格图片问题，提出基于语义分割的有线表格图片解析方法和装置。

本发明采用的技术方案如下：

一种基于语义分割的有线表格图片解析方法，包括如下步骤：

对表格图片进行语义分割处理；

对语义分割结果图进行处理，获得连通域；

通过连通域计算单元格坐标信息；

利用单元格坐标信息，基于表格线聚类重绘表格图片；

对重绘的表格图片进行解析，获取行列信息以及合并单元格信息；

切割原始表格图片的单元格进行文字识别；

将文字识别的结果、行列信息以及合并单元格信息组合生成可编辑的文本表格。

进一步地，在所述语义分割处理之前，对表格图片进行预处理；所述预处理包括对表格图片进行灰度化处理，生成表格图片的灰度图。

进一步地，使用U-Net网络模型进行所述语义分割处理，以对图像中的每个像素赋予标签，即每个像素属于表格线或者不属于表格线，所述语义分割处理包括：

进行Conv+Pooling下采样，经过不同程度的卷积，学习深层次的特征；

使用Deconv反卷积上采样与之前的低层特征图进行融合。

进一步地，所述对语义分割结果图进行处理，包括：

对语义分割结果图进行二值化处理，得到二值化图像；

对二值化图像进行图像滤波；

对滤波后的图像进行形态学操作，包括腐蚀操作、膨胀操作、开操作以及闭操作；

对形态学操作后的图片进行轮廓查找与检测，获得连通域。

进一步地，所述通过连通域计算单元格坐标信息，包括：

对连通区域进行过滤，对面积过小以及长度过小的进行丢弃；

对于剩下的每个有效连通区域，分别得到拟合的最小外接矩形信息，返回其四个点的坐标信息((x1,y1),(x2,y2),(x3,y3),(x4,y4))，其分别代表左上角，右上角，右下角，左下角。

进一步地，所述基于表格线聚类重绘表格图片，包括：

创建与原始图片大小一样的白色画布；

通过连通域计算获取的单元格坐标点，形成2条单元格边界线，包括上边界线、左边界线，并且创建两个哈希表，其中一个哈希表是上边界线与单元格的双向字典，另一个哈希表是左边界线与单元格的双向字典；

基于上边界线进行线条聚类；

基于右边界线进行线条聚类。

进一步地，所述对重绘的表格进行解析，包括：

获取表格线在x轴和y轴的投影点；

将表格线在x轴和y轴的投影点v₁,…v_m和h₁…h_n生成两个列表v_list:[₁-1,v₁+1,v₂-1,v₂+1…v_m-1,v_m+1]和h_list[h₁-1,h₁+1,h₂-1,h₂+1…h_n-1,h_n+1]；

循环遍历v_list和h_list，判断(_i-1,h_j-1),(v_i+1,h_j-1),(v_i-1,h_j+1),(v_i+1,h_j+1)这四个点组成的小矩形是否有横线和竖线，基于此方式来确定行列信息和合并单元格信息。

进一步地，所述的切割原始表格图片的单元格进行文字识别，是使用OCR识别工具来识别单元格图片，从而进行单元格内文字识别。

一种基于语义分割的有线表格图片解析装置，是一种电子装置，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明的上述方法的指令。

本发明方法，对比已有技术，克服了折横、光纤、印章等干扰项带来误差的缺陷，增强了解析有线表格图片的通用型与抗干扰性，能够准确高效地解析表格图片，具有良好的效果，不需要人工解析，减少了人力成本。

附图说明

图1为一个实施例中基于语义分割解析表格图片方法流程图；

图2为一个实施例中的原图；

图3为一个实施例中生成的语义分割图；

图4为一个实施例中基于连通域生成的联通图；

图5为一个实施例中基于表格线重绘生成的布局图；

图6为一个实施例中语义分割网络结构图。

具体实施方式

在本发明的说明书和权利要求书及上述图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并发执行，操作的序号如S50、S60等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外、这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

为了使本技术领域的人员更好地理解本发明方案，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护内容。

请参阅图1，本发明实施例提供了一种基于语义分割解析表格图片的方法，如图1所示，其具体步骤包括：

S00、输入表格图片，并对表格图片进行预处理。

本发明实施例中，所述表格图片可以通过摄像装置采集的表格照片也可以为通过截图方式截取的表格图片，如在PDF文档中截取的表格图片等。本发明所述表格图片进行预处理，所述表格图片进行预处理得到灰度图。

对所述表格图片进行灰度化处理生成灰度图，生成的所述的灰度图。请参阅图2，图2为一种实施例中生成的灰度图。

S10、对预处理后的表格图片进行语义分割处理。

本发明实施例中，预先通过输入多个目标表格样本进行语义分割训练，训练出能够进行表格语义分割的网络。具体的，对样本图片进行特征点提取以及特征点融合，最终输出语义分割的网络。其中，目标样本至少包括图片样本以及标注的有表格线的坐标。

语义分割是从像素级别来理解图像的，语义分割是在像素级别上的分类，属于同一类的像素都要被归为一类。

对于表格类型的图片，本发明运用图像分割技术对表格框线像素进行识别，即采用深度学习的方法对表格进行语义分割的任务，分割的目的就是对表格线部分进行标注，而标注的类别分为两类(二分类)：是表格线、不是表格线。图像分割旨在对图像中的每个像素赋予标签，即每个像素属于表格线或者不属于表格线这两类。

本发明的总体思路为基于深度网络训练的语义分割过程，具体是通过U-Net卷积神经网络对图片中的像素点进行分类。

请参阅图6，图6是基于U-Net卷积神经网络。本发明所应用的语义分割网络是基于U-Net卷积神经网络改进而成。具体的先下采样，经过不同程度的卷积，学习了深层次的特征，再经过上采样(反卷积)恢复为原图大小，最后输出类别数量的特征图，比如我们的图像分割任务是两类(是或不是)。整个U-Net网络结构类似于一个大大的U字母：首先进行Conv+Pooling下采样；然后使用Deconv反卷积进行上采样，与之前的低层特征图进行融合；然后再次上采样。U-Net共进行了4次上采样，并在同一个stage(阶段)使用了跳级连接，而不是直接在高级语义特征上进行监督和loss(损失)的反传，这样就保证了最后恢复出来的特征图融合了更多的low-level(低级别)的特征，也使得不同大小的特征图得到了融合，从而可以进行多尺度预测。同时4次上采样也使得分割图恢复边缘等信息更加精细，从而得到对于表格线进行分割后的结果图。图3为生成的语义分割图。

S20、输入语义分割结果图，并对所述语义分割结果图进行处理，获得连通域。本发明所述对所述语义分割结果图进行处理，具体包括以下几个步骤：

步骤一、对所述语义分割结果图进行二值化处理得到二值化图像。

步骤二、对二值化图像进行图像滤波。

图像滤波就是在尽量保留图像细节特征的条件下对目标图像的噪声进行抑制，是图像预处理中不可缺少的操作，其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。

均值滤波也是低通滤波，均值滤波的原理是把领域内的平均值赋给中心元素。使用线性方法来平均整个窗口范围内的像素值，达到了图像的模糊和降噪的效果。

均值滤波器的主要应用是去除图像中的不相关细节，不相关是指与滤波器的模板相比较小的像素区域。模糊图片以便得到感兴趣物体的粗略描述，因此那些较小的物体的灰度就会与背景混合在一起，较大的物体则变的像斑点而易于检测。因此，均值滤波起到平滑图像、滤去噪声的功能。

步骤三、对滤波后的图片进行形态学操作。

在图像处理技术中，有一些的操作会对图像的形态发生改变，这些操作一般称之为形态学操作。数学形态学是基于集合论的图像处理方法，最早出现在生物学的形态与结构中，图像处理中的形态学操作用于图像与处理操作(去噪，形状简化)图像增强(骨架提取，细化，凸包及物体标记)、物体背景分割及物体形态量化等场景中。对相邻的元素进行连接或分离独立的元素，以此完成表格分割图中的断线重连和孤立噪点消除。

在该步骤中，具体包括如下4个子步骤：

B1、对图片进行腐蚀操作。

腐蚀操作是将物体的边缘加以腐蚀。具体的操作方法是拿一个宽m,高n的矩形作为模板，对图像中的每一个像素x做如下处理：像素x至于模板的中心，根据模版的大小，遍历所有被模板覆盖的其他像素，修改像素x的值为所有像素中最小的值。这样操作的结果是会将图像外围的突出点加以腐蚀。

B2、对图片进行膨胀操作。

膨胀操作是将图像的轮廓加以膨胀。操作方法与腐蚀操作类似，也是拿一个矩形模板，对图像的每个像素做遍历处理。不同之处在于修改像素的值不是所有像素中最小的值，而是最大的值。这样操作的结果会将图像外围的突出点连接并向外延伸。

B3、对图片进行开操作。

开操作就是对图像先腐蚀，再膨胀。其中腐蚀与膨胀使用的模板是一样大小的。

B4、对图片进行闭操作。

闭操作就是对图像先膨胀，再腐蚀。闭操作的结果一般是可以将许多靠近的图块相连称为一个无突起的连通域。

步骤四、对形态学操作图片进行轮廓查找与检测，获得连通域，即每个小的表格单元。图4为一个实施例中基于连通域生成的联通图。联通图是指由完整的边框线围绕单元格，组成一个封闭的单元格，从而组成一个完整的有线表格图。

S30、通过连通域计算单元格坐标信息

本发明实施例提供了一种基于连通域计算单元格的坐标信息。对表格线进行轮廓的查找和检测得到连通区域，即每个小的表格单元。之后对连通区域进行过滤，对面积过小以及长度过小的进行丢弃，对于剩下的每个有效连通区域，分别得到拟合的最小外接矩形信息，返回其四个点的坐标信息((x1,y1),(x2,y2),(x3,y3),(x4,y4))。其分别代表左上角，右上角，右下角，左下角。

S40、基于表格线聚类重绘表格布局。图5为基于表格线重绘生成的布局图。所述重绘表格布局有以下几个步骤：

步骤一、创建与原始图片大小一样的白色画布。

步骤二、通过S30获取的单元格坐标点，形成2条单元格边界线(上边界线、左边界线)，并且创建两个哈希表。一个哈希表是上边界线与单元格的双向字典，称为上边界列表；另一个哈希表是左边界线与单元格的双向字典，称为左边界列表。

步骤三、基于上边界线进行线条聚类。

该步骤中，具体包括如下8个子步骤；

C1、在上边界列表里随机选取一条上边界，并且从上边界列表里删除该上边界，并且记为pos_line。

C2、找上边界pos_line右相邻的上边界。

C3、如果C2找到右相邻的上边界，记为cur_line，以cur_line向右寻找右相邻的上边界，直到找不到右相邻的上边界。每当找到一条右相邻的上边界，将cur_line从上边界列表删除。

C4、找上边界pos_line左相邻的上边界。

C5、如果C4找到左相邻的上边界，记为cur_line，以cur_line向左寻找左相邻的上边界，直到找不到左相邻的上边界。每当找到一条左相邻的上边界，将cur_line从上边界列表删除。

C6、将pos_line向右聚类和向左聚类出来的边界线放入列表lst。

C7、将列表lst放入列表lsts里面。如果上边界列表不为空，回到步骤C1；如果上边界为空，回到步骤C8。

C8、将聚类出来的上边界lsts列表的lst列表，以x坐标进行排序，获取第一条上边界S和最后一条上边界E。上边界S的首端点和尾端点分别为((sx0,sy0),(sx1,sy1))和((ex0,ey0),(ex1,ey1))。在白色画布里以端点(sx0,sy0)和(ex1,sy0)画出黑色的直线，并获取水平方向的投影位置sy0。其中，sx0表示表格中的一行中的最左侧单元格的上边界线左端点的x坐标，sy0表示表格中的一行中的最左侧单元格的上边界线左端点的y坐标，sx1表示表格中的一行中的最左侧单元格的上边界线右端点的x坐标，sy1表示表格中的一行中的最左侧单元格的上边界线右端点的y坐标，ex0表示表格中的一行中的最右侧单元格的上边界线左端点的x坐标，ey0表示表格中的一行中的最右侧单元格的上边界线左端点的y坐标，ex1表示表格中的一行中的最右侧单元格的上边界线右端点的x坐标，ey1表示表格中的一行中的最右侧单元格的上边界线右端点的y坐标。

步骤四、基于右边界线进行线条聚类。具体方法参照步骤三，包括以下步骤：

D1、在左边界列表里随机选取一条左边界，并且从左边界列表里删除该左边界，并且记为pos_line。

D2、找左边界pos_line上相邻的左边界。

D3、如果D2找到上相邻的左边界，记为cur_line，以cur_line向上寻找上相邻的左边界，直到找不到上相邻的左边界。每当找到一条上相邻的左边界，将cur_line从左边界列表删除。

D4、找左边界pos_line下相邻的左边界。

D5、如果D4找到下相邻的左边界，记为cur_line，以cur_line向下寻找下相邻的左边界，直到找不到下相邻的左边界。每当找到一条下相邻的左边界，将cur_line从左边界列表删除。

D6、将pos_line向上聚类和向下聚类出来的边界线放入列表lst。

D7、将列表lst放入列表lsts里面。如果左边界列表不为空，回到步骤D1；如果左边界为空，回到步骤D8。

D8、将聚类出来的上边界lsts列表的lst列表，以y坐标进行排序，获取第一条左边界S和最后一条左边界E。左边界S的首端点和尾端点分别为((sx0,sy0),(sx1,sy1))和((ex0,ey0),(ex1,ey1))。在白色画布里以端点(sx0,sy0)和(sx0,ey1)画出黑色的直线,并获取垂直方向的投影位置sx0。S50、对重绘的表格图片进行解析，获取行列信息及合并单元格信息。

重绘的表格只有表格线，没有任何干扰项，其中表格线都是笔直的。基于S40中的步骤三和步骤四，所述方法得出表格线在x轴和y轴的投影点。基于投影点作出网络框图，利用投影从而得出单元格的行列信息及合并单元格信息。本发明解析重绘的表格有以下几个步骤：

步骤1、将表格线在x轴和y轴的投影点v₁,…v_m和h₁…h_n生成两个列表v_list:[c₁-1,v₁+1,v₂-1,v₂+1…v_m-1,v_m+1]和h_list[h₁-1,h₁+1,h₂-1,h₂+1…h_n-1,h_n+1]

步骤2、循环遍历v_list和h_list，判断(v_i-1,h_j-1),(v_i+1,h_j-1),(v_i-1,h_j+1),(v_i+1,h_j+1)这四个点组成的小矩形是否有横线和竖线，基于此方式来确定行列信息和合并单元格信息。

S60、切割原始表格的单元格进行文字识别。

本发明实施例中，使用了OCR识别工具来识别切割的单元格图片，从而进行文字识别。

S70、将文字识别的结果与表格解析的行列信息、合并单元格信息生成可编辑文本表格。

自此，就实现了一种基于语义分割解析表格的方法。

基于同一发明构思，本发明的另一实施例提供一种基于语义分割的有线表格图片解析装置，是一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

虽然结合了附图描述了本发明的实施方式，但是对于本领域技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些也应视为属于本发明的保护范围。

Claims

1.一种基于语义分割的有线表格图片解析方法，其特征在于，包括如下步骤：

对表格图片进行语义分割处理；

对语义分割结果图进行处理，获得连通域；

通过连通域计算单元格坐标信息；

利用单元格坐标信息，基于表格线聚类重绘表格图片；

切割原始表格图片的单元格进行文字识别；

2.根据权利要求1所述的方法，其特征在于，在所述语义分割处理之前，对表格图片进行预处理；所述预处理包括对表格图片进行灰度化处理，生成表格图片的灰度图。

3.根据权利要求1所述的方法，其特征在于，使用U-Net网络模型进行所述语义分割处理，以对图像中的每个像素赋予标签，即每个像素属于表格线或者不属于表格线，所述语义分割处理包括：

使用Deconv反卷积上采样与之前的低层特征图进行融合。

4.根据权利要求1所述的方法，其特征在于，所述对语义分割结果图进行处理，包括：

对语义分割结果图进行二值化处理，得到二值化图像；

对二值化图像进行图像滤波；

对形态学操作后的图片进行轮廓查找与检测，获得连通域。

5.根据权利要求1所述的方法，其特征在于，所述通过连通域计算单元格坐标信息，包括：

对于剩下的每个有效连通区域，分别得到拟合的最小外接矩形信息，返回其四个点的坐标信息((x1，y1)，(x2，y2)，(x3，y3)，(x4，y4))，其分别代表左上角，右上角，右下角，左下角。

6.根据权利要求1所述的方法，其特征在于，所述基于表格线聚类重绘表格图片，包括：

创建与原始图片大小一样的白色画布；

基于上边界线进行线条聚类；

基于右边界线进行线条聚类。

7.根据权利要求1所述的方法，其特征在于，所述对重绘的表格进行解析，包括：

获取表格线在x轴和y轴的投影点；

将表格线在x轴和y轴的投影点v₁，...v_m和h₁...h_n生成两个列表v_list：[v₁-1，v₁+1，v₂-1，v₂+1...v_m-1，v_m+1]和h_list[h₁-1，h₁+1，h₂-1，h₂+1...h_n-1，h_n+1]；

循环遍历v_list和h_list，判断(v_i-1，h_j-1)，(v_i+1，h_j-1)，(v_i-1，h_j+1)，(v_i+1，h_j+1)这四个点组成的小矩形是否有横线和竖线，基于此方式来确定行列信息和合并单元格信息。

8.根据权利要求1所述的方法，其特征在于，所述的切割原始表格图片的单元格进行文字识别，是使用OCR识别工具来识别单元格图片，从而进行单元格内文字识别。

9.一种基于语义分割的有线表格图片解析装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～8中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～8中任一权利要求所述的方法。