CN111368695B

CN111368695B - 一种表格结构提取方法

Info

Publication number: CN111368695B
Application number: CN202010129664.3A
Authority: CN
Inventors: 汪雨; 郭彦儒; 王威
Original assignee: Shanghai Huihang Jiexun Network Technology Co ltd
Current assignee: Shanghai Huihang Jiexun Network Technology Co ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-06-20
Anticipated expiration: 2040-02-28
Also published as: CN111368695A

Abstract

本发明涉及一种表格结构提取方法，属于文档识别领域。该方法包括：S1：数据转换；S2：图片预处理及直线分割；S3：直线检测及预处理；S4：水平线与竖直线判断；S5：查找交点；S6：断线的续连；S7：获取单元格。本发明采用深度网络分割图像，泛化和稳定性更高，能够减小背景色、印章、线条颜色的干扰；对表格图像进行分析，能处理表格线断裂，文字表格线粘连等常见问题，正确得到表格结构；对分割图进行线条检测时，通过按比例缩小图像提高检测速度，并保证大小与坐标还原；通过交点关系产生单元格，排除了原始线条的凸凹瑕疵，使单元格更加美观。

Description

一种表格结构提取方法

技术领域

本发明属于文档识别领域，涉及一种表格结构提取方法。

背景技术

文档分析中，充分利用表格信息对内容分析与提取有很大帮助，表格分析是表格自动处理过程中的第一步，根据表格的特点，给出一个基于直线提取和补全的通用表格分析方法，先利用模型检测出表格线，然后根据表格特性调整表格线，再从表格线得到表格特征点，最后建立规则得到表格结构的单元格描述。

目前，常见的现有技术有：(1)采用传统图像处理的方式提取表格，但无法排除文字、印章、颜色干扰，提取的线条受背景影响大；(2)线条存在凸凹，断线时对生成单元格不利。

因此，亟需一种能够准确完整提取表格的方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于图片的表格结构提取方法，在提高提取速度的同时，能够提高表格提取的精确度。

为达到上述目的，本发明提供如下技术方案：

一种表格结构提取方法，是基于图片的表格结构提取，具体包括以下步骤：

S1：数据转换；

S2：图片预处理及直线分割；

S3：直线检测及预处理；

S4：水平线与竖直线判断；

S5：查找交点；

S6：断线的续连；

S7：获取单元格。

进一步，所述步骤S1中，将非图片格式的文档转换为JPG或PNG格式的图片，且保证生成的图片无多字压线、字体大小适中且内容坐标一致。

进一步，所述步骤S2中，图片预处理包括校正，降噪，裁剪和图像增强处理等；直线分割包括：利用深度学习的模型，分割出前景与后景，其中前景是直线，其它内容视为后景；利用预处理过的图片训练出模型，用模型分割出直线与后景。

更进一步，所述步骤S2具体包括以下步骤：

S21：图片切分；

取切分基准大小为512×512，原图的高为H，宽为W，切分的次数为

单个切分后的坐标为：

其中，坐标结构为[左上角，右下角]，点为(w，h)，0≤w_num≤W_num，0≤h_num≤H_num。

S22：模型训练；

模型网络结构采用Unet的主体结构，Loss采用交叉熵，评估指标包括精度值、召回值和 F1-Score，训练epoch＝20，每个epoch设定部署5000；

S23：直线分割；

利用训练好的分割模型分割测试图，图片输入模型的方式与训练数据的切分方式一致，模型预测设定批次为30，预测后的小图片再按原切分规则合并成原图，保持大小与坐标的统一；并设定模型预测的概率阈值，即预测概率值大于概率阈值时为前景(白线)，预测概率值小于阈值时为后景(黑色背景)。

进一步，所述步骤S3具体包括以下步骤：

S31：预处理：对分割结果图进行降噪、膨胀及腐蚀处理，去除干扰噪点，增强线条与背景的对比度，以提高下一步的直线检测的准确性；

S32：直线检测：采用OpenCV的直线检测算法，提取出直线；

S33：去除短线：去除步骤S22提取直线中的短线，排除非主体线的干扰；

S34：直线束合并：对去除短线后的线条进行合并，合并规则为：

(1)计算直线间的角度，角度小于阈值时，归于一组；

(2)对同一组的线计算水平或竖直间距；

(3)合并间距小于阈值的直线，得到新的直线系列，其中的阈值根据文档具体的特性来确定。

进一步，所述步骤S4具体包括：根据直线与水平线的角度值判断出水平线及竖直线，其中，

水平线的数据结构为：Horizontal_i：(名字标识，坐标)；

竖直线的数据结构为：Vertical_i：(名字标识，坐标)。

进一步，所述步骤S5具体包括以下步骤：

S51：对检测出的直线适当延长，最外层边线的延长长度大于内部线的延长长度；延长的长度阈值根据文档具体的特性来决定；

S52：循环遍历水平或竖直直线，求取交点；得到交点的结构为：Intersection_i：(名字标识，坐标，水平线标识，竖直线标识)。

进一步，所述步骤S6具体包括：

(1)判断待续连的线：按线的两端有无交点，判断线段是否有断；

按水平线分为：左端无交点，右端无交点，左右无交点；

按竖直线分为：上端无交点，下端无交点，上下无交点；

(2)断线的续连；

水平线，先和与之一侧最近的水平线相连，再和与之一侧最近的竖直线相交；

竖直线，先和与之一侧最近的竖直线相连，再和与之一侧最近的水平线相交。

进一步，所述步骤S7具体包括：根据获取到的水平线、竖直线及交点生成单元格。

本发明的有益效果在于：

(1)本发明采用深度网络分割图像，泛化和稳定性更高，能够减小背景色、印章、线条颜色的干扰；

(2)本发明方法对表格图像进行分析，能处理表格线断裂，文字表格线粘连等常见问题，正确得到表格结构；

(3)本发明对分割图进行线条检测时，通过按比例缩小图像提高检测速度，并保证大小与坐标还原；

(4)本发明通过交点关系产生单元格，排除了原始线条的凸凹瑕疵，使单元格更加美观。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述的表格结构提取方法流程图；

图2为本实施例中选用的图片；

图3为本实施例中切分块的示例图

图4为切分图的预测结果图；

图5为实施例中构造出的树结构图；

图6为实施例中构造出的有向图；

图7为实施例中生成的单元格示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图7，本发明优选了一种实施例：如图1所示，一种基于图片的表格结构提取方法，具体包括以下步骤：

1、数据转换

该方法是基于图片的表格结构提取方法，对于其它格式的文档，如DOC、EXCEL、PDF格式的文档，先转换为JPG或PNG格式的图片。

转换成图片的注意事项：

(1)可以控制一下内容的字体大小，防止字体太大，生成的图片中，出现过多字压线现象；

(2)生成的图片长宽与原始文档长宽的比例保持一致，可以保证内容的坐标一致。

2、图片预处理及直线分割

图片预处理的过程包括降噪，裁剪，图像增强处理。预处理的目的是产生大量模型训练数据与提高待检测图片的质量。如图2所示，对图片先做校正与降噪会提高分割效果。

直线分割是利用深度学习的模型，分割出前景与后景，本应用中前景是直线，其它内容视为后景。利用预处理过的图片训练出模型，用模型分割出直线与后景。

(1)图片分割

本发明中，其它格式的文档转为图片时，为保证图片分析率，图片宽，高值均大于2000。直线分割采用的模型为Unet深度学习网络模型，官方建议图片输入尺寸为512X 512，过大的输入尺寸需要更多的计算资源与训练时间。

经过调研，先对预处理过的图片进行切分，再输入模型，检测后的图片按切分规则合并成原始图片，保持大小与坐标一致。切分方式，取切分基准大小为512X 512，原图的高为H，宽为W，切分的次数为

单个切分后的坐标为：

其中，坐标结构为[左上角，右下角]，点为(w，h)，0≤w_num≤W_num，0≤h_num≤H_num。如图3所示，为切分块的示例。

(2)模型训练

模型网络结构采用Unet的主体结构，Loss采用交叉熵，评估指标为精度值，召回值， F1-Score，训练epoch＝20，每个epoch设定部署5000。

(3)直线分割

利用训练好的模型分割测试图，图片输入模型的方式与训练数据的切分方式一致，模型预测设定批次为30，预测后的小图片再按原切分规则合并成原图，保持大小与坐标的统一。模型预测的概率阈值设为0.6，即预测概率值大于0.6时为前景(白线)，预测概率值小于0.6 时为后景(黑色背景)。如图4所示，为切分图的预测结果图。

3、直线检测及预处理

由第二步图像分割生成的结果图如图3，白色像素点为表格线。采用图像分割模型，按照前景与后景的概率值分离出的直线，结果图(文档中的表格结构视为前景)是黑底白线的图片，不包含直线特性与坐标信息。

为了获取到直线特性与坐标信息，需要经过以下步骤：预处理、直线检测、去除短线、直线束合并、去除斜线。

(1)预处理：对分割结果图进行降噪、膨胀、腐蚀处理，去除干扰噪点，增强线条与背景的对比度，以提高下一步的直线检测的准确性。

(2)直线检测：采用OpenCV的直线检测算法，提取出直线。

采用的CV2的直线检测方法为cv2.createLineSegmentDetector()。

本实施例中，直线检测采用的是OpenCV直线检测工具包，为提高检测速度，引入scale 值，scale小于等于1，起着缩小原图大小的作用。取scale＝0.5，原始图片大小缩小一半， OpenCV直线检测的结果为线条(长条矩形)，线条的坐标点值再除以scale，以还原为原始图的大小。

(3)去除短线：上一步的直线检测会得到长短不一的一系列线条，需要去除短线，排除非主体线的干扰。

(4)直线束合并：对上一步直线检测得到的线条束进行合并，合并规则如下，

①计算直线间的角度，角度小于阈值时，归于一组；

②对同一组的线计算水平或竖直间距；

③合并间距小于阈值的直线，得到新的直线系列，其中的阈值根据文档具体的特性来确定。

(5)去除斜线：根据具体的需求，考虑是否保留斜线。本应用目的是提取文档的单元格，对斜线进行了去除。

4、水平线与竖直线判断

根据直线与水平线的角度值判断出水平线及竖直线。

水平线的数据结构为Horizontal_i:(名字标识，坐标)

竖直线的数据结构为Vertical_i:(名字标识，坐标)

5、查找交点

由于模型检测出来的直线与实际直线的长度有差异，一般长度会缩短或线上有断点，通过适当延长直线来获取交点，并且修改原直线的长度。

(1)对检测出的直线适当延长，最外层边线的延长的长度可大于内部线的延长长度；

(2)循环遍历水平或竖直直线，求取交点。

得到交点的结构为Intersection_i:(名字标识，坐标，水平线标识，竖直线标识)；

延长的长度阈值根据文档具体的特性来决定。

6、断线的续连

由以上步骤产生的线条，包含了断线的可能性。由于字体可能与线条有交叉或黏连，直线检测时，会产生两条线段，中间的字线交叉处就视为了背景，产生断裂。

判断待续连的线：按线的两端有无交点，判断线段是否有断。

按水平线分为：左端无交点，右端无交点，左右无交点；

按竖直线分为：上端无交点，下端无交点，上下无交点。

断线的续连：

7、获取单元格

由以上获取到的水平线、竖直线及交点可生成单元格。具体为：

(1)根据交点及水平线、竖直线的关系构造树，如图5所示，交点为A B C D E F GH I J K，水平线段为AC DF EI HJ，竖直线段为AH BK CJ。

(2)由左上角的点开始，取与其处于同一水平线的右近交点为其右子节点，取与其处于同一竖直线的下近交点为其左子节点，如节点A的左-子节点为D，右-子节点为B。再以左右子节点为根，找其子节点，遍历完所有交点，构造出有向图，如图6所示。

(3)产生单元格的过程为：

①由根节点A开始，广度遍历左右分支，左：D E F H G K I J，右：B F C G K I J，左右遍历结果的共同节点为F G K I J；

②得到最近的共同节点F,其父节点为D B，父节点需在左右分支中产生，由A D BF 组成单元格；

③按照①②依次产生单元格D E F G，E H K G，B F G I C，G K J I。如图7所示，为根据线及交点产生的单元格。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种表格结构提取方法，其特征在于，该方法是基于图片的表格结构提取，具体包括以下步骤：

S1：数据转换；

S2：图片预处理及直线分割；其中，图片预处理包括校正，降噪，裁剪和图像增强处理；直线分割包括：利用深度学习的模型，分割出前景与后景，其中前景是直线，其它内容视为后景；利用预处理过的图片训练出模型，用模型分割出直线与后景；

步骤S2具体包括以下步骤：

S21：图片切分；

单个切分后的坐标为：

其中，坐标结构为[左上角，右下角]，点为(w，h)，0≤w_num≤W_num，0≤h_num≤H_num；

S22：模型训练；

模型网络结构采用Unet的主体结构，Loss采用交叉熵；

S23：直线分割；

利用训练好的分割模型分割测试图，图片输入模型的方式与训练数据的切分方式一致，预测后的小图片再按原切分规则合并成原图，保持大小与坐标的统一；并设定模型预测的概率阈值，即预测概率值大于概率阈值时为前景，预测概率值小于阈值时为后景；

S3：直线检测及预处理，具体包括以下步骤：

S31：预处理：对分割结果图进行降噪、膨胀及腐蚀处理，去除干扰噪点，增强线条与背景的对比度；

S32：直线检测：采用OpenCV的直线检测算法，提取出直线；

(1)计算直线间的角度，角度小于阈值时，归于一组；

(2)对同一组的线计算水平或竖直间距；

(3)合并间距小于阈值的直线，得到新的直线系列，其中的阈值根据文档具体的特性来确定；

S4：水平线与竖直线判断；

S5：查找交点；

S6：断线的续连，具体包括：

按水平线分为：左端无交点，右端无交点，左右无交点；

按竖直线分为：上端无交点，下端无交点，上下无交点；

(2)断线的续连；

竖直线，先和与之一侧最近的竖直线相连，再和与之一侧最近的水平线相交；

S7：获取单元格。

2.根据权利要求1所述的一种表格结构提取方法，其特征在于，所述步骤S1中，将非图片格式的文档转换为JPG或PNG格式的图片，且保证生成的图片无多字压线、字体大小适中且内容坐标一致。

3.根据权利要求1所述的一种表格结构提取方法，其特征在于，所述步骤S4具体包括：根据直线与水平线的角度值判断出水平线及竖直线，其中，

水平线的数据结构为：Horizontal_i：(名字标识，坐标)；

竖直线的数据结构为：Vertical_i：(名字标识，坐标)。

4.根据权利要求3所述的一种表格结构提取方法，其特征在于，所述步骤S5具体包括以下步骤：

5.根据权利要求4所述的一种表格结构提取方法，其特征在于，所述步骤S7具体包括：根据获取到的水平线、竖直线及交点生成单元格。