CN114445838A

CN114445838A - 一种单阶段表格检测网络的生成方法

Info

Publication number: CN114445838A
Application number: CN202011217988.9A
Authority: CN
Inventors: 张怀朋; 郑江伟; 常亚君; 张忠亮; 宋子豪; 杨静子
Original assignee: Shanghai Huairuo Intelligent Technology Co ltd
Current assignee: Shenzhen yingshisheng Information Technology Co.,Ltd.
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2022-05-06

Abstract

本发明提供一种单阶段表格检测网络的生成方法，包括：对原始数据集进行预处理，生成第一类图片数据，所述预处理的步骤包括转换图片的标签格式，对转换好标签格式的图片进行数据增强，同时对增强过程中目标框位置发生变化的标签进行映射处理；设置检测网络的结构，将所述第一类图片数据依次通过所述检测网络，生成第二类图片数据，所述检测网络的结构包括输入层、卷积模块、自注意力模块及输出层；通过目标函数计算所述第二类图片数据在输出层的损失值，并根据所述损失值对检测网络进行监督和优化。本发明解决了表格的精准回归问题，实现了检测网络的复杂度和精度共存，并摆脱了复杂的后处理问题，有较好的经济效益及社会效益。

Description

一种单阶段表格检测网络的生成方法

技术领域

本发明涉及一种计算机行业人工智能的文档版式分析领域，特别是涉及一种单阶段表格检测网络的生成方法。

背景技术

近年来，AI在CV(Computer Vision，计算机视觉)与NLP(Natural LanguageProcessing，自然语言处理)领域发展迅速，无论是基础理论研究，还是垂直领域的应用都取得众多突破，并成功在工业界开花结果。

同时由于社会各界、各行业源源不断的文档生成、处理和转化，仅金融领域便涉及诸如：资产管理协议等各类合同、企业财报等各类报告、流水账单等各类票据，种类繁多、数量庞大的文档，因此，对文档版式分析的AI研究和尝试也热度不减。

文档版式分析即致力于检测文档中包含的版式元素，一般包括：文本(text)、列表(list)、插图(figure)和插表(table)，此外也有研究者进一步细化和扩增了包括公式(Formula)、页眉(header)、页脚(footer)，甚至摘要(Abstract)等更多版式元素。

表格作为文档版式中重要的元素，难度明显较高，主要因其需要结构分析，属于半结构化数据。涉及表格分析，主要由两个模型来完成，分别为表格检测和表格识别，前者确定表格位置，后者则识别其结构。本发明主要针对文档中表格检测的问题。

版式分析及表格检测均属于目标检测问题，故而当前众多性能优秀的深度学习网络均可适用于此问题。然而由于文档的不同版式元素的相似性较高，如特殊情况下的插图和插表，亦或者列表和其余自由文本段落，其问题难度稍有不同。

目前学术界和工业界对表格检测主要集中在跨域(cross-domain)的迁移或少样本学习等问题，在网络结构的选择上则主要集成了现有的目标检测网络框架，现有表格检测网络框架有如下两种：

两阶段网络(two-stage)：以Faster R-CNN为代表的基于anchor的网络结构，其先后进行anchor前后景分类和几何矫正，以及正样本anchor目标分类和进一步几何校正。由于anchor先验设计以及两阶段的预测，从而极大地降低了回归难度，也是长期的SOTA网络所属的分支。

单阶段网络(one-stage)：以YOLO、SSD等网络为代表的基于全卷积网络(FCN)对目标框进行回归。单阶段网络仍然分为使用先验anchor与直接回归目标框两种手段。此类网络优点在于拥有极高的FLOPS，精度则略低于两阶段的模型。

但是上述两种表格检测网络有如下缺陷：

1、双阶段模型随精度较高，但其大量的先验anchor中绝大多数是无效框，从而带来了极高的复杂度；

2、单阶段模型则在分类精度和回归精度上均稍逊；

3、无论是单阶段还是双阶段网络模型，在传统目标检测领域，对目标框的定义多数情况下是正向矩形，近年来开始有对带角度矩形目标框的研究。然而，表格作为矩形目标，经扫描、拍照等透视变换后转换为了任意四边形，这超出了现有通用目标检测框架的范畴，导致出现无法做到精确检测的问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种单阶段表格检测网络的生成方法，用于解决现有技术中现有表格检测过程中复杂度高、速度慢、精读低的问题。

本发明提供一种单阶段表格检测网络的生成方法，所述方法包括以下步骤：

对原始数据集进行预处理，生成第一类图片数据，所述预处理的步骤包括转换图片的标签格式，对转换好标签格式的图片进行数据增强，对增强过程中目标框位置发生变化的标签进行映射处理；

设置检测网络的结构，所述检测网络的结构包括输入层、卷积模块、自注意力模块及输出层；所述输出层采用全卷积神经网络FCN的高层；

将所述第一类图片数据依次通过所述检测网络，生成第二类图片数据；

通过目标函数计算所述第二类图片数据在输出层的损失值，并根据所述损失值对检测网络进行监督和优化。

于本发明的一实施例中，所述转换图片标签格式之后，对转换好标签格式的图片进行数据增强之前的步骤还包括：

随机打乱图片顺序，并按照打乱后的顺序遍历各图片及各图片对应的标签。

于本发明的一实施例中，所述转换图片标签格式的步骤包括：

将原始图片的标签格式从左上宽高转换为四点格式的横纵坐标，其中，所述四点格式顺时针的顺序依次为左上、右上、右下及左下。

于本发明的一实施例中，所述增强图片数据的步骤包括：

1、将图片缩放为指定大小；

2、随机挑选区域用255像素进行遮挡；

3、在0、90、180、270中选择一个角度，进行旋转；

4、水平或竖直翻转；

5、透视变换；

6、HSV空间下的亮度变化；

7、在(-45,45)的小角度内随机旋转。

于本发明的一实施例中，所述步骤1-7以相应的概率在各图片上执行，其中，所述步骤1的执行概率为1、所述步骤2-3的执行概率为0.5、所述步骤4-7的执行概率为0.3。

于本发明的一实施例中，所述FCN高层采用逐点预测特征图的方式，所述方式的步骤包括：

类别输出，所述类别输出通过激活函数Sigmoid()得到的0～1之间的数值表示，获得任意一个表格的包裹矩形的中心落在该点对应原图的网格内的概率预测；

坐标回归，根据获取的所述0～1之间的数值表示，对包裹矩形的中心落在该点对应原图的网格的表格的所述四点格式进行坐标的归一化，然后乘以输入图片的尺寸，从而得到落在图片内部的坐标表示。

于本发明的一实施例中，所述通过目标函数计算所述第二类图片数据在输出层的损失，获得损失函数的步骤包括：

中心损失，所述中心损失是通过交叉熵，针对所述类别输出的损失进行计算，采用的公式如下：

其中，y₁为某点真实类别，

为网络的类别输出；

角点损失，所述角点损失是通过smoothL1距离，针对所述坐标回归的损失进行计算，采用的公式如下：

其中，y₂为真实坐标，

为网络的坐标回归。

本发明还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明的一种单阶段表格检测网络的生成方法中任意一项所述的方法。

本发明还提供一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明的一种单阶段表格检测网络的生成方法中任意一项所述的方法。

如上所述，本发明的一种单阶段表格检测网络的生成方法，具有以下有益效果：

1、对原始数据集的图片和标签进行读取，根据本发明中网络所定义的输出和目标函数适配性地转换标签格式；在每次访问数据时，对图片进行数据增强，同时对增强过程中目标框位置发生变化的标签进行映射处理，保持正确性；

2、为了应对标签格式转换后相对于矩形回归的难度提升，以及单阶段网络所感受野不足的问题，通过设置自注意力模块，在高层网络赋予其全局感受野的能力，从而使其在保障速度优势的同时，做到精确的回归和分类各类大小的表格；

3、本发明还通过将FCN的高层直接作为输出层，即原图1/32大小的特征图上逐点判断是否有表格的中心点落在特征点内，保证了特征图上正样本的稀疏性，显著降低了回归损失的计算复杂度，不仅提升了网络的训练速度，同时在训练阶段采用目标函数为后置模块，摆脱了后处理，满足端到端表格的检测与识别任务的要求。

附图说明

图1显示为本发明第一实施方式中的整体工作流程图。

图2显示为本发明第一实施方式中的数据预处理的工作流程图。

图3显示为本发明第一实施方式中的检测网络的结构框图。

图4显示为本发明第三实施方式中的服务器的示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明的第一实施方式涉及一种单阶段表格检测网络的生成方法，具体如下：

步骤101，对原始数据集进行预处理，生成第一类图片数据，预处理的步骤包括转换图片的标签格式，对转换好标签格式的图片进行数据增强，对增强过程中目标框位置发生变化的标签进行映射处理。

具体的说，原始数据集包括原始图片及图片的标签。

请参阅图2，由于原始图片均为电子文档转换得到的图片，其目标框为正向矩形，为了方便后续数据增强的操作及损失计算，首先对原始数据集的图片的标签格式进行转换，具体的步骤包括：

将原始图片的标签格式从左上宽高转换为四点格式的横纵坐标，其中，左上宽高的标签格式为[x,y,w,h]；四点格式的标签格式为[tl(x,y),tr(x,y),br(x,y),bl(x,y)]，且四点格式顺时针的顺序依次为左上、右上、右下及左下。

采用这种方案，采用鲜在通用目标检测领域定义的四边形目标，通过回归四个顶点，可精确还原表格的位置信息。

继续说明，由于电子文档图片分辨率较高，且无噪音和扭曲，因此在进行模型训练时，对数据进行增强是保证模型鲁棒性的必要条件，本发明中采用的数据增强的步骤包括：

1、将图片缩放为指定大小；

2、随机挑选区域用255像素进行遮挡；

3、在0、90、180、270之间的随机角度旋转

4、水平或竖直翻转；

5、透视变换；

6、HSV空间下的亮度变化；

7、在(-45,45)的小角度内随机旋转。

需要说明的是，以上增强方式不会在每张图片上都执行，而是以一定的概率在各图片上执行，其中，步骤1的概率为1，步骤2-3的概率为0.5，步骤4-7的概率为0.3。以上概率均为使用中总结的经验值，具体数据可能会根据使用习惯不同而有所不同，此处不再赘述。

进一步说明，由于诸如旋转等增强方式会导致目标框位置发生变化，本实施方式中对原始数据集进行预处理还包括：

在转换图片标签格式后，增强图片数据前的，随机打乱图片顺序，并按照打乱后的顺序遍历各图片及各图片对应的标签。

经过原始数据集经过以上的预处理后，最终生成第一类图片数据。

步骤102，设置检测网络的结构，检测网络的结构包括输入层、卷积模块、自注意力模块及输出层；输出层采用FCN(Fully Convolutional Networks，全卷积神经网络)的高层，将第一类图片数据依次通过检测网络，生成第二类图片数据。

具体的说，设置检测网络的结构是本发明的核心组件，即解决问题所涉及的深度神经网络模型。将第一类图片数据输入到检测网络中，依次进行计算。本发明的检测网络即没有两阶段的修正回归，也不对先验anchor框有所依赖。

请参阅图3，检测网络的结构包括输入层、卷积模块、自注意力模块及输出层。

进一步说明，输入层，固定数量的RGB格式的三通道图片矩阵组成的批次(batch)。由于本检测网络涉及自注意力模块，故须将第一类图片数据在通过输入层前统一设置为固定尺寸，且固定尺寸能被检测网络的采样步长整除。其中，采用步长一般为32。

继续说明，卷积模块，卷积网络是处理图片的通用特征提取模块，其滑动窗口的特征计算方式，天然适配二维空间下的图片及其特征矩阵。当前流行的卷积网络框架包括：VGG、ResNet、InceptNet、DenseNet及MobileNet。

需要说明的是，理论上目标检测网络模型不指定某一种卷积网络，根据不同场景可适配不同框架，如移动端选用效率优越的MobileNet，复杂任务则可以选用大容量的ResNet。本发明设计的针对表格这一单类别目标检测的任务，基于其在各类文档任务的表现，选择DenseNet。

继续说明，自注意力模块，通用的卷积网络的总步长一般为32，加之网络的层数加深，其理论感受野能够达到一个较高的数值。然而，在实际应用，研究者发现，卷积网络顶层特征的实际感受野往往达不到最高理论感受野的数值，甚至有较大差距。

表格在文档中往往占据着较大的面积，加之目标检测网络需要通过预测边界或顶点来回归、定位目标框，所以对感受野的要求极高。

基于以上考虑，本发明在卷积模块的上层，增加了一层自注意力模块。

采用这种方案，自注意力模块在整张特征图上计算每一个当前位置的特征加权，因此拥有全局感受野，从而使其在保障速度优势的同时，做到精确的回归和分类各类大小的表格。

继续说明，对于坐标任务而言，完整的局部、空间特征是其精准回归和定位的必要输入和前提。而通常作为输出层的全连接层需要展平特征图作为其特征输入，从而损失了空间信息，因此，本实施方式中的输出层采用FCN高层，FCN高层采用逐点预测特征图的方式，可避免这一缺陷。

采用这种方案，在原图1/32大小的特征图上逐点判断是否有表格的中心点落在特征点内，保证了特征图上正样本的稀疏性，显著降低了回归损失的计算复杂度，不仅提升了网络的训练速度，同时在训练阶段采用目标函数为后置模块，摆脱了后处理，满足端到端表格的检测与识别任务的要求。

其中，输出层逐点预测的方式的步骤包括：

类别输出，用于判断是否存在一个表格的包裹矩形的中心落在该点对应原图的网格内，其中，网格为32*32；类别输出通过激活函数Sigmoid()得到的0～1之间的数值表示，获得任意一个表格的包裹矩形的中心落在该点对应原图的网格内的概率预测；

坐标回归，根据获取的0～1之间的数值表示，对包裹矩形的中心落在该点对应原图的网格的表格的四点格式进行坐标的归一化，然后乘以输入图片的尺寸，从而得到落在图片内部的坐标表示。

需要说明的是，严格来说，如果一个表格的包裹矩形的中心落在该点对应原图的网格内，则通过激活函数Sigmoid()得到的数值为1；如果一个表格的包裹矩形的中心没有落在该点对应原图的网格内，则通过激活函数Sigmoid()得到的数值为0。但是实际应用中，通过激活函数Sigmoid()获得的数值通常在0～1之间，因此，可设置一个阈值，当数值为0～阈值时，认为没有落在网格内；当数值为阈值～1时，认为落在了网格内。本实施方式中的阈值为0.5。

步骤103，通过目标函数计算第二类图片数据在输出层的损失值，根据损失值对检测网络进行监督和优化。

具体的说，深度学习领域对网络的目标函数设计一直是核心的环节，不仅因为正确的目标函数决定了网络是否能收敛，而且网络的监督方式决定着往往有着多种多样的目标函数可选，适合的目标函数将加速网络收敛，甚至提升模型的收敛程度和泛化性能。本实施方式通过目标函数计算第二类图片数据在输出层的损失的步骤包括：

中心损失，中心损失是通过交叉熵，针对类别输出的损失进行计算，采用的公式如下：

其中，y₁为某点真实类别，

为网络的类别输出；

其中，y₂为真实坐标，

为网络的坐标回归。

通过计算中心损失及角点损失，获得损失函数，并根据损失函数对检测网络进行监督，具体监督步骤为：

将损失函数的数值与预期值进行比较，根据两者的差值对检测网络进行修正，从而实现对检测网络的监督和优化的功能。

本发明的第二实施方式涉及一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一实施方式中所述方法的任意一项。

请参阅图4，本发明的第三实施方式涉及一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时实现上述第一实施方式中所述方法的任意一项。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

综上所述，本发明的一种单阶段表格检测网络的生成方法，

1、对原始数据集的图片和标签进行读取，采用鲜在通用目标检测领域定义的四边形目标，通过回归四个顶点精确还原表格的位置信息；在每次访问数据时，对图片进行数据增强，同时对增强过程中目标框位置发生变化的标签进行映射处理，保持正确性；解决了表格的精准回归问题，尤其在下游任务表格识别中，主流方案仍是基于直线检测和分割的传统算法及深度网络。其前提假设即，表格线为“横平竖直”，在表格检测阶段识别并纠正表格的扭曲变换至关重要；

3、本发明还通过将FCN的高层直接作为输出层，即原图1/32大小的特征图上逐点判断是否有表格的中心点落在特征点内，保证了特征图上正样本的稀疏性，显著降低了回归损失的计算复杂度，不仅提升了网络的训练速度，同时在训练阶段采用目标函数为后置模块，摆脱了后处理，满足端到端表格的检测与识别任务的要求。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种单阶段表格检测网络的生成方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的单阶段表格检测网络的生成方法，其特征在于，所述转换图片标签格式之后，对转换好标签格式的图片进行数据增强之前的步骤还包括：

3.根据权利要求1所述的单阶段表格检测网络的生成方法，其特征在于，所述转换图片标签格式的步骤包括：

4.根据权利要求1所述的单阶段表格检测网络的生成方法，其特征在于，所述增强图片数据的步骤包括：

1、将图片缩放为指定大小；

2、随机挑选区域用255像素进行遮挡；

3、在0、90、180、270中选择一个角度，进行旋转；

4、水平或竖直翻转；

5、透视变换；

6、HSV空间下的亮度变化；

7、在(-45,45)的小角度内随机旋转。

5.根据权利要求4所述的单阶段表格检测网络的生成方法，其特征在于：所述步骤1-7以相应的概率在各图片上执行，其中，所述步骤1的执行概率为1、所述步骤2-3的执行概率为0.5、所述步骤4-7的执行概率为0.3。

6.根据权利要求1所述的单阶段表格检测网络的生成方法，其特征在于，所述FCN的高层采用逐点预测特征图的方式，所述方式的步骤包括：

7.根据权利要求6所述的单阶段表格检测网络的生成方法，其特征在于，所述通过目标函数计算所述第二类图片数据在输出层的损失的步骤包括：

其中，y₁为某点真实类别，

为网络的类别输出；

其中，y₂为真实坐标，

为网络的坐标回归。

8.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任意一项所述的方法。

9.一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现权利要求1-7中任意一项所述的方法。