CN111738055B

CN111738055B - 多类别文本检测系统和基于该系统的票据表单检测方法

Info

Publication number: CN111738055B
Application number: CN202010331934.9A
Authority: CN
Inventors: 魏金岭; 王剑强; 丁续旭; 孙怡; 王昌胜; 魏弋力
Original assignee: Hangzhou Yinglan Information Technology Co ltd; Zhejiang University City College ZUCC
Current assignee: Hangzhou Yinglan Information Technology Co ltd; Zhejiang University City College ZUCC
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2023-07-18
Anticipated expiration: 2040-04-24
Also published as: CN111738055A

Abstract

本发明提供了一种票据表单检测方法，包括如下步骤：将经过预处理的票据表单图片输入所述多类别文本检测系统中，分别生成中心点图、类别图和距离图；基于极值点检测方法在所述中心点图中寻找中心点，从而确定语义独立的字段的位置；基于寻找到的中心点，在所述距离图中确定各个语义独立字段的尺寸，从而确定候选框；基于所述候选框，在所述类别图中采用投票机制确定该候选框的类别。本发明相比现有技术具有如下有益效果：基于中心点检测的思路，可以避免使用非极大值抑制(NMS)的后处理，从而简化流程，预测流程简单，速度快，检测准确率高且鲁棒性好。

Description

多类别文本检测系统和基于该系统的票据表单检测方法

技术领域

本发明涉及智能检测技术领域，具体涉及一种多类别文本检测系统和基于该系统的票据表单检测方法。

背景技术

文本识别是一个历史悠久的问题，随着深度学习的兴起，多数相关任务已经被很好地解决。然而有一类特殊的数据，其文本是根据语义信息有机的组合在一起，称之为票据表单样数据，需要从视觉以及语义的层面将需要的信息提取出来。

票据以及表单样数据在日常生活中扮演了重要的角色，作为会计原始凭证之一，是记录经济活动内容的载体，也是财务管理的重要工具。表单样数据种类繁多，形式各异，大致可以分为票据类数据和表格类数据。对于票据类数据，最常见的如增值税发票、出租车票、购买凭证等，这一类数据具有一定的模板，但不同类别的票据模板差异大；而对于表格类数据，如销售统计表、购货清单等，完全没有模板可言，需要依靠高层的语义信息进行关键信息定位。

对于基于图像的文本检测模型，图像中的内容有两个维度：一个是文本的位置和内容信息，另一个是语义信息，需要根据位置及内容判断。针对票据的检测可以看作是物体检测与自然场景文本检测的综合，也就是既需要检测出自然词条的位置，还需要知道其代表的含义。传统的计算机视觉方法如直线检测、边缘检测、滑动窗口等可以从第一个维度部分的解决这个问题，当涉及复杂场景，需要引入以卷积神经网络为核心模块的深度学习方法。

深度学习之前，文字检测主要依靠人工设计特征，如利用连通区域分析(CCA)或利用滑动窗口以及聚类方法分割字段。MSER是一种经典的连通域分析检测算子，思想源于分水岭算法，即寻找灰度图像中的最大稳定极值区域，再通过非极大值抑制(NMS)去掉重复的文本框，其优势在于可以快速粗略的找到文字可能的区域。基于滑动窗口的方法中，不同尺寸的窗口滑过输入图片，然后将滑过部分分类为前景或背景，再利用条件随机场或马尔科夫聚类等图方法得到字段区域。

深度学习方法可以自动的学习图像特征，且表现远远超越大部分人工设计的特征。检测算法主要有两类分支：基于物体检测的文本检测算法和语义分割与实例分割类模型。现阶段物体检测算法经历了从two-stage到one-stage的演变。two-stage的整体思路是将检测过程分为两步：先由RPN预测候选框，再结合候选框和特征图进行最终的预测。two-stage物体检测模型分为三个结构：特征提取器、候选区生成网络(RPN)以及分类器与回归器。CTPN将预测整行文字分割为预测不同的列区域，然后再引入LSTM将预测列区域整合。RRP在RPN中加入了带旋转的anchor，改进ROIPooling以使旋转候选框可以映射到特征图上。R2CNN为了更好地预测水平竖直长文本，在POIPooling中加入了水平和竖直两种尺寸模式；为了预测旋转候选框，在预测网络中加入了对倾斜框预测的第三个分支。one-stage物体检测模型的兴起使得文本检测的鲁棒性和性能有了很大的提升，并且检测的问题也更多样化，例如多方向街景文本、密集文本、异型文本等。textbox借鉴于SSD，主要是将anchor的尺寸及比例做了修改，使其更适合文本。textbox++的输出为距离anchor各顶点的偏移，使得其可以预测任意角度文本。语义分割类模型通常通过后处理的方式对像素进行聚类，PixelLink通过预测像素之间的语义连接关系，利用并查集算法，对像素点进行聚类，分割不同字段，得到精确地实例分割图。PSENet通过预测不同层级的实例分割图，根据最高层级的实例分割图来分割不同字段，然后采用广义优先搜索逐层扩张边界，最终得到精确地实例分割图。实例分割则结合检测与分割，可以将不同实例区分开。Mask-TextSpotter基于Mask-RCNN改进，调整RPN中anchor的尺寸和比例，Mask支路提供了单字级别分割功能，Faster-RCNN分支提供了字段实例分割功能。因此模型可以应对任意弯曲的文本。IncepText基于FCIS，借鉴Inception结构进行改进，Inception结构中通过不同尺寸卷积核设计达到检测不同尺寸和不同比例的文字，同时引入Deformable卷积提升任意方向文字检测效果。

上述提到的传统算法为代表的模型，EAST为代表的基于物体检测的模型，以及PSENet为代表的基于实例分割的模型各自存在一些不足：

1)传统算法为代表的模型。该类方法需要人工设计特征，因为特征的设计是针对特定类型数据，因此通用性较差，准确率也不高。流程复杂且耗时，例如连通域分析方法需要先将图像转成灰度，然后寻找灰度图像中的最大稳定极值区域，再通过非极大值抑制(NMS)去掉重复的文本框，整个算法流程复杂，且中间涉及到很多超参数，需要针对特定数据集调优。

2)EAST为代表的基于物体检测的模型。该类模型是物体检测在文本领域的扩展，模型采用密集预测的思路(每个像素点都预测可能的候选框)，然后在通过非极大值抑制(NMS)来去掉多余的候选框，因此非极大值抑制是后处理中的核心步骤。而该类思路的缺点就在于非极大值抑制：首先文本候选框不同于物体检测中的候选框，文本的形状通常是倾斜长条状，因此在计算交并比(非极大值抑制中的关键步骤)时，无法并行计算，需要用到图形学方法，比较耗时。其次紧邻字段会导致候选框的错误合并，从而将两个字段框入一个框中。长字段会发生割裂，也就是一个字段在中间被分割成了两个。

3)PSENet为代表的基于实例分割的模型。这类模型的主要思路是预测每个像素点的类别(前景还是背景)，然后通过预测的类别将同一字段的像素点聚合，最终根据像素聚合结果利用最小外接矩形算法得到候选框。该类方法的缺点在于像素聚合：由于像素聚合是根据每个像素点的信息进行的，因此最终的结果将在很大程度上受到单像素的影响。首先热力图需要根据设定的阈值决定每个像素是类别，因此最小尺度的热力图并不均匀，不同的阈值会得到不同面积的种子点，这就导致在尺度渐进扩充的过程中存在以大占小的可能，导致边界框不准确。其次受限于小尺度热力图的表达能力，当文本紧邻时，热力图发生融合，因此容易出现错误合并；当文本过长时，热力图呈现细线条状，极容易出现割裂现象。

发明内容

本发明的目的在于提供一种多类别文本检测系统和基于该系统的票据表单检测方法，以实现票据表单的准确检测。

为实现上述目的，本发明采用了如下技术方案：

本发明的第一个方面提供了一种多类别文本检测系统，包括：

图像获取模块，用于获取待检测票据表单的图像；

特征提取模块，用于提取待检测票据表单图像的多尺度特征；

金字塔桥接模块，用于将特征提取模块提取的多尺度特征进行融合并传递给解码模块；

以及解码模块，用于将融合特征通过三个分支解码分别生成分类图、中心点热力图和距离图。

进一步的，所述特征提取模块包括输入层和连接输入层的依次串接的四个残差块，每个残差块包括多个具有残差连接的卷积层和池化层，用于将前一级输出的特征图的尺寸降低一倍。

进一步的，所述金字塔桥接模块包括分别连接所述残差块的通道注意力单元，用于特征信息重组；连接所述通道注意力单元的堆叠单元，用于堆叠通道注意力单元输出的通道维度；以及连接所述堆叠单元的融合单元，用于融合堆叠后的通道维度。

进一步的，所述通道注意力单元包括亚像素卷积上采样层和通道维度注意力层。

进一步的，所述解码模块包括分别连接所述融合单元的分类卷积单元、中心点卷积单元和距离卷积单元，分别用于生成分类图、中心点热力图和距离图。

本发明的第二个方面提供了一种基于上述第一个方面所述多类别文本检测系统的票据表单检测方法，包括如下步骤：

S1、将经过预处理的票据表单图片输入所述多类别文本检测系统中，分别生成中心点图、类别图和距离图；

S2、中心点定位，基于极值点检测方法在所述中心点图中寻找中心点，从而确定语义独立的字段的位置；

S3、生成候选框，基于寻找到的中心点，在所述距离图中确定各个语义独立字段的尺寸，从而确定候选框；

S4、候选框类别确认，基于所述候选框，在所述类别图中采用投票机制确定该候选框的类别。

进一步的，步骤S1中，所述预处理包括将图片放缩到固定大小并归一化。

进一步的，步骤S2具体包括：

S21、根据所述中心点图，得到中心点的热力图；

S22、在中心点热力图上运用非极大值抑制，找出那些比相邻点都大的极大值点作为中心点。

进一步的，步骤S3具体包括：根据步骤S2中寻找到的中心点，从距离图中找到候选框的顶点到中心点的距离值，根据距离值和中心点坐标组合成四边形。

进一步的，步骤S4具体包括：

将步骤S4中确定的候选框放置在所述类别图上，统计每个候选框中各类别的占比，最大比例的类别即为该候选框的类别。

进一步的，该方法还包括：

S5、基于生成的四边形候选框和类别，得到待检测票据表单的带有类别的目标检测区域。

本发明相比现有技术具有如下有益效果：

1)基于中心点检测的思路，可以避免使用非极大值抑制(NMS)的后处理，从而简化流程，预测流程简单，速度快。

2)同样因为检测任务不需要类似非极大值抑制(NMS)的后处理，因此不会出现字段错误合并或长字段的割裂，检测准确率高。

3)字段检测采用的中心点方案不受字段大小影响，因此模型的泛化能力极强，在褶皱、模糊、噪声等复杂场景下依然保持鲁棒性。提出Invoice-600增值税发票数据集，该数据集的样本选择方案对模型的效果有很大帮助。

4)可以应对各种极端复杂场景，如运动模糊、扭曲、褶皱、局部视角、多张票据、不完全票据、噪声干扰等。

附图说明

图1为本发明的多类别文本检测系统实施例的结构示意图。

图2为本发明的票据表单检测方法实施例的流程示意图。

图3为本发明实施例中中心点的热力图及运用非极大值抑制后的极值点图。

图4为本发明实施例中极值点定位的流程示意图。

图5为本发明实施例中距离图的示意图。

图6为本发明实施例中以左上角点为例的推断方式示意图。

图7为本发明实施例中得到的候选框示意图。

图8为本发明实施例中将候选框放置在类别图上的示意图。

具体实施方式

为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

实施例1

本发明的第一种实施例提供了一种多类别文本检测系统，其包括：用于获取待检测票据表单的图像的图像获取模块，用于提取待检测票据表单图像的多尺度特征的特征提取模块，用于将特征提取模块提取的多尺度特征进行融合并传递给解码模块的金字塔桥接模块，以及用于将融合特征通过三个分支解码分别生成分类图、中心点热力图和距离图解码模块。

特征提取模块也称为骨干网络，负责将原图转变为高维特征，由经典的卷积神经网络结构组成；金字塔桥接模块是将骨干网络的每一层输出通过PA模块，将各个尺度的特征图重组并放缩到同一尺度，然后合并，使得模型具有多尺度感知能力；解码模块由中心点检测器、类别检测器、距离检测器组成，他们均有两层卷积组成，可以将融合的特征图转化成最终结果。

具体的，如图1所示，特征提取模块包括输入层(Conv+MaxPooling)和连接输入层的依次串接的四个残差块(Res Block1-Ⅳ)，每个残差块包括多个具有残差连接的卷积层和池化层，用于将前一级输出的特征图的尺寸降低一倍。当输入为512*512时，四个残差模块的输出分别为：256*256、128*128、64*64、32*32。这四个特征图包含了不同尺度的信息

金字塔桥接模块包括分别连接残差块的通道注意力单元(PA)，其用于特征信息重组，统一上采样到通道为32的256*256特征图；以及连接通道注意力单元的堆叠单元(Concat)，用于堆叠通道注意力单元输出的通道维度；以及连接堆叠单元的融合单元(Fusion Block)，用于融合堆叠后的通道维度，最终融合成128*256*256的特征图。

作为一种优选实施方案，通道注意力单元包括亚像素卷积上采样层(PixelShuffle)和通道维度注意力层(Attention)。PixelShuffle是在超分辨率任务中提出的一种上采样方式，首先通过卷积将特征图的通道扩充r*r倍，在通过周期筛选的方式得到上采样引子为r的高分辨率图像。通道维度Attention是SENet中提出的信息重组模块，通过学习的方式获取每个特征通道的重要程度，然后依照该重要程度去提升有用的特征并抑制用处不大的特征，提升网络的表达能力，从而可以通训练技巧增加模型的泛化能力。

本实施例中，融合单元(Fusion Block)与通道注意力单元(PA)相似，只不过没有上采样操作，而是对通道维度堆叠后的特征重定位，从注意力权重向量可视化来看，针对不同尺度的实体，不同背景的图片，注意力权重将聚焦在不同的层次，不同的通道。因此可以进一步提升网络的表达能力。

解码模块包括分别连接融合单元的分类卷积单元(cls conv)、中心点卷积单元(ck conv)和距离卷积单元(dist conv)，均由两层卷积组成，分别用于生成64*256*256的分类图、2*256*256的中心点热力图和8*256*256的距离图。

实施例2

本发明的第二种实施例提供了一种票据表单检测方法，其基于上述第一种实施例中的多类别文本检测系统进行，如图2所示，其包括如下步骤：

第一步，将经过预处理的图片输入所述多类别文本检测系统中，分别生成中心点图、类别图和距离图。

作为优选实施方案，预处理包括将图片放缩到固定大小(512*512)并归一化，然后输入到多类别文本检测系统中。多类别文本检测系统共有三个输出，分别为类别图(尺寸64*256*256)、中心点概率图(尺寸2*256*256)、距离图(尺寸8*256*256)。

第二步，中心点定位，基于极值点检测方法在所述中心点图中寻找中心点，从而确定语义独立的字段的位置。

作为优选实施方案，中心点定位具体包括：

1)根据中心点图，得到中心点的热力图，如图3(a)所示；

2)在中心点热力图上运用非极大值抑制，找出那些比相邻点都大的极大值点作为中心点，如图3(b)所示。

极值点定位的流程如图4所示，利用最大池化(Max Pooling)得到3*3邻域内的最大值并存储；将最大池化得到的最大值与原图对比，相等的点即为极大值点；根据极值点所对应的得分进行取舍，选择出最终的候选中心点。

第三步，生成候选框，基于寻找到的中心点，在所述距离图中确定各个语义独立字段的尺寸，从而确定候选框.

具体的，根据寻找到的中心点，从距离图中找到候选框的顶点到中心点的距离值，可以将8通道看做4个到该实体中心点的二维坐标偏移，即四边形四个顶点到该四边形中心点的二维坐标偏移，根据距离值和中心点坐标组合成四边形，从而确定出该实体对应的候选框。其中距离图如图5所示。以左上角点为例，推断方式如图6所示，直接将距离图的0和1通道的数值加到第一步判断的中心点上，最终得到图7的候选框。

第四步，候选框类别确认，基于所述候选框，在所述类别图中采用投票机制确定该候选框的类别。

具体的，类别图有64个通道对应了63个分类加一个背景类，这63个分类是根据数据中各字段的含义归纳出来的具有通用性的类别分类，例如金额，公司名称等。在预测阶段，如图8所示，将上一步确定的候选框放置在类别图上，统计每个候选框中各类别的占比，最大比例的类别即为该候选框的类别。

最后，根据生成的四边形候选框和类别，得到待检测票据表单的带有类别的目标检测区域。

作为进一步的优选实施方案，本实施例中，还包括对实施例中的多类别文本检测系统的模型进行训练的步骤，具体包括：

1)预处理与数据增强

预处理主要是在训练时对原始图像做变换以提升模型的泛化能力，除了常用的预处理方式，例如仿射变换、旋转、裁剪等，还采用了遮挡、模糊、对抗样本等方法，所有增强和变换都是以随机的参数进行。

变换和裁剪，通过仿射变换和透视变换来模拟现实场景中出现的相机角度造成的异常样例，通过裁剪模拟不同的拍摄距离。

模糊，通过局部高斯模糊和运动模糊模拟真实场景拍照中有焦距或运动造成的异常样例。

遮挡，从两方面起到数据曾广的作用，首先当遮挡加于图片背景时，可以提高模型对不同背景输入的泛化能力，其次当遮挡覆盖在文字的一部分时，可以增加模型对前景的区分能力。

对抗训练，对抗样本是指在数据集中通过故意添加细微的干扰所形成的输入样本，会导致模型以高置信度给出一个错误的输出。而对抗训练是通过将生成的对抗样本加入到训练集，拓宽模型的决策边界，从而增加模型的泛化能力。

最终的预处理与数据增强策略为，以0.6的概率单方向做透视变换；以0.65的概率旋转正负10度；从0.7到2倍随机放缩；以0.2的概率局部高斯模糊，核半径在2到6之间随机选取，sigmaX和sigmaY皆为零；以0.2的概率运动模糊，方向从0到359度随机选取，程度从7到14随机选取；以0.2的概率生成对抗样本，对抗样本的扰动强度从5到10，迭代次数从1到5。

2)环境与训练参数

编程语言采用Python，深度学习库采用PyTorch。设备为Nvidia 1080Ti。

模型的训练配置以及参数选择如下：

1.优化器选择：Adam优化器，epsilon为1e-8，β1为0.9，β2为0.999。

2.学习率：前500个epoch中，学习率为1e-3，之后的500个epoch中，学习率为1e-4。

3.模型参数初始化：文本采用Xavier初始化方法，偏移量bias初始化为0。Xavier初始化方法可以使得每一层输出的方差尽可能相等，使网络中的信息更好地流动。

4.激活函数：文本使用ReLu作为激活函数。

5.权重衰减：文本使用L1正则项作为权重衰减项，其中衰减系数lambda为0.0001。引入权重衰减可以提升网络的泛化能力，防止模型过拟合。

3)迁移训练

本实施例中采用基于映射与网络的深度迁移方法。尽管两种票据的形式和字段属性差异很大，但他们之间存在语义相关性，因此通过可以加入一种新的损失函数让网络可以快速学习到这种相关性。另外对于不同的训练集，仅仅重新训练PA、Fusion和最终的Decoder模块的权重便可以很好地完成迁移。

因此本实施例中的迁移方法是将迁移损失与子网络微调同时应用到迁移训练中。具体的，

迁移训练流程：

首先在Invoice-600上完成初始训练，将该模型作为基础模型进行下一步的迁移训练。

以出租车票数据集为例，在实验中，数据集中样本数据仅为十张，训练时Batch-size设置为10，其中五张由Invoice-600中随机取得，另五张从目标数据集中随机取得。在训练时固定骨干网络的参数，此时网络可以训练的部分仅有Attention模块和Decoder。训练时，在原有损失函数的基础上加入新的损失函数。

其他参数设置如下：

1.优化器选择：Adam优化器，epsilon为1e-8，β1为0.9，β2为0.999。

2.学习率：前500个epoch中，学习率为1e-4，之后的500个epoch中，学习率为1e-5，并采用余弦更新策略。

3.激活函数：文本使用ReLu作为激活函数。

4.权重衰减：文本使用L1正则项作为权重衰减项，其中衰减系数lambda为1e-4。引入权重衰减可以提升网络的泛化能力，防止模型过拟合。

在实际应用中，将模型在采集的Invoice-600数据集中，按上面提到的训练参数训练，最终可以得到在该增值税类票据下的鲁棒模型。当需要检测其他样式数据时，仅需采集几张目标类型的样本，并将个字段类别对应到增值税票据的类别上，然后采用上面提到的迁移训练策略，便可以得到在该目标数据类型下的鲁棒模型。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种多类别文本检测系统，其特征在于，包括：

图像获取模块，用于获取待检测票据表单的图像；

特征提取模块，用于提取待检测票据表单图像的多尺度特征，包括输入层和连接输入层的依次串接的四个残差块，每个残差块包括多个具有残差连接的卷积层和池化层，用于将前一级输出的特征图的尺寸降低一倍；

金字塔桥接模块，用于将特征提取模块提取的多尺度特征进行融合并传递给解码模块，包括分别连接所述残差块的通道注意力单元，其包括亚像素卷积上采样层和通道维度注意力层，用于特征信息重组；连接所述通道注意力单元的堆叠单元，用于堆叠通道注意力单元输出的通道维度；以及连接所述堆叠单元的融合单元，用于融合堆叠后的通道维度；

以及解码模块，包括分别连接所述融合单元的分类卷积单元、中心点卷积单元和距离卷积单元，用于将融合特征通过三个分支解码分别生成类别图、中心点图和距离图。

2.一种基于权利要求1所述多类别文本检测系统的票据表单检测方法，其特征在于，包括如下步骤：

S2、中心点定位，基于极值点检测方法在所述中心点图中寻找中心点，从而确定语义独立的字段的位置，具体包括：

S21、根据所述中心点图，得到中心点的热力图；

S22、在中心点热力图上运用非极大值抑制，找出那些比相邻点都大的极大值点作为中心点；

S3、生成候选框，基于寻找到的中心点，在所述距离图中确定各个语义独立字段的尺寸，从而确定候选框，具体包括：

根据步骤S2中寻找到的中心点，从距离图中找到候选框的顶点到中心点的距离值，根据距离值和中心点坐标组合成四边形；

S4、候选框类别确认，基于所述候选框，在所述类别图中采用投票机制确定该候选框的类别，具体包括：

3.如权利要求2所述的票据表单检测方法，其特征在于，步骤S1中，所述预处理包括将图片放缩到固定大小并归一化。

4.如权利要求2或3所述的票据表单检测方法，其特征在于，还包括：