CN113065411A

CN113065411A - 基于中心点监督信息的文本检测方法

Info

Publication number: CN113065411A
Application number: CN202110266212.4A
Authority: CN
Inventors: 刘义江; 陈蕾; 侯栋梁; 池建昆; 范辉; 阎鹏飞; 魏明磊; 李云超; 姜琳琳; 辛锐; 陈曦; 杨青; 沈静文; 吴彦巧; 姜敬; 檀小亚; 师孜晗
Original assignee: Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co; State Grid Hebei Electric Power Co Ltd
Current assignee: Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co; State Grid Hebei Electric Power Co Ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-07-02

Abstract

本发明公开了一种基于中心点监督信息的文本检测方法，涉及票据文本检测技术领域，尤其是一种基于中心点监督信息的文本检测方法，其包括：寻找火车票的边界；对火车票图片经过ResNet50卷积神经网络做特征提取；通过FPN网络对提取的特征图进行融合；通过FPN产生五种不同的输出：文本区域，文本中心线区域，圆盘半径，圆盘的sin值以及圆盘的cos值产生最终的检测结果。本发明主要针对火车票中的规则文本进行检测。通过将文本拆分为子区域（圆盘）进行预测，降低了训练的难度，FPN模块使得网络更具有泛华性。利用圆盘表示的方法避免了直接利用文本区域带来的粘连问题。本方法能够有效的解决火车票中内容检测问题。

Description

基于中心点监督信息的文本检测方法

技术领域

本发明属于票据文本检测技术领域，尤其是一种基于中心点监督信息的文本检测方法。

背景技术

火车票是企业差旅费报销中的一个重要组成部分，其中包含了起始站点、出行日期、金额等多项报销所必需信息，然而，目前主要由申请人员手动填写录入信息，非常的耗时耗力，如果能将深度学习技术要用到火车票报销上，实现信息的自动提取，将会极大的节省人力资源成本。

火车票信息自动提取流程包含了检测和识别两个阶段。作为整个流程的基础步骤，检测环节面临着更多的问题。当前的车票主要采用墨式打印，会出现纸张穿透、字体不清晰以及内容倾斜等问题。而且，用户对这些票据的不当保管可能会造成褶皱，这对检测造成影响。并且，现有情况下的扫描设备成像效果、扫描时的光照条件等，均会导致上传的图像不清楚，给检测增加了难度。

针对文本检测问题，现有的基于深度学习的方法主要分为基于回归和基于分割两种。基于回归的方法具有较高的速度但是对文字区域的边界部分无法很好处理，而在火车票的检测场景下，漏检、边界不正确会极大的影响后续其他处理。基于分割的方法往往会产生文本的粘连问题，本专利主要用于解决火车票中的文本检测问题。

发明内容：

本发明提供了一种基于中心点监督信息的文本检测方法，用于解决现有技术中火车票打印和/或保管不当导致采集的图像不清楚增加了检测难度的问题。

本发明的技术方案主要模块包括如下：该系统包括三个部分，第一部分是基于ResNet50的图片特征提取模块；第二部分采用FPN进行不同尺度的信息融合；第三部分为基于融合的结果来产生5类预测结果(文本区域，文本中心线区域，圆盘半径，圆盘的sin值)，利用本方法提出的striding方法进行后处理操作。在第一部分中，我们使用ResNet50作为骨干网络，并去掉了最后的池化层和全连接层，得到5种不同尺度的特征。第二部分中，我们利用特征金字塔模块FPN对第一部分中得到的5种不同尺度的特征进行空间信息融合，在融合之后，利用大小为1x1的卷积核对融合后的特征进行降维以减少网络参数，提高系统速度。在第三部分中，利用多层卷积来产生五种不同的输出：文本区域，文本中心线区域，圆盘半径，圆盘的sin值，并利用本方法提出的striding算法将这五种不同的组件结合在一起形成文本区域。

本发明采用如下技术方案：一种基于中心点监督信息的文本检测方法，包括如下步骤：

S100：寻找火车票的边界；

S200：对火车票图片经过ResNet50卷积神经网络做特征提取；

S300：通过FPN网络对提取的特征图进行融合；

S400：通过FPN产生五种不同的输出：文本区域，文本中心线区域，圆盘半径，圆盘的sin值以及圆盘的cos值产生最终的检测结果。

进一步地，S100:寻找火车票的边界包括如下步骤：

S110：将图片做灰度化处理；

S120：利用opencv寻找到图片中物体的边界信息；

S130：利用火车票的蒙版，对未灰度化的图片进行旋转操作，丢弃背景信息，只保留火车票；

S140：图片尺寸统一调整为预设的固定值。

进一步地，图片尺寸统一调整为680×450。

进一步地，对于尺寸小于680×450的图片，利用双线性插值方法进行变换。

进一步地，用于对火车票图片做特征提取的ResNet50卷积神经网络去掉了最后的全连接层，只使用前五个block。

进一步地，还包括如下步骤S310:采用1x1的卷积核对整个融合的特征进行降维。

进一步地，将FPN产生五种不同的输出：文本区域，文本中心线区域，圆盘半径，圆盘的sin值以及圆盘的cos值通过striding算法得到最终的检测结果。

进一步地，striding算法流程如下：针对中心线区域中的某个中心线，随机在当中取一个点并找到其在中心线中的对应的中心点P作为开始，然后沿两个方向分别进行striding操作，具体为首先找到当前位置的圆盘半径r，圆盘的正弦值sinθ，圆盘的余弦值cosθ，两个方向的位移为(1/2r×cosθ，1/2r×sinθ)，(-1/2r×cosθ，-1/2r×sinθ)，根据位移值得到新的点，对新的点重新进行中心化得到P+1,P-1并且继续进行striding操作，直到根据位移值得到的点不在中心线区域内，最终得到当前中心线中心点的阵列(P-N，P-N+1，…，P，…，P+M-1，P+M)，根据圆盘半径结果中对应点的半径值得到一系列圆盘，产生最终的检测结果。

进一步地，在进行striding算法操作前进行噪点信息过滤：利用文本区域和中心线区域进行相乘操作，过滤掉中心线区域的噪点信息，得到不同文本实例的中心线。

进一步地，还包括S90：文本中心核预测分支的标签制作，该步骤在S100：寻找火车票的边界前进行。

该火车票文本检测方法包含以下主要步骤：

(1)寻找火车票的边界。利用扫描设备或者拍照设备将单张火车票的图片上传系统。正确的火车票边界的识别对整体系统的检测精度意义重大，因此首先进行边界识别，本发明采用opencv进行边界识别，其操作流程可以分为：首先将图片做灰度化处理，火车票和周围信息有明显的灰度值的差异，利用opencv可以精确寻找到图片中物体的边界信息，由于火车票特殊的长宽比，根据这个先验信息过滤掉误检。在得到火车票检测的蒙版之后，对未灰度化的图片进行旋转操作，丢弃背景信息，只保留火车票，由于火车票的大小固定，因此所有最终输入检测系统的图片都被固定为680×450，尺寸不满足的，利用双线性插值方法进行变换。在训练过程中用到的数据增强方法有：随机亮度调整、饱和度/色相调整输入神经网络进行后续处理。

(2)处理后的火车票图片先经过ResNet50卷积神经网络做特征提取。在ResNet中我们去掉了最后的全连接层，只使用前五个block。得到五个不同大小的特征图(featuremap)C×H×W，C、H、W分别表示图像的通道、高度和宽度。

(3)经过ResNet50提取的特征会进一步输入到FPN网络，FPN网络会融合来自不同深度的不同大小的feature map，使得后续的预测对文字的大小更具有鲁棒性。在FPN进行特征融合后，采用1x1的卷积核对整个融合的特征进行降维以减少网络参数。

(4)利用FPN得到的融合后的特征图进一步产生五种不同的输出：文本区域，文本中心线区域，圆盘半径，圆盘的sin值，圆盘的cos值。首先利用文本区域和中心线区域进行相乘操作，过滤掉中心线区域的噪点信息，得到不同文本实例的中心线，本方法提出了striding算法结合圆盘的预测信息得到最终的检测结果。Striding算法流程如下：针对中心线区域中的某个中心线，随机在当中取一个点并找到其在中心线中的对应的中心点P作为开始，然后沿两个方向分别进行striding操作，具体为首先找到当前位置的圆盘半径r，圆盘的正弦值sinθ，圆盘的余弦值cosθ，两个方向的位移为(1/2r×cosθ，1/2r×sinθ)，(-1/2r×cosθ，-1/2r×sinθ)，根据位移值得到新的点，对新的点重新进行中心化得到P+1，P-1并且继续进行striding操作，直到根据位移值得到的点不在中心线区域内，最终得到当前中心线中心点的阵列(P-N，P-N+1，…，P，…，P+M-1，P+M)，根据圆盘半径结果中对应点的半径值得到一系列圆盘，产生最终的检测结果。

本发明的积极效果如下：

一种基于中心点监督信息的文本检测方法，其包括如下步骤：

100：寻找火车票的边界；

S200：对火车票图片经过ResNet50卷积神经网络做特征提取；

S300：通过FPN网络对提取的特征图进行融合；

本发明主要针对火车票中的规则文本进行检测。通过将文本拆分为子区域(圆盘)进行预测，降低了训练的难度，FPN模块使得网络更具有泛华性。利用圆盘表示的方法避免了直接利用文本区域带来的粘连问题。本方法能够有效的解决火车票中内容检测问题。

附图说明

图1为本发明实施方式神经网络模型结构图；

图2为本发明实施方式FPN网络的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明。

如图1-2所示，本发明的技术方案主要模块包括如下：该系统包括三个部分，第一部分是基于ResNet50的图片特征提取模块；第二部分采用FPN进行不同尺度的信息融合；第三部分为基于融合的结果来产生5类预测结果(文本区域，文本中心线区域，圆盘半径，圆盘的sin值)，利用本方法提出的striding方法进行后处理操作。在第一部分中，我们使用ResNet50作为骨干网络，并去掉了最后的池化层和全连接层，得到5种不同尺度的特征。第二部分中，我们利用特征金字塔模块FPN对第一部分中得到的5种不同尺度的特征进行空间信息融合，在融合之后，利用大小为1x1的卷积核对融合后的特征进行降维以减少网络参数，提高系统速度。在第三部分中，利用多层卷积来产生五种不同的输出：文本区域，文本中心线区域，圆盘半径，圆盘的sin值，并利用本方法提出的striding算法将这五种不同的组件结合在一起形成文本区域。

S100：寻找火车票的边界；

S200：对火车票图片经过ResNet50卷积神经网络做特征提取；

S300：通过FPN网络对提取的特征图进行融合；

进一步地，S100:寻找火车票的边界包括如下步骤：

S110：将图片做灰度化处理；

S120：利用opencv寻找到图片中物体的边界信息；

S140：图片尺寸统一调整为预设的固定值。

进一步地，图片尺寸统一调整为680×450。

进一步地，striding算法流程如下：针对中心线区域中的某个中心线，随机在当中取一个点并找到其在中心线中的对应的中心点P作为开始，然后沿两个方向分别进行striding操作，具体为首先找到当前位置的圆盘半径r，圆盘的正弦值sinθ，圆盘的余弦值cosθ，两个方向的位移为(1/2r×cosθ,1/2r×sinθ)，(-1/2r×cosθ,-1/2r×sinθ)，根据位移值得到新的点，对新的点重新进行中心化得到P+1,P-1并且继续进行striding操作，直到根据位移值得到的点不在中心线区域内，最终得到当前中心线中心点的阵列(P-N，P-N+1，…，P，…，P+M-1，P+M)，根据圆盘半径结果中对应点的半径值得到一系列圆盘，产生最终的检测结果。

该火车票文本检测方法包含以下主要步骤：

(4)利用FPN得到的融合后的特征图进一步产生五种不同的输出：文本区域，文本中心线区域，圆盘半径，圆盘的sin值，圆盘的cos值。首先利用文本区域和中心线区域进行相乘操作，过滤掉中心线区域的噪点信息，得到不同文本实例的中心线，本方法提出了striding算法结合圆盘的预测信息得到最终的检测结果。Striding算法流程如下：针对中心线区域中的某个中心线，随机在当中取一个点并找到其在中心线中的对应的中心点P作为开始，然后沿两个方向分别进行striding操作，具体为首先找到当前位置的圆盘半径r，圆盘的正弦值sinθ，圆盘的余弦值cosθ，两个方向的位移为(1/2r×cosθ，1/2r×sinθ),(-1/2r×cosθ，-1/2r×sinθ),根据位移值得到新的点，对新的点重新进行中心化得到P+1,P-1并且继续进行striding操作，直到根据位移值得到的点不在中心线区域内，最终得到当前中心线中心点的阵列(P-N，P-N+1，…，P，…，P+M-1，P+M)，根据圆盘半径结果中对应点的半径值得到一系列圆盘，产生最终的检测结果。

本发明还提供了一个基于中心点监督信息的火车票内容具体的检测方法，具体过程如下：

1.文本中心核预测分支的标签制作：

现有的标注只提供了车票中内容的四个顶点信息，为了制作网络训练需要的监督信息。将较短的两边作为文本中心线的开端和末端，连接开端和末端的中点以生成中心线，并以相应文字区域平均宽度的1/2作为中心线的宽度，在开端和末端分别缩进1/2平均宽度以防止粘连。为了生成圆盘的监督信息，我们将中心线等分为10个点，每个点产生能不超出文本区域最大的圆盘，用当前点所在的圆盘和下一个圆盘中心点连线和水平方向的夹角计算得到圆盘对应的正弦值和余弦值。

2.火车票图片预处理

由于火车票需要扫描或拍照后上传，人为因素可能会导致导致火车票整体倾斜，而倾斜会影响文字片段提取，因此本方法先采用基于轮廓的矫正方法对图片进行预先处理。首先对图片做灰度处理，用8位的数据将每个像素点的亮度固定在0～255之间，只用采用固定阈值对图片做二值化处理，像素值大于该阈值置为1，小于该阈值则为0，将图片转化为黑白图片。再利用opencv提取轮廓后获得边信息后可计算出倾斜角度。依据该倾斜角度可对图像进行矫正。

火车票的大小固定，因此所有最终输入检测系统的图片都被固定为680x450，尺寸不满足的，利用双线性插值方法进行变换。在训练过程中用到的数据增强方法有：随机亮度调整、饱和度/色相调整。

3.基于中心点监督信息的文本区域预测

火车票经过预处理之后，首先被送入ResNet50进行特征提取，分别得到大小为原图大小1/2，1/4，1/8，1/16，1/32大小的特征图，之后1/32大小的特征图进行上采样和1/16大小的特征图进行逐元素相加，1/16，1/8，1/4大小的特征图分别上采样和1/8，1/4，1/2大小的特征图逐元素相加，得到的特征图全部上采样到1/2大小并且拼接在一起，拼接后的特征图经过1x1大小的卷积核进行通道间的融合和降维。

在降维之后，利用多组卷积产生文本区域，文本中心线区域，圆盘半径，圆盘的sin值，首先利用文本区域和文本中心线区域过滤噪点产生文本实例，之后利用本方法提出的striding算法结合圆盘半径预测和圆盘角度预测针对每个文本实例产生相应的检测区域，最后将检测区域做并集即得到最终检测结果。

4.模型训练

火车票图片经过预处理后送入网络经由FPN进行特征融合，进一步利用融合后的特征图生成检测结果。优化的目标函数为：

L＝L_cls+L_reg

L_cls＝λ₁L_tr+λ₂L_tcl

L_reg＝λ₃L_r+λ₄L_sin+λ₅L_cos (1)

L代表整体的loss，其中Lcls代表文本区域和文本中心线的loss，Lreg代表r，cosθ，sinθ的loss。Ltr和Ltcl是交叉熵损失函数

Lr代表圆盘半径损失函数，Lcos，Lsin代表圆盘sin值和cos值的损失函数，三者全部采用smoothed L1的损失函数进行监督。

优化器选用ADADELTA来计算梯度并进行反向传播。训练的batch size设置为8，总共训练1200个epoch。

8、模型应用

经过1200个epoch的训练后可以得到多个模型，选取其中最优的模型(目标函数值最小)用于实际应用。在应用过程中火车票依然需要先做预处理，对图片进行矫正并调整大小为680×450。此时不再需要对图片进行数据增强。

以上实施方式仅为本发明的优选实施例，而并非本发明可行实施的穷举。对于本领域一般技术人员而言，在不背离本发明原理和精神的前提下对其所做出的任何显而易见的改动，都应当被认为包含在本发明的权利要求保护范围之内。

Claims

1.一种基于中心点监督信息的文本检测方法，其特征在于，包括如下步骤：

S100：寻找火车票的边界；

S200：对火车票图片经过ResNet50卷积神经网络做特征提取；

S300：通过FPN网络对提取的特征图进行融合；

2.根据权利要求1所述的基于中心点监督信息的文本检测方法，其特征在于，S100:寻找火车票的边界包括如下步骤：

S110：将图片做灰度化处理；

S120：利用opencv寻找到图片中物体的边界信息；

S140：图片尺寸统一调整为预设的固定值。

3.根据权利要求2所述的基于中心点监督信息的文本检测方法，其特征在于，图片尺寸统一调整为680×450。

4.根据权利要求3所述的基于中心点监督信息的文本检测方法，其特征在于，对于尺寸小于680×450的图片，利用双线性插值方法进行变换。

5.根据权利要求4所述的基于中心点监督信息的文本检测方法，其特征在于，用于对火车票图片做特征提取的ResNet50卷积神经网络去掉了最后的全连接层，只使用前五个block。

6.根据权利要求5所述的基于中心点监督信息的文本检测方法，其特征在于，还包括如下步骤S310:采用1x1的卷积核对整个融合的特征进行降维。

7.根据权利要求6所述的基于中心点监督信息的文本检测方法，其特征在于，将FPN产生五种不同的输出：文本区域，文本中心线区域，圆盘半径，圆盘的sin值以及圆盘的cos值通过striding算法得到最终的检测结果。

8.根据权利要求7所述的基于中心点监督信息的文本检测方法，其特征在于，striding算法流程如下：针对中心线区域中的某个中心线，随机在当中取一个点并找到其在中心线中的对应的中心点P作为开始，然后沿两个方向分别进行striding操作，具体为首先找到当前位置的圆盘半径r，圆盘的正弦值sinθ，圆盘的余弦值cosθ，两个方向的位移为(1/2r×cosθ，1/2r×sinθ)，(-1/2r×cosθ，-1/2r×sinθ)，根据位移值得到新的点，对新的点重新进行中心化得到P+1，P-1并且继续进行striding操作，直到根据位移值得到的点不在中心线区域内，最终得到当前中心线中心点的阵列（P-N，P-N+1，…，P，…，P+M-1，P+M），根据圆盘半径结果中对应点的半径值得到一系列圆盘，产生最终的检测结果。

9.根据权利要求8所述的基于中心点监督信息的文本检测方法，其特征在于，在进行striding算法操作前进行噪点信息过滤：利用文本区域和中心线区域进行相乘操作，过滤掉中心线区域的噪点信息，得到不同文本实例的中心线。

10.根据权利要求9所述的基于中心点监督信息的文本检测方法，其特征在于，还包括S90：文本中心核预测分支的标签制作，该步骤在S100：寻找火车票的边界前进行。