CN109635743A

CN109635743A - 一种结合stn模块的文本检测深度学习方法及系统

Info

Publication number: CN109635743A
Application number: CN201811528158.0A
Authority: CN
Inventors: 侯进; 黄贤俊
Original assignee: Shenzhen Yuan Heng Technology Co Ltd
Current assignee: Shenzhen Yuan Heng Technology Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-16

Abstract

本发明公开了一种结合STN模块的文本检测深度学习方法及系统；其基于STN深度网络模块，对输入图片进行图像变换的相关变换矩阵参数进行学习与估计，利用相关变换矩阵参数对图像特征进行矫正变换；通过文本检测算法对矫正变换后的图像上的文本条目区域进行定位检测。利用STN深度网络模块将文档图像定位和文本条目区域检测两个阶段统一到一个网络框架下，进而发明了一种端到端的平面文档文本条目定位技术，本发明相比于现有技术，整体性能有较大提高，训练成本更低，且实用场景下性能更加稳定可靠。

Description

一种结合STN模块的文本检测深度学习方法及系统

技术领域

本发明涉及文本检测技术领域，尤其涉及一种结合STN模块的文本检测深度学习方法及系统。

背景技术

OCR(Optical Character Recognition，光学字符识别)的基本任务就是对图像文本上的文本内容进行提取，其一般分为两个过程：检测出文本区域，把文本块裁剪出来进入下一步对文本进行识别，为了达到正确识别的目的，往往需要第一步的文本区域检测做到定位出来，且文本区域中要尽量少的包含背景，这样才能有利于图像的识别。而对于证件、文档、票据等这类平面文档图像，目前比较稳定的主流文本检测技术有以下两种：

方案之一是分为两个阶段，第一阶段是进行文档定位，检出文档四边形的顶点，然后利用这四个顶点的坐标对图像进行透视变换，从而达到矫正整个图像的目的；第二阶段是在变换后的图像上，做文本条目区域进行水平外接矩形框定位检测；

该方案的第一阶段典型方法有如mask-rcnn，mtcnn等，其基本原理就是对整个文档进行4个顶点8个坐标值进行回归，得到4个顶点坐标后，利用四个顶点做图像变换处理；接着第二阶段利用，常用的目标检测方法faster-rcnn、yolo、ssd等高性能的目标检测方法，在矫正后的图像上，进行文本条目的最小外接水平矩形，简称bbox检测。

方案之二不需要做文档矫正，而是直接对文本条目区域进行四边形的四个顶点进行回归，也就是模型直接对文本条目区域的四个顶点进行回归学习，从而达到一步到位的检测定位目的，其主流方法有mask-rcnn,EAST等方法。

上述方案都有着各自的一些缺点，其中：

方案一由于分为两个独立的阶段，因而误差容易放大，而且整个文档图像的尺寸在整图中往往占比较大，整体文本的顶点定位误差稍微高点，都会导致图像矫正不够好，因而整体性能往往会受到较大影响。

方案二因为需要对每个条目的外接多边形的四个顶点进行标注，而不像方案一只需要标注整体文本的四个顶点，和文本条目的水平外接矩形标注，因而标注成本较大(注：实际样本数据标注过程中，水平外接矩形的标注成本大大低于最小外接四边形的成本)，且对内容较多的，条目排列紧凑的文档，往往出现定位错乱的情况，因而其整体性能不够，在实际对精度要求较高的应用场景中，现阶段该方案成熟落地场景还较少。

发明内容

针对上述现有技术中存在的不足之处，本发明以背景技术中的方案一为基础，利用STN深度网络模块将方案一的两个阶段统一到一个网络框架下，进而发明了一种端到端的结合STN模块的文本检测深度学习方法及系统，相比于背景技术中的方案一，由于本发明的方案不存在两个过程，因此本发明方案的整体性能有较大提高，而相比于背景技术中的方案二，本发明训练成本降低了很多，且实用场景下性能更加稳定可靠。

具体地，该结合STN模块的文本检测深度学习方法，包括：

基于STN深度网络模块，对输入图片进行图像变换的相关变换矩阵参数进行学习与估计，利用相关变换矩阵参数对图像特征进行矫正变换；

通过文本检测算法对矫正变换后的图像上的文本条目区域进行定位检测。

可选地，上述方法中，所述空间变换网络的目标设计为旋转、防射、透视变换中的至少一种。

可选地，上述方法中，所述文本检测算法为Faster RCNN、EAST、CTPN、TextBoxes，以及RRCNN中的任意一种。

相应地，该结合STN模块的文本检测深度学习系统包括图像变换矫正模块和文本条目检测模块；其中，

所述图像变换矫正模块用于基于STN深度网络模块，对输入图片进行图像变换的相关变换矩阵参数进行学习与估计，利用相关变换矩阵参数对图像特征进行矫正变换；

所述文本条目检测模块用于通过文本检测算法对矫正变换后的图像上的文本条目区域进行定位检测。

可选地，上述系统中，STN深度网络模块的目标设计为旋转、防射、透视变换中的至少一种。

可选地，上述系统中，所述文本条目检测模块采用Faster RCNN、EAST、CTPN、TextBoxes，以及RRCNN中的任意一种算法。

本发明的方案以背景技术中的方案一为基础，加入STN深度网络模块，直接对输入图片进行图像变换的相关变换矩阵参数学习与估计，利用相关变换矩阵参数对图像特征进行矫正变换，将方案一的两个阶段统一到一个完全的端到端的网络结构中，从而整个误差信号可以同时优化调节图像矫正和文本定位的参数，也就让两个阶段的参数可以得到统一优化。因此，相比于背景技术中的方案一，由于本发明的方案不存在两个过程，故整体性能有较大提高，而相比于背景技术中的方案二，本发明训练成本降低了很多，且实用场景下性能更加稳定可靠。

附图说明

图1为本发明实施例提供的结合STN模块的文本检测深度学习系统的系统框图；

图2为图像变换矫正模块的系统框图；

图3为文本条目检测模块的系统框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例以背景技术中的方案一为基础，加入STN深度网络模块，基于STN深度网络模块，直接对输入图片进行图像变换的相关变换矩阵参数进行学习与估计，利用相关变换矩阵参数对图像特征进行矫正变换；然后通过文本检测算法对矫正变换后的图像上的文本条目区域进行定位检测。从而将方案一的两个阶段统一到一个网络框架下，进而发明了一种端到端的平面文档文本条目定位技术，在整个训练过程中，训练误差信号从头到尾同时调整所有网络结构中的参数，具体来说，就是每一次迭代过程中图像变换也在逐步调整，得到优化，最终以使得文本条目的水平最小外接矩形检测达到最优为目的，其整体流程如图1至图3所示，下面结合图1至图3对本实施例的方案进行更进一步地阐述：

图像变换矫正模块：

该图像变换矫正模块基于STN深度网络模块对图像特征进行矫正变换，STN深度网络模块由本地网络(Localisation Network)，网络生成器(Gridgenerator)，采样器(Sampler)三个部分组成；其中，

a)Localisation Network：该网络就是一个简单的回归网络。将输入的图片进行几个卷积操作，然后全连接回归出6个参数值(假设是仿射变换)，2*3的矩阵。

b)Grid generator：网格生成器负责将V中的坐标位置，利用a)算出的矩阵，通过矩阵运算，计算出目标图V中的每个位置对应原图U中的坐标位置。即生成T(G)。

这里的Grid采样过程，对于二维仿射变换(旋转，平移，缩放)来说，就是简单的矩阵运算。上式中，s代表原始图的坐标，t代表目标图的坐标。A为Localisation Network网络回归出的6个图像变换参数值。

整个Grid生成过程就是，将目标图V-FeatureMap中的比如(0，0)(0，1)......位置的坐标，与2*3变换矩阵运算。就会生成出在原始图中对应的坐标信息，比如(5，0)(5，1)......。这样所有的目标图的坐标都经过这样的运算就会将每个坐标都产生一个与之对应的原图的坐标，即T(G)。然后通过T(G)和原始图U-FeatureMap的像素，将原始图中的像素复制到V-FeatureMap中，从而生成目标图的像素。

c)Sampler：采样器根据T(G)中的坐标信息，在原始图U中进行采样，将U中的像素复制到目标图V中。

从而得到了变换后的图像或者特征map。

文本条目检测模块：

该文本条目检测模块将文本检测算法直接作用到变换后的图像或者feature上，此处检测算法以faster-rcnn为例：

a)特征提取模块:利用深度卷积神经网络(VGG，RestNet，Inception)结构提取图片整体抽象特征

b)候选区域产生器:利用区域候选网络推荐候选证件区域，对均匀多吃度的初始化在整个页面上候选框进行，初步的关键文本区域进行定位，得到：

A.候选目标区域分类：判断该区域是否疑似有文本

B.候选区域位置回归：对候选区域的位置进行初步调整，使其接近目标文本的位置

候选区域分类器：利用b)中的初步信息，将判断为疑似有文本的候选区域的特征，通过对应的被调整后的坐标信息裁剪抽取出来，然后利用这些特征进一步计算：

A.物体目标分类：给出精准的是否有文本信息的判断

B.物体目标位置精度调整：给出对位置进一步调整，并给出高精准的位置信息。

本实施例的方案是一种结合深度图像空间变换网络STN结构的文本目标检测算法框架，具体有以下几点优点：

1、本实施例的方案和背景技术中的方案一相比，由于本实施例的方案不用先做图像变换，固定下来进行第二步检测，分两步进行模型参数优化训练，而是端到端的整个过程一起优化，因而最终，在精度要求较高的实用场景下性能更加稳定可靠；

2、本实施例的方案和背景技术中的方案二相比，在成本方面，由于本实施例的方案不需要进行文本条目的四边形标注，因而成本降低了很多。

此外，需要说明的是，本发明实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域技术人员来说，本发明可有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合STN模块的文本检测深度学习方法，其特征在于，包括：

2.如权利要求1所述的结合STN模块的文本检测深度学习方法，其特征在于，STN深度网络模块的目标设计为旋转、防射、透视变换中的至少一种。

3.如权利要求1所述的结合STN模块的文本检测深度学习方法，其特征在于，所述文本检测算法为Faster RCNN、EAST、CTPN、TextBoxes，以及RRCNN中的任意一种。

4.一种结合STN模块的文本检测深度学习系统，其特征在于，包括图像变换矫正模块和文本条目检测模块；其中，

5.如权利要求4所述的结合STN模块的文本检测深度学习系统，其特征在于，STN深度网络模块的目标设计为旋转、防射、透视变换中的至少一种。

6.如权利要求4所述的结合STN模块的文本检测深度学习系统，其特征在于，所述文本条目检测模块采用Faster RCNN、EAST、CTPN、TextBoxes，以及RRCNN中的任意一种算法。