CN114724155A

CN114724155A - 基于深度卷积神经网络的场景文本检测方法、系统及设备

Info

Publication number: CN114724155A
Application number: CN202210410471.4A
Authority: CN
Inventors: 熊炜; 孙鹏; 赵迪; 刘粤; 陈鹏; 张云良; 李利荣; 宋海娜
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-07-08

Abstract

本发明公开了一种基于深度卷积神经网络的场景文本检测方法、系统及设备，首先将获取的场景文本图像，进行数据增强操作，得到预定大小的图像信息；接着将预处理后的图像信息输入深度卷积神经网络中，提取图像特征；然后采用协调注意力机制层将图像特征进行增强处理；最后将增强后的特征图，采用渐进尺度扩展层进行后处理，获得文本检测结果。本发明通过在ResNet50的骨干网络中引入校正卷积、通道注意力，于提取的特征图后引入协调注意力，有效地扩大了网络感受空间，避免了后续降维操作丢失更多的语义信息，降低了不同尺度的特征图自顶向下融合导致的特征图失真程度，使网络具有更准确的鉴别区域；通过平方Dice损失函数提升了文本检测的准确性和精确性。

Description

基于深度卷积神经网络的场景文本检测方法、系统及设备

技术领域

本发明属于数字图像处理、计算机视觉技术领域，涉及一种针对自然场景文本图像中文本检测方法、系统及设备，具体涉及一种基于具有自校正与注意力机制相结合的深度卷积神经网络进行场景文本检测的方法、系统及设备。

背景技术

在日常生活中，存在着丰富的文本信息，对这些信息的提取，能够极大地提高人们的生活品质。场景文本检测与识别技术不仅能迅速确定图中文本的具体位置、还可以从中提取包含的文本信息，为进一步获取更有价值的内容进行分析、理解提供有力支撑。该技术广泛应用于文本即时翻译、票据数据识别、文字图像检索与分类、智能机器人、无人驾驶、工业制造等场景。通常文本检测结果很大程度上决定着文本识别中是否能正确识别文字，因此，提升文本检测的准确性和精确性很有必要。

由于自然场景中的文本在语种、颜色、字体、方向、尺寸等方面差异性较大，有的文本图像背景极其复杂，甚至类似文本，加之在获取图像时受到光照、拍照角度等影响，图像出现低对比度、低分辨率或有遮挡、伪影等现象，使得在场景文本检测过程中存在误检或文本区域定位不准等问题。近几年，越来越多的科研人员将深度学习应用于自然场景文本检测，借鉴目标检测、语义分割、实例分割的方法，获得了较高的检测率、识别率以及泛化能力。目前，可以将这些采用深度学习的方法分为两类：基于回归和基于分割的文本检测方法。基于回归的文本检测方法是将图中文本看作同一类检测目标，在图像中预测多个文本候选框，然后进行分类和回归，直接检测出整个文本实例，但检测结果往往包含较多无关的背景信息，尤其是在密集文本图像中难以分隔文本实例。而基于分割的文本检测方法则是先通过卷积神经网络得到每个像素为文本的概率，根据设定的阈值分割得到文本的基本组件，之后进行后处理，将组件逐步组成一个完整的文本实例，该方法能够很好地解决密集文本检测问题。

发明内容

为了解决上述技术问题，本发明提出了一种基于具有自校正与注意力机制相结合的深度卷积神经网络进行场景文本检测的方法、系统及设备。

本发明的方法所采用的技术方案是：一种基于深度卷积神经网络的场景文本检测方法，所述深度卷积神经网络，基于ResNet50网络结构，将ResNet50网络中将3×3Conv卷积替换成自校正卷积，然后于卷积层C₂-C₅后面嵌入通道注意力机制ECA层，在ResNet50网络的每一层后引入高效通道注意力机制；在特征融合后加入协调注意力机制层；最后增加渐进尺度扩展层对图像进行后处理；

所述方法包括以下步骤：

步骤1：将获取的场景文本图像，进行随机亮度变换、随机旋转、缩放、裁剪等数据增强操作，得到预定大小的图像信息；

步骤2：将预处理后的图像信息输入所述深度卷积神经网络中，提取图像特征F；

步骤3：采用协调注意力机制层将图像特征F进行增强处理；

步骤4：将增强后的特征图，采用渐进尺度扩展层进行后处理，获得文本检测结果。

本发明的系统所采用的技术方案是：一种基于深度卷积神经网络的场景文本检测系统，所述深度卷积神经网络，基于ResNet50网络结构，将ResNet50网络中将3×3Conv卷积替换成自校正卷积，然后于卷积层C₂-C₅后面嵌入高效通道注意力机制；在特征融合后加入协调注意力机制层；最后增加渐进尺度扩展层对图像进行后处理；

所述系统包括以下模块：

模块1，用于将获取的场景文本图像，进行随机亮度变换、随机旋转、缩放、裁剪等数据增强操作，得到预定大小的图像信息；

模块2，用于将预处理后的图像信息输入所述深度卷积神经网络中，提取图像特征F；

模块3，用于采用协调注意力机制层将图像特征F进行增强处理；

模块4，用于将增强后的特征图，采用渐进尺度扩展层进行后处理，获得文本检测结果。

本发明的设备所采用的技术方案是：一种基于深度卷积神经网络的场景文本检测设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的基于深度卷积神经网络的场景文本检测方法。

本发明与现有算法相比，其显著优点和效果如下：

(1)本发明利用了自校正卷积，使得特征图中每个位置能够考虑其周围的上下文信息，将其得到的上下文信息标量嵌入到原尺度空间。其不仅可以模拟通道之间的依赖性，有效的扩大自校正卷积层的感受野，还在一定程度上避免了不相关区域的信息干扰。

(2)本发明通过通道注意力机制建模特征图各通道之间存在的相关性，有效避免了降维操作带来的语义信息丢失，降低了深度卷积神经网络复杂度的同时让深度卷积神经网络保持良好的性能。

(3)本发明在特征增强部分中使用协调注意力，于水平方向和垂直方向上分别汇聚输入的特征，然后经过sigmoid激活函数分别编码成两个不同方向的一维注意力图，使得输出不仅具有长程依赖关系，还保存着准确的位置信息，将得到的特征图转换成注意力图，与输入相乘，弥补了FPN融合过程产生的偏差。

(4)本发明将Dice系数进行了平方操作，加大了深度卷积神经网络对误检、漏检的惩罚力度，使得深度卷积神经网络预测结果更加接近真实标注，从而改善了深度卷积神经网络性能。

附图说明

图1为本发明实施例的深度卷积神经网络结构图；

图2为本发明实施例的通道注意力的嵌入方式示意图；

图3为本发明实施例的自校正卷积原理图；

图4为本发明实施例的高效通道注意力机制原理图；

图5为本发明实施例的协调注意力机制层结构图；

图6为本发明实施例的文本检测的后处理扩展示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的一种基于深度卷积神经网络的场景文本检测方法，请见图1，本实施例采用的深度卷积神经网络，首先在ResNet50网络结构上将ResNet50网络中将3×3Conv卷积替换成自校正卷积，将原卷积拆分为4个小卷积、两个分支(校正分支，上下文语义继承分支)，然后于卷积层C₂-C₅后面嵌入通道注意力机制ECA层；在不引入额外的学习参数下，使得网络能够获得不同尺度的空间信息，通过校正分支对提取到的特征进行校正；同时在网络的每一层后引入高效通道注意力机制，使网络检测的焦点集中于文本区域，提取更加丰富的语义信息；其次在特征融合后加入协调注意力机制层，修正不同尺度的特征图在自顶向下的融合过程中产生的位置偏差。最后通过卷积预测得到不同大小的文本实例核，并使用渐进尺度扩展算法，从最小核逐渐扩大到最大核，得到最终的文本实例。在深度卷积神经网络训练过程中使用平方Dice系数损失函数，该损失可加大深度卷积神经网络误检、漏检的惩罚力度，从而提升深度卷积神经网络检测的准确率和召回率。

本实施例中，在原ResNet50骨干网络的基础上，于Bottleneck中将自校正卷积(self-calibrated convolutions,SConv)替换原网络中3×3Conv卷积，它仅仅考虑每个空间位置周围的上下文信息，避免全局上下文信息中无关区域的干扰；其次在每一层的Bottleneck末尾引入高效通道注意力(efficient channel attention,ECA)，在不降低特征图维度的情况下可交互通道信息，增强网络的特征提取能力。

本实施例中，在将骨干网络中卷积替换为自校正卷积后，于卷积层C₂-C₅后面嵌入通道注意力机制ECA，嵌入方式如图2所示，之后从每个ECA层提取不同尺度的特征图

其大小分别为原输入图像的1/4、1/8、1/16、1/32。接着以特征金字塔网络FPN的方式自顶向下进行特征融合操作：使用1×1Conv对顶层特征图

卷积得到特征图P₅；而P₂、P₃、P₄由相同层级的

经过1×1Conv卷积操作后与上一层级的特征图P₃、P₄、P₅经过2倍上采样相加融合得到；最后将P₂、P₃、P₄、P₅进行Concat操作得到融合后的特征图F。

P₂、P₃、P₄计算公式如公式(1)，式中n取2，3，4，Conv_1×1表示1×1卷积，Up_r2表示用双向线性插值法实现的2倍上采样。

P_n＝Conv_1×1(C₂)+Up_r2(P_n+1) (1)

请见图3，本实施例提出使用自校正卷积代替传统的卷积方式提高深度卷积神经网络的文本特征提取能力，该卷积在两个不同尺度空间中进行卷积特征变换，于每个空间位置周围构建空间和通道之间的相关性，使每个卷积层的感受野变大，从而丰富语义信息。该卷积操作过程可划分为以下3个步骤：

(1)将输入大小为C×H×W的特征M，分成M₁、M₂，其大小均为C/2×H×W；其中，C、H、W分别表示特征M的通道数、高度和宽度；

(2)将大小为(C,C,3,3)的原卷积核K分成4个小卷积核K₁、K₂、K₃、K₄，其大小均为(C/2,C/2,3,3)，用来收集不同类型的上下文信息；卷积核K₁、K₂、K₃在分支1中对M₁进行自校正操作，得到N₁；卷积核K₄于分支2中对原尺度特征M₂进行卷积操作，以保留原始的空间背景信息，得到N₂；

(3)拼接原尺度空间输出特征N₁、N₂，得到与输入M大小一致特征N；

其中，在分支1的自校正处理中，首先使用大小为4×4平均池化层对特征M₁进行下采样，得M₁₁，如公式(2)，再经过卷积核K₁提取特征，并进行上采样得M₁₂，将尺寸恢复到M₁大小，如公式(3)，上采样方式为双线性插值法；后与M₁相加，使用Sigmoid激活函数映射计算出校正权重，并与卷积核K₂提取特征后相乘进行校正，得M₁₃，如公式(4)，最后通过K₃卷积操作得到该分支校正后的特征N₁，如公式(5)。

M₁₁＝AvgPool(M₁) (2)

M₁₂＝Up_r2(F₁(M₁₁))＝Up_r2(M₁₁*K₁) (3)

M₁₃＝F₂(M₁)*σ(M₁+M₁₂)＝M₁*K₂*σ(M₁+M₁₂) (4)

N₁＝F₃(M₁₃)＝M₁₃*K₃ (5)

其中，F_i表示卷积核K_i的卷积操作，σ为sigmoid函数，Up_r2为2倍上采样。

传统卷积感受野往往受到限制，忽略了上下文的语义信息，通过校正操作，使得特征图中每个位置能够考虑其周围的上下文信息，将其得到的上下文信息标量嵌入到原尺度空间。其不仅可以模拟通道之间的依赖性，有效的扩大自校正卷积层的感受野，还在一定程度上避免了不相关区域的信息干扰。

在特征提取过程中使用卷积操作虽能融合其感受野内的空间信息，但往往忽视了它们各通道之间存在的相关性，因此通过通道注意力机制来增强骨干网络的特征提取能力。而特征提取中的降维操作会无差别地丢失特征提取的重要信息，对通道注意力机制的预测有一定的负面影响，并且所需要的特征并非与图像的所有通道相关，所以没有必要建立特征与所有通道之间的联系，并且建立这种联系将耗费深度卷积神经网络更多的计算资源。因此通过一维卷积在实现局部通道信息交互的基础上可有效避免降维操作，降低深度卷积神经网络复杂度的同时让深度卷积神经网络保持良好的性能。

该高效通道注意力机制实现原理如图4所示，X为输入的原始图像信息，经过全局平均池化(global average pooling,GAP)得到未降维的信息，然后进行尺寸为k的一维卷积操作，在相邻通道的小部分范围内实现跨通道信息交互，而k的值与通道数C成正比，其计算公式如公式(6)所示，然后经过sigmoid函数得到各通道的权重值，在与原始输入信息相乘得到含有通道注意力的图像信息

如公式(7)。

其中，|t|_odd表示距离t最近的奇数，C1D_k表示核数为k的一维卷积操作。

从骨干网络的每一层抽取四张不同尺度的特征图，采用特征金字塔网络(featurepyramid networks,FPN)的方式融合特征得到特征图F；接着使用协调注意力(coordinateattention，CA)，对原特征图进行增强得到新特征图

来增强文本边界信息，以扩大文本与非文本区域的区别度。

通过FPN融合得到的特征图，文本区域边界定义不清晰，甚至存在一定的偏差，对文本检测的后处理产生影响，对于以上影响可以通过通道、位置注意力相结合的方式对特征图进行修正。因此本文采用协调注意力CA对FPN融合后的特征图进行处理，在训练的过程中不断调整各通道、各位置的权重值，从而得到更为准确、可靠的特征图。协调注意力CA结构如图5所示，对于给定输入X，使用大小为(h,1)、(1,w)池化层，分别沿着横轴和纵轴进行平均池化，对每个通道于这两方向上进行编码。在横轴上通道c的输出为

同理在纵轴上的输出为

如公式(8)(9)所示。接着连接这两特征映射，并使用1×1Conv进行操作以及非线性映射，得到特征图f，如公式(10)；然后将特征图沿着空间维度拆分成两个张量g^h，g^w，如公式(11)(12)，并与原输入相乘得到输出

如公式(13)。

f＝δ(Conv_1×1([z^h,z^w])) (10)

g^h＝σ(Conv_1×1(f^h)) (11)

g^w＝σ(Conv_1×1(f^w)) (12)

其中，i、j表示输入X中像素坐标，H、W表示输入X的高度和宽度，f^h、f^w表示特征图f沿两不同方向拆分后的特征图，[·,·]表示两个张量的拼接操作，Conv_1×1表示1×1卷积，δ表示非线性映射，σ为sigmoid函数。

相比于全局通道注意，其得到的特征向量并不是使用二维全局池化将整个特征张量变进行转换，而是在水平方向和垂直方向上分别汇聚输入的特征，然后经过sigmoid激活函数分别编码成两个不同方向的一维注意力图。通过这种方式处理后，输出不仅具有长程依赖关系，还保存着准确的位置信息。因此，将得到的特征图转换成注意力图，与输入相乘，获得的额外信息可以弥补FPN融合过程产生的偏差。

请见图6，本实施例的渐进尺度扩展层，使用1×1Conv对增强后的

进行卷积操作得到不同尺度的文本实例核S₁至S_n，采用渐进尺度扩展法对其进行后处理，从最小文本实例核S₁逐渐扩展到最大文本实例核S_n，其扩展过程如图6所示(图中0表示S_i中的像素，1表示S_i+1中的像素，不同颜色表示不同的文本实例。)，在扩展的过程中S_i+1中某一位置属于S_i中同一文本实例时，将该位置进行合并(即图中该位置的颜色变为S_i中该文本实例的颜色)，对于存在不能确定像素的归属情况(如图中的X)，解决的原则是先到先得(如在算法中左下角的文本实例先扩展到冲突像素X，则该像素属于该文本实例)。

本实施例的深度卷积神经网络是训练好的深度卷积神经网络；训练深度卷积神经网络时使用的损失函数L由两部分构成：L_c和L_s，两者按一定的权重求和作为整个深度卷积神经网络的损失函数。L_c是用来衡量未缩放时预测和真实标注之间文本实例的匹配度，L_s则是用来衡量缩放后的匹配度；损失函数L的计算方法如公式(14)所示。

L＝λL_c+(1-λ)L_s (14)

其中，λ是L_c和L_s的权重系数，λ的值取为0.7。

本发明采用Dice系数损失函数表示L_c、L_s，Dice系数的计算如公式(15)所示。

其中，S_i,x,y和G_i,x,y分别表示预测的最终结果S_i和训练样本的真实标注G_i在图中位置(x，y)处的像素值。考虑到文本图像中难免会有类似文字笔画的背景信息，容易产生误检，降低检测准确率，为了更好区别文本和非文本区域，在训练深度卷积神经网络时借鉴了在线难例挖掘(online hard example mining,OHEM)训练方法，将正、负样本的比例设为1:3。

损失函数L_c的计算方法如公式(16)所示。

L_c＝1-D²(S_n*M,G_n*M) (16)

其中，M表示在线难例挖掘到的训练掩码。

损失函数L_s的计算方法如公式(17)所示。

其中，W表示S_n中文本区域的掩码，S_n,x,y表示S_n中位置(x,y)处的像素值。

本发明将Dice系数进行了平方操作，使得损失函数的值相比于修改前增大了，加大了深度卷积神经网络对误检、漏检的惩罚力度，使得深度卷积神经网络预测结果更加接近真实标注，从而改善深度卷积神经网络性能。

本实施例的方法包括以下步骤：

步骤1：将获取的场景文本图像，进行随机亮度变换、随机旋转、缩放、裁剪等数据增强操作，得到640×640×3固定大小的图像信息；

步骤2：将预处理后的图像信息输入深度卷积神经网络中，提取图像特征F；

步骤3：采用协调注意力机制层将图像特征F进行增强处理；

本发明通过在ResNet50的骨干网络中引入校正卷积、通道注意力，于提取的特征图后引入协调注意力，有效地扩大了网络感受空间，避免了后续降维操作丢失更多的语义信息，降低了不同尺度的特征图自顶向下融合导致的特征图失真程度，使网络具有更准确的鉴别区域；通过设计平方Dice损失函数，加大了深度卷积神经网络预测错误的惩罚力度，从而提升深度卷积神经网络文本检测的准确性和精确性。

本发明对弯曲文本的检测效果较好，其水平达到了近两年使用了大量数据进行预训练的方法。在ICDAR2015、Total-Text、CTW1500数据集上，本文所提出的检测方法在综合指标F值上分别达到了81.6％、83.5％、83.4％。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于深度卷积神经网络的场景文本检测方法，其特征在于：所述深度卷积神经网络，基于ResNet50网络结构，将ResNet50网络中将3×3Conv卷积替换成自校正卷积，然后于卷积层C₂-C₅后面嵌入通道注意力机制ECA层，在特征融合后加入协调注意力机制层；最后增加渐进尺度扩展层对图像进行后处理；

所述方法包括以下步骤：

步骤1：将获取的场景文本图像，进行数据增强操作，得到预定大小的图像信息；

步骤3：采用协调注意力机制层将图像特征F进行增强处理；

2.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法，其特征在于：在将ResNet50网络中将3×3Conv卷积替换成自校正卷积后，于卷积层C₂-C₅后面嵌入通道注意力机制ECA层，之后从每个ECA层提取不同尺度的特征图

其大小分别为原输入图像的1/4、1/8、1/16、1/32；接着以特征金字塔网络FPN的方式自顶向下进行特征融合操作：使用1×1Conv对顶层特征图

卷积得到特征图P₅；而P₂、P₃、P₄由相同层级的

经过1×1Conv卷积操作后与上一层级的特征图P₃、P₄、P₅经过2倍上采样相加融合得到；最后将P₂、P₃、P₄、P₅进行Concat操作得到融合后的特征图F；

P₂、P₃、P₄计算公式为：

P_n＝Conv_1×1(C₂)+Up_r2(P_n+1) (1)

式中n取2，3，4，Conv_1×1表示1×1卷积，Up_r2表示用双向线性插值法实现的2倍上采样。

3.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法，其特征在于：所述自校正卷积，其卷积操作过程包括以下3个步骤：

其中，在分支1的自校正处理中，首先使用大小为4×4平均池化层对特征M₁进行下采样，得M₁₁；再经过卷积核K₁提取特征，并进行上采样得M₁₂，将尺寸恢复到M₁大小，上采样方式为双线性插值法；后与M₁相加，使用Sigmoid激活函数映射计算出校正权重，并与卷积核K₂提取特征后相乘进行校正，得M₁₃；最后通过K₃卷积操作得到该分支校正后的特征N₁；

M₁₁＝AvgPool(M₁) (2)

M₁₂＝Up_r2(F₁(M₁₁))＝Up_r2(M₁₁*K₁) (3)

M₁₃＝F₂(M₁)*σ(M₁+M₁₂)＝M₁*K₂*σ(M₁+M₁₂) (4)

N₁＝F₃(M₁₃)＝M₁₃*K₃ (5)

4.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法，其特征在于：所述高效通道注意力机制，对于输入的原始图像信息X，经过全局平均池化得到未降维的信息，接着进行尺寸为k的一维卷积操作，然后经过sigmoid函数得到各通道的权重值，在与原始输入信息相乘得到含有通道注意力的图像信息

其中，|t|_odd表示距离t最近的奇数，C1D_k表示核数为k的一维卷积操作，C为通道数，σ为sigmoid函数。

5.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法，其特征在于：所述协调注意力机制层，对于给定输入X，使用大小为(h,1)、(1,w)池化层，分别沿着横轴和纵轴进行平均池化，对每个通道于这两方向上进行编码；在横轴上通道c的输出为

在纵轴上的输出为

接着连接这两特征映射，并使用1×1Conv进行操作以及非线性映射，得到特征图f；然后将特征图沿着空间维度拆分成两个张量g^h，g^w，并与原输入相乘得到输出

f＝δ(Conv_1×1([z^h,z^w])) (10)

g^h＝σ(Conv_1×1(f^h)) (11)

g^w＝σ(Conv_1×1(f^w)) (12)

6.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法，其特征在于：所述渐进尺度扩展层，使用1×1Conv对增强后的

进行卷积操作得到不同尺度的文本实例核S₁至S_n，采用渐进尺度扩展法对其进行后处理，从最小文本实例核S₁逐渐扩展到最大文本实例核S_n，在扩展的过程中S_i+1中某一位置属于S_i中同一文本实例时，将该位置进行合并，对于存在不能确定像素的归属情况，解决的原则是先到先得。

7.根据权利要求1-6任意一项所述的基于深度卷积神经网络的场景文本检测方法，其特征在于：所述深度卷积神经网络，是训练好的深度卷积神经网络；训练过程中采用的损失函数L由L_c和L_s两部分构成，-L_c是用来衡量未缩放时预测和真实标注之间文本实例的匹配度，L_s则是用来衡量缩放后的匹配度；

L＝λL_c+(1-λ)L_s (14)

其中，λ是L_c的权重系数；

损失函数L_c为：

L_c＝1-D²(S_n*M,G_n*M) (15)

其中，S_i,x,y和G_i,x,y分别表示预测的最终结果S_i和训练样本的真实标注G_i在图中位置(x，y)处的像素值；M表示在线难例挖掘到的训练掩码；

损失函数L_s为：

8.一种基于深度卷积神经网络的场景文本检测系统，其特征在于：所述深度卷积神经网络，基于ResNet50网络结构，将ResNet50网络中将3×3Conv卷积替换成自校正卷积，然后于卷积层C₂-C₅后面嵌入通道注意力机制ECA层，在ResNet50网络的每一层后引入高效通道注意力机制；在特征融合后加入协调注意力机制层；最后增加渐进尺度扩展层对图像进行后处理；

所述系统包括以下模块：

模块1，用于将获取的场景文本图像，进行数据增强操作，得到预定大小的图像信息；

9.一种基于深度卷积神经网络的场景文本检测设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的基于深度卷积神经网络的场景文本检测方法。