CN114724155A - 基于深度卷积神经网络的场景文本检测方法、系统及设备 - Google Patents

基于深度卷积神经网络的场景文本检测方法、系统及设备 Download PDF

Info

Publication number
CN114724155A
CN114724155A CN202210410471.4A CN202210410471A CN114724155A CN 114724155 A CN114724155 A CN 114724155A CN 202210410471 A CN202210410471 A CN 202210410471A CN 114724155 A CN114724155 A CN 114724155A
Authority
CN
China
Prior art keywords
convolution
neural network
layer
convolutional neural
deep convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210410471.4A
Other languages
English (en)
Inventor
熊炜
孙鹏
赵迪
刘粤
陈鹏
张云良
李利荣
宋海娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202210410471.4A priority Critical patent/CN114724155A/zh
Publication of CN114724155A publication Critical patent/CN114724155A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度卷积神经网络的场景文本检测方法、系统及设备,首先将获取的场景文本图像,进行数据增强操作,得到预定大小的图像信息;接着将预处理后的图像信息输入深度卷积神经网络中,提取图像特征;然后采用协调注意力机制层将图像特征进行增强处理;最后将增强后的特征图,采用渐进尺度扩展层进行后处理,获得文本检测结果。本发明通过在ResNet50的骨干网络中引入校正卷积、通道注意力,于提取的特征图后引入协调注意力,有效地扩大了网络感受空间,避免了后续降维操作丢失更多的语义信息,降低了不同尺度的特征图自顶向下融合导致的特征图失真程度,使网络具有更准确的鉴别区域;通过平方Dice损失函数提升了文本检测的准确性和精确性。

Description

基于深度卷积神经网络的场景文本检测方法、系统及设备
技术领域
本发明属于数字图像处理、计算机视觉技术领域,涉及一种针对自然场景文本图像中文本检测方法、系统及设备,具体涉及一种基于具有自校正与注意力机制相结合的深度卷积神经网络进行场景文本检测的方法、系统及设备。
背景技术
在日常生活中,存在着丰富的文本信息,对这些信息的提取,能够极大地提高人们的生活品质。场景文本检测与识别技术不仅能迅速确定图中文本的具体位置、还可以从中提取包含的文本信息,为进一步获取更有价值的内容进行分析、理解提供有力支撑。该技术广泛应用于文本即时翻译、票据数据识别、文字图像检索与分类、智能机器人、无人驾驶、工业制造等场景。通常文本检测结果很大程度上决定着文本识别中是否能正确识别文字,因此,提升文本检测的准确性和精确性很有必要。
由于自然场景中的文本在语种、颜色、字体、方向、尺寸等方面差异性较大,有的文本图像背景极其复杂,甚至类似文本,加之在获取图像时受到光照、拍照角度等影响,图像出现低对比度、低分辨率或有遮挡、伪影等现象,使得在场景文本检测过程中存在误检或文本区域定位不准等问题。近几年,越来越多的科研人员将深度学习应用于自然场景文本检测,借鉴目标检测、语义分割、实例分割的方法,获得了较高的检测率、识别率以及泛化能力。目前,可以将这些采用深度学习的方法分为两类:基于回归和基于分割的文本检测方法。基于回归的文本检测方法是将图中文本看作同一类检测目标,在图像中预测多个文本候选框,然后进行分类和回归,直接检测出整个文本实例,但检测结果往往包含较多无关的背景信息,尤其是在密集文本图像中难以分隔文本实例。而基于分割的文本检测方法则是先通过卷积神经网络得到每个像素为文本的概率,根据设定的阈值分割得到文本的基本组件,之后进行后处理,将组件逐步组成一个完整的文本实例,该方法能够很好地解决密集文本检测问题。
发明内容
为了解决上述技术问题,本发明提出了一种基于具有自校正与注意力机制相结合的深度卷积神经网络进行场景文本检测的方法、系统及设备。
本发明的方法所采用的技术方案是:一种基于深度卷积神经网络的场景文本检测方法,所述深度卷积神经网络,基于ResNet50网络结构,将ResNet50网络中将3×3Conv卷积替换成自校正卷积,然后于卷积层C2-C5后面嵌入通道注意力机制ECA层,在ResNet50网络的每一层后引入高效通道注意力机制;在特征融合后加入协调注意力机制层;最后增加渐进尺度扩展层对图像进行后处理;
所述方法包括以下步骤:
步骤1:将获取的场景文本图像,进行随机亮度变换、随机旋转、缩放、裁剪等数据增强操作,得到预定大小的图像信息;
步骤2:将预处理后的图像信息输入所述深度卷积神经网络中,提取图像特征F;
步骤3:采用协调注意力机制层将图像特征F进行增强处理;
步骤4:将增强后的特征图,采用渐进尺度扩展层进行后处理,获得文本检测结果。
本发明的系统所采用的技术方案是:一种基于深度卷积神经网络的场景文本检测系统,所述深度卷积神经网络,基于ResNet50网络结构,将ResNet50网络中将3×3Conv卷积替换成自校正卷积,然后于卷积层C2-C5后面嵌入高效通道注意力机制;在特征融合后加入协调注意力机制层;最后增加渐进尺度扩展层对图像进行后处理;
所述系统包括以下模块:
模块1,用于将获取的场景文本图像,进行随机亮度变换、随机旋转、缩放、裁剪等数据增强操作,得到预定大小的图像信息;
模块2,用于将预处理后的图像信息输入所述深度卷积神经网络中,提取图像特征F;
模块3,用于采用协调注意力机制层将图像特征F进行增强处理;
模块4,用于将增强后的特征图,采用渐进尺度扩展层进行后处理,获得文本检测结果。
本发明的设备所采用的技术方案是:一种基于深度卷积神经网络的场景文本检测设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的基于深度卷积神经网络的场景文本检测方法。
本发明与现有算法相比,其显著优点和效果如下:
(1)本发明利用了自校正卷积,使得特征图中每个位置能够考虑其周围的上下文信息,将其得到的上下文信息标量嵌入到原尺度空间。其不仅可以模拟通道之间的依赖性,有效的扩大自校正卷积层的感受野,还在一定程度上避免了不相关区域的信息干扰。
(2)本发明通过通道注意力机制建模特征图各通道之间存在的相关性,有效避免了降维操作带来的语义信息丢失,降低了深度卷积神经网络复杂度的同时让深度卷积神经网络保持良好的性能。
(3)本发明在特征增强部分中使用协调注意力,于水平方向和垂直方向上分别汇聚输入的特征,然后经过sigmoid激活函数分别编码成两个不同方向的一维注意力图,使得输出不仅具有长程依赖关系,还保存着准确的位置信息,将得到的特征图转换成注意力图,与输入相乘,弥补了FPN融合过程产生的偏差。
(4)本发明将Dice系数进行了平方操作,加大了深度卷积神经网络对误检、漏检的惩罚力度,使得深度卷积神经网络预测结果更加接近真实标注,从而改善了深度卷积神经网络性能。
附图说明
图1为本发明实施例的深度卷积神经网络结构图;
图2为本发明实施例的通道注意力的嵌入方式示意图;
图3为本发明实施例的自校正卷积原理图;
图4为本发明实施例的高效通道注意力机制原理图;
图5为本发明实施例的协调注意力机制层结构图;
图6为本发明实施例的文本检测的后处理扩展示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供的一种基于深度卷积神经网络的场景文本检测方法,请见图1,本实施例采用的深度卷积神经网络,首先在ResNet50网络结构上将ResNet50网络中将3×3Conv卷积替换成自校正卷积,将原卷积拆分为4个小卷积、两个分支(校正分支,上下文语义继承分支),然后于卷积层C2-C5后面嵌入通道注意力机制ECA层;在不引入额外的学习参数下,使得网络能够获得不同尺度的空间信息,通过校正分支对提取到的特征进行校正;同时在网络的每一层后引入高效通道注意力机制,使网络检测的焦点集中于文本区域,提取更加丰富的语义信息;其次在特征融合后加入协调注意力机制层,修正不同尺度的特征图在自顶向下的融合过程中产生的位置偏差。最后通过卷积预测得到不同大小的文本实例核,并使用渐进尺度扩展算法,从最小核逐渐扩大到最大核,得到最终的文本实例。在深度卷积神经网络训练过程中使用平方Dice系数损失函数,该损失可加大深度卷积神经网络误检、漏检的惩罚力度,从而提升深度卷积神经网络检测的准确率和召回率。
本实施例中,在原ResNet50骨干网络的基础上,于Bottleneck中将自校正卷积(self-calibrated convolutions,SConv)替换原网络中3×3Conv卷积,它仅仅考虑每个空间位置周围的上下文信息,避免全局上下文信息中无关区域的干扰;其次在每一层的Bottleneck末尾引入高效通道注意力(efficient channel attention,ECA),在不降低特征图维度的情况下可交互通道信息,增强网络的特征提取能力。
本实施例中,在将骨干网络中卷积替换为自校正卷积后,于卷积层C2-C5后面嵌入通道注意力机制ECA,嵌入方式如图2所示,之后从每个ECA层提取不同尺度的特征图
Figure BDA0003603459840000041
其大小分别为原输入图像的1/4、1/8、1/16、1/32。接着以特征金字塔网络FPN的方式自顶向下进行特征融合操作:使用1×1Conv对顶层特征图
Figure BDA0003603459840000044
卷积得到特征图P5;而P2、P3、P4由相同层级的
Figure BDA0003603459840000042
Figure BDA0003603459840000043
经过1×1Conv卷积操作后与上一层级的特征图P3、P4、P5经过2倍上采样相加融合得到;最后将P2、P3、P4、P5进行Concat操作得到融合后的特征图F。
P2、P3、P4计算公式如公式(1),式中n取2,3,4,Conv1×1表示1×1卷积,Upr2表示用双向线性插值法实现的2倍上采样。
Pn=Conv1×1(C2)+Upr2(Pn+1) (1)
请见图3,本实施例提出使用自校正卷积代替传统的卷积方式提高深度卷积神经网络的文本特征提取能力,该卷积在两个不同尺度空间中进行卷积特征变换,于每个空间位置周围构建空间和通道之间的相关性,使每个卷积层的感受野变大,从而丰富语义信息。该卷积操作过程可划分为以下3个步骤:
(1)将输入大小为C×H×W的特征M,分成M1、M2,其大小均为C/2×H×W;其中,C、H、W分别表示特征M的通道数、高度和宽度;
(2)将大小为(C,C,3,3)的原卷积核K分成4个小卷积核K1、K2、K3、K4,其大小均为(C/2,C/2,3,3),用来收集不同类型的上下文信息;卷积核K1、K2、K3在分支1中对M1进行自校正操作,得到N1;卷积核K4于分支2中对原尺度特征M2进行卷积操作,以保留原始的空间背景信息,得到N2
(3)拼接原尺度空间输出特征N1、N2,得到与输入M大小一致特征N;
其中,在分支1的自校正处理中,首先使用大小为4×4平均池化层对特征M1进行下采样,得M11,如公式(2),再经过卷积核K1提取特征,并进行上采样得M12,将尺寸恢复到M1大小,如公式(3),上采样方式为双线性插值法;后与M1相加,使用Sigmoid激活函数映射计算出校正权重,并与卷积核K2提取特征后相乘进行校正,得M13,如公式(4),最后通过K3卷积操作得到该分支校正后的特征N1,如公式(5)。
M11=AvgPool(M1) (2)
M12=Upr2(F1(M11))=Upr2(M11*K1) (3)
M13=F2(M1)*σ(M1+M12)=M1*K2*σ(M1+M12) (4)
N1=F3(M13)=M13*K3 (5)
其中,Fi表示卷积核Ki的卷积操作,σ为sigmoid函数,Upr2为2倍上采样。
传统卷积感受野往往受到限制,忽略了上下文的语义信息,通过校正操作,使得特征图中每个位置能够考虑其周围的上下文信息,将其得到的上下文信息标量嵌入到原尺度空间。其不仅可以模拟通道之间的依赖性,有效的扩大自校正卷积层的感受野,还在一定程度上避免了不相关区域的信息干扰。
在特征提取过程中使用卷积操作虽能融合其感受野内的空间信息,但往往忽视了它们各通道之间存在的相关性,因此通过通道注意力机制来增强骨干网络的特征提取能力。而特征提取中的降维操作会无差别地丢失特征提取的重要信息,对通道注意力机制的预测有一定的负面影响,并且所需要的特征并非与图像的所有通道相关,所以没有必要建立特征与所有通道之间的联系,并且建立这种联系将耗费深度卷积神经网络更多的计算资源。因此通过一维卷积在实现局部通道信息交互的基础上可有效避免降维操作,降低深度卷积神经网络复杂度的同时让深度卷积神经网络保持良好的性能。
该高效通道注意力机制实现原理如图4所示,X为输入的原始图像信息,经过全局平均池化(global average pooling,GAP)得到未降维的信息,然后进行尺寸为k的一维卷积操作,在相邻通道的小部分范围内实现跨通道信息交互,而k的值与通道数C成正比,其计算公式如公式(6)所示,然后经过sigmoid函数得到各通道的权重值,在与原始输入信息相乘得到含有通道注意力的图像信息
Figure BDA0003603459840000064
如公式(7)。
Figure BDA0003603459840000061
Figure BDA0003603459840000062
其中,|t|odd表示距离t最近的奇数,C1Dk表示核数为k的一维卷积操作。
从骨干网络的每一层抽取四张不同尺度的特征图,采用特征金字塔网络(featurepyramid networks,FPN)的方式融合特征得到特征图F;接着使用协调注意力(coordinateattention,CA),对原特征图进行增强得到新特征图
Figure BDA0003603459840000063
来增强文本边界信息,以扩大文本与非文本区域的区别度。
通过FPN融合得到的特征图,文本区域边界定义不清晰,甚至存在一定的偏差,对文本检测的后处理产生影响,对于以上影响可以通过通道、位置注意力相结合的方式对特征图进行修正。因此本文采用协调注意力CA对FPN融合后的特征图进行处理,在训练的过程中不断调整各通道、各位置的权重值,从而得到更为准确、可靠的特征图。协调注意力CA结构如图5所示,对于给定输入X,使用大小为(h,1)、(1,w)池化层,分别沿着横轴和纵轴进行平均池化,对每个通道于这两方向上进行编码。在横轴上通道c的输出为
Figure BDA0003603459840000071
同理在纵轴上的输出为
Figure BDA0003603459840000072
如公式(8)(9)所示。接着连接这两特征映射,并使用1×1Conv进行操作以及非线性映射,得到特征图f,如公式(10);然后将特征图沿着空间维度拆分成两个张量gh,gw,如公式(11)(12),并与原输入相乘得到输出
Figure BDA0003603459840000073
如公式(13)。
Figure BDA0003603459840000074
Figure BDA0003603459840000075
f=δ(Conv1×1([zh,zw])) (10)
gh=σ(Conv1×1(fh)) (11)
gw=σ(Conv1×1(fw)) (12)
Figure BDA0003603459840000076
其中,i、j表示输入X中像素坐标,H、W表示输入X的高度和宽度,fh、fw表示特征图f沿两不同方向拆分后的特征图,[·,·]表示两个张量的拼接操作,Conv1×1表示1×1卷积,δ表示非线性映射,σ为sigmoid函数。
相比于全局通道注意,其得到的特征向量并不是使用二维全局池化将整个特征张量变进行转换,而是在水平方向和垂直方向上分别汇聚输入的特征,然后经过sigmoid激活函数分别编码成两个不同方向的一维注意力图。通过这种方式处理后,输出不仅具有长程依赖关系,还保存着准确的位置信息。因此,将得到的特征图转换成注意力图,与输入相乘,获得的额外信息可以弥补FPN融合过程产生的偏差。
请见图6,本实施例的渐进尺度扩展层,使用1×1Conv对增强后的
Figure BDA0003603459840000082
进行卷积操作得到不同尺度的文本实例核S1至Sn,采用渐进尺度扩展法对其进行后处理,从最小文本实例核S1逐渐扩展到最大文本实例核Sn,其扩展过程如图6所示(图中0表示Si中的像素,1表示Si+1中的像素,不同颜色表示不同的文本实例。),在扩展的过程中Si+1中某一位置属于Si中同一文本实例时,将该位置进行合并(即图中该位置的颜色变为Si中该文本实例的颜色),对于存在不能确定像素的归属情况(如图中的X),解决的原则是先到先得(如在算法中左下角的文本实例先扩展到冲突像素X,则该像素属于该文本实例)。
本实施例的深度卷积神经网络是训练好的深度卷积神经网络;训练深度卷积神经网络时使用的损失函数L由两部分构成:Lc和Ls,两者按一定的权重求和作为整个深度卷积神经网络的损失函数。Lc是用来衡量未缩放时预测和真实标注之间文本实例的匹配度,Ls则是用来衡量缩放后的匹配度;损失函数L的计算方法如公式(14)所示。
L=λLc+(1-λ)Ls (14)
其中,λ是Lc和Ls的权重系数,λ的值取为0.7。
本发明采用Dice系数损失函数表示Lc、Ls,Dice系数的计算如公式(15)所示。
Figure BDA0003603459840000081
其中,Si,x,y和Gi,x,y分别表示预测的最终结果Si和训练样本的真实标注Gi在图中位置(x,y)处的像素值。考虑到文本图像中难免会有类似文字笔画的背景信息,容易产生误检,降低检测准确率,为了更好区别文本和非文本区域,在训练深度卷积神经网络时借鉴了在线难例挖掘(online hard example mining,OHEM)训练方法,将正、负样本的比例设为1:3。
损失函数Lc的计算方法如公式(16)所示。
Lc=1-D2(Sn*M,Gn*M) (16)
其中,M表示在线难例挖掘到的训练掩码。
损失函数Ls的计算方法如公式(17)所示。
Figure BDA0003603459840000091
其中,W表示Sn中文本区域的掩码,Sn,x,y表示Sn中位置(x,y)处的像素值。
本发明将Dice系数进行了平方操作,使得损失函数的值相比于修改前增大了,加大了深度卷积神经网络对误检、漏检的惩罚力度,使得深度卷积神经网络预测结果更加接近真实标注,从而改善深度卷积神经网络性能。
本实施例的方法包括以下步骤:
步骤1:将获取的场景文本图像,进行随机亮度变换、随机旋转、缩放、裁剪等数据增强操作,得到640×640×3固定大小的图像信息;
步骤2:将预处理后的图像信息输入深度卷积神经网络中,提取图像特征F;
步骤3:采用协调注意力机制层将图像特征F进行增强处理;
步骤4:将增强后的特征图,采用渐进尺度扩展层进行后处理,获得文本检测结果。
本发明通过在ResNet50的骨干网络中引入校正卷积、通道注意力,于提取的特征图后引入协调注意力,有效地扩大了网络感受空间,避免了后续降维操作丢失更多的语义信息,降低了不同尺度的特征图自顶向下融合导致的特征图失真程度,使网络具有更准确的鉴别区域;通过设计平方Dice损失函数,加大了深度卷积神经网络预测错误的惩罚力度,从而提升深度卷积神经网络文本检测的准确性和精确性。
本发明对弯曲文本的检测效果较好,其水平达到了近两年使用了大量数据进行预训练的方法。在ICDAR2015、Total-Text、CTW1500数据集上,本文所提出的检测方法在综合指标F值上分别达到了81.6%、83.5%、83.4%。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (9)

1.一种基于深度卷积神经网络的场景文本检测方法,其特征在于:所述深度卷积神经网络,基于ResNet50网络结构,将ResNet50网络中将3×3Conv卷积替换成自校正卷积,然后于卷积层C2-C5后面嵌入通道注意力机制ECA层,在特征融合后加入协调注意力机制层;最后增加渐进尺度扩展层对图像进行后处理;
所述方法包括以下步骤:
步骤1:将获取的场景文本图像,进行数据增强操作,得到预定大小的图像信息;
步骤2:将预处理后的图像信息输入所述深度卷积神经网络中,提取图像特征F;
步骤3:采用协调注意力机制层将图像特征F进行增强处理;
步骤4:将增强后的特征图,采用渐进尺度扩展层进行后处理,获得文本检测结果。
2.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法,其特征在于:在将ResNet50网络中将3×3Conv卷积替换成自校正卷积后,于卷积层C2-C5后面嵌入通道注意力机制ECA层,之后从每个ECA层提取不同尺度的特征图
Figure FDA0003603459830000011
其大小分别为原输入图像的1/4、1/8、1/16、1/32;接着以特征金字塔网络FPN的方式自顶向下进行特征融合操作:使用1×1Conv对顶层特征图
Figure FDA0003603459830000012
卷积得到特征图P5;而P2、P3、P4由相同层级的
Figure FDA0003603459830000013
经过1×1Conv卷积操作后与上一层级的特征图P3、P4、P5经过2倍上采样相加融合得到;最后将P2、P3、P4、P5进行Concat操作得到融合后的特征图F;
P2、P3、P4计算公式为:
Pn=Conv1×1(C2)+Upr2(Pn+1) (1)
式中n取2,3,4,Conv1×1表示1×1卷积,Upr2表示用双向线性插值法实现的2倍上采样。
3.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法,其特征在于:所述自校正卷积,其卷积操作过程包括以下3个步骤:
(1)将输入大小为C×H×W的特征M,分成M1、M2,其大小均为C/2×H×W;其中,C、H、W分别表示特征M的通道数、高度和宽度;
(2)将大小为(C,C,3,3)的原卷积核K分成4个小卷积核K1、K2、K3、K4,其大小均为(C/2,C/2,3,3),用来收集不同类型的上下文信息;卷积核K1、K2、K3在分支1中对M1进行自校正操作,得到N1;卷积核K4于分支2中对原尺度特征M2进行卷积操作,以保留原始的空间背景信息,得到N2
(3)拼接原尺度空间输出特征N1、N2,得到与输入M大小一致特征N;
其中,在分支1的自校正处理中,首先使用大小为4×4平均池化层对特征M1进行下采样,得M11;再经过卷积核K1提取特征,并进行上采样得M12,将尺寸恢复到M1大小,上采样方式为双线性插值法;后与M1相加,使用Sigmoid激活函数映射计算出校正权重,并与卷积核K2提取特征后相乘进行校正,得M13;最后通过K3卷积操作得到该分支校正后的特征N1
M11=AvgPool(M1) (2)
M12=Upr2(F1(M11))=Upr2(M11*K1) (3)
M13=F2(M1)*σ(M1+M12)=M1*K2*σ(M1+M12) (4)
N1=F3(M13)=M13*K3 (5)
其中,Fi表示卷积核Ki的卷积操作,σ为sigmoid函数,Upr2为2倍上采样。
4.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法,其特征在于:所述高效通道注意力机制,对于输入的原始图像信息X,经过全局平均池化得到未降维的信息,接着进行尺寸为k的一维卷积操作,然后经过sigmoid函数得到各通道的权重值,在与原始输入信息相乘得到含有通道注意力的图像信息
Figure FDA0003603459830000021
Figure FDA0003603459830000031
Figure FDA0003603459830000032
其中,|t|odd表示距离t最近的奇数,C1Dk表示核数为k的一维卷积操作,C为通道数,σ为sigmoid函数。
5.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法,其特征在于:所述协调注意力机制层,对于给定输入X,使用大小为(h,1)、(1,w)池化层,分别沿着横轴和纵轴进行平均池化,对每个通道于这两方向上进行编码;在横轴上通道c的输出为
Figure FDA0003603459830000033
在纵轴上的输出为
Figure FDA0003603459830000034
接着连接这两特征映射,并使用1×1Conv进行操作以及非线性映射,得到特征图f;然后将特征图沿着空间维度拆分成两个张量gh,gw,并与原输入相乘得到输出
Figure FDA0003603459830000035
Figure FDA0003603459830000036
Figure FDA0003603459830000037
f=δ(Conv1×1([zh,zw])) (10)
gh=σ(Conv1×1(fh)) (11)
gw=σ(Conv1×1(fw)) (12)
Figure FDA0003603459830000038
其中,i、j表示输入X中像素坐标,H、W表示输入X的高度和宽度,fh、fw表示特征图f沿两不同方向拆分后的特征图,[·,·]表示两个张量的拼接操作,Conv1×1表示1×1卷积,δ表示非线性映射,σ为sigmoid函数。
6.根据权利要求1所述的基于深度卷积神经网络的场景文本检测方法,其特征在于:所述渐进尺度扩展层,使用1×1Conv对增强后的
Figure FDA0003603459830000039
进行卷积操作得到不同尺度的文本实例核S1至Sn,采用渐进尺度扩展法对其进行后处理,从最小文本实例核S1逐渐扩展到最大文本实例核Sn,在扩展的过程中Si+1中某一位置属于Si中同一文本实例时,将该位置进行合并,对于存在不能确定像素的归属情况,解决的原则是先到先得。
7.根据权利要求1-6任意一项所述的基于深度卷积神经网络的场景文本检测方法,其特征在于:所述深度卷积神经网络,是训练好的深度卷积神经网络;训练过程中采用的损失函数L由Lc和Ls两部分构成,-Lc是用来衡量未缩放时预测和真实标注之间文本实例的匹配度,Ls则是用来衡量缩放后的匹配度;
L=λLc+(1-λ)Ls (14)
其中,λ是Lc的权重系数;
损失函数Lc为:
Lc=1-D2(Sn*M,Gn*M) (15)
Figure FDA0003603459830000041
其中,Si,x,y和Gi,x,y分别表示预测的最终结果Si和训练样本的真实标注Gi在图中位置(x,y)处的像素值;M表示在线难例挖掘到的训练掩码;
损失函数Ls为:
Figure FDA0003603459830000042
其中,W表示Sn中文本区域的掩码,Sn,x,y表示Sn中位置(x,y)处的像素值。
8.一种基于深度卷积神经网络的场景文本检测系统,其特征在于:所述深度卷积神经网络,基于ResNet50网络结构,将ResNet50网络中将3×3Conv卷积替换成自校正卷积,然后于卷积层C2-C5后面嵌入通道注意力机制ECA层,在ResNet50网络的每一层后引入高效通道注意力机制;在特征融合后加入协调注意力机制层;最后增加渐进尺度扩展层对图像进行后处理;
所述系统包括以下模块:
模块1,用于将获取的场景文本图像,进行数据增强操作,得到预定大小的图像信息;
模块2,用于将预处理后的图像信息输入所述深度卷积神经网络中,提取图像特征F;
模块3,用于采用协调注意力机制层将图像特征F进行增强处理;
模块4,用于将增强后的特征图,采用渐进尺度扩展层进行后处理,获得文本检测结果。
9.一种基于深度卷积神经网络的场景文本检测设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的基于深度卷积神经网络的场景文本检测方法。
CN202210410471.4A 2022-04-19 2022-04-19 基于深度卷积神经网络的场景文本检测方法、系统及设备 Pending CN114724155A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210410471.4A CN114724155A (zh) 2022-04-19 2022-04-19 基于深度卷积神经网络的场景文本检测方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210410471.4A CN114724155A (zh) 2022-04-19 2022-04-19 基于深度卷积神经网络的场景文本检测方法、系统及设备

Publications (1)

Publication Number Publication Date
CN114724155A true CN114724155A (zh) 2022-07-08

Family

ID=82244088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210410471.4A Pending CN114724155A (zh) 2022-04-19 2022-04-19 基于深度卷积神经网络的场景文本检测方法、系统及设备

Country Status (1)

Country Link
CN (1) CN114724155A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409743A (zh) * 2022-11-03 2022-11-29 长春理工大学 基于深度学习用于脑部磁共振图像处理的模型构建方法
CN115546778A (zh) * 2022-10-22 2022-12-30 清华大学 一种基于多任务学习的场景文本检测方法及系统
CN115723280A (zh) * 2022-12-07 2023-03-03 河北科技大学 厚度可调节的聚酰亚胺薄膜的生产设备
CN116229194A (zh) * 2023-05-09 2023-06-06 江西云眼视界科技股份有限公司 一种显著性目标检测方法、系统、计算机及可读存储介质
CN116704476A (zh) * 2023-06-12 2023-09-05 郑州轻工业大学 一种基于改进Yolov4-tiny算法的交通标志检测方法
CN117809294A (zh) * 2023-12-29 2024-04-02 天津大学 一种基于特征校正和差异指导注意力的文本检测方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546778A (zh) * 2022-10-22 2022-12-30 清华大学 一种基于多任务学习的场景文本检测方法及系统
CN115546778B (zh) * 2022-10-22 2023-06-13 清华大学 一种基于多任务学习的场景文本检测方法及系统
CN115409743A (zh) * 2022-11-03 2022-11-29 长春理工大学 基于深度学习用于脑部磁共振图像处理的模型构建方法
CN115409743B (zh) * 2022-11-03 2023-03-24 长春理工大学 基于深度学习用于脑部磁共振图像处理的模型构建方法
CN115723280A (zh) * 2022-12-07 2023-03-03 河北科技大学 厚度可调节的聚酰亚胺薄膜的生产设备
CN115723280B (zh) * 2022-12-07 2023-05-23 河北科技大学 厚度可调节的聚酰亚胺薄膜的生产设备
CN116229194A (zh) * 2023-05-09 2023-06-06 江西云眼视界科技股份有限公司 一种显著性目标检测方法、系统、计算机及可读存储介质
CN116704476A (zh) * 2023-06-12 2023-09-05 郑州轻工业大学 一种基于改进Yolov4-tiny算法的交通标志检测方法
CN116704476B (zh) * 2023-06-12 2024-06-04 郑州轻工业大学 一种基于改进Yolov4-tiny算法的交通标志检测方法
CN117809294A (zh) * 2023-12-29 2024-04-02 天津大学 一种基于特征校正和差异指导注意力的文本检测方法

Similar Documents

Publication Publication Date Title
CN111210435B (zh) 一种基于局部和全局特征增强模块的图像语义分割方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及系统
CN112966684A (zh) 一种注意力机制下的协同学习文字识别方法
CN112560831B (zh) 一种基于多尺度空间校正的行人属性识别方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN115082675B (zh) 一种透明物体图像分割方法及系统
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN114241274A (zh) 一种基于超分辨率多尺度特征融合的小目标检测方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质
CN115238758A (zh) 一种基于点云特征增强的多任务三维目标检测方法
Yu et al. WaterHRNet: A multibranch hierarchical attentive network for water body extraction with remote sensing images
CN114445620A (zh) 一种改进Mask R-CNN的目标分割方法
Chen et al. Slice-to-slice context transfer and uncertain region calibration network for shadow detection in remote sensing imagery
CN117727046A (zh) 新型山洪前端仪器仪表读数自动识别方法及系统
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN115410089A (zh) 自适应局部上下文嵌入的光学遥感小尺度目标检测方法
Chiu et al. Real-time monocular depth estimation with extremely light-weight neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination