CN115578721A - 一种基于注意力特征融合的街景文本实时检测方法 - Google Patents

一种基于注意力特征融合的街景文本实时检测方法 Download PDF

Info

Publication number
CN115578721A
CN115578721A CN202211158425.6A CN202211158425A CN115578721A CN 115578721 A CN115578721 A CN 115578721A CN 202211158425 A CN202211158425 A CN 202211158425A CN 115578721 A CN115578721 A CN 115578721A
Authority
CN
China
Prior art keywords
feature
feature map
attention
conv
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211158425.6A
Other languages
English (en)
Inventor
高楠
张雷
李宇凯
陈朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202211158425.6A priority Critical patent/CN115578721A/zh
Publication of CN115578721A publication Critical patent/CN115578721A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于注意力特征融合的街景文本实时检测方法,包含以下步骤:获取含有文字的待检测图像;通过特征提取网络对待检测图像进行特征提取得到多尺度特征图,且在顶层特征图上使用空洞金字塔注意力特征增强模块进行信息增强;采用全局注意力上采样方式进行多尺度特征融合;输出网络预测结果,使用后处理方法进行文本重建,得到最终的文本实例。本方法相比于现有的街景实时文本检测方法,在实时性与精确上有一定的提升。

Description

一种基于注意力特征融合的街景文本实时检测方法
技术领域:
本发明涉及一种基于注意力特征融合的街景文本实时检测方法,属于计算机视觉处理技术领域。
技术背景:
街景文本检测,旨在对图像中的文本区域进行定位,通常使用矩形框或多边形框标示出图像中文本所在区域。基于自然场景下的文本检测,需要克服背景干扰、文字宽高比多变、文字方向多变和小文本对文本检测带来的检测复杂性,目前是计算机视觉领域最具挑战的课题之一。
目前,基于深度学习的街景文本检测方法包括二种:基于边框回归的方法、基于图像分割的方法。
(1)基于边框回归的方法。是将文本作为对象直接预测候选边界框,结构简单,可以成功定位具有一定方向的矩形或四边形的文本目标。通常是受目标检测的启发,如Faster R-CNN、SSD、yolo等。但是大多数需要复杂的候选框设计和多阶段的复杂处理,并且大多数方法只能检测水平方向的文本,检测精度也有待提升。
(2)基于分割的文本检测方法。将街景文本的检测定位问题,转化为街景文本与背景的语义分割问题,通常是将像素级预测和后处理算法相结合来得到边界框。该类方法通常基于全卷积网络FCN,首先利用语义分割算法分割街景图片的前景(文本区域)和背景,然后通过精细分割算法或者神经网络对文本区域进一步分割以区分不同文本实例,最终输出文本实例位置和相关属性。但是该方法在文本和非文本内容距离较近时,仅仅使用文本和非文本的二分类语义分割难以区分,复杂的后处理过程是不可避免,因此该类方法较为耗时。
发明内容:
本发明要克服现有的网络存在运行速度慢、模型庞大、文本漏检、错检等问题,提出一种基于注意力特征融合的街景文本实时检测方法,可以更好的检测出文本信息,同时在速度上有一定提升。
一种基于注意力特征融合的街景文本实时检测方法,包括以下步骤:
步骤1:对数据集图片进行预处理,得到输入图像;
步骤2:对输入图像使用主干网络进行特征提取,得到多尺度特征图;具体地,可采用Resnet18、MobileNet等轻量级网络作为骨架网络,提取图像不同深度的特征图,多尺度特征图包括:大小为160×160×64的第一特征图C1、大小为80×80×128的第二特征图C2、大小为40×40×256的第三特征图C3和大小为20×20×512的第四特征图C4,所述第四特征图即为所述顶层特征图。
步骤3:对所述顶层的特征图通过DK-AF(空洞金字塔注意力特征增强模块),生成全新的顶层特征图,所述全新的顶层特征图作为深层特征图参与后续的特征融合;
所述空洞金字塔注意力特征增强模块,它由两个分支组成:空洞卷积金字塔网络分支、通道注意力分支。所述空洞卷积金字塔分支包括四个3×3的空洞卷积层和一个全局池化层,所述空洞卷积层从左至右的空洞卷积率分别为1、3、5、7;所述通道注意力分支包括全局池化层、1×1卷积层、sigmoid层;
具体地,可以包括以下步骤:
首先,将所述顶层特征图C4送入到所述空洞卷积金字塔分支,特征图C4分别经过四个3×3的空洞卷积层和一个全局池化层操作,将其得到的特征图进行相加得到最终的特征图Fc
之后,将所述顶层特征图F4送入到所述通道注意力分支,通过全局池化、1×1卷积、sigmoid激活等操作得到权重特征Fh
最后,将Fc和Fh相乘,得到与所述特征层比例不变的上下文增强特征图,在与所述顶层特征图C4进行求和,得到所述全新的顶层特征图C4。
步骤4:将不同尺度的特征,使用GAU(全局注意力上采样)方式自下而上进行特征融合;具体地,将特征C4、C3、C2、C1,采用全局注意力上采样方式自下而上进行融合;
P1=conv_3(C1)*(conv_1(avg(C2)))+deconv(C2) (1)
P2=conv_3(C2)*(conv_1(avg(C3)))+deconv(C3) (2)
P3=conv_3(C3)*(conv_1(avg(C4)))+deconv(C4) (3)
P4=C4 (4)
其中,conv_3(·)表示3*3卷积运算,conv_1(·)表示1*1卷积运算降低通道维度,avg(·)表示全局平均池化,deconv(·)表示反卷积上采样。
步骤5:融合不同尺度的特征图,将其输入到PANet检测头中进行预测;具体地,对步骤4中得到的P4、P3、P2、P1这四个不同尺度的特征进行合并,得到特征F,其计算公式为:
F=conv(cat(P1,up2(P2),up4(P3),up8(P4))) (5)
其中,conv(·)表示卷积运算,cat(·)表示特征图合并,up2(·)表示两倍上采样操作,up4(·)表示四倍上采样操作。up8(·)表示八倍上采样操作。
PANet输出网络为6个通道:一个通道是预测该像素是否为text_region;一个通道是预测该像素是否为kernel,其余四通道预测该像素与其周围的4个像素的similarityvectors(相似度向量);
步骤6:根据PANet预测输出结果,利用像素聚合算法(PA,Pixel Aggregation),对每一个kernel进行处理,得到完整的文本实例。
本发明方法对比现有技术,具有如下优点:
1、提出了DK-AF对高层特征进行增强,弥补了因为轻量级网络感受野小特征不足的问题,丰富了骨干网络的特征表达。
2、采用GAU对多尺度特征进行融合,通过全局信息建模,建立上下文联系。
3、本方法相比于现有的一些文本检测方法,在实时性与精度之间实现了更好的平衡,可以更好的提取自然场景图像中的文本位置。
附图说明
图1为本发明的总体流程图。
图2为本发明的网络模型的整体结构。
图3为本发明提出的DK-AF(空洞金字塔注意力特征增强)模块的结构图。
图4为本发明使用的GAU(全局注意力上采样)模块的结构图。
图5为本发明的效果图。
具体实施方式
下面结合附图和实施例,对本发明方法做进一步详细说明。
实施例
如图1所示,一种基于注意力特征融合的街景文本实时检测方法,包括以下步骤:
步骤1:输入图片,对图片进行预处理,得到特征提取网络输入大小640*640;
步骤2:对输入图片使用主干网络特征提取,得到多尺度特征图;具体地,可采用Resnet18、MobileNet等轻量级网络作为骨架网络,提取图像不同深度的特征图,多尺度特征图包括:大小为160×160×64的第一特征图C1、大小为80×80×128的第二特征图C2、大小为40×40×256的第三特征图C3和大小为20×20×512的第四特征图C4,所述第四特征图即为所述顶层特征图。
步骤3:对所述顶层的特征图通过DK-AF(空洞金字塔注意力特征增强模块),生成全新的顶层特征图,所述全新的顶层特征图作为深层特征图参与后续的特征融合;具体地,可以包括以下步骤:
首先,将所述顶层特征图C4送入到所述空洞卷积金字塔分支,特征图C4分别经过四个3×3的空洞卷积层和一个全局池化层操作,将其得到的特征图进行相加得到最终的特征图Fc
之后,将所述顶层特征图F4送入到所述通道注意力分支,通过全局池化、1×1卷积、sigmoid激活等操作得到权重特征Fh
最后,将Fc和Fh相乘,得到与所述特征层比例不变的上下文增强特征图,在与所述顶层特征图C4进行求和,得到所述全新的顶层特征图C4。
步骤4:将不同尺度的特征,使用全局注意力上采样方式自下而上进行特征融合;
具体地,将特征C4、C3、C2、C1,采用GAU(全局注意力上采样)方式自下而上进行融合;
P1=conv_3(C1)*(conv_1(avg(C2)))+deconv(C2) (6)
P2=conv_3(C2)*(conv_1(avg(C3)))+deconv(C3) (7)
P3=conv_3(C3)*(conv_1(avg(C4)))+deconv(C4) (8)
P4=C4 (9)
其中,conv_3(·)表示3*3卷积运算,conv_1(·)表示1*1卷积运算降低通道维度,avg(·)表示全局平均池化,deconv(·)表示反卷积上采样。
步骤5:融合不同尺度的特征图,将其输入到PANet检测头中进行预测;
具体地,对步骤4中得到的P4、P3、P2、P1这四个不同尺度的特征进行合并,得到特征F,其计算公式为:
F=conv(cat(P1,up2(P2),up4(P3),up8(P4))) (10)
其中,conv(·)表示卷积运算,cat(·)表示特征图合并,up2(·)表示两倍上采样操作,up4(·)表示四倍上采样操作。up8(·)表示八倍上采样操作。
PANet输出网络为6个通道:一个通道是预测该像素是否为text_region;一个通道是预测该像素是否为kernel,其余四通道预测该像素与其周围的4个像素的similarityvectors(相似度向量);
步骤6:根据PANet预测输出结果,利用像素聚合算法(PA,Pixel Aggregation),对每一个kernel进行处理,得到完整的文本实例。
验证例,使用ICDAR2015、CTW1500、Total-Text等场景文本检测数据集。
本实例首先将图片进行水平翻转,然后在(-10°,10°)之间随机挑选一个角度对图像进行旋转,接着在(0.5,3)内随机选取一个比例对图像进行缩放,最后在缩放后的图片上使用640*640的大小的窗口进行随机裁剪。测试时,为了使测试时的数据分布与训练时的数据分布尽可能地接近,在数据集保证图像比例不变的前提下将短边缩放到640个像素点。
在实现上,所有的实验均使用Pytorch深度学习框架完成,训练周期设置为300,每次迭代的批量大小设置为8,在2块1080ti上采用分布式训练完成。IoU阈值设置为0.6,在训练方式上,采用Adam(Adaptive Moment Estimation)优化器对参数进行学习,其中初始学习率设置为0.001,betas分别设置为0.9与0.999,eps设置为1e-8,weight_decay设置为0。学习率按照
Figure BDA0003858363500000071
进行衰减,pow设置为0.9,其中cur表示当前迭代的次数,max表示迭代总次数。

Claims (5)

1.一种基于注意力特征融合的街景文本实时检测方法,其特征在于,包括以下步骤;
步骤1:对数据集图片进行预处理,得到输入图像;
步骤2:对输入图像使用主干网络进行特征提取,得到多尺度特征图;其中,多尺度特征图包括:大小为160×160×64的第一特征图C1、大小为80×80×128的第二特征图C2、大小为40×40×256的第三特征图C3和大小为20×20×512的第四特征图C4,所述第四特征图作为所述顶层特征图。
步骤3:对所述顶层特征图通过DK-AF模块(空洞金字塔注意力特征增强模块)生成全新的顶层特征图,所述全新的顶层特征图作为深层特征图参与后续的特征融合;
步骤4:将不同尺度的特征,使用GAU(全局注意力上采样)方式自下而上进行特征融合;
步骤5:融合不同尺度的特征图后,将其输入到PANet检测头中进行预测;
PAN输出网络为6个通道:一个通道是预测该像素是否为text_region;一个通道是预测该像素是否为kernel,其余四通道预测该像素与其周围的4个像素的similarity vectors(相似度向量);
步骤6:根据PANet预测输出结果,利用像素聚合算法(PA,Pixel Aggregation),对每一个kernel进行处理,重建完整的文本实例。
2.根据权利要求1所述的一种基于注意力特征融合的街景文本实时检测方法,其特征在于,所述步骤3中,所述空洞金字塔注意力特征增强模块,它由两个分支组成:空洞卷积金字塔网络分支、通道注意力分支。所述空洞卷积金字塔分支包括四个3×3的空洞卷积层和一个全局池化层,所述空洞卷积层从左至右的空洞卷积率分别为1、3、5、7;所述通道注意力分支包括全局池化层、1×1卷积层、sigmoid层;具体包括:
首先,将所述顶层特征图C4送入到所述空洞卷积金字塔分支,特征图C4分别经过四个3×3的空洞卷积层和一个全局池化层操作,将其得到的特征图进行相加得到最终的特征图Fc
之后,将所述顶层特征图F4送入到所述通道注意力分支,通过全局池化、1×1卷积、sigmoid激活等操作得到权重特征Fh
最后,将Fc和Fh相乘,得到与所述特征层比例不变的上下文增强特征图,在与所述顶层特征图C4进行求和,得到所述全新的顶层特征图C4。
3.根据权利要求2所述的一种基于注意力特征融合的街景文本实时检测方法,其特征在于,所述步骤3包括以下子步骤:
步骤3.1:将所述顶层特征图C4送入到所述空洞卷积金字塔分支,特征图C4分别经过四个3×3的空洞卷积层和一个全局池化层操作,将其得到的特征图进行相加得到最终的特征图Fc
步骤3.2:将所述顶层特征图F4送入到所述通道注意力分支,通过全局池化、1×1卷积、sigmoid激活等操作得到权重特征Fh
步骤3.3:根据步骤3.1和3.2,将Fc和Fh相乘,得到与所述特征层比例不变的上下文增强特征图,在与所述顶层特征图C4进行求和,得到所述全新的顶层特征图C4。
4.对于根据权利要求1所述的一种基于注意力特征融合的街景文本实时检测方法,其特征在于,所述步骤4实现方式如下:
将特征C4、C3、C2、C1,采用全局注意力上采样方式自下而上进行融合;
P1=conv_3(C1)*(conv_1(avg(C2)))+deconv(C2) (1)
P2=conv_3(C2)*(conv_1(avg(C3)))+deconv(C3) (2)
P3=conv_3(C3)*(conv_1(avg(C4)))+deconv(C4) (3)
P4=C4 (4)
其中,conv_3(·)表示3*3卷积运算,conv_1(·)表示1*1卷积运算降低通道维度,avg(·)表示全局平均池化,deconv(·)表示反卷积上采样。
5.对于根据权利要求1所述的一种基于注意力特征融合的街景文本实时检测方法,其特征在于,所述步骤5融合不同尺度的特征图,实现方式如下:对步骤4中得到的P4、P3、P2、P1这四个不同尺度的特征进行合并,得到特征F,其计算公式为:
F=conv(cat(P1,up2(P2),up4(P3),up8(P4))) (5)
其中,conv(·)表示卷积运算,cat(·)表示特征图合并,up2(·)表示两倍上采样操作,up4(·)表示四倍上采样操作。up8(·)表示八倍上采样操作。
CN202211158425.6A 2022-09-22 2022-09-22 一种基于注意力特征融合的街景文本实时检测方法 Pending CN115578721A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211158425.6A CN115578721A (zh) 2022-09-22 2022-09-22 一种基于注意力特征融合的街景文本实时检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211158425.6A CN115578721A (zh) 2022-09-22 2022-09-22 一种基于注意力特征融合的街景文本实时检测方法

Publications (1)

Publication Number Publication Date
CN115578721A true CN115578721A (zh) 2023-01-06

Family

ID=84580890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211158425.6A Pending CN115578721A (zh) 2022-09-22 2022-09-22 一种基于注意力特征融合的街景文本实时检测方法

Country Status (1)

Country Link
CN (1) CN115578721A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117789153A (zh) * 2024-02-26 2024-03-29 浙江驿公里智能科技有限公司 基于计算机视觉的汽车油箱外盖定位系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117789153A (zh) * 2024-02-26 2024-03-29 浙江驿公里智能科技有限公司 基于计算机视觉的汽车油箱外盖定位系统及方法
CN117789153B (zh) * 2024-02-26 2024-05-03 浙江驿公里智能科技有限公司 基于计算机视觉的汽车油箱外盖定位系统及方法

Similar Documents

Publication Publication Date Title
US11176381B2 (en) Video object segmentation by reference-guided mask propagation
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
Zhang et al. A late fusion cnn for digital matting
Ding et al. DiResNet: Direction-aware residual network for road extraction in VHR remote sensing images
CN109902748A (zh) 一种基于多层信息融合全卷积神经网络的图像语义分割方法
CN111369565B (zh) 一种基于图卷积网络的数字病理图像的分割与分类方法
CN108492248A (zh) 基于深度学习的深度图超分辨率方法
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN111612008A (zh) 基于卷积网络的图像分割方法
CN112132156A (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN111914698B (zh) 图像中人体的分割方法、分割系统、电子设备及存储介质
CN112767418B (zh) 基于深度感知的镜子图像分割方法
CN112233129B (zh) 基于深度学习的并行多尺度注意力机制语义分割方法及装置
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN107506792A (zh) 一种半监督的显著对象检测方法
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
Yang et al. Directional connectivity-based segmentation of medical images
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN115578721A (zh) 一种基于注意力特征融合的街景文本实时检测方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
CN113139544A (zh) 一种基于多尺度特征动态融合的显著性目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination