CN115131778A - 一种基于深度学习的场景文本检测方法 - Google Patents

一种基于深度学习的场景文本检测方法 Download PDF

Info

Publication number
CN115131778A
CN115131778A CN202210671550.0A CN202210671550A CN115131778A CN 115131778 A CN115131778 A CN 115131778A CN 202210671550 A CN202210671550 A CN 202210671550A CN 115131778 A CN115131778 A CN 115131778A
Authority
CN
China
Prior art keywords
feature
map
module
size
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210671550.0A
Other languages
English (en)
Inventor
张立和
高文浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210671550.0A priority Critical patent/CN115131778A/zh
Publication of CN115131778A publication Critical patent/CN115131778A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于人工智能技术领域,提出了一种基于深度学习的场景文本检测方法。本发明首先构建了基础特征提取网络模块,然后构建了双权重引导的流对齐模块,将之与特征金字塔网络模块相结合,处理了文本检测中的多尺度变化问题;然后用双路分对称残差模块进行边缘特征强化,从而得到分割结果;最后由分割图生成文本框。本发明实现了快速轻量级的文本检测模型,不仅能够检测复杂场景下任意形状的文本目标,而且检测结果精准,检测的速度也有一定保障;具有极强的应用价值。

Description

一种基于深度学习的场景文本检测方法
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于深度学习的场景文本检测方法。
背景技术
近年来,深度学习技术不断发展,在文字检测领域的应用也越来越广泛,例如自动驾驶、场景理解和产品标识等。文本检测算法的核心任务是区分文本实例与背景区域。自然场景中的文字通常存在着很大的差异,比如在图片中可能会存在文字的大小、字体以及文字颜色的差异。这类图像中的文字比传统电子文档中的文字更为复杂,运用传统的文字检测方法进行检测准确率就比较低。目前由于深度学习技术的大量应用,很多学者就把眼光放在了对场景文本图像的检测上面。目前主要有两种基于深度学习的场景文本检测方法,一种是基于回归的文本检测方法,另一种是基于分割的文本检测方法。
“Faster R-CNN:Towards real-time object detection with region proposalnetworks”和“Ssd:Single shot multibox detector”中提及的基于回归的文本检测方法,其目的是对要检测的文本目标定位坐标进行回归。该方法将文本行视为一种检测目标,利用目标检测网络直接检测出文本行的坐标。基于回归的方法可以根据是否预设anchor分为间接回归与直接回归方法。基于回归的方法不能很好地处理倾斜文本和长文本。“TextSnake:A flexible representation for detecting text of arbitrary shapes”和“Textfield:Learning a deep direction field for irregular scene textdetection”中提出的基于分割的检测方法,其通过网络检测得到文本区域分割图,然后采用后处理得到文本框。由于目前文本数据集通常采用文本行形式标注,采用分割检测方法将导致训练时字符间的无关像素也被标注为字符,导致分割结果中出现相邻文本行粘连。因此,基于分割方法优点是其分割结果包含了文本的方向、位置、长度等信息,不需要额外考虑长文本、变形文本的特性,但其分割初始结果容易粘连。
发明内容
本发明要解决的技术问题是:弥补当前场景文本检测精度方面的不足,提出一种基于深度学习的场景文本检测方法,达到高精度高检测速率的目的。
本发明的技术方案:
一种基于深度学习的场景文本检测方法,包括步骤如下:
步骤1、构建特征提取网络;
特征提取网络包括基础特征提取网络模块、双权重引导的流对齐模块和特征金字塔网络模块;
基础特征提取网络模块以ResNet或MobileNet网络结构作为骨干,图像输入至不同网络层,分别提取图像尺寸的1/4、1/8、1/16、1/32输出特征,不同网络层对应的通道数依次为64、128、256、512;
双权重引导的流对齐模块输入分为Flow和Fhigh两部分,Flow表示当前基础特征提取网络层的输出特征,Fhigh表示上一级双权重引导的流对齐模块的输出特征;首先对Fhigh进行上采样,利用双线性插值,得到与Flow相同尺寸的特征图;将两个特征图进行通道级联,经过一次3×3卷积后,得到语义流场;同时对通道级联后的特征图依次进行3×3卷积、Relu激活函数和1×1卷积得到空间权重图;将得到的语义流场与Fhigh通过光流映射操作,该操作可以很好地解决使用双线性插值进行上采样时出现的对不齐问题,将对齐好的特征图再与空间权重图相乘,得到富含空间语义信息的高分辨率特征图;同时将Fhigh通过双权重引导的流对齐模块中的通道注意力机制模块后得到的通道权重图与Flow相乘,得到富含通道信息的高分辨率特征图;将富含空间语义信息的高分辨率特征图、富含通道信息的高分辨率特征图以及初始的Flow三者相加得到的特征图作为双权重引导的流对齐模块的输出;
将双权重引导的流对齐模块进行三次复用,特征金字塔网络模块用于融合双权重引导的流对齐模块的输出;首先,将基础特征提取网络模块输出的1/32尺寸特征图C5使用空洞空间卷积池化金字塔网络(ASPP)进行特征扩展得到1/32尺寸的特征图P5,将基础特征提取网络模块输出的1/16尺寸特征图C4与1/32尺寸的特征图P5输入至双权重引导的流对齐模块;然后将双权重引导的流对齐模块的输出特征与基础特征提取网络模块输出的1/16尺寸特征图C4相加得到1/16尺寸的特征图P4;重复上述步骤得到尺寸为1/8的特征图P3和尺寸为1/4的特征图P2;最后将1/32尺寸的特征图P5、1/16尺寸的特征图P4、1/8的特征图P3上采样至与尺寸为1/4的特征图P2相同的尺寸,再通过通道级联,最后得到原图尺寸1/4,通道数为256的特征图F1;
步骤2、将特征图F1输入到双路非对称残差模块进行边缘强化,得到特征图F2;边缘特征的强化离不开局部特征,局部上下文特征,全局上下文特征。
双路非对称残差模块包括特征金字塔卷积层、非对称卷积层和逐点卷积层;特征图F1输入至特征金字塔卷积层进行特征提取后,通道数减半输送至两个不同分路;两不同分路分别采用带膨胀率的3×1和1×3的深度卷积、卷积核为1×3和3×1的深度卷积,用于缓解分类和定位的矛盾以及促进信息间的聚合,在不降低特征图分辨率的前提下增大了感受域,从而捕获更多信息;两分路末端均通过卷积核为1×1的逐点卷积层恢复通道数量;两分路输出的特征图相加之后通过通道混洗以促进信息间的交流,最后与该模块的输入特征图相加以促进信息间的融合,获得特征图F2;
步骤3、由特征图F2预测得到概率图P和阈值图T;通过概率图P和阈值图T计算得到近似二值图B,计算公式如下:
Figure BDA0003694822990000041
其中:Bi,j为生成的近似二值图;Pi,j是概率图,Ti,j是阈值图;k为放大倍数;实验取值为50。
步骤4、生成文本框
首先设定一个固定阈值,将概率图转换为近似二值图;近似二值图由像素值为0和1的点组成,其中像素值为1的点属于文本区域,反之属于非文本区域;然后对近似二值图计算轮廓,遍历每个轮廓,去除小于所设定的文本框最小长度预测;对每个轮廓计算包围矩形,然后计算该矩形的预测分数,对矩形进行反向收缩操作,得到真实矩形大小;最后还原到原图尺寸。
本方法基于Pytorch框架实现,在实验时采用两块GPU显卡(Nvidia 1080Ti)进行训练和测试。采用随机梯度下降算法进行优化,训练批大小为16,初始学习率设为0.001,迭代训练2000epoch。采用的数据增强方法有:随机角度旋转、随机区域裁剪、随机翻转、所有的图片尺寸都调整到640×640。
本发明的有益效果:本发明充分利用了语义分割算法在前景区域和背景区域之间的强区分能力,通过双权重引导的流对齐模块与特征金字塔网络模块结合进行多尺度特征提取,提高了图像中多尺寸文本的检测能力。通过双路非对称残差模块进行边缘强化,使得预测到的概率图和阈值图更加准确,进而提高了整个文本检测算法的精度,具有极强的应用价值。
附图说明
图1为整个网络结构图,流对齐为双权重引导的流对齐模块;
图2为双权重引导的流对齐模块,⊙表示逐像素相乘;
图3为双路非对称残差模块。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
一种基于深度学习的场景文本检测方法,步骤如下:
(1)构建基础特征提取网络模块
基础特征提取网络采用ResNet18网络结构作为骨干,输入为3通道RGB图像,如图1所示,C2、C3、C4、C5分别代表ResNet18中的第4、6、9、13层特征,依次为输入图像尺寸的1/4、1/8、1/16、1/32,且对应的通道数依次为64、128、256、512。
(2)构建双权重引导的流对齐模块
如图2所示,该模块的输入为Flow和Fhigh两部分,Flow表示特征提前网络当前层的输出特征,Fhigh表示上一级流对齐模块的输出特征。首先对Fhigh进行上采样,利用双线性插值,得到与Flow相同尺寸的特征图,然后将两个特征图进行通道级联,再经过一次3×3卷积,预测出语义流场;同时对通道级联后的特征图依次进行3×3卷积,Relu函数激活,1×1卷积得到空间权重图;将得到的语义流场与Fhigh经过光流映射操作,再与空间权重图相乘,得到富含空间语义信息的高分辨率特征图;同时将Fhigh通过通道注意力机制模块(CAM)后得到的通道权重图与Flow相乘,得到富含通道信息的高分辨率特征图;将富含空间语义信息的高分辨率特征图、富含通道信息的高分辨率特征图以及初始的Flow三者相加得到的特征图作为双权重引导的流对齐模块的输出;
(3)构建特征金字塔网络模块
特征金字塔网络模块能够对双权重引导的流对齐模块的输出进行融合。如图1所示,特征金字塔网路中将双权重引导的流对齐模块进行了3次复用。首先,将基础特征提取网络模块输出的1/32尺寸特征图C5使用空洞空间卷积池化金字塔网络(ASPP)进行特征扩展,得到1/32尺寸特征图P5,将基础特征提取网络模块输出的1/16尺寸特征图C4与P5作为双权重引导的流对齐模块的输入,然后将双权重引导的流对齐模块输出与C4相加得到1/16尺寸的特征图P4;重复上述步骤得到尺寸为1/8的特征图P3和尺寸为1/4的特征图P2。最后将P5、P4、P3分别上采样至与P2相同的尺寸,再经过通道级联,最后得到原图尺寸1/4,通道数为256的特征图。
(4)构建双路非对称残差模块
构建非对称残差模块对通道级联后的特征图进行特征增强,起到边缘强化的作用。边缘特征的强化离不开局部特征,局部上下文特征,全局上下文特征。如图3所示,双路非对称残差模块开始使用特征金字塔卷积层对输入特征图进行特征提取,然后将其通道数减半送到两个不同的分路。上下两条分路能够有效缓解分类和定位的矛盾,同时非对称卷积能有效促进信息间的聚合。下分路采用卷积核为1×3和3×1的深度卷积,上分路采用带膨胀率的3×1和1×3的深度卷积,在不降低特征图分辨率的前提下增大了感受域,从而捕获更多信息。在两分路末端用卷积核为1×1的逐点卷积来恢复通道数量,两分路的特征图相加后用通道混洗以促进信息间的交流,最后与该模块的输入特征图相加以促进信息融合,形成一个残差结构。
(5)得到近似二值图
利用双路非对称残差模块得到的特征图预测得到概率图P和阈值图T,通过可微分二值化得到近似二值图,计算公式如下:
Figure BDA0003694822990000071
其中:
Bi,j为生成的近似二值图;
Pi,j是概率图,Ti,j是阈值图;
k为放大倍数,实验取值为50。
(6)生成文本框
首先设定一个固定阈值0.3,通过该固定阈值将概率图转换为近似二值图,近似二值图由像素值为0和1的点组成,其中像素值为1的点属于文本区域,反之属于非文本区域;然后对近似二值图计算轮廓,遍历每个轮廓,去除太小的预测,即初始设置一个文本框最小长度,若预测到的长度小于该长度,则直接舍去;对每个轮廓计算包围矩形,然后计算该矩形的预测分数,对矩形进行反向收缩操作,得到真实矩形大小;最后还原到原图尺寸。
(7)训练方法
本方法基于Pytorch框架实现,在实验时采用两块GPU显卡(Nvidia 1080Ti)进行训练和测试。采用随机梯度下降算法进行优化,训练批大小为16,初始学习率设为0.001,迭代训练2000epoch。采用的数据增强方法有:随机角度旋转、随机区域裁剪、随机翻转、所有的图片尺寸都调整到640×640。

Claims (1)

1.一种基于深度学习的场景文本检测方法,其特征在于,包括步骤如下:
步骤1、构建特征提取网络;
特征提取网络包括基础特征提取网络模块、双权重引导的流对齐模块和特征金字塔网络模块;
基础特征提取网络模块以ResNet或MobileNet网络结构作为骨干,图像输入至不同网络层,分别提取图像尺寸的1/4、1/8、1/16、1/32输出特征,不同网络层对应的通道数依次为64、128、256、512;
双权重引导的流对齐模块输入分为Flow和Fhigh两部分,Flow表示当前基础特征提取网络层的输出特征,Fhigh表示上一级双权重引导的流对齐模块的输出特征;首先对Fhigh进行上采样,利用双线性插值,得到与Flow相同尺寸的特征图;将两个特征图进行通道级联,经过一次3×3卷积后,得到语义流场;同时对通道级联后的特征图依次进行3×3卷积、Relu激活函数和1×1卷积得到空间权重图;将得到的语义流场与Fhigh通过光流映射操作,用于解决使用双线性插值进行上采样时的对不齐问题,将对齐后的特征图再与空间权重图相乘,得到富含空间语义信息的高分辨率特征图;同时将Fhigh通过双权重引导的流对齐模块中的通道注意力机制模块后得到的通道权重图与Flow相乘,得到富含通道信息的高分辨率特征图;将富含空间语义信息的高分辨率特征图、富含通道信息的高分辨率特征图以及初始的Flow三者相加得到的特征图作为双权重引导的流对齐模块的输出;
将双权重引导的流对齐模块进行三次复用,特征金字塔网络模块用于融合双权重引导的流对齐模块的输出;首先,将基础特征提取网络模块输出的1/32尺寸特征图(C5)使用空洞空间卷积池化金字塔网络进行特征扩展得到1/32尺寸的特征图(P5),将基础特征提取网络模块输出的1/16尺寸特征图(C4)与1/32尺寸的特征图(P5)输入至双权重引导的流对齐模块;然后将双权重引导的流对齐模块的输出特征与基础特征提取网络模块输出的1/16尺寸特征图(C4)相加得到1/16尺寸的特征图(P4);重复上述步骤得到尺寸为1/8的特征图(P3)和尺寸为1/4的特征图(P2);最后将1/32尺寸的特征图(P5)、1/16尺寸的特征图(P4)、1/8的特征图(P3)上采样至与尺寸为1/4的特征图(P2)相同的尺寸,再通过通道级联,最后得到原图尺寸1/4,通道数为256的特征图F1;
步骤2、将特征图F1输入到双路非对称残差模块进行边缘强化,得到特征图F2;
双路非对称残差模块包括特征金字塔卷积层、非对称卷积层和逐点卷积层;特征图F1输入至特征金字塔卷积层进行特征提取后,通道数减半输送至两个不同分路;两不同分路分别采用带膨胀率的3×1和1×3的深度卷积、卷积核为1×3和3×1的深度卷积,用于缓解分类和定位的矛盾以及促进信息间的聚合;两分路末端均通过卷积核为1×1的逐点卷积层恢复通道数量;两分路输出的特征图相加之后通过通道混洗以促进信息间的交流,最后与该模块的输入特征图相加以促进信息间的融合,获得特征图F2;
步骤3、由特征图F2预测得到概率图P和阈值图T;通过概率图P和阈值图T计算得到近似二值图B,计算公式如下:
Figure FDA0003694822980000021
其中:Bi,j为生成的近似二值图;Pi,j是概率图,Ti,j是阈值图;k为放大倍数;
步骤4、生成文本框
首先设定一个固定阈值,将概率图转换为近似二值图;近似二值图由像素值为0和1的点组成,其中像素值为1的点属于文本区域,反之属于非文本区域;然后对近似二值图计算轮廓,遍历每个轮廓,去除小于所设定的文本框最小长度预测;对每个轮廓计算包围矩形,然后计算该矩形的预测分数,对矩形进行反向收缩操作,得到真实矩形大小;最后还原到原图尺寸。
CN202210671550.0A 2022-06-15 2022-06-15 一种基于深度学习的场景文本检测方法 Pending CN115131778A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210671550.0A CN115131778A (zh) 2022-06-15 2022-06-15 一种基于深度学习的场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210671550.0A CN115131778A (zh) 2022-06-15 2022-06-15 一种基于深度学习的场景文本检测方法

Publications (1)

Publication Number Publication Date
CN115131778A true CN115131778A (zh) 2022-09-30

Family

ID=83378643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210671550.0A Pending CN115131778A (zh) 2022-06-15 2022-06-15 一种基于深度学习的场景文本检测方法

Country Status (1)

Country Link
CN (1) CN115131778A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115281709A (zh) * 2022-10-08 2022-11-04 太原理工大学 一种下颌第二磨牙c形根管检测装置及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115281709A (zh) * 2022-10-08 2022-11-04 太原理工大学 一种下颌第二磨牙c形根管检测装置及方法
CN115281709B (zh) * 2022-10-08 2022-12-27 太原理工大学 一种下颌第二磨牙c形根管检测装置及方法

Similar Documents

Publication Publication Date Title
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN109711295B (zh) 一种光学遥感图像近岸舰船检测方法
US11475681B2 (en) Image processing method, apparatus, electronic device and computer readable storage medium
CN107133622B (zh) 一种单词的分割方法和装置
CN112767418B (zh) 基于深度感知的镜子图像分割方法
CN110751154B (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
CN112907598A (zh) 一种基于注意力cnn文档证件类图像篡改检测方法
CN113255837A (zh) 工业环境下基于改进的CenterNet网络目标检测方法
CN114022408A (zh) 基于多尺度卷积神经网络的遥感图像云检测方法
CN113780132A (zh) 一种基于卷积神经网络的车道线检测方法
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN116189162A (zh) 一种船牌检测与识别方法、装置、电子设备和储存介质
CN111401368B (zh) 一种基于深度学习的新闻视频标题提取方法
Liu et al. CAFFNet: channel attention and feature fusion network for multi-target traffic sign detection
CN115131778A (zh) 一种基于深度学习的场景文本检测方法
CN111898608B (zh) 一种基于边界预测的自然场景多语言文字检测方法
CN111881914B (zh) 一种基于自学习阈值的车牌字符分割方法及系统
CN111242114B (zh) 文字识别方法及装置
Yin et al. Road extraction from satellite images with iterative cross-task feature enhancement
CN114694133B (zh) 一种基于图像处理与深度学习相结合的文本识别方法
CN115527082A (zh) 一种基于图像多重预处理的深度学习小目标检测方法
CN114494302A (zh) 图像处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination