CN115131797B - 一种基于特征增强金字塔网络的场景文本检测方法 - Google Patents
一种基于特征增强金字塔网络的场景文本检测方法 Download PDFInfo
- Publication number
- CN115131797B CN115131797B CN202210742861.1A CN202210742861A CN115131797B CN 115131797 B CN115131797 B CN 115131797B CN 202210742861 A CN202210742861 A CN 202210742861A CN 115131797 B CN115131797 B CN 115131797B
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- text
- different
- pyramid network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 238000012805 post-processing Methods 0.000 claims abstract description 22
- 238000005070 sampling Methods 0.000 claims description 30
- 230000004927 fusion Effects 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 230000005284 excitation Effects 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000008602 contraction Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 21
- 230000011218 segmentation Effects 0.000 description 17
- 230000001788 irregular Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于特征增强金字塔网络的场景文本检测方法。该方法包括:将待检测图像输入到特征增强金字塔网络,特征增强金字塔网络对待检测图像经过不同的卷积阶段生成不同尺度的特征图,将不同尺度的特征图进行拼接得到富含尺度信息的高级特征图;将高级特征图输入到通道注意力机制模块中,输出经过权重选择的各个通道权重不同的特征图;将经过权重选择的各个通道权重不同的特征图输入到后处理模块,后处理模块输出待检测图像的文本检测结果。本发明使用Res2Net与特征增强金字塔网络作为骨架网络,在特征金字塔网络的基础上新增下采样路径,只对邻近层进行采样后融合,使用通道注意力机制增强文本特征的权重,使算法检测到更加精确的文本边界。
Description
技术领域
本发明涉及场景文本检测技术领域,尤其涉及一种基于特征增强金字塔网络(Feature Enhanced Pyramid Network,FEPN)的场景文本检测方法。
背景技术
场景文本检测(Scene Text Detection,STD)是计算机视觉领域的研究热点,场景文本是指自然场景下的文本内容,例如路牌、广告牌、商场指示牌以及产品包装上的文本。随着信息技术的发展和智能应用的要求日益提高,场景文本检测与识别技术研究具有广阔的应用前景,如自动驾驶、图像搜索、场景理解以及实时翻译等。在这些应用场景中,场景文本检测技术尤为关键。
在一些简单的场景中,如工整的打印文档或身份证件的识别,现有的文本检测与识别算法已经可以集成在软件中供大众使用。然而自然场景文本通常在文本大小、文本类型、文本方向以及文本颜色上本就有很大的差异性,同时受到光照强度不同、背景环境复杂和拍照角度变化等各种因素的影响,自然场景文本检测与识别技术目前还存在以下问题未解决:
(1)自然场景中存在文本多样性与背景复杂性的挑战。自然场景中的文本表现出更高的多样性,常常使用不同的字体、颜色、语言或以艺术的方式进行书写,导致在文本检测时难以对文本边界进行精确检测。同时场景文本图像可能包含复杂的背景,不可避免地受遮挡或者光照影响,还可能存在与文本极为相似的模式,例如各种花纹装饰、栏杆、轨道等。这会导致背景区域与文本区域难以区分,使得文本检测时存在错检和漏检的情况,同时在文本识别时由于文本与背景混淆,造成文本误识别的问题。
(2)同一张图像中存在的多尺度文本无法被很好地检测。目前大多数方法解决检测中存在的多尺度问题只是用固定的缩放方案,即将相同的图像经放大或缩小一定比例后送入基线网络中。虽然这些方案能够有效提高召回率,但在运行时间和内存方面都占用较多。此外,放大或缩小整个图像会改变所有文本区域的比例,会使得许多已经处于适当的检测比例的文本区域发生改变,这也会增加处理成本。
相比于经典机器学习的方法,基于深度学习的方法有更快更简单的算法流程、能更有效地提供在合成数据上训练的能力,因此近年来得到了广泛的应用。现有的场景文本检测方法可以粗略地分为以下三类:(1)基于回归的场景文本检测方法;(2)基于分割的场景文本检测方法;(3)结合回归和分割思想的混合检测方法。
基于回归的场景文本检测方法通常借鉴了目标检测的思想,将场景文本看作待检测的特殊目标。根据是否需要预先设定先验框,又可分为基于间接回归的场景文本检测方法和基于直接回归的场景文本检测方法。
基于分割的方法将文本检测定义为文本分割问题,它先使用FCN(FullyConvolutional Networks,全卷积网络)进行语义分割,把图片中的像素分类为文本或非文本,然后用后处理步骤将预测的概率图转化为文本包围框,完成实例分割。字符区域感知的文本检测算法(Character Region Awareness for Text Detection,CRAFT)通过预测字符之间的关联性来检测文本区域,检测准确率优于大多数基于回归的方法,但此方法需要进行字符级的标注,训练成本较高。傅立叶轮廓嵌入(Fourier Contour Embedding,FCENet)首次提出在傅里叶域预测文本实例的傅里叶特征向量,使用分类分支预测文本区域图和文本中心区域图,通过逐像素相乘生成分类分数图;使用回归分支预测傅里叶特征向量,通过傅里叶逆变换重建文本轮廓,对高度弯曲文本尤其有效。PixelLink利用像素之间的链接预测来进行文本实例分割,对多方向文本检测比较有效,但它很容易对类似文本的对象造成误检,且在检测非常相邻的文本时表现不佳。
随着对基于回归和分割算法的研究逐渐深入,近年来,一些结合了回归与分割思想优点的方法被提出,这些方法大多先用基于分割的方法预测出文本分数图,得到文本区域,再使用回归的方法进一步回归文本边界框。Liao等人提出由两个不同的网络分支提取的不同特征,分别进行分类和回归。多次定位检测器(Look More than Once,LOMO)先采用直接回归预测单词或文本行的四边形包围框,然后再引入迭代细化模块反复优化,得到精确文本检测框,能够有效地检测长文本。与LOMO中多次提取感兴趣区域(Region ofInterest,RoI)特征不同,多方向场景文本检测器(Multi-Oriented Scene Textdetector,MOST)采用可变形卷积算子进行定位细化,先使用文本特征对齐模块根据初始检测动态地调整特征的接收域,然后设计了位置感知非极大抑制模块,排除不可靠的初始检测,在ICDAR2015以及MSRA-TD500数据集上达到了最优的检测F值,远高于其他基于回归或分割的方法。Lyu等人提出可以检测文本区域的角点,通过对角点进行采样和分组来生成候选框,再结合分割图对候选框进行评分,可以检测较大纵横比的文本。ContourNet采用两阶段结构,先限定多个语义点的空间范围来定位文本的初步范围,再在两个正交方向上建模局部纹理信息,并用轮廓点表示文本区域。但是这种结合了分类与回归思想的混合算法并没有克服这两种算法的缺点,在复杂的环境下依旧难以得到精确的文本轮廓,且两种操作都进行会使得模型计算量和复杂度上升,耗时较长,在对检测实时性有要求的应用场景下此种方法并不实用。
综上所述,现有方法已经能够有效地检测规则文本以及不规则文本,但受文本多样性的影响以及在背景复杂的情况下,现有方法还存在对文本实例的边界不能精确检测的问题,甚至将类似文本的背景区域误检为文本实例。此外,在不规则文本检测中,除了文本边界形状多变不宜精确检测外,还存在多尺度文本漏检测与误检测的问题。多尺度文本指在场景文本图像中的文本实例尺度不一,这会导致对小型文本实例的漏检,或者不能实现对大型文本实例的完全检测,因此一些方法重点关注多尺度文本的检测问题。
目前,现有技术中的场景文本检测方法主要有两种:基于回归的方法和基于分割的方法,由于基于分割的方法能够在像素水平进行预测,故而能更好地描述自然场景中不同形状的文本。基于分割的场景文本检测方法中最关键的步骤就是对二值化的后处理过程,即将分割方法产生的概率图转化为文本框的过程。具体步骤包括:
骨干网络,图片通过特征金字塔结构的ResNet50-vd层,通过上采样的方式将特征金字塔的输出变换为同一尺寸,并级联产生特征及特征层。
计算文本概率图,通过特征层预测概率图及文本概率图(probability map),用于计算该像素属于文本的概率形成文本概率图,再根据各像素动态阈值形成自适应阈值图(threshold map)。
计算DB二值图,通过文本概率图和自适应阈值图生成DB二值图。
传统二值化:传统二值化操作通过固定的阈值对网络输出的概率图进行划分。
由于这种二值化方式是不可微分的,因此它无法在训练阶段随着分割网络被优化。
可微二值化:可微二值化建立了概率图P和阈值图T与二值化图之间的关系,使得二值化的计算可微,从而可以满足梯度反向传播的条件。可微分二值化不仅能区分文本区域和背景,而且把邻近的文本区域也分开。
形成文本框,根据DB二值图拓展标签生成,形成文本框。
上述现有技术中的场景文本检测方法的缺点包括:
1.对于多尺度场景文本检测的鲁棒性较差,会导致算法对小型文本实例的漏检,或者不能实现对大型文本实例的完全检测
2.无法准确划分不规则场景文本边界的问题,在背景复杂的情况下,还有可能导致文本区域与背景区域混淆,造成错检。
发明内容
本发明的实施例提供了一种基于特征增强金字塔网络的场景文本检测方法,以实现有效地对图像进行场景文本检测。
为了实现上述目的,本发明采取了如下技术方案。
一种基于特征增强金字塔网络的场景文本检测方法,包括:
将待检测图像输入到特征增强金字塔网络,特征增强金字塔网络对待检测图像经过不同的卷积阶段生成不同尺度的特征图,将不同尺度的特征图进行拼接得到富含尺度信息的高级特征图;
将所述高级特征图输入到通道注意力机制模块中,通道注意力机制模块输出经过权重选择的各个通道权重不同的特征图;
将所述经过权重选择的各个通道权重不同的特征图输入到后处理模块,后处理模块输出待检测图像的文本检测结果。
优选地,所述的将待检测图像输入到特征增强金字塔网络,特征增强金字塔网络对待检测图像经过不同的卷积阶段生成不同尺度的特征图,将不同尺度的特征图进行拼接得到富含尺度信息的高级特征图,包括:
将待检测图像输入到特征增强金字塔网络中,在特征金字塔网络中新增下采样路径,采用Res2Net作为特征增强金字塔网络中不同的卷积阶段的基础网络框架,所述不同的卷积阶段包括C5到C2,T2到T4,P2到P5,只对邻近层进行采样后融合,特征增强金字塔网络对待检测图像经过卷积操作、上采样操作、下采样操作和特征融合操作生成不同尺度的特征图,将不同尺度的特征图进行拼接,得到富含各尺度特征信息的高级特征。
优选地,所述的特征增强金字塔网络对待检测图像经过卷积操作、上采样操作、下采样操作和特征融合操作生成不同尺度的特征图,将不同尺度的特征图进行拼接,得到富含各尺度特征信息的高级特征,包括:
(1)卷积操作:对待检测图像输入后经由不同的卷积阶段生成不同尺度的特征图,使用1×1的卷积核;
(2)上采样操作:对待检测图像从C5到C2逐层进行上采样,再将经过上采样的深层特征图和大小相同的浅层特征图逐像素相加进行特征信息融合,融合时仅对相邻层特征进行操作,如公式(3)所示:
Ti=Ci+Upsample(Ci+1),i=2,3,4 (3)
其中Ci表示在不同的卷积阶段生成的特征图,Ti表示在上采样阶段生成的不同特征图,i表示不同的卷积阶段;
(3)下采样操作:对待检测图像从特征增强金字塔网络中的T2到T4逐层进行下采样,再将经过下采样的浅层特征图和大小相同的深层特征图逐像素相加进行特征信息融合,融合方式与上采样操作相同,如公式(4)所示:
Pi=Ti+Downsample(Ti-1),i=3,4,5 (4)
其中Pi表示下采样阶段生成的不同特征图,Ti表示在上采样阶段生成的不同特征图;
(4)特征融合操作:先将从特征增强金字塔网络中的P2到P5的特征经过卷积和上采样操作恢复到同一尺寸大小,如公式(5)所示,再将得到的四个特征图进行拼接,得到富含尺度信息的高级特征图,如公式(6)所示:
F=concat(F2,F3,F4,F5) (6)
Fi表示不同阶段通过上下采样后生成的特征图,F表示F2,F3,F4,F5拼接后得到的特征图。
优选地,所述的将所述高级特征图输入到通道注意力机制模块中,通道注意力机制模块输出经过权重选择的各个通道权重不同的特征图,包括:
将所述高级特征图输入到通道注意力机制模块中,通道注意力机制模块进行压缩操作,如公式(2-8)所示,在空间维度对输入图像的高级特征图进行压缩,并且输出的特征维度和输入的特征维度数相匹配;
其中Fsq(·)表示压缩操作,H和W分别表示原始特征图的高度和宽度,uc(i,j)表示通道c上位置(i,j)处的值;
然后通过一个全连接层降维,再经过ReLU获得非线性关系,接着通过第二个全连接层还原到C维,再使用Sigmoid函数以获得每个通道的权重,如公式(2-9)所示;
Fex(z,W)=σ(W2δ(W1z)) (2-9)
将上一步获得的权重逐通道加权到原始特征上,完成在通道维度上的特征权重标定,如公式(2-10)所示;
Fscale(uc,sc)=scuc (2-10)
其中Fscale表示重新加权操作,uc表示通道c,sc表示该通道c上的权重,输出经过权重选择的各个通道权重不同的特征图。
优选地,所述的将所述经过权重选择的各个通道权重不同的特征图输入到后处理模块,后处理模块输出待检测图像的文本检测结果,包括:
将所述经过权重选择的各个通道权重不同的特征图输入到后处理模块,后处理模块计算输入的特征图中的像素属于文本的概率形成文本概率图,根据特征图中各像素动态阈值形成自适应阈值图,对所述文本概率图和自适应阈值图进行可微二值化DB运算得到二值化图像;
二值化图像中仅含文本像素与背景像素,从二值化图像中获得文本像素连接区域,再用Vatti裁剪算法用偏移量扩大收缩区域,得到待检测图像中的文本边界。
优选地,所述的方法还包括:
设置损失函数由三者叠加组成,如公式(13)所示:
L=αLb+βLp+γLt (13)
其中Lb、Lp和Lt分别表示二值化图像损失、文本区域损失以及自适应阈值损失,α,β,γ为权重参数,控制三者的比重;
二值化图像损失Lb采用平衡交叉熵损失函数来实现,如公式(14)所示:
其中,Sl是正、负样本比为1∶3的采样集,yi为第i个像素的真实标注值,xi为第i个像素的预测值;
对文本区域损失使用Lp进行约束,Lp采用dice损失函数实现,引入交并比的计算,如公式(15)所示:
其中,N为像素总数,mi为掩膜在第i个像素的值,xi为文本区域得分图在i点的预测值,yi为在该点的真实值;
对自适应阈值损失Lt采用L1损失函数来具体实现,如公式(16)所示:
其中,AD为使用Vatti切割算法后得到的膨胀文本区域,yi为自适应阈值图在第i点的真实标注,xi为在该点的预测值。
由上述本发明的实施例提供的技术方案可以看出,本发明使用Res2Net与特征增强金字塔网络作为骨架网络,特征增强金字塔网络在特征金字塔网络的基础上新增下采样路径,且只对邻近层进行采样后融合,避免误差传递,能更好地检测多尺度文本。本发明使用通道注意力机制增强文本特征的权重,更多的关注文本信息,减少对背景像素的关注,使算法检测到更加精确的文本边界,减少误检和漏检的问题。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于特征增强金字塔网络的场景文本检测方法的实现原理图;
图2为本发明实施例提供的一种特征增强金字塔网络的操作过程示意图;
图3为本发明实施例提供了一种基于特征增强金字塔网络的场景文本检测方法的训练流程图;
图4为本发明实施例提供了一种通道注意力机制模块的实现原理图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
针对复杂背景下不规则文本边界检测不精确、场景文本尺度变化较大带来的对小尺度文本漏检或对大尺度文本检测不全的问题,本发明实施例提供了一种基于特征增强金字塔网络的场景文本检测方法。主要包括骨架网络和后处理模块。在骨架网络中,本发明提出特征增强金字塔网络,在特征金字塔的基础上新增下采样路径,对不同层次的特征进行充分融合,且主干网络使用Res2Net,在更细粒度的层次提取多尺度特征。此外,特征增强金字塔网络只对邻近层进行采样后融合,不再使用融合后的特征图进行下一步计算,避免误差累积。然后将经过特征增强金字塔网络后得到的特征使用通道注意力机制进行权重选择,增大对文本信息的关注度,减少背景噪声带来的影响,再将最后得到的特征用于后处理,生成文本检测框。
本发明可以应用于场景文本检测任务中。如:路牌、广告牌、商场指示牌以及产品包装上的文本,自动驾驶、图像搜索、场景理解以及实时翻译等。(a)规则文本:主要包含具有水平排布的文本;(b)不规则文本:主要包含非水平排布的文本,包括竖直文本、多方向文本、弯曲文本、透视变换文本等;(c)复杂环境文本:主要指背景版式复杂、或有遮挡、或受光线影响导致文本与背景难以区分发文本。
FEPN(FFeature Enhanced Pyramid Network,特征增强金字塔网络)是FPN的一个改进,相对于FPN新增了自底向上的传递路径,进一步扩大感受野,将浅层的细节信息与高层的语义信息融合在一起,增强小尺度文本特征。此外,在FEPN中只对邻近层进行采样后融合,不再使用传统FPN中的融合方式,邻近层融合方式可以避免同一特征被反复采样,减小在信息传递过程中误差累积的影响。最后再将各个层次的特征进行拼接,得到富含各尺度特征信息的高级特征。
Res2Net:是一种新颖的CNN(convolutional neural network,卷积神经网络)模块,叫作Res2Net,在单个残差块内构造具有等级制的类似残差连接,取代了通用的单个3x3卷积核。Res2Net在更细粒度级别表示多尺度特征,并增加了每个网络层的感受野。
本发明实施例提供了一种基于特征增强金字塔网络的场景文本检测方法的实现原理图如图1所示,本发明提出的特征增强金字塔网络与Res2Net一起作为算法的骨架网络,特征增强金字塔网络为FPN的一个改进,网络输入为待检测图像,输出为融合各尺度语义信息的高级特征。本发明采用Res2Net作为不同卷积阶段的基础网络框架,在更细粒度的级别上表示多尺度特征,增加了每个网络层的感受野范围,更有利于多尺度文本检测。与FPN的设置类似,本发明将Res2Net分为5个卷积阶段,由于卷积阶段1的特征感受野较小,所以不参与后续计算。各卷积阶段的输出特征图大小如表1所示:
表1骨架网络参数,表中为各阶段输出特征图大小,其中输入图片高为H,宽为W。
本发明提出的特征增强金字塔网络相对于FPN新增了自底向上的传递路径,进一步扩大感受野,将浅层的细节信息与高层的语义信息融合在一起,增强小尺度文本特征。此外,在FEPN中只对邻近层进行采样后融合,不再使用传统FPN中的融合方式,邻近层融合方式可以避免同一特征被反复采样,减小在信息传递过程中误差累积的影响。最后再将各个层次的特征进行拼接,得到富含各尺度特征信息的高级特征。
图2为本发明实施例提供的一种特征增强金字塔网络的操作过程示意图,包括如下的处理过程:
(1)卷积操作:对待检测图像输入后经由不同的卷积阶段生成不同尺度的特征图,使用1×1的卷积核,卷积阶段越深,得到的特征图越小,图像细节信息越少,但感受野也越大,得到的语义信息越丰富。上述不同的卷积阶段包括C5到C2。
(2)上采样操作:对待检测图像从C5到C2逐层进行上采样,再将经过上采样的深层特征图和大小相同的浅层特征图逐像素相加进行特征信息融合,融合时仅对相邻层特征进行操作,如公式(3)所示:
Ti=Ci+Upsample(Ci+1),i=2,3,4 (3)
其中Ci表示在不同的卷积阶段生成的特征图,Ti表示在上采样阶段生成的不同特征图,i表示不同的卷积阶段。
(3)下采样操作:对待检测图像从特征增强金字塔网络中的T2到T4逐层进行下采样,再将经过下采样的浅层特征图和大小相同的深层特征图逐像素相加进行特征信息融合,融合方式与上采样操作相同,如公式(4)所示:
Pi=Ti+Downsample(Ti-1),i=3,4,5 (4)
其中Pi表示下采样阶段生成的不同特征图,Ti表示在上采样阶段生成的不同特征图;
(4)特征融合操作:先将从特征增强金字塔网络中的P2到P5的特征经过卷积和上采样操作恢复到同一尺寸大小,如公式(5)所示,再将得到的四个特征图进行拼接,得到富含尺度信息的高级特征图,如公式(6)所示:
F=concat(F2,F3,F4,F5) (6)
Fi表示不同阶段通过上下采样后生成的特征图,F表示F2,F3,F4,F5拼接后得到的特征图。
本发明实施例提供了一种基于特征增强金字塔网络的场景文本检测方法的训练流程如图3所示,包括如下的处理步骤:
步骤S10、将待检测图像输入到特征增强金字塔网络,特征增强金字塔网络对待检测图像经过不同的卷积阶段生成不同尺度的特征图,将不同尺度的特征图经过上采样操作、下采样操作和特征融合操作得到富含尺度信息的高级特征图。
Res2Net作为基础网络在C1到C5中使用,特征金字塔网络是指从C1到C5至P2至P5再到F2至F5的整个处理流程。
步骤S20、将所述高级特征图输入到通道注意力机制模块中,通道注意力机制模块输出经过权重选择的各个通道权重不同的特征图。
通道注意力机制模块的实现原理如图4所示。首先进行压缩操作,如公式(2-8)所示,在空间维度对输入图像的高级特征图进行压缩,并且输出的特征维度和输入的特征维度数相匹配。
其中Fsq(·)表示压缩操作,H和W分别表示原始特征图的高度和宽度,uc(i,j)表示通道c上位置(i,j)处的值。
然后通过一个全连接层降维,再经过ReLU获得非线性关系,接着通过第二个全连接层还原到C维,再使用Sigmoid函数以获得每个通道的权重,如公式(2-9)所示。
Fex(z,W)=σ(W2δ(W1z)) (2-9)
最后将上一步获得的权重逐通道加权到原始特征上,完成在通道维度上的特征权重标定,如公式(2-10)所示。
Fscale(uc,sc)=scuc (2-10)
其中Fscale表示重新加权操作,uc表示通道c,sc表示该通道c上的权重通道注意力机制模块的输入数据为特征增强金字塔网络提取到的原始特征图,输出为经过权重选择的各个通道权重不同的特征图。
步骤S30、将上述经过权重选择的各个通道权重不同的特征图输入到后处理模块,后处理模块输出待检测图像的文本检测结果。
将上述经过权重选择的各个通道权重不同的特征图输入到后处理模块,后处理模块计算输入的特征图中的像素属于文本的概率形成文本概率图,根据特征图中各像素动态阈值形成自适应阈值图。然后,对上述文本概率图和自适应阈值图进行DB(DifferentiableBinarization,可微二值化)运算得到二值化图像。
二值化图像中仅含文本像素与背景像素,从二值化图像中获得文本像素连接区域,再用Vatti裁剪算法用偏移量扩大文本像素连接区域,得到待检测图像中的文本边界。
损失函数用于评估模型的预测值与真实值不一致的程度,网络的训练过程就是最小化损失函数的过程,损失函数越小,说明模型的预测值就越接近真实值,模型的健壮性也就越好。简单来说损失函数就是用于优化模型,使得到的检测结果更加精确。损失函数由三者叠加组成,如公式(13)所示:
L=aLb+βLp+γLt (13)
其中Lb、Lp和Lt分别表示二值化图像损失、文本区域损失以及自适应阈值损失。α,β,γ为权重参数,控制三者的比重。根据训练时平衡三部分损失值,本发明中设定α=5,β=5,γ=10。
由于在场景文本图像中文本像素通常少于背景像素,若采用标准交叉熵损失函数会使大量的背景像素占据主导地位,而文本像素不起作用,造成文本检测精度低。为了克服背景像素和文本像素不平衡的问题,二值化图像损失Lb采用平衡交叉熵损失函数来实现,如公式(14)所示:
其中,Sl是正、负样本比为1∶3的采样集,yi为第i个像素的真实标注值,xi为第i个像素的预测值。
对文本区域损失使用Lp进行约束,Lp采用dice损失函数实现,引入交并比的计算,如公式(15)所示:
其中,N为像素总数,mi为掩膜在第i个像素的值,xi为文本区域得分图在i点的预测值,yi为在该点的真实值。
对自适应阈值损失Lt采用L1损失函数来具体实现,如公式(16)所示:
其中,AD为使用Vatti切割算法后得到的膨胀文本区域,yi为自适应阈值图在第i点的真实标注,xi为在该点的预测值。
综上所述,本发明解决了现有大多数场景文本检测方法无法解决的2个问题:
(1)场景文本误检测的问题。由于自然场景中的文本常常使用不同的字体、颜色、语言或以艺术的方式进行书写,导致现有算法无法准确划分不规则场景文本边界的问题。同时场景文本图像可能包含复杂的背景,不可避免地受遮挡或者光照影响,容易导致背景区域与文本区域难以区分,造成错检。本发明使用通道注意力机制增强文本特征的权重,更多的关注文本信息,减少对背景像素的关注,使算法检测到更加精确的文本边界,减少误检和漏检的问题。
(2)多尺度文本检测鲁棒性差的问题。现有的不规则场景文本检测方法对于多尺度场景文本检测的鲁棒性较差,会导致算法对小型文本实例的漏检,或者不能实现对大型文本实例的完全检测。本发明使用Res2Net与特征增强金字塔网络作为骨架网络,特征增强金字塔网络在特征金字塔网络的基础上新增下采样路径,且只对邻近层进行采样后融合,避免误差传递,能更好地检测多尺度文本。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种基于特征增强金字塔网络的场景文本检测方法,其特征在于,包括:
将待检测图像输入到特征增强金字塔网络,特征增强金字塔网络对待检测图像经过不同的卷积阶段生成不同尺度的特征图,将不同尺度的特征图进行拼接得到富含尺度信息的高级特征图;
将所述高级特征图输入到通道注意力机制模块中,通道注意力机制模块输出经过权重选择的各个通道权重不同的特征图;
将所述经过权重选择的各个通道权重不同的特征图输入到后处理模块,后处理模块输出待检测图像的文本检测结果;
所述的将待检测图像输入到特征增强金字塔网络,特征增强金字塔网络对待检测图像经过不同的卷积阶段生成不同尺度的特征图,将不同尺度的特征图进行拼接得到富含尺度信息的高级特征图,包括:
将待检测图像输入到特征增强金字塔网络中,在特征金字塔网络中新增下采样路径,采用Res2Net作为特征增强金字塔网络中不同的卷积阶段的基础网络框架,所述不同的卷积阶段包括C5到C2,T2到T4,P2到P5,只对邻近层进行采样后融合,特征增强金字塔网络对待检测图像经过卷积操作、上采样操作、下采样操作和特征融合操作生成不同尺度的特征图,将不同尺度的特征图进行拼接,得到富含各尺度特征信息的高级特征;
所述的特征增强金字塔网络对待检测图像经过卷积操作、上采样操作、下采样操作和特征融合操作生成不同尺度的特征图,将不同尺度的特征图进行拼接,得到富含各尺度特征信息的高级特征,包括:
(1)卷积操作:对待检测图像输入后经由不同的卷积阶段生成不同尺度的特征图,使用1×1的卷积核;
(2)上采样操作:对待检测图像从C5到C2逐层进行上采样,再将经过上采样的深层特征图和大小相同的浅层特征图逐像素相加进行特征信息融合,融合时仅对相邻层特征进行操作,如公式(3)所示:
Ti=Ci+Upsample(Ci+1),i=2,3,4 (3)
其中Ci表示在不同的卷积阶段生成的特征图,Ti表示在上采样阶段生成的不同特征图,i表示不同的卷积阶段;
(3)下采样操作:对待检测图像从特征增强金字塔网络中的T2到T4逐层进行下采样,再将经过下采样的浅层特征图和大小相同的深层特征图逐像素相加进行特征信息融合,融合方式与上采样操作相同,如公式(4)所示:
Pi=Ti+Downsample(Ti-1),i=3,4,5 (4)
其中Pi表示下采样阶段生成的不同特征图,Ti表示在上采样阶段生成的不同特征图;
(4)特征融合操作:先将从特征增强金字塔网络中的P2到P5的特征经过卷积和上采样操作恢复到同一尺寸大小,如公式(5)所示,再将得到的四个特征图进行拼接,得到富含尺度信息的高级特征图,如公式(6)所示:
Fi=Upsample(f1 3×3(Pi)),i=2,3,4,5 (5)
F=concat(F2,F3,F4,F5) (6)
其中Upsample(·)表示上采样操作,Downsample(·)表示下采样操作,f1 3×3表示卷积核为3×3、步长为1的卷积层,concat(·)表示特征拼接操作;
Fi表示不同阶段通过上下采样后生成的特征图,F表示F2,F3,F4,F5拼接后得到的特征图。
2.根据权利要求1所述的方法,其特征在于,所述的将所述高级特征图输入到通道注意力机制模块中,通道注意力机制模块输出经过权重选择的各个通道权重不同的特征图,包括:
将所述高级特征图输入到通道注意力机制模块中,通道注意力机制模块进行压缩操作,如公式(2-8)所示,在空间维度对输入图像的高级特征图进行压缩,并且输出的特征维度和输入的特征维度数相匹配;
其中Fsq(·)表示压缩操作,H和W分别表示原始特征图的高度和宽度,uc(i,j)表示通道c上位置(i,j)处的值;
然后通过一个全连接层降维,再经过ReLU获得非线性关系,接着通过第二个全连接层还原到C维,再使用Sigmoid函数以获得每个通道的权重,如公式(2-9)所示;
Fex(z,W)=σ(W2δ(W1z)) (2-9)
将上一步获得的权重逐通道加权到原始特征上,完成在通道维度上的特征权重标定,如公式(2-10)所示;
Fscale(uc,sc)=scuc (2-10)
其中Fscale表示重新加权操作,uc表示通道c,sc表示该通道c上的权重,输出经过权重选择的各个通道权重不同的特征图。
3.根据权利要求2所述的方法,其特征在于,所述的将所述经过权重选择的各个通道权重不同的特征图输入到后处理模块,后处理模块输出待检测图像的文本检测结果,包括:
将所述经过权重选择的各个通道权重不同的特征图输入到后处理模块,后处理模块计算输入的特征图中的像素属于文本的概率形成文本概率图,根据特征图中各像素动态阈值形成自适应阈值图,对所述文本概率图和自适应阈值图进行可微二值化DB运算得到二值化图像;
二值化图像中仅含文本像素与背景像素,从二值化图像中获得文本像素连接区域,再用Vatti裁剪算法用偏移量扩大收缩区域,得到待检测图像中的文本边界。
4.根据权利要求3所述的方法,其特征在于,所述的方法还包括:
设置损失函数由三者叠加组成,如公式(13)所示:
L=αLb+βLp+γLt (13)
其中Lb、Lp和Lt分别表示二值化图像损失、文本区域损失以及自适应阈值损失,α,β,γ为权重参数,控制三者的比重;
二值化图像损失Lb采用平衡交叉熵损失函数来实现,如公式(14)所示:
其中,Sl是正、负样本比为1:3的采样集,yi为第i个像素的真实标注值,xi为第i个像素的预测值;
对文本区域损失使用Lp进行约束,Lp采用dice损失函数实现,引入交并比的计算,如公式(15)所示:
其中,N为像素总数,mi为掩膜在第i个像素的值,xi为文本区域得分图在i点的预测值,yi为在该点的真实值;
对自适应阈值损失Lt采用L1损失函数来具体实现,如公式(16)所示:
其中,AD为使用Vatti切割算法后得到的膨胀文本区域,yi为自适应阈值图在第i点的真实标注,xi为在该点的预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210742861.1A CN115131797B (zh) | 2022-06-28 | 2022-06-28 | 一种基于特征增强金字塔网络的场景文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210742861.1A CN115131797B (zh) | 2022-06-28 | 2022-06-28 | 一种基于特征增强金字塔网络的场景文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115131797A CN115131797A (zh) | 2022-09-30 |
CN115131797B true CN115131797B (zh) | 2023-06-09 |
Family
ID=83379277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210742861.1A Active CN115131797B (zh) | 2022-06-28 | 2022-06-28 | 一种基于特征增强金字塔网络的场景文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115131797B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275034B (zh) * | 2020-01-19 | 2023-09-12 | 天翼数字生活科技有限公司 | 从图像中提取文本区域的方法、装置、设备和存储介质 |
CN117037130B (zh) * | 2023-07-05 | 2024-09-17 | 重庆理工大学 | 基于加权对齐金字塔结构的场景文本提取方法 |
CN116935394B (zh) * | 2023-07-27 | 2024-01-02 | 南京邮电大学 | 一种基于PSENet区域分割的列车车厢号定位方法 |
CN117372935B (zh) * | 2023-12-07 | 2024-02-20 | 神思电子技术股份有限公司 | 一种视频目标检测方法、设备及介质 |
CN117975434A (zh) * | 2024-04-01 | 2024-05-03 | 泉州装备制造研究所 | 一种基于光度立体的包装盒压印信息识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929665A (zh) * | 2019-11-29 | 2020-03-27 | 河海大学 | 一种自然场景曲线文本检测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591866B (zh) * | 2021-07-29 | 2023-07-07 | 云南大学 | 基于db与crnn的特种作业证件检测方法及系统 |
CN113989806B (zh) * | 2021-10-11 | 2024-05-24 | 康旭科技有限公司 | 一种可扩展的crnn银行卡号识别方法 |
CN114332620A (zh) * | 2021-12-30 | 2022-04-12 | 杭州电子科技大学 | 基于特征融合和注意力机制的机载图像车辆目标识别方法 |
CN114648755A (zh) * | 2022-04-12 | 2022-06-21 | 杭州电子科技大学 | 一种轻量级移动状态下工业货箱的文本检测方法 |
-
2022
- 2022-06-28 CN CN202210742861.1A patent/CN115131797B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929665A (zh) * | 2019-11-29 | 2020-03-27 | 河海大学 | 一种自然场景曲线文本检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115131797A (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN108549893B (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN111461110B (zh) | 一种基于多尺度图像和加权融合损失的小目标检测方法 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN111915627A (zh) | 语义分割方法、网络、设备及计算机存储介质 | |
CN111681273A (zh) | 图像分割方法、装置、电子设备及可读存储介质 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN113591719A (zh) | 一种自然场景任意形状文本检测方法、装置和训练方法 | |
CN112906794A (zh) | 一种目标检测方法、装置、存储介质及终端 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN110517270B (zh) | 一种基于超像素深度网络的室内场景语义分割方法 | |
CN111353544A (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN112070174A (zh) | 一种基于深度学习的自然场景下文本检测方法 | |
CN115424017B (zh) | 一种建筑物内外轮廓分割方法、装置及存储介质 | |
CN111401368B (zh) | 一种基于深度学习的新闻视频标题提取方法 | |
CN113393434A (zh) | 一种基于非对称双流网络架构的rgb-d显著性检测方法 | |
CN111898608B (zh) | 一种基于边界预测的自然场景多语言文字检测方法 | |
CN117994573A (zh) | 一种基于超像素和可形变卷积的红外弱小目标检测方法 | |
CN113469287A (zh) | 一种基于实例分割网络的航天器多局部构件检测方法 | |
CN113033559A (zh) | 一种基于目标检测的文本检测方法及装置、存储介质 | |
CN114708591B (zh) | 基于单字连接的文档图像中文字符检测方法 | |
CN111476226A (zh) | 一种文本定位方法、装置及模型训练方法 | |
CN115578364A (zh) | 基于混合注意力与调和因子的微弱目标检测方法及系统 | |
CN112927250B (zh) | 一种基于多粒度注意力分层网络的边缘检测系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |