CN116486393A - 一种基于图像分割的场景文本检测方法 - Google Patents
一种基于图像分割的场景文本检测方法 Download PDFInfo
- Publication number
- CN116486393A CN116486393A CN202310464879.4A CN202310464879A CN116486393A CN 116486393 A CN116486393 A CN 116486393A CN 202310464879 A CN202310464879 A CN 202310464879A CN 116486393 A CN116486393 A CN 116486393A
- Authority
- CN
- China
- Prior art keywords
- feature
- text
- map
- image
- enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 238000003709 image segmentation Methods 0.000 title claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 7
- 238000007499 fusion processing Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 229920006172 Tetrafluoroethylene propylene Polymers 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像分割的场景文本检测方法,属于计算机视觉领域。本发明首先获取包含文本的自然场景图像,对其进行预处理,并通过特征提取组件对预处理后的自然场景图像进行特征提取得到特征图。其次根据特征图,通过特征金字塔增强组件让特征图中不同尺寸的特征信息充分融合,得到深层特征。然后通过特征聚焦组件对来自特征金字塔增强组件的多个不同尺寸的特征图融合,并进行特征聚焦操作。最后通过文本框预测组件对特征聚焦组件输出的特征图进行预测,找出文本所在位置。本发明增大特征图感受视野和文本特征的表达能力,有效提高场景文本检测的精度。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于图像分割的场景文本检测方法。
背景技术
场景文本检测技术是目前计算机视觉领域最重要的研究方向之一,检测与识别任务中,一般先进行检测的工作,通过检测出图像中文本所在的位置,然后进行裁剪,再进行文本识别的工作,故场景文本检测结果的好坏直接影响了整个识别任务的最终效果。故对场景文本检测技术的检测效果进行优化是非常有必要的。基于图像分割的方法通过图像分割算法分割文本区域与非文本区域,然后对分割出的文本区域边缘进行检测以确定文本的边界,最后,对文本特征分析标注文本区域。
在基于深度学习的场景文本检测方法中,可微分二值化网络DBNet模型是近几年出现的经典模型之一,其结构简单,能高效完成文本检测任务,对场景文本检测领域有着极其重要影响。DBNet模型使用特征金字塔网络FPN进行不同尺度特征信息融合过程,FPN网络通过自底向上的卷积操作提取不同深度文本特征,然后通过自顶向下的上采样过程进行特征信息融合,接着把得到的特征图送入可微分二值化模块进行后处理操作。DBNet模型能高效处理检测任务,但模型结构依旧存在以下两点不足:
(1)FPN网络结构过于简单,其在特征信息融合过程中,自底向上的特征提取操作以及自顶向下深层向浅层的特征信息融合过程各只进行了一次,并且操作中只有上层文本特征向底层融合的过程,其对不同尺度特征信息的融合力度显然不够,这在面对较为复杂场景文本图像时难以让高层语义信息与低层文本信息得到充分融合。
(2)DBNet模型在特征信息融合完成后直接把所有不同尺度的特征图上采样后简单的级联为一个特征图。不同尺度的特征图具有不同的感知范围,描述不同的特征信息,其中无差别的上采样级联操作,不能让图像中的文本特征在特征图中得到充分体现。
发明内容
针对DBNet模型存在的两个问题,本发明提出一种基于图像分割的场景文本检测方法,构建文本检测模型FB-DB。FB-DB模型首先使用ResNet残差网络提取深层图像特征,再通过特征金字塔增强网络FPEM使不同尺度特征图中特征信息充分融合,增强金字塔特征图的特征表达能力,FPEM相较于FPN能使不同尺度文本特征信息融合更加充分,接着使用瓶颈注意力网络BAM对文本特征进行聚焦操作,此操作能使特征图中文本特征更加突出,最后使用可微分二值化模块DB进行二值化的操作,并且此分割网络可以自适应设置二值化的阈值,以简化后处理过程。本发明可以有效提高场景文本检测的精度,为后续的复杂场景文本检测算法研究以及工程应用提供新的思路。
本发明所采用的技术方案如下:
步骤1:获取包含文本的自然场景图像,对其进行预处理,统一自然场景图像尺寸。
步骤2:通过特征提取组件对预处理后的自然场景图像进行特征提取得到特征图Fr。
步骤3:根据特征图Fr,通过特征金字塔增强组件让特征图中不同尺寸的特征信息充分融合,得到若干个不同尺寸的更具表达能力的深层特征。
步骤4:通过特征聚焦组件对来自特征金字塔增强组件的多个不同尺寸的深层特征图进行融合,并进行特征聚焦操作得到特征图Ff,聚焦操作就是让特征图中的文本区域通过增加权重的方式更为突出地显示的操作。
步骤5:通过文本框预测组件对特征聚焦组件输出的得到特征图Ff进行预测,找出文本所在位置。
进一步的,步骤3具体如下:
所述特征金字塔增强组件包含多个级联的特征金字塔增强网络FPEM,FPEM是一个上下两阶段的U型结构,分别是放大尺度增强阶段和缩小尺度增强阶段,两个阶段分别对应FEPM结构的输入网络和输出网络,其中放大尺度增强阶段对特征图从小到大进行增强迭代增强,缩小尺度增强阶段与放大尺度增强阶段方向相反。
进一步的,步骤4具体如下:
所述特征聚焦操作包含特征融合过程和特征聚焦过程。其中特征融合过程采用特征融合网络FFM对特征图进行融合,融合后再通过瓶颈注意力网络BAM对特征图中的文本特征进行聚焦操作,特征聚焦把通道注意力机制与空间注意力机制结合使用,对特征图中文本特征增强,使特征图中文本特征有更强的表达能力。
本发明的有益效果:
本发明针对场景文本检测模型在对不同尺度特征图中特征信息融合时,融合不够充分,以及特征图中文本特征表征不够明显的问题,设计了一种基于图像分割的场景文本检测模型FB-DB。模型首先使用ResNet残差网络提取深层图像特征,其次使用可级联的特征金字塔增强组件对金字塔特征图进行增强,其可以使不同尺度特征信息充分融合,并能增大特征图感受视野。接着使用通道注意力机制与空间注意力机制级联的方式对特征图中的文本特征进行聚焦,以增强文本特征的表达能力。最后使用文本框预测组件,通过自适应设置二值化操作的阈值来提高场景文本检测的精度。本发明可以有效提高场景文本检测的精度,为后续的复杂场景文本检测算法研究以及工程应用提供新的思路。
附图说明
图1是本发明方法的流程图;
图2是本发明的模型整体框架图;
图3是本发明中特征金字塔增强网络FPEM结构图;
图4是本发明中特征融合网络FFM结构图;
图5是本发明中瓶颈注意力网络BAM结构图;
图6是本发明中标签生成过程图;
图7是本发明场景文本检测结果示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明实施方案作进一步详细描述。
如图1流程图和图2模型框架图所示,本发明包括以下步骤:
步骤1:获取包含文本的场景图像,对其进行预处理,统一文本图像尺寸。
步骤2:通过特征提取组件对场景图像进行特征提取得到特征图Fr。
步骤2具体为:
所述特征提取组件主干网络使用ResNet残差结构进行卷积操作,通过分别设置4、8、16和32的步长分别可得到原场景图像1/4、1/8、1/16和1/32大小的特征图像,再用1×1的卷积将四个缩放的特征图的维度都削减为Ci,卷积后得到了一个比较薄的特征金字塔图Fr,其包含4个尺寸不同,维度相同的特征图。
步骤3:根据特征图Fr,通过特征金字塔增强组件让不同尺寸的特征信息充分融合,使深层特征更具表达能力。
如图3和图4所示,特征金字塔增强组件包含多个级联的特征金字塔增强网络FPEM,通过上采样与下采样不断融合的过程,使特征信息融合更加充分。
FPEM是一个上下两阶段的U型结构,分别是放大尺度增强阶段和缩小尺度增强阶段,两个阶段分别对应FEPM结构的输入网络和输出网络,其中放大尺度增强阶段对特征图从小到大进行增强迭代增强,缩小尺度增强阶段与放大尺度增强阶段方向相反,从大到小进行增强迭代增强。
在特征金字塔增强组件中,第一层FPME结构的输入是特征提取组件的输出的特征金字塔结构Fr,之后的每一层输入为上一层的输出,每一个FPEM网络会生成一个特征金字塔结构,经过n个FPEM级联操作后,组件中包含n个特征金字塔结构F1,F2,…,Fn,每个金字塔结构含有四个尺寸不同,维度都为Ci的特征图,这n个特征金字塔作为特征聚焦组件的输入参与特征聚焦操作。
步骤4:通过特征聚焦组件对来自特征金字塔增强网络的多个不同尺寸的深层特征图融合并进行特征聚焦操作,得到特征图Ff,聚焦操作就是让特征图中的文本区域通过增加权重的方式更为突出地显示的操作。
所述特征聚焦操作包含特征融合过程和特征聚焦过程。其中特征融合过程采用特征融合网络FFM对特征图进行融合,融合后再通过瓶颈注意力网络BAM对特征图中的文本特征进行特征聚焦操作,特征聚焦过程把通道注意力机制与空间注意力机制结合使用,对特征图中文本特征增强,使特征图中文本特征有更强的表达能力。
FFM网络结构如图4所示,其先把F1至Fn中尺寸相同的特征图进行相加操作,使其组成为一个包含4个尺寸不相同的特征图Fq,然后再对各不同尺寸特征图进行上采样并级联为一个特征图Ft。
接着对Ft进行特征聚焦操作,使用瓶颈注意力网络BAM进行聚焦,BAM网络结构如图5所示,其包含两个不同路径的注意力网络,分别是通道注意力网络和空间注意力网络。BAM结构上部分路径为通道注意力网络,下半部分为空间注意力网络,特征图Ft分别输入这两个路径,通过两路径分别生成通道注意力权重Mc(Ft)和空间注意力权重Ms(Ft),其尺寸分别为C×1×1和1×H×W,接着把两尺寸都扩展为C×H×W并进行相加操作,然后通过Sigmoid激活函数得到BAM注意力权重M(Ft),此权重与输入Ft相乘并组成一个残差结构作为总的特征图输出Ff,其计算过程下所示:
M(Ft)=σ(Mc(Ft)+Ms(Ft)) (1)
其中σ为激活函数sigmoid操作符,指点乘。
对于通道注意力路径,其关注点在于特征图中各通道之间的关系,每个不同的通道分别包含不同的特征响应,其通过对不同通道训练权重,让对预测结果有用的通道权重增大,削弱无用通道权重。其具体操作为先对输入特征图Ft进行全局平均池化AvgPool操作,得到其通道向量Fc,其维度为输入特征图通道数C,高度和宽度都为1,此向量是特征图在通道尺度对全局信息的映射,为了训练各通道权重,在池化层后构建了一个多层感知器MLP,其包含两层全连接层,对特征向量进行压缩与扩展操作,其压缩系数为16,通过这两层全连接层,可使特征向量映射为各通道权重值。感知器后再使用批归一化层BN进行归一化操作,得到通道注意力权重Mc(Ft)。通道注意力权重计算过程如下所示:
Mc(Ft)=BN(MLP(AvgPool(Ft))) (3)
对于空间注意力网络,其关注的是分布在特征图不同位置的特征,可以强调或抑制图像中不同位置的特征。在空间注意力网络中使用了膨胀卷积来扩大卷积范围,增大感受野。空间注意力网络先对输入特征图做1×1的普通卷积,进行降维操作,降维后维度为C/16,接着使用两个卷积核尺寸为3×3的膨胀卷积来提取图像上下文特征,以扩大感受范围,然后再使用1×1的卷积将特征图维度降为1,此时生成空间注意力权重Ms(Ft),其尺寸为1×H×W,最后使用批标准化网络BN进行尺度调整。空间注意力权重计算过程如下所示:
其中指空间注意力网络中的第一个卷积核尺寸为1×1的普通卷积操作;和/>分别指两个卷积核尺寸为3×3的膨胀卷积操作;/>指最后一个卷积核尺寸为1×1的普通卷积。
步骤5:通过文本框预测组件对上层结构输出的特征图Ff进行预测,找出文本所在位置。
所述文本框预测组件对特征图Ff进行预测,得到文本所在位置。传统基于图像分割的算法在文本框预测阶段时,直接通过特征图预测得到一个概率图,再设置一个固定阈值,接着从概率图得到标准二值图,然后使用文本框生成算法得到预测结果。而对于可微分二值化模块DB,其操作方式为先通过特征图预测概率图P和自适应阈值图T,接着使用近似阶跃函数替代传统二值化过程,其二值化过程可微,以使此二值化过程能加入模型训练中,从而生成近似二值图B。
通过具有自适应阈值的可微二值化操作来提升模型区分文本区域与背景的能力,并且可以帮助分离密集型文本实例。
在训练时,对概率图、阈值图和近似二值图都使用监督,并且概率图与近似二值图使用相同的监督,对文本框预测组件中的自适应阈值图采用类似文本边界的监督。在模型推理时,直接从概率图或近似二值图中直接使用文本框计算公式生成结果。
将特征图Ff经过卷积网络输出概率图以及阈值图,结合概率图以及阈值图通过可微分二值化(DB),得到近似二值图。
设定一个二值化阈值,将近似二值图二值化,得到二值图,然后通过二值图中连接区域得文本框。
将文本框与输入图像进行叠加,得到输出图像。
为了使二值化过程可微,在可微分二值化(DB)操作时,引入近似阶跃函数,通过近似阶跃函数实现可微分二值化操作,可微二值化计算如下所示:
其中,指近似二值映射图,T是通过特征图预测的自适应阈值图,i与j代表图中某点坐标,k是近似阶跃函数的放大因子取50。
特征提取组件、特征金字塔增强组件、特征聚焦组件和文本框预测组件构成文本检测模型FB-DB,FB-DB模型在文本框预测组件中需要对概率图、阈值图以及近似二值图进行监督,故需要对其生成对应监督的标签,其标签生成过程如图6所示。
每个文本图像的文本区域可以用多条线段表示,如下所示:
其中m代表文本区域的顶点数量,S指线段,k指第几条,采用Vatti裁剪(瓦蒂裁剪,常用的多边形裁剪算法)方法的对文本区域G进行缩小,缩小后区域为Gs,其作为概率图和近似二值图训练的标签,其收缩的偏移量D的计算过程如下所示:
其中,A,L分别为文本区域的面积和周长,r是收缩率,取0.4。
阈值图的标签与概率图标签生成方式类似,先对初始文本区域G进行扩展,其扩展的偏移量与收缩偏移量D的大小相同,扩展后区域为Gd,则文本区域的边界为收缩区域Gs与扩张区域Gd之间的部分,最后,通过计算当前要计算阈值的位置到初始文本区域G中最近距离生成阈值图的标签。
FB-DB文本检测模型在文本框预测组件中分别对概率图、近似二值图和阈值图进行了监督,并且在训练阶段进行联合优化,故模型的损失函数由这三部分组成。
模型中概率图和近似二值图使用相同的标签进行监督,其损失计算方式相同模型使用二值交叉熵(BCE)计算其损失。概率图和近似二值图损失的计算方法如下所示:
其中Ls,Lb分别代表概率图和近似二值图的损失,yi代表样本i的标签,正样本为1,负样本为0,pi指样本i预测为正样本的概率,E指采样集。
阈值图标签通过计算所在位置到文本区域G的距离生成,故阈值图损失为扩张后的区域Gd中的L1损失,既预测结果与标签之间的曼哈顿距离之和,其计算如下所示:
其中Lt为阈值图损失,K为扩张文本区域Gd中像素的聚合,i指K中某一像素,y*与x*分别指阈值图标签与阈值图预测结果。
FB-DB检测模型的总损失由概率图损失、近似二值图损失以及阈值图损失三部分组成,其计算如下所示:
L=Ls+α×Lb+β×Lt (10)
其中L指模型总损失,α、β分别是近似二值图和阈值图损失的系数,分别为1和10。
生成文本框时先设定一个固定阈值,对近似二值图进行二值化得到二值图,接着通过二值图得到图中连接区域,由于近似二值图的监督是缩小后的文本区域,故此时生成的是文本区域需要进行放大操作,继续使用Vatti裁剪算法对生成的文本区域放大,其放大偏移量为D1,其计算如下所示:
其中,A1与L1分别为扩张前文本区域的面积和周长,r1为放大率,取1.5。扩大后的区域就是文本所在位置,接着通过文本框生成算法得到文本框并叠加到输入图像,以此作为模型输出。
在模型推理时,可直接使用概率图生成文本框,其原因是概率图与近似二值图使用相同的监督,在经过大量联合训练后,模型概率图和近似二值图已基本趋于一致,这样的操作可以减少模型推理时的时间损耗,加快模型推理速度。推理时的文本框生成过程与训练时相同,只需要直接从概率图进行以上二值化和文本区域扩大的操作。
本发明实验在ICDAR2015数据集和MSRA-TD500数据集进行。ICDAR2015数据集包含1500张图像,其中训练集包含1000张图像,测试集包含500张图像,其图像涵盖多种文本类型,大多由谷歌眼镜拍摄于商场、车站、超市等复杂环境,图像分辨率为720×1280,标签中在单词级别标注文本实例。MSRA-TD500数据集是一种多方向文本数据集,数据采集于街道、商场、门牌等场景,包含共500张图像,其中测试集300张,训练集200张,数据集包含中英文文本格式,最大特点是以行为单位进行文本标注,可以检测模型对长文本的检测能力,在训练中为MSRA-TD500的训练集添加HUST-TR400的400张图像以增大训练数据。实验结果如下表所示:
表1ICDAR2015数据集结果对比表
表2MSRA-TD500数据集结果对比表
实验评价指标Precision代表模型所有预测中预测正确文本框所占预测框个数的比例,Precision值越高,表示模型的所有预测中,正确的预测占比越高。Recall代表模型预测文本框正确的个数占所有给定的标注框的比例,其可以衡量模型找全文本框的能力。为了综合评估模型的精确率和召回率,引入F1对模型进行总的评价。通过实验结果可以看出,在ICDAR2015数据集上,FB-DB相较于其基准检测模型DBNet,F1值提升了0.7%。在MSRA-TD500数据集上,FB-DB相较于其基准模型DBNet在F1值上提升了2.6%。实验说明本发明相较于涉及的其他模型有更高的文本检测精度。使用本发明中涉及的场景文本检测方法,检测结果示意图如图7所示,可以看出本发明能精确检测图像中文本所在区域。
Claims (8)
1.一种基于图像分割的场景文本检测方法,其特征在于,包括如下步骤:
步骤1:获取包含文本的自然场景图像,对其进行预处理;
步骤2:通过特征提取组件对预处理后的自然场景图像进行特征提取,得到特征图Fr;
步骤3:根据特征图Fr,通过特征金字塔增强组件让特征图中不同尺寸的特征信息进行融合,得到多个不同尺寸的深层特征图;
步骤4:通过特征聚焦组件对多个不同尺寸的深层特征图进行融合,并进行特征聚焦操作得到特征图Ff;
步骤5:通过文本框预测组件对特征图Ff进行预测,找出文本所在位置。
2.根据权利要求1所述的一种基于图像分割的场景文本检测方法,其特征在于,在步骤1中,所述预处理为:统一自然场景图像尺寸。
3.根据权利要求2所述的一种基于图像分割的场景文本检测方法,其特征在于,在步骤2中,所述特征提取组件由残差网络构成。
4.根据权利要求3所述的一种基于图像分割的场景文本检测方法,其特征在于,在步骤3中,所述特征金字塔增强组件包含若干个级联的特征金字塔增强网络FPEM;
所述FPEM是一个上下两阶段的U型结构,分别是放大尺度增强阶段和缩小尺度增强阶段,其中放大尺度增强阶段对特征图从小到大进行增强迭代增强,缩小尺度增强阶段与放大尺度增强阶段相反,从大到小进行增强迭代增强。
5.根据权利要求4所述的一种基于图像分割的场景文本检测方法,其特征在于,所述特征图进行融合的过程采用特征融合网络FFM完成;
所述特征聚焦操作采用通道注意力机制与空间注意力机制结合的网络完成。
6.根据权利要求5所述的一种基于图像分割的场景文本检测方法,其特征在于,步骤5具体过程如下:
5.1、将特征图Ff经过卷积网络输出概率图以及阈值图,结合概率图以及阈值图通过可微分二值化DB,得到近似二值图;
5.2、设定一个二值化阈值,将近似二值图二值化,得到二值图,然后通过二值图中连接区域得文本框;
5.3、将文本框与输入图像进行叠加,得到输出图像。
7.根据权利要求6所述的一种基于图像分割的场景文本检测方法,其特征在于,所述特征提取组件、特征金字塔增强组件、特征聚焦组件和文本框预测组件构成文本检测模型;
训练所述模型的总损失由概率图损失、近似二值图损失以及阈值图损失三部分组成,如下所示:
L=Ls+α×Lb+β×Lt
其中L指文本检测模型总损失,α、β分别是近似二值图和阈值图损失的系数,Ls为概率图的损失;
所述概率图和近似二值图损失为二值交叉熵损失,阈值图损失为预测结果与标签之间的曼哈顿距离之和。
8.根据权利要求7所述的一种基于图像分割的场景文本检测方法,其特征在于,所述概率图、近似二值图以及阈值图计算损失使用的标签获取过程如下:
每个自然场景图像的文本区域用多条线段表示,如下所示:
其中m代表文本区域的顶点数量,S指线段,k指第几条,采用瓦蒂Vatti裁剪算法的对文本区域G进行缩小,缩小后区域为Gs,其作为概率图和近似二值图训练的标签,其收缩的偏移量D的计算过程如下所示:
其中,A,L分别为文本区域的面积和周长,r是收缩率;
阈值图的标签采用瓦蒂Vatti裁剪算法先对文本区域G进行扩展,其扩展的偏移量与收缩偏移量D的大小相同,扩展后区域为Gd,则文本区域的边界为收缩区域Gs与扩张区域Gd之间的部分,通过计算当前要计算阈值的位置到文本区域G中最近距离生成阈值图的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310464879.4A CN116486393A (zh) | 2023-04-27 | 2023-04-27 | 一种基于图像分割的场景文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310464879.4A CN116486393A (zh) | 2023-04-27 | 2023-04-27 | 一种基于图像分割的场景文本检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486393A true CN116486393A (zh) | 2023-07-25 |
Family
ID=87226595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310464879.4A Pending CN116486393A (zh) | 2023-04-27 | 2023-04-27 | 一种基于图像分割的场景文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486393A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994264A (zh) * | 2023-08-03 | 2023-11-03 | 深圳市博锐高科科技有限公司 | 一种文本识别方法、芯片及终端 |
CN117576699A (zh) * | 2023-11-06 | 2024-02-20 | 华南理工大学 | 一种基于深度学习的机车工单信息智能识别方法及系统 |
-
2023
- 2023-04-27 CN CN202310464879.4A patent/CN116486393A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994264A (zh) * | 2023-08-03 | 2023-11-03 | 深圳市博锐高科科技有限公司 | 一种文本识别方法、芯片及终端 |
CN117576699A (zh) * | 2023-11-06 | 2024-02-20 | 华南理工大学 | 一种基于深度学习的机车工单信息智能识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10740640B2 (en) | Image processing method and processing device | |
CN110322495B (zh) | 一种基于弱监督深度学习的场景文本分割方法 | |
CN110414344B (zh) | 一种基于视频的人物分类方法、智能终端及存储介质 | |
CN116486393A (zh) | 一种基于图像分割的场景文本检测方法 | |
CN110942471B (zh) | 一种基于时空约束的长时目标跟踪方法 | |
CN110765833A (zh) | 一种基于深度学习的人群密度估计方法 | |
CN111353544B (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN112465759A (zh) | 一种基于卷积神经网络的航空发动机叶片缺陷检测方法 | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN114266794B (zh) | 基于全卷积神经网络的病理切片图像癌症区域分割系统 | |
CN113313810A (zh) | 一种透明物体的6d姿态参数计算方法 | |
CN116310850B (zh) | 基于改进型RetinaNet的遥感图像目标检测方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN114529462A (zh) | 一种基于改进YOLO V3-Tiny的毫米波图像目标检测方法及系统 | |
CN114998756A (zh) | 一种基于yolov5的遥感图像检测方法、装置及存储介质 | |
CN113724267B (zh) | 一种乳腺超声图像肿瘤分割方法及装置 | |
CN114881286A (zh) | 一种基于深度学习的短时降水预测方法 | |
CN113688826A (zh) | 基于特征融合的花粉图像检测方法及系统 | |
CN116563285B (zh) | 一种基于全神经网络的病灶特征识别与分割方法及系统 | |
Kajabad et al. | YOLOv4 for urban object detection: Case of electronic inventory in St. Petersburg | |
CN111861916A (zh) | 病理图片的处理方法 | |
CN115471718A (zh) | 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法 | |
CN114241470A (zh) | 一种基于注意力机制的自然场景文字检测方法 | |
CN114565753A (zh) | 一种基于改进YOLOv4网络的无人机小目标识别方法 | |
CN114820423A (zh) | 一种基于显著性目标检测的自动抠图方法及其配套系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |