CN116052149A - 一种基于CS-ABCNet的电力塔牌检测识别方法 - Google Patents
一种基于CS-ABCNet的电力塔牌检测识别方法 Download PDFInfo
- Publication number
- CN116052149A CN116052149A CN202310020106.7A CN202310020106A CN116052149A CN 116052149 A CN116052149 A CN 116052149A CN 202310020106 A CN202310020106 A CN 202310020106A CN 116052149 A CN116052149 A CN 116052149A
- Authority
- CN
- China
- Prior art keywords
- abcnet
- image
- feature
- convolution
- tower plate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于CS‑ABCNet的电力塔牌检测识别方法,包括如下步骤:步骤1:采集输电铁塔标识牌数据集;步骤2:使用索贝尔算子,对数据集进行预处理,分别从横向和纵向两个方向计算图像中物体的边缘信息;步骤3:在ABCNet的Backbone使用ReXNet进行特征提取,以达到网络模型轻量化的目的。这种方法针能对塔牌特征进行图像预处理,优化网络结构,使用轻量级卷积神经网络获得特征图,检测头引入注意力模块CBAM,提高了塔牌的识别精度和性能。
Description
技术领域
本发明属于计算机视觉和图像检测领域,具体为一种基于CS-ABCNet的电力塔牌检测识别方法。
背景技术
电力铁塔是铺设输电导线的必要支撑结构,是电网的线路的重要节点,也是电力公用事业中使用量最大,最重要的商业资产。同时,在铁塔周围建有重要的电力设施,因此定期检测铁塔本身的稳固状态,只能在发生严重电网故障时才会发现,传统的人工巡检方式无法准确把握电力线路的状态,这将严重影响电网的稳定性。随着无人机的广泛应用,使用无人机对输电铁塔,线路进行拍摄,通过以深度学习算法为核心的自动巡检成为了当前电力巡检的新方式,也将成为电力巡检重要的检测手段。
由无人机拍摄的图像难以确定所拍摄线路中有故障的输电铁塔的具体位置,当前基于RFID的电子标签与基于二维码识别的自动识别技术已经应用到电力自动巡检中,但这二种方式都存在必须要对现有设备进行改造,从而会增加较高成本。黄肖为等(黄肖为,吴健儿,倪晓璐,周铭权,孟庆铭,陈静怡.基于机器视觉的电力线路杆塔标牌自动识别方法研究[J].科技创新与应用,2018(03):84-85.)考虑到电力线路杆塔都具有标牌,利用输电塔标识牌中的唯一性编号来进行定位,通过传统的图像处理技术进行图像分割与字符提取,然后使用标准字库进行对比来识别光学字符,以此来获得输电铁塔的位置信息。但使用传统的图像处理技术存在着自然场景下的文本检测精度差,通用性差的特点。而由无人机拍摄的电力铁塔图片,背景多样,且受季节变化影响,难以做到不同背景下对标识牌的精准检测和识别。
上述的三种方式都可定位到输电铁塔具体位置,却存在使用成本高,计算速度慢,检测识别精度差等问题。
发明内容
本发明的目的是为解决上述问题,综合考虑计算和内存成本、网络轻量级和识别精度等几个方面,最终以ABCNet作为基础网络进行改进,而提出一种基于CS-ABCNet的电力塔牌检测识别方法,此方法针对塔牌特征进行图像预处理,优化网络结构,使用轻量级卷积神经网络获得特征图,检测头引入注意力模块CBAM,对塔牌的识别精度和性能都有更好的表现。
实现本发明目的的技术方案是:
一种基于CS-ABCNet的电力塔牌检测识别方法,包括如下步骤:
步骤1:采集输电铁塔标识牌数据集,将数据集按8:2的比例分为训练和测试集;
步骤2:使用索贝尔算子,对数据集进行预处理,分别从横向和纵向两个方向计算图像中物体的边缘信息,根据塔牌有鲜明底色,形状多为矩形,与背景图有鲜明的差异,边缘部分灰度值变化剧烈的特点,使用索贝尔算子来确定塔牌和塔牌中文字的边缘信息,同时减少背景中不必要的边缘信息,使用索贝尔算子对传进来的图像像素做卷积,求横向和纵向的梯度值,然后对生成的新像素灰度值做阈值运算,以此来确定边缘信息;
步骤3:在ABCNet的Backbone使用ReXNet进行特征提取,以达到网络模型轻量化的目的,同时克服原模型中的Representational Bottleneck问题,且在检测阶段引入卷积注意力模块CBAM,从特征图的通道和空间两个维度提高目标信息权重,得到CS-ABCNet网络模型;将步骤2得到图像送入CS-ABCNet模型中,通过特征提取,特征融合送入检测分支进行检测,然后对检测到的文本区域进行矫正,最后将矫正过后的特征图送入识别分支进行文本识别,将识别结果与数据集中标注结果对比,计算损失函数,通过反向传播算法对CS-ABCNet网络模型进行训练,对CS-ABCNet网络模型中的参数打包成权重文件,将塔牌图片输入到模型中,利用得到的权重文件,输出图片中塔牌中的文本信息。
所述步骤1中采集输电铁塔标识牌数据集的采集过程为:
操控无人机用高清摄像机拍摄输电铁塔图像,对原始图像采用镜像翻转、垂直翻转、逆时针45°翻,随机使用4张图片,随机缩放,再随机分布进行拼接、随机的将样本中的部分区域去掉,并且采用填充0像素值方法进行图像数据增强,以此构建数据集;再用数据标注工具LabelImg对所有图像进行标注,标注图像中的文本区域和文本内容。
所述步骤2中使用索贝尔算子,对数据集进行预处理,分别从横向和纵向两个方向计算图像中物体的边缘信息的过程为:
对图像像素做卷积,求横向和纵向的梯度值,然后对生成的新像素灰度值做阈值运算,以此来确定边缘信息,图像的每一个像素的横向及纵向灰度值通过公式(2)结合,来计算该点灰度的大小,为了提高效率使用不开平方的近似值,使用公式(1)进行计算:
其中Gx及Gy分别代表经横向及纵向边缘检测的图像灰度值,A为输入图片;
公式(2)计算梯度方向:
其中G为图像的每一个像素的横向及纵向灰度值;
对得到的带有边缘信息的图像拼接到原图片中,即通道数为4,每张图为h×w×4。
所述步骤3中在ABCNet的Backbone使用ReXNet进行特征提取的过程为:
将网络模型的第一层CONV标准卷积层改为Depthwise(DW)卷积与Pointwise(PW)卷积,以此降低模型大小,参数复杂度是原模型的1/k2,参数复杂度计算方式如公式(3):
同时更换卷积神经网络的激活函数Relu,使用Swish函数作为激活函数,如公式(4):
f(x)=x·sigmoid(βx) (4),
其中β=0时,Swish激活函数变为线性函数f(x)=x/2,当β=∞时,Swish激活函数变为0或x。
将得到的特征图使用经典的FPN网络进行特征融合,对特征图进行自顶向下及侧向连接:自顶向下的过程通过上采样的方式将顶层的小特征图放大到上一个stage的特征图一样的大小,这样的好处是既利用了顶层较强的语义特征,利于分类,又利用了底层的高分辨率信息更加利于定位;上采样的方法用最近邻差值实现,为了将高层语义特征和底层的精确定位能力结合,采用类似于残差网络的侧向连接结构,侧向连接将上一层经过上采样后和当前层分辨率一致的特征,通过相加的方法进行融合;
将经过特征融合的特征图送入检测分支进行分类,输入为FPN生成的P3,P4,P5,P6,P7特征图,送入后续的检测头Head,每个Head包含3个分支:
classification分支:预测类别,图中的C表示类别数,相当于C个二分类。
regression分支:回归位置表示为:l,t,r,b,预测锚点到检测框上下左右四条边界的距离。
center-ness:中心度,一个锚点对应一个中心度,用于锚点相对于检测框中心性的判断。所述步骤3中将矫正过后的特征图送入识别分支进行文本识别的过程为:
在检测子网络Head中,分类分支和回归分支都先经过了4个卷积层进行了特征强化,在这两个分支的卷积中都加入CBAM注意力模块,根据任务不同提高不同的权重,对得到的特征图P3,P4,P5,P6,P7送入到识别分支,输入大小为h×w×256,在卷积的过程中引入卷积注意力模块CBAM,特征图进入CBAM的CAM模块中,通过最大池化生成含有目标独有特征的特征图通过平均池化得到含有全局信息的特征图将它们送入多层感知器(MLP)神经网络处理,并对所得的两个新特征图进行加操作、激活函数激活处理,得到通道注意力特征图Mc(F),如公式(5)所示:
将特征图F与Mc(F)进行像素级相乘得到F′,如公式(6)所示:
特征图F′作为SAM的输入,在分别经过平均池化和最大池化操作后得到两个不同特征描述将它们拼接起来突出目标区域,经过一个7×7的卷积将通道数降维为1,同样经过Sigmoid函数后,得到空间注意力特征图MS(F),如公式(7)所示:
将特征图F′与MS(F)进行像素级相乘得到F”,如公式(8)所示:
在分类分支中,既包含正、负样本锚点的类别预测分支,又包含正、负样本锚点中心性判断的center-ness分支,用来强化检测结果;回归分支用来回归正样本锚点到检测框上、下、左、右四个边界的距离,由于Head总共有三个输出分支:Classification、Regression和Center-ness,所以计算的损失函数为三个分支损失函数的和。
经过检测分支检测到文本区域,对文本区域使用BezierAlign层进行矫正,给定一个输入特征图和Bezier曲线控制点,同时处理长方形的输入特征图的所有输入像素值,特征图的尺寸为hout×wout像素gi的坐标为(giw,gih),通过公式(9)经行计算:
然后使用t和公式(10)计算文本区域的上边界点tp和下边界bp,
使用tp和bp,可以通过公式(11)检索采样点op:
文本识别阶段采用轻量级网络模型,使用4层卷积网络和一层BLSTM,将经过矫正的文本区域送入识别模型中进行编码,其解码采用轻量级的注意力机制,输出识别结果。
本技术方案具有以下有益效果:
1.本技术方案方法中的CS-ABCNet模型能够准确检测识别输电铁塔标识牌;
2.本技术方案方法使用索贝尔算计对输入图像经行预处理,可以有效找到塔牌的边缘和其中的文字边缘,同时可以忽略背景中细小的物体边缘,提高检测识别精度。
3.本技术方案方法使用ReXNet卷积神经网络进行特征提取,相比于原模型有效降低了模型规模,提高模型性能。
4.本技术方案方法使用CBAM模块嵌入到检测分支,通过注意力机制提高输电铁塔标识牌得分,提高检测精确率。
这种方法针能对塔牌特征进行图像预处理,优化网络结构,使用轻量级卷积神经网络获得特征图,检测头引入注意力模块CBAM,提高了塔牌的识别精度和性能。
附图说明
图1是实施例的流程图;
图2是实施例中CS-ABCNet的网络结构示意图;
图3是实施例中CBAM的结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
实施例:
参照图1,一种基于CS-ABCNet的电力塔牌检测识别方法,包括如下步骤:
步骤1:采集输电铁塔标识牌数据集,将数据集按8:2的比例分为训练和测试集;
步骤2:使用索贝尔算子,对数据集进行预处理,分别从横向和纵向两个方向计算图像中物体的边缘信息,根据塔牌有鲜明底色,形状多为矩形,与背景图有鲜明的差异,边缘部分灰度值变化剧烈的特点,使用索贝尔算子来确定塔牌和塔牌中文字的边缘信息,同时减少背景中不必要的边缘信息,使用索贝尔算子对传进来的图像像素做卷积,求横向和纵向的梯度值,然后对生成的新像素灰度值做阈值运算,以此来确定边缘信息;
步骤3:在ABCNet的Backbone使用ReXNet-50进行特征提取,以达到网络模型轻量化的目的,同时克服原模型中的Representational Bottleneck问题,且在检测阶段引入卷积注意力模块CBAM,从特征图的通道和空间两个维度提高目标信息权重,得到CS-ABCNet网络模型,CS-ABCNet网络模型图如图2所示;将步骤2得到图像送入CS-ABCNet模型中,通过特征提取,特征融合送入检测分支进行检测,然后对检测到的文本区域进行矫正,最后将矫正过后的特征图送入识别分支进行文本识别,将识别结果与数据集中标注结果对比,计算损失函数,通过反向传播算法对CS-ABCNet网络模型进行训练,对CS-ABCNet网络模型中的参数打包成权重文件,将塔牌图片输入到模型中,利用得到的权重文件,输出图片中塔牌中的文本信息。
所述步骤1中采集输电铁塔标识牌数据集的采集过程为:
操控无人机用高清摄像机拍摄输电铁塔图像,对原始图像采用镜像翻转、垂直翻转、逆时针45°翻,随机使用4张图片,随机缩放,再随机分布进行拼接、随机的将样本中的部分区域去掉,并且采用填充0像素值方法进行图像数据增强,以此构建数据集;再用数据标注工具LabelImg对所有图像进行标注,标注图像中的文本区域和文本内容。
所述步骤2中使用索贝尔算子,对数据集进行预处理,分别从横向和纵向两个方向计算图像中物体的边缘信息的过程为:
对图像像素做卷积,求横向和纵向的梯度值,然后对生成的新像素灰度值做阈值运算,以此来确定边缘信息,图像的每一个像素的横向及纵向灰度值通过公式(2)结合,来计算该点灰度的大小,为了提高效率使用不开平方的近似值,使用公式(1)进行计算:
其中Gx及Gy分别代表经横向及纵向边缘检测的图像灰度值,A为输入图片;
公式(2)计算梯度方向:
其中G为图像的每一个像素的横向及纵向灰度值;
对得到的带有边缘信息的图像拼接到原图片中,即通道数为4,每张图为h×w×4。
所述步骤3中在ABCNet的Backbone使用ReXNet进行特征提取的过程为:
本利首先对输入的图像进行大小变换,最小边区间为(640,672,704,736,768,800,832,864,896),即h和w哪一个最接近区间中的某个值,则对输入图片进行等比例缩放,然后对缩放后的图片进行特征提取,使用ReXNe-50t作为模型的特征提取网络,将网络模型的第一层CONV标准卷积层改为Depthwise(DW)卷积与Pointwise(PW)卷积,以此降低模型大小,参数复杂度是原模型的1/k2,参数复杂度计算方式如公式(3):
同时更换卷积神经网络的激活函数Relu,使用Swish函数作为激活函数,如公式(4):
f(x)=x·sigmoid(βx) (4),
其中β=0时,Swish激活函数变为线性函数f(x)=x/2,当β=∞时,Swish激活函数变为0或x。
得到不同state的特征图c2,c3,c4,c5,将c3,c4,c5送入FPN进行特征融合得到P3,P4,P5,上采样的方法用最近邻差值实现,使特征图宽高变为2倍,横向连接时,先对原特征图进行1×1卷积操作调整通道数至d,然后与新特征图进行加法操作,二者的通道数均为d,对于最顶层的新特征图,是由原特征图直接进行1×1卷积操作,调整通道数至d,并在c5上继续卷积得到P6,P7;
将经过特征融合的特征图P3,P4,P5,P6,P7送入检测分支进行分类,送入后续的检测头Head,每个Head包含3个分支:
classification分支:预测类别,图中的C表示类别数,相当于C个二分类。
regression分支:回归位置表示为:l,t,r,b,预测锚点到检测框上下左右四条边界的距离。
center-ness:中心度,一个锚点对应一个中心度,用于锚点相对于检测框中心性的判断。所述步骤3中将矫正过后的特征图送入识别分支进行文本识别的过程为:
在检测子网络Head中,分类分支和回归分支都先经过了4个卷积层进行了特征强化,在这两个分支的卷积中都加入CBAM注意力模块,CBAM结构图如图3所示,根据任务不同提高不同的权重,输入大小为h×w×256,在卷积的过程中引入卷积注意力模块CBAM,特征图进入CBAM的CAM模块中,通过最大池化生成含有目标独有特征的特征图通过平均池化得到含有全局信息的特征图将它们送入多层感知器(MLP)神经网络处理,并对所得的两个新特征图进行加操作、激活函数激活处理,得到通道注意力特征图Mc(F),如公式(5)所示:
将特征图F与Mc(F)进行像素级相乘得到F′,如公式(6)所示:
特征图F′作为SAM的输入,在分别经过平均池化和最大池化操作后得到两个不同特征描述将它们拼接起来突出目标区域,经过一个7×7的卷积将通道数降维为1,同样经过Sigmoid函数后,得到空间注意力特征图MS(F),如公式(7)所示:
将特征图F′与MS(F)进行像素级相乘得到F”,如公式(8)所示:
然后将得到的特征图送入classification分支,regression分支,同时求出center-ness,在分类分支中,既包含正、负样本锚点的类别预测分支,又包含正、负样本锚点中心性判断的center-ness分支,用来强化检测结果;回归分支用来回归正样本锚点到检测框上、下、左、右四个边界的距离,由于Head总共有三个输出分支:Classification、Regression和Center-ness,损失由分类损失Lcls、定位损失Lres以及center-ness损失Lctrness三部分共同组成,如公式(14):
其中:
Px,y表示在特征图(x,y)点处预测的每个类别的score;
C* x,y表示在特征图(x,y)点处对应的真是类别标签;
tx,y表示在特征图(x,y)点处预测的目标边界框信息;
t* x,y表示在特征图(x,y)点对应的真实目标边界框信息;
sx,y表示在特征图(x,y)点处预测的center-ness;
s* x,y表示在特征图(x,y)点对应的真实center-ness。
经过检测分支检测到文本区域,对文本区域使用BezierAlign层进行矫正,给定一个输入特征图和Bezier曲线控制点,同时处理长方形的输入特征图的所有输入像素值,特征图的尺寸为hout×wout像素gi的坐标为(giw,gih),通过公式(9)经行计算:
然后使用t和公式(10)计算文本区域的上边界点tp和下边界bp,
使用tp和bp,可以通过公式(11)检索采样点op:
文本识别阶段采用采用轻量级网络模型,使用4层卷积网络、一个双线性LSTM层和一个全链接层,基于输出的分类分数,使用经典的CTC-loss来做字符对齐。长短期记忆网络LSTM是RNN的一种变体,其核心概念在于细胞状态以及“门”结构。细胞状态相当于信息传输的路径,让信息能在序列连中传递下去。因此,即使是较早时间步长的信息也能携带到较后时间步长的细胞中来,这克服了短时记忆的影响。信息的添加和移除通过“门”结构来实现,“门”结构在训练过程中会去学习该保存或遗忘哪些信息。门分为遗忘门、输入门和输出门。遗忘门决定应丢弃或保留哪些信息。来自前一个隐藏状态的信息和当前输入的信息同时传递到sigmoid函数中去,输出值介于0和1之间,越接近0意味着越应该丢弃,越接近1意味着越应该保留。如公式(15)所示:
ft=σ(Wf·[ht-1,Xt]+bf) (15),
输入门用于更新细胞状态。首先将前一层隐藏状态的信息和当前输入的信息传递到sigmoid函数中去。将值调整到0-1之间来决定要更新哪些信息,0表示不重要,1表示重要。其次还要将前一层隐藏状态的信息和当前输入的信息传递到tanh函数中去,创造一个新的侯选值向量。最后将sigmoid的输出值与tanh的输出值相乘,sigmoid的输出值将决定tanh的输出值中哪些信息是重要且需要保留下来的。输出门用来确定下一个隐藏状态的值,隐藏状态包含了先前输入的信息。先将前一个隐藏状态和当前输入传递到sigmoid函数中,然后将新得到的细胞状态传递给tanh函数。最后将tanh的输出与sigmoid的输出相乘,以确定隐藏状态应携带的信息。再将隐藏状态作为当前细胞的输出,把新的细胞状态和新的隐藏状态传递到下一个时间步长中。
将经过矫正的文本区域送入识别模型中识别文本内容。使用基于注意力机制的Encoder-Decoder框架进行字符对齐。利用Encoder所有隐藏层状态解决Context长度限制问题。Context vector随着decode的不同时刻,内容是动态变化的。用decode每一个时刻的隐藏层输出去和encode的所有时刻的隐藏层输出计算一个attention score,即decode当前时刻和enocde的每一个时刻的相关性,相关性大的计算的权重就大,最后对enocde的隐藏层做一个加权和作为decode当前时刻的context vecto,这个context vector和decode的隐藏层做拼接然后接个全连接层,使维度一致,作为decode当前时刻的输出。
性能评估
以准确率和识别速度作为评价指标,使用相同数据集在相同的实验环境下,将ABCNet网络模型与CS-ABCNet网络模型做对比检测结果如表1所示:
表1改进模型前后性能对比
网络模型 | hmean | fps |
ABCNet | 0.74.3 | 22.8 |
ABCNet V2 | 0.77.4 | 27.6 |
CS-ABCNet | 0.836 | 19.7 |
从表1可以看出CS-ABCNet模型在检测的精确度和识别速度上都有提升。其原因是针对塔牌特点,使用索贝尔算子对输入图像进行边缘计算,将预处理的图像拼接到原图片中,增强图片中的塔牌信息,同时使用ReXNet-50特征提取网络,有效降低了模型规模,提高模型推理速度,同时在检测分支引入注意力模块CBAM,有效提高了识别准确率。
Claims (5)
1.一种基于CS-ABCNet的电力塔牌检测识别方法,其特征在于,包括如下步骤:
步骤1:采集输电铁塔标识牌数据集,将数据集按8:2的比例分为训练和测试集;
步骤2:使用索贝尔算子,对数据集进行预处理,分别从横向和纵向两个方向计算图像中物体的边缘信息,根据塔牌有鲜明底色,形状多为矩形,与背景图有鲜明的差异,边缘部分灰度值变化剧烈的特点,使用索贝尔算子来确定塔牌和塔牌中文字的边缘信息,同时减少背景中不必要的边缘信息,使用索贝尔算子对传进来的图像像素做卷积,求横向和纵向的梯度值,然后对生成的新像素灰度值做阈值运算,以此来确定边缘信息;
步骤3:在ABCNet的Backbone使用ReXNet进行特征提取,以达到网络模型轻量化的目的,同时克服原模型中的Representational Bottleneck问题,同时在检测阶段引入卷积注意力模块CBAM,从特征图的通道和空间两个维度提高目标信息权重,得到CS-ABCNet网络模型;将步骤2得到图像送入CS-ABCNet模型中,通过特征提取,特征融合送入检测分支进行检测,然后对检测到的文本区域进行矫正,最后将矫正过后的特征图送入识别分支进行文本识别,将识别结果与数据集中标注结果对比,计算损失函数,通过反向传播算法对CS-ABCNet网络模型进行训练,对CS-ABCNet网络模型中的参数打包成权重文件,将塔牌图片输入到模型中,利用得到的权重文件,输出图片中塔牌中的文本信息。
2.根据权利要求1所述的基于CS-ABCNet的电力塔牌检测识别方法,其特征在于,所述步骤1中采集输电铁塔标识牌数据集的采集过程为:
操控无人机用高清摄像机拍摄输电铁塔图像,对原始图像采用镜像翻转、垂直翻转、逆时针45°翻,随机使用4张图片,随机缩放,再随机分布进行拼接、随机的将样本中的部分区域去掉,并且采用填充0像素值方法进行图像数据增强,以此构建数据集;再用数据标注工具LabelImg对所有图像进行标注,标注图像中的文本区域和文本内容。
3.根据权利要求1所述的基于CS-ABCNet的电力塔牌检测识别方法,其特征在于,所述步骤2中使用索贝尔算子,对数据集进行预处理,分别从横向和纵向两个方向计算图像中物体的边缘信息的过程为:
对图像像素做卷积,求横向和纵向的梯度值,然后对生成的新像素灰度值做阈值运算,以此来确定边缘信息,图像的每一个像素的横向及纵向灰度值通过公式(2)结合,来计算该点灰度的大小,为了提高效率使用不开平方的近似值,使用公式(1)进行计算:
其中Gx及Gy分别代表经横向及纵向边缘检测的图像灰度值,A为输入图片;
公式(2)计算梯度方向:
其中G为图像的每一个像素的横向及纵向灰度值;
对得到的带有边缘信息的图像拼接到原图片中,即通道数为4,每张图为h×w×4。
5.根据权利要求1所述的基于CS-ABCNet的电力塔牌检测识别方法,其特征在于,所述步骤3中将矫正过后的特征图送入识别分支进行文本识别的过程为:
对得到的特征图送入到识别分支,输入大小为h×w×256,在卷积的过程中引入卷积注意力模块CBAM,特征图进入CBAM的CAM模块中,通过最大池化生成含有目标独有特征的特征图通过平均池化得到含有全局信息的特征图将它们送入多层感知器,即MLP神经网络处理,并对所得的两个新特征图进行加操作、激活函数激活处理,得到通道注意力特征图Mc(F),如公式(5)所示:
将特征图F与Mc(F)进行像素级相乘得到F′,如公式(6)所示:
特征图F′作为SAM的输入,在分别经过平均池化和最大池化操作后得到两个不同特征描述将它们拼接起来突出目标区域,经过一个7×7的卷积将通道数降维为1,同样经过Sigmoid函数后,得到空间注意力特征图MS(F),如公式(7)所示:
将特征图F′与MS(F)进行像素级相乘得到F”,如公式(8)所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310020106.7A CN116052149A (zh) | 2023-01-06 | 2023-01-06 | 一种基于CS-ABCNet的电力塔牌检测识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310020106.7A CN116052149A (zh) | 2023-01-06 | 2023-01-06 | 一种基于CS-ABCNet的电力塔牌检测识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116052149A true CN116052149A (zh) | 2023-05-02 |
Family
ID=86117694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310020106.7A Pending CN116052149A (zh) | 2023-01-06 | 2023-01-06 | 一种基于CS-ABCNet的电力塔牌检测识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052149A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237881A (zh) * | 2023-11-16 | 2023-12-15 | 合肥中科类脑智能技术有限公司 | 三跨塔的绝缘子异常监测方法及装置、计算机设备 |
-
2023
- 2023-01-06 CN CN202310020106.7A patent/CN116052149A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237881A (zh) * | 2023-11-16 | 2023-12-15 | 合肥中科类脑智能技术有限公司 | 三跨塔的绝缘子异常监测方法及装置、计算机设备 |
CN117237881B (zh) * | 2023-11-16 | 2024-02-02 | 合肥中科类脑智能技术有限公司 | 三跨塔的绝缘子异常监测方法及装置、计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740465B (zh) | 一种基于实例分割神经网络框架的车道线检测算法 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN111126472A (zh) | 一种基于ssd改进的目标检测方法 | |
CN112507777A (zh) | 一种基于深度学习的光学遥感图像舰船检测与分割方法 | |
CN111008633B (zh) | 一种基于注意力机制的车牌字符分割方法 | |
CN110334589B (zh) | 一种基于空洞卷积的高时序3d神经网络的动作识别方法 | |
WO2020062433A1 (zh) | 一种神经网络模型训练及通用接地线的检测方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN113780296A (zh) | 基于多尺度信息融合的遥感图像语义分割方法及系统 | |
CN114841244B (zh) | 一种基于鲁棒采样和混合注意力金字塔的目标检测方法 | |
CN112613343B (zh) | 一种基于改进YOLOv4的河道废弃物监测方法 | |
CN112633149B (zh) | 一种域自适应雾天图像目标检测方法和装置 | |
CN110598698B (zh) | 基于自适应区域建议网络的自然场景文本检测方法和系统 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN110135446B (zh) | 文本检测方法及计算机存储介质 | |
CN113361432B (zh) | 一种基于深度学习的视频文字端到端检测与识别的方法 | |
CN112464912B (zh) | 基于YOLO-RGGNet的机器人端人脸检测方法 | |
CN114463759A (zh) | 一种基于无锚框算法的轻量化文字检测方法及装置 | |
CN112712052A (zh) | 一种机场全景视频中微弱目标的检测识别方法 | |
CN111882620A (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN114943888B (zh) | 基于多尺度信息融合的海面小目标检测方法 | |
CN116052149A (zh) | 一种基于CS-ABCNet的电力塔牌检测识别方法 | |
CN116342536A (zh) | 基于轻量化模型的铝带材表面缺陷检测方法、系统及设备 | |
CN114049561A (zh) | 一种船舶目标检测模型及方法 | |
CN111881914B (zh) | 一种基于自学习阈值的车牌字符分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |