CN115359411A - 一种基于改进DeepLab V3+网络的变电站环境理解方法 - Google Patents
一种基于改进DeepLab V3+网络的变电站环境理解方法 Download PDFInfo
- Publication number
- CN115359411A CN115359411A CN202211293374.8A CN202211293374A CN115359411A CN 115359411 A CN115359411 A CN 115359411A CN 202211293374 A CN202211293374 A CN 202211293374A CN 115359411 A CN115359411 A CN 115359411A
- Authority
- CN
- China
- Prior art keywords
- network
- class
- environment understanding
- method based
- transformer substation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机模式识别技术领域,公开了一种基于改进DeepLab V3+网络的变电站环境理解方法,包括采集变电站环境理解图像、构建环境理解网络并训练、测试模型和变电站巡检机器人环境理解方法应用的步骤。其中变电站环境理解语义分割网络同时兼顾识别精度及效率,通过将深层高精度卷积神经网络精简为小型浅层的网络来降低网络参数以及存储空间来提高识别效率,并采用了改进的ASPP模块和基于CBAM模块的分步上采样和多分辨率特征融合的方式来提高图像像素信息的利用率;采用深度学习环境理解方法可获取变电站巡检机器人当前环境的信息,对机器人导航避障提供更多有效的智能决策,使机器人环境适应能力更强。
Description
技术领域
本发明属于计算机模式识别技术领域,具体是一种基于改进DeepLab V3+网络的变电站环境理解方法。
背景技术
变电站是电网的重要组成部分之一,负责电力网络中电压的升、降调节及电能的分配。为了保证变电站正常运行,必须对站内电力设备的运行状态进行定期巡检,以及早及时的排除用电安全隐患。随着我国智能电网建设的不断深入,巡检机器人在变电站中得到了广泛的应用,并逐步取得了良好的效果。就智能巡检机器人而言,其完成复杂巡检任务的基本前提,是能否对其巡检道路环境进行有效理解并作出相应地自主避障决策。
当下,市场上出售的巡检机器人采用的自主避障方式较为单一,无法同时对变电站场景中几种常见的障碍物,诸如杂草、石头、行人、其他机器人等进行识别,更无法结合其当前所处的环境信息进行自主避障。这样极大影响了智能巡检机器人在变电站巡检工作中应用的巡检效率以及智能性。
环境理解技术是巡检机器人实现自主避障以及完成特殊任务的关键。随着深度学习技术的发展,基于视觉的环境理解方法逐渐成为环境理解研究的热点、重点。相比于基于激光雷达和激光的环境理解方法,其具有使用成本低、算法多样且性能强等优势。有两种方法可以实现基于图像来理解环境:语义分割和目标检测。这两种方法都有助于使机器人具备环境理解的能力。
随着图像语义分割技术的不断发展,仅能实现分类和初略定位的目标检测方法已不能满足生产生活的实际需求,于是一大部分研究者将研究重点放在了图像精确的理解与分析上。在目标检测方法的基础上,语义分割方法将目标定位提升到像素级别,即对图像中每个像素进行逐点分类。相比于目标检测方法,逐像素分类的语义分割方法能够实现更加精细化地、全面地对环境进行理解。
巡检机器人在变电站中已经有了非常广泛的应用,其环境理解方法众多,但是目前仍没有一种环境理解方法,能够针对变电站巡检场景中常见障碍物类型(如刚性障碍物、柔性障碍物、行人)的特点,辅助其实现自主避障。
变电站是电网的重要组成部分之一,负责电力网络中电压的升、降调节及电能的分配。为了保证变电站正常运行,必须对站内电力设备的运行状态进行定期巡检,以及早及时的排除用电安全隐患。随着我国智能电网建设的不断深入,巡检机器人在变电站中得到了广泛的应用,并逐步取得了良好的效果。就智能巡检机器人而言,其完成复杂巡检任务的基本前提,是能否对其巡检道路环境进行有效理解并作出相应地自主避障决策。
当下,市场上出售的巡检机器人采用的自主避障方式较为单一,无法同时对变电站场景中几种常见的障碍物,诸如杂草、石头、行人、其他机器人等进行识别,更无法结合其当前所处的环境信息进行自主避障。这样极大影响了智能巡检机器人在变电站巡检工作中应用的巡检效率以及智能性。
环境理解技术是巡检机器人实现自主避障以及完成特殊任务的关键。随着深度学习技术的发展,基于视觉的环境理解方法逐渐成为环境理解研究的热点、重点。相比于基于激光雷达和激光的环境理解方法,其具有使用成本低、算法多样且性能强等优势。有两种方法可以实现基于图像来理解环境:语义分割和目标检测。这两种方法都有助于使机器人具备环境理解的能力。
随着图像语义分割技术的不断发展,仅能实现分类和初略定位的目标检测方法已不能满足生产生活的实际需求,于是一大部分研究者将研究重点放在了图像精确的理解与分析上。在目标检测方法的基础上,语义分割方法将目标定位提升到像素级别,即对图像中每个像素进行逐点分类。相比于目标检测方法,逐像素分类的语义分割方法能够实现更加精细化地、全面地对环境进行理解。
巡检机器人在变电站中已经有了非常广泛的应用,其环境理解方法众多,但是目前仍没有一种环境理解方法,能够针对变电站巡检场景中常见障碍物类型(如刚性障碍物、柔性障碍物、行人)的特点,辅助其实现自主避障。
发明内容
针对上述这些缺陷,为了提高巡检机器人在变电站巡检场景中应用的巡检效率和智能性,使得巡检机器人在面对多种障碍物时,能够具备环境理解的能力,不再只停留在“识而不判、判而不决、决而不全”的局面,本发明提供一种基于改进DeepLab V3+网络的变电站环境理解方法,实现“识而能判、判而能决、决而能全”的功能要求。
本发明的技术方案为,一种基于改进DeepLab V3+网络的变电站环境理解方法,包括以下步骤:
S1:采集变电站环境理解图像,并构建环境理解数据集;
S2:构建环境理解网络并训练;
S3:利用测试集测试模型;
S4:机器人智能决策算法设计;
S5:变电站巡检机器人道路场景识别应用。
具体地,步骤S1包括:
S11:数据采集:通过变电站巡检机器人采集各个变电站不同光照、不同场景的道路视频;
S12:构建数据集:从采集的道路视频中提取出清晰且重复率低的视频帧,构建训练集和测试集;
S13:样本标注:标注出图像中目标的所有像素点,剩余未标注的像素作为背景,所述目标包括道路、杂草、石头、行人、机器人。
进一步地,步骤S2中的环境理解网络包括基于DeepLab V3+网络的卷积编码网络和反卷积解码网络,其编码器(Encoder)主干网络采用Xception网络结构,所述步骤S2具体包括:
S21:载入Xception网络;
S22:对所述Xception网络进行剪裁,降低入口流(Entry flow)尾部的通道数;
S23:采用ASPP模块(Atrous Spatial Pyramid Pooling, 空间金字塔池化模块)进行卷积运算实现多尺度信息提取,卷积层全部采用深度可分离卷积;
S24: 在Xception网络内部中间流(Middle flow)和出口流(Exit flow)通道方向进行特征融合操作;
S25:将S24中特征融合结果输入CBAM模块(Convolutional Block AttentionModule,卷积模块的注意力机制模块)处理;
S26:在网络末尾添加1x1的卷积层,输出通道为目标类别数,并添加损失层(LossLayer)和精度层(Accuracy Layer),采用分类交叉熵损失函数作为损失层的目标函数,计算公式如下:
其中,n表示样本总数,y是期望输出,a是实际输出,C为分类交叉熵损失函数;
全局精度G计算公式如下:
S27:在解码阶段,通过基于CBAM模块的分步上采样和多分辨率特征融合的方式,来提高图像像素信息的利用率,进行图像放大;将特征提取网络中的中层和高层语义特征之间增加了一次特征融合操作;
S28: 经过3×3的深度可分离卷积运算后,在第二次4倍上采样之前加入一个CBAM模块;
采用中值频率均衡方法来平衡各个类别,计算公式如下:
其中num_i表示第i类的总像素个数,counti表示含有第i类的图像数量,w和h表示图像宽高,median(fi)表示求fi的中值,fi为第i类像素在训练集中出现的频率,wi为第i类像素的权重;
S29: 通过所述步骤S1构建的训练集对环境理解网络进行训练:首先对卷积编码网络进行训练,然后将训练好的卷积编码网络模型作为预训练模型,对整个编码-解码网络进行训练。
进一步地,步骤S22具体为:移除Xception网络中间流和出口流两块网络层进行部分剪裁,将入口流尾部的通道数降为512。
进一步地,步骤S23中ASPP模块的卷积层空洞率组合为2、4、6、8,以提升对低分辨率目标以及其边缘的分割精度。
进一步地,所述步骤S27中分步上采样是通过两次小幅度的上采样增加语义信息在还原过程中的连续性,具体包括:将4倍上采样变换为两次2倍上采样,第一次将编码阶段经ASPP模块处理及通道压缩后的特征图进行二倍上采样,然后与编码阶段经CBAM模块得到的特征信息进行特征融合,接着再将特征融合的结果进行二倍上采样。
进一步地,所述步骤S29中,对所述卷积编码网络进行训练时,基于DeepLab V3+网络权值,采用迁移学习的方式将Xception在PASCAL VOC 2012上训练好的权重作为预训练模型来微调编码网络,同时将标签图缩小为模型最终输出尺寸,并采用Adam(Adaptivemoment estimation,自适应矩估计)梯度下降法对参数进行迭代调优,同时设置相应的学习率、最大迭代次数、动量参数、权值衰减参数,不断迭代训练直至网络收敛。
更进一步地,所述步骤S3具体包括:
S31:将训练的编码-解码网络转化为测试网络,移除损失层和精度层,添加Softmax 层计算各类别概率,计算公式如下:
S32:选择步骤S2中训练精度最高的k个网络权值分别对测试网络进行赋值,通过测试集数据对网络进行测试,并计算全局精度G、平均精度C、像素平均精度和平均交并比,像素平均精度和平均交并比计算公式如下:
其中,mAP为像素平均精度,mIoU为平均交并比,k为类别数量;TP表示分类准确的正类,即预测结果为正类,实际上是正类;FP表示被错分类为正类的负类,即实际为负类,但是却被预测为正类;FN表示被错分类为负类的正类,即实际为正类,但是却被预测为负类;R表示召回率,P()表示准确率。
更进一步地,所述步骤S4中,
决策部分的输出指令包括但不限于直行、向左绕行、向右绕行、停车以及掉头;变电站环境理解数据中标注的非道路目标包括但不限于刚性障碍物、行人以及柔性障碍物;智能决策模式分为单一决策模式和复杂决策模式;
巡检机器人遇到障碍时,首先超声波雷达报警,然后机器人停止巡检,并获取可见光数据,输入环境理解算法,进行判断是否为单一障碍物,若为单一障碍物,则启用单一决策模式,否则,启用复杂决策模式,机器人执行决策,继续巡检;
所述单一决策模式决策过程为:首先为判定障碍物是否为刚性障碍物,若是,则生成避障转向决策,下发绕过指令,反之,直接碾过;
所述复杂决策模式决策过程:首先判定是否有行人出现,若有,则直接选择等待,等待行人撤去;其次,判别障碍物是否为刚性障碍物,若是,则进一步判断是否单独出现,若是,则下发绕障指令,反之,则直接选择掉头;当单个刚性障碍物与柔性障碍物同时存在时,则选择绕障。
更进一步地,所述步骤S5具体包括:
通过变电站巡检机器人获取变电站道路场景视频流;
从所述步骤S4中的权值中选出全局精度G、平均精度C以及平均交并比mIoU、像素平均精度mAP的权重作为最终网络的权值;
将巡检机器人获取的道路场景视频流通过最终的网络进行逐帧预测并显示出预测结果。
本发明提供基于改进DeepLab V3+网络的变电站环境理解方法,通过将深度学习语义分割技术与智能决策算法相融合,基于改进的ASPP模块和CBAM模块,构建卷积编码网络和反卷积解码网络,卷积编码网络借鉴Xception网络结构以及改进的ASPP模块来对图像特征进行提取,反卷积解码网络采用基于CBAM模块的分步上采样和多分辨率特征融合的方式来提高图像像素信息的利用率以提高识别精度。通过依次训练卷积编码网络和反卷积解码网络使最终模型能够在复杂的变电站环境中准确高效识别分割出可行道 路、杂草、石头、障碍物等目标。
本发明的有益效果在于:
1.环境理解精度以及效率更高。本发明搭建的全卷积变电站环境理解语义分割网络同时兼顾识别精度及效率,通过将借鉴了Xception网络以用于图像特征提取,并探索了一种新型的ASPP模块以增加网络对低分辨率特征提取的精度,并以基于注意力机制的分步上采样和跳层特征融合的方式作为网络解码部分以恢复图像分辨率,提高了网络的识别精度。同时,为了便于模型嵌入变电站巡检机器人之中,该网络在尽可能不损失识别精度的情况下,对网络进行剪裁,有效的提高了模型的识别速度,达到了易于嵌入与快速识别的目的。
2.变电站巡检机器人智能决策能力更强。本发明采用语义分割环境理解方法针对变电站内三种类型障碍物,设计了自主避障智能决策算法,有效弥补了环境理解方法虽然众多,但是目前仍没有一种环境理解方法,能够针对变电站巡检场景中常见障碍物类型(如刚性障碍物、柔性障碍物、行人)的特点,辅助其实现自主避障,使机器人智能决策能力更强。
附图说明
图1是本发明的方法流程图;
图2是本发明所搭建的编码-解码网络结构图;
图3是决策模式流程图;
图4是单一决策模式流程图;
图5是复杂决策模式流程图;
图6是本发明识别结果图,其中(a1)、(a2)、(a3)、(a4)为原图,(b1)、(b2)、(b3)、(b4)为DeepLab V3+识别结果图,(c1)、(c2)、(c3)、(c4)为改进DeepLab V3+识别结果图,(d1)、(d2)、(d3)、(d4)为本发明方法识别结果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明附图,对本发明技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,指示方位或位置关系为基于附图所示的方位或位置关系,或者是该发明使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接连接,也可以通过中间媒介间接连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义;实施例中的附图用以对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
实施例一:
本发明方法流程图如图1所示,具体采取如下步骤:
S1:采集变电站道路场景图像,并构建道路场景图像库:
S11、数据采集:通过变电站巡检机器人采集各个变电站不同光照(早上、中午、晚上),不同场景(晴天、雨天、阴天)的道路视频;
S12、构建数据库:从采集的道路视频中提取出清晰且重复率较低的视频帧,共4056张图像,将图像尺寸归一化256x256大小,并随机选择1600张作为训练集和剩余833张作为测试集;
S13、样本标注:采用网上公开标注工具Labelme手工标注出图像中道路、杂草、石头、围栏、行人、机器人以及路坑8类目标的所有像素点,剩余未标注的像素作为背景;
S2:构建环境理解网络并训练
本发明采用基于DeepLab V3+网络的卷积编码网络,其编码器(Encoder)主干网络采用带有空洞卷积的深度卷积神经网络,可以采用常用的分类网络如ResNet、Xception,本发明采用Xception网络结构;
接下来构建环境理解网络,具体包括:
S21:载入Xception网络;
S22: 移除Xception网络中间流和出口流两块网络层进行部分剪裁,将入口流尾部的通道数降为512;
S23:采用ASPP模块(Atrous Spatial Pyramid Pooling,空间金字塔池化模块)进行卷积运算进行多尺度信息提取,卷积层全部采用深度可分离卷积;用新的空洞率组合2、4、6、8替换了原有的空洞率为6、12、18的组合,通过较小的空洞率组合以提升对低分辨率目标以及其边缘的分割精度;空洞率组合的新方式能够满足本发明需求中对精度的要求,尤其是目标边缘的分割精度;
S24: 在Xception网络内部中间流和出口流通道方向进行特征融合操作;
S25:将S24中特征融合结果输入CBAM模块(Convolutional Block AttentionModule,卷积模块的注意力机制模块)处理;
S26:在网络末尾添加1x1的卷积层,输出通道为目标类别数,并添加损失层(LossLayer)和精度层(Accuracy Layer),采用分类交叉熵损失函数作为损失层的目标函数,计算公式如下:
其中n表示样本总数,y是期望输出,a是实际输出,C为分类交叉熵损失函数;
全局精度G计算公式如下:
S27:在解码阶段,通过基于CBAM模块(Convolutional Block Attention Module,卷积模块的注意力机制模块)的分步上采样和多分辨率特征融合的方式,来提高图像像素信息的利用率,进行图像放大,具体操作为:将4倍上采样变换为两次2倍上采样,第一次将编码阶段经ASPP模块处理及通道压缩后的特征图进行二倍上采样,然后与编码阶段经CBAM模块得到的特征信息进行特征融合,接着再将特征融合的结果进行二倍上采样;
将特征提取网络中的中层和高层语义特征之间增加了一次特征融合操作;
S28: 经过3×3的深度可分离卷积运算后,输入CBAM模块,进行进一步自适应特征细化,即在第二次4倍上采样之前加入一个CBAM模块;
采用中值频率均衡方法来平衡各个类别,计算公式如下:
其中num_i表示第i类的总像素个数,counti表示含有第i类的图像数量,w和h表示图像宽高,median(fi)表示求fi的中值,fi为第i类像素在训练集中出现的频率, wi为第i类像素的权重;根据公式计算权值结果为背景:0.23;道路:0.24;草:0.49;围栏:1.0;石头:1.68;路坑:17.64;机器人:70.56;行人:74.35。
在解码阶段,主要包含上采样、特征融合以及卷积等操作,同时将普通同卷积全部替换为深度可分离卷积以减少模型计算量。
为了应对原网络直接4倍上采样造成的像素信息损失,通过两次小幅度的上采样增加语义信息在还原过程中的连续性,即改进后的结构将4倍上采样变换为两次2倍上采样,第一次将编码阶段经ASPP模块处理及通道压缩后的特征图进行二倍上采样,然后与编码阶段经CBAM模块得到的特征信息进行特征融合,接着再将特征融合的结果进行二倍上采样。
特别地,改进后的结构增加了一次特征融合的操作。由于在特征提取网络阶段图像的分辨率缩小了16倍,其每一部分的语义特征对最终的结果都是极其重要的,而原网络仅利用了特征提取网络中底层和高层的语义信息,为此本方法将特征提取网络中的中层和高层语义特征之间增加了一次特征融合操作,之后引入CBAM模块,在计算量小幅度增加的情况下,提升网络的识别进度。
S29:通过所述步骤S1构建的训练集对环境理解网络进行训练:首先对卷积编码网络进行训练,然后将训练好的卷积编码网络模型作为预训练模型,对整个编码-解码网络进行训练。
对卷积编码网络进行训练时,基于DeepLab V3+网络权值,采用迁移学习的方式将Xception在PASCAL VOC 2012上训练好的权重作为预训练模型来微调编码网络,同时将标签图缩小为模型最终输出尺寸,并采用Adam(Adaptive moment estimation,自适应矩估计)梯度下降法对参数进行迭代调优,同时设置相应的学习率、最大迭代次数、动量参数、权值衰减参数,不断迭代训练直至网络收敛。
模型训练时选择Keras框架下的ReduceLROnPlateau函数作为网络学习率的实现方式,该函数可以在训练的过程中,根据模型的训练情况,优化学习率(通常是缩小学习率)。该函数通常与早停法(Early Stopping)配合使用,以其到监督网络学习的作用,不断迭代使模型收敛。设置初始学习率为1e-4,训练轮数100轮,批量大小设置为4,通过GPU(Graphics Processing Unit,图形处理器)不断迭代训练直至损失函数收敛;本发明的编码-解码网络如图2所示。
S3:利用测试集测试模型
S31、将训练的编码-解码网络转化为测试网络,移除损失层和精度层,添加Softmax 层计算各类别概率,计算公式如下:
S32、选择S2中训练精度最高的4个网络权值分别对测试网络进行赋值,通过测试集 数据对网络进行测试,并计算全局精度G、平均精度C、像素平均精度和平均交并比,像素平均精度和平均交并比计算公式如下:
其中,mAP为像素平均精度,mIoU为平均交并比,k为类别数量;TP表示分类准确的正类,即预测结果为正类,实际上是正类;FP表示被错分类为正类的负类,即实际为负类,但是却被预测为正类;FN表示被错分类为负类的正类,即实际为正类,但是却被预测为负类;R表示召回率,P()表示准确率;
S4: 智能决策算法设计
决策部分的输出指令包括但不限于直行、向左绕行、向右绕行、停车以及掉头;变电站环境理解数据中标注的非道路目标包括但不限于刚性障碍物、行人以及柔性障碍物;智能决策模式分为两种,单一决策模式和复杂决策模式,其决策模式流程如图3所示;
巡检机器人遇到障碍时,首先超声波雷达报警,然后机器人停止巡检,并获取可见光数据,输入环境理解算法,进行判断是否为单一障碍物,若为单一障碍物,则启用单一决策模式,否则,启用复杂决策模式,机器人执行决策,继续巡检;
所述单一决策模式决策过程如图4所示:首先为判定障碍物是否为刚性障碍物,若是,则生成避障转向决策,下发绕过指令,反之,直接碾过;
所述复杂决策模式决策过程如图5所示:首先判定是否有行人出现,若有,则直接选择等待,等待行人撤去;其次,判别障碍物是否为刚性障碍物,若是,则进一步判断是否单独出现,若是,则下发绕障指令,反之,则直接选择掉头。当单个刚性障碍物与柔性障碍物同时存在时,则选择绕障;
S5:变电站巡检机器人道路场景识别应用,包括
S51、通过变电站巡检机器人获取变电站道路场景视频流;
S52、从步骤S3中的权值中选出全局精度G、平均精度C以及平均交并比mIoU、像素平均精度mAP的权重作为最终网络的权值;本发明的最高网络精度与DeepLab V3+模型对比如表1所示;
S53、将巡检机器人获取的道路场景视频流通过最终的网络进行逐帧预测并显示出预测结果,识别结果如图6所示,其中(a1)、(a2)、(a3)、(a4)为原图,(b1)、(b2)、(b3)、(b4)为DeepLab V3+识别结果图,(c1)、(c2)、(c3)、(c4)为改进DeepLab V3+识别结果图,(d1)、(d2)、(d3)、(d4)为本发明方法识别结果,本发明与DeepLab V3+模型对比结果如表1所示,其中G-DeepLab V3+为改进DeepLab V3+网络,G-DeepLab V3+(剪裁)为经过网络剪裁处理的改进DeepLab V3+网络。
表1 本发明与DeepLab V3+模型对比结果
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于改进DeepLab V3+网络的变电站环境理解方法,其特征在于,包括以下步骤:
S1:采集变电站环境理解图像,并构建环境理解数据集;
S2:构建环境理解网络并训练;
S3:利用测试集测试模型;
S4:机器人智能决策算法设计;
S5:变电站巡检机器人道路场景识别应用。
2.根据权利要求1所述的一种基于改进DeepLab V3+网络的变电站环境理解方法,其特征在于,所述步骤S1包括:
S11:数据采集:通过变电站巡检机器人采集各个变电站不同光照、不同场景的道路视频;
S12:构建数据集:从采集的道路视频中提取出清晰且重复率低的视频帧,构建训练集和测试集;
S13:样本标注:标注出图像中目标的所有像素点,剩余未标注的像素作为背景,所述目标包括道路、杂草、石头、行人、机器人。
3.根据权利要求1所述的一种基于改进DeepLab V3+网络的变电站环境理解方法,其特征在于,所述步骤S2中的环境理解网络包括基于DeepLab v3+网络的卷积编码网络和反卷积解码网络,其编码器(Encoder)主干网络采用Xception网络结构,所述步骤S2具体包括:
S21:载入Xception网络;
S22:对所述Xception网络进行剪裁,降低入口流(Entry flow)尾部的通道数;
S23:采用ASPP模块(Atrous Spatial Pyramid Pooling, 空间金字塔池化模块)进行卷积运算实现多尺度信息提取,卷积层全部采用深度可分离卷积;
S24: 在Xception网络内部中间流(Middle flow)和出口流(Exit flow)通道方向进行特征融合操作;
S25:将S24中特征融合结果输入CBAM模块(Convolutional Block Attention Module,卷积模块的注意力机制模块)处理;
S26:在网络末尾添加1x1的卷积层,输出通道为目标类别数,并添加损失层(LossLayer)和精度层(Accuracy Layer),采用分类交叉熵损失函数作为损失层的目标函数,计算公式如下:
其中n表示样本总数,y是期望输出,a是实际输出,C为分类交叉熵损失函数;
全局精度G计算公式如下:
S27:在解码阶段,通过基于CBAM模块的分步上采样和多分辨率特征融合的方式,来提高图像像素信息的利用率,进行图像放大;将特征提取网络中的中层和高层语义特征之间增加了一次特征融合操作;
S28: 经过3×3的深度可分离卷积运算后,在第二次4倍上采样之前加入一个CBAM模块;
采用中值频率均衡方法来平衡各个类别,计算公式如下:
其中num_i表示第i类的总像素个数,counti表示含有第i类的图像数量,w和h表示图像宽高,median(fi)表示求fi的中值,fi为第i类像素在训练集中出现的频率,wi为第i类像素的权重;
S29: 通过所述步骤S1构建的训练集对环境理解网络进行训练:首先对卷积编码网络进行训练,然后将训练好的卷积编码网络模型作为预训练模型,对整个编码-解码网络进行训练。
4.根据权利要求3所述的一种基于改进DeepLab V3+网络的变电站环境理解方法,其特征在于,所述步骤S22具体为:移除Xception网络中间流和出口流两块网络层进行部分剪裁,将入口流尾部的通道数降为512。
5.根据权利要求3所述的一种基于改进DeepLab V3+网络的变电站环境理解方法,其特征在于,所述步骤S23中ASPP模块的卷积层的空洞率组合为2、4、6、8,以提升对低分辨率目标以及其边缘的分割精度。
6.根据权利要求3所述的一种基于改进DeepLab V3+网络的变电站环境理解方法,其特征在于,所述步骤S27中分步上采样是通过两次小幅度的上采样增加语义信息在还原过程中的连续性,步骤S27具体操作为:将4倍上采样变换为两次2倍上采样,第一次将编码阶段经ASPP模块处理及通道压缩后的特征图进行二倍上采样,然后与编码阶段经CBAM模块得到的特征信息进行特征融合,接着再将特征融合的结果进行二倍上采样。
7.根据权利要求3所述的一种基于改进DeepLab V3+网络的变电站环境理解方法,其特征在于,所述步骤S29中,对所述卷积编码网络进行训练时,基于DeepLab V3+网络权值,采用迁移学习的方式将Xception在PASCAL VOC 2012上训练好的权重作为预训练模型来微调编码网络,同时将标签图缩小为模型最终输出尺寸,并采用Adam(Adaptive momentestimation,自适应矩估计)梯度下降法对参数进行迭代调优,同时设置相应的学习率、最大迭代次数、动量参数、权值衰减参数,不断迭代训练直至网络收敛。
8.根据权利要求1所述的一种基于改进DeepLab V3+网络的变电站环境理解方法,其特征在于,所述步骤S3具体包括:
S31:将训练好的编码-解码网络转化为测试网络,移除Loss层和Accuracy层,添加Softmax层,计算各类别概率,计算公式如下:
S32:选择步骤S2中训练精度最高的k个网络权值分别对测试网络进行赋值,通过所述步骤S1构建的测试集数据对网络进行测试,并计算全局精度G、平均精度C、像素平均精度和平均交并比,像素平均精度和平均交并比计算公式如下:
其中,mAP为像素平均精度,mIoU为平均交并比,k为类别数量;TP表示分类准确的正类,即预测结果为正类,实际上是正类;FP表示被错分类为正类的负类,即实际为负类,但是却被预测为正类;FN表示被错分类为负类的正类,即实际为正类,但是却被预测为负类;R表示召回率,P()表示准确率。
9.根据权利要求1所述的一种基于改进DeepLab V3+网络的变电站环境理解方法,其特征在于,所述步骤S4中,
决策部分的输出指令包括但不限于直行、向左绕行、向右绕行、停车以及掉头;变电站环境理解数据中标注的非道路目标包括但不限于刚性障碍物、行人以及柔性障碍物;智能决策模式分为单一决策模式和复杂决策模式;
巡检机器人遇到障碍时,首先超声波雷达报警,然后机器人停止巡检,并获取可见光数据,输入环境理解算法,进行判断是否为单一障碍物,若为单一障碍物,则启用单一决策模式,否则,启用复杂决策模式,机器人执行决策,继续巡检;
所述单一决策模式决策过程为:首先为判定障碍物是否为刚性障碍物,若是,则生成避障转向决策,下发绕过指令,反之,直接碾过;
所述复杂决策模式决策过程:首先判定是否有行人出现,若有,则直接选择等待,等待行人撤去;其次,判别障碍物是否为刚性障碍物,若是,则进一步判断是否单独出现,若是,则下发绕障指令,反之,则直接选择掉头;当单个刚性障碍物与柔性障碍物同时存在时,则选择绕障。
10.根据权利要求1所述的一种基于改进DeepLab V3+网络的变电站环境理解方法,其特征在于,所述步骤S5具体包括:
通过变电站巡检机器人获取变电站道路场景视频流;
从步骤S4中的权值中选出全局精度G、平均精度C以及平均交并比mIoU、像素平均精度mAP的权重作为最终网络的权值;
将巡检机器人获取的道路场景视频流通过最终的网络进行逐帧预测并显示出预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211293374.8A CN115359411B (zh) | 2022-10-21 | 2022-10-21 | 一种基于改进DeepLab V3+网络的变电站环境理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211293374.8A CN115359411B (zh) | 2022-10-21 | 2022-10-21 | 一种基于改进DeepLab V3+网络的变电站环境理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115359411A true CN115359411A (zh) | 2022-11-18 |
CN115359411B CN115359411B (zh) | 2023-07-21 |
Family
ID=84008444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211293374.8A Active CN115359411B (zh) | 2022-10-21 | 2022-10-21 | 一种基于改进DeepLab V3+网络的变电站环境理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115359411B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797788A (zh) * | 2023-02-17 | 2023-03-14 | 武汉大学 | 基于深度学习的多模态铁路设计要素遥感特征提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446970A (zh) * | 2018-10-24 | 2019-03-08 | 西南交通大学 | 一种基于深度学习的变电站巡检机器人道路场景识别方法 |
CN113031617A (zh) * | 2021-03-15 | 2021-06-25 | 云鲸智能(深圳)有限公司 | 机器人避障方法、装置、设备及存储介质 |
CN114241309A (zh) * | 2021-12-17 | 2022-03-25 | 广东工业大学 | 一种基于ShuffleNetV2-Unet的水稻纹枯病识别方法和系统 |
CN114627441A (zh) * | 2022-01-25 | 2022-06-14 | 武汉理工大学 | 非结构化道路识别网络训练方法、应用方法及存储介质 |
-
2022
- 2022-10-21 CN CN202211293374.8A patent/CN115359411B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446970A (zh) * | 2018-10-24 | 2019-03-08 | 西南交通大学 | 一种基于深度学习的变电站巡检机器人道路场景识别方法 |
CN113031617A (zh) * | 2021-03-15 | 2021-06-25 | 云鲸智能(深圳)有限公司 | 机器人避障方法、装置、设备及存储介质 |
CN114241309A (zh) * | 2021-12-17 | 2022-03-25 | 广东工业大学 | 一种基于ShuffleNetV2-Unet的水稻纹枯病识别方法和系统 |
CN114627441A (zh) * | 2022-01-25 | 2022-06-14 | 武汉理工大学 | 非结构化道路识别网络训练方法、应用方法及存储介质 |
Non-Patent Citations (9)
Title |
---|
HAO LIN等: "Improved xception with dual attention mechanism and feature fusion for face forgery detection", 《2022 4TH INTERNATIONAL CONFERENCE ON DATA INTELLIGENCE AND SECURITY(ICDIS)》, pages 1 - 5 * |
HAO LIN等: "Improved Xception with Dual Attention Mechanism and Feature Fusion for Face Forgery Detection", 《HTTPS://ARXIV.ORG/ABS/2109.14136》 * |
HAO LIN等: "Improved Xception with Dual Attention Mechanism and Feature Fusion for Face Forgery Detection", 《HTTPS://ARXIV.ORG/ABS/2109.14136》, 29 September 2021 (2021-09-29), pages 1 - 6 * |
JING BAI等: "Context-Aware residual module for image classification", 《2020 25TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION(ICPR)》, pages 1 - 8 * |
李新叶等: "基于深度学习的图像语义分割研究进展", 《科学技术与工程》 * |
李新叶等: "基于深度学习的图像语义分割研究进展", 《科学技术与工程》, no. 33, 28 November 2019 (2019-11-28), pages 24 - 30 * |
谢倩楠: "基于图像的输电设备检测技术研究", 《中国优秀硕士学位论文全文数据库工程科技II辑》 * |
谢倩楠: "基于图像的输电设备检测技术研究", 《中国优秀硕士学位论文全文数据库工程科技II辑》, no. 06, 15 June 2022 (2022-06-15), pages 042 - 577 * |
金侠挺;王耀南;张辉;刘理;钟杭;贺振东;: "基于贝叶斯CNN和注意力网络的钢轨表面缺陷检测系统", 自动化学报, no. 12, pages 110 - 125 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797788A (zh) * | 2023-02-17 | 2023-03-14 | 武汉大学 | 基于深度学习的多模态铁路设计要素遥感特征提取方法 |
CN115797788B (zh) * | 2023-02-17 | 2023-04-14 | 武汉大学 | 基于深度学习的多模态铁路设计要素遥感特征提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115359411B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446970B (zh) | 一种基于深度学习的变电站巡检机器人道路场景识别方法 | |
CN111553387B (zh) | 一种基于Yolov3的人员目标检测方法 | |
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
CN108647655B (zh) | 基于轻型卷积神经网络的低空航拍影像电力线异物检测方法 | |
CN109977774B (zh) | 一种基于自适应卷积的快速目标检测方法 | |
CN114549563A (zh) | 一种基于DeepLabV3+的复合绝缘子实时分割方法及系统 | |
CN110110780B (zh) | 一种基于对抗神经网络和海量噪声数据的图片分类方法 | |
CN111598860A (zh) | 基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法 | |
CN113012177A (zh) | 基于几何特征提取和边缘感知编码的三维点云分割方法 | |
CN110533068B (zh) | 一种基于分类卷积神经网络的图像对象识别方法 | |
CN110751209A (zh) | 一种融合深度图像分类和检索的智能台风定强方法 | |
CN116110036B (zh) | 基于机器视觉的电力铭牌信息缺陷等级判断方法及装置 | |
CN116310350B (zh) | 基于图卷积和半监督学习网络的城市场景语义分割方法 | |
CN114155474A (zh) | 基于视频语义分割算法的损伤识别技术 | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN115359411A (zh) | 一种基于改进DeepLab V3+网络的变电站环境理解方法 | |
CN115019103A (zh) | 基于坐标注意力群组优化的小样本目标检测方法 | |
CN114511627A (zh) | 一种目标果实定位分割方法及系统 | |
Kajabad et al. | YOLOv4 for urban object detection: Case of electronic inventory in St. Petersburg | |
CN115661694A (zh) | 一种聚焦关键特征的轻量型主变压器智能检测方法、系统、存储介质及电子设备 | |
CN115187906A (zh) | 一种行人检测与重识别方法、装置和系统 | |
Li et al. | Focus on local: transmission line defect detection via feature refinement | |
CN111898422A (zh) | 一种电力设备辨识方法、系统及存储介质 | |
Chen et al. | Semantic Segmentation of Substation Scenes Using Attention-Based Model | |
Vicol et al. | Real-time classification of LIDAR data using discrete-time Recurrent Spiking Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |