CN117218606B - 一种逃生门检测方法、装置、存储介质及电子设备 - Google Patents
一种逃生门检测方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117218606B CN117218606B CN202311484310.0A CN202311484310A CN117218606B CN 117218606 B CN117218606 B CN 117218606B CN 202311484310 A CN202311484310 A CN 202311484310A CN 117218606 B CN117218606 B CN 117218606B
- Authority
- CN
- China
- Prior art keywords
- layer
- branch
- escape door
- input image
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 38
- 230000007246 mechanism Effects 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 231100001261 hazardous Toxicity 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000016273 neuron death Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明揭示了一种逃生门检测方法、装置、存储介质及电子设备,所述方法包括:S100:获取逃生门输入图像;S200:对输入图像预处理,以获得预处理后的输入图像;S300:构建逃生门检测模型并进行训练;S400:将预处理后的输入图像输入训练好的逃生门检测模型,以检测输入图像中的逃生门是否完整。本发明基于所构建的逃生门检测模型,能够从输入图像中对逃生门的完整性进行高精度检测。
Description
技术领域
本发明属于智能识别、图像处理技术领域,具体涉及一种逃生门检测方法、装置、存储介质及电子设备。
背景技术
智能巡检机器人是一种自主移动的机器人,通常配备有多种传感器、摄像头和计算能力,用于执行特定任务。它们在多个领域得到应用,如工业自动化、危险环境监测以及设施管理。逃生门完整性检测是智能巡检机器人应用的一个重要方向,旨在保障逃生通道的可用性和安全性。目前,除了人工检测外,还可通过计算机视觉方法对逃生门的完整性进行检测,计算机视觉方法包括基于颜色和纹理特征的检测方法以及基于形状的检测方法。但在复杂场景中,由于受到光照、遮挡等因素的影响,导致逃生门的颜色和纹理检测不准确;此外,由于逃生门形状的多样性,基于形状的检测方法无法泛化。
发明内容
针对现有技术中的不足,本发明的目的在于提供一种逃生门检测方法,该方法本发明基于所构建的逃生门检测模型,能够从输入图像中高精度地对逃生门的完整性进行检测。
为实现上述目的,本发明提供以下技术方案:
一种逃生门检测方法,所述方法包括以下步骤:
S100:获取逃生门输入图像;
S200:对输入图像预处理,以获得预处理后的输入图像;
S300:构建逃生门检测模型并进行训练;
其中,所述逃生门检测模型采用改进后的轻量化神经网络MobileViT,改进后的轻量化神经网络MobileViT 包括改进后的主干网络和改进后的特征提取融合网络,改进后的主干网络引入了CSP层,改进后的特征提取融合网络引入了注意力机制层和SPP层;
S400:将预处理后的输入图像输入训练好的逃生门检测模型,以检测输入图像中的逃生门是否完整。
优选的,步骤S200中,所述对输入图像预处理包括以下步骤:
S201:调整输入图像的尺寸;
S202:对调整尺寸后的输入图像进行归一化处理;
S203:对归一化处理后的输入图像进行数据增强。
优选的,步骤S300中,所述逃生门检测模型通过以下步骤进行训练:
S301:获取多张逃生门输入图像,并对每张输入图像中的逃生门进行标注;
S302:对标注后的输入图像预处理,以获得多张预处理后的逃生门输入图像;
S303:将多张预处理后的逃生门输入图像划分为训练集和测试集;
S304:设定训练参数,利用训练集对模型进行训练,在训练过程中,计算模型输出的预测值与标注的实际值的损失函数,当损失函数收敛,模型训练完成;
S305:利用测试集对训练后的模型进行测试,在测试过程中,利用准确率和精度两个指标对模型进行评价,当准确率和精度均达到0.9,模型测试通过;否则修改训练参数重新对模型进行训练。
本发明还提供一种逃生门检测装置,所述装置包括:
获取模块,用于获取逃生门输入图像;
预处理模块,用于对输入图像预处理,以获得预处理后的输入图像;
模型构建及训练模块,用于构建逃生门检测模型并进行训练;其中,其中,所述逃生门检测模型采用改进后的轻量化神经网络MobileViT,改进后的轻量化神经网络MobileViT 包括改进后的主干网络和改进后的特征提取融合网络,改进后的主干网络引入了CSP层,改进后的特征提取融合网络引入了注意力机制层和SPP层;
检测模块,用于将预处理后的输入图像输入训练好的逃生门检测模型,以检测输入图像中的逃生门是否完整。
本发明还提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行如前任一所述的方法。
本发明还提供一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现如前任一所述的方法。
与现有技术相比,本发明带来的有益效果为:基于本发明所构建的模型,能够从输入图像中高精度地检测出逃生门的完整性情况。
附图说明
图1是本发明一个实施例提供的一种逃生门检测方法的流程图;
图2是本发明另一个实施例提供的逃生门检测模型的结构示意图;
图3是本发明另一个实施例提供的逃生门检测模型中CSP和CBL模块的结构示意图;
图4是本发明另一个实施例提供的逃生门检测模型中MVIT module模块的结构示意图;
图5是本发明另一个实施例提供的逃生门检测模型中Detection Head模块的结构示意图;
图6是本发明另一个实施例提供的逃生门检测模型中Coordinate Attention模块的结构示意图;
图7是本发明另一个实施例提供的输入图像标注数据示例;
图8是本发明另一个实施例提供的深度可分离卷积的操作原理示意图;
图9是本发明另一个实施例提供的图像预处理过程示意图。
具体实施方式
下面将参照附图1至图9详细地描述本发明的具体实施例。虽然附图中显示了本发明的具体实施例,然而应当理解,可以通过各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
需要说明的是,在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解,技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异作为区分组件的方式,而是以组件在功能上的差异作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明书的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
为便于对本发明实施例的理解,下面将结合附图以具体实施例为例做进一步的解释说明,且各个附图并不构成对本发明实施例的限定。
一个实施例中,如图1所示,本发明提供一种逃生门检测方法,包括以下步骤:
S100:获取逃生门输入图像;
S200:对输入图像预处理,以获得预处理后的输入图像;
S300:构建逃生门检测模型并进行训练;
S400:将预处理后的输入图像输入训练好的逃生门检测模型,以对输入图像中的逃生门进行检测。
另一个实施例中,步骤S200中,所述对输入图像预处理包括以下步骤:
S201:调整输入图像的尺寸;
S202:对调整尺寸后的输入图像进行归一化处理;
S203:对归一化处理后的输入图像进行数据增强。
本实施例中,预处理过程如图9所示,首先将输入图像的尺寸调整为416*416(宽*高),对尺寸调整后的图像通过使用MaxMin算法进行归一化处理,以加速模型的训练过程并提高模型的性能。通过将输入数据映射到特定范围,模型更容易学习和收敛。本实施例将输入图像的像素值范围映射到0到255之间的整数,最后采用直方图均衡化对图像进行数据增强。直方图均衡化可以重新分配图像的像素值,使得图像的像素值范围更广泛,从而有助于增强图像中不同区域的亮度差异,使图像更加清晰以及增强对比度。
另一个实施例中,所述逃生门检测模型采用改进后的轻量化神经网络MobileViT。
本实施例中,改进后的轻量化神经网络MobileViT包括改进后的主干网络(Backbone)和改进后的特征提取融合网络(Neck)。
改进后的轻量化神经网络MobileViT在传统MobileViT的基础上在主干网络中引入了CSP层以及在特征提取融合网络中引入了注意力机制(CA)层和SPP层。下面,本实施例对改进后的轻量化神经网络MobileViT的具体结构进行详细介绍:
由图2所示,改进后的主干网络从左至右包括依次连接的:
输入层(416×416×3)(长×宽×通道数);
CBL层(416×416×3);
CBL层(52×52×96);
CSP层(52×52×96);
CSP层(26×26×128);
CSP层(26×26×128);
MV2层+ MVIT层(13×13×160)。
下面,本实施例对改进后的主干网络所包含的以上各层分别进行介绍:
CBL层:如图3中(b)部分所示,CBL层由卷积层Conv、批量归一化层BN和Leaky ReLU激活函数组成,CBL层的作用是在卷积神经网络中同时利用卷积操作、批量归一化和 LeakyReLU激活函数以提高模型的训练速度、稳定性和表达能力。其中,批量归一化BN层有助于加速收敛,减少梯度消失问题,而Leaky ReLU激活函数则允许负值区域的信息传递,避免神经元死亡问题。CBL层能够有效改善模型的训练过程,提高模型性能。
CSP层:如图3中(a)部分所示,CSP层包括三个堆叠的CBL层,三个堆叠的CBL层后依次连接Concat函数、CBL层、Concat函数和池化层(Pooling)。CSP层将输入特征分成两部分,一部分进行卷积操作,另一部分直接连接到输出,然后再将两部分进行特征交叉融合。这种交叉融合可以使得模型更好地利用底层和高层特征,从而提高特征的表达能力。
MV2层:MV2层依次包括输入层(Input)、三个串联的1×1卷积层(Conv1*1)、SiLU函数和输出层(output)。MV2层通过多层卷积和SiLU激活函数,可以提取多层次、多尺度的特征表达。
MVIT层中的MVIT Module模块的结构如图4所示,其包括依次连接的输入层(其输入Cin×H×W大小的图像,Cin代表输入通道数,H代表高度,W代表宽度)、局部表示(LocalRepresentation)模块、全局表示(Global Representation)模块以及融合(Fusion)模块,其中,局部表示模块包括一个3×3深度可分离卷积层(DWConv3×3)和一个1×1卷积层(Conv1×1);全局表示模块包括N个线性变换器(Linear Transfomers);融合模块包括一个1×1卷积层(Conv1×1),用于对局部表示模块和全局表示模块的输出数据即特征图进行卷积,然后再与输入进行叠加,以获得输出(Cout×H×W,其中,Cout代表输出通道数)。MVIT层的MVIT Module模块是一种针对移动设备的高效图像处理模型,其结合了VisionTransformer视觉变换器 的思想并采取一系列策略来降低计算复杂性,从而适应移动设备的资源限制,并在图像相关任务上取得高效的性能。
需要说明的是,深度可分离卷积层的原理如图8所示,图8中,输入张量后进行深度卷积,先对输入张量进行通道分离,以实现逐通道卷积,然后再对每一个通道用Dk*Dk*1的卷积核进行卷积操作,经逐点卷积后,得到卷积核为1*1 Conv的输出张量。
在一个实施例中,改进后的特征提取融合网络包括三个分支,其中,
第一分支由上至下包括依次连接的:
CBR层(由卷积层Conv、批量归一化层BN和Relu6激活函数组成);
注意力机制层(CA);
Concat层;
Conv5层(由依次连接的CBR模块、深度卷积模块DWConv、CBR模块、深度卷积模块DWConv和CBR模块组成);
Concat层;
Conv5层。
第二分支由上至下包括依次连接的:
CBR模块;
注意力机制层(CA);
Concat层;
Conv5层;
Concat层;
Conv5层。
第三分支由上至下包括依次连接的:
Conv3层(由依次连接的CBR模块、深度卷积模块DWConv和CBR模块组成);
SPP层;
Conv3层;
注意力机制层(CA);
Concat层;
Conv5层。
此外,第一分支的第一个Concat函数层和第二分支的第一个Conv5层之间设置有上第一个采样层(UpSample);第一分支的第二个Conv5层与第二分支的第二个Concat函数层之间设置有第一个下采样层(DownSample);第二分支的第一个Concat函数层与第三分支的注意力机制层之间设置有第二个上采样层(UpSample);第二分支的第二个Conv5层与第三分支的Concat函数层之间设置有第二个下采样层(DownSample)。
作为对现有特征提取融合网络的改进,本实施例在特征提取融合网络中引入了SPP层和注意力机制层(Coordinate attention,CA)。其中,SPP层(spatial pyramidpooling,空间金字塔池化)包括2个基础特征层(Base Layer),其中,第一个基础特征层能够捕获输入图像中逃生门的低级别特征边缘和纹理,第二个基础特征层能够提取输入图像中逃生门的高级别特征边缘和纹理特征。2个基础特征层之间设置有3个并列的最大池化层(Maxpool)。SPP层在保留图像上下文信息的同时,能够将不同尺度的特征映射池化到固定大小的特征向量中,以便于后续的分类或回归操作。此处,三个最大池化层的核大小分别为3、5、7,步长(stride)均为1,填充(padding)补齐。不同大小核的最大池化层有助于模型更好地捕捉输入图像中逃生门的细节和全局信息。不同核大小的最大池化层可以捕获不同尺度的特征,使模型对输入图像的逃生门的感知能力更加全面。总之,SPP层的存在使得模型能够在不丢失图像上下文信息的情况下对不同尺度的特征进行处理,从而有助于模型更好地理解物体的位置和大小,进而提高模型对于输入图像中的目标检测性能,具体到本任务中,能够更好的提取逃生门所在位置。
进一步的,如图6所示,注意力机制层包括输入层(Input),输入层后连接并列的X方向的全局平均池化层和Y方向的全局平均池化层,并列的X方向的全局平均池化层和Y方向的全局平均池化层后依次连接Concat+Conv2d层和批量归一化-非线性层BN+Non-linear,批量归一化-非线性层BN+Non-linear后依次连接2个并列的Conv2d层和2个并列的Sigmoid层。图6中,r为比例因子,用于作用于通道数C,H为高度,W为宽度。
本发明所引入的注意力机制层相比现有的轻量级网络上的注意力机制能够带来以下优势:
首先,该注意力机制层除了能够捕获跨通道信息,还能够通过全局平均池化操作将每个通道内的信息进行聚合,从而能够捕获包括方向感知和位置感知在内的全局和整体信息。进而能够帮助模型更加精准地定位和识别感兴趣的目标;其次,作为一个预训练模型,该注意力机制层还能够在轻量级网络的基础上给下游任务带来巨大增益,特别是那些存在密集预测的任务(如语义分割)。
下面,本实施例对注意力机制层的工作原理进行说明:
维度为(C×H×W)的输入特征首先通过并列的X方向(水平方向)的全局平均池化层和Y方向(垂直方向)的全局平均池化层进行全局平均池化(通过设置X方向的全局平均池化层和Y方向的全局平均池化层,能够为通道注意力保留这两个方向的长距离依赖关系,从而使得注意力机制层能够捕获不同通道上的信息以及不同方向和位置上的信息,其中,保留不同通道信息之后才能互相交互捕获)后分别输出维度为C×H×1和C×1×W的两个特征,这两个特征经Concat+Conv2d层拼接后卷积,以对这两个特征进行信息交互,并输出维度为(C/r×1×(H+W))的特征,输出维度为(C/r×1×(H+W))的特征输入BN+Non-linear层进行批量归一化以及非线性激活处理,并分割(split)输出维度为(C/r×1×H)和(C/r×1×W)两个特征,再对这两个特征分别经Conv2d层进行卷积,分别输出维度为(C×H×1)和(C×1×W)两个特征,以实现水平和垂直方向的同时关注,维度为(C×H×1)和(C×1×W)的两个特征最后分别进入Sigmoid函数并和输入特征相乘后输出,获得维度为(C×H×W)的最终输出。
本实施例对引入注意力机制层后的MobileViT网络和未引入注意力机制层的MobileViT网络在某数据集上进行了训练,训练结果如表1所示:
表1
由表1可见,相比未引入注意力机制层的MobileViT网络,本发明引入注意力机制层后的MobileViT网络的对比参数量(Param)提高了0.1,M-Adds没有变化(M-Adds表示在模型的前向传播过程中,完成了多少次乘法和累加操作),精度(Accuracy)提高至67%,从而表明引入注意力机制层后,能够提高MobileViT网络对于逃生门的检测准确度。
进一步,改进后的轻量化神经网络MobileViT还包括Head+Prediction头部-预测模块,该模块包括三个并列的且结构相同的Detection Head检测头模块和预测模块,其中,Detection Head检测头模块本发明中的一种创新,其是一种在目标检测模型中用于预测不同目标属性的头部结构,通过将目标检测的任务分解为多个子任务并独立处理每个子任务,从而提高模型的性能和可扩展性。
具体的,如图5所示:Detection Head检测头模块,包括输入层(Input),输入层后连接并列的第一至第三分支,第一至第三分支后依次连接Concat层(其由Concat函数实现),Transpose层和输出层(Output),其中,第一至第三分支的结构相同,具体包括CBL层,CBL层后连接两个并列的CBL*2层,其中,第一个CBL*2层后依次连接Conv层和sigmoid层(其由sigmoid激活函数实现),第二个CBL*2层后连接并列的Conv层以及Conv层和sigmoid层,第一个CBL*2层后连接的Conv层和sigmoid层的输出与第二个CBL*2层后连接的并列的Conv层以及Conv层和sigmoid层的输出一同连接Concat层和Reshape层。
下面,本发明以训练集中的某一单张图像为例,对模型的学习过程进行描述。
由改进后的主干网络的输入层输入一张416*416大小的3通道RGB图像,表示为(416,416,3),其中,3是输入图像的通道数,第一个416是输入图像的宽,第二个416是输入图像的高。输入图像经过主干网络各层后的输出依次为:
第一个CBL层输出维度为(416×416×3)的特征图;
第二个CBL层输出维度为(52×52×96)的特征图;
第一个CSP层输出维度为(52×52×96)的特征图;
第二个CSP层输出维度为(26×26×128)的特征图;
第三个CSP层输出维度为(26×26×128)的特征图;
MV2层和MVIT层输出维度为(13×13×160)的特征图。
本发明通过将改进后的主干网络设计为由CBL层、CSP层以及MV2和MVIT层组成多层级结构,并对输入图像进行不同维度的特征提取,能够使得模型有效地捕获输入图像中不同尺度的信息。并且,通过与 MV2网络相结合,能够在不同层级上同时处理输入图像的细节和整体信息,从而更好地进行特征融合和目标检测。
接下来,由改进后的主干网络提取到的特征输入到改进后的特征提取融合网络进行特征融合,具体融合过程为:
将由MV2和MVIT输出的维度为(13×13×160)的特征图输入特征提取融合网络的第三分支,经Conv3层、SPP层、Conv3层和注意力机制层处理后维度保持不变,接着进行上采样,变换为维度为(26×26×128)的特征图;将主干网络中第二个CSP层输出的维度为(26×26×128)的特征图输入特征提取融合网络的第二分支,经CBR层和CA层处理后与第三分支中经过上采样后的维度为(26×26×128)的特征图通过第二分支中的Concat层进行特征融合,以获得维度为(26×26×128)的第一融合特征;第一融合特征经过第二分支中的第一个Conv5层进行卷积处理(该层能够增强特征表示、减少参数数量和计算量,促使不同通道特征信息的交流与整合)后经上采样操作变换为维度为(52×52×96)的特征图,并与由主干网络第二个CBL层输出的维度为(52×52×96)的特征图通过第一分支中Concat层进行融合以获得第二融合特征;第二融合特征依次通过第一分支中的Conv5层、Concat层和Conv5层后通过下采样操作变换为维度为(26×26×128)的特征图,以与经第二分支中第一个Conv5层处理后的第一融合特征进行融合,获得第三融合特征;第三融合特征经第二分支中的第二个Conv5层处理后经下采样与第三分支中由MV2和MVIT输出的并经Conv3层、SPP层、Conv3层和注意力机制层处理后的维度为(13×13×160)的特征图通过第三分支中的Concat层进行融合,获得第四融合特征。
经过以后各特征融合操作,特征提取融合网络能够实现对由主干网络输出的不同维度的特征图进行融合,使得最终获得的融合特征图[1, 75, 52, 52], [1, 75, 26, 26]和[1, 75, 13, 13]蕴含了丰富的视觉信息,随后将这些丰富的融合特征图传递至检测头部。
在Detection Head检测头模块中,每个分辨率的特征图将分别进入3个分支。每个分支专门处理一个特定的任务,即目标分类、定位和物体置信度的预测。特征图首先经过CBL层(由Conv+Bn+Leaky Relu依次组成)提取到有用的特征,然后分为两个分支进行特征提取,这两个分支分别进行CBL*2。其中一个分支进行直接进行卷积和激活函数,另一个分支则继续分为两个分支分别进行特征提取,一个分支直接经过卷积,另一个经过卷积和激活函数。最后把三个输出的特征图进行拼接以重构大小。最后将三个特征图拼接起来即可获得目标分类的预测结果。每个目标类别会有对应的概率分数。经过同样的操作得到目标定位的预测结果和预测物体置信度。
在进行目标检测的同时,还引入了一系列关键的损失函数,用于训练和优化模型。其中,DIOU(Distance-IoU)损失函数用于评估预测框与真实框之间的距离和IoU之间的关系,从而更精确地衡量模型预测的准确性。通过最小化DIOU损失函数,模型能够更准确地预测目标的位置和形状,从而提升输入图像中逃生门的检测精度,DIOU损失函数的表示如下:
其中,d=ρ(A,B)表示A框与B框中心点坐标的欧式距离,c表示包住最优框的最小方框的对角线距离。
此外,非极大值抑制(NMS)也是一个重要的步骤。其用于消除冗余的预测框,同时保留置信度最高的目标框。NMS通过比较不同预测框之间的IoU,筛选出高置信度且不重叠的目标框,从而确保最终的检测结果更准确和紧密。目标检测算法最终都会从一张图片中找出很多个可能是物体的矩形框,然后为每个矩形框为做类别分类概率,依靠分类器得到多个候选框,以及关于候选框中属于类别的概率值,根据分类器得到的类别分类概率做排序,具体算法流程如下:
(1)将所有框的得分排序,选中最高分及其对应的框 ,
(2)遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,就将框删除(超过设定阈值,认为两个框的里面的物体属于同一个类别,比如都属于逃生门这个类别。只需要留下一个类别的可能性框图即可)
(3)从未处理的框中继续选一个得分最高的,重复上述过程。
在预测阶段,能够准确地获知巡检目标是否是逃生门(目标中门和逃生标志同时存在)、逃生门前面是否有堵塞以及逃生门是否损坏,最终这些结果能准确的返回后台管理,为后续处理提供了依据。
另一个实施例中,步骤S300中,所述逃生门检测模型通过以下步骤进行训练:
S301:获取多张逃生门输入图像,并对输入图像中的逃生门进行标注(示例性的,如图7所示,选取其中一张输入图像进行了标注,其中,逃生门标注为Fire EG,出口标志标注为Exit Sign),通过标注,能够确保图像中的逃生门以及安全标志和遮挡物均获得对应的标签,从而便于模型的后续学习。
S302:对标注后的输入图像预处理,以获得预处理后多张逃生门输入图像;
该步骤中,输入图像的预处理步骤如前所述。
S303:将预处理后的多张逃生门输入图像划分为训练集和测试集;
S304:设定训练参数,例如,学习率lr设置为0.0001,一阶矩估计的指数衰减率beta1设置为0.9,二阶矩估计的指数衰减率beta2设置为0.99,epsilon设置为1e-8,利用训练集对模型进行训练,在训练过程中,计算模型输出的预测值与标注的实际值的损失函数,当损失函数收敛,模型训练完成;
S305:利用测试集对训练后的模型进行测试,在测试过程中,利用准确率和精度两个指标对模型进行评价,当准确率和精度均达到0.9,模型测试通过;否则修改训练参数重新对模型进行训练。
另一个实施例中,本发明还提供一种逃生门检测装置,所述装置包括:
获取模块,用于获取逃生门输入图像;
预处理模块,用于对输入图像预处理,以获得预处理后的输入图像;
模型构建及训练模块,用于构建逃生门检测模型并进行训练;其中,其中,所述逃生门检测模型采用改进后的轻量化神经网络MobileViT,改进后的轻量化神经网络MobileViT 包括改进后的主干网络和改进后的特征提取融合网络,改进后的主干网络引入了CSP层,改进后的特征提取融合网络引入了注意力机制层和SPP层。
检测模块,用于将预处理后的输入图像输入训练好的逃生门检测模型,以检测输入图像中的逃生门是否完整。
另一个实施例中,本发明还提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行如前任一所述的方法。
另一个实施例中,本发明还提供一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现如前任一所述的方法。
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。
Claims (6)
1.一种逃生门检测方法,其特征在于,所述方法包括以下步骤:
S100:获取逃生门输入图像;
S200:对输入图像预处理,以获得预处理后的输入图像;
S300:构建逃生门检测模型并进行训练;
其中,所述逃生门检测模型采用改进后的轻量化神经网络MobileViT,改进后的轻量化神经网络MobileViT 包括改进后的主干网络和改进后的特征提取融合网络,改进后的主干网络引入了CSP层,改进后的特征提取融合网络引入了注意力机制层和SPP层;
具体的,
所述改进后的主干网络从左至右包括依次连接的:
输入层416×416×3;
CBL层416×416×3;
CBL层52×52×96;
CSP层52×52×96;
CSP层26×26×128;
CSP层26×26×128;
MV2层+ MVIT层13×13×160;
所述改进后的特征提取融合网络包括三个分支,其中,
第一分支由上至下包括依次连接的:
CBR层,由卷积层Conv、批量归一化层BN和Relu6激活函数组成;
注意力机制层CA;
Concat层;
Conv5层,由依次连接的CBR模块、深度卷积模块DWConv、CBR模块、深度卷积模块DWConv和CBR模块组成;
Concat层;
Conv5层;
第二分支由上至下包括依次连接的:
CBR模块;
注意力机制层CA;
Concat层;
Conv5层;
Concat层;
Conv5层;
第三分支由上至下包括依次连接的:
Conv3层,由依次连接的CBR模块、深度卷积模块DWConv和CBR模块组成;
SPP层;
Conv3层;
注意力机制层CA;
Concat层;
Conv5层;
此外,第一分支的第一个Concat函数层和第二分支的第一个Conv5层之间设置有上第一个采样层UpSample;第一分支的第二个Conv5层与第二分支的第二个Concat函数层之间设置有第一个下采样层DownSample;第二分支的第一个Concat函数层与第三分支的注意力机制层之间设置有第二个上采样层UpSample;第二分支的第二个Conv5层与第三分支的Concat函数层之间设置有第二个下采样层DownSample;
S400:将预处理后的输入图像输入训练好的逃生门检测模型,以检测输入图像中的逃生门是否完整。
2.根据权利要求1所述的方法,其特征在于,步骤S200中,所述对输入图像预处理包括以下步骤:
S201:调整输入图像的尺寸;
S202:对调整尺寸后的输入图像进行归一化处理;
S203:对归一化处理后的输入图像进行数据增强。
3.根据权利要求1所述的方法,其特征在于,步骤S300中,所述逃生门检测模型通过以下步骤进行训练:
S301:获取多张逃生门输入图像,并对每张输入图像中的逃生门进行标注;
S302:对标注后的输入图像预处理,以获得多张预处理后的逃生门输入图像;
S303:将多张预处理后的逃生门输入图像划分为训练集和测试集;
S304:设定训练参数,利用训练集对模型进行训练,在训练过程中,计算模型输出的预测值与标注的实际值的损失函数,当损失函数收敛,模型训练完成;
S305:利用测试集对训练后的模型进行测试,在测试过程中,利用准确率和精度两个指标对模型进行评价,当准确率和精度均达到0.9,模型测试通过;否则修改训练参数重新对模型进行训练。
4.一种逃生门检测装置,其特征在于,所述装置包括:
获取模块,用于获取逃生门输入图像;
预处理模块,用于对输入图像预处理,以获得预处理后的输入图像;
模型构建及训练模块,用于构建逃生门检测模型并进行训练;其中,其中,所述逃生门检测模型采用改进后的轻量化神经网络MobileViT,改进后的轻量化神经网络MobileViT包括改进后的主干网络和改进后的特征提取融合网络,改进后的主干网络引入了CSP层,改进后的特征提取融合网络引入了注意力机制层和SPP层;
具体的,
所述改进后的主干网络从左至右包括依次连接的:
输入层416×416×3;
CBL层416×416×3;
CBL层52×52×96;
CSP层52×52×96;
CSP层26×26×128;
CSP层26×26×128;
MV2层+ MVIT层13×13×160;
所述改进后的特征提取融合网络包括三个分支,其中,
第一分支由上至下包括依次连接的:
CBR层,由卷积层Conv、批量归一化层BN和Relu6激活函数组成;
注意力机制层CA;
Concat层;
Conv5层,由依次连接的CBR模块、深度卷积模块DWConv、CBR模块、深度卷积模块DWConv和CBR模块组成;
Concat层;
Conv5层;
第二分支由上至下包括依次连接的:
CBR模块;
注意力机制层CA;
Concat层;
Conv5层;
Concat层;
Conv5层;
第三分支由上至下包括依次连接的:
Conv3层,由依次连接的CBR模块、深度卷积模块DWConv和CBR模块组成;
SPP层;
Conv3层;
注意力机制层CA;
Concat层;
Conv5层;
此外,第一分支的第一个Concat函数层和第二分支的第一个Conv5层之间设置有上第一个采样层UpSample;第一分支的第二个Conv5层与第二分支的第二个Concat函数层之间设置有第一个下采样层DownSample;第二分支的第一个Concat函数层与第三分支的注意力机制层之间设置有第二个上采样层UpSample;第二分支的第二个Conv5层与第三分支的Concat函数层之间设置有第二个下采样层DownSample;
检测模块,用于将预处理后的输入图像输入训练好的逃生门检测模型,以检测输入图像中的逃生门是否完整。
5.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至3任一所述的方法。
6.一种电子设备,其特征在于,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现权利要求1至3任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311484310.0A CN117218606B (zh) | 2023-11-09 | 2023-11-09 | 一种逃生门检测方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311484310.0A CN117218606B (zh) | 2023-11-09 | 2023-11-09 | 一种逃生门检测方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117218606A CN117218606A (zh) | 2023-12-12 |
CN117218606B true CN117218606B (zh) | 2024-02-02 |
Family
ID=89044819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311484310.0A Active CN117218606B (zh) | 2023-11-09 | 2023-11-09 | 一种逃生门检测方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117218606B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762201A (zh) * | 2021-09-16 | 2021-12-07 | 深圳大学 | 基于yolov4的口罩检测方法 |
CN114359851A (zh) * | 2021-12-02 | 2022-04-15 | 广州杰赛科技股份有限公司 | 无人驾驶目标检测方法、装置、设备及介质 |
CN114565959A (zh) * | 2022-02-18 | 2022-05-31 | 武汉东信同邦信息技术有限公司 | 基于YOLO-SD-Tiny的目标检测方法及装置 |
CN115171047A (zh) * | 2022-07-20 | 2022-10-11 | 南京林业大学 | 基于轻量级长短距离注意力transformer网络的火灾图像检测方法 |
CN115359372A (zh) * | 2022-07-25 | 2022-11-18 | 成都信息工程大学 | 一种基于光流网络的无人机视频运动目标检测方法 |
CN116030348A (zh) * | 2023-01-10 | 2023-04-28 | 淮阴工学院 | 一种基于LS-YOLOv5网络的绿豆叶斑病病斑检测方法及装置 |
CN116596881A (zh) * | 2023-05-17 | 2023-08-15 | 南京工业大学 | 基于CNN和Transformer的工件表面缺陷检测方法 |
CN116704476A (zh) * | 2023-06-12 | 2023-09-05 | 郑州轻工业大学 | 一种基于改进Yolov4-tiny算法的交通标志检测方法 |
CN116863252A (zh) * | 2023-09-04 | 2023-10-10 | 四川泓宝润业工程技术有限公司 | 动火作业现场易燃物检测方法、装置、设备、存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114119582B (zh) * | 2021-12-01 | 2024-04-26 | 安徽大学 | 一种合成孔径雷达图像目标检测方法 |
-
2023
- 2023-11-09 CN CN202311484310.0A patent/CN117218606B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762201A (zh) * | 2021-09-16 | 2021-12-07 | 深圳大学 | 基于yolov4的口罩检测方法 |
CN114359851A (zh) * | 2021-12-02 | 2022-04-15 | 广州杰赛科技股份有限公司 | 无人驾驶目标检测方法、装置、设备及介质 |
CN114565959A (zh) * | 2022-02-18 | 2022-05-31 | 武汉东信同邦信息技术有限公司 | 基于YOLO-SD-Tiny的目标检测方法及装置 |
CN115171047A (zh) * | 2022-07-20 | 2022-10-11 | 南京林业大学 | 基于轻量级长短距离注意力transformer网络的火灾图像检测方法 |
CN115359372A (zh) * | 2022-07-25 | 2022-11-18 | 成都信息工程大学 | 一种基于光流网络的无人机视频运动目标检测方法 |
CN116030348A (zh) * | 2023-01-10 | 2023-04-28 | 淮阴工学院 | 一种基于LS-YOLOv5网络的绿豆叶斑病病斑检测方法及装置 |
CN116596881A (zh) * | 2023-05-17 | 2023-08-15 | 南京工业大学 | 基于CNN和Transformer的工件表面缺陷检测方法 |
CN116704476A (zh) * | 2023-06-12 | 2023-09-05 | 郑州轻工业大学 | 一种基于改进Yolov4-tiny算法的交通标志检测方法 |
CN116863252A (zh) * | 2023-09-04 | 2023-10-10 | 四川泓宝润业工程技术有限公司 | 动火作业现场易燃物检测方法、装置、设备、存储介质 |
Non-Patent Citations (6)
Title |
---|
A Lightweight YOLOv5-Based Model with Feature Fusion and Dilation Convolution for Image Segmentation;linwei chen等;《Mathematics》;第11卷(第16期);1-17 * |
Defect Identification of Power Line Insulators Based on a MobileViT-Yolo Deep Learning Algorithm;Weidong Zan等;《IEEJ Trans》(第18期);1271-1279 * |
Drone Detection Method Based on MobileViT and CA-PANet;Qianqing Cheng等;《Electronics》;第12卷(第1期);1-16 * |
基于YOLOv5l和ViT的交通标志检测识别方法;郭朦等;《科学技术与工程》;第22卷(第27期);12038-12044 * |
基于轻量化神经网络的车辆检测算法研究;涂所成;《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》(第02期);C034-1901 * |
改进MobileViT与YOLOv4的轻量化车辆检测网络;郑玉珩等;《电子测量技术》;第46卷(第02期);175-183 * |
Also Published As
Publication number | Publication date |
---|---|
CN117218606A (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113052834B (zh) | 一种基于卷积神经网络多尺度特征的管道缺陷检测方法 | |
CN112085735A (zh) | 一种基于自适应锚框的铝材质图像缺陷检测方法 | |
Cepni et al. | Vehicle detection using different deep learning algorithms from image sequence | |
CN107545263A (zh) | 一种物体检测方法及装置 | |
CN112818969A (zh) | 一种基于知识蒸馏的人脸姿态估计方法及系统 | |
CN113205507B (zh) | 一种视觉问答方法、系统及服务器 | |
CN111368637B (zh) | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 | |
CN115147488B (zh) | 一种基于密集预测的工件位姿估计方法与抓取系统 | |
CN108133235A (zh) | 一种基于神经网络多尺度特征图的行人检测方法 | |
CN114359245A (zh) | 一种工业场景下产品表面缺陷检测方法 | |
CN115050021A (zh) | 基于改进YOLOv4的非结构环境下葡萄识别方法 | |
CN114998573B (zh) | 一种基于rgb-d特征深度融合的抓取位姿检测方法 | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
CN116543217A (zh) | 一种结构相似的小目标分类识别与位姿估计方法 | |
CN113681552B (zh) | 一种基于级联神经网络的机器人混杂物体五维抓取方法 | |
Niu et al. | Underwater Waste Recognition and Localization Based on Improved YOLOv5. | |
CN117218606B (zh) | 一种逃生门检测方法、装置、存储介质及电子设备 | |
CN116977840A (zh) | 海洋生物目标检测方法、系统、存储介质及设备 | |
CN116452965A (zh) | 一种基于声光融合的水下目标检测识别方法 | |
CN114241189B (zh) | 一种基于深度学习的船舶黑烟识别方法 | |
CN114140524B (zh) | 一种多尺度特征融合的闭环检测系统及方法 | |
CN113505806B (zh) | 一种机器人抓取检测方法 | |
CN110728222A (zh) | 一种用于机械臂抓取系统中目标物体的位姿估计方法 | |
CN110910450A (zh) | 一种基于混合特征感知神经网络进行3d目标检测的方法 | |
CN117764969B (zh) | 轻量化多尺度特征融合缺陷检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |