CN114821462A - 基于多分支并行混合空洞编码神经网络的目标检测方法 - Google Patents

基于多分支并行混合空洞编码神经网络的目标检测方法 Download PDF

Info

Publication number
CN114821462A
CN114821462A CN202210319406.0A CN202210319406A CN114821462A CN 114821462 A CN114821462 A CN 114821462A CN 202210319406 A CN202210319406 A CN 202210319406A CN 114821462 A CN114821462 A CN 114821462A
Authority
CN
China
Prior art keywords
neural network
attention
feature map
layer
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210319406.0A
Other languages
English (en)
Inventor
冯冬竹
鲁彦萱
秦翰林
袁帅
孙鹏
陈嘉欣
代杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210319406.0A priority Critical patent/CN114821462A/zh
Publication of CN114821462A publication Critical patent/CN114821462A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多分支并行混合空洞编码神经网络的目标检测方法,包括:获取待测图像;将待测图像输入至训练完成的多分支并行混合空洞编码神经网络中,得到待测图像的最终检测结果。本发明的目标检测方法,通过训练完成的多分支并行混合空洞编码神经网络,对无人机拍摄得到的待测图像进行目标检测,该多分支并行混合空洞编码神经网络利用并行混合空洞编码神经网络对输入图像进行特征提取,同时利用解码预测网络和注意力无锚预测网络得到两个检测结果,通过对两个检测结果的融合得到最终检测结果,该目标检测方法能够提高无人机对地面小目标的检测精度,尤其对密集、遮挡场景下小目标的漏检及误检现象进行改善。

Description

基于多分支并行混合空洞编码神经网络的目标检测方法
技术领域
本发明属于无人机目标探测技术领域,具体涉及一种基于多分支并行混合空洞编码神经网络的目标检测方法。
背景技术
为了加强安全防范管理,安装网络监控系统,对重点部位加强监控并和报警系统联动已经成为普遍采用的安保措施之一。现在普遍采用的是固定监控摄像头进行监控,这就不可避免的出现盲点、盲区,并且很容易受到外界的干扰。固定监控摄像头存在视角狭隘、图像不清晰、难以获取第一手现场图像资料等问题,无法满足日益复杂的安全监控需求,且耗费较多人力实时查看监控,调用监控视频时也难以轻松获取有用资料。
无人机监控可以在建筑物密集、人员车辆分布较广、分布不均的场景中快速准确高效地识别检测目标,对大规模活动进行实时监测,对行人和各类车辆进行快速定位排查危险因素。因此,充分利用无人机目标检测系统人力成本低、机动性强、成像清晰、覆盖域广等优点,可有效进行监控,实现对安全监控的智能化控制和管理。
行人和车辆检测是无人机监控任务中必不可少的环节,但因无人机图像特点和复杂的道路场景特点导致目标检测存在三大难点:(1)无人机地面监控图像目标尺度小,缺乏外观信息,可用特征点少,导致其检测精度不高。(2)在城市建筑物密集的场景下,目标易被遮挡,易产生漏检现象。(3)道路发生交通拥堵时大量目标聚集,检测精度不高,易产生误检现象。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于多分支并行混合空洞编码神经网络的目标检测方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种基于多分支并行混合空洞编码神经网络的目标检测方法,该方法包括:
获取待测图像;
将所述待测图像输入至训练完成的多分支并行混合空洞编码神经网络中,得到所述待测图像的最终检测结果;
其中,所述多分支并行混合空洞编码神经网络是基于多个训练样本训练得到的,所述训练样本包括利用无人机拍摄得到的图像以及其对应的类别标签;
所述多分支并行混合空洞编码神经网络包括:若干依次连接的下采样模块,每一个所述下采样模块的输出端连接一个并行混合空洞编码神经网络,形成并行的分支结构,第一个所述分支结构的并行混合空洞编码神经网络的输出端与解码预测网络连接;其他所述分支结构的并行混合空洞编码神经网络的输出端均与注意力无锚预测网络连接;
所述下采样模块用于对输入的图像进行下采样得到低层特征图;所述并行混合空洞编码神经网络用于对所述低层特征图进行特征提取,得到增强特征图;所述解码预测网络用于对输入的所述增强特征图进行分类检测,得到第一检测结果;所述注意力无锚预测网络用于对输入的所述增强特征图进行分类检测,得到第二检测结果;根据所述第一检测结果和所述第二检测结果得到所述待测图像的最终检测结果。
在本发明的一个实施例中,所述并行混合空洞编码神经网络包括:并行的第一分支链路和第二分支链路,其中,
所述第一分支链路以多个比例对输入的所述低层特征图进行图像上下文信息的捕捉,得到初始特征图;所述第二分支链路用于对输入的所述低层特征图进行全局感知的注意力权重分配,得到注意力加权特征图;将所述初始特征图和所述注意力加权特征图通过concat合并,得到所述增强特征图。
在本发明的一个实施例中,所述第一分支链路包括若干个依次连接的第一卷积单元,所述第一卷积单元包括依次连接的第一空洞卷积层、第一BN层和第一Mish激活函数层,每一个第一卷积单元中的所述第一空洞卷积层具有不同的空洞率和不同的卷积核尺寸;
所述第二分支链路包括依次连接的第一LayerNorm层、第一多头注意力模块、第一Dropout层、第二LayerNorm层、第一前馈神经网络和第二Dropout层,所述第一LayerNorm层的输出与所述第一Dropout层的输出相乘后作为所述第二LayerNorm层的输入,所述第二LayerNorm层的输入与所述前馈神经网络的输出相乘后作为所述第二Dropout层的输入。
在本发明的一个实施例中,所述解码预测网络包括依次连接的注意力模块、编码-解码模块和分类预测模块,其中,
所述注意力模块用于对输入的所述增强特征图进行全局感知的注意力权重分配,并沿着通道和空间两个独立的维度依次进行推断,得到注意特征图,并将该注意特征图与所述解码预测网络输入的所述增强特征图相乘实现自适应特征细化;
所述编码-解码模块用于将特征细化后的注意特征图编码为编码信息矩阵,并与所述并行混合空洞编码网络输出的所述增强特征图进行融合解码,得到融合解码特征图;
所述分类预测模块用于对所述融合解码特征图进行卷积操作,得到所述第一检测结果,所述第一检测结果包括所述待测图像的类别概率和目标框坐标信息。
在本发明的一个实施例中,所述注意力模块包括依次连接的第二多头注意力模块、第一通道和空间注意力模块、第三LayerNorm层和第三Dropout层,其中,所述第三Dropout层的输出与所述注意力模块的输入相乘后作为所述注意力模块的输出;
所述编码-解码模块包括依次连接的Encoder-Decoder attention模块、第四LayerNorm层、第二前馈神经网络和第四Dropout层,其中,所述第四LayerNorm层的输出与所述第二前馈神经网络的输出相乘后作为所述第四Dropout层的输入;
所述分类预测模块包括第一FFN单元和第二FFN单元,其中,所述第一FFN单元和所述第二FFN单元均连接所述第四Dropout层的输出端,所述第一FFN单元和所述第二FFN单元对应输出所述待测图像的类别概率和目标框坐标信息。
在本发明的一个实施例中,基于多分支并行混合空洞编码神经网络的目标检测方法,其特征在于,所述注意力无锚预测网络包括若干个并行连接的注意力混合空洞卷积模块,所述注意力混合空洞卷积模块与所述分支结构的并行混合空洞编码神经网络对应连接;
所述注意力混合空洞卷积模块对输入的所述增强特征图进行分类检测,分别得到所述待测图像的类别概率、目标框信息以及目标框坐标信息;将所述类别概率、所述目标框信息以及所述目标框坐标信息通过concat合并和Reshape操作后得到的二维特征向量,作为所述第二检测结果。
在本发明的一个实施例中,所述注意力混合空洞卷积模块包括依次连接的卷积层、第二通道和空间注意力模块、若干第二卷积单元,所述第二卷积单元包括依次连接的第二空洞卷积层、第二BN层和第二Mish激活函数层,每一个第二卷积单元中的所述第二空洞卷积层具有不同的空洞率和不同的卷积核尺寸。
在本发明的一个实施例中,根据所述第一检测结果和所述第二检测结果得到所述待测图像的最终检测结果,包括:
通过NMS操作融合所述第一检测结果和所述第二检测结果,对所述第一检测结果和所述第二检测结果中的类别概率进行排序,将类别概率最大值对应的类别以及目标框坐标信息作为所述待测图像的最终检测结果。
在本发明的一个实施例中,在对所述多分支并行混合空洞编码神经网络进行训练过程中,采用的损失函数为:
L=λgiou·Lgioufl·Lflbce·Lbce
式中,Lgiou表示预测目标框与真实标记框之间位置偏差的损失函数,Lbce表示预测目标框与真实标记框之间大小偏差的损失函数,Lfl表示预测分类结果和真实类别标签的损失函数,λgiou、λfl、λbce表示各损失函数分量的对应系数。
与现有技术相比,本发明的有益效果在于:
1.本发明的基于多分支并行混合空洞编码神经网络的目标检测方法,通过训练完成的多分支并行混合空洞编码神经网络,对无人机拍摄得到的待测图像进行目标检测,该多分支并行混合空洞编码神经网络利用并行混合空洞编码神经网络对输入图像进行特征提取,同时利用解码预测网络和注意力无锚预测网络得到两个检测结果,通过对两个检测结果的融合得到最终检测结果,该目标检测方法能够提高无人机对地面小目标的检测精度,尤其对密集、遮挡场景下小目标的漏检及误检现象进行改善。
2.本发明的基于多分支并行混合空洞编码神经网络的目标检测方法,在提高检测精度的同时该检测模型具有轻量化和实时性,可以利用本发明方法实现无人机智能检测监控系统平台,优化设备资源和人力资源配置,将监控的运行成本降。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明实施例提供的一种基于多分支并行混合空洞编码神经网络的目标检测方法的示意图;
图2是本发明实施例提供的多分支并行混合空洞编码神经网络的结构示意图;
图3是本发明实施例提供的并行混合空洞编码神经网络的结构示意图;
图4是本发明实施例提供的解码预测网络的结构示意图;
图5是本发明实施例提供的注意力无锚预测网络的结构示意图。
具体实施方式
为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及具体实施方式,对依据本发明提出的一种基于多分支并行混合空洞编码神经网络的目标检测方法进行详细说明。
有关本发明的前述及其他技术内容、特点及功效,在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明,可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解,然而所附附图仅是提供参考与说明之用,并非用来对本发明的技术方案加以限制。
实施例一
请参见图1,图1是本发明实施例提供的一种基于多分支并行混合空洞编码神经网络的目标检测方法的示意图,如图所示,该目标检测方法包括以下步骤:
步骤1:获取待测图像;
在本实施例中,待测图像为通过搭载摄像头的无人机拍摄采集得到的小目标图像,该待测图像中包含有待识别分类的小目标,该小目标包括但不限于行人、自行车、汽车、货车、卡车、三轮车、遮阳蓬三轮车和无关区域等八种类别中的一种或多种。
步骤2:将待测图像输入至训练完成的多分支并行混合空洞编码神经网络中,得到待测图像的最终检测结果。
其中,多分支并行混合空洞编码神经网络是基于多个训练样本训练得到的,训练样本包括利用无人机拍摄得到的图像以及其对应的类别标签。
请参见图2,图2是本发明实施例提供的多分支并行混合空洞编码神经网络的结构示意图,如图所示,本实施例的多分支并行混合空洞编码神经网络包括:若干依次连接的下采样模块,每一个下采样模块的输出端连接一个并行混合空洞编码神经网络,形成并行的分支结构,第一个分支结构的并行混合空洞编码神经网络的输出端与解码预测网络连接;其他分支结构的并行混合空洞编码神经网络的输出端均与注意力无锚预测网络连接。
具体地,下采样模块用于对输入的图像进行下采样得到低层特征图;并行混合空洞编码神经网络用于对低层特征图进行特征提取,得到增强特征图;解码预测网络用于对输入的增强特征图进行分类检测,得到第一检测结果;注意力无锚预测网络用于对输入的增强特征图进行分类检测,得到第二检测结果;根据第一检测结果和第二检测结果得到待测图像的最终检测结果。
在本实施例中,设置有4个下采样模块,每一个下采样模块的输出端连接一个并行混合空洞编码神经网络,形成4个并行的分支结构。具体地,在第一分支结构中,对输入的待测图像经过一次下采样,得到第一低层特征图F1;在第二分支结构中,对输入的待测图像经过两次下采样,得到第二低层特征图F2;在第三分支结构中,对输入的待测图像经过三次下采样,得到第三低层特征图F3;在第四分支结构中,对输入的待测图像经过四次下采样,得到第四低层特征图F4
具体地下采样过程为:采用3*3的最大池化操作进行下采样,对特征图邻域内特征点取最大值,假设N为输出特征图大小,W为输入特征图大小,F为卷积核大小,P为填充值的大小,S为步长大小,下采样的过程描述为:N=(W-F+2P)/S+1。
进一步地,通过四个分支结构中的并行混合空洞编码神经网络对对应的第一低层特征图F1、第二低层特征图F2、第三低层特征图F3和第四低层特征图F4进行特征提取,得到对应的第一增强特征图F1、第二增强特征图F2、第三增强特征图F3、第四增强特征图F4
进一步地,通过解码预测网络对第一增强特征图F1进行检测,得到第一检测结果;同时,通过注意力无锚预测网络对第二增强特征图F2、第三增强特征图F3和第四增强特征图F4进行检测,得到第二检测结果。将所述第一检测结果和第二检测结果融合后得到待测图像的最终检测结果。
请结合参见图3,图3是本发明实施例提供的并行混合空洞编码神经网络的结构示意图,如图所示,本实施例的并行混合空洞编码神经网络包括:并行的第一分支链路和第二分支链路,其中,第一分支链路以多个比例对输入的低层特征图进行图像上下文信息的捕捉,得到初始特征图;第二分支链路用于对输入的低层特征图进行全局感知的注意力权重分配,得到注意力加权特征图。具体权重分配过程为:
假设输入为a1,a2,将a1和a2与权重参数矩阵WqWkWv相乘生成分配好权重的q1,k1,v1和q2,k2,v2,如下式所描述,然后利用生成分配好权重的q1,k1,v1和q2,k2,v2进行加权,得到注意力加权特征图:
qi=aiWq (1);
ki=aiWk (2);
vi=aiWv (3)。
将初始特征图和注意力加权特征图通过concat合并特征通道,得到增强特征图。假设两路输入的通道分别为Xi和Yi,那么通过concat的单个输出通道为:
Figure BDA0003571004100000091
其中,*表示卷积,K表示卷积核。
具体地,第一分支链路包括若干个依次连接的第一卷积单元,第一卷积单元包括依次连接的第一空洞卷积层、第一BN层和第一Mish激活函数层,每一个第一卷积单元中的第一空洞卷积层具有不同的空洞率和不同的卷积核尺寸。第二分支链路包括依次连接的第一LayerNorm层、第一多头注意力模块、第一Dropout层、第二LayerNorm层、第一前馈神经网络和第二Dropout层,第一LayerNorm层的输出与第一Dropout层的输出相乘后作为第二LayerNorm层的输入,第二LayerNorm层的输入与前馈神经网络的输出相乘后作为第二Dropout层的输入。
在本实施例中,第一前馈神经网络为MLP,第一分支链路包括3个依次连接的第一卷积单元,3个第一卷积单元中的第一空洞卷积层的空洞率分别为1、2、3,卷积核尺寸分别为3*3、5*5、9*9。
在本实施例中,利用第一分支链路可以对输入的低层特征图以多个比例捕捉图像的上下文信息,连续增大的空洞率增大感受野的同时避免了感受野不连续、局部信息丢失的问题。利用第二分支链路可以对输入的低层特征图进行全局感知的注意力权重分配,以增强输入特征的表达力。
请结合参见图4,图4是本发明实施例提供的解码预测网络的结构示意图,如图所示,本实施例的解码预测网络包括依次连接的注意力模块、编码-解码模块和分类预测模块,其中,注意力模块用于对输入的增强特征图进行全局感知的注意力权重分配,并沿着通道和空间两个独立的维度依次进行推断,得到注意特征图,并将该注意特征图与解码预测网络输入的增强特征图相乘实现自适应特征细化;编码-解码模块用于将特征细化后的注意特征图编码为编码信息矩阵,并与并行混合空洞编码网络输出的增强特征图进行融合解码,得到融合解码特征图;分类预测模块用于对融合解码特征图进行卷积操作,得到第一检测结果,第一检测结果包括待测图像的类别概率和目标框坐标信息。
具体地,注意力模块包括依次连接的第二多头注意力模块、第一通道和空间注意力模块、第三LayerNorm层和第三Dropout层,其中,第三Dropout层的输出与注意力模块的输入相乘后作为注意力模块的输出。
在本实施例中,首先,第一增强特征图F1经过一个多头注意力模块,计算过程如下式:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (5);
具体地,将经过自注意力得到的权重向量进行concat拼接,第一个下标相同的拼接在一起,然后用一个可学习参数WO以矩阵乘法的形式对拼接后的数据进一步融合。
其次,通过一个通道和空间注意力模块(CBAM),沿着通道和空间两个独立的维度依次推断,得到注意特征图,然后依次连接一个LayerNorm层和Dropout层方便后续训练。
进一步地,编码-解码模块包括依次连接的Encoder-Decoder attention模块、第四LayerNorm层、第二前馈神经网络和第四Dropout层,其中,第四LayerNorm层的输出与第二前馈神经网络的输出相乘后作为第四Dropout层的输入。
在本实施例中,Encoder-Decoder attention模块用于将特征细化后的注意特征图编码为编码信息矩阵,并与并行混合空洞编码网络输出的增强特征图进行融合解码,以进行后续的卷积操作;第四LayerNorm层用于对融合解码特征图进行归一化操作;第二前馈神经网络为MLP,包含两层全连接层,用于解决非线性问题。
进一步地,分类预测模块包括第一FFN单元和第二FFN单元,其中,第一FFN单元和第二FFN单元均连接第四Dropout层的输出端,第一FFN单元和第二FFN单元对应输出待测图像的类别概率和目标框坐标信息。
请结合参见图5,图5是本发明实施例提供的注意力无锚预测网络的结构示意图,如图所示,本实施例的注意力无锚预测网络包括若干个并行连接的注意力混合空洞卷积模块,注意力混合空洞卷积模块与分支结构的并行混合空洞编码神经网络对应连接;注意力混合空洞卷积模块对输入的增强特征图进行分类检测,分别得到待测图像的类别概率、目标框信息以及目标框坐标信息;将类别概率、目标框信息以及目标框坐标信息通过concat合并和Reshape操作后得到的二维特征向量,作为第二检测结果。
具体地,注意力混合空洞卷积模块包括依次连接的卷积层、第二通道和空间注意力模块(CBAM)、若干第二卷积单元,第二卷积单元包括依次连接的第二空洞卷积层、第二BN层和第二Mish激活函数层,每一个第二卷积单元中的第二空洞卷积层具有不同的空洞率和不同的卷积核尺寸。
在本实施例中,注意力无锚预测网络包括3个并行连接的注意力混合空洞卷积模块,分别与3个分支结构中的并行混合空洞编码神经网络对应连接,用于对输入的第二增强特征图F2、第三增强特征图F3、第四增强特征图F4的目标类别、前后背景分数和目标框坐标相应进行预测。
在本实施例中,注意力混合空洞卷积模块中设置有3个第二卷积单元,3个第二卷积单元中的第二空洞卷积层的空洞率分别为1、2、3,卷积核尺寸分别为3*3、5*5、9*9。
注意力无锚预测网络具体预测过如下:第二增强特征图F2、第三增强特征图F3和第四增强特征图F4经过注意力无锚预测网络得到三个分支的输出,在本实施例中,三个分支的输出通道数分别为12、1、4,其中,通道数为12的输出对12个类别的目标进行类别判断得到对应的类别概率;通道数为1的输出主要判断目标框是前景还是背景;通道数为4的输出主要对目标框坐标信息(x,y,w,h)进行预测。最后三个输出经过Concat融合到一起,得到进行一个通道数为17的特征向量,该特征向量包含待测图像的类别概率、目标框信息以及目标框坐标信息,然后通过Reshape操作将特征图变换为二维特征向量。
进一步地,根据第一检测结果和所述第二检测结果得到所述待测图像的最终检测结果,包括:通过NMS操作融合第一检测结果和第二检测结果,对第一检测结果和第二检测结果中的类别概率进行排序,将类别概率最大值对应的类别以及目标框坐标信息作为待测图像的最终检测结果。
为了方案更为清楚,下面对多分支并行混合空洞编码神经网络的训练过程进行示例性的说明:首先获取图像数据集,通过搭载摄像头的无人机拍摄进行采集得到原始图像,该原始图像中的目标包括行人、自行车、汽车、货车、卡车、三轮车、遮阳蓬三轮车和无关区域八类;对采集到的每一张图像进行标注,并为图像中的待检测目标生成包含语义信息的xml格式标注文件,根据1:1:2的比例将数据集划分为训练集、验证集和测试集,分别用于多分支并行混合空洞编码神经网络的预训练、验证及测试。
然后,分批次将训练图像输入到多分支并行混合空洞编码神经网络中,可以得到预测结果。该预测结果具体为目标预测框以及该目标的类别概率,将预测框和真实标记框进行关联得到正样本预测框,将最后得到的预测框和真实标记框计算损失函数。在训练过程中,采用的损失函数为:
L=λgiou·Lgioufl·Lflbce·Lbce (6);
式中,Lgiou表示预测目标框与真实标记框之间位置偏差的损失函数,Lbce表示预测目标框与真实标记框之间大小偏差的损失函数,Lfl表示预测分类结果和真实类别标签的损失函数,λgiou、λfl、λbce表示各损失函数分量的对应系数。
最后,根据计算得到的损失值,利用优化器实现网络参数的优化;当某一批次的训练图像输入到多分支并行混合空洞编码神经网络后所计算的损失值小于预设的阈值时,认为该网络收敛,完成训练。
本实施例的基于多分支并行混合空洞编码神经网络的目标检测方法,通过训练完成的多分支并行混合空洞编码神经网络,对无人机拍摄得到的待测图像进行目标检测,该多分支并行混合空洞编码神经网络利用并行混合空洞编码神经网络对输入图像进行特征提取,同时利用解码预测网络和注意力无锚预测网络得到两个检测结果,通过对两个检测结果的融合得到最终检测结果,该目标检测方法能够提高无人机对地面小目标的检测精度,尤其对密集、遮挡场景下小目标的漏检及误检现象进行改善。
本实施例的基于多分支并行混合空洞编码神经网络的目标检测方法,在提高检测精度的同时该检测模型具有轻量化和实时性,可以利用本发明方法实现无人机智能检测监控系统平台,优化设备资源和人力资源配置,将监控的运行成本降。
基于同一发明构思,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器用于存放计算机程序;处理器用于执行存储器上所存放的程序时,实现上述任一种基于多分支并行混合空洞编码神经网络的目标检测方法的方法步骤,或者,实现上述任一种多分支并行混合空洞编码神经网络所实现的功能。
本发明实施例还提供了一种计算机可读存储介质。在该计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时,实现上述任一种基于多分支并行混合空洞编码神经网络的目标检测方法的方法步骤,或者,实现上述任一种多分支并行混合空洞编码神经网络所实现的功能。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种基于多分支并行混合空洞编码神经网络的目标检测方法,其特征在于,包括:
获取待测图像;
将所述待测图像输入至训练完成的多分支并行混合空洞编码神经网络中,得到所述待测图像的最终检测结果;
其中,所述多分支并行混合空洞编码神经网络是基于多个训练样本训练得到的,所述训练样本包括利用无人机拍摄得到的图像以及其对应的类别标签;
所述多分支并行混合空洞编码神经网络包括:若干依次连接的下采样模块,每一个所述下采样模块的输出端连接一个并行混合空洞编码神经网络,形成并行的分支结构,第一个所述分支结构的并行混合空洞编码神经网络的输出端与解码预测网络连接;其他所述分支结构的并行混合空洞编码神经网络的输出端均与注意力无锚预测网络连接;
所述下采样模块用于对输入的图像进行下采样得到低层特征图;所述并行混合空洞编码神经网络用于对所述低层特征图进行特征提取,得到增强特征图;所述解码预测网络用于对输入的所述增强特征图进行分类检测,得到第一检测结果;所述注意力无锚预测网络用于对输入的所述增强特征图进行分类检测,得到第二检测结果;根据所述第一检测结果和所述第二检测结果得到所述待测图像的最终检测结果。
2.根据权利要求1所述的基于多分支并行混合空洞编码神经网络的目标检测方法,其特征在于,所述并行混合空洞编码神经网络包括:并行的第一分支链路和第二分支链路,其中,
所述第一分支链路以多个比例对输入的所述低层特征图进行图像上下文信息的捕捉,得到初始特征图;所述第二分支链路用于对输入的所述低层特征图进行全局感知的注意力权重分配,得到注意力加权特征图;将所述初始特征图和所述注意力加权特征图通过concat合并,得到所述增强特征图。
3.根据权利要求2所述的基于多分支并行混合空洞编码神经网络的目标检测方法,其特征在于,所述第一分支链路包括若干个依次连接的第一卷积单元,所述第一卷积单元包括依次连接的第一空洞卷积层、第一BN层和第一Mish激活函数层,每一个第一卷积单元中的所述第一空洞卷积层具有不同的空洞率和不同的卷积核尺寸;
所述第二分支链路包括依次连接的第一LayerNorm层、第一多头注意力模块、第一Dropout层、第二LayerNorm层、第一前馈神经网络和第二Dropout层,所述第一LayerNorm层的输出与所述第一Dropout层的输出相乘后作为所述第二LayerNorm层的输入,所述第二LayerNorm层的输入与所述前馈神经网络的输出相乘后作为所述第二Dropout层的输入。
4.根据权利要求1所述的基于多分支并行混合空洞编码神经网络的目标检测方法,其特征在于,所述解码预测网络包括依次连接的注意力模块、编码-解码模块和分类预测模块,其中,
所述注意力模块用于对输入的所述增强特征图进行全局感知的注意力权重分配,并沿着通道和空间两个独立的维度依次进行推断,得到注意特征图,并将该注意特征图与所述解码预测网络输入的所述增强特征图相乘实现自适应特征细化;
所述编码-解码模块用于将特征细化后的注意特征图编码为编码信息矩阵,并与所述并行混合空洞编码网络输出的所述增强特征图进行融合解码,得到融合解码特征图;
所述分类预测模块用于对所述融合解码特征图进行卷积操作,得到所述第一检测结果,所述第一检测结果包括所述待测图像的类别概率和目标框坐标信息。
5.根据权利要求4所述的基于多分支并行混合空洞编码神经网络的目标检测方法,其特征在于,所述注意力模块包括依次连接的第二多头注意力模块、第一通道和空间注意力模块、第三LayerNorm层和第三Dropout层,其中,所述第三Dropout层的输出与所述注意力模块的输入相乘后作为所述注意力模块的输出;
所述编码-解码模块包括依次连接的Encoder-Decoder attention模块、第四LayerNorm层、第二前馈神经网络和第四Dropout层,其中,所述第四LayerNorm层的输出与所述第二前馈神经网络的输出相乘后作为所述第四Dropout层的输入;
所述分类预测模块包括第一FFN单元和第二FFN单元,其中,所述第一FFN单元和所述第二FFN单元均连接所述第四Dropout层的输出端,所述第一FFN单元和所述第二FFN单元对应输出所述待测图像的类别概率和目标框坐标信息。
6.根据权利要求1所述的基于多分支并行混合空洞编码神经网络的目标检测方法,其特征在于,所述注意力无锚预测网络包括若干个并行连接的注意力混合空洞卷积模块,所述注意力混合空洞卷积模块与所述分支结构的并行混合空洞编码神经网络对应连接;
所述注意力混合空洞卷积模块对输入的所述增强特征图进行分类检测,分别得到所述待测图像的类别概率、目标框信息以及目标框坐标信息;将所述类别概率、所述目标框信息以及所述目标框坐标信息通过concat合并和Reshape操作后得到的二维特征向量,作为所述第二检测结果。
7.根据权利要求6所述的基于多分支并行混合空洞编码神经网络的目标检测方法,其特征在于,所述注意力混合空洞卷积模块包括依次连接的卷积层、第二通道和空间注意力模块、若干第二卷积单元,所述第二卷积单元包括依次连接的第二空洞卷积层、第二BN层和第二Mish激活函数层,每一个第二卷积单元中的所述第二空洞卷积层具有不同的空洞率和不同的卷积核尺寸。
8.根据权利要求1所述的基于多分支并行混合空洞编码神经网络的目标检测方法,其特征在于,根据所述第一检测结果和所述第二检测结果得到所述待测图像的最终检测结果,包括:
通过NMS操作融合所述第一检测结果和所述第二检测结果,对所述第一检测结果和所述第二检测结果中的类别概率进行排序,将类别概率最大值对应的类别以及目标框坐标信息作为所述待测图像的最终检测结果。
9.根据权利要求1所述的基于多分支并行混合空洞编码神经网络的目标检测方法,其特征在于,在对所述多分支并行混合空洞编码神经网络进行训练过程中,采用的损失函数为:
L=λgiou·Lgioufl·Lflbce·Lbce
式中,Lgiou表示预测目标框与真实标记框之间位置偏差的损失函数,Lbce表示预测目标框与真实标记框之间大小偏差的损失函数,Lfl表示预测分类结果和真实类别标签的损失函数,λgiou、λfl、λbce表示各损失函数分量的对应系数。
CN202210319406.0A 2022-03-29 2022-03-29 基于多分支并行混合空洞编码神经网络的目标检测方法 Pending CN114821462A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210319406.0A CN114821462A (zh) 2022-03-29 2022-03-29 基于多分支并行混合空洞编码神经网络的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210319406.0A CN114821462A (zh) 2022-03-29 2022-03-29 基于多分支并行混合空洞编码神经网络的目标检测方法

Publications (1)

Publication Number Publication Date
CN114821462A true CN114821462A (zh) 2022-07-29

Family

ID=82530838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210319406.0A Pending CN114821462A (zh) 2022-03-29 2022-03-29 基于多分支并行混合空洞编码神经网络的目标检测方法

Country Status (1)

Country Link
CN (1) CN114821462A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187603A (zh) * 2022-09-13 2022-10-14 国网浙江省电力有限公司 一种基于深度神经网络的电力设备检测方法及装置
CN117457101A (zh) * 2023-12-22 2024-01-26 中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所) 一种烘烤烟叶含水量预测方法、介质及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115187603A (zh) * 2022-09-13 2022-10-14 国网浙江省电力有限公司 一种基于深度神经网络的电力设备检测方法及装置
CN117457101A (zh) * 2023-12-22 2024-01-26 中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所) 一种烘烤烟叶含水量预测方法、介质及系统
CN117457101B (zh) * 2023-12-22 2024-03-26 中国农业科学院烟草研究所(中国烟草总公司青州烟草研究所) 一种烘烤烟叶含水量预测方法、介质及系统

Similar Documents

Publication Publication Date Title
CN114821462A (zh) 基于多分支并行混合空洞编码神经网络的目标检测方法
CN109993138A (zh) 一种车牌检测与识别方法及装置
CN114241053B (zh) 基于改进的注意力机制FairMOT多类别跟踪方法
CN106372666A (zh) 一种目标识别方法及装置
CN110826429A (zh) 一种基于景区视频的旅游突发事件自动监测的方法及系统
CN111415533A (zh) 弯道安全预警监控方法、装置以及系统
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
CN112949579A (zh) 一种基于密集卷积块神经网络的目标融合检测系统及方法
CN116901975A (zh) 一种车载ai安防监控系统及其方法
CN112818871A (zh) 一种基于半分组卷积的全融合神经网络的目标检测方法
CN115546742A (zh) 一种基于单目热红外摄像头的铁轨异物识别方法及系统
CN117237884A (zh) 一种基于泊位定位的互动式巡检机器人
CN116597413A (zh) 一种基于改进的YOLOv5的实时交通标志检测方法
KR102186974B1 (ko) 차량의 주차면 분석을 위한 지능형 cctv 시스템
CN118038021A (zh) 基于改进yolov4的变电站作业现场异物入侵检测方法
CN114048536A (zh) 一种基于多任务神经网络的道路结构预测与目标检测方法
CN112364864A (zh) 一种车牌识别方法、装置、电子设备及存储介质
CN112308066A (zh) 一种车牌识别系统
CN116824541A (zh) 基于双通道的行人过街意向预测方法、模型及装置
Li et al. Deep Learning-based License Plate Recognition in IoT Smart Parking Systems using YOLOv6 Algorithm.
CN118314432B (zh) 面向变电站多源立体巡视数据融合的目标检测方法及系统
CN111046785A (zh) 一种基于卷积神经网络的无人机巡检视频关键目标识别的方法
CN115100419B (zh) 目标检测方法、装置、电子设备及存储介质
CN118314488B (zh) 一种特高压变电站空天地多尺度重决策目标检测方法
CN118314532B (zh) 一种基于深度学习的变电站红外图像老鼠识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination