CN115063714A

CN115063714A - 一种基于改进YOLOv5s网络的防鸟撞事故目标检测方法

Info

Publication number: CN115063714A
Application number: CN202210584461.2A
Authority: CN
Inventors: 郁佳佳; 李玄锋
Original assignee: Southeast university chengxian college
Current assignee: Southeast university chengxian college
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-09-16

Abstract

本发明公开了一种基于改进YOLOv5s网络的防鸟撞事故目标检测方法，首先引入通道注意力机制SE模块，并选择SE后置的YOLOv5s_SEA嵌入方式作为改进Backbone方案，然后在Head中引入混合域注意力机制CBAM模块，并选用先通过通道域再通过空间域的YOLOv5s_CBAMA方案作为改进方案；接着在Head的输出端加入解耦头，改进后使用IOU损失函数训练reg分支，BCE损失函数训练cls分支；同时在Head的输出端引入趋势感知损失TAL和趋势因子w_i，根据每个物体的移动趋势生成自适应权重，解决预测框的漂移问题；本发明提供的防鸟撞事故目标检测方法可以有效提升小目标的检测精度，并降低延迟带来的检测效果不够实时的问题，提升了网络对目标物体的检测效率，从而改善了漏检的问题。

Description

一种基于改进YOLOv5s网络的防鸟撞事故目标检测方法

技术领域

本发明涉及目标检测技术领域，主要涉及一种基于改进YOLOv5s网络的防鸟撞事故目标检测方法。

背景技术

近年来，民用客机存在风险渐渐成为了各国学者的研究新热点，其中鸟撞事故是近年来对民用客机威胁较大的事故之一。在飞机场等场景下，提前利用超声波来驱走鸟类是防止鸟撞事故发生的基础。目标检测是计算机视觉领域中一个重要而热门的话题。随着深度卷积神经网络在目标检测领域上获得了重大突破，利用红外监控拍摄多个飞机场场景，利用监控视频获取鸟类和飞机的飞行途径，具有实际研究意义和场景应用价值。

发明内容

发明目的：本发明提供了一种基于改进YOLOv5s网络的防鸟撞事故目标检测方法，帮助网络检测图像小目标及解决延迟带来的问题。以红外监控视频为研究对象，以鸟类和飞机的飞行流量为研究任务，通过初步设计、优化改进、整合功能三步实现提前预防鸟撞事故的目的。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于改进YOLOv5s网络的防鸟撞事故目标检测方法，包括以下步骤：

步骤S1、对红外监控视频进行python切片处理，然后进行数据清洗，并对不同类型的图片进行labelImg标注；选取YOLOv5s网络结构进行初始模型训练；

步骤S2、将通道注意力机制SE模块分别引入YOLOv5s网络中Backbone、Neck和Head三大模块特征融合区域；选用SE后置的YOLOv5s_SEA嵌入方式作为改进Backbone方案；

步骤S3、在Head中引入混合域注意力机制CBAM模块，并选用先通过通道域再通过空间域的YOLOv5s_CBAMA方案作为改进方案；

步骤S4、在Head的输出端加入解耦头，改进后使用IOU损失函数训练reg分支，BCE损失函数训练cls分支；

步骤S5、在Head的输出端引入趋势感知损失TAL和趋势因子w_i，根据每个物体的移动趋势生成自适应权重，解决预测框的漂移问题；

步骤S6、将YOLOv5s训练权重best.pt文件部署在Jetson Nano上，并对实际的飞机场应用场景进行识别与检测，以及测试使用嵌入式设备Jetson Nano的运行效果，使该系统可以在其他场合使用。

进一步地，所述步骤S2中进入SE模块具体操作步骤包括：

步骤S2.1、普通卷积操作：

U_c＝F_tr(X_i)

其中，F_tr表示为Transformation各个网络模型原有的卷积操作；

步骤S2.2、在各个通道上的空间维度上进行Squeeze压缩过程；采用全局平均池化，将信息压缩到相应的通道中，从而扩展全局的感受野，得到1个统计量，此时1个统计量表示一个通道，最终将维度H×W×C的特征图压成一个1×1×C的向量，变换公式如下所示：

其中，F_sq表示为Squeeze压缩；H表示为Height；W表示为Width；X_i表示为输入；X_C表示为输出；

步骤S2.3、将得到的特征信息经过两个全连接层，通过w来生成相对应的通道权重，进行Excitation激活过程，通过δ激活函数Relu，然后经过σ激活函数sigmoid，最终得到权重值，变换公式如下所示：

S＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

其中，F_ex表示为激活过程；

步骤S2.4、利用上一步得到的权重值，进行Scale标准化步骤；将得到的权重采用乘法加权的方式分配到每个通道中，完成在通道维度上的重标定，得到新的特征图；变换公式如下

其中，F_scale表示为Scale标准化。

进一步地，所述步骤S3中CBAM模块包括通道注意力和空间注意力两个模块，通过通道注意力模块，将输入网络的特征图分别从宽高进行全局最大池化过程和全局平均池化过程，然后再通过两层神经网络，最后进行sigmoid激活，得到通道注意力特征M_c；具体如下：

其中，AvgPool表示为全局平均池化；MaxPool表示为全局最大池化；σ表示为sigmoid激活函数；M₀为R^C/r×C；r为降维因子且r＝16；M₁为R^C×C/r；Mc表示通道注意力特征；

将输出M_c作为空间注意力模块的输入，进行池化操作，然后通过一个7×7卷积过程，最后通过sigmoid激活函数生成空间注意力特征，即M_s，具体表示如下：

其中，f^7×7表示为7×7卷积；M_c表示空间注意力特征。

进一步地，所述步骤S5中引入趋势感知损失TAL和趋势因子w_i的具体方法如下：

步骤S5.1、将YOLOv5s网络作为Baseline，构造成一个三元组的GT框进行训练，即使用上一帧F_t-1、当前帧F_t和下一帧G_t+1，即(F_t-1,F_t,G_t+1)；取两个相邻的帧(F_t-1,F_t)作为输入训练模型，预测下一帧的GT框；由F_t帧的真实GT框监督G_t+1的GT框，基于输入和监督的三元组，将训练数据集重建为

的形式；

步骤S5.2、通过计算两帧GT之间的IoU矩阵，对帧的维度求最大值，得到两帧之间检测对象的匹配IoU；匹配的IoU值大小与物体移动速度成反比；当有新对象出现在帧中时，没有与之匹配的框，此时设置阈值τ，具体计算公式如下所示：

其中，max_j表示为F_t中方框间的最大操作值t，v表示为新对象的恒定权重；w_i通过调节τ和v两个参数，缓解了时延问题。

有益效果：

本发明在YOLOv5s的网络基础上，在Backbone中引入了通道域注意力机制SE模块，并进行了实验确定了后置YOLOv5s_SEA方式为最佳方案。在Head中引入了混合域注意力机制CBAM模块，并进行了实验确定了先通过通道域再通过空间域的YOLOv5s_CBAMA的方式为最佳方案。对加入注意力机制的网络模型进行实验验证，确定了对小目标的检测效果。由于鸟移动灵活，对网络模型的延迟的要求极高。当处理完当前帧时，下一帧中目标早已发生变化。针对此问题，本发明在head输出端加入解耦头，改进后使用IOU损失函数训练reg分支，BCE损失函数训练cls分支。由于每一帧内的小鸟可能有不同的速度，本发明引入了趋势感知损失TAL及趋势因子w_i来动态分配不同的权值以预测每个对象。最终改进的算法YOLOv5s_SE&CBAM_TAL的mAP提高了6.3％，并在不同小鸟速度下实现了鲁棒预测。本发明从多角度进行证明了这种改进的检测算法可以提升小目标的检测精度，并降低延迟带来的检测效果不够实时。进而提高网络对目标物体的检测效率，从而改善了漏检的问题。

附图说明

图1是本发明提供的一种改进YOLOv5s网络的防鸟撞事故目标检测方法流程图；

图2是改进后的YOLOv5s网络结构图；

图3是SE模块与网络的多种结合方式示意图；

图4是SE模块与四种不同结合方式组合的mAP变化趋势对比；

图5是CBAM模块中CAM和SAM的组合比较mAP变化趋势对比；

图6是同时集成SE和CBAM模块的改进算法与原算法的mAP变化趋势对比；

图7是本发明实施例中三元组训练原理图；

图8是基本探测器和传感器的可视化结果示意图；

图9是加入趋势感知损失Trend-Aware Loss的改进算法与原算法的mAP变化趋势对比；

图10是本发明实施例中YOLOv5s_SE&CBAM_TAL与YOLOv5s网络检测目标数对比图；

具体实施方式

下面结合附图对本发明作更进一步的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明提供的基于改进YOLOv5s网络的防鸟撞事故目标检测方法流程图，具体方法如下：

步骤S1、对红外监控视频进行python切片处理，然后进行数据清洗，并对不同类型的图片进行labelImg标注。选取选取YOLOv5的四个版本中最小的YOLOv5s网络结构进行初始模型训练。

步骤S2、将通道注意力机制SE模块分别引入YOLOv5s网络中Backbone、Neck和Head三大模块特征融合区域。具体操作步骤包括：

步骤S2.1、普通卷积操作：

U_c＝F_tr(X_i)

其中，F_tr表示为Transformation各个网络模型原有的卷积操作。

步骤S2.2、在各个通道上的空间维度上进行Squeeze压缩过程。采用全局平均池化，将信息压缩到相应的通道中，从而扩展全局的感受野，得到1个统计量，此时1个统计量表示一个通道，最终将维度H×W×C的特征图压成一个1×1×C的向量，变换公式如下所示：

其中，F_sq表示为Squeeze压缩。H表示为Height。W表示为Width。X_i表示为输入。X_C表示为输出。

S＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

其中，F_ex表示为激活过程。

步骤S2.4、利用上一步得到的权重值，进行Scale标准化步骤。将得到的权重采用乘法加权的方式分配到每个通道中，通俗来讲，是将每个位置上的H×W×C值都通过加权处理到之前的特征中，完成在通道维度上的重标定，得到新的特征图。变换公式如下

其中，F_scale表示为Scale标准化。

针对Backbone改进的四种方案，利用步骤S1中数据集进行相同方式的训练，选择SE后置YOLOv5s_SEA、SE前置YOLOv5s_SEB、SE外后置YOLOv5s_SECH和SE外前置YOLOv5s_SED四种不同嵌入方式中的最佳方案作为最终改进方案。

本实施例设置了SE模块的不同结合方式与原YOLOv5s进行对比实验。经过300个epochs训练后得到一系列训练和测试两个阶段的检测指标数据。从精确度、召回率和mAP三个性能指标的结果进行分析，结果如下表1所示：

表1四种不同改进模型与原网络的性能指标对比结果

从准确率或者召回率单方面提高进行选择，首先排除SE前置YOLOv5s_SEB和SE外前置YOLOv5s_SED，因为其改变不大，而其他两个模型均有较大提升。然后从最为代表性的指标mAP的变化进行分析。如图4所示为不同组合的网络模型训练300个Epochs得到的mAP的变化趋势，其中最右侧曲线代表的是SE后置YOLOv5s_SEA，其mAP最终提升到了0.955。

通过实验对比，确认选用后置YOLOv5s_SEA方式为最佳方案。与原YOLOv5s网络相比，mAP提高了2％，其mAP最终提升到了0.955。

步骤S3、在Head中引入混合域注意力机制CBAM模块，并选用先通过通道域再通过空间域的YOLOv5s_CBAMA方案作为改进方案。

CBAM模块包括通道注意力和空间注意力两个子模块，通过通道注意力模块，将输入网络的特征图分别从宽高进行全局最大池化过程和全局平均池化过程，然后再通过两层神经网络，最后进行sigmoid激活，得到通道注意力特征M_c。具体如下：

其中，AvgPool表示为全局平均池化。MaxPool表示为全局最大池化。σ表示为sigmoid激活函数。M₀为R^C/r×C。r为降维因子且r＝16。M₁为R^C×C/r。Mc表示通道注意力特征。

其中，f^7×7表示为7×7卷积。M_c表示空间注意力特征。

针对Head改进方案，对比并选取先通过通道域再通过空间域的YOLOv5s_CBAMA、先通过空间域再通过通道域的YOLOv5s_CBAMB、通道域和空间域并行的YOLOv5s_CBAMC三种不同的方式中的最优方法。

本实施例通过实验，将以上三种网络与原YOLOv5s网络进行了一组对比实验，在经过300个epochs训练后得到一系列训练和测试两个阶段的检测指标数据，从精确度、召回率和mAP三个性能指标的结果进行分析，如下表2所示：

表2不同改进方式与原网络性能指标对比结果

从准确率或者召回率单方面提高进行选择，最明显的是排除SE通道域和空间域并行的YOLOv5s_CBAMC，因为其他两个模型均有较大提升，然后从最具代表性的指标mAP的变化进行分析。如图5所示，为不同组合的网络模型训练300个Epochs得到的mAP的变化趋势。其中最右侧曲线代表的是先通过通道域再通过空间域的YOLOv5s_CBAMA，其mAP最终提升到了0.981。

经过实验论证并与原网络检测性能进行对比，确定了先通过通道域再通过空间域的YOLOv5s_CBAMA的方式为最佳方案。与YOLOv5s原网络相比，mAP提高了4.6％，其mAP最终提升到了0.981。

综上，本实施例中将SE模块和CBAM模块分别引入YOLOv5s的Backbone和Head中，将YOLOv5s_SE&CBAM与YOLOv5s原网络进行比较，mAP提高了6％。

与前两组实验相比，另外进行一组对比实验，在经过300个epochs训练后得到一系列训练和测试两个阶段的检测指标数据，从精确度、召回率和mAP三个性能指标的结果进行分析，如下表3所示：

表3改进算法的性能指标结果分析

将不同改进算法网络模型进行训练300个Epochs得到的mAP的变化趋势，如图6所示。其中最右侧曲线代表的是YOLOv5s_SE&CBAM，其mAP提高了6％，mAP最终提升到了0.995。

步骤S4、在Head的输出端加入解耦头，改进后使用IOU损失函数训练reg分支，BCE损失函数训练cls分支。

在YOLOv5s_SE&CBAM的基础上，在head输出端改为解耦头方式，分类和回归会产生冲突的问题。将检测头解耦，虽然会增加运算的复杂度，但是精度提高，网络的收敛速度也加快了。改进后使用IOU损失函数训练reg分支，BCE损失函数训练cls分支。

步骤S5、由于鸟移动灵活，对网络模型的延迟的要求极高。当处理完成当前帧目标检测时，下一帧早已发生变化，从而不能有效的防止鸟撞事故的发生。由于流感知的是当前帧结果，校准总是由下一帧进行匹配和评估，性能差距来自于当前处理帧和下一匹配帧的不一致，为了解决预测框的漂移问题，考虑了延迟和准确性，本实施例采用在Head的输出端引入趋势感知损失Trend-Aware Loss(TAL)和趋势因子w_i，根据每个物体的移动趋势生成自适应权重的方法。

在步骤S4的基础上，将趋势感知损失Trend-Aware Loss及趋势因子w_i引入Head的输出端，在YOLOv5s_SE&CBAM的基础上形成YOLOv5s_SE&CBAM_TAL。由于流媒体中每个物体在同一帧内的移动速度是完全不同的，基于观察结果，为了定量地测量移动速度，引入了一个趋势感知损失Trend-Aware Loss(TAL)及为每个物体引入了一个趋势因子w_i，根据每个物体的移动趋势生成自适应权重。具体地，

将YOLOv5s网络作为Baseline，构造成一个三元组的GT框进行训练，即使用上一帧F_t-1、当前帧F_t和下一帧G_t+1，即(F_t-1,F_t,G_t+1)。取两个相邻的帧(F_t-1,F_t)作为输入训练模型，预测下一帧的GT框。由F_t帧的真实GT框监督G_t+1的GT框，基于输入和监督的三元组，将训练数据集重建为

的形式，如图7所示。

步骤S5.2、通过计算两帧GT之间的IoU矩阵，对帧的维度求最大值，得到两帧之间检测对象的匹配IoU。匹配的IoU值大小与物体移动速度成反比。当有新对象出现在帧中时，没有与之匹配的框，此时设置阈值τ，具体计算公式如下所示：

其中，max_j表示为F_t中方框间的最大操作值t，v表示为新对象的恒定权重。w_i通过调节τ和v两个参数，缓解了时延问题。相对于Baseline，YOLOv5s_SE&CBAM_TAL的mAP提高了6.3％，并在不同小鸟速度下实现了鲁棒预测。

趋势感知损失的参数主要是通过两个参数τ和v设置的，那么参数选择就至关重要。为了更好的评价参数好坏。本实施例提出了一种同时评估时间时延和检测的精度streaming Average Precision(sAP)来评估精度。

为了确定一组适合防鸟撞现象的最优的τ和v，本实施例选择了几组不同的τ和v进行实验。其中，τ表示为一个阈值来监控新对象，而v表示为控制对新对象的关注程度。本实施例将v设置为大于1.0，并对这两个超参数进行网格搜索数据，结果如表4所示：

表4趋势感知损失的参数设置

有上表可知，选取两个参数的最优值τ＝0.3，ν＝1.4保证具有较高的sAP值，达到最佳性能。

如图8所示，对于Baseline检测器，预测边界框会遇到严重的滞后。小鸟的移动得越快，预测的变化就越大。对于像麻雀这样5×5的小物体，预测框和GT之间的重叠变得很小，甚至没有。相比之下，本发明的方法减轻了预测框和移动对象之间的不匹配，并准确拟合结果。

本发明重点关注处理延迟流媒体任务。在这个任务下，本发明提出了趋势感知损失(TAL)，缓解了流感知中的处理滞后问题。本发明采用了大量基于深度强化学习的近似计算，以获得更好的检测均衡。相对于Baseline，YOLOv5s_SE&CBAM_TAL的mAP提高了6.3％，并在不同小鸟速度下实现了鲁棒预测。接下来将不同改进算法网络模型进行训练300个Epochs得到的mAP的变化趋势，如图9所示。其中最右侧曲线代表的是YOLOv5s_SE&CBAM_TAL，其mAP最终提升到了0.998。

为了验证本发明算法的性能，本发明找了困难样本为小麻雀和老鹰的图像作为测试集，进行测试。其中实验一为小麻雀的三组实验，图片大小为960×576，小麻雀一般为5×5或者10×10的大小，相对来说非常小。

实验1-1、样本总数71(其中5×5为40。10×10为31。)，结果表5所示：

表5实验结果对比

实验1-2、样本总数26(其中5×5为11。10×10为14。)，结果表6所示：

表6各实验结果对比

实验1-3、样本总数49(其中5×5为23。10×10为25。)，结果表7所示：

表7各实验结果对比

汇总实验结果。样本共146(5×5为74。10×10为70。15×15为2)，结果表8所示：

表8汇总实验结果

可以看出，5×5以内的小样本共74个，用原网络YOLOv5检测只检测出41个，改进的YOLOv5s_CBAMA检测出54个，改进的YOLOv5s_SE&CBAM检测出64个。改进的YOLOv5s_SE&CBAM_TAL检测出68个，比原网络多检测出27个。

10×10以内的小样本共70个，用原网络YOLOv5检测只检测出44个，改进的YOLOv5s_CBAMA检测出53个，改进的YOLOv5s_SE&CBAM检测出60个。改进的YOLOv5s_SE&CBAM_TAL检测出63个，比原网络多检测出19个。

实验二为老鹰的三组实验，图片大小为960×576，老鹰一般为10×10、15×15、20×20或者25×25的大小，相对麻雀来说大一点。

实验2-1、样本总数62(10×10为12。15×15为20。20×20为16。25×25为14)，结果表9所示：

表9各实验结果对比

实验2-2、样本总数135(10×10为25。15×15为45。20×20为34。25×25为29。30×30为2)，结果表10所示：

表10各实验结果对比

实验2-3、样本总数157(5×5为45。10×10为25。15×15为45。20×20为34。25×25为29)，结果表11所示：

表11各实验结果对比

汇总实验结果：样本共146(5×5为74。10×10为70。15×15为2))，结果表12所示：

表12汇总实验结果

可以看出，10×10以内的小样本共54个，用原网络YOLOv5检测只检测出21个，改进的YOLOv5s_CBAMA检测出42个，改进的YOLOv5s_SE&CBAM检测出42个。改进的YOLOv5s_SE&CBAM_TAL检测出44个，比原网络多检测出23个。

15×15以内的小样本共121个，用原网络YOLOv5检测只检测出71个，改进的YOLOv5s_CBAMA检测出101个，改进的YOLOv5s_SE&CBAM检测出98个。改进的YOLOv5s_SE&CBAM_TAL检测出103个，比原网络多检测出32个。

20×20以内的小样本共97个，用原网络YOLOv5检测只检测出55个，改进的YOLOv5s_CBAMA检测出70个，改进的YOLOv5s_SE&CBAM检测出92个。改进的YOLOv5s_SE&CBAM_TAL检测出87个，比原网络多检测出32个。

25×25以内的小样本共79个，用原网络YOLOv5检测只检测出41个，改进的YOLOv5s_CBAMA检测出58个，改进的YOLOv5s_SE&CBAM检测出64个。改进的YOLOv5s_SE&CBAM_TAL检测出65个，比原网络多检测出24个。

经过实验一的三组小麻雀实验和实验二的三组老鹰实验，图片大小为960×576，样本共500(5×5为75。10×10为124。15×15为123。20×20为97。25×25为79。30×30为2)，相对图片大小来说样本非常小，结果表13所示：

表13各实验结果对比

综上数据所示，在500个检测样本中，改进的YOLOv5s_SE&CBAM_TAL检测出435个，比原网络多检测出158个，如图10所示。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于改进YOLOv5s网络的防鸟撞事故目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于改进YOLOv5s网络的防鸟撞事故目标检测方法，其特征在于，所述步骤S2中进入SE模块具体操作步骤包括：

步骤S2.1、普通卷积操作：

U_c＝F_tr(X_i)

其中，F_tr表示为Transformation各个网络模型原有的卷积操作；

S＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

其中，F_ex表示为激活过程；

其中，F_scale表示为Scale标准化。

3.根据权利要求2所述的一种基于改进YOLOv5s网络的防鸟撞事故目标检测方法，其特征在于，所述步骤S3中CBAM模块包括通道注意力和空间注意力两个子模块，通过通道注意力模块，将输入网络的特征图分别从宽高进行全局最大池化过程和全局平均池化过程，然后再通过两层神经网络，最后进行sigmoid激活，得到通道注意力特征M_c；具体如下：

其中，f^7×7表示为7×7卷积；M_c表示空间注意力特征。

4.根据权利要求3所述的一种基于改进YOLOv5s网络的防鸟撞事故目标检测方法，其特征在于，所述步骤S5中引入趋势感知损失TAL和趋势因子w_i的具体方法如下：

步骤S5.1、将YOLOv5s网络作为Baseline，构造成一个三元组的GT框进行训练，即使用上一帧F_t-1、当前帧F_t和下一帧G_t+1，即(F_t-1,F_t,G_t+1)；取两个相邻的帧(F_t-1，F_t)作为输入训练模型，预测下一帧的GT框；由F_t帧的真实GT框监督G_t+1的GT框，基于输入和监督的三元组，将训练数据集重建为

的形式；