CN115457465A

CN115457465A - 一种基于YOLOv4的轻量级机场场面监视方法

Info

Publication number: CN115457465A
Application number: CN202211087915.1A
Authority: CN
Inventors: 李言章; 张建伟; 钟磊; 李泓遐; 李莹; 胡小琴
Original assignee: Xinjiang Haina Tongchuang Intelligent Technology Co ltd
Current assignee: Xinjiang Haina Tongchuang Intelligent Technology Co ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-12-09

Abstract

本发明涉及一种基于改进YOLOv4的轻量级机场场面监视方法，包括以下步骤：在机场场面收集的场面监控视频和照片利用标注工具制作成为数据集，并进行标注；构建IEN‑YOLO目标检测模型；利用制作好的机场场面训练集对构建的IEN‑YOLO检测模型进行训练，并利用构建好的测试集对IEN‑YOLO模型进行性能测试；将需要检测的图片输入训练好的IEN‑YOLO检测模型得到检测识别结果。该方法只需在机场场面部署硬件成本较低的监控摄像头即可实现机场场面的监视，可以在保持高效检测识别精度的同时节省部署成本。

Description

一种基于YOLOv4的轻量级机场场面监视方法

技术领域

本发明涉及计算机视觉目标检测领域，尤其涉及一种基于YOLOv4的轻量级机场场面监视方法。

背景技术

目前在机场场面上主要使用目视、雷达和信号定位设备来进行机场场面的监控工作以保证机场场面的正常运转，但随着机场场面环境的日益复杂和大型化，这些传统监视方式的部署成本和监视压力越来越大。目前传统的场面监视雷达、多点定位和广播式自动相关监视技术只能对飞机等协作目标进行有效监控，对于场面上的车辆和人员等非协作目标则不能很好的监控，同时对于一些小规模的机场来说，大规模的场面监视雷达以及大量的地面信号处理基站太昂贵，部署起来复杂，并且雷达信号会由于某些建筑结构的存在导致产生一些监控盲点和信号干扰，而机场场面上基于视频的监控方式相对来说更加便宜和简单且现有机场基本都是必须安装监控摄像头的，同时配备相应的计算处理设备即可，所以机场场面上基于视频的监控方式成为了新的方向。

发明内容

本发明要解决的技术问题是提供一种能够有效提高机场场面的监控效率并节省部署设备成本的基于YOLOv4的轻量级机场场面监视方法。

实现本发明目的的技术方案是提供一种基于YOLOv4的轻量级机场场面监视方法，其特征在于包括以下步骤：

步骤①：采集机场场面监控摄像头拍摄的监控视频，并对监控视频按关键帧截取的方式，将每一帧保存为图片，然后利用开源软件LabelImg对保存的图片进行标注，标注包括了目标位置信息和类别信息，其中类别信息包括三类：airplane、man、car，从而构建机场场面数据集；

步骤②：采用YOLOv4算法作为基础的目标检测模型，之后使用以下3个改进模块来构建IEN-YOLO检测模型：(1)使用轻量级EfficientNet网络作为骨干特征提取网络，并在骨干网络中使用ECA注意力机制替换SE注意力机制；(2)在YOLOv4算法中加入2倍的反卷积上采样和加权特征融合结构；(3)在YOLOv4算法中加入一层高分辨率检测层；在YOLOv4算法基础上加入以上三个不同改进模块之后得到IEN-YOLO检测模型，实现对机场场面上的飞机即airplane、人员即man和车辆即car的检测识别；

步骤③：利用构建好的机场场面数据集并以数据集中标注框的IoU为聚类指标来计算出IEN-YOLO检测模型需要预先设计的anchor框参数；

步骤④：利用构建好的机场场面数据集并结合小目标数据增强策略来对IEN-YOLO检测模型进行训练，通过训练得到最优的权值参数，之后用最优的权值参数来构建最终的IEN-YOLO机场场面检测模型；

步骤⑤：利用构建好的IEN-YOLO机场场面检测模型来检测识别输入的机场场面监控图像中的所有目标，包括了各个目标的位置信息和类别分数信息，最后使用Soft-NMS算法对得到检测框进行重叠问题处理，从而得到最终的检测识别结果。

进一步的，在步骤②中使用轻量级的EfficientNet网络替换YOLOv4模型原有的CSPDarknet53骨干网络，EfficientNet网络包括了8个模块，第一个模块为3x3的卷积模块，其余7个模块为MBConv模块，每个MBConv模块基本组成单位为：深度可分离卷积层、Switch激活函数、SE注意力机制和残差连接。

更进一步的，在步骤②中使用更加轻量且对小目标检测效果更好的ECA注意力替换原始EfficientNet网络中的SE注意力机制，从而得到改进的EfficientNet网络；ECA注意力机制使用了大小为K的1D自适应卷积操作和不降维的特征提取操作来提高特征提取能力并降低模型的计算量；ECA注意力机制首先将输入特征F进行全局平均池化Avgpool，然后使用卷积核大小为K的1D卷积操作Convk得到注意力权重，然后将注意力权重与输入特征F相乘得到新特征F′，ECA注意力机制表达式如下：

F′＝F*Sigmoid(Conv_k(Avgpool(F)))

式中F′为最终输出的特征，F为输入特征，Conv_k代表大小为K的1D卷积操作，Avgpool表示平均池化操作。

更进一步的，在步骤②中，在原始YOLOv4模型的基础上加入2倍的反卷积上采样和加权特征融合模块来强化网络的特征提取能力；加权特征融合模块通过在特征融合过程中引入一个可学习的权重值w，之后将权重值w与待融合特征L进行相乘得到调整后的特征L’，从而来动态调整不同特征的重要性，表达式如下：

L’＝w*L

式中L’表示经过权重调整之后的特征，w表示引入的权重值，L表示待融合特征。

更进一步的，在步骤②中，在原始YOLOv4模型的基础上加入了一层高分辨率检测层来提高模型对机场场面上小目标的检测能力，对于使用608x320输入分辨率的模型，在原始YOLOv4算法的基础上增加一层152x80分辨率的检测特征层，最后总计使用4个检测特征层进行检测，包括了分辨率为152x80、76x40、38x20、19x10的4个检测层。

更进一步的，在步骤③中使用K-means聚类方法对构建好的机场场面数据集中的标注框以IoU为聚类指标进行聚类来得到贴合机场场面数据集的anchor框，按照3∶1的比例将步骤①得到的标注好的数据集划分为训练集和测试集；然后对构建好的数据集使用K-means聚类方法并以IoU为聚类指标得到最优的检测anchor框，同时由于IEN-YOLO检测模型使用了4层检测层，所以按每层3个anchor框的方式均分到每一层，152x80分辨率检测层为：[8，11][12,21][16,9]，76x40分辨率检测层为：[22,34][44,44][42,20]，38x20分辨率检测层为：[67,25][96,60][140,54]，19x10分辨率检测层为：[287,206][362,171][574,574]。

更进一步的，在步骤④的模型训练中使用一种小目标数据增强策略来提高网络对机场场面上的小目标的检测效果；该策略首先使用人工裁剪的方式将数据集图片中包含大量小目标的子区域进行裁剪得到子图，然后将4张子图进行随机的缩放、翻转和颜色光照的调整，调整完成后将4张子图进行随机拼接从而得到更加丰富多样的训练图片；使用预训练的EfficientNet模型权值来初始化IEN-YOLO模型权值，模型训练的批大小为8，初始学习率为0.001，每轮训练之后学习率下降为上一轮的0.96，训练直到模型收敛，完成网络的学习。

更进一步的，在步骤⑤中使用训练好的IEN-YOLO检测模型对输入图片进行计算得到检测识别结果，然后使用Soft-NMS算法对检测框进行后处理来得到最后的检测框，Soft-NMS算法采用降低检测框分数的方式来有效处理部分检测框高度重叠的问题，降低分数的方式如下：

式中Si为预测分数，M为分数最高的预测框，bi为当前正在判断的预测框，σ为设置的权重参数，在本算法中σ取0.5。

本发明具有积极的效果：本发明针对传统机场场面监视方法对场面上非协作类目标的监控效果不好并且硬件部署成本较高的问题，提出了一种基于YOLOv4的轻量级机场场面监视方法，该方法利用基于深度学习的目标检测技术对构建的机场场面数据集进行学习，从而得到精确的目标检测模型，并通过安装监控摄像头的方式就可以实现高效的机场场面监视效果。尤其，本发明中使用嵌入ECA注意力机制的EfficientNet轻量级网络能显著减少网络的计算量并能达到实时检测的速度，使用加权特征融合和反卷积上采样能显著提高网络的特征提取能力，使用高分辨率检测层和小目标数据增强策略能显著提高网络对机场场面上的小目标的检测效果，同时使用Soff-NMS算法能有效处理高度重叠的小目标检测问题。因此，本发明能提高机场场面的监视效率并节省硬件部署成本，同时能有效克服机场场面的小目标检测难点问题，达到优异的检测效果和实时的检测速度。

附图说明

图1为本发明的步骤②中的MBConv结构图；

图2为本发明的步骤②的IEN-YOLO检测模型的网络结构图；

图3为本发明的步骤②中的ECA注意力机制结构图。

具体实施方式

(实施例1)

本实施例的一种基于YOLOv4的轻量级机场场面监视方法，具体包括以下步骤：

步骤①：采集机场场面监控摄像头拍摄的监控视频，并对监控视频按关键帧截取的方式，将每一帧保存为图片，然后利用开源软件LabelImg对保存的图片进行标注，标注包括了目标位置信息和类别信息，其中类别信息包括三类：airplane、man、car，从而构建机场场面数据集。

步骤②：见图2，采用YOLOv4算法作为基础的目标检测模型，之后使用以下3个改进模块来构建IEN-YOLO检测模型：(1)使用轻量级EfficientNet网络作为骨干特征提取网络，并在骨干网络中使用ECA注意力机制替换SE注意力机制，得到改进的EfficientNet骨干网络，网络参数如附表1所示：

表1

：使用轻量级的EfficientNet网络替换YOLOv4模型原有的CSPDarknet53骨干网络来减轻模型的计算参数量，EfficientNet网络包括了8个模块，第一个模块为3x3的卷积模块，其余7个模块为MBConv模块，见图1，每个MBConv模块基本组成单位为：深度可分离卷积层、Switch激活函数、SE注意力机制和残差连接；见图3，ECA注意力机制使用了大小为K的1D自适应卷积操作和不降维的特征提取操作来提高特征提取能力并降低模型的计算量；ECA注意力机制首先将输入特征F进行全局平均池化Avgpool，然后使用卷积核大小为K的1D卷积操作Conv_k得到注意力权重，然后将注意力权重与输入特征F相乘得到新特征F’，ECA注意力机制表达式如下：

F′＝F*Sigmoid(Conv_k(Avgpool(F)))

(2)在YOLOv4算法中加入2倍的反卷积上采样和加权特征融合结构来强化网络的特征提取能力；加权特征融合模块通过在特征融合过程中引入一个可学习的权重值w，之后将权重值w与待融合特征L进行相乘得到调整后的特征L’，从而来动态调整不同特征的重要性，表达式如下：

L’＝w*L

(3)在YOLOv4算法中加入一层高分辨率检测层来提高模型对机场场面上小目标的检测能力，对于使用608x320输入分辨率的模型，在原始YOLOv4算法的基础上增加一层152x80分辨率的检测特征层，最后总计使用4个检测特征层进行检测，包括了分辨率为152x80、76x40、38x20、19x10的4个检测层。

在YOLOv4算法基础上加入以上三个不同改进模块之后得到IEN-YOLO检测模型，实现对机场场面上的飞机即airplane、人员即man和车辆即car的检测识别。

步骤③：利用构建好的机场场面数据集并以数据集中标注框的IoU为聚类指标来计算出IEN-YOLO检测模型需要预先设计的anchor框参数；具体俩说，用K-means聚类方法对构建好的机场场面数据集中的标注框以IoU为聚类指标进行聚类来得到贴合机场场面数据集的anchor框。按照3∶1的比例将步骤①得到的标注好的数据集划分为训练集和测试集。然后对构建好的数据集使用K-means聚类方法并以IoU为聚类指标得到最优的检测anchor框，同时由于IEN-YOLO检测模型使用了4层检测层，所以按每层3个anchor框的方式均分到每一层，152x80分辨率检测层为：[8，11][12，21][16，9]，76x40分辨率检测层为：[22，34][44，44][42，20]，38x20分辨率检测层为：[67，25][96，60][140，54]，19x10分辨率检测层为：[287，206][362，171][574，574]。

步骤④：利用构建好的机场场面数据集并结合小目标数据增强策略来对IEN-YOLO检测模型进行训练，通过训练得到最优的权值参数，之后用最优的权值参数来构建最终的IEN-YOLO机场场面检测模型：使用一种小目标数据增强策略来提高网络对机场场面上的小目标的检测效果；该策略首先使用人工裁剪的方式将数据集图片中包含大量小目标的子区域进行裁剪得到子图，然后将4张子图进行随机的缩放、翻转和颜色光照的调整，调整完成后将4张子图进行随机拼接从而得到更加丰富多样的训练图片；使用预训练的EfficientNet模型权值来初始化IEN-YOLO模型权值，模型训练的批大小为8，初始学习率为0.001，每轮训练之后学习率下降为上一轮的0.96，训练直到模型收敛，完成网络的学习。

步骤⑤：利用构建好的IEN-YOLO机场场面检测模型来检测识别输入的机场场面监控图像中的所有目标，包括了各个目标的位置信息和类别分数信息，最后使用Soft-NMS算法对得到检测框进行重叠问题处理，从而得到最终的检测识别结果：首先将输入图片的分辨率调整为608x320避免出现特征变形，然后将图片送入IEN-YOLO检测模型中进行计算，最后使用4个不同分辨率的检测层来检测，包括了152x80、76x40、38x20、19x10的4个检测层来处理不同尺度的目标物体，之后将模型计算得到的类别分数按设置的阈值进行筛选，对筛选后的检测框使用Soft-NMS算法来处理检测框重叠问题得到最后的检测框，Soft-NMS算法采用降低检测框分数的方式来有效处理部分检测框高度重叠的问题，降低分数的方式如下：

式中Si为预测分数，M为分数最高的预测框，bi为当前正在判断的预测框，σ为设置的权重参数，在本算法中σ取0.5，最后输出最终的检测结果。

上述基于YOLOv4的轻量级机场场面监视方法在YOLOv4模型的基础上使用嵌入ECA注意力机制的EfficientNet轻量级网络显著减少了计算参数量，使用反卷积上采样和加权特征融合结构有效提高了网络的特征提取能力，使用高分辨检测层和小目标数据增强策略有效克服了机场场面上的小目标检测难点问题，使用Soft-NMS算法高效处理了部分目标高度重叠的问题，本发明能减少模型计算量来节省部署计算资源的成本，同时能保持高效的检测速度和检测精度。

显然，上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的精神所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims

1.一种基于YOLOv4的轻量级机场场面监视方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于YOLOv4的轻量级机场场面监视方法，其特征在于：在步骤②中使用轻量级的EfficientNet网络替换YOLOv4模型原有的CSPDarknet53骨干网络，EfficientNet网络包括了8个模块，第一个模块为3x3的卷积模块，其余7个模块为MBConv模块，每个MBConv模块基本组成单位为：深度可分离卷积层、Switch激活函数、SE注意力机制和残差连接。

3.根据权利要求2所述的一种基于YOLOv4的轻量级机场场面监视方法，其特征在于：在步骤②中使用更加轻量且对小目标检测效果更好的ECA注意力替换原始EfficientNet网络中的SE注意力机制，从而得到改进的EfficientNet网络；ECA注意力机制使用了大小为K的1D自适应卷积操作和不降维的特征提取操作来提高特征提取能力并降低模型的计算量；ECA注意力机制首先将输入特征F进行全局平均池化Avgpool，然后使用卷积核大小为K的1D卷积操作Conv_k得到注意力权重，然后将注意力权重与输入特征F相乘得到新特征F’，ECA注意力机制表达式如下：

F′＝F*Sigmoid(Conv_k(Avgpool(F)))

4.根据权利要求3所述的一种基于YOLOv4的轻量级机场场面监视方法，其特征在于：在步骤②中，在原始YOLOv4模型的基础上加入2倍的反卷积上采样和加权特征融合模块来强化网络的特征提取能力；加权特征融合模块通过在特征融合过程中引入一个可学习的权重值w，之后将权重值w与待融合特征L进行相乘得到调整后的特征L’，从而来动态调整不同特征的重要性，表达式如下：

L’＝w*L

5.根据权利要求4所述的一种基于YOLOv4的轻量级机场场面监视方法，其特征在于：在步骤②中，在原始YOLOv4模型的基础上加入了一层高分辨率检测层来提高模型对机场场面上小目标的检测能力，对于使用608x320输入分辨率的模型，在原始YOLOv4算法的基础上增加一层152x80分辨率的检测特征层，最后总计使用4个检测特征层进行检测，包括了分辨率为152x80、76x40、38x20、19x10的4个检测层。

6.根据权利要求5所述的一种基于YOLOv4的轻量级机场场面监视方法，其特征在于：在步骤③中使用K-means聚类方法对构建好的机场场面数据集中的标注框以IoU为聚类指标进行聚类来得到贴合机场场面数据集的anchor框，按照3∶1的比例将步骤①得到的标注好的数据集划分为训练集和测试集；然后对构建好的数据集使用K-means聚类方法并以IoU为聚类指标得到最优的检测anchor框，同时由于IEN-YOLO检测模型使用了4层检测层，所以按每层3个anchor框的方式均分到每一层，152x80分辨率检测层为：[8，11][12，21][16，9]，76x40分辨率检测层为：[22，34][44，44][42，20]，38x20分辨率检测层为：[67，25][96，60][140，54]，19x10分辨率检测层为：[287，206][362，171][574，574]。

7.根据权利要求6所述的一种基于YOLOv4的轻量级机场场面监视方法，其特征在于：在步骤④的模型训练中使用一种小目标数据增强策略来提高网络对机场场面上的小目标的检测效果；该策略首先使用人工裁剪的方式将数据集图片中包含大量小目标的子区域进行裁剪得到子图，然后将4张子图进行随机的缩放、翻转和颜色光照的调整，调整完成后将4张子图进行随机拼接从而得到更加丰富多样的训练图片；使用预训练的EfficientNet模型权值来初始化IEN-YOLO模型权值，模型训练的批大小为8，初始学习率为0.001，每轮训练之后学习率下降为上一轮的0.96，训练直到模型收敛，完成网络的学习。

8.根据权利要求7所述的一种基于YOLOv4的轻量级机场场面监视方法，其特征在于：在步骤⑤中使用训练好的IEN-YOLO检测模型对输入图片进行计算得到检测识别结果，然后使用Soft-NMS算法对检测框进行后处理来得到最后的检测框，Soft-NMS算法采用降低检测框分数的方式来有效处理部分检测框高度重叠的问题，降低分数的方式如下：