CN114612814A

CN114612814A - 一种基于改进的YOLOv4的电梯内电动车检测方法

Info

Publication number: CN114612814A
Application number: CN202111471321.6A
Authority: CN
Inventors: 贾海涛; 李彧; 钱孝伟; 谭志昊; 林泽航; 袁帅; 江雪婷; 许文波
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-12-04
Filing date: 2021-12-04
Publication date: 2022-06-10

Abstract

本发明公开了一种基于改进YOLOv4的电梯内电动车检测方法。该发明在电梯检测方向上具有一定的通用性，该专利以电梯内电动车检测为说明案例。电梯内电动车中存在大量的误检缺陷以及速度慢。针对速度慢，在YOLOv4网络结构中改进了网络结构，将将CSPDarkNet‑53改为CSPDarkNet‑48，并将PANet结构减半；针对误检缺陷，考虑到本发明中电动自行车数据集的输入大小相差不大，且大多为中小型目标，为了更好地识别出目标并匹配输出特征图，采用2*3＝6的预测帧作为候选。基于改进YOLOv4算法模型能够精准的识别电梯内电动车，且对于误检缺陷也能够取得较好的识别效果。

Description

一种基于改进的YOLOv4的电梯内电动车检测方法

技术领域

本发明涉及深度学习中的目标检测领域，针对目标检测尤其是对电动车的检测技术。

背景技术

目前电动车已被众多家庭所使用，方便实惠的电动车确实给生活带来了极大的便利。同时，电动车的弊端也逐渐凸显，电梯中电动车频繁的进出会对电梯的使用寿命产生较大的影响。首先，进入电梯的电动车本身占用了电梯有限的空间，给乘客造成不便。当乘客较多时，电梯重心偏向门侧，带来安全隐患。其次，上楼对电动车进行充电存在很大的火灾危险性。许多社区的楼房很多，难以完全监管，仍有居民无视把电动自行车带进电梯的要求。

传统的监督方式如发布公告、志愿者提醒、管理劝阻等效果不明显，人为监督难度较大。电动车进入电梯的智能识别与控制是现阶段各社区安全工作的重中之重。

在目标检测算法的发展中，级联分类器的Cascade算法在过去较为常见。近年来，深度学习发展迅速，在目标检测领域取得了诸多突破性进展。目前，基于深度卷积神经网络的目标检测算法主要有两种。一种是两阶段目标检测算法，如 FastR-CNN、FasterR-CNN、MaskR-CNN等。两阶段目标检测算法具有较高的精度，但算法的时间敏感性较弱，不适合于小空间电梯的快速检测。另一种是单阶段目标检测算法，如YOLO、YOLOv2、YOLOv3、SSD等，该方法速度快，但对冗余度高的特征图检测效果较差。

目前，YOLOv4平衡了检测精度和时效性，融合不同尺度的特征图，并进行预测回归，可以达到一定的检测精度。本发明就是着力于解决上述小空间电梯快速检测的难题。本发明根据实际收集的数据集的特点进行了改进，并且模型变得更加轻量级。

发明内容

为了克服上述现有技术的不足，本发明提出了一种基于改进的YOLOv4目标检测技术。该技术引用了深度学习中的通用目标检测框架YOLOv4，并针对小空间电梯快速检测以及模型轻量化问题对YOLOv4进行了进一步的改进。

本发明所采用的技术方案是：

步骤1：特征提取主干网络根据数据集的特点将CSPDarkNet-53改为 CSPDarkNet-48，包括包括第一卷积层，第一下采样层，第一Darknet块，第二下采样层，第二Darknet块，第三下采样层，第三Darknet块，第四下采样层，第四Darknet块；

步骤2：步骤1中第一至第四Darknet块产生的特征图都采用1×1的卷积进行通道数统一，统一后的特征图分别记为M2，M3，M4，M5；

步骤3：该步骤为传统的SPP网络结构，SPP结构混合在CSPdarkNet-48最后一个特征层的卷积中。在CSPdarkNet-48的最后一个特征层进行三次 DarknetConv2D_BN_Leaky卷积后，使用三种不同尺度的核进行最大池化处理，核的大小为13*13，9*9，5*5。SPP结构的集成可以大大增加感受野并隔离最重要的上下文特征；

步骤4：该步骤是该专利的核心内容，PANet网络结构是自下而上再自上而下反复进行特征提取和融合。然而，在电动自行车数据集中，只有两类预测分类，数据的特征是对象类型多样但背景单一。因此，复杂的特征提取不会很好地调整模型的参数。相反，相对简单的特征提取过程不会增加过多的冗馀信息；

步骤5：原始YOLOv4算法共有9个先验边界，将这9个边界的大小作为预测边界的大小。考虑到本发明中电动自行车数据集的输入大小相差不大，且大多为中小型目标，为了更好地识别出目标并匹配输出特征图，采用2*3＝6的预测帧作为候选，能够更好地适应数据，提高识别精度，输入至softmax分类和回归层，得出最后结果。

与现有技术相比，本发明的有益效果是：

(1)在电梯内电动车目标检测上，能够达到更高的识别精度；

(2)对于两阶段目标检测，能够更快的进行识别和检测。

附图说明

图1为：CSPdarkNet-48特征生成过程。

图2为：PANet结构图。

图3为：改进后的PANet融合框架示意图。

图4为：SAM结构图。

图5为：改进后YOLOv4算法结构图。

图6为：YOLOv4和改进的X_YOLOv4算法检测结果对比图。

图7为：YOLOv4和改进的X_YOLOv4算法对类自行车形电动车检测结果对比图。

图8为：YOLOv4和改进的X_YOLOv4算法误检对比图。

具体实施方式

下面结合附图对本发明进一步说明。

首先，利用CSPdarkNet-48网络模型对电梯内图像进行特征提取的过程如图1所示。CSPdarkNet-48共包含48个卷积层。其中卷积操作不会改变前一层所传特征图的尺寸大小，CSP-net复制基础层的特征映射图，通过denseblock 发送副本到下一个阶段，从而将基础层的特征映射图分离出来。根据采集到的电动车样本的情况，输入图像的大小长为416，宽为416，通道数为3，通过 CSPdarkNet-48网络进行特征提取，最后输出的特征图的大小长为26，宽为 26，通道数为512。

本发明改进为2*3先验框，删除预测大目标尺寸的13*13特征图，只保留26*26和52*52尺寸的特征图，最终只得到2个尺寸的预测输出。改进后的网络结构在特定的电动自行车数据集上对电动自行车目标有更好的识别效果，并且能够减少网络层数和网络参数，使得模型更加轻量级，更易于部署，改进后的主干特征提取网络。

PANet是2018年提出的一种实例分割算法，PANet的目的是预测类标签和像素化的实例掩码来定位图像中不同数量的实例。网络的低层特征包含更多的位置信息，高层特征包含更多的语义信息。原始PANet结构有一个非常重要的特征，那就是重复提取特征。在传统的特征金字塔结构中，从特征金字塔的底部到顶部进行特征提取，然后在反向方向上也需要实现从顶部到底部的特征提取。在YOLO v4中，它主要利用三个有效特征层上的PANet结构来提取尽可能多的有效特征然后，本发明对YOLOv4检测模型做出了改进，针对在电动自行车数据集中，只有两类预测分类，数据的特征是对象类型多样但背景单一的情况。对PANet模型进行缩减，仅保留一个Concat+Conv＊5，一个Conv+UpSampling，一个Concat+Conv＊5，一个DownSampling，如图2所示。

具体方法

(1)M5经过3次DarknetConv2D_BN_Leaky卷积进行正则化，记为P5；P5 经SPP层的最大池化，生成N5，N5进行上采样后，得到O5，O5再和M5进行concat (route)操作，然后经过5次DarknetConv2D_BN_Leaky卷积进行正则化，得到Q5；

(2)Q5进行下采样后，得到R5,与N5进行进行concat(route)操作,和5次DarknetConv2D_BN_Leaky卷积生成最终特征图I5。如图3所示；

这样改进的好处有两个方面，一方面，模型充分利用了富含细节信息的低层特征进行小目标检测，另一方面，在电动自行车数据集中，只有两类预测分类，数据的特征是对象类型多样但背景单一。因此，复杂的特征提取不会很好地调整模型的参数。相反，相对简单的特征提取过程不会增加过多的冗馀信息。这样的改进方式可以用于绝大多数特征网络。

YOLOv4借鉴了YOLOv3中利用先验盒子预测边界坐标的方法，利用K-means 算法预测9个先验盒子，较大尺度的特征映射利用较小的先验盒子获得更多的目标边缘信息。考虑到本发明中电动自行车数据集的输入大小相差不大，且大多为中小型目标，为了更好地识别出目标并匹配输出特征图，采用2*3＝6的预测帧作为候选。YOLOv4基于COCO数据集计算的6组先验帧尺寸分别为：(12,16)、 (19,36)、(76,55)、(72,146)、(142,110)、(459,401)。在实际的电动车检测任务中，YOLOv4计算的先验帧尺寸不适用于电动车检测场景。利用YOLOv4原有的先验帧尺寸很难获得准确的目标帧信息。因此，在头盔佩戴检测场景中，采用K-means算法对自制电动车数据集进行聚类分析，得到6 组先验盒维数中心，分别为：(7,15)、(9,19)、(11,23)、(30,51)、 (44,74)、(128,212)。利用此簇中心网络训练进行电动车检测可以获得较好的效果。

简单来说，注意力机制就是从特征中学习或提取权重分布，然后在原始特征上应用这种权重分布，改变原始特征分布，增强有效特征，抑制无效特征或噪声。在计算机视觉领域，注意力机制分为两个模块，SE(Squeeze-and-Excite)模块和CBAM(卷积块注意力模块)模块，其中CBAM模块又分为CAM(Channel AttentionModule)结构和SAM(SpatialAttentionModule)结构。SE模块和CAM结构都将注意力机制添加到通道中，但两者不同。在原始的YOLOv4模型中，通道数量足够大，如果继续增加复杂的全连接和激活函数处理，会使模型变得更加复杂。因此，不考虑在残差模块中引入通道注意力模块。

SAM结构是一个空间注意机制模块。如图4所示，首先进行基于信道的全局最大池化和全局平均池化，然后基于信道对这两个结果进行级联运算，经过卷积运算，降维为1个信道，通过sigmoid生成空间注意特征。最后，将模块的特征与输入特征相乘，得到最终生成的特征。

由于YOLOv4的骨干特征提取网络多次是一个残差模块的堆栈，因此考虑在残差模块中插入SAM结构，提取不同特征的权值，然后在原始特征上进行分配。改进的YOLOv4算法称为X_YOLOv4，其网络结构如图5所示。

图6显示了X_YOLOv4算法的检测结果，基本可以检测出普通电梯监控视频中电动自行车的进入和进入电梯的人。但当涉及到自行车、电动自行车等不可区分的物体时，使用YOLOv4和改进的X_YOLOv4算法的检测结果差异非常明显

电动自行车的种类很多，YOLOv4算法只能检测普通电动自行车，而不能检测类似自行车的电动自行车。然而，改进的X_YOLOv4算法能够检测出类似自行车的电动自行车。图7所示为电动自行车检测结果对比，左图采用YOLOv4 算法进行检测，右图采用X_YOLOv4算法进行检测。

在实际应用中，YOLOv4算法偶尔将轮椅、婴儿车等可进入电梯的轮式车辆识别为电动自行车，对项目实际使用造成严重影响。通过实验，改进后的X_YOLO v4算法能够在保证数据集准确率的同时减少轮椅的误检，因此改进后的YOLOv4 算法具有更高的检测准确率。如图8所示，无论是婴儿车还是轮椅都没有被误识别，模型具有较强的鲁棒性，因此X_YOLOv4算法已经部署在实际的电梯监控中。

以上所述，仅为本发明的具体实施方式，本说明中所公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征或/和步骤外，均可以任何方式组合。

Claims

1.一种基于改进YOLOv4的电梯内电动车检测方法。其特征在于，包括以下步骤：

步骤1：特征提取主干网络根据数据集的特点将CSPDarkNet-53改为CSPDarkNet-48，包括包括第一卷积层，第一下采样层，第一Darknet块，第二下采样层，第二Darknet块，第三下采样层，第三Darknet块，第四下采样层，第四Darknet块；

步骤3：该步骤为传统的SPP网络结构，SPP结构混合在CSPdarkNet-48最后一个特征层的卷积中。在CSPdarkNet-48的最后一个特征层进行三次DarknetConv2D_BN_Leaky卷积后，使用三种不同尺度的核进行最大池化处理，核的大小为13*13，9*9，5*5。SPP结构的集成可以大大增加感受野并隔离最重要的上下文特征；

步骤5：原始YOLO v4算法共有9个先验边界，将这9个边界的大小作为预测边界的大小。考虑到本发明中电动自行车数据集的输入大小相差不大，且大多为中小型目标，为了更好地识别出目标并匹配输出特征图，采用2*3＝6的预测帧作为候选，能够更好地适应数据，提高识别精度，输入至softmax分类和回归层，得出最后结果。

2.如权利要求1所述方法，其特征在于，步骤4中的PANet网络结构为削减为一半。

3.如权利要求1所述方法，其特征在于，步骤5中的聚类方法采用K-means+，对初始聚类中心的选取更加智能化，而且将边界预测大小调整为6个预测帧。