CN115953743A

CN115953743A - 一种基于改进的yolo模型的车位状态识别方法

Info

Publication number: CN115953743A
Application number: CN202211510564.0A
Authority: CN
Inventors: 陈朗; 姜立标; 崔博非; 符茂达
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-04-11

Abstract

本发明公开一种基于改进的YOLO模型的车位状态识别方法，包括：构建停车位检测数据集，并划分训练集和测试集；构建改进的YOLOV4‑tiny网络模型，其中，将YOLOV4‑tiny网络模型原来的主干网络CSPDarknet53‑tiny替换为轻量化网络mobilenetv3，在特征金字塔FPN前加入SE注意力机制，将Mish激活函数替换原来的Leaky ReLU激活函数，将EiOU损失函数替换原来的CiOU损失函数，SE注意力机制包括挤压模块、激励模块和融合模块；采用训练集对改进的YOLOV4‑tiny网络模型进行训练；将待测图像输入训练得到的改进的YOLOV4‑tiny网络模型中，得到车位状态识别结果。本发明能在准确识别车位状态的前提下提高检测的速度。

Description

一种基于改进的YOLO模型的车位状态识别方法

技术领域

本发明涉及图像处理、目标检测和深度学习等领域，具体涉及一种基于改进的YOLO模型的车位状态识别方法。

背景技术

近年来，随着汽车产业迅速壮大，在人工智能和大数据的帮助下，无人驾驶技术得到了显著的发展。作为无人驾驶技术的重要一环，研究和推广自动泊车能够有效地解决路面交通安全的问题和停车难的问题。而作为自动泊车最为重要的一环，环境感知是执行整个自动泊车流程的首要前提。识别汽车周围停车位的状态则是环境感知过程的重要一部分，也是能否准确识别车位和精准将车停入车位的前提条件。车位状态识别在人们日常泊车入空车位的过程中能够起到重要的辅助作用，因此较好地快速地识别车位状态具有十分重要的意义。

近年来，目标检测技术的算法也取得了重大的突破，如今，基于卷积神经网络的目标检测方法已经超越传统目标检测方法,成为当前目标检测的主流方法。目前主流的基于卷积神经网络的目标检测算法主要分为两大种类，第一类是两阶段(two stage)目标检测算法，以早期的R-CNN、Fast R-CNN等为代表，该算法首先产生候选区域(regionproposals)，然后利用卷积神经网络对候选区域进行分类(也会修正位置)。因为需要进行多次检测和分类过程，所以该方法的准确度高，但是速度相对较慢；另一类是单阶段(onestage)目标检测算法，以YOLO系列(You Only Look Once)、SSD(Single Shot multiboxDetector)、OverFeat、RetinaNet等为代表。此类算法是一种端到端的检测算法，其不需要产生候选区域这一阶段，直接产生物体的类别概率和位置坐标值，经过单次检测即可直接得到最终的检测结果，因此相比较之下有着更快的检测速度。

随着YOLO系列算法的不断发展，为解决卷积神经网络模型的参数量及计算量过大的问题，2020年提出了一种轻量化模型YOLOV4-tiny网络。整体网络结构共有38层，使用了三个残差单元，激活函数使用LeakyReLU，目标的分类与回归改为使用两个特征层，合并有效特征层时使用了特征金字塔(FPN)网络，其相较于其他版本的轻量化模型性能优势显著，但是普通的YOLOV4-tiny目标检测算法的识别精度会受到自然天气、光照强度等因素的影响，无法保证在不同场景下检测的实时性和准确性。

发明内容

为了能够实时且准确地识别车位状态，本发明提供一种基于改进YOLO模型的车位状态识别方法，能够保证较高的车位状态识别的速度与精度，并且稳定性好，鲁棒性强，能够应用到自动泊车的系统中。

为了实现本发明目的，本发明提供的一种基于改进YOLO模型的车位状态识别方法，包括以下步骤：

构建停车位检测数据集，并划分训练集和测试集；

构建改进的YOLOV4-tiny网络模型，其中，将YOLOV4-tiny网络模型原来的主干网络CSPDarknet53-tiny替换为轻量化网络mobilenetv3，在特征金字塔FPN前加入SE注意力机制，将Mish激活函数替换原来的Leaky ReLU激活函数，将EiOU损失函数替换原来的CiOU损失函数，所述SE注意力机制包括挤压模块、激励模块和融合模块，挤压模块用于对特征图u_c进行全局平均池化并压缩得到数值z_c，激励模块用于对数值z_c进行处理，得到每个通道的通道权重值s，融合模块用于将每个通道的通道权重值s对特征图u_c进行权重赋值，得到特征图X；

采用训练集对改进的YOLOV4-tiny网络模型进行训练；

将待测图像输入训练得到的改进的YOLOV4-tiny网络模型中，得到车位状态识别结果。

进一步地，所述构建停车位检测数据集，并划分训练集和测试集，包括：

先实车采集一部分停车位图像，构建数据集，所述数据集中的图像尽可能多地覆盖多种泊车场景，并将所构建的数据集与开源的数据集整合到一起；

对整合后的数据集进行标注，包括空闲车位和占用空位，并划分训练集和测试集；

对数据进行增强。

进一步地，所述挤压模块中，数值z_c的计算公式如下：

式中，W表示特征图的宽度，H表示特征图的高度，C表示特征图的通道数，_c代表卷积后的特征图。

进一步地，所述激励模块包括两层全连接层。

进一步地，每个通道权重值s生成向量S,所述融合模块将特征图u_c中的每个通道的H*W个数值都乘上S中对应通道的权值，最终得到特征图X，特征图X的尺寸大小与特征图u_c完全一样。

进一步地，所述Mish激活函数的计算公式如下：

Mish＝x*tanh(ln(1+^x))

式中，x表示激活函数的输入。

进一步地，EiOU损失函数包括重叠损失，中心距离损失和宽高损失。

进一步地，EiOU损失函数的惩罚项L_EIOU公式为

式中，IOU表示交并比，b表示预测框的中心点，b^gt表示真实框的中心点，ρ表示两个中心点间的欧氏距离，n表示同时包含预测框和真实框的最小包闭区域的对角线距离，C_w和C_h表示覆盖两个Box的最小外接框的宽度和高度。L_EIOU表示总损失，L_IOU表示重叠损失，L_dis表示中心距离损失，L_asp表示宽高损失，w代表预测框的宽，w^gt代表真实框的宽，h表示预测框的高，h^gt表示真实框的高。

进一步地，对YOLOV4-tiny网络模型的改进还包括：将原来Yolo Head中的3*3的卷积替换为深度可分离卷积。

进一步地，所述深度可分离卷积包括逐通道卷积和逐点卷积。

与现有技术相比，本发明具有的有益效果至少如下：

本发明基于改进的YOLO4-tiny进行车位状态检测，将车位状态的识别和深度学习相结合，能够为车位状态识别的实时检测提供有效的方法，能够很好的检测到图像中的空闲车位和占用车位。

本发明采用注意力机制SENet与YOLOV4-tiny网络相结合的方法，同时采用Mish激活函数和EiOU LOSS的损失函数，能够提高网络特征提取能力同时保证较高检测精度。

本发明采用轻量化的神经网络mobilenetv3和深度可分离卷积，显著减少了网络的参数量，这样能提高检测的速度，实时性好，能够降低目标检测算法模型的运行成本。

附图说明

图1是本发明实施例提供的一种基于改进的YOLO模型的车位状态识别方法的流程图。

图2是本发明实施例中Mosaic数据增强示意图。

图3是YOLOV4-tiny网络结构示意图。

图4是本发明实施例中SE注意力机制算法流程图。

图5是本发明实施例中深度可分离卷积示意图。

图6是本发明实施例中的测试结果示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请对技术方案进行清楚、完整地描述。

请参阅图1，本发明提供的一种基于改进YOLO模型的车位状态识别方法，包括以下步骤：

步骤1：构建停车位检测数据集并进行预处理。

步骤1具体包括以下子步骤：

步骤1.1：先实车采集一部分停车位的数据集，尽量覆盖较多的泊车场景(比如同时覆盖了砖地和草地，室内和室外，阳光直射和夜间灯光等场景)，剔除无效的图片后将实车采集的数据集和开源的ps2.0数据集整合到一起。

其中，ps2.0数据集是学术界最典型的泊车位开源数据集，同济大学于2018年将其公开。

步骤1.2：对数据集中的图像进行标注，并将数据集划分为训练集和测试集。

在本发明的其中一些实施例中，采用labelimg软件对图像进行标注，采用VOC数据格式标注整合后的数据集，数据集主要标注为两类：空闲车位(vacant slot)和占用车位(occupied slot)，然后将数据集划分为训练集和测试集。

步骤1.3：对数据进行数据增强。

在本发明的其中一些实施例中，采用Mosaic方法来对数据进行增强。请参阅图2，在数据集中随机选取4张图片进行缩放、旋转、排布组成一张新的图片，这样做不仅大大增加了输入网络的图片数量，并且加快了训练速度，达到数据增强的作用。

步骤2：构建改进的YOLO网络模型。

对比当前的多种YOLO模型，决定选取YOLOV4-tiny作为目标检测的模型来进行改进，因为它属于轻量化模型，参数量只有600万相当于YOLOV4的十分之一，这使得检测速度提升很大。同时它在合并有效特征层的过程中使用了特征金字塔(FPN)网络，一定程度上保证了检测的精度。现有的原始YOLOV4-tiny结构图如图3所示，包括主干特征提取网络CSPDarknet53-tiny、特征金字塔FPN和Yolo Head三部分。YOLOV4-tiny具有多任务、端到端、注意力机制和多尺度的特点：多任务即同时完成目标的分类与回归，实现参数共享，避免过拟合；端到端即模型接收图像数据后直接给出分类与回归的预测信息；注意力机制是重点关注目标区域特征并且进行详细处理，从而提高处理速度；多尺度的特点是将经过下采样和上采样的数据相互融合，其作用是能够分割出多种尺度大小的目标。

本发明对YOLOV4-tiny网络模型的改进包括：

1、引入轻量化网络mobilenetv3替换原始的主干特征网络CSPDarknet53-tiny。mobilenet网络是由谷歌团队提出的专注于嵌入式设备的轻量级卷积神经网络。mobilenetv3主要有如下优点：其大量使用1*1和3*3的卷积代替5*5的卷积，减少了参数量；先使用1*1的卷积再使用3*3的卷积，保留了高维度的特征空间，减少了反向传播的延迟；其引入残差块和轻量级的注意力机制，并激发成瓶颈结构，能更好的提取特征；利用了两种AutoML技术，首先使用MnasNet进行粗略结构的搜索，然后使用强化学习从一组离散的选择中选择最优配置，再使用NetAdapt对体系结构进行微调，能够以较小的降幅对未充分利用的激活通道进行调整。将主干特征提取网络替换为更轻量的mobilenetv3可以实现网络模型的轻量化，能够平衡速度和精度。

2、经过主干特征提取网络生成特征图u_c后，在特征金字塔FPN前加入SE注意力机制，如图4所示。SE注意力机制主要包括三个模块：

(1)Squeeze(挤压操作)，将卷积后的特征图u_c进行全局平均池化，生成一个1*1*C的向量，最后压缩为一个数值z_c。其计算公式如下：

式中，W表示特征图的宽度，H表示特征图的高度，C表示特征图的通道数，_c代表卷积后的特征图，i表示高度的第i个单位，j表示宽度的第j个单位。

(2)Excitation(激励操作)：通过两个全连接层对经挤压操作得到的数值z_c进行处理，得到通道权重值s。经过两层全连接层后，通道权重值s中不同的数值表示不同通道的权重信息。

(3)Scale(融合操作)：将每个通道权重值s对特征图u_c进行权重赋值，通过由每个通道权重值s生成的向量S与特征图u_c对应通道相乘，即特征图u_c中的每个通道的H*W个数值都乘上S中对应通道的权值，最终得到特征图X，特征图X的尺寸大小与特征图u_c完全一样。

SE注意力机制在特征图提取特征的基础上，自适应地给定通道权重，让作用大的特征图对结果的影响更大一点。因此比普通的卷积层要更有效提取特征。

3、使用Mish激活函数替换现有的Leaky ReLU激活函数，Mish激活函数计算公式如下：

Mish＝x*tanh(ln(1+^x))

式中，x表示激活函数的输入。

Mish激活函数是一个非单调激活函数，有利于保持一个较小的负值，其次它是一个平滑的函数，允许更好的信息深入神经网络中，有助于提高泛化能力。它的梯度下降效果比较好，且该函数无边界避免了饱和的问题。

4、输出端使用EiOU LOSS代替之前的CiOU LOSS作为最后的损失函数，EiOU的惩罚项是在CiOU的惩罚项基础上将纵横比的影响因子拆开分别计算目标框和锚框的长和宽，该损失函数包含三个部分：重叠损失，中心距离损失，宽高损失，前两部分延续CiOU中的方法，但是宽高损失直接使目标框与锚框的宽度和高度之差最小，使得收敛速度更快。惩罚项公式如下：

式中IOU表示交并比，b表示预测框的中心点，b^gt表示真实框的中心点，ρ表示的是计算两个中心点间的欧氏距离，n表示的是同时包含预测框和真实框的最小包闭区域的对角线距离，C_w和C_h表示覆盖两个Box的最小外接框的宽度和高度。L_EIOU表示总损失，L_IOU表示重叠损失，L_dis表示中心距离损失，L_asp表示宽高损失，w代表预测框的宽，w^gt代表真实框的宽，h表示预测框的高，h^gt表示真实框的高。

5、把Yolo Head中3*3的卷积替换为深度可分离卷积。深度可分离卷积(DepthwiseSeparable Convolution)，主要分为两个过程，由逐通道卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)两个部分相结合，用来提取特征图。逐通道卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，这个过程产生的特征图通道数和输入的通道数一致，逐通道卷积完成后的特征图数量与输入层的通道数相同，无法扩展特征图。而且这种运算对输入层的每个通道独立进行卷积运算，没有有效的利用不同通道在相同空间位置上的特征信息。因此需要逐点卷积来将这些特征图进行组合生成新的特征图。相比常规的卷积操作，深度可分离卷积参数数量和运算成本显著降低。

步骤3：确定学习率，batch size和epoch，将训练集图像输入到改进后的网络模型进行训练，得到训练后的改进的YOLOV4-tiny网络模型。

在本发明的其中一些实施例中，图片的输入尺寸设置为416*416，初始参数设置为：学习率(learning rate)设为0.001，batch size受显卡内存限制而设为40，epoch迭代次数设为500。在初始的100轮epoch过后，每隔200个epoch迭代后将学习率衰减为原来的0.1倍。学习率初始设置为比较大的值0.001目的是为了让开始训练时下降速度更快，而后续学习率逐渐衰减变小的目的是为了让模型能够尽快收敛。经过多次迭代后损失值会趋于稳定，保存此时的网络参数模型。

步骤4：将待测图像输入训练好的改进的YOLOV4-tiny网络模型中，进行检测与识别，得到车位状态识别结果。

在本发明的其中一些实施例中，采用改进的YOLOV4-tiny网络模型进行检测，图6表示的是部分识别效果，(a)图表示识别到了一个空闲车位，(b)图表示识别到了一个占用车位。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于改进的YOLO模型的车位状态识别方法，其特征在于，包括以下步骤：

构建停车位检测数据集，并划分训练集和测试集；

采用训练集对改进的YOLOV4-tiny网络模型进行训练；

2.根据权利要求1所述的一种基于改进的YOLO模型的车位状态识别方法，其特征在于，所述构建停车位检测数据集，并划分训练集和测试集，包括：

对数据进行增强。

3.根据权利要求1所述的一种基于改进的YOLO模型的车位状态识别方法，其特征在于，所述挤压模块中，数值z_c的计算公式如下：

式中，W表示特征图的宽度，H表示特征图的高度，C表示特征图的通道数，u_c代表卷积后的特征图，i表示高度的第i个单位，j表示宽度的第j个单位。

4.根据权利要求1所述的一种基于改进的YOLO模型的车位状态识别方法，其特征在于，所述激励模块包括两层全连接层。

5.根据权利要求1所述的一种基于改进的YOLO模型的车位状态识别方法，其特征在于，每个通道权重值s生成向量S,所述融合模块将特征图u_c中的每个通道的H*W个数值都乘上S中对应通道的权值，最终得到特征图X，特征图X的尺寸大小与特征图u_c完全一样。

6.根据权利要求1所述的一种基于改进的YOLO模型的车位状态识别方法，其特征在于，所述Mish激活函数的计算公式如下：

Mish＝x*tanh(ln(1+e^x))

式中，x表示激活函数的输入。

7.根据权利要求1所述的一种基于改进的YOLO模型的车位状态识别方法，其特征在于，EiOU损失函数包括重叠损失，中心距离损失和宽高损失。

8.根据权利要求1所述的一种基于改进的YOLO模型的车位状态识别方法，其特征在于，EiOU损失函数的惩罚项L_EIOU公式为

9.根据权利要求1-8任一所述的一种基于改进的YOLO模型的车位状态识别方法，其特征在于，对YOLOV4-tiny网络模型的改进还包括：将原来Yolo Head中的3*3的卷积替换为深度可分离卷积。

10.根据权利要求9所述的一种基于改进的YOLO模型的车位状态识别方法，其特征在于，所述深度可分离卷积包括逐通道卷积和逐点卷积。