CN113963233A

CN113963233A - 一种基于双阶段卷积神经网络的目标检测方法及系统

Info

Publication number: CN113963233A
Application number: CN202111226029.8A
Authority: CN
Inventors: 李若楠
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-21

Abstract

本发明涉及一种基于双阶段卷积神经网络的目标检测方法及系统。其方法包括，获取检测区域内的视频流，并将所述视频流进行预处理，得到多帧帧图片；将多帧所述帧图片输入至预先训练好的YOLOv3目标检测改进模型中进行目标检测，得到带有检测目标帧图片。本发明采用改进的YOLOv3的双阶段卷积神经网络对目标进行实时监测，更精确地获得同一运动物体的实时位置信息，避免了多目标及重叠目标的计算误差，实现运动中多目标物体的实时跟踪，检测准确率高。

Description

一种基于双阶段卷积神经网络的目标检测方法及系统

技术领域

本发明涉及停车检测领域，尤其涉及一种基于双阶段卷积神经网络的目标检测方法及系统。

背景技术

危险化学品运输车辆，简称车辆，因其装卸物通常为易燃易爆或剧毒物质，具有极大的危险性，因此其停放须严格按照危化品车辆管理办法在指定地点停放。在运输过程中不可随意停放，临时停车不准靠近明火、高温场所、人员密集场所等有可能造成危害的地点。针对危化品车辆在道路运输过程中，尤其在化工园区内，不按规定停放可能造成重大危害的问题，

目前基于单纯的目标检测算法，例如YOLO系列算法，可实现单帧图像的目标检测，即单帧图片检测目标的位置值，但是无法获得视频运动中的目标的连续位置信息，一方面是单帧图像出现多目标时，需仔细计算辩证前后帧多个目标之间的位置信息是属于哪个目标，另一方面是当多个目标之间互相距离较近时，无法确认前后帧运动中的目标具体是属于哪个目标；基于目标检测与多目标检测双阶段的算法可实现运动中多目标物体的实时跟踪，且准确度较高。

现有的运用于yolov3目标检测方法中的NMS方法在去除多余的重叠框的过程中，从高到低对建议框进行排序，然后分数最高的检测框被选中，当其他框与被选中建议框有明显重叠时，即被抑制。该方法会删除重叠率较高的目标框，即当两个目标框接近时，分数更低的框就会因为与之重叠面积过大而被误删掉。

YOLOv3目标框架中的损失函数Loss分为三个部分，一个是中心坐标和宽高造成的误差，一个是置信度造成的损失，最后一个是类别造成class的损失，最后将这三个损失相加形成了最终的损失函数。在所述中心坐标和宽高造成的误差中，由目标检测框的中心横坐标、中心纵坐标、宽度和高度四部分损失相加所得。由于这四部分损失不是相互独立的，在实际计算中存在互相依赖关系，因此该损失计算方法存在偏差，无法准确反映由中心坐标和宽高造成的实际损失。例如，可能存在不同的中心横坐标、中心纵坐标、宽度和高度损失而总的中心坐标和宽高损失相同的情况。

发明内容

为解决上述现有技术问题，本发明提供一种基于双阶段卷积神经网络的目标检测方法及系统。

本发明技术方案如下：一种基于双阶段卷积神经网络的目标检测方法，包括以下步骤：

获取检测区域内的视频流，并将所述视频流进行预处理，得到多帧帧图片；

将多帧所述帧图片输入至预先训练好的YOLOv3目标检测改进模型中进行目标检测，得到带有检测目标帧图片；

本发明的有益效果是：本发明基于双阶段的目标检测跟踪模型实现了检测目标停车检测功能，利用改进的目标检测算法，对检测区域内的检测目标不仅可以更精确地检测同一检测目标的实时位置信息，也避免了有多个目标出现在检测区域内时以及检测目标发生重叠时对于检测目标实时位置检测的计算误差，还实现了对运动中多检测目标的实时跟踪，且对于目标位置信息实时检测准确度较高，可实现实时计算，准确度高，改善了人工监测费时费力的局面，实现对检测区域的智能化监控。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，根据帧图片中检测目标实时位置信息进行决策告警。

进一步，所述根据帧图片中检测目标实时位置信息进行决策告警。具体为，若在预设时间内，前、后帧图像中检测目标的中心点之间的欧式距离小于预设阈值，则判定为检测目标处于静态，并发出告警。

上述方案的有益效果为，在预设时间内，通过对视频流中相同检测目标实时位置的检测，判断检测目标当前的运动状态以及位置信息并将检测目标当前的运动状态以及位置信息及时反馈告警，方便管理人员及时作出相应的判断和措施，从而实现对检测区域内目标的智能管控。

进一步，所述获取检测区域内的视频流，并将所述视频流进行预处理，得到多帧帧图片具体为，获取检测区域内的视频流，并按预设帧率跳帧，从视频流中得到多帧帧图片。

进一步，在所述将多帧所述帧图片输入至预先训练好的YOLOv3目标检测改进模型中进行目标检测，得到带有检测目标帧图片之前，还包括训练YOLOv3目标检测改进模型的步骤，

训练YOLOv3目标检测改进模型，具体包括如下步骤，

采集多种场景下带有目标的图片，并进行数据增强处理和标注处理，得到数据集，且按照预设的比例将所述数据集分为训练集和验证集；

基于YOLOv3目标检测模型构建YOLOv3目标检测改进模型；

利用所述训练集对所述YOLOv3目标检测改进模型进行多次迭代训练，利用所述验证集对每次训练后的YOLOv3目标检测改进模型进行验证，输出所述验证集的平均精度均值，选取输出平均精度均值最大的YOLOv3目标检测改进模型作为训练好的YOLOv3目标检测改进模型。

进一步，进行数据增强处理的具体步骤为，

对采集的多种场景下带有目标的图片进行水平翻转或/和垂直翻转或/和随机裁剪或/和随机角度旋转或/和对比度调整或/和亮度调整，得到多种场景下带有目标的处理图片；

进行标注处理的具体步骤为，

使用标注工具将多种场景下带有目标的图片和多种场景下带有目标的处理图片中的目标用目标标注框框出，生成xml格式的标记信息文件，其中标记信息文件中记录有目标标注框的左上角坐标和右下角坐标。

上述方案的有益效果是，采用进行标注处理和数据增强处理后的帧图片构建数据集，利用所述训练集对YOLOv3目标检测模型训练得到的YOLOv3改进目标检测模型拥有更好的泛化能力，可以对多种场景下，不同角度以及不同类型的图片进行目标检测，可以有效避免在实际应用中由于各种不可抗力使得图片呈现多样化，从而导致YOLOv3改进目标检测模型对于目标检测的误差甚至无法对目标进行检测。

进一步，YOLOv3目标检测模型构建YOLOv3目标检测改进模型，具体为，对所述YOLOv3目标检测模型进行改进，得到所述YOLOv3目标检测改进模型；对所述YOLOv3目标检测模型进行改进包括，对所述YOLOv3目标检测模型的输入尺寸进行改进。

进一步，将多帧所述帧图片输入至预先训练好的YOLOv3目标检测改进模型中进行目标检测，得到带有检测目标帧图片具体包括，将所述帧图片和所述帧图片的前一帧图片的3通道RGB数据进行叠加，得到预处理的6通道RGB-RGB数据，以便通过所述预处理的6通道RGB-RGB数据判断所述第一图像和所述第二图像中的车辆是否为同一辆车。

基于上述一种基于双阶段卷积神经网络的目标检测方法，本发明还提供一种基于双阶段卷积神经网络的目标检测系统。

一种基于双阶段卷积神经网络的目标检测系统，包括以下模块，

帧图片获取模块，其用于获取检测区域内的视频流，并将所述视频流进行预处理，得到多帧帧图片；

目标检测模块，其用于将多帧所述帧图片输入至预先训练好的YOLOv3目标检测改进模型中进行目标检测，得到带有检测目标帧图片；

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，还包括决策告警模块，所述决策告警模块用于根据帧图片中检测目标实时位置信息进行决策告警。

基于上述一种基于双阶段卷积神经网络的目标检测方法，本发明还提供一种计算机可读存储介质。

一种计算机可读存储介质，包括存储器，所述存储器内存储有计算机程序，所述计算机程序被处理器执行时，实现上述所述的基于双阶段卷积神经网络的目标检测。

附图说明

图1为本发明一种基于双阶段卷积神经网络的目标检测方法的流程图；

图2为训练YOLOv3目标检测改进模型的流程图；

图3为将前后帧同一检测目标中心点归一化原理示意图；

图4为本发明一种基于双阶段卷积神经网络的目标检测系统的结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种基于双阶段卷积神经网络的目标检测方法，包括如下步骤：

S1，获取检测区域内的视频流，并将所述视频流进行预处理，得到多帧帧图片；

S2，将多帧所述帧图片输入至预先训练好的YOLOv3目标检测改进模型中进行目标检测，得到带有检测目标帧图片；

本发明基于双阶段的目标检测跟踪模型实现了检测目标停车检测功能，利用改进的目标检测算法，对检测区域内的检测目标不仅可以更精确地检测同一检测目标的实时位置信息，也避免了有多个目标出现在检测区域内时以及检测目标发生重叠时对于检测目标实时位置检测的计算误差，还实现了对运动中多检测目标的实时跟踪，且对于目标位置信息实时检测准确度较高，可实现实时计算，准确度高，改善了人工监测费时费力的局面，实现对检测区域的智能化监控。

在本具体实施例中：

所述S1具体为，获取检测区域内的视频流，并按预设帧率跳帧，从视频流中得到多帧帧图片。

例如，运输车辆进行目标检测跟踪时，将图像采集装置设置安装在确保图像采集装置可以完整地获取到整个检测区域内检测目标的视频流的位置，将所述视频流根据预设帧率进行跳频处理得到整个检测区域内多帧帧图像。例如，在重点道路和停车位的对面设置安装有摄像头，所述摄像头用于获取重点道路和园区摄像头的视频流，将获取的视频流按照适当帧率进行跳帧处理得到多帧帧图像。

在本具体实施例中：

在所述S2之前，还包括训练YOLOv3目标检测改进模型的步骤，

如图2所示，训练YOLOv3目标检测改进模型，具体包括如下步骤，

基于YOLOv3目标检测模型构建YOLOv3目标检测改进模型；

进行数据增强处理的具体步骤为，

采集多种场景下带有目标的图片，例如，对停车场大门及周边道路摄像头，采集不同时间，不同天气，不同角度下的带有目标的图片；对图片进行数据增强处理是为了扩充数据，还可以对在收集搜索网站上的检测目标图片进行数据扩充，利用经过数据扩充后的帧图像构建数据集进行迭代训练得到的改进YOLOv3目标检测模型具有强大的泛化能力，YOLOv3目标检测改进模型可以对多种场景下，不同角度以及不同类型的帧图片进行目标检测，可以有效避免在实际应用过程中，由于各种不可抗力使得所述视频流中帧图片出现模糊、翻转、倾斜等问题，从而导致YOLOv3改进目标检测模型对于目标检测的误差甚至无法对目标进行检测。

进行标注处理的具体步骤为，

使用标注工具LabelImg将多种场景下带有目标的图片和多种场景下带有目标的处理图片中的目标用目标标注框框出，生成xml格式的标记信息文件，并在标记信息文件中记录目标标注框的左上角坐标(x1，y1)和右下角坐标(x2，y2)，对于低于40x40像素的检测目标不进行标注，删除分辨率低于600x600的帧图像。

基于YOLOv3目标检测模型构建YOLOv3目标检测改进模型，具体为，对所述YOLOv3目标检测模型进行改进，得到所述YOLOv3目标检测改进模型；其中，对所述YOLOv3目标检测模型进行改进，包括如下三个改进点，

对所述YOLOv3目标检测模型的输入尺寸进行改进；

因车辆目标较大，使用256*256的输入尺寸，可减少计算量，在YOLOv3目标检测改进模型中，分别将第三次、第四次和第五次下采样层输出的特征图依次融合，得到含有特征尺寸为8*8，16*16，32*32的多尺寸特征图。使得目标检测模型对于帧图像的进行目标检测并得到目标检测框和目标检测框的置信度过程计算量减少，可以提高目标检测模型对车辆检测的效率。

在对YOLOv3目标检测改进模型进行训练验证的过程中，所有的训练集在目标检测网络中都至少进行了100次正向传播和100次反向传播，所有的训练集目标检测网络中每进行了1次正向传播和1次反向传播，都会通过验证集进行验证。利用所述验证集对每次训练完成后的YOLOv3目标检测改进模型进行验证，即计算训练完成后目标检测模型的平均精度均值mAP，最后选出平均精度均值mAP最大次的网络模型权重。

在本具体实施例中：

本发明方法还包括，根据帧图片中检测目标实时位置信息进行决策告警。

若在预设时间内，前、后帧图像中检测目标的中心点之间的欧式距离小于预设阈值，则判定为检测目标处于静态，并发出告警。

具体的，将帧图片输入预先训练好的YOLOv3目标检测改进模型中得到用目标检测框框出的检测目标的帧图片以及检测目标的位置信息，将多帧所述帧图片输入至预先训练好的YOLOv3目标检测改进模型中进行目标检测，得到带有检测目标帧图片具体包括，将所述帧图片和所述帧图片的前一帧图片的3通道RGB数据进行叠加，得到预处理的6通道RGB-RGB数据，以便通过所述预处理的6通道RGB-RGB数据判断所述第一图像和所述第二图像中的车辆是否为同一辆车。在预设时间内，根据所述标记判断，视频流中前、后帧的检测目标是否为同一检测目标，当所述帧图像中的检测目标标记与所述视频流中前一帧图像的检测目标标记相同时，则将帧图像检测目标的中心位置和前一帧检测目标的中心位置距离比对，判断检测目标是否处于静态，若所述检测区域内检测目标的中心位置和所述检测区域前一帧检测目标的中心位置距离小于第一阈值，则判断该检测目标处于静态，发出告警，将所述告警信息发送给后台管理系统。

具体的，如图3所示，在预定的时间内当所述帧图像中的目标标记与所述监控视频流中前一帧图像的检测目标标记相同时，将检测目标中心点与前一帧同一检测目标中心点相对于检测目标归一化后，计算检测目标中心点与前一帧同一检测目标中心点之间的欧氏距离，当检测目标中心点与前一帧同一检测目标中心点之间的欧氏距离s小于预设的阈值e时，则表示该车辆发生停车行为。检测目标中心点与前一帧同一检测目标中心点之间的欧氏距离s的具体计算公式如下所示，

其中，w为目标检测框的宽度，h为目标检测框的高度，x_i表示第i帧图片的中心点的横坐标值，y_i表示第i帧图片的中心点的纵坐标值，x_i-1表示第i-1帧图片的中心点的横坐标值，y_i-1表示第i-1帧图片的中心点的纵坐标值，阈值e根据不同场景下场地的具体情况确定，如场地越狭窄阈值e越小，或者场地路况较差或是车辆存在一定安全隐患时，所述阈值e更小。

在预设时间内，通过对视频流中相同检测目标实时位置的检测，判断检测目标当前的运动状态以及位置信息并将检测目标当前的运动状态以及位置信息及时反馈告警，方便管理人员及时作出相应的判断和措施，从而实现对检测区域内目标的智能管控。

下面以某车辆停车场附近为例，阐述本发明。

构建数据集；利用车辆停车场大门及周边道路摄像头，采集不同时间，不同天气，不同角度下的车辆图片2000张，并对图像进行水平和垂直翻转、随机裁剪、随机角度旋转、改变图像对比度和亮度等操作进行数据扩充到4000张，收集搜索网站上的车辆图片4000张，构建数据集。使用标注工具LabelImg软件对数据集进行人工标注，将图片中的车辆用矩形框框出来，对于目标过小的车辆(低于40x40像素)不进行标注，删除分辨率低于600x600的图片，将所有已完成标注并符合标准的图片按照8：2的比例划分为训练集和验证集，其中摄像头采集的图片及扩充之后的数据集和网络图片按照1：1的比例划分为训练集和验证集。标记完成之后会生成xml格式的标记信息文件，其中包括类别信息、图片长宽和每个被标注的车辆辆的坐标，包含目标矩形框的左上角坐标(x1，x2)，右下角坐标(x2，y2)；

构建改进的YOLOv3目标检测网络；本发明采用的CIOU计算方法替换目标检测的损失函数中中心坐标和宽高引起的损失，Soft-NMS计算方法去除目标检测过程中的重叠框，使用Darkenet53作为主体网络框架进行特征的提取，采用多尺度预测的方法,分别在大小为13×13、26×26、52×52的特征图上进行预测。在不同尺度的特征图上继续进行卷积操作，通过上采样层与前一层得到的特征图进行张量的拼接,再经过卷积操作之后,在不同特征图上进行目标检测和位置回归，最后通过Yolov3检测层进行坐标和类别结果的输出。

训练模型；使用训练集对改进的YOLOv3目标检测网络进行训练，训练100Epoch，每一次都在验证集进行验证，计算mAP(mAP越大则说明算法在验证集表现越好)，最后选出mAP值最大次的网络模型权重。

目标检测；采用训练好的改进的YOLOv3目标检测网络对待检测帧图片进行目标检测。

停车检测；目标检测和目标检测算法模型输出检测到的车辆的实时位置信息，并计算视频前后帧之间目标的中心位置距离，判断车辆是否发生停车行为，若车辆在100帧内前后帧中心位置距离小于一定阈值e，则可认为该车辆发生停车行为，发出停车报警信息。该处阈值e设为0.03。

在本发明中：

YOLOv3：一个基于卷积神经网络的目标检测算法，特点为：在相同的硬件条件下，检测速度快，准确度高。

Epoch：一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一次Epoch。也就是说，所有训练样本在神经网络中都进行了一次正向传播和一次反向传播；再通俗一点，一个Epoch就是将所有训练样本训练一次的过程。

mAP：meanAveragePrecision，平均精度均值，是评价目标检测的一个通用度量标准。

如图4所示，一种基于双阶段卷积神经网络的目标检测系统，包括以下模块，

本发明基于双阶段的目标检测跟踪模型实现了检测目标停车检测功能，利用改进的目标检测算法与多目标检测算法相结合形成双阶段的检测跟踪算法，对检测区域内的检测目标不仅可以更精确地检测同一检测目标的实时位置信息，也避免了有多个目标出现在检测区域内时以及检测目标发生重叠时对于检测目标实时位置检测的计算误差，还实现了对运动中多检测目标的实时跟踪，且对于目标位置信息实时检测准确度较高，可实现实时计算，准确度高，改善了人工监测费时费力的局面，实现对检测区域的智能化监控。

在本具体实施例中：本发明系统还包括决策告警模块，所述决策告警模块用于根据帧图片中检测目标实时位置信息进行决策告警。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双阶段卷积神经网络的目标检测方法，其特征在于：包括以下步骤，

将多帧所述帧图片输入至预先训练好的YOLOv3目标检测改进模型中进行目标检测，得到带有检测目标帧图片。

2.根据权利要求1所述的基于双阶段卷积神经网络的目标检测方法，其特征在于：还包括，

根据所述帧图片中检测目标实时位置信息进行决策告警。

3.根据权利要求2所述的基于双阶段卷积神经网络的目标检测方法，其特征在于：所述根据帧图片中检测目标实时位置信息进行决策告警具体为，若在预设时间内，前、后帧图像中检测目标的中心点之间的欧式距离小于预设阈值，则判定为检测目标处于静态。

4.根据权利要求1至3任一项所述的基于双阶段卷积神经网络的目标检测方法，其特征在于：所述获取检测区域内的视频流，并将所述视频流进行预处理，得到多帧帧图片具体为，获取检测区域内的视频流，并按预设帧率跳帧，从视频流中得到多帧帧图片。

5.根据权利要求1至3任一项所述的基于双阶段卷积神经网络的目标检测方法，其特征在于：在所述将多帧所述帧图片输入至预先训练好的YOLOv3目标检测改进模型中进行目标检测，得到带有检测目标帧图片之前，还包括训练YOLOv3目标检测改进模型的步骤，

训练YOLOv3目标检测改进模型，具体包括如下步骤，

基于YOLOv3目标检测模型构建YOLOv3目标检测改进模型；

6.根据权利要求5所述的基于双阶段卷积神经网络的目标检测方法，其特征在于：进行数据增强处理的具体步骤为，

进行标注处理的具体步骤为，

7.根据权利要求6所述的基于双阶段卷积神经网络的目标检测方法，其特征在于：基于YOLOv3目标检测模型构建YOLOv3目标检测改进模型，具体为，对所述YOLOv3目标检测模型进行改进，得到所述YOLOv3目标检测改进模型；对所述YOLOv3目标检测模型进行改进包括，对所述YOLOv3目标检测模型的输入尺寸进行改进。

8.根据权利要求6所述的基于双阶段卷积神经网络的目标检测方法，其特征在于：将多帧所述帧图片输入至预先训练好的YOLOv3目标检测改进模型中进行目标检测，得到带有检测目标帧图片具体包括，将所述帧图片和所述帧图片的前一帧图片的3通道RGB数据进行叠加，得到预处理的6通道RGB-RGB数据，以便通过所述预处理的6通道RGB-RGB数据判断所述第一图像和所述第二图像中的车辆是否为同一辆车。

9.一种基于双阶段卷积神经网络的目标检测系统，其特征在于，包括以下模块，

目标检测模块，其用于将多帧所述帧图片输入至预先训练好的YOLOv3目标检测改进模型中进行目标检测，得到带有检测目标帧图片。

10.一种计算机可读存储介质，其特征在于：包括存储器，所述存储器内存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至8任一项所述的基于双阶段卷积神经网络的目标检测方法。