CN114758275A

CN114758275A - 一种基于gpu车辆视频检测方法

Info

Publication number: CN114758275A
Application number: CN202210382224.8A
Authority: CN
Inventors: 袁鑫; 许丙健; 张文宜
Original assignee: Inspur Communication Information System Co Ltd
Current assignee: Inspur Communication Information System Co Ltd
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-07-15

Abstract

本发明提供一种基于GPU车辆视频检测方法，属于车辆图像识别技术领域，本发明包括实时视频流解码、格式及分辨率转换、目标检测模型训练及检测。本发明通过使用GPU进行视频解码和检测，能够满足对大量视频图像进行实时、并发车辆检测的需求。

Description

一种基于GPU车辆视频检测方法

技术领域

本发明涉及车辆图像识别、视频图像解码领域，尤其涉及一种基于GPU车辆视频检测方法。

背景技术

随着科学技术的发展，城市道路交通系统日益发达，基于实时检测视频的车辆检测算法已经成为当前智慧交通系统中车辆检测的主流手段。如何实时、高效、准确地完成车辆检测是目前的研究热点方向。

在车辆检测领域，除了如SVM分类器等比较传统的机器学习算法外，基于深度学习的目标检测算法由于识别准确率高，特别是在复杂场景中依然可以保持较高的识别率的优势，故被各类系统广泛采用。

目前基于深度学习的目标检测算法框架有R-CNN系列(R-CNN、Fast R-CNN、Faster R-CNN)、YOLO系列(YOLO v1、YOLO v2、YOLO v3、YOLO v4)、SSD、Cascade R-CNN等。这些框架对于检测车辆目标，相对于之前手动设计特征然后使用SVM等分类器的方式检测效果有了显著提升。但对于硬件计算资源的要求也有显著的提高。

上述的深度学习算法框架可以利用GPU强大的并行处理能力进行车辆检测，但对于视频流检测，往往需借助OpenCV等视频处理框架，先将视频流解码为逐帧图像后，再进行检测。而FFmpeg框架在视频解码时调用的是CPU进行处理的，CPU 的并行处理能力相对有限。在对大量视频流进行并行车辆检测时，需要CPU+GPU 配合，先由CPU进行视频解码，再由GPU进行图像检测，此时往往因CPU计算资源限制，导致并发检测量受限，同时GPU资源无法得到充分利用。

GPU英文全称为Graphic Processing Unit，中文翻译为“图形处理单元”，是一种专门处理图像运算工作的微处理器。GPU与CPU相比有更多的处理单元和更大的内存带宽，所以GPU有较好的计算能力，适合进行大量计算。

VPF全称为VideoProcessingFramework，代表视频处理框架。它是一组C++ 库和Python的绑定，可为视频处理任务提供完整的硬件加速，例如视频解码，编码，转码以及GPU加速的色彩空间和像素格式转换。VPF相比于OpenCV来讲，它可以将解码的步骤全部交给GPU，继而能让CPU更加的高效。

Yolo算法，其全称是You Only Look Once:Unified,Real-Time ObjectDetection，它仅使用一个CNN网络直接预测不同目标的类别与位置，算法速度快，它能够处理实时视频流，延迟能做到小于25毫秒。

YOLO-v4算法是在原有YOLO目标检测架构的基础上，采用了近些年CNN领域中最优秀的优化策略，从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面都有着不同程度的优化。YOLOv4-tiny结构是YOLOv4的精简版，属于轻量化模型，参数只有600万相当于原来的十分之一，这使得检测速度提升很大。

发明内容

为了解决以上技术问题，本发明提供了提供一种基于VPF框架的使用GPU进行视频解码并结合Yolov4-tiny轻量化网络模型进行车辆识别的方法，其能满足同时处理大量视频流进行并行车辆检测的需求，识别准确率高、检测速度快，而且CPU计算资源占用低，同时GPU资源可得到充分利用，可以满足当今智能道路交通系统中对大量视频图像进行实时、并发车辆检测的需求。

本发明的技术方案是：

一种基于GPU车辆视频检测方法。

包括如下步骤：

(1)使用VPF框架中的PyNvCodec模块中的PyNvDecoder方法，对监控摄像机输出的原始视频流进行解码，得到一帧图像数据；要求图像原始分辨率不低于 1920*1080。

(2)使用VPF框架中的PyNvCodec模块中的PySurfaceConverter方法，将步骤(1)中的图像数据进行格式转换，转换为YUV420数据格式；

(3)使用VPF框架中的PyNvCodec模块中的PySurfaceResizer方法，将步骤(2)转换后的图像大小修改为1280*720分辨率；

(4)使用VPF框架中的PyNvCodec模块中的PySurfaceConverter方法，将步骤(3)中的图像数据进行格式转换，转换为RGB数据格式；

(5)对步骤(4)中图像中的车辆进行位置和类型标注，纳入卷积神经网络模型进行目标检测训练，最终输出针对车辆识别的目标检测模型；

(6)加载目标检测模型，对步骤(4)中拍摄的图像进行目标检测识别，识别分辨率为416*416，置信度阈值设置为0.45，识别并获取图像中的车辆位置及对应车辆类型。

进一步的，

所述步骤(1)中，使用VPF框架中的PyNvCodec模块中的PyNvDecoder进行视频解码，此方式将使用GPU进行识别解码。

进一步的，

所述步骤(2)中，使用VPF框架中的PyNvCodec模块中的PySurfaceConverter 方法进行格式转换，此方式将使用GPU进行处理。

进一步的，

所述步骤(3)中，使用VPF框架中的PyNvCodec模块中的PySurfaceResizer 方法调整图像分辨率，此方式将使用GPU进行处理。

进一步的，

所述步骤(4)中，使用VPF框架中的PyNvCodec模块中的PySurfaceConverter 方法进行格式转换，此方式将使用GPU进行处理。

进一步的，

步骤5)所述的标注、训练动作，仅在无目标检测模型或模型需要优化时执行。

使用基于Darknet实现的yolov4-tiny检测网络进行训练，训练使用4800张分辨率为1280*720的车辆样例图片，训练时网络图像分辨率为608*608，训练轮次为20万轮。

进一步的，，

所述步骤(6)中，识别分辨率为416*416，置信度阈值设置为0.45。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明，即一种基于GPU的车辆视频检测算法，其技术方案包括如下步骤：

(1)使用VPF框架中的PyNvCodec模块中的PyNvDecoder方法，对监控摄像机输出的原始视频流进行解码，得到一帧图像数据。要求图像原始分辨率不低于 1920*1080。

(2)使用VPF框架中的PyNvCodec模块中的PySurfaceConverter方法，将步骤(1)中的图像数据进行格式转换，转换为YUV420数据格式。

(3)使用VPF框架中的PyNvCodec模块中的PySurfaceResizer方法，将步骤(2)转换后的图像大小修改为1280*720分辨率。

(4)使用VPF框架中的PyNvCodec模块中的PySurfaceConverter方法，将步骤(3)中的图像数据进行格式转换，转换为RGB数据格式。

(5)对步骤(4)中图像中的车辆进行位置和类型标注，纳入卷积神经网络模型进行目标检测训练，最终输出针对车辆识别的目标检测模型。此步骤所属的标注、训练动作，仅在无目标检测模型或模型需要优化时执行。本发明使用基于 Darknet实现的yolov4-tiny检测网络进行训练，yolov4-tiny是yolo3的简化版本，优点是网络简单，计算量较小，可以在移动端或设备端运行。训练使用4800 张分辨率为1280*720的车辆样例图片，对图片中的车辆进行标注，其中不同类型的车辆分开标注，以便区分车辆型号。训练时网络图像分辨率为608*608，训练轮次为20万轮。

(6)加载目标检测模型，对步骤(4)中拍摄的图像进行目标检测识别，识别分辨率为416*416，置信度阈值设置为0.45，识别并获取图像中的车辆位置及对应车辆类型

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于GPU车辆视频检测方法，其特征在于，

包括如下步骤：

(1)使用VPF框架中的PyNvCodec模块中的PyNvDecoder方法，对监控摄像机输出的原始视频流进行解码，得到一帧图像数据；要求图像原始分辨率不低于1920*1080。

2.根据利要求1所述的方法，其特征在于，

3.根据利要求1所述的方法，其特征在于，

所述步骤(2)中，使用VPF框架中的PyNvCodec模块中的PySurfaceConverter方法进行格式转换，此方式将使用GPU进行处理。

4.根据利要求1所述的方法，其特征在于，

所述步骤(3)中，使用VPF框架中的PyNvCodec模块中的PySurfaceResizer方法调整图像分辨率，此方式将使用GPU进行处理。

5.根据利要求1所述的方法，其特征在于，

所述步骤(4)中，使用VPF框架中的PyNvCodec模块中的PySurfaceConverter方法进行格式转换，此方式将使用GPU进行处理。

6.根据利要求1所述的方法，其特征在于，

7.根据利要求1或6所述的方法，其特征在于，

所述步骤(5)中，使用基于Darknet实现的yolov4-tiny检测网络进行训练，训练使用4800张分辨率为1280*720的车辆样例图片，训练时网络图像分辨率为608*608，训练轮次为20万轮。

8.根据利要求1所述的方法，其特征在于，