CN116824480A - 基于DeepStream的监控视频分析方法及系统 - Google Patents
基于DeepStream的监控视频分析方法及系统 Download PDFInfo
- Publication number
- CN116824480A CN116824480A CN202310415455.9A CN202310415455A CN116824480A CN 116824480 A CN116824480 A CN 116824480A CN 202310415455 A CN202310415455 A CN 202310415455A CN 116824480 A CN116824480 A CN 116824480A
- Authority
- CN
- China
- Prior art keywords
- video
- stream
- plug
- model
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 40
- 238000012544 monitoring process Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 claims abstract description 109
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000011161 development Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 34
- 238000013138 pruning Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 17
- 230000003139 buffering effect Effects 0.000 claims description 11
- 238000000137 annealing Methods 0.000 claims description 8
- 230000018109 developmental process Effects 0.000 description 26
- 238000005516 engineering process Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 235000002020 sage Nutrition 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Closed-Circuit Television Systems (AREA)
Abstract
本发明提供一种基于DeepStream的视频监控分析方法及系统,其中方法包括:在Jetson AGX Xavier嵌入式开发板上安装DeepStream,DeepStream自带用于转换模型文件的基于TensorRT的推理插件;将训练好的轻量化目标检测模型部署到DeepSteam中;将至少一个摄像头基于RTSP协议传输的多路视频流输入至DeepStream的视频流采集插件,DeepStream以管道流的方式对所述多路视频流进行目标检测;将处理后的视频流进行编码压缩,通过RTSP协议以无线网络的方式推送至结果展示模块进行展示。本发明快速搭建起智能视频监控分析系统,实时分析多路视频流中的信息。
Description
技术领域
本发明涉及视频监控处理技术领域,尤其涉及一种基于DeepStream的监控视频分析方法及系统。
背景技术
智能视频监控是指在不需要人为干预的情况下,利用视频、数字图像处理分析相关的技术,对视频或者监控中的目标进行跟踪与检测,并对异常的情况做出反应。
图像以及视频中的目标检测是计算机视觉研究的重点,也是智能视频监控系统中的关键技术。目前的目标检测技术主要依赖深度神经网络的特征提取技术,从图片或视频中识别出物体的类别,同时输出目标的位置坐标。视频监控系统通常要试试处理多路摄像头的数据,且特定场景下往往对设备的体积大小有要求,因此多将监控视频系统部署在嵌入式设备上。但是,嵌入式设备计算能力有限,难以部署神经网络模型。
因此,如何在嵌入式设备上部署目标检测模型,同时保证嵌入式设备的运行速率,是亟待解决的问题。
发明内容
针对相关技术存在的上述问题,本发明实施例提供一种基于DeepStream的监控视频分析方法及系统。
第一方面,本发明提供一种基于DeepStream的监控视频分析方法,包括:
在Jetson AGX Xavier嵌入式开发板上安装DeepStream,所述DeepStream自带基于TensorRT的推理插件,所述基于TensorRT的推理插件用于转换模型文件;
将训练好的轻量化目标检测模型部署到所述DeepSteam中;
将至少一个摄像头基于RTSP协议传输的多路视频流输入至所述DeepStream的视频流采集插件,所述DeepStream以管道流的方式对所述多路视频流进行目标检测;
将处理后的视频流进行编码压缩,通过RTSP协议以无线网络的方式推送至结果展示模块进行展示。
在一些实施例中,所述轻量化目标检测模型为改进的VOLOv5s模型,所述改进的VOLOv5s模型通过以下步骤获取:
使用深度可分离卷积模块替换VOLOv5s骨干网络中的卷积模块,使用GhostBottleneck模块替换VOLOv5s颈部网络中的Bottleneck模块,并对替换完成的颈部网络进行通道剪枝。
在一些实施例中,所述对替换完成的颈部网络进行通道剪枝,包括:
在第一次模型训练过程中,基于预设的数据集,采用余弦退火方式周期性地改变学习率,直至模型收敛至预设的期望位置;
在第二次模型训练过程中,对完成所述第一次模型训练过程的所述替换完成的颈部网络的通道按照预设比例进行裁剪,控制数据集和超参数不变,进行微调训练,完成所述通道剪枝。
在一些实施例中,所述DeepStream以管道流的方式对所述多路视频流进行目标检测,包括:
所述DeepStream的视频流采集插件将接收到的所述多路视频流传输到所述DeepStream的编码解码插件,所述编码解码插件包括用于编码的第一专用芯片和用于解码的第二专用芯片;
将经过所述编码解码插件的硬件编码以及显存缓冲后的所述多路视频流,传输至所述基于TensorRT的推理插件,通过所述基于TensorRT的推理插件将所述轻量化目标检测模型的权重文件转化为TensorRT支持的推理引擎;
基于所述TensorRT支持的推理引擎获得所述多路视频流的视频结构化信息和目标检测结果;
将所述视频结构化信息作为推理结果,并通过所述DeepStream的第一输出端以文本形式输出;
基于所述目标检测结果中目标的位置信息,以边界框的形式绘制到视频对应的位置,并将多路视频拼接成一个画面,经过所述编码解码插件的硬件编码以及显存缓冲后,通过所述DeepStream的第二输出端输出。
在一些实施例中,基于所述TensorRT支持的推理引擎获得所述多路视频流的目标检测结果,包括:
基于所述TensorRT支持的推理引擎逐帧进行推理,当所述轻量化目标检测模型在当前视频帧中检测到目标时,输出所述目标的类别和位置信息作为目标检测结果;
当所述轻量化目标检测模型未在当前视频帧中检测到目标时,进行下一视频帧的检测。
在一些实施例中,所述Jetson AGX Xavier嵌入式开发板的CPU和GPU共享一个高速内存,所述显存缓冲的过程在所述高速内存中进行。
第二方面,本发明实施例还提供一种基于DeepStream的监控视频分析系统,包括:
至少一个摄像头,用于采集多路视频流,并基于RTSP协议传输的多路视频流传输至嵌入式设备;
嵌入式设备,采用Jetson AGX Xavier嵌入式开发板,所述Jetson AGX Xavier嵌入式开发板上安装有DeepStream,所述DeepStream自带基于TensorRT的推理插件,所述基于TensorRT的推理插件用于转换模型文件,所述Jetson AGX Xavier嵌入式开发板上部署有训练好的轻量化目标检测模型,所述轻量化目标检测模型用于对所述至少一个摄像头传输的多路视频流进行目标检测;
结果展示模块,用于接收所述嵌入式设备基于RTSP协议传输的所述多路视频流的目标检测结果,显示带有边界框的视频。
在一些实施例中,所述DeepStream以管道流的方式对所述多路视频流进行目标检测,所述DeepStream的处理管道流结构包括:
视频流采集插件,用于采集所述至少一个摄像头基于RTSP协议传输的多路视频流;
编码解码插件,包括用于编码的第一专用芯片和用于解码的第二专用芯片,所述第一专用芯片用于对视频流进行硬件编码,所述第二专用芯片用于对视频流进行硬件解码;
基于TensorRT的推理插件,用于将所述轻量化目标检测模型的权重文件转化为TensorRT支持的推理引擎,基于所述TensorRT支持的推理引擎获得所述多路视频流的视频结构化信息和目标检测结果;
第一输出端,用于将所述视频结构化信息以文本形式输出;
画面叠加插件和画面拼接插件,用于基于所述目标检测结果中目标的位置信息,以边界框的形式绘制到视频对应的位置,并将多路视频拼接成一个画面;
第二输出端,用于输出所述画面叠加插件和所述画面拼接插件处理后的视频。
在一些实施例中,所述轻量化目标检测模型为改进的VOLOv5s模型,所述改进的VOLOv5s模型通过以下步骤获取:
使用深度可分离卷积模块替换VOLOv5s骨干网络中的卷积模块,使用GhostBottleneck模块替换VOLOv5s颈部网络中的Bottleneck模块,并对替换完成的颈部网络进行通道剪枝。
在一些实施例中,所述对替换完成的颈部网络进行通道剪枝,包括:
在第一次模型训练过程中,基于预设的数据集,采用余弦退火方式周期性地改变学习率,直至模型收敛至预设的期望位置;
在第二次模型训练过程中,对完成所述第一次模型训练过程的所述替换完成的颈部网络的通道按照预设比例进行裁剪,控制数据集和超参数不变,进行微调训练,完成所述通道剪枝。
本发明提供的基于DeepStream的监控视频分析方法及系统,通过DeepStream和TensorRT将轻量化目标检测模型部署到Jetson AGX Xavier嵌入式开发板上,快速搭建起智能视频监控分析系统,实时分析多路视频流中的信息。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于DeepStream的监控视频分析系统的硬件结构示意图;
图2是本发明实施例提供的DeepStream处理管道流的结构示意图;
图3是本发明实施例提供的基于DeepStream的监控视频分析方法的流程示意图之一;
图4是本发明实施例提供的基于DeepStream的监控视频分析方法的流程示意图之二。
具体实施方式
随着经济社会的快速发展,人们对信息化、智能化的需求日益增加,传统人工监视的方法已经很难满足监控要求,智能视频监控技术应运而生。智能视频监控是在无人为干预的情况下,利用计算机视觉技术自动分析视频监控序列,自动识别特殊目标和行为,对可疑事件进行自动预警。
目标检测是智能视频监控的核心技术,是实现智能视频监控的重要保障,具有重要的研究意义。目前的目标检测技术主要依赖深度神经网络的特征提取,从图片或视频中识别出物体的种类,同时输出目标的位置坐标。
一方面,视频监控系统通常要实时处理多路摄像头的数据,且许多特定场景对设备的体积大小有要求。因此在会议室、展厅等场景,需要考虑将监控视频系统部署在嵌入式设备上。嵌入式设备一般具有实时性好、成本低的特点,但是嵌入式设备计算能力有限,难以部署神经网络模型。一般的解决方案是根据嵌入式设备的硬件特点,开发一套底层算子,编译后生成算子二进制文件进行执行。对视频流处理的结果(即边界框)以叠加的形式绘制在视频流上,并在前端实时显示。
相关技术中,通过嵌入式设备搭建视频监控系统,前端的嵌入式设备用于采集监控范围内的视频图像信号,并对视频数据进行压缩编码,以便于在网络内进行传输。网络部分由交换机、光纤等模块构成,具有低时延的特性。多个终端监控可以同时对视频解码并查看监控视频。同时通过存储服务器保存视频信息。
为了更快地进行模型部署,同时获得更高的目标检测精度,相关技术中普遍采用只浏览一次(You Only Look Once,YOLO)系列的目标检测模型。基于深度学习的目标检测算法大致可以区分为两种,一种是两阶段(Two Stage)的方法,将整体分为两部分,生成候选框和识别框内物体,即对象识别和定位两部分;另一种是一阶段(One Sage)的方法,将对象识别和定位结合在一起,直接给出检测结果。YOLO系列属于一阶段目标检测算法,将目标的定位和识别作为一个整体,利用目标分割边界框和类别概率直接进行回归,达到实时检测的效果。
YOLO系列制作包含目标类别的图片或视频,通过人工标注的方式制作用于训练模型的数据集,训练和检测在一个单独网络中进行。YOLO系列网络模型工程部署方便,骨干网络特征提取能力强,在推理过程中能比较准确地检测出目标的类别和位置。
在相关技术中,以YOLOv3为基础进行了算法的改进,用神经网络模型对视频流进行目标检测。但是YOLOv3神经网络层次复杂,即使将YOLOv3骨干网络替换为MobileNetv3(一种轻量的卷积级神经网络,主要目标是在保持模型准确性的同时,尽可能减少模型的大小和计算复杂度),模型的推理仍然对计算机资源有需要较高的要求。面向空间有限、要求低时延的场景时,需要在嵌入式设备采集、处理信息。以YOLOv3为基础的模型在嵌入式设备运行时与先进检测器相比速度不足。
因此,如何在嵌入式设备上部署目标检测模型,同时保证嵌入式设备的运行速率,是亟待解决的问题。基于此,本发明实施例提供一种基于DeepStream的监控视频分析方法及系统。
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的基于DeepStream的监控视频分析系统的硬件结构示意图,如图1所示,本发明实施例提供的基于DeepStream的监控视频分析系统至少包括:
至少一个摄像头101,用于采集多路视频流,并基于RTSP协议传输的多路视频流传输至嵌入式设备。
具体的,至少一个摄像头101同时采集视频流信息并传输到嵌入式设备。摄像头可以为枪式摄像头,视频分辨率可以为1080P,采用H.264视频编码压缩技术,传输的应用层协议采用基于文本的实时视频流协议(Real Time Streaming Protocol,RTSP)。RTSP协议定义了一对多应用程序如何有效地通过网络传输多媒体数据,为应用级协议,控制实时数据的发送。H.264视频编码压缩技术在不影响图像质量的前提下,可以减小数字视频文件的大小,视频文件所需的网络带宽和存储空间大大降低。或者说,在特定比特率下,视频图像质量显著提高。
嵌入式设备102,采用Jetson AGX Xavier嵌入式开发板,Jetson AGX Xavier嵌入式开发板上安装有DeepStream,DeepStream自带基于TensorRT的推理插件,基于TensorRT的推理插件用于转换模型文件,Jetson AGX Xavier嵌入式开发板上部署有训练好的轻量化目标检测模型,轻量化目标检测模型用于对至少一个摄像头传输的多路视频流进行目标检测。
具体的,Jetson AGX Xavier嵌入式开发板是一款体积小巧、功能强大的人工智能(Artificial Intelligence,AI)嵌入式开发板。本发明实施例中的嵌入式设备采用JetsonAGX Xavier嵌入式开发板,在Jetson AGX Xavier嵌入式开发板上安装有DeepStream,DeepStream自带有用于转换模型文件的基于TensorRT的推理插件,并将训练好的轻量化目标检测模型部署在嵌入式设备上,训练好的轻量化目标检测模型对至少一个摄像头传输的多路视频流进行目标检测,快速提供视频监控分析的服务。
结果展示模块103,用于接收嵌入式设备102基于RTSP协议传输的多路视频流的目标检测结果,显示带有边界框的视频。
具体的,嵌入式设备完成对至少一个摄像头传输的多路视频流的目标检测后,将目标检测结果以RTSP协议传输到网络。目标检测结果可以在视频中以边界框的形式展示,由结果展示模块进行解码后实时展示,使得工作人员能够及时获知到告警信息并进行后续处理。
本发明实施例提供的基于DeepStream的监控视频分析系统,通过DeepStream和TensorRT将轻量化目标检测模型部署到Jetson AGX Xavier嵌入式开发板上,快速搭建起智能视频监控分析系统,实时分析多路视频流中的信息。
图2是本发明实施例提供的DeepStream处理管道流的结构示意图,如图2所示,在一些实施例中,DeepStream是一个基于开源GStreamer多媒体框架的流分析工具包,运行的应用程式是一个视频流处理的管道程序,其中的各功能以插件的形式拼接在一起。DeepStream应用程序有一个输入端和两个输出端,DeepStream处理管道流包括:
视频流采集插件,用于采集至少一个摄像头基于RTSP协议传输的多路视频流。
具体的,视频流采集插件作为输入端,以摄像头为主体,将采集到的视频传输到编码解码插件。
编码解码插件,包括用于编码的第一专用芯片(NVENC芯片)和用于解码的第二专用芯片(NVDEC芯片),第一专用芯片用于对视频流进行硬件编码,第二专用芯片用于对视频流进行硬件解码。
具体的,编码解码插件中有两块分别用于编码和解码专用的芯片,基于专用芯片的硬件编码解码方案能充分利用开发板的资源,较软件编码解码方案相比具有更高的工作效率。
基于TensorRT的推理插件,用于将轻量化目标检测模型的权重文件转化为TensorRT支持的推理引擎,基于TensorRT支持的推理引擎获得多路视频流的视频结构化信息和目标检测结果。
具体的,基于TensorRT的推理插件是DeepStream的核心部分,首先将轻量化目标检测模型的权重文件转化为TensorRT支持的推理引擎,经过低精度量化和网络算子融合,减小计算量。TensorRT推理的结果是视频结构化信息,连接到第一输出端,以文本形式输出。
第一输出端,用于将视频结构化信息以文本形式输出。
画面叠加插件和画面拼接插件,用于基于目标检测结果中目标的位置信息,以边界框的形式绘制到视频对应的位置,并将多路视频拼接成一个画面。
具体的,画面叠加插件和画面拼接插件将目标检测结果中目标的位置信息,以边界框的形式绘制到视频对应的位置,并将多路视频拼接成一个画面。画面叠加插件和画面拼接插件以帧(Frame)为单位对视频进行处理。OSD表示on-screen display,即屏幕菜单式调节方式。
第二输出端,用于输出画面叠加插件和画面拼接插件处理后的视频。
具体的,画面叠加插件和画面拼接插件处理后的视频,经过硬件编码和显存缓冲(Frame buffer)后,通过第二输出端输出到网络,基于RTSP协议在结果展示模块103进行实时展示。
在一些实施例中,Jetson AGX Xavier嵌入式开发板的中央处理器(CentralProcessing Unit,CPU)和图形处理器(Graphics Processing Unit,GPU)共享一个高速内存,显存缓冲的过程在该高速内存中进行。
在一些实施例中,轻量化目标检测模型为改进的VOLOv5s模型,改进的VOLOv5s模型通过以下步骤获取:
使用深度可分离卷积模块替换VOLOv5s骨干网络中的卷积模块,使用GhostBottleneck模块替换VOLOv5s颈部网络中的Bottleneck模块,并对替换完成的颈部网络进行通道剪枝。
具体的,本发明实施例中的轻量化目标检测模型,可以通过对VOLOv5s模型进行改进得到。VOLOv5系列的目标检测网络包括VOLOv5s、VOLOv5m、VOLOv5l和VOLOv5x四种,本发明实施例中采用VOLOv5s模型为基础进行改进。VOLOv5s模型是VOLOv5系列中深度最小,特征图的宽度最小的网络,速度最快,平均精度也最低。其余三种都是在此基础上不断加深、加宽。
首先,用深度可分离卷积替换YOLOv5s骨干网络中的卷积操作,进行空间特征与通道特征的解耦,提升了速度与精度。用Ghost Bottleneck模块替换VOLOv5s颈部网络中的Bottleneck模块中的卷积操作,用计算代价更小的线性变换代替标准的卷积操作。为了进一步减小推理计算的开销,对模型的颈部做通道剪枝。
在一些实施例中,对替换完成的颈部网络进行通道剪枝,包括:
在第一次模型训练过程中,基于预设的数据集,采用余弦退火方式周期性地改变学习率,直至模型收敛至预设的期望位置;
在第二次模型训练过程中,对完成第一次模型训练过程的替换完成的颈部网络的通道按照预设比例进行裁剪,控制数据集和超参数不变,进行微调训练,完成通道剪枝。
具体的,通道剪枝需要对模型训练两次,首先用自建的数据集对模型进行常规训练,在训练过程中使用余弦退火算法降低学习率,周期地改变学习率,使得模型能够顺利收敛到正确的期望位置。之后对训练好的网络的颈部通道按比例裁剪,最后控制数据集和超参数不变,进行微调训练。微调训练后的算法即为轻量化目标检测模型。
本发明实施例提供的基于DeepStream的监控视频分析系统,至少具有以下有益效果:
(1)系统易搭建,各模块耦合度低。前端以摄像头采集视频,后端借助DeepStream可拓展的功能搭建Web应用,低成本地实现智能监控视频系统。当系统出现问题时,由于各模块之间耦合度低,容易调试定位和排查问题所在。各部分分工明确的架构也方便后期维护和完善功能。
(2)低时延。一方面,由于轻量化目标检测模型部署在嵌入式设备中,采集视频信息的摄像头和处理信息的开发板物理位置相近,减小了传输数据所需的时间开销。另一方面,DeepStream的编码解码的专用芯片的硬件解码比服务器上的软件编码解码速度更快。上述两个特点使得系统输出检测结果的速度更快。
(3)安全性高。视频流在采集信息的终端附近被处理,不上传到云平台,避免了在上传过程中被截获和窃取的风险。
在一个具体的实施例中,采用4个海康枪式摄像头采集视频,视频分辨率为1080P,采用H.264视频编码压缩技术,传输的应用层协议采用基于文本的RTSP实时视频流协议。多个摄像头同时采集视频流信息传输到嵌入式设备。嵌入式设备采用Jetson AGX Xavier开发平台,借助DeepStream应用程序和TensorRT推理框架,能将目标检测模型(改进的VOLOv5s模型)部署在开发板,快速开发一套视频监控分析的服务。DeepStream以管道流的方式解码并同时对多路视频做目标检测,并将处理后的视频编码压缩后再以RTSP协议传输到网络。结果展示模块用视频播放器对视频进行解码,在显示器上显示出带有边界框的视频。工作人员可以对告警信息进行后续处理操作。
改进的VOLOv5s模型占用资源较少,能在一块嵌入式设备上同时处理多路摄像头采集的视频流,在Jetson AGX Xavier开发板上部署模型后,能同时推理4路1080P视频,每路帧率在20fps左右。数据的采集设备更靠近数据处理设备,系统拥有了更好的实时性和更高的处理效率。
图3是本发明实施例提供的基于DeepStream的监控视频分析方法的流程示意图之一,如图3所示,该方法至少包括以下步骤:
步骤301、在Jetson AGX Xavier嵌入式开发板上安装DeepStream,DeepStream自带基于TensorRT的推理插件,基于TensorRT的推理插件用于转换模型文件;
步骤302、将训练好的轻量化目标检测模型部署到DeepSteam中;
步骤303、将至少一个摄像头基于RTSP协议传输的多路视频流输入至DeepStream的视频流采集插件,DeepStream以管道流的方式对多路视频流进行目标检测;
步骤304、将处理后的视频流进行编码压缩,通过RTSP协议以无线网络的方式推送至结果展示模块进行展示。
具体的,在Jetson AGX Xavier嵌入式开发板上安装DeepStream,DeepStream自带基于TensorRT的推理插件,基于TensorRT的推理插件用于转换模型文件,凭借DeepStream和TensorRT将训练好的轻量化目标检测模型部署到Jetson AGX Xavier嵌入式开发板上,快速搭建起智能视频监控系统,实时接收至少一个摄像头基于RTSP协议传输的多路视频流,DeepStream以管道流的方式对多路视频流实时进行目标检测,将经过目标检测的视频流进行编码压缩后,通过RTSP协议以无线网络的方式推送至结果展示模块进行展示。
本发明实施例提供的基于DeepStream的监控视频分析方法,通过DeepStream和TensorRT将轻量化目标检测模型部署到Jetson AGX Xavier嵌入式开发板上,快速搭建起智能视频监控分析系统,实时分析多路视频流中的信息。
在一些实施例中,轻量化目标检测模型为改进的VOLOv5s模型,改进的VOLOv5s模型通过以下步骤获取:
使用深度可分离卷积模块替换VOLOv5s骨干网络中的卷积模块,使用GhostBottleneck模块替换VOLOv5s颈部网络中的Bottleneck模块,并对替换完成的颈部网络进行通道剪枝。
具体的,本发明实施例中的轻量化目标检测模型,可以通过对VOLOv5s模型进行改进得到。首先,用深度可分离卷积替换YOLOv5s骨干网络中的卷积操作,进行空间特征与通道特征的解耦,提升了速度与精度。用Ghost Bottleneck模块替换VOLOv5s颈部网络中的Bottleneck模块中的卷积操作,用计算代价更小的线性变换代替标准的卷积操作。为了进一步减小推理计算的开销,对模型的颈部做通道剪枝。
在一些实施例中,对替换完成的颈部网络进行通道剪枝,包括:
在第一次模型训练过程中,基于预设的数据集,采用余弦退火方式周期性地改变学习率,直至模型收敛至预设的期望位置;
在第二次模型训练过程中,对完成第一次模型训练过程的替换完成的颈部网络的通道按照预设比例进行裁剪,控制数据集和超参数不变,进行微调训练,完成通道剪枝。
具体的,通道剪枝需要对模型训练两次,首先用自建的数据集对模型进行常规训练,在训练过程中使用余弦退火算法降低学习率,周期性地改变学习率,使得模型能够顺利收敛到正确的期望位置,完成第一次模型训练过程。之后对训练好的网络的颈部通道按比例裁剪,最后控制数据集和超参数不变,进行微调训练,完成第二次模型训练过程。微调训练后的算法即为轻量化目标检测模型。
在一些实施例中,DeepStream以管道流的方式对多路视频流进行目标检测,包括:
DeepStream的视频流采集插件将接收到的多路视频流传输到DeepStream的编码解码插件,编码解码插件包括用于编码的第一专用芯片和用于解码的第二专用芯片;
将经过编码解码插件的硬件编码以及显存缓冲后的多路视频流,传输至基于TensorRT的推理插件,通过基于TensorRT的推理插件将轻量化目标检测模型的权重文件转化为TensorRT支持的推理引擎;
基于TensorRT支持的推理引擎获得多路视频流的视频结构化信息和目标检测结果;
将视频结构化信息作为推理结果,并通过DeepStream的第一输出端以文本形式输出;
基于目标检测结果中目标的位置信息,以边界框的形式绘制到视频对应的位置,并将多路视频拼接成一个画面,经过编码解码插件的硬件编码以及显存缓冲后,通过DeepStream的第二输出端输出。
具体的,结合图2中DeepStream处理管道流的结构,DeepStream以管道流的方式对多路视频流进行目标检测,具体包括:视频流采集插件将接收到的至少一个摄像头基于RTSP协议传输的多路视频流传输到DeepStream的编码解码插件。编码解码插件包括用于编码的第一专用芯片和用于解码的第二专用芯片,多路视频流经过编码解码插件的硬件编码以及显存缓冲后,传输至基于TensorRT的推理插件。通过基于TensorRT的推理插件将轻量化目标检测模型的权重文件转化为TensorRT支持的推理引擎,获得多路视频流的视频结构化信息和目标检测结果。视频结构化信息作为基于TensorRT的推理插件的推理结果,并通过第一输出端以文本形式输出。目标检测结果中包含目标的位置信息(例如坐标数值),画面叠加插件和画面拼接插件以边界框的形式绘制到视频对应的位置,并将多路视频拼接成一个画面,经过编码解码插件的硬件编码以及显存缓冲后,通过第二输出端输出。
在一些实施例中,Jetson AGX Xavier嵌入式开发板的CPU和GPU共享一个高速内存,显存缓冲的过程在该高速内存中进行。
在一些实施例中,基于TensorRT支持的推理引擎获得多路视频流的目标检测结果,包括:
基于TensorRT支持的推理引擎逐帧进行推理,当轻量化目标检测模型在当前视频帧中检测到目标时,输出目标的类别和位置信息作为目标检测结果;
当轻量化目标检测模型未在当前视频帧中检测到目标时,进行下一视频帧的检测。
具体的,基于TensorRT的推理插件是DeepStream的核心,完成轻量化目标检测模型的训练和转化后,摄像头采集的视频会逐帧提供给TensorRT进行推理,当轻量化目标检测模型在当前视频帧中检测到目标时,模型输出目标的类别和位置信息,作为目标检测结果,由DeepStream的后续插件绘制和拼接出带有边界框的视频,以便生成带有告警信息的视频;如果未在当前视频帧中检测到目标,则进行下一视频帧的检测。该过程不断重复,实时输出目标检测结果,以便工作人员实时查看告警信息。
下面以一个具体的实施例对本发明提供的技术方案进一步进行说明,图4是本发明实施例提供的基于DeepStream的监控视频分析方法的流程示意图之二,如图4所示,先进行模型的改进、训练和转化。摄像头采集视频,逐帧提供给TensorRT做推理,当模型在当前帧中检测到目标时,输出目标的类别和位置信息,由DeepStream的后续插件绘制和拼接出带有告警信息的视频。当模型没有在当前视频帧中检测出目标时,迭代地检测下一帧。重复整个检测和绘制结果的过程,实时地输出检测结果,工作人员可以查看实时的告警信息。
在此需要说明的是,本发明实施例提供的上述基于DeepStream的监控视频分析系统,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,两者可相互对应参照。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于DeepStream的监控视频分析方法,其特征在于,包括:
在Jetson AGX Xavier嵌入式开发板上安装DeepStream,所述DeepStream自带基于TensorRT的推理插件,所述基于TensorRT的推理插件用于转换模型文件;
将训练好的轻量化目标检测模型部署到所述DeepSteam中;
将至少一个摄像头基于RTSP协议传输的多路视频流输入至所述DeepStream的视频流采集插件,所述DeepStream以管道流的方式对所述多路视频流进行目标检测;
将处理后的视频流进行编码压缩,通过RTSP协议以无线网络的方式推送至结果展示模块进行展示。
2.根据权利要求1所述的基于DeepStream的监控视频分析方法,其特征在于,所述轻量化目标检测模型为改进的VOLOv5s模型,所述改进的VOLOv5s模型通过以下步骤获取:
使用深度可分离卷积模块替换VOLOv5s骨干网络中的卷积模块,使用GhostBottleneck模块替换VOLOv5s颈部网络中的Bottleneck模块,并对替换完成的颈部网络进行通道剪枝。
3.根据权利要求2所述的基于DeepStream的监控视频分析方法,其特征在于,所述对替换完成的颈部网络进行通道剪枝,包括:
在第一次模型训练过程中,基于预设的数据集,采用余弦退火方式周期性地改变学习率,直至模型收敛至预设的期望位置;
在第二次模型训练过程中,对完成所述第一次模型训练过程的所述替换完成的颈部网络的通道按照预设比例进行裁剪,控制数据集和超参数不变,进行微调训练,完成所述通道剪枝。
4.根据权利要求1所述的基于DeepStream的监控视频分析方法,其特征在于,所述DeepStream以管道流的方式对所述多路视频流进行目标检测,包括:
所述DeepStream的视频流采集插件将接收到的所述多路视频流传输到所述DeepStream的编码解码插件,所述编码解码插件包括用于编码的第一专用芯片和用于解码的第二专用芯片;
将经过所述编码解码插件的硬件编码以及显存缓冲后的所述多路视频流,传输至所述基于TensorRT的推理插件,通过所述基于TensorRT的推理插件将所述轻量化目标检测模型的权重文件转化为TensorRT支持的推理引擎;
基于所述TensorRT支持的推理引擎获得所述多路视频流的视频结构化信息和目标检测结果;
将所述视频结构化信息作为推理结果,并通过所述DeepStream的第一输出端以文本形式输出;
基于所述目标检测结果中目标的位置信息,以边界框的形式绘制到视频对应的位置,并将多路视频拼接成一个画面,经过所述编码解码插件的硬件编码以及显存缓冲后,通过所述DeepStream的第二输出端输出。
5.根据权利要求4所述的基于DeepStream的监控视频分析方法,其特征在于,基于所述TensorRT支持的推理引擎获得所述多路视频流的目标检测结果,包括:
基于所述TensorRT支持的推理引擎逐帧进行推理,当所述轻量化目标检测模型在当前视频帧中检测到目标时,输出所述目标的类别和位置信息作为目标检测结果;
当所述轻量化目标检测模型未在当前视频帧中检测到目标时,进行下一视频帧的检测。
6.根据权利要求4所述的基于DeepStream的监控视频分析方法,其特征在于,所述Jetson AGX Xavier嵌入式开发板的CPU和GPU共享一个高速内存,所述显存缓冲的过程在所述高速内存中进行。
7.一种基于DeepStream的监控视频分析系统,其特征在于,包括:
至少一个摄像头,用于采集多路视频流,并基于RTSP协议传输的多路视频流传输至嵌入式设备;
嵌入式设备,采用Jetson AGX Xavier嵌入式开发板,所述Jetson AGX Xavier嵌入式开发板上安装有DeepStream,所述DeepStream自带基于TensorRT的推理插件,所述基于TensorRT的推理插件用于转换模型文件,所述Jetson AGX Xavier嵌入式开发板上部署有训练好的轻量化目标检测模型,所述轻量化目标检测模型用于对所述至少一个摄像头传输的多路视频流进行目标检测;
结果展示模块,用于接收所述嵌入式设备基于RTSP协议传输的所述多路视频流的目标检测结果,显示带有边界框的视频。
8.根据权利要求7所述的基于DeepStream的监控视频分析系统,其特征在于,所述DeepStream以管道流的方式对所述多路视频流进行目标检测,所述DeepStream的处理管道流结构包括:
视频流采集插件,用于采集所述至少一个摄像头基于RTSP协议传输的多路视频流;
编码解码插件,包括用于编码的第一专用芯片和用于解码的第二专用芯片,所述第一专用芯片用于对视频流进行硬件编码,所述第二专用芯片用于对视频流进行硬件解码;
基于TensorRT的推理插件,用于将所述轻量化目标检测模型的权重文件转化为TensorRT支持的推理引擎,基于所述TensorRT支持的推理引擎获得所述多路视频流的视频结构化信息和目标检测结果;
第一输出端,用于将所述视频结构化信息以文本形式输出;
画面叠加插件和画面拼接插件,用于基于所述目标检测结果中目标的位置信息,以边界框的形式绘制到视频对应的位置,并将多路视频拼接成一个画面;
第二输出端,用于输出所述画面叠加插件和所述画面拼接插件处理后的视频。
9.根据权利要求8所述的基于DeepStream的监控视频分析系统,其特征在于,所述轻量化目标检测模型为改进的VOLOv5s模型,所述改进的VOLOv5s模型通过以下步骤获取:
使用深度可分离卷积模块替换VOLOv5s骨干网络中的卷积模块,使用GhostBottleneck模块替换VOLOv5s颈部网络中的Bottleneck模块,并对替换完成的颈部网络进行通道剪枝。
10.根据权利要求9所述的基于DeepStream的监控视频分析系统,其特征在于,所述对所述替换完成的颈部网络进行通道剪枝,包括:
在第一次模型训练过程中,基于预设的数据集,采用余弦退火方式周期性地改变学习率,直至模型收敛至预设的期望位置;
在第二次模型训练过程中,对完成所述第一次模型训练过程的所述替换完成的颈部网络的通道按照预设比例进行裁剪,控制数据集和超参数不变,进行微调训练,完成所述通道剪枝。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310415455.9A CN116824480A (zh) | 2023-04-18 | 2023-04-18 | 基于DeepStream的监控视频分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310415455.9A CN116824480A (zh) | 2023-04-18 | 2023-04-18 | 基于DeepStream的监控视频分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116824480A true CN116824480A (zh) | 2023-09-29 |
Family
ID=88140041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310415455.9A Pending CN116824480A (zh) | 2023-04-18 | 2023-04-18 | 基于DeepStream的监控视频分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824480A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372846A (zh) * | 2023-10-17 | 2024-01-09 | 湖南苏科智能科技有限公司 | 基于嵌入式平台的目标检测方法、平台、装置及设备 |
-
2023
- 2023-04-18 CN CN202310415455.9A patent/CN116824480A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372846A (zh) * | 2023-10-17 | 2024-01-09 | 湖南苏科智能科技有限公司 | 基于嵌入式平台的目标检测方法、平台、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102752574B (zh) | 一种视频监控系统及方法 | |
CN104137146B (zh) | 用于利用前景对象分割的噪声过滤的视频编码的方法和系统 | |
CN108683877B (zh) | 基于Spark的分布式海量视频解析系统 | |
US11151386B1 (en) | Automated identification and tagging of video content | |
CN112804188B (zh) | 一种可伸缩视觉计算系统 | |
CN112565777B (zh) | 基于深度学习模型视频数据传输方法、系统、介质及设备 | |
US20230093631A1 (en) | Video search device and network surveillance camera system including same | |
CN112149551A (zh) | 一种基于嵌入式设备和深度学习的安全帽识别方法 | |
CN116824480A (zh) | 基于DeepStream的监控视频分析方法及系统 | |
CN113887318A (zh) | 一种基于边缘计算的嵌入式电力违规行为检测方法及系统 | |
CN113516102A (zh) | 基于视频的深度学习抛物行为检测方法 | |
CN115019462A (zh) | 视频处理方法、装置、存储介质及设备 | |
CN118245854A (zh) | 输电线路检测方法、装置、设备以及存储介质 | |
Li et al. | RETRACTED ARTICLE: A City Monitoring System Based on Real-Time Communication Interaction Module and Intelligent Visual Information Collection System | |
WO2024125281A1 (zh) | 一种车辆图像数据处理方法以及装置 | |
KR20220120400A (ko) | 엣지 인공지능의 표적 추론 방법 | |
CN116248861A (zh) | 一种智能视频检测方法、系统及装置 | |
KR102456189B1 (ko) | 클라우드 엣지 기반의 영상 분석 시스템 | |
KR102438501B1 (ko) | 프레임 최적화를 이용한 고화질 실시간 관제 서비스 제공 시스템 | |
Hu et al. | MmFilter: Language-guided video analytics at the edge | |
CN113111215A (zh) | 一种用户行为分析方法、装置、电子设备和存储介质 | |
CN109886234B (zh) | 目标检测方法、装置、系统、电子设备、存储介质 | |
US20200380267A1 (en) | Object trajectory augmentation on a newly displayed video stream | |
KR102448096B1 (ko) | Ptp를 이용한 지능형 cctv 동기화 시스템 및 방법 | |
CN113411204B (zh) | 电信接入网设施故障检测方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |