CN113469117A

CN113469117A - 一种多路视频实时检测方法及系统

Info

Publication number: CN113469117A
Application number: CN202110819272.4A
Authority: CN
Inventors: 靳敏; 廖逍; 谢可; 邱镇; 刘迪; 王兴涛; 白景坡; 张晓航; 徐凡; 卢大玮; 李小宁; 李文璞
Original assignee: State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-01

Abstract

本发明公开了一种多路视频实时检测方法及系统，包括：采集变电站内各个摄像头的实时数据；对所述实时数据进行数据抽取，获得目标采集数据；将所述目标采集数据输入到目标检测模型，获得检测图像，所述检测图像包括检测类型，以及与所述检测类型相匹配的检测框位置信息；对所述检测图像进行编码，并将编码后的图像进行实时输出，得到输出图像。本发明通过模型处理以及实时推流的方式提升了多路视频检测的实时性和稳定性，有效保障了变电运维工作的安全稳定。

Description

一种多路视频实时检测方法及系统

技术领域

本发明涉及视频处理技术领域，特别是涉及一种多路视频实时检测方法及系统。

背景技术

变电运维工作是变电站安全稳定运行的重要保障，随着电网建设的不断推进，变电站的数量也在迅速增长。变电运维工作面临着工作量激增与人员短缺的突出矛盾。此外，传统的人工巡检方式存在效率低、危险性高、随意性大等问题，难以满足变电运维要求。

近年来，人工智能技术与计算机技术迅猛发展，建设智慧变电站已经成为解决传统人工巡检缺陷的重要措施，基本建成了满足采集监测、业务管理、分析指挥等多层次需求的信息化应用支撑体系，一定程度上提升了变电站智能化水平。但是，目前智慧变电站中变电设备与运维作业视频数据通过网络统一传输到后台服务器分析处理，增加了通信及数据集中管理的成本压力，降低了数据分析的时效性和即时性，图像识别和处理效率大幅下降，导致智慧运维实时性较差不能及时发现变电设备缺陷和作业违规等问题。

发明内容

针对于上述问题，本发明提供一种多路视频实时检测方法及系统，提升了视频检测的实时性和稳定性，有效保障了变电运维工作的安全稳定。

为了实现上述目的，本发明提供了如下技术方案：

一种多路视频实时检测方法，包括：

采集变电站内各个摄像头的实时数据；

对所述实时数据进行数据抽取，获得目标采集数据；

将所述目标采集数据输入到目标检测模型，获得检测图像，所述检测图像包括检测类型，以及与所述检测类型相匹配的检测框位置信息；

对所述检测图像进行编码，并将编码后的图像进行实时输出，得到输出图像。

可选地，所述对所述实时数据进行数据抽取，获得目标采集数据，包括：

按照预设间隔视频帧数量，对所述实时数据进行视频帧抽取，将抽取后的视频帧确定为目标采集数据。

可选地，所述方法还包括：

获取训练样本，所述训练样本为标注有检测类型和检测框位置信息的视频帧图像；

对所述训练样本进行神经网络训练，获得目标检测模型。

可选地，所述对所述训练样本进行神经网络训练，获得目标检测模型，包括：

对所述训练样本进行预处理，获得预处理后的样本，所述预处理包括数据增强、数据标准化处理和样本对抗处理；

构建神经网络架构，并基于所述神经网络架构对所述预处理后的样本进行训练，得到目标检测模型。

可选地，所述构建神经网络架构，包括：

在所述主干网络和输出层之间插入颈部网络，构成神经网络架构，其中，所述颈部网络用于将不同尺寸的特征图连接至全连接层，还用于整合不同层级的特征自底向上传达强定位特征以及自顶向下传达强语义特征；

对所述神经网络架构进行模型量化处理，以使得通过所述神经网络架构训练得到的目标检测模型具有统一格式的网络模型文件。

一种多路视频实时检测系统，包括：

采集单元，用于采集变电站内各个摄像头的实时数据；

抽取单元，用于对所述实时数据进行数据抽取，获得目标采集数据；

模型处理单元，用于将所述目标采集数据输入到目标检测模型，获得检测图像，所述检测图像包括检测类型，以及与所述检测类型相匹配的检测框位置信息；

编码单元，用于对所述检测图像进行编码，并将编码后的图像进行实时输出，得到输出图像。

可选地，所述抽取单元具体用于：

可选地，所述系统还包括：

样本获取单元，用于获取训练样本，所述训练样本为标注有检测类型和检测框位置信息的视频帧图像；

训练单元，用于对所述训练样本进行神经网络训练，获得目标检测模型。

可选地，所述训练单元包括：

预处理子单元，用于对所述训练样本进行预处理，获得预处理后的样本，所述预处理包括数据增强、数据标准化处理和样本对抗处理；

构建子单元，用于构建神经网络架构，并基于所述神经网络架构对所述预处理后的样本进行训练，得到目标检测模型。

可选地，所述构建子单元具体用于：

相较于现有技术，本发明提供了一种多路视频实时检测方法及系统，包括：采集变电站内各个摄像头的实时数据；对所述实时数据进行数据抽取，获得目标采集数据；将所述目标采集数据输入到目标检测模型，获得检测图像，所述检测图像包括检测类型，以及与所述检测类型相匹配的检测框位置信息；对所述检测图像进行编码，并将编码后的图像进行实时输出，得到输出图像。本发明通过模型处理以及实时推流的方式提升了多路视频检测的实时性和稳定性，有效保障了变电运维工作的安全稳定。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种多路视频检测方法的流程示意图；

图2为本发明实施例提供的一种应用场景的示意图；

图3为本发明实施例提供的一种YOLOv4的主要算法架构与优化策略的示意图；

图4为本发明实施例提供的一种推流优化策略流程示意图；

图5为本发明实施例提供的一种某某变电站多路视频实时检测界面图；

图6为本发明实施例提供的一种多路视频检测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明实施例中提供了一种多路视频实时检测方法，参见图1，该方法可以包括以下步骤：

S101、采集变电站内各个摄像头的实时数据。

由于在变电站内不同位置设置了对应的摄像头，因此，需要采集变电站内各个摄像头的实时数据，其中，采集的数据主要是针对运维人员行为与变电设备运行产生的实时数据。

S102、对所述实时数据进行数据抽取，获得目标采集数据。

视频流是由一帧一帧的视频帧组成，如果逐帧对视频流进行处理会使得处理资源占用较大，并且相邻视频帧表示的内容变化不大，逐帧处理还容易造成资源浪费，因此，本发明实施例中会对采集到的实时数据进行抽取，获得目标采集数据，然后对该目标采集数据进行模型处理。

在一种实施方式中可以通过镜头切换点提取对应的视频帧作为目标采集数据。在另一种实施方式中也可以隔一定的视频帧进行提取，即所述对所述实时数据进行数据抽取，获得目标采集数据，包括：

例如，每隔5帧抽取一帧数据作为目标采集数据，输入到后续的目标检测模型。

S103、将目标采集数据输入到目标检测模型，获得检测图像。

在本发明实施例中是通过目标检测模型自动识别目标采集数据中的检测信息，从而得到检测图像。其中，主要是针对相应类型和与对应类型匹配的信息坐标进行检测，即得到的检测图像中包括检测类型，以及与检测类型相匹配的检测框位置信息。

对应的，目标检测模型是基于神经网络训练得到的，例如可以采用目标检测网络YOLOv4，本发明将在后续的实施例中对这一目标检测网络进行详细说明。

S104、对所述检测图像进行编码，并将编码后的图像进行实时输出，得到输出图像。

在得到了检测图像后可以进行H264编码，将H264码流加入码流队列并进行优化完成RTSP流的推送进行输出，得到的输出图像可以显示在监控屏或者具有显示功能的电子设备上。

在本发明实施例中提供了一种多路视频实时检测方法，包括：采集变电站内各个摄像头的实时数据；对所述实时数据进行数据抽取，获得目标采集数据；将所述目标采集数据输入到目标检测模型，获得检测图像，所述检测图像包括检测类型，以及与所述检测类型相匹配的检测框位置信息；对所述检测图像进行编码，并将编码后的图像进行实时输出，得到输出图像。本发明通过模型处理以及实时推流的方式提升了多路视频检测的实时性和稳定性，有效保障了变电运维工作的安全稳定。

参见图2，其示出了本发明实施例的一种应用场景的示意图。该多帧视频检测方法是采用YOLOv4目标检测算法对变电站内的人员作业行为以及设备确定等多种类型进行实时检测；此外，采用量化模型等方法提升检测速度，保证视频检测的实用性。

首先，变电站内不同位置的摄像头对运维人员行为与变电站进行实时数据采集，每5帧抽取一帧数据作为YOLOv4 int8 bmodel模型的输入。

在本发明实施例中采用YOLOv4目标检测模型对变电站内的人员作业行为以及设备缺陷进行检测，其中，检测类型主要有表盘模糊、表盘破损、外壳破损、绝缘子破裂、部件表面油污、地面油污、金属锈蚀、油封破损、箱门闭合异常、挂空悬浮物、鸟巢、门窗墙地面损坏、盖板破损、盖板缺失、构架爬梯未上锁、表面污秽、越线闯入、未穿安全帽、未穿工装、未佩戴安全绳、吸烟、人员倒地、室内地面积水、小动物闯入、表计读数异常、硅胶变色、压板合和压板分等。

在本发明实施例的一种实施方式中，还提供了一种生成目标检测模型的方法，该方法包括：

对所述训练样本进行神经网络训练，获得目标检测模型。

在一种具体的实现方式中，为了能够提升模型的检测速度，保证视频检测的实用性，其中，所述对所述训练样本进行神经网络训练，获得目标检测模型，包括：对所述训练样本进行预处理，获得预处理后的样本，所述预处理包括数据增强、数据标准化处理和样本对抗处理；构建神经网络架构，并基于所述神经网络架构对所述预处理后的样本进行训练，得到目标检测模型。

进一步地，构建神经网络架构，包括：在所述主干网络和输出层之间插入颈部网络，构成神经网络架构，其中，所述颈部网络用于将不同尺寸的特征图连接至全连接层，还用于整合不同层级的特征自底向上传达强定位特征以及自顶向下传达强语义特征；对所述神经网络架构进行模型量化处理，以使得通过所述神经网络架构训练得到的目标检测模型具有统一格式的网络模型文件。

参见图3，其示出了本发明实施例提供的一种YOLOv4的主要算法架构与优化策略的示意图。

YOLOv4训练时对输入端(Input)进行改进，使其在单张图像处理器(GraphicsProcessing Unit，GPU)也有较好的策略。在本实施例中采用的策略主要由数据增强Mosaic、跨微批量标准化CmBN以及SAT自对抗训练。YOLOv4基于跨阶段局部网络(CrossStage Paritial Network，CSPNet)将主干特征提取网络从Darknet53改为CSPDarknet53。CSPDarknet53利用CSPNet将不同位置的梯度进行交叉混合，有效缓解需要大量推理计算的问题。YOLOv4采用Mish激活函数对Backbone中的激活函数进行优化。此外，YOLOv4利用Dropblock缓解过拟合，增强网络鲁棒性。其中，Darknet53是YOLOv3网络中用于提取图像特征的网络，CSP Darknet53是YOLOv4中基于跨阶段局部网络CSPNet将Darknet53改进为CSPDarknet53。

在目标检测模型中为了能够更好地利用图像特征，通常会在主干网络(Backbone)和输出层之间插入了Neck层，Neck层相当于颈部网络。YOLOv4的颈部结构主要采用了SPP模块以及FPN+PAN的方法。SPP-Net(Spatial Pyramid Pooling Networks)主要是用来解决不同尺寸的特征图如何连接全连接层的。PANet(Path Aggregation Network)可以整合不同层级的特征自底向上传达强定位特征，FPN(Feature Pyramid Net-works)自顶向下传达强语义特征。YOLOv4将两者结合从不同的主干层对不同的检测层进行参数聚合，有效融合了各个层级的信息。

为了便于训练后的模型的应用，需要对训练好的模型进行统一的格式转换，在本发明实施例的一种可能的实现方式中可以采用软件包BMNNSDK进行模型量化部署，主要包含离线编译和在线推理。

离线编译的目的是将在不同深度学习框架训练好的模型同一转换为该框架定义的模型如bmodel，可以通过工具Quantization-Tools实现。Quantization-Tools是一种网络模型量化工具，它解析各种已训练好的32bit浮点网络模型，生成bit的定点网络模型，该8bit定点网络模型可用于比特大陆AI运算平台。在该运算平台上，网络输入、输出、系数都用8bit来表示，从而在保证网络精度的基础上，大幅减少功耗，内存，传输延迟，大幅提高运算速度。

具体的，Quantization-Tool主要由三部分功能模块组成：Parse-Tools、Calibration-Tools以及Uframwork。

其中，Parse-Tools模块主要功能为分析各深度学习架构下已经训练好的网络模型，生成统一格式的网络模型文件Umodel，支持的深度学习框架包括：caffe、tensorflow、pytorch、mxnet。

Calibration-Tools模块主要功能为为分析float32的Umodel文件，基于熵损失最小原则，网络系数定点化成8bit，最后将网络模型保存成int8格式的Umodel。

Uframework模块为自定义的深度学习框架，集合了各种开源深度学习框架的运算功能，主要包括：作为基础运算平台，为定点化时提供基础运算；作为验证平台，可以验证fp32，int8格式的网络模型的accuracy；作为接口，通过bmnetu，可以将int8 umodel编译成可在比特AI运算平台上运行的int8 bmodel。

模型在线推理主要是转化后的bmodel接收数据并利用比特大陆计算单元TPU进行推理计算的过程。bmodel实际是一系列TPU指令集合，通过使用BMNNSDK运行接口将bmodel指令集加载到TPU上执行。完成bmodel加载后，使用运行时的接口将输入张量发送给TPU并取出计算后得到的输出张量即完成模型的在线推理。经过部署量化后的YOLOv4 int8模型较量化前相比检测速度由120ms一张提升到了30ms一张，有效提高了检测速度，极大地提升了人员作业与设备缺陷的实时性。

本发明将目标检测模型得到的包括有目标类型以及对应的检测框坐标的检测图像进行画框标识并进行H264编码；然后将H264码流加入码流队列并进行优化完成RTSP流的推送。

例如，可以基于Live555流媒体服务器进行RTSP流的传输，通过RTSP完成进行多路视频流的推送。其中，Live555流媒体服务器是一种开源的流媒体C++框架，支持RTSP、RTCP/RTP等多种流媒体传输协议，同时该框架可以对MPEG、amr以及DV等多种数据格式进行接收流化及处理。RTSP实时流传输协议是TCP/IP协议中的一个应用层协议，该协议规定了一对多应用程序如何有效地在IP网络上传输流媒体数据。在体系结构上RTSP位于RTP和RTCP之上，能够使用TCP或UDP协议进行数据的传输，本质上是一个网络控制协议可用于控制流媒体服务器。

本发明实施例中对摄像头采集的帧数据进行画框标识，标出人员违规行为与设备缺陷，并将识别后的帧数据进行H264编码。此外，将H264码流加入码流队列并对推流策略进行优化，保证视频推流的稳定性与实施性。

原始的Live555流媒体框架针对完成识别编码后的H264码流直接存入队列并不进行处理，只有在收到RTSP流的接收请求时再从队列释放H264码流并进行解码展示。这种处理方式使得在没有RTSP流接收请求时队列会一直存入H264码流数据造成流媒体服务器的内存溢出，且当平台端开始接收RTSP流时会从队列最先存入的码流进行解码展示，造成一定的延时。针对以上问题，本发明对RTSP推流策略进行优化，解决内存溢出以及延时问题，优化过程如图4所示。

首先，采集摄像头数据并每5帧抽取一帧，基于YOLOv4目标检测模型进行检测并根据检测结果进行画框识别；然后，对识别后的帧数据进行H264编码，并将H264码流存入队列，若码流队列长度大于1则释放队首元素，使得码流队列始终保存当前最新帧；最后，平台端接收RTSP流并进行解码展示。该策略有效解决了队列内存溢出的问题，降低了视频播放延时，提高了视频检测的实时性。

本发明基于Live555流媒体框架对多路视频进行RTSP推流，RTSP流地址如rtsp://192.168.1.11:1554所示，其中，192.168.1.11为推流端的Ip地址，1554为端口，不同的视频流端口不同。平台端通过接收RTSP流地址对变电站内人员违规行为与设备缺陷进行实时识别并展示。

基于YOLOv4的多路视频实时检测装置已经在大连港东变电站成功部署运行。该变电站内运维人员可登录平台端查看多路视频的实时检测情况，若检测出违规人员作业与设备缺陷会及时进行报警提示，提醒运维人员尽快处理，极大地保障了变电站的运维安全。例如，某某变电站内多路视频实时检测情况如图5所示。

本发明实施例中包括了一种基于YOLOv4的多路视频实时检测方法，通过多个摄像头对变电站进行全方位多角度的监控，基于目标检测网络YOLOv4对设备缺陷以及人员行为进行实时识别并进行缺陷违规预警。此外，通过量化压缩模型以及优化RTSP推流方法显著提升了多路视频检测的实时性和稳定性，有效保障了变电运维工作的安全稳定。

基于前述实施例，在本发明实施例中还提供了一种多路视频实时检测系统，参见图6，包括：

采集单元10，用于采集变电站内各个摄像头的实时数据；

抽取单元20，用于对所述实时数据进行数据抽取，获得目标采集数据；

模型处理单元30，用于将所述目标采集数据输入到目标检测模型，获得检测图像，所述检测图像包括检测类型，以及与所述检测类型相匹配的检测框位置信息；

编码单元40，用于对所述检测图像进行编码，并将编码后的图像进行实时输出，得到输出图像。

可选地，所述抽取单元具体用于：

可选地，所述系统还包括：

可选地，所述训练单元包括：

可选地，所述构建子单元具体用于：

在本发明实施例中提供了一种多路视频实时检测系统，包括：采集单元采集变电站内各个摄像头的实时数据；抽取单元对所述实时数据进行数据抽取，获得目标采集数据；模型处理单元将所述目标采集数据输入到目标检测模型，获得检测图像，所述检测图像包括检测类型，以及与所述检测类型相匹配的检测框位置信息；编码单元对所述检测图像进行编码，并将编码后的图像进行实时输出，得到输出图像。本发明通过模型处理以及实时推流的方式提升了多路视频检测的实时性和稳定性，有效保障了变电运维工作的安全稳定。

基于前述实施例，本申请的实施例提供一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如上任一项的多路视频实时检测方法的步骤。

本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现的多路视频实时检测方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多路视频实时检测方法，其特征在于，包括：

采集变电站内各个摄像头的实时数据；

对所述实时数据进行数据抽取，获得目标采集数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述实时数据进行数据抽取，获得目标采集数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述训练样本进行神经网络训练，获得目标检测模型。

4.根据权利要求3所述的方法，其特征在于，所述对所述训练样本进行神经网络训练，获得目标检测模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述构建神经网络架构，包括：

6.一种多路视频实时检测系统，其特征在于，包括：

采集单元，用于采集变电站内各个摄像头的实时数据；

7.根据权利要求6所述的系统，其特征在于，所述抽取单元具体用于：

8.根据权利要求6所述的系统，其特征在于，所述系统还包括：

9.根据权利要求8所述的方法，其特征在于，所述训练单元包括：

10.根据权利要求9所述的系统，其特征在于，所述构建子单元具体用于：