CN115830497A

CN115830497A - 一种变电站多路视频实时目标检测方法及系统

Info

Publication number: CN115830497A
Application number: CN202211482277.3A
Authority: CN
Inventors: 张传友; 王亚菲; 徐攀; 李健; 邵光亭; 邓燕; 刘维栋; 吴晓东; 朱琳; 付崇光
Original assignee: State Grid Intelligent Technology Co Ltd
Current assignee: State Grid Intelligent Technology Co Ltd
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-03-21

Abstract

本发明公开了一种变电站多路视频实时目标检测方法及系统，包括：获取待检测的变电站多路视频流数据；调用硬件环境参数接口，获取当前硬件环境参数，判断当前硬件环境；基于当前硬件环境，调用相关硬件环境下的接口函数，对获取的多路视频流数据进行解码；将解码后的多路视频流进行合并，然后输入至训练好的目标检测模型，输出每一路的目标检测结果。本发明可以同时适配不同的硬件环境或硬件设施，在GPU环境或CPU环境下皆可实现多路视频实时目标检测，无需改变算法模型。

Description

一种变电站多路视频实时目标检测方法及系统

技术领域

本发明涉及目标检测技术领域，尤其涉及一种变电站多路视频实时目标检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

基于目标检测的实时视频检测技术，主要是从图像或视频中检测并分类出人们感兴趣的特定对象。可以将该技术应用于对变电站的远程可视化监控过程中，通过实时视频检测技术对于未穿工作服、未戴安全帽或者挂空悬浮物等目标进行检测并告警。

目前的目标检测模型多依赖于神经网络模型，需要大量的算力支撑，现有技术方案多是在NVIDIA的GPU下，或者在intel的CPU下进行模型部署，通过增大算法的方式来增加多路视频实时目标检测的需求；但是由于两者在架构参数以及处理算法上的不一致，导致路线之间的隔离性较大，不可跨硬件部署。

然而不同于学术研究，在实际应用中各种不同的需求场景都会出现。当前基于视频的实时目标检测技术多是基于特定的硬件部署实施，或基于特定的模型框架开发，不能灵活应对不同算法变更需求以及不同硬件环境的需求。

发明内容

为了解决上述问题，本发明提出了一种变电站多路视频实时目标检测方法及系统，能在不变更算法模型的情况下，灵活部署在多种应用场景或不同硬件环境下，最大化满足不同用户的需求。

在一些实施方式中，采用如下技术方案：

一种变电站多路视频实时目标检测方法，包括：

获取待检测的变电站多路视频流数据；

调用硬件环境参数接口，获取当前硬件环境参数，判断当前硬件环境；

基于当前硬件环境，调用相关硬件环境下的接口函数，对获取的多路视频流数据进行解码；

将解码后的多路视频流进行合并，然后输入至训练好的目标检测模型，输出每一路的目标检测结果。

作为进一步地方案，获取当前硬件环境参数，判断当前硬件环境，所述当前硬件环境包括CPU环境或GPU环境。

作为进一步地方案，判断出当前硬件环境之后，还包括：基于当前硬件环境下的参数配置接口，对每一路视频流的检测目标进行配置。

作为进一步地方案，基于每一路配置的检测目标，对于目标检测模型的每一路目标检测结果进行筛选，仅保留各路所配置的检测目标的检测结果并输出。

作为进一步地方案，所述目标检测模型选用深度神经网络模型，并基于当前硬件环境下的模型压缩方法，对目标检测模型进行压缩。

作为进一步地方案，所述对目标检测模型进行压缩的过程包括：层间融合或张量融合，其中层间融合包括横向合并和纵向合并。

作为进一步地方案，对多路视频流数据的解码、合并以及目标检测模型的处理和每一路视频流检测结果的输出，均是基于gstreamer框架实现。

在另一些实施方式中，采用如下技术方案：

一种变电站多路视频实时目标检测系统，包括：

数据获取模块，用于获取待检测的变电站多路视频流数据；

硬件环境判断模块，用于调用硬件环境参数接口，获取当前硬件环境参数，判断当前硬件环境；

数据解码模块，用于基于当前硬件环境，调用相关硬件环境下的接口函数，对获取的多路视频流数据进行解码；

目标检测模块，用于将解码后的多路视频流进行合并，然后输入至训练好的目标检测模型，输出每一路的目标检测结果。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和存储器，处理器用于实现各指令；存储器用于存储多条指令，所述指令适于由处理器加载并执行上述的变电站多路视频实时目标检测方法。

在另一些实施方式中，采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的变电站多路视频实时目标检测方法。

与现有技术相比，本发明的有益效果是：

(1)本发明提出了一种能够同时适配不同硬件环境的变电站多路视频目标检测方法，可以同时适配不同的硬件环境或硬件设施，在GPU环境或CPU环境下皆可实现多路视频实时目标检测，无需改变算法模型；基于不同的硬件环境，采用与相应目标环境相适配的目标检测方法，包括：视频解码、视频流的合并、模型压缩方法、目标检测及输出过程等，同时可以对每一路视频流分别输出不同的目标检测结果，可以满足多路视频检测结果之间的独立性；同时能够大幅降低目标检测算法对于硬件内存及性能的要求，提高目标检测效率。

(2)本发明通过对目标检测模型进行压缩，减少了计算资源的消耗，使得整个目标检测模型结构更小、计算量更小、处理速度更高效。

本发明的其他特征和附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本方面的实践了解到。

附图说明

图1为本发明实施例中的变电站多路视频实时目标检测方法流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在一个或多个实施方式中，公开了一种变电站多路视频实时目标检测方法，参照图1，具体包括如下过程：

(1)获取待检测的变电站多路视频流数据；具体地，在对变电站进行远程视频键控时，获取多路变电站远程监控数据。其中，多路视频指的是不同检测点的视频数据，来自不同的相机。

(2)调用硬件环境参数接口，获取当前硬件环境参数，判断当前硬件环境；

具体地，当前硬件环境可以是GPU环境或者CPU环境，如果是GPU环境，就调用GPU的函数接口，采用适配于GPU的视频数据处理方法；同理，如果是CPU环境，就调用CPU的函数接口，采用适配于CPU的视频数据处理方法。

其中，视频数据处理方法包括了下面的视频流数据解码、多路视频流数据合并、目标检测模型处理及输出等过程。

(3)基于当前硬件环境，调用相关硬件环境下的接口函数，对获取的多路视频流数据进行解码；

对变电站多路视频流数据进行解码的过程与现有技术相同，不再详述。

(4)将解码后的变电站多路视频流进行合并，然后输入至训练好的目标检测模型，输出每一路的目标检测结果。

本实施例中，得到当前硬件环境之后，可以基于当前硬件环境下的参数配置接口，对每一路视频流的检测目标进行配置，即设置每一路的目标检测项。

本实施例基于gstreamer框架，视频流的解码、多路视频流的合并以及多路视频并发检测及输出等过程均在该框架下进行。该框架支持多路视频并发检测，可以通过标准的配置接口函数搭建配置界面，在配置界面可以选择每路视频的目标检测项目，比如：第1路可以检测变电站内未穿工装，第2路可以检测变电站内未带安全帽等；也可以设置该路适配是否需要输出实时的检测视频之类。

对于数据流的合并，可以通过创建一系列的组件，并把它们连接起来，从而让数据流在这个被连接的各个组件之间传输。每个组件都有一个特殊的函数接口，对于有些组件的函数接口它们是用于能够读取文件的数据，译码文件数据的。而有些组件的函数接口只是输出相应的数据到具体的设备上(例如，声卡设备)。可以将若干个组件连接在一起，从而创建一个管道来完成视频流的合并任务。gstreamer通过管道把N路视频整合到一起，然后进行目标检测，又通过demutex将多路视频有序的分离开，实现同步检测，不同输出目标。

基于每一路配置的检测目标，当目标检测模型输出对每一路的目标检测结果之后，可以对每一路的目标检测结果进行筛选，仅保留各路所配置的检测目标的检测结果并输出，而将其余目标检测结果筛除，从而使得每一路可以输出各自配置的目标检测结果；同时给定了输出报警信息的函数接口，可通过接口获取每路视频的报警文本信息及报警图片。

本实施例中，目标检测模型选用深度神经网络模型，具体可以采用基于darknet的yolov5的模型。利用图片标注工具对收集来的图片样本数据进行标注，根据目标检测种类需求对目标检测模型进行训练。

为了减少模型的数据计算量，同时不影响计算精度，本实施例对模型文件进行压缩，通过量化、剪枝、蒸馏等技术去压缩模型空间体积，实现更少的计算资源的消耗。

模型压缩主要包括：层间融合或张量融合；深度神经网络结构中有很多层，如果基于GPU的硬件下部署模型推理时，这每一层的运算操作都是由GPU完成的，但实际上是GPU通过启动不同的CUDA核心来完成计算的，CUDA核心计算张量的速度是很快的，但是往往大量的时间是浪费在CUDA核心的启动和对每一层输入、输出张量的读写操作上面，这造成了内存带宽的瓶颈和GPU资源的浪费。

比如：层间融合的过程包括层间的横向或纵向合并，使得层的数量大大减少。横向合并可以把卷积、偏置和激活层合并成一个CBR结构，只占用一个CUDA核心。纵向合并可以把结构相同，但是权值不同的层合并成一个更宽的层，也只占用一个CUDA核心。合并之后的计算图的层次更少了，占用的CUDA核心数也少了，因此整个模型结构会更小，更快，更高效。

数据精度校准，大部分深度学习框架在训练神经网络时网络中的张量都是32位浮点数的精度，一旦网络训练完成，在部署推理的过程中由于不需要反向传播，完全可以适当降低数据精度，比如降为FP16或INT8的精度。更低的数据精度将会使得内存占用和延迟更低，模型体积更小，但是精度损失一般不超过5％。

通过上述对于模型文件的处理，可以减少计算资源的消耗，使得整个目标检测模型结构更小、计算量更小、处理速度更高效。

实施例二

在一个或多个实施方式中，公开了一种变电站多路视频实时目标检测系统，包括：

数据获取模块，用于获取待检测的变电站多路视频流数据；

需要说明的是，上述各模块的具体实现过程采用实施例一中公开的方法实现，不再详述。

实施例三

在一个或多个实施方式中，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的变电站多路视频实时目标检测方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例四

在一个或多个实施方式中，公开了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行实施例一中所述的变电站多路视频实时目标检测方法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种变电站多路视频实时目标检测方法，其特征在于，包括：

获取待检测的变电站多路视频流数据；

2.如权利要求1所述的一种变电站多路视频实时目标检测方法，其特征在于，获取当前硬件环境参数，判断当前硬件环境，所述当前硬件环境包括CPU环境或GPU环境。

3.如权利要求1所述的一种变电站多路视频实时目标检测方法，其特征在于，判断出当前硬件环境之后，还包括：基于当前硬件环境下的参数配置接口，对每一路视频流的检测目标进行配置。

4.如权利要求3所述的一种变电站多路视频实时目标检测方法，其特征在于，基于每一路配置的检测目标，对于目标检测模型的每一路目标检测结果进行筛选，仅保留各路所配置的检测目标的检测结果并输出。

5.如权利要求1所述的一种变电站多路视频实时目标检测方法，其特征在于，所述目标检测模型选用深度神经网络模型，并基于当前硬件环境下的模型压缩方法，对目标检测模型进行压缩。

6.如权利要求5所述的一种变电站多路视频实时目标检测方法，其特征在于，所述对目标检测模型进行压缩的过程包括：层间融合或张量融合，其中层间融合包括横向合并和纵向合并。

7.如权利要求1所述的一种变电站多路视频实时目标检测方法，其特征在于，对多路视频流数据的解码、合并以及目标检测模型的处理和每一路视频流检测结果的输出，均是基于gstreamer框架实现。

8.一种变电站多路视频实时目标检测系统，其特征在于，包括：

数据获取模块，用于获取待检测的变电站多路视频流数据；

9.一种终端设备，其包括处理器和存储器，处理器用于实现各指令；存储器用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求1-7任一项所述的变电站多路视频实时目标检测方法。

10.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行权利要求1-7任一项所述的变电站多路视频实时目标检测方法。