CN116152699B

CN116152699B - 用于水电厂视频监控系统的实时运动目标检测方法

Info

Publication number: CN116152699B
Application number: CN202211538652.1A
Authority: CN
Inventors: 张文韬; 余长娥; 张晓宇; 杨鹏; 刘先科; 曾勇; 王伟; 曾正奇; 张晓军; 胡珊; 宁毅; 刘书圆; 任静
Original assignee: China Yangtze Power Co Ltd
Current assignee: China Yangtze Power Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2024-02-13
Anticipated expiration: 2042-12-02
Also published as: CN116152699A

Abstract

一种用于水电厂视频监控系统的实时运动目标检测方法，主要采用分类、构建模型、构建网络、划分、训练和转化视频的步骤，对水电厂视频监控系统的视频场景分级，改进自适应背景更新差分模型，基于轻量级卷积神经网络的运动目标检测，针对不同级别的监控视频使用不同的运动目标检测算法发掘其中的关键信息，实时且较为准确地分离出监控视频中的运动目标，能提高水电厂运行人员视频巡检的效率，减少运行人员的视频巡检工作量，提高电力生产的安全性。

Description

用于水电厂视频监控系统的实时运动目标检测方法

技术领域

本发明属于水电站巡检技术领域，涉及一种用于水电厂视频监控系统的实时运动目标检测方法。

背景技术

水电厂生产区域普遍应用到监控摄像头，运行人员通过视频巡检(在中控室中观察生产区域的视频图像)而替代繁杂劳累的现场巡检。但是，水电厂中往往存在较多的重点监控区域，人工的视频巡检由于需要频繁切换场景而容易遗漏一些关键信息，因此，如何利用计算机视觉算法实时地从视频数据中提取关键信息进而辅助运行人员对现场情况进行判断变得尤为重要。

视频运动目标检测是计算机视觉领域的基础研究方向之一，它的任务是从监控摄像头捕获的视频中分离出运动与静止区域。在大多数的智能视频监控系统中，运动目标检测能为跟踪、分类、识别、行为分析等高级处理任务提供关注的焦点。因此，在水电厂视频监控系统中如何实时对运动目标检测算法，并能减少运行人员的视频巡检工作量，提高电力生产的安全性是目前需要解决的关键问题。

发明内容

本发明所要解决的技术问题是提供一种用于水电厂视频监控系统的实时运动目标检测方法，用于提高水电厂运行人员视频巡检的效率，减少运行人员的视频巡检工作量，提高电力生产的安全性。

为解决上述技术问题，本发明所采用的技术方案是：一种用于水电厂视频监控系统的实时运动目标检测方法，它包括如下步骤：

步骤1，分类，对水电厂视频监控系统中的视频按照其监控场景进行分类；按照被监控生产区域的重要性依次分为核心区域监控视频、重点区域监控视频和一般区域监控视频；

步骤2，构建模型，对于任一被分类为重点区域的监控视频，人工采集其位于早、晚两个时段的监控视频，利用均值法构建其对应的早、晚两个时段的虚拟背景模型；

步骤3，构建网络，构建用于视频运动目标检测的轻量级卷积神经网络；

步骤4，划分，对于任一被分类为核心区域的监控视频，捕获一段视频，并利用视频数据构建该监控区域的数据集，从所述数据集中划分训练集和验证集；

步骤5，训练，设置一定的超参数，利用所述用于视频运动目标检测的轻量级卷积神经网络和任一被分类为核心区域的监控视频对应的训练集进行训练，并利用所述验证集验证所述全卷积网络模型的拟合效果，当达到预设效果时，训练完成，获得实时运动目标检测模型；直到训练出与核心区域数量相同个数的神经网络模型时，所有训练结束；

步骤6，转化视频，分别利用帧间差分法、自适应背景更新差分模型和基于轻量级卷积神经网络的运动目标检测方法对水电厂视频监控系统实时捕获的一般区域视频、重点区域视频和核心区域视频进行处理，获得运动目标检测结果图像，将其转化为视频。

在步骤1中，

对水电厂视频监控系统中的视频按照其监控场景进行分类，按照被监控生产区域的重要性依次分为核心区域监控视频、重点区域监控视频和一般区域监控视频；其中，核心区域为水电厂厂房内的核心生产区域，主要包括例如发电机室、水车室；重点区域为水电厂厂房内的非核心区域，主要包括中控室、办公室、走廊；一般区域为水电厂厂房外围监控优先级较低的区域。

在步骤2中，

步骤2-1，对于任一被分类为重点区域的监控视频，人工采集其位于早、晚两个时段的监控视频，生成两段子视频，采集的视频的时长应尽可能长一些；

步骤2-2、对于所述的早、晚两个时段的子视频，将其转化为两个逐帧的视频图像集，将两个视频图像集进行灰度化处理；

步骤2-3、对于所述的两个逐帧的视频图像集，使用均值法计算出其对应的虚拟背景模型，其中均值法的公式如下：

式中，Bg(x，y)为背景模型在坐标(x，y)处的平均灰度值，为N帧图像在坐标(x，y)处像素点的灰度值总和，N为视频图像集包含的图像个数。

在步骤3中，

步骤3-1，构建所述用于视频运动目标检测的轻量级卷积神经网络的输入层；输入任意大小的3通道RGB图像，对于长或宽不满足16倍数的图像，进行边缘自适应补0的操作；

步骤3-2，构建所述全卷积网络模型的编码器网络；所述编码器网络基于MoblieNetV3-Large网络，删除其最后的四个层级结构；该编码器网络包括5个模块，即模块1～模块5；模块1包含一个卷积核大小为3×3的卷积层和一个Bneck结构，模块2包含两个Bneck结构，模块3和模块5包含三个Bneck结构，模块4包含六个Bneck结构；

步骤3-3，构建所述用于视频运动目标检测的轻量级卷积神经网络的解码器网络；解码器网络包括5个模块，即模块6～模块10，其中模块6、模块7、模块8、模块9均包含一个上采样层和两个卷积核大小为3×3的卷积层，先使用双线性插值法完成上采样，再进行特征的拼接，拼接好的特征进入两个卷积核大小为3×3的卷积层进行上采样特征的完善；模块10中包含CBAM注意力机制模块、一个卷积核大小为1×1的卷积层和一个上采样层。

在步骤4中，

步骤4-1，对于任一被分类为核心区域的监控视频，利用其对应的监控摄像头捕获一段视频；

步骤4-2，从捕获的视频序列中按照均匀的时序分布选取M帧视频图像，使用任意像素级别的标注软件Image Labeler、LabelMe或CVAT标注视频图像的运动目标区域，构成该场景的数据集；待标注完成后，随机选取N帧标注图像及对应的原始图像作为验证集，剩余M-N帧标注图像及对应的原始图像作为训练集；

步骤4-3，对M帧视频图像进行标准化处理，得到标准化后结果，其中，标准化的公式如下：

式中，y_i为标准化后结果，x_i为当前帧图像，为训练集图像均值，s为训练集图像标准差。

在步骤5中，

步骤5-1，对于编码器网络，加载在ImageNet数据集上预训练的MoblieNetV3-Large网络的权重，并维持该权重不变；ImageNet数据集包括1000个种类；

步骤5-2，选用融合交叉熵损失函数CE与Dice损失函数计算损失loss，计算公式如下：

loss＝CE+Dice

式中，p_i为当前像素i的预测结果，y_i为当前像素i对应的真实结果，n表示图像像素的个数，p为对于一张图像的预测像素集合，y为标注图像的像素集合；

步骤5-3，使用小批量随机梯度下降优化器作为训练的优化器，初始学习率设置为0.01，动量系数设置为0.9，batch-size设置为4，学习率遵循系数设置为0.9的Poly策略进行衰减，训练轮数设置为200；另外，训练程序中加入了监视器用于保存在验证集上效果最好的模型的参数权重，作为该监控场景的模型权重。

在步骤6中，

对于水电厂视频监控系统中被划分为一般区域的监控视频，获取其监控视频，采用帧间差分法对其进行处理，得到标记出运动目标的视频，其包括如下步骤，

步骤6-1，将监控视频转化为逐帧的jpg格式的视频图像，将视频图像转换为灰度图像；

步骤6-2，将当前帧与前一帧的灰度图像利用帧间差分法进行差分运算，计算出标记出运动目标的灰度图像，具体地，根据像素的灰度值计算：

式中，D(x，y)为标记出运动目标的灰度图像，x和y分别表示某一像素在二维平面上的横纵坐标，f_k+1(x，y)为当前帧灰度图像，f_k(x，y)为前一帧灰度图像，T表示设定的灰度差阈值，若D(x，y)＝255，则该像素点(x，y)为运动目标像素，对图像中的所有像素点进行判断，则可得到标记出运动目标的图像；

步骤6-3，将连续的S612中所得的逐帧的标记出运动目标的图像转化为视频。

在步骤6中，

对于水电厂视频监控系统中被划分为重点区域的监控视频，获取其监控视频，采用改进的自适应背景更新差分模型对其进行处理，得到标记出运动目标的视频，其包括如下步骤，

步骤6-4，将监控视频转化为逐帧的jpg格式的视频图像，将视频图像转换为灰度图像；

步骤6-5，检测当前时间，若处于7:00-18:00，则将步骤S23所得的对应该场景早间时段的虚拟背景用作背景差分法的初始背景模型，反之则将对应该场景晚间时段的虚拟背景用作初始背景模型；

步骤6-6，将当前帧灰度图像与背景模型进行差分运算，计算出标记出运动目标的灰度图像，具体地，根据像素的灰度值计算：

Diff(x，y)＝|I(x，y)-Bg(x，y)|

式中，Diff(x，y)为差分图像，D(x，y)为标记出运动目标的灰度图像，x和y分别表示某一像素在二维平面上的横纵坐标，I(x，y)为当前帧灰度灰度图像，Bg(x，y)为背景模型，T表示设定的灰度差阈值，；

步骤6-7，设定分区系数即将视频图像平均分为/>个区域，利用当前帧灰度图像和前一帧灰度图像计算每个区域的帧间变化率，具体公式如下：

式中，dr_k为第个区域的帧间变化率，m为该区域的长、n为该区域的宽，f_k(x_i，y_j)为当前帧第k个区域的灰度图像，f_k-1(x_i，y_j)为前一帧第k个区域的灰度图像，T为灰度差阈值；

利用每个区域的帧间变化率更新背景模型，具体公式如下：

式中，Bg_n(k)(x，y)为更新后的第k个区域的背景模型，Bg_n-1(k)为第k个区域的未更新的背景模型，I_k(x，y)为第k个区域的当前帧灰度图像；

步骤6-8，将连续的S623中所得的标记出运动目标的图像转化为视频。

在步骤6中，

对于水电厂视频监控系统中被划分为核心区域的监控视频，获取其监控视频，采用一种基于轻量级卷积神经网络的运动目标检测方法对其进行处理，得到标记出运动目标的视频，其包括如下步骤，

步骤6-9，选择S32中所述的对应该场景的最优的模型权重，加载所述的轻量级卷积神经网络；

步骤6-10，将监控视频转化为逐帧的jpg格式的视频图像，对其按照步骤S43相同的参数进行标准化处理，得到标准化后的视频图像；

步骤6-11，将所述标准化后的视频图像输入所述加载权重后的轻量级卷积神经网络，输出标记出运动目标的图像；

步骤6-12，将连续的所输出的标记出运动目标的图像转化为视频。

本发明的主要有益效果在于：

对水电厂视频监控系统的视频场景分级，改进自适应背景更新差分模型，基于轻量级卷积神经网络的运动目标检测。

对于水电厂的监控摄像头按监控区域的重要程度进行了分级，针对不同级别的监控视频使用不同的运动目标检测算法发掘其中的关键信息。

能实时且较为准确地分离出监控视频中的运动目标，能提高水电厂运行人员视频巡检的效率，并且对于中央处理服务器的硬件配置要求较低。

该方法能实时且较为准确地分离出监控视频中的运动目标，包括设备漏水、漏油等。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为本发明的流程图。

图2为本发明改进后的自适应背景更新差分模型的流程图。

具体实施方式

如图1～图2中，一种用于水电厂视频监控系统的实时运动目标检测方法，它包括如下步骤：

优选的方案中，在步骤1中，

对水电厂视频监控系统中的视频按照其监控场景进行分类，按照被监控生产区域的重要性依次分为核心区域监控视频、重点区域监控视频和一般区域监控视频；其中，核心区域为水电厂厂房内的核心生产区域，主要包括例如发电机室、水车室；重点区域为水电厂厂房内的非核心区域，主要包括中控室、办公室、走廊；一般区域为水电厂厂房外围监控优先级较低的区域。其目的在于对水电厂视频监控系统的视频场景分级。

优选的方案中，在步骤2中，

优选的方案中，在步骤3中，

优选的方案中，在步骤4中，

优选的方案中，在步骤5中，

loss＝CE+Dice

优选的方案中，在步骤6中，

Diff(x，y)＝|I(x，y)-Bg(x，y)|

利用每个区域的帧间变化率更新背景模型，具体公式如下：

步骤6-8，将连续的S623中所得的标记出运动目标的图像转化为视频。其目的在于对自适应背景更新差分模型进行改进，对运动目标检测算法发掘其中的关键信息。

优选的方案中，在步骤6中，

步骤6-12，将连续的所输出的标记出运动目标的图像转化为视频。其目的在于基于轻量级卷积神经网络的运动目标检测，降低对中央处理服务器的硬件要求。

上述的实施例仅为本发明的优选技术方案，而不应视为对于本发明的限制，本申请中的实施例及实施例中的特征在不冲突的情况下，可以相互任意组合。本发明的保护范围应以权利要求记载的技术方案，包括权利要求记载的技术方案中技术特征的等同替换方案为保护范围。即在此范围内的等同替换改进，也在本发明的保护范围之内。

Claims

1.一种用于水电厂视频监控系统的实时运动目标检测方法，其特征是，它包括如下步骤：

步骤4，划分，对于任一被分类为核心区域的监控视频，捕获一段视频，并利用视频数据构建该监控视频的数据集，从所述数据集中划分训练集和验证集；

步骤5，训练，设置一定的超参数，利用所述用于视频运动目标检测的轻量级卷积神经网络和任一被分类为核心区域的监控视频对应的训练集进行训练，并利用所述验证集验证所述轻量级卷积神经网络的拟合效果，当达到预设效果时，训练完成，获得实时运动目标检测模型；直到训练出与核心区域数量相同个数的神经网络模型时，所有训练结束；

步骤6，转化视频，分别利用帧间差分法、自适应背景更新差分模型和基于轻量级卷积神经网络的运动目标检测方法对水电厂视频监控系统实时捕获的一般区域视频、重点区域视频和核心区域视频进行处理，获得运动目标检测结果图像，将其转化为视频；

在步骤2中，

式中，Bg(x,y)为背景模型在坐标(x,y)处的平均灰度值，为N帧图像在坐标(x,y)处像素点的灰度值总和，N为视频图像集包含的图像个数；

在步骤3中，

步骤3-2，构建所述轻量级卷积神经网络的编码器网络；所述编码器网络基于MoblieNetV3-Large网络，删除其最后的四个层级结构；该编码器网络包括5个模块，即模块1-模块5；模块1包含一个卷积核大小为3×3的卷积层和一个Bneck结构，模块2包含两个Bneck结构，模块3和模块5包含三个Bneck结构，模块4包含六个Bneck结构；

步骤3-3，构建所述用于视频运动目标检测的轻量级卷积神经网络的解码器网络；解码器网络包括5个模块，即模块6-模块10，其中模块6、模块7、模块8、模块9均包含一个上采样层和两个卷积核大小为3×3的卷积层，先使用双线性插值法完成上采样，再进行特征的拼接，拼接好的特征进入两个卷积核大小为3×3的卷积层进行上采样特征的完善；模块10中包含CBAM注意力机制模块、一个卷积核大小为1×1的卷积层和一个上采样层。

2.根据权利要求1所述的用于水电厂视频监控系统的实时运动目标检测方法，其特征是，在步骤1中，

对水电厂视频监控系统中的视频按照其监控场景进行分类，按照被监控生产区域的重要性依次分为核心区域监控视频、重点区域监控视频和一般区域监控视频；其中，核心区域为水电厂厂房内的核心生产区域，主要包括发电机室、水车室；重点区域为水电厂厂房内的非核心区域，主要包括中控室、办公室、走廊；一般区域为水电厂厂房外围监控优先级较低的区域。

3.根据权利要求1所述的用于水电厂视频监控系统的实时运动目标检测方法，其特征是，在步骤4中，

4.根据权利要求1所述的用于水电厂视频监控系统的实时运动目标检测方法，其特征是，在步骤5中，

loss＝CE+Dice

步骤5-3，使用小批量随机梯度下降优化器作为训练的优化器，初始学习率设置为0.01，动量系数设置为0.9，batch-size设置为4，学习率遵循系数设置为0.9的Poly策略进行衰减，训练轮数设置为200；训练程序中加入了监视器用于保存在验证集上的模型的参数权重，作为该监控场景的模型权重。

5.根据权利要求1所述的用于水电厂视频监控系统的实时运动目标检测方法，其特征是，在步骤6中，

式中，D(x,y)为标记出运动目标的灰度图像，x和y分别表示某一像素在二维平面上的横纵坐标，f_k+1(x,y)为当前帧灰度图像，f_k(x,y)为前一帧灰度图像，T表示设定的灰度差阈值，若D(x,y)＝255，则灰度图像像素点(x,y)为运动目标像素，对图像中的所有像素点进行判断，则可得到标记出运动目标的图像；

步骤6-3，将步骤S6-1、S6-2中所得的逐帧的标记出运动目标的图像转化为视频。

6.根据权利要求1所述的用于水电厂视频监控系统的实时运动目标检测方法，其特征是，在步骤6中，

步骤6-5，检测当前时间，若处于7:00-18:00，则将步骤S2-3所得的对应该场景早间时段的虚拟背景用作背景差分法的初始背景模型，反之则将对应该场景晚间时段的虚拟背景用作初始背景模型；

Diff(x,y)＝|I(x,y)-Bg(x,y)|

式中，Diff(x,y)为差分图像，D(x,y)为标记出运动目标的灰度图像，x和y分别表示某一像素在二维平面上的横纵坐标，I(x,y)为当前帧灰度图像，Bg(x,y)为背景模型，T表示设定的灰度差阈值；

式中，dr_k为第k个区域的帧间变化率，m为该区域的长、n为该区域的宽，f_k(x_i,y_j)为当前帧第k个区域的灰度图像，f_k-1(x_i,y_j)为前一帧第k个区域的灰度图像，T为灰度差阈值；

利用每个区域的帧间变化率更新背景模型，具体公式如下：

式中，Bg_n(k)(x,y)为更新后的第k个区域的背景模型，Bg_n-1(k)为第k个区域的未更新的背景模型，I_k(x,y)为第k个区域的当前帧灰度图像；

步骤6-8，将步骤S6-2、S6-3中所得的标记出运动目标的图像转化为视频。

7.根据权利要求4所述的用于水电厂视频监控系统的实时运动目标检测方法，其特征是，在步骤6中，

步骤6-9，选择步骤S5-3中所述的对应该场景的最优的模型权重，加载所述的轻量级卷积神经网络；

步骤6-10，将监控视频转化为逐帧的jpg格式的视频图像，对其按照步骤S4-3相同的参数进行标准化处理，得到标准化后的视频图像；

步骤6-11，将所述标准化后的视频图像输入轻量级卷积神经网络，输出标记出运动目标的图像；