CN114821434A

CN114821434A - 一种基于光流约束的时空增强视频异常检测方法

Info

Publication number: CN114821434A
Application number: CN202210483431.2A
Authority: CN
Inventors: 宋俊芳; 赵海莉; 许晓宇; 武文哲; 蒲媛媛
Original assignee: Xizang Minzu University
Current assignee: Xizang Minzu University
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-07-29

Abstract

本发明公开了一种基于光流约束的时空增强视频异常检测方法，属于视频检测领域，包括以下步骤：S1：将正常样本作为训练集输入FusionNet‑LSTM神经网络中，该网络具有编码‑预测‑解码结构，由卷积层、残差网络层和最大池化层组成；S2：通过特征编码模块对图像通过下采样进行多尺度特征提取，获得更高级的语义信息；S3：通过FusionNet网络，将提取的连续的T帧视频帧(I₁,I₂,I₃…I_T‑1,I_T)的高级语义信息输入长短时记忆网络(LSTM，Long Short‑Term Memory)中，得到预测的第N+1帧视频帧；S4：对于得到的预测视频帧，通过FusionNet的解码网络，通过上采样融入背景信息，得到第N+1帧更真实的预测图，此外，由于增加了光流约束，使得生成器能够生成更加逼真的预测帧。

Description

一种基于光流约束的时空增强视频异常检测方法

技术领域

本发明涉及视频检测技术领域，尤其涉及基于光流约束的时空增强视频异常检测方法。

背景技术

随着物联网与大数据、云计算等信息技术的飞速发展与国民生活需求不断提升，以人为核心的智慧城市逐步形成。智慧安防作为智慧城市的重要组成部分，安防监控工程随处可见，城市化建设已经实现了电子视频监控的全方位覆盖。人工监控一般情况下需要安防人员全天值守，并且安防人员长期对着多个监控画面极易疲惫，很容易错过重要的监控信息。因此，充分利用计算机视觉技术，进行视频异常检测已经成为当前安防监控工程的重要任务。但是，由于视频中的异常事件的概率很低，采集和标注数据都很困难，且存在数据中正负样本分布很不均衡和异常事件判定种类繁多的问题。现有的深度学习的方法，进行视频异常检测时，背景信息过多导致不能很好的捕捉运动物体的语义信息，使得对异常信息不能精确的做出判断。

发明内容

本发明为了克服上述技术的不足，提供了一种基于光流约束的时空增强视频异常检测方法，解决了背景信息过多导致不能很好的捕捉运动物体的语义信息，使得对异常信息不能精确的做出判断的问题。

为了实现上述目的，本发明采用了如下技术方案：

一种基于光流约束的时空增强视频异常检测方法，包括以下步骤：

S1：将正常样本作为训练集输入FusionNet-LSTM神经网络中，该网络具有编码-预测-解码结构，由卷积层、残差网络层和最大池化层组成；

S2：通过特征编码模块对图像通过下采样进行多尺度特征提取，获得更高级的语义信息；

S3：通过FusionNet网络，将提取的连续的T帧视频帧(I₁,I₂,I₃…I_T-1,I_T)的高级语义信息输入长短时记忆网络(LSTM，Long Short-Term Memory)中，得到预测的第N+1帧视频帧；

S4：对于得到的预测视频帧，通过FusionNet的解码网络，通过上采样融入背景信息，得到第N+1帧更真实的预测图；

S5：计算损失函数；

S6：通过损失函数对对抗性训练进行优化，得到一个生成能力较强的生成器；

S7：通过不断的迭代训练，得到迭代训练后的生成器模型；

S8：将含有异常样本的测试集输入迭代好的生成器模型FusionNet-LSTM中，分别计算预测帧(I_T+1)'和真实帧I_T+1的峰值信噪比(PSNR，Peak signal-to-noise ratio)，得到异常得分Score。

进一步地，步骤S5具体还包括以下步骤：

S501：均方误差损失(MSE)计算：

H为真实帧I_T+1的高，W为真实帧I_T+1的宽，I_(T+1)'为预测帧。i,j分别代表图像的空间索引位置；

S502：梯度损失计算,梯度损失通过计算水平方向和垂直方向的L₁距离可以得到，计算公式如(2)所示：

其中，L_grad为梯度损失，I_T+1为真实帧，I_(T+1)'为预测帧，i,j分别代表图像的空间索引位置；

S503：强度损失计算，强度损失是预测帧I_(T+1)'与真实帧I_T+1之间的L₂距离，保证了RGB空间像素的相似性，计算公式如(3)所示：

其中，L_I为强度损失。

S504：光流损失计算,计算第T帧和真实的第T+1帧的差值作为真正的运动损失，计算第T帧和预测的第T+1帧的差值计算预测图像的运动损失，取真实的运动损失和预测图像的光流损失的差值绝对值作为光流损失；

L_op(I_T,I_T+1,I_(T+1)')＝||F_op(I_T,I_T+1)-F_op(I_T,I_(T+1)')||₁ (4)

其中，F_op为光流函数。

进一步地，在步骤S6中，使用梯度损失L_grad、强度损失L_I、光流损失L_op和均方误差损失L_MSE四个损失函数加权来约束生成器，得到优化后的生成器模型，其中，鉴别器采用Patch GAN对输入图像的每个区域都输出一个预测概率值。

具体的，生成器误差计算：

L_G＝λ_gradL_grad+λ_IL_I+λ_opL_op+λ_MSEL_MSE (5)

其中，λ_grad、λ_I、λ_op、λ_MSE分别为梯度损失、强度损失、光流损失和均方误差损失的权重；

鉴别器误差计算：

L_D＝λ_MSEL_MSE (6)

其中，λ_MSE为均方误差损失的权重。

进一步地，在步骤S7中，迭代训练次数取值大于10000次。

进一步地，在步骤S8中，异常得分S计算如下：

其中，

表示I_T可能的最大取值。

具体的，计算出峰值信噪比PSNR，通过归一化得到所有T帧的第t帧异常得分

相比于现有技术，本发明的有益效果在于：

通过FusionNet的残差连接可以减少背景信息对于运动物体语义信息的影响，有效保证了高级语义信息的获取；

通过加入光流作为运动约束，有效的保证了预测帧生成的正确；

通过加入长短时记忆网络LSTM，弥补了FusionNet对于时序特征不明显的问题，使得时空特征提取得以增强；

通过对抗性训练，使得预测帧生成更加接近于真实帧，使生成器达到较好的生成水平；

综上所述，通过光流约束的时空特征增强的方法可以综合前几帧来检测当前帧是否异常。有效避免了异常数据采集和标注的困难、正负样本不均衡和异常事件种类繁多难以明确界定的问题。通过FusionNet-LSTM网络可以使输入视频帧序列的背景信息可以不经过LSTM时序预测模块，直接传入解码器中，可以使LSTM预测更注重于高级的语义信息，从而在提高检测效率的同时，节省了检测时间。此外，由于增加了光流约束，使得生成器能够生成更加逼真的预测帧。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1是本发明提出的基于光流约束的时空增强视频异常检测方法的流程图；

图2是本发明中FusionNet-LSTM的预测网络结构图；

图3是本发明中USCD Ped2数据集上的异常检测PSNR结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

S5：计算损失函数；

S6：通过损失函数对对抗性训练进行优化，得到一个生成能力较强的生成器。

S7：通过不断的迭代训练，得到迭代训练后的生成器模型；

S8：将含有异常样本的测试集输入迭代好的生成器模型FusionNet-LSTM中，分别计算预测帧(I_T+1)′和真实帧I_T+1的峰值信噪比(PSNR，Peak signal-to-noise ratio)，得到异常得分Score。

在本申请的具体实施中，步骤S5具体还包括以下步骤：

S501：均方误差损失(MSE)计算：

H为真实帧I_T+1的高，W为真实帧I_T+1的宽，I_(T+1)′为预测帧。i，j分别代表图像的空间索引位置；

S502：梯度损失计算，梯度损失通过计算水平方向和垂直方向的L₁距离可以得到，计算公式如(2)所示：

其中，L_grad为梯度损失，I_T+1为真实帧，I_(T+1)′为预测帧，i，j分别代表图像的空间索引位置；

S503：强度损失计算，强度损失是预测帧I_(T+1)′与真实帧I_T+1之间的L₂距离，保证了RGB空间像素的相似性，计算公式如(3)所示：

其中，L_I为强度损失。

S504：光流损失计算，计算第T帧和真实的第T+1帧的差值作为真正的运动损失，计算第T帧和预测的第T+1帧的差值计算预测图像的运动损失，取真实的运动损失和预测图像的光流损失的差值绝对值作为光流损失；

L_op(I_T,I_T+1,I_(T+1)')＝||F_op(I_T,I_T+1)-F_op(I_T,I_(T+1)')||₁ (4)

其中，F_op为光流函数。

在本申请的具体实施中，在步骤S6中，使用梯度损失L_grad、强度损失L_I、光流损失L_op和均方误差损失L_MSE四个损失函数加权来约束生成器，得到优化后的生成器模型，其中，鉴别器采用Patch GAN对输入图像的每个区域都输出一个预测概率值。

具体的，生成器误差计算：

L_G＝λ_gradL_grad+λ_IL_I+λ_opL_op+λ_MSEL_MSE (5)

鉴别器误差计算：

L_D＝λ_MSEL_MSE (6)

其中，λ_MSE为均方误差损失的权重。

在本申请的具体实施中，在步骤S7中，迭代训练次数取值大于10000次。

在本申请的具体实施中，在步骤S8中，异常得分S计算如下：

其中，

表示I_T可能的最大取值。

作为同一发明的另一优选实施例：

一种基于光流约束的时空增强视频异常检测方法，包括如下步骤：

S1：将正常样本作为训练集输入FusionNet-LSTM神经网络中，该网络具有编码-预测-解码的对称结构，由卷积层、残差网络层和最大池化层组成；

S2：通过FusionNet特征编码模块分别对图像进行2倍、4倍和8倍下采样进行多尺度特征提取，由于残差网络可以将不变的背景信息直接传输进解码网络中，所以不断的下采样可以获得更高级的语义信息传入预测模块；

S3：通过FusionNet网络，将提取的连续的T帧视频帧(I₁,I₂,I₃…I_T-1,I_T)的高级语义信息输入长短时记忆网络(LSTM，Long Short-Term Memory)中，得到预测的第N+1帧视频帧，由于FusionNet的编码器和解码器之间采用残差连接，可以使背景信息直接从编码模块传入解码模块，LSTM预测模块则可以更加专注于预测高级的运动语义信息，更加有效的捕获时序信息；

S4：对于得到的预测视频帧，通过FusionNet的解码网络，通过2倍、4倍和8倍的上采样结合残差网络传输的背景信息，得到第N+1帧最终的预测图；

S5：计算损失函数，通过多种损失约束，使生成更加真实的帧；

S6：通过损失函数对抗性训练进行优化，得到一个生成能力较强的生成器；

S7：通过不断重复S1-S6的步骤进行迭代训练，得到迭代训练后的生成器模型；

S8：将含有异常样本的测试集输入迭代好的生成器模型FusionNet-LSTM中，分别计算预测帧(I_T+1)'和真实帧I_T+1的峰值信噪比(PSNR，Peak signal-to-noise ratio)，得到异常得分Score；

进一步的，步骤5包含如下步骤：

S501：均方误差损失(MSE)计算，

S502：梯度损失计算,梯度损失通过计算水平方向和垂直方向的L₁距离可以得到，梯度损失函数可以使预测帧和真实帧的梯度保持一致，可以消除预测帧的模糊，使预测帧更加的清晰，具体计算如(11)所示：

其中，L_grad为梯度损失，I_T+1为真实帧，I_(T+1)'为预测帧，i,j分别代表图像的空间索引位置。

S503：强度损失计算，强度损失是预测帧I_(T+1)′与真实帧I_T+1之间的L₂距离，保证了RGB空间像素的相似性，计算公式如(12)所不：

其中，L_I为强度损失。

S504：光流损失计算，计算第T帧和真实的第T+1帧的差值作为真正的运动损失，计算第T帧和预测的第T+1帧的差值计算预测图像的运动损失，取真实的运动损失和预测图像的光流损失的差值绝对值作为光流损失。本发明采用光流估计法FlowNet2.0，由于均方误差损失、梯度损失和强度损失在运动变化极其微小的时候，难以进行较好的约束，但是FlowNet2.0由于有较小的卷积核，可以对较小的位移进行高分辨，运动中极其微小的变化也可以产生完全不一样的光流，通过光流约束，可以对运动进行更加正确的预测，光流约束就是为了保证两个光流差尽可能相似。光流损失计算公式如式(13)所示；

L_op(I_T，I_T+1，I_(T+1)′)＝||F_op(I_T，I_T+1)-F_op(I_T，I_(T+1)′)||₁ (13)

其中，F_op为FlowNet2.0算法。

优选的，步骤S6中：使用梯度损失L_grad、强度损失L_I、光流损失L_op和均方误差损失L_MSE四个损失函数加权来约束生成器，得到优化后的生成器模型。鉴别器采用Patch GAN对输入图像的每个区域都输出一个预测概率值。

生成器误差计算如式(14)所示：

L_G＝λ_gradL_grad+λ_IL_I+λ_opL_op+λ_MSEL_MSE (14)

其中，λ_grad、λ_I、λ_op、λ_MSE分别为梯度损失、强度损失、光流损失和均方误差损失的权重。

鉴别器误差计算如式(15)所示：

L_D＝λ_MSEL_MSE (15)

其中，λ_MSE为均方误差损失的权重。

优选的，步骤S7中：迭代训练次数取值大于10000次。

优选的，步骤S8中：异常得分S计算如下：

其中，

表示I_T可能的最大取值。计算出峰值信噪比PSNR，通过归一化得到所有T帧的第t帧异常得分

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于光流约束的时空增强视频异常检测方法，其特征在于，包括以下步骤：

S3：通过FusionNet网络，将提取的连续的T帧视频帧(I₁，I₂，I₃...I_T-1，I_T)的高级语义信息输入长短时记忆网络(LSTM，Long Short-Term Memory)中，得到预测的第N+1帧视频帧；

S5：计算损失函数；

S7：通过不断的迭代训练，得到迭代训练后的生成器模型；

2.根据权利要求1所述的基于光流约束的时空增强视频异常检测方法，其特征在于，步骤S5具体还包括以下步骤：

S501：均方误差损失(MSE)计算：

H为真实帧I_T+1的高，W为真实帧I_T+1的宽，I_(T+1)′为预测帧，i，j分别代表图像的空间索引位置；

S503：强度损失计算，强度损失是预测帧I_(T+1)与真实帧I_T+1之间的L₂距离，保证了RGB空间像素的相似性，计算公式如(3)所示：

其中，L_I为强度损失；

S504：光流损失计算，计算第T帧和真实的第T+1帧的差值作为真正的运动损失，计算第T帧和预测的第T+1帧的差值计算预测图像的运动损失，取真实的运动损失和预测图像的光流损失的差值绝对值作为光流损失。

3.根据权利要求2所述的基于光流约束的时空增强视频异常检测方法，其特征在于，在步骤S6中，使用梯度损失L_grad、强度损失L_I、光流损失L_op和均方误差损失L_MSE四个损失函数加权来约束生成器，得到优化后的生成器模型，其中，鉴别器采用Patch GAN对输入图像的每个区域都输出一个预测概率值。

4.根据权利要求3所述的基于光流约束的时空增强视频异常检测方法，其特征在于，在步骤S7中，迭代训练次数取值大于10000次。

5.根据权利要求4所述的基于光流约束的时空增强视频异常检测方法，其特征在于，在步骤S8中，异常得分S计算如下：

其中，

表示I_T可能的最大取值；

计算出峰值信噪比PSNR，通过归一化得到所有T帧的第t帧异常得分