CN112183310A

CN112183310A - 冗余监控画面过滤及无效监控画面筛选的方法及系统

Info

Publication number: CN112183310A
Application number: CN202011026258.0A
Authority: CN
Inventors: 刘小楠; 郭威; 王熠; 林敏�; 张浩博; 赵子诚
Original assignee: CETC 32 Research Institute
Current assignee: CETC 32 Research Institute
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-01-05
Anticipated expiration: 2040-09-25
Also published as: CN112183310B

Abstract

本发明提供了一种冗余监控画面过滤及无效监控画面筛选的方法及系统，使用基于Siamese架构的SiamConvGRU模型，使输入的相似视频片段对在映射空间中距离更近，使不相似的视频片段对在映射空间中距离更远；在SiamConvGRU模型中使用成对的视频片段作为输入，逐步捕获和聚合与视频片段相关的上下文信息，得到输入片段对的整体特征；将基于两个视频特征的相似性度量生成对比损失函数，进行网络模型优化，将监控视频的大量冗余画面以低评分过滤掉，用来提高视频监控员的工作效率；将因相机遮挡、模糊而产生的无效监控画面以高评分筛选出，过滤掉大量的监控冗余画面，大大提高视频监控员工作效率。

Description

冗余监控画面过滤及无效监控画面筛选的方法及系统

技术领域

本发明涉及监控画面筛选领域，具体地，涉及一种冗余监控画面过滤及无效监控画面筛选的方法及系统。

背景技术

监控摄像机因其不间断的工作特性，会产生大量冗余画面，这些画面无人员及车辆的移动，基本没有有效信息的传递。在监控画面实时显示的过程中，若以较低的风险评估分数实现冗余画面的过滤可以提高视频监控员的工作效率。同时，对于全方位安装使用的监控摄像机，存在较多人为或自然因素使监控画面无效，比如人为遮挡摄像机镜头，雨雪或粉尘覆盖摄像机使拍摄画面模糊等。监控是维护公共安全的重要工具，摄像机拍摄无效画面可能存在较大的安全隐患，若以较高风险评估分数实现无效监控画面的筛选可以实现监控摄像机的及时维护。

目前在冗余监控画面的过滤问题上基本未提出相关解决方法，在无效监控画面的筛选问题上比较流行的方法有：边缘检测，利用梯度计算捕捉在灰度斜坡和灰度台阶过渡处产生的边缘响应，从而获得边缘特征来判断画面有效；离散傅里叶变换(Di screteFourier Transform,DFT)和离散余弦变换(Di screte Cos ine Transform,DCT)可以获取图像频谱图，高频分量能表征图像细节进而表征画面有效性；直方图分析法通过对图像某一特性进行统计，进而分析说明画面是否有效；熵值是一种传统且易于理解的图像分析方式，熵的大小与图像的信息量多少有关，可有效判别遮挡。

监控摄像具有不间断工作的特性，因此其捕捉的画面在不同季节、不同时间段可能具有较大差异性，基于画面像素区域分析或画面整体求值后设置判定阈值的方法无法很好的涵盖多种拍摄情景的独特特性。在目前的检测无效监控画面的方法中，最主要的挑战是特殊场景的错误检测，如人群流动、大型物体通过拍摄区域、区域性光照引起的亮度反差等都有可能被识别为画面遮挡；对于一些纹理较少或无纹理背景的、黑暗或低质量的监控视频来说，大多数检测方法都会将其误识别为模糊。现存检测方法大多选取某些人工选择的特征，缺乏灵活适应性；而某些通过硬件改造进行检测的方法具有设备依赖性，不利于迅速推广安装。且现存检测方法都只有单一情况检测的能力，定向针对画面遮挡检测或者画面模糊检测，预警情况不全面。

公开号为“CN101119480A”专利文献提出“了一种用于网络视频监控中检测视频遮挡的方法”，该方法通过帧间对比获得发生运动的区域，在此基础上计算得到发生运动的宏块数，跟指定阈值对比判断是运动还是遮挡；在发生运动的区域计算出该区域中每个宏块的亮度均值，取其中一亮度均值作为样本值与其他均值求差的绝对值，若所有的绝对值都不超过设定的阀值，则视频发生遮挡，否则视频发生运动。

公开号为“CN108805042A”专利文献提出了“一种道路区域监控视频被树叶遮挡的检测方法”，该方法首先建立基于Mask R-CNN的深度学习平台用于训练道路区域和树叶目标的网络模型，然后将检测出的道路区域结果进行优化，使其符合城区视频监控场景中的识别预期；再通过对视频监控中三维空间在二维平面上位置关系的展现理解，定义的遮挡规则，最终得到是否存在道路区域被树叶遮挡的判定结果。

公开号为“CN104079886A”专利文献提出了“一种检测监控摄像头被遮挡或干扰的方法”，该方法具体思路是，在监控摄像头的旁边设置亮度传感器，用来实时监控当前的环境亮度。因为环境亮度不是突变的，有一个渐变的过程，因此当亮度发生突变时(突然变亮或突然变暗)，视为异常情况，系统进行报警。

公开号为“CN104394377A”专利文献提出了“一种监控图像的模糊异常的识别方法及装置”，该方法截取视频流的监控图像并对所述监控图像进行平滑处理；计算原始的所述监控图像与进行平滑处理后的所述监控图像的模糊评价值；将所述模糊评价值与预设的模糊阈值进行比较，如果所述模糊评价值小于所述模糊阈值，则判断所述监控图像为模糊图像。

公开号为“CN107133948A”专利文献提出了“一种基于多任务卷积神经网络的图像模糊与噪声评测方法”，该方法首先收集失真和对应高质的图片，对收集的图片进行人脸检测和对齐处理，然后再进行标定包括：模糊类型标定，模糊程度标定，噪声水平标定，标定后的图片组成数据集；然后用生成的数据集样本训练多任务卷积神经网络，得到用于图像模糊与噪声评测的网络模型；该网络模型共有三个任务输出，分别对应：模糊类型判定、模糊度估计、噪声水平估算；最后对一张已经检测和对齐的人脸图片，输入到之前得到的网络模型中，进行图像模糊类型判定、模糊度估计、噪声水平估计得到：模糊度估计值a，为最终模糊度评测值，得到运动模糊与失焦模糊概率pi，如果a小于阈值C，则判定结果为图像清晰，否则最终模糊类别判定结果为概率大的类别；得到噪声水平估计值b，为最终噪声水平估计值。

发明内容

针对现有技术中的缺陷，本发明使用深度神经网络建立检测模型来解决以上问题。模型采用提取全局特征依赖的convGRU网络进行序列建模，充分学习监控画面序列的时间性演变，捕捉无效监控画面的异常变化；整体构造一个双输入相似性度量框架，利用监控背景基本不变这一特点，获取正常监控画面之间的潜在相似度。这个模型根据相邻视频帧的相似性度量进行判别，可同时实现冗余监控画面的过滤和无效监控画面的筛选。本发明的目的是提供一种冗余监控画面过滤及无效监控画面筛选的方法及系统。

根据本发明的一个方面，提供了一种冗余监控画面过滤及无效监控画面筛选的方法，包括如下步骤：

步骤1：使用基于Siamese架构的SiamConvGRU模型，使输入的相似视频片段对在映射空间中距离更近，使不相似的视频片段对在映射空间中距离更远；

步骤2：在SiamConvGRU模型中使用成对视频片段(X₁,X₂)作为输入，逐步捕获和聚合与视频片段相关的上下文信息，得到输入片段对的整体特征(G_W(X₁),G_W(X₂))；

步骤3：将基于两个视频特征的相似性度量Ew生成对比损失函数，进行网络模型优化，将监控视频的大量冗余画面以低评分过滤掉，用来提高视频监控员的工作效率；将因相机遮挡、模糊而产生的无效监控画面以高评分筛选出。

优选地，在所述步骤1中，采用Siamese架构进行大量视频片段对的对比学习，捕获特殊场景与无效画面的特征差异，提高模型对无效画面和特殊场景的区分能力，能够利用监控视频片段间的潜在相似性来过滤冗余画面。

优选地，在所述步骤2中，SiamConvGRU模型使用具有软注意力的ResNet-50网络提取视频每一帧图像的特征，关注画面前景信息的变化情况。

优选地，将提取的图像特征输入到ConvGRU网络以更好的获得视频的时序特征，通过在每个GRU单元的输入到状态和状态到状态转换的计算中使用卷积操作得到ConvGRU单元，以更好地实现视频序列时空关系的建模。

优选地，在所述步骤2中，通过在所述SiamConvGRU模型间嵌入非局部操作来捕捉视频中每帧图像的空间全局依赖关系，来捕捉图像完整空间信息，建立图像上任意两点之间的依赖关系；具体的，在每个GRU单元之间引入非局部模块，其计算量级很小，当批次大小为4，输入长宽大小为14或7时，通过矩阵运算来计算非局部依赖关系与计算一个卷积层的计算量相当，通过在Siamese架构中融合改进的ConvGRU网络，模型能够充分利用监控视频的帧间时序相关性，同时建立图像空间依赖响应。

根据本发明的另一个方面，提供了一种冗余监控画面过滤及无效监控画面筛选的系统，包括如下模块：

模块1：使用基于Siamese架构的SiamConvGRU模型，使输入的相似视频片段对在映射空间中距离更近，使不相似的视频片段对在映射空间中距离更远；

模块2：在SiamConvGRU模型中使用成对视频片段(X₁,X₂)作为输入，逐步捕获和聚合与视频片段相关的上下文信息，得到输入片段对的整体特征(G_W(X₁),G_W(X₂))；

模块3：将基于两个视频特征的相似性度量Ew生成对比损失函数，进行网络模型优化，将监控视频的大量冗余画面以低评分过滤掉，用来提高视频监控员的工作效率；将因相机遮挡、模糊而产生的无效监控画面以高评分筛选出。

优选地，在所述模块1中，采用Siamese架构进行大量视频片段对的对比学习，捕获特殊场景与无效画面的特征差异，提高模型对无效画面和特殊场景的区分能力，能够利用监控视频片段间的潜在相似性来过滤冗余画面。

优选地，在所述模块2中，SiamConvGRU模型使用具有软注意力的ResNet-50网络提取视频每一帧图像的特征，关注画面前景信息的变化情况。

优选地，在所述模块2中，通过在所述SiamConvGRU模型间嵌入非局部操作来捕捉视频中每帧图像的空间全局依赖关系，来捕捉图像完整空间信息，建立图像上任意两点之间的依赖关系；具体的，在每个GRU单元之间引入非局部模块，其计算量级很小，当批次大小为4，输入长宽大小为14或7时，通过矩阵运算来计算非局部依赖关系与计算一个卷积层的计算量相当，通过在Siamese架构中融合改进的ConvGRU网络，模型能够充分利用监控视频的帧间时序相关性，同时建立图像空间依赖响应。

与现有技术相比，本发明具有如下的有益效果：

(1)本发明通过大量样本训练，学习监控画面在不同季节、不同时间段具有的较大差异性，使算法具有普遍适用性、具有良好的迁移推广能力；

(2)本发明基于监控视频潜在相似性进行学习，过滤掉大量的监控冗余画面，这些画面中无人员和车辆的移动，无有效信息的传递，以此大大提高视频监控员的工作效率；

(3)本发明提出一种基于Siamese架构的SiamConvGRU模型，可以极大减少特殊场景引起的监控视频无效画面的误检测，使用Siamese架构来捕捉样本对之间的相似性度量进行对比学习，使模型更好的识别和区分特殊场景与无效画面；

(4)本发明一种模型可同时实现冗余画面的过滤和无效画面的筛选示警两种功能。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明中SiamConvGRU模型结构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

在本实施例中，采用本发明提供的冗余监控画面过滤及无效监控画面筛选的方法，具体分为如下步骤：

步骤1，特征提取：将在ImageNet数据集上预训练的ResNet-50网络迁移至检测任务中，为更好的适配SiamConvGRU模型，本专利对ResNet-50的网络结构进行了删改。本专利抛弃了ResNet-50模型中最后用于分类的全连接层，并将模型最后一阶段卷积模块(即conv5_x)的卷积核步幅调整为1来保留更多的图像特征，以便于后续模型对图像信息的处理使用，同时将该阶段最后一层卷积层的卷积核替换为[1×1×512]大小来进行降维。

步骤2，感知画面前景变化：在ResNet-50第二、第三和第四阶段的卷积模块(即conv2_x,conv3_x,conv4_x)分别嵌入了残差注意力模块的软掩膜分支(Soft MaskBranch)，保留每个残差注意力模块的快速前馈扫描(fast feed-forward sweep)和自上而下的反馈(top-down feedback)结构，去除其跳跃连接(skip connections)结构来精简计算，调整软掩膜分支中残差单元的通道数，使其与对应主干分支中的残差单元通道数相同，以保持ResNet-50本身的残差计算。

步骤3,捕捉视频时空信息：依次将ResNet-50网络提取的单帧特征输入到ConvGRU网络，以避免空间数据冗余并更好的处理以图像形式展现出来的时序数据、实现图像空间特征的有效提取和利用。本专利在每个GRU单元的转换的计算中使用卷积操作得到ConvGRU单元，ConvGRU计算方法如式(1)所示。

其中z_t，r_t分别为更新门和复位门，x_t为输入特征，h_t为输出特征，

为新输入与经过删减的上一时间步的输出的累加，*表示卷积操作，

表示哈达玛积(Hadamard product)。

步骤4，获取图像全局依赖关系：卷积操作具有局部性，本专利在捕捉的时序特征的基础上实现非局部操作以建立图像完整空间信息，获取图像上任意两点之间的依赖关系，该非局部操作以图像中某一位置相对于全局位置的特征加权和来计算该位置的权重响应，在组合GRU单元与非局部模块时，我们仍借鉴残差网络的思想，通过一个跳跃连接来保证信息传递。非局部操作计算方法如式(2)所示。

其中x_i表示输入，y_i表示输出，其大小与x_i相同，i，j代表位置索引，f(x_i,x_j)用来计算位置i和所有可能关联的位置j之间的依赖关系，这里我们选择嵌入式高斯(EmbeddedGaussian)函数作为关系函数f(x_i,x_j)，g(x_j)计算输入在j位置的特征值，最终y_i的响应内容通过对全局的j进行遍历计算，再经响应因子C(x)进行归一化处理得出。

步骤5，对比学习视频对间的距离尺度：将前文提出的网络作为Siamese架构的分支网络进行对接，实现共享权值的双分支架构。Siamese采用了一种新颖的学习策略，从样本对中学习数据的匹配程度，并计算两个输入样本的相似性度量。Siamese架构的输入样本对(x₁,x₂)分别经过两个共享权值的神经网络G(x)，映射到同一个目标空间里，并通过在目标空间中的距离尺度||G(x₁)-G(x₂)||来近似输入的语义距离，Siamese实现相似性学习的基础是损失函数，损失函数如式(3)所示。

其中X₁,X₂为输入视频片段对，Y为对标签，若X₁,X₂为相似片段，则Y＝0，否则Y＝1。E_W为两个视频提取特征的欧氏距离，Q为E_W边界，L_G为相似输入对(正对)的部分损失函数，L_I为不相似输入对(负对)的部分损失函数。

步骤6，输出评分结果。

本发明提供的一种冗余监控画面过滤及无效监控画面筛选的系统，包括如下模块：

模块M1：使用基于Siamese架构的SiamConvGRU模型，使输入的相似视频片段对在映射空间中距离更近，使不相似的视频片段对在映射空间中距离更远；

模块M2：在SiamConvGRU模型中使用成对的视频片段作为输入，逐步捕获和聚合与视频片段相关的上下文信息，得到输入片段对的整体特征；

模块M3：将基于两个视频特征的相似性度量生成对比损失函数，进行网络模型优化，将监控视频的大量冗余画面以低评分过滤掉，用来提高视频监控员的工作效率；将因相机遮挡、模糊而产生的无效监控画面以高评分筛选出。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种冗余监控画面过滤及无效监控画面筛选的方法，其特征在于，包括：

2.根据权利要求1所述的冗余监控画面过滤及无效监控画面筛选的方法，其特征在于，在所述步骤1中，采用Siamese架构进行大量视频片段对的对比学习，捕获特殊场景与无效画面的特征差异，提高模型对无效画面和特殊场景的区分能力，能够利用监控视频片段间的潜在相似性来过滤冗余画面。

3.根据权利要求1所述的冗余监控画面过滤及无效监控画面筛选的方法，其特征在于，在所述步骤2中，SiamConvGRU模型使用具有软注意力的ResNet-50网络提取视频每一帧图像的特征，关注画面前景信息的变化情况。

4.根据权利要求3所述的冗余监控画面过滤及无效监控画面筛选的方法，其特征在于，将提取的图像特征输入到ConvGRU网络以更好的获得视频的时序特征，通过在每个GRU单元的输入到状态和状态到状态转换的计算中使用卷积操作得到ConvGRU单元，以更好地实现视频序列时空关系的建模。

5.根据权利要求1所述的冗余监控画面过滤及无效监控画面筛选的方法，其特征在于，在所述步骤2中，通过在所述SiamConvGRU模型间嵌入非局部操作来捕捉视频中每帧图像的空间全局依赖关系，来捕捉图像完整空间信息，建立图像上任意两点之间的依赖关系；具体的，在每个GRU单元之间引入非局部模块，其计算量级很小，当批次大小为4，输入长宽大小为14或7时，通过矩阵运算来计算非局部依赖关系与计算一个卷积层的计算量相当，通过在Siamese架构中融合改进的ConvGRU网络，模型能够充分利用监控视频的帧间时序相关性，同时建立图像空间依赖响应。

6.一种冗余监控画面过滤及无效监控画面筛选的系统，其特征在于，包括：

7.根据权利要求6所述的冗余监控画面过滤及无效监控画面筛选的系统，其特征在于，在所述模块1中，采用Siamese架构进行大量视频片段对的对比学习，捕获特殊场景与无效画面的特征差异，提高模型对无效画面和特殊场景的区分能力，能够利用监控视频片段间的潜在相似性来过滤冗余画面。

8.根据权利要求6所述的冗余监控画面过滤及无效监控画面筛选的系统，其特征在于，在所述模块2中，SiamConvGRU模型使用具有软注意力的ResNet-50网络提取视频每一帧图像的特征，关注画面前景信息的变化情况。

9.根据权利要求8所述的冗余监控画面过滤及无效监控画面筛选的系统，其特征在于，将提取的图像特征输入到ConvGRU网络以更好的获得视频的时序特征，通过在每个GRU单元的输入到状态和状态到状态转换的计算中使用卷积操作得到ConvGRU单元，以更好地实现视频序列时空关系的建模。

10.根据权利要求6所述的冗余监控画面过滤及无效监控画面筛选的系统，其特征在于，在所述模块2中，通过在所述SiamConvGRU模型间嵌入非局部操作来捕捉视频中每帧图像的空间全局依赖关系，来捕捉图像完整空间信息，建立图像上任意两点之间的依赖关系；具体的，在每个GRU单元之间引入非局部模块，其计算量级很小，当批次大小为4，输入长宽大小为14或7时，通过矩阵运算来计算非局部依赖关系与计算一个卷积层的计算量相当，通过在Siamese架构中融合改进的ConvGRU网络，模型能够充分利用监控视频的帧间时序相关性，同时建立图像空间依赖响应。