CN116503810A

CN116503810A - 一种安全监控视频目标检测方法及相关装置

Info

Publication number: CN116503810A
Application number: CN202310539865.4A
Authority: CN
Inventors: 徐达艺; 陈学台; 欧郁强; 黄观荣; 王奕; 林荣秋; 李宇峰; 胡彬
Original assignee: Guangdong Power Grid Co Ltd; Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-07-28

Abstract

本申请公开了一种安全监控视频目标检测方法及相关装置，首先，采用基于ResNet‑101的Faster‑RCNN网络，实现多目标的定位与分类；然后，设计网络尺度不变性指标，有效验证模型对多尺度目标的检测精度；引入精度高且速度快的特征金字塔网络(FPN)，并对其Conv2层和Conv3层分别采用低层特征增强与尺度特征均衡两种策略来提高对远处目标和小尺度目标的检测能力。本申请通过基于ResNet‑101的Faster‑RCNN网络检测和分类监控视频中的多个目标，再通过改进网络结构，在满足实时性要求的前提下，实现对更小尺寸目标的可靠检测。该方法的虚警率和漏警率低，可广泛应用于智能视频监控系统。

Description

一种安全监控视频目标检测方法及相关装置

技术领域

本申请涉及目标检测技术领域，尤其涉及一种安全监控视频目标检测方法及相关装置。

背景技术

随着视频监控技术的飞速发展，基于视频检测监控场景的目标位置和种类成为主流。安全监控视频中通常会同时出现多个目标，但是由于视角远近不同或者目标本身大小不一，导致画面中的多个目标具有不同尺度，及时准确检测其位置和种类对维护他人生命财产安全及社会稳定有积极意义。

然而传统视频监控技术的智能化水平较低，主要依靠人工辨别来检测监控视频中可能同时出现的多个大小不一的目标。因为监控中心通常配备多个监控大屏，值班人员往往会顾此失彼。此外，长时间值班难免会因为疲劳产生疏忽，极易遗漏画面中的小尺寸目标，可能给监控场所带来重大损失。

时值人工智能技术赋能传统产业的热潮之下，各种场景都需要用于检测多尺度目标的位置和种类的智能检测系统。采用视频分析技术智能检测监控视频中的多尺度目标是高效解决目标检测的有效途径之一。虽然多尺度目标训练策略和多尺度目标测试策略有助于提升网络精度以及尺度不变性，但是前者的训练时间成本过高，后者不适用于实时检测的安全监控场景。

发明内容

本申请提供了一种安全监控视频目标检测方法及相关装置，用于解决现有技术对实时性视频进行小尺寸目标进行检测的可靠性较低的技术问题。

有鉴于此，本申请第一方面提供了一种安全监控视频目标检测方法，所述方法包括：

通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型，对从安全监控终端获取的视频帧图像进行分类和定位；

对视频帧图像的不同类别的目标分别计算尺度与召回率的关系，并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度，从而设计Faster-RCNN网络综合尺度不变性指标；

基于Inception网络，设计底层特征增强的尺度不变性策略，并基于FPN网络自顶向下的特征融合过程为基础，设计尺度特征均衡的尺度不变性策略，从而返回所述视频帧图像中所有目标的位置和种类。

可选地，所述通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型，对从安全监控终端获取的视频帧图像进行分类和定位，具体包括：

通过结构简化后的特征提取网络ResNet-101从所述视频帧图像中获取特征图；

通过区域候选网络判断所有预设anchor内是否有目标并生成可能是前景的候选框；

由兴趣域池化层收集所述候选框的坐标，并根据所述坐标从所述特征图中获取候选框特征图；

由全连接层利用所述候选框特征图判断检测框内目标的类别，通过边界框回归获得检测框的精确位置。

可选地，所述对视频帧图像的不同类别的目标分别计算尺度与召回率关系，并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度，从而设计Faster-RCNN网络综合尺度不变性指标，具体包括：

对视频帧图像不同类别的目标分别计算尺度与召回率关系；统计不同类别间目标尺度与平均召回率之间的相关系数；将所有类别对应的相关系数取平均值，得到Faster-RCNN网络综合尺度不变性指标。

可选地，所述基于Inception网络，设计底层特征增强的尺度不变性策略，并基于FPN网络自顶向下的特征融合过程为基础，设计尺度特征均衡的尺度不变性策略，具体包括：

在Inception网络的基础上，增加卷积核的尺寸，去除最大池化层；根据卷积核的尺寸大小对卷积核进行替换，并设计共享卷积核用于减少计算量；

以原始特征金字塔网络(FPN)自顶向下的特征融合过程为基础，赋予不同层不同的权重，从而融合不同层的特征。

本申请第二方面提供一种安全监控视频目标检测系统，所述系统包括：

分类和定位单元，用于通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型，对从安全监控终端获取的视频帧图像进行分类和定位；

第一设计单元，用于对视频帧图像的不同类别的目标分别计算尺度与召回率的关系，并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度，从而设计Faster-RCNN网络综合尺度不变性指标；

第二设计单元，用于基于Inception网络，设计底层特征增强的尺度不变性策略，并基于FPN网络自顶向下的特征融合过程为基础，设计尺度特征均衡的尺度不变性策略，从而返回所述视频帧图像中所有目标的位置和种类。

可选地，所述分类和定位单元，具体用于：

可选地，所述第一设计单元，具体用于：

可选地，所述第二设计单元，具体用于：

本申请第三方面提供一种安全监控视频目标检测设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的安全监控视频目标检测方法的步骤。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的安全监控视频目标检测方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供了一种安全监控视频目标检测方法，提出了融合分类与定位的多目标检测方法，智能检测监控视频中的多类和多个目标，可以降低依靠人工检测时易出现的漏警现象，提高监控系统的智能化水平；在分类与定位之前检测可能包含目标的前景区域，可以减少复杂环境对目标识别的干扰，从而降低虚警率；设计基于低层特征增强和尺度特征均衡的尺度不变性策略，可以降低智能检测时对小尺度目标的漏警现象，提高智能监控的安全性。

附图说明

图1为本申请实施例中提供的一种安全监控视频目标检测方法实施例的流程示意图；

图2为本申请实施例中提供的一种选择Inception网络的特征提取层的示意图；

图3为本申请实施例中提供的一种增大卷积核的尺寸并裁剪Maxpool层的示意图；

图4为本申请实施例中提供的一种替换卷积核的示意图；

图5为本申请实施例中提供的一种安全监控视频目标检测系统实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，本申请实施例中提供的一种安全监控视频目标检测方法，包括：

步骤101、通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型，对从安全监控终端获取的视频帧图像进行分类和定位；

需要说明的是，融合分类与定位的多目标检测方法具体步骤如下：

Step1：裁剪ResNet-101的分类结构和最后一部分卷积层，以conv4_22层的输出作为特征提取结果。

Step2：输入为特征提取模块输出的1*4096维特征，经回归定位与分类检测模块并行处理，得到各自结果，再分别求出与标签值之间的损失值，最后求和得到总损失，用于BP算法训练。

Step3：分类检测模块通过卷积层将输入的1*4096维特征转化为1*(K+1)维分类结果。其中，K为数据集类别数。采用基于极大似然法的softmax分类器。训练时，对于分类检测模块，第i类的交叉熵损失函数Lcls为：

其中，p_i为softmax函数计算出的第i个网络输出概率；为对应的类别标签，若为对应类别取值为1，反之为0。

Step4：回归定位模块通过卷积层将输入的1*4096维特征转化为1*4维特征。损失计算方式采用为smoothL1，用t＝[tx,ty,tw,th]代表检测框，其中t_x,t_y代表目标的坐标，t_w,t_h代表目标的高和宽，则损失函数Lreg为：

其中，t_i为对应的检测框，/>为对应的目标框。

Step5：计算总损失函数时，需要判断该类是否为背景，即：

其中，u＝0时为背景，使用超参数λ来均衡L_cls与L_reg，一般取值为1。

步骤102、对视频帧图像的不同类别的目标分别计算尺度与召回率的关系，并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度，从而设计Faster-RCNN网络综合尺度不变性指标；

需要说明的是，尺度不变性指标设计具体步骤如下：

Step1：对不同类别，分别计算尺度与召回率的关系。

Step2：对计算得到的类别i的平均召回率-尺度曲线上的尺度di和召回率pi，各类别尺度不变性指标为：

其中，cov为不同类别尺度d_i和召回率p_i之间的协方差，σ为对应尺度d_i和召回率p_i的标准差。

Step3：网络综合尺度不变性指标为：

步骤103、基于Inception网络，设计底层特征增强的尺度不变性策略，并基于FPN网络自顶向下的特征融合过程为基础，设计尺度特征均衡的尺度不变性策略，从而返回视频帧图像中所有目标的位置和种类。

基于底层特征增强的尺度不变性策略，具体步骤如下：

Step1：选择Inception网络的特征提取层，如图2所示。

Step2：增大相应卷积核的尺寸，并裁剪Maxpool层，如图3所示。

Step3：为了进一步在具有相同感受野的情况下增强非线性，用两个Conv3*3来代替一个Conv5*5，用三个Conv3*3代替一个Conv7*7。右边两路共用一个Conv3*3，运算过程相对于输入通道数减半。如图4所示。

基于尺度特征均衡的尺度不变性策略具体步骤如下：

Step1：在使用FPN网络进行自顶向下的特征融合时不同层的作用不同，因此不应直接相加，而应赋予不同的权重，使得相邻层间的特征层更恰当地融合，具体方法如下式来描述。

其中，i代表自底向上计数的特征层，分别取3,2,1。in_i为第i个尺度特征FPN的输入，out_i+1代表上一层特征融合的结果或者最顶层的特征，resize()代表上采样过程，out_i为此次特征融合的输出。n为归一化常量，取2。

Step2：如果需要简化计算过程，可采用下式来均衡尺度特征。

其中，ξ作用为避免被除数为0，取值为0.0001。

以上为本申请实施例中提供的一种安全监控视频目标检测方法，以下为本申请实施例中提供的一种安全监控视频目标检测系统。

请参阅图2，本申请实施例中提供的一种安全监控视频目标检测系统，包括：

分类和定位单元201，用于通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型，对从安全监控终端获取的视频帧图像进行分类和定位；

第一设计单元202，用于对视频帧图像的不同类别的目标分别计算尺度与召回率的关系，并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度，从而设计Faster-RCNN网络综合尺度不变性指标；

第二设计单元203，用于基于Inception网络，设计底层特征增强的尺度不变性策略，并基于FPN网络自顶向下的特征融合过程为基础，设计尺度特征均衡的尺度不变性策略，从而返回视频帧图像中所有目标的位置和种类。

进一步地，本申请实施例中还提供了一种安全监控视频目标检测设备，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令，执行如上述方法实施例所述的安全监控视频目标检测方法的步骤。

进一步地，本申请实施例中还提供了计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述方法实施例所述的安全监控视频目标检测方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种安全监控视频目标检测方法，其特征在于，包括：

2.根据权利要求1所述的安全监控视频目标检测方法，其特征在于，所述通过基于ResNet-101的Faster-RCNN网络作为目标检测的基础模型，对从安全监控终端获取的视频帧图像进行分类和定位，具体包括：

3.根据权利要求1所述的安全监控视频目标检测方法，其特征在于，所述对视频帧图像的不同类别的目标分别计算尺度与召回率关系，并基于尺度大小与召回率的相关性表示检测算法对尺度的敏感度，从而设计Faster-RCNN网络综合尺度不变性指标，具体包括：

4.根据权利要求1所述的安全监控视频目标检测方法，其特征在于，所述基于Inception网络，设计底层特征增强的尺度不变性策略，并基于FPN网络自顶向下的特征融合过程为基础，设计尺度特征均衡的尺度不变性策略，具体包括：

5.一种安全监控视频目标检测系统，其特征在于，包括：

6.根据权利要求5所述的安全监控视频目标检测系统，其特征在于，所述分类和定位单元，具体用于：

7.根据权利要求5所述的安全监控视频目标检测系统，其特征在于，所述第一设计单元，具体用于：

8.根据权利要求5所述的安全监控视频目标检测系统，其特征在于，所述第二设计单元，具体用于：

9.一种安全监控视频目标检测设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的安全监控视频目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的安全监控视频目标检测方法。