CN112733792A

CN112733792A - 一种基于监控视频的倒地行为检测方法

Info

Publication number: CN112733792A
Application number: CN202110083039.4A
Authority: CN
Inventors: 王兰燕; 王祥雪; 林焕凯; 陈利军; 董振江; 刘双广
Original assignee: Xidian University; Gosuncn Technology Group Co Ltd
Current assignee: Xidian University; Gosuncn Technology Group Co Ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-04-30
Anticipated expiration: 2041-01-21
Also published as: CN112733792B

Abstract

本发明属于倒地行为检测领域，特别涉及一种基于监控视频的倒地行为检测方法，首先将监控视频经过OpenCV处理成图片帧；将所述图片帧输入人体检测网络，若检测到人体，则将所述图片帧输入倒地行为二分类网络，进行是否为倒地行为的二分类，所述倒地行为二分类网络采用优化的RefineDet网络；如果是倒地行为，则开始计数并进行时间阈值的计时；在所述时间阈值内，倒地图片帧数如果大于等于所述时间阈值内的总图片帧数的预定比例，则判定所述监控视频发生了倒地事件，否则为非倒地事件。采用优化的RefineDet网络；大幅提高基于监控视频抓拍的图像中人的倒地行为检测的检测率，同时降低误检率提高精度。

Description

一种基于监控视频的倒地行为检测方法

技术领域

本发明涉及一种基于监控视频倒地行为检测方法。

背景技术

倒地检测属于人体行为检测(亦可简称行为检测)，人体行为检测是计算机视觉与模式识别领域重要的研究内容,其在运动分析、智能视频监控、人机交互、民用和军事等众多领域中有着广泛的应用前景。人体行为检测是通过计算机视觉和计算机图形图像处理等技术对视频图像中人的行为进行识别的。近年来，随着计算机算力的提高和深度学习理论与方法的推广应用，涌现出一大批基于深度神经网络的行为检测模型，例如C3D、双流法(TSN)、ST-GCN等。其中，C3D网络是在2D卷积神经网络的基础上增加一个时间维度，便与分析行为的连贯性，但是C3D网络精度不高。双流法是将视频通过OpenCV或者神经网络提取的RGB图像和光流图分别用相同的2D卷积神经网络分别进行空间特征提取和时间特征提取，然后再用加权平均进行融合，精度较高但是提取光流图非常费时，不便用于实际运用。ST-GCN是基于人体骨架图采用图卷积网络捕捉运动的时空信息，精度一般，但是现实中存在很多遮挡问题，精度就大打折扣。

发明内容

针对现有技术的不足，本发明主要是基于倒地行为进行检测，侧重于倒地的那一刻状态，较少用到运动的时空信息，所以本发明所提出的方案是基于人体检测和图形分类的结合，先检测图像中是否存在人体，然后进行倒地、非倒地二分类。

本发明通过以下技术方案实现：

一种基于监控视频的倒地行为检测方法，包括步骤：

S1、将监控视频经过OpenCV处理成图片帧；

S2、将所述图片帧输入人体检测网络，若检测到人体，转向步骤S3；

S3、将所述图片帧输入倒地行为二分类网络，进行是否为倒地行为的二分类，所述倒地行为二分类网络采用优化的RefineDet网络；如果是倒地行为，则开始计数并进行时间阈值的计时；在所述时间阈值内，倒地图片帧数如果大于等于所述时间阈值内的总图片帧数的预定比例，则判定所述监控视频发生了倒地事件，否则为非倒地事件；

进一步地，所述步骤S3中采用的所述优化的RefineDet网络，包含三个部分：ARM模块、ODM模块和TCB模块；将ARM模块中的标准卷积增加一个超参数膨胀率，改成膨胀卷积，能够增大感受野，增强对人体这种大目标的特征提取能力；对TCB模块进行改进，增加捷径连接，增强模型的特征提取能力和速度；

进一步地，所述优化的RefineDet网络；修改原有RefineDet网络锚点框参数，针对监控拍摄到的视频图像中人体的长宽比例统计结果，对每一层特征图上的框的个数和宽高比进行优化调整，同时修改数据增强模块的随机裁剪参数，减少算法对人体的漏检和误检；

进一步地，所述步骤S3中的预定时间为10s；

进一步地，所述步骤S3中的预定比例为70％；

进一步地，采用的损失函数主要包含ARM和ODM两方面，如下式(1)，在ARM部分包含二分类的损失Lb和回归损失Lr；在ODM部分包含多类别分类的损失Lm和回归损失Lr，ARM和ODM两个部分的损失函数都是一起向前传递的；

Narm和Nodm分别指的是ARM和ODM中正样本anchors的数目，pi指的是预测的anchor i的置信度，xi指的是ARM细化后预测的anchor i的坐标，ci和ti是ODM中预测的物体类别和边界框的坐标，

是anchor i真实类别标签，

是anchor i真实的位置和大小；

进一步地，针对基于监控视频的倒地检测任务，用于参考的评价指标包括精确率和召回率，其中精确率为所有检出的目标中正确检测的比例，召回率总检数中正确检测的比例，其中总检数包括正检数、漏检数和误检数，如式(2)和式(3)所示；

精确率＝正检数/(正检数+误检数) (2)

召回率＝正检数/(正检数+漏检数+误检数) (3)；

一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现基于监控视频的倒地行为检测方法的步骤。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器执行所述程序时实现基于监控视频的倒地行为检测方法的步骤。

本发明与现有技术相比存在以下优点：

1、以RefineDet网络为基础，首先借鉴ResNet的思想，对Stem和TCB模块进行改进，增加捷径连接，增强模型的特征提取能力和速度。

2、将ARM中的标准卷积增加一个超参数膨胀率(dilation rate)改成膨胀卷积，能够增大感受野，增强对人体这种大目标的特征提取能力。膨胀卷积已被广泛证明具有增强有效感受野的效果，因此，本发明的改进在深度可分离卷积的基础上增强了卷积计算的有效感受野，使得算法的特征提取能力得到进一步的增强。

3、修改原有RefineDet网络锚点框参数，针对监控拍摄到的视频图像中人体的长宽比例统计结果，对每一层特征图上的框的个数和宽高比进行优化调整，同时修改数据增强模块的随机裁剪参数，减少算法对人体的漏检和误检。

附图说明

以下将结合附图对本发明做进一步详细说明；

图1是现有技术中RefineDet网络结构图；

图2是现有技术中RefineDet网络中Transfer Connection Block的结构图；

图3是ResNet网络的捷径连接图；

图4是本发明基于监控视频的倒地行为检测方法的流程图；

图5是本发明改进后的Transfer Connection Block(TCB)的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明主要是基于倒地行为进行检测，侧重于倒地的那一刻状态，较少用到运动的时空信息，所以本发明所提出的方案是基于人体检测和图形分类的结合，先检测图像中是否存在人体，然后进行倒地、非倒地二分类。

RefineDet是SSD、RPN和FPN思想的结合，一方面引入两阶段类型的目标检测算法中对box的由粗到细的回归思想，另一方面引入类似FPN网络的特征融合操作用于检测网络，可以有效提高对小目标的检测效果，检测网络的框架还是SSD。RefineDet网络主要包含三个部分：anchor refinement module(ARM)、object detection module(ODM)、transferconnection block(TCB)。

ARM模块专注于二分类任务，为后续ODM模块过滤掉大量简单的负样本；同时进行初级的边框校正，为后续的ODM模块提供更好的边框回归起点。ARM模块模拟的是二步法中第一个步骤，如Faster R-CNN的RPN。ODM模块把ARM优化过的anchor作为输入，专注于多分类任务和进一步的边框校正，它模拟的是两阶段类型的目标检测算法中的第二个步骤。ODM模块直接通过TCB连接，转换ARM的特征，并融合高层的特征，以得到感受野丰富、细节充足、内容抽象的特征，用于进一步的分类和回归。RefineDet属于一步法，但是具备了二步法的二阶段分类、二阶段回归、二阶段特征这3个优势。RefineDet的网络结构如图1所示。TCB模块结构图如图2所示。

图像分类网络ResNet18：18指定的是带有权重的层是18层，包括卷积层和全连接层，不包括池化层和BN层。这个网络与VGG相比，滤波器要少，复杂度更小，速度更快特征提取能力更强。ResNet网络的关键点在于捷径连接(shortcut connections)，捷径连接有两种，当前后连接的模块通道相同时，连接方式如图3左，当前后连接的模块通道不同时，通过快捷连接执行线性投影来匹配维度(y＝F(x,W_i)+W_sx)，连接方式如图3右。

表1 ResNet 18网络结构

网络结构：

本发明提出的基于视频监控进行的倒地行为检测大致流程为视频经过OpenCV处理成图片帧，然后输入人体检测网络，检测到人体则进行是否为倒地行为的二分类，如果是倒地就开始计数并计时，时间阈值为10秒，在这10秒内倒地图片帧数如果大于等于10秒内的总图片帧数的70％则判定此视频发生了倒地事件，否则为非倒地事件。本发明大致流程图如图4所示。

一、网络结构

本发明基于监控视频的倒地行为检测为目标，倒地二分类网络采用简单、精度高、速度快的ResNet18，主要对RefineDet的网络结构和训练策略进行针对性的优化，以提高人体检测算法的特征提取能力。

RefineDet网络结构的改进主要有两个方面：

(1)借鉴ResNet的捷径连接思想，将Stem的VGG结构改成ResNet的结构，并且对TCB模块也增加捷径连接，增强模型的特征提取能力和速度。优化后的TCB模块如图5所示。

(2)将ARM中的标准卷积增加一个超参数膨胀率(dilation rate)改成膨胀卷积，能够增大感受野，增强对人体这种大目标的特征提取能力。膨胀卷积已被广泛证明具有增强有效感受野的效果，因此，本提案的改进在深度可分离卷积的基础上增强了卷积计算的有效感受野，使得算法的特征提取能力得到进一步的增强。

二、损失函数：

本提案采用和RefineDet相同的损失函数，如式(1)。损失函数主要包含ARM和ODM两方面。在ARM部分包含二分类的损失Lb和回归损失Lr；同理在ODM部分包含多类别分类的损失Lm和回归损失Lr。需要注意的是ARM和ODM两个部分的损失函数都是一起向前传递的。

是anchor i真实类别标签，

是anchor i真实的位置和大小。

三、训练：

base_lr：0.0010000000475

lr_policy：multistep

weight_decay：0.00500000023749

momentum：0.899999976158

max_iter：300000

solver_mode：GPU

device_id：0,1

average_loss：100

iter_size：16

输入图片大小：320*320

均值文件：mean_value:104；mean_value:117；mean_value:123

四、评价指标：

针对基于监控视频的倒地检测任务，本提案用于参考的评价指标包括精确率和召回率，其中精确率为所有检出的目标中正确检测的比例，召回率(召回率)总检数中正确检测的比例，其中总检数包括正检数、漏检数和误检数，如式(2)和式(3)所示。

精确率＝正检数/(正检数+误检数) (2)

召回率＝正检数/(正检数+漏检数+误检数) (3)

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现基于监控视频的倒地行为检测方法的步骤。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器执行所述程序时实现基于监控视频的倒地行为检测方法的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。在不脱离本发明之精神和范围内，所做的任何修改、等同替换、改进等，同样属于本发明的保护范围之内。

Claims

1.一种基于监控视频的倒地行为检测方法，其特征在于，包括步骤：

S1、将监控视频经过OpenCV处理成图片帧；

S3、将所述图片帧输入倒地行为二分类网络，进行是否为倒地行为的二分类，所述倒地行为二分类网络采用优化的RefineDet网络；如果是倒地行为，则开始计数并进行时间阈值的计时；在所述时间阈值内，倒地图片帧数如果大于等于所述时间阈值内的总图片帧数的预定比例，则判定所述监控视频发生了倒地事件，否则为非倒地事件。

2.根据权利要求1所述的基于监控视频的倒地行为检测方法，其特征在于，所述步骤S3中采用的所述优化的RefineDet网络，包含三个部分：ARM模块、ODM模块和TCB模块；将ARM模块中的标准卷积增加一个超参数膨胀率，改成膨胀卷积，能够增大感受野，增强对人体这种大目标的特征提取能力；对TCB模块进行改进，增加捷径连接，增强模型的特征提取能力和速度。

3.根据权利要求2所述的基于监控视频的倒地行为检测方法，其特征在于，所述优化的RefineDet网络；修改原有RefineDet网络锚点框参数，针对监控拍摄到的视频图像中人体的长宽比例统计结果，对每一层特征图上的框的个数和宽高比进行优化调整，同时修改数据增强模块的随机裁剪参数，减少算法对人体的漏检和误检。

4.根据权利要求1所述的基于监控视频的倒地行为检测方法，其特征在于，所述步骤S3中的预定时间为10s。

5.根据权利要求1所述的基于监控视频的倒地行为检测方法，其特征在于，所述步骤S3中的预定比例为70％。

6.根据权利要求3所述的基于监控视频的倒地行为检测方法，其特征在于，采用的损失函数主要包含ARM和ODM两方面，如下式(1)，在ARM部分包含二分类的损失Lb和回归损失Lr；在ODM部分包含多类别分类的损失Lm和回归损失Lr，ARM和ODM两个部分的损失函数都是一起向前传递的；

是anchor i真实类别标签，

是anchor i真实的位置和大小。

7.根据权利要求3所述的基于监控视频的倒地行为检测方法，其特征在于，针对基于监控视频的倒地检测任务，用于参考的评价指标包括精确率和召回率，其中精确率为所有检出的目标中正确检测的比例，召回率总检数中正确检测的比例，其中总检数包括正检数、漏检数和误检数，如式(2)和式(3)所示；

精确率＝正检数/(正检数+误检数) (2)

召回率＝正检数/(正检数+漏检数+误检数) (3)。

8.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-7任一项所述的基于监控视频的倒地行为检测方法的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于监控视频的倒地行为检测方法的步骤。