CN111582092A

CN111582092A - 一种基于人体骨架的行人异常行为检测方法

Info

Publication number: CN111582092A
Application number: CN202010345247.2A
Authority: CN
Inventors: 吴晓军; 袁佳兴; 原盛
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-25
Anticipated expiration: 2040-04-27
Also published as: CN111582092B

Abstract

本发明提供的一种基于人体骨架的行人异常行为检测方法，包括以下步骤：步骤1，对图像进行行人检测，并利用检测框进行框定，得到行人检测框；步骤2，从步骤1中得到的行人检测框中提取人体骨架信息，得到人体骨架信息图片，并对该图片进行去除背景预处理；步骤3，利用基于残差的多尺度信息融合识别网络对步骤2中的预处理后的人体骨架信息图片进行行人异常行为检测，得到一个四维向量，分别对应人体异常行为的四类动作；本发明有效利用骨架信息以及多尺度信息，大大提升了算法的检测准确率、增强了算法的鲁棒性，使其应用不受场景约束。

Description

一种基于人体骨架的行人异常行为检测方法

技术领域

本发明属于智能视频监控领域，具体涉及一种基于人体骨架的行人异常行为检测方法。

背景技术

近年来随着计算机技术的发展和安防需求的增加，智能视频监控越来越成为计算机视觉领域研究的热点,它与传统意义上的监控系统在智能性上有很大的不同。传统的监控系统采用摄像头记录，人作为主体去进行视频内容的监视识别，这种方式不仅耗费大量的人力、物力，还存在一个很严重的问题：人在长时间从事同一项工作时会很容易疲劳并忽略一些细节的信息。智能视频监控系统通过机器学习或深度学习等算法赋予了机器自主决策的能力，计算机在监控的同时能智能识别监控画面中的内容，协助甚至代替人完成监控任务，从而可以减轻工作人员的负担。当在公共区域发生一些异常行为，例如打架斗殴、奔跑、跌倒时，如果能够对特定行为进行实时检测识别，从而被及时发现并报警制止，便能够很大程度上降低受伤害的可能性，是一种非常有效的安全措施。

目前主流的人体行为识别算法大致分为三类：基于双流法的行为识别算法、结合LSTM的行为识别算法以及基于3D卷积的行为识别算法。其中基于双流法的行为识别算法包含两个网络分支，其中一个网络分支输入为单帧图像，通过提取图像中的特征信息从而得到空间域信息，另外一个网络分支输入为视频中的某一帧以及其后面的n帧图像，通过堆叠连续帧生成光流场来负责处理视频中的光流信息，最后将两个网络的输出进行融合得到识别结果。结合LSTM的行为识别算法中，首先通过卷积神经网络提取输入图像的空间特征，然后将得到的特征图像作为LSTM网络的输入，进而提取行为中的时序特征来进行预测。基于3D卷积的行为识别算法中，对普通2D卷积核进行了改进，扩充到三维，增加的维度来负责处理时间域的信息。与双流法中光流场计算类似，3D卷积也是通过将多个连续帧堆叠组成立方体，然后在组成的立方体中使用3D卷积核进行运算。

虽然这类算法在特定条件下可以较为准确地检测出运动物体以及其运动信息，但是存在较大的局限性，其对于场景条件的要求极其苛刻以至于在实际部署中是不适用的。主要体现在以下两个方面：

一是算法对场景的要求极高，场景和亮度均不能发生变化。所识别的场景或者亮度发生变化时，这类算法可能会将背景误认为前景，即运动物体，去进行错误的识别，会对算法性能产生较大的影响，导致误判率大大增高。光流场其实并不能反映物体的真实运动，当光源发生变化时，物体由于光照的位移其影子发生了变化，产生了光流，会误判物体发生了运动。但是实际情况是物体并没有移动，只是光源发生了变化。由此可以看出，光流法对于光线太过敏感，亮度、场景的变化会对识别造成较大影响。

二是光流法假设的前提是物体发生的是小幅度的运动，即在一定的时间范围内，运动物体不会发生剧烈的位置变化，相邻帧之间运动物体的位移要比较小。但是在实际情况中，比如人的跑动、打斗、跌倒等这些行为是幅度很大的一些行为，对此传统的光流法是不适用的。

在实际应用中，对行人行为的检测场景是极其复杂的，场景中可能有很多噪声的影响；而且亮度随着昼夜、阴晴的交替更是不可能不变的；所以这类算法在实际应用中准确率不高，鲁棒性太差，严重影响了模型实际部署的效果。

发明内容

本发明的目的在于提供一种基于人体骨架的行人异常行为检测方法，解决了现有技术中存在的准确率低、鲁棒性差的缺陷。

为了达到上述目的，本发明采用的技术方案是：

本发明提供的一种基于人体骨架的行人异常行为检测方法，包括以下步骤：

步骤1，对图像进行行人检测，并利用检测框进行框定，得到行人检测框。

步骤2，从步骤1中得到的行人检测框中提取人体骨架信息，得到人体骨架信息图片，并对该人体骨架信息图片进行去除背景预处理。

步骤3，利用基于残差的多尺度信息融合识别网络对步骤2中的预处理后的人体骨架信息图片进行行人异常行为的检测，得到一个四维向量，分别对应人体异常行为的四类动作。

优选地，步骤1中，利用YOLOv3目标检测算法对图像进行行人检测，得到行人检测框。

优选地，步骤2中，利用RMPE框架从步骤1中得到的行人检测框中提取人体骨架信息，得到人体骨架信息图片。

优选地，步骤3中，所述基于残差的多尺度信息融合识别网络包括主干残差网络模块和两支分支网络模块，其中，主干残差网络模块包括输入层，所述输入层的输入端用于接收预处理后的人体骨架信息图片；所述输入层的输出端依次连接第一卷积模块和第二卷积模块，所述第二卷积模块的输出端分别连接一支分支网络模块和第三卷积模块；所述第三卷积模块的输出端分别连接另一支分支网络模块和第四卷积模块；所述第四卷积模块连接第五卷积模块，所述第五卷积模块和两支分支网络模块的输出端进行合并，将多尺度信息融合输送至全连接层；所述输出层为softmax分类器。

优选地，所述第一卷积模块包括一个卷积层和一个池化层；所述第二卷积模块包括三个子残差网络单元，每个子残差网络单元包括三个卷积层；所述第三卷积模块包括四个子残差网络单元，每个子残差网络单元包括三个卷积层；所述第四卷积模块包括二十三个子残差网络单元，每个子残差网络单元包括三个卷积层；所述第五卷积模块包括三个子残差网络单元和一个池化层，每个子残差网络单元包括三个卷积层。

优选地，两支分支网络模块的结构相同，其中，一支分支网络模块包括两个卷积层、两个池化层以及两个全连接层。

与现有技术相比，本发明的有益效果是：

本发明提供了一种基于人体骨架的行人异常行为检测方法，本发明通过对检测方式思路的创新，提出了与现有行为识别算法不同的检测方式，具体地：

一是本发明基于去除背景的人体骨架来进行行为识别，这种方式的优势在于可以降低亮度以及场景对于算法性能的影响，通过提取人体骨架信息并去除背景，有效去除了亮度以及场景的干扰，增强了算法的鲁棒性，使其不受应用场景的约束；

二是本发明的检测方式解决了目前行为识别算法只适用于小幅度运动的问题，对于跑动、打斗等运动幅度较大的行为也能准确识别；

三是本发明设计的基于残差的多尺度信息融合识别网络，可以对图像中不同尺度的信息进行利用，解决了由于行人距离摄像头远近不同而造成的骨架信息大小不同、以及行人没有完全出现在摄像头范围内时造成的骨架信息不完整所导致的漏检、误检问题，有效提升了算法的识别准确率。

附图说明

图1是基于人体骨架的行人异常行为检测流程图；

图2是基于残差的多尺度信息融合识别网络结构图；

图3是分支网络模块结构图；

图4是人体骨架信息提取流程图；

图5基于人体骨架信息的跑动示例；

图6基于人体骨架信息的跌倒示例；

图7基于人体骨架信息的打斗示例；

图8基于人体骨架信息的行走示例。

具体实施方式

下面结合附图，对本发明进一步详细说明。

本发明提供一种基于人体骨架的行人异常行为检测方法，该方法不易受场景因素的干扰，具有较高的鲁棒性以及准确率。所识别的行为包含跑动、打斗、跌倒以及行走四类行为。

具体地，如图1所示，本发明提供的一种基于骨架的行人异常行为检测算法，包括步骤如下：

步骤1，首先使用YOLOv3目标检测算法对图像中的人进行行人检测，将图像中的行人用检测框框起来，得到行人检测框；

步骤2，对步骤1中的行人检测框使用RMPE框架进行人体骨架信息的提取，并将提取到的人体骨架信息图片进行去除背景的操作；

对人体骨架信息图片进行去除背景的具体方法是：对原输入图像做乘以0的操作，将原输入图像置为黑色，仅保留提取到的人体骨架信息，从而达到去除背景的目的。

将去除背景后的人体骨架信息图片保存下来，制作基于人体骨架信息的行人异常行为数据集，所述数据集中包括跑动、打斗、跌倒以及行走四类行为；数据集分为训练集和测试集，训练集用于后续识别网络的训练，测试集用于识别网络准确率的验证。

步骤3，使用本发明所设计的基于残差的多尺度信息融合识别网络(Multi-scaleinformation fusion recognition network,MFN)来进行行人异常行为检测；该网络结构如图2所示，具体地，该基于残差的多尺度信息融合识别网络的主干网络为101层的残差网络，在主干网络的基础上添加了两个用于检测提取多尺度信息的分支网络模块MSIE Block(Multi-scale information extraction,多尺度信息提取)，MSIE Block的结构如图3所示。

MSIE Block分支模块利用通道间的关系进行特征提取，对输入的特征图像处理过程为：首先使用1×1的卷积核对输入特征图的维度进行降维处理以减少网络的计算量，融合特征信息，然后使用3×3的卷积核对降维之后的特征图像进行卷积操作来进一步提取特征，随后经过3×3卷积操作输出的特征图有两个流向，图中的F_g函数为全局平均池化，计算公式如式所示，将各个通道上的特征图平均池化为一个向量值z，这个值在一定意义上表征了特征通道的全局分布。

其中，u为每个通道上的特征图；W为特征图的宽；H为特征图的高；u(i,j)为特征图的坐标点对于的值。

这样做的原因是，可以很好地提取每个通道上的全局特征，最终通过此分支求得的值将会作用于其所在通道的整个特征图上。然后将得到的特征向量进行F_fc操作，如式所示：

a＝F_fc(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

其中，W₁和W₂分别表示两个全连接层的权重参数，δ表示使用ReLU函数，σ表示使用sigmoid函数；

此操作为两个全连接层，第一个全连接层使用ReLU函数增加网络的非线性。

f(z)＝max(0,z)

第二个全连接层使用sigmoid函数，将每个通道的特征输出限制到(0,1)范围内。

加入全连接层的目的是为了通过参数生成各个通道的权重，显式地建模特征图中每个通道相互之间的依赖关系，使用特征重标定的方式，让网络自动学习获取每个通道中特征图的重要性，然后依据所获得的重要程度来提升有效的特征并抑制对当前任务作用不大的特征。通过F_a操作，将得到的权重值通过相乘操作逐通道加权到原特征图像，完成在通道维度上对原特征图像的重标定。

o＝F_a(u,a)＝a·u

最后对得到的新特征图像进行池化处理，在此进行池化处理的目的是减小特征图的维度，因为要直接与主干网络提取到的特征进行连接融合来得到最终的预测输出，所以减少其维度相当于降低其在最终输出结果中的权重，达到辅助检测识别的作用。

MFN网络主要包含3部分：101层的主干残差网络模块、负责多尺度信息的两个分支网络MSIE Block模块，最后将三个模块的输出连接在一起以融合多尺度的特征信息，来得到最终的预测结果。具体介绍如下：

1)网络的输入为行人异常行为数据集中的RGB图像，在进行训练之前对数据集中的图像进行预处理，将图像统一调整为224×224像素大小的图像，并将图像进行随机翻转以达到数据增强的目的。输入图像维度为(224，224，3)。

2)第一卷积模块conv1是一个7×7的卷积核，个数为64，步长为2，后面再进行步长为2的池化操作，此时输出特征图的维度为(56，56，64)。

3)第二卷积模块conv2包含3个子残差网络单元，每个子残差网络单元含有3个卷积层，卷积核的大小分别为1×1、3×3以及1×1，个数分别为64，64，256，此处以及后边卷积模块的1×1卷积核均是做降升维处理，首先将图像的通道数减低，随后使用3×3的卷积核提取特征，再利用1×1的卷积核做升维处理，目的是减少计算量。此卷积模块共有9个卷积层，输出特征图维度为(56，56，256)。

4)下侧的分支网络MSIE Block是由两个卷积层、两个池化层以及两个全连接层组成。卷积核的大小分别为1×1和3×3，个数均为64。第一个1×1的卷积核在此处的作用为改变输入输出的通道数。通过第一个1×1的卷积核对输入做降维处理，因为图像中小尺度的信息占比较小，故减少其在最后参与分类决策的比重。第一个池化层采用全局平均池化，第二个池化层过滤器(filter)的大小为14×14，步长为14，此时网络的输出特征图维度为(4，4，64)。

5)第三卷积模块conv3包含4个子残差网络单元，每个子残差网络单元含有3个卷积层，卷积核的大小分别为1×1、3×3以及1×1，个数分别为128，128，512，此卷积模块共有12个卷积层，输出的特征图维度为(28，28，512)。

6)上侧的分支网络同下侧的MSIE Block。卷积核的大小分别为1×1和3×3，个数均为64。第一个池化层采用全局平均池化，第二个池化层过滤器(filter)的大小为7×7，步长为7，此时网络的输出特征图维度为(2，2，64)。

7)第四卷积模块conv4包含23个子残差网络单元，每个子残差网络单元含有3个卷积层，卷积核的大小分别为1×1、3×3以及1×1，个数分别为256，256，1024，此卷积模块共有69个卷积层，输出的特征图维度为(14，14，1024)。

8)第五卷积模块conv5包含3个子残差网络单元，每个子残差网络单元含有3个卷积层，卷积核的大小分别为1×1、3×3以及1×1，个数分别为512，512，2048，此卷积模块共有9个卷积层，此时输出的特征图维度为(7，7，2048)，随后进行平均池化，输出特征图维度为(1，1，2048)。

9)随后将主干网络以及两个分支的输出进行合并，将多尺度信息融合送入全连接层。

10)输出层使用softmax分类器，它的输出是一个四维向量，分别对应异常行为检测中的四类动作。其公式如下：

其中，p⁽ⁱ⁾表示是第i类动作的概率，是一个标量，z为一个4维向量，表示softmax的输入。使用的损失函数为交叉熵损失函数，表达式如下：

其中,y_i等于0或1，如果预测的动作类别正确，即为1，否则为0。当预测的结果越准确时，损失函数的值就越小。网络中使用的激活函数为ReLU函数。使用激活函数的目的是增加网络的非线性，使其可以拟合任意函数。采用ReLU函数而非sigmoid等函数的原因是ReLU函数的计算量小，而且其非负区间的梯度是一个常数，因此不会出现梯度消失的现象，使得模型的训练收敛速度较快，而且其负数区间为0，起到单侧抑制的作用，这样就会使网络变得稀疏，神经元的激活率下降，防止了过拟合的发生。

步骤4，输出检测结果。

实施例

基于人体骨架来进行行人异常行为检测，具体如下：

步骤1：对于输入图像使用YOLOv3目标检测算法进行行人的人体框标定。

步骤2：对于得到的人体框使用RMPE框架进行人体骨架信息的提取，并将背景信息去除掉。处理流程示例如图4所示，跑动、跌倒、打斗、行走示例如附图5、6、7、8所示。

步骤3：对得到的含有人体骨架信息并去除背景的图像，使用本发明所设计的基于残差的多尺度信息融合识别网络进行行人的异常行为检测。

步骤4：输出检测结果。

经过实验验证，本发明所提出的方法具有较强的鲁棒性以及较高的准确率。

Claims

1.一种基于人体骨架的行人异常行为检测方法，其特征在于，包括以下步骤：

步骤1，对图像进行行人检测，并利用检测框进行框定，得到行人检测框；

步骤2，从步骤1中得到的行人检测框中提取人体骨架信息，得到人体骨架信息图片，并对该人体骨架信息图片进行去除背景预处理；

步骤3，利用基于残差的多尺度信息融合识别网络对步骤2中的预处理后的人体骨架信息图片进行行人异常行为检测，得到一个四维向量，分别对应行人异常行为的四类动作。

2.根据权利要求1所述的一种基于人体骨架的行人异常行为检测方法，其特征在于，步骤1中，利用YOLOv3目标检测算法对图像进行行人检测，得到行人检测框。

3.根据权利要求1所述的一种基于人体骨架的行人异常行为检测方法，其特征在于，步骤2中，利用RMPE框架从步骤1中得到的行人检测框中提取人体骨架信息，得到人体骨架信息图片。

4.根据权利要求1所述的一种基于人体骨架的行人异常行为检测方法，其特征在于，步骤3中，所述基于残差的多尺度信息融合识别网络包括主干残差网络模块和两支分支网络模块，其中，主干残差网络模块包括输入层，所述输入层的输入端用于接收预处理后的人体骨架信息图片；所述输入层的输出端依次连接第一卷积模块和第二卷积模块，所述第二卷积模块的输出端分别连接一支分支网络模块和第三卷积模块；所述第三卷积模块的输出端分别连接另一支分支网络模块和第四卷积模块；所述第四卷积模块连接第五卷积模块，所述第五卷积模块和两支分支网络模块的输出端进行合并，将多尺度信息融合输送至全连接层；所述输出层为softmax分类器。

5.根据权利要求4所述的一种基于人体骨架的行人异常行为检测方法，其特征在于，所述第一卷积模块包括一个卷积层和一个池化层；所述第二卷积模块包括三个子残差网络单元，每个子残差网络单元包括三个卷积层；所述第三卷积模块包括四个子残差网络单元，每个子残差网络单元包括三个卷积层；所述第四卷积模块包括二十三个子残差网络单元，每个子残差网络单元包括三个卷积层；所述第五卷积模块包括三个子残差网络单元和一个池化层，每个子残差网络单元包括三个卷积层。

6.根据权利要求4所述的一种基于人体骨架的行人异常行为检测方法，其特征在于，两支分支网络模块的结构相同，其中，一支分支网络模块包括两个卷积层、两个池化层以及两个全连接层。