CN110633624B

CN110633624B - 一种基于多特征融合的机器视觉人体异常行为识别方法

Info

Publication number: CN110633624B
Application number: CN201910681414.8A
Authority: CN
Inventors: 陈双叶; 张洪路
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2022-11-22
Anticipated expiration: 2039-07-26
Also published as: CN110633624A

Abstract

本发明公开了一种基于多特征融合的机器视觉人体异常行为识别方法，包括人脸属性检测、表情分析、姿态分析、人体异常行为分析。首先对视频中的行人进行人脸检测，将检测到的人脸归一化后输入人脸属性、表情检测模型，得到行人的属性和面部表情；同时对视频中的行人进行人体骨骼关键点检测，得到人体骨骼位位置信息；最后对行人属性，面部表情、姿态特征利用本发明提出的特征融合方法，将融合后的数据输入人体异常行为分析模型分析行人的异常行为，人体异常行为分析模型的设计采用提出的分组交叉传递的思想，该方法具有较好的鲁棒性、移植性、速度快，本方法可以嵌入到摄像头中，分析当前场景中行人的行为；特别是在安防领域应用有深远的意义。

Description

一种基于多特征融合的机器视觉人体异常行为识别方法

技术领域

本发明涉及一种机器视觉人体异常行为识别方法，尤其涉及一种基于多特征融合的机器视觉人体异常行为识别方法，属于智能安防领域。

背景技术

随着计算机技术、互联网和人工智能的发展，视频图像的规模呈指数式的增长。如何让机器按照人类的思维方式去“认识”图像，并实现在不同场景下图像的自动理解，已经成为机器视觉领域一个急需解决的问题。

当今摄像头装置无处不在，每时每刻都会产生海量的视频数据，而摄像头在安防领域的应用更是广泛；但是现在的摄像头大部分都是作为视频的采集装置，不能对场景中人的异常行为进行识别，通常在发生了事故后，再去调取视频图像取证，如果摄像头能对当前视频场景中行人的异常行为做出准确的识别，并联动报警系统，这样可以极大的降低公民面临的危害；从安全角度考虑，异常行为识别，可以通过自动识别视频场景中的异常行为，提前保护周围人的安全，减少不必要的危险发生；从社会角度上讲，这对社会治安，和人们的幸福指数都有很大的帮助；但视频中行人的异常行为分析与识别仍然面临着巨大挑战。

传统的人体异常行为分析大都基于图像处理技术，采用一些形状建模，模板匹配的方法来评估人体的行为。在复杂的现实场景中表现鲁棒性不好，而且效果差，并未得到很好的应用。

发明内容

本发明提供了一种基于多特征融合的机器视觉人体异常行为识别方法。本发明通过对视频图像中人脸属性，表情，人体姿态多个特征进行融合，提出了一种基于多特征融合的机器视觉人体异常行为识别方法，其特征在于包括人体多种特征融合方法以及人体异常行为识别模型的设计方法。

步骤1：获取人体的多个特征

基于WideFace数据集，采用SFace算法，SFace是针对场景种人脸多处度问题而设计的一种网络结构，适合检测视频中的人脸；创建一个多任务网络，基础网络采用ShuffleNet提取特征，shuffleNet网络是一种轻量级卷积神经网络，适合应用在移动端；将SFace算法模型检测到的人脸输入到多任务网络中，输出人脸的五种属性和人脸的五种表情；该多任务网络是把人脸属性和人脸表情当作分类任务去做的，所以输出的结果的形式是10个(p_i,p_j)的概率向量，对10个概率向量做拼接，得到1个 1*20的特征向量；该特征向量的每个位置分别表示五种属性：性别，年龄，肤色，发型，戴眼镜与否，以及五种表情(沮丧，紧张，惊恐，惊讶，喜悦)的概率。

人体骨骼关键点的获取，采用PAF算法，该PAF算法有两个分支，上面的分支对人体关键点做检测，下面的分支对人体关键点做聚类操作，基础网络采用ShuffleNet提取特征，输出的结果是人体18个关键点的坐标位置，包括：鼻子，左右眼睛，左右耳朵，左右肩膀，左右手肘，左右手腕，左右臀部，左右膝盖，左右脚踝，脖子；

步骤2：多特征的特征融合

第一步：对步骤1中获取的特征，包括：人脸表情和人脸属性的特征向量，及人体姿态的18个关键点的特征向量做特征融合。

首先对人体姿态的18个关键点的坐标(x_i,y_i)，两两做差值计算，具体计算如下：

(x_n-y_n)＝(x_j-y_j)-(x_i-y_i)0≤i＜j＜18i,j∈N⁺，n∈[1，153]

其中n表示运算后的生成的坐标，i，j表示18个关键点中的一个关键点

得到2*153维的人体姿态向量表达，然后将该向量转换成1*306维的特征向量，具体计算如下：

将人脸表情，属性的特征向量与人体姿态的特征向量做connect操作，即将两个1维的向量，直接拼接成一个一维的向量，转换成1*326维的特征向量，具体操作如下：

其中(p_k1 q_k2)^T _1*20表示人脸表情、属性特征向量，(x_m y_m)^T _1*306表示人体姿态特征向量，进行connect操作后的特征向量，做为当前帧中行人的行为表达；该特征向量融合了人体的姿态信息，脸部的表情信息和脸部的属性信息；

第二步：间隔一秒再截取一帧，重复第一步操作，得到1*326维的特征向量；同样该向量代表了当前帧中行人的行为表达；依次重复第一步操作，得到10个1*326维的行人行为的特征向量，获取的10个1*326 维的向量代表了行人行为的静态特征。

第三步：为了进一步获得行人行为在时序上的特征变化，接下来对10 个1*326维的特征向量后面的视频帧与前面的视频帧做差值运算，具体计算如下：

其中(p_i1 q_i1 x_i1 y_i1)^T _1*326表示后面视频的特征向量，(p_j1 q_j1 x_j1 y_j1)^T _1*326，表示前面帧的视频特征向量每操作一次得到一个(p_n1 q_n1 x_n1 y_n1)^T _1*326，10 帧图像共得到45个1*326维的特征向量，将45个向量进行拼接得到了一个45*326维的特征向量，具体计算如下：

其中T表示向量转置；

该特征向量融合了人体的姿态信息，人脸的表情信息，属性信息，以及在时序空间上的变化信息；该特征向量作为人体异常行为分析模型最终的输入。

步骤3：人体异常行为分析模型的设计及实现

根据步骤2数据处理操作获得的45*326维的特征数据，首先该处理方法对数据的每个特征做了特征融合，以及对融合后的特征的空间信息也做了关联。

为此通过一个复杂的非线性的深度网络，来进一步拟合当前的高维特征，最后对特征分类；但是由于深度网络的参数多，如果每个神经元都采用全连接的方式，参数量巨大，会使得整个模型对算力的要求高；考虑到整个人体异常行为分析的模型，人脸表情，属性，人体姿态的获取，都采用的深度网络模型，时间消耗大；如果异常行为分析模型参数量和float计算都很大，会使得整个异常行为分析模型因为对算力要求高，导致在实际应用的过程中需要更高的服务配置，同时维护成本也变得更高，无法在现实场景中得到应用；所以，对人体异常行为分析模型速度的提升就变得尤为重要。

设计了一种网络模型(深度可分离的交叉前向传递的网络)来降低模型的参数和float计算量；网络模型的结构如图4所示；

模型设计细节如下：

第一步：网络模型第一层有2048个神经元，和输入层是全连接的关系，即输入的每个特征值，都乘以一个权重w，作为下一个神经元的值，具体如图5所示；为了表示接下来每层的分组的情况，定义如下公式：

其中k表示第几层神经网络，x表示k层的第几组，y表示第x组中的第几组，z表示第xy 组的神经元个数；

第二步：第一层与第二层以分组的形式连接，具体如下：将第一层的神经元分成4组，每组512个神经元，根据公式1-1可知，对第一层而言，k＝1x∈[1，4]y＝1z＝512。第一层的每组神经元与第二层神经元之间是全连接的方式，但每个组间是相互独立传递的。这样就得到了第二层神经元，第二层神经元总个数为512个，由4组组成；每组神经元个数为128。

第三步：由于第二层与第三层之间采用组间交叉传递的方式，所以把第二层的每一组内又平均分成4组，根据公式1-1可知，此时 k＝2x∈[1，4]y∈[1，4]z＝32，具体结构如图6所示。如果整个特征只在组间传递，不同组的输出与输入没有关系，减少联系必然会使计算量减小，但同时也会导致信息的丢失。会导致下一组的神经元只传递了上一层的某一组的特征，并没有学习其他组的特征信息；为了可以让组间的信息进行传递，我们对第二层和第三层的神经元进行了组间信息交叉传递，因为在同一组神经元蕴含的信息可能是相同的，如果在不同的组之后交换一些神经元的传递方向，那么就能交换信息，使得各个组的信息更丰富，能提取到的特征自然就更多，这样是有利于得到更好的结果。具体过程如下：

与下层神经元中

做全连接

与下层神经元中

做全连接

与下层神经元

做全连接

与下层神经元中

做全连接

与下层神经元中

做全连接

以此类推

这样就得到了第三层神经元，神经元总个数为128，由4组组成，每组32个神经元，具体过程如图7所示；

第四步：为了对分离后的特征融合，第三层与第四层神经元连接方式去掉了分组和交叉的传递过程，直接通过全连接的方式传递，目的是将每组的信息融合；

第五步：第四层直接到输出层，输出两个神经元，一个输出异常行为的概率，一个输出非异常行为的概率。具体结构如图8所示。

以上解释了整个异常行为分析模型内部结构的连接方式以及背后的原理；接下来阐述每层网络之间的实现细节，以及模型的计算复杂度比较。

模型内部实现细节：

由于整个模型是拟合一个非线性的任务，所以我们在每一层神经元之间增加了relu激活函数，该函数的公式如下：

f(x)＝max(0，x)

每层神经元增加Batch Normalization批标准化，加快模型的收敛速度；因为深层神经网络在做非线性变换前的激活输入值随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者变动，之所以训练收敛慢，是由于整体分布逐渐往非线性函数的取值区间的上下限两端靠近，导致反向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因，而批归一化就是通过一定的规范化手段，把每层神经网络任意神经元输入值的分布强行拉回到均值为0、方差为1的标准正态分布，其实就是把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，输入的小变化就会导致损失函数较大的变化，通过这种方法让梯度增大，避免梯度消失问题产生，此外梯度增大意味着学习收敛速度加快，能大大加快训练速度。

具体公式如下：

最后一层使用softmax操作，将输出的特征进行归一化成[0,1]之间的概率向量，公式如下：

损失函数采用交叉熵损失函数，公式如下：

模型复杂度比较：

对传统的深度神经网络和使用深度可分离交叉传递的深度网络在相同的测试集上做了复杂度和精度上的对比，结果如下：

通过结果可以发现，使用我们提出的方法，在精度稍有损失的情况下，参数量降低了约83％，速度提高了12倍。

本发明的异常行为识别模型提出了一种在减少模型复杂度的同时保持模型性能的方法，该方法的核心思想是使用分组传递和组间交叉传递来降低参数量，同时基本保持原来的精度；每层神经元的个数，以及每层对神经元分成多少组，取决于自己的硬件设备和场景下对速度和精度的要求，我们只是通过实验证明了2048-512-128-32-2的连接方式，每层神经元分4组进行组间传递，组内分4组做交叉传递的这样一种组合方式在我们的硬件设备上，速度和精度为最优。如果使用本发明提出的方法，可以根据自己实际硬件设备和数据量的大小，选择最优的组合方式。

与现有的技术相比，本发明给出的方法可以智能的分析视频中人体异常行为，具有较好的鲁棒性，可移植性。

附图说明

图1整体结构示意图；

图2表情、属性检测模型图；

图3姿态估计模型图；

图4异常行为分析模型图；

图5全连接结构图；

图6分组传递图；

图7交叉传递图；

图8融合组间特征图；

具体实施方式

1、人脸表情，属性检测

首先是对视频中的人脸进行检测，人脸检测采用的是SFace算法，该算法设计了Anchor-based和Anchor-free两个分支，两个分支都使用IoU Loss做为Regression Loss，这种调整有助于统一两个分支的输出方式，优化组合结果，可以从一定程度上解决人脸多尺度问题。

然后将检测到的人脸，进行人脸表情和人脸属性检测，针对人脸表情检测和属性识别设计了一款多任务网络，如图2所示，该模型的输入是一张人脸，经过深度卷积神经网络提取特征，考虑到实时性要求， Backbone采用shuffleNetV2网络；同时对训练后的模型做压缩操作，即除去一些参数为0的卷积核，因为这些卷积核在整个网络中是不起作用的；在卷积神经网络最后，然后输出是两个分支，经过softmax操作，A 分支输出了五种表情的概率，B分支输出五种属性概率；将该模型输出的人脸表情结构和人脸属性的特征向量作为人体异常行为分析模型的输入。具体结构如图2所示。

2、姿态估计

对人体姿态进行估计，借助PAF算法思想，该算法有上下两个分支，一个分支负责检测人体骨骼关键点，一个分支负责对关键点聚类。为了达到实时性要求，同样采用shuffleNetV2这款轻量级网络结构，如图4 所示。通过输入一张有行人的图片，通过上面分支进行人体骨骼点位置和置信度检测，下面的分支完成人体关键点聚类的工作，最终得到人体的18个关键点位置坐标。该输出结果，作为人体异常行为分析的一个特征。具体流程如图3所示。

3、人体异常行为分析

数据准备，需要将含有人体异常行为和不含有人体异常行为的视频序列进行标注，每个视频序列10s，将标注好的视频序列作为人体异常行为分析模型的训练和测试数据；对每一个10s的视频序列做如下操作：每隔 1s截取一帧图像，将截取的图像进行步骤1、2操作，将步骤1、2操作得到的特征数据，通过本发明的数据处理方法进行处理，得到一个45*326 维的特征向量。将处理后的结果，采用本发明设计模型的方法设计模型，对模型进行有监督训练，优化Loss函数。将训练好的模型应用在现实场景中。具体流程如图4所示。

Claims

1.一种基于多特征融合的机器视觉人体异常行为识别方法，其特征在于：本方法包括如下步骤，

步骤1：获取人体的多个特征

基于WideFace数据集，采用SFace算法，SFace是针对场景种人脸多处度问题而设计的一种网络结构，适合检测视频中的人脸；创建一个多任务网络，基础网络采用ShuffleNet提取特征，shuffleNet网络是一种轻量级卷积神经网络，适合应用在移动端；将SFace算法模型检测到的人脸输入到多任务网络中，输出人脸的五种属性和人脸的五种表情；该多任务网络是把人脸属性和人脸表情当作分类任务去做的，所以输出的结果的形式是10个(p_i,p_j)的概率向量，对10个概率向量做拼接，得到1个1*20的特征向量；该特征向量的每个位置分别表示五种属性：性别，年龄，肤色，发型，戴眼镜与否，以及五种表情概率，五种表情分别为沮丧、紧张、惊恐、惊讶、喜悦；

人体骨骼关键点的获取，采用PAF算法，该PAF算法有上面和下面两个分支，上面的分支对人体关键点做检测，下面的分支对人体关键点做聚类操作，基础网络采用ShuffleNet提取特征，输出的结果是人体18个关键点的坐标位置，包括：鼻子，左右眼睛，左右耳朵，左右肩膀，左右手肘，左右手腕，左右臀部，左右膝盖，左右脚踝，脖子；

步骤2：多特征的特征融合

第一步：对步骤1中获取的特征，包括：人脸表情和人脸属性的特征向量，及人体姿态的18个关键点的特征向量做特征融合；

(x_n-y_n)＝(x_j-y_j)-(x_i-y_i) 0≤i＜j＜18 i,j∈N⁺，n∈[1，153]

第二步：间隔一秒再截取一帧，重复第一步操作，得到1*326维的特征向量；同样该向量代表了当前帧中行人的行为表达；依次重复第一步操作，得到10个1*326维的行人行为的特征向量，获取的10个1*326维的向量代表了行人行为的静态特征；

第三步：为了进一步获得行人行为在时序上的特征变化，接下来对10个1*326维的特征向量后面的视频帧与前面的视频帧做差值运算，具体计算如下：

其中(p_i1 q_i1 x_i1 y_i1)^T _1*326表示后面视频的特征向量，(p_j1 q_j1 x_j1 y_j1)^T _1*326，表示前面帧的视频特征向量每操作一次得到一个(p_n1 q_n1 x_n1 y_n1)^T _1*326，10帧图像共得到45个1*326维的特征向量，将45个向量进行拼接得到了一个45*326维的特征向量，具体计算如下：

其中T表示向量转置；

该特征向量融合了人体的姿态信息，人脸的表情信息，属性信息，以及在时序空间上的变化信息；该特征向量作为人体异常行为分析模型最终的输入；

步骤3：人体异常行为分析模型的设计及实现

根据步骤2数据处理操作获得的45*326维的特征数据，首先该处理方法对数据的每个特征做了特征融合，以及对融合后的特征的空间信息也做关联。

2.根据权利要求1所述的一种基于多特征融合的机器视觉人体异常行为识别方法，其特征在于：设计深度可分离的交叉前向传递的网络来降低模型的参数和float计算量；

模型设计细节如下：

第一步：网络模型第一层有2048个神经元，和输入层是全连接的关系，即输入的每个特征值，都乘以一个权重w，作为下一个神经元的值；为了表示接下来每层的分组的情况，定义如下公式：

其中k表示第几层神经网络，x表示k层的第几组，y表示第x组中的第几组，z表示第xy组的神经元个数；

第二步：第一层与第二层以分组的形式连接，具体如下：将第一层的神经元分成4组，每组512个神经元，根据公式1-1可知，对第一层而言，k＝1 x∈[1，4] y＝1 z＝512；第一层的每组神经元与第二层神经元之间是全连接的方式，但每个组间是相互独立传递的；这样就得到了第二层神经元，第二层神经元总个数为512个，由4组组成；每组神经元个数为128；

第三步：由于第二层与第三层之间采用组间交叉传递的方式，所以把第二层的每一组内又平均分成4组，根据公式1-1可知，此时k＝2 x∈[1，4] y∈[1，4] z＝32，具体结构如图6所示；如果整个特征只在组间传递，不同组的输出与输入没有关系，减少联系必然会使计算量减小，但同时也会导致信息的丢失；会导致下一组的神经元只传递了上一层的某一组的特征，并没有学习其他组的特征信息；为了可以让组间的信息进行传递，我们对第二层和第三层的神经元进行了组间信息交叉传递，因为在同一组神经元蕴含的信息可能是相同的，如果在不同的组之后交换一些神经元的传递方向，那么就能交换信息，使得各个组的信息更丰富，能提取到的特征自然就更多，这样是有利于得到更好的结果；具体过程如下：