CN112418032A

CN112418032A - 一种人体行为识别方法、装置、电子设备及存储介质

Info

Publication number: CN112418032A
Application number: CN202011256262.6A
Authority: CN
Inventors: 王亚飞; 朱伟; 陈涛; 张飞
Original assignee: Wuhan Ruitaihua Software Technology Co ltd; BEIJING RESEARCH CENTER OF URBAN SYSTEM ENGINEERING; Beijing Global Safety Technology Co Ltd
Current assignee: Wuhan Ruitaihua Software Technology Co ltd; BEIJING RESEARCH CENTER OF URBAN SYSTEM ENGINEERING; Beijing Global Safety Technology Co Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-02-26

Abstract

本发明提供一种人体行为识别方法、装置、电子设备及存储介质，该方法包括：利用卷积神经网络对视频RGB帧提取最后一个卷积层的特征得到行为表观特征，基于光流特征计算层对行为表观特征迭代优化，得到光流特征，将多帧光流特征自适应聚合后，对光流特征与表观特征进行融合，并基于注意力图对表观特征进行引导，得到运动信息增强的表观特征，将运动信息增强的表观特征与光流特征传入分类融合层，并将分类器的预测分数融合得到行为预测结果，基于预测结果计算损失，对模型迭代更新得到收敛后的人体行为识别模型。通过该方案解决了现有行为识别方法无法准确表示行为动态信息的问题，可以提高人体行为识别的准确性，增强鲁棒性，并保障实时性。

Description

一种人体行为识别方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉领域，尤其涉及一种人体行为识别方法、装置、电子设备及存储介质。

背景技术

人体行为识别是一种通过分析视频等数据，对人体行为进行识别分析的技术，其广泛应用于智能监控、人机交互、行为预警、医疗健康等领域。

目前，已经公开的行为识别方法可以分为两类：基于手工设计特征的方法和基于深度学习的方法。基于手工设计特征的方法常采用模板匹配方式，将运动图像序列转化为一个或一组静态的模板，通过待识别样本的模板与已知的模板进行匹配获得识别结果。其主要方法包括：运动能量图像(MEI)和运动历史图像(MHI)，基于轮廓的平均运动形状(MMS)和基于运动前景的平均运动能量(AME)等。基于深度学习的方法，一般通过卷积神经网络提取每一帧的行为表观特征，然后将多帧信息进行融合得到识别结果，如基于双流卷积神经网络，利用静态支路从RGB视频帧中提取行为的表观特征，利用动态支路从视频光流帧中提取动态信息，然后将两个支路的行为预测进行融合，获得分类结果。如将卷积神经网络与长短期记忆网络级联起来，构成一个循环卷积结构。在每一步，卷积神经网络提取每一帧的特征，然后送入到长短期记忆网络建模行为的时序动态信息。如基于3D卷积神经网络的方法直接采用3维的卷积核沿着视频的时空维度进行卷积运算，获得行为的时空信息。如ARTNet提出的SMART Block，基于二维卷积运算提取行为表观特征，结合三维卷积运算提取行为的时序特征得到行为的时空信息。

一般，手工设计的特征算法受复杂背景影响较大，在有限的种类，受限的场景，小规模数据集上效果较好,但是不能处理大规模现实场景数据集，同时手工设计的特征具有较高的计算复杂度，不利于做到实时处理。而基于深度学习方法难以有效的捕捉到行为的动态信息，并且不能采用有效的方法引导卷积神经网络提取到与行为相关的区域。同时，提取相应光流图片的特征，需要的存储空间大，获取困难。

在已公开最为接近的现有技术中，Piergiovanni A和Ryoo M S提出的《Representation Flow for Action Recognition》中通过神经网络提取RGB帧的卷积层特征、对行为特征迭代优化处理后得到光流特征，将光流特征输入至分类器进行分类以识别人体行为，可以一定程度解决上述问题，然而在物体快速移动、遮挡、模糊等导致的动态特征复杂时，该方法识别结果的准确性会大幅下降。

发明内容

有鉴于此，本发明实施例提供了一种人体行为识别方法、装置、电子设备及存储介质，以解决现有识别方法在物体快速移动、遮挡或成像模糊等情况下，识别结果不准确的问题。

在本发明实施例的第一方面，提供了一种人体行为识别方法，包括：

获取人体行为数据集后，通过卷积神经网络对视频RGB帧进行特征提取，将最后一个卷积层的特征作为人体行为表观特征；

基于光流特征计算层对所述人体行为表观特征进行迭代优化，得到包含有人体短期行为动态信息的光流特征；

将连续的多帧光流特征自适应聚合后，对光流特征与表观特征进行融合，并基于注意力图对表观特征进行引导，得到运动信息增强的表观特征；

将运动信息增强的表观特征与光流特征传入分类融合层，并将分类器的预测分数融合得到行为预测结果；

根据行为预测结果和行为类别，通过交叉熵损失函数计算损失，将损失进行误差反向传播，迭代更新网络参数，直至人体行为识别模型收敛，以基于收敛后的人体行为识别模型进行行为识别。

在本发明实施例的第二方面，提供了一种人体行为识别装置，包括：

提取模块，用于获取人体行为数据集后，通过卷积神经网络对视频RGB帧进行特征提取，将最后一个卷积层的特征作为人体行为表观特征；

优化模块，用于基于光流特征计算层对所述人体行为表观特征进行迭代优化，得到包含有人体短期行为动态信息的光流特征；

融合模块，用于将连续的多帧光流特征自适应聚合后，对光流特征与表观特征进行融合，并基于注意力图对表观特征进行引导，得到运动信息增强的表观特征；

分类模块，用于将运动信息增强的表观特征与光流特征传入分类融合层，并将分类器的预测分数融合得到行为预测结果；

更新模块，用于根据行为预测结果和行为类别，通过交叉熵损失函数计算损失，将损失进行误差反向传播，迭代更新网络参数，直至人体行为识别模型收敛，以基于收敛后的人体行为识别模型进行行为识别。

在本发明实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明实施例第一方面所述方法的步骤。

本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。

本发明实施例中，利用卷积神经网络对视频RGB帧提取最后一个卷积层的特征得到行为表观特征，基于光流特征计算层对行为表观特征迭代优化，得到光流特征，将多帧光流特征自适应聚合后，对光流特征与表观特征进行融合，并基于注意力图对表观特征进行引导，得到运动信息增强的表观特征，将运动信息增强的表观特征与光流特征传入分类融合层，并将分类器的预测分数融合得到行为预测结果，基于预测结果计算损失，对模型迭代更新得到收敛后的人体行为识别模型。对多帧光流特征融合，并基于注意力机制增强表观特征，可以解决由于物体快速移动、遮挡或模糊等导致行为识别结果不准确的问题，可提高人体行为识别的准确性，具有更强的鲁棒性，基于光流特征和表观特征分类分数的融合，降低光流特征提取过程需要的计算量，保障人体行为识别的实时性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，显而易见地，下面描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他附图。

图1为本发明的一个实施例提供的一种人体行为识别方法的流程示意图；

图2为本发明的一个实施例提供的同一行为不同运动速度的光流特征计算结果对比示意图；

图3为本发明的一个实施例提供的表观特征与光流特征融合的原理示意图；

图4为本发明的一个实施例提供的构建人体行为识别模型的原理示意图；

图5为本发明的一个实施例提供的一种人体行为识别装置的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

本发明的说明书或权利要求书及上述附图中的术语“包括”以及其他相近意思表述，意指覆盖不排他的包含，如包含一系列步骤或单元的过程、方法或系统、设备没有限定于已列出的步骤或单元。

可以理解的是，本发明通过对卷积神经网络训练，得到收敛的人体行为识别模型，基于人体行为识别模型进行行为识别。传统的卷积神经网络训练，由于光流特征提取需要巨大的计算量且存储空间，实际识别过程中难以满足实时性要求，且易受物体移动速度、遮挡等影响，准确率不高。

在本申请的一个实施例中，采用34层的残差卷积神经网络，其由以下部分组成：

第一部分为输入层，具有三个通道，表示RGB(Red,Green,Blue)的三个分量，使用不同的标准差和方差对三个分量分别进行归一化。

第二、第三、第四、第五部分均由不同数量的残差卷积块(Buildingblock)构成，其中第二部分包含3个残差卷积块，第三部分包含4个残差卷积块，第四部分包含6个残差卷积块，第五部分包含3个残差卷积块。四个部分级联起来依次对第一部分的输出进行处理，提取行为的表观特征。

每个残差卷积块由一层卷积层、一层激活函数层和一层卷积层同等映射组成，其具体计算公式为：

其中ReLU是非线性激活函数ReLU(x)＝max(x,0),x^l-1和x^l分别是第l个卷积残差块的输入和输出，

和

分别表示第l个卷积残差块的卷积核参数。通过卷积核对输入图像进行处理，学习行为的表观特征。

第六部分为光流特征计算层，使用特定的卷积核处理每一个特征图，得到每个特征图的梯度和散度，迭代优化光流场。

第七部分为特征融合层，将光流特征处理成注意力图，然后对行为的表观特征进行增强，得到运行信息增强的表观特征。

第八部分为分类融合层，包含有表观特征分类器和动态特征分类器，设置特定个数的输出神经元，每个神经元表示一种特定的行为种类，将两个分类器的预测分数融合后，最大神经元值所在的位置作为所述行为识别网络预测的行为类别。

基于以上的卷积神经网络结构，对其进行训练得到识别模型，可以提高模型的识别能力，具有更强的鲁棒性，同时，可以减小计算量和存储空间的要求。

请参阅图1，图1为本发明一个实施例提供的一种人体行为识别方法的流程示意图，包括：

S101、获取人体行为数据集后，通过卷积神经网络对视频RGB帧进行特征提取，将最后一个卷积层的特征作为人体行为表观特征；

获取研究人员使用的人体行为视频数据集，利用卷积神经网络对视频RGB帧提取最后一个卷积层的特征，得到行为表观特征。

其中，将视频帧送入卷积神经网络前，对所述人体行为视频数据集的样本数据进行预处理，再对样本数据归一化处理，将归一化后的样本视频数据传入卷积神经网络中，提取最后一个卷积层的特征作为行为的表观特征。

示例性的，采用了两个HMDB51和UCF101两个视频行为数据集，HMDB51包含6766个样本，分布在51个不同的类别中。UCF101包含101个不同的类别，13320个视频片段。

本实施例采用的归一化方法为标准差标准化，其公式为：

式中input_channel表示不同输入视频RGB帧不同信道的分量，mean_channel表示RGB信道的均值，std_channel表示RGB信道的方差，output_channel表示RGB不同信道分量经过标准差标准化后的值，其中，channel可为R、G或B。

使用2D卷积神经网络提取每一帧行为视频的特征向量，具体的，利用预训练的ResNet-34初始化2D卷积神经网络的各层参数，通过2D卷积神经网络对数据集的所有样本进行特征提取，提取最后一个卷积层的特征作为行为表观特征，得到特征序列F＝[F₁,F₂,…,F_N],F_n表示第n帧视频的表观特征，N表示一个视频包含的总帧数。

进一步的，通过二维卷积运算处理多个连续的视频帧来逐层的学习到行为的表观特征，二维卷积运算的计算公式为：

式中，w^mn表示卷积核(m，n)处的权重，F_l表示第l层的特征图，l为1时，表示输入图像，F_l+1表示三维卷积层的输出，第l+1层的特征图，M和N表示卷积核的宽度和高度，x和y表示像素点在特征图的位置。

S102、基于光流特征计算层对所述人体行为表观特征进行迭代优化，得到包含有人体短期行为动态信息的光流特征；

其中，所述光流特征计算层中，使用特定的卷积核处理每一个特征图，得到每个特征图的梯度和散度，迭代优化光流场。使用卷积神经网络中的卷积计算替代传统光流计算算法TV-L1中梯度和散度的计算方法，可以大大减少计算量。

将连续两帧视频帧的表观特征(F_n，F_n+1)输入至光流特征计算层，得到x，y两个方向的梯度，表示为u∈R^2×W×H,W和H分别表示特征图的宽度和高度。

初始化光流场u和双向量场为0，通过迭代优化更新光流场u：

u＝v+θ·div(p)；

式中，ρ表示两帧位移特征之间运动残差，

是两帧位移特征之间运动残差ρ的常数部分，θ控制TV-L1正则化项的权重，λ控制输出的平滑性，τ控制时间步长，div(p)表示计算ρ散度，公式如下：

div(p)＝p_x*ω_x+p_y*ω_y；

p_x和p_y分别表示x和y方向，ω_x＝[-1 1]，

符号

表示求倒数，

和

分别表示求x和y方向的偏导数；

经过迭代优化过程，可以获得包含行为动态信息的光流特征向量。

S103、将连续的多帧光流特征自适应聚合后，对光流特征与表观特征进行融合，并基于注意力图对表观特征进行引导，得到运动信息增强的表观特征；

在某些视频帧中，由于行为主体可能出现因失焦、物体快速移动、遮挡等导致光流特征提取结果不可靠，可以通过注意力机制加权聚合相邻帧的光流特征图，减小视频数据失焦、快速移动、遮挡等产生的影响。如图2所示，射箭行为不同运动速度的光流特征计算结果对比示意图。在慢速移动的行为间隔，光流特征计算的结果无法定位显著运动的物体，导致无法使用运动信息对表观特征进行增强。所以，本发明中通过加权聚合相邻帧的光流特征图，得到显著运动注意力图，来对当前帧进行处理。

具体的，基于注意力机制加权聚合相邻帧的光流特征图，其计算公式为：

其中，

表示加权聚合后光流特征图，ω_j→i表示第j帧光流特征向第i帧特征聚合的权重，F_j表示第j帧光流特征，i和j为计数变量，K表示加权聚合相邻帧的数量，如K＝16；

通过激活函数ReLU(x)＝max(0,x)对特征加权聚合后结果进行非线性映射，得到注意力图，将注意力图与表观特征进行逐像素相乘，得到运动信息增强的表观特征。

在一个实施例中，如图3所示，实际计算过程中，使用1×1卷积运算实现。然后使用激活函数ReLU对特征加权聚合后的结果进行非线性映射，得到第j帧的注意力图：

最后将该注意力图与表观特征进行逐像素相乘，运动信息增强的表观特征。

其中

表示逐像素相乘运算。

S104、将运动信息增强的表观特征与光流特征传入分类融合层，并将分类器的预测分数融合得到行为预测结果；

其中，所述分类融合层包含表观特征分类器和动态特征分类器，并设置有预定个数的输出神经元，每个神经元表示一种特定的行为种类，将两个分类器的预测分数融合后，将最大神经元值所在的位置作为行为预测的类别。

通过两个分类器捕捉两个特征间的互补优点，使训练模型更具鲁棒性。

S105、根据行为预测结果和行为类别，通过交叉熵损失函数计算损失，将损失进行误差反向传播，迭代更新网络参数，直至人体行为识别模型收敛，以基于收敛后的人体行为识别模型进行行为识别。

其中，所述交叉熵损失函数为：

其中，y_i表示预测为第i类的概率，

表示第i类的标签。

图4示出了人体行为表观特征和光流特征融合的原理示意图，基于提取表观特征和光流特征构建人体行为识别模型。

在一个实施例中，所述基于收敛后的人体行为识别模型进行行为识别具体为：

获取一段待识别的视频图像，将视频的每一帧RGB三个信道的像素值分别进行标准化，对其进行预处理；

利用训练好的2D卷积神经网络对每个视频RGB帧提取最后一个卷积层的特征，得到行为的表观特征；

将所述所有帧的表观特征输入到光流特征计算模块中，得到包含有短期行为动态信息的光流特征；

将行为的表观特征与行为的动态特征输入到人体行为识别模型的特征融合层，得到运动信息增强的表观特征。

将所述的运动信息增强的表观特征和光流特征输入到人体行为识别模型的分类层中，通过分类器对其进行分类处理，得到两种特征的预测分数，最后将两个预测分数进行融合，得到该视频图像的行为分类结果。

通过本实施例提供的方法，从行为的表观特征与行为的动态特征两个方面对行为进行时空建模，同时引入光流特征聚合层和特征融合层，从而可排除行为主体失焦，快速移动，遮挡等问题的干扰，提高时序建模能力，获得鲁棒的行为时空特征。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图5为本发明实施例提供的一种人体行为识别方法装置结构示意图，该装置包括：

提取模块510，用于获取人体行为数据集后，通过卷积神经网络对视频RGB帧进行特征提取，将最后一个卷积层的特征作为人体行为表观特征；

可选的，对人体行为数据集进行预处理，将样本数据归一化，并将归一化的样本数据传送至卷积神经网络中。

优化模块520，用于基于光流特征计算层对所述人体行为表观特征进行迭代优化，得到包含有人体短期行为动态信息的光流特征；

其中，所述光流特征计算层中，使用特定的卷积核处理每一个特征图，得到每个特征图的梯度和散度，迭代优化光流场。

融合模块530，用于将连续的多帧光流特征自适应聚合后，对光流特征与表观特征进行融合，并基于注意力图对表观特征进行引导，得到运动信息增强的表观特征；

具体的，基于注意力机制加权聚合相邻帧的光流特征图，计算公式为：

其中，

表示加权聚合后光流特征图，ω_j→i表示第j帧光流特征向第i帧特征聚合的权重，F_j表示第j帧光流特征，i和j表示计数变量，K表示加权聚合相邻帧的数量，如K＝16；

分类模块540，用于将运动信息增强的表观特征与光流特征传入分类融合层，并将分类器的预测分数融合得到行为预测结果；

更新模块550，用于根据行为预测结果和行为类别，通过交叉熵损失函数计算损失，将损失进行误差反向传播，迭代更新网络参数，直至人体行为识别模型收敛，以基于收敛后的人体行为识别模型进行行为识别。

可以理解的是，在一个实施例中，所述电子设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现人体行为识别模型的建立并对人体行为进行识别。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括步骤S101～S105，所述的存储介质包括如：ROM/RAM、磁碟、光盘等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人体行为识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取人体行为数据集还包括：

对人体行为数据集进行预处理，将样本数据归一化，并将归一化的样本数据传送至卷积神经网络中。

3.根据权利要求1所述的方法，其特征在于，所述光流特征计算层中，使用特定的卷积核处理每一个特征图，得到每个特征图的梯度和散度，基于特征图的梯度和散度迭代优化光流场。

4.根据权利要求1所述的方法，其特征在于，所述基于注意力图对表观特征进行引导，得到运动信息增强的表观特征包括：

基于注意力机制加权聚合相邻帧的光流特征图，计算公式为：

其中，

表示加权聚合后光流特征图，ω_j→i表示第j帧光流特征向第i帧特征聚合的权重，F_j表示第j帧光流特征，i和j表示计数变量，K表示加权聚合相邻帧的数量；

5.根据权利要求1所述方法，其特征在于，所述分类融合层包含表观特征分类器和动态特征分类器，并设置有预定个数的输出神经元，每个神经元表示一种特定的行为种类，将两个分类器的预测分数融合后，将最大神经元值所在的位置作为行为预测的类别。

6.一种人体行为识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述基于注意力图对表观特征进行引导，得到运动信息增强的表观特征包括：

其中，

8.根据权利要求6所述装置，其特征在于，所述分类融合层包含表观特征分类器和动态特征分类器，并设置有预定个数的输出神经元，每个神经元表示一种特定的行为种类，将两个分类器的预测分数融合后，将最大神经元值所在的位置作为行为预测的类别。

9.一种电子设备，包括处理器、存储器以及存储在所述存储器中并在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述人体行为识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述人体行为识别方法的步骤。