CN111931602A

CN111931602A - 基于注意力机制的多流分段网络人体动作识别方法及系统

Info

Publication number: CN111931602A
Application number: CN202010710145.6A
Authority: CN
Inventors: 叶青; 谭泽贤; 张永梅
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-11-13
Anticipated expiration: 2040-07-22
Also published as: CN111931602B

Abstract

本发明公开了一种基于注意力机制的多流分段网络人体动作识别方法及系统，其方法包括以下步骤：将长视频分割为多段，对每段进行采样得到一个片段；将每个片段送入基于注意力机制的多流分段网络中，由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络分别对RGB图像和光流图进行特征提取，得到空间流和时间流输出；由基于OpenPose的关节点估计网络对RGB图像进行关节点估计，得到姿态估计输出；然后通过分段一致性函数分别对三路输出中的每一路产生段共识，获得空间流一致性预测结果、时间流一致性预测结果和姿态估计一致性预测结果；最后，将段共识产生的分类分数进行分数融合后再由softmax函数分类，得到全局分类识别，从而完成人体动作的识别。

Description

基于注意力机制的多流分段网络人体动作识别方法及系统

技术领域

本发明涉及图像处理领域，具体涉及人体动作识别的分析研究，更具体地涉及一种基于注意力机制的多流分段网络的人体动作识别方法及系统。

背景技术

随着人工智能领域的快速发展，极大地方便了人们的日常生活。计算机视觉作为其中重要的部分在交通、医疗、支付等领域有着更富创造性发展。传统的动作识别方法是将视频或者图片处理后，输入简单卷积网络进行特征的提取，再进行分类。传统方法在处理的角度上通常是二维的，处理的多为静态的特征信息，这使得特征提取不够精准，没有更好的利用视频的动态特征，导致识别准确率很低。而一些深度学习的方法如GoogLeNet(GoogleInception Net)和VGGNet，作为CNN卷积网络的进化，在使用中也存在着一定的问题。对于VGGNet来说，其使用的参数数量太多，若训练数据集有限，容易过拟合，且网络越大其计算复杂度越大，网络越深其梯度越往后传越容易消失，难以优化模型及应用。对于GoogLeNet来说，虽然在不同深度处增加了两个损失函数来保证梯度回传消失的现象，但依旧没有解决网络尺寸的增加及参数的增加，所导致的网络更加容易过拟合的问题。对于循环神经网络RNN的经典网络-长短期记忆网络(Long Short-Term Memory，LSTM)来说，它不仅克服了普通的循环神经网络RNN很难训练的缺点，并且在一定程度上解决了梯度消失的问题，但在处理序列的量级上还是不够，它可以处理100个量级的序列，而对于1000个量级或者更长的序列，则依然会显得很棘手，其计算耗时较多，由于每一个LSTM的cell单元里面都有4个全连接层(MLP)，如果LSTM的时间跨度很大，并且网络又很深，整个计算量会很大，耗时很多。因此，对于时间较长的动作视频，以上三种网络均不能够抓住动作的关键特征，反而会引入干扰特征。

人体动作识别方法随着特征提取网络的不断更新有了更高的识别率，作为现有识别准确率较高的稠密卷积神经网络(Densely Connected Convolutional Networks，DenseNet)，它采用以前馈地方式将每个层与其它层连接，缓解了消失梯度问题，加强了特征传播，鼓励了特征的重用，并大大减少了参数的数量，但其网络却无法无限变深、变宽。而注意力机制的提出，拓宽了以往只能通过增加网络深度和宽度来提高准确率的思想，尤其是卷积注意力机制模块(Convolutional Block Attention Module，CBAM)的出现，它提出了通道注意力机制(channel attention)以及空间注意力机制(spatial attention)来增强特征表达，提升了现存网络的识别准确率。因此，提出一种精确对长视频中人体动作进行特征提取，确保关键特征不会被遗漏，并减少过拟合或者梯度消失发生的识别方法，是现在亟待解决的一项技术问题。

发明内容

为了解决现有技术存在的不足，本发明提供一种基于注意力机制的多流分段网络的人体动作识别方法，通过将长视频分为多个片段，分别送入多流分段网络进行特征提取和产生段共识，以解决无法处理长视频的问题，基于稠密卷积神经网络(DenseNet)和卷积注意力机制模块(CBAM)结合的特征提取网络使得动作的关键特征不会被遗漏，提升了准确度，并减少过拟合或者梯度消失的发生，通过基于OpenPose的关节点估计来弥补三维特征信息的缺失，以实现精确识别长视频中人体动作的目的。

为达到上述目的，本发明提供了一种基于注意力机制的多流分段网络的人体动作识别方法，其包括以下步骤：

S1.将输入的长视频分割为多段，对每段进行采样得到一个片段，每个片段包含一帧RGB图像和两个光流特征图；

S2.将S1中每个片段的RGB图像输入由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络，并进行特征提取，得到空间流上的特征片段序列；

S3.将S1中每个片段的光流特征图输入由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络，并进行特征提取，得到时间流上的特征片段序列；

S4.将S1中每个片段的RGB图像输入基于OpenPose的关节点估计网络，采用部分亲和力场，对每个片段的RGB图像进行自下而上的人体姿态估计，得到姿态估计上的特征片段序列；

S5.对所述空间流上的特征片段序列、所述时间流上的特征片段序列和所述姿态估计上的特征片段序列特征分类分数，通过分段一致性函数分别产生三路中的每一路的段共识，获得空间流一致性预测结果、时间流一致性预测结果和姿态估计一致性预测结果；

S6.对所述空间流一致性预测结果、所述时间流一致性预测结果和所述姿态估计一致性预测结果默认采用加权求均值的合并方式进行分数融合，其中空间流一致性预测结果:时间流一致性预测结果:姿态估计一致性预测结果的权重比值为1:1.5:1；

S7.将分数融合的结果通过softmax函数分类，得到输入视频的全局分类识别。

本发明一实施例中，其中S2或S3中所述由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络进行特征提取的具体步骤为：

S21.卷积注意力机制模块从通道和空间两个维度计算特征图的注意力图，然后将注意力图与特征图相乘进行自适应学习，整个过程如下：

对于一个中间层的特征图F∈R^C*H*W，CBAM将顺序推出一维的通道注意力图M_C∈R^C ^*1*1，以及二维的空间注意力图M_S∈R^1*H*W；

其中C表示通道，H表示高度，W表示宽度；

S22.然后将一维通道注意力图与所述特征图相乘得到F'：

S23将F'与所述二维空间注意力图相乘得到最终的输出F”：

式中，

表示元素相乘。

在本发明一实施例中，其中S4所述OpenPose进行的关节点估计为采用部分亲和力场来进行自下而上的人体姿态估计，其具体过程为：

S41.将一张图片输入以VGG19的前10层为主干的网络，生成一组特征图；

S42.将S41生成的特征图分别输入两个卷积网络，分别得到预测的关键点置信度图和关键点亲和度向量；

S43.通过二分图匹配将预测的所述关键点置信度图和所述关键点亲和度向量进行关键点聚类；

S44.将S43的结果进行骨架组装得到输入图片的人体姿态估计。

在本发明一实施例中，其中S5中所述段共识的产生为：通过分段一致性函数产生每一路的段共识，表示为：

G＝g(F(T₁；W),F(T₂；W),…,F(T_K；W)) (10)

式中，(T₁，T₂，……，T_K)为任一路特征片段序列，F(T_K；W)函数表示特征分类分数，其中W表示转换网络，W对T_K进行操作，并为所有类生成类分数；g为均值函数。

本发明还公开了一种基于注意力机制的多流分段网络人体动作识别系统，其包括：

长视频输入部分；

视频输入分割部分，将输入的所述长视频分割为多段，对每段进行采样得到一个片段，每个片段包含一帧RGB图像和两个光流特征图；

特征提取部分，连接所述视频输入分割部分，分别对每个片段的RGB图像和光流特征图进行特征提取；

段共识产生部分，连接所述特征提取部分，对所述特征提取部分的输出产生段共识；

特征融合分类部分，连接所述段共识产生部分，融合所述段共识并进行全局分类识别；

其中，所述特征提取部分包括基于注意力机制的特征提取网络的多路分段网络的三路，分别为：

由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络，对每个片段的RGB图像进行特征提取；

由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络，对每个片段的光流特征图进行特征提取；以及

基于OpenPose的关节点估计网络，对每个片段的RGB图像进行人体姿态估计。

在本发明一实施例中，其中，所述稠密卷积神经网络由所述稠密连接模块和过渡层组成：在稠密连接模块中，各个层的特征图大小一致并在通道维度上连接，且稠密连接模块中的非线性组合函数采用的是BN、ReLU和3x3卷积层连接的结构；过渡层连接两个相邻的稠密连接模块，并且降低了特征图大小，其结构为BN、ReLU、1x1卷积层和2x2均值池化。

在本发明一实施例中，其中，所述由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络为：在所述稠密卷积神经网络的稠密连接模块中加入所述卷积注意力机制模块。

在本发明一实施例中，其中，卷积注意力机制模块是一个轻量的通用模块,其依次应用通道和空间模块分别在通道和空间维度上学习。

本发明提供的基于注意力机制的多流分段网络的人体动作识别方法，通过DenseNet和CBAM注意力机制模块结合的特征提取网络对分段视频进行特征提取，确保关键特征不会被遗漏，并减少过拟合或者梯度消失发生，并通过基于OpenPose的关节点估计网络，对RGB图像进行关节点估计，来弥补原有二维动作识别在三维特征信息上的缺失，相比于现有技术有较高的识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明的人体动作识别方法框图；

图2为ResNet网络的连接机制；

图3为DenseNet的密集连接机制；

图4为DenseNet的网络结构图；

图5为DenseBlock结构图；

图6为CBAM模块示意图；

图7为基于注意力机制的稠密卷积神经网络示意图；

图8为关节点估计过程；

图9为同时检测和关联网络示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

图1为本发明的人体动作识别方法框图，如图1所示，首先将输入的长视频分割为多段，对每段进行采样得到一个片段，将每个片段送入基于注意力机制的多流分段网络中，该网络分三路对输入进行特征提取：由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络分别对每个片段的RGB图像和光流特征图进行特征提取，分别得到空间流和时间流上的两路输出；基于OpenPose的关节点估计网络对RGB图像进行姿态估计，弥补三维特征信息的缺失，得到姿态估计上的输出；然后通过分段一致性函数分别对三路输出中的每一路产生段共识，分别获得空间流一致性预测结果、时间流一致性预测结果和姿态估计一致性预测结果；最后，将段共识产生的分类分数进行分数融合再通过softmax函数分类，得到输入视频的全局分类识别，从而完成人体动作的识别。

下面通过具体实施例说明本发明提供的基于注意力机制的多流分段网络的人体动作识别方法。

本发明提供的基于注意力机制的多流分段网络的人体动作识别方法，如图1所示，包括以下步骤：

其中，采用时间段网络(Temporal Segment Networks，TSN)思想架构，用V表示输入的长视频，一个长视频V经输入后被分割为k段，用(S₁,S₂,…,S_k)表示，对每段S_k进行随机采样得到一个片段(snippet)T_k，每个片段包含一帧RGB图像和两个光流特征图，将每个片段送入多流分段网络就完成了对长视频的处理。这样处理过后的视频既不会丢失整个长视频的信息，也不会对过多的无用信息进行后续的特征提取，提高了对动作识别的关键帧的定位，减少了计算量。

其中，本发明实施例中所采用的稠密卷积神经网络(DenseNet)是由残差网络(Residual Network，ResNet)改进而来，对比图2和图3可知，ResNet是每个层与前面的某层(一般是2～3层)短路连接在一起，如图2所示，连接方式是通过元素级相加；而在DenseNet中，每个层都会与前面所有层在通道维度上连接在一起，如图3所示，并作为下一层的输入。对于一个L层的网络，DenseNet共包含L(L+1)/2个连接，相比ResNet，DenseNet是一种密集连接网络，并且DenseNet直接连接来自不同层的特征图，这可以实现特征重用，提升效率。

其中，在本发明实施例中，如图4所示，DenseNet网络结构主要由稠密连接模块(DenseBlock)和过渡层(Transition)组成，过渡层包含卷积层(convolution)和池化层(Pooling)。在DenseBlock中，如图5所示，各个层的特征图大小一致并在通道维度上连接，且DenseBlock中的非线性组合函数H(·)(图5中以h5为例)采用的是BN、ReLU和3x3卷积层(Conv)连接的结构，所有DenseBlock中各个层卷积之后均输出k个特征图，即得到的特征图的通道数为k，假定输入层的特征图的通道数为k₀，那么L层输入的通道数为k₀+k(L-1)，因此随着层数增加，尽管k设定得较小，DenseBlock的输入也会非常多，这是由于特征重用所造成的，因此每个层仅有k个特征是自己独有的；过渡层连接两个相邻的DenseBlock，并且降低特征图大小，过渡层包括一个1x1的卷积层和2x2的均值池化(AvgPooling)，其结构为BN、ReLU、1x1卷积层(Conv)和2x2均值池化(AvgPooling)，过渡层可以起到压缩模型的作用。

其中，卷积注意力机制模块(CBAM)是一个轻量的通用模块,其依次应用通道和空间模块分别在通道和空间维度上学习。CBAM是一种为卷积神将网络设计的，简单有效的注意力模块(Attention Module)，在本发明实施例中，S2或S3中所述由稠密卷积神经网络(DenseNet)和卷积注意力机制模块(CBAM)结合的特征提取网络对DenseNet中生成的特征图，CBAM从通道和空间两个维度计算特征图的注意力图，如图6所示，将注意力图与所述的特征图相乘来进行特征的自适应学习。

其中，由稠密卷积神经网络(DenseNet)和卷积注意力机制模块(CBAM)结合的特征提取网络进行特征提取的过程，如图7所示，其具体步骤为：

其中C表示通道，H表示高度，W表示宽度；

S22.然后将一维通道注意力图与所述特征图相乘得到F'：

S23将F'与所述二维空间注意力图相乘得到最终的输出F”：

式中，

表示元素相乘。

其中，S4所述OpenPose进行的关节点估计为采用部分亲和力场PAF(PartAffinity Fieilds)来进行自下而上的人体姿态估计，结合图8和图9所示，其具体过程为：

S41.将一张图片(图8(1))输入以VGG19的前10层为主干的网络，生成一组特征图F(图9中F)；

S42.将S41生成的特征图F分别输入两个卷积网络CNN(图9中Branch1和Branch2)，分别得到预测的关键点置信度图(图8(2)中左手的中间轴点以及右肩膀的位置)和关键点亲和度向量(图8(3))，其中，第一阶段网络产生一组检测置信度图为：

S¹＝ρ¹(F) (3)

和一组亲和度向量为：

式中，ρ¹和φ¹为第一阶段推理的CNN结构，之后的每一个层级的输入都来自前一个层级的预测结果和原始特征图F，如图9所示，用以产生更精确的预测结果，以ρ^t和φ^t代表第t层级的CNN结构，其输出为：

由此计算每个层级t对应两个损失函数为：

其中，

代表真实的置信度图，

代表真实的身体关节联系向量，W表示二值化mask矩阵，W(p)＝0就表示当前点p缺失，用来避免训练时错误惩罚，且在训练时，增加中间级监督，防止梯度消失，由此得到损失函数整体为：

式中，j代表关键点，C代表肢体(例如脖子、手臂等肢体部分)，一个肢体对应两个关键点。由于采用多级(stage)级联方法，每级之后，在训练过程中都会进行损失监督(中间监督)，T为层级总数，t为当前层级。

S43.通过二分图匹配将预测的关键点置信度图和关键点亲和度向量进行关键点聚类(图8(4))；

S44.将S43的结果进行骨架组装得到输入图片的人体姿态估计(图8(5))。

由此可以看出，关节点估计的引入可以弥补二维图像上三维特征信息的缺失，提高动作识别的准确性。

S5.对所述空间流上的特征片段序列、所述时间流上的特征片段序列和所述姿态估计上的特征片段序列特征分类分数，通过分段一致性函数分别产生三路中的每一路的段共识，分别获得空间流一致性预测结果(Spatial stream consensus)、时间流一致性预测结果(Temporal stream consensus)和姿态估计一致性预测结果(Pose Estimationconsensus)；

其中，S5中所述段共识的产生为通过分段一致性函数产生每一路的段共识，即采用均值函数对每一路所有特征片段序列属于同一类别的得分做均值，表示为：

G＝g(F(T₁；W),F(T₂；W),…,F(T_K；W)) (10)

式中，(T₁，T₂，……，T_K)为任一路特征片段序列，F(T_K；W)函数表示特征分类分数，其中W表示转换网络，W对T_K进行操作，并为所有类生成类分数；g为均值函数，在式(10)中作为分段一致性函数，其对所述特征片段序列中的所有片段属于同一类别的得分做均值，从而得到该路的段共识，其最终损失函数为：

其中，N是行为总类别数，y_i是类别i的真值(groundtruth)。

其中，用以下公式说明全局分类与softmax函数H的关系，式中MSN为本发明所述的基于注意力机制的多流分段网络(Multi Segmented Network，MSN)：

MSN(T₁,T₂,...，T_K)＝H(g(F(T₁；W)，F(T₂；W)，...，F(T_K；W))) (12)

式中，(T₁，T₂，……，T_K)为分数融合后的片段序列，F(T_K；W)函数表示片段T_K对应的分类分数，W表示转换网络，g为均值函数。

其中，softmax函数适用于处理多分类问题，在softmax的分类模型中，对于训练集{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))},有k个分类y⁽ⁱ⁾∈{1,2,3,...,k}，每个输入x都会有一一对应的每个类的概率p(y＝j|x)，j＝(1,2,…,k)，那么假设函数h_θ(x)将要输出一个k维的向量(向量元素的和为1)来表示这k个估计的概率值,因此假设函数形式为：

式中，

模型的参数。

另一方面，本发明提供的一种基于注意力机制的多流分段网络人体动作识别系统，再如图1所示，其包括：

长视频输入部分；

视频输入分割部分，将输入的长视频分割为多段，对每段进行采样得到一个片段，每个片段包含一帧RGB图像和两个光流特征图；

特征提取部分，连接所述视频输入分割部分，分别对所述RGB图像和所述光流特征图进行特征提取；

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种基于注意力机制的多流分段网络人体动作识别方法，其特征在于，包括以下步骤：

S5.对所述空间流上的特征片段序列、所述时间流上的特征片段序列和所述姿态估计上的特征片段序列的特征分类分数，通过分段一致性函数分别产生三路中的每一路的段共识，获得空间流一致性预测结果、时间流一致性预测结果和姿态估计一致性预测结果；

2.根据权利要求1所述的方法，其特征在于，S2或S3所述由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络进行特征提取的具体步骤为：

对于一个中间层的特征图F∈R^C*H*W，CBAM将顺序推出一维的通道注意力图M_C∈R^C*1*1，以及二维的空间注意力图M_S∈R^1*H*W；

其中C表示通道，H表示高度，W表示宽度；

S22.然后将一维通道注意力图与所述特征图相乘得到F'：

S23将F'与所述二维空间注意力图相乘得到最终的输出F”：

式中，

表示元素相乘。

3.根据权利要求1所述的方法，其特征在于，S4所述OpenPose进行的关节点估计为采用部分亲和力场进行自下而上的人体姿态估计，其具体步骤为：

S43.通过二分图匹配将预测的所述关键点的置信度图和所述关键点亲和度向量进行关键点聚类；

S44.将所述关键点聚类的结果进行骨架组装，得到输入图片的人体姿态估计。

4.根据权利要求1所述的方法，其特征在于，S5中所述段共识的产生为：通过分段一致性函数产生每一路的段共识，表示为：

G＝g(F(T₁；W),F(T₂；W),…,F(T_K；W)) (10)

5.一种包括权利要求1～4的方法的基于注意力机制的多流分段网络人体动作识别系统，其特征在于，包括：

长视频输入部分；

6.根据权利要求5所述的系统，其特征在于，所述稠密卷积神经网络由所述稠密连接模块和过渡层组成：在稠密连接模块中，各层的特征图大小一致并在通道维度上连接，且稠密连接模块中的非线性组合函数采用的是BN、ReLU和3x3卷积层连接的结构；过渡层连接两个相邻的稠密连接模块，并且降低特征图大小，其结构为BN、ReLU、1x1卷积层和2x2均值池化。

7.根据权利要求5所述的系统，其特征在于，所述由稠密卷积神经网络和卷积注意力机制模块结合的特征提取网络具体为：在所述稠密卷积神经网络的稠密连接模块中加入所述卷积注意力机制模块。

8.根据权利要求5所述的系统，其特征在于，卷积注意力机制模块是一个轻量的通用模块,其依次应用通道和空间模块分别在通道和空间维度上学习。