CN116385548A

CN116385548A - 一种基于融合注意力机制和vibe网络的姿态识别方法

Info

Publication number: CN116385548A
Application number: CN202310651844.1A
Authority: CN
Inventors: 李念峰; 李玉鹏; 刘洺含; 杨哲; 申向峰; 柴腾飞; 关彤; 黄勇远; 王振俨; 张天浩; 杨永吉; 肖治国
Original assignee: Changchun University
Current assignee: Changchun University
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-07-04

Abstract

一种基于融合注意力机制和VIBE网络的姿态识别方法，属于卷积神经网络领域；包括输入图像的多尺度缩放模块、注意力机制模块、GRU识别匹配模块三部分；所述注意力机制模块融合了注意力机制模块并同时作用于空间维度和通道维度；所述多尺度缩放模块主要沿用了VIBE的卷积结构,但是对VIBE的网络结构进行了改进,将原始的单池化层改为一组池化层；所述GRU识别匹配模块将上个模块处理的结果输入到双向选通递归单元GRU组成的时间编码器,用来获得整个输入内容的连续时间信息,并对输入内容进行加权赋值。本发明可以提高姿态识别的效率,属于卷积神经网络领域。

Description

一种基于融合注意力机制和VIBE网络的姿态识别方法

技术领域

本发明属于卷积神经网络技术领域，特别是涉及到一种基于融合注意力机制和VIBE网络的姿态识别方法。

背景技术

实时姿态识别和动画生成是计算机图形学中一个重要的研究方向，目前应用最为广泛的方法是深度学习,目前主流的姿态识别主要为两个方向：一个是基于深度学习的2D姿态识别,最为典型的代表案例就是基于Mask-RCNN的方案,在该方案中处理的关键节点都是针对二维的图像,虽然在识别精度上达到了很好地效果,但是丢失了输入图像的时间信息,无法对视频信息进行精准的预测；另一个是三维姿态识别的思想,以Facebook AI引入时间序列信息为例,基于已经提取的2D姿态,使用前馈神经网络直接估计出相应的3D姿态,但是该方案需要进行两段的训练,需要消耗很多的时间,降低了识别效率。

针对上述在姿态识别研究领域存在的一些缺陷，现有技术亟需一种新的方案来解决这些问题。

发明内容

本发明所要解决的技术问题是：提供一种基于融合注意力机制和VIBE网络的姿态识别方法，可以提高姿态识别的效率,属于卷积神经网络领域。

一种基于融合注意力机制和VIBE网络的姿态识别方法，采用的识别模型包括多尺度缩放模块、注意力机制模块以及GRU识别匹配模块，其特征是：包括以下步骤，且以下步骤顺次进行，

步骤一、将视频信息输入识别模型，进行逐帧的拆分,按照提取顺序输出帧序列信息，并存放至多尺度缩放模块中，通过卷积层提取特征图及候选区域，进入注意力机制模块；

步骤二、经所述步骤一处理的结果进入注意力机制模块后首先进入通道注意力模块，对输入信息的传输通道进行保留，对空间信息进行压缩；再进入空间注意力机制模块，保留空间维度，压缩通道维度后输出帧序列E；

步骤三、经所述步骤二处理后结果进入GRU识别匹配模块，对帧图像按照时间顺序加以权重，时序靠前的帧权重较大,以递减的方式进行排序，获得的特征参数作为SMPL身体模型的参数，采用SMPL模型预测身体形状参数，得到真实的姿态识别图像。

所述步骤一提取特征图及候选区域的方法为，采用候选区域网络RPN通过softmax归一化函数判断anchors集合属于前景foreground或背景background；采用 bounding box回归修正anchors集合获得精确的候选区域；将候选区域Region Proposal和特征图feature maps传入下一层网络ROI Pooling，获得固定尺寸的特征图；最后再通过Classification层,将ROI Pooling层生成的固定尺寸的特征图分别传入softmax分类和bounding box regression边框回归获得检测物体类别和检测框最终的精确位置，得到包含主要特征点且大小相同的特征图。

所述步骤二通道注意力模块首先将输入的信息通过一个修改过的并行池化层提取特征信息，并行池化层包括平均池化AvgPool和最大池化MaxPool；然后将池化后的信息通过一个Shared MLP多层感知机进行压缩然后再扩张,扩张后的结果与输入的大小保持一致，得到的信息再传入到下一层空间注意力机制模块；空间注意力机制模块将上一层通道注意力模块传递来的信息先通过一个堆叠池化层,堆叠池化层采用平均池化AvgPool和最大池化MaxPool,采用一个Concat函数名操作将两个池化层的信息堆叠在一起，此时的通道数为2，再通过卷积将通道数降为1，经过一个sigmoid激活函数名得到该单元的输出帧序列E。

所述步骤三SMPL身体模型中，θ为身体姿态和形状，θ由姿态θ∈R72和形状参数β∈R10组成；姿态参数包括全局身体旋转和轴角格式的23个关节的相对旋转；形状参数为主成分分析形状空间的前10个系数；通过给定参数，输出一个设定的三维网格；给定一个视频序列，VIBE计算ˇθ=[(ˇθ1，ˇθT)，ˇβ]，其中ˇθ是时间步长T的姿态参数，ˇβ是该序列的单个身体形状预测，获得每一帧预测身体形状参数；采用平均池来获得整个输入序列中的单个形状(β),获得生成器模型-假样本；将生成器模型与真实模型提供给运动鉴别器DM，通过DM鉴别器的鉴别得到真实的运动图像信息后，根据GRU单元提供的时序权重组合到一起,获得真实的姿态识别图像。

通过上述设计方案，本发明可以带来如下有益效果：一种基于融合注意力机制和VIBE网络的姿态识别方法，可以提高姿态识别的效率,属于卷积神经网络领域。

进一步的，本发明采用注意力机制模块，融合的注意力机制模块同时作用于空间维度和通道维度,在原网络的基础上可以增加图像输入的信息，提高识别的精度；同时在注意力机制模块对池化层进行了改进,由原本的单层池化层分别改为并行池化层(通道注意力机制部分)和堆叠池化层(空间注意力机制部分),通过对池化层的改进,进一步避免了由于输入信息量的增加带来的过拟合问题；

本发明采用多尺度缩放模块，沿用了VIBE的卷积结构,但是对VIBE的网络结构进行了改进,将原始的单池化层改为一组池化层,该改进在大量的输入图像特征时避免过拟合问题,确保网络的稳定性；节省了人为处理图像的缺陷,同时,对原始特征图进行处理后,能更大程度上减少冗余信息的传入,提前筛选出部分的无用信息点,可以提高网络模型的运算速度,从而提高效率；

本发明采用GRU识别匹配模块，将前述个模块处理的结果输入一个双向选通递归单元GRU组成的时间编码器,以此来获得整个输入内容的连续时间信息,然后对输入内容进行加权赋值后传入后面的识别匹配单元；可以在后续的时序重组过程中保障视频的时序信息不产生错乱。

附图说明

以下结合附图和具体实施方式对本发明作进一步的说明：

图1为本发明一种基于融合注意力机制和VIBE网络的姿态识别方法采用的结构框图。

图2为本发明一种基于融合注意力机制和VIBE网络的姿态识别方法通道注意力模块流程框图。

图3为本发明一种基于融合注意力机制和VIBE网络的姿态识别方法通道注意力模块流程框图中⑦的具体流程框图。

图4为本发明一种基于融合注意力机制和VIBE网络的姿态识别方法空间注意力模块流程框图。

图5为本发明一种基于融合注意力机制和VIBE网络的姿态识别方法多尺度缩放模块流程框图。

图6为本发明一种基于融合注意力机制和VIBE网络的姿态识别方法GRU识别匹配模块流程框图。

实施方式

一种基于融合注意力机制和VIBE网络的姿态识别方法，采用的模型包括多尺度缩放模块、注意力机制模块、GRU识别匹配模块；如图1所示，主要的过程为：输入的视频信息，先进行逐帧的拆解(具体的每隔几帧根据具体的情况而定)，拆解完的每个帧信息进入一个GRU单元，也就是由双向选通递归单元（GRU）组成的时间编码器，该单元的主要作用就是能够记录整个输入视频的时间信息，由于视频被逐帧拆解，因此使用这个单元记录输入数据的三维时间信息；数据通过GRU单元记录后会进入后面的空间注意力机制模块，该部分会再一次的提取传递来的每一帧的信息，然后对这些信息进行卷积池化等操作,保证提取到尽可能多的特征信息；添加了注意力机制模块后,提取到的特征点数量明显增多，同时由于增加了并行池化和堆叠池化操作，避免了因为特征点多造成的过拟合问题。

具体的，在多尺度缩放模块中引入了一个新的卷积模型，其具体的工作流程如图5所示，在这里首先对输入的视频信息进行逐帧的拆分,这里我们采用每隔5帧提取一张图像,将提取的图像按照顺序输入到我们的多尺度缩放模块中,利用该模块的卷积层提取出特征图；提取的这些特征图经过一个候选区域网络Region Proposal Networks RPN，该网络的主要作用是通过softmax判断anchors属于前景foreground或者背景background，再利用 bounding box 回归修正anchors获得精确的候选区域；经过RPN网络处理后,将得到两个结果：一个是候选区域Region Proposal，另一个是特征图feature maps，将这两个结果传入下一层网络ROI Pooling，在该层通过上述传来的两个结果,生成固定尺寸的特征图。最后再通过Classification层，将ROI Pooling生成的固定尺寸的特征图分别传入softmax分类和bounding box regression获得检测物体类别和检测框最终的精确位置。通过上述的多尺度缩放模块，我们就可以得到包含主要特征点且大小相同的特征图，最开始提取的帧图像按此方式进行顺序处理，得到的处理后的结果进入下一层注意力机制模块。

通道注意力机制流程展示如图2和图3所示,主要的过程为:首先输入的图像特征的大小为W*H*C,通过①(MaxPool)和②(AvgPool)这两个池化层,将输入的特征图大小调整为W*1*1,经过③(MaxPool Out)和④(AvgPool Out)这两个输出,将数据运输到下面的卷积层中,利用此卷积层将输入的图像信息的通道数进行压缩,然后再经过⑤和⑥的激活函数和卷积操作,恢复为原先输入的大小;此时的输入信息大小为W*1*1,将此数据经过流程⑦，此过程先将得到的两个激活后的结果接上一个sigmoid得到channel_out，channel_out,再将结果与最初的输入信息进行相乘,得到输出结果为F,其被压缩通道后的大小就再次变为W*H*C;此时整个通道注意力模块就此完成,原始输入的图像的空间维度被压缩,而输入信息的通道维度没有任何的改变,同时因为通过的①和②这两个并行池化层,在增加了输入特征信息量的同时避免了过拟合的问题。

空间注意力机制的主要过程如图4所示，在所述的通道注意力模块中，输出的结果F传入到空间注意力机制模块，作为空间注意力机制模块的输入，输入的信息通过⑧(MaxPool)和⑨(AvgPool)这两个堆叠的池化层，池化层将输入信息的大小变为了W*H*C/2的两个张量，通过Concat操作堆叠到一起，经过⑩(sigmoid操作)得到一个空间注意力机制的输出，将此输出与此过程的输入F进行相乘，使得最终的输出结果的大小依旧为W*H*C；此时整个空间注意力模块就此完成，原始输入的图像的通道数就被压缩，而输入信息的空间维度没有任何的改变。这里使用了两个堆叠的池化层⑧和⑨，在增加输入信息的同时，再次避免了过拟合的问题。

GRU识别匹配模块是一个由双向门控循环单元(bidirectional Gated RecurrentUnits, GRU)组成的时序编码器，它输出包含过去和未来帧信息的潜在变量,如图6所示，为了更好的表达每一帧的时序信息,GRU单元输入的帧图像按照时间顺序加以权重表示,时序靠前的帧权重比较大,以递减的方式进行排序。然后，这些特征用于在每个时间实例回归SMPL身体模型的参数。SMPL用θ表示身体姿态和形状，θ分别由姿态和形状参数θ∈R72和β∈R10组成。姿态参数包括全局身体旋转和轴角格式的23个关节的相对旋转。形状参数是主成分分析形状空间的前10个系数；在这里，我们使用性别中性的形状模型，如在以前的工作[30，37]中给定的这些参数，SMPL模型是一个可微函数，M(θ，β) ∈ R6890×3，输出一个设定的三维网格。给定一个视频序列，VIBE计算ˇθ=[(ˇθ1，ˇθT)，ˇβ]，其中ˇθ是时间步长T的姿态参数，ˇβ是该序列的单个身体形状预测。具体来说，对于每一帧，我们预测身体形状参数。然后，我们应用平均池来获得整个输入序列中的单个形状(β),我们将上述过程得到的模型称为生成器模型-假样本。然后，将生成器模型与真实的模型提供给运动鉴别器DM，以便区分假的和真实的例子,通过DM鉴别器的鉴别,我们就能得到真实的运动图像信息,再根据GRU单元提供的时序权重组合到一起,得到真实的姿态识别图像。

综上所述，①本发明加入多尺度缩放模块通过对输入图像的处理,我们就可以得到包含主要特征点且大小相同的特征图,节省了人为处理图像的缺陷,同时,对原始特征图进行处理后,能更大程度上减少冗余信息的传入,提前筛选出部分的无用信息点,可以提高网络模型的运算速度,从而提高效率;②本发明加入的融合注意力机制模型通过融合了通道注意力模块和空间注意力模块,在提取输入信息的特征点能力上有明显的提升;同时在注意力机制模块对池化层进行了改进,由原本的单层池化层分别改为并行池化层(通道注意力机制部分)和堆叠池化层(空间注意力机制部分),通过对池化层的改进,进一步避免了由于输入信息量的增加带来的过拟合问题。③本发明为GRU单元输入的帧图像按照时间顺序加以权重表示,时序靠前的帧权重比较大,以递减的方式进行排序，通过该权重，可以在后续的时序重组过程中保障视频的时序信息不产生错乱。

Claims

1.一种基于融合注意力机制和VIBE网络的姿态识别方法，采用的识别模型包括多尺度缩放模块、注意力机制模块以及GRU识别匹配模块，其特征是：包括以下步骤，且以下步骤顺次进行，

2.根据权利要求1所述的一种基于融合注意力机制和VIBE网络的姿态识别方法，其特征是：所述步骤一提取特征图及候选区域的方法为，采用候选区域网络RPN通过softmax归一化函数判断anchors集合属于前景foreground或背景background；采用 bounding box回归修正anchors集合获得精确的候选区域；将候选区域Region Proposal和特征图feature maps传入下一层网络ROI Pooling，获得固定尺寸的特征图；最后再通过Classification层,将ROI Pooling层生成的固定尺寸的特征图分别传入softmax分类和bounding box regression边框回归获得检测物体类别和检测框最终的精确位置，得到包含主要特征点且大小相同的特征图。

3.根据权利要求1所述的一种基于融合注意力机制和VIBE网络的姿态识别方法，其特征是：所述步骤二通道注意力模块首先将输入的信息通过一个修改过的并行池化层提取特征信息，并行池化层包括平均池化AvgPool和最大池化MaxPool；然后将池化后的信息通过一个Shared MLP多层感知机进行压缩然后再扩张,扩张后的结果与输入的大小保持一致,得到的信息再传入到下一层空间注意力机制模块；空间注意力机制模块将上一层通道注意力模块传递来的信息先通过一个堆叠池化层,堆叠池化层采用平均池化AvgPool和最大池化MaxPool,采用一个Concat函数名操作将两个池化层的信息堆叠在一起，此时的通道数为2,再通过卷积将通道数降为1,经过一个sigmoid激活函数名得到该单元的输出帧序列E。

4.根据权利要求1所述的一种基于融合注意力机制和VIBE网络的姿态识别方法，其特征是：所述步骤三SMPL身体模型中，θ为身体姿态和形状，θ由姿态θ∈R72和形状参数β∈R10组成；姿态参数包括全局身体旋转和轴角格式的23个关节的相对旋转；形状参数为主成分分析形状空间的前10个系数；通过给定参数，输出一个设定的三维网格；给定一个视频序列，VIBE计算ˇθ=[(ˇθ1，ˇθT)，ˇβ]，其中ˇθ是时间步长T的姿态参数，ˇβ是该序列的单个身体形状预测，获得每一帧预测身体形状参数；采用平均池来获得整个输入序列中的单个形状(β),获得生成器模型-假样本；将生成器模型与真实模型提供给运动鉴别器DM，通过DM鉴别器的鉴别得到真实的运动图像信息后，根据GRU单元提供的时序权重组合到一起,获得真实的姿态识别图像。