CN112587129B

CN112587129B - 一种人体动作识别方法及装置

Info

Publication number: CN112587129B
Application number: CN202011392024.8A
Authority: CN
Inventors: 宋波
Original assignee: Shanghai Yingpu Technology Co ltd
Current assignee: Shanghai Yingpu Technology Co ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2024-02-02
Anticipated expiration: 2040-12-01
Also published as: CN112587129A

Abstract

本申请实施例提供的一种人体动作识别方法及装置，该方法包括获取视频片段，对视频片段中的图像帧序列进行特征提取以及降维处理，然后对降维后的特征向量进行编码，将降维特征向量进行扩充，得到预设个数的扩充特征向量；将扩充特征向量和所述编码特征向量输入至三层单层解码器进行解码；将最后一层解码特征向量输入至单层全连接前馈网络进行计算，得到多个预测值；再将预测值输入至逻辑回归模型，得到对应的预测概率，选取最大概率值对应的类别作为最后一层解码特征向量对应矩形框的人体行为动作类别。经过序列到序列的编码和解码过程，能够更加准确的识别出每个人的行为动作标签，提高了人体动作识别的准确性。

Description

一种人体动作识别方法及装置

技术领域

本发明实施例涉及计算机识别技术领域，具体涉及一种人体动作识别方法及装置。

背景技术

近几年，计算机视觉和机器学习的飞速发展，视频分析任务已经从推断当前的状态转变为预测未来状态。基于视频的人体动作识别和预测就是这样的任务，其中动作识别是基于完整的动作执行来推断人类动作的当前状态，动作预测基于不完整的动作执行来预测人类动作的未来状态。由于这两项任务在现实世界中爆炸性地出现，例如智能安防视频监视、人机交互、虚拟现实和医疗监护等领域，因此成为热门的研究方向。

但是，基于深度特征提取的人体动作识别存在如下问题：1)在实际场景下，异常动作发生频率很低，数据收集和标注困难，即无论是常规动作还是异常动作都存在多样且复杂的特点，进而导致类别内的多样性较高和在真实场景下，特别在安防领域，基于深度学习的人体动作识别遇到了较大的挑战。2)在深度特征的提取上，传统的人体动作特征提取模型无法精确并且完整的提取特征信息。在复杂场景下，受到遮挡和摄像头角度等情况的影响，传统的特征提取模型能力弱，算法鲁棒性还需要提升。

发明内容

本发明针对视频中人的行为动作识别，设计了一种新型的序列到序列的编码器-解码器的人体行为动作识别方法及装置。其具体技术方案如下：

根据本发明实施例提供的一种人体动作识别方法，包括步骤：

获取预设帧数的视频片段，对所述视频片段中的中间帧采用基于区域的目标检测算法进行人体目标检测，得到所述中间帧的多个人体检测框；

对所述视频片段进行隔帧采样，得到多个图像帧序列；

对所述图像帧序列采用前馈神经网络特征提取算法进行多层特征提取，得到所述图像帧序列对应的特征图；

获取所述特征图中的末层特征图，针对检测出的所述人体检测框，对所述末层特征图中的所述人体检测框对应的人体特征向量进行降维处理，得到降维特征向量；其中，降维后的特征向量的维度包括特征通道数、图像高度、图像宽度；

将所述降维特征向量分解为预设大小和预设维度的分解特征向量，所述特征向量的预设大小等于图像高度乘以图像宽度；预设维度与特征通道数相同；

将所述分解特征向量输入到编码器的节点进行编码，得到编码特征向量；所述节点的维度与所述分解特征向量的维度相对应，所述节点的个数与所述分解特征向量的个数相对应；

将所述降维特征向量进行扩充，得到预设个数的扩充特征向量；其中，所述预设个数为某个应用场景下出现的总人数；

将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码，得到第一解码特征向量；将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器，得到第二解码特征向量；将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器，得到第三解码特征向量；其中，所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器；

将所述第三解码特征向量输入至单层全连接前馈网络进行计算，得到多个预测值；再将所述预测值输入至逻辑回归模型，得到对应的预测概率，选取最大概率值对应的类别作为第三解码特征向量对应矩形框的人体行为动作类别。

进一步的，所述将所述分解特征向量输入到编码器的节点进行编码，得到编码特征向量，包括步骤：

将所述分解特征向量中的每个特征向量通过3个变换矩阵变换为3个第一变换特征向量；

将所述第一变换特征向量输入至多层前反馈网络进行计算，得到与所述分解特征向量个数和位数均相同的第一反馈特征向量；

将所述第一反馈特征向量与所述分解特征向量相加后，采用归一化算法进行处理，并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后，与所述归一化特征向量相加，再将相加后的特征向量做归一化处理，得到编码特征向量。

进一步的，所述将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码，得到第一解码特征向量；将所述第一解码特征向量和所述扩充特征向量输入至第二单层解码器，得到第二解码特征向量；将所述第二解码特征向量和所述扩充特征向量输入至第三单层解码器，得到第三解码特征向量；其中，所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器，包括步骤：

S1将所述扩充特征向量和所述编码特征向量中输入至所述第一单层解码器；

S2每个特征向量通过3个变换矩阵变换为3个第二变换特征向量；

S3将所述第二变换特征向量输入至多层前反馈网络进行计算，得到与所述分解特征向量个数和位数均相同的第二反馈特征向量；

S4将所述第二反馈特征向量与所述分解特征向量相加后，采用归一化算法进行处理，并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后，与所述归一化特征向量相加，再将相加后的特征向量做归一化处理，得到第一解码特征向量；

将所述第一解码特征向量和所述扩充特征向量输入至第二单层解码器，并重复步骤S2-S4，得到第二解码特征向量；将所述第二解码特征向量和所述扩充特征向量输入至第三单层解码器，并重复步骤S2-S4，得到第三解码特征向量。

进一步的，所述基于区域的目标检测算法采用FasterRCNN算法；所述前馈神经网络特征提取算法采用3D CNN ResNet。

本发明的另一方面提供一种人体动作识别装置，包括：

人体目标检测，用于获取预设帧数的视频片段，对所述视频片段中的中间帧采用基于区域的目标检测算法进行人体目标检测，得到所述中间帧的多个人体检测框；

采样模块，用于对所述视频片段进行隔帧采样，得到多个图像帧序列；

多层特征提取模块，用于对所述图像帧序列采用前馈神经网络特征提取算法进行多层特征提取，得到所述图像帧序列对应的特征图；

降维处理模块，用于获取所述特征图中的末层特征图，针对检测出的所述人体检测框，对所述末层特征图中的所述人体检测框对应的人体特征向量进行降维处理，得到降维特征向量；其中，降维后的特征向量的维度包括特征通道数、图像高度、图像宽度；

分解特征向量模块，用于将所述降维特征向量分解为预设大小和预设维度的分解特征向量，所述特征向量的预设大小等于图像高度乘以图像宽度；预设维度与特征通道数相同；

编码特征向量模块，用于将所述分解特征向量输入到编码器的节点进行编码，得到编码特征向量；

扩充模块，用于将所述降维特征向量进行扩充，得到预设个数的扩充特征向量；其中，所述预设个数为某个应用场景下出现的总人数；

循环解码特征向量模块，用于将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码，得到第一解码特征向量；将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器，得到第二解码特征向量；将所述第二解码特征向量和所述编特征向量输入至第三单层解码器，得到第三解码特征向量；其中，所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器；

分类模块，用于将所述第三解码特征向量输入至单层全连接前馈网络进行计算，得到多个预测值；再将所述预测值输入至逻辑回归模型，得到对应的预测概率，选取最大概率值对应的类别作为第二码特征向量对应矩形框的人体行为动作类别。

进一步的，所述编码器包括：

第一变换特征向量模块，用于将所述分解特征向量中的每个特征向量通过3个变换矩阵变换为3个第一变换特征向量；

第一反馈特征向量模块，用于将所述第一变换特征向量输入至多层前反馈网络进行计算，得到与所述分解特征向量个数和位数均相同的第一反馈特征向量；

归一化处理模块，用于将所述第一反馈特征向量与所述分解特征向量相加后，采用归一化算法进行处理，并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后，与所述归一化特征向量相加，再将相加后的特征向量做归一化处理，得到编码特征向量。

进一步的，所述解码器包括：

第二变换特征向量模块，用于将所述扩充特征向量和所述编码特征向量中的每个特征向量通过3个变换矩阵变换为3个第二变换特征向量；

第二反馈特征向量模块，用于将所述第二变换特征向量输入至多层前反馈网络进行计算，得到与所述分解特征向量个数和位数均相同的第二反馈特征向量；

解码特征向量的归一化模块，用于将所述第二反馈特征向量与所述分解特征向量相加后，采用归一化算法进行处理，并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后，与所述归一化特征向量相加，再将相加后的特征向量做归一化处理，得到解码特征向量。

本申请实施例提供的一种人体动作识别方法及装置，该方法包括获取视频片段，对视频片段中的图像帧序列进行特征提取以及降维处理，然后对降维后的特征向量进行编码，得到编码特征向量；将降维特征向量进行扩充，得到预设个数的扩充特征向量；将扩充特征向量和所述编码特征向量输入至三层单层解码器进行解码；将最后一层解码特征向量输入至单层全连接前馈网络进行计算，得到多个预测值；再将预测值输入至逻辑回归模型，得到对应的预测概率，选取最大概率值对应的类别作为最后一层解码特征向量对应矩形框的人体行为动作类别。经过序列到序列的编码和解码过程，能够更加准确的识别出每个人的行为动作标签，提高了人体动作识别的准确性。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本申请实施例提供的一种人体动作识别方法的优选实施方式的流程图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的一种视频与时空信息同步检测方法应用于具有控制和处理功能的设备。

参见图1为本申请实施例提供的一种人体动作识别方法的优选实施方式的流程图，包括步骤：

对所述视频片段进行隔帧采样，得到多个图像帧序列；

上述节点的维度与所述分解特征向量的维度相对应，所述节点的个数与所述分解特征向量的个数相对应；比如m个512维特征向量输入至编码器的各节点，则每个节点对应一个512维的特征向量。

上述末层特征图是指对图像帧序列采用前馈神经网络特征提取算法进行多层特征提取后，神经网络最后一层网络进行特征提取后得到的特征图，此特征图中的特征向量最能全面反映图像帧特征。众所周知神经网络是有多层的，在前馈神经网络中，至少存在3层，即输入层，中间层和输出层，网络的层数会随着具体要求的不同而不同。

上述降维特征向量是指人体特征向量采用降维处理后得到的特征向量。上述分解特征向量是指将降维特征向量经过分解处理后得到的特征向量。上述第一解码特征向量是指经过第一次解码操作得到的特征向量；上述扩充特征向量是指经过扩充处理后得到的特征向量。

本发明对图像帧序列特征提取后进行降维、分解和扩充后对特征向量进行算法运算，使得特征向量更能体现图像帧序列的所有特性；然后再对特征向量经过序列到序列的编码和解码过程，能够更加准确的识别出每个人的行为动作标签，提高了人体动作识别的准确性。

进一步的，所述将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码，得到第一解码特征向量；将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器，得到第二解码特征向量；将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器，得到第三解码特征向量；其中，所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器，包括步骤：

将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器，并重复步骤S2-S4，得到第二解码特征向量；将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器，并重复步骤S2-S4，得到第三解码特征向量。

本申请实施例提供的一种人体动作识别方法，该方法包括获取视频片段，对视频片段中的图像帧序列进行特征提取以及降维处理，然后对降维后的特征向量进行解码，将降维特征向量进行扩充，得到预设个数的扩充特征向量；将扩充特征向量和所述编码特征向量输入至三层单层解码器进行解码；将最后一层解码特征向量输入至单层全连接前馈网络进行计算，得到多个预测值；再将预测值输入至逻辑回归模型，得到对应的预测概率，选取最大概率值对应的类别作为第二码特征向量对应矩形框的人体行为动作类别。经过序列到序列的编码和解码过程，能够更加准确的识别出每个人的行为动作标签，提高了人体动作识别的准确性。

下面以一个具体的例子来对本申请的技术方案进行详细的介绍，针对64帧的视频片段，识别出每个人的行为动作标签。行为动作标签可以根据实际情况选择，该方法是通用的行为动作识别方法。

具体流程：

1、输入64帧视频片段。针对第32帧图片,通过FasterRCNN进行人体检测，得到该帧中每个人的检测框，记为bbox_f_p1,bbox_f_p2,……

bbox_f_pn，其中n为图片中人的最大数量。

2、针对输入的64帧视频片段，隔帧采样，得到32帧图片序列，作为特征提取网络BP的输入。BP选取3D CNN ResNet

3、使用BP对32帧图像序列进行特征提取，获取最后一层特征图，维度为(C,T,H,W)，其中，C为特征通道数，T为时间维度，仍然保持32，H为卷积后图像高度，W为卷积后图像宽度。针对每个空间位置的每个特征通道，对所有时间维度的特征值求平均，得到维度为(C,H,W)的特征图last_feat_map。针对n个人的人体检测框，提取出last_feat_map对应的每个人的特征向量bbox_f_pj_feat，j表示第j个人，得到n个C维特征向量，通常C要大于512，因此通过降维操作将n个C维特征向量变换为n个512维特征向量。

4、将维度为(C,H,W)的特征图last_feat_map，分解为HxW个C维特征向量，记HxW为m。通常C要大于512，因此通过降维操作将m个C维特征向量变换为m个512维特征向量。

5、将m个512维特征向量输入到单层encoder,每个特征向量输入到encoder的一个节点，encoder共m个输入节点。单层encoder如下所述：

1>每个特征向量通过3个变换矩阵变换为3个特征向量Q,K,V，得到共3xm个特征向量Qi,Ki,Vi(i从1到m)

2>将以上得到的3xm个特征向量输入multi-head attention层，得到m个512维向量

3>将2>得到的m个向量与encoder输入的m个向量相加，得到m个512维向量

4>针对3>得到的m个512维向量，做LayerNorm运算，得到归一化的m个512维向量

5>针对4>得到的m个向量，将每个向量输入2层全连接前馈网络，得到m个512维向量。其中，m个向量共享一个前馈网络

6>将5>和4>得到的m个向量相加，并对相加后的m个向量做LayerNorm运算，得到归一化的m个512维向量，记为encoder_feat_i

(i从1到m)

6、将4中得到的n个512维特征向量扩充为k个512维特征向量，扩充的向量以0填充。其中k为固定值，代表某个应用场景下可能出现的最大人数。可根据具体应用场景设定，这里设定为16。

7、将7中得到的k个512维向量，或者每个decoder层输出的k个512维向量，记为person_feat_j(j从1到k),连同6中得到的m个向量encoder_feat_i(i从1到m)，输入decoder层，该方法共设置3个decoder层。单层decoder如下所述。

1>将k个向量person_feat_j中的每个特征向量通过3个变换矩阵变换为3个特征向量Q,K,V，得到共3xk个特征向量Qj,Kj,Vj(j从1到k)

2>将以上得到的3xk个特征向量输入multi-head attention层，得到k个512维向量

3>将2>得到的k个向量与该层decoder输入的k个向量相加，得到k个512维向量

4>针对3>得到的k个512维向量，做LayerNorm运算，得到归一化k个512维向量

5>将4得到的k个向量中的每个向量通过变换矩阵变为向量Q,将m个向量encoder_feat_i中的每个向量通过2个不同的变换矩阵变为K,V。总共得到2xm+k个向量，记为Qj(j从1到k)，Ki,Vi(i从1到m)。

6>将5得到的Q,K,V输入multi-head attention层，得到k个512维向量

7>将6>得到的k个向量与4得到的k个向量相加，得到k个512维向量

8>针对7>得到的k个512维向量，做LayerNorm运算，得到归一化k个512维向量

9>针对8>得到的k个向量，将每个向量输入2层全连接前馈网络，得到k个512维向量。其中，k个向量共享一个前馈网络

10>将9>和8>得到的k个向量相加，并对相加后的k个向量做LayerNorm运算，得到归一化的k个512维向量，作为每个decoder层输出的k个512维向量，同时作为下一个decoder层的输入

8、针对最后一个decoder层输出的k个512维向量，将每个向量输入单层全连接前馈网络，该前馈网络的输出为L个类别的预测值，其中L行为动作标签的类别数。再将L个预测值输入softmax，得到L个类别的预测概率，选取最大概率值对应的类别作为该向量对应矩形框的人的行为动作类别。其中，每个向量共享一个前馈网络。由该步骤，最终得到k个矩形框对应的人的行为动作类别，再去掉7中扩充的0向量对应的类别，得到真正的n个矩形框对应的人的行为动作类别。

本申请的另一方面提供一种人体动作识别装置，包括：

编码特征向量模块，用于将所述分解特征向量输入到编码器的节点进行解码，得到编码特征向量；

解码特征向量模块，用于将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码，得到第一解码特征向量；将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器，得到第二解码特征向量；将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器，得到第三解码特征向量；其中，所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器；

进一步的，所述编码特征向量模块包括：

进一步的，所述解码特征向量模块包括：

第二变换特征向量模块，用于将所述扩充特征向量和/或所述第一解码特征向量中的每个特征向量通过3个变换矩阵变换为3个第二变换特征向量；

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种人体动作识别方法，其特征在于，包括步骤：

对所述视频片段进行隔帧采样，得到多个图像帧序列；

2.根据权利要求1所述的一种人体动作识别方法，其特征在于，所述将所述分解特征向量输入到编码器的节点进行编码，得到编码特征向量，包括步骤：

3.根据权利要求1所述的一种人体动作识别方法，其特征在于，所述将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码，得到第一解码特征向量；将所述第一解码特征向量和所述扩充特征向量输入至第二单层解码器，得到第二解码特征向量；将所述第二解码特征向量和所述扩充特征向量输入至第三单层解码器，得到第三解码特征向量；其中，所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器，包括步骤：

4.根据权利要求1所述的一种人体动作识别方法，其特征在于，所述基于区域的目标检测算法采用FasterRCNN算法；所述前馈神经网络特征提取算法采用3D CNN ResNet。

5.一种人体动作识别装置，其特征在于，包括：

循环解码特征向量模块，用于将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码，得到第一解码特征向量；将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器，得到第二解码特征向量；将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器，得到第三解码特征向量；其中，所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器；

6.根据权利要求5所述的一种人体动作识别装置，其特征在于，所述编码器包括：

7.根据权利要求5所述的一种人体动作识别装置，其特征在于，所述解码器包括：

8.根据权利要求5所述的一种人体动作识别装置，其特征在于，所述基于区域的目标检测算法采用FasterRCNN算法；所述前馈神经网络特征提取算法采用3D CNN ResNet。