CN114743273A

CN114743273A - 基于多尺度残差图卷积网络的人体骨骼行为识别方法及系统

Info

Publication number: CN114743273A
Application number: CN202210461492.9A
Authority: CN
Inventors: 昝鑫; 林思源; 庞赞辽; 王沁晨
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-07-12

Abstract

本发明公开了一种基于多尺度残差图卷积网络的人体骨骼行为识别方法及系统，本发明涉及图像识别技术领域，将Res2Net残差结构与ST‑GCN图卷积网络相结合，并通过对输入数据的进一步处理形成多流网络结构。在每一层卷积中通过对特征图的拆分、残差连接扩大了节点的感受野，加强了远距离节点在空间、时间上的联系，能够在不大量增加网络参数的情况下有效提升网络的识别准确度。另一方面，通过引入多流结构，进一步增强了空间上的信息提取能力，提高了基于骨骼关节点的行为识别方法的识别率和鲁棒性。

Description

基于多尺度残差图卷积网络的人体骨骼行为识别方法及系统

技术领域

本发明涉及图像识别技术领域，具体为一种基于多尺度残差图卷积网络的人体骨骼行为识别方法及系统。

背景技术

近年来，随着互联网技术与通信技术的迅猛发展，基于网络的视频传播变得越来越便捷，网络视频在人们生活、工作中所占的比重也越来越高，海量的视频也为动作识别研究提供了良好的基础。从另一方面来看，伴随着相关传感器以及体感摄像头技术的发展，实时收集人体关节数据也愈发简单；近年来Openpose、AlphaPose等网络算法的完善，准确快速地判断视频中的人体关节位置变为可能。这几类技术也为相关的人体动作识别提供了良好的土壤。

骨骼序列是人体关节点在时间和空间上的集合，与RGB图像序列相比，具有数据量小，不易受干扰的优点。骨骼序列已经被验证可以有效地表征人体行为的动力学特征。近年来，不少研究者使用图卷积网络，对人体骨骼序列进行时空建模，并基于上述特征成功地识别其包含的行为类别。

但是，目前主流的针对骨骼序列的图卷积网络，如ST-GCN、AS-GCN等网络，虽然相较于传统方法已有较大提升，但其无论是在单帧图像上还是时序方向上卷积的感受野都较为有限，仅能提取短程的关节相关性以及短时间内的动作轨迹，但是无法利用对于动作分类至关重要的远距离关节信息以及长程时间信息。

发明内容

针对现有技术中存在的问题，本发明提供一种基于多尺度残差图卷积网络的人体骨骼行为识别方法及系统，采用多流网络的设计，通过主体网络的复用处理二阶骨骼信息以及相邻帧的关节点运动信息，提升了网路的识别性能。

本发明是通过以下技术方案来实现：

一种基于多尺度残差图卷积网络的人体骨骼行为识别方法，包括以下步骤：

步骤1、根据获取多种类型的骨骼序列数据构建人体行为数据集；

步骤2、构建多尺度残差图卷积网络，包括多路图卷积网络，多路图卷积网络的输出连接加权融合模块，加权融合模块连接全连接层；

所述图卷积网络，用于根据输入的骨骼序列数据输出特征向量；

所述加权融合模块，用于对各路图卷积网络的输出的特征向量进行加权融合；

所述全连接层，用于根据加权融合输出分类结果；

步骤3、根据步骤1构建的人体行为数据集对步骤2的多尺度残差图卷积网络进行训练，根据训练后的多尺度残差图卷积网络进行人体动作识别。

优选的，步骤1中所述骨骼序列数据包括骨骼关节点的一阶坐标信息、相邻帧之间关节点运动信息和骨骼边的二阶信息。

优选的，步骤1中构建人体行为数据集的方法如下：

采用姿态估计算法提取人体行为视频数据集中每一帧的骨骼关节点的一阶坐标信息；

将骨骼关节点的一阶坐标信息扩展至相邻帧之间关节点运动信息和骨骼边的二阶信息；

根据骨骼关节点的一阶坐标信息，以及扩展后的相邻帧之间关节点运动信息和骨骼边的二阶信息构建人体行为数据集。

优选的，步骤2中所述图卷积网络包括依次连接的多个图卷积模块，部分图卷积模块连接有注意力模块；

所述图卷积模块，用于对输入的骨骼序列数据进行卷积运算并输出特征图；

所述注意力模块，用于对各层图卷积模块输出的特征图进行加权运算，得到图卷积网络的特征向量。

优选的，步骤3中采用随机梯度下降法训练策略，选择交叉熵作为反向传播梯度的损失函数，迭代次数至设定次数，完成多尺度残差图卷积网络训练。

优选的，所述步骤3中多尺度残差图卷积网络的训练方法如下：

S3.1、将多种类型的骨骼序列数据分别输入至多路图卷积网络；

S3.2、图卷积网络中的每一层图卷积模块对上一层图卷积模块输入的特征图进行切割和残差运算，然后对各层输出的特征图通过注意力掩膜矩阵进行加权运算，得到各路图卷积网络的特征向量；

S3.3、将三路图卷积网络输出的特征向量输入加权融合模块，通过加权运算将结果输入全连接层得到softmax分数，完成多尺度残差图卷积网络的训练。

优选的，所述图卷积模块输出特征图的方法如下：

对该层图卷积模块输入的特征图进行等分切割，得到s份次级特征图，将每一份的次级特征图与上一份的次级特征图的卷积结果进行残差连接，随后再通过两次图卷积过程实现空间维度与时间维度上的信息提取，将各部份的次级特征图的卷积结果串联，得到该层图卷积模块的特征图。

一种基于多尺度残差图卷积网络的人体骨骼行为识别方法的系统，包括，数据集模块，用于根据获取多种类型的骨骼序列数据构建人体行为数据集；

多尺度残差图卷积网络模块，用于构建多尺度残差图卷积网络，包括多路图卷积网络，多路图卷积网络的输出连接加权融合模块，加权融合模块连接全连接层；

训练模块，用于根据人体行为数据集对多尺度残差图卷积网络进行训练，根据训练后的多尺度残差图卷积网络进行人体动作识别。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述基于多尺度残差图卷积网络的人体骨骼行为识别方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述基于多尺度残差图卷积网络的人体骨骼行为识别方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供一种基于多尺度残差图卷积网络的人体骨骼行为识别方法。该方法通过对骨骼序列特征图在卷积过程中进行等量切割并在每一部分特征图之间添加残差连接，使得节点特征值能够沿残差连接逐级传递，加强远距离节点之间在时间、空间上的联系。与一般的ST-GCN方法相比，本发明提出的网络能够在参数量基本不变的情况下，较大程度地提升网络识别性能。此外，本发明采用多流网络的设计，通过主体网络的复用处理二阶骨骼信息以及相邻帧的关节点运动信息，进一步提升了网路的识别性能。

附图说明

图1为本发明人体骨骼行为识别方法的流程图；

图2为本发明多尺度残差图卷积网络基础模块ST-Block的结构；

图3为本发明多尺度残差图卷积网络数据流动说明；

图4为本发明多尺度残差图卷积网络总体流程。

具体实施方式

下面结合附图对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

参阅图1-4，一种基于多尺度残差图卷积网络的人体骨骼行为识别方法，包括以下步骤：

步骤1、根据应用场景获取骨骼序列数据，并创建带标签的人体行为数据集；

具体的，在设定的场景中收集包含人体动作的视频，使用姿态估计算法对视频中的人体行为信息进行提取，获得每一帧的人体骨骼关键点，将人体骨骼关键点连接即得到每一帧的人体骨架。

在本实施例中，首先，采用Openpose姿态估计算法提取人体行为视频数据集中每一帧的骨骼关节点，并将其处理为以(C，T，V，M)格式存储的骨骼序列数据，其中C表示关节的特征，T表示帧数，V表示关节的数量，M表示一帧图像中存在的人体数量。

然后，为了更加充分利用骨骼信息，将骨骼关节点的一阶坐标信息扩展至相邻帧之间关节点运动信息和骨骼边的二阶信息，与原本的关节点一阶坐标信息组成三种不同的骨骼序列数据。

所述的相邻帧之间关节点运动信息：指骨骼序列中两个连续帧之间的骨骼关节点或是骨骼边的坐标差；

所述的骨骼边的二阶信息：指从其源关节指向目标关节的向量。

最后，对三种不同类型的骨骼序列数据进行校准，制作标签，从而获得人体行为数据集。

步骤2、构建多尺度残差图卷积网络，其包括三路图卷积网络，每一路残差图卷积网络由九层具有相同结构的ST-Block图卷积模块堆叠而成，每一层的图卷积模块对上一层图卷积模块输出的特征图进行切割和残差运算。

ST-Block图卷积模块包含了空间维度上的SGC卷积运算以提取人体关节点的空间信息，以及时间维度上的TCN卷积运算以提取人体动作在时序上的特征信息。在卷积过程中，在第五、七、九层中的图卷积模块连接注意力模块，通过训练与该层特征图尺寸相同的注意力掩膜，调整特征图不同通道的权重。最后，三路图卷积网络的输出连接加权融合模块，用于对图卷积网络输出的特征值进行加权运算，运算结果与全连接层连接。

三种不同类型的输入数据分别对应三路图卷积网络，通过多尺度残差图卷积网络的复用对不同类型的输入骨骼数据进行处理。在网路复用的过程中，由于人体骨架图中不存在环，且每个骨骼向量都与两个关节绑定，可以对每一个骨骼向量分配唯一对应的目标节点。由于重心不需要分配给任何骨骼向量，骨骼向量的数量比骨骼关节点的总数多一，为了方便计算，可以给重心节点分配一个值为0的空向量。

步骤3、将步骤1得到的人体行为数据集分为训练集和验证集，采用训练集对步骤2构建的多尺度残差图卷积网络进行训练，训练中采用随机梯度下降法训练策略，选择交叉熵作为反向传播梯度的损失函数，迭代次数至设定次数，完成模型训练，采用测试集对训练后的多尺度残差图卷积网络的分类性能进行测试对准确率评估。

上述多尺度残差图卷积网络的训练方法如下：

S3.1、将训练集中的三种不同类型的输入数据分别输入三路图卷积网络；

S3.2、图卷积网络中的每一层图卷积模块通过卷积运算对输入特征图进行信息的融合和提取；在单层ST-Block模块中，首先根据参数s对该层的输入特征图进行等分切割得到数量为s份的次级特征图，将每一份的次级特征图与上一份的次级特征图的卷积结果进行残差连接，随后再通过两次图卷积过程实现空间维度与时间维度上的信息提取，将各部份的次级特征图的卷积结果串联，得到该层ST-Block模块输出的特征图。

S3.3、将三路图卷积网络各自第五、七、九层图卷积模块输出的特征图输入注意力模块，通过注意力掩膜矩阵进行特征图的加权运算，得到各路图卷积网络的特征向量，对特征向量进行加权运算能够降低网络中的噪声干扰，保留用于动作识别的关键信息。

S3.4、将三路图卷积网络输出的特征向量输入加权融合模块，通过加权运算将结果输入全连接层得到softmax分数，将softmax分数作为该人体骨骼序列的行为分类结果，完成多尺度残差图卷积网络的训练。

步骤4、根据训练后的多尺度残差图卷积网络进行人体骨骼行为识别方法。

将从连续视频中进行姿态估计得到的三种人体骨骼序列数据，将关节点、骨骼二阶信息、帧间关节点运动信息分别输入三路图卷积网络中，将三路图卷积网络输出分数进行加权求和多尺度残差图卷积网络的最后得分，作为该人体骨骼序列的行为分类结果。

采用多尺度残差图卷积网络进行人体骨骼行为识别的方法如下：

S4.1、首先利用目标检测的YOLO V4算法进行人体检测，并采用DeepSort跟踪算法对人体进行目标跟踪；

YOLO V4模型包括CBM、CBL、Resunit、CSPX、SPP五个组件。其中CBM：YOLOV4网络结构中的最小组件，由Conv+Bn+Mish激活函数三者组成；CBL：由Conv+Bn+Leaky_relu激活函数三者组成；Res unit：借鉴Resnet网络中的残差结构，让网络可以构建的更深；CSPX：借鉴CSPNet网络结构，由卷积层和X个Res unint模块Concate组成；SPP：采用1×1，5×5，9×9，13×13的最大池化的方式，进行多尺度融合。

S4.2、采用OpenPose进行骨骼关节点的提取，获取三种不同的骨骼序列数据。

OpenPose是一个主要用于骨骼检测的框架，其通过Part Affinity Fields(使用2d向量表征位置和方向信息)来学习身体的各部分及关联性，利用全局纹理信息，自下而上的方法，达到实时性和高精度检测。

S4.3、将骨骼序列数据输入训练后的多尺度残差图卷积网络进行人体行为识别。

该基于多尺度残差图卷积网络的人体骨骼行为识别方法，将残差结构与图卷积网络相结合，并通过对输入数据的进一步处理形成多流网络结构。在每一层卷积中通过对特征图的拆分、残差连接扩大了节点的感受野，加强了远距离节点在空间、时间上的联系，能够在不大量增加网络参数的情况下有效提升网络的识别准确度。另一方面，通过引入多流结构，进一步增强了空间上的信息提取能力，提高了基于骨骼关节点的行为识别方法的识别率和鲁棒性。

该基于多尺度残差图卷积网络的人体骨骼行为识别方法，通过提取输入视频中的动作信息，使用深度网络算法进行动作分类，达成识别特定动作的功能。本算法识别过程分为两个步骤，首先使用姿态估计算法从输入视频流中提取人体骨骼信息，再以该骨骼信息为输入通过深度网络判断动作类别，可以排除许多现实环境中存在的背景干扰，相对于大部分基于RGB视频的深度网络，设计的多尺度残差图卷积网络能够将识别重心放在人本身的动作上，具有较强的鲁棒性，在许多生产环境、监控区域内都有着较为广泛的应用前景，如进行翻越围栏、跌倒、斗殴等行为的检测，可以一定程度上实现自动化的视频监控。

本发明还提供了一种基于多尺度残差图卷积网络的人体骨骼行为识别方法的系统，包括，

数据集模块，用于根据获取多种类型的骨骼序列数据构建人体行为数据集；

该系统在基于骨骼信息的动作识别过程中，使用了以ST-GCN网络结构作为基础框架，共有九层卷积，而为了降低训练难度、加强远距离节点之间的特征传递、使得网络准确度有较为明显的提升，添加了残差模块以及注意力模块。其中，图卷积模块可以通过在单层中对特征图的切割与添加残差连接来增强骨骼节点之间的联系，在不大量增加参数的情况下使得网络性能有着明显提升；注意力模块可以通过掩膜过滤对动作识别帮助不大的节点，加强关键节点在识别过程中的权重，提升识别准确率。相关实验证明，该部分改进可以解决网络准确度较低、远距离节点之间联系较弱的问题。

在上述设计的网络基础上，增加了多流网络结构，该设计通过以不同的输入格式复用深度网络，提升识别准确度。通过计算姿态估计步骤中所得的人体骨骼长度、方向，以及关节点在帧与帧之间的运动信息，组成three-stream网络，在网络的输出端通过加权融合每个网络的输出得到结果。通过这一改进，可以大幅增加网络识别准确率。值得注意的是，该改进需要占用较高的计算资源，必须结合实际场景使用。该部分改进能够将网络准确度提升到较为先进的水平。

本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本发明各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于多尺度残差图卷积网络的人体骨骼行为识别方法的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于多尺度残差图卷积网络的人体骨骼行为识别方法的相应步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于多尺度残差图卷积网络的人体骨骼行为识别方法，其特征在于，包括以下步骤：

所述全连接层，用于根据加权融合输出分类结果；

2.根据权利要求1所述的一种基于多尺度残差图卷积网络的人体骨骼行为识别方法，其特征在于，步骤1中所述骨骼序列数据包括骨骼关节点的一阶坐标信息、相邻帧之间关节点运动信息和骨骼边的二阶信息。

3.根据权利要求1所述的一种基于多尺度残差图卷积网络的人体骨骼行为识别方法，其特征在于，步骤1中构建人体行为数据集的方法如下：

4.根据权利要求1所述的一种基于多尺度残差图卷积网络的人体骨骼行为识别方法，其特征在于，步骤2中所述图卷积网络包括依次连接的多个图卷积模块，部分图卷积模块连接有注意力模块；

5.根据权利要求4所述的一种基于多尺度残差图卷积网络的人体骨骼行为识别方法，其特征在于，步骤3中采用随机梯度下降法训练策略，选择交叉熵作为反向传播梯度的损失函数，迭代次数至设定次数，完成多尺度残差图卷积网络训练。

6.根据权利要求5所述的一种基于多尺度残差图卷积网络的人体骨骼行为识别方法，其特征在于，所述步骤3中多尺度残差图卷积网络的训练方法如下：

7.根据权利要求6所述的一种基于多尺度残差图卷积网络的人体骨骼行为识别方法，其特征在于，所述图卷积模块输出特征图的方法如下：

8.一种权利要求1-7任一项所述的一种基于多尺度残差图卷积网络的人体骨骼行为识别方法的系统，其特征在于，包括，

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于多尺度残差图卷积网络的人体骨骼行为识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于多尺度残差图卷积网络的人体骨骼行为识别方法的步骤。