CN116524601A

CN116524601A - 辅助养老机器人监控的自适应多阶段人体行为识别模型

Info

Publication number: CN116524601A
Application number: CN202310738913.2A
Authority: CN
Inventors: 王茂林; 吕晨
Original assignee: Shenzhen Kim Dai Intelligence Innovation Technology Co ltd
Current assignee: Shenzhen Kim Dai Intelligence Innovation Technology Co ltd
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-08-01
Anticipated expiration: 2043-06-21
Also published as: CN116524601B

Abstract

本发明公开了辅助养老机器人监控的自适应多阶段人体行为识别模型，包括有S1骨架数据预处理，将骨架数据预处理后组织成模型所需要的数据；S2自适应图结构学习，通过骨架图结构学习模块从宏观和微观图结构两个方面学习所需的图结构并进行融合，以获取高阶特征和对整个动作的历史数据进行特征图更新；S3特征图矩阵更新，经过宏观和微观动作数据处理后，将两个阶段的特征图进行融合，更新特征图矩阵；S4时空动作分类，学习特征图中的高阶时间和空间关系，并堆叠时间卷积和空间卷积对骨架数据动作做出分类；S5多阶段训练策略，实现图学习功能和动作分类功能分离化，以及多阶段控制模型训练与最优化。

Description

辅助养老机器人监控的自适应多阶段人体行为识别模型

技术领域

本发明涉及计算机视觉方面的人体骨架行为识别技术领域，具体涉及到一种辅助养老机器人监控的自适应多阶段人体行为识别模型。

背景技术

行为识别任务是在视频帧中对人类动作识别并加以应用，随着智能设备和算法的实现，行为识别任务能够在虚拟现实、智能安防等领域发挥出更重要的作用。其中，相比于视频RGB信息，从视频中抽取出的骨架数据更加紧凑，能提供相对高层次的结构信息，最大化地减少复杂背景信息的影响，提高对视频动作信息进行高度表征，基于骨架的行为识别任务逐渐更受关注。

近年来，骨架行为识别方法不断突破创新：从开始的CNN(卷积神经网络)和RNN(循环神经网络)开始，发展到应用GCN（图卷积神经网络）技术：起初将骨架序列转换成2D或3D伪图像，并引入时间维度以获得视频帧中的动作信息。GCNs方法基于骨架数据结构属于非欧氏空间，利用图拓扑结构不断聚合周围邻居节点的信息，将骨骼和关节分别作为图的边和节点进行动作识别任务，获得了最高的准确率。时空图卷积网络在GCNs的基础上，在图卷积模块中引入时间卷积，以聚合不同帧之间的运动信息，或者优化空间图卷积模块来提高行为识别的精度。

上述算法存在的问题是：在骨架数据表示上，使用预定义的骨架图模型，用节点间的邻接矩阵来预定于骨架的信息，仅仅关注到节点的物理连接，并不能完全概括节点的动态变化，例如拍手动作，非物理连接的手进行靠近，图模型的表征信息应该是随着时间的演进动态的更新图模型表征。

由于时空图卷积模型的复杂性和骨架数据的特点，大多数模型都是采用的单阶段设计思想，将骨架数据进行时间和空间融合或并行处理，最后直接实现动作的分类，未考虑到仅靠单个阶段的模型调优并不能完全保证性能最优化，过程中也没有考虑到动态图模型的更新对识别模块的影响，故可能达不到较好的识别效果。

发明内容

本发明克服了现有技术的不足，提供了一种辅助养老机器人监控的自适应多阶段人体行为识别模型，是基于自适应的宏观与微观融合的多阶段人体行为识别模型，旨在实现图学习功能和动作分类功能分离化，实现多阶段控制模型训练与最优化。

为实现上述目的，本发明采用了下列技术方案：

辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：包括有以下步骤，

S1、骨架数据预处理，将骨架数据预处理后组织成模型所需要的数据；

S2、自适应图结构学习，通过骨架图结构学习模块从宏观和微观图结构两个方面学习所需的图结构并进行融合，以获取高阶特征和对整个动作的历史数据进行特征图更新；

S3、特征图矩阵更新，经过宏观和微观动作数据处理后，将两个阶段的特征图进行融合，更新特征图矩阵；

S4、时空动作分类，学习特征图中的高阶时间和空间关系，并堆叠时间卷积和空间卷积对骨架数据动作做出分类；

S5、多阶段训练策略。

如上所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：S1中骨架数据预处理使用的数据集由多个存储骨架坐标和信息的文本文件构成，并使用python语言对文本文件中作数据处理封装。

如上所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：每个文本文件中包含骨架数据的视频帧数数据信息、对应骨架节点的坐标数据信息、动作执行人数数据信息、骨架节点数数据信息，将数据封装为/>的四维矩阵格式，其中/>代表通道数，/>代表帧数，/>代表节点数，/>代表运动的人数。

如上所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：S1中骨架数据预处理使用的数据集是NTU-RGBD60/120数据集。

如上所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：S2中包括有

S2-1、宏观图结构学习，设定人的身体骨架使用七大部位的节点连接来表征整体结构，分别为头、肩、肘、手、腹、膝、脚来表征最初始的人体结构，用物理节点和非物理节点的连接来表征动作的进行，为宏观级邻接矩阵设定如下/>（1），其中/>表示节点中可训练的隐藏关系，/>通过在预定义的邻接矩阵/>中添加一个残差连接生成，其中的残差连接通过学习残差映射；

采用基于参数分解进行优化，利用两个可训练节点嵌入字典，/>来近似隐式空间关系，如下/>(2），其中/>是用于减少参数数量的隐藏维数；

S2-2、微观图结构学习，设定节点属性，利用全连通网络将原始属性转换为潜空间，将属性维数从/>扩展到/>，即/>（3），其中/>表示转换后的节点属性；

通过聚合器沿着时间维度对转换后的节点属性进行聚合，捕捉节点在/>帧内的临时空间关系，如下/>(4) ，其中/>包含了影响节点空间关系的临时因素信息；

将AGGREGATE(·)函数实现为对应的一个卷积运算，公式如下(5) ，其中/>是相应的交叉连接操作，/>表示输入信号的第/>通道数据，即节点/>对应属性的第/>通道的时间信息，/>是输出信号的第/>通道，/>是可训练参数；

经过时间维度的聚合后，通过学习一对节点表示的度量函数来推导节点之间的关系，如下/>(6) ，其中/>表示节点/>与节点/>之间的已学习的关系，由于采用点积来表示节点邻近性，因此度量学习函数以如下矩阵乘法表示/>(7)。

如上所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：S3中通过图学习模块得到宏观图邻接矩阵和微观图邻接矩阵/>，图矩阵更新模块通过将两个具有ReLU激活函数的邻接矩阵求和，并通过如下公式进行归一化，得到图的邻接矩阵，/>(8)。

如上所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：S4中包括有

S4-1、基于时间依赖的卷积层，时域卷积层中使用扩展的因果卷积来捕获动作前后的时间相关性，通过在标准因果卷积中加入控制跳跃距离的扩张因子，扩张后的因果卷积的感受野可以随着层深度的增加呈指数级扩展；

S4-2、基于空间关系的图卷积层，设定，对每个时段帧间序列/>应用/>图卷积网络来捕捉节点的空间关系，通过自适应图结构学习组件，可以获得一个最优的图结构/>，直接使用图卷积层来学习最优图结构，/>表示扩散卷积，/>表示转移矩阵，/>表示扩散步长,/>是可训的模型参数矩阵，公式如下/>(9)；

S4-3、残差连接和跳跃连接，在每个时空卷积层中添加了一个残差连接，第层时空卷积层的输出可以在如下公式获得/>(10) ，其中/>；

将不同时空卷积层的表示通过跳跃连接融合在一起，(11) ，其中/>是第/>层的全连接网络；

S4-4、动作分类输出层，根据模型的卷积层的输出对动作进行分类，将多个时空卷积层进行叠加，并融合多层属性来捕获时空模式，通过应用一个全连通网络直接得到所有节点下对应的动作分类，(12) ，其中/>表示输出的全连通网络，模型选择平均绝对误差作为训练目标，优化模型分类的损失，模型的损失表示如下(13) ，其中/>为数据集真值,/>为第/>时刻所有节点的分类结果。

如上所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：S5中将宏观图结构学习模块与动作分类模块相结合，对模块进行预训练，(14) ，预训练策略为/>提供了良好的初始值，使模型收敛；通过公式（8）将预训练的/>和/>结合起来，利用公式（13）中的损失函数训练整个模型。

本发明的有益效果是：

本发明模型将骨架数据图学习和时空动作识别进行分离，分别划分到两个不同的模块中，将时空图卷积网络模型分离化；图结构学习模块负责学习骨架数据特征图表示，以达到学习骨架数据中的高阶信息并将数据输入到动作分类模块，堆叠时空卷积层并基于输入数据进行动作分类；在图结构生成后，增加一个模块采用加权平均的方式不断更新当前的图结构，实现控制训练过程中的稳定性。另一方面，受期望最大化(EM)算法的启发，通过交替训练优化网络识别模块和图学习模块的参数，在一部分为最优估计的条件下，就可以实现其中一部分的期望最大化。

附图说明

图1为本发明基于自适应的宏观与微观融合的多阶段模型流程图；

图2为本发明基于自适应的宏观与微观融合的多阶段模型架构图；

图3为本发明鼓掌动作的宏观的骨架模型构建图；

图4为本发明自适应宏观与微观图学习模块的架构图；

图5为本发明动作识别分类模块堆叠图卷积的架构图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后…) 仅用于解释在某一特定姿态 (如附图所示) 下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。另外，在本发明中涉及“优选”、“次优选”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“优选”、“次优选”的特征可以明示或者隐含地包括至少一个该特征。

一种辅助养老机器人监控的自适应多阶段人体行为识别模型，基于人体骨架数据的自适应宏观与微观融合的多阶段动作识别模型，架构如图2所示，将骨架动作识别任务进行划分，划分成两个阶段：第一个阶段是对骨架数据集的各个动作自适应的进行图结构学习和构建；第二个阶段根据前一个阶段进行时空图卷积以实现动作分类，两个阶段对应的执行流程如图1所示。

第一阶段的设计是为不同的动作进行图模型学习和构建，包括两个模块：图学习模块和图矩阵更新模块。这一阶段中图学习模块从微观和宏观两个角度生成基于节点属性的最优图结构，捕获区域间复杂且时刻变换的空间关系，并输入到图矩阵更新模块，在矩阵更新模块中实现宏观与微观图结构的融合并将数据输出到下一个阶段。

第二个阶段中，以学习的图结构模型和对应的特征矩阵作为输入，堆叠时间卷积块和空间卷积块，通过学习图的信息和节点的邻接关系，捕获复杂的时间和空间依赖关系，并实现对应的动作分类。模型将两个阶段的模块进行分离分别对应不同的功能，并用两阶段的训练方式，减少模型的可学习参数和可训练数据，减少端对端优化对模型训练不充分的影响。

下面实施例从骨架数据预处理、图结构学习、特征图矩阵更新、时空动作分类、多阶段训练策略五个模块分别进行介绍。其中骨架数据先经过预处理后组织成模型所需要的数据，在图结构学习模块从宏观和微观图结构两个方面学习所需的图结构并进行融合，以获取高阶特征和对整个动作的历史数据进行特征图更新；经过宏观和微观动作数据处理后，将两个阶段的特征图进行融合，更新特征图矩阵。在时空动作分类模块，本发明从时间关系和空间关系入手，学习特征图中蕴含的高阶时间和空间关系依赖，并堆叠时间卷积和空间卷积对骨架数据动作做出分类；最后利用分阶段的训练策略完成整个模型的训练和优化，减少训练参数的同时提升模型准确率。具体步骤如下：

步骤S1、骨架数据预处理，本发明使用的数据集是NTU-RGBD60/120数据集，该数据集是有许多的存储骨架坐标和信息的文本文件构成，需要使用python语言从文件中做数据处理进行封装。每个文件中包含数据信息：骨架数据的视频帧数、对应骨架节点的坐标、动作执行人数、骨架节点数等，将数据封装为/>四维矩阵格式，方便模型做进一步计算处理，其中/>代表通道数，/>代表帧数，/>代表节点数，/>代表运动的人数。

步骤S2、自适应图结构学习，针对现有的骨架图构造方法存在的问题，本发明提出了一种自适应图结构学习模块，以数据驱动的方式获取最优图邻接矩阵。模块的基础假设是所有动作的整体图结构在长期内是相对稳定的，以人体的七个基本固定部位作为基本骨架，在完成对应动作时需要对应的身体部位参与，设定为微观局部动作，需要特殊进行细粒度图结构学习。因此设计了宏观图结构学习和微观图结构学习两个分支，从宏观(长期)角度和微观(短期)角度对图结构进行自适应推断。

具体地，步骤S2还包括有步骤S2-1、宏观图结构学习，从宏观上看，各个动作中骨架节点的空间关系相对稳定，反映了节点根据人体骨骼分布所存在的内在关联。因为要按照固定的规则设定，所以使用预定义的邻接矩阵只能反映片面性质。为此，设计了一个宏观层次的图结构学习模块，以描述更全面的长期信息。不是直接设计一个没有任何先验信息的可学习对象（邻接矩阵初始化为全0），而是学习预定义规则难以捕获的隐含信息，然后将学习到的隐含关系注入到预定义的邻接矩阵/>中，实现信息的补充。

具体设定：人的身体骨架使用七大部位的节点连接来表征整体结构，分别为头、肩、肘、手、腹、膝、脚来表征最初始的人体结构，如图3所示，随着动作的进行七个部位的表征节点会存在位置和连接上的变化，如手节点与脚部靠近或者与头部靠近等，用物理节点和非物理节点的连接来表征动作的进行。具体来说，为宏观级邻接矩阵设定如下/>（1）

其中表示节点中可训练的隐藏关系，/>通过在预定义的邻接矩阵/>中添加一个残差连接生成，其中的残差连接通过学习残差映射而不是原始的、未引用的映射使图矩阵更容易优化。由于预先定义的邻接矩阵/>与宏观邻接矩阵/>之间的残差映射的学习使得优化更容易，因此采用基于参数分解的优化方法：该方法利用两个可训练节点嵌入字典/>,/>来近似隐式空间关系，其中k是用于减少参数数量的隐藏维数,如下所示:/>(2）

步骤S2-2、微观图结构学习，从微观上看，运动的进行会使得不同的节点间连接关系发生变化，无论是基于物理连接还是非物理连接的节点，如拍手动作和抬腿动作等。由于节点与动作属性相关联，假设通过挖掘节点属性中的相关信息来描述动作的特征信息。特别地，给定节点属性，首先利用全连通网络将原始属性转换为潜空间，将属性维数从/>扩展到/>，即/>（3）

其中表示转换后的节点属性。然后，为了捕捉节点在/>帧内的临时空间关系，通过专门的聚合器沿着时间维度对转换后的节点属性/>进行聚合，/>(4)

其中包含了影响节点空间关系的临时因素相关信息。在实现过程中，将AGGREGATE(·)函数实现为对应的一个的卷积运算，公式如下

(5)

其中是相应的交叉连接操作，/>表示输入信号的第/>通道数据，即节点/>对应属性的第/>通道的时间信息。/>是输出信号的第/>通道。/>是可训练参数，描述了第/>个输出通道和第/>个输入通道之间的相关性。卷积运算可以将时间维降为/>，核的大小均设为/>帧序列的长度即/>;因此，卷积核的总体参数大小为/>。

经过时间维度的聚合后，设计了一种度量学习方法，通过学习一对节点表示的度量函数来推导节点之间的关系，如下所示

(6)

其中表示节点/>与节点/>之间的已学习的关系。由于采用点积来表示节点邻近性，因此度量学习函数可以以下的矩阵乘法表示。

(7)

步骤S3、特征图矩阵更新，通过学习模块后，可以得到宏观图邻接矩阵和微观图邻接矩阵/>表示。为了方便实现后边的动作分类任务，需要整合成一个最优的图结构，图矩阵更新模块通过将两个具有ReLU激活函数的邻接矩阵求和，并通过下边公式进行归一化，得到图的邻接矩阵。

(8)

步骤S4、时空动作分类，对于骨架动作识别的复杂空间关系和时间相关性，设计了一种用于实现动作分类的时空卷积模块。如图5所示，整个模块由三部分组成:输入层、堆叠时空块(ST-Blocks)和输出层。具体地，在图矩阵和特征输入时，首先通过全连接网络对每个节点展开属性维度，即，其中/>为隐藏表示的维数。然后，时空块卷积块被设计用来捕捉动作分类中复杂的时空相关性，其中每个ST-Blocks由堆叠的时间卷积层和图卷积层组成。为避免模型退化，在每个时空层中增加了残留连接和跳连接。最后，通过输出全连通网络将多层属性融合成对应的动作类别。

具体地，步骤S4中还包括有补正S4-1、基于时间依赖的卷积层，为了提取骨架信息中的的时间相关性，模型不仅要考虑相邻数据的短期影响，还要考虑其长期影响。然而，由于存在爆炸或消失的梯度问题，以往基于RNN的模型难以处理长程序列。因此，时域卷积层(TCN)中使用扩展的因果卷积来捕获动作前后的时间相关性。通过在标准因果卷积中加入控制跳跃距离的扩张因子，扩张后的因果卷积的感受野可以随着层深度的增加呈指数级扩展。这样的一个因素使TCN能够在更少的层中捕获更长的序列，从而节省计算资源。同时，非递归方式便于并行计算，减少了时间消耗。

步骤S4-2、基于空间关系的图卷积层，为给定，对每个时段帧间序列/>用应/>图卷积网络来捕捉节点的空间关系。通过上述自适应图结构学习组件，可以获得一个最优的图结构/>，直接使用图的卷积层来学习最优图结构，/>表示扩散卷积，/>表示转移矩阵，/>表示扩散步长,/>是可训的模型参数矩阵。

(9)

步骤S4-3、残差连接和跳连接，为了避免模型退化和加快模型的收敛速度，在每个时空卷积层中添加了一个残差连接。具体而言，第层时空卷积层的输出可以如下公式获得/>(10) 其中/>。

然后，将不同时空卷积层的表示通过跳跃连接融合在一起，(11)

其中是第/>层的全连接网络。

步骤S4-4、动作分类输出层，该模型可以根据模型的卷积层的输出对动作进行分类。将多个时空卷积层进行叠加，并融合多层属性来捕获时空模式。通过应用一个全连通网络直接得到所有节点下对应的动作分类，(12)

其中表示输出的全连通网络。模型选择平均绝对误差(Mean AbsoluteError, MAE)作为训练目标，一起优化模型分类的损失，模型的损失表示如下:

(13)

其中为数据集真值,/>第/>时刻所有节点的分类结果。

步骤S5、多阶段训练策略，在训练时，因为提出的模型参数都可以使用梯度下降进行优化，但是丰富的可学习参数和稀疏矩阵的训练数据较多，直接使用端到端的训练方式会增加训练时间降低性能的同时，导致模型训练不充分。

这里采用了两阶段的训练过程，首先优化宏观图结构，然后将训练好的宏观图邻接矩阵注入整个模型进行训练。宏观图结构学习模块中的可学习图邻接矩阵提高了模型能力，但同时也增加了训练难度。因此，首先优化了宏观学习过程，使模型更容易训练。具体来说，将宏观图结构学习模块与动作分类模块相结合，对/>模块进行预训练，/>(14) 预训练策略为/>提供了良好的初始值，使模型更好地收敛。然后，通过公式（8）将预训练的/>和/>结合起来，利用公式（13）中的损失函数训练整个模型。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：包括有以下步骤，

S5、多阶段训练策略。

2.根据权利要求1所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：S1中骨架数据预处理使用的数据集由多个存储骨架坐标和信息的文本文件构成，并使用python语言对文本文件中作数据处理封装。

3.根据权利要求2所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：每个文本文件中包含骨架数据的视频帧数数据信息、对应骨架节点的坐标数据信息、动作执行人数数据信息、骨架节点数数据信息，将数据封装为/>的四维矩阵格式，其中/>代表通道数，/>代表帧数，/>代表节点数，/>代表运动的人数。

4.根据权利要求2所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：S1中骨架数据预处理使用的数据集是NTU-RGBD60/120数据集。

5.根据权利要求2所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：S2中包括有

6.根据权利要求5所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：S3中通过图学习模块得到宏观图邻接矩阵和微观图邻接矩阵/>，图矩阵更新模块通过将两个具有ReLU激活函数的邻接矩阵求和，并通过如下公式进行归一化，得到图的邻接矩阵，/>(8)。

7.根据权利要求6所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：S4中包括有

S4-2、基于空间关系的图卷积层，设定，对每个时段帧间序列/>应用/>图卷积网络来捕捉节点的空间关系，通过自适应图结构学习组件，可以获得一个最优的图结构/>，直接使用图卷积层来学习最优图结构，/>表示扩散卷积，/>表示转移矩阵，/>表示扩散步长,/> 是可训的模型参数矩阵，公式如下/>(9)；

将不同时空卷积层的表示通过跳跃连接融合在一起，(11) ，其中是第/>层的全连接网络；

S4-4、动作分类输出层，根据模型的卷积层的输出对动作进行分类，将多个时空卷积层进行叠加，并融合多层属性来捕获时空模式，通过应用一个全连通网络直接得到所有节点下对应的动作分类，(12) ，其中/>表示输出的全连通网络，模型选择平均绝对误差作为训练目标，优化模型分类的损失，模型的损失表示如下(13) ，其中/>为数据集真值,/> 为第/>时刻所有节点的分类结果。

8.根据权利要求7所述的辅助养老机器人监控的自适应多阶段人体行为识别模型，其特征在于：S5中将宏观图结构学习模块与动作分类模块相结合，对模块进行预训练，(14) ，预训练策略为/>提供了良好的初始值，使模型收敛；通过公式（8）将预训练的/>和/>结合起来，利用公式（13）中的损失函数训练整个模型。