CN118038203A

CN118038203A - 一种行为识别模型的训练方法及其应用方法

Info

Publication number: CN118038203A
Application number: CN202410112519.2A
Authority: CN
Inventors: 李策; 魏显隆; 王田; 李欣; 赵凯攀
Original assignee: China University of Mining and Technology Beijing CUMTB; Beihang University
Current assignee: China University of Mining and Technology Beijing CUMTB; Beihang University
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-05-14

Abstract

本发明公开一种行为识别模型的训练方法及其应用方法，涉及深度学习和行为识别技术领域，该训练方法基于行为识别模型进行，行为识别模型包括时空图卷积模块组和分类器；时空图卷积模块组包括依次连接的多个时空图卷积模块；每一时空图卷积模块包括稀疏多尺度信息模块、时空卷积模块和拼接模块；稀疏多尺度信息模块对输入进行特征提取，得到行为动作特征；时空图卷积模块对输入进行特征提取，得到时空卷积特征；拼接模块用于对行为动作特征和时空卷积特征进行拼接，得到拼接特征；分类器对最后一个时空图卷积模块的输出进行分类，得到样本骨架序列数据对应的样本行为识别结果。本发明能够更准确、快速地分类人体骨架数据对应的动作。

Description

一种行为识别模型的训练方法及其应用方法

技术领域

本发明涉及深度学习和行为识别技术领域，特别是涉及一种行为识别模型的训练方法及其应用方法。

背景技术

人体行为识别是计算机视觉、深度学习方向研究和行为模式识别领域的热门领域，它对视频中的动作进行行为识别、运动分析，在人机交互、安保监控、及基于内容的视频提取等方面，行为识别都有着一定的实际商业价值，动作行为识别的意义正随着信息化的建设日益明显。同时，基于骨骼序列的动作行为识别对机器学习图像处理等其他领域也有一定的促进作用，例如人脸识别、姿态分析等方向。

在传统的研究中由于受限于技术的约束，大部分行为识别都基于2D的视频和图像，需要大量的数据，动作识别的难度在于难以捕捉视频中人体的关键信息，识别的效果都达不到预期效果，而基于骨架序列的动作识别由于其对人体运动的高水平的表征性和对视角、外观、尺度和环境干扰的鲁棒性，吸引了众多研究人员的兴趣。

最初的基于骨架的动作识别方法将人体关节视为一组独立的特征，通过手工学习这些特征等来建立空间和时间上关节的联系，如Lie群方法等，这类现有技术忽略了人体关节之间本来的联系性。在实际应用中，人体关节之间的联系性可以通过骨架图来表示，其中，骨架图中的节点代表人体的关节，骨架图中的边代表人体的骨头。因此，可以在构建骨架时空图的基础上来构建人体动作的变化模型，骨架时空图是一系列不相交、同构的不同时间步长的骨架图，承载着空间和时间维度上的信息。行为识别算法广泛使用骨架时空图对人体动作进行建模，而基于深度学习的方法普遍采用循环神经网络、长短时记忆网络、门控循环单元网络、卷积神经网络、图卷积神经网络等方法，这些方法在基于骨架的人体行为识别上取得了较好的效果，但是基于图卷积网络的深度学习方法受限于难以捕捉复杂行为依赖的跨时空信息流，因此亟需一种能够考虑骨架关节间依赖关系且准确率高的骨架数据行为识别方法。

发明内容

本发明的目的是提供一种行为识别模型的训练方法及其应用方法，将稀疏多尺度聚合方法和统一的时空卷积算子相结合，提出了一个强大的基于稀疏时空图卷积网络的特征提取器，充分利用了跨时空的多尺度感受野的骨架信息，可以更准确、快速地分类人体骨架数据对应的动作，进一步提高了模型的行为识别性能。

为实现上述目的，本发明提供了如下方案。

第一方面，本发明提供一种行为识别模型的训练方法，所述训练方法基于行为识别模型进行，所述行为识别模型包括时空图卷积模块组和分类器；所述时空图卷积模块组包括依次连接的多个时空图卷积模块；每一所述时空图卷积模块包括稀疏多尺度信息模块、时空卷积模块和拼接模块。

对于每一所述时空图卷积模块，所述稀疏多尺度信息模块对所述时空图卷积模块的输入进行特征提取，得到行为动作特征；第一个所述时空图卷积模块的输入为数据集中每一样本骨架序列数据的样本图结构的样本特征向量；所述样本骨架序列数据包括若干帧样本骨架动作，每一所述样本骨架动作对应一样本图结构；所述样本特征向量包括所述样本骨架序列数据的样本骨架动作帧数、每一所述样本骨架动作中的样本骨架关节点数以及每一所述样本骨架关节点的坐标；所述数据集包括若干样本骨架序列数据以及每一所述样本骨架序列数据对应的真实行为识别结果；所述时空图卷积模块对所述时空图卷积模块的输入进行特征提取，得到时空卷积特征；所述拼接模块用于对所述行为动作特征和所述时空卷积特征进行拼接，得到拼接特征。

所述分类器对最后一个所述时空图卷积模块的输出进行分类，得到所述样本骨架序列数据对应的样本行为识别结果。

可选的，在对所述时空图卷积模块的输入进行特征提取之前，还包括。

获取若干原始骨架序列数据。

对于每一所述原始骨架序列数据，对所述原始骨架序列数据的时间维度进行设定维度下采样，得到所述原始骨架序列数据对应的样本骨架序列数据。

可选的，在对所述时空图卷积模块的输入进行特征提取之前，还包括：对于所述样本骨架序列数据的每一样本骨架动作，基于图论的方式对所述样本骨架动作进行表示，得到所述样本骨架动作的样本图结构；所述样本图结构的样本图节点为所述样本骨架动作的样本骨架关节点，所述样本图结构的样本边表示所述样本边连接的两个样本图节点对应的样本骨架关节点之间存在连接关系。

可选的，所述分类器由全连接层构成。

可选的，所述设定维度为50。

第二方面，本发明提供了一种基于第一方面所述的行为识别模型的应用方法，所述的行为识别模型的应用方法包括。

获取目标骨架序列数据的图结构的特征向量；所述特征向量包括所述目标骨架序列数据包括若干帧目标骨架动作，每一所述目标骨架动作对应一图结构；所述样本特征向量包括所述目标骨架序列数据的目标骨架动作帧数、每一帧目标骨架动作的目标骨架关节点数以及每一所述目标骨架关节点的坐标。

将所述目标骨架序列数据的图结构的特征向量输入至第一方面训练好的行为识别模型中，得到所述目标骨架序列数据对应的行为识别结果。

可选的，在获取目标骨架序列数据的图结构的特征向量之前，还包括：对于所述目标骨架序列数据的每一目标骨架动作，基于图论的方式对所述目标骨架动作进行表示，得到所述目标骨架动作的图结构；所述图结构的图节点为所述目标骨架动作的目标骨架关节点，所述图结构的边表示所述边连接的两个图节点对应的目标骨架关节点之间存在连接关系。

可选的，所述分类器由全连接层构成。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种行为识别模型的训练方法及其应用方法，行为识别模型包括时空图卷积模块组和分类器；时空图卷积模块组包括依次连接的多个时空图卷积模块；每一时空图卷积模块包括稀疏多尺度信息模块、时空卷积模块和拼接模块；对于每一时空图卷积模块，稀疏多尺度信息模块对时空图卷积模块的输入进行特征提取，得到行为动作特征；样本骨架序列数据包括若干帧样本骨架动作，每一样本骨架动作对应一样本图结构；样本特征向量包括样本骨架序列数据的样本骨架动作帧数、每一样本骨架动作中的样本骨架关节点数以及每一样本骨架关节点的坐标；数据集包括若干样本骨架序列数据以及每一样本骨架序列数据对应的真实行为识别结果；时空图卷积模块对时空图卷积模块的输入进行特征提取，得到时空卷积特征；拼接模块用于对行为动作特征和时空卷积特征进行拼接，得到拼接特征；分类器对最后一个时空图卷积模块的输出进行分类，得到样本骨架序列数据对应的样本行为识别结果。本发明利用稀疏多尺度聚合消除较远和较近邻域间的冗余依赖来解决权重问题，得出稀疏后的带有多尺度聚合特征的图矩阵结构，利用统一时空图卷积模块建立跨时空的骨架关节间依赖关系，适用于基于骨架数据的人体行为识别，可以高效准确地分类骨架数据对应的人体动作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的行为识别模型的训练方法流程示意图。

图2为本发明实施例1提供的坐下动作的第12、32、62帧人体骨架建模示意图。

图3为本发明实施例1提供的带稀疏多尺度聚合的时空图卷积模块结构示意图。

图4为本发明实施例1提供的行为识别模型架构示意图。

图5为本发明实施例2提供的行为识别模型的应用方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1。

本实施例提供了一种行为识别模型的训练方法，所述训练方法基于行为识别模型（稀疏时空图卷积网络）进行，所述行为识别模型包括时空图卷积模块组和分类器；所述时空图卷积模块组包括依次连接的多个时空图卷积模块；每一所述时空图卷积模块包括稀疏多尺度信息模块、时空卷积模块和拼接模块，如图4所示，图4中STGC块表示时空图卷积模块，r表示有r个时空图卷积模块的堆栈，FC表示全连接层，Global Average Pooling是全局平均池化，softmax表示归一化指数函数，input表示输入特征向量，output表示输出特征向量，F表示输入的图结构的特征（样本特征向量）。

对于每一所述时空图卷积模块，所述稀疏多尺度信息模块对所述时空图卷积模块的输入进行特征提取，得到行为动作特征；所述样本骨架序列数据包括若干帧样本骨架动作，每一所述样本骨架动作对应一样本图结构；所述样本特征向量包括所述样本骨架序列数据的样本骨架动作帧数、每一所述样本骨架动作中的样本骨架关节点数以及每一所述样本骨架关节点的坐标；所述数据集包括若干样本骨架序列数据以及每一所述样本骨架序列数据对应的真实行为识别结果；所述时空图卷积模块对所述时空图卷积模块的输入进行特征提取，得到时空卷积特征；所述拼接模块用于对所述行为动作特征和所述时空卷积特征进行拼接，得到拼接特征。

如图1所示，本实施例提供的行为识别模型的训练方法具体可以包括。

步骤S1010：将训练集中每一段骨架数据的时间维度进行下采样使得数据的时间维度固定，以训练神经网络。

人体骨架数据可以由深度传感器（如Kinect）采集，目前有大量的开源骨架数据集，如NTU RGB+D 60、NTU RGB+D 120 、UT-Kinect等。其中NTU RGB-D 60数据集是现在最主流的基于骨架的动作识别序列，长度为56578多个序列和400万帧，共有60类动作，每个骨架有25个骨架关节点，涉及单人动作和双人动作。本实施例采用NTU RGB-D 60作为数据集。

NTU RGB-D数据直接使用深度传感器采集的数据中，人体完成不同的动作（如喝水和跳跃）所使用的时间长度不同。为了方便后续的网络训练，需要针对不同动作序列时间维度做统一，因此需要下采样。

在对所述时空图卷积模块的输入进行特征提取之前，还包括。

获取若干原始骨架序列数据。对于每一所述原始骨架序列数据，对所述原始骨架序列数据的时间维度进行设定维度下采样，得到所述原始骨架序列数据对应的样本骨架序列数据

NTU RGB-D 60数据集包括若干原始骨架序列数据，将原始骨架序列数据的时间维度下采样到一个固定值（设定维度），本实施将时间维度下采样到50，即设定维度为50。

图2为根据本发明一个实施例的人体骨架建模示意图，表示坐下动作的第12、32、62帧。

在对所述时空图卷积模块的输入进行特征提取之前，还包括：对于所述样本骨架序列数据的每一样本骨架动作，基于图论的方式对所述样本骨架动作进行表示，得到所述样本骨架动作的样本图结构；所述样本图结构的样本图节点为所述样本骨架动作的样本骨架关节点，所述样本图结构的样本边表示所述样本边连接的两个样本图节点对应的样本骨架关节点之间存在连接关系。

本实施例构建的每一样本骨架动作对应的图结构S是一个大小为25´25的邻接矩阵，邻接矩阵中的元素表示25个骨架关节点之间的连接关系，当两个骨架关节点之间存在相连接关系时，这两个骨架关节点对应的样本图节点用样本边连接，邻接矩阵对应元素位置值为1；反之则值为0。

带稀疏多尺度信息的跨时空图卷积模块分为稀疏多尺度信息模块和时空卷积模块和拼接模块。

步骤S1020：将步骤S1010中输入的样本骨架序列数据的样本图结构的样本特征向量送入稀疏多尺度信息模块，得到稀疏后的带有多尺度聚合特征的图矩阵结构。

在本实施中，输入网络的样本特征向量x，其维度是（T，N，C），其中T=50是时间维度，即表示有50帧样本骨架动作，N=25是骨架关节点数即空间维度，C=3表示骨架关节点的三维坐标。

在步骤S1020中，需要将样本骨架序列数据样本图结构的样本特征向量输入稀疏多尺度信息模块，得到稀疏图矩阵结构，从骨架序列中提取行为动作的特征，即得到行为动作特征。

在稀疏多尺度信息模块中，为了使用稀疏多尺度带权重的图结构S，需要将S输入如下公式(1)构建神经网络结构F_t ^(l+1)。

(1)。

上式（1）中，为图卷积网（GCNs）的逐层更新规则应用于第t帧的特征，其中t为帧数，l为第l层网络；/>为激活函数；n为控制聚合的尺度，N为骨架关节点的数量；/>为度矩阵的逆矩阵；/>为骨架图S的n阶邻接矩阵（样本图结构的样本特征向量）；/>为t时刻上的第l层网络得到的邻接矩阵多尺度结构特征；/>为聚合尺度为n时第l层的可学习权值矩阵；邻接矩阵/>为捕获骨架的边集。

然后增加对角矩阵自循环以保持自身特征，计算出骨架图，I为骨架图S的对角矩阵，其主对角线上元素为1，其中/>表示骨架图的n阶邻接矩阵，具体定义为式（2）。

（2）。

上式中，是/>和/>之间最短的距离，n为设定的阶数，其中，/>和/>分别表示第i个骨架关节点和第j个骨架关节点，/>是/>的距离为n阶邻域的一般化，其中，/> =，/> =I，接下来使用矩阵的幂之差，如下公式（3）。

（3）。

上式中，将邻接矩阵n次幂得到的矩阵中元素大于1的元素全部变为1，通过求图的n次幂与n-1次幂之差计算，这样求得的n阶邻接矩阵比其相对应的高次幂的矩阵稀疏，使得n值的长期建模（即高阶n次幂的稀疏表示）更加有效地表示出来，最后经过流形学习方法M函数完成图矩阵信息映射，增强图矩阵的结构表示性。

步骤S1030：将步骤S1020中稀疏后的带有多尺度聚合特征的图矩阵结构送入时空图卷积模块。

在步骤S1030中，需要将稀疏后的图矩阵结构送入时空图卷积模块，得到跨时空跳跃连接的图结构。如图3所示，图3为根据本发明一个实施例的带稀疏多尺度聚合方案的时空图卷积模块。

在跨时空图卷积模块中，本实施例提出一种允许跨时空特征连接的方案，这个方案用时空图中的跨时空边来建模，如下公式（4）。

（4）。

上式中，为块邻接矩阵经图卷积网（GCNs）的逐层更新规则应用于第l+1层第t帧的特征，/>为块邻接矩阵，/>为滑动时间窗口，先在时空图结构上输入一个大小为的滑动时间窗口，得到窗口/>帧内的所有节点集的并集，将/>帧的时空图矩阵/>展开得到块邻接矩阵/>，对应的结构如下式（5）。

（5）。

利用帧的时空图矩阵/>展开得到块邻接矩阵/>，可以得到每个节点与自身及其跨所有跨/>帧的1跳节点的连接。

本实施例将提出的稀疏多尺度聚合方法和统一的时空卷积算子两者相结合，提供了一个强大的特征提取器，直接在时空域中进行聚合，即公式（1）与公式（4）合并得到公式（6）。

（6）。

其中，为块邻接矩阵经图卷积网（GCNs）的逐层更新规则应用于第l+1层第t帧的特征；/>为在滑动窗口大小为/>，聚合尺度为n时度矩阵的逆矩阵；/>为聚合尺度为n时块邻接矩阵；/>为块邻接矩阵经图卷积网（GCNs）的更新规则第l层第t帧的特征；/>为聚合尺度为n时第l层的可学习权值矩阵。

步骤S1040：通过标注动作类别作为监督，更新神经网络权重。对步骤S1030输出的特征向量使用归一化指数分类器分类，获得动作类别和得分。如图4所示，所述分类器包括全连接层和softmax归一化指数函数。

以样本骨骼序列数据的真实行为识别结果为标签，对NTU RGB-D 60数据集输出的特征向量使用归一化指数分类器Softmax分类，获得样本骨架序列数据对应的样本行为识别结果，样本行为识别结果包括样本骨架序列数据的动作类别和得分。经过数据集的数据迭代训练稀疏时空图卷积网络，更新稀疏时空图卷积网络中的权重参数，得到训练好的稀疏时空图卷积网络，训练好的稀疏时空图卷积网络为行为识别模型。

本实施例将NTU RGB-D 60数据集划分成训练集和测试集，使用训练集训练网络，使用测试集验证模型效果，最后准确率达到89.3%，效果显著。

实施例2。

如图5所示，本实施例提供了一种基于实施例1所述的行为识别模型的应用方法，所述行为识别模型的应用方法包括。

S2010：获取目标骨架序列数据的图结构的特征向量；所述特征向量包括所述目标骨架序列数据包括若干帧目标骨架动作，每一所述目标骨架动作对应一图结构；所述样本特征向量包括所述目标骨架序列数据的目标骨架动作帧数、每一帧目标骨架动作的目标骨架关节点数以及每一所述目标骨架关节点的坐标。

S2020：将所述目标骨架序列数据的图结构的特征向量输入至实施例1训练好的行为识别模型中，得到所述目标骨架序列数据对应的行为识别结果。

在一个具体的示例中，在获取目标骨架序列数据的图结构的特征向量之前，还包括：对于所述目标骨架序列数据的每一目标骨架动作，基于图论的方式对所述目标骨架动作进行表示，得到所述目标骨架动作的图结构；所述图结构的图节点为所述目标骨架动作的目标骨架关节点，所述图结构的边表示所述边连接的两个图节点对应的目标骨架关节点之间存在连接关系。

所述分类器由全连接层构成。

本发明采用了骨架序列数据分时下采样、稀疏多尺度聚合等技术，获得稀疏后的带有多尺度聚合特征的图矩阵结构，利用统一时空图卷积模块建立跨时空的骨架关节间依赖关系，适用于基于骨架数据的人体动作分类和行为识别。利用稀疏多尺度聚合消除较远和较近邻域间的冗余依赖来解决权重问题，得出稀疏后的带有多尺度聚合特征的图矩阵结构，利用统一时空图卷积模块建立跨时空的骨架关节间依赖关系，适用于基于骨架数据的人体行为识别，可以高效准确地分类骨架数据对应的人体动作。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种行为识别模型的训练方法，其特征在于，所述训练方法基于行为识别模型进行，所述行为识别模型包括时空图卷积模块组和分类器；所述时空图卷积模块组包括依次连接的多个时空图卷积模块；每一所述时空图卷积模块包括稀疏多尺度信息模块、时空卷积模块和拼接模块；

对于每一所述时空图卷积模块，所述稀疏多尺度信息模块对所述时空图卷积模块的输入进行特征提取，得到行为动作特征；第一个所述时空图卷积模块的输入为数据集中每一样本骨架序列数据的样本图结构的样本特征向量；所述样本骨架序列数据包括若干帧样本骨架动作，每一所述样本骨架动作对应一样本图结构；所述样本特征向量包括所述样本骨架序列数据的样本骨架动作帧数、每一所述样本骨架动作中的样本骨架关节点数以及每一所述样本骨架关节点的坐标；所述数据集包括若干样本骨架序列数据以及每一所述样本骨架序列数据对应的真实行为识别结果；所述时空图卷积模块对所述时空图卷积模块的输入进行特征提取，得到时空卷积特征；所述拼接模块用于对所述行为动作特征和所述时空卷积特征进行拼接，得到拼接特征；

2.根据权利要求1所述的一种行为识别模型的训练方法，其特征在于，在对所述时空图卷积模块的输入进行特征提取之前，还包括：

获取若干原始骨架序列数据；

3.根据权利要求1所述的一种行为识别模型的训练方法，其特征在于，在对所述时空图卷积模块的输入进行特征提取之前，还包括：

对于所述样本骨架序列数据的每一样本骨架动作，基于图论的方式对所述样本骨架动作进行表示，得到所述样本骨架动作的样本图结构；所述样本图结构的样本图节点为所述样本骨架动作的样本骨架关节点，所述样本图结构的样本边表示所述样本边连接的两个样本图节点对应的样本骨架关节点之间存在连接关系。

4.根据权利要求1所述的一种行为识别模型的训练方法，其特征在于，所述分类器由全连接层构成。

5.根据权利要求2所述的一种行为识别模型的训练方法，其特征在于，所述设定维度为50。

6.一种基于权利要求1所述的行为识别模型的应用方法，其特征在于，所述的行为识别模型的应用方法包括：

获取目标骨架序列数据的图结构的特征向量；所述特征向量包括所述目标骨架序列数据包括若干帧目标骨架动作，每一所述目标骨架动作对应一图结构；所述样本特征向量包括所述目标骨架序列数据的目标骨架动作帧数、每一帧目标骨架动作的目标骨架关节点数以及每一所述目标骨架关节点的坐标；

将所述目标骨架序列数据的图结构的特征向量输入至权利要求1训练好的行为识别模型中，得到所述目标骨架序列数据对应的行为识别结果。

7.根据权利要求6所述的一种行为识别模型的应用方法，其特征在于，在获取目标骨架序列数据的图结构的特征向量之前，还包括：

对于所述目标骨架序列数据的每一目标骨架动作，基于图论的方式对所述目标骨架动作进行表示，得到所述目标骨架动作的图结构；所述图结构的图节点为所述目标骨架动作的目标骨架关节点，所述图结构的边表示所述边连接的两个图节点对应的目标骨架关节点之间存在连接关系。

8.根据权利要求6所述的一种行为识别模型的应用方法，其特征在于，所述分类器由全连接层构成。