CN116778576A

CN116778576A - 基于骨架的时序动作分割的时空图变换网络

Info

Publication number: CN116778576A
Application number: CN202310657425.9A
Authority: CN
Inventors: 王丽辉
Original assignee: Jilin Agricultural Science and Technology College
Current assignee: Jilin Agricultural Science and Technology College
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-19

Abstract

本发明公开了一种基于骨架的时序动作分割的时空图变换网络，以解决视频动作分割技术中存在的无法捕获隐含的远程依赖关系、缺乏对高级语义信息分析的技术难题，属于视频处理与理解领域。在本发明中，考虑了骨骼关节之间的空间层次结构，从而将部分中的动作建模为拓扑图。时空图变换网络采用编码器‑解码器结构，编码器与解码器都包含多个骨架图转换块。其中，时空图层采用自适应图策略增强了图结构的灵活性和鲁棒性，骨架图转换块中的时空转换层构建了并行注意机制来模拟动态空间和非线性时序相关性。实践证明，本发明缓解了过度分割错误和模糊边界问题，回应了视频动作分割技术中对分割细粒度实现的迫切需求。

Description

基于骨架的时序动作分割的时空图变换网络

技术领域

本发明涉及视频处理与理解领域，尤其涉及一种面向人类动作细粒度识别的视频时序分割技术。

背景技术

视频理解是计算机视觉领域的一个重要研究课题，可以应用于异常检测、智能服务和人机交互等领域。动作识别是视频理解的一个分支，它用单个语义标签对预修剪的视频片段进行分类。动作识别中最先进的方法可以在多达数百万个片段的数据集上区分许多动作类别。然而，这些方法在感知动作间的相关性方面存在局限性。为了克服这些限制，研究人员专注于长程未修剪的视频，这些视频被密集地标记，包含多个具有强连续性的动作，类似于人类的日常行为。这些视频使逐帧分类变得困难，使得人们对时序动作分割方法的兴趣增加，以设计复杂的网络来提升未修剪视频的性能。

早期的方法依赖于滑动窗口法来提取手工特征。尽管这类方法取得了突破，但由于最大化问题，它们在处理长视频时面临挑战。受语音合成启发，研究人员使用时序卷积网络，以改进早期的架构。对于以运动为中心的视频理解任务，骨架模式提供了比光流、RGB特征更为丰富的信息输入。基于骨骼的时序动作分割是一项比动作识别更复杂的任务，因为它既需要分类动作，又需要准确地定位动作片段发生的起始和结束时间。目前方法存在以下两点难题：一是无法捕捉人体关节之间的潜在的时空联系，二是缺乏考虑动态的关节信息以及非线性的时序信息等技术问题。

目前为止，因为存在上述关键技术难点，现有方法中(包含MS-TCN、ASRF、BCN、ETSN等方法)，都不能够实现视频时序信息中人类动作的细粒度语义分割。

发明内容

为了解决上述技术问题，本发明提供了一种基于骨架的时序动作分割的时空图变换网络，可以提高对于视频序列中人体动作细粒度识别的精度。

在公开的技术方法中，包含提出模型的体系结构、时空位置嵌入(STPE)、时空图层、自适应图策略、时空变换层。

基于骨架的时序动作分割的时空图变换网络应用编码器-解码器结构，该结构包括带有残差连接的骨架图转换块(SGT块)，并将它们输入到通用的时序动作分割骨干网络中，以改进初始预测，从而生成逐帧动作分割结果。同时，还提出了一种时空位置嵌入(STPE)方法，将时序信息和图信息与SGT块中的注意机制融合在一起。

为了编码骨架数据中张量特征，本发明引入了时空位置嵌入(STPE)，以学习人体关节之间的相互关系。首先用向量编码每帧时序位置，然后采用struc2vec方法联合表述图结构信息。

为了对图结构中固有的非结构化模式进行建模，本发明提出了时空图层。通过检测相邻关节来学习特征，对关节的相邻特征进行聚合生成中间特征，然后对聚合后的特征进行线性投影和激活函数传递。本发明将连续帧中对应于相同身体部位的关节在时域中以非线性方式连接起来，然后是批处理归一化层(BN)和ReLU激活

本发明提出了一种鲁棒的自适应图策略，通过时空自适应块从时序和空间维度捕获互补的判别特征。通过相邻帧之间的相似性与时序维度嵌入，建模结构相似函数，采用Softmax等函数，生成时序自适应块。同时，建模空间自适应块，结合图本身、参数化图、嵌入图，提取空间域的信息特征要素。

为了建模关节之间的动态时空相关性信息，本发明设计了一种时空转换层，通过门控融合模块的时空关注来增强模型的时空关联能力。时空转换层通过空间注意力来捕捉网络中节点之间的相关性，沿着时序维度赋予不同关节不同的权重。时空转换层通过时序注意来计算不同时序位置之间的非线性相关性，将隐藏状态与STPE结合起来，并采用M个并行注意机制来计算时序注意得分。时空转换层采用门控融合模块，自适应融合时空信息，通过引入分支系数与非线性激活，增加对时空分支的非线性管控能力，并在每个关节和时序位置对空间和时序相关性的流动进行建模。

与现有方案相比，本方案具有以下技术优点：

本发明针对视频分析技术中难以实现人体动作细粒度分割的技术难题，提出了一种基于骨架的时序动作分割的时空图变换网络。本发明捕获了隐式的远程依赖关系并动态学习节点之间随时序的时空相关性，充分考虑了动作的时序因素，从而使图结构具有更强的鲁棒性。综合来看，该方法提高了人体动作细粒度分割的精度，回应了视频动作分割技术中对分割细粒度实现的迫切需求。

附图说明

图1为网络整体框图。(a)为STGT的结构，(b)为STPE的结构，(c)为SGT块结构；

图2为自适应图策略的结构；

图3为局部-全局空间注意结构。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所提出的基于骨架的时序动作分割的时空图变换网络，包含时空位置嵌入(STPE)、时空图层、自适应图策略、自适应时空网络结构调整、反映时空相关性的时空变换层。

在本发明公开的时空位置嵌入(STPE)技术方法中，基于骨架的时序动作分割的时空图变换网络，如图1(a)所示。基于骨架的时序动作分割任务旨在通过应用包含L个骨架图转换块(SGT块)和残余连接器的编码器-解码器结构，并将它们传输到一般时序动作分割主干以改进初始预测，从而从时空图变压器网络生成帧智能动作分割结果。为了获得视频的时变表示，还提出了一种时空位置嵌入(STPE)方法，将时序信息和图结构与SGT块中的注意机制融合在一起。此外，为了便于残差连接，STGT中的所有层都会产生d_model维度的输出。

在本发明所提出的基于骨架的动作片段包含数百或数千个在时序域中连接的连续骨架动作。将这些动作建模成一个基于骨架的时序动作分割任务。在空间维度上，本发明将框架t的骨架作用定义为空间图G_S上的模型，其中N为关节个数。G_S可进一步表示为加权有向图G_S＝(V,E_S,A)，其中，V＝(v₁，…，v_N)是N＝|V|个顶点的集合，表示人体关节的骨骼动作；A∈R^N×N为加权邻接矩阵，其中A_vi,vj表示关节v_i与v_j之间的接近度；E_S＝(e₁，…，e_M)用于构造空间边，其中存在M＝|ES|空间边。在时序维度上，本发明构造时序边E_T＝(e₁，…，e_T)，其中T＝|e_T|表示视频的帧数。最后，基于骨架的动作表示为时空图GST＝(V，{E_S,E_T}，A)。

本发明将骨架动作序列X＝{X₁,...,X_T}∈R^N×T×D分布一个预定义的C动作类集合a:＝{1，…，C}。其中，每一帧t∈{1,...,T}，其中T为最大帧数，D为每个关节的三维坐标。本发明将视频v作为输入，并生成初始帧位预测。通过概率向量和预测标签等信息，通过最大位运算算符，优化得到最终预测。

在本发明公开的时空位置嵌入技术方法中，骨架数据被组织成一个张量来馈送到神经网络中，张量的每个元素的定义顺序或结构对于表明它们的身份至关重要(例如，帧索引或关节索引)。因此，本发明引入了时空位置嵌入(STPE)，如图1(b)所示。首先，为每个帧表示配备时序嵌入，通过将每个时序位置编码为向量来反映动态相关性。然后，使用一热编码将每个时序位置编码为R^T，然后使用两层全连接神经网络将时序特征转换为向量R^d_model，表示为然而，不同动作节段关节之间的框架内关系通常是不同的。在这方面，本发明提出空间嵌入将关节编码为保留图结构信息的特征表示。采用struc2vec方法来学习联合表示。为了用整个模型训练预学习的向量，这些表示被传递到一个两层全连接的神经网络。最后得到空间位置嵌入，表示为/>其中v_j∈V。

本发明将空间和时序嵌入结合起来创建STPE。对于时刻为t_i的关节v_j，STPE表示为因此，N个跨框架节点的STPE定义为E_STPE∈R^{N×T×d_model}。该方法结合了时序信息和图结构，并将其应用于变压器骨架图块(SGT块)的时空变压器层。

在本发明公开的时空图层技术方法中，提出的图卷积网络将传统的卷积运算推广到图结构中，使其能够对图中固有的非结构化模式进行建模。本发明对关节的相邻特征进行聚合生成中间特征，然后对聚合后的特征进行线性投影和激活函数传递。图卷积的更新规则可以表示为

式中，K_v为空间维度的核大小，设为3；W_k∈R^{d_model×d_model}为卷积的可学习权矩阵，为邻接矩阵A的归一化形式；/>可视为节点相邻特征的集合，其中D_k∈R^N×ND为A_k的对角节点度矩阵；A_k为距离k的邻接矩阵，类似于A∈R^N×N，表示结点之间距离为k的路径数；/>表示点积运算。最后，f_GC(·)被认为是相邻关节之间进行特征聚合后，每个关节自我更新。

图卷积网络在连续帧中对应于相同身体部位的关节在时域中以非线性方式连接起来，然后是批处理归一化层(BN)和Relu激活，使用时序卷积从空间图卷积生成的特征映射中学习时序模式。时空图层表示为：

f_out＝f_TC(f_GC(f_in))+f_in

其中，f_out为输出特征映射，f_TC为核大小为K_t的时序卷积滤波器。在时空图层中加入残差连接来增强原始特征，并保证梯度的稳定传播。

在本发明公开的自适应图策略技术方法中，通过时空自适应块从时序和空间维度捕获互补的判别特征。相邻帧之间的相似性可以捕获骨架序列的局部差异，并提供帧间时序运动信息的度量。为了使图拓扑自适应，对时序自适应块的处理进行调整，表示为:

其中，T_A(·)和f_Tout∈R^{N×T×d_model}表示时序自适应块的处理和时序自适应块图层第n帧的输出骨架张量，用于评估每两帧或跨帧之间的特征相似性。

本发明采用空间自适应块来提供空间域中的信息特征，主要包含三个重要图：图本身参数化图/>嵌入图/>表示为：

其中，W_θk和分别为嵌入函数θ和/>的可学习参数。将骨架张量f_in嵌入到θ和/>函数中，这些函数输出嵌入空间的维数为N×TC_e。空间自适应块的处理可表述如下:

其中S_A(·)和f_Sout∈R^{N×T×d_model}分别为空间自适应块的处理和空间自适应块图层第n帧的输出骨架张量。结合自适应图策略，将的图卷积f_GC(·)的表述进一步整合为：

f_out＝f_GC(f_in)＝f_Tout+f_Sout+f_in

在本发明提出的时空变压器层中，通过门控融合模块的时空关注来增强模型的时空关联能力。第l个骨架图变压器块(SGT块)中的时空变压器层输入表示为其中关节v_j在时刻的隐藏状态表示为/>另外，将第l块时空变压器层的时空注意力输出设为/>和其中关节v_j在时刻t_i的隐藏状态分别表示为/>和/>经过门控融合模块后，产生第l块的时空变压器层输出，记为H^l。

在分割涉及“单指点”和“双指点”的骨骼序列时，空间信息对于判断这两个高度相关的动作具有重要意义。为了对这种特性进行建模，本发明利用空间注意力来捕捉网络中节点之间的相关性。计算每对关节之间的关系，表示如下：

其中和d_model分别表示级联操作和维数；<,>是内积运算。随后，利用softmax激活对空间相关矩阵的元素进行归一化，并计算其加权系数。

为了捕捉不同尺度的空间特征，减轻计算负担，本发明对空间注意力进行了优化，并进一步提出了局部-全局空间注意力，如图3所示。具体而言，将空间注意修改为多头注意，其中M个平行注意机制与不同的可学习投影连接在一起，并将图中的N个节点随机分成P个部分，每个部分由Q＝NP个节点组成。在每个部分中，计算空间注意力，以学习关节之间的局部空间相关性，其中参数在各个部分之间共享。随后，利用最大池化操作为每个部分生成独立的表示。然后，计算不同部分之间的全局空间相关性，从而得到每个部分的全局表示。最后，将各部分组成的局部空间特征与相应的全局特征相加，作为最终输出。

当分割包括“向下挥动”和“向上挥动”的骨架序列时，时序信息对于识别相似的运动外观动作变得更加重要。为了模拟这些属性，利用时序注意来计算不同时间位置之间的非线性相关性。将隐藏状态与STPE结合起来，并采用M个并行注意机制来计算时序注意得分。

其中，表示时序t_i与t之间的重要性。

本发明在时空变压器层采用门控融合模块，自适应融合时空信息。在第l个SGT块中，空间和时序注意力的输出分别表示为和/>门控融合模块的处理如下：

其中g表示闸门操作，W_g,S∈R^{d_model×d_model}，W_g,T∈R^{d_model×d_model}，b_g∈R^d_model为可学习参数。获得门控融合模块的输出后，在每个关节和时序位置对空间和时序相关性的流动进行建模。

本发明方法在两个数据集(PKU-MMD v2与HuGaDB)上与多个方法对比如表一、表二所示。实验证明，本发明方法可以显著提升视频序列中人体动作细粒度识别精度，对相关领域的研究有着积极作用。

表一

表二

Claims

1.基于骨架的时序动作分割的时空图变换网络，其特征在于：采用编码器-解码器结构，其中编码器和解码器都包含多个骨架图转换块(SGT块)，时空图层采用自适应图策略，SGT块中的时空转换层构建了时空注意力机制。

2.根据权利要求1所述的基于骨架的时序动作分割的时空图变换网络，其特征在于，包括：

模型整体架构，包含L个骨架图转换块(SGT块)和残差连接的编码器-解码器结构，并将它们传输到一般时序动作分割主干以改进初始预测，从而生成逐帧动作分割结果，通过一种时空位置嵌入(STPE)方法，将时序信息和图信息与骨架图转换块中的注意机制融合在一起，网络结构采用残差连接结构；

时空位置嵌入(STPE)将每个时序位置编码为向量来反映动态相关性，使用独热编码的方式编码时序信息，然后使用两层全连接神经网络将时序特征转换为向量；

时空图层，对关节的相邻特征进行聚合生成中间特征，然后对聚合后的特征进行线性投影和激活函数传递；

自适应图策略，通过时空自适应块从时序和空间维度捕获互补的判别特征；

时空变换层，建模空间注意力与时序注意力，并通过门控融合模块的时空关注来增强模型的时空关联能力，以增强关节之间的动态时空相关性。

3.根据权利要求2所述的模型整体架构，其特征在于：将数百或数千个在时序域中连接的连续骨架动作建模成一个基于骨架的时序动作分割任务，通过表征框架骨架、人体关节的骨骼动作、关节接近度系数矩阵、空间边，然后对经过初始计算的帧类别进行优化修订获得最终预测。

4.根据权利要求2所述的时空位置嵌入，其特征在于：采用struc2vec方法来学习联合表示，将这些表示传递到一个两层全连接的神经网络，得到空间位置嵌入，并应用于图转换骨架图块(SGT块)的时空变压器层。

5.根据权利要求2所述的时空图层，其特征在于：空间维度核大小为3，采用包含点积算子在内的数学算子对卷积的可学习权矩阵、归一化的邻接矩阵、对角节点度矩阵等进行计算，将相同身体部位的关节在时域中以非线性方式连接起来，通过批处理归一化层和激活函数后，采用残差的方式将输入的特征信息映射到输出。

6.根据权利要求2所述的自适应图策略，其特征在于：时序自适应块利用两个归一化内嵌高斯函数计算每两帧的相似度，将两个时间维度的嵌入被重构为两个不同尺度的矩阵，然后，将两个特征映射相乘，通过softmax层得到帧的相似函数。

7.根据权利要求2所述的自适应图策略，其特征在于：空间自适应块包含图本身、参数化图、嵌入图，通过乘法运算后，通过softmax层激活得到空间维度的相似矩阵，进而生成空间自适应块图层第n帧的输出骨架张量，结合自适应图策略，采用残差的方式，融合时序与空间方向上的信息。

8.根据权利要求2所述的时空变换层，其特征在于：利用空间注意中来捕捉网络中节点之间的相关性，通过级联操作与内积计算每对关节之间的关系，并采用softmax激活函数对空间相关矩阵的元素进行归一化，采用多头注意力，并随机将图中节点分开以学习关节之间的局部空间相关性，利用最大池化操作为每个部分生成独立的表示，然后计算不同部分之间的全局空间相关性，最后将各部分组成的局部空间特征与相应的全局特征相加，作为最终输出。

9.根据权利要求2所述的时空变换层，其特征在于：利用时序注意力描述了每个关节沿时序维度的运动轨迹，将输入信息中间层信息与STPE结合起来，并采用多个并行注意机制来计算时序注意得分。