CN117423032B

CN117423032B - 时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质

Info

Publication number: CN117423032B
Application number: CN202311366529.0A
Authority: CN
Inventors: 刘胜蓝; 段海飞; 王飞龙; 刘驰
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-05-10
Anticipated expiration: 2043-10-20
Also published as: CN117423032A

Abstract

时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质，属于视频时序动作分割定位领域，为了解决提高视频细粒度分割准确性的问题，构建训练网络，进行训练网络模型的训练，向训练网络模型输入视频特征，训练网络模型输出由两个分支预测的动作的时间标签和空间标签，将所述时间细粒度标签和所述空间细粒度标签进行时空细粒度标签融合，获得动作的时空细粒度标签，效果是提高了视频细粒度分割准确性。

Description

时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质

技术领域

本发明属于视频时序动作分割定位领域，涉及一种时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质。

背景技术

动作分割旨在按时间对一个没有经过修剪的视频进行分割，并用预先定义的动作标签来标记每个分割的部分。动作分割的结果可以进一步用作各种应用程序的输入，例如视频转文本和动作定位。然而，通过对数据的分析可以发现，当分类精度更高、类别之间的差距更加细微时，就很难用现有的一般运动分析方法来分析整体的外观和运动差异或者有效地判别细微的动作。而且目前对动作的细粒度分析工作非常少，除此之外，细粒度动作数据集的构建也是一个难题。

近年来，研究人员在细粒度图像和视频分析的许多领域进行了大量尝试，并取得了许多重要成果，例如，细粒度分类和识别，细粒度图像搜索等。然而，在人体时序动作分割领域，关于细粒度动作分析的研究仍然很少，现有的细粒度行为分析工作也集中在对视频的细粒度操作上，这类行为视频通常涉及大量的人与物体的交互，例如Rohrbach等人构建了一个大规模的细粒度烹饪数据集。在此基础上，Zhou等人通过对人机交互和操纵动作进行建模来识别细粒度行为。此外，论文“A multi-stream bi-directional recurrentneuralnetwork for fine-grained action detection”则引入了跟踪机制，从而实现在较长的视频序列中进行细粒度动作检测。与这些方法相比，Fraha等人在论文“MS-TCN:Multi-Stage Temporal Convolutional Network for Action Segmentation”中提出了一种时间分割任务的多阶段结构，每一阶段都有一组膨胀的卷积来产生一个初始预测，然后由下一个预测进一步完善，该体系结构采用分类损失和平滑损失相结合的方法进行训练，在时间动作分割任务中已取得了显著效果。

目前视频时序动作分割定位问题仍然是一项十分困难的任务，不仅仅是因为视频数据相比图像具有更复杂的信息，还表现在训练数据的收集上。现有的数据集对于时序动作分割研究存在三个局限性，主要可以总结如下：

(1)细粒度语义：数据集中一般不存在动作语义类别的细粒度，对于现有模型，粗粒度时序动作分割相对容易，然而却很难满足细粒度语义的相关应用，这对于帧级动作分类更具挑战性。

(2)空间特征：动作的判别依赖于物体和背景，物体与背景往往起着重要的作用，有时甚至比动作本身更重要，无法体现视频的时序特性；进一步地，数据集一般不体现人体全貌，因此，难以提取更多的模态特征执行时间分割任务。

(3)时间特征：对于生活类等慢速的视频时间分割任务，不同动作的速度差异太小。较小的速度变化很难引起帧级特征的变化，通常只需一帧或几帧即可判定动作类别，这对动作分割任务来说不太具备挑战性。

发明内容

为了解决提高视频细粒度分割准确性的问题，根据本申请一些实施例的时空细粒度人体动作时序分割方法，包括

S10.构建细粒度分割任务数据集，所述数据集的数据标记包括时空细粒度动作标记以及由时空细粒度动作标记分解的时间纬度标记和空间维度标记，所述数据集在语义层面划分为时空细粒度、时间细粒度和空间细粒度；

S20.将所述数据集划分训练集和测试集，提取所述训练集中数据的I3D和骨骼点特征，得到的视频特征；

S30.构建训练网络，进行训练网络模型的训练，向训练网络模型输入视频特征，训练网络模型输出由两个分支预测的动作的时间标签和空间标签，将所述时间细粒度标签和所述空间细粒度标签进行时空细粒度标签融合，获得动作的时空细粒度标签。

根据本申请一些实施例的时空细粒度人体动作时序分割方法，对于给定视频

x_1:T＝(x₁,......,x_T) (1)

推断的每个帧的类标签

c_1:T＝(c₁,......,c_T) (2)

x_1:T表示第1帧到第T帧的视频，c_1:T表示第1帧到第T帧的类标签，多标签双流网络输入视频特征为T×D的视频特征；

对于训练网络模型，所述视频特征输入训练网络模型的共享层的第一完全连接层，调整输入视频特征的尺寸，所述第一完全连接层后面是一系列编码器，前一个编码器的输出连接后一个编码器的输入，最后一个编码器连接第二完全连接层，所述第二完全连接层输出预测y_e∈R^T×C，其中C表示动作类的数量；

第二完全连接层输出预测分别输入训练网络模型的两个一维卷积，第一个一维卷积的输出输入空间分割分支的第一完全连接层，调整输入视频特征的尺寸，所述第一完全连接层后面是一系列解码器，前一个解码器的输出连接后一个解码器的输入，最后一个解码器连接第二完全连接层，所述第二完全连接层输出空间细粒度标签；第二个一维卷积的输出输入时间分割分支的第一完全连接层，调整输入视频特征的尺寸，所述第一完全连接层后面是一系列解码器，前一个解码器的输出连接后一个解码器的输入，最后一个解码器连接第二完全连接层，所述第二完全连接层输出时间细粒度标签。

根据本申请一些实施例的时空细粒度人体动作时序分割方法，所述编码器块由多个子层组成，输入通过前馈层(Dilated Conv)进行处理，并使用GELU作为激活函数；经过实例规范化(Instance Norm)对数据进行标准化；通过单头自注意力层(Self-Attention)学习输入数据中的关联信息；通过反馈层(Feed forward)对数据进行进一步处理；使用残差连接保留输入的一部分信息，将反馈层处理后的结果与原始输入相加；通过一维卷积层(1DConv)对输出进行维度调整，并输出编码器的最终结果；

所述解码器块由多个子层组成，输入通过前馈层(Dilated Conv)进行处理，并使用GELU作为激活函数；经过实例规范化(Instance Norm)对数据进行标准化；通过交叉自注意力层学习输入数据中的关联信息；通过反馈层(Feed forward)对数据进行进一步处理；使用残差连接保留输入的一部分信息，将反馈层处理后的结果与原始输入相加；通过一维卷积层(1D Conv)对输出进行维度调整，并输出解码器的最终结果。

根据本申请一些实施例的时空细粒度人体动作时序分割方法，步骤S30中将所述时间细粒度标签和所述空间细粒度标签进行时空细粒度标签融合，获得动作的时空细粒度标签的方法，包括：

S31.获取所述时间细粒度标签的概率值作为时间置信度，获取所述空间细粒度标签的概率值作为空间置信度，将所述空间细粒度细粒度标签作为时空细粒度标签融合矩阵的行标签，所述时间细粒度标签作为时空细粒度标签融合矩阵的列标签；

S32.根据训练网络模型输出的由两个分支预测的所述时间细粒度标签和所述空间细粒度标签，根据所述时间细粒度标签确定第一时间坐标以及根据所述空间细粒度标签确定第一空间坐标，获取所述第一时间坐标和所述第一空间坐标所确定的第一坐标，以及所述第一坐标对应的第一数值；

S33.判断是否存在所述第一数值所表达的细粒度标签：

若不存在，执行步骤S34；

若存在，输出所述第一数值所表示的第一时空细粒度标签；

S34.判断是否空间置信度大于时间置信度：

若是，对第一时间坐标由近至远进行临界查找，获取第二时间坐标，获取所述第二时间坐标和所述第一空间坐标所确定的第二坐标，以及所述第二坐标对应的第二数值，输出第二数值所表达的第二时空细粒度标签；其中，第二时间坐标是由近至远进行临界查找中第一个满足如下条件的时间坐标：该时间坐标和第一空间坐标确定的第二坐标所对应的第二数值所表达的第二时空细粒度标签存在；

若不是，对第一空间坐标由近至远进行临界查找，获取第二空间坐标，获取所述第二空间坐标和所述第一时间坐标所确定的第三坐标，以及所述第三坐标对应的第三数值，输出第三数值所表达的第三时空细粒度标签；其中，第二空间坐标是由近至远进行临界查找中第一个满足如下条件的空间坐标：该空间坐标和第一时间坐标确定的第三坐标所对应的第三数值所表达的第三时空细粒度标签存在。

根据本申请一些实施例的时空细粒度人体动作时序分割方法，模型是具有四个阶段的多阶段架构，每个阶段包含十个扩张卷积层，其中膨胀因子在每一层加倍，并且在每一层之后使用dropout；

模型所有层的滤波器数量设置为64，滤波器大小为3；

单阶段TCN的第一层是1×1卷积层，用来调整输入特征的维度以匹配网络中特征图的数量，在这一层之后是几层一维扩张卷积，使用在每一层加倍的扩张因子；

模型内核大小为3的非因果卷积；

模型每一层都将具有ReLU激活的扩张卷积应用于前一层的输出，并使用残差连接来促进梯度流动；

每层的操作如下：

式中，H_l是第l层的输出，*表示卷积算子，W₁∈R^3×D×D是内核大小为3的扩张卷积滤波器的权重，D是卷积滤波器的数量，W₂∈R^1×D×D是1×1卷积的权重，b₁,b₂∈R^D是偏置向量。

根据本申请一些实施例的时空细粒度人体动作时序分割方法，损失函数使用交叉熵损失：

在损失函数中添加权重因子，用于动态调节权重：

式中，γ是一个可以调节的参数

模型中引入平滑损失函数：

Δ_t,c＝|log y_t,c-log y_t-1,c| (11)

式中，y_t,c是时间t时类别c的概率，γ是可调节的参数，T是视频长度，C是类别数，τ＝4，λ＝0.15。

单个阶段的最终损失函数是上述损失的组合；

τ＝4，λ＝0.15，使用学习率为0.0005的Adam优化器。

根据本申请一些实施例的时空细粒度人体动作时序分割方法，步骤S20中，I3D特征包括提取基于RGB的I3D特征：对于每一帧，对I3D的2048维特征向量进行动力学预训练，每一帧的最终特征向量通过将形成RGB和光流的向量连接起来而获得，每一帧都有2048个通道，帧的I3D的时间窗口由当前帧的20个时间最近邻帧组成；

步骤S20中，提取骨骼点特征：使用OpenPose工具箱中的2D姿势估计结果，输出25个关节点数据，骨骼点特征的关节通过将关节的两个空间方向坐标分别除以相应的帧大小进行归一化，然后由腰关节(中心关节)集中，得到T×D的视频特征。

根据本申请一些实施例的时空细粒度人体动作时序分割方法，时空细粒度的类别是每个动作的具体类型；

空间细粒度是指空间类属性动作的集合；

时间细粒度是指时间类属性动作的集合。

一种电子设备，所述电子设备包括：一个或多个处理器，存储器，以及，一个或多个程序；其中，所述一个或多个程序被存储在所述存储器中，所述一个或多个程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行任一项所述的方法。

一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行任一项所述的方法。

本发明的有益效果：在第一方面，本发明相较于现有细粒度动作标记(时空细粒度)，将细粒度动作标记分解为时间纬度标记和空间维度标记，并且保留细粒度动作标记在数据集中，数据集的数据结构具有三种层次的标签，且是针对每个标签的实际意义所划分，时空细粒度的类别是每个动作的具体类型，可以更精细的描述动作类型。空间细粒度是指空间类属性动作的集合，不同类别的动作只有空间属性上的差异。时间细粒度是指时间类属性动作的集合，不同类别的动作只有时间属性上的差异，上述三种层次的标签提供了高质量和细粒度的全序列注释，能够满足细粒度语义的相关应用，相对增加模态特征。在第二方面，本发明上述数据结构能够适应本发明将时间和空间标签进行融合，生成时空标签的分割方式，而该方式简化了细粒度动作分割任务的难度，实验结果表明该方式也使得预测结果更加精准。

附图说明

图1花样滑冰数据集标注结构图。

图2多标签双流网络模型图。

图3查询流程图。

图4多阶段时间卷积网络模型图。

具体实施方式

下面通过参考附图详细描述本申请的实施例，所述实施例的示例在附图中示出，其中，方法、电子设备和存储介质是基于同一技术构思的，解决问题的原理相似，因此各主题的实施可以相互参见，重复之处不再赘述。

本发明的目的是提供一种时空细粒度人体动作时序分割方法，用于理解视频中以人体运动为中心的时序动作分割任务，此外，针对目前细粒度数据集缺乏的现状下，本发明构建了一个全新的关于花样滑冰运动的细粒度动作分割数据集，并基于此数据集对分割算法框架进行了相关实验。本发明的时空细粒度人体动作时序分割方法，包括以下步骤：

步骤一：为细粒度分割任务构建数据集，对于花样滑冰项目的动作实例，本发明采用树状标记(即根节点，子节点，叶节点)，除了进行细粒度动作标记外，还从时间和空间两个维度进行标记，数据结构如图1所示。在语义层次方面分为三个层次组合，即时空细粒度、时间细粒度和空间细粒度。

三种层次的标签是针对每个标签的实际意义所划分的，例如，时空细粒度的类别是每个动作的具体类型，如3Toeloop_3Toeloop、StepSequence3等，可以更精细的描述动作类型。空间细粒度是代表空间类属性动作的集合，不关注具体圈数，只注重区分起跳落冰等方式不同的动作，例如3Axel、2Axel可统称为Axel，3Loop、2Loop可统称为Loop，由此可以得出不同类别的动作只有空间属性上的差异。时间细粒度是指时间类属性动作的集合，例如跳跃、旋转和步伐，只关注具体圈数，例如2Axel、2Loop统称为2Jump，3Axel、3Loop统称为3Jump，不同类别的动作只有时间属性上的差异。相较于现有细粒度动作标记(时空细粒度)，本发明将细粒度动作标记分解为时间纬度标记和空间维度标记，并且保留细粒度动作标记在数据集中，提供了高质量和细粒度的全序列注释，能够满足细粒度语义的相关应用，相对增加模态特征，该数据结构能够提高实验指标。

步骤二：滑冰数据集被随机分成408个和175个视频，分别用于训练和测试。然后，本发明利用5倍交叉验证来评估模型的泛化。MCFS-24(时间细粒度)、MCFS-31(空间细粒度)和MCFS-66(时空细粒度)共享相同的拆分，但分别由三个层次语义标签(时间、空间、时空)进行注释。

提取I3D和骨骼点特征进行实验，对于特征的处理如下：

(1)基于RGB的I3D特征

对于每一帧，对I3D的2048维特征向量进行动力学预训练，其每一帧的最终特征向量是通过将形成RGB和光流的向量连接起来而获得的，所以每一帧都有2048个通道。具体地说，帧的I3D的时间窗口由当前帧的20个时间最近邻帧(总共21帧)组成。

(2)骨骼点特征

使用OpenPose工具箱中的2D姿势估计结果，输出25个关节点数据。此外，这些骨骼点特征的关节通过将关节的两个空间方向坐标分别除以相应的帧大小进行归一化，然后由腰关节(中心关节)集中，得到T×D的视频特征。

步骤三：构建训练网络，进行模型的训练与测试，主体网络采用多标签双流网络，其结构如图2所示，给定视频

x_1:T＝(x₁,......,x_T) (1)本发明目标是推断每个帧的类标签

c_1:T＝(c₁,......,c_T) (2)

x_1:T表示第1帧到第T帧的视频，c_1:T表示第1帧到第T帧的类标签，多标签双流网络输入视频特征为T×D，其中T是视频长度，D是特征维度。

图2中，Input Sequence：输入视频序列，output frame labels：输出帧级标签，space time matrix：时空标签融合矩阵，spatial segmentation branch：空间分割分支，temporal segmentation branch：时间分割分支，shared layers：共享层。

首先，输入视频特征输入共享层的第一完全连接层，调整输入视频特征的尺寸。然后，该第一完全连接层后面是一系列编码器块。之后，最后一个编码器连接第二完全连接层，第二完全连接层输出预测y_e∈R^T×C，其中C表示动作类的数量。

每个编码器块包含两个子层。第一子层是前馈层，第二子层是单头自注意力层。在两个子层中的每一个周围使用剩余连接，然后是实例规范化和GELU激活，如图2所示。具体的，输入通过前馈层(Dilated Conv)进行处理，并使用GELU作为激活函数；经过实例规范化(Instance Norm)对数据进行标准化；通过单头自注意力层(Self-Attention)学习输入数据中的关联信息；通过反馈层(Feed forward)对数据进行进一步处理；使用残差连接保留输入的一部分信息，将反馈层处理后的结果与原始输入相加；通过一维卷积层(1D Conv)对输出进行维度调整，并输出作编码器的最终结果。与普通Transformer不同，本发明使用扩展的时间卷积作为前馈层，而不是逐点全连接层。

共享层输出结果(输出预测y_e)通过两个一维卷积进入到两个分支中，分别是空间分割分支和时间分割分支，两个分支可以看作是两组解码器，与编码器类似，解码器内部也是由一系列解码器块组成，解码器的输入是编码器输出的初始预测。解码器的第一层是用于调整维度的完全连接层，然后是一系列解码器块。其中的解码器块由多个子层组成，输入通过前馈层(Dilated Conv)进行处理，并使用GELU作为激活函数；经过实例规范化(Instance Norm)对数据进行标准化；通过交叉自注意力层学习输入数据中的关联信息；通过反馈层(Feed forward)对数据进行进一步处理；使用残差连接保留输入的一部分信息，将反馈层处理后的结果与原始输入相加；通过一维卷积层(1D Conv)对输出进行维度调整，并输出作解码器的最终结果。

每个解码器块的结构如图2所示，同样使用时间卷积作为前馈层。

out＝feed_forward(x) (3)

out＝α*att(out)+out (4)

两个分支输出预测的标签，进行时空标签融合，即用时间和空间的单独预测标签去生成时空标签并与本来的预测结果进行比较，首先生成了时空标签融合矩阵，根据横纵坐标来确定最终预测的标签，如表1所示。

表1时空标签融合矩阵(部分)

附：-1：标签不存在；0：None；1：ChComboSpin4；2：2Axel；3：3Loop；以此类推。

其中，表1的行坐标是空间细粒度标签，列坐标是时间细粒度标签，根据行列坐标来确定时空细粒度标签，例如空间细粒度标签“ChComboSpin”，时间细粒度标签“Spin4”，二者可以确定时空细粒度标签“ChComboSpin4”，也即“ChComboSpin”+“Spin4”＝“ChComboSpin 4”。对于组合不存在的标签，例如“Spin4”+“Axel”，则使用“-1”进行填充。

具体计算过程则是查询时空标签融合矩阵，利用空间细粒度标签作为行标签，利用时间细粒度标签作为列标签，查询前进行softmax操作得到每个标签的概率值，作为置信度参与查询，查询规则采用双向查找的方法，查询过程如图3所示。查询方法包括：

S31.获取时间细粒度标签的概率值作为时间置信度，获取空间细粒度标签的概率值作为空间置信度，将空间细粒度细粒度标签作为时空细粒度标签融合矩阵的行标签，时间细粒度标签作为时空细粒度标签融合矩阵的列标签。

S32.根据训练网络模型输出的由两个分支预测的时间细粒度标签和空间细粒度标签，根据时间细粒度标签确定第一时间坐标以及根据空间细粒度标签确定第一空间坐标，获取第一时间坐标和第一空间坐标所确定的第一坐标，以及第一坐标对应的第一数值。

S33.判断是否存在第一数值所表达的细粒度标签：

若不存在，执行步骤S34。

若存在，输出第一数值所表示的第一时空细粒度标签。

S34.判断是否空间置信度大于时间置信度：

若是，对第一时间坐标由近至远进行临界查找，获取第二时间坐标，获取第二时间坐标和第一空间坐标所确定的第二坐标，以及第二坐标对应的第二数值，输出第二数值所表达的第二时空细粒度标签；其中，第二时间坐标是由近至远进行临界查找中第一个满足如下条件的时间坐标：该时间坐标和第一空间坐标确定的第二坐标所对应的第二数值所表达的第二时空细粒度标签存在。

若不是，对第一空间坐标由近至远进行临界查找，获取第二空间坐标，获取第二空间坐标和第一时间坐标所确定的第三坐标，以及第三坐标对应的第三数值，输出第三数值所表达的第三时空细粒度标签；其中，第二空间坐标是由近至远进行临界查找中第一个满足如下条件的空间坐标：该空间坐标和第一时间坐标确定的第三坐标所对应的第三数值所表达的第三时空细粒度标签存在。

本发明的临界查找方式，通过最近邻的时间或空间坐标替代，能够对标签以最相邻的近似性替代。

步骤四：选用MS-TCN作为基础模型在MCFS-24和MCFS-31数据集上进行测试对比，最终的MS-TCN模型是具有四个阶段的多阶段架构，如图4所示，每个阶段包含十个扩张卷积层，其中膨胀因子在每一层加倍，并且在每一层之后使用dropout。将模型所有层的滤波器数量设置为64，滤波器大小为3。单阶段TCN的第一层是1×1卷积层，用来调整输入特征的维度以匹配网络中特征图的数量。在这一层之后是几层一维扩张卷积。使用在每一层加倍的扩张因子，即1，2，4，......，512。所有层的卷积滤波器数量相同。然而，MS-TCN使用内核大小为3的非因果卷积代替了wavenet中使用的因果卷积。每一层都将具有ReLU激活的扩张卷积应用于前一层的输出，并使用残差连接来促进梯度流动。每层的操作如下：

其中H_l是第l层的输出，*表示卷积算子，W₁∈R^3×D×D是内核大小为3的扩张卷积滤波器的权重，D是卷积滤波器的数量，W₂∈R^1×D×D是1×1卷积的权重，b₁,b₂∈R^D是偏置向量。

步骤五：对于损失函数，一般使用交叉熵损失：

式中，y_t,c是时间t时真实标签的预测概率。此外，基于样本非平衡造成的损失函数倾斜，所以需要提高少数类别在损失函数中的权重，平衡损失函数的分布。实验采取的做法是在损失函数中添加权重因子，用于动态调节权重：

式中，γ是一个可以调节的参数，虽然交叉熵损失以及权重损失focal loss的组合已经表现良好，但在实际中发现一些视频的预测包含一些过度分割错误。为了减少这些错误，在该模型中引入了平滑损失函数：

Δ_t,c＝|log y_t,c-log y_t-1,c| (11)

其中T是视频长度，C是类别数，y_t,c是时间t时类别c的概率。

单个阶段的最终损失函数是上述损失的组合。

本发明设置τ＝4和λ＝0.15。在所有实验中，使用学习率为0.0005的Adam优化器。

本发明构建了一个动作速度快、持续时间差异性显著的以运动为中心的动作分割任务数据集。它能提供高质量和细粒度的全序列注释，可以用来更好的协助人体运动分割领域的相关研究。并提供一种时空细粒度人体动作时序分割方法，如果单个3Lutz跳转和3Toeloop跳转已被识别，则直接得出3Lutz_3Toeloop跳转的结论。这一方向为模型设计提供了更多的实验研究思路。

通过表2的实验结果可以看出，MCFS-24、MCFS-31的准确率是要高于MCFS-66的，将时间和空间标签进行融合，生成时空标签的方法能够使得准确率提高1个百分点。而这也为细粒度分割打开了新的思路，比如说如果要预测细粒度动作“3Lutz_3Toeloop”，那现在只需要分别预测出来时间标签“3Jump_3Jump”以及空间标签“Lutz_Toeloop”，这样一来简化了细粒度动作分割任务的难度。同时，分别在时间和空间标签上运行相应的目前效果比较好的模型也可以最大化模型的优势，比如“MS-TCN+ST-GCN”的模型组合，从而使得预测结果更加精准。

表2时空标签融合实验结果

基于以上实施例，本申请实施例还提供了一种电子设备，所述电子设备包括：一个或多个处理器，存储器，以及，一个或多个程序；其中，所述一个或多个程序被存储在所述存储器中，所述一个或多个程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行以上实施例提供的所述方法。

基于以上实施例，本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有计算机程序，所述计算机程序被计算机执行时，使得计算机执行以上实施例提供的所述方法。

其中，存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于：计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种时空细粒度人体动作时序分割方法，其特征在于，包括

S10.构建细粒度分割任务数据集，所述数据集的数据标记包括时空细粒度动作标记以及由时空细粒度动作标记分解的时间维度标记和空间维度标记，所述数据集在语义层面划分为时空细粒度、时间细粒度和空间细粒度；

S30.构建训练网络，进行训练网络模型的训练，向训练网络模型输入视频特征，训练网络模型输出由两个分支预测的动作的时间细粒度标签和空间细粒度标签，将所述时间细粒度标签和所述空间细粒度标签进行时空细粒度标签融合，获得动作的时空细粒度标签；

其中，步骤S30中将所述时间细粒度标签和所述空间细粒度标签进行时空细粒度标签融合，获得动作的时空细粒度标签的方法，包括：

S31.获取所述时间细粒度标签的概率值作为时间置信度，获取所述空间细粒度标签的概率值作为空间置信度，将所述空间细粒度标签作为时空细粒度标签融合矩阵的行标签，所述时间细粒度标签作为时空细粒度标签融合矩阵的列标签；

S33.判断是否存在所述第一数值所表达的细粒度标签：

若不存在，执行步骤S34；

若存在，输出所述第一数值所表示的第一时空细粒度标签；

S34.判断是否空间置信度大于时间置信度：

2.根据权利要求1所述的时空细粒度人体动作时序分割方法，其特征在于，所述步骤S30中，对于给定视频

x_1:T＝(x₁,……,x_T) (1)

推断的每个帧的类标签

c_1:T＝(c₁,……,c_T) (2)x_1:T表示第1帧到第T帧的视频，c_1:T表示第1帧到第T帧的类标签，多标签双流网络输入视频特征为T×D的视频特征；

3.根据权利要求2所述的时空细粒度人体动作时序分割方法，其特征在于，所述编码器由多个子层组成，输入通过前馈层(Dilated Conv)进行处理，并使用GELU作为激活函数；经过实例规范化(Instance Norm)对数据进行标准化；通过单头自注意力层(Self-Attention)学习输入数据中的关联信息；通过反馈层(Feed forward)对数据进行进一步处理；使用残差连接保留输入的一部分信息，将反馈层处理后的结果与原始输入相加；通过一维卷积层(1D Conv)对输出进行维度调整，并输出编码器的最终结果；

所述解码器由多个子层组成，输入通过前馈层(Dilated Conv)进行处理，并使用GELU作为激活函数；经过实例规范化(Instance Norm)对数据进行标准化；通过交叉自注意力层学习输入数据中的关联信息；通过反馈层(Feed forward)对数据进行进一步处理；使用残差连接保留输入的一部分信息，将反馈层处理后的结果与原始输入相加；通过一维卷积层(1D Conv)对输出进行维度调整，并输出解码器的最终结果。

4.根据权利要求1所述的时空细粒度人体动作时序分割方法，其特征在于，模型是具有四个阶段的多阶段架构，每个阶段包含十个扩张卷积层，其中膨胀因子在每一层加倍，并且在每一层之后使用dropout；

模型所有层的滤波器数量设置为64，滤波器大小为3；

模型内核大小为3的非因果卷积；

每层的操作如下：

5.根据权利要求1所述的时空细粒度人体动作时序分割方法，其特征在于，损失函数使用交叉熵损失：

在损失函数中添加权重因子，用于动态调节权重：

式中，γ是一个可以调节的参数

模型中引入平滑损失函数：

Δ_t,c＝|log y_t,c-log y_t-1,c| (11)

式中，y_t,c是时间t时类别c的概率，γ是可调节的参数，T是视频长度，C是类别数，τ＝4，λ＝0.15；

单个阶段的最终损失函数是上述损失的组合；

τ＝4，λ＝0.15，使用学习率为0.0005的Adam优化器。

6.根据权利要求1所述的时空细粒度人体动作时序分割方法，其特征在于，

步骤S20中，I3D特征包括提取基于RGB的I3D特征：对于每一帧，对I3D的2048维特征向量进行动力学预训练，每一帧的最终特征向量通过将形成RGB和光流的向量连接起来而获得，每一帧都有2048个通道，帧的I3D的时间窗口由当前帧的20个时间最近邻帧组成；

步骤S20中，提取骨骼点特征：使用OpenPose工具箱中的2D姿势估计结果，输出25个关节点数据，骨骼点特征的关节通过将关节的两个空间方向坐标分别除以相应的帧大小进行归一化，然后由中心关节集中，得到T×D的视频特征。

7.根据权利要求3所述的时空细粒度人体动作时序分割方法，其特征在于，

时空细粒度的类别是每个动作的具体类型；

空间细粒度是指空间类属性动作的集合；

时间细粒度是指时间类属性动作的集合。

8.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器，存储器，以及，一个或多个程序；其中，所述一个或多个程序被存储在所述存储器中，所述一个或多个程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行权利要求1-7中任一项所述的方法。

9.一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行权利要求1-7中任一项所述的方法。