CN117079352A

CN117079352A - 一种基于视频序列的人体动作识别方法、系统及存储介质

Info

Publication number: CN117079352A
Application number: CN202311338628.8A
Authority: CN
Inventors: 郑艳伟; 梁会; 于东晓; 陈锋
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2023-11-17

Abstract

本发明公开了一种基于视频序列的人体动作识别方法、系统及存储介质，属于计算机视觉领域，其利用运动分支和空间分支以及两分支的融合实现运动信息，外观信息，多频域信息的特征融合，并在融合过程中加入自适应多频域自注意力交叉融合模块，以更佳灵活的方式提高频率适应性，增强模型对通道信息建模的能力，使运动信息和时空信息同时与多频域信息进行交流融合，促进多方面特征关系的建立，增强模型特征建模能力，提高识别效果。

Description

一种基于视频序列的人体动作识别方法、系统及存储介质

技术领域

本发明属于计算机视觉领域，具体涉及一种基于视频序列的人体动作识别方法、系统及存储介质。

背景技术

随着科技的发展和人工智能的普遍，多媒体信息呈现出爆炸式增长的特点，其中视频作为重要的信息载体，发挥的作用越来越大。其中大量视频内容涉及到人体的动作和活动，因此，对于基于视频序列的人体动作识别是非常重要的一个研究方向，在许多场合都具有非常重要的作用。

但是现有的人体动作识别算法或系统大多至针对单一特征进行采集和识别。其数据源十分单一，且无法适用于不同场景，十分影响后续识别结果的准确性。

发明内容

针对现有技术的以上缺陷或改进需求中的一种或者多种，本发明提供了一种基于视频序列的人体动作识别方法、系统及存储介质，其利用运动分支和空间分支以及两分支的融合实现运动信息，外观信息，多频域信息的特征融合，并在融合过程中加入自适应多频域自注意力交叉融合模块，以更佳灵活的方式提高频率适应性，增强模型对通道信息建模的能力，使运动信息和时空信息同时与多频域信息进行交流融合，促进多方面特征关系的建立，增强模型特征建模能力，提高识别效果。

为实现上述目的，本发明提供一种基于视频序列的人体动作识别方法，其包括以下步骤：

S100：获取的视频数据，并按固定的时间间隔进行取帧操作，并确定分段数目和每段图的数量；

S200：提取处理后视频中的运动信息和时空信息，并对运动信息和时空信息进行训练，使运动信息和时空信息同时与多频域信息进行交流融合；

S300：采用基于SSIM的动态选择运动信息进行建模或采用基于熵的动态选择运动信息建模进行建模，然后再构建多域自适应架构；

S400：输入图像数据，并获取模型中运动信息和时空信息的结果的平均值作为最终的识别结果；

S500：将识别结果输出。

作为本发明的进一步改进，在步骤S200中，具体包括以下步骤：

利用自注意力机制，计算每个token的注意力得分，选择得分高的赋予多频域通道。

作为本发明的进一步改进，将通道的注意力机制运用至多域自适应架构中，用于提取不同的通道信息。

作为本发明的进一步改进，将所述通道的注意力机制运用至多域自适应架构中，具体包括以下步骤，

以来自运动分支和空间分支的特征为输入，每次对其进行频率选择时，都根据两条分支的特征流进行选择，使得运动特征，空间特征和自适应多频域信息的融合更佳高效，根据注意力得分选出合适的频率后赋予各个通道部分，进行特征提取。

作为本发明的进一步改进，在步骤S300中，构建多域自适应架构包括以下步骤：

通过对连续帧建立关系，获得视频序列中运动信息比较强烈的动作区域，学习细粒度的运动特性；

提取视频中包含关键运动信息的时态变换，保证视频帧时间顺序的基础上，省略部分冗余信息，仅保存重要的运动强烈的信息。

作为本发明的进一步改进，在所述时空信息的提取中，对输入视频的连续帧进行平均池化和双线性下采样操作，以提取静态信息。

作为本发明的进一步改进，将所述时空信息和所述运动信息两个分支在训练过程中进行侧向连接，利用自适应频域模块将运动流，时空流，多频域流相融合，视频动作识别的多个特征流进行集成；最后将分支结果进行汇总，得出最终的识别分类。

作为本发明的进一步改进，在步骤S100中，具体包括以下步骤：

建立csv文件，用于存储视频所在路径，视频的名称以及该视频包含的图像数量；

将视频分段，确定每段包含的图像数量，送入网络架构。

作为本发明的进一步改进，将通道注意力运用到模型中，用于提取不同的通道信息。

另一方面，本发明还提供了一种基于视频序列的人体动作识别系统，其包括依次通讯连接的数据处理模块、人体动作识别框架、自适应多频域自注意力融合交互模块、多域自适应架构和动态运动信息提取模块；

其中：所述数据处理模块用于采集视频数据，并对获取的视频进行处理；并将其输送至所述人体动作识别框架中提取运动信息、时空信息；最后传输至所述自适应多频域自注意力融合交互模块对其进行频率选择；所述动态运动信息提取模块用于接收动作数据和时空数据，并以此构建模型，最后通过所述多域自适应架构构建模型的输入和输出。

另一方面，本发明还提供了一种存储介质，所述存储介质上存储有计算机程序，该计算机程序执行时实现上述的识别方法。

上述改进技术特征只要彼此之间未构成冲突就可以相互组合。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有的有益效果包括：

本发明的基于视频序列的人体动作识别方法、系统及存储介质，其利用运动分支和空间分支以及两分支的融合实现运动信息，外观信息，多频域信息的特征融合，并在融合过程中加入自适应多频域自注意力交叉融合模块，以更佳灵活的方式提高频率适应性，增强模型对通道信息建模的能力，使运动信息和时空信息同时与多频域信息进行交流融合，促进多方面特征关系的建立，增强模型特征建模能力，提高识别效果。

附图说明

图1为本发明实例所公开的一种基于视频序列的人体动作识别系统示意图。

图2为本发明实例所公开的一种基于视频序列的人体动作识别流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

请参阅图1和图2，本发明优选实施例中的基于视频序列的人体动作识别方法，其采用卷积神经网络作为基本网络框架，利用运动分支和空间分支以及两分支的融合实现运动信息，外观信息，多频域信息的特征融合，提高基于视频序列的人体动作模型识别能力。并用经典的图像分类网络resnet50作为基础框架。整个模型共分为两个分支，一个分支对视频序列中提取的运动信息进行建模，一个分支对视频序列中包含的空间信息进行建模。在进行基于视频序列的人体动作识别过程中，任务的运动信息和静态的时空信息是不可分割的，因此在训练时将两个分支进行融合，完成运动信息和时空信息的交流。本发明在融合过程中加入自适应多频域自注意力交叉融合模块，以更佳灵活的方式提高频率适应性，增强模型对通道信息建模的能力，使运动信息和时空信息同时与多频域信息进行交流融合，促进多方面特征关系的建立，增强模型特征建模能力，提高识别效果。

具体而言，本发明优选实施例中的识别方法，其包括以下步骤：

S100：获取的视频数据，并按固定的时间间隔进行取帧操作，并确定分段数目和每段图的数量。

在实际应用的过程中，因为人的动作在很短的时间例如1秒之内，发生的变化不大，因此抽取的这一秒中的大多数图像相似度很高。若是抽取的图像都为这一阶段的，那么会影响最终的识别效果。因此本发明采取分段的方法来抽取图像，同时为了提高数据处理效果，本发明将视频分为段，每段包含图像/>张。和/>变量可以根据系统情况自行决定。

S101：对获取的视频进行取帧处理。根据给定的帧率，得到获取的图像的总数。

S102：将抽取的图像按时间顺序放在同一个文件夹中，文件夹以视频名称命名。

S103：建立csv文件，用于存储视频所在路径，视频的名称以及该视频包含的图像数量。

S104：将视频分段，确定每段包含的图像数量，形成候补队列，送入网络架构。

S200：提取处理后视频中的运动信息和时空信息，并对运动信息和时空信息进行训练，使运动信息和时空信息同时与多频域信息进行交流融合，促进多方面特征关系的建立。

在进行基于视频序列的人体动作识别过程中，任务的运动信息和静态的时空信息是不可分割的，因此在训练时将两个分支进行融合，完成运动信息和时空信息的交流。本发明在融合过程中加入自适应多频域自注意力交叉融合模块，以更佳灵活的方式提高频率适应性，增强模型对通道信息建模的能力，使运动信息和时空信息同时与多频域信息进行交流融合，促进多方面特征关系的建立，增强模型特征建模能力，提高识别效果。

本发明将通道注意力运用到构建的多域自适应架构中，用于提取不同的通道信息。通道注意力的主旨是通过学习为不同的通道赋予不同的权重信息，使其能够更多的关注重要的特征，抑制不重要的特征。通道注意力通常由两部分组成：压缩层和激励层。缩减层在特征图的空间维度上聚集信息，以获得信道统计。然后，激励层根据这些统计信息来计算信道关注权重，之后将其应用于特征图以获得赋予信道关注的特征图。

通道注意力通过学习每个通道的一组权重来工作，然后将这些权重乘以通道的值以确定每个通道的重要性。通过关注某些通道并压制其他通道，模型可以学会关注重要的特征而忽略不重要的特征。这有助于模型更有效地学习并提高其准确性。

通道注意力的权重学习可用如下公式表示，输入特征X先经过全局平均池化操作对每一个特征图的所有像素值求平均值，然后由全连接层/>学习并经过Sigmoid函数激活得到加权值。加权值与原始输入逐通道相乘得到最终结果：

；

具体实现过程如公式所示：

（1）全局池化层聚合每个通道中的特征，并生成表示该通道重要性的标量值（加上个字母）。最常见的类型是全局平均池，它计算特征图中每个通道的平均值。该操作将特征图的空间维度减少到每个通道的单个值，这可以被认为是该通道重要性的度量。

（2）之后全连接层对输入应用线性变换，并学习以不同方式加权每个通道的重要性。

（3）之后，全连接层的输出通过ReLU非线性激活函数，以在注意机制中引入非线性，允许网络基于其重要性选择性地强调或抑制某些通道。

（4）将结果再次通过全连接层恢复初始维度，最后通过Sigmoid函数在信道上创建概率分布，这些标准化的分数被用于对特征图进行加权，并创建最终的注意力图。

在实际使用的过程中，可将通道注意力单一频率扩展到多频。

离散余弦变化是一种广泛应用的数学技术，经常被用在图像和音频的压缩中。它是一种傅里叶变换，但与标准傅里叶变换不同，DCT更适用于具有非均匀频谱内容和稀疏频谱表示的信号。DCT用一组余弦函数来表示给定的信号，在特征提取方面具有良好的表现，它允许网络以一种紧凑而高效的方式从图像中学习重要特征。离散余弦变化公式如下所示：

；

在公式中，代表离散余弦变换中的频谱，/>表示输入，/>是输入分量的长度。

2D-离散余弦变化；二维离散余弦变换就是在一维离散余弦变化的基础上增加了一个维度。公式表示如下：

；

在公式中，和/>分别表示输入分量的高度和宽度，两个cos函数代表对应的DCT权重。在此基础上得到二维离散余弦变换的逆变换：

；

当和/>都为0时，二维离散余弦变换/>的公式写为：

；

简化后结果如下，公式中GAP代表全局平均池化操作，即对每个通道的所有像素值求平均值。由上述公式可以看出表示二维离散余弦变换的最低频分量，并且和GAP成正比：

；

进一步地，将自注意力机制与多频域相结合。自注意力机制对处理具有时序循序要求的任务非常友好。该机制允许模型学习计算输入序列中每个元素应该获得的注意力分数，然后将这些分数与对应元素做加权和，得到的结果来表示不同元素获得的关注力，重要性。这样做的好处是模型可以动态的确定输入序列的哪些部分对当前任务最重要，将注意力集中于那些重要特征，并进行相应地调整，提高模型的灵活性。自注意力机制的公式表达如下：

；

代表Query查询矩阵，/>代表Key键矩阵，/>代表Value值矩阵。将来自同一张图像的Query和Key进行交互得到一个权重，将这个权重与图像的value值进行进一步交互，即对不同像素赋予不同的注意力强度，这就是Self-attention的过程。同时为了防止梯度爆炸，将Query与Key交互的结果除以/> ，/>在这里代表缩放系数。

工作流程如下：

查询矩阵（Query）：查询矩阵表示输入序列中的当前状态或位置，用于计算序列中每个元素的注意力得分。

键矩阵（Key）：键矩阵表示输入序列中的元素。

值矩阵（Value）：值矩阵表示输入序列中每个元素的表示，用于计算元素的加权和，这是自我关注层的输出。注意力得分：注意力得分计算为查询和关键矩阵之间的点积，然后是Softmax激活。分数决定了输入序列中每个元素的重要性，并用于对值矩阵中的元素进行加权。

加权和：值矩阵中元素的加权和是通过将每个元素乘以其相应的注意力得分来计算的。这是自我关注层的最终输出，并用作网络中下一层的输入。

本系统的数据维度是。在这里/>表示视频的个数，/>表示时间维度，即每个视频抽取的帧数，/>表示图像的通道数，/>和/>分别表示图像的高和宽。为了方便理解，直接对二维/>进行操作。首先对于初步获取的特征/>，可获取的频率数目为/>。对特征图/>进行全连接操作得到/>，/>，/>三个变量，这里的/>，/>，/>分别代表查询矩阵，键矩阵，值矩阵。通过自注意力计算的过程得到注意力得分图。该注意力得分图也就是频率分布图F。

（2）由此得到频率总个数为：

；

（3）设定要采用的频率个数，/>要小于等于/>，根据频率分布图/>找出/>个得分最大的数值，且得分从高到底依次排列：

；

得到相应的频率：

；

（4）在这个过程中，可以根据实验过程的不同阶段采用不同的频率，完成频域的动态选择。之后，根据选择频域的个数划分通道实现DCT过滤器。单个频率的通道数可用下式计算得到：

；

（5）最后由此得到DCT滤波器：

；

最后将来自运动分支和空间分支的特征为输入，每次对其进行频率选择时，都是根据当时两条分支的特征流进行选择，使得运动特征，空间特征和自适应多频域信息的融合更佳高效。根据注意力得分选出合适的频率后赋予各个通道部分，进行特征提取。利用自注意力机制，计算每个token的注意力得分，选择得分高的赋予多频域通道。最后将融合的结果赋予运动分支和空间分支继续进行训练。

S300：构建多域自适应融合架构，并利用融合后的数据，采用基于SSIM的动态选择运动信息进行建模或采用基于熵的动态选择运动信息建模进行建模。

具体而言，本发明采用两种是提取运动信息，一种是基于SSIM的动态选择运动信息建模。一种是基于熵的动态运动信息建模算法。

SSIM是一种图像质量度量，它考虑了图像信息的三个不同方面：亮度、对比度和结构。该度量通过比较两个图像的结构信息（即图像中的图案和纹理）而不是仅仅比较像素值来工作。这使得它比其他传统度量，如均方误差（MSE）或峰值信噪比（PSNR），更准确地度量图像相似性。SSIM指数的计算过程如下：

（1）；

其中和/>是被比较的两个图像，/>、/>和/>分别表示亮度、对比度和结构的三个项。要想求取图像/>和图像/>之间的SSIM，首先需要求取图像/>和图像/>的像素均值。

（2）图像的像素均值：

；

图像的像素均值：

；

（3）之后，分别求取两张图像的方差。

图像的方差：

；

图像的方差：

；

当取得上述数值后，求取图像和图像/>的协方差：

；

然后，分别求取图像和图像/>之间的亮度相似性，对比度相似性和结构相似性：

；

最后得到图像和图像/>的SSIM结果：

；

公式中的，/>，/>都是常数。每个项都是介于0和1之间的值，1表示正在比较的两个图像完全相似。SSIM分数越接近于1，两幅图就越相似。最终的SSIM索引是这三个项的乘法组合，也是介于0和1之间的值，1表示完全相似。总之，SSIM索引是一个有用的图像质量度量，它考虑了图像的结构信息，以提供更准确的图像相似性度量。它在图像和视频处理领域有许多应用，包括图像压缩、去噪和恢复。

进一步地，基于熵的动态运动信息建模，其帧差技术基于视频序列的连续帧中的像素高度相关的事实。换句话说，在两个相邻帧中具有相同位置的像素可能具有相似的值。然而，当场景中存在运动时，像素值将发生变化，帧差将突出显示这些变化。

假设视频序列中第帧和第/>帧图像分别为/>和/>，因为本发明的输入流是RGB图像，如果用普通的灰度值去计算帧差，那么在利用阈值时，很可能会丢掉一些细节。因此本实验对每帧的RGB三个通道分别进行差值计算。然后将结果合为一张RGB帧差图，这个操作保留了运动时的细节信息，增强特征表达力。

基于熵的动态运动信息建模具体实现过程如下：

对第张图像和第/>张图像求取帧差：

；

得到RGB三个通道的图像差之后，将其合并为一张图像。

；

此时，本研究将该结果保存，之后用Softmax函数对其进行解码。

；

最后对其求取熵值

；

一般来说，熵值高的图像将具有更多的纹理和细节，而熵值低的图像将更平滑，细节更少。图像的熵可用于各种图像处理应用，例如图像分割和压缩。

进一步具体地，具体而言，本发明多域自适应融合架构实现过程如下：

S301：获取运动分支中间特征结果，获取空间分支中间特征结果/>；

S302：接着求取其均值：；

S303：融合运动特征和时空特征，并对融合结果做自注意力操作，得到，/>，；

S304：求取注意力结果：

；

S305：将注意力结果赋予自适应多频域自注意力交叉融合模块，对和/>分别送入自适应多频域自注意力交叉融合模块；

S306：按原路径继续进行特征提取。

S400：获取模型中运动信息和时空信息/>两个分支结果的平均值作为最终的识别结果。

。

S500：将识别结果输出。

在此基础上，本发明还提供了一种基于视频序列的人体动作识别系统，其包括依次通讯连接的数据处理模块，人体动作识别框架，自适应多频域自注意力融合交互模块，多域自适应架构，动态运动信息提取模块；其中：数据处理模块：用于采集视频数据，并对获取的视频进行处理。人体动作识别框架用于提取运动信息、时空信息。自适应多频域自注意力融合交互模块用于接收来自运动信息和空间信息并对其进行频率选择，使得运动特征，使空间特征和自适应多频域信息的融合更佳高效；多域自适应架构，用于构建模型的输入和输出，动态运动信息提取模块用于接收动作数据和时空数据，并以此构建模型。

进一步地，动态运动信息提取模块包括基于SSIM的动态选择运动信息建模模块，其实现过程如下：

从每段视频中按时间顺序抽取张图像。

对输入的视频帧做降维操作。将图像的大小调整为适合模型输入的大小，以便能够正确的处理图像。原始帧的输入，将其降维到/>，将分辨率降低。这步可以使用各种插值技术（如双线性、双三次或最近邻）来调整大小。

之后对降维后的图像进行SSIM操作，从亮度，对比度和结构三个方面考虑两帧图像的相似性。对其，若是输出值越接近于1，则代表两帧图像相似度较高，反之则代表两者相似度较低，运动信息明显。

最后根据SSIM值返回原输入数据选择相应的张图像，提取运动信息送入网络。

进一步地，动态运动信息提取模块基于熵的动态选择运动信息建模模块，其实现过程如下：

第一步从视频输入中抽取帧连续的图像。

第二步对每两帧图像做帧差，以便检测图像中的变化，获取图像中的动作信息。该操作在视频动作识别任务中应用非常普遍，其目标是识别移动对象。帧差是通过从前一帧的像素值减去一帧的象素值而获得的。此步骤的输出是表示两帧之间差异的矩阵，也即两帧之间的运动信息变化。

第三步将上一步的输出作为Softmax函数的输入。使用Softmax函数对图像中检测到的变化进行解码，以便从多个可能的结果中得出最可能的结果。该步骤的输出是一个概率矩阵。

之后求取第三步的概率矩阵的熵(标准差)值。这一步是计算在上一步骤中获得的概率矩阵的熵。熵是系统中不确定性或随机性的度量。在这种情况下，熵用于测量从Softmax函数获得的概率分布中的信息量。熵计算包括取每个概率及其对数的乘积的负和。此步骤的输出是表示概率分布的熵的标量值。此时熵值越大，代表这张图像的变化越剧烈，即包含的运动信息更加丰富。

这两种方法有助于选取蕴含运动信息丰富的图像帧，包含更多的运动细节信息。由于这两种算法是在M帧图像中动态选择N帧，在实现动态选择运动信息比较丰富的图像帧的同时在一定程度了增强了长时间建模能力。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的人体动作识别方法，该方法包括：获取的视频数据，并按固定的时间间隔进行取帧操作，并确定分段数目和每段图的数量；提取处理后视频中的运动信息和时空信息，并对运动信息和时空信息进行训练，使运动信息和时空信息同时与多频域信息进行交流融合；采用基于SSIM的动态选择运动信息进行建模或采用基于熵的动态选择运动信息建模进行建模，然后构建多域自适应融合架构；输入图像数据，并获取模型中运动信息和时空信息的结果的平均值作为最终的识别结果；将识别结果输出。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频序列的人体动作识别方法，其特征在于，其包括以下步骤：

S500：将识别结果输出。

2.根据权利要求1所述的基于视频序列的人体动作识别方法，其特征在于，在步骤S200中，具体包括以下步骤：

3.根据权利要求2所述的基于视频序列的人体动作识别方法，其特征在于，将通道的注意力机制运用至多域自适应架构中，用于提取不同的通道信息。

4.根据权利要求3所述的基于视频序列的人体动作识别方法，其特征在于，将所述通道的注意力机制运用至多域自适应架构中，具体包括以下步骤，

5.根据权利要求1~4中任一项所述的基于视频序列的人体动作识别方法，其特征在于，在步骤S300中，构建多域自适应架构包括以下步骤：

6.根据权利要求5所述的基于视频序列的人体动作识别方法，其特征在于，在所述时空信息的提取中，对输入视频的连续帧进行平均池化和双线性下采样操作，以提取静态信息。

7.根据权利要求6所述的基于视频序列的人体动作识别方法，其特征在于，将所述时空信息和所述运动信息两个分支在训练过程中进行侧向连接，利用自适应频域模块将运动流，时空流，多频域流相融合，视频动作识别的多个特征流进行集成；最后将分支结果进行汇总，得出最终的识别分类。

8.根据权利要求1~4中任一项所述的基于视频序列的人体动作识别方法，其特征在于，在步骤S100中，具体包括以下步骤：

将视频分段，确定每段包含的图像数量，送入网络架构。

9.一种基于视频序列的人体动作识别系统，其特征在于，其包括依次通讯连接的数据处理模块、人体动作识别框架、自适应多频域自注意力融合交互模块、多域自适应架构和动态运动信息提取模块；

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序执行时实现如权利要求1至8中任一项所述的人体动作识别方法。