CN114821640A

CN114821640A - 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法

Info

Publication number: CN114821640A
Application number: CN202210381360.5A
Authority: CN
Inventors: 张海平; 刘旭; 马琮皓; 胡泽鹏; 管力明; 施月玲
Original assignee: Hangzhou Dianzi University; School of Information Engineering of Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University; School of Information Engineering of Hangzhou Dianzi University
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-07-29
Anticipated expiration: 2042-04-12
Also published as: CN114821640B

Abstract

本发明公开了基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，包括：获取人体行为视频并预处理；从预处理后的视频中提取每帧图像的人体骨架数据形成骨架序列；填充骨架序列形成新的骨架序列；基于新的骨架序列获取每帧图像的二阶信息数据；基于二阶信息数据的类别和新的骨架序列分别对应建立训练集和标签；建立膨胀时空图卷积网络模型；将各类训练集和标签输入膨胀时空图卷积网络模型进行训练；将待识别的视频建立训练集后输入预训练好的模型，获取的融合结果即为最终预测结果。该方法可更好地获取网络不同层的语义信息，并在不增加计算量的情况下结合数量更多、特征更明显的关节数据实现人体行为预测，大大提高人体行为的预测精确度。

Description

基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法

技术领域

本发明属于计算机视觉和深度学习领域，具体涉及基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法。

背景技术

行为识别技术广泛应用在智能监控、虚拟现实、人机交互、公共安全、医疗健康等众多领域，具有十分优秀的应用前景，为计算机视觉等领域的重要研究课题。人体行为识别的目的简单来说就是根据输入数据来自动判断有什么人在什么样的场景中做了怎样的事情。识别系统的一般处理流程是：通过分析处理输入数据，提取数据特征，将聚合的特征作为一种特定模式，根据这种模式来对应某类人体行为活动。对人体行为的识别不同于姿态估计，单纯一张图片并不能判断出人体活动的类型，因为，行为是个持续性的动作。例如，一张“抬着腿”的图片，并不知道图片中的人下一步是要将腿放下还是继续抬起，必须通过追踪数据中长期的动态信息才能感知到不同行为的运动特征。

骨架数据是包含多个人体骨骼关节的二维或者三维坐标位置的时间序列，可以利用传感器设备直接采集或者使用姿态估计方法从图像中提取出来。相比于传统的RGB视频识别方法，基于骨架数据的动作识别能很好地减少识别过程中光照变化、环境背景、遮挡等干扰因素的影响，对动态环境和复杂背景具有较强的适应性。

目前，将人体骨架数据拓扑为时空图，并利用图卷积网络(GCNs)进行处理被证实有着良好的识别效果。然而，目前的主流基于GCN的模型还存在如下不足：(1)接收域(尤其是在时间图上)不灵活。神经网络模型是多层的，不同的层次存在着不同的语义信息，为了更好地提取信息感受野必须是要灵活多变的；(2)特征提取能力有限。一般来说，结合数量越多或者特征更明显的关节点数据，行为特征信息也就越复杂，越利于行为预测，通常采用更大的卷积核或者加大网络深度的方法，但这些都会带来更大的计算量；(3)多流融合特定行为模式的方法简单。目前，经典的多流框架模型通常直接将各流的softmax分数相加获得最终的预测结果，但实际上各个流的预测效果是有明显差异的，单纯的分数相加难以获得精确的预测结果。

发明内容

本发明的目的在于针对上述问题，提出一种基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，可更好地获取网络不同层的语义信息，并在不增加计算量的情况下结合数量更多、特征更明显的关节数据实现人体行为预测，大大提高人体行为的预测精确度。

为实现上述目的，本发明所采取的技术方案为：

本发明提出的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，包括如下步骤：

S1、获取人体行为视频并进行预处理；

S2、从预处理后的人体行为视频中提取每帧图像的人体骨架数据，人体骨架数据包括各关节对应的元组(X，Y，Z)，所有图像的人体骨架数据按照时间排序形成骨架序列

其中，X为对应关节的X坐标值，Y为对应关节的Y坐标值，Z为对应关节的置信度或Z坐标值，v为关节向量，C为坐标维度，T为时间，N为关节点数；

S3、将在先获得的人体骨架数据填充至骨架序列V形成新的骨架序列V’，新的骨架序列V’具有连续的预设帧数的人体骨架数据；

S4、基于新的骨架序列V’获取每帧图像的二阶信息数据，二阶信息数据包括e_ti、a_ti、m_joint，tj、m_bone，ti、m_joint2，tj和m_bone2，ti，计算公式如下：

e_ti＝v_ti′-v_ti

m_joint，tj＝v_(t+1)j-v_tj

m_bone，ti＝e_(t+1)i-e_ti

m_joint2，tj＝v_(t+2)j-v_tj

m_bone2，ti＝e_(t+2)i-e_ti

其中，e_ti为第t帧第i个骨骼的骨骼向量，v_ti为第t帧第i个骨骼上靠近骨架重心的源关节坐标，v_ti′为第t帧第i个骨骼上远离骨架重心的目标关节坐标，a_tic为第t帧第i个骨骼的骨骼向量在c方向分量上的角度，c∈{x，y，z}，a_ti＝(a_tix，a_tiy，a_tiz)，e_tic为第t帧第i个骨骼的骨骼向量在c方向分量的值，e_tix为第t帧第i个骨骼的骨骼向量在x方向分量的值，e_tiy为第t帧第i个骨骼的骨骼向量在y方向分量的值，e_tiz为第t帧第i个骨骼的骨骼向量在z方向分量的值，m_joint，tj为第j个关节在第t+1帧和第t帧的向量差，m_bone，ti为第i个骨骼在第t+1帧和第t帧的向量差，m_joint2，tj为第j个关节在第t+2帧和第t帧的向量差，m_bone2，ti为第i个骨骼在第t+2帧和第t帧的向量差，v_tj为第t帧第j个关节的坐标，v_(t+1)j为第t+1帧第j个关节的坐标，v_(t+2)j为第t+2帧第j个关节的坐标，e_(t+1)i为第t+1帧第i个骨骼的骨骼向量，e_(t+2)i为第t+2帧第i个骨骼的骨骼向量；

S5、基于获取的

和新的骨架序列V’七类数据分别对应建立七类训练集和标签，其中，e为每个骨骼的骨骼向量，a为每个骨骼的骨骼向量在x，y，z方向分量上的角度，m_joint为每个关节在相邻帧图像的向量差，m_joint2为每个关节在间隔一帧图像的向量差，m_bone为每个骨骼在相邻帧图像的向量差，m_bone2为每个骨骼在间隔一帧图像的向量差；

S6、建立膨胀时空图卷积网络模型，膨胀时空图卷积网络模型包括七个第一图卷积网络和一个多分支特征融合单元，第一图卷积网络包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层、Dropout层和softmax分类器，多尺度图卷积模块包括输出通道依次为64、64、64、64、128、128、128、256、256、256的十层特征提取模块，各层特征提取模块包括依次连接的自适应空间域图卷积单元、注意力单元和时间域图卷积单元，膨胀时空图卷积网络模型还执行如下操作；

S61、利用各第一图卷积网络获取对应的初始预测结果和softmax分数；

S62、利用多分支特征融合单元计算各第一图卷积网络输出的初始预测结果的权重系数α_s，公式如下：

其中，

表示每流初始预测结果组成的数组，每流初始预测结果的取值范围为0～1，Acu[n]表示第n流识别准确度，Acu[s]表示第s流识别准确度，γ为0.001；

S63、将各softmax分数进行加权融合获取融合结果Result，计算公式如下：

其中，r_s为第s流的softmax分数；

S7、将各类训练集和标签一一对应输入膨胀时空图卷积网络模型的第一图卷积网络进行训练，获取预训练好的膨胀时空图卷积网络模型；

S8、将待识别的人体行为视频建立七类训练集后输入预训练好的膨胀时空图卷积网络模型，获取的融合结果Result即为最终预测结果。

优选地，步骤S1中，预处理为将人体行为视频的分辨率调整为340×256，帧率转换为30FPS。

优选地，步骤S2中，人体骨架数据基于Openpose姿态估计工具箱提取。

优选地，步骤S3中，预设帧数为300帧。

优选地，时间域图卷积单元包括第一残差模块和依次连接的第一特征提取单元、Concat函数和第二特征提取单元，第一残差模块和第一特征提取单元的输入端与注意力单元连接，第一残差模块的输出端与第二特征提取单元连接，第二特征提取单元用于执行相加操作，第一特征提取单元包括并行的六个第一分支单元、一个第二分支单元和一个第三分支单元，第一分支单元包括依次连接的第一瓶颈层、第一膨胀卷积层和第二BN层，第二分支单元包括依次连接的第二瓶颈层、最大池化层和第三BN层，第三分支单元包括依次连接的第二卷积层和第四BN层。

优选地，各瓶颈层包括依次连接的第三卷积层、第六BN层和Relu函数，第一残差模块包括依次连接的第四卷积层和第七BN层。

优选地，特征提取模块还包括第二残差模块、第一激活函数、第二激活函数、第三激活函数、第五BN层和第三特征提取单元，自适应空间域图卷积单元、第一激活函数、注意力单元、时间域图卷积单元、第五BN层、第二激活函数、第三特征提取单元和第三激活函数依次连接，第二残差模块的输入端与自适应空间域图卷积单元的输入端连接，输出端与第三特征提取单元连接，第三特征提取单元用于执行相加操作。

优选地，自适应空间域图卷积单元满足如下公式：

其中，f_in为自适应空间域图卷积单元的输入，f_out为自适应空间域图卷积单元的输出，k＝0，1，…，K，K为空间维度的核心大小，W_k为1×1卷积操作的权重向量，B_k为针对多尺度图卷积模块各层的数据驱动的可学习邻接矩阵，C_k为针对每个样本的邻接矩阵，β为自适应系数。

与现有技术相比，本发明的有益效果为：该方法采用多流多尺度的膨胀时空图卷积网络模型将获取的人体行为信息(包括静态信息和运动信息)结合实现准确预测，通过时间域图卷积单元能够灵活有效地捕获人体骨架上的图域关节关系，通过多尺度膨胀卷积可结合数量更多、特征更明显的节点数据，更好地获取网络不同层的语义信息，采用瓶颈层降维可以有效减少模型的计算量，并使用残差连接增强模型的稳定性；通过结合特征更加突出的骨架数据的高阶信息建立多流框架，多流之间结果相互补充，同时使用新的加权方式将各流的softmax分数进行加权融合，有效提高人体行为的最终预测精确度。

附图说明

图1为本发明基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法的流程图；

图2为本发明膨胀时空图卷积网络模型的结构示意图；

图3为本发明第一图卷积网络的结构示意图；

图4为本发明特征提取模块的结构示意图；

图5为本发明时间域图卷积单元的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

如图1-5所示，基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，包括如下步骤：

S1、获取人体行为视频并进行预处理。

在一实施例中，步骤S1中，预处理为将人体行为视频的分辨率调整为340×256，帧率转换为30FPS。

其中，人体行为视频为使用摄像头拍摄的RGB视频，为便于后续处理，将人体行为视频进行分辨率调整和帧率转换操作。

其中，X为对应关节的X坐标值，Y为对应关节的Y坐标值，Z为对应关节的置信度或Z坐标值，v为关节向量，C为坐标维度，T为时间，N为关节点数。

在一实施例中，步骤S2中，人体骨架数据基于Openpose姿态估计工具箱提取。

其中，人体骨架数据可由Openpose姿态估计工具箱提取，或由深度传感器直接获得，当由Openpose姿态估计工具箱提取时，各关节对应的元组(X，Y，Z)为2D坐标(X，Y)和置信度Z；当由深度传感器直接获得时，各关节对应的元组(X，Y，Z)为3D坐标。本实施例中，基于Openpose姿态估计工具箱提取，在每帧图像中，每一个人体骨架都有18个关节，每个关节都有2D坐标(X，Y)和置信度Z。因此，用(X，Y，Z)元组来表示每个关节，一个骨架被记录为18元组的数组。一个剪辑视频就转化为这些元组的骨架序列。需要说明的是，Openpose姿态估计工具箱还可替换为现有技术中的其他姿态估计工具。

S3、将在先获得的人体骨架数据填充至骨架序列V形成新的骨架序列V’，新的骨架序列V’具有连续的预设帧数的人体骨架数据。

在一实施例中，步骤S3中，预设帧数为300帧。

为便于准确识别人体行为，通过从开始重放序列来填充每个剪辑视频到预设帧数为300帧。

e_ti＝v_ti′-v_ti

m_joint，tj＝v_(t+1)j-v_tj

m_bone，ti＝e_(t+1)i-e_ti

m_joint2，tj＝v_(t+2)j-v_tj

m_bone2，ti＝e_(t+2)i-e_ti

其中，e_ti为第t帧第i个骨骼的骨骼向量，v_ti为第t帧第i个骨骼上靠近骨架重心的源关节坐标，v_ti′为第t帧第i个骨骼上远离骨架重心的目标关节坐标，a_tic为第t帧第i个骨骼的骨骼向量在c方向分量上的角度，c∈{x，y，z}，a_ti＝(a_tix，a_tiy，a_tiz)，e_tic为第t帧第i个骨骼的骨骼向量在c方向分量的值，e_tix为第t帧第i个骨骼的骨骼向量在x方向分量的值，e_tiy为第t帧第i个骨骼的骨骼向量在y方向分量的值，e_tiz为第t帧第i个骨骼的骨骼向量在z方向分量的值，m_joint，tj为第j个关节在第t+1帧和第t帧的向量差，m_bone，ti为第i个骨骼在第t+1帧和第t帧的向量差，m_joint2，tj为第j个关节在第t+2帧和第t帧的向量差，m_bone2，ti为第i个骨骼在第t+2帧和第t帧的向量差，v_tj为第t帧第j个关节的坐标，v_(t+1)j为第t+1帧第j个关节的坐标，v_(t+2)j为第t+2帧第j个关节的坐标，e_(t+1)i为第t+1帧第i个骨骼的骨骼向量，e_(t+2)i为第t+2帧第i个骨骼的骨骼向量。

其中，从新的骨架序列V’中提取出具有高阶信息的二次数据(二阶信息数据)。每一个骨骼可以表示为从其源关节指向其目标关节的向量，当然，这些骨骼向量都是符合人体自然骨架连接的。处理出来的骨骼数据包含着二阶信息，如骨骼的方向和长度。除了静态信息骨骼向量和角度，运动信息也极为重要，通过计算两个连续帧和相隔一帧的同一个关节或骨骼的差异，便于获得更加准确的识别结果。

S5、基于获取的

和新的骨架序列V’七类数据分别对应建立七类训练集和标签，其中，e为每个骨骼的骨骼向量，a为每个骨骼的骨骼向量在x，y，z方向分量上的角度，m_joint为每个关节在相邻帧图像的向量差，m_joint2为每个关节在间隔一帧图像的向量差，m_bone为每个骨骼在相邻帧图像的向量差，m_bone2为每个骨骼在间隔一帧图像的向量差。

其中，将300帧图像对应的七类数据(包括E、A、M_joint、M_joint2、M_bone、M_bone2和V’)，分别建立训练集和标签。容易理解的是，根据时间T和关节点数N，e、a、m_joint、m_joint2、m_bone、m_bone2依次对应e_ti、a_ti、m_joint，tj、m_joint2，tj、m_bone，ti和m_bone2，ti。

其中，

其中，r_s为第s流的softmax分数。

在一实施例中，特征提取模块还包括第二残差模块、第一激活函数、第二激活函数、第三激活函数、第五BN层和第三特征提取单元，自适应空间域图卷积单元、第一激活函数、注意力单元、时间域图卷积单元、第五BN层、第二激活函数、第三特征提取单元和第三激活函数依次连接，第二残差模块的输入端与自适应空间域图卷积单元的输入端连接，输出端与第三特征提取单元连接，第三特征提取单元用于执行相加操作。

在一实施例中，自适应空间域图卷积单元满足如下公式：

在一实施例中，时间域图卷积单元包括第一残差模块和依次连接的第一特征提取单元、Concat函数和第二特征提取单元，第一残差模块和第一特征提取单元的输入端与注意力单元连接，第一残差模块的输出端与第二特征提取单元连接，第二特征提取单元用于执行相加操作，第一特征提取单元包括并行的六个第一分支单元、一个第二分支单元和一个第三分支单元，第一分支单元包括依次连接的第一瓶颈层、第一膨胀卷积层和第二BN层，第二分支单元包括依次连接的第二瓶颈层、最大池化层和第三BN层，第三分支单元包括依次连接的第二卷积层和第四BN层。

在一实施例中，各瓶颈层包括依次连接的第三卷积层、第六BN层和Relu函数，第一残差模块包括依次连接的第四卷积层和第七BN层。

其中，膨胀时空图卷积网络模型如图2所示，包括七个第一图卷积网络(分别对应J-Stream、B-Stream、J-M-Stream、B-M-Stream、J-M2-Stream、B-M2-Stream、A-Stream)和多分支特征融合单元(Multi-branch Feature Fusion)，Skeleton Data即为划分训练集后的骨架数据。第一图卷积网络如图3所示，包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层(GAP)、Dropout层和softmax分类器，多尺度图卷积模块包括输出通道依次为64、64、64、64、128、128、128、256、256、256的十层特征提取模块(分别为L1-L10)。每个第一图卷积网络处理一类数据，得到对应的初始预测结果和softmax分数。

特征提取模块如图4所示，包括第二残差模块(Residual connection)和依次连接的自适应空间域图卷积单元(Convs)、第一激活函数、注意力单元(STC)、时间域图卷积单元(Convt)、第五BN层、第二激活函数、第三特征提取单元和第三激活函数依次连接，第二残差模块的输入端与自适应空间域图卷积单元的输入端连接，输出端与第三特征提取单元连接，第三特征提取单元用于执行相加操作，第一激活函数、第二激活函数和第三激活函数均为Relu函数。

自适应空间域图卷积单元(Convs)构建过程为：根据输入的特征图得到邻接矩阵B_k和C_k，利用自适应系数β对C_k加权后再与B_k相加，然后与输入的特征图相乘，叠加通道后经过1×1空间域图卷积得到输出特征图，公式表示如下：

其中，B_k以符合人体骨架自然连接的邻接矩阵初始化，可以学习完全针对识别任务的图，并针对不同层中包含的不同信息更加个性化，C_k通过相似函数判断两个顶点是否连通以及连接强度，为每个样本学习一个唯一的图，β为随着训练迭代更新的自适应系数。

注意力单元(STC)构建过程为：将输入分别经过空间注意力模块、时间注意力模块和通道注意力模块，每一个模块都将输入进行平均池化后得到的相应维度的注意力矩阵，然后与输入进行对应元素相乘相加得到输出。需要说明的是，自适应空间域图卷积单元和注意力单元为本领域技术人员熟知技术，在此不再赘述。

时间域图卷积单元(Convt)构建过程为：如图5所示，第一残差模块表示为Residual，各瓶颈层表示为Bottleneck，将输入降维分为8个分支单元分别处理，各第一分支单元分别使用7×1和9×1的卷积核并结合1、2、3三种不同的膨胀率(dilation)组成6种膨胀卷积分支，第二分支单元使用最大池化层处理，8个分支单元的输出按通道维度合并再与残差模块输出相加从而得到最终输出。时间域图卷积单元能够灵活有效地捕获人体骨架上的图域关节关系，通过多尺度膨胀卷积可结合数量更多、特征更明显的节点数据，更好地获取网络不同层的语义信息，采用瓶颈层降维可以有效减少模型的计算量，并使用残差连接进一步增强模型的稳定性。

多分支特征融合单元(Multi-branch Feature Fusion)构建过程为：将各第一图卷积网络输出的初始预测结果与初始预测结果中的最小值计算差值，获取每一个差值在差值和的比例，该比例即为输出的权重系数。

S7、将各类训练集和标签一一对应输入膨胀时空图卷积网络模型的第一图卷积网络进行训练，获取预训练好的膨胀时空图卷积网络模型。

其中，将七类数据的训练集和标签输入膨胀时空图卷积网络模型的第一图卷积网络进行训练，迭代一定次数后得到预训练好的膨胀时空图卷积网络模型。在本实施例中训练参数如下：初始学习率设置为0.05，权重衰减设置为0.0001，采用Nesterov动量为0.9的随机梯度下降(SGD)来调整参数，最大训练次数设置为65次，在第45和第55次训练阶段将学习率除以10。对模型进行训练为本领域技术人员熟知技术，在此不再赘述。

其中，将待识别的人体行为视频采用步骤S1～S5建立七类训练集后，输入到预训练好的膨胀时空图卷积网络模型，即可获得待识别的人体行为视频的最终预测结果。

该方法采用多流多尺度的膨胀时空图卷积网络模型将获取的人体行为信息(包括静态信息和运动信息)结合实现准确预测，通过时间域图卷积单元能够灵活有效地捕获人体骨架上的图域关节关系，通过多尺度膨胀卷积可结合数量更多、特征更明显的节点数据，更好地获取网络不同层的语义信息，采用瓶颈层降维可以有效减少模型的计算量，并使用残差连接增强模型的稳定性；通过结合特征更加突出的骨架数据的高阶信息建立多流框架，多流之间结果相互补充，同时使用新的加权方式将各流的softmax分数进行加权融合，有效提高人体行为的最终预测精确度。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请描述较为具体和详细的实施例，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：所述基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法包括如下步骤：

S1、获取人体行为视频并进行预处理；

S2、从预处理后的人体行为视频中提取每帧图像的人体骨架数据，所述人体骨架数据包括各关节对应的元组(X，Y，Z)，所有图像的人体骨架数据按照时间排序形成骨架序列

S3、将在先获得的人体骨架数据填充至骨架序列V形成新的骨架序列V’，所述新的骨架序列V’具有连续的预设帧数的人体骨架数据；

S4、基于新的骨架序列V’获取每帧图像的二阶信息数据，所述二阶信息数据包括e_ti、a_ti、m_joint，tj、m_bone，ti、m_joint2，tj和m_bone2，ti，计算公式如下：

e_ti＝v_ti′-v_ti

m_joint，tj＝v_(t+1)j-v_tj

m_bone，ti＝e_(t+1)i-e_ti

m_joint2，tj＝v_(t+2)j-v_tj

m_bone2，ti＝e_(t+2)i-e_ti

S5、基于获取的

S6、建立膨胀时空图卷积网络模型，所述膨胀时空图卷积网络模型包括七个第一图卷积网络和一个多分支特征融合单元，所述第一图卷积网络包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层、Dropout层和softmax分类器，所述多尺度图卷积模块包括输出通道依次为64、64、64、64、128、128、128、256、256、256的十层特征提取模块，各层所述特征提取模块包括依次连接的自适应空间域图卷积单元、注意力单元和时间域图卷积单元，所述膨胀时空图卷积网络模型还执行如下操作；

S61、利用各所述第一图卷积网络获取对应的初始预测结果和softmax分数；

S62、利用所述多分支特征融合单元计算各所述第一图卷积网络输出的初始预测结果的权重系数α_s，公式如下：

其中，

其中，r_s为第s流的softmax分数；

S7、将各类所述训练集和标签一一对应输入所述膨胀时空图卷积网络模型的第一图卷积网络进行训练，获取预训练好的膨胀时空图卷积网络模型；

2.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：步骤S1中，所述预处理为将人体行为视频的分辨率调整为340×256，帧率转换为30FPS。

3.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：步骤S2中，所述人体骨架数据基于Openpose姿态估计工具箱提取。

4.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：步骤S3中，所述预设帧数为300帧。

5.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：所述时间域图卷积单元包括第一残差模块和依次连接的第一特征提取单元、Concat函数和第二特征提取单元，所述第一残差模块和第一特征提取单元的输入端与注意力单元连接，所述第一残差模块的输出端与第二特征提取单元连接，所述第二特征提取单元用于执行相加操作，所述第一特征提取单元包括并行的六个第一分支单元、一个第二分支单元和一个第三分支单元，所述第一分支单元包括依次连接的第一瓶颈层、第一膨胀卷积层和第二BN层，所述第二分支单元包括依次连接的第二瓶颈层、最大池化层和第三BN层，所述第三分支单元包括依次连接的第二卷积层和第四BN层。

6.如权利要求5所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：各所述瓶颈层包括依次连接的第三卷积层、第六BN层和Relu函数，所述第一残差模块包括依次连接的第四卷积层和第七BN层。

7.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：所述特征提取模块还包括第二残差模块、第一激活函数、第二激活函数、第三激活函数、第五BN层和第三特征提取单元，所述自适应空间域图卷积单元、第一激活函数、注意力单元、时间域图卷积单元、第五BN层、第二激活函数、第三特征提取单元和第三激活函数依次连接，所述第二残差模块的输入端与所述自适应空间域图卷积单元的输入端连接，输出端与所述第三特征提取单元连接，所述第三特征提取单元用于执行相加操作。

8.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：所述自适应空间域图卷积单元满足如下公式：