CN114973418A

CN114973418A - 一种跨模态三维点云序列时空特征网络的行为识别方法

Info

Publication number: CN114973418A
Application number: CN202210652520.5A
Authority: CN
Inventors: 侯振杰; 尤凯军; 钟卓锟; 施海勇
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-08-30

Abstract

本发明涉及神经网络技术领域，尤其涉及一种跨模态三维点云序列时空特征网络的行为识别方法，包括：通过坐标转换将深度图跨模态转换成点云序列；将每一帧点云序列输入由时空建模模块和时空信息注入模块构成的跨模态三维点云序列时空特征网络，得到带有时序信息的特征向量序列和空间结构信息特征向量序列，进行拼接作为全连接层的输入，并通过分类器进行人类行为识别。本发明通过抽象操作中加入了通道注意力和空间注意力层；并设计了时空建模模块和时空信息注入模块；通过时空信息注入模块为特征序列注入时间和空间特征信息以此加强时空维度的信息表征来弥补FPS带来的信息损失。

Description

一种跨模态三维点云序列时空特征网络的行为识别方法

技术领域

本发明涉及神经网络技术领域，尤其涉及一种跨模态三维点云序列时空特征网络的行为识别方法。

背景技术

随着计算机视觉不断发展，行为识别在视频监控和人机交互等诸多领域中展现出其广泛的应用前景和研究价值；利用深度图序列进行人体行为识别是机器视觉和人工智能中的一个重要研究领域，广泛使用的深度图序列尽管可以提供深度信息，但数据冗余量大，行为数据的时空结构信息大量丧失，点云的出现弥补了深度图数据的劣势，点云就是分布在三维空间中的离散点集，它对复杂场景以及物体的外形表达具有独特的优势，但由于点云分布不规则且无序的性质，在点云上应用深度学习是不容易的。

目前，点云学习可分为基于体积的方法和基于点的方法：

(1)基于体积的方法：基于体积的方法通常将点云体素化成三维网格，然后将三维卷积神经网络应用于空间表示进行分类。

(2)基于点的方法：基于点的方法直接在原始点云上执行，PointNet的核心思想是利用一组多层感知器抽象每个点来学习其对应的空间编码，然后通过一个对称函数将所有单独的点特征集合起来得到一个全局的点云特征，但是PointNet缺乏了对局部特征的提取及处理，而且现实场景中的点云往往是疏密不同的，而Pointnet是基于均匀采样的点云进行训练的，导致了其在实际场景点云中的准确率下降；

因此现有技术中提出一个分层网络PointNet++，点集的特征提取由三部分组成，分别为采样层、分组层和基于点网的学习层三层，这三个层构成一个抽象层，PointNet++由几个抽象级别集合组成，PointNet++通过几个抽象层的层级结构逐步利用局部区域信息学习特征，网络结构更有效更鲁棒；虽然pointnet++通过抽象操作可以很好的提取局部特征，一步步增加感受野，但pointnet++在进行抽象操作的同时，最远距离采样(FPS)也会减少外轮廓点的数量，这不可避免地损失了原来点云数据的时空信息。

发明内容

针对深度图的不足，本发明保留pointnet++强大的局部特征提取能力的同时弥补丢失的时空特征信息，通过抽象操作中加入了通道注意力和空间注意力层；并设计了时空建模模块和时空信息注入模块，在时空建模模块加入通道注意力和空间注意力来加强时空建模模块抓取重要特征的能力，再通过时空信息注入模块为特征序列注入时间和空间特征信息以此加强时空维度的信息表征来弥补FPS带来的信息损失。

本发明所采用的技术方案是：一种跨模态三维点云序列时空特征网络的行为识别方法包括以下步骤：

S1、采集人体深度数据，通过坐标转换将深度图跨模态转换成点云序列；

S2、将每一帧点云序列输入由时空建模模块和时空信息注入模块构成的跨模态三维点云序列时空特征网络，得到带有时序信息的特征向量序列和空间结构信息特征向量序列，进行拼接作为全连接层的输入，并通过分类器进行人类行为识别。

进一步的，所述时空建模模块由两个抽象操作层、两组多层感知机和最大池化层组成。

进一步的，抽象操作层由采样层、分组层、通道注意力、空间注意力和Pointnet层组成，点云序列输入抽象操作层，输入为(T,n_m,d+c_i)维；

采样层使用最远点采样(FPS)从点集中选择n_m个点作为质心；

分组层将n_m-1×(d+c_m-1)维的点集和一组大小为n_m×d的质心坐标作为输入，输出为n_m组大小为n_m×k_m×(d+c_m-1)的点集群；其中，每组对应一个局部区域，k_m表示质心点的邻域内局部点的个数，通过球半径查询方法来查找在半径范围内的所有点，在该半径范围内设置k_m为上限；

通道注意力和空间注意力层的输入是数据大小为n_m×k_m×(d+c_m-1)维的n_m个点的局部区域；

首先，将局部区域内点的坐标转换成相对于质心点的局部坐标系；其次，将每个局部点与质心之间的距离作为1维的附加点特征；然后，利用特征间注意机制优化不同特征的融合效果，其表现形式如下：

其中，

表示第t个点云框架第j个区域第i个点的坐标，

和

分别是对应于

的质心点坐标和对点特征，

是

和

之间的欧几里得距离，A为注意机制，每个点对应的坐标和特征得分为(3+1+c_m-1)维，A中的注意力得分由所有点云帧中的所有局部点共享，

和⊙是串联运算和点积运算，

为第t个点云框架第j个区域经过通道空间注意力层后的区域特征。

通道注意力模块同时使用平均池化和最大池化后的点云特征，然后依次送入一个共享权重的多层感知机中，最后输出的特征向量进行合并；

空间注意力通过最大池化和平均池化各获得一张特征图，而后拼接成一张2D特征图，再送入标准7X7卷积进行参数学习，最终得到一张1D的权重特征图；

在Pointnet层，由一组mlp和一个最大池化操作组成，利用最大池化操作结合所有局部点的抽象特征生成局部区域的表示，最后，将质心点的坐标及其局部区域表示连接为质心点的抽象特征向量序列

最后，通过一组多层感知机和最大池化层表征整个点云框架的时空信息。

进一步的，时空信息注入模块包括：时序信息注入模块和空间信息注入模块；输入每一帧的点云序列，输出对应帧的静态外观时空特征向量以表征时空结构信息，通过时空信息注入模块给所有帧的静态外观时空特征加入时序信息和空间尺度信息。

进一步的，时序信息注入模块首先对人体动作的时间信息进行编码，使用时间位置嵌入层、共享MLPS层和分层金字塔最大池化层，时间位置嵌入层利用特征向量序列的顺序注入时间位置信息，共享的MLPS层对每个独立的特征向量执行一组MLPS，以提取每个点云框架的时空信息，采用分层金字塔最大池化层在多个时间尺度上提取序列空间信息；

进一步的，时间位置嵌入层使用不同频率的正弦和余弦函数作为时间位置编码：

其中，d_sout表示特征向量的维数，t是时间位置，而h是维度位置；通过添加位置编码更新特征向量，如下所示：

其中，

是经过时间位置嵌入后的新的特征向量；然后，得到一个新的特征向量序列

经过时间位置嵌入层后，将顺序信息简单地嵌入到空间信息序列中，为了进一步提取时空信息，对每个特征向量应用一组MLPS，公式为：

其中，

表示使用MLP操作更新的特征向量，然后，生成一个更新的特征向量序列

使用分层金字塔最大池化层(Two-MAX)对多个特征向量进行聚合，将向量序列

对等数量的点云帧进行多个时间分区，然后对每个分区进行max pooling操作，生成相应的描述符；使用三个分区两层金字塔的分层金字塔最大池策略；最后，将所有时间分区的描述符连接起来，形成人类行为的序列级特征E。

进一步的，时序信息的特征向量序列包括：提取人体动作区级特征M和人体动作帧级特征N，将E、M和N进行连接并输出时序特征P；其中，区级特征M和帧级特征N提取公式如下：

其中，

是通过第二组抽象操作生成的抽象特征。

进一步的，在时空信息注入模块中经过时序信息注入后通过聚类生成带有时序信息的三维向量关系序列，三维向量关系序列同一组随机张量共同进入点间注意力机制模块，通过点间注意力机制学习点云数据点与点之间的结构关系，并生成表征点云数据空间结构关系的点间关系矩阵；

进一步的，点间注意力机制由一组MLPS和softmax组成，生成点间关系矩阵，公式为：

F_s＝MAX{MLP(R,E)} (8)

其中，F_s表示生成的专注于表示空间结构信息的空间特征向量序列，R表示随机张量，E为人类行为的序列级特征；

将点间关系与点云序列数据各点相结合，生成空间结构信息特征F_f公式为：

其中，

为经过时序信息注入后生成的三维向量关系序列。

进一步的，将带有时序信息的特征向量序列P和空间结构信息特征向量序列F_f进行拼接作为全连接层的输入Q，然后通过分类器进行人类动作识别，公式如下：

本发明的有益效果：

1、针对pointnet++的局限性，构造了时空信息注入模块，为静态点云序列注入动态时序信息；

2、将多尺度的人体运动特征数据和时空特征数据进行了融合，使得行为数据的空间结构信息和时间变化规律得到了充分的利用；

3、提出了跨模态三维点云序列时空特征网络，将深度信息跨模态转换为点云帧序列以捕捉复杂的时空结构，弥补了深度图数据的不足。

附图说明

图1是本发明的跨模态三维点云序列时空特征网络的行为识别方法结构框图；

图2是本发明的时空建模模块示意图；

图3是本发明的时空信息注入模块示意图；

图4是本发明的不同数据输入对于识别率的差异；

图5是本发明的不同特征融合方式对于识别率的差异。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，此图为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

为了评估本发明方法的有效性，在基于深度图的公共数据集上进行实验；大型公共数据集能够为模型提供更广泛的训练数据，使模型更强壮；为了验证本发明方法的鲁棒性，在数据集的选择上也采用了经典的小型数据集，因此，选取几个具有截然不同规模的数据集上进行了实验：MSR Action3D和NTU-RGB+D。

本发明是基于PyTorch框架建立的，其中Python版本为3.7.0，pytorch版本为1.10.1；本实验的硬件平台为台式机，其中，主板是微星B460M MORTAR，CPU是Intel i710700，主频为2.9GHz，内存是16GB，操作系统是Windows 10专业版，GPU资源NVIDIA TeslaV100，显存32GB；实验用到的软件工具为PyCharm，Anaconda3。

MSR Action3D数据集记录了人体动作序列，共包含20个动作类型，10个被试者，每个被试者执行每个动作2或3次，总共有567个深度图序列，分辨率为640x240，用类似于Kinect装置的深度传感器记录数据，将受试人编号为1,3,5,7,9的动作序列被用来做训练集，其余的用来做测试集。

NTU RGB+D属于大型数据集，并且提供更具有挑战性的动作样本和更多的模态信息；NTU RGB+D数据集一共包括56880个动作样本，并且使用固定不同位置的采集设备为每个样本提供从三个视角捕获的RGB、深度图、骨架序列和红外辐射视频四种数据；包括60个动作类别，每个动作类别由40名受试人完成1-2次；与MSR Action3D采集方式不同，NTU RGB+D提供采集设备在不同水平高度和距离采集的17种多视角、多模态的数据；首先将采集设备中不同视角的相机分成两组，其中相机编号为2和3采集的37920个动作序列作为训练集，相机编号为1采集的18960个动作序列作为测试集。

如图1所示，跨模态三维点云序列时空特征网络的行为识别方法，包括以下步骤：

图1中网络结构由时空建模模块和时空信息注入模块组成，在时空建模模块中，输入每一帧的点云集，输出对应帧的静态外观时空特征向量以表征时空结构信息；通过时空信息注入模块给所有帧的静态外观时空特征加入时序信息和空间尺度信息；之后将多尺度的人体运动特征数据和时空特征数据有效融合并利用全连接神经网络进行动作分类识别。

S1、采集人体深度图数据，通过坐标转换将深度图跨模态转换成点云序列；

表示T帧点云框架的点云序列，

表示第t帧点云框架的无序点集，n为点的数目；

S2、将每一帧点云序列输入由时空建模模块和时空信息注入模块构成的跨模态三维点云序列时空特征网络，得到带有时序信息的特征向量序列和空间结构信息特征向量序列，进行简单的拼接作为全连接层的输入，并进行人类行为识别，时空信息注入模块包括：时序信息注入模块和空间信息注入模块；

如图2为时空建模模块，进一步的，时空建模模块由两个抽象操作层、两组多层感知机和最大池化层组成；

进一步的，抽象操作层由采样层、分组层、通道注意力、空间注意力和Pointnet层组成，点云序列输入抽象操作层，输入为(T,n_m,d+c_i)维，d设置为3对应每个点的(x,y,z)三维坐标，c_i代表进c_i维的点特征，c₁设置为0；

在采样层，使用最远点采样(FPS)从点集中选择n_m个点作为质心。

在分组层，将n_m-1×(d+c_m-1)维的点集和一组大小为n_m×d的质心坐标作为输入，输出为n_m组大小为n_m×k_m×(d+c_m-1)的点集群；其中，每组对应一个局部区域，k_m表示质心点的邻域内局部点的个数，通过球半径查询方法来查找在半径范围内的所有点，在该半径范围内设置k_m为上限。

在通道注意力层和空间注意力层，使用通道注意力和空间注意力沿着通道和空间两个维度进行注意力权重学习，对点云特征进行自适应调整，获取重要特征，压缩不重要特征，表征每一帧人体行为静态外观的时间信息和空间结构，通道注意力层和空间注意力层的输入是数据大小为n_m×k_m×(d+c_m-1)维的n_m个点的局部区域；

首先，将局部区域内点的坐标转换成相对于质心点的局部坐标系；其次，将每个局部点与质心之间的距离作为1维的附加点特征，以缓解旋转运动对动作识别的影响；然后，利用特征间注意机制优化不同特征的融合效果，其表现形式如下：

其中，

表示第t个点云框架第j个区域第i个点的坐标，

和

分别是对应于

的质心点坐标和对点特征，

是

和

和⊙是串联运算和点积运算，

为第t个点云框架第j个区域经过通道、空间注意力层后的区域特征。

通道注意力：通道注意力模块同时使用平均池化和最大池化后的点云特征，然后将它们依次送入一个共享权重的多层感知机中，最后输出的特征向量进行合并，为了有效计算通道注意力，需要对输入特征图的空间维度进行压缩，对于空间信息的聚合，常用的方法是平均池化，另外最大池化可以收集到难区分物体之间更重要的线索，来获得更详细的通道注意力，所以平均池化和最大池化的特征是同时使用的。

空间注意力：空间注意力主要聚焦于哪部分的有效信息较丰富，这是对通道注意力的补充，通过最大池化和平均池化各获得一张特征图，而后将他们拼接成一张2D特征图，再送入标准7X7卷积进行参数学习，最终得到一张1D的权重特征图，该图编码了需要关注或压制的位置，从空间的角度来看，通道注意力是全局的，而空间注意力是局部的。

Pointnet层由一组MLP和一个最大池化操作组成，利用最大池化操作结合所有局部点的抽象特征生成局部区域的表示，最后，将质心点的坐标及其局部区域表示连接为质心点的抽象特征向量序列

其中，f_t为输入的每帧点云S_t对应的输出每帧特征。

最后，通过一组多层感知机(MLPs)和最大池化层表征整个点云框架的时空信息。

进一步的，输入每一帧的点云序列，输出对应帧的静态外观时空特征向量以表征时空结构信息，通过时空信息注入模块给所有帧的静态外观时空特征加入时序信息和空间尺度信息；

通过时空信息注入模块对点云序列进行额外时空结构信息的注入，包括时序信息注入和空间信息注入：

如图1和3所示的时序信息注入模块，首先对人体动作的时间信息进行编码，使用时间位置嵌入层、共享MLPS层和分层金字塔最大池化层，时间位置嵌入层利用特征向量序列的顺序注入时间位置信息，共享的MLPS层对每个独立的特征向量执行一组MLPS，以提取每个点云框架的时空信息，采用分层金字塔最大池化层在多个时间尺度上提取序列空间信息。

时间位置嵌入层使用不同频率的正弦和余弦函数作为时间位置编码：

其中，

其中，

使用分层金字塔最大池化层(Two-MAX)对多个特征向量进行聚合，为了捕获点云序列内的子动作，编码更有鉴别性的运动信息，提出分层金字塔最大池化策略：将特征向量序列

对等数量的点云帧进行多个时间分区，然后对每个分区进行max pooling操作，生成相应的描述符；本实施例中使用三个分区两层金字塔的分层金字塔最大池策略；最后，来自所有时间分区的描述符被简单地连接起来，形成人类行为的序列级特征E。

为了获得更充足的人体运动时空信息，从不同阶段整合人体动作特征，为此，提取了区级特征M和帧级特征N，提取方法如下：

其中，

是通过第二组抽象操作生成的抽象特征；然后，E、M和N被简单连接作为时序特征P。

进一步的，如图3然后进行空间信息的注入，在时空信息注入模块中经过时序信息注入后通过聚类生成带有时序信息的三维向量关系序列，三维向量关系序列同一组随机张量共同进入点间注意力机制模块，通过点间注意力机制学习点云数据点与点之间的结构关系，并生成表征点云数据空间结构关系的点间关系矩阵。

随机张量能够更好地进行点云深度学习，让网络自主的学习到更适合表征数据空间结构的关系矩阵，本实施例采用一组设定好大小但数据随机的张量集，张量是一种强大的表示方向和空间的方法，通过张量不仅能更好的表示数据的空间结构信息，也能加快网络的运行速度。

点间注意力机制由一组MLPS和softmax组成，MLP可以很好地学习到点云数据中更关键点的时空信息，再经过softmax层转换成权重系数，即生成了可以用随机张量来表征各点间空间结构关系的关系矩阵，其表现形式如下：

F_s＝MAX{MLP(R_,E)} (8)

其中，F_s表示生成的专注于表示空间结构信息的空间特征向量序列(时空特征1)，R表示随机张量，E为人类行为的序列级特征。

进一步的，为了将点间关系与点云序列数据各点相结合，生成空间结构信息特征F_f公式为：

其中，

为经过时序信息注入后生成的三维向量关系序列，并将其进行最大池化操作抽象为时空特征2，由此将点间关系与各点相结合，生成空间结构信息特征F_f；

再将带有时序信息的特征向量序列P和空间结构信息特征向量序列F_f进行简单的拼接作为全连接层的输入Q，然后通过分类器进行人类动作识别，公式如下：

实验过程如下：

从点云集合中采样512个点作为点云框架，首先从点云集合中随机抽取2048个点，然后，利用PFS算法从2048个点中选取512个点，在时空建模模块中，对每个点云框架进行两次集合抽象操作，对时空结构进行建模，在第一个集合抽象操作中，选择128个质心来确定点组，组半径设置为0.06，每个点组中的点数设置为48；在第二组抽象操作中，选择32个质心来确定点组，组半径设置为0.1，每个点组的点数设置为16，如表1所示，在进行提取空间结构信息前，首先使用聚类生成三维向量关系序列，聚类半径设置为20，在进行提取空间结构信息时，随机张量大小设置为(8，64，64)，dropout设置为0.5，其中为了防止NTU RGB+d120数据集过大而导致的过拟合，在测试NTU RGB+d120数据集时将dropout设置为0.8，如表2所示，对训练数据采用3DV-PointNet++中相同的数据增强策略，包括Y、X轴随机旋转、抖动、随机点dropout；用Adam作为优化器，学习速率从0.001开始，每10个epoch以0.5的速率衰减。

表1时空建模实验设置表

表2时空信息注入实验设置表

由于本实验使用的数据为跨模态点云序列，虽然已经通过时空建模模块进行了空间的建模使之具备了时空上的结构特征，但是点云序列的有序性上的破坏不可避免的会导致部分的空间结构信息的损失，所以使用时空信息注入模块对特征序列进行特征补充；对了探索哪种数据更有利于空间信息的提取和不同数据提取方式对识别率的效果，进行了不同的实验进行对比寻找最适合的实验方法。

首先使用MSR Action3D小数据集进行实验，使用两种不同的数据作为时空信息注入模块的输入，一种三维点云数据为原始三维点云数据，即为抽象操作之前的三维点云数据；另一种三维点云数据为经过位置编码，已经进行时空建模后通过聚类生成的三维向量关系序列(以下称为原始数据和关系数据)，之后进行多次实验并记录下最后的实验结果，如表3所示，数据对比图如图4，特征注入对比图如图5；

表3 MSR-ACTION3D上的实验过程

由图4可以看出，使用原始数据作为时空信息注入模块的输入最高识别率可达到93.75％，但最低一次识别率只有89.71％；使用关系数据作为时空信息注入模块的输入最高识别率达到93.01％，最低识别率为90.81％；与不注入时空特征的原始结果进行对比后可得出结论，使用原始数据效果更好，但稳定性差，使用关系数据效果较好，稳定性较好；

由图5可知，如果只注入时空特征1进行特征提取，最后的准确率只有86.76％，只注入时空特征2进行特征提取准确率为91.18％，通过和其他实验进行对比，可知单独使用时空特征1或时空特征2来补充时空结构信息损失效果甚至不如未注入时空信息，其中只注入时空特征1的效果甚至低了约5％，这是因为只使用时空特征1或2的任意一个并不能将点与点之间的关系结合；而通过聚合时空特征1和2，则形成表征点云各点间代表时空结构的特征向量，弥补了使用点云序列而损失的时空结构信息，通过实验也证明了网络模型结构和理论的合理性。

使用MSR Action3D小数据集得出结果后，开始对NTU RGB+d120和NTU RGB+d60大数据集进行实验，首先使用原始数据作为时空信息注入模块的输入在NTU大数据集上进行实验，但是效果不佳；改用关系数据作为时空信息注入模块的输入，记录结果如表4所示；

表4 NTU RGB+d60/120上的实验过程

由表4结果可知，经过时空信息注入后的网络准确率最高提升0.22％，并且在NTURGB+d120大数据集也有较高的准确率，这也直接证明了时空信息注入的合理性和可行性；通过NTU RGB+d60大数据集的实验，可得出结论，本发明方法对于人体行为识别的分类具有更高的准确率。

NTU RGB+d60数据集：首先比较本发明方法和NTU RGB+d60数据集上的最先进的方法，NTU RGB+d60数据集是一种大规模的室内人类活动数据集，如表5所示，本发明方法的准确率达到了97.8％，本发明方法显示了与其他方法在NTU RGB+d60数据集上具有更好的性能。

表5 NTU RGB+D60上的行为识别准确率

NTU RGB+d120数据集：然后本发明方法与NTU RGB+d120数据集上的最先进的方法进行比较；NTU RGB+d120数据集是用于3D动作识别的最大数据集，与NTU RGB+d60数据集相比，在NTU RGB+d120数据集上进行三维人体动作识别更具挑战性；如表6所示，本发明方法的准确率为95.3％，在NTU RGB+d120数据集上，本发明方法显示了与其他方法在NTU RGB+d120数据集上相比具有更好的性能。

表6 NTU RGB+D120上的行为识别准确率

MSR Action3D数据集：为了综合评价本发明方法的方法，在小型MSR Action3D数据集上进行了对比实验，为了缓解小尺度数据集上的过拟合问题，将批量大小设置为8，其他参数设置与两个大规模数据集上的设置相同，表7展示了不同方法的识别精度，本发明方法显示了与其他方法在MSR Action3D数据集上有更好的性能。

表7 MSR-ACTION3D上的行为识别准确率

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种跨模态三维点云序列时空特征网络的行为识别方法，其特征在于，包括以下步骤：

采集人体深度数据，通过坐标转换将深度图跨模态转换成点云序列；

将每一帧点云序列输入由时空建模模块和时空信息注入模块构成的跨模态三维点云序列时空特征网络，得到带有时序信息的特征向量序列和空间结构信息特征向量序列，进行拼接作为全连接层的输入，并通过分类器进行人类行为识别。

2.如权利要求1所述的跨模态三维点云序列时空特征网络的行为识别方法，其特征在于：所述时空建模模块由两个抽象操作层、两组多层感知机和最大池化层组成。

3.如权利要求2所述的跨模态三维点云序列时空特征网络的行为识别方法，其特征在于：所述抽象操作层由采样层、分组层、通道注意力、空间注意力和Pointnet层组成；

采样层使用FPS从点集中选择n_m个点作为质心；

分组层将n_m-1×(d+c_m-1)维的点集和一组大小为n_m×d的质心坐标作为输入，输出为n_m组大小为n_m×k_m×(d+c_m-1)的点集群；

通道注意力和空间注意力层将局部区域内点的坐标转换成相对于质心点的局部坐标系；将每个局部点与质心之间的距离作为1维的附加点特征；利用特征间注意机制优化不同特征的融合效果，公式如下：

其中，

表示第t个点云框架第j个区域第i个点的坐标，

和

分别是对应于

的质心点坐标和对点特征，

是

和

和⊙是串联运算和点积运算，

为第t个点云框架第j个区域经过通道空间注意力层后的区域特征；

Pointnet层，由一组mlp和一个最大池操作组成。

4.如权利要求1所述的跨模态三维点云序列时空特征网络的行为识别方法，其特征在于：所述时空信息注入模块包括：时序信息注入模块和空间信息注入模块。

5.如权利要求4所述的跨模态三维点云序列时空特征网络的行为识别方法，其特征在于：所述时序信息注入模块对人体动作的时间信息进行编码，使用时间位置嵌入层、共享MLPS层和分层金字塔最大池化层；经过时间位置嵌入层后，将顺序信息嵌入到空间信息序列中；对每个特征向量应用一组MLPS；生成一个更新的特征向量序列；使用Two-MAX对多个特征向量进行聚合，将向量序列

对等数量的点云帧进行多个时间分区，然后对每个分区进行max pooling操作，生成相应的描述符；使用三个分区两层金字塔的分层金字塔最大池策略；将所有时间分区的描述符连接起来，形成人类行为的序列级特征E。

6.如权利要求5所述的跨模态三维点云序列时空特征网络的行为识别方法，其特征在于：所述时间位置嵌入层使用不同频率的正弦和余弦函数作为时间位置编码，公式如下：

其中，

是经过时间位置嵌入后的新的特征向量；

然后，得到一个新的特征向量序列

7.如权利要求1所述的跨模态三维点云序列时空特征网络的行为识别方法，其特征在于，所述时序信息的特征向量序列包括：提取人体动作区级特征M、人体动作帧级特征N和将人类行为的序列级特征E，将E、M和N进行连接并输出时序特征P；其中，区级特征M和帧级特征N提取公式如下：

其中，

是通过第二组抽象操作生成的抽象特征。

8.如权利要求4所述的跨模态三维点云序列时空特征网络的行为识别方法，其特征在于：所述空间信息注入模块是经过时序信息注入后通过聚类生成带有时序信息的三维向量关系序列，三维向量关系序列同一组随机张量共同进入点间注意力机制模块，通过点间注意力机制学习点云数据点与点之间的结构关系，并生成表征点云数据空间结构关系的点间关系矩阵。

9.如权利要求8所述的跨模态三维点云序列时空特征网络的行为识别方法，其特征在于：所述点间注意力机制由一组MLPS和softmax组成，生成点间关系矩阵，公式为：

F_s＝MAX{MLP(R,E)} (8)

其中，

为经过时序信息注入后生成的三维向量关系序列。