CN114973418A - 一种跨模态三维点云序列时空特征网络的行为识别方法 - Google Patents
一种跨模态三维点云序列时空特征网络的行为识别方法 Download PDFInfo
- Publication number
- CN114973418A CN114973418A CN202210652520.5A CN202210652520A CN114973418A CN 114973418 A CN114973418 A CN 114973418A CN 202210652520 A CN202210652520 A CN 202210652520A CN 114973418 A CN114973418 A CN 114973418A
- Authority
- CN
- China
- Prior art keywords
- sequence
- time
- space
- point cloud
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Graphics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及神经网络技术领域,尤其涉及一种跨模态三维点云序列时空特征网络的行为识别方法,包括:通过坐标转换将深度图跨模态转换成点云序列;将每一帧点云序列输入由时空建模模块和时空信息注入模块构成的跨模态三维点云序列时空特征网络,得到带有时序信息的特征向量序列和空间结构信息特征向量序列,进行拼接作为全连接层的输入,并通过分类器进行人类行为识别。本发明通过抽象操作中加入了通道注意力和空间注意力层;并设计了时空建模模块和时空信息注入模块;通过时空信息注入模块为特征序列注入时间和空间特征信息以此加强时空维度的信息表征来弥补FPS带来的信息损失。
Description
技术领域
本发明涉及神经网络技术领域,尤其涉及一种跨模态三维点云序列时空特征网络的行为识别方法。
背景技术
随着计算机视觉不断发展,行为识别在视频监控和人机交互等诸多领域中展现出其广泛的应用前景和研究价值;利用深度图序列进行人体行为识别是机器视觉和人工智能中的一个重要研究领域,广泛使用的深度图序列尽管可以提供深度信息,但数据冗余量大,行为数据的时空结构信息大量丧失,点云的出现弥补了深度图数据的劣势,点云就是分布在三维空间中的离散点集,它对复杂场景以及物体的外形表达具有独特的优势,但由于点云分布不规则且无序的性质,在点云上应用深度学习是不容易的。
目前,点云学习可分为基于体积的方法和基于点的方法:
(1)基于体积的方法:基于体积的方法通常将点云体素化成三维网格,然后将三维卷积神经网络应用于空间表示进行分类。
(2)基于点的方法:基于点的方法直接在原始点云上执行,PointNet的核心思想是利用一组多层感知器抽象每个点来学习其对应的空间编码,然后通过一个对称函数将所有单独的点特征集合起来得到一个全局的点云特征,但是PointNet缺乏了对局部特征的提取及处理,而且现实场景中的点云往往是疏密不同的,而Pointnet是基于均匀采样的点云进行训练的,导致了其在实际场景点云中的准确率下降;
因此现有技术中提出一个分层网络PointNet++,点集的特征提取由三部分组成,分别为采样层、分组层和基于点网的学习层三层,这三个层构成一个抽象层,PointNet++由几个抽象级别集合组成,PointNet++通过几个抽象层的层级结构逐步利用局部区域信息学习特征,网络结构更有效更鲁棒;虽然pointnet++通过抽象操作可以很好的提取局部特征,一步步增加感受野,但pointnet++在进行抽象操作的同时,最远距离采样(FPS)也会减少外轮廓点的数量,这不可避免地损失了原来点云数据的时空信息。
发明内容
针对深度图的不足,本发明保留pointnet++强大的局部特征提取能力的同时弥补丢失的时空特征信息,通过抽象操作中加入了通道注意力和空间注意力层;并设计了时空建模模块和时空信息注入模块,在时空建模模块加入通道注意力和空间注意力来加强时空建模模块抓取重要特征的能力,再通过时空信息注入模块为特征序列注入时间和空间特征信息以此加强时空维度的信息表征来弥补FPS带来的信息损失。
本发明所采用的技术方案是:一种跨模态三维点云序列时空特征网络的行为识别方法包括以下步骤:
S1、采集人体深度数据,通过坐标转换将深度图跨模态转换成点云序列;
S2、将每一帧点云序列输入由时空建模模块和时空信息注入模块构成的跨模态三维点云序列时空特征网络,得到带有时序信息的特征向量序列和空间结构信息特征向量序列,进行拼接作为全连接层的输入,并通过分类器进行人类行为识别。
进一步的,所述时空建模模块由两个抽象操作层、两组多层感知机和最大池化层组成。
进一步的,抽象操作层由采样层、分组层、通道注意力、空间注意力和Pointnet层组成,点云序列输入抽象操作层,输入为(T,nm,d+ci)维;
采样层使用最远点采样(FPS)从点集中选择nm个点作为质心;
分组层将nm-1×(d+cm-1)维的点集和一组大小为nm×d的质心坐标作为输入,输出为nm组大小为nm×km×(d+cm-1)的点集群;其中,每组对应一个局部区域,km表示质心点的邻域内局部点的个数,通过球半径查询方法来查找在半径范围内的所有点,在该半径范围内设置km为上限;
通道注意力和空间注意力层的输入是数据大小为nm×km×(d+cm-1)维的nm个点的局部区域;
首先,将局部区域内点的坐标转换成相对于质心点的局部坐标系;其次,将每个局部点与质心之间的距离作为1维的附加点特征;然后,利用特征间注意机制优化不同特征的融合效果,其表现形式如下:
其中,表示第t个点云框架第j个区域第i个点的坐标,和分别是对应于的质心点坐标和对点特征,是和之间的欧几里得距离,A为注意机制,每个点对应的坐标和特征得分为(3+1+cm-1)维,A中的注意力得分由所有点云帧中的所有局部点共享,和⊙是串联运算和点积运算,为第t个点云框架第j个区域经过通道空间注意力层后的区域特征。
通道注意力模块同时使用平均池化和最大池化后的点云特征,然后依次送入一个共享权重的多层感知机中,最后输出的特征向量进行合并;
空间注意力通过最大池化和平均池化各获得一张特征图,而后拼接成一张2D特征图,再送入标准7X7卷积进行参数学习,最终得到一张1D的权重特征图;
最后,通过一组多层感知机和最大池化层表征整个点云框架的时空信息。
进一步的,时空信息注入模块包括:时序信息注入模块和空间信息注入模块;输入每一帧的点云序列,输出对应帧的静态外观时空特征向量以表征时空结构信息,通过时空信息注入模块给所有帧的静态外观时空特征加入时序信息和空间尺度信息。
进一步的,时序信息注入模块首先对人体动作的时间信息进行编码,使用时间位置嵌入层、共享MLPS层和分层金字塔最大池化层,时间位置嵌入层利用特征向量序列的顺序注入时间位置信息,共享的MLPS层对每个独立的特征向量执行一组MLPS,以提取每个点云框架的时空信息,采用分层金字塔最大池化层在多个时间尺度上提取序列空间信息;
进一步的,时间位置嵌入层使用不同频率的正弦和余弦函数作为时间位置编码:
其中,dsout表示特征向量的维数,t是时间位置,而h是维度位置;通过添加位置编码更新特征向量,如下所示:
经过时间位置嵌入层后,将顺序信息简单地嵌入到空间信息序列中,为了进一步提取时空信息,对每个特征向量应用一组MLPS,公式为:
使用分层金字塔最大池化层(Two-MAX)对多个特征向量进行聚合,将向量序列对等数量的点云帧进行多个时间分区,然后对每个分区进行max pooling操作,生成相应的描述符;使用三个分区两层金字塔的分层金字塔最大池策略;最后,将所有时间分区的描述符连接起来,形成人类行为的序列级特征E。
进一步的,时序信息的特征向量序列包括:提取人体动作区级特征M和人体动作帧级特征N,将E、M和N进行连接并输出时序特征P;其中,区级特征M和帧级特征N提取公式如下:
进一步的,在时空信息注入模块中经过时序信息注入后通过聚类生成带有时序信息的三维向量关系序列,三维向量关系序列同一组随机张量共同进入点间注意力机制模块,通过点间注意力机制学习点云数据点与点之间的结构关系,并生成表征点云数据空间结构关系的点间关系矩阵;
进一步的,点间注意力机制由一组MLPS和softmax组成,生成点间关系矩阵,公式为:
Fs=MAX{MLP(R,E)} (8)
其中,Fs表示生成的专注于表示空间结构信息的空间特征向量序列,R表示随机张量,E为人类行为的序列级特征;
将点间关系与点云序列数据各点相结合,生成空间结构信息特征Ff公式为:
进一步的,将带有时序信息的特征向量序列P和空间结构信息特征向量序列Ff进行拼接作为全连接层的输入Q,然后通过分类器进行人类动作识别,公式如下:
本发明的有益效果:
1、针对pointnet++的局限性,构造了时空信息注入模块,为静态点云序列注入动态时序信息;
2、将多尺度的人体运动特征数据和时空特征数据进行了融合,使得行为数据的空间结构信息和时间变化规律得到了充分的利用;
3、提出了跨模态三维点云序列时空特征网络,将深度信息跨模态转换为点云帧序列以捕捉复杂的时空结构,弥补了深度图数据的不足。
附图说明
图1是本发明的跨模态三维点云序列时空特征网络的行为识别方法结构框图;
图2是本发明的时空建模模块示意图;
图3是本发明的时空信息注入模块示意图;
图4是本发明的不同数据输入对于识别率的差异;
图5是本发明的不同特征融合方式对于识别率的差异。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,此图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
为了评估本发明方法的有效性,在基于深度图的公共数据集上进行实验;大型公共数据集能够为模型提供更广泛的训练数据,使模型更强壮;为了验证本发明方法的鲁棒性,在数据集的选择上也采用了经典的小型数据集,因此,选取几个具有截然不同规模的数据集上进行了实验:MSR Action3D和NTU-RGB+D。
本发明是基于PyTorch框架建立的,其中Python版本为3.7.0,pytorch版本为1.10.1;本实验的硬件平台为台式机,其中,主板是微星B460M MORTAR,CPU是Intel i710700,主频为2.9GHz,内存是16GB,操作系统是Windows 10专业版,GPU资源NVIDIA TeslaV100,显存32GB;实验用到的软件工具为PyCharm,Anaconda3。
MSR Action3D数据集记录了人体动作序列,共包含20个动作类型,10个被试者,每个被试者执行每个动作2或3次,总共有567个深度图序列,分辨率为640x240,用类似于Kinect装置的深度传感器记录数据,将受试人编号为1,3,5,7,9的动作序列被用来做训练集,其余的用来做测试集。
NTU RGB+D属于大型数据集,并且提供更具有挑战性的动作样本和更多的模态信息;NTU RGB+D数据集一共包括56880个动作样本,并且使用固定不同位置的采集设备为每个样本提供从三个视角捕获的RGB、深度图、骨架序列和红外辐射视频四种数据;包括60个动作类别,每个动作类别由40名受试人完成1-2次;与MSR Action3D采集方式不同,NTU RGB+D提供采集设备在不同水平高度和距离采集的17种多视角、多模态的数据;首先将采集设备中不同视角的相机分成两组,其中相机编号为2和3采集的37920个动作序列作为训练集,相机编号为1采集的18960个动作序列作为测试集。
如图1所示,跨模态三维点云序列时空特征网络的行为识别方法,包括以下步骤:
图1中网络结构由时空建模模块和时空信息注入模块组成,在时空建模模块中,输入每一帧的点云集,输出对应帧的静态外观时空特征向量以表征时空结构信息;通过时空信息注入模块给所有帧的静态外观时空特征加入时序信息和空间尺度信息;之后将多尺度的人体运动特征数据和时空特征数据有效融合并利用全连接神经网络进行动作分类识别。
S1、采集人体深度图数据,通过坐标转换将深度图跨模态转换成点云序列;
S2、将每一帧点云序列输入由时空建模模块和时空信息注入模块构成的跨模态三维点云序列时空特征网络,得到带有时序信息的特征向量序列和空间结构信息特征向量序列,进行简单的拼接作为全连接层的输入,并进行人类行为识别,时空信息注入模块包括:时序信息注入模块和空间信息注入模块;
如图2为时空建模模块,进一步的,时空建模模块由两个抽象操作层、两组多层感知机和最大池化层组成;
进一步的,抽象操作层由采样层、分组层、通道注意力、空间注意力和Pointnet层组成,点云序列输入抽象操作层,输入为(T,nm,d+ci)维,d设置为3对应每个点的(x,y,z)三维坐标,ci代表进ci维的点特征,c1设置为0;
在采样层,使用最远点采样(FPS)从点集中选择nm个点作为质心。
在分组层,将nm-1×(d+cm-1)维的点集和一组大小为nm×d的质心坐标作为输入,输出为nm组大小为nm×km×(d+cm-1)的点集群;其中,每组对应一个局部区域,km表示质心点的邻域内局部点的个数,通过球半径查询方法来查找在半径范围内的所有点,在该半径范围内设置km为上限。
在通道注意力层和空间注意力层,使用通道注意力和空间注意力沿着通道和空间两个维度进行注意力权重学习,对点云特征进行自适应调整,获取重要特征,压缩不重要特征,表征每一帧人体行为静态外观的时间信息和空间结构,通道注意力层和空间注意力层的输入是数据大小为nm×km×(d+cm-1)维的nm个点的局部区域;
首先,将局部区域内点的坐标转换成相对于质心点的局部坐标系;其次,将每个局部点与质心之间的距离作为1维的附加点特征,以缓解旋转运动对动作识别的影响;然后,利用特征间注意机制优化不同特征的融合效果,其表现形式如下:
其中,表示第t个点云框架第j个区域第i个点的坐标,和分别是对应于的质心点坐标和对点特征,是和之间的欧几里得距离,A为注意机制,每个点对应的坐标和特征得分为(3+1+cm-1)维,A中的注意力得分由所有点云帧中的所有局部点共享,和⊙是串联运算和点积运算,为第t个点云框架第j个区域经过通道、空间注意力层后的区域特征。
通道注意力:通道注意力模块同时使用平均池化和最大池化后的点云特征,然后将它们依次送入一个共享权重的多层感知机中,最后输出的特征向量进行合并,为了有效计算通道注意力,需要对输入特征图的空间维度进行压缩,对于空间信息的聚合,常用的方法是平均池化,另外最大池化可以收集到难区分物体之间更重要的线索,来获得更详细的通道注意力,所以平均池化和最大池化的特征是同时使用的。
空间注意力:空间注意力主要聚焦于哪部分的有效信息较丰富,这是对通道注意力的补充,通过最大池化和平均池化各获得一张特征图,而后将他们拼接成一张2D特征图,再送入标准7X7卷积进行参数学习,最终得到一张1D的权重特征图,该图编码了需要关注或压制的位置,从空间的角度来看,通道注意力是全局的,而空间注意力是局部的。
Pointnet层由一组MLP和一个最大池化操作组成,利用最大池化操作结合所有局部点的抽象特征生成局部区域的表示,最后,将质心点的坐标及其局部区域表示连接为质心点的抽象特征向量序列其中,ft为输入的每帧点云St对应的输出每帧特征。
最后,通过一组多层感知机(MLPs)和最大池化层表征整个点云框架的时空信息。
进一步的,输入每一帧的点云序列,输出对应帧的静态外观时空特征向量以表征时空结构信息,通过时空信息注入模块给所有帧的静态外观时空特征加入时序信息和空间尺度信息;
通过时空信息注入模块对点云序列进行额外时空结构信息的注入,包括时序信息注入和空间信息注入:
如图1和3所示的时序信息注入模块,首先对人体动作的时间信息进行编码,使用时间位置嵌入层、共享MLPS层和分层金字塔最大池化层,时间位置嵌入层利用特征向量序列的顺序注入时间位置信息,共享的MLPS层对每个独立的特征向量执行一组MLPS,以提取每个点云框架的时空信息,采用分层金字塔最大池化层在多个时间尺度上提取序列空间信息。
时间位置嵌入层使用不同频率的正弦和余弦函数作为时间位置编码:
其中,dsout表示特征向量的维数,t是时间位置,而h是维度位置;通过添加位置编码更新特征向量,如下所示:
经过时间位置嵌入层后,将顺序信息简单地嵌入到空间信息序列中,为了进一步提取时空信息,对每个特征向量应用一组MLPS,公式为:
使用分层金字塔最大池化层(Two-MAX)对多个特征向量进行聚合,为了捕获点云序列内的子动作,编码更有鉴别性的运动信息,提出分层金字塔最大池化策略:将特征向量序列对等数量的点云帧进行多个时间分区,然后对每个分区进行max pooling操作,生成相应的描述符;本实施例中使用三个分区两层金字塔的分层金字塔最大池策略;最后,来自所有时间分区的描述符被简单地连接起来,形成人类行为的序列级特征E。
为了获得更充足的人体运动时空信息,从不同阶段整合人体动作特征,为此,提取了区级特征M和帧级特征N,提取方法如下:
进一步的,如图3然后进行空间信息的注入,在时空信息注入模块中经过时序信息注入后通过聚类生成带有时序信息的三维向量关系序列,三维向量关系序列同一组随机张量共同进入点间注意力机制模块,通过点间注意力机制学习点云数据点与点之间的结构关系,并生成表征点云数据空间结构关系的点间关系矩阵。
随机张量能够更好地进行点云深度学习,让网络自主的学习到更适合表征数据空间结构的关系矩阵,本实施例采用一组设定好大小但数据随机的张量集,张量是一种强大的表示方向和空间的方法,通过张量不仅能更好的表示数据的空间结构信息,也能加快网络的运行速度。
点间注意力机制由一组MLPS和softmax组成,MLP可以很好地学习到点云数据中更关键点的时空信息,再经过softmax层转换成权重系数,即生成了可以用随机张量来表征各点间空间结构关系的关系矩阵,其表现形式如下:
Fs=MAX{MLP(R,E)} (8)
其中,Fs表示生成的专注于表示空间结构信息的空间特征向量序列(时空特征1),R表示随机张量,E为人类行为的序列级特征。
进一步的,为了将点间关系与点云序列数据各点相结合,生成空间结构信息特征Ff公式为:
再将带有时序信息的特征向量序列P和空间结构信息特征向量序列Ff进行简单的拼接作为全连接层的输入Q,然后通过分类器进行人类动作识别,公式如下:
实验过程如下:
从点云集合中采样512个点作为点云框架,首先从点云集合中随机抽取2048个点,然后,利用PFS算法从2048个点中选取512个点,在时空建模模块中,对每个点云框架进行两次集合抽象操作,对时空结构进行建模,在第一个集合抽象操作中,选择128个质心来确定点组,组半径设置为0.06,每个点组中的点数设置为48;在第二组抽象操作中,选择32个质心来确定点组,组半径设置为0.1,每个点组的点数设置为16,如表1所示,在进行提取空间结构信息前,首先使用聚类生成三维向量关系序列,聚类半径设置为20,在进行提取空间结构信息时,随机张量大小设置为(8,64,64),dropout设置为0.5,其中为了防止NTU RGB+d120数据集过大而导致的过拟合,在测试NTU RGB+d120数据集时将dropout设置为0.8,如表2所示,对训练数据采用3DV-PointNet++中相同的数据增强策略,包括Y、X轴随机旋转、抖动、随机点dropout;用Adam作为优化器,学习速率从0.001开始,每10个epoch以0.5的速率衰减。
表1时空建模实验设置表
表2时空信息注入实验设置表
由于本实验使用的数据为跨模态点云序列,虽然已经通过时空建模模块进行了空间的建模使之具备了时空上的结构特征,但是点云序列的有序性上的破坏不可避免的会导致部分的空间结构信息的损失,所以使用时空信息注入模块对特征序列进行特征补充;对了探索哪种数据更有利于空间信息的提取和不同数据提取方式对识别率的效果,进行了不同的实验进行对比寻找最适合的实验方法。
首先使用MSR Action3D小数据集进行实验,使用两种不同的数据作为时空信息注入模块的输入,一种三维点云数据为原始三维点云数据,即为抽象操作之前的三维点云数据;另一种三维点云数据为经过位置编码,已经进行时空建模后通过聚类生成的三维向量关系序列(以下称为原始数据和关系数据),之后进行多次实验并记录下最后的实验结果,如表3所示,数据对比图如图4,特征注入对比图如图5;
表3 MSR-ACTION3D上的实验过程
由图4可以看出,使用原始数据作为时空信息注入模块的输入最高识别率可达到93.75%,但最低一次识别率只有89.71%;使用关系数据作为时空信息注入模块的输入最高识别率达到93.01%,最低识别率为90.81%;与不注入时空特征的原始结果进行对比后可得出结论,使用原始数据效果更好,但稳定性差,使用关系数据效果较好,稳定性较好;
由图5可知,如果只注入时空特征1进行特征提取,最后的准确率只有86.76%,只注入时空特征2进行特征提取准确率为91.18%,通过和其他实验进行对比,可知单独使用时空特征1或时空特征2来补充时空结构信息损失效果甚至不如未注入时空信息,其中只注入时空特征1的效果甚至低了约5%,这是因为只使用时空特征1或2的任意一个并不能将点与点之间的关系结合;而通过聚合时空特征1和2,则形成表征点云各点间代表时空结构的特征向量,弥补了使用点云序列而损失的时空结构信息,通过实验也证明了网络模型结构和理论的合理性。
使用MSR Action3D小数据集得出结果后,开始对NTU RGB+d120和NTU RGB+d60大数据集进行实验,首先使用原始数据作为时空信息注入模块的输入在NTU大数据集上进行实验,但是效果不佳;改用关系数据作为时空信息注入模块的输入,记录结果如表4所示;
表4 NTU RGB+d60/120上的实验过程
由表4结果可知,经过时空信息注入后的网络准确率最高提升0.22%,并且在NTURGB+d120大数据集也有较高的准确率,这也直接证明了时空信息注入的合理性和可行性;通过NTU RGB+d60大数据集的实验,可得出结论,本发明方法对于人体行为识别的分类具有更高的准确率。
NTU RGB+d60数据集:首先比较本发明方法和NTU RGB+d60数据集上的最先进的方法,NTU RGB+d60数据集是一种大规模的室内人类活动数据集,如表5所示,本发明方法的准确率达到了97.8%,本发明方法显示了与其他方法在NTU RGB+d60数据集上具有更好的性能。
表5 NTU RGB+D60上的行为识别准确率
NTU RGB+d120数据集:然后本发明方法与NTU RGB+d120数据集上的最先进的方法进行比较;NTU RGB+d120数据集是用于3D动作识别的最大数据集,与NTU RGB+d60数据集相比,在NTU RGB+d120数据集上进行三维人体动作识别更具挑战性;如表6所示,本发明方法的准确率为95.3%,在NTU RGB+d120数据集上,本发明方法显示了与其他方法在NTU RGB+d120数据集上相比具有更好的性能。
表6 NTU RGB+D120上的行为识别准确率
MSR Action3D数据集:为了综合评价本发明方法的方法,在小型MSR Action3D数据集上进行了对比实验,为了缓解小尺度数据集上的过拟合问题,将批量大小设置为8,其他参数设置与两个大规模数据集上的设置相同,表7展示了不同方法的识别精度,本发明方法显示了与其他方法在MSR Action3D数据集上有更好的性能。
表7 MSR-ACTION3D上的行为识别准确率
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (9)
1.一种跨模态三维点云序列时空特征网络的行为识别方法,其特征在于,包括以下步骤:
采集人体深度数据,通过坐标转换将深度图跨模态转换成点云序列;
将每一帧点云序列输入由时空建模模块和时空信息注入模块构成的跨模态三维点云序列时空特征网络,得到带有时序信息的特征向量序列和空间结构信息特征向量序列,进行拼接作为全连接层的输入,并通过分类器进行人类行为识别。
2.如权利要求1所述的跨模态三维点云序列时空特征网络的行为识别方法,其特征在于:所述时空建模模块由两个抽象操作层、两组多层感知机和最大池化层组成。
3.如权利要求2所述的跨模态三维点云序列时空特征网络的行为识别方法,其特征在于:所述抽象操作层由采样层、分组层、通道注意力、空间注意力和Pointnet层组成;
采样层使用FPS从点集中选择nm个点作为质心;
分组层将nm-1×(d+cm-1)维的点集和一组大小为nm×d的质心坐标作为输入,输出为nm组大小为nm×km×(d+cm-1)的点集群;
通道注意力和空间注意力层将局部区域内点的坐标转换成相对于质心点的局部坐标系;将每个局部点与质心之间的距离作为1维的附加点特征;利用特征间注意机制优化不同特征的融合效果,公式如下:
其中,表示第t个点云框架第j个区域第i个点的坐标,和分别是对应于的质心点坐标和对点特征,是和之间的欧几里得距离,A为注意机制,每个点对应的坐标和特征得分为(3+1+cm-1)维,A中的注意力得分由所有点云帧中的所有局部点共享,和⊙是串联运算和点积运算,为第t个点云框架第j个区域经过通道空间注意力层后的区域特征;
Pointnet层,由一组mlp和一个最大池操作组成。
4.如权利要求1所述的跨模态三维点云序列时空特征网络的行为识别方法,其特征在于:所述时空信息注入模块包括:时序信息注入模块和空间信息注入模块。
8.如权利要求4所述的跨模态三维点云序列时空特征网络的行为识别方法,其特征在于:所述空间信息注入模块是经过时序信息注入后通过聚类生成带有时序信息的三维向量关系序列,三维向量关系序列同一组随机张量共同进入点间注意力机制模块,通过点间注意力机制学习点云数据点与点之间的结构关系,并生成表征点云数据空间结构关系的点间关系矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210652520.5A CN114973418A (zh) | 2022-06-09 | 2022-06-09 | 一种跨模态三维点云序列时空特征网络的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210652520.5A CN114973418A (zh) | 2022-06-09 | 2022-06-09 | 一种跨模态三维点云序列时空特征网络的行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114973418A true CN114973418A (zh) | 2022-08-30 |
Family
ID=82962151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210652520.5A Pending CN114973418A (zh) | 2022-06-09 | 2022-06-09 | 一种跨模态三维点云序列时空特征网络的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973418A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778576A (zh) * | 2023-06-05 | 2023-09-19 | 吉林农业科技学院 | 基于骨架的时序动作分割的时空图变换网络 |
CN117746511A (zh) * | 2024-02-19 | 2024-03-22 | 河海大学 | 一种用于三维动作识别的分层点云序列学习方法 |
-
2022
- 2022-06-09 CN CN202210652520.5A patent/CN114973418A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778576A (zh) * | 2023-06-05 | 2023-09-19 | 吉林农业科技学院 | 基于骨架的时序动作分割的时空图变换网络 |
CN117746511A (zh) * | 2024-02-19 | 2024-03-22 | 河海大学 | 一种用于三维动作识别的分层点云序列学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
CN111310707B (zh) | 基于骨骼的图注意力网络动作识别方法及系统 | |
CN107229757B (zh) | 基于深度学习和哈希编码的视频检索方法 | |
Hong et al. | Multimodal deep autoencoder for human pose recovery | |
CN111625667A (zh) | 一种基于复杂背景图像的三维模型跨域检索方法及系统 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN114973418A (zh) | 一种跨模态三维点云序列时空特征网络的行为识别方法 | |
CN111652974B (zh) | 三维人脸模型的构建方法、装置、设备及存储介质 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN114332573A (zh) | 基于注意力机制的多模态信息融合识别方法及系统 | |
Das et al. | Deep-temporal lstm for daily living action recognition | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN111401116A (zh) | 基于增强卷积和空时lstm网络的双模态情感识别方法 | |
CN110598595A (zh) | 一种基于人脸关键点和姿态的多属性人脸生成算法 | |
Zhuang et al. | Appearance-based gaze estimation using separable convolution neural networks | |
Das et al. | A fusion of appearance based CNNs and temporal evolution of skeleton with LSTM for daily living action recognition | |
Wani et al. | Deep learning-based video action recognition: a review | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
CN112199994A (zh) | 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置 | |
Sang et al. | Image recognition based on multiscale pooling deep convolution neural networks | |
Naveenkumar et al. | Spatio temporal joint distance maps for skeleton-based action recognition using convolutional neural networks | |
Zhou et al. | Regional Self-Attention Convolutional Neural Network for Facial Expression Recognition | |
CN114782992A (zh) | 一种超关节与多模态网络及其在行为识别方法 | |
Du | The computer vision simulation of athlete’s wrong actions recognition model based on artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |