CN116434339B - 基于骨架数据时空特征差异性和相关性的行为识别方法 - Google Patents

基于骨架数据时空特征差异性和相关性的行为识别方法 Download PDF

Info

Publication number
CN116434339B
CN116434339B CN202310399333.5A CN202310399333A CN116434339B CN 116434339 B CN116434339 B CN 116434339B CN 202310399333 A CN202310399333 A CN 202310399333A CN 116434339 B CN116434339 B CN 116434339B
Authority
CN
China
Prior art keywords
feature
skeleton
data
channel
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310399333.5A
Other languages
English (en)
Other versions
CN116434339A (zh
Inventor
蒋敏
卿入心
孔军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202310399333.5A priority Critical patent/CN116434339B/zh
Publication of CN116434339A publication Critical patent/CN116434339A/zh
Application granted granted Critical
Publication of CN116434339B publication Critical patent/CN116434339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于骨架数据时空特征差异性和相关性的行为识别方法,涉及计算机视觉领域,该方法搭建的行为识别模块中包含空间图卷积模块和时间图卷积模块,空间图卷积模块包括时间特征学习单元、通道特征学习单元和时间通道上下文拓扑单元,时间特征学习单元和通道特征学习单元用于分别独立地学习时间帧维度和通道维度中关节之间的特征差异性和特征相关性,学习协同完成动作的关节之间特征的相关性,也学习因为运动发生而发生变化部分关节的特征差异性,时间通道上下文拓扑单元学习所有关节的全局上下文特征信息,获取更多具有判别性的特征,融合后可以更有效地人体行为识别。

Description

基于骨架数据时空特征差异性和相关性的行为识别方法
技术领域
本申请涉及计算机视觉领域,尤其是一种基于骨架数据时空特征差异性和相关性的行为识别方法。
背景技术
人体的骨架数据是一种自然的拓扑数据结构,能够更好地反映时空信息和人体运动特征,因此基于人体的骨架数据的行为识别近年来受到越来越多的关注和研究。
传统方法利用卷积神经网络CNNs-based的方法和基于循环神经网络RNNs-based的方法来基于骨架数据进行行为识别,识别效果较差。图卷积网络GCNs在任意图结构上都具有良好的性能,因此更多的学者将其用于基于骨架数据的行为识别,Yan等人首次提出ST-GCN,即Spatial-Temporal GCN将GCN应用于基于骨架数据的行为识别,相较于传统方法有一定的性能提升。但是由于骨架数据较为特殊,有一些没有物理连接的关节部分对行为识别有很强的影响,还有一些关节对行为识别的作用又较弱,所以即便是ST-GCN的行为识别的效果也不够理想。
发明内容
本申请人针对上述问题及技术需求,提出了一种基于骨架数据时空特征差异性和相关性的行为识别方法,本申请的技术方案如下:
一种基于骨架数据时空特征差异性和相关性的行为识别方法,该行为识别方法包括:
对多种行为动作的共N×M组样本骨架数据进行特征提取,得到每组样本骨架数据的骨架特征序列数据,每组样本骨架数据的骨架特征序列数据包括C个通道,每个通道包括所有V个关节在连续T个时间帧的关节骨骼特征数据;
将每组样本骨架数据的骨架特征序列数据作为行为识别模型的输入、样本骨架数据对应的行为动作作为行为识别模型的输出,利用所有样本骨架数据的骨架特征序列数据训练行为识别模型;
提取待识别的骨架数据的骨架特征序列数据并输入训练得到的行为识别模型,输出识别得到的行为动作;
其中,行为识别模型包括依次连接的空间图卷积模块、时间图卷积模块和分类模块,空间图卷积模块包括时间特征学习单元、通道特征学习单元和时间通道上下文拓扑单元,时间特征学习单元用于在时间帧维度学习输入的骨架特征序列数据的特征差异性和特征相关性得到特征YTFDCL,通道特征学习单元用于在通道维度学习输入的骨架特征序列数据的特征差异性和特征相关性得到特征YCFDCL,时间通道上下文拓扑单元用于动态学习输入的骨架特征序列数据的全局上下文特征得到特征YTCCT,空间图卷积模块输出对特征YTFDCL、特征YCFDCL和特征YTCCT融合后的空间特征Y;时间图卷积模块对空间特征Y提取时间特征信息后输入分类模块进行分类,输出识别得到的行为动作。
本申请的有益技术效果是:
本申请公开了一种基于骨架数据时空特征差异性和相关性的行为识别方法,该方法分别独立地学习时间帧维度和通道维度中关节之间的特征差异性和特征相关性,学习协同完成动作的关节之间特征的相关性,也学习因为运动发生而发生变化部分关节的特征差异性,且考虑到所有关节都参与了保持运动进程和身体平衡,重点加强在样本动作中具有高影响力的关节特征,并学习所有关节的全局上下文特征信息,获取更多具有判别性的特征,从而可以更有效地人体行为识别。
附图说明
图1是本申请一个实施例的行为识别方法的方法流程图。
图2是本申请一个实施例搭建的行为识别模型的网络结构图。
图3是本申请一个实施例中的空间图卷积模型的网络结构图。
图4是本申请一个实施例中的时间图卷积模块的网络结构图。
具体实施方式
下面结合附图对本申请的具体实施方式做进一步说明。
本申请公开了一种基于骨架数据时空特征差异性和相关性的行为识别方法,请参考图1所示的流程图,该行为识别方法包括如下步骤:
步骤S1,对多种行为动作的共N×M组样本骨架数据进行特征提取,得到每组样本骨架数据的骨架特征序列数据,N和M分别为参数,在常规应用中,一般以N表示样本骨架数据的批量数,M表示每个批量中包含的人体的数量。
通过姿态估算算法在人体的行为动作的视频中的各个时间帧提取关节点,即能得到一组样本骨架数据。采集各组样本骨架数据的数据形式包括深度信息、3D骨架信息、RGB帧以及红外序列。
对每组样本骨架数据提取到的骨架特征序列数据包括C个通道,每个通道包括所有V个关节在连续T个时间帧的关节骨骼特征数据,因此提取得到的每组样本骨架数据的骨架特征序列数据不同通道包含不同类型的动作特征,常见的关节骨骼特征数据一般以三维坐标系中的坐标来表示,则三个通道分别对应三维坐标系中的三个坐标轴,每个通道的关节骨骼特征数据是对应的一个坐标轴的坐标数据。
在一个实施例中,提取得到的每组样本骨架数据包括多种类型的骨架特征序列数据,包括关节特征序列数据、骨骼特征序列数据、关节运动特征序列数据和骨骼运动特征序列数据,分别介绍如下:
(1)提取样本骨架数据的任意一个通道中任意一个关节在每个时间帧上的坐标数据得到关节特征序列数据。比如任意关节i在时间帧t的三维坐标分别为(xi,t,yi,t,zi,t),三维坐标中的每个坐标数据分别对应一个通道。
(2)提取样本骨架数据的任意一个通道中任意一段骨骼在每个时间帧上的向量数据得到骨骼特征序列数据,每段骨骼的向量数据是骨骼的靠近人体骨架重心的源关节指向远离人体骨架重心的目标关节的向量。
比如任意骨骼ei,j的源关节为关节i且在时间帧t的三维坐标为(xi,t,yi,t,zi,t),该骨骼ei,j的目标关节为关节j且在时间帧t的三维坐标为(xj,t,yj,t,zj,t),则该骨骼ei,j在时间帧t的向量数据为(xj,t-xi,t,yj,t-yi,t,zj,t-zi,t),三维坐标中的每个坐标数据分别对应一个通道。
(3)提取样本骨架数据的任意一个通道中任意一个关节在任意一个时间帧上的坐标数据至关节在同一个通道的下一个时间帧上的坐标数据的移动向量,得到关节运动特征序列数据。
比如任意关节i在时间帧t的三维坐标分别为(xi,t,yi,t,zi,t),三维坐标中的每个坐标数据分别对应一个通道,该关节i在时间帧t+1的三维坐标为(xi,t+1,yi,t+1,zi,t+1),则该关节i在时间帧t的至时间帧t+1的移动向量为(xi,t+1-xi,t,yi,t+1-yi,t,zi,t+1-zi,t),移动向量的三维坐标中的每个坐标数据分别对应一个通道。
(4)提取样本骨架数据的任意一个通道中任意一段骨骼在任意一个时间帧上的向量数据至骨骼在同一个通道的下一个时间帧上的向量数据的移动向量,得到骨骼运动特征序列数据。
比如骨骼ei,j在时间帧t的向量数据ei,j(t)=(xj,t-xi,t,yj,t-yi,t,zj,t-zi,t),该骨骼ei,j在时间帧t+1的向量数据为ei,j(t+1)=(xj,t+1-xi,t+1,yj,t+1-yi,t+1,zj,t+1-zi,t+1),则骨骼ei,j在时间帧t的至时间帧t+1的移动向量为ei,j(t+1)-ei,j(t),同样的,得到的移动向量的三维坐标中的每个坐标数据分别对应一个通道。
步骤S2,搭建行为识别模型的模型结构,步骤S2和步骤S1没有特定的执行先后关系。
搭建的行为识别模型包括依次连接的空间图卷积模块、时间图卷积模块和分类模块,在一个实施例中,行为识别模型包括依次连接的多个自适应图卷积块,最后一个自适应图卷积块的输出连接分类模块,每个自适应图卷积块中包括依次连接的空间图卷积模块和时间图卷积模块。搭建的每个空间图卷积模块包括时间特征学习单元TFDCL、通道特征学习单元CFDCL和时间通道上下文拓扑单元TCCT。
在实际实现时,每个自适应图卷积块中,空间图卷积模块后还依次连接批标准化层BN和校正激活单元Relu,并经过Dropout层连接时间图卷积模块,时间图卷积模块后还依次连接批标准化层BN以及校正激活单元Relu。为了稳定训练,每个自适应图卷积块中还添加有残差连接,也即输入到每个自适应图卷积块的数据与待输出的数据进行残差连接。依次连接的多个自适应图卷积块的通道数逐渐增大,比如在一个实例中,行为识别模型包括依次连接的10个自适应图卷积块,10个自适应图卷积块的通道数分别为64,64,64,64,128,128,128,256,256,256,在第5个自适应图卷积块和第8个自适应图卷积块的时间图卷积模块中卷积操作步长为2,减少一半的卷积操作也减少一半的特征。分类模块包括依次连接的全局平均池化层(Global Average Pooling,GAP)和Softmax分类器。
步骤S3,将每组样本骨架数据的骨架特征序列数据F作为行为识别模型的输入、样本骨架数据对应的行为动作作为行为识别模型的输出,利用所有样本骨架数据的骨架特征序列数据训练行为识别模型。
时间特征学习单元TFDCL用于在时间帧维度学习输入的骨架特征序列数据F的特征差异性和特征相关性得到特征YTFDCL。通道特征学习单元CFDCL用于在通道维度学习输入的骨架特征序列数据F的特征差异性和特征相关性得到特征YCFDCL。时间通道上下文拓扑单元TCCT用于动态学习输入的骨架特征序列数据F的全局上下文特征得到特征YTCCT。空间图卷积模块输出对特征YTFDCL、特征YCFDCL和特征YTCCT融合后的空间特征Y。然后时间图卷积模块对空间特征Y提取时间特征信息后输入分类模块进行分类,输出识别得到的行为动作。则行为识别模型对输入的每组样本骨架数据的骨架特征序列数据F处理并输出识别得到的行为动作的方法包括:
空间图卷积模块的网络结构请参考图2,介绍如下:
(1)时间特征学习单元TFDCL学习输入的骨架特征序列数据F的特征差异性和特征相关性得到特征YTFDCL的方法包括:
利用第一时间卷积层作用于骨架特征序列数据F的时间帧维度进行卷积变换操作得到φ1(F),利用第二时间卷积层作用于骨架特征序列数据F的时间帧维度进行卷积变换操作得到φ2(F),第一时间卷积层和第二时间卷积层实现不同的卷积变换操作。对φ1(F)和φ2(F)在时间帧维度进行张量加法运算操作得到所有时间帧的特征相关性得到的所有时间帧的特征相关性可以学习并增强时间帧维度上与动作完成密切相关的关节。
利用第三时间卷积层作用于骨架特征序列数据F的时间帧维度进行卷积变换操作得到φ3(F),利用第四时间卷积层作用于骨架特征序列数据F的时间帧维度进行卷积变换操作得到φ4(F),第三时间卷积层和第四时间卷积层实现不同的卷积变换操作。对φ3(F)和φ4(F)在时间帧维度进行张量减法运算操作,再经过激活函数tanh得到所有时间帧的特征差异性得到的所有时间帧的特征差异性可以学习并增强关节在不同时间帧中的差异性。
然后对所有时间帧的特征相关性Tcorr(F)和特征差异性Tdiff(F)融合得到特征YTFDCL。包括对所有时间帧的特征相关性Tcorr(F)和特征差异性Tdiff(F)在时间帧维度进行张量乘法运算操作得到然后经过激活函数softmax并与权重矩阵/>在时间帧维度进行张量乘法运算操作,得到特征/>
(2)通道特征学习单元CFDCL学习输入的骨架特征序列数据F的特征差异性和特征相关性得到特征YCFDCL的方法包括:
利用第一通道卷积层作用于骨架特征序列数据F的通道维度进行卷积变换操作得到ψ1(F),利用第二通道卷积层作用于骨架特征序列数据F的通道维度进行卷积变换操作得到ψ2(F),第一通道卷积层和第二通道卷积层实现不同的卷积变换操作。对ψ1(F)和ψ2(F)在通道维度进行张量加法运算操作得到所有通道的特征相关性通过卷积运算在不同通道中进行交互,进一步增强了关节之间的信息特征,可以通过增强参与动作完成的关节部位的特征,学习并增强关节之间特征的相关性,比如一些虽然没有物理连接,但是仍对动作完成参与度很高的关节之间的关联。
利用第三通道卷积层作用于骨架特征序列数据F的通道维度进行卷积变换操作得到ψ3(F),利用第四通道卷积层作用于骨架特征序列数据F的通道维度进行卷积变换操作得到ψ4(F),第三通道卷积层和第四通道卷积层实现不同的卷积变换操作。对ψ3(F)和ψ4(F)在通道维度进行张量减法运算操作,再经过激活函数tanh得到所有通道的特征差异性得到的所有时间帧的特征差异性可以学习并增强关节在不同时间帧中的差异性,特征差异性旨在学习并增强关节在不同通道中的差异。
对所有通道的特征相关性Ccorr(F)和特征差异性Cdiff(F)融合得到特征YCFDCL。包括:对所有通道的特征相关性Ccorr(F)和特征差异性Cdiff(F)在通道维度进行张量乘法运算操作得到经过激活函数softmax并与权重矩阵/>在通道维度进行张量乘法运算操作,得到特征/>
(3)考虑到所有关节都参与了保持运动进程和身体平衡,因此进一步使用时间通道上下文拓扑单元TCCT动态学习上下文拓扑以增强特征。时间通道上下文拓扑单元TCCT包括依次连接的第一融合卷积层、重排列层(Reshape层)和第二融合卷积层,第一融合卷积层用于对输入的骨架特征序列数据在通道维度上进行卷积,第二融合卷积层用于对第一融合卷积层输出并经过重排列后的结果在时间帧维度上进行卷积以输出特征YTCCT
在空间图卷积模块中,得到特征YTFDCL、特征YCFDCL和特征YTCCT后,进行融合得到的空间特征Y,包括:
对特征YTFDCL、特征YCFDCL和特征YTCCT进行张量相加得到YTFDCL+YCFDCL+YTCCT后,与输入的骨架特征序列数据F和矩阵An进行张量相乘,得到F·An(YTFDCL+YCFDCL+YTCCT),利用卷积单元对F·An(YTFDCL+YCFDCL+YTCCT)进行k次卷积并累加,得到融合后的空间特征矩阵/>是V×V的邻接矩阵,当关节q与人体骨架质心的平均距离等于关节p与人体骨架质心的平均距离,一般是关节p与关节q表示同一个关节时,邻接矩阵/>中的第p行第q列的元素/>当关节q与人体骨架质心的平均距离小于关节p与人体骨架质心的平均距离时,/>中的第p行第q列的元素当关节q与人体骨架质心的平均距离大于关节p与人体骨架质心的平均距离时,中的第p行第q列的元素/>矩阵Λn是归一化对角矩阵,且矩阵Λn中的任意第p行第q列的元素/>α为参数且用于防止空行,比如可以取α=0.001。p、q为参数且p∈[1,V],q∈[1,V]。
请参考图3,在时间图卷积模块中,多个使用不同大小卷积核的卷积层分别对输入的空间特征Y执行卷积操作后通过连接层连接,再与输入的空间特征Y进行残差连接后输出对空间特征Y提取时间特征信息后的结果。在图3中,使用到卷积核大小为3、5、9的卷积层,对空间特征Y经过1*1卷积和3*1卷积后得到第一结果,对空间特征Y经过1*1卷积和5*1卷积后得到第二结果,对空间特征Y经过1*1卷积和9*1卷积后得到第三结果,对空间特征Y经过1*1卷积得到第四结果,对第一结果、第二结果、第三结果和第四结果拼接后,与空间特征Y经过1*1卷积后的结果进行残差连接,并输出给分类模块。
在分类模块中对时间图卷积模块输出的结果进行分类,输出识别得到的行为动作。如上所述,本申请使用到的骨架特征序列数据包括四种类型,分别是关节特征序列数据、骨骼特征序列数据、关节运动特征序列数据和骨骼运动特征序列数据。则在分类模块中,对时间图卷积模块输出的结果进行全局平均池化后,利用softmax分类器分别得到关节流预测分数Gjoint、骨骼流预测分数Gbone、关节运动流预测分数Gjoint-motion和骨骼运动流预测分数Gbone-motion。然后加权得到融合预测分数为:
Glast=ωjoint×Gjointbone×Gbonejoint-motion×Gjoint-motion
bone-motion×Gbone-motion
输出融合预测分数最高的行为动作作为识别得到的行为动作。其中,ωjoint、ωbone、ωjoint-motion和ωbone-motion均为加权权重。比如可以设定ωjoint和ωbone为0.6,ωjoint-motion和ωbone-motion为0.4。
基于行为识别模型输出的识别得到的行为动作,与样本骨架数据对应的行为动作进行比较,循环训练行为识别模型。
步骤S4,提取待识别的骨架数据的骨架特征序列数据并输入训练得到的行为识别模型,输出识别得到的行为动作。行为识别模型对输入的待识别的骨架数据的骨架特征序列数据进行处理,以输出识别得到的行为动作的方法与上述训练过程中类似,此处不再赘述。
为验证本申请的准确性和鲁棒性,本申请在公开的NTU RGB+D 60数据集和Kinetics-Skeleton 400数据集上进行了实验。NTU RGB+D 60数据集包含60种行为动作,共56880组样本骨架数据,其中有40类为日常行为动作,9类为与健康相关的动作,11类为双人相互动作。这些行为动作由40个年龄从10岁到35岁的人完成。该数据集由微软Kinect v2传感器采集得到,并且使用了三个不同角度的摄像机,采集的数据形式包括深度信息、3D骨架信息、RGB帧以及红外序列。Kinetics-Skeleton 400数据集是一个大规模,高质量的YouTube视频网址数据集,其中包含各种以人为本的行动,该数据集包含400种行为动作,每种行为动作至少有400个视频剪辑,每个剪辑持续大约10秒,并且取自不同的视频,这些种行为动作以人类为中心,涵盖广泛的类别,包括演奏乐器等人与物体的交互,以及握手等人与人的交互。
利用本申请的方法在NTU RGB+D 60数据集和Kinetics-Skeleton 400数据集上的测试结果如下,可见在NTU RGB+D 60数据集和Kinetics-Skeleton 400数据集上都有较高的准确率。
另外,本申请的骨架特征序列数据为关节骨骼特征数据,相比于单独使用关节特征数据,或者单独使用骨骼特征数据来说,准确度也会更高,在NTU RGB+D 60数据集上,对本申请的方法和常规方法的准确率比较如下:
以上所述的仅是本申请的优选实施方式,本申请不限于以上实施例。可以理解,本领域技术人员在不脱离本申请的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本申请的保护范围之内。

Claims (5)

1.一种基于骨架数据时空特征差异性和相关性的行为识别方法,其特征在于,所述行为识别方法包括:
对多种行为动作的共N×M组样本骨架数据进行特征提取,得到每组样本骨架数据的骨架特征序列数据,每组样本骨架数据的骨架特征序列数据包括C个通道,每个通道包括所有V个关节在连续T个时间帧的关节骨骼特征数据;
将每组样本骨架数据的骨架特征序列数据作为行为识别模型的输入、所述样本骨架数据对应的行为动作作为所述行为识别模型的输出,利用所有样本骨架数据的骨架特征序列数据训练所述行为识别模型;
提取待识别的骨架数据的骨架特征序列数据并输入训练得到的所述行为识别模型,输出识别得到的行为动作;
其中,所述行为识别模型包括依次连接的空间图卷积模块、时间图卷积模块和分类模块,所述空间图卷积模块包括时间特征学习单元、通道特征学习单元和时间通道上下文拓扑单元,所述时间特征学习单元用于在时间帧维度学习输入的骨架特征序列数据的特征差异性和特征相关性得到特征YTFDCL,所述通道特征学习单元用于在通道维度学习输入的骨架特征序列数据的特征差异性和特征相关性得到特征YCFDCL,所述时间通道上下文拓扑单元用于动态学习输入的骨架特征序列数据的全局上下文特征得到特征YTCCT,所述空间图卷积模块输出对特征YTFDCL、特征YCFDCL和特征YTCCT融合后的空间特征Y;所述时间图卷积模块对所述空间特征Y提取时间特征信息后输入分类模块进行分类,输出识别得到的行为动作;
所述时间特征学习单元学习输入的骨架特征序列数据F的特征差异性和特征相关性得到特征YTFDCL的方法包括:利用第一时间卷积层作用于骨架特征序列数据F的时间帧维度进行卷积变换操作得到φ1(F),利用第二时间卷积层作用于骨架特征序列数据F的时间帧维度进行卷积变换操作得到φ2(F),对φ1(F)和φ2(F)在时间帧维度进行张量加法运算操作得到所有时间帧的特征相关性利用第三时间卷积层作用于骨架特征序列数据F的时间帧维度进行卷积变换操作得到φ3(F),利用第四时间卷积层作用于骨架特征序列数据F的时间帧维度进行卷积变换操作得到φ4(F),对φ3(F)和φ4(F)在时间帧维度进行张量减法运算操作,再经过激活函数tanh得到所有时间帧的特征差异性对所有时间帧的特征相关性Tcorr(F)和特征差异性Tdiff(F)在时间帧维度进行张量乘法运算操作后,经过激活函数softmax并与权重矩阵在时间帧维度进行张量乘法运算操作,得到特征YTFDCL
所述通道特征学习单元学习输入的骨架特征序列数据F的特征差异性和特征相关性得到特征YCFDCL的方法包括:利用第一通道卷积层作用于骨架特征序列数据F的通道维度进行卷积变换操作得到ψ1(F),利用第二通道卷积层作用于骨架特征序列数据F的通道维度进行卷积变换操作得到ψ2(F),对ψ1(F)和ψ2(F)在通道维度进行张量加法运算操作得到所有通道的特征相关性利用第三通道卷积层作用于骨架特征序列数据F的通道维度进行卷积变换操作得到ψ3(F),利用第四通道卷积层作用于骨架特征序列数据F的通道维度进行卷积变换操作得到ψ4(F),对ψ3(F)和ψ4(F)在通道维度进行张量减法运算操作,再经过激活函数tanh得到所有通道的特征差异性/>对所有通道的特征相关性Ccorr(F)和特征差异性Cdiff(F)在通道维度进行张量乘法运算操作后,经过激活函数softmax并与权重矩阵/>在通道维度进行张量乘法运算操作,得到特征YCFDCL
所述时间通道上下文拓扑单元包括依次连接的第一融合卷积层、重排列层和第二融合卷积层,所述第一融合卷积层用于对输入的骨架特征序列数据在通道维度上进行卷积,所述第二融合卷积层用于对所述第一融合卷积层输出并经过重排列后的结果在时间帧维度上进行卷积以输出特征YTCCT
2.根据权利要求1所述的行为识别方法,其特征在于,所述空间图卷积模块输出对特征YTFDCL、特征YCFDCL和特征YTCCT融合后得到的空间特征Y为:
其中,YTFDCL+YCFDCL+YTCCT是对特征YTFDCL、特征YCFDCL和特征YTCCT进行张量相加运算后的结果,F·An·(YTFDCL+YCFDCL+YTCCT)是对YTFDCL+YCFDCL+YTCCT、骨架特征序列数据F和矩阵An进行张量相乘运算的结果;空间特征Y通过对F·An·(YTFDCL+YCFDCL+YTCCT)进行k次卷积运算后的结果相加得到,k为参数;
矩阵 是V×V的邻接矩阵,当关节q与人体骨架质心的平均距离等于关节p与人体骨架质心的平均距离,邻接矩阵/>中的第p行第q列的元素/>当关节q与人体骨架质心的平均距离小于关节p与人体骨架质心的平均距离时,/>中的第p行第q列的元素/>当关节q与人体骨架质心的平均距离大于关节p与人体骨架质心的平均距离时,/>中的第p行第q列的元素/>矩阵Λn是归一化对角矩阵,且矩阵Λn中的任意第p行第q列的元素/>α为参数,p、q为参数且p∈[1,V],q∈[1,V]。
3.根据权利要求1所述的行为识别方法,其特征在于,所述时间图卷积模块中,多个使用不同大小卷积核的卷积层分别对输入的空间特征Y执行卷积操作后通过连接层连接,再与输入的空间特征Y进行残差连接后输出对所述空间特征Y提取时间特征信息后的结果。
4.根据权利要求1所述的行为识别方法,其特征在于,提取得到的每组样本骨架数据的骨架特征序列数据包括:
提取所述样本骨架数据的任意一个通道中任意一个关节在每个时间帧上的坐标数据得到关节特征序列数据;
提取所述样本骨架数据的任意一个通道中任意一段骨骼在每个时间帧上的向量数据得到骨骼特征序列数据,每段骨骼的向量数据是所述骨骼的靠近人体骨架重心的源关节指向远离人体骨架重心的目标关节的向量;
提取所述样本骨架数据的任意一个通道中任意一个关节在任意一个时间帧上的坐标数据至所述关节在同一个通道的下一个时间帧上的坐标数据的移动向量,得到关节运动特征序列数据;
提取所述样本骨架数据的任意一个通道中任意一段骨骼在任意一个时间帧上的向量数据至所述骨骼在同一个通道的下一个时间帧上的向量数据的移动向量,得到骨骼运动特征序列数据。
5.根据权利要求4所述的行为识别方法,其特征在于,输出识别得到的行为动作的方法包括:
对所述时间图卷积模块输出的结果进行分类,得到关节流预测分数Gjoint、骨骼流预测分数Gbone、关节运动流预测分数Gjoint-motion和骨骼运动流预测分数Gbone-motion
加权得到融合预测分数输出所述融合预测分数最高的行为动作作为识别得到的行为动作;
其中,ωjoint、ωbone、ωjoint-motion和ωbone-motion均为加权权重。
CN202310399333.5A 2023-04-13 2023-04-13 基于骨架数据时空特征差异性和相关性的行为识别方法 Active CN116434339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310399333.5A CN116434339B (zh) 2023-04-13 2023-04-13 基于骨架数据时空特征差异性和相关性的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310399333.5A CN116434339B (zh) 2023-04-13 2023-04-13 基于骨架数据时空特征差异性和相关性的行为识别方法

Publications (2)

Publication Number Publication Date
CN116434339A CN116434339A (zh) 2023-07-14
CN116434339B true CN116434339B (zh) 2023-10-27

Family

ID=87092245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310399333.5A Active CN116434339B (zh) 2023-04-13 2023-04-13 基于骨架数据时空特征差异性和相关性的行为识别方法

Country Status (1)

Country Link
CN (1) CN116434339B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086659A (zh) * 2018-06-13 2018-12-25 深圳市感动智能科技有限公司 一种基于多模道特征融合的人体行为识别方法和装置
CN110197116A (zh) * 2019-04-15 2019-09-03 深圳大学 一种人体行为识别方法、装置和计算机可读存储介质
CN110796110A (zh) * 2019-11-05 2020-02-14 西安电子科技大学 一种基于图卷积网络的人体行为识别方法及系统
CN112395945A (zh) * 2020-10-19 2021-02-23 北京理工大学 基于骨骼关节点的图卷积行为识别方法及装置
CN113343901A (zh) * 2021-06-28 2021-09-03 重庆理工大学 基于多尺度注意力图卷积网络的人体行为识别方法
CN113361352A (zh) * 2021-05-27 2021-09-07 天津大学 基于行为识别的学生课堂行为分析的监控方法及系统
CN114708649A (zh) * 2022-03-10 2022-07-05 广州大学 基于集成学习方法融合时间注意力图卷积的行为识别方法
CN114882421A (zh) * 2022-06-01 2022-08-09 江南大学 一种基于时空特征增强图卷积网络的骨架行为识别方法
CN115100574A (zh) * 2022-07-19 2022-09-23 电子科技大学长三角研究院(衢州) 基于融合图卷积网络与Transformer网络的动作识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489570B2 (en) * 2013-12-31 2016-11-08 Konica Minolta Laboratory U.S.A., Inc. Method and system for emotion and behavior recognition

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086659A (zh) * 2018-06-13 2018-12-25 深圳市感动智能科技有限公司 一种基于多模道特征融合的人体行为识别方法和装置
CN110197116A (zh) * 2019-04-15 2019-09-03 深圳大学 一种人体行为识别方法、装置和计算机可读存储介质
WO2020211242A1 (zh) * 2019-04-15 2020-10-22 深圳大学 一种基于行为识别的方法、装置及存储介质
CN110796110A (zh) * 2019-11-05 2020-02-14 西安电子科技大学 一种基于图卷积网络的人体行为识别方法及系统
CN112395945A (zh) * 2020-10-19 2021-02-23 北京理工大学 基于骨骼关节点的图卷积行为识别方法及装置
CN113361352A (zh) * 2021-05-27 2021-09-07 天津大学 基于行为识别的学生课堂行为分析的监控方法及系统
CN113343901A (zh) * 2021-06-28 2021-09-03 重庆理工大学 基于多尺度注意力图卷积网络的人体行为识别方法
CN114708649A (zh) * 2022-03-10 2022-07-05 广州大学 基于集成学习方法融合时间注意力图卷积的行为识别方法
CN114882421A (zh) * 2022-06-01 2022-08-09 江南大学 一种基于时空特征增强图卷积网络的骨架行为识别方法
CN115100574A (zh) * 2022-07-19 2022-09-23 电子科技大学长三角研究院(衢州) 基于融合图卷积网络与Transformer网络的动作识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Jian Liu ; Naveed Akhtar ; Ajmal Mian.《Adversarial Attack on Skeleton-Based Human Action Recognition》.《IEEE Transactions on Neural Networks and Learning Systems》.2020,全文. *
时空域融合的骨架动作识别与交互研究;钟秋波;郑彩明;朴松昊;;智能系统学报(第03期);全文 *
郭伏正 ; 孔军 ; 蒋敏.《自适应融合RGB和骨骼特征的行为识别》.《激光与光电子学进展》.2020,全文. *
面向人体动作识别的局部特征融合时间卷积网络;宋震;周元峰;贾金公;辛士庆;刘毅;;计算机辅助设计与图形学学报(第03期);全文 *

Also Published As

Publication number Publication date
CN116434339A (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN111814719B (zh) 一种基于3d时空图卷积的骨架行为识别方法
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN112101176B (zh) 一种结合用户步态信息的用户身份识别方法及系统
CN110472604B (zh) 一种基于视频的行人与人群行为识别方法
CN106462724B (zh) 基于规范化图像校验面部图像的方法和系统
CN110929637B (zh) 一种图像识别方法、装置、电子设备及存储介质
CN111652124A (zh) 一种基于图卷积网络的人体行为识别模型的构建方法
CN112434655B (zh) 一种基于自适应置信度图卷积网络的步态识别方法
CN113221663B (zh) 一种实时手语智能识别方法、装置及系统
CN111625667A (zh) 一种基于复杂背景图像的三维模型跨域检索方法及系统
CN111461063B (zh) 一种基于图卷积和胶囊神经网络的行为识别方法
CN113408455A (zh) 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN111204476A (zh) 一种基于强化学习的视触融合精细操作方法
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN114821640A (zh) 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
CN114529984A (zh) 一种基于可学习pl-gcn和eclstm的骨骼动作识别方法
CN111833400B (zh) 一种相机位姿定位方法
CN114708649A (zh) 基于集成学习方法融合时间注意力图卷积的行为识别方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN113869105A (zh) 一种人体行为识别方法
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
Oniki et al. Training data generation based on observation probability density for human pose refinement
CN113255569A (zh) 一种基于图空洞卷积编码器解码器的3d姿态估计方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant