CN112446253A - 一种骨架行为识别方法及装置 - Google Patents

一种骨架行为识别方法及装置 Download PDF

Info

Publication number
CN112446253A
CN112446253A CN201910817839.7A CN201910817839A CN112446253A CN 112446253 A CN112446253 A CN 112446253A CN 201910817839 A CN201910817839 A CN 201910817839A CN 112446253 A CN112446253 A CN 112446253A
Authority
CN
China
Prior art keywords
grained
coarse
sequence
bone
bone sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910817839.7A
Other languages
English (en)
Inventor
杨凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910817839.7A priority Critical patent/CN112446253A/zh
Publication of CN112446253A publication Critical patent/CN112446253A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种骨架行为识别方法及装置,涉及行为识别技术领域。该骨架行为识别方法,包括:根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据;根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息;获取骨骼序列的时间特征信息;根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为;其中,所述原始输入特征为人体关节各个关键点坐标数据和各个关键点的连接关系。上述方案,通过对骨架序列的多个特征进行提取,可以提高骨架行为识别的准确性。

Description

一种骨架行为识别方法及装置
技术领域
本发明涉及行为识别技术领域,特别涉及一种骨架行为识别方法及装置。
背景技术
骨架序列行为识别采用深度摄像头(如微软的Kinect,Intel的Real sensor等)或姿态估计算法(如CMU的openpose算法)直接提取人体关键点骨骼序列数据,基于骨骼序列利用深度学习的技术研究人体行为的分类。从视频中提取人体的关节坐标信息可大大降低了需要处理的数据量,也降低了对计算资源的需求。因此基于骨骼序列的行为识别算法,往往具有更好的实时性能。基于人体骨骼关键点的表达方式,排除了大量原始视频中的冗余信息,有利于提升行为识别的准确率。
现有的基于骨架序列的行为识别包括:基于手工提取特征的行为识别方法、基于循环神经网络(RNN)/长短期记忆网络(LSTM)的骨架序列行为识别方法和基于图卷积的骨架序列行为识别方法三类。
针对基于手工提取特征的行为识别方法主要存在下列问题:在不同视角下,同一规则很难适用,例如:在不同视角获取的骨骼关键点数据可能会有差别,造成误判;在识别不同行为时,需要制定很复杂的规则,才可以区分相近的动作,规则的制定过程复杂,很多时候很难制定明确的判定规则。
基于RNN/LSTM的骨架序列行为识别方法基于机器学习方法,具有泛化能力强,识别种类多,准确率相对较高等特性;但是其也存在下列问题:人体的骨骼节点存在关节连接结构和信息,在RNN/LSTM中,数据被直接当作时间序列的向量处理,没有考虑骨骼节点的连接结构信息,容易导致识别结果不准确。
基于图卷积的骨架序列行为识别方法利用图数据完成了对骨骼序列数据的描述,描述过程考虑了关节的连接信息,通过图卷积的方式来构建学习网络,较好的提升了模型性能;但是因其提取的粒度较为粗糙,不能较好的保证行为识别的准确性。
发明内容
本发明实施例提供一种骨架行为识别方法及装置,以解决现有的骨架序列行为识别方式,均只是针对单一的特征进行提取,不能充分的提取特征信息,限制了识别准确率的问题。
为了解决上述技术问题,本发明实施例提供一种骨架行为识别方法,包括:
根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据;
根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息;
获取骨骼序列的时间特征信息;
根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为;
其中,所述原始输入特征为人体关节各个关键点坐标数据和各个关键点的连接关系。
可选地,所述根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据,包括:
利用多个多层感知机网络映射关系,将骨骼序列的原始输入特征变换为粗粒度图数据;
其中,
Figure BDA0002186754220000021
Xc为粗粒度图数据;R为实数;N为骨骼序列的个数;C为坐标通道;T为时间帧的个数;Vc为粗粒度图数据中每个骨骼序列的关键点的个数。
进一步地,所述粗粒度图数据中每个骨骼序列的关键点的个数为6个。
可选地,所述根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息,包括:
根据所述原始输入特征,确定骨骼序列的细粒度空间特征数据;
根据所述粗粒度图数据,确定骨骼序列的粗粒度空间特征数据;
根据所述细粒度空间特征数据和所述粗粒度空间特征数据,确定骨骼序列的空间特征信息。
进一步地,所述根据所述原始输入特征,确定骨骼序列的细粒度空间特征数据,包括:
将所述原始输入特征输入到多层带跳接的图卷积网络,提取骨骼序列的细粒度空间特征数据。
具体地,所述细粒度空间特征数据在图卷积网络的层间传递方式为:
根据公式:
Figure BDA0002186754220000031
进行细粒度空间特征数据在图卷积网络的层间传递;
其中,
Figure BDA0002186754220000032
为第l+1层的细粒度空间特征数据;
Figure BDA0002186754220000033
为第l层的细粒度空间特征数据;σ(*)为激活函数;Af为细粒度空间特征数据对应的图的邻接矩阵;Λf为Af对应的特征值的对角矩阵;Wf (l)为第l层的图卷积网络的训练权重。
进一步地,所述根据所述粗粒度图数据,确定骨骼序列的粗粒度空间特征数据,包括:
将所述粗粒度图数据输入到带跳接的多层粗粒度图卷积网络中,提取骨骼序列的粗粒度空间特征数据。
具体地,所述粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递方式为:
根据公式:
Figure BDA0002186754220000035
进行粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递;
其中,
Figure BDA0002186754220000036
为第l+1层的粗粒度空间特征数据;
Figure BDA0002186754220000037
为第l层的粗粒度空间特征数据;σ(*)为激活函数;Ac为粗粒度空间特征数据对应的图的邻接矩阵;Λc为Ac对应的特征值的对角矩阵;Wc (l)为第l层的多层粗粒度图卷积网络的训练权重。
进一步地,所述根据所述细粒度空间特征数据和所述粗粒度空间特征数据,确定骨骼序列的空间特征信息,包括:
根据公式:H=concat(Hf,Hc),确定骨骼序列的空间特征信息;
其中,H为骨骼序列的空间特征信息;Hf为细粒度空间特征数据;Hc为粗粒度空间特征数据;concat(*)为连接函数。
可选地,所述获取骨骼序列的时间特征信息,包括:
获取每个时间帧的骨骼序列对应的注意力加权值;
根据所述注意力加权值,获取每个时间帧的骨骼序列的时间特征信息。
进一步地,所述获取每个时间帧的骨骼序列对应的注意力加权值,包括:
获取每个时间帧的骨骼序列对应的速度特征;
根据所述速度特征,确定每个时间帧的骨骼序列的注意力特征;
根据所述注意力特征,获取每个时间帧的骨骼序列的注意力加权值。
具体地,所述获取每个时间帧的骨骼序列对应的速度特征,包括:
根据公式:xt-xt-1,确定每个时间帧的骨骼序列对应的速度特征;
其中,xt为第t个时间帧的骨骼序列;xt-1为第t-1个时间帧的骨骼序列。
具体地,所述根据所述速度特征,确定每个时间帧的骨骼序列的注意力特征,包括:
利用双向长短记忆网络对速度特征进行提取,获取每个时间帧的骨骼序列的注意力特征。
具体地,所述根据所述注意力特征,获取每个时间帧的骨骼序列的注意力加权值,包括:
将所述注意力特征利用全连接层和激活层分别完成多特征的融合和非线性的映射,获取每个时间帧的骨骼序列的注意力加权值。
具体地,所述根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为,包括:
将所述时间特征信息和所述空间特征信息输入全连接层,获取骨骼序列对应的分类得分向量;
对所述分类得分向量进行归一化处理,获取骨骼序列对应的每一分类的概率;
确定骨骼序列对应的分类的概率最大的第一分类,将所述第一分类确定为骨骼序列对应的骨架行为。
本发明实施例还提供一种骨架行为识别装置,包括:
第一获取模块,用于根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据;
第二获取模块,用于根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息;
第三获取模块,用于获取骨骼序列的时间特征信息;
确定模块,用于根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为;
其中,所述原始输入特征为人体关节各个关键点坐标数据和各个关键点的连接关系。
可选地,所述第一获取模块,用于:
利用多个多层感知机网络映射关系,将骨骼序列的原始输入特征变换为粗粒度图数据;
其中,
Figure BDA0002186754220000051
Xc为粗粒度图数据;R为实数;N为骨骼序列的个数;C为坐标通道;T为时间帧的个数;Vc为粗粒度图数据中每个骨骼序列的关键点的个数。
具体地,所述粗粒度图数据中每个骨骼序列的关键点的个数为6个。
可选地,所述第二获取模块,包括:
第一确定单元,用于根据所述原始输入特征,确定骨骼序列的细粒度空间特征数据;
第二确定单元,用于根据所述粗粒度图数据,确定骨骼序列的粗粒度空间特征数据;
第三确定单元,用于根据所述细粒度空间特征数据和所述粗粒度空间特征数据,确定骨骼序列的空间特征信息。
进一步地,所述第一确定单元,用于:
将所述原始输入特征输入到多层带跳接的图卷积网络,提取骨骼序列的细粒度空间特征数据。
具体地,所述细粒度空间特征数据在图卷积网络的层间传递方式为:
根据公式:
Figure BDA0002186754220000052
进行细粒度空间特征数据在图卷积网络的层间传递;
其中,
Figure BDA0002186754220000053
为第l+1层的细粒度空间特征数据;
Figure BDA0002186754220000054
为第l层的细粒度空间特征数据;σ(*)为激活函数;Af为细粒度空间特征数据对应的图的邻接矩阵;Λf为Af对应的特征值的对角矩阵;Wf (l)为第l层的图卷积网络的训练权重。
进一步地,所述第二确定单元,用于:
将所述粗粒度图数据输入到带跳接的多层粗粒度图卷积网络中,提取骨骼序列的粗粒度空间特征数据。
具体地,所述粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递方式为:
根据公式:
Figure BDA0002186754220000061
进行粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递;
其中,
Figure BDA0002186754220000062
为第l+1层的粗粒度空间特征数据;
Figure BDA0002186754220000063
为第l层的粗粒度空间特征数据;σ(*)为激活函数;Ac为粗粒度空间特征数据对应的图的邻接矩阵;Λc为Ac对应的特征值的对角矩阵;Wc (l)为第l层的多层粗粒度图卷积网络的训练权重。
进一步地,所述第三确定单元,用于:
根据公式:H=concat(Hf,Hc),确定骨骼序列的空间特征信息;
其中,H为骨骼序列的空间特征信息;Hf为细粒度空间特征数据;Hc为粗粒度空间特征数据;concat(*)为连接函数。
可选地,所述第三获取模块,包括:
第一获取单元,用于获取每个时间帧的骨骼序列对应的注意力加权值;
第二获取单元,用于根据所述注意力加权值,获取每个时间帧的骨骼序列的时间特征信息。
进一步地,所述第一获取单元,包括:
第一获取子单元,用于获取每个时间帧的骨骼序列对应的速度特征;
确定子单元,用于根据所述速度特征,确定每个时间帧的骨骼序列的注意力特征;
第二获取子单元,用于根据所述注意力特征,获取每个时间帧的骨骼序列的注意力加权值。
具体地,所述第一获取子单元,用于:
根据公式:xt-xt-1,确定每个时间帧的骨骼序列对应的速度特征;
其中,xt为第t个时间帧的骨骼序列;xt-1为第t-1个时间帧的骨骼序列。
具体地,所述确定子单元,用于:
利用双向长短记忆网络对速度特征进行提取,获取每个时间帧的骨骼序列的注意力特征。
具体地,所述第二获取子单元,用于:
将所述注意力特征利用全连接层和激活层分别完成多特征的融合和非线性的映射,获取每个时间帧的骨骼序列的注意力加权值。
具体地,所述确定模块,包括:
第三获取单元,用于将所述时间特征信息和所述空间特征信息输入全连接层,获取骨骼序列对应的分类得分向量;
第四获取单元,用于对所述分类得分向量进行归一化处理,获取骨骼序列对应的每一分类的概率;
第四确定单元,用于确定骨骼序列对应的分类的概率最大的第一分类,将所述第一分类确定为骨骼序列对应的骨架行为。
本发明实施例还提供一种骨架行为识别装置,包括收发机和处理器;
所述处理器,用于根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据;
根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息;
获取骨骼序列的时间特征信息;
根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为;
其中,所述原始输入特征为人体关节各个关键点坐标数据和各个关键点的连接关系。
可选地,所述处理器执行所述根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据时,用于实现:
利用多个多层感知机网络映射关系,将骨骼序列的原始输入特征变换为粗粒度图数据;
其中,
Figure BDA0002186754220000071
Xc为粗粒度图数据;R为实数;N为骨骼序列的个数;C为坐标通道;T为时间帧的个数;Vc为粗粒度图数据中每个骨骼序列的关键点的个数。
具体地,所述粗粒度图数据中每个骨骼序列的关键点的个数为6个。
可选地,所述处理器执行所述根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息时,用于实现:
根据所述原始输入特征,确定骨骼序列的细粒度空间特征数据;
根据所述粗粒度图数据,确定骨骼序列的粗粒度空间特征数据;
根据所述细粒度空间特征数据和所述粗粒度空间特征数据,确定骨骼序列的空间特征信息。
进一步地,所述处理器执行所述根据所述原始输入特征,确定骨骼序列的细粒度空间特征数据时,用于实现:
将所述原始输入特征输入到多层带跳接的图卷积网络,提取骨骼序列的细粒度空间特征数据。
具体地,所述细粒度空间特征数据在图卷积网络的层间传递方式为:
根据公式:
Figure BDA0002186754220000081
进行细粒度空间特征数据在图卷积网络的层间传递;
其中,
Figure BDA0002186754220000082
为第l+1层的细粒度空间特征数据;
Figure BDA0002186754220000083
为第l层的细粒度空间特征数据;σ(*)为激活函数;Af为细粒度空间特征数据对应的图的邻接矩阵;Λf为Af对应的特征值的对角矩阵;Wf (l)为第l层的图卷积网络的训练权重。
进一步地,所述处理器执行所述根据所述粗粒度图数据,确定骨骼序列的粗粒度空间特征数据时,用于实现:
将所述粗粒度图数据输入到带跳接的多层粗粒度图卷积网络中,提取骨骼序列的粗粒度空间特征数据。
具体地,所述粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递方式为:
根据公式:
Figure BDA0002186754220000084
进行粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递;
其中,
Figure BDA0002186754220000085
为第l+1层的粗粒度空间特征数据;
Figure BDA0002186754220000086
为第l层的粗粒度空间特征数据;σ(*)为激活函数;Ac为粗粒度空间特征数据对应的图的邻接矩阵;Λc为Ac对应的特征值的对角矩阵;Wc (l)为第l层的多层粗粒度图卷积网络的训练权重。
进一步地,所述处理器执行所述根据所述细粒度空间特征数据和所述粗粒度空间特征数据,确定骨骼序列的空间特征信息时,用于实现:
根据公式:H=concat(Hf,Hc),确定骨骼序列的空间特征信息;
其中,H为骨骼序列的空间特征信息;Hf为细粒度空间特征数据;Hc为粗粒度空间特征数据;concat(*)为连接函数。
可选地,所述处理器执行所述获取骨骼序列的时间特征信息时,用于实现:
获取每个时间帧的骨骼序列对应的注意力加权值;
根据所述注意力加权值,获取每个时间帧的骨骼序列的时间特征信息。
进一步地,所述处理器执行所述获取每个时间帧的骨骼序列对应的注意力加权值时,用于实现:
获取每个时间帧的骨骼序列对应的速度特征;
根据所述速度特征,确定每个时间帧的骨骼序列的注意力特征;
根据所述注意力特征,获取每个时间帧的骨骼序列的注意力加权值。
具体地,所述处理器执行所述获取每个时间帧的骨骼序列对应的速度特征时,用于实现:
根据公式:xt-xt-1,确定每个时间帧的骨骼序列对应的速度特征;
其中,xt为第t个时间帧的骨骼序列;xt-1为第t-1个时间帧的骨骼序列。
具体地,所述处理器执行所述根据所述速度特征,确定每个时间帧的骨骼序列的注意力特征时,用于实现:
利用双向长短记忆网络对速度特征进行提取,获取每个时间帧的骨骼序列的注意力特征。
具体地,所述处理器执行所述根据所述注意力特征,获取每个时间帧的骨骼序列的注意力加权值时,用于实现:
将所述注意力特征利用全连接层和激活层分别完成多特征的融合和非线性的映射,获取每个时间帧的骨骼序列的注意力加权值。
具体地,所述处理器执行所述根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为时,用于实现:
将所述时间特征信息和所述空间特征信息输入全连接层,获取骨骼序列对应的分类得分向量;
对所述分类得分向量进行归一化处理,获取骨骼序列对应的每一分类的概率;
确定骨骼序列对应的分类的概率最大的第一分类,将所述第一分类确定为骨骼序列对应的骨架行为。
本发明实施例还提供一种骨架行为识别装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的骨架行为识别方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的骨架行为识别方法中的步骤。
本发明的有益效果是:
上述方案,通过先获取骨骼序列的粗粒度图数据,然后根据粗粒度图数据和原始输入特征,获取骨骼序列的空间特征信息,还需要获取骨骼序列的时间特征信息,最后根据时间特征信息和空间特征信息,确定所述骨骼序列所对应的骨架行为;通过对骨架序列的多个特征进行提取,可以提高骨架行为识别的准确性。
附图说明
图1表示人体骨骼关键节点示意图;
图2表示本发明实施例的骨架行为识别方法的流程示意图;
图3表示获取粗粒度图数据的网络架构图;
图4表示获取空间特征信息的网络架构图;
图5表示时间特征提取的过程示意图;
图6表示本发明实施例的总体网络架构图;
图7表示本发明实施例的骨架行为识别装置的模块示意图。
具体实施方式
下面先对现有的基于骨架序列的行为识别方式进行简要介绍如下:
一、基于手工提取特征的行为识别方法
该方法,采用一些人工制定的规则来完成行为识别。例如:根据人体重心相关的骨骼关键点持续降低的规则,来识别人体发生了摔倒。
二、基于循环神经网络(RNN)/长短期记忆网络(LSTM)的骨架序列行为识别方法
人体识别的骨骼序列可以表达为时间序列的骨骼坐标数据帧,该方案采用RNN/LSTM,在大规模行为识别训练数据集上对网络进行训练,完成分类识别工作。
三、基于图卷积的骨架序列行为识别方法
如图1所示,人体关键点骨骼节点的连接关系自然形成了类似图的结构,因此采用图数据对人体关键点(即关键节点)进行描述可以更加完整的表述人体的行为信息。人体骨骼由关节和连接关节的骨骼构成。它们分别对应到图数据结构的顶点和边。因此人体骨骼数据可以描述为无向图G=(V,E),其中V代表顶点集,即所有骨骼关键点。E代表“边集”,即骨骼关节连接的边(骨骼)构成的集合。图卷积过程将通用的二维卷积扩展到了图数据领域,考虑到了人体关节的连接结构,因此在卷积过程中可以提取更多信息,取得更好的性能。
而本发明针对现有的骨架序列行为识别方式,均只是针对单一的特征进行提取,不能充分的提取特征信息,限制了识别准确率的问题,提供一种骨架行为识别方法及装置。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
如图2所示,本发明实施例的骨架行为识别方法,包括:
步骤21,根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据;
步骤22,根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息;
步骤23,获取骨骼序列的时间特征信息;
步骤24,根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为。
需要说明的是,上述的获取时间特征信息和空间特征信息的步骤没有明显的时间先后顺序,可以先获取空间特征信息再获取时间特征信息,也可以是先获取时间特征信息再获取空间特征信息,还可以是获取空间特征信息和获取时间特征信息为并列执行的过程。
需要说明的是,该原始输入特征为包含多个骨骼序列的样本数据,该样本数据中,每一个骨骼序列对应一个时间帧;具体地,该原始输入特征为人体关节各个关键点坐标数据和各个关键点的连接关系,可以通过深度摄像头(如微软的Kinect,Intel的Real sensor等)或姿态估计算法对视频中的人体关键点骨骼序列数据进行提取,得到原始输入特征数据,该原始输入特征数据因包含较多的关键点坐标数据可以称为细粒度图数据,也就是说,步骤11是根据细粒度图数据获取粗粒度图数据的过程。
下面对获取空间域特征进行具体说明如下。
进一步地,步骤11的具体实现方式为:
利用多个多层感知机网络(MLP)映射关系,将骨骼序列的原始输入特征变换为粗粒度图数据;
其中,
Figure BDA0002186754220000121
Xc为粗粒度图数据;R为实数;N为骨骼序列的个数;C为坐标通道;T为时间帧的个数;Vc为粗粒度图数据中每个骨骼序列的关键点的个数。
进一步地,所述粗粒度图数据中每个骨骼序列的关键点的个数为6个。
也就是说,此步骤中,实现的是将人体的6个部件(即头、躯干和四肢)重新定义为一个部件图的描述,即Gc=(Vc,Ec),其中,Vc表示部件图的关键点,Ec表示连接关键点的边。细粒度图数据X∈RN×C×T×V,其中,V表示细粒度图数据中每个骨骼序列的关键点的个数,经过多个多层感知机网络的映射,最终得到粗粒度图数据;具体实现如图2所示,在多个多层感知机网络中,将每个骨骼序列中的关键点,分别进行头、躯干、四肢六个部件的划分,将每个部件中包含的关键点进行映射,最终将一个部件所包含的多个关键点映射为一关键点,具体地,上述的映射过程采用了一个3个3层的MLP网络,每个MLP网络分别提取数据3维点的一个通道(x或y或z)的坐标。对应每个部件内数据点为(Xi,Yi,Zi)分别对应3D坐标。针对每一帧的数据,MLP可以提取为一个整体的部件点的数据(X,Y,Z),MLP对应的输入神经元个数为部件内关键节点的个数,输出神经元数量为1,代表部件节点数据的个数,整个MLP完成了一个从部件内多个关键点到代表部件的一个关键点的数据压缩过程;经过如图3所示的处理后,最终将一个包含多个关键点的骨骼序列映射为只包含6个关键点的骨骼序列,需要说明的是,图3中是以具有3个骨骼序列为例,在进行处理时,也是针对每个骨骼序列进行的。
在进行粗粒度图数据提取后,便是进行骨骼序列的空间特征信息的获取,也就是说获取空间域特征,具体地实现方式为:
根据所述原始输入特征,确定骨骼序列的细粒度空间特征数据;
根据所述粗粒度图数据,确定骨骼序列的粗粒度空间特征数据;
根据所述细粒度空间特征数据和所述粗粒度空间特征数据,确定骨骼序列的空间特征信息。
需要说明的是,获取细粒度空间特征数据和获取粗粒度空间特征数据的过程可以是并列进行的过程。
具体地,所述根据所述原始输入特征,确定骨骼序列的细粒度空间特征数据的方式为:
将所述原始输入特征输入到多层带跳接的图卷积网络,提取骨骼序列的细粒度空间特征数据。
需要说明的是,本发明实施例中采用频域图卷积的方法完成图卷积的运算,为了降低计算的复杂度,对特征值分解过程采用了切比雪夫1阶多项式进行近似计算。通过简化,所述细粒度空间特征数据在图卷积网络的层间传递方式为:
根据公式:
Figure BDA0002186754220000131
进行细粒度空间特征数据在图卷积网络的层间传递;
其中,
Figure BDA0002186754220000132
为第l+1层的细粒度空间特征数据;
Figure BDA0002186754220000133
为第l层的细粒度空间特征数据;σ(*)为激活函数;Af为细粒度空间特征数据对应的图的邻接矩阵;Λf为Af对应的特征值的对角矩阵;Wf (l)为第l层的图卷积网络的训练权重。
具体地,所述根据所述粗粒度图数据,确定骨骼序列的粗粒度空间特征数据,包括:
将所述粗粒度图数据输入到带跳接的多层粗粒度图卷积网络中,提取骨骼序列的粗粒度空间特征数据。
同时为了降低计算的复杂度,对特征值分解过程采用了切比雪夫1阶多项式进行近似计算。通过简化,所述粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递方式为:
根据公式:
Figure BDA0002186754220000134
进行粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递;
其中,
Figure BDA0002186754220000135
为第l+1层的粗粒度空间特征数据;
Figure BDA0002186754220000136
为第l层的粗粒度空间特征数据;σ(*)为激活函数;Ac为粗粒度空间特征数据对应的图的邻接矩阵;Λc为Ac对应的特征值的对角矩阵;Wc (l)为第l层的多层粗粒度图卷积网络的训练权重。
进一步地,所述根据所述细粒度空间特征数据和所述粗粒度空间特征数据,确定骨骼序列的空间特征信息,包括:
根据公式:H=concat(Hf,Hc),确定骨骼序列的空间特征信息;
其中,H为骨骼序列的空间特征信息;Hf为细粒度空间特征数据;Hc为粗粒度空间特征数据;concat(*)为连接函数。
也就是说,在空间特征提取阶段,本发明实施例采用一种端到端的粗、细粒度图数据卷积相结合的双流骨骼序列空间特征提取结构。如图4所示,骨骼序列样本数据以细粒度关键节点的图数据(即细粒度图数据)形式送入到多层带跳接的图卷积网络(GCN)提取细粒度空间特征数据Hf;另外,原始的样本数据(即细粒度图数据)通过多层感知机网络MLP提取出对应的粗粒度图数据Xc送入到带跳接的多层粗粒度图卷积网络中,提取出粗粒度空间特征数据Hc;且粗、细粒度图数据提取网络采用了并行的方式分别提取特征,并最终连接形成总的骨骼序列的空间特征信息H。
下面对获取时间域特征进行具体说明如下。
具体地,获取时间域特征的实现方式为:
获取每个时间帧的骨骼序列对应的注意力加权值;
根据所述注意力加权值,获取每个时间帧的骨骼序列的时间特征信息。
进一步需要说明的是,本发明实施例中获取注意力加权值的具体实现方式为:
首先,获取每个时间帧的骨骼序列对应的速度特征;
需要说明的是,本发明实施例中采用公式:xt-xt-1,来确定每个时间帧的骨骼序列对应的速度特征;
其中,xt为第t个时间帧的骨骼序列;xt-1为第t-1个时间帧的骨骼序列。
需要说明的是,本实施例中是将前后两个时间帧中的相同关键点的位置变化作为速度特征。
其次,根据所述速度特征,确定每个时间帧的骨骼序列的注意力特征;
需要说明的是,本发明实施例中,利用双向长短记忆网络(Bi-LSTM)对速度特征进行提取,获取每个时间帧的注意力特征,即速度特征作为时间序列被送入标准的Bi-LSTM中,最终输出时间域的骨骼序列的注意力特征,需要说明的是,较单向的LSTM而言,Bi-LSTM能更好地捕获输入特征中上下文的信息,速度特征作为时间序列,提取到的速度特征St作为时间序列送入Bi-LSTM完成时间特征的提取。
最后,根据所述注意力特征,获取每个时间帧的骨骼序列的注意力加权值;
需要说明的是,本发明实施例中,将所述注意力特征利用全连接层和激活层分别完成多特征的融合和非线性的映射,获取每个时间帧的骨骼序列的注意力加权值。
需要说明的是,在得到每个时间帧的注意力加权值后,将该加权值与每个时间帧的骨骼序列进行相乘运算,得到加权后的特征信息,然后将该特征信息利用长短记忆网络进行提取,得到整个样本(需要说明的是,本发明实施例中,一个样本包括多个骨骼序列)的骨骼序列的时间特征信息。
具体地,在时间特征提取阶段,本发明实施例设计了一种新的基于多特征注意力的时间域骨骼序列信息提取方式。如图5所示,该提取方式的主提取模型是上面通道的LSTM网络,将输入特征xt(即原始输入特征)通过主网络LTSM的提取后输出提取后的特征yt。为了更好的提取关键时段的信息,本发明实施例设计了一种新的注意力门机制(图5中虚线部分所示),与传统的注意力门机制不同,该结构综合采用了骨骼序列的坐标特征(即xt)和速度特征xt-xt-1(即骨骼序列的前后两帧的差分)来产生注意力加权αt,利用该注意力加权αt对输入的时间帧数据进行加权,得到加权后的特征信息xta,利用该xta得到yt的具体计算公式为:yt=LSTM(xta),LSTM(*)为长短记忆网络提取函数。
需要说明的是,为了提升对于速度特征的提取效率,采用了Bi-LSTM提取速度域注意力特征hv,将xt和hv通过全连接层(FC Layer)融合在一起,融合后的特征通过激活层(RELU)实现非线性映射,最终得到注意力加权αt;具体地计算公式为:αt=RELU(w1*xt+w2*hv+b)。其中,w1、w2为权重,b为偏置,RELU(*)为非线性映射函数。
需要说明的是,本发明实施例所采用的注意力门机制能够较好的提取时间域信息,进而能够提高骨架行为识别的准确性。
最后需要说明的是,通过网络空间和时间阶段的特征提取,得到了骨架行为序列样本的时间域特征和空间域特征;基于该时间域特征和空间域特征可以确定所述骨骼序列所对应的骨架行为,本发明实施例中采用如下方式进行骨架行为的确定:
将所述时间特征信息和所述空间特征信息输入全连接层,获取骨骼序列对应的分类得分向量;对所述分类得分向量进行归一化处理,获取骨骼序列对应的每一分类的概率;确定骨骼序列对应的分类的概率最大的第一分类,将所述第一分类确定为骨骼序列对应的骨架行为。
具体地,将提取到的时间域特征和空间域特征,送到全连接层,将输出特征降低到分类所需类别维度c,得到分类得分向量S(维度为c),然后通过softmax(归一化指数)函数可以得到该分类得分向量S相对每个类别的归一化分类得分向量D(维度为c),该归一化分类得分向量D对应每一类别的得分,需要说明的是,由该归一化分类得分向量D可以得到骨骼序列对应的每一分类的概率,选择D中得分最大的那一类作为识别的分类结果,例如,由归一化分类得分向量D确定的骨骼序列对应的分类A(对应爬坡)的概率为0.5、对应的分类B(对应跌倒)的概率为0.65,对应的分类C(对应跑步)的概率为0.85,因分类C的概率最大,则最终确定骨架行为属于分类C,即骨架行为对应跑步。
具体地,该softmax函数可以采用如下公式实现:Si=ei/∑j ej,其中,i、j取值为{1,2,…,c},Si表示样本属于第i类的得分。
这里需要说明的是,softmax函数是深度学习里完成分类的通用方法,它产生了输出特征对应各分类的概率,选择所属概率最大的那一类作为识别的分类。
下面对本发明实施例的实现方式进行具体说明如下:
如图6所示,本发明实施例的基于人体骨骼序列进行行为识别的神经网络架构可以分为“粗粒度图数据提取”、“空间特征提取”、“时间特征提取”和“分类”4个阶段。
在粗粒度图数据提取阶段,采用了多层感知机网络对细粒度图数据中的部件节点数据进行提取,生成对应粗粒度图中的部件节点数据;然后,将细粒度图数据和粗粒度图数据分别送入两个并行的图卷积网络进行空间信息提取,通过并行提取可以得到细粒度关键点特征和粗粒度部件顶点特征,这两类特征通过连接的方式进行融合;融合后送入LSTM进行时间特征提取;最后,将提取的时间特征数据和空间特征数据通过softmax层完成分类输出。
本发明实施例提出了一种新的端到端粗、细粒度时空图卷积骨骼行为识别网络架构,与现有行为识别方法相比,其主要具有以下优点:
在空间域,新设计了关于人体部件的图描述结构,并给出了自动提取人体部件结构的图描述方法;新设计了粗、细粒度图描述并行的空间域特征提取网络结构,可以更好的综合基于部件图和关键点图提取空间域的特征;
在时间域,综合各帧数据的位置和速度信息,对送入主网络的数据进行注意力加权,可以更有效的提取时间域的信息。
综上可知,本发明实施例通过从空间和时间两个层面对特征进行提取,丰富了特征提取的维度,增强了骨架行为识别的准确性。
如图7所示,本发明实施例的骨架行为识别装置70,包括:
第一获取模块71,用于根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据;
第二获取模块72,用于根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息;
第三获取模块73,用于获取骨骼序列的时间特征信息;
确定模块74,用于根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为;
其中,所述原始输入特征为人体关节各个关键点坐标数据和各个关键点的连接关系。
可选地,所述第一获取模块71,用于:
利用多个多层感知机网络映射关系,将骨骼序列的原始输入特征变换为粗粒度图数据;
其中,
Figure BDA0002186754220000171
Xc为粗粒度图数据;R为实数;N为骨骼序列的个数;C为坐标通道;T为时间帧的个数;Vc为粗粒度图数据中每个骨骼序列的关键点的个数。
具体地,所述粗粒度图数据中每个骨骼序列的关键点的个数为6个。
可选地,所述第二获取模块72,包括:
第一确定单元,用于根据所述原始输入特征,确定骨骼序列的细粒度空间特征数据;
第二确定单元,用于根据所述粗粒度图数据,确定骨骼序列的粗粒度空间特征数据;
第三确定单元,用于根据所述细粒度空间特征数据和所述粗粒度空间特征数据,确定骨骼序列的空间特征信息。
进一步地,所述第一确定单元,用于:
将所述原始输入特征输入到多层带跳接的图卷积网络,提取骨骼序列的细粒度空间特征数据。
具体地,所述细粒度空间特征数据在图卷积网络的层间传递方式为:
根据公式:
Figure BDA0002186754220000181
进行细粒度空间特征数据在图卷积网络的层间传递;
其中,
Figure BDA0002186754220000182
为第l+1层的细粒度空间特征数据;
Figure BDA0002186754220000183
为第l层的细粒度空间特征数据;σ(*)为激活函数;Af为细粒度空间特征数据对应的图的邻接矩阵;Λf为Af对应的特征值的对角矩阵;Wf (l)为第l层的图卷积网络的训练权重。
进一步地,所述第二确定单元,用于:
将所述粗粒度图数据输入到带跳接的多层粗粒度图卷积网络中,提取骨骼序列的粗粒度空间特征数据。
具体地,所述粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递方式为:
根据公式:
Figure BDA0002186754220000184
进行粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递;
其中,
Figure BDA0002186754220000185
为第l+1层的粗粒度空间特征数据;
Figure BDA0002186754220000186
为第l层的粗粒度空间特征数据;σ(*)为激活函数;Ac为粗粒度空间特征数据对应的图的邻接矩阵;Λc为Ac对应的特征值的对角矩阵;Wc (l)为第l层的多层粗粒度图卷积网络的训练权重。
进一步地,所述第三确定单元,用于:
根据公式:H=concat(Hf,Hc),确定骨骼序列的空间特征信息;
其中,H为骨骼序列的空间特征信息;Hf为细粒度空间特征数据;Hc为粗粒度空间特征数据;concat(*)为连接函数。
可选地,所述第三获取模块73,包括:
第一获取单元,用于获取每个时间帧的骨骼序列对应的注意力加权值;
第二获取单元,用于根据所述注意力加权值,获取每个时间帧的骨骼序列的时间特征信息。
进一步地,所述第一获取单元,包括:
第一获取子单元,用于获取每个时间帧的骨骼序列对应的速度特征;
确定子单元,用于根据所述速度特征,确定每个时间帧的骨骼序列的注意力特征;
第二获取子单元,用于根据所述注意力特征,获取每个时间帧的骨骼序列的注意力加权值。
具体地,所述第一获取子单元,用于:
根据公式:xt-xt-1,确定每个时间帧的骨骼序列对应的速度特征;
其中,xt为第t个时间帧的骨骼序列;xt-1为第t-1个时间帧的骨骼序列。
具体地,所述确定子单元,用于:
利用双向长短记忆网络对速度特征进行提取,获取每个时间帧的骨骼序列的注意力特征。
具体地,所述第二获取子单元,用于:
将所述注意力特征利用全连接层和激活层分别完成多特征的融合和非线性的映射,获取每个时间帧的骨骼序列的注意力加权值。
具体地,所述确定模块74,包括:
第三获取单元,用于将所述时间特征信息和所述空间特征信息输入全连接层,获取骨骼序列对应的分类得分向量;
第四获取单元,用于对所述分类得分向量进行归一化处理,获取骨骼序列对应的每一分类的概率;
第四确定单元,用于确定骨骼序列对应的分类的概率最大的第一分类,将所述第一分类确定为骨骼序列对应的骨架行为。
需要说明的是,本发明实施例提供的装置是能够执行上述骨架行为识别方法的装置,则上述骨架行为识别方法实施例中的所有实现方式均适用于该装置,且均能达到相同或相似的有益效果。
本发明实施例还提供一种骨架行为识别装置,包括收发机和处理器;
所述处理器,用于根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据;
根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息;
获取骨骼序列的时间特征信息;
根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为;
其中,所述原始输入特征为人体关节各个关键点坐标数据和各个关键点的连接关系。
可选地,所述处理器执行所述根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据时,用于实现:
利用多个多层感知机网络映射关系,将骨骼序列的原始输入特征变换为粗粒度图数据;
其中,
Figure BDA0002186754220000201
Xc为粗粒度图数据;R为实数;N为骨骼序列的个数;C为坐标通道;T为时间帧的个数;Vc为粗粒度图数据中每个骨骼序列的关键点的个数。
具体地,所述粗粒度图数据中每个骨骼序列的关键点的个数为6个。
可选地,所述处理器执行所述根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息时,用于实现:
根据所述原始输入特征,确定骨骼序列的细粒度空间特征数据;
根据所述粗粒度图数据,确定骨骼序列的粗粒度空间特征数据;
根据所述细粒度空间特征数据和所述粗粒度空间特征数据,确定骨骼序列的空间特征信息。
进一步地,所述处理器执行所述根据所述原始输入特征,确定骨骼序列的细粒度空间特征数据时,用于实现:
将所述原始输入特征输入到多层带跳接的图卷积网络,提取骨骼序列的细粒度空间特征数据。
具体地,所述细粒度空间特征数据在图卷积网络的层间传递方式为:
根据公式:
Figure BDA0002186754220000211
进行细粒度空间特征数据在图卷积网络的层间传递;
其中,
Figure BDA0002186754220000212
为第l+1层的细粒度空间特征数据;
Figure BDA0002186754220000213
为第l层的细粒度空间特征数据;σ(*)为激活函数;Af为细粒度空间特征数据对应的图的邻接矩阵;Λf为Af对应的特征值的对角矩阵;Wf (l)为第l层的图卷积网络的训练权重。
进一步地,所述处理器执行所述根据所述粗粒度图数据,确定骨骼序列的粗粒度空间特征数据时,用于实现:
将所述粗粒度图数据输入到带跳接的多层粗粒度图卷积网络中,提取骨骼序列的粗粒度空间特征数据。
具体地,所述粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递方式为:
根据公式:
Figure BDA0002186754220000214
进行粗粒度空间特征数据在多层粗粒度图卷积网络的层间传递;
其中,
Figure BDA0002186754220000215
为第l+1层的粗粒度空间特征数据;
Figure BDA0002186754220000216
为第l层的粗粒度空间特征数据;σ(*)为激活函数;Ac为粗粒度空间特征数据对应的图的邻接矩阵;Λc为Ac对应的特征值的对角矩阵;Wc (l)为第l层的多层粗粒度图卷积网络的训练权重。
进一步地,所述处理器执行所述根据所述细粒度空间特征数据和所述粗粒度空间特征数据,确定骨骼序列的空间特征信息时,用于实现:
根据公式:H=concat(Hf,Hc),确定骨骼序列的空间特征信息;
其中,H为骨骼序列的空间特征信息;Hf为细粒度空间特征数据;Hc为粗粒度空间特征数据;concat(*)为连接函数。
可选地,所述处理器执行所述获取骨骼序列的时间特征信息时,用于实现:
获取每个时间帧的骨骼序列对应的注意力加权值;
根据所述注意力加权值,获取每个时间帧的骨骼序列的时间特征信息。
进一步地,所述处理器执行所述获取每个时间帧的骨骼序列对应的注意力加权值时,用于实现:
获取每个时间帧的骨骼序列对应的速度特征;
根据所述速度特征,确定每个时间帧的骨骼序列的注意力特征;
根据所述注意力特征,获取每个时间帧的骨骼序列的注意力加权值。
具体地,所述处理器执行所述获取每个时间帧的骨骼序列对应的速度特征时,用于实现:
根据公式:xt-xt-1,确定每个时间帧的骨骼序列对应的速度特征;
其中,xt为第t个时间帧的骨骼序列;xt-1为第t-1个时间帧的骨骼序列。
具体地,所述处理器执行所述根据所述速度特征,确定每个时间帧的骨骼序列的注意力特征时,用于实现:
利用双向长短记忆网络对速度特征进行提取,获取每个时间帧的骨骼序列的注意力特征。
具体地,所述处理器执行所述根据所述注意力特征,获取每个时间帧的骨骼序列的注意力加权值时,用于实现:
将所述注意力特征利用全连接层和激活层分别完成多特征的融合和非线性的映射,获取每个时间帧的骨骼序列的注意力加权值。
具体地,所述处理器执行所述根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为时,用于实现:
将所述时间特征信息和所述空间特征信息输入全连接层,获取骨骼序列对应的分类得分向量;
对所述分类得分向量进行归一化处理,获取骨骼序列对应的每一分类的概率;
确定骨骼序列对应的分类的概率最大的第一分类,将所述第一分类确定为骨骼序列对应的骨架行为。
本发明实施例还提供一种骨架行为识别装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的骨架行为识别方法实施例中的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的骨架行为识别方法实施例中的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储介质中,使得存储在该计算机可读存储介质中的指令产生包括指令装置的纸制品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他科编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。

Claims (12)

1.一种骨架行为识别方法,其特征在于,包括:
根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据;
根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息;
获取骨骼序列的时间特征信息;
根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为;
其中,所述原始输入特征为人体关节各个关键点坐标数据和各个关键点的连接关系。
2.根据权利要求1所述的骨架行为识别方法,其特征在于,所述根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据,包括:
利用多个多层感知机网络映射关系,将骨骼序列的原始输入特征变换为粗粒度图数据;
其中,
Figure FDA0002186754210000011
Xc为粗粒度图数据;R为实数;N为骨骼序列的个数;C为坐标通道;T为时间帧的个数;Vc为粗粒度图数据中每个骨骼序列的关键点的个数。
3.根据权利要求1所述的骨架行为识别方法,其特征在于,所述根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息,包括:
根据所述原始输入特征,确定骨骼序列的细粒度空间特征数据;
根据所述粗粒度图数据,确定骨骼序列的粗粒度空间特征数据;
根据所述细粒度空间特征数据和所述粗粒度空间特征数据,确定骨骼序列的空间特征信息。
4.根据权利要求3所述的骨架行为识别方法,其特征在于,所述根据所述原始输入特征,确定骨骼序列的细粒度空间特征数据,包括:
将所述原始输入特征输入到多层带跳接的图卷积网络,提取骨骼序列的细粒度空间特征数据。
5.根据权利要求3所述的骨架行为识别方法,其特征在于,所述根据所述粗粒度图数据,确定骨骼序列的粗粒度空间特征数据,包括:
将所述粗粒度图数据输入到带跳接的多层粗粒度图卷积网络中,提取骨骼序列的粗粒度空间特征数据。
6.根据权利要求1所述的骨架行为识别方法,其特征在于,所述获取骨骼序列的时间特征信息,包括:
获取每个时间帧的骨骼序列对应的注意力加权值;
根据所述注意力加权值,获取每个时间帧的骨骼序列的时间特征信息。
7.根据权利要求6所述的骨架行为识别方法,其特征在于,所述获取每个时间帧的骨骼序列对应的注意力加权值,包括:
获取每个时间帧的骨骼序列对应的速度特征;
根据所述速度特征,确定每个时间帧的骨骼序列的注意力特征;
根据所述注意力特征,获取每个时间帧的骨骼序列的注意力加权值。
8.根据权利要求7所述的骨架行为识别方法,其特征在于,所述获取每个时间帧的骨骼序列对应的速度特征,包括:
根据公式:xt-xt-1,确定每个时间帧的骨骼序列对应的速度特征;
其中,xt为第t个时间帧的骨骼序列;xt-1为第t-1个时间帧的骨骼序列。
9.根据权利要求1所述的骨架行为识别方法,其特征在于,所述根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为,包括:
将所述时间特征信息和所述空间特征信息输入全连接层,获取骨骼序列对应的分类得分向量;
对所述分类得分向量进行归一化处理,获取骨骼序列对应的每一分类的概率;
确定骨骼序列对应的分类的概率最大的第一分类,将所述第一分类确定为骨骼序列对应的骨架行为。
10.一种骨架行为识别装置,其特征在于,包括:
第一获取模块,用于根据骨骼序列的原始输入特征,获取骨骼序列的粗粒度图数据;
第二获取模块,用于根据所述粗粒度图数据和所述原始输入特征,获取骨骼序列的空间特征信息;
第三获取模块,用于获取骨骼序列的时间特征信息;
确定模块,用于根据所述时间特征信息和所述空间特征信息,确定所述骨骼序列所对应的骨架行为;
其中,所述原始输入特征为人体关节各个关键点坐标数据和各个关键点的连接关系。
11.一种骨架行为识别装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9任一项所述的骨架行为识别方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9任一项所述的骨架行为识别方法中的步骤。
CN201910817839.7A 2019-08-30 2019-08-30 一种骨架行为识别方法及装置 Pending CN112446253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910817839.7A CN112446253A (zh) 2019-08-30 2019-08-30 一种骨架行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910817839.7A CN112446253A (zh) 2019-08-30 2019-08-30 一种骨架行为识别方法及装置

Publications (1)

Publication Number Publication Date
CN112446253A true CN112446253A (zh) 2021-03-05

Family

ID=74735238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910817839.7A Pending CN112446253A (zh) 2019-08-30 2019-08-30 一种骨架行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN112446253A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861808A (zh) * 2021-03-19 2021-05-28 泰康保险集团股份有限公司 动态手势识别方法、装置、计算机设备及可读存储介质
CN113887486A (zh) * 2021-10-20 2022-01-04 山东大学 基于时空注意力增强图卷积的异常步态识别方法及系统
CN114863325A (zh) * 2022-04-19 2022-08-05 上海人工智能创新中心 动作识别方法、装置、设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537145A (zh) * 2018-03-21 2018-09-14 东北电力大学 基于时空骨骼特征及深度信念网络的人体行为识别方法
US20190019037A1 (en) * 2017-07-14 2019-01-17 Nec Laboratories America, Inc. Spatio-temporal interaction network for learning object interactions
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN109919122A (zh) * 2019-03-18 2019-06-21 中国石油大学(华东) 一种基于3d人体关键点的时序行为检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190019037A1 (en) * 2017-07-14 2019-01-17 Nec Laboratories America, Inc. Spatio-temporal interaction network for learning object interactions
CN108537145A (zh) * 2018-03-21 2018-09-14 东北电力大学 基于时空骨骼特征及深度信念网络的人体行为识别方法
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN109919122A (zh) * 2019-03-18 2019-06-21 中国石油大学(华东) 一种基于3d人体关键点的时序行为检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘智;黄江涛;冯欣;: "构建多尺度深度卷积神经网络行为识别模型", 光学精密工程, no. 03, 15 March 2017 (2017-03-15) *
杨茜;李书杰;张迎凯;刘晓平;: "多粒度运动分割的时频分析算法", 计算机辅助设计与图形学学报, no. 12, 15 December 2017 (2017-12-15) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861808A (zh) * 2021-03-19 2021-05-28 泰康保险集团股份有限公司 动态手势识别方法、装置、计算机设备及可读存储介质
CN112861808B (zh) * 2021-03-19 2024-01-23 泰康保险集团股份有限公司 动态手势识别方法、装置、计算机设备及可读存储介质
CN113887486A (zh) * 2021-10-20 2022-01-04 山东大学 基于时空注意力增强图卷积的异常步态识别方法及系统
CN114863325A (zh) * 2022-04-19 2022-08-05 上海人工智能创新中心 动作识别方法、装置、设备和计算机可读存储介质
CN114863325B (zh) * 2022-04-19 2024-06-07 上海人工智能创新中心 动作识别方法、装置、设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108564119B (zh) 一种任意姿态行人图片生成方法
CN110135249B (zh) 基于时间注意力机制和lstm的人体行为识别方法
CN111291809B (zh) 一种处理装置、方法及存储介质
Xia et al. Multi-scale mixed dense graph convolution network for skeleton-based action recognition
Nazir et al. SemAttNet: Toward attention-based semantic aware guided depth completion
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN113705769A (zh) 一种神经网络训练方法以及装置
CN113221663B (zh) 一种实时手语智能识别方法、装置及系统
CN112446253A (zh) 一种骨架行为识别方法及装置
CN113128424B (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
Zhai et al. Optical flow estimation using channel attention mechanism and dilated convolutional neural networks
CN112580720A (zh) 一种模型训练方法及装置
CN114641799A (zh) 对象检测设备、方法和系统
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN116343334A (zh) 融合关节捕捉的三流自适应图卷积模型的动作识别方法
Balemans et al. Resource efficient sensor fusion by knowledge-based network pruning
CN109784295B (zh) 视频流特征识别方法、装置、设备及存储介质
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN113887501A (zh) 行为识别方法、装置、存储介质及电子设备
CN112052795B (zh) 一种基于多尺度时空特征聚合的视频行为识别方法
Zhang et al. Visual Object Tracking via Cascaded RPN Fusion and Coordinate Attention.
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
Rostami et al. Skeleton-based action recognition using spatio-temporal features with convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination