CN114187653A - 一种基于多流融合图卷积网络的行为识别方法 - Google Patents

一种基于多流融合图卷积网络的行为识别方法 Download PDF

Info

Publication number
CN114187653A
CN114187653A CN202111356801.8A CN202111356801A CN114187653A CN 114187653 A CN114187653 A CN 114187653A CN 202111356801 A CN202111356801 A CN 202111356801A CN 114187653 A CN114187653 A CN 114187653A
Authority
CN
China
Prior art keywords
skeleton
space
joint
data
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111356801.8A
Other languages
English (en)
Inventor
金城
胡海苗
段梦梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Hangzhou Innovation Research Institute of Beihang University
Original Assignee
Fudan University
Hangzhou Innovation Research Institute of Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, Hangzhou Innovation Research Institute of Beihang University filed Critical Fudan University
Priority to CN202111356801.8A priority Critical patent/CN114187653A/zh
Publication of CN114187653A publication Critical patent/CN114187653A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于行为识别技术领域,具体为一种基于多流融合图卷积网络的行为识别方法。本发明主要通过提取并融合多类行为信息进行行为识别,分为三个阶段进行:数据预处理、特征提取、特征融合。在数据预处理阶段,提出三种骨架规范化措施,减少人体位置、摄像机视角和人体与摄像机距离等因素对人体骨架数据表示的影响;在特征提取阶段,构建骨架的全局连接图,直接学习远距离关节点之间的相互关系;在特征融合阶段,分两阶段来融合三类信息的特征。本发明针所提出的方法更加有效的利用了多类行为的互补信息,提出的骨架规范化措施使得人体骨架的表示具有仿射不变性,降低了网络的训练难度,在公开数据集上取得了较好的结果。

Description

一种基于多流融合图卷积网络的行为识别方法
技术领域
本发明属于行为识别技术领域,具体涉及一种基于多流融合图卷积网络的行为识别方法。
背景技术
行为识别的目标是识别出视频中人的行为,该技术在智慧安防、视频检索、智能照护、高级人机交互等领域均发挥着重要的作用,因此受到学术界和工业界的广泛关注。行为识别分为基于静态图像的行为识别和基于视频的行为识别两大研究方向,前者仅仅根据单张图像识别图像中人的行为,忽略了运动信息;而后者则是根据从视频中获取的图像序列来识别。基于视频的行为识别方法可以根据输入数据的不同分为两种类型:基于图像的行为识别方法和基于人体骨架的行为识别方法,前者的输入是图像序列,而后者的输入则是人体骨架序列。基于图像的行为识别方法,易受图像数据的背景环境,光照和视角等因素的影响,且该类方法需要较大的计算量,在实际应用中需要较高的算力。相比于基于图像的行为识别方法,基于人体骨架的行为识别方法更加鲁棒,不受背景环境的影响,且计算量更小,成为近年来研究的热点。人体骨架中包含关节点信息、骨骼信息和运动信息,这三类信息紧密联系且相互补充。然而,主流方法对多类信息的融合方式较为简单,未充分挖掘多类信息间的互补性。
发明内容
为解决现有技术存在的问题,本发明提出了一种基于多流融合图卷积网络的行为识别方法。该方法是针对现有模型没有很好的挖掘多类信息间互补性这一缺陷进行的改进。本发明提出的骨架规范化措施使得人体骨架的表示具有仿射不变性,降低了网络的训练难度;本发明针对现有方法对多类信息的融合方式较为简单、未充分挖掘多类信息间互补性的问题,所提出的方法能够更好的提取和融合多类行为特征,更加有效的利用了多类行为的互补信息,提高了行为识别的准确率。
本发明主要通过提取并融合多类行为信息进行行为识别,分为三个阶段进行:数据预处理、特征提取、特征融合。在数据预处理阶段,提出三种骨架规范化措施,减少人体位置、摄像机视角和人体与摄像机距离等因素对人体骨架数据表示的影响;在特征提取阶段,构建骨架的全局连接图,直接学习远距离关节点之间的相互关系;在特征融合阶段,分两阶段来融合三类信息的特征。本发明的技术方案具体介绍如下。
本发明提出一种基于多流融合图卷积网络的行为识别方法,其分为3个阶段:数据预处理、特征提取、特征融合;其中:
数据预处理阶段,利用骨架规范化模块对输入的人体骨架序列数据即关节点数据进行处理,得到规范化的人体骨架数据,然后进一步求出骨骼数据和运动数据。骨骼数据通过求得相邻关节点之间构成的向量获得,运动数据通过求得相邻帧之间的同一个关节点的位移获得。其中,人体骨架序列数据可以表示为
Figure BDA0003357559370000021
T表示骨架序列的长度,本发明中T取300,xt∈RV×C表示第t个骨架的关节点坐标,V表示人体骨架中关节点的数目,本发明中V=14,C表示关节点坐标的维度,本发明中C=3,表示每个关节点有x、y、z三个坐标。
其中,人体关节编号及其含义如下:
0:颈;1:头;2:右肩;3:右肘;4:右腕;5:左肩;6:左肘;7:左腕;
8:右臀;9:右膝;10:右踝;11:左臀;12:左膝;13:左踝。
特征提取阶段,利用时空图卷积网络分别提取关节点数据、骨骼数据和运动数据的时空特征,获得关节点特征、骨骼特征和运动特征;
特征融合阶段,利用多流特征融合网络进一步融合关节点特征、骨骼特征和运动特征,再通过分类器得到行为的预测结果;其中,利用多流特征融合网络进行融合的方法如下:
第一阶段,首先将三种特征两两拼接,将拼接后的特征输入到两个连续的图卷积单元,融合两类信息的特征;之后,将融合的特征输入到池化层;
第二阶段,池化层后连接两个全连接层,两个全连接层中有一个ReLU层,得到三个分类特征f0、f1和f2,然后融合三路特征得到总体分类特征f3,f3=f0+f1+f2
本发明中,数据预处理阶段的骨架规范化模块提出了骨架规范化方法,其包含位置规范化、视角规范化和尺度规范化三个处理步骤,具体如下:
(1)位置规范化
首先对输入骨架序列进行位置规范化处理,即给定人体骨架序列
Figure BDA0003357559370000022
其中,xt表示序列中的第t个骨架,T表示序列的长度,按下式更新所有关节点的坐标:
Figure BDA0003357559370000023
其中,xt,i表示骨架xt的第i个关节点坐标,i=0,1,…,13。记经过位置规范化处理后的骨架序列为X1,上式中的
Figure BDA0003357559370000024
即为X1的第t个骨架
Figure BDA0003357559370000025
的第i个关节点坐标。
(2)视角规范化
然后对位置规范化后的骨架序列X1进行旋转变化。具体来说,即首先根据序列X的第1个骨架x1确定旋转矩阵R,公式如下:
Figure BDA0003357559370000031
其中,向量vx、vy、vz由x1确定,分别计算如下:
(a)根据x1的2号关节和5号关节确定水平方向向量vx,:
vx=x1,5-x1,2
(b)根据下式确定vy
Figure BDA0003357559370000032
其中,v1,0表示骨架x1中1号关节点指向0号关节点的向量,即:
v1,0=x1,1-x1,0
Figure BDA0003357559370000033
表示v1,0在vx上的投影;
(c)获得vx和vy后,再按下式求与这两个向量垂直的向量vz
vz=vx×vy
然后按照下式旋转X1中所有关节点的坐标:
Figure BDA0003357559370000034
其中,
Figure BDA0003357559370000035
的第j个关节点坐标,j=0,1,…,13。记经过视角规范化处理后的骨架序列为X2,上式中的
Figure BDA0003357559370000036
即为X2的第t个骨架
Figure BDA0003357559370000037
的第j个关节点坐标。
(3)尺度规范化
最后进行尺度规范化处理,对于骨架序列X2,首先将0号和1号关节点的距离缩放到1,即按下式计算缩放因子r:
Figure BDA0003357559370000038
然后按下式更新X2中所有关节点的坐标:
Figure BDA0003357559370000039
记经过尺度规范化处理后的骨架序列为X3,上式中的
Figure BDA00033575593700000310
即为X3的第t个骨架
Figure BDA00033575593700000311
的第k个关节点坐标。
本发明中,特征提取阶段中,通过时空图卷积网络来提取关节数据、骨骼数据和运动数据的时空特征,时空图卷积网络的实现步骤如下:
(1)构建人体骨架时空图
人体骨架时空图的构建分为三步:
(a)对于骨架序列X3及人体生理上相邻的关节点集合H,H的定义如下所示,对X3中的每个
Figure BDA00033575593700000312
连接其生理上相邻的关节点,得到部分空间边,从而构建局部连接图。
H={(0,1),(0,2),(0,5),(2,3),(3,4),(5,6),(6,7),(8,9),(9,10),(11,12),(12,13)}
(b)给定集合M,M为生理上不相邻但却紧密联系的关节点集合,其定义如下所示,对给定的骨架序列X3中的每个
Figure BDA0003357559370000041
根据M建立边,得到全局连接图。与步骤(a)中得到的局部连接图组成骨架空间图GS={V,ES},其中V表示关节点集合,V={vt,i|t=1…T,i=0…N-1},T为骨架序列的长度,N为骨架中关节点的个数,且
Figure BDA0003357559370000042
ES为空间边的集合,ES={(vt, ivt,j)|(i,j)∈U},U为H和M的并集。
M={(1,4),(1,7),(4,7),(4,13),(4,10),(7,10),(7,13),(10,13)}
(c)对于步骤(b)中得到的骨架空间图GS,在相邻帧之间的骨架空间图中建立同一关节点间的时间边,得到时间边的集合ET,ET={(vt,ivt+1,i)|t=1…T-1,i=0…N-1},从而得到骨架时间图GT={V,ET},最终得到骨架时空图G={V,E},其中E={ES,ET},G={GS,GT}。
(2)时空图卷积
在步骤(1)得到的人体骨架时空图上进行时空图卷积,空间上的图卷积采用ST-GCN实现,并引入2S-AGCN中提出的两种自适应图,时间上的图卷积采用一个9×1的一维卷积来实现。
空间上的采用的卷积操作,公式如下:
Figure BDA0003357559370000043
其中,fin和fout分别为输入和输出的骨架序列矩阵;Kv=3表示卷积核大小;k为集合的序号;wk为第k个集合使用的权重参数;Ak∈RN×N为邻接矩阵;Bk和Ck为通过网络学习得到的权重参数。其中Ck的计算方式可表示为:
Figure BDA0003357559370000044
其中Wθk
Figure BDA0003357559370000045
分别表示两个1×1卷积的参数。
Figure BDA0003357559370000046
表示通过卷积得到的两个嵌入特征。
本发明中,特征提取阶段中,时空图卷积网络由一个批规范化BN层和六个连续的时空图卷积单元堆叠而成;每个时空图卷积单元结构一致,包括空间图卷积GCN-S、BN层、ReLU层、Dropout层、时间图卷积GCN-T、BN层、ReLU层和一个残差连接。
本发明中,特征融合阶段中,多流特征融合网络中设计损失函数的方法如下:
首先利用softmax分类器处理f0、f1、f2和f3四个特征,得到它们的预测概率值,分别是p0、p1、p2和p3,再构建损失函数为:
L=αL0+βL1+γL2+δL3
其中L0、L1、L2和L3分别是每一类特征对应的损失,
Figure BDA0003357559370000051
其中,c表示行为的数目;y表示样本的真实标签,α、β、γ和δ分别是每一种损失的权重。
与现有技术相比,本发明的有益效果在于:
通过骨架规范化方法使人体骨架的表示具有仿射不变性,从而降低了网络的训练难度;在时空图卷积网络中构建了局部和全局连接图,使网络同时关注人体的局部和整体;所提出的多流特征融合网络有效地融合了多种运动信息,充分挖掘了信息间的互补性,提高了行为识别的准确率。
附图说明
图1是本发明所提的基于多流融合图卷积网络的行为识别方法的流程图。
图2是人体骨架空间图,(a)是局部连接图(b)是全局连接图(c)是骨架空间图。
图3是人体骨架时空图。
图4是时空图卷积网络的网络结构。
图5是多流融合图卷积网络的网络结构。
具体实施方式
本发明提出一种基于多流融合图卷积网络的行为识别方法,主要分为三个阶段:数据预处理、特征提取、特征融合;整个网络的结构如图1所示。数据预处理阶段,利用骨架规范化模块对输入的人体骨架序列数据进行处理,得到规范化的人体骨架数据。接着再从中分别求出人体骨骼数据和人体运动数据。特征提取阶段,利用三个时空图卷积网络分别提取关节点数据、骨骼数据和运动数据的时空特征。特征融合阶段,利用多流特征融合网络分两个阶段进一步融合三种信息的特征,最后通过分类器得到行为的预测结果。
数据预处理阶段,利用骨架规范化模块对输入的人体骨架序列数据即关节点数据进行处理,得到规范化的人体骨架数据,然后进一步求出骨骼数据和运动数据。骨骼数据通过求得相邻关节点之间构成的向量获得,运动数据通过求得相邻帧之间的同一个关节点的位移获得。其中,人体骨架序列数据可以表示为
Figure BDA0003357559370000052
T表示骨架序列的长度,本发明中T取300,xt∈RV×C表示第t个骨架的关节点坐标,V表示人体骨架中关节点的数目,本发明中V=14,C表示关节点坐标的维度,本发明中C=3,表示每个关节点有x、y、z三个坐标。
其中,人体关节编号及其含义如下:
0:颈;1:头;2:右肩;3:右肘;4:右腕;5:左肩;6:左肘;7:左腕;
8:右臀;9:右膝;10:右踝;11:左臀;12:左膝;13:左踝。
特征提取阶段,利用时空图卷积网络分别提取关节点数据、骨骼数据和运动数据的时空特征,获得关节点特征、骨骼特征和运动特征;
特征融合阶段,利用多流特征融合网络进一步融合关节点特征、骨骼特征和运动特征,再通过分类器得到行为的预测结果;其中,利用多流特征融合网络进行融合的方法如下:
第一阶段,首先将三种特征两两拼接,将拼接后的特征输入到两个连续的图卷积单元,融合两类信息的特征;之后,将融合的特征输入到池化层;
第二阶段,池化层后连接两个全连接层,两个全连接层中有一个ReLU层,得到三个分类特征f0、f1和f2,然后融合三路特征得到总体分类特征f3,f3=f0+f1+f2
以下是具体步骤:
1.数据预处理
本发明中,数据预处理阶段的骨架规范化模块提出了骨架规范化方法,其包含位置规范化、视角规范化和尺度规范化三个处理步骤,具体如下:
(1)位置规范化
首先对输入骨架序列进行位置规范化处理,即给定人体骨架序列
Figure BDA0003357559370000061
其中,xt表示序列中的第t个骨架,T表示序列的长度,按下式更新所有关节点的坐标:
Figure BDA0003357559370000062
其中,xt,i表示骨架xt的第i个关节点坐标,i=0,1,…,13。记经过位置规范化处理后的骨架序列为X1,上式中的
Figure BDA0003357559370000063
即为X1的第t个骨架
Figure BDA0003357559370000064
的第i个关节点坐标。
(2)视角规范化
然后对位置规范化后的骨架序列X1进行旋转变化。具体来说,即首先根据序列X的第1个骨架x1确定旋转矩阵R,公式如下:
Figure BDA0003357559370000065
其中,向量vx、vy、vz由x1确定,分别计算如下:
(a)根据x1的2号关节和5号关节确定水平方向向量vx,:
vx=x1,5-x1,2
(b)根据下式确定vy
Figure BDA0003357559370000066
其中,v1,0表示骨架x1中1号关节点指向0号关节点的向量,即:
v1,0=x1,1-x1,0
Figure BDA0003357559370000071
表示v1,0在vx上的投影;
(c)获得vx和vy后,再按下式求与这两个向量垂直的向量vz
vz=vx×vy
然后按照下式旋转X1中所有关节点的坐标:
Figure BDA0003357559370000072
其中,
Figure BDA0003357559370000073
的第j个关节点坐标,j=0,1,…,13。记经过视角规范化处理后的骨架序列为X2,上式中的
Figure BDA0003357559370000074
即为X2的第t个骨架
Figure BDA0003357559370000075
的第j个关节点坐标。
2.特征提取
特征提取通过时空图卷积网络来提取关节数据、骨骼数据和运动数据的时空特征时空图卷积网络的实现步骤如下:
(1)构建人体骨架时空图
人体骨架时空图的构建分为三步:
(a)对于骨架序列X3及人体生理上相邻的关节点集合H,H的定义如下所示,对X3中的每个
Figure BDA0003357559370000076
连接其生理上相邻的关节点,得到部分空间边,从而构建局部连接图(如图2(a)所示)。
H={(0,1),(0,2),(0,5),(2,3),(3,4),(5,6),(6,7),(8,9),(9,10),(11,12),(12,13)}
(b)给定集合M,M为生理上不相邻但却紧密联系的关节点集合,其定义如下所示,对给定的骨架序列X3中的每个
Figure BDA0003357559370000077
根据M建立边,得到全局连接图(如图2(b)所示)。与步骤(a)中得到的局部连接图组成骨架空间图GS={V,ES},骨架空间图如图2(c)所示,其中V表示关节点集合,V={vt,i|t=1…T,i=0…N-1},T为骨架序列的长度,N为骨架中关节点的个数,且
Figure BDA0003357559370000078
ES为空间边的集合,ES={(vt,ivt,j)|(i,j)∈U},U为H和M的并集。
M={(1,4),(1,7),(4,7),(4,13),(4,10),(7,10),(7,13),(10,13)}
(c)对于步骤(b)中得到的骨架空间图GS,在相邻帧之间的骨架空间图中建立同一关节点间的时间边,得到时间边的集合ET,ET={(vt,ivt+1,i)|t=1…T-1,i=0…N-1},从而得到骨架时间图GT={V,ET},最终得到骨架时空图G={V,E},如图3所示,其中E={ES,ET},G={GS,GT}。
(2)时空图卷积
在步骤(1)得到的人体骨架时空图上进行时空图卷积,空间上的图卷积采用ST-GCN实现,并引入2S-AGCN中提出的两种自适应图,时间上的图卷积采用一个9×1的一维卷积来实现。
空间上的采用的卷积操作,公式如下:
Figure BDA0003357559370000081
其中,fin和fout分别为输入和输出的骨架序列矩阵;Kv=3表示卷积核大小;k为集合的序号;wk为第k个集合使用的权重参数;Ak∈RN×N为邻接矩阵;Bk和Ck为通过网络学习得到的权重参数。其中Ck的计算方式可表示为:
Figure BDA0003357559370000082
其中Wθk
Figure BDA0003357559370000083
分别表示两个1×1卷积的参数。
Figure BDA0003357559370000084
表示通过卷积得到的两个嵌入特征。
时空图卷积网络由一个批规范化(BN)层和六个连续的时空图卷积单元(G1至G6)堆叠而成。每个时空图卷积单元结构一致:空间图卷积(GCN-S)、BN层、ReLU层、Dropout层、时间图卷积(GCN-T)、BN层、ReLU层,一个残差连接。其结构如图4所示。
其中,时空图卷积网络的输入输出维度分别列举如下:
G1的输入维度为3×T×N,输出维度为64×T×N。
G2的输入维度为64×T×N,输出维度为64×T×N。
G3的输入维度为64×T×N,输出维度为64×T×N。
G4的输入维度为64×T×N,输出维度为
Figure BDA0003357559370000085
G5的输入维度为
Figure BDA0003357559370000086
输出维度为
Figure BDA0003357559370000087
G6的输入维度为
Figure BDA0003357559370000088
输出维度为
Figure BDA0003357559370000089
T为骨架序列的长度,N=14为人体关节点数。
3.特征融合
多流融合模块分两阶段进行;第一阶段,首先将特征提取阶段输出的三种特征两两拼接,特征的维度由
Figure BDA00033575593700000810
变化为
Figure BDA00033575593700000811
将拼接后的特征输入到两个连续的图卷积单元,融合两类信息的特征。之后,将融合的特征输入到池化层,在池化层中对N和T这两个维度进行平均池化。第二阶段,池化层后接两个全连接层,两个全连接层中有一个ReLU层,之后得到三个分类特征f0、f1和f2。然后融合三路特征得到总体分类特征f3,f3=f0+f1+f2。多流融合模块的网络结构如图5所示。
在多流融合模块中设计适用本发明的损失函数,具体为:首先利用softmax分类器处理f0、f1、f2和f3四个特征,得到它们的预测概率值,分别是p0、p1、p2和p3。据此,构建的损失函数为:
L=αL0+βL1+γL2+δL3
其中L0、L1、L2和L3分别是每一类特征对应的损失,
Figure BDA0003357559370000091
其中,c表示行为的数目;y表示样本的真实标签。α、β、γ和δ分别是每一种损失的权重。在训练过程中,采用SGD优化器,将超参数α、β、γ和δ分别设置为1、1、1、3。
实施例1
本发明提出的一种基于多流融合图卷积网络的行为识别方法,在公开数据集NTU-RGB+D 60上进行了实验,并和当前主流方法的结果进行对比。按照主流做法,实验在X-Sub和X-View两个benchmark上进行,使用Top1作为评价指标。
本发明的实验参数设置为:
在训练时,使用连续的300帧的人体骨架数据作为输入,样本数目不足300帧时,重复使用该样本进行填充,直到达到300帧。
在训练过程中,采用SGD优化器,将损失函数中的超参数α、β、γ和δ分别设置为1、1、1、3。学习率设置为0.01,并分别在第10和20个轮次将学习率缩小10倍,批次大小设置为64,总计训练30个轮次。
本发明的实验环境为:处理器为Intel(R)Xeon(R)CPU E5-2603 v4@1.70GHz,显卡为NVIDIA Titan XP 12GB,内存64GB,操作系统为Ubuntu 16.04(64位),编程语言为Python3.7.4,深度学习框架为PyTorch1.2.0。
实验结果如表1所示,可以看出,本发明所提方法在两个benchmark上的指标均优于既有方法,证实了所提方法的有效性。
表1 NTU-RGB+D数据集上的对比结果
方法名称 X-Sub X-View
2S-AGCN[1] 88.5 95.1
PR-GCN[2] 85.2 91.7
PL-GCN[3] 89.2 95.0
本发明所提方法 89.3 96.0
参考文献:
[1]Shi L,Zhang Y,Cheng J,et al.Two-stream adaptive graphconvolutional networks for skeleton-based action recognition[C]//Proceedingsof the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:12026-12035.
[2]Li S,Yi J,Farha Y A,et al.Pose Refinement Graph ConvolutionalNetwork for Skeleton-Based Action Recognition[J].IEEE Robotics and AutomationLetters,2021,6(2):1028-1035.
[3]Huang L,Huang Y,Ouyang W,et al.Part-Level Graph ConvolutionalNetworkfor Skeleton-Based Action Recognition[C]//Proceedings of the AAAIConference on Artificial Intelligence.2020,34(07):11045-11052。

Claims (5)

1.一种基于多流融合图卷积网络的行为识别方法,其特征在于,其分为3个阶段:数据预处理、特征提取、特征融合;其中:
数据预处理阶段,利用骨架规范化模块对输入的人体骨架序列数据即关节点数据进行处理,得到规范化的人体骨架序列数据,然后进一步通过求得相邻关节点之间构成的向量获得骨骼数据,通过求得相邻帧之间的同一个关节点的位移获得运动数据;其中:人体骨架序列数据表示为
Figure FDA0003357559360000011
T表示骨架序列的长度,T取300,xt∈RV×C表示第t个骨架的关节点坐标,V表示人体骨架中关节点的数目,V=14,C表示关节点坐标的维度,C=3,表示每个关节点有x、y、z三个坐标;
其中,人体关节编号及其含义如下:
0:颈;1:头;2:右肩;3:右肘;4:右腕;5:左肩;6:左肘;7:左腕;
8:右臀;9:右膝;10:右踝;11:左臀;12:左膝;13:左踝;
特征提取阶段,利用时空图卷积网络分别提取关节点数据、骨骼数据和运动数据的时空特征,获得关节点特征、骨骼特征和运动特征;
特征融合阶段,利用多流特征融合网络进一步融合关节点特征、骨骼特征和运动特征,再通过分类器得到行为的预测结果;利用多流特征融合网络进行融合的方法如下:
第一阶段,首先将三种特征两两拼接,将拼接后的特征输入到两个连续的图卷积单元,融合两类信息的特征;之后,将融合的特征输入到池化层;
第二阶段,池化层后连接两个全连接层,两个全连接层中有一个ReLU层,得到三个分类特征f0、f1和f2,然后融合三路特征得到总体分类特征f3,f3=f0+f1+f2
2.根据权利要求1所述的基于多流融合图卷积网络的行为识别方法,其特征在于,数据预处理阶段的骨架规范化模块提出了骨架规范化方法,其包含位置规范化、视角规范化和尺度规范化三个处理步骤,具体如下:
(1)位置规范化
首先对输入骨架序列进行位置规范化处理,即给定人体骨架序列
Figure FDA0003357559360000012
其中,xt表示序列中的第t个骨架,T表示序列的长度,按下式更新所有关节点的坐标:
Figure FDA0003357559360000013
其中,xt,i表示骨架xt的第i个关节点坐标,i=0,1,…,13,记经过位置规范化处理后的骨架序列为X1,上式中的
Figure FDA0003357559360000014
即为X1的第t个骨架
Figure FDA0003357559360000015
的第i个关节点坐标;
(2)视角规范化
然后对位置规范化后的骨架序列X1进行旋转变化;具体来说,即首先根据序列X的第1个骨架x1确定旋转矩阵R,公式如下:
Figure FDA0003357559360000021
其中,向量vx、vy、vz由x1确定,分别计算如下:
(a)根据x1的2号关节和5号关节确定水平方向向量vx,:
vx=x1,5-x1,2
(b)根据下式确定vy
Figure FDA0003357559360000022
其中,v1,0表示骨架x1中1号关节点指向0号关节点的向量,即:
v1,0=x1,1-x1,0
Figure FDA0003357559360000023
表示v1,0在vx上的投影;
(c)获得vx和vy后,再按下式求与这两个向量垂直的向量vz
vz=vx×vy
然后按照下式旋转X1中所有关节点的坐标:
Figure FDA0003357559360000024
其中,
Figure FDA0003357559360000025
的第j个关节点坐标,j=0,1,…,13。记经过视角规范化处理后的骨架序列为X2,上式中的
Figure FDA0003357559360000026
即为X2的第t个骨架
Figure FDA0003357559360000027
的第j个关节点坐标。
(3)尺度规范化
最后进行尺度规范化处理,对于骨架序列X2,首先将0号和1号关节点的距离缩放到1,即按下式计算缩放因子r:
Figure FDA0003357559360000028
然后按下式更新X2中所有关节点的坐标:
Figure FDA0003357559360000029
记经过尺度规范化处理后的骨架序列为X3,上式中的
Figure FDA00033575593600000210
即为X3的第t个骨架
Figure FDA00033575593600000211
的第k个关节点坐标。
3.根据权利要求1所述的基于多流融合图卷积网络的行为识别方法,其特征在于,特征提取阶段中,通过时空图卷积网络来提取关节数据、骨骼数据和运动数据的时空特征,时空图卷积网络的实现步骤如下:
(1)构建人体骨架时空图
人体骨架时空图的构建分为三步:
(a)对于骨架序列X3及人体生理上相邻的关节点集合H,H的定义如下所示,对X3中的每个
Figure FDA0003357559360000031
连接其生理上相邻的关节点,得到部分空间边,从而构建局部连接图。
H={(0,1),(0,2),(0,5),(2,3),(3,4),(5,6),(6,7),(8,9),(9,10),(11,12),(12,13)}
(b)给定集合M,M为生理上不相邻但却紧密联系的关节点集合,其定义如下所示,对给定的骨架序列X3中的每个
Figure FDA0003357559360000032
根据M建立边,得到全局连接图。与步骤(a)中得到的局部连接图组成骨架空间图GS={V,ES},其中V表示关节点集合,V={vt,i|t=1…T,i=0…N-1},T为骨架序列的长度,N为骨架中关节点的个数,且
Figure FDA0003357559360000033
ES为空间边的集合,ES={(vt,ivt,j)|(i,j)∈U},U为H和M的并集。
M={(1,4),(1,7),(4,7),(4,13),(4,10),(7,10),(7,13),(10,13)}
(c)对于步骤(b)中得到的骨架空间图GS,在相邻帧之间的骨架空间图中建立同一关节点间的时间边,得到时间边的集合ET,ET={(vt,ivt+1,i)|t=1…T-1,i=0…N-1},从而得到骨架时间图GT={V,ET},最终得到骨架时空图G={V,E},其中E={ES,ET},G={GS,GT}。
(2)时空图卷积
在步骤(1)得到的人体骨架时空图上进行时空图卷积,空间上的图卷积采用ST-GCN实现,并引入2S-AGCN中提出的两种自适应图,时间上的图卷积采用一个9×1的一维卷积来实现。
4.根据权利要求1所述的基于多流融合图卷积网络的行为识别方法,其特征在于,特征提取阶段中,时空图卷积网络由一个批规范化BN层和六个连续的时空图卷积单元堆叠而成;每个时空图卷积单元结构一致,包括空间图卷积GCN-S、BN层、ReLU层、Dropout层、时间图卷积GCN-T、BN层、ReLU层和一个残差连接。
5.根据权利要求1所述的基于多流融合图卷积网络的行为识别方法,其特征在于,特征融合阶段中,多流特征融合网络中设计损失函数的方法如下:
首先利用softmax分类器处理f0、f1、f2和f3四个特征,得到它们的预测概率值,分别是p0、p1、p2和p3,再构建损失函数为:
L=αL0+βL1+γL2+δL3
其中L0、L1、L2和L3分别是每一类特征对应的损失,
Figure FDA0003357559360000034
其中,c表示行为的数目;y表示样本的真实标签,α、β、γ和δ分别是每一种损失的权重。
CN202111356801.8A 2021-11-16 2021-11-16 一种基于多流融合图卷积网络的行为识别方法 Pending CN114187653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111356801.8A CN114187653A (zh) 2021-11-16 2021-11-16 一种基于多流融合图卷积网络的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111356801.8A CN114187653A (zh) 2021-11-16 2021-11-16 一种基于多流融合图卷积网络的行为识别方法

Publications (1)

Publication Number Publication Date
CN114187653A true CN114187653A (zh) 2022-03-15

Family

ID=80540222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111356801.8A Pending CN114187653A (zh) 2021-11-16 2021-11-16 一种基于多流融合图卷积网络的行为识别方法

Country Status (1)

Country Link
CN (1) CN114187653A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550308A (zh) * 2022-04-22 2022-05-27 成都信息工程大学 基于时空图的人体骨骼动作识别方法
CN114582030A (zh) * 2022-05-06 2022-06-03 湖北工业大学 一种基于服务机器人的行为识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550308A (zh) * 2022-04-22 2022-05-27 成都信息工程大学 基于时空图的人体骨骼动作识别方法
CN114582030A (zh) * 2022-05-06 2022-06-03 湖北工业大学 一种基于服务机器人的行为识别方法

Similar Documents

Publication Publication Date Title
CN110097568B (zh) 一种基于时空双分支网络的视频对象检测与分割方法
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN113408455B (zh) 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质
CN111310659B (zh) 基于增进式图卷积神经网络的人体动作识别方法
CN111476181A (zh) 一种人体骨架动作的识别方法
CN112052876B (zh) 一种基于改进ra-cnn的细粒度图像检测方法与系统
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN114187653A (zh) 一种基于多流融合图卷积网络的行为识别方法
Wang et al. Neural koopman pooling: Control-inspired temporal dynamics encoding for skeleton-based action recognition
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
Liu et al. Building outline delineation from VHR remote sensing images using the convolutional recurrent neural network embedded with line segment information
CN115482387A (zh) 基于多尺度类别原型的弱监督图像语义分割方法及系统
CN111882000A (zh) 一种应用于小样本细粒度学习的网络结构及方法
Lu et al. Mean shift mask transformer for unseen object instance segmentation
Li et al. Multi-view spatial-temporal network for continuous sign language recognition
Fu et al. Complementarity-aware Local-global Feature Fusion Network for Building Extraction in Remote Sensing Images
Gao et al. Context-patch representation learning with adaptive neighbor embedding for robust face image super-resolution
CN112651294A (zh) 基于多尺度融合的遮挡人体姿势识别方法
CN114973305B (zh) 一种针对拥挤人群的精确人体解析方法
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及系统
Bai et al. Skeleton-based similar action recognition through integrating the salient image feature into a center-connected graph convolutional network
CN114494703B (zh) 一种智能车间场景目标轻量级语义分割方法
CN116912670A (zh) 基于改进yolo模型的深海鱼类识别方法
CN113673540A (zh) 一种基于定位信息引导的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination