CN114708649A - 基于集成学习方法融合时间注意力图卷积的行为识别方法 - Google Patents
基于集成学习方法融合时间注意力图卷积的行为识别方法 Download PDFInfo
- Publication number
- CN114708649A CN114708649A CN202210240650.8A CN202210240650A CN114708649A CN 114708649 A CN114708649 A CN 114708649A CN 202210240650 A CN202210240650 A CN 202210240650A CN 114708649 A CN114708649 A CN 114708649A
- Authority
- CN
- China
- Prior art keywords
- interactive
- time
- data
- human body
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机识别技术领域,且公开了基于集成学习方法融合时间注意力图卷积的行为识别方法,包括以下步骤:步骤一:将拍摄得到的人体交互行为视频拆分成图片帧,每个视频都拆分成148帧;步骤二:使用Openpose算法实现人体骨骼点的三维坐标点的数据提取;步骤三:使用图结构和关节点特征矩阵来描述人体骨架,对于图结构,人体骨架的图结构的构建方式为自然物理连接方式。本发明是基于集成学习方法融合时间注意力图卷积的行为识别方法,使用融合时间注意力的时空图卷积网络进行行为识别,在数据特征描述上,使用了静止三维信息流、交互信息流、运动速度流和交互运动速度流来对人体特征进行描述,丰富了特征的语义信息。
Description
技术领域
本发明涉及计算机识别技术领域,具体为基于集成学习方法融合时间注意力图卷积的行为识别方法。
背景技术
随着摄像机技术的发展,加上国家对社会安全问题越来越重视,监控摄像头被布置在社会的各个角落,用于监控行人的行为。视频监控每一分每一秒都在产生数据,如何利用计算机技术对这些视频中的行为数据进行分析,正确识别暴力交互行为,以达到减少人力资源的消耗和提高行为识别率的目的。
在现有技术中,主流的行为识别方法可分为两种,一种是基于传统的行为识别方法,另一种则是基于深度学习的行为识别方法。基于传统方法行为识别是通过手工设计和基于规则来提取行为特征,代表算法有基于Hessian矩阵的检测算子的SURF算法、基于PCA和非参数朴素贝叶斯最近邻(NBNN)分类算法等等。基于深度学习的方法是利用神经网络来提取特征,代表方法有基于CNN的3D卷积神经网络(3D CNN)、基于卷积操作和循环操作的SCNN网络、基于图卷积的SGN网络和ST-GCN网络等等。
在传统的基于RGB视频人体行为识别任务中,往往受到光照、环境背景、人体外貌变化等等诸多的影响因素。相较之下,基于人体骨架关节点的识别,有特征简单明确、不易受外观影响等优点。随着高精度深度摄像机、可穿戴式动作捕抓系统和人体姿态估计算法等姿态估计技术的发展,我们可以很容易获取人体的关节点三维坐标信息,所以基于图卷积的人体行为识别方法被广泛的应用在行为识别领域。
近年来,人体行为识别快速发展,取得了诸多成果,但准确率还是不够高,主要存在以下的问题:首先是视频中包含许多与人体行为无关的冗余信息,如背景噪声,容易对识别造成不必要的干扰;其次动作是一个序列的信息,不同时间序列的动作对行为识别的重要程度不一样,所以如何获取行为在时间维度上的变化信息和挖掘出对行为识别有影响力的时间部分也是研究重点;最后,现有的模型都简单的考虑人体骨架关键点的三维坐标,我们可以从交互信息流、运动速度流等不同模态的特征来描述人体骨架,多模态数据包含着更加丰富的语义特征,可以提高行为识别的精度。
发明内容
本发明的目的在于提供了基于集成学习方法融合时间注意力图卷积的行为识别方法,解决了上述背景所提出的问题。
为实现上述目的,本发明提供如下技术方案:基于集成学习方法融合时间注意力图卷积的行为识别方法,包括以下步骤:
步骤一:将拍摄得到的人体交互行为视频拆分成图片帧,每个视频都拆分成148帧;
步骤二:使用Openpose算法实现人体骨骼点的三维坐标点的数据提取;
步骤三:使用图结构和关节点特征矩阵来描述人体骨架,对于图结构,人体骨架的图结构的构建方式为自然物理连接方式,而关节点特征矩阵则是步骤二描述的骨骼点三维坐标张量;
步骤四:对于多模态交互特征的提取流程,首先利用关节点的三维坐标点特征信息(静止三维信息流)提取出运动速度流和交互信息流,然后通过运动速度流得到交互运动速度流,最后将交互信息流和交互运动速度流组合成交互特征矩阵;
步骤五:以人体的图结构和交互特征矩阵作为时空图卷积的输入,利用空域图卷积在空间维度方向进行特征提取,利用融合时间注意力的时间图卷积在时间维度方向进行特征提取和挖掘对行为识别有影响力的图片帧,空域卷积模块和融合时间注意力的时间图卷积模块共同组成融合时间注意力的时空图卷积模块;
步骤六:重复步骤五,重新建立一个时空图卷积模块(为了制造基分类器的差异,我们设计的两个时空图卷积模块的网络结构不一样),对其进行训练学习;
步骤七:利用前面的步骤建立起来的两个时空图卷积模块作为基分类器。为避免训练数据的随机划分对训练结果造成的差异,每个基分类器的训练数据都要经过五折交叉验证来进行训练学习,将每个基分类器的训练输出和测试输出分别整合,作为元分类器的训练数据输入和测试输入;
步骤八:使用KNN(最近邻算法)来对基分类器的预测结果数据进行决策级数据融合,最后实现行为识别分类。
优选的,步骤二中使用Openpose工具对单帧的图片进行处理,提取图片中的人体骨骼关节点的三维坐标信息,视频中包含两个人体,每个人体包括25个关节点,每个关节点包括3维坐标点,每一个动作包含着148帧图片,将每个视频对应图片帧的骨架按照时间顺序堆叠在一起,形成大小为(148,3,25,2)的张量,即为骨骼点三维坐标特征序列数据。
优选的,步骤三中的人体的图结构的表示为:G=(v,ε),其中v表示人体骨骼关节点,在本发明中v=25,ε表示为骨骼关节点之前连接的边,即为人体骨架;对于图结构,使用邻接矩阵G∈RN×N表示人体骨架,使用特征矩阵X∈RT×C×N×M表示人体关节点的特征信息;邻接矩阵G∈RN×N构建规则是:如果人体关节点i与人体关节点j存在物理自然连接,这Gij=1,否则Gij=0;根据步骤二,特征矩阵X是一个大小为(148,3,25,2)的张量。
优选的,步骤四中,多模态交互特征提取的细节如下:
对于给定的视频骨架序列,其关节点的公式描述如下:
S={Jmti|m=1,...,M,t=1,...,T,i=1,...,I}(1)
其中M为一帧视频中人体的总数,T为视频序列的总长度,I为人体骨架的总关节数,Jmti描述为视频中第m位人体在t时刻的关节点i。在正式开始训练的之前,需要对视频骨架序列S进行多样化预处理,得到单模态交互数据,并对不同的单模态交互数据进行融合,得到多模态交互数据。因为骨架关节点的三维坐标描述可通过深度摄像机或者人体姿态检测算法获得,所以下面我们给出运动速度流、交互信息流、交互运动速度流的定义公式;
运动速度流:运动速度流定义为相邻两帧中,相同人体的相同关节点之间差值。由于运动速度差是第t帧与第t-1帧的差值,那么计算得到的运动速度流就会少了第0帧的运动速度信息,所以第0帧的运动速度信息通过填补0元素的方式来扩充矩阵。定义在第m位人体的第t帧的关节点i坐标为:
Jm,t,i=(xm,t,i,ym,t,i,zm,t,i)
则在第t-1帧的关节点i坐标为:
Jm,t-1,i=(xm,t-1,i,ym,t-1,i,zm,t-1,i)
因此相邻两帧的关节运动速度流表达为:
Vm,t,i=Jm,t,i-Jm,t-1,i=
(xm,t,i-xm,t-1,i,ym,t,i-ym,t-1,i,zm,t,i-zm,t-1,i) (2)
交互信息流:交互信息流定义为相同视频帧中,不同人体相同关节点之间的差值。定义在第m位人体的第t帧的关节点i坐标为:
Jm,t,i=(xm,t,i,ym,t,i,zm,t,i)
则在第n位人体的第t帧的关节点i坐标为:
Jn,t,i=(xn,t,i,yn,t,i,zn,t,i)
因此不同人体的交互信息流表达为:
Mk,t,i=Jm,t,i-Jn,t,i=
(xm,t,i-xn,t,i,ym,t,i-yn,t,i,zm,t,i-zn,t,i) (3)
交互运动速度流:交互运动速度流定义为相同视频帧中,不同人体的相同关节点的运动速度流之间的差值。定义在第m位人体的第t帧的运动速度流为:
Vm,t,i=(αm,t,i,βm,t,i,γm,t,i)
则在第n位人体的第t帧的运动速度流为
Vn,t,i=(αn,t,i,βn,t,i,γn,t,i)
因此不同人体的交互运动速度流表达为:
MVk,t,i=Mm,t,i-Mn,t,i=
(αm,t,i-an,t,i,βm,t,i-βn,t,i,γm,t,i-γn,t,i) (4)
结合式(2)和式(4)计算得到交互运动速度流,同时结合式(3)得到交互信息流,对交互运动速度流和交互信息流进行堆叠融合,得到多模态交互数据,多模态交互数据融合定义如下:
InterFusion={MVk,t,i+Mk,t,i|k=1,...,2;t=1,...,T;i=1,...,I} (5)
优选的,步骤五中,融合时间注意力的时空图卷积模块可分为空域卷积和时间卷积,模块细节如下:
在空域中,使用人体物理连接关系构图,用下面公式来对空域图卷积进行描述:
在时间图卷积网络中,嵌入SE网络模块,引用入注意力机制,挖掘对行为识别有影响力的帧,赋予不同的权重,提高识别精度;
SE模块对空域图卷积得到的特征图进行处理,使模型对特定维度下的通道特征更加有辨识度,是一种注意力机制。SE模块的计算公式表示如下:
S=Fex(z,W)=θ(g(z,W))=θ(W2Relu(W1z)) (8)
我们利用式(7),通过利用全局平均池化,将时间维度的空间特征编码为一个全局特征,再利用式(8),得到时间维度的每一个通道的权重,最后与原来的特征矩阵相乘,得到具有加权信息的特征矩阵作为时间图卷积的输入。在时间域中,我们时间维度的构图根据每一帧对应的关节进行连接,
根据式(9),我们可以把关节特征图建模成一个C×N×T大小的张量,
这个张量类比图片的RGB特征图,具体来说,C可比做图片数据中的通道数,N可比做图片数据中的长度,T可比做图片数据中的宽度。上述的C×N×T的特征图,我们使用Kτ×1大小的卷积核在时间维度对特征图进行卷积操作,提取特征,其中Kτ是指时间维度的卷积核大小,我们使用的Kτ为3。
优选的,步骤七和步骤八中,使用KNN算法对两个融合时间注意力的时空图卷积的网络的分类结果进行决策级数据融合,细节如下:对训练数据进行五折交叉划分,均匀划分为五份数据,循环使用四份数据来对每一个基分类器模型进行训练,得到分类器模型Modelja(j=1,...,2;a=1,...,5)。Modelja模型分别用于对剩下的一份训练数据进行预测,得到预测结果根据式(10)将五份预测的训练数据进行合并,得到元分类器的训练数据TrainData。同理可得,分别使用Modelja对测试数据进行预测得到根据式(11)对测试数据进行均值法合并,得到元分类器的测试数据TestData。
将TrainData作为KNN算法的训练数据,TestData作为测试数据,重新训练一个KNN算法模型,学习不同分类器得到的特征组合,得到最终的分类结果。(Π在下面公式中表示矩阵堆叠,∑在下面公式中表示矩阵相加)
本发明提供了基于集成学习方法融合时间注意力图卷积的行为识别方法。该基于集成学习方法融合时间注意力图卷积的行为识别方法具备以下有益效果:
(1)、该基于集成学习方法融合时间注意力图卷积的行为识别方法,本发明使用融合时间注意力的时空图卷积网络进行行为识别,在数据特征描述上,使用了静止三维信息流、交互信息流、运动速度流和交互运动速度流来对人体特征进行描述,丰富了特征的语义信息;
(2)、该基于集成学习方法融合时间注意力图卷积的行为识别方法,本发明在图卷积操作中,不仅仅挖掘了空间维度和时间维度的变化信息,而且还引入了注意力机制,计算了不同时间段的动作对行为识别的贡献度,挖掘出对行为识别有影响力的行为帧;
(3)、该基于集成学习方法融合时间注意力图卷积的行为识别方法,本发明通过KNN算法对两个融合时间注意力的时空图卷积的分类结果进行决策级数据融合,以达到提高识别率的目的。
附图说明
图1为本发明的模型结构图;
图2为由基分类器得到KNN分类器训练数据的流程;
图3为由基分类器得到KNN分类器测试数据的流程;
图4为使用KNN分类器进行决策级数据融合的过程;
图5为交互行为的人体骨架图例子。
具体实施方式
如图1-5所示,本发明提供一种技术方案:基于集成学习方法融合时间注意力图卷积的行为识别方法,包括以下步骤:
步骤一:对拍摄得到的人体交互行为视频拆分成图片帧,每个视频都拆分成148帧;
步骤二:使用Openpose算法实现人体骨骼点的三维坐标点的数据提取,使用Openpose工具对单帧的图片进行处理,提取图片中的人体骨骼关节点的三维坐标信息,视频中包含两个人体,每个人体包括25个关节点,每个关节点包括3维坐标点,每一个动作包含着148帧图片,将每个视频对应图片帧的骨架按照时间顺序堆叠在一起,形成大小为(148,3,25,2)的张量,即为骨骼点三维坐标特征序列数据;
步骤三:使用图结构和关节点特征矩阵来描述人体骨架,对于图结构,人体骨架的图结构的构建方式为自然物理连接方式,而关节点特征矩阵则是步骤二描述的骨骼点三维坐标张量,步骤三中的人体的图结构的表示为:
G=(v,ε),其中v表示人体骨骼关节点,在本发明中v=25,ε表示为骨骼关节点之前连接的边,即为人体骨架;对于图结构,使用邻接矩阵G∈RN×N表示人体骨架,使用特征矩阵X∈RT×N×C×M表示人体关节点的特征信息;邻接矩阵G∈RN×N构建规则是:如果人体关节点i与人体关节点j存在物理自然连接,这Gij=1,否则Gij=0;根据步骤二,特征矩阵X是一个大小为(148,3,25,2)的张量;
步骤四:对于多模态交互特征的提取流程,首先利用关节点的三维坐标点特征信息(静止三维信息流)提取出运动速度流和交互信息流,其次通过运动速度流得到交互运动速度流,最后将交互信息流和交互运动速度流组合成交互特征矩阵,步骤四中,多模态交互特征提取的细节如下:
对于给定的视频骨架序列,其关节点的公式描述如下:
S={Jmti|m=1,...,M,t=1,...,T,i=1,...,I} (1)
其中M为一帧视频中人体的总数,T为视频序列的总长度,I为人体骨架的总关节数,Jmti描述为视频中第m位人体在t时刻的关节点i。在正式开始训练的之前,需要对视频骨架序列S进行多样化预处理,得到单模态交互数据,并对不同的单模态交互数据进行融合,得到多模态交互数据。因为骨架关节点的三维坐标描述可通过深度摄像机或者人体姿态检测算法获得,所以下面我们给出运动速度流、交互信息流、交互运动速度流的定义公式;
运动速度流:运动速度流定义为相邻两帧中,相同人体的相同关节点之间差值。由于运动速度差是第t帧与第t-1帧的差值,那么计算得到的运动速度流就会少了第0帧的运动速度信息,所以第0帧的运动速度信息通过填补0元素的方式来扩充矩阵。定义在第m位人体的第t帧的关节点i坐标为:
Jm,t,i=(xm,t,i,ym,t,i,zm,t,i)
则在第t-1帧的关节点i坐标为:
Jm,t-1,i=(xm,t-1,i,ym,t-1,i,zm,t-1,i)
因此相邻两帧的关节运动速度流表达为:
Vm,t,i=Jm,t,i-Jm,t-1,i=
(xm,t,i-xm,t-1,i,ym,t,i-ym,t-1,i,zm,t,i-zm,t-1,i) (2)
交互信息流:交互信息流定义为相同视频帧中,不同人体相同关节点之间的差值。定义在第m位人体的第t帧的关节点i坐标为:
Jm,t,i=(xm,t,i,ym,t,i,zm,t,i)
则在第n位人体的第t帧的关节点i坐标为:
Jn,t,i=(xn,t,i,yn,t,i,zn,t,i)
因此不同人体的交互信息流表达为:
Mk,t,i=Jm,t,i-Jm,t,i=
(xm,t,i-xn,t,i,ym,t,i-yn,t,i,zm,t,i-zn,t,i) (3)
交互运动速度流:交互运动速度流定义为相同视频帧中,不同人体相同运动速度流之间的差值。定义在第m位人体的第t帧的运动速度流为:
Vm,t,i=(αm,t,i,βm,t,i,γm,t,i)
则在第n位人体的第t帧的运动速度流为
Vn,t,i=(αn,t,i,βn,t,i,γn,t,i)
因此不同人体间的交互运动速度流表达为:
MVk,t,i=Mm,t,i-Mn,t,i=
(αm,t,i-αn,t,i,βm,t,i-βn,t,i,γm,t,i-γn,t,t) (4)
结合式(2)和式(4)计算得到交互运动速度流,同时结合式(3)得到交互信息流,对交互运动速度流和交互信息流进行堆叠融合,得到多模态交互数据,多模态交互数据融合定义如下:
InterFusion={MVk,t,i+Mk,t,i|k=1,...,2;t=1,...,T;i=1,...,I} (5)
步骤五:以人体的图结构和交互特征矩阵作为时空图卷积的输入,利用空域图卷积在空间维度方向进行特征提取,利用融合时间注意力的时间图卷积在时间维度方向进行特征提取和挖掘对行为识别有影响力的图片帧,空域卷积模块和融合时间注意力的时间图卷积模块共同组成融合时间注意力的时空图卷积模块,步骤五中,融合时间注意力的时空图卷积模块可分为空域卷积和时间卷积,模块细节如下:
在空域中,使用人体物理连接关系构图,用下面公式来对空域图卷积进行描述:
在时间图卷积网络中,嵌入SE网络模块,引用入注意力机制,挖掘对行为识别有影响力的帧,赋予不同的权重,提高识别精度;
SE模块对空域图卷积得到的特征图进行处理,使模型对特定维度下的通道特征更加有辨识度,是一种注意力机制。SE模块的计算公式表示如下:
S=Fex(z,W)=θ(g(z,W))=θ(W2Relu(W1z)) (8)我们利用式(7),通过利用全局平均池化,将时间维度的空间特征编码为一个全局特征,再利用式(8),得到时间维度的每一个通道的权重,最后与原来的特征矩阵相乘,得到具有加权信息的特征矩阵作为时间图卷积的输入。在时间域中,我们时间维度的构图根据每一帧对应的关节进行连接,
根据式(9),我们可以把关节特征图建模成一个C×N×T大小的张量,这个张量类比图片的RGB特征图,具体来说,C可比做图片数据中的通道数,N可比做图片数据中的长度,T可比做图片数据中的宽度。上述的C×N×T的特征图,我们使用Kτ×1大小的卷积核在时间维度对特征图进行卷积操作,提取特征,其中Kτ是指时间维度的卷积核大小,我们使用的Kr为3;
步骤六:重复步骤五,重新建立一个时空图卷积模块(为了制造基分类器的差异,我们设计的两个时空图卷积模块的网络结构不一样),对其进行训练学习;
步骤七:利用前面的步骤建立起来的两个时空图卷积模块作为基分类器。为避免训练数据的随机划分对训练结果造成的差异,每个基分类器的训练数据都要经过五折交叉验证来进行训练学习,将每个基分类器的训练输出和测试输出分别整合,作为元分类器的训练数据输入和测试输入;
步骤八:使用KNN(最近邻算法)来对基分类器的预测结果数据进行决策级数据融合,最后实现行为识别分类,使用KNN算法对两个融合时间注意力的时空图卷积的网络的分类结果进行决策级数据融合,细节如下:对训练数据进行五折交叉划分,均匀划分为五份数据,循环使用四份数据来对每一个基分类器模型进行训练,得到分类器模型Modelja(j=1,...,2;a=1,...,5)。Modelja模型分别用于对剩下的一份训练数据进行预测,得到预测结果根据式(10)将五份预测的训练数据进行合并,得到元分类器的训练数据TrainData。同理可得,分别使用Modelja对测试数据进行预测得到根据式(11)对测试数据进行均值法合并,得到元分类器的测试数据TestData。
将TrainData作为KNN算法的训练数据,TestData作为测试数据,重新训练一个KNN算法模型,学习不同分类器得到的特征组合,得到最终的分类结果。(П在下面公式中表示矩阵堆叠,∑在下面公式中表示矩阵相加)
通过使用融合时间注意力的时空图卷积网络进行行为识别,在数据特征描述上,使用了静止三维信息流、交互信息流、运动速度流和交互运动速度流来对人体特征进行描述,丰富了特征的语义信息;在图卷积操作中,不仅仅挖掘了空间维度和时间维度的变化信息,而且还引入了注意力机制,计算了不同时间段的动作对行为识别的贡献度,挖掘出对行为识别有影响力的行为帧,最后通过KNN算法对两个融合时间注意力的时空图卷积的分类结果进行决策级数据融合,以达到提高识别率的目的。
Claims (6)
1.基于集成学习方法融合时间注意力图卷积的行为识别方法,其特征在于:包括以下步骤:
步骤一:将拍摄得到的人体交互行为视频拆分成图片帧,每个视频都拆分成148帧;
步骤二:使用Openpose算法实现人体骨骼点的三维坐标点的数据提取;
步骤三:使用图结构和关节点特征矩阵来描述人体骨架,对于图结构,人体骨架的图结构的构建方式为自然物理连接方式,而关节点特征矩阵则是步骤二描述的骨骼点三维坐标张量;
步骤四:对于多模态交互特征的提取流程,首先利用关节点的三维坐标点特征信息(静止三维信息流)提取出运动速度流和交互信息流,然后通过运动速度流得到交互运动速度流,最后将交互速度流和交互运动速度流组合成交互特征矩阵;
步骤五:以人体的图结构和交互特征矩阵作为时空图卷积的输入,利用空域图卷积在空间维度方向进行特征提取,利用融合时间注意力的时间图卷积在时间维度方向进行特征提取和挖掘对行为识别有影响力的图片帧,空域卷积模块和融合时间注意力的时间图卷积模块共同组成融合时间注意力的时空图卷积模块;
步骤六:重复步骤五,重新建立一个时空图卷积模块(为了制造基分类器的差异,我们设计的两个时空图卷积模块的网络结构不一样),对其进行训练学习;
步骤七:利用前面的步骤建立起来的两个时空图卷积模块作为基分类器,为避免训练数据的随机划分对训练结果造成的差异,每个基分类器的训练数据都要经过五折交叉验证来进行训练学习,将每个基分类器的训练输出和测试输出分别整合,作为元分类器的训练数据输入和测试输入;
步骤八:使用KNN(最近邻算法)来对基分类器的预测结果数据进行决策级数据融合,最后实现行为识别分类。
2.根据权利要求1所述的基于集成学习方法融合时间注意力图卷积的行为识别方法,其特征在于:步骤二中使用Openpose工具对单帧的图片进行处理,提取图片中的人体骨骼关节点的三维坐标信息,视频中包含两个人体,每个人体包括25个关节点,每个关节点包括3维坐标点,每一个动作包含着148帧图片,将每个视频对应图片帧的骨架按照时间顺序堆叠在一起,形成大小为(148,3,25,2)的张量,即为骨骼点三维坐标特征序列数据。
3.根据权利要求1所述的基于集成学习方法融合时间注意力图卷积的行为识别方法,其特征在于:步骤三中的人体的图结构的表示为:G=(v,ε),其中v表示人体骨骼关节点,在本发明中v=25,ε表示为骨骼关节点之间连接的边,即为人体骨架;对于图结构,使用邻接矩阵G∈RN×N表示人体骨架,使用特征矩阵X∈RT×C×N×M表示人体关节点的特征信息;邻接矩阵G∈RN×N构建规则是:如果人体关节点i与人体关节点j存在物理自然连接,则Gij=1,否则Gij=0;根据步骤二,特征矩阵X是一个大小为(148,3,25,2)的张量。
4.根据权利要求1所述的基于集成学习方法融合时间注意力图卷积的行为识别方法,其特征在于:步骤四中,多模态交互特征提取的细节如下:
对于给定的视频骨架序列,其关节点的公式描述如下:
S={Jmti|m=1,...,M,t=1,...,T,i=1,...,I} (1)
其中M为一帧视频中人体的总数,T为视频序列的总长度,I为人体骨架的总关节数,Jmti描述为视频中第m位人体在t时刻的关节点i,在正式开始训练的之前,需要对视频骨架序列S进行多样化预处理,得到单模态交互数据,并对不同的单模态交互数据进行融合,得到多模态交互数据,因为骨架关节点的三维坐标描述可通过深度摄像机或者人体姿态检测算法获得,所以下面我们给出运动速度流、交互信息流、交互运动速度流的定义公式;
运动速度流:运动速度流定义为相邻两帧中,相同人体的相同关节点坐标之间差值,由于运动速度差是第t帧与第t-1帧的差值,那么计算得到的运动速度流就会少了第0帧的运动速度信息,所以第0帧的运动速度信息通过填补0元素的方式来扩充矩阵,定义在第m位人体的第t帧的关节点i坐标为:
Jm,t,i=(xm,t,i,ym,t,i,zm,t,i)
则在第t-1帧的关节点i坐标为:
Jm,t-1,i=(xm,t-1,i,ym,t-1,i,zm,t-1,i)
因此相邻两帧的关节运动速度流表达为:
Vm,t,i=Jm,t,i-Jm,t-1,i=(xm,t,i-xm,t-1,i,ym,t,i-ym,t-1,i,zm,t,i-zm,t-1,i) (2)
交互信息流:交互信息流定义为相同视频帧中,不同人体相同关节点之间的差值,定义在第m位人体的第t帧的关节点i坐标为:
Jm,t,i=(xm,t,i,ym,t,i,zm,t,i)
则在第n位人体的第t帧的关节点i坐标为:
Jn,t,i=(xn,t,i,yn,t,i,zn,t,i)
因此不同人体间的交互信息流表达为:
Mk,t,i=Jm,t,i-Jn,t,i=
(xm,t,i-xn,t,i,ym,t,i-yn,t,i,zm,t,i-zn,t,i) (3)
交互运动速度流:交互运动速度流定义为相同视频帧中,不同人体的相同关节点间运动速度流之间的差值,定义在第m位人体的第t帧的运动速度流为:
Vm,t,i=(αm,t,i,βm,t,i,γm,t,i)
则在第n位人体的第t帧的运动速度流为
Vn,t,i=(αn,t,i,βn,t,i,γn,t,i)
因此不同人体的交互运动速度流表达为:
MVk,t,i=Vm,t,i-Vn,t,i=(αm,t,i-αn,t,i,βm,t,i-βn,t,i,γm,t,i-γn,t,i) (4)
结合式(2)和式(4)计算得到交互运动速度流,同时结合式(3)得到交互信息流,对交互运动速度流和交互信息流进行堆叠融合,得到多模态交互数据,多模态交互数据融合定义如下:
InterFusion={MVk,t,i+Mk,t,i|k=1,...,2;t=1,...,T;i=1,...,I} (5) 。
5.根据权利要求1所述的基于集成学习方法融合时间注意力图卷积的行为识别方法,其特征在于:步骤五中,融合时间注意力的时空图卷积模块可分为空域卷积和时间卷积,模块细节如下:
在空域中,使用人体物理连接关系构图,用下面公式来对空域图卷积讲行描述:
在时间图卷积网络中,嵌入SE网络模块,引用入注意力机制,挖掘对行为识别有影响力的帧,赋予不同的权重,提高识别精度;
SE模块对空域图卷积得到的特征图进行处理,使模型对特定维度下的通道特征更加有辨识度,是一种注意力机制,SE模块的计算公式表示如下:
S=Fex(z,W)=θ(g(z,W))=θ(W2Relu(W1z)) (8)
我们利用式(7),通过利用全局平均池化,将时间维度的空间特征编码为一个全局特征,再利用式(8),得到时间维度的每一个通道的权重,最后与原来的特征矩阵相乘,得到具有加权信息的特征矩阵作为时间图卷积的输入,在时间域中,我们时间维度的构图根据每一帧对应的关节进行连接,
根据式(9),我们可以把关节特征图建模成一个C×N×T大小的张量,这个张量类比图片的RGB特征图,具体来说,C可比做图片数据中的通道数,N可比做图片数据中的长度,T可比做图片数据中的宽度,上述的C×N×T的特征图,我们使用Kτ×1大小的卷积核在时间维度对特征图进行卷积操作,提取特征,其中Kτ是指时间维度的卷积核大小,我们使用的Kτ为3。
6.根据权利要求1所述的基于集成学习方法融合时间注意力图卷积的行为识别方法,其特征在于:步骤七和步骤八中,使用KNN算法对两个融合时间注意力的时空图卷积的网络的分类结果进行决策级数据融合,细节如下:对训练数据进行五折交叉划分,均匀划分为五份数据,循环使用四份数据来对每一个基分类器模型进行训练,得到分类器模型Modelja(j=1,...,2;a=1,...,5),Modelja模型分别用于对剩下的一份训练数据进行预测,得到预测结果根据式(10)将五份预测的训练数据进行合并,得到元分类器的训练数据TrainData,同理可得,分别使用Modelja对测试数据进行预测得到根据式(11)对测试数据进行均值法合并,得到元分类器的测试数据TestData,
将TrainData作为KNN算法的训练数据,TestData作为测试数据,重新训练一个KNN算法模型,学习不同分类器得到的特征组合,得到最终的分类结果,(П在下面公式中表示矩阵堆叠,∑在下面公式中表示矩阵相加)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210240650.8A CN114708649A (zh) | 2022-03-10 | 2022-03-10 | 基于集成学习方法融合时间注意力图卷积的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210240650.8A CN114708649A (zh) | 2022-03-10 | 2022-03-10 | 基于集成学习方法融合时间注意力图卷积的行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114708649A true CN114708649A (zh) | 2022-07-05 |
Family
ID=82169279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210240650.8A Pending CN114708649A (zh) | 2022-03-10 | 2022-03-10 | 基于集成学习方法融合时间注意力图卷积的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708649A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147935A (zh) * | 2022-09-05 | 2022-10-04 | 浙江壹体科技有限公司 | 一种基于关节点的行为识别方法、电子设备及存储介质 |
CN116386087A (zh) * | 2023-03-31 | 2023-07-04 | 阿里巴巴(中国)有限公司 | 目标对象处理方法以及装置 |
CN116434339A (zh) * | 2023-04-13 | 2023-07-14 | 江南大学 | 基于骨架数据时空特征差异性和相关性的行为识别方法 |
-
2022
- 2022-03-10 CN CN202210240650.8A patent/CN114708649A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147935A (zh) * | 2022-09-05 | 2022-10-04 | 浙江壹体科技有限公司 | 一种基于关节点的行为识别方法、电子设备及存储介质 |
CN116386087A (zh) * | 2023-03-31 | 2023-07-04 | 阿里巴巴(中国)有限公司 | 目标对象处理方法以及装置 |
CN116386087B (zh) * | 2023-03-31 | 2024-01-09 | 阿里巴巴(中国)有限公司 | 目标对象处理方法以及装置 |
CN116434339A (zh) * | 2023-04-13 | 2023-07-14 | 江南大学 | 基于骨架数据时空特征差异性和相关性的行为识别方法 |
CN116434339B (zh) * | 2023-04-13 | 2023-10-27 | 江南大学 | 基于骨架数据时空特征差异性和相关性的行为识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | DB-LSTM: Densely-connected Bi-directional LSTM for human action recognition | |
CN112597883B (zh) | 一种基于广义图卷积和强化学习的人体骨架动作识别方法 | |
CN114708649A (zh) | 基于集成学习方法融合时间注意力图卷积的行为识别方法 | |
CN112149459B (zh) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN112530019B (zh) | 三维人体重建方法、装置、计算机设备和存储介质 | |
CN110889375B (zh) | 用于行为识别的隐双流协作学习网络及方法 | |
CN111814719A (zh) | 一种基于3d时空图卷积的骨架行为识别方法 | |
Xu et al. | Aligning correlation information for domain adaptation in action recognition | |
CN114596520A (zh) | 一种第一视角视频动作识别方法及装置 | |
CN114821640A (zh) | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 | |
Liao et al. | Ai golf: Golf swing analysis tool for self-training | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
Xia et al. | Skeleton-based action recognition based on multidimensional adaptive dynamic temporal graph convolutional network | |
CN113132737A (zh) | 基于泰勒解耦和记忆单元校正的视频预测方法 | |
Ke et al. | Spatial, structural and temporal feature learning for human interaction prediction | |
CN113033283A (zh) | 一种改进的视频分类系统 | |
Hua et al. | Scn: dilated silhouette convolutional network for video action recognition | |
CN111401209A (zh) | 一种基于深度学习的动作识别方法 | |
Kumar et al. | Light-Weight Deep Learning Model for Human Action Recognition in Videos | |
Zhang et al. | Skeleton-based action recognition with attention and temporal graph convolutional network | |
CN116311345A (zh) | 一种基于Transformer的遮挡行人重识别方法 | |
CN113673411B (zh) | 一种基于注意力机制的轻量级移位图卷积行为识别方法 | |
Fang et al. | Integrating Gaussian mixture model and dilated residual network for action recognition in videos | |
Gupta et al. | A review work: human action recognition in video surveillance using deep learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |