CN110427831A - 一种基于融合特征的人体动作分类方法 - Google Patents
一种基于融合特征的人体动作分类方法 Download PDFInfo
- Publication number
- CN110427831A CN110427831A CN201910614687.0A CN201910614687A CN110427831A CN 110427831 A CN110427831 A CN 110427831A CN 201910614687 A CN201910614687 A CN 201910614687A CN 110427831 A CN110427831 A CN 110427831A
- Authority
- CN
- China
- Prior art keywords
- len
- human
- indicate
- action
- coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于融合特征的人体动作分类方法,包括输入多个带标签的人体动作视频,将各动作视频转换成帧序列;使用预训练的沙漏人体姿势估计模型预测各帧的人体关节点3D坐标,得到关节点3D坐标数据集;将人体关节点坐标投影至三维平面;使用LSTM、GRU两种模型分别对投影后的数据进行特征提取,将提取的两组特征向量进行融合;基于融合后的特征训练人体动作视频分类模型,将视频数据输入训练好的人体动作视频分类模型,得到人体动作视频分类结果。本发明方法通过特征融合可挖掘人体动作的整体特征,增强模型对特征的辨别力,对于类间差别较小的动作分类更加准确。
Description
技术领域
本发明属于数据融合和动作分类技术领域,具体涉及一种基于融合特征的人体动作分类方法。
背景技术
在数据融合和动作分类技术领域中,针对人体动作分类的数据采集问题,现有技术通过体感设备或三维相机采集人的关节点坐标,需要人工标记关节点位置,数据采集的成本较大;针对人体动作的特征提取问题,现有技术主要通过编码器、解码器以及深度神经网络挖掘骨架序列之间的时空关系,在此过程中需要对时空关系建模,但是相似动作的时空差别较小,难以挖掘有区分度的特征;针对提取的特征区分度较低的问题,现有技术主要通过特征融合方法增强特征的表达性能。
朱全银,胡荣林等人已有的研究基础包括:朱松豪,刘佳伟,罗青青,胡荣林.基于关联模型的图像分割[A].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会.第26届中国控制与决策会议论文集[C].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会:《控制与决策》编辑部,2014:5.;朱松豪,刘佳伟,胡荣林.一种图像分类的新方法[A].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会.第26届中国控制与决策会议论文集[C].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会:《控制与决策》编辑部,2014:6.;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.A NovelClassifier-independent Feature Selection Algorithm for ImbalancedDatasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The CaseStudy for Price Extracting of Mobile Phone Sell Online.2011,p:282-285;QuanyinZhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast basedon Dichotomy Backfilling and Disturbance Factor Algorithm.InternationalReview on Computers and Software,2011,Vol.6(6):1089-1093;朱全银,冯万利等人申请、公开与授权的相关专利:朱全银,刘涛,严云洋,高尚兵等.一种基于OpenCV的建筑图纸标签信息检测方法.中国专利公开号:CN109002824A,2018.12.14;朱全银,许康,宗慧,冯万利等.一种基于Faster-RCNN模型的建筑构件提取方法.中国专利公开号:CN109002841A,2018.12.14;朱全银,于柿民,胡荣林,冯万利等.一种基于知识图谱的专家组合推荐方法.中国专利公开号:CN 109062961A,2018.12.21;李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。
人体姿势估计:
计算机视觉中的人体姿势估计指基于2D视频或图像,预测人体2D或3D坐标数据,从而重建人的关节、肢干的算法和系统。人体姿势估计的主要工作包括人体检测、关键点定位和关节点坐标估计。现有的沙漏人体姿势估计模型(SHN for HPE)通过使用多尺度特征捕捉人体各关节点的空间位置信息,对给定的单张RGB图像,输出人体关键点的精确坐标位置。
GRU、LSTM:
GRU、LSTM都是用于处理序列数据的神经网络模型。LSTM即长短期记忆网络,是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。GRU即门控循环单元,与LSTM功能类似,它们的区别在于GRU参数更少因此更容易收敛,但是在数据集较大的情况下LSTM表达性能更好。使用LSTM、GRU两种模型分别对投影后的数据进行特征提取,得到多种模态的特征,经融合后能够增加特征的表达性能与区分度。
特征融合:
特征融合是将不同模态、维度的特征加以融合以增加特征表达性能与区分度的一种手段,在特征提取的过程中,如果某种模态的特征质量过低、区分度较低,则可采信同一模态或其它模态的特征加以补充,以提升特征的表达能力。
Softmax:
Softmax函数,或称归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量Z压缩至另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。
在人体关节点三维坐标数据的获取方面,最近的文献主要使用体感设备或三维传感设备获取人在执行动作时的连续骨架数据帧序列,例如授权专利:王行,周晓军,李骊,盛赞.一种基于人体骨架的动作识别方法.中国专利:CN105930767B[P],2019.05.17;叶青,张丽,张永梅.一种基于三维骨骼信息的人体动作识别方法.中国专利:106022213B[P],2019.06.07;Sun J,Wang Y,Li J,et al.View-invariant gait recognition based onkinect skeleton feature[J].Multimedia Tools and Applications,2018:1-27。但是这类方法需要人工标记关节点位置,因而坐标数据采集的成本较大。为简化数据采集过程、增加相似动作之间的区分度,可采用现有的人体姿势估计模型(SHN for HPE)预测各帧的人体关节点坐标。
在人体骨架动作分类方面,最近的文献主要使用Attention机制以及Spatialtemporal Transformer机制学习骨架序列的时空特征,增加相似动作之间的区分度,从而实现动作分类。例如:Yan S,Xiong Y,Lin D.Spatial temporal graph convolutionalnetworks for skeleton-based action recognition[C]//Thirty-Second AAAIConference on Artificial Intelligence.2018;Si C,Chen W,Wang W,et al.AnAttention Enhanced Graph Convolutional LSTM Network for Skeleton-Based ActionRecognition[J].arXiv preprint arXiv:1902.09130,2019。这类方法需要对时空关系建模,但是相似动作的类间时空差别较小,难以提取有区分度的特征。
发明内容
发明目的:为解决现有技术的不足,提出一种基于融合特征的动作分类方法。
技术方案:为实现上述发明目的,本发明采用以下技术方案:
一种基于融合特征的人体动作分类方法,包括以下步骤:
(1)输入多个带标签的人体动作视频,将各动作视频转换成帧序列;
(2)使用预训练的沙漏人体姿势估计模型预测各帧的人体关节点3D坐标,得到关节点3D坐标数据集;
(3)将人体关节点坐标投影至三维平面;
(4)使用长短期记忆网络(LSTM)、门控循环单元(GRU)两种模型分别对投影后的数据进行特征提取,将提取的两组特征向量进行融合;
(5)基于融合后的特征训练人体动作视频分类模型,将视频数据输入训练好的人体动作视频分类模型,得到人体动作视频分类结果。
进一步的,所述步骤(1)的具体方法为:
(101)输入人体动作视频训练集AC,测试集Ttest,定义函数len(X)表示集合X的长度,满足len(AC):len(Ttest)=1:1;
(102)定义id、label、fnum分别为单个带标签的动作视频action的序号、标签、帧数,满足action={id,label,fnum},令AC={action0,action1,...,actionM},其中,actionM表示AC中第M个视频,全局变量M∈[1,len(AC)];
(103)定义循环变量i0用于遍历AC,i0∈[1,len(AC)],i0赋初值为1;
(104)遍历AC,如果i0≤len(AC),跳转到步骤(105),否则结束遍历AC,跳转到步骤(107),输出遍历得到的帧序列集合;
(105)将视频actioni0转换为帧序列acframei0,其中,actioni0表示集合AC中第i0个子集,满足acframei0={Img1,Img2,…,ImgN},Imgn表示acframei0中序号为n的帧,n∈[1,len(acframei0)];
(106)令i0=i0+1,跳转到步骤(104);
(107)得到帧序列集合AF={acframe1,acframe2,…,acframeM},其中,acframeM表示AF中第M组帧序列。
进一步的,所述步骤(2)的具体方法为:
(201)定义循环变量i1,用于遍历帧序列集合AF,i1∈[1,len(AF)],i1赋初值为1;
(202)遍历AF,如果i1≤len(AF),跳转到步骤(203),否则结束遍历AF,跳转到步骤(208)输出人体关节点坐标集合;
(203)定义循环变量i2,用于遍历acframei1,i2∈[1,len(acframei1)],i2赋初值为1,acframei1表示AF中第i1组帧序列;
(204)遍历acframei1,如果i2≤len(acframei1),跳转到步骤(205),否则结束遍历acframei1,跳转到步骤(207)继续循环操作;
(205)使用预训练的沙漏人体姿势估计模型(SHN for HPE)预测Imgi2中人体16个关节点对应的3D坐标集Sframe={f1,f2,…,f16},其中,Imgi2表示acframei1中第i2帧,fk=(xk,yk,zk),xk、yk、zk分别表示第k个关节点对应的横坐标、纵坐标、垂直坐标,满足k∈[1,16];
(206)令i2=i2+1,跳转到步骤(204);
(207)令i1=i1+1,跳转到步骤(202);
(208)得到人体关节点坐标集合Skeleton,满足Skeleton={Saction1,Saction2,…,SactionM},其中,SactionM表示第M组帧序列对应的人体关节点3D坐标集合。
进一步的,所述步骤(3)的具体方法为:
(301)定义循环变量i3,用于遍历Skeleton,i3∈[1,len(Skeleton)],i3赋初值为1;
(302)遍历Skeleton,如果i3≤len(Skeleton)则跳转到步骤(303),否则结束遍历Skeleton,跳转到步骤(311)输出三维坐标集合;
(303)定义循环变量i4用于遍历Sactioni3,Sactioni3表示Skeleton中第i3组人体关节点坐标集合,i4∈[1,len(Sactioni4)],i4赋值为1;
(304)遍历Sactioni3,如果i4≤len(Sactioni3)则跳转到步骤(305),否则结束遍历Sactioni4,跳转到步骤(306)继续循环操作;
(305)定义循环变量i5用于遍历Sframei4,Sframei4表示Sactioni3中的第i4帧,i5∈[1,len(Sframei4)],i5赋值为1;
(306)令i3=i3+1,跳转到步骤(302);
(307)遍历Sframei4,如果i5≤len(Sframei4)则跳转到步骤(308),否则结束遍历Sframei5,跳转到步骤(310)继续循环操作;
(308)将帧Sframei4中第i5个坐标点fi5分别向xy平面、xz平面、yz平面投影,得到投影后的2维向量XY、XZ、YZ,满足fi5=(xi5,yi5,zi5),xi5、yi5、zi5分别表示第i5个坐标点对应的横坐标、纵坐标、垂直坐标,具体公式如下:
其中,(ax,ay)表示fi5向xy轴投影后的坐标,(bx,bz)表示fi5向xz轴投影后的坐标,(cy,cz)表示fi5向yz轴投影后的坐标;
(309)令i5=i5+1,跳转到步骤(307);
(310)令i4=i4+1,跳转到步骤(304);
(311)得到所有关节点坐标投影后的数据集合Trans1、Trans2、Trans3,Trans1={id2,labe,id3,XY},Trans2={id2,label,id3,id4,XZ},Trans3={id2,label,id3,id4,YZ},其中id2、label、id3和id4分别表示动作序号、动作标签、帧序号、关节点序号;
(312)得到Skeleton投影后的数据集合Trans1、Trans2、Trans3,满足len(Trans1)=len(Trans2)=len(Trans3)。
进一步的,所述步骤(4)的具体方法为:
(401)定义SA、SB、SC分别表示Trans1、Trans2、Trans3中相同标签序号的样本,满足SA∈Trans1,SB∈Trans2,SC∈Trans3,同时跳转到步骤(402)、步骤(403);
(402)通过GRU分别提取SA、SB、SC的特征向量G1、G2、G3;
(403)通过LSTM分别提取SA、SB、SC的特征向量L1、L2、L3;
(404)通过1D卷积将G1、G2、G3转换为特征向量D1、D2、D3,将L1、L2、L3转换为特征向量D4、D5、D6具体公式如下:
其中,h(k)表示一维卷积核,u(k)表示输入的特征向量,y(k)表示输出的特征向量;
(405)将特征向量D1、D2、D3、D4、D5、D6相加融合得到特征向量D7,具体公式如下:
D7=D1+D2+D3+D4+D5+D6;
进一步的,所述步骤(5)的具体方法为:
(501)定义循环变量i6,用于分别遍历Trans1、Trans2、Trans3,i6∈[1,len(Trans1)],i6赋初值为1,已知len(Trans1)=len(Trans2)=len(Trans3);
(502)分别遍历Trans1、Trans2、Trans3,如果i6≤len(Trans1),跳转到步骤(503),否则结束遍历操作,跳转到步骤(507)得到训练好的模型;
(503)得到Trans1、Trans2、Trans3中标签序号为i6的样本Sample1、Sample2、Sample3;
(504)根据步骤(4)所述的方法处理Sample1、Sample2、Sample3,得到特征向量D7i6;
(505)将D7i6输入隐藏状态层Hidden进行训练,得到隐藏状态向量h;
具体公式如下:
ht=σ(W(hh)ht-1+W(hx)x[t]);
其中,ht表示t时刻的隐藏层状态,ht-1表示t-1时刻的隐藏层状态,x[t]表示t时刻输入的特征向量,W(hx)、W(hh)分别表示隐藏层输入、输出权重矩阵;
(506)i6=i6+1,跳转到步骤(502);
(507)得到训练好的模型Model;
(508)将人体动作视频测试集Ttest输入Model,对输出隐藏状态向量h应用Softmax运算后得到各标签预测结果TRP,TRP={plabel,rlabel},其中,plabel、rlabel分别表示预测类别标签、实际类别标签,具体公式如下:
yt=softmax(W(S)ht);
其中,yt表示t时刻Softmax的输出结果,ht表示t时刻输入的隐藏状态向量,W(S)表示Softmax输出权重矩阵。
有益效果:与现有技术相比,本发明基于已有的人体动作视频数据集,利用预训练的沙漏人体姿势估计模型,结合数据投影、LSTM-GRU特征融合对人体动作进行特征提取并分类,具体描述如下:本发明使用预训练的沙漏人体姿势估计模型预测各帧中的人体关节点3D坐标;然后,将人体关节点三维坐标数据投影至xy、xz、yz平面,以实现数据降维;将投影后的数据输入LSTM、GRU进行特征提取,将提取的不同维度(xy轴、xz轴、yz轴)、不同模态的特征进行融合,通过Softmax得到最终分类输出。上述技术方案通过有效的数据预处理和特征融合可提升特征表达的有效性以及模型对特征的辨别力,有助于简化数据采集过程,缩减从业者的工作时长,提高相关产品的运行效率。通过特征融合可挖掘人体动作的整体特征,增强模型对特征的辨别力,对于类间差别较小的动作分类更加准确。
附图说明
图1是基于融合特征的动作分类整体流程图;
图2是视频处理流程图;
图3是人体关节点3D坐标预测流程图;
图4是人体关节点3D坐标投影流程图;
图5是LSTM-GRU特征联合提取与融合流程图;
图6是训练与分类流程图。
具体实施方式
下面结合附图和具体实施例,基于采集的500个、5类动作视频进行分类,进行进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明的一种基于融合特征的动作分类方法,包括以下步骤:
(1)输入多个带标签的人体动作视频,将各人体动作视频转换成帧序列,如图2所示,具体包括以下步骤:
(101)输入人体动作视频训练集AC,测试集Ttest,定义函数len(X)表示集合X的长度,满足len(AC):len(Ttest)=1:1;
(102)定义id、label、fnum分别为单个带标签的动作视频action的序号、标签、帧数,满足action={id,label,fnum},令AC={action0,action1,...,actionM},其中,actionM表示AC中第M个视频,全局变量M∈[1,len(AC)];
(103)定义循环变量i0用于遍历AC,i0∈[1,len(AC)],i0赋初值为1;
(104)遍历AC,如果i0≤len(AC),跳转到步骤(105),否则结束遍历AC,跳转到步骤(107),输出遍历得到的帧序列集合;
(105)将视频actioni0转换为帧序列acframei0,其中,actioni0表示集合AC中第i0个子集,满足acframei0={Img1,Img2,…,ImgN},Imgn表示acframei0中序号为n的帧,n∈[1,len(acframe)];
(106)令i0=i0+1,跳转到步骤(104);
(107)得到帧序列集合AF={acframe1,acframe2,…,acframeM},其中,acframeM表示AF中第M组帧序列。
(2)使用预训练的沙漏人体姿势估计模型预测各帧的人体关节点3D坐标,得到关节点3D坐标数据集,具体如图3所示:
(201)定义循环变量i1,用于遍历帧序列集合AF,i1∈[1,len(AF)],i1赋初值为1;
(202)遍历AF,如果i1≤len(AF),跳转到步骤(203),否则结束遍历AF,跳转到步骤(208)输出人体关节点坐标集合;
(203)定义循环变量i2,用于遍历acframei1,i2∈[1,len(acframei1)],i2赋初值为1,acframei1表示AF中第i1组帧序列;
(204)遍历acframei1,如果i2≤len(acframei1),跳转到步骤(205),否则结束遍历acframei1,跳转到步骤(207)继续循环操作;
(205)使用预训练的沙漏人体姿势估计模型(SHN for HPE)预测Imgi2中人体16个关节点对应的3D坐标集Sframei2={f1,f2,…,f16},其中,Imgi2表示acframei1中第i2帧,fk=(xk,yk,zk),xk、yk、zk分别表示第k个关节点对应的横坐标、纵坐标、垂直坐标,满足k∈[1,16];
(206)i2=i2+1,跳转到步骤(204);
(207)i1=i1+1,跳转到步骤(202);
(208)得到人体关节点坐标集合Skeleton,满足Skeleton={Saction1,Saction2,…,SactionM},其中,SactionM表示第M组帧序列对应的人体关节点3D坐标集合。
(3)将人体关节点坐标投影至三维平面,具体如图4所示:
(301)定义循环变量i3,用于遍历Skeleton,i3∈[1,len(Skeleton)],i3赋初值为1;
(302)遍历Skeleton,如果i3≤len(Skeleton)则跳转到步骤(303),否则结束遍历Skeleton,跳转到步骤(311)输出三维坐标集合;
(303)定义循环变量i4用于遍历Sactioni3,Sactioni3表示Skeleton中第i3组人体关节点坐标集合,i4∈[1,len(Sactioni4)],i4赋值为1;
(304)遍历Sactioni3,如果i4≤len(Sactioni3)则跳转到步骤(305),否则结束遍历Sactioni4,跳转到步骤(306)继续循环操作;
(305)定义循环变量i5用于遍历Sframei4,Sframei4表示Sactioni3中的第i4帧,i5∈[1,len(Sframei4)],i5赋值为1;
(306)令i3=i3+1,跳转到步骤(302);
(307)遍历Sframei4,如果i5≤len(Sframei4)则跳转到步骤(308),否则结束遍历Sframei5,跳转到步骤(310)继续循环操作;
(308)将帧Sframei4中第i5个坐标点fi5分别向xy平面、xz平面、yz平面投影,得到投影后的2维向量XY、XZ、YZ,满足fi5=(xi5,yi5,zi5),xi5、yi5、zi5分别表示第i5个坐标点对应的横坐标、纵坐标、垂直坐标,具体公式如下:
其中,(ax,ay)表示fi5向xy轴投影后的坐标,(bx,bz)表示fi5向xz轴投影后的坐标,(cy,cz)表示fi5向yz轴投影后的坐标;
(309)令i5=i5+1,跳转到步骤(307);
(310)令i4=i4+1,跳转到步骤(304);
(311)得到所有关节点坐标投影后的数据集合Trans1、Trans2、Trans3,Trans1={id2,labe,id3,XY},Trans2={id2,label,id3,id4,XZ},Trans3={id2,label,id3,id4,YZ},其中id2、label、id3和id4分别表示动作序号、动作标签、帧序号、关节点序号;
(312)得到Skeleton投影后的数据集合Trans1、Trans2、Trans3,满足len(Trans1)=len(Trans2)=len(Trans3)。
(4)使用长短期记忆网络(LSTM)、门控循环单元(GRU)两种模型分别对投影后的数据进行特征提取,将提取的两组特征向量进行融合,具体如图5所示:
(401)定义SA、SB、SC分别表示Trans1、Trans2、Trans3中相同标签序号的样本,满足SA∈Trans1,SB∈Trans2,SC∈Trans3,同时跳转到步骤(402)、步骤(403);
(402)通过GRU分别提取SA、SB、SC的特征向量G1、G2、G3;
(403)通过LSTM分别提取SA、SB、SC的特征向量L1、L2、L3;
(404)通过1D卷积将G1、G2、G3转换为特征向量D1、D2、D3,将L1、L2、L3转换为特征向量D4、D5、D6具体公式如下:
其中,h(k)表示一维卷积核,u(k)表示输入的特征向量,y(k)表示输出的特征向量;
(405)将特征向量D1、D2、D3、D4、D5、D6相加融合得到特征向量D7,具体公式如下:
D7=D1+D2+D3+D4+D5+D6。
(5)基于融合后的特征训练人体动作视频分类模型,将视频数据输入训练好的人体动作视频分类模型,得到人体动作视频分类结果,具体如图6所示:
(501)定义循环变量i6,用于分别遍历Trans1、Trans2、Trans3,i6∈[1,len(Trans1)],i6赋值为1,已知len(Trans1)=len(Trans2)=len(Trans3);
(502)分别遍历Trans1、Trans2、Trans3,如果i6≤len(Trans1),跳转到步骤(503),否则结束遍历操作,跳转到步骤(507)得到训练好的模型;
(503)得到Trans1、Trans2、Trans3中标签序号为i6的样本Sample1、Sample2、Sample3;
(504)根据步骤4所述的方法处理Sample1、Sample2、Sample3,得到特征向量D7i6;
(505)将D7i6输入隐藏状态层Hidden进行训练,得到隐藏状态向量h,
具体公式如下:
ht=σ(W(hh)ht-1+W(hx)x[t]);
其中,ht表示t时刻的隐藏层状态,ht-1表示t-1时刻的隐藏层状态,x[t]表示t时刻输入的特征向量,W(hx)、W(hh)分别表示隐藏层输入、输出权重矩阵;
(506)i6=i6+1,跳转到步骤(502);
(507)得到训练好的模型Model;
(508)将人体动作视频测试集Ttest输入Model,对输出隐藏状态向量h应用Softmax运算后得到各标签预测结果TRP,TRP={plabel,rlabel},其中,plabel、rlabel分别表示预测类别标签、实际类别标签,具体公式如下:
yt=softmax(W(S)ht);
其中,yt表示t时刻Softmax的输出结果,ht表示t时刻输入的隐藏状态向量,W(S)表示Softmax输出权重矩阵。
为了更好的说明本方法的有效性,通过对5类、500个自采集的人体动作视频进行预处理,使用预训练的沙漏人体姿势估计模型预测各帧中的人体关节点3D坐标;然后,将人体关节点三维坐标数据投影至xy、xz、yz平面,以实现数据降维;将投影后的数据输入LSTM、GRU进行特征提取,将提取的多种模态特征进行融合,通过Softmax得到最终分类输出。基于融合特征的动作分类方法准确率相较传统的基于单一特征方法提升了14%,对5类、500个人体动作视频的分类准确率达96%。实验结果对比如表1所示:
表1实验结果对比表
上述方法所涉及的变量说明如下表2所示:
表2变量说明表
本发明可与计算机系统结合,从而完成人体动作自动分类。
本发明创造性的提出了一种将坐标预测方法、数据投影方法、LSTM-GRU特征联合提取方法、多模态特征融合方法相结合,经多次实验,得到人体动作视频最佳分类结果。
本发明提出的一种基于融合特征的分类方法不但可以用于动作分类,也可以用于其他序列数据的分类。
Claims (6)
1.一种基于融合特征的人体动作分类方法,其特征在于,包括以下步骤:
(1)输入多个带标签的人体动作视频,将各动作视频转换成帧序列;
(2)使用预训练的沙漏人体姿势估计模型预测各帧的人体关节点3D坐标,得到关节点3D坐标数据集;
(3)将人体关节点坐标投影至三维平面;
(4)使用长短期记忆网络(LSTM)、门控循环单元(GRU)两种模型分别对投影后的数据进行特征提取,将提取的两组特征向量进行融合;
(5)基于融合后的特征训练人体动作视频分类模型,将视频数据输入训练好的人体动作视频分类模型,得到人体动作视频分类结果。
2.根据权利要求1所述的基于融合特征的人体动作分类方法,其特征在于,所述步骤(1)的具体方法为:
(101)输入人体动作视频训练集AC,测试集Ttest,定义函数len(X)表示集合X的长度,满足len(AC):len(Ttest)=1:1;
(102)定义id、label、fnum分别为单个带标签的动作视频action的序号、标签、帧数,满足action={id,label,fnum},令AC={action0,action1,...,actionM},其中,actionM表示AC中第M个视频,全局变量M∈[1,len(AC)];
(103)定义循环变量i0用于遍历AC,i0∈[1,len(AC)],i0赋初值为1;
(104)遍历AC,如果i0≤len(AC),跳转到步骤(105),否则结束遍历AC,跳转到步骤(107),输出遍历得到的帧序列集合;
(105)将视频actioni0转换为帧序列acframei0,其中,actioni0表示集合AC中第i0个子集,满足acframei0={Img1,Img2,…,ImgN},Imgn表示acframei0中序号为n的帧,n∈[1,len(acframei0)];
(106)令i0=i0+1,跳转到步骤(104);
(107)得到帧序列集合AF={acframe1,acframe2,…,acframeM},其中,acframeM表示AF中第M组帧序列。
3.根据权利要求1所述的基于融合特征的人体动作分类方法,其特征在于,所述步骤(2)的具体方法为:
(201)定义循环变量i1,用于遍历帧序列集合AF,i1∈[1,len(AF)],i1赋初值为1;
(202)遍历AF,如果i1≤len(AF),跳转到步骤(203),否则结束遍历AF,跳转到步骤(208)输出人体关节点坐标集合;
(203)定义循环变量i2,用于遍历acframei1,i2∈[1,len(acframei1)],i2赋初值为1,acframei1表示AF中第i1组帧序列;
(204)遍历acframei1,如果i2≤len(acframei1),跳转到步骤(205),否则结束遍历acframei1,跳转到步骤(207)继续循环操作;
(205)使用预训练的沙漏人体姿势估计模型(SHN for HPE)预测Imgi2中人体16个关节点对应的3D坐标集Sframe={f1,f2,…,f16},其中,Imgi2表示acframei1中第i2帧,fk=(xk,yk,zk),xk、yk、zk分别表示第k个关节点对应的横坐标、纵坐标、垂直坐标,满足k∈[1,16];
(206)令i2=i2+1,跳转到步骤(204);
(207)令i1=i1+1,跳转到步骤(202);
(208)得到人体关节点坐标集合Skeleton,满足Skeleton={Saction1,Saction2,…,SactionM},其中,SactionM表示第M组帧序列对应的人体关节点3D坐标集合。
4.根据权利要求1所述的基于融合特征的人体动作分类方法,其特征在于,所述步骤(3)的具体方法为:
(301)定义循环变量i3,用于遍历Skeleton,i3∈[1,len(Skeleton)],i3赋初值为1;
(302)遍历Skeleton,如果i3≤len(Skeleton)则跳转到步骤(303),否则结束遍历Skeleton,跳转到步骤(311)输出三维坐标集合;
(303)定义循环变量i4用于遍历Sactioni3,Sactioni3表示Skeleton中第i3组人体关节点坐标集合,i4∈[1,len(Sactioni4)],i4赋值为1;
(304)遍历Sactioni3,如果i4≤len(Sactioni3)则跳转到步骤(305),否则结束遍历Sactioni4,跳转到步骤(306)继续循环操作;
(305)定义循环变量i5用于遍历Sframei4,Sframei4表示Sactioni3中的第i4帧,i5∈[1,len(Sframei4)],i5赋值为1;
(306)令i3=i3+1,跳转到步骤(302);
(307)遍历Sframei4,如果i5≤len(Sframei4)则跳转到步骤(308),否则结束遍历Sframei5,跳转到步骤(310)继续循环操作;
(308)将帧Sframei4中第i5个坐标点fi5分别向xy平面、xz平面、yz平面投影,得到投影后的2维向量XY、XZ、YZ,满足fi5=(xi5,yi5,zi5),xi5、yi5、zi5分别表示第i5个坐标点对应的横坐标、纵坐标、垂直坐标,具体公式如下:
其中,(ax,ay)表示fi5向xy轴投影后的坐标,(bx,bz)表示fi5向xz轴投影后的坐标,(cy,cz)表示fi5向yz轴投影后的坐标;
(309)令i5=i5+1,跳转到步骤(307);
(310)令i4=i4+1,跳转到步骤(304);
(311)得到所有关节点坐标投影后的数据集合Trans1、Trans2、Trans3,Trans1={id2,labe,id3,XY},Trans2={id2,label,id3,id4,XZ},Trans3={id2,label,id3,id4,YZ},其中id2、label、id3和id4分别表示动作序号、动作标签、帧序号、关节点序号;
(312)得到Skeleton投影后的数据集合Trans1、Trans2、Trans3,满足len(Trans1)=len(Trans2)=len(Trans3)。
5.根据权利要求1所述的基于融合特征的人体动作分类方法,其特征在于,所述步骤(4)的具体方法为:
(401)定义SA、SB、SC分别表示Trans1、Trans2、Trans3中相同标签序号的样本,满足SA∈Trans1,SB∈Trans2,SC∈Trans3,同时跳转到步骤(402)、步骤(403);
(402)通过GRU分别提取SA、SB、SC的特征向量G1、G2、G3;
(403)通过LSTM分别提取SA、SB、SC的特征向量L1、L2、L3;
(404)通过1D卷积将G1、G2、G3转换为特征向量D1、D2、D3,将L1、L2、L3转换为特征向量D4、D5、D6具体公式如下:
其中,h(k)表示一维卷积核,u(k)表示输入的特征向量,y(k)表示输出的特征向量;
(405)将特征向量D1、D2、D3、D4、D5、D6相加融合得到特征向量D7,具体公式如下:
D7=D1+D2+D3+D4+D5+D6。
6.根据权利要求1所述的基于融合特征的人体动作分类方法,其特征在于,所述步骤(5)的具体方法为:
(501)定义循环变量i6,用于分别遍历Trans1、Trans2、Trans3,i6∈[1,len(Trans1)],i6赋初值为1,已知len(Trans1)=len(Trans2)=len(Trans3);
(502)分别遍历Trans1、Trans2、Trans3,如果i6≤len(Trans1),跳转到步骤(503),否则结束遍历操作,跳转到步骤(507)得到训练好的模型;
(503)得到Trans1、Trans2、Trans3中标签序号为i6的样本Sample1、Sample2、Sample3;
(504)根据步骤(4)所述的方法处理Sample1、Sample2、Sample3,得到特征向量D7i6;
(505)将D7i6输入隐藏状态层Hidden进行训练,得到隐藏状态向量h;
具体公式如下:
ht=σ(W(hh)ht-1+W(hx)x[t]);
其中,ht表示t时刻的隐藏层状态,ht-1表示t-1时刻的隐藏层状态,x[t]表示t时刻输入的特征向量,W(hx)、W(hh)分别表示隐藏层输入、输出权重矩阵;
(506)i6=i6+1,跳转到步骤(502);
(507)得到训练好的模型Model;
(508)将人体动作视频测试集Ttest输入Model,对输出隐藏状态向量h应用Softmax运算后得到各标签预测结果TRP,TRP={plabel,rlabel},其中,plabel、rlabel分别表示预测类别标签、实际类别标签,具体公式如下:
yt=softmax(W(S)ht);
其中,yt表示t时刻Softmax的输出结果,ht表示t时刻输入的隐藏状态向量,W(S)表示Softmax输出权重矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910614687.0A CN110427831B (zh) | 2019-07-09 | 2019-07-09 | 一种基于融合特征的人体动作分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910614687.0A CN110427831B (zh) | 2019-07-09 | 2019-07-09 | 一种基于融合特征的人体动作分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427831A true CN110427831A (zh) | 2019-11-08 |
CN110427831B CN110427831B (zh) | 2022-02-11 |
Family
ID=68409100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910614687.0A Active CN110427831B (zh) | 2019-07-09 | 2019-07-09 | 一种基于融合特征的人体动作分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427831B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444879A (zh) * | 2020-04-10 | 2020-07-24 | 广东工业大学 | 一种关节劳损自主康复动作识别方法及系统 |
CN112101331A (zh) * | 2020-11-23 | 2020-12-18 | 浙江华络通信设备有限公司 | 一种安防视频融合调度方法及装置 |
CN115457518A (zh) * | 2022-08-30 | 2022-12-09 | 淮阴工学院 | 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 |
CN115937990A (zh) * | 2023-02-27 | 2023-04-07 | 珠海金智维信息科技有限公司 | 多人交互动作检测系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170220854A1 (en) * | 2016-01-29 | 2017-08-03 | Conduent Business Services, Llc | Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action |
CN108647591A (zh) * | 2018-04-25 | 2018-10-12 | 长沙学院 | 一种基于视觉-语义特征的视频中行为识别方法和系统 |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
CN108960212A (zh) * | 2018-08-13 | 2018-12-07 | 电子科技大学 | 基于端到端的人体关节点检测与分类方法 |
CN109919031A (zh) * | 2019-01-31 | 2019-06-21 | 厦门大学 | 一种基于深度神经网络的人体行为识别方法 |
-
2019
- 2019-07-09 CN CN201910614687.0A patent/CN110427831B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170220854A1 (en) * | 2016-01-29 | 2017-08-03 | Conduent Business Services, Llc | Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
CN108647591A (zh) * | 2018-04-25 | 2018-10-12 | 长沙学院 | 一种基于视觉-语义特征的视频中行为识别方法和系统 |
CN108960212A (zh) * | 2018-08-13 | 2018-12-07 | 电子科技大学 | 基于端到端的人体关节点检测与分类方法 |
CN109919031A (zh) * | 2019-01-31 | 2019-06-21 | 厦门大学 | 一种基于深度神经网络的人体行为识别方法 |
Non-Patent Citations (3)
Title |
---|
ALEJANDRO NEWELL等: "Stacked Hourglass Networks for Human Pose Estimation", 《ARXIV:1603.06937V2》 * |
曹晋其等: "基于训练图 CNN 特征的视频人体动作识别算法", 《计算机工程》 * |
李建军: "《基于图像深度信息的人体动作识别研究》", 31 December 2018, 重庆大学出版社 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444879A (zh) * | 2020-04-10 | 2020-07-24 | 广东工业大学 | 一种关节劳损自主康复动作识别方法及系统 |
CN112101331A (zh) * | 2020-11-23 | 2020-12-18 | 浙江华络通信设备有限公司 | 一种安防视频融合调度方法及装置 |
CN115457518A (zh) * | 2022-08-30 | 2022-12-09 | 淮阴工学院 | 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 |
CN115457518B (zh) * | 2022-08-30 | 2024-01-26 | 淮阴工学院 | 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 |
CN115937990A (zh) * | 2023-02-27 | 2023-04-07 | 珠海金智维信息科技有限公司 | 多人交互动作检测系统及方法 |
CN115937990B (zh) * | 2023-02-27 | 2023-06-23 | 珠海金智维信息科技有限公司 | 多人交互动作检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110427831B (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Towards more flexible and accurate object tracking with natural language: Algorithms and benchmark | |
Köpüklü et al. | You only watch once: A unified cnn architecture for real-time spatiotemporal action localization | |
CN110427831A (zh) | 一种基于融合特征的人体动作分类方法 | |
Si et al. | Skeleton-based action recognition with spatial reasoning and temporal stack learning | |
Molchanov et al. | Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural network | |
CN109858406B (zh) | 一种基于关节点信息的关键帧提取方法 | |
CN103593680B (zh) | 一种基于隐马尔科夫模型自增量学习的动态手势识别方法 | |
CN102854983B (zh) | 一种基于手势识别的人机交互方法 | |
Saleem et al. | Toward human activity recognition: a survey | |
Rodin et al. | Predicting the future from first person (egocentric) vision: A survey | |
CN111026914A (zh) | 视频摘要模型的训练方法、视频摘要生成方法及装置 | |
Liu et al. | Using unsupervised deep learning technique for monocular visual odometry | |
Voulodimos et al. | A threefold dataset for activity and workflow recognition in complex industrial environments | |
Jin et al. | Real-time action detection in video surveillance using sub-action descriptor with multi-cnn | |
Lee et al. | 3-D human behavior understanding using generalized TS-LSTM networks | |
Yan et al. | Video-text pre-training with learned regions | |
Zhang et al. | Single person pose estimation: a survey | |
Xu et al. | Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction | |
Xie et al. | Temporal‐enhanced graph convolution network for skeleton‐based action recognition | |
Zhu et al. | Tri-HGNN: Learning triple policies fused hierarchical graph neural networks for pedestrian trajectory prediction | |
CN112199994B (zh) | 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置 | |
Leonardi et al. | Exploiting multimodal synthetic data for egocentric human-object interaction detection in an industrial scenario | |
Shi et al. | Multilevel cross-aware RGBD indoor semantic segmentation for bionic binocular robot | |
Kim et al. | Genetic algorithms for video segmentation | |
Chu et al. | Multi-modal fusion sign language recognition based on residual network and attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |