CN110427831A

CN110427831A - 一种基于融合特征的人体动作分类方法

Info

Publication number: CN110427831A
Application number: CN201910614687.0A
Authority: CN
Inventors: 胡荣林; 董甜甜; 朱全银; 陈青云; 姚玉婷; 邵鹤帅; 施嘉婷; 谢静; 顾晨洁
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-11-08
Anticipated expiration: 2039-07-09
Also published as: CN110427831B

Abstract

本发明公开了一种基于融合特征的人体动作分类方法，包括输入多个带标签的人体动作视频，将各动作视频转换成帧序列；使用预训练的沙漏人体姿势估计模型预测各帧的人体关节点3D坐标，得到关节点3D坐标数据集；将人体关节点坐标投影至三维平面；使用LSTM、GRU两种模型分别对投影后的数据进行特征提取，将提取的两组特征向量进行融合；基于融合后的特征训练人体动作视频分类模型，将视频数据输入训练好的人体动作视频分类模型，得到人体动作视频分类结果。本发明方法通过特征融合可挖掘人体动作的整体特征，增强模型对特征的辨别力，对于类间差别较小的动作分类更加准确。

Description

一种基于融合特征的人体动作分类方法

技术领域

本发明属于数据融合和动作分类技术领域，具体涉及一种基于融合特征的人体动作分类方法。

背景技术

在数据融合和动作分类技术领域中，针对人体动作分类的数据采集问题，现有技术通过体感设备或三维相机采集人的关节点坐标，需要人工标记关节点位置，数据采集的成本较大；针对人体动作的特征提取问题，现有技术主要通过编码器、解码器以及深度神经网络挖掘骨架序列之间的时空关系，在此过程中需要对时空关系建模，但是相似动作的时空差别较小，难以挖掘有区分度的特征；针对提取的特征区分度较低的问题，现有技术主要通过特征融合方法增强特征的表达性能。

朱全银，胡荣林等人已有的研究基础包括：朱松豪，刘佳伟，罗青青，胡荣林.基于关联模型的图像分割[A].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会.第26届中国控制与决策会议论文集[C].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会:《控制与决策》编辑部,2014:5.；朱松豪，刘佳伟，胡荣林.一种图像分类的新方法[A].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会.第26届中国控制与决策会议论文集[C].东北大学、IEEE新加坡工业电子分会、IEEE哈尔滨控制系统分会:《控制与决策》编辑部,2014:6.；李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759；Quanyin Zhu,Sunqun Cao.A NovelClassifier-independent Feature Selection Algorithm for ImbalancedDatasets.2009,p:77-82；Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The CaseStudy for Price Extracting of Mobile Phone Sell Online.2011,p:282-285；QuanyinZhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast basedon Dichotomy Backfilling and Disturbance Factor Algorithm.InternationalReview on Computers and Software,2011,Vol.6(6):1089-1093；朱全银，冯万利等人申请、公开与授权的相关专利：朱全银，刘涛，严云洋，高尚兵等.一种基于OpenCV的建筑图纸标签信息检测方法.中国专利公开号：CN109002824A,2018.12.14；朱全银，许康，宗慧，冯万利等.一种基于Faster-RCNN模型的建筑构件提取方法.中国专利公开号:CN109002841A,2018.12.14；朱全银，于柿民，胡荣林，冯万利等.一种基于知识图谱的专家组合推荐方法.中国专利公开号：CN 109062961A,2018.12.21；李翔，朱全银，胡荣林，周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。

人体姿势估计：

计算机视觉中的人体姿势估计指基于2D视频或图像，预测人体2D或3D坐标数据，从而重建人的关节、肢干的算法和系统。人体姿势估计的主要工作包括人体检测、关键点定位和关节点坐标估计。现有的沙漏人体姿势估计模型(SHN for HPE)通过使用多尺度特征捕捉人体各关节点的空间位置信息，对给定的单张RGB图像，输出人体关键点的精确坐标位置。

GRU、LSTM：

GRU、LSTM都是用于处理序列数据的神经网络模型。LSTM即长短期记忆网络，是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。GRU即门控循环单元，与LSTM功能类似，它们的区别在于GRU参数更少因此更容易收敛，但是在数据集较大的情况下LSTM表达性能更好。使用LSTM、GRU两种模型分别对投影后的数据进行特征提取，得到多种模态的特征，经融合后能够增加特征的表达性能与区分度。

特征融合：

特征融合是将不同模态、维度的特征加以融合以增加特征表达性能与区分度的一种手段，在特征提取的过程中，如果某种模态的特征质量过低、区分度较低，则可采信同一模态或其它模态的特征加以补充，以提升特征的表达能力。

Softmax：

Softmax函数，或称归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的K维向量Z压缩至另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。

在人体关节点三维坐标数据的获取方面，最近的文献主要使用体感设备或三维传感设备获取人在执行动作时的连续骨架数据帧序列，例如授权专利：王行，周晓军，李骊，盛赞.一种基于人体骨架的动作识别方法.中国专利:CN105930767B[P],2019.05.17；叶青，张丽，张永梅.一种基于三维骨骼信息的人体动作识别方法.中国专利:106022213B[P],2019.06.07；Sun J,Wang Y,Li J,et al.View-invariant gait recognition based onkinect skeleton feature[J].Multimedia Tools and Applications,2018:1-27。但是这类方法需要人工标记关节点位置，因而坐标数据采集的成本较大。为简化数据采集过程、增加相似动作之间的区分度，可采用现有的人体姿势估计模型(SHN for HPE)预测各帧的人体关节点坐标。

在人体骨架动作分类方面，最近的文献主要使用Attention机制以及Spatialtemporal Transformer机制学习骨架序列的时空特征，增加相似动作之间的区分度，从而实现动作分类。例如：Yan S,Xiong Y,Lin D.Spatial temporal graph convolutionalnetworks for skeleton-based action recognition[C]//Thirty-Second AAAIConference on Artificial Intelligence.2018；Si C,Chen W,Wang W,et al.AnAttention Enhanced Graph Convolutional LSTM Network for Skeleton-Based ActionRecognition[J].arXiv preprint arXiv:1902.09130,2019。这类方法需要对时空关系建模，但是相似动作的类间时空差别较小，难以提取有区分度的特征。

发明内容

发明目的：为解决现有技术的不足，提出一种基于融合特征的动作分类方法。

技术方案：为实现上述发明目的，本发明采用以下技术方案：

一种基于融合特征的人体动作分类方法，包括以下步骤：

(1)输入多个带标签的人体动作视频，将各动作视频转换成帧序列；

(2)使用预训练的沙漏人体姿势估计模型预测各帧的人体关节点3D坐标，得到关节点3D坐标数据集；

(3)将人体关节点坐标投影至三维平面；

(4)使用长短期记忆网络(LSTM)、门控循环单元(GRU)两种模型分别对投影后的数据进行特征提取，将提取的两组特征向量进行融合；

(5)基于融合后的特征训练人体动作视频分类模型，将视频数据输入训练好的人体动作视频分类模型，得到人体动作视频分类结果。

进一步的，所述步骤(1)的具体方法为：

(101)输入人体动作视频训练集AC，测试集Ttest，定义函数len(X)表示集合X的长度，满足len(AC)：len(Ttest)＝1:1；

(102)定义id、label、fnum分别为单个带标签的动作视频action的序号、标签、帧数，满足action＝{id，label，fnum}，令AC＝{action₀，action₁，...，action_M}，其中，action_M表示AC中第M个视频，全局变量M∈[1，len(AC)]；

(103)定义循环变量i0用于遍历AC，i0∈[1，len(AC)]，i0赋初值为1；

(104)遍历AC，如果i0≤len(AC)，跳转到步骤(105)，否则结束遍历AC，跳转到步骤(107)，输出遍历得到的帧序列集合；

(105)将视频action_i0转换为帧序列acframe_i0，其中，action_i0表示集合AC中第i0个子集，满足acframe_i0＝{Img₁，Img₂，…，Img_N}，Img_n表示acframe_i0中序号为n的帧，n∈[1，len(acframe_i0)]；

(106)令i0＝i0+1，跳转到步骤(104)；

(107)得到帧序列集合AF＝{acframe₁，acframe₂，…，acframe_M}，其中，acframe_M表示AF中第M组帧序列。

进一步的，所述步骤(2)的具体方法为：

(201)定义循环变量i1，用于遍历帧序列集合AF，i1∈[1，len(AF)]，i1赋初值为1；

(202)遍历AF，如果i1≤len(AF)，跳转到步骤(203)，否则结束遍历AF，跳转到步骤(208)输出人体关节点坐标集合；

(203)定义循环变量i2，用于遍历acframe_i1，i2∈[1，len(acframe_i1)]，i2赋初值为1，acframe_i1表示AF中第i1组帧序列；

(204)遍历acframe_i1，如果i2≤len(acframe_i1)，跳转到步骤(205)，否则结束遍历acframe_i1，跳转到步骤(207)继续循环操作；

(205)使用预训练的沙漏人体姿势估计模型(SHN for HPE)预测Img_i2中人体16个关节点对应的3D坐标集Sframe＝{f₁，f₂，…，f₁₆}，其中，Img_i2表示acframe_i1中第i2帧，f_k＝(x_k，y_k，z_k)，x_k、y_k、z_k分别表示第k个关节点对应的横坐标、纵坐标、垂直坐标，满足k∈[1，16]；

(206)令i2＝i2+1，跳转到步骤(204)；

(207)令i1＝i1+1，跳转到步骤(202)；

(208)得到人体关节点坐标集合Skeleton，满足Skeleton＝{Saction₁，Saction₂，…，Saction_M}，其中，Saction_M表示第M组帧序列对应的人体关节点3D坐标集合。

进一步的，所述步骤(3)的具体方法为：

(301)定义循环变量i3，用于遍历Skeleton，i3∈[1，len(Skeleton)]，i3赋初值为1；

(302)遍历Skeleton，如果i3≤len(Skeleton)则跳转到步骤(303)，否则结束遍历Skeleton，跳转到步骤(311)输出三维坐标集合；

(303)定义循环变量i4用于遍历Saction_i3，Saction_i3表示Skeleton中第i3组人体关节点坐标集合，i4∈[1，len(Saction_i4)]，i4赋值为1；

(304)遍历Saction_i3，如果i4≤len(Saction_i3)则跳转到步骤(305)，否则结束遍历Saction_i4，跳转到步骤(306)继续循环操作；

(305)定义循环变量i5用于遍历Sframe_i4，Sframe_i4表示Saction_i3中的第i4帧，i5∈[1，len(Sframe_i4)]，i5赋值为1；

(306)令i3＝i3+1，跳转到步骤(302)；

(307)遍历Sframe_i4，如果i5≤len(Sframe_i4)则跳转到步骤(308)，否则结束遍历Sframe_i5，跳转到步骤(310)继续循环操作；

(308)将帧Sframe_i4中第i5个坐标点f_i5分别向xy平面、xz平面、yz平面投影，得到投影后的2维向量XY、XZ、YZ，满足f_i5＝(x_i5,y_i5,z_i5)，x_i5、y_i5、z_i5分别表示第i5个坐标点对应的横坐标、纵坐标、垂直坐标，具体公式如下：

其中，(a_x,a_y)表示f_i5向xy轴投影后的坐标，(b_x,b_z)表示f_i5向xz轴投影后的坐标，(c_y,c_z)表示f_i5向yz轴投影后的坐标；

(309)令i5＝i5+1，跳转到步骤(307)；

(310)令i4＝i4+1，跳转到步骤(304)；

(311)得到所有关节点坐标投影后的数据集合Trans1、Trans2、Trans3，Trans1＝{id2，labe，id3，XY}，Trans2＝{id2，label，id3，id4，XZ}，Trans3＝{id2，label，id3，id4，YZ}，其中id2、label、id3和id4分别表示动作序号、动作标签、帧序号、关节点序号；

(312)得到Skeleton投影后的数据集合Trans1、Trans2、Trans3，满足len(Trans1)＝len(Trans2)＝len(Trans3)。

进一步的，所述步骤(4)的具体方法为：

(401)定义SA、SB、SC分别表示Trans1、Trans2、Trans3中相同标签序号的样本，满足SA∈Trans1，SB∈Trans2，SC∈Trans3，同时跳转到步骤(402)、步骤(403)；

(402)通过GRU分别提取SA、SB、SC的特征向量G1、G2、G3；

(403)通过LSTM分别提取SA、SB、SC的特征向量L1、L2、L3；

(404)通过1D卷积将G1、G2、G3转换为特征向量D1、D2、D3，将L1、L2、L3转换为特征向量D4、D5、D6具体公式如下：

其中，h(k)表示一维卷积核，u(k)表示输入的特征向量，y(k)表示输出的特征向量；

(405)将特征向量D1、D2、D3、D4、D5、D6相加融合得到特征向量D7，具体公式如下：

D7＝D1+D2+D3+D4+D5+D6；

进一步的，所述步骤(5)的具体方法为：

(501)定义循环变量i6，用于分别遍历Trans1、Trans2、Trans3，i6∈[1，len(Trans1)]，i6赋初值为1，已知len(Trans1)＝len(Trans2)＝len(Trans3)；

(502)分别遍历Trans1、Trans2、Trans3，如果i6≤len(Trans1)，跳转到步骤(503)，否则结束遍历操作，跳转到步骤(507)得到训练好的模型；

(503)得到Trans1、Trans2、Trans3中标签序号为i6的样本Sample1、Sample2、Sample3；

(504)根据步骤(4)所述的方法处理Sample1、Sample2、Sample3，得到特征向量D7_i6；

(505)将D7_i6输入隐藏状态层Hidden进行训练，得到隐藏状态向量h；

具体公式如下：

h_t＝σ(W^(hh)h_t-1+W^(hx)x_[t])；

其中，h_t表示t时刻的隐藏层状态，h_t-1表示t-1时刻的隐藏层状态，x_[t]表示t时刻输入的特征向量，W^(hx)、W^(hh)分别表示隐藏层输入、输出权重矩阵；

(506)i6＝i6+1，跳转到步骤(502)；

(507)得到训练好的模型Model；

(508)将人体动作视频测试集Ttest输入Model，对输出隐藏状态向量h应用Softmax运算后得到各标签预测结果TRP，TRP＝{plabel,rlabel}，其中，plabel、rlabel分别表示预测类别标签、实际类别标签，具体公式如下：

y_t＝softmax(W^(S)h_t)；

其中，y_t表示t时刻Softmax的输出结果，h_t表示t时刻输入的隐藏状态向量，W^(S)表示Softmax输出权重矩阵。

有益效果：与现有技术相比，本发明基于已有的人体动作视频数据集，利用预训练的沙漏人体姿势估计模型，结合数据投影、LSTM-GRU特征融合对人体动作进行特征提取并分类，具体描述如下：本发明使用预训练的沙漏人体姿势估计模型预测各帧中的人体关节点3D坐标；然后，将人体关节点三维坐标数据投影至xy、xz、yz平面，以实现数据降维；将投影后的数据输入LSTM、GRU进行特征提取，将提取的不同维度(xy轴、xz轴、yz轴)、不同模态的特征进行融合，通过Softmax得到最终分类输出。上述技术方案通过有效的数据预处理和特征融合可提升特征表达的有效性以及模型对特征的辨别力，有助于简化数据采集过程，缩减从业者的工作时长，提高相关产品的运行效率。通过特征融合可挖掘人体动作的整体特征，增强模型对特征的辨别力，对于类间差别较小的动作分类更加准确。

附图说明

图1是基于融合特征的动作分类整体流程图；

图2是视频处理流程图；

图3是人体关节点3D坐标预测流程图；

图4是人体关节点3D坐标投影流程图；

图5是LSTM-GRU特征联合提取与融合流程图；

图6是训练与分类流程图。

具体实施方式

下面结合附图和具体实施例，基于采集的500个、5类动作视频进行分类，进行进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明的一种基于融合特征的动作分类方法，包括以下步骤：

(1)输入多个带标签的人体动作视频，将各人体动作视频转换成帧序列，如图2所示，具体包括以下步骤：

(105)将视频action_i0转换为帧序列acframe_i0，其中，action_i0表示集合AC中第i0个子集，满足acframe_i0＝{Img₁，Img₂，…，Img_N}，Img_n表示acframe_i0中序号为n的帧，n∈[1，len(acframe)]；

(106)令i0＝i0+1，跳转到步骤(104)；

(2)使用预训练的沙漏人体姿势估计模型预测各帧的人体关节点3D坐标，得到关节点3D坐标数据集，具体如图3所示：

(205)使用预训练的沙漏人体姿势估计模型(SHN for HPE)预测Img_i2中人体16个关节点对应的3D坐标集Sframe_i2＝{f₁,f₂，…，f₁₆}，其中，Img_i2表示acframe_i1中第i2帧，f_k＝(x_k，y_k，z_k)，x_k、y_k、z_k分别表示第k个关节点对应的横坐标、纵坐标、垂直坐标，满足k∈[1,16]；

(206)i2＝i2+1，跳转到步骤(204)；

(207)i1＝i1+1，跳转到步骤(202)；

(3)将人体关节点坐标投影至三维平面，具体如图4所示：

(306)令i3＝i3+1，跳转到步骤(302)；

(309)令i5＝i5+1，跳转到步骤(307)；

(310)令i4＝i4+1，跳转到步骤(304)；

(4)使用长短期记忆网络(LSTM)、门控循环单元(GRU)两种模型分别对投影后的数据进行特征提取，将提取的两组特征向量进行融合，具体如图5所示：

(402)通过GRU分别提取SA、SB、SC的特征向量G1、G2、G3；

(403)通过LSTM分别提取SA、SB、SC的特征向量L1、L2、L3；

D7＝D1+D2+D3+D4+D5+D6。

(5)基于融合后的特征训练人体动作视频分类模型，将视频数据输入训练好的人体动作视频分类模型，得到人体动作视频分类结果，具体如图6所示：

(501)定义循环变量i6，用于分别遍历Trans1、Trans2、Trans3，i6∈[1，len(Trans1)]，i6赋值为1，已知len(Trans1)＝len(Trans2)＝len(Trans3)；

(504)根据步骤4所述的方法处理Sample1、Sample2、Sample3，得到特征向量D7_i6；

(505)将D7_i6输入隐藏状态层Hidden进行训练，得到隐藏状态向量h，

具体公式如下：

h_t＝σ(W^(hh)h_t-1+W^(hx)x_[t])；

(506)i6＝i6+1，跳转到步骤(502)；

(507)得到训练好的模型Model；

y_t＝softmax(W^(S)h_t)；

为了更好的说明本方法的有效性，通过对5类、500个自采集的人体动作视频进行预处理，使用预训练的沙漏人体姿势估计模型预测各帧中的人体关节点3D坐标；然后，将人体关节点三维坐标数据投影至xy、xz、yz平面，以实现数据降维；将投影后的数据输入LSTM、GRU进行特征提取，将提取的多种模态特征进行融合，通过Softmax得到最终分类输出。基于融合特征的动作分类方法准确率相较传统的基于单一特征方法提升了14％，对5类、500个人体动作视频的分类准确率达96％。实验结果对比如表1所示：

表1实验结果对比表

上述方法所涉及的变量说明如下表2所示：

表2变量说明表

本发明可与计算机系统结合，从而完成人体动作自动分类。

本发明创造性的提出了一种将坐标预测方法、数据投影方法、LSTM-GRU特征联合提取方法、多模态特征融合方法相结合，经多次实验，得到人体动作视频最佳分类结果。

本发明提出的一种基于融合特征的分类方法不但可以用于动作分类，也可以用于其他序列数据的分类。

Claims

1.一种基于融合特征的人体动作分类方法，其特征在于，包括以下步骤：

(3)将人体关节点坐标投影至三维平面；

2.根据权利要求1所述的基于融合特征的人体动作分类方法，其特征在于，所述步骤(1)的具体方法为：

(106)令i0＝i0+1，跳转到步骤(104)；

3.根据权利要求1所述的基于融合特征的人体动作分类方法，其特征在于，所述步骤(2)的具体方法为：

(206)令i2＝i2+1，跳转到步骤(204)；

(207)令i1＝i1+1，跳转到步骤(202)；

4.根据权利要求1所述的基于融合特征的人体动作分类方法，其特征在于，所述步骤(3)的具体方法为：

(306)令i3＝i3+1，跳转到步骤(302)；

(309)令i5＝i5+1，跳转到步骤(307)；

(310)令i4＝i4+1，跳转到步骤(304)；

5.根据权利要求1所述的基于融合特征的人体动作分类方法，其特征在于，所述步骤(4)的具体方法为：

(402)通过GRU分别提取SA、SB、SC的特征向量G1、G2、G3；

(403)通过LSTM分别提取SA、SB、SC的特征向量L1、L2、L3；

D7＝D1+D2+D3+D4+D5+D6。

6.根据权利要求1所述的基于融合特征的人体动作分类方法，其特征在于，所述步骤(5)的具体方法为：

具体公式如下：

h_t＝σ(W^(hh)h_t-1+W^(hx)x_[t])；

(506)i6＝i6+1，跳转到步骤(502)；

(507)得到训练好的模型Model；

y_t＝softmax(W^(S)h_t)；