CN111310659A

CN111310659A - 基于增进式图卷积神经网络的人体动作识别方法

Info

Publication number: CN111310659A
Application number: CN202010094821.1A
Authority: CN
Inventors: 柯逍; 柯力
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2020-06-19
Anticipated expiration: 2040-02-14
Also published as: CN111310659B

Abstract

本发明公开了一种基于增进式图卷积神经网络的人体动作识别方法，首先提取与类别无关的时空对象和计算不同对象提取的特征，并对动作信息检测单元进行定义和表示；其次计算每帧表示的信息熵，选取熵小的帧作为整个视频的关键帧动作；然后将选取的关键动作帧图像输入到人体姿态估计模型；接着通过微小的变换、修剪和对齐的方法自动选择感兴趣的区域方面；最后在检测器检测人体动作的时候产生的冗余检测信息采用非极大值抑制算法来消除，通过适当的数据增强，以便让对称空间变换网络加上单人姿态估计网络适应不完美的人体区域定位结果。本发明可以有效的提高人体动作识别的准确率。

Description

基于增进式图卷积神经网络的人体动作识别方法

技术领域

本发明涉及模式识别与计算机视觉领域，尤其涉及一种基于增进式图卷积神经网络的人体动作识别方法。

背景技术

在计算机视觉和机器学习领域，人体动作识别是一个极具有挑战性的研究课题。目前，人体动作识别中有许多关键问题尚未解决。强大的人体动作建模和特征表示是人体动作识别成功的关键。特征表示和选择是计算机视觉和机器学习中的经典问题，与图像空间中的特征表示不同，视频中的人体动作不仅描述了人类在图像空间中的出现，而且还必须提取外观和姿势的变化。特征表示的问题从二维空间扩展到了三维时空。

从数据集类型的角度来看，对人类动作识别的研究可分为基于颜色(RGB)数据的方法和结合颜色深度数据(RGBD)的方法。随着计算机视觉研究的进展，针对这些数据的人体动作识别方法可以归类为具有机器学习方法的手动设计功能或端到端深度学习算法。无论数据类型和计算方法如何，其核心目标都是提取可靠的人类动作特征。针对RGB数据已经提出了许多动作特征，例如基于时空体的特征，时空兴趣点特征和联合轨迹特征。但是，诸如照相机移动，遮挡，复杂场景以及人体检测和姿势估计方法的局限性等因素限制了基于手工特征的人体动作表示和识别的性能。

基于骨架的人体动作识别的困难之处包括：

(1)传统的骨架建模人体动作识别模型在人体骨架信息提取能力上较弱，特别在实际的真实场景中，由于摄像头的偏移和目标遮挡等因素的影响，会导致几乎提取不到人体的骨架信息特征。

(2)在动作视频中，任何一个表演者对同一个动作类别的表现会产生不一样的肢体动作，即冗余动作。在人体动作识别模型中，冗余动作对识别的准确率有较大的误差影响。

(3)传统的动作识别模型在动作表达能力上较弱，如何提升动作的表达的能力对模型的性能和鲁棒性都有着至关重要的作用。

发明内容

针对上述问题，本发明提供一种基于增进式图卷积神经网络的人体动作识别方法，解决传统的骨架建模人体动作识别模型在人体骨架信息提取能力上较弱，动作信息冗余和动作表达能力弱等问题。其首先提取与类别无关的时空对象和计算不同对象提取的特征，并对动作信息检测单元进行定义和表示；其次计算每帧表示的信息熵，选取熵小的帧作为整个视频的关键帧动作；然后将选取的关键动作帧图像输入到人体姿态估计模型；接着通过微小的变换、修剪和对齐的方法自动选择感兴趣的区域方面；最后在检测器检测人体动作的时候产生的冗余检测信息采用非极大值抑制算法来消除，通过适当的数据增强，以便让对称空间变换网络加上单人姿态估计网络适应不完美的人体区域定位结果。

为实现上述目的，本发明具体采用以下技术方案：

一种基于增进式图卷积神经网络的人体动作识别方法，其特征在于，包括以下步骤：

步骤S1：对每一训练视频提取与类别无关的时空对象，获得与活动相关的时空视频片段构成的训练集和验证集，并对不同对象提取外观和运动特征；

步骤S2：对训练集生成动作信息检测单元，用于定义每一对的时空视频片段的相似程度；

步骤S3：对获取的和增强的数据集利用注意力机制进行关键帧筛选；计算每帧表示的信息熵，选取熵小的帧作为训练视频的关键帧动作；

步骤S4：对筛选出来的关键帧视频利用人体姿态估计模型进行转码和标注；

步骤S5：采用高于重合度的阈值的边界框，进行姿态的精确估计，同时采用对称空间变换网络对人体姿态估计模型进行微调；

步骤S6：构建时空骨骼图卷积神经网络模型，处理人体姿态估计模型的输出结果；

步骤S7：使用训练集进行训练，并在训练的过程中对数据进行增强处理。

进一步地，步骤S1对每一训练视频具体执行以下步骤：

步骤S11：采用高斯混合模型分割每帧视频中的前景区域；

步骤S12：在每个视频中生成对象候选区域，从每个所述对象候选区域中提取外观和运动特征；

步骤S13：将属于同一运动过程的相邻相似目标通过谱聚类进行时间链接，形成时空分割；获得与活动相关的时空视频片段。

进一步地，步骤S2具体包括：

步骤S21：采用兴趣点特征和稠密轨迹描述每个时空视频片段：对于兴趣点的检测，使用长方形检测器，采用可分离线性滤波器计算视频序列的响应；对于局部特征描述，采用光流直方图和方向梯度直方图，分别描述兴趣点周围的物体的运动和外观信息；

步骤S22：对所有训练集的兴趣点特征进行K-means聚类，得到多个视觉单词的词汇，则每个时空视频片段都由该片段中出现的可视词直方图表示；

步骤S23：在对时空视频片段进行描述的基础上，利用标准光谱聚类方法生成动作信息检测单元M(v_i,v_j)；用于定义每一对的时空视频片段v_i和v_j的相似程度：

其中，d_stip表示在词带模型上时空兴趣点特征的欧式距离，d_traj是稠密轨迹特征的欧氏距离，ω是权重系数，i和j是表示时空视频片段的编号的参数；

步骤S24：将所有训练视频通过步骤S23生成的动作单元标签表示为A＝{a₁,a₂,···,a_n}。

进一步地，步骤S3具体包括：

步骤S31：以动作单元的共现性作为基本帧的特征f_j∈F_i，其中F_i表示从视频V_i中提取的基于帧的特征集；

步骤S32：重复步骤S31，构造特征集F＝F₁∪F₂···∪F_N，该特征集从属于不同类别的N个训练视频中提取；

步骤S33：计算每个基于帧的f_j特征的信息熵E(f_j,T)：

E(f_j,T)＝-Σ_cP_c(f_j,T)log₂(p_c(f_j,T))

其中T为训练视频的集合，y_i为视频V_i的动作类别，P_c(f_j,T)为动作类别c占所有类别中的视频特征数目，具体计算公式如下：

其中，该式的分子是在动作类别c中包含基于帧的特征f_j的训练视频的数目，分母是在所有类别训练集中包含特征f_j视频的数目；

步骤S34：所有训练视频经过步骤S31-步骤S33提取视频关键帧之后，构造字典F′＝F₁′∪F₂′∪···F_i′···F_N′，其中F_i′代表含有动作视频V_i中关键帧的特征。

进一步地，在步骤S4中，所述人体姿态估计模型采用YOLO-V3构建，进行对象位置的预测；根据所述人体姿态估计模型对每个锚盒进行预测四个坐标的偏移u_x,u_y,u_w,u_h，生成预测坐标b_x,b_y,b_w,b_h；在训练期间，采用平方误差损失计算坐标的损失；并根据当前预测获得的边界框相对于真实标签对象重合度的阈值预测每个边界框对象得分。

进一步地，步骤S5具体包括：

采用对称空间变换网络将估计的人体姿态反映射回原始图像的坐标中；所述对称空间变换网络转换和生成网格计算公式如下：

其中β₁，β₂和β₃为二维空间向量，

表示转换之前的坐标，

表示转换之后的坐标；由于对称空间变换网络是空间变换网络的逆过程，得到：

其中，

和

是二维空间向量。

进一步地，步骤S6具体包括：

步骤S61：定义第v个人的姿态P_v，有N′个关节点记为：

其中

表示姿态P_v的第v′个关节点部位的坐标，

表示该坐标位置的置信度的分数；

步骤S62：选取最大置信的姿态作为参考，利用消去法则将靠近参考的区域框进行消除；重复这一过程，直至消除多余的姿势并且最后只有唯一的姿势标识；所述消去法则根据姿态的距离衡量姿态之间的相似度，记为d(P_v,P_v′|Λ)，其中的Λ表示函数d的一个参数的集合，采用阈值ε作为消除标准；所述消去法则g(P_v,P_v′|Λ,ε)具体定义为：

g(P_v,P_v′|Λ,ε)＝I[d(P_v,P_v′)|Λ,θ≤ε]

其中，P_v和P_v′表示不同人的姿态，θ表示姿态之间的角度，I表示指示函数；,用B代表一个集合，t表示集合B的某一个元素，定义为：

如果姿态距离相似度d(P_v,P_v′|Λ)小于阈值ε，则g(P_v,P_v′|Λ,ε)输出为0；

步骤S63：设姿态P_v的区域框为H_v，定义姿态距离函数d_pose(P_v,P_v′)以及软匹配函数：

其中，

表示姿态P_v的第n个关节点部位的坐标，

表示该

坐标位置的置信度的分数；

表示身体部位v的区域位置；σ₁表示集合参数Λ里的一个参数。

进一步地，步骤S7具体包括：

步骤S71：构建分布函数G(μg|J)模拟不同姿态之间的真实值和实际预测值存在的相对偏移量分布，其中μg代表由检测器检测到人体位置坐标和标注实际人体坐标之间的偏移量，J代表一个人对应的姿态；

步骤S72：构建分布函数G(μg|atom(J))，其中atom(J)代表姿态J根据关节点部位分解获得的原子部位；对齐所有姿态，并按具有相同的长度肢体进行排列；

步骤S73：采用k-means聚类得到的聚类中心作为人体姿态的原子姿态，对于每一个共享原子姿态，用α表示，首先计算真实值和检测区域边框的偏移量，接着使用该方向上的真实边框的边长进行归一化处理；处理后，偏移量形成一个频率分布，最后将数据拟合成高斯混合分布；对于不同的原子姿态，得到不同的高斯混合分布；

步骤S74：在训练网络的过程中，对于每一个在训练集中标注的姿态J，首先找到对应的原子姿态α，然后通过密集采样计算G(μg|α)得到增强的训练建议。

本发明及其优选方案可以有效的提高人体动作识别的准确率，其解决了传统的骨架建模人体动作识别模型在人体骨架信息提取能力上较弱，动作信息冗余和动作表达能力弱等问题。

附图说明

图1是本发明实施例整体流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，一种基于增进式图卷积神经网络的人体动作识别方法，包括以下步骤：

在本实施例中，步骤S1具体包括：

步骤S11：使用了高斯混合模型来分割前景区域，并把它作为预处理步骤，以达到分割视频每帧中的背景的目的；

步骤S12：采用了在每个视频中生成对象(包括整个人体和身体部位)候选区域，从每个对象候选区域中提取外观和运动特征，比如外观的相似性、空间重叠、轨迹链接程度等；

步骤S13：将属于同一运动过程的相邻相似目标通过谱聚类进行时间链接，形成时空分割。针对所有训练视频重复上述过程。通过这种方法，可以构造大量与活动相关的时空视频片段。

在本实施例中，步骤S2具体包括：

步骤S21：使用兴趣点特征和稠密轨迹来描述每个时空段，对于兴趣点的检测，使用的是长方形检测器，它采用可分离线性滤波器来计算视频序列的响应。对于局部特征描述，使用的是光流直方图(HOF)和方向梯度直方图(HOG)，分别描述了兴趣点周围的物体的运动和外观信息；

步骤S22：对所有训练集的兴趣点特征进行K-means聚类，得到1000个视觉单词的词汇，则每个时空视频片段都由该片段中出现的可视词直方图表示；

步骤S23：在对时空视频片段进行描述的基础上，利用其标准光谱聚类方法生成中层动作单元M(v_i,v_j)。定义每一对的视频片段v_i和v_j相似，采用公式：

其中，d_stip表示在词带模型上时空兴趣点特征的欧式距离，d_traj是稠密轨迹特征的欧氏距离，ω是权重系数，i和j是参数，表示视频片段的编号；

步骤S24：将所有训练视频生成的动作单元标签表示为A＝{a₁,a₂,···,a_n}。这样，由数百个低级特征组成的活动视频由几十个动作单元表示，每个动作单元表征一个部分或整个对象的简单运动过程。显然，基于动作单元的表示更加简洁，语义也更加丰富。

在本实施例中，步骤S3具体包括：

步骤S31：具有不同动作单元的时空片段在同一帧中重叠，则认为这些动作单元同时在执行。使用这些动作单元的共现性作为基本帧的特征f_j∈F_i，其中F_i表示从视频V_i中提取的基于帧的特征集；

步骤S32：通过步骤S31的方法，构造了一个特征集F＝F₁∪F₂···∪F_N，该特征集从属于不同类别的N个训练视频中提取；

步骤S33：通过上述步骤，可以从每个动作类中获得相对大量的特征。但实验证明只有一部分是有助于分类的。为了提取每个动作类中的关键帧，则需要计算每个基于帧的f_j特征的信息熵E(f_j,T)：

E(f_j,T)＝-∑_cP_c(f_j,T)log₂(p_c(f_j,T))

其中T为训练集视频，y_i为视频V_i的动作类别。P_c(f_j,T)为动作类别c占所有类别中的视频特征数目，具体计算公式如下：

其中，分子是在动作类别c中包含基于帧的特征f_j的训练视频的数目，分母是在所有类别训练集中包含特征f_j视频的数目；

步骤S34：所有的视频经过上述步骤提取视频关键帧之后，接着构造了一个字典F′＝F₁′∪F₂′∪···F_i′···F_N′，其中F_i′代表含有动作视频V_i中关键帧的特征。

步骤S4：对筛选出来的关键帧视频利用人体姿态估计模型框架进行转码和标注，为训练人体动作检测与识别模型做好准备。

在本实施例中，步骤S4具体包括以下内容：

由于YOLO-V3采用不同卷积层的特征图进行对象位置的预测，针对小目标的定位会更加好一点，预测的框数会比较多；神经网络对每个锚盒进行预测四个坐标的偏移u_x,u_y,u_w,u_h。假如特征图在某一单元的偏移图片左上角的坐标为(o_x,o_y)，锚盒的预选框长和宽大小分别为u_w和u_h，那么生成的预测坐标b_x,b_y,b_w,b_h为：

在训练期间，采用的是平方误差损失来计算坐标的损失。假如预测坐标的真实标签是

预测值为u_*，则可以得到效应梯度就是真实标签和预测值的差，即：

YOLO-V3预测每个边界框对象得分采用的是逻辑回归。假设当前预测出来的边界框相对与真实标签对象有更接近的重合，则它的得分就是1。假设当前预测出来的边界框效果无法达到最好，即使它与真实标签对象重合达到了一定的阈值，该模型也会对这个预测结果忽视。

在本实施例中，步骤S5具体包括以下内容：

在数学中，空间变换网络(STN)采用二维仿射，可表示为：

其中，

和

是属于二维空间向量，

表示转换之前的坐标，

表示转换之后的坐标；

步骤S51：在单人姿态估计网络之后，生成的姿势会被映射到原始的人体区域框中，即把姿态标记线绘制到对应的人体区域框中。所以，对称空间变换网络应该将估计的人体姿态反映射回原始图像的坐标中。对称空间变换网络中需要为反向转换和生成网格计算公式如下：

其中β₁，β₂和β₃是属于二维空间向量，与上述S51一样，

表示转换之前的坐标，

表示转换之后的坐标；

步骤S52：由于对称空间变换网络是空间变换网络的逆过程，可以得到：

步骤S53：在提取出高质量的人体区域检测框之后，采用单人姿态估计网络进行姿态的精确估计。在训练中，把对称空间变换网络和单人姿态估计网络结合在一起进行微调。

步骤S6：构建时空骨骼图卷积神经网络模型，处理人体姿态估计模型的输出结果。

在本实施例中，步骤S6具体包括：

步骤S61：对于第v个人的姿态P_v，有N′个关节点记为：

其中

表示姿态P_v的第v′个关节点部位的坐标，

表示该坐标位置的置信度的分数；

步骤S62：选取最大置信的姿态作为参考，利用消去法则将靠近参考的区域框进行消除。这个过程多次重复，直到消除多余的姿势并且最后只有唯一的姿势标识；步骤S63：定义消去法则，需要定义姿态相似度来消除那些离的比较近并且比较相似的姿态。提出了一种姿态的距离来衡量姿态之间的相似度，记为d(P_v,P_v′|Λ)，其中的Λ表示函数d的一个参数的集合，采用阈值ε来作为消除标准。消去法则g(P_v,P_v′|Λ,ε)具体可以定义为：

g(P_v,P_v′|Λ,ε)＝I[d(P_v,P_v′)|Λ,θ≤ε]

其中，P_v和P_v′表示不同人的姿态，θ表示姿态之间的角度，I代表指示函数，有时候也称为特征函数。

步骤S64：用B代表一个集合，t表示集合B的某一个元素可以定义为：

如果姿态距离相似度d(P_v,P_v′|Λ)小于阈值ε，则g(P_v,P_v′|Λ,ε)输出为0。因为对于参考的姿态P_v′来说P_v是冗余的，即表示应该把P_v姿态消去。

步骤S65：现在假设姿态P_v的区域框为H_v，定义一个姿态距离函数d_pose(P_v,P_v′)。接着可以定义一个软匹配函数：

其中，

表示姿态P_v的第n个关节点部位的坐标，

表示该坐标位置的置信度的分数。则

表示身体部位v的区域位置并且在维度上大约是原来的整体图像的十分之一。σ₁表示集合参数Λ里面的一个参数。双曲正切函数tanh可以过消去置信度较低的姿态，并且当两个姿态的置信度都比较高的时候，F_sim函数的输出在1附近。

步骤S7：使用验证集进行神经网络模型的准确率预测。

在本实施例中，步骤S7具体包括：

步骤S71：在检测到的不同姿态之间的真实值和实际预测值的存在相对偏移量分布。采用公式来进一步明确过程，假设存在一个分布函数G(μg|J)，其中μg代表由检测器检测到人体位置坐标和标注实际人体坐标之间的偏移量，J是在真实情况下的一个人的姿态。通过模拟这个分布，就可以根据目标检测得到的推荐位置生成一些训练数据；

步骤S72：使用了G(μg|atom(J))，其中atom(J)代表原子部位的组成，这里的J是一个姿态，包含了多个关节点部位。为了得到姿态的原子结构，对齐好所有的姿态，并按具有相同的长度肢体进行排列；

步骤S73：采用k-means聚类得到的聚类中心作为人体姿态的原子姿态。对于每一个共享原子姿态，用α表示，首先计算真实值和检测区域边框的偏移量，接着使用该方向上的真实边框的边长进行归一化处理。处理后，偏移量会形成一个频率分布，最后将数据拟合成高斯混合分布。对于不同的原子姿态，会得到不同的高斯混合分布。

步骤S74：在训练网络的时候，对于每一个在训练集中标注的姿态，首先找到对应的原子姿态α，然后通过密集采样计算G(μg|α)来得到增强的训练建议。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于增进式图卷积神经网络的人体动作识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于增进式图卷积神经网络的人体动作识别方法，其特征在于，步骤S1对每一训练视频具体执行以下步骤：

步骤S11：采用高斯混合模型分割每帧视频中的前景区域；

3.根据权利要求2所述的基于增进式图卷积神经网络的人体动作识别方法，其特征在于，步骤S2具体包括：

步骤S24：将所有训练视频通过步骤S23生成的动作单元标签表示为A＝{a₁,a₂,…,a_n}。

4.根据权利要求3所述的基于增进式图卷积神经网络的人体动作识别方法，其特征在于，步骤S3具体包括：

步骤S32：重复步骤S31，构造特征集F＝F₁∪F₂…∪F_N，该特征集从属于不同类别的N个训练视频中提取；

步骤S33：计算每个基于帧的f_j特征的信息熵E(f_j,T)：

E(f_j,T)＝-∑_cP_c(f_j,T)log₂(p_c(f_j,T))

步骤S34：所有训练视频经过步骤S31-步骤S33提取视频关键帧之后，构造字典F′＝F₁′∪F₂′∪…F_i′…F_N′，其中F_i′代表含有动作视频V_i中关键帧的特征。

5.根据权利要求4所述的基于增进式图卷积神经网络的人体动作识别方法，其特征在于，在步骤S4中，所述人体姿态估计模型采用YOLO-V3构建，进行对象位置的预测；根据所述人体姿态估计模型对每个锚盒进行预测四个坐标的偏移u_x,u_y,u_w,u_h，生成预测坐标b_x,b_y,b_w,b_h；在训练期间，采用平方误差损失计算坐标的损失；并根据当前预测获得的边界框相对于真实标签对象重合度的阈值预测每个边界框对象得分。

6.根据权利要求5所述的基于增进式图卷积神经网络的人体动作识别方法，其特征在于，步骤S5具体包括：