CN107609541B

CN107609541B - 一种基于可变形卷积神经网络的人体姿态估计方法

Info

Publication number: CN107609541B
Application number: CN201710968932.9A
Authority: CN
Inventors: 宋立新; 卞龙鹏
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2020-11-10
Anticipated expiration: 2037-10-17
Also published as: CN107609541A

Abstract

本发明涉及深度学习和计算机视觉技术领域，具体为一种基于可变形卷积神经网络的人体姿态估计方法，包括以下步骤：步骤a：对输入数据集预处理，包括扩展、分割数据集图片；步骤b：对训练集图片做K均值聚类；步骤c：以K均值聚类结果为标签，将训练集输入可变形卷积神经网络训练；步骤d：构造得分函数F训练SVM用于关节分类；步骤e：输出处理；本发明通过读取正数据集，一部分用做训练集，一部分用做验证集，读取负数据集作对比，其中引入负数据集训练能有效得滤除背景得干扰，提高识别率。

Description

一种基于可变形卷积神经网络的人体姿态估计方法

技术领域

本发明涉及深度学习和计算机视觉技术领域，尤其涉及一种基于可变形卷积神经网络的人体姿态估计方法。

背景技术

随着各种网络游戏的发展、动画视频的普及，正确快速地识别和理解图像中人的姿态动作也成为了一个非常热门的话题；这种问题统称为姿态检测。姿态检测中包含许多类别和子问题，姿态估计就是其中之一；姿态估计是时下最为重要的计算机视觉挑战性问题之一，原因在于它可以被很快地应用到人物追踪、动作识别以及视频相关的视频分析上，比如视频监控和视频搜索等；实际应用面非常广。

在计算机视觉领域，姿态估计的主要任务就是，给定一张图，图中会有一个人，你需要给出这个人的姿态动作是什么样的；人们会提前选定比较重要的几个人体关节(比如肩膀、肘部、脖子等)，然后用一个固定位数(比如7维和11维)的坐标向量来表示这个动作，每一维都表示图中任务的重要关节所在的具体坐标；换句话说，你需要给出一个火柴人的形状来表示这个人的姿态。

目前针对人体姿态估计的算法，大致分为两类：基于模型的人体姿态估计和基于学习的人体姿态估计。基于模型的姿态估计是指在进行人体姿态估计的过程中使用先验的人体模型，并且模型的参数也随着当前的变化而更新；其基本思路为：设计一个结构化的人体模型，如骨骼图、由一组标准几何体组成的模型等，令模型所处的姿态正确反映当前时刻的人体姿态。

基于学习的方法利用训练样本来学习从图像特征空间到人体姿态空间的回归模型，从而将大量的训练样本浓缩为紧致的函数表达，从新的观测数据中提取图像特征代入回归模型，即可估计当前时刻的人体姿态。此类方法执行速度较快，无需保留样本库，存储代价小，不需要专门的初始化过程，缺点是估计精度受训练样本规模的制约，由于人体姿态估计的复杂性，现有的借助深度学习技术无法有效的将深度学习和姿态表达信息融合，一些复杂的姿态无法得到有效的解决；为了解决现有技术中存在的预测准确率低的问题，需要提出一种新的方法。

发明内容

本发明克服了上述现有技术的不足，提供了一种基于可变形卷积神经网络的人体姿态估计方法。本发明通过读取正数据集，一部分用做训练集，一部分用做验证集，读取负数据集作对比，其中引入负数据集训练能有效得滤除背景得干扰，提高识别率。

本发明的技术方案：

一种基于可变形卷积神经网络的人体姿态估计方法，包括以下步骤：

步骤a：对输入数据集预处理，包括扩展、分割数据集图片；

步骤b：对训练集图片做K均值聚类；

步骤c：以K均值聚类结果为标签，将训练集输入可变形卷积神经网络训练；

步骤d：构造得分函数F训练SVM用于关节分类；

步骤e：输出处理。

进一步的，所述步骤a包括扩展、分割数据集图片；具体为：

a.1：将数据集中的关节点按照关节树结构进行扩展，输入数据集中标记了人体的14个关节但是由于人体姿态是一种复杂的形态表达，为了更加精细的表达人体姿态，按照矩阵映射将关节点扩展为26个；

a.2：将图片按照扩展后的关节点分割，然后聚类，以扩展后的26关节树为分割依据，将输入图片集中的人体以关节点为中心分割为9x9大小的关节图像碎片。

进一步的，所述步骤b包括对训练集图片做K均值聚类；聚类的结果使得相邻关节在同一个簇内，同时以聚类结果为标签，认为同一个簇内具有关节间的依赖关系，并将聚类结果输入卷积神经网络训练，使得神经网络具备识别关节之间的依赖关系的功能。

进一步的，所述步骤c包括以K均值聚类结果为标签，将训练集输入可变形卷积神经网络训练具体为：

c.1：该可变形卷积神经网络包含一个可变形卷积层，3个传统卷积层，2个全连接层和一个输出层；输入神经网络中的训练集碎片包含了两种信息：一种是关节点所处的像素位置，一种是根据聚类结果得到的关节相互之间的依赖关系；本发明通过卷积神经网络来获取关节点图像碎片的表观特征，同时训练神经网络识别邻近关节点之间的依赖关系；

c.2：该神经网络中的卷积层采用的核函数为可变卷积核，可变型卷积层对卷积核中的每个采样点的位置都增加了一个偏移的变量，通过这些变量，卷积核就可以在当前位置附近随意的采样，而不再局限于之前的规则格点；卷积核大小为3x3的正常卷积和可变卷积的采样方式，a为正常规律的采样9个点(黑点)，b、c、d为可变形卷积，在正常的采样坐标上加上一个偏移量，其中c、d为b的特殊情况，展示了可变形卷积可以作为尺度变换和旋转变换的特殊情况。

进一步的，所述步骤d包括构造得分函数F训练SVM用于关节分类；定义了一个得分函数F(I,t|I)；

其中：I表达姿态中的关节部位；

I_i＝(x,y)表示该关节部位在图像中所处的像素坐标；

t＝{t_ij,t_ji|(i,j)∈K},K＝14,t代表所有关节空间依赖关系所组成的数据集；

K代表关节编号；

t_ij表示关节j相对于关节i的位置，同理t_ji表示关节i相对于关节j的位置；

该函数由一元函数和关节依赖函数组成，具体如下：

一元函数：其定义公式为：

U(I_i|I)＝ω_iφ(i|I(I_i)；θ)；

该函数用来表达关节i的坐标位置I_i，该函数的取值基于神经网络提取的图像碎片I(I_i)的表观特征；

关节依赖函数：其定义公式如下：

上述ψ(ΔI＝[Δx,Δy])＝[ΔxΔx²ΔyΔy²]^T是标准二次变形特征；

代表关节间的成对依赖关系；

φ(.|.；θ)代表图像碎片属于某一关节；

θ是其参数；

是权重参数；他们的取值都由神经网络训练得到；

取值为对应聚类中心的值；

符号<.,.>代表向量之间的点积；

得分函数F(l,t|I)用来表达当输入一张图片碎片I时，F反映了图片中的关节点位置I以及与它有最佳依赖关系的t；完整表达如下：

其中ω₀为常数偏置；

在训练时，当训练集输入一张图像碎片I时，F会反映出该图像碎片属于不同关节的取值，以F得分最高的判定为属于某一关节类别，通过F值与其对应的关节类别标签不断的训练支持向量机SVM，使得支持向量机的分类超平面拟合度最高；在测试时，当需要判定某一关节类别时，输入一张测试集图像碎片，本发明可以根据得到的F值，输入SVM直接得到该图片是或者不是属于该关节类别。

进一步的，所述步骤e包括输出处理：具体基于对测试集的关节估计结果，统计关节点的估计准确率。

本发明相对于现有技术具有以下有益效果：

本发明通过读取正数据集，一部分用做训练集，一部分用做验证集，读取负数据集作对比，其中引入负数据集训练能有效得滤除背景得干扰，提高识别率；

本发明通过在本发明中采用的是可变形卷积层，卷积执行的过程中通过引入了一个偏移量，该参数能够学习目标的形状特征使得卷积提取出的特征能够有效的反映出形状特征，这有效的提高了目标的识别率，使得改进的卷积神经网络能更加有效的提取碎片的表观特征，识别出不同类型的关节点；

本发明以F的分最高的判定为属于某一关节类别，通过F值与其对应的关节类别标签不断的训练支持向量机SVM，使得支持向量机的分类超平面拟合度最高。在测试时，当需要判定某一关节类别时，输入一张测试集图像碎片，本发明可以根据得到的F值，输入SVM直接得到该图片是或者不是属于该关节类别。

附图说明

图1是本发明的的流程图；

图2是本发明的关节扩展图；

图3是本发明的可变卷积层感受野的不同变换形式；

图4是本发明的神经网络的构造图；

图5是本发明搭建的可变卷积神经网络参数图；

图6是本发明发的扩展矩阵示意图；

图7是本发明卷积层各层参数示意图。

具体实施方式

以下将结合附图对本发明进行详细说明。

实施例一：

结合图1-图5示，本实施例公开的一种基于可变形卷积神经网络的人体姿态估计方法，包括以下步骤：

步骤a：对输入数据集预处理，包括扩展、分割数据集图片；

步骤b：对训练集图片做K均值聚类；

步骤d：构造得分函数F训练SVM用于关节分类；

步骤e：输出处理；

所述输入数据预处理包括：

a.1读取数据集：为了有效的训练网络提高关节点的识别率，同时为了有效的说明本发明的有效性，本发明的数据集选取了LSP(Leeds Sports Pose Dataset)数据集和INRIA数据集；其中LSP为正数据集，包含了2000张各种各样的人体运动姿态，选取前1000张为训练集，后1000张为测试集。INRIA为负数据集包含了各种各样的背景图片；

a.2扩展数据集：由于卷积神经网络本身有数百万个参数，然而可供使用的数据训练集只有数千幅；为了减少过拟合，本发明通过旋转来扩大训练集数量，每9度做一次旋转，这样每幅图片被旋转40次，同时对旋转的每幅图片做翻转操作；这些操作都增加了具有不同空间的身体关节部位的数量以及与其周围关节的依赖关系；如前所述对标记的关节点做扩展，扩展图如图1操作后分割，对分割后的图像碎片做聚类；这里的扩展是指将原始标记的14关节扩展为26个关节并进行标定；扩展矩阵为图6所示。

实施例二：

具体的，所述步骤b包括对训练集图片做K均值聚类；聚类的结果使得相邻关节在同一个簇内，同时以聚类结果为标签，认为同一个簇内具有关节间的依赖关系，并将聚类结果输入卷积神经网络训练，使得神经网络具备识别关节之间的依赖关系的功能。

实施例三：

具体的，本发明中的可变形卷积神经网络包含一个可变形卷积层，3个传统卷积层，2个全连接层和一个输出层；输入神经网络中的训练集碎片包含了两种信息：一种是关节点所处的像素位置，一种是邻近关节相互之间的依赖关系。本发明通过深度卷积神经网络来获取关节点图像碎片的表观特征，同时训练识别邻近关节点之间的依赖关系。该神经网络中的卷积层采用的核函数为可变卷积核，具体为：可变形卷积层对卷积核中的每个采样点的位置都增加了一个偏移的变量；本发明中所构建的卷积神经网络的部分卷积层是与传统的卷积层不同的；传统的卷积层在执行卷积的过程中所采用的是规则化的方框形结构，其缺点在于无法有效的反应目标体的形状特征，在本发明中采用的是可变形卷积层，卷积执行的过程中通过引入了一个偏移量(offset参数)，该参数能够学习目标的形状特征使得卷积提取出的特征能够有效的反映出形状特征，这有效的提高了目标的识别率，使得改进的卷积神经网络能更加有效的提取碎片的表观特征，识别出不同类型的关节点；将处理后的图像碎片通过深度可变形卷积神经网络来进行训练和预测。作为优选可变形卷积神经网络共有1个可变形卷积层，3个传统卷积层，2个全连接层和一个输出层，其中2为可变卷积层，1、3、4为传统卷积层，5、6为全连接层，7为输出层。优选地，其各层参数设置具体为附图7所示；核表示卷积操作核的大小，步长表示卷积操作的步长，个数表示卷积核的输出个数；对池化层pool的含义一样。Dropout层没有这些参数，引入Dropout层是为了防止模型的过拟合；进一步地这里第一层卷积层采用可变卷积层，其感受野变化形式如图3所示，其各层的连接结构如图4所示。

实施例四：

具体的：进一步的，所述步骤d包括构造得分函数F训练SVM用于关节分类；定了一个得分函数F(I,t|I)；

其中：I表达姿态中的关节部位；

I_i＝(x,y)表示该关节部位在图像中所处的像素坐标；

K代表关节编号；

t_ij表示关节j相对于关节i的位置，同理t_ji表示关节i相对于关节j的位置；该函数由一元函数和关节依赖函数组成，具体如下：

一元函数：其定义公式为：

U(I_i|I)＝ω_iφ(i|I(I_i)；θ)；

关节依赖函数：其定义公式如下：

上述ψ(ΔI＝[Δx,Δy])＝[ΔxΔx²ΔyΔy²]^T是标准二次变形特征；

代表关节间的成对依赖关系；

φ(.|.；θ)代表图像碎片属于某一关节；

θ是其参数；

是权重参数；他们的取值都由神经网络训练得到；

取值为对应聚类中心的值；

符号<.,.>代表向量之间的点积；

其中ω₀为常数偏置；

以上实施例只是对本专利的示例性说明，并不限定它的保护范围，本领域技术人员还可以对其局部进行改变，只要没有超出本专利的精神实质，都在本专利的保护范围内。

Claims

1.一种基于可变形卷积神经网络的人体姿态估计方法，其特征在于，包括以下步骤：

步骤a：对输入数据集预处理，包括扩展、分割数据集图片；

步骤b：对训练集图片做K均值聚类；

步骤d：构造得分函数F训练SVM用于关节分类；

步骤e：输出处理；

所述步骤d包括构造得分函数F训练SVM用于关节分类；定义了一个得分函数

；

其中：

表达姿态中的关节部位；

表示该关节部位在图像中所处的像素坐标；

,K=14,

代表所有关节空间依赖关系所组成的数据集；

K代表关节编号；

表示关节

相对于关节

的位置，同理

表示关节

相对于关节

的位置；

该函数由一元函数和关节依赖函数组成，具体如下：

一元函数：其定义公式为：

；

该函数用来表达关节

的坐标位置

，该函数的取值基于神经网络提取的图像碎片

的表观特征；

关节依赖函数：其定义公式如下：

是标准二次变形特征；

代表关节间的成对依赖关系；

代表图像碎片属于某一关节；

是其参数；

是权重参数；其取值都由神经网络训练得到；

取值为对应聚类中心的值；

符号

代表向量之间的点积；

得分函数

用来表达当输入一张图片碎片

时，

反映了图片中的关节点部位

以及与它有最佳依赖关系的

；完整表达如下：

；

其中

为常数偏置；

在训练时，当训练集输入一张图像碎片

时，F会反映出该图像碎片属于不同关节的取值，以F得分最高的判定为属于某一关节类别，通过F值与其对应的关节类别标签不断的训练支持向量机SVM，使得支持向量机的分类超平面拟合度最高；在测试时，当需要判定某一关节类别时，输入一张测试集图像碎片，可以根据得到的F值，输入SVM直接得到该图片是或者不是属于该关节类别。

2.根据权利要求1所述的一种基于可变形卷积神经网络的人体姿态估计方法，其特征在于，所述步骤a包括扩展、分割数据集图片；具体为：

a.1：将数据集中的关节点按照关节树结构进行扩展，输入数据集中标记了人体的14个关节，按照矩阵映射将该14个关节点扩展为26个；

3.根据权利要求2所述的一种基于可变形卷积神经网络的人体姿态估计方法，其特征在于，所述步骤b包括对训练集图片做K均值聚类；聚类的结果使得相邻关节在同一个簇内，同时以聚类结果为标签，认为同一个簇内具有关节间的依赖关系，并将聚类结果输入卷积神经网络训练，使得神经网络具备识别关节之间的依赖关系的功能。

4.根据权利要求1所述的一种基于可变形卷积神经网络的人体姿态估计方法，其特征在于，所述步骤c包括以K均值聚类结果为标签，将训练集输入可变形卷积神经网络训练具体为：

c.1：该可变形卷积神经网络包含一个可变形卷积层，3个传统卷积层，2个全连接层和一个输出层；输入神经网络中的训练集碎片包含了两种信息：一种是关节点所处的像素位置，一种是根据聚类结果得到的关节相互之间的依赖关系；通过卷积神经网络来获取关节点图像碎片的表观特征，同时训练神经网络识别邻近关节点之间的依赖关系；

c.2：该神经网络中的卷积层采用的核函数为可变卷积核，可变型卷积层对卷积核中的每个采样点的位置都增加了一个偏移的变量，通过这些变量，卷积核就可以在当前位置附近随意的采样，而不再局限于之前的规则格点；卷积核为3x3大小的正常卷积核采样方式可变的卷积核，a为正常规律采样的9个黑点，b、c、d为可变形卷积，在正常的采样坐标上加上一个偏移量，其中c、d为b的特殊情况，展示了可变形卷积可以作为尺度变换和旋转变换的特殊情况。

5.根据权利要求1所述的一种基于可变形卷积神经网络的人体姿态估计方法，其特征在于，所述步骤e包括输出处理：具体基于对测试集的关节估计结果，统计关节点的估计准确率。