CN105740892A

CN105740892A - 一种高准确率的基于卷积神经网络的人体多部位识别方法

Info

Publication number: CN105740892A
Application number: CN201610056618.9A
Authority: CN
Inventors: 刘波; 张恒瑜
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2016-01-27
Filing date: 2016-01-27
Publication date: 2016-07-06

Abstract

本发明提供了一种高准确率的基于卷积神经网络的人体多部位识别方法。采用深度卷积神经网络提取图像特征，该方法充分利用了图像的深度信息，极大的提高了图像的识别准确率；其次，基于RCNN方法利用Selective Search算法形成候选边框，比滑动窗口方法更能适应深度卷积网络下定位信息的准确性；进一步的，通过将卷积神经网络的最后一层Softmax层替换成SVM，最终获得了基于分类的得分；另外，获得各个候选边框的相对于各个类别的SVM得分后，通过添加基于像素的位置范围约束、K近邻约束和混合高斯模型最终形成基于整体理解的候选边框组合，提高了人体多部位识别的准确率，比原有RCNN的方法定位更加精准。

Description

一种高准确率的基于卷积神经网络的人体多部位识别方法

技术领域

本发明涉及模式识别与深度学习领域，特别是一种高准确率的基于卷积神经网络的人体多部位识别方法。

背景技术

人体识别是计算机视觉的一大热点。在过去，人体识别的大多基于低层次的特征因子和高层次的上下文。SIFT算子和HOG算子便是这其中的常用算子，他们都是基于低层次的方向直方图得来的，但图像的特征是分层的并且是逐层推进的，所以，LeCun等人在Rumelhart等人的研究基础上提出了基于反向传播进行随机梯度下降算法的卷积神经网络(CNN)的训练方法并在当时得到了相当的重视而且在计算机视觉领域形成了新的认知。

虽然CNN在90年代得到了广泛的应用，但是后来还是被支持向量机(SVM)超越，直到2012年Krizhevsky等人在ImageNetLargeScaleVisualRecognitionChallenge(ILSVRC)上的巨大成功才将大众的视野拉回到CNN上来，该算法的成功主要在(1)大数量级的标注数据(2)对LeCun网络结构的改进：激活函数采用f(x)＝max(0，x)来提高速度和采用dropout减少过拟合。

虽然CNN在识别领域取得了骄人的成绩，但是CNN做的工作多是分类，而对于识别中的另一个工作——定位涉及较少。RCNN的提出极大地结合了卷积神经网络和多种机器学习算法，化解了识别与定位之间的鸿沟。

人体多部位识别不仅仅需要识别出整个人体，还需要对人体的各个部位进行定位，最终形成对每个人体和其相应部位的整体理解。如何建立随动作姿势和视角变化还能保持较高准确率的整体和各个部位的关联模型称为了重中之重，在过去的方法中，Poselets和DPM等几何约束算法取得了较好的成果，但这些成果大多基于给定的整体边框来定位各个部位的位置，所以以上方法也需要进一步的改进。

发明内容

本发明提供一种高准确率的基于卷积神经网络的人体多部位识别方法。本发明中采用深度卷积神经网络提取图像特征，这种方法充分利用了图像的深度信息，极大的提高了图像的识别准确率；其次，基于RCNN方法利用SelectiveSearch算法形成候选边框，比滑动窗口方法更能适应深度卷积网络下定位信息的准确性；进一步的，通过将卷积神经网络的最后一层Softmax层替换成SVM，最终获得了基于分类的得分；另外，获得各个候选边框的相对于各个类别的SVM得分后，通过添加基于像素的位置范围约束、K近邻约束和混合高斯模型最终形成基于整体理解的候选边框组合，提高了人体多部位识别的准确率，比原有RCNN的方法定位更加精准。

本发明采用如下技术方案：

一种高准确率的基于卷积神经网络的人体多部位识别方法，如图1所示，包括SelectiveSearch图像分割算法，深层卷积神经网络，基于深层特征训练出的支持向量机和三种空间几何约束(空间像素范围约束，K近邻约束，混合高斯模型约束)。当输入一幅RGB图像，首先通过SelectiveSearch算法生成大约2000个候选边框，然后通过卷积神经网络计算这些候选边框的全相连层特征，之后通过全相连层特征进一步计算其支持向量机的分类得分，再然后假定每一个候选边框都为人体整体边框并通过空间几何约束计算其相应的部位边框和该边框组合的得分，最后通过非最大化抑制和阈值的限制获得最终的边框组合并显示出来。

所述的SelectiveSearch算法是一种基于分层区域合并的图像分割方法，本发明中采用SelectiveSearch的快速模式，平均每张图片会产生大约2000个尺寸不一的候选区域边框，此算法的优点是采用多元策略集以便适应几乎所用情况将小区域合并在一起形成分层区域合并的边框范围，另一个优点是计算速度快。其中，区域的合并方式是有层次的、类似于哈夫曼树的构造过程，通过使用EfficientGraph-BasedImageSegmentation的方法获取原始分割区域并通过计算相似度不断对区域进行合并。计算相似度时该算法还充分从颜色、纹理、大小等方面考虑，并将以上方面进行加权得分。

所述的深度卷积神经网络采用的深度卷积神经网络结构如图2所示，输入为224*224的RGB图像，是将候选区域进行缩放填充得到的，然后通过五层卷积层、三层池化层和三层全连接层最终得到候选区域的分类结果。值得一提的是该网络结构采用了Max(x,0)代替原有激活函数极大的提高了计算速度，并且采用了dropout的方法随机舍弃不必要的值来降低过拟合。训练时，将整个人体和各个部位当作不同的类别处理并通过无监督的大数量级的数据的训练和有监督的相对小数量级的数据的权值微调，最终训练出的深度卷积神经网络分类器有了较高的分类准确率，为下一步识别定位奠定了基础。

所述的支持向量机分类器是通过输入深度卷积神经网络的全相连层FC7的图像特征和该图像类别训练出的。相较原有卷积神经网络只输出分类类别，通过训练该支持向量机获得分类得分，这为后续在得分基础上添加几何约束奠定了基础。

所述的空间像素范围约束是当假设该候选边框为整个人体边框，那么其相应的部位边框一定会在其附近并且不超过一定数量的像素，本发明中通过五折交叉检验确定这个像素数量，即将训练数据分成五份，每次拿出其中一份作为测试数据其余四份作为训练数据，重复进行五次获得最终结果。在测试时通过限定这种空间像素的位置关系将会得到很多基于整体理解的边框组合。

所述的混合高斯模型约束是根据人体之间动作、姿态的相似性获得的。在训练时，根据人体主边框和各个相应部位边框的位置和相对大小拟合出混合高斯模型。测试时，给定得分最高的若干主边框，通过尝试不同部位边框的混合高斯模型得分，选出得分超过阈值的边框组合，本约束是建立在空间像素约束之上的方法。

所述的K近邻约束是建立在混合高斯模型的基础上的约束，通过K近邻算法查找与测试图片中假设为整体的边框最相近的K个训练集中的整体边框，然后获取该K个训练边框的混合高斯模型，分别用这些混合高斯模型参数去拟合测试边框，最终获得得分超过阈值的边框组合。

与现有技术相比，本发明具有一下优点：

本发明采用深度卷积神经网络提取图像特征，极大地提高了图像检测的准确率，充分利用了图像特征的分层传递；其次，利用SelectiveSearch工具包形成候选边框，比滑动窗口方法更能适应深度卷积网络下定位信息的准确性；进一步的，通过将卷积神经网络的最后一层Softmax层替换成SVM，最终获得了基于分类的得分；另外，获得各个候选边框的相对于各个类别的SVM得分后，通过添加基于像素的位置范围约束、K近邻约束和混合高斯模型最终形成基于整体理解的候选边框组合，如图3所示，本发明不仅对人整体定位准确而且对各个部位把握也很精准。除此之外，通过对各个部位的定位的准确也提高了人体整体识别的准确率，比原有RCNN的方法定位更加精准，如图4所示，是本发明算法与RCNN对同一图像检测结果的比较，上方的为本发明的结果，下方的为RCNN的结果，本发明的结果明显对人体识别有着更精准的定位。

附图说明

图1是本发明的人体多部位识别模型的结构图；

图2是本发明的人体多部位识别模型中的卷积神经网络的结构图；

图3是本发明进行人体识别的实例；

图4是本发明算法与RCNN对同一图像检测结果的比较，上方的为本发明的结果，下方的为RCNN的结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和公式，对本发明作进一步详细说明。

图2是本发明的整体人体多部位识别模型中的卷积神经网络的结构图，采用的是Krizhevsky等人的深度卷积神经网络结构，输入为224*224的RGB图像，然后通过五层卷积层、三层池化层和三层全连接层最终得到候选区域的分类结果。其中激活函数由之前的f(x)＝tanh(x)或者f(x)＝(1+e^-x)^-1变为f(x)＝max(0，x)，极大的提升了卷积神经网络的计算速度。局部相应归一化采用

b_{x, y}^{i} =

α_{x, y}^{i} / {(k + α Σ_{j = \max (0, i - \frac{n}{2})}^{\min (N - 1, i + \frac{n}{2})} {(α_{x, y}^{j})}^{2})}^{β}

，其中k＝2,n＝5,α＝10^-4,β＝0.75。另外，卷积神经网络中还添加了防止过拟合的dropout方法。在训练该网络时，首先利用已经通过大量无监督学习过的网络进行权值预设，然后进行有监督的权值微调。在权值微调时，将整体和各个部位分别作为不同的类别进行训练，通过将SelectiveSearch产生的候选边框通过填充和缩放到固定的大小后作为神经网络的输入，其中与已标注边框重叠度超过0.7的边框的标签设为该已标注边框的类别标签，如果与所有已标注边框的重叠都小于0.3那么该边框的分类标签设为背景标签。然后将该边框通过卷积神经网络后的类别输出与真实类别标签进行比较，通过反向传播算法对权值进行修正。

通过卷积神经网络后，可以得到分类标签但无法量化得分，所以在卷积神经网络的基础上训练支持向量机用以量化得分。支持向量机的输入为卷积神经网络的全相连第七层，输出为类别得分，从-1到1。训练方法与上方卷积神经网络的训练方法类似。

通过以上两步后，可以获得每个候选边框相对于每个类别的分类得分但是无法获得候选边框之间的关联，所以本发明通过添加几何约束来形成系统的理解，所用的公式如下，，其中Δ(X)是各种空间几何约束，d_i(x_i)为整体边框或者部位边框的支持向量机得分。

空间像素范围约束是以整体边框为主体，寻找空间位置上与其不超过10个像素的候选部位边框，最终通过主边框与候选部位边框的支持向量机得分的成绩的幂最终选出边框组合。公式如下，

Δ_{p o s i t i o n} (X) = Π_{i = 1}^{n} C_{X_{0}} (x_{i}) .

其中，

混合高斯模型约束是根据人体之间动作、姿态的相似性进行模拟出的。在训练时，根据人体主边框和各个相应部位边框的位置和相对大小拟合出混合高斯模型。测试时，给定得分最高的若干主边框，通过尝试不同部位边框的混合高斯模型得分，选出得分超过阈值的边框组合，本约束是建立在空间像素约束之上的方法，公式为

Δ_{g u s s i o n} (X) = Δ_{p o s i t i o n} (X) {(Π_{i = 1}^{n} δ_{i} (x_{i}))}^{&Proportional;},

其中α是五折交叉检验训练出的成绩系数为0.01，δ_i(x_i)是混合高斯模型得分，混合高斯模型中模型的个数为4。

K近邻约束是建立在混合高斯模型的基础上的约束，通过K近邻算法查找与测试图片中假设为整体的边框最相近的K个训练集中的整体边框，然后获取该K个训练边框的混合高斯模型，分别用这些混合高斯模型参数去拟合测试边框，最终获得得分超过阈值的边框组合，公式为

Δ_{k n n} (X) = Δ_{p o s i t i o n} (X) {(Π_{i = 1}^{n} δ_{i} (x_{i}))}^{&Proportional;}

，其中α是训练出的成绩系数为0.01，δ_i(x_i)是K近邻模型得分，其中K通过五折交叉检验确定为30。

对所公开的实施例的上述说明，使本领域准也技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种高准确率的基于卷积神经网络的人体多部位识别方法，其特征在于：该方法包括SelectiveSearch图像分割算法、深层卷积神经网络、基于深层特征训练出的支持向量机和三种空间几何约束；当输入一幅RGB图像，首先通过SelectiveSearch算法生成大约2000个候选边框，然后通过卷积神经网络计算这些候选边框的全相连层特征，之后通过全相连层特征进一步计算其支持向量机的分类得分，再然后假定每一个候选边框都为人体整体边框并通过空间几何约束计算其相应的部位边框和该边框组合的得分，最后通过非最大化抑制和阈值的限制获得最终的边框组合并显示出来。

2.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法，其特征在于：所述的SelectiveSearch算法是一种基于分层区域合并的图像分割方法，本发明中采用SelectiveSearch的快速模式，平均每张图片会产生大约2000个尺寸不一的候选区域边框，此算法的优点是采用多元策略集以便适应几乎所用情况将小区域合并在一起形成分层区域合并的边框范围，另一个优点是计算速度快；其中，区域的合并方式是有层次的、类似于哈夫曼树的构造过程，通过使用EfficientGraph-BasedImageSegmentation的方法获取原始分割区域并通过计算相似度不断对区域进行合并；计算相似度时该算法还充分从颜色、纹理、大小等方面考虑，并将以上方面进行加权得分。

3.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法，其特征在于：所述的深度卷积神经网络采用的深度卷积神经网络结构，输入为224*224的RGB图像，是将候选区域进行缩放填充得到的，然后通过五层卷积层、三层池化层和三层全连接层最终得到候选区域的分类结果；值得一提的是该网络结构采用了Max(x,0)代替原有激活函数极大的提高了计算速度，并且采用了dropout的方法随机舍弃不必要的值来降低过拟合；训练时，将整个人体和各个部位当作不同的类别处理并通过无监督的大数量级的数据的训练和有监督的相对小数量级的数据的权值微调，最终训练出的深度卷积神经网络分类器有了较高的分类准确率，为下一步识别定位奠定了基础。

4.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法，其特征在于：所述的支持向量机分类器是通过输入深度卷积神经网络的全相连层FC7的图像特征和该图像类别训练出的；相较原有卷积神经网络只输出分类类别，通过训练该支持向量机获得分类得分，这为后续在得分基础上添加几何约束奠定了基础。

5.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法，其特征在于：所述的空间像素范围约束是当假设该候选边框为整个人体边框，那么其相应的部位边框一定会在其附近并且不超过一定数量的像素，本发明中通过五折交叉检验确定这个像素数量，即将训练数据分成五份，每次拿出其中一份作为测试数据其余四份作为训练数据，重复进行五次获得最终结果；在测试时通过限定这种空间像素的位置关系将会得到很多基于整体理解的边框组合。

6.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法，其特征在于：所述的混合高斯模型约束是根据人体之间动作、姿态的相似性获得的；在训练时，根据人体主边框和各个相应部位边框的位置和相对大小拟合出混合高斯模型；测试时，给定得分最高的若干主边框，通过尝试不同部位边框的混合高斯模型得分，选出得分超过阈值的边框组合，本约束是建立在空间像素约束之上的方法。

7.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法，其特征在于：所述的K个近邻约束是建立在混合高斯模型的基础上的约束，通过K个近邻算法查找与测试图片中假设为整体的边框最相近的K个训练集中的整体边框，然后获取该K个训练边框的混合高斯模型，分别用这些混合高斯模型参数去拟合测试边框，最终获得得分超过阈值的边框组合。

8.根据权利要求1所述的一种高准确率的基于卷积神经网络的人体多部位识别方法，其特征在于：采用深度卷积神经网络结构，输入为224*224的RGB图像，然后通过五层卷积层、三层池化层和三层全连接层最终得到候选区域的分类结果；其中激活函数由之前的f(x)＝tanh(x)或者f(x)＝(1+e^-x)^-1变为f(x)＝max(0,x)，极大的提升了卷积神经网络的计算速度；局部相应归一化采用

b_{x, y}^{i} =

α_{x, y}^{i} / {(k + α Σ_{j = \max (0, i - \frac{n}{2})}^{\min (N - 1, i + \frac{n}{2})} {(α_{x, y}^{j})}^{2})}^{β}

，

其中k＝2,n＝5,α＝10^-4,β＝0.75；另外，卷积神经网络中还添加了防止过拟合的dropout方法；在训练该网络时，首先利用已经通过大量无监督学习过的网络进行权值预设，然后进行有监督的权值微调；在权值微调时，将整体和各个部位分别作为不同的类别进行训练，通过将SelectiveSearch产生的候选边框通过填充和缩放到固定的大小后作为神经网络的输入，其中与已标注边框重叠度超过0.7的边框的标签设为该已标注边框的类别标签，如果与所有已标注边框的重叠都小于0.3那么该边框的分类标签设为背景标签；然后将该边框通过卷积神经网络后的类别输出与真实类别标签进行比较，通过反向传播算法对权值进行修正；

通过卷积神经网络后，可以得到分类标签但无法量化得分，所以在卷积神经网络的基础上训练支持向量机用以量化得分；支持向量机的输入为卷积神经网络的全相连第七层，输出为类别得分，从-1到1；训练方法与上方卷积神经网络的训练方法类似；

通过以上两步后，可以获得每个候选边框相对于每个类别的分类得分但是无法获得候选边框之间的关联，所以本发明通过添加几何约束来形成系统的理解，所用的公式如下，，其中Δ(X)是各种空间几何约束，d_i(x_i)为整体边框或者部位边框的支持向量机得分；

空间像素范围约束是以整体边框为主体，寻找空间位置上与其不超过10个像素的候选部位边框，最终通过主边框与候选部位边框的支持向量机得分的成绩的幂最终选出边框组合；公式如下，

Δ_{p o s i t i o n} (X) = Π_{i = 1}^{n} C_{x_{0}} (x_{i});

其中，

混合高斯模型约束是根据人体之间动作、姿态的相似性进行模拟出的；在训练时，根据人体主边框和各个相应部位边框的位置和相对大小拟合出混合高斯模型；测试时，给定得分最高的若干主边框，通过尝试不同部位边框的混合高斯模型得分，选出得分超过阈值的边框组合，本约束是建立在空间像素约束之上的方法，公式为

Δ_{g u s s i o n} (X) = Δ_{p o s i t i o n} (X) {(Π_{i = 1}^{n} δ_{i} (x_{i}))}^{&Proportional;},

其中α是五折交叉检验训练出的成绩系数为0.01，δ_i(x_i)是混合高斯模型得分，混合高斯模型中模型的个数为4；

Δ_{k n n} (X) = Δ_{p o s i t i o n} (X) {(Π_{i = 1}^{n} δ_{i} (x_{i}))}^{&Proportional;}