CN106127108A

CN106127108A - 一种基于卷积神经网络的人手图像区域检测方法

Info

Publication number: CN106127108A
Application number: CN201610421211.1A
Authority: CN
Inventors: 邓小明; 袁野; 杨硕; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2016-06-14
Filing date: 2016-06-14
Publication date: 2016-11-16
Anticipated expiration: 2036-06-14
Also published as: CN106127108B

Abstract

本发明公开一种基于卷积神经网络的人手图像区域检测方法，包括以下步骤：利用卷积神经网络对图像进行特征提取并训练一个弱分类器；对于已经标好角度的图像，基于此分类器对图像分割得到多个候选区域；对每个候选区域利用卷积神经网络建模，得到角度估计模型并进行角度标注，将其旋转至正定姿态；再次利用卷积神经网络建模得到分类模型；对于测试图像，首先使用弱分类器得到候选区域，对每个候选区域，通过角度估计模型估计角度旋转至正定姿态；将正定姿态下的候选区域输入到分类模型中，获得图像中人手的位置与角度。该方法采用基于卷积神经网络的编码分类提高分类精度，利用角度模型保证方法具有旋转不变性，具有很高的人手区域检测精度。

Description

一种基于卷积神经网络的人手图像区域检测方法

技术领域

本发明属于模式识别、计算机视觉领域，特别涉及一种基于卷积神经网络的人手图像区域检测方法。

背景技术

近年来，随着计算机视觉和模式识别的发展，手部的检测与定位取得了明显的进展，但仍存在许多不足，由于外界环境的影响，如光照变化、手部阴影、手部形变、手部运动自遮挡、互遮挡等，给手部检测与定位带来了极大的挑战。而卷积神经网络(ConvolutionalNeural Networks，CNN)是人工神经网络的一种，它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。在当前几乎所有的物体分类数据库和竞赛中都取得了最好成绩，是当前语音分析和图像识别领域的研究热点。

传统的卷积神经网络在物体识别领域具有很强的鉴别力，但其要求输入具有旋转不变性，而在很多任务中，如人手图像区域检测等，输入图像具有大量旋转变化，传统的卷积神经网络在这些任务表现不佳。另外传统检测方法中，候选区域提取完全基于灰度值联通区域，难以处理像手这类形变大、遮挡严重的物体。

发明内容

为解决现有技术问题，本发明提供一种基于卷积神经网络的人手图像区域检测方法。该方法利用角度模型保证方法具有旋转不变性，具有很高的人手区域检测精度。

本发明提供一种基于卷积神经网络的人手图像区域检测方法，该方法包括以下步骤：

步骤1，采集多个训练图像，对训练图像标注手腕和手掌中心的位置，并计算人手角度，然后根据人手角度把训练集分为多个角度集合；以各个角度集合为训练子集，训练一个多部件的滑动窗口型的分类模型M1；

步骤2，基于分类模型M1，对训练集的每个图像提取候选区域P1，并对候选区域标注类别与角度信息。

步骤3，将根据训练集得到的候选区域P1送入卷积神经网络，训练得到角度估计模型M2。

步骤4，将候选区域P1中的每一个区域送入角度估计模型M2，得到每个区域的估计角度A1，将其按角度A1旋转至正定姿态，得到正定姿态的候选区域集合P2。

步骤5，将正定姿态的候选区域集合P2送入卷积神经网络，训练得到类别估计模型M3。

步骤6，对于测试集，将集合中的图像送入分类模型M1，得到候选区域P3。

步骤7，将候选区域P3中的每一个区域送入角度估计模型M2，得到每个区域的估计角度A2，将其按角度A2旋转至正定姿态，得到正定姿态的候选区域集合P4。

步骤8，将正定姿态的候选区域集合P4送入类别估计模型M3中，得到候选区域类别估计信息，从而确定人手图像区域。

根据本发明的方法，图像在复杂的旋转变换下，仍然可以鲁棒地达到人手图像区域检测的目的。本发明可以在人机交互、可穿戴计算等领域应用。

附图说明

图1是本发明方法的步骤流程图。

图2是本发明方法的具体检测效果图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

S1.本发明提供一种基于卷积神经网络的人手图像区域检测方法，其总体框架和流程如图1所示，该方法包括以下步骤：

步骤1，采集多个训练图像，对训练图像标注手腕和手掌中心的位置，并计算人手角度，根据所标注的角度信息，将训练集分为多个角度集合。以各个角度集合为训练子集，训练一个多部件的滑动窗口型的分类模型M1。

步骤8，将正定姿态的候选区域集合P4送入类别估计模型M3中，得到类别估计信息。

S2.根据流程S1所述方法，所述步骤1中训练集合的角度划分进一步包括以下步骤：

步骤1.1，统计训练集角度分布，根据分布直方图将角度等分为N个区域。

步骤1.2，基于每个区域内的训练样本，训练一个分类模型部件，将N个部件整合形成一个整体分类模型M4。

步骤1.3，对于每一训练样本，送入分类模型M4，计算其在各个分类模型部件的分数，选取分数最高的部件，并将该样本划分给该部件对应的角度区域。

步骤1.4，重复步骤1.2，步骤1.3直到角度区域内样本不发生明显改变或到达预定重复次数。

S3.根据流程S2所述方法，所述步骤1.2中分类模型的训练进一步包括以下步骤：

步骤1.2.1，对于一个训练样本，按α(α<1)倍率分别放大和缩小各K级，组成2K+1层金字塔。

步骤1.2.2，将得到的2K+1层金字塔送入M层卷积神经网(M一般大于等于5)，通过预训练得到分类特征金字塔。

步骤1.2.3，在分类特征金字塔上，每层都使用滑动窗口扫描，计算其真值(groundtruth)的交集面积I与并集面积U，得到I与U的比值IoU。选择IoU比值大于β(β<1)的候选区域作为正样本，即类别为1，其余样本为负样本，类别为0。

步骤1.2.4，选择全部正样本作为正样本集，随机选择部分负样本作为负样本集，使用梯度下降法训练一个模板分类器。

步骤1.2.5，将所有负样本送入模板分类器，选取前T(T一般可选为100-300的整数)个分数最高且分数大于某一阈值的负样本加入负样本集，若负样本集数目大于最大值，丢弃若干分数最低的负样本，使得负样本集数目等于最大值。

步骤1.2.6，重复步骤1.2.4，步骤1.2.5直到模板分类精度达到某一阈值或到达预定重复次数。

S4.根据流程S1所述方法，所述步骤2中候选区域类别与角度信息的标注进一步包括以下步骤：

步骤2.1对于每一个候选区域计算其真值(ground truth)的交集面积I与并集面积U，得到I与U的比值IoU。

步骤2.2选择IoU比值大于β(β<1)的候选区域作为正样本，即类别为1，其余样本为负样本，类别为0。

步骤2.3对每一个正样本，选择与其IoU比值最大的真值(ground truth)，并该真值(ground truth)的角度作为该样本的角度信息。

步骤2.4使用所有正样本训练角度估计模型M2，使用训练集所有样本训练类别估计模型M3。

S5.根据流程S1所述方法，所述步骤3训练角度估计模型进一步包括以下步骤：

步骤3.1，将所有训练样本缩放至固定大小。

步骤3.2，计算每个像素点每个通道平均值，得到一个平均值图像，对每个训练样本减去该平均值图像。

步骤3.3，将训练样本送入N层网络结构(N一般大于等于7)，进行训练得到角度估计模型。

S6.根据流程S5所述方法，所述步骤3.3训练的角度估计模型进一步包括：

步骤3.3.1，根据标注好的角度θ，计算得到cosθ,sinθ作为角度的真值。

步骤3.3.2，计算E＝||(x₁,x₂)-(cosθ,sinθ)||₂，其中E表示角度估计模型的残差，(x₁,x₂)表示角度估计模型M2的估计值。

步骤3.3.3，利用得到的残差E，使用最优化方法更新角度估计模型M1的各个权重达到训练的目的。

S7.根据流程S1所述方法，所述步骤4将样本旋转至正定姿态进一步包括：

步骤4.1，将角度估计模型得到的(x₁,x₂)，正则化使得||(x₁,x₂)||₂＝1。

步骤4.2，假定非正定的输入U，正定的输出V，

(\begin{matrix} x_{i}^{s} \\ y_{i}^{s} \end{matrix}) = A_{θ} (\begin{matrix} x_{i}^{t} \\ y_{i}^{t} \\ 1 \end{matrix}) = [\begin{matrix} x_{2} & x_{1} & 0 \\ - x_{1} & x_{2} & 0 \end{matrix}] (\begin{matrix} x_{i}^{t} \\ y_{i}^{t} \\ 1 \end{matrix})

其中为非正定的输入U上的坐标，为正定的输出V上对应的坐标，A_θ表示非正定输入到正定输出的变化矩阵。具体地，

V_{i}^{c} = Σ_{n}^{H} Σ_{m}^{W} U_{n m}^{c} k (x_{i}^{s} - m; Φ_{x}) k (y_{i}^{s} - n; Φ_{y})

&ForAll; i &Element; [1 ... H^{'} W^{'}], &ForAll; c &Element; [1 ... C]

其中，H,W表示非正定的输入U的长和宽，H′,W′表示正定的输入V的长和宽，C表示输入输出的通道数，k(x)为某一采样函数，Φ_x,Φ_y为采样参数k(x)的参数；m,n表示非正定的输入U上的坐标。特别地，当k(x)为max(x)时，

V_{i}^{c} = Σ_{n}^{H} Σ_{m}^{W} U_{n m}^{c} m a x (0, 1 - | x_{i}^{s} - m |) m a x (0, 1 - | y_{i}^{s} - n |)

进而得到正定的输出V。

S8.根据流程S1所述方法，所述步骤5训练类别估计模型进一步包括：

步骤5.1，将所有训练样本缩放至固定大小。

步骤5.2，计算每个像素点每个通道平均值，得到一个平均值图像，对每个训练样本减去该平均值图像。

步骤5.3，将训练样本送入G层网络结构(G一般大于等于7)，进行训练得到类别估计模型。

S9.根据流程S8所述方法，所述步骤5.3训练类别估计模型进一步包括：

步骤5.3.1，选择全部正样本作为正样本集，随机选择部分负样本作为负样本集，使用梯度下降法训练一个模板分类器。

步骤5.3.2，将所有负样本送入模板分类器，选取前T个分数最高且分数大于某一阈值的负样本加入负样本集，若负样本集数目大于最大值，丢弃若干分数最低的负样本，使得负样本集数目等于最大值。

步骤5.3.3，重复步骤5.3.1，步骤5.3.2直到模板分类精度达到某一阈值或到达预定重复次数。

S10.根据流程S8所述方法，所述步骤5.3训练类别估计模型进一步包括：

a)计算其中，E表示类别估计模型的残差，p为类别真值，为类别估计分数；

b)利用得到的残差E，使用最优化方法更新类别估计模型M3的各个权重达到训练的目的。

根据本发明的方法，图像在复杂的旋转变换下，仍然可以鲁棒地达到人手图像区域检测的目的。具体效果如图2所示，其中(a)、(c)图为待检测图像，(a)、(c)图为检测后得到人手图像区域的图像。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于卷积神经网络的人手图像区域检测方法，其特征在于，包括以下步骤：

1)采集多个训练图像，对训练图像标注手腕和手掌中心的位置，并计算人手角度，然后根据人手角度把训练集分为多个角度集合；以各个角度集合为训练子集，训练一个多部件的滑动窗口型的分类模型M1；

2)基于分类模型M1，对训练集的每个图像提取候选区域P1，并对候选区域标注类别与角度信息；

3)将根据训练集得到的候选区域P1送入卷积神经网络，训练得到角度估计模型M2；

4)将候选区域P1逐个送入角度估计模型M2，得到每个区域的角度A1，将其按角度A1旋转至正定姿态，得到正定姿态的候选区域集合P2；

5)将正定姿态的候选区域集合P2送入卷积神经网络，训练得到类别估计模型M3。

6)对于测试集，将集合中图像送入分类模型M1，得到候选区域P3。

7)将候选区域P3逐个送入角度估计模型M2，得到每个区域的角度A2，将其按角度A2旋转至正定姿态，得到正定姿态的候选区域集合P4。

8)将正定姿态的候选区域集合P4送入类别估计模型M3中，得到候选区域类别估计信息，从而确定人手图像区域。

2.如权利要求1所述的方法，其特征在于，步骤1)中训练集的角度划分包括以下步骤：

1.1)统计训练集角度分布，根据分布直方图将角度等分为N个区域；

1.2)基于每个区域内的训练样本，训练一个分类模型部件，将N个部件整合形成一个整体分类模型M4；

1.3)对于每一训练样本，送入分类模型M4，计算其在各个分类模型部件的分数，选取分数最高的部件，并将该样本划分给该部件对应的角度区域；

1.4)重复步骤1.2)、步骤1.3)直到角度区域内样本不发生明显改变或到达预定重复次数。

3.如权利要求2所述的方法，其特征在于，步骤1.2)中分类模型的训练包括以下步骤：

1.2.1)对于一个训练样本，按α倍率分别放大和缩小各K级，组成2K+1层金字塔，其中α<1；

1.2.2)将2K+1层金字塔送入M层卷积神经网，通过预训练得到分类特征金字塔；

1.2.3)在分类特征金字塔上，每层都使用滑动窗口扫描，计算其真值的交集面积I与并集面积U，得到I与U的比值IoU；选择IoU比值大于β的候选区域作为正样本，即类别为1，其余样本为负样本，类别为0；其中β<1；

1.2.4)选择全部正样本作为正样本集，随机选择部分负样本作为负样本集，使用梯度下降法训练一个模板分类器；

1.2.5)将所有负样本送入模板分类器，选取前T个分数最高且分数大于某一阈值的负样本加入负样本集，若负样本集数目大于最大值，丢弃若干分数最低的负样本，使得负样本集数目等于最大值；

1.2.6)重复步骤1.2.4)、步骤1.2.5)直到模板分类精度达到某一阈值或到达预定重复次数。

4.如权利要求1所述的方法，其特征在于，步骤2)中候选区域的类别与角度信息的标注包括以下步骤：

2.1)对于每一个候选区域计算其真值的交集面积I与并集面积U，得到I与U的比值IoU；

2.2)选择IoU比值大于β的候选区域作为正样本，即类别为1，其余样本为负样本，类别为0；其中β<1；

2.3)对每一个正样本，选择与其IoU比值最大的真值，并该真值的角度作为该样本的角度信息；

2.4)使用所有正样本训练角度估计模型M2，使用训练集所有样本训练类别估计模型M3。

5.如权利要求1所述的方法，其特征在于，步骤3)训练角度估计模型包括以下步骤：

3.1)将所有训练样本缩放至固定大小；

3.2)计算每个像素点每个通道平均值，得到一个平均值图像，对每个训练样本减去该平均值图像；

3.3)将训练样本送入N层网络结构，进行训练得到角度估计模型。

6.如权利要求5所述的方法，其特征在于，所述步骤3.3)进一步包括：

3.3.1)根据标注好的角度θ，计算得到cosθ,sinθ作为角度的真值；

3.3.2)计算E＝||(x₁,x₂)-(cosθ,sinθ)||₂，其中E表示角度估计模型的残差，(x₁,x₂)表示角度估计模型M2的估计值；

3.3.3)利用得到的残差E，使用最优化方法更新角度估计模型M1的各个权重达到训练的目的。

7.如权利要求6所述的方法，其特征在于，步骤4)所述旋转至正定姿态的方法是：

4.1)将角度估计模型得到的(x₁,x₂)，正则化使得||(x₁,x₂)||₂＝1；

4.2)假定非正定的输入U，正定的输出V，

(\begin{matrix} x_{i}^{s} \\ y_{i}^{s} \end{matrix}) = A_{θ} (\begin{matrix} x_{i}^{t} \\ y_{i}^{t} \\ 1 \end{matrix}) = [\begin{matrix} x_{2} & x_{1} & 0 \\ - x_{1} & x_{2} & 0 \end{matrix}] (\begin{matrix} x_{i}^{t} \\ y_{i}^{t} \\ 1 \end{matrix}),

其中为非正定的输入U上的坐标，为正定的输出V上对应的坐标，A_θ表示非正定输入到正定输出的变化矩阵；具体地，

V_{i}^{c} = Σ_{n}^{H} Σ_{m}^{W} U_{n m}^{c} k (x_{i}^{s} - m; Φ_{x}) k (y_{i}^{s} - n; Φ_{y}),

&ForAll; i &Element; [1 ... H^{'} W^{'}], &ForAll; c &Element; [1 ... C],

其中，H,W表示非正定的输入U的长和宽，H′,W′表示正定的输入V的长和宽，C表示输入输出的通道数，k(x)为某一采样函数，Φ_x,Φ_y为采样参数k(x)的参数；m,n表示非正定的输入U上的坐标；当k(x)为max(x)时，

V_{i}^{c} = Σ_{n}^{H} Σ_{m}^{W} U_{n m}^{c} m a x (0, 1 - | x_{i}^{s} - m |) m a x (0, 1 - | y_{i}^{s} - n |),

进而得到正定的输出V。

8.如权利要求1所述的方法，其特征在于，步骤5)训练类别估计模型的步骤包括：

5.1)将所有训练样本缩放至固定大小；

5.2)计算每个像素点每个通道平均值，得到一个平均值图像，对每个训练样本减去该平均值图像；

5.3)将训练样本送入G层网络结构，进行训练得到类别估计模型。

9.如权利要求8所述的方法，其特征在于，步骤5.3)包括：

5.3.1)选择全部正样本作为正样本集，随机选择部分负样本作为负样本集，使用梯度下降法训练一个模板分类器；

5.3.2)将所有负样本送入模板分类器，选取前T个分数最高且分数大于某一阈值的负样本加入负样本集，若负样本集数目大于最大值，丢弃若干分数最低的负样本，使得负样本集数目等于最大值；

5.3.3)重复步骤5.3.1)、5.3.2)直到模板分类精度达到某一阈值或到达预定重复次数。

10.如权利要求9所述的方法，其特征在于，步骤5.3)进一步包括：