CN106845513A

CN106845513A - 基于条件随机森林的人手检测器及方法

Info

Publication number: CN106845513A
Application number: CN201611101650.0A
Authority: CN
Inventors: 刘乐元; 陈靓影; 张坤; 刘三女牙; 杨宗凯
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2016-12-05
Filing date: 2016-12-05
Publication date: 2017-06-13
Anticipated expiration: 2036-12-05
Also published as: CN106845513B

Abstract

本发明提供了一种基于条件随机森林的人手检测器及方法，属于计算机视觉和模式识别领域。本发明利用随机森林做人手检测时将姿态作为条件状态，在训练时根据人手姿态将数据进行聚类，降低了数据的内类差异，使得训练的条件随机森林具备高的分类正确率和效率；在进行人手/非人手分类时，也先对人手的姿态进行分类，根据估计的人手姿态动态组建随机森林。本发明提供的技术可以解决在图像中检测具备不同姿态的人手的问题，扩展手势识别、手语识别等系统的应用范围。

Description

基于条件随机森林的人手检测器及方法

技术领域

本发明属于计算机视觉和模式识别领域，具体涉及一种基于条件随机森林的人手检测器及方法。

背景技术

检测出图像或视频中的人手是启动手势人机交互、手语识别等应用的第一步。然而，人手具有非常多的关节，加之不同拍摄视角的影响，其在图像中的表观形态繁多，导致在图像或视频中进行人手检测相当困难。现有人手检测方法大致分为三类：(1)利用肤色来检测手部。即，先从图像中检测出肤色像素，再根据一些形状等信息进一步判断是否为人手。(2)利用上下文来检测人手。即，先检测出手腕等变化小的部位，然后再推测周围的区域为人手。(3)利用分类器来检测人手。即，采集大量人手的样本，然后训练分类器来检测手部。这些方法都存在一些缺点，如：肤色不是人手特有的颜色，利用肤色来检测人手容易带来大量的虚警；利用上下文来检测人手较为依赖于推测的方法，推测方法不合理就造成漏检和虚警；利用分类器来检测人手虽然较为直接、合理，但由于人手的表观形态繁多，样本的内类差异较大，导致训练高性能的人手分类器难度非常高。

发明内容

针对现有技术的缺陷，为解决在图像中检测具备不同姿态的人手的问题，本发明提供一种具备高正确率、高效率的人手检测器及方法。

一种基于条件随机森林的人手检测器，包括：姿态聚类模块、条件随机森林组、扫描窗口推荐模块、动态随机森林组建模块、随机森林人手分类模块，其中，

姿态聚类模块用于在训练阶段通过聚类算法将输入的人手训练样本集按人手姿态的相似度聚类为N个训练样本子集，并在检测阶段判断待检子图像属于各个聚类的概率；条件随机森林组由一组不同人手姿态条件下的人手分类随机森林组成，其中每一个人手分类随机森林由姿态聚类模块输出的一个训练样本子集离线训练得到；扫描窗口推荐模块用于以滑窗形式扫描待检图像，并推荐可能存在人手的待检子图像；动态随机森林组建模块用于根据姿态聚类模块给出的待检子图像属于各个聚类的概率从条件随机森林组的各个随机森林中选择相应数量的决策树，动态建构用于人手分类的随机森林；随机森林人手分类模块用于利用动态组建的人手分类随机森林对待检子图像做出人手或非人手的分类。

进一步地，所述姿态聚类模块包括：

特征提取子模块，用于对每张训练样本集中的正样本图像提取一系列特征，并将这些特征连接成一个长特征向量，记第i张训练图像I_i提取后的特征向量为I_i＝[I_i ¹,I_i ²，...，I_i ^F]，其中F表示特征的种数；所有训练样本提取特征后的特征向量集合记为{I_i，i＝1,…,M⁺}，其中M⁺为整个训练样本集的正样本图像张数；

降维子模块，用于对特征向量集合{I_i，i＝1,…,M⁺}进行降维，降维后的特征向量集合记为

聚类子模块，用于对降维后的特征向量集合进行聚类，记各个聚类的中心为{C_n，n＝1,…,N}；

训练样本子集构建子模块，用于按各个样本图像所属的类别将训练样本集中的正样本划分为N个子集，记为将训练数据集中的负样本随机分成N个负样本子集，记为然后将和合并为一个训练样本子集，记为S_n，

进一步地，所述条件随机森林组通过离线训练得到，其中的一个条件随机森林T(n)由数据子集S_n中的图像训练得到；每个条件随机森林T(n)由T棵决策树组成，即每棵决策树T_t(n)采用如下步骤训练生成，训练的过程为：

(1)从训练样本子集S_n中随机选择m张图像；接着从每张选中的图像上提取一系列图像特征，记图像I_i提取特征后的特征图像集合为I_i＝{I_i ¹,I_i ²，...，I_i ^F}，其中F表示特征的种数；然后从每张特征图像上随机抠取N_P个大小为s×s像素的图像子块，并将从第i张图像上抠取的第j个图像块记为P_ij＝(θ_i,I_ij)，其中θ_i∈{-1,+1}为表示人手和非人手的类别标签；

(2)生成候选二值测试集每个二值测试包含四个参数R₁,R₂,f,τ，其中R₁和R₂分别表示从图像子块P里随机选取的两个矩形区域，f∈{1,2,…,F}表示随机选取的特征通道，τ为阈值；每个二值测试的形式为：

其中，I^f表示提取第f种特征后的图像，|R₁|、|R₂|分别表示两个矩形区域内像素的数量，(x,y)表示像素坐标；

(3)生成一个根节点，该节点中包含所有抠取的图像子块{P_ij}，将根节点标记为当前节点；

(4)使用候选二值测试集中的每一个尝试将当前节点上的图像子块集P分裂为两个子集和及计算分裂后的信息增益:

其中，H(·)表示熵，选择使得信息增益最大的二值测试将当前节点分裂为两个子节点；

当随机树生长到预设的最大深度时，或当前节点的信息增益小于最小阈值时，停止随机树的生长并生成叶子节点；否则继续迭代分裂；到达叶子节点l的图像子块记为l(P)，统计l(P)中标签为人手(θ＝1)的概率p(θ|l(P))，并将p(θ|l(P))存储于该叶子节点上。

进一步地，所述扫描窗口推荐模块以滑窗形式扫描待检图像，并推荐可能存在人手的一系列子图像其中K为推荐的子图像个数；推荐可能存在人手的子图像的策略为下列之一：

策略一：推荐所有扫描窗口中的子图像；

策略二：对扫描窗口对应的子图像进行预判，只推荐预判为人手的子图像；对于一子图像推荐规则为：

若则推荐

其中，为一保留子图像中属于肤色像素的操作，||为像素点计数操作，Sh()为一图像形状评价函数，τ_ns和τ_sh为阈值。

进一步地，所述姿态聚类模块还包括：

待检子图像特征提取子模块，用于对待检子图像提取一系列与训练阶段一致的特征，并将这些特征连接成一个长特征向量，记为

待检子图像特征降维子模块，用于使用训练阶段的降维算法对特征向量进行降维，降维后的特征向量记为

待检子图像距离计算子模块，用于计算降维后的特征向量与各个聚类中心的距离，记到第n个聚类中心的距离为其中D()为距离的计算方法；

概率计算子模块，用于计算待检子图像属于第n个聚类的概率

进一步地，所述动态随机森林组建模块从离线训练的条件随机森林组中选出T决策树动态组建出一个随机森林T^C，其中从条件随机森林T(Ω_n)中随机选出的决策树的棵数k_n由姿态聚类模块给出的待检子图像属于第n个聚类的概率来决定：

其中，表示向下取整。

进一步地，所述随机森林人手分类模块包括：

提取子模块，用于对待检子图像提取特征，所提取的特种种类与离线训练条件随机森林组所提取的特征种类一致；

输入子模块，用于从待检子图像的各类特征图像上分别抠取M个图像子块{P_i,i＝1,…，M}，并输入动态组建的随机森林T^C的各棵决策树中；当图像子块到P_i到达决策树的叶子节点时，记录该叶子节点上保存的概率值p_it＝p(θ,l(P))；

判定子模块，用于若判决输入的待检子图像为人手；否则判决输入的待检子图像为非人手。

一种基于条件随机森林的人手检测方法，包括以下步骤：

以滑窗形式扫描待检图像，并推荐可能存在人手的待检子图像；

在检测阶段判断待检子图像属于各个聚类的概率；

根据待检子图像属于各个聚类的概率从条件随机森林组的各个随机森林中选择相应数量的决策树，动态建构用于人手分类的随机森林；

利用动态组建的人手分类随机森林对待检子图像做出人手或非人手的分类；

所述条件随机森林组由一组不同人手姿态条件下的人手分类随机森林组成，其中每一个人手分类随机森林由训练样本子集离线训练得到；在训练阶段通过聚类算法将输入的人手训练样本集按人手姿态的相似度聚类为N个训练样本子集。

进一步地，所述在训练阶段将输入的人手训练样本集聚类为N个训练样本子集的步骤为：

(S101)对每张训练样本集中的正样本图像提取一系列特征，并将这些特征连接成一个长特征向量，记第i张训练图像I_i提取后的特征向量为I_i＝[I_i ¹,I_i ²，...，I_i ^F]，其中F表示特征的种数，所有训练样本提取特征后的特征向量集合记为{I_i，i＝1,…,M⁺}，其中M⁺为整个训练样本集的正样本图像张数；

(S102)使用特征降维方法对特征向量集合{I_i，i＝1,…,M⁺}进行降维，降维后的特征向量集合记为

(S103)对降维后的特征向量集合进行聚类，记各个聚类的中心为{C_n，n＝1,…,N}；

(S104)按各个样本图像所属的类别将训练样本集中的正样本划分为N个子集，记为将训练数据集中的负样本随机分成N个负样本子集，记为然后将和合并为一个训练样本子集，记为S_n，

所述条件随机森林组离线训练得到，其中的一个条件随机森林T(n)由数据子集S_n中的图像训练得到；每个条件随机森林T(n)由T棵决策树组成，即每棵决策树T_t(n)采用如下步骤训练生成，训练的过程为：

(S111)从训练样本子集S_n中随机选择m张图像；接着从每张选中的图像上提取一系列图像特征，记图像I_i提取特征后的特征图像集合为其中F表示特征的种数；然后从每张特征图像上随机抠取N_P个大小为s×s像素的图像子块，并将从第i张图像上抠取的第j个图像块记为P_ij＝(θ_i,I_ij)，其中θ_i∈{-1,+1}为表示人手和非人手的类别标签；

(S112)生成候选二值测试集每个二值测试包含四个参数R₁,R₂,f,τ，其中R₁和R₂分别表示从图像子块P里随机选取的两个矩形区域，f∈{1,2,…,F}表示随机选取的特征通道，τ为阈值，每个二值测试的形式为：

其中I^f表示提取第f种特征后的图像，|R₁|、|R₂|分别表示两个矩形区域内像素的数量，(x,y)表示像素坐标；

(S113)生成一个根节点，该节点中包含所有抠取的图像子块{P_ij}，将根节点标记为当前节点；

(S114)使用候选二值测试集中的每一个尝试将当前节点上的图像子块集P分裂为两个子集和及计算分裂后的信息增益:

其中H(·)表示熵，选择使得信息增益最大的二值测试将当前节点分裂为两个子节点；

当随机树生长到预设的最大深度时，或当前节点的信息增益小于最小阈值时，停止随机树的生长并生成叶子节点；否则继续迭代分裂；到达叶子节点l的图像子块记为l(P)，统计l(P)中标签为人手(θ＝1)的概率p(θ|l(P))，并将p(θ|l(P))存储于该叶子节点上；

所述在检测阶段接收从扫描窗口推荐过来的待检子图像并计算待检子图像属于第n个聚类的概率，步骤为：

(S1011)对待检子图像提取一系列与训练阶段一致特征，并将这些特征连接成一个长特征向量，记为

(S1012)使用训练阶段的降维算法对特征向量进行降维，降维后的特征向量记为

(S1013)计算降维后的特征向量与各个聚类中心的距离，记到第n个聚类中心的距离为其中D()为距离的计算方法，优选地，采用欧式距离；

(S1014)待检子图像属于第n个聚类的概率通过下列方程组计算：

从离线训练的条件随机森林组中选出T决策树动态组建出一个随机森林T^C，其中从条件随机森林T(Ω_n)中随机选出的决策树的棵数k_n由姿态聚类模块给出的待检子图像属于第n个聚类的概率来决定：

其中，表示向下取整；

所述利用动态组建的随机森林T^C对待检子图像做出人手/非人手的分类，步骤为：

(S141)对待检子图像提取特征，所提取的特种种类与离线训练条件随机森林组所提取的特征种类一致；

(S142)从待检子图像的各类特征图像上分别抠取M个图像子块{P_i,i＝1,…，M}，并输入动态组建的随机森林T^C的各棵决策树中；当图像子块到P_i到达决策树T_t ^C的叶子节点时，记录该叶子节点上保存的概率值p_it＝p(θ,l(P))；

(S143)若判决输入的待检子图像为人手；否则判决输入的待检子图像为非人手。

进一步地，所述以滑窗形式扫描待检图像，并推荐可能存在人手的一系列子图像其中K为推荐的子图像个数，推荐可能存在人手的子图像的策略为下列之一：

策略一：推荐所有扫描窗口中的子图像；

策略二：对扫描窗口对应的子图像进行预判，只推荐预判为人手的子图像，推荐规则为：

若且则推荐

本发明的有益技术效果体现在：

本发明在利用随机森林做人手检测时将姿态作为条件状态，在训练时根据人手姿态将数据进行聚类，降低了数据的内类差异，使得训练的条件随机森林具备高的分类正确率和效率；在进行人手/非人手分类时，也先对人手的姿态进行分类，根据估计的人手姿态动态组建随机森林。因此，本发明提供的技术可以解决在图像中检测具备不同姿态的人手的问题，扩展手势识别、手语识别等系统的应用范围。

附图说明

图1是本发明一较佳实施例结构组成示意图；

图2是本发明一较佳实施例姿态聚类模块划分训练样本子集的步骤流程图；

图3是本发明一较佳实施例姿态聚类模块计算待检子图像属于某个聚类的概率的步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于条件随机森林的人手检测器，包括：姿态聚类模块10、条件随机森林组11、扫描窗口推荐模块12、动态随机森林组建模块13、随机森林人手分类模块14，其中，

姿态聚类模块10在训练阶段通过聚类算法将输入的人手训练样本集按人手姿态的相似度聚类为N个训练样本子集，姿态聚类模块10亦可在检测阶段判断一幅图像属于各个聚类的概率；条件随机森林组11由一组不同人手姿态条件下的人手分类随机森林组成，其中每一个人手分类随机森林由姿态聚类模块10输出的一个训练样本子集离线训练得到；扫描窗口推荐模块12以滑窗形式扫描待检图像，并推荐可能存在人手的子图像；动态随机森林组建模块13根据姿态聚类模块10给出的待检子图像属于各个聚类的概率从条件随机森林组11的各个随机森林中选择相应数量的决策树，动态建构用于人手分类的随机森林；随机森林人手分类模块14利用动态组建的人手分类随机森林对待检子图像做出人手/非人手的分类。

如图2所示，在训练阶段姿态聚类模块10将输入的人手训练样本集聚类为N个训练样本子集，步骤为：

(S101)对训练样本集中的每张正样本图像提取一系列特征，并将这些特征连接成一个长特征向量，记第i张训练图像I_i提取后的特征向量为I_i＝[I_i ¹,I_i ²，...，I_i ^F]，其中F表示特征的种数。在本实施例中，设置F＝4，并采用了Sobel、LBP、Gabor和HOG四中特征。所有训练样本提取特征后的特征向量集合记为{I_i，i＝1,…,M⁺}，其中M⁺为整个训练样本集的正样本图像张数。

(S102)使用特征降维方法对特征向量集合{I_i，i＝1,…,M⁺}进行降维，优选地，采用局部线性嵌入法(Local Linear Embedding，LLE)来对特征向量进行降维。在本实施例中将特征向量降维到128维。降维后的特征向量集合记为

(S103)对降维后的特征向量集合进行聚类，优选地，采用K均值聚类(K-Means Clustering)方法将降维后的特征向量集合进行聚类。记各个聚类的中心为{C_n，n＝1,…,N}。在本实施例中，设置N＝5，即将聚类个数为5。

所述条件随机森林组11离线训练得到，其中的一个条件随机森林T(n)由数据子集S_n中的图像训练得到。每个条件随机森林T(n)由T棵决策树组成，即在本实施例中设置T＝20，即对每个条件随机森林各训练10棵决策树。每棵决策树T_t(n)采用如下步骤训练生成，训练的过程为：

(S111)从训练样本子集S_n中随机选择m张图像；接着从每张选中的图像上提取一系列图像特征，记图像I_i提取特征后的特征图像集合为I_i＝{I_i ¹,I_i ²，...，I_i ^F}，其中F表示特征的种数。在本实施例中，设置F＝4，并采用了Sobel、LBP、Gabor和HOG四中特征。然后从每张特征图像上随机抠取N_P个大小为s×s像素的图像子块，并将从第i张图像上抠取的第j个图像块记为P_ij＝(θ_i,I_ij)，其中θ_i∈{-1,+1}为类别标签(人手/非人手)。在本实施例中，从每张图像上提取的图像块个数为300。

(S112)生成候选二值测试集每个二值测试包含四个参数R₁,R₂,f,τ，其中R₁和R₂分别表示从图像子块P里随机选取的两个矩形区域，f∈{1,2,…,F}表示随机选取的特征通道，τ为阈值。每个二值测试的形式为：

其中I^f表示提取第f种特征后的图像，|R₁|、|R₂|分别表示两个矩形区域内像素的数量，(x,y)表示像素坐标。在本实施例中，二值测试库中包含3000个随机生成的二值测试。

(S113)生成一个根节点，该节点中包含所有抠取的图像子块{P_ij}。将根节点标记为当前节点。

(S114)分裂节点。使用候选二值测试集中的每一个尝试将当前节点上的图像子块集P分裂为两个子集和及计算分裂后的信息增益:

其中H(·)表示熵。选择使得信息增益最大的二值测试将当前节点分裂为两个子节点。

当随机树生长到预设的最大深度时，或当前节点的信息增益小于最小阈值时，停止随机树的生长并生成叶子节点；否则继续迭代分裂。在本实施例中，树的最大深度设置为15。到达叶子节点l的图像子块记为l(P)，统计l(P)中标签为人手(θ＝1)的概率p(θ|l(P))，并将p(θ|l(P))存储于该叶子节点上。

所述扫描窗口推荐模块12以滑窗形式扫描待检图像，并推荐可能存在人手的一系列子图像其中K为推荐的子图像个数。推荐可能存在人手的子图像的策略为下列之一：

(1)推荐所有扫描窗口中的子图像。

(2)对扫描窗口对应的子图像进行预判，只推荐预判为人手的子图像。优选地，使用肤色作为线索对扫描窗口对应的子图像进行预判。对于一子图像推荐规则为：

若且则推荐

在本实施例中，采用了第二种方式来推荐子图像，并使用了论文《Real-time skincolor detection under rapidly changing illumination conditions》提供的算法来进行肤色检测。

如图3所示，所述姿态聚类模块10在检测阶段接收从扫描窗口推荐过来的待检子图像并计算待检子图像属于第n个聚类的概率，步骤为：

(S1013)计算降维后的特征向量与各个聚类中心的距离，记到第n个聚类中心的距离为其中D()为距离的计算方法，优选地，采用欧式距离。

所述动态随机森林组建模块13从离线训练的条件随机森林组11中选出T决策树动态组建出一个随机森林T^C，其中从条件随机森林11(T(Ω_n))中随机选出的决策树的棵数k_n由姿态聚类模块给出的待检子图像属于第n个聚类的概率来决定：

其中，表示向下取整。

所述随机森林人手分类模块14利用动态组建的随机森林T^C对待检子图像做出人手/非人手的分类，步骤为：

(S141)对待检子图像提取特征。所提取的特种种类与离线训练条件随机森林组所提取的特征种类一致。

(S142)从待检子图像的各类特征图像上分别抠取M个图像子块{P_i,i＝1,…，M}，并输入动态组建的随机森林T^C的各棵决策树中。在本实例中，设置M为300。当图像子块到P_i到达决策树T_t ^C的叶子节点时，记录该叶子节点上保存的概率值p_it＝p(θ,l(P))。

(S143)若判决输入的待检待检子图像为人手，其中τ_p为阈值；否则判决输入的待检子图像为非人手。在本实施例中，设置τ_p为0.5。

本实例可在包括但不限于智能手机、平板电脑、智能电视、计算机等硬件上实施。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于条件随机森林的人手检测器，其特征在于，包括：姿态聚类模块、条件随机森林组、扫描窗口推荐模块、动态随机森林组建模块、随机森林人手分类模块，其中，

2.根据权利要求1所述的基于条件随机森林的人手检测器，其特征在于，所述姿态聚类模块包括：

3.根据权利要求2所述的基于条件随机森林的人手检测器，其特征在于，所述条件随机森林组通过离线训练得到，其中的一个条件随机森林T(n)由数据子集S_n中的图像训练得到；每个条件随机森林T(n)由T棵决策树组成，即每棵决策树T_t(n)采用如下步骤训练生成，训练的过程为：

4.根据权利要求1所述的基于条件随机森林的人手检测器，其特征在于，所述扫描窗口推荐模块以滑窗形式扫描待检图像，并推荐可能存在人手的一系列子图像其中K为推荐的子图像个数；推荐可能存在人手的子图像的策略为下列之一：

策略一：推荐所有扫描窗口中的子图像；

若且则推荐

5.根据权利要求2所述的基于条件随机森林的人手检测器，其特征在于，所述姿态聚类模块还包括：

概率计算子模块，用于计算待检子图像属于第n个聚类的概率

6.根据权利要求5所述的基于条件随机森林的人手检测器，其特征在于，所述动态随机森林组建模块从离线训练的条件随机森林组中选出T决策树动态组建出一个随机森林T^C，其中从条件随机森林T(Ω_n)中随机选出的决策树的棵数k_n由姿态聚类模块给出的待检子图像属于第n个聚类的概率来决定：

其中，表示向下取整。

7.根据权利要求6所述的基于条件随机森林的人手检测器，其特征在于，所述随机森林人手分类模块包括：

8.一种基于条件随机森林的人手检测方法，其特征在于，包括以下步骤：

在检测阶段判断待检子图像属于各个聚类的概率；

9.根据权利要求8所述的基于条件随机森林的人手检测方法，其特征在于，所述在训练阶段将输入的人手训练样本集聚类为N个训练样本子集的步骤为：

(S111)从训练样本子集S_n中随机选择m张图像；接着从每张选中的图像上提取一系列图像特征，记图像I_i提取特征后的特征图像集合为I_i＝{I_i ¹,I_i ²，...，I_i ^F}，其中F表示特征的种数；然后从每张特征图像上随机抠取N_P个大小为s×s像素的图像子块，并将从第i张图像上抠取的第j个图像块记为P_ij＝(θ_i,I_ij)，其中θ_i∈{-1,+1}为表示人手和非人手的类别标签；

其中，表示向下取整；

(S142)从待检子图像的各类特征图像上分别抠取M个图像子块{P_i,i＝1,…，M}，并输入动态组建的随机森林T^C的各棵决策树中；当图像子块到P_i到达决策树的叶子节点时，记录该叶子节点上保存的概率值p_it＝p(θ,l(P))；

10.根据权利要求8或9所述的基于条件随机森林的人手检测方法，其特征在于，所述以滑窗形式扫描待检图像，并推荐可能存在人手的一系列子图像其中K为推荐的子图像个数，推荐可能存在人手的子图像的策略为下列之一：

策略一：推荐所有扫描窗口中的子图像；

若且则推荐