CN103034851A

CN103034851A - 自学习的基于肤色模型的手部跟踪装置及方法

Info

Publication number: CN103034851A
Application number: CN2012105661444A
Authority: CN
Inventors: 杨志博; 袁博
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2012-12-24
Filing date: 2012-12-24
Publication date: 2013-04-10
Anticipated expiration: 2032-12-24
Also published as: CN103034851B

Abstract

一种自学习的基于肤色模型的手部跟踪装置及方法，该装置包括：预处理单元，用于从本帧图像中提取手部候选区域，以及通过形态学检测，从手部候选区域获取初始手部区域h_init；自学习单元，用手部候选区域和初始手部区域h_init自学习，得到本帧自学习后的手部区域h_final；以及后序处理单元，用于对本帧自学习后的手部区域h_final处理，得到手部轮廓和指尖位置；所述自学习单元包括手部跟踪器、手部识别器和P-N学习器。该方法包括预处理步骤、自学习及P-N分类步骤和后序处理步骤，所述自学习及P-N分类步骤包括手部跟踪步骤、手部识别步骤和P-N学习及分类步骤。本装置及方法鲁棒性好，在处理手部经过脸部等重干扰区域或者被遮挡时，能够稳定准确地跟踪手部。

Description

自学习的基于肤色模型的手部跟踪装置及方法

技术领域

本发明涉及人机交互领域中手势识别和手部跟踪，尤其涉及自学习的基于肤色模型的手部跟踪装置及方法。

背景技术

随着计算机技术的发展，人机交互关系技术也经历着巨大的变化，人们希望越来越方便的同电脑进行交流与互动。当前在人机交互技术领域，多媒体技术的相对成熟极大地改善了计算机信息表现能力，同时也更显出交互输入手段的严重不足，呈现出人与计算机输入输出通信带宽的严重脱节。多通道人机交互技术研究打破常规，突破传统交互设备，如鼠标、键盘、遥控器等的限制，力图使人全方位地与计算机进行通信，彻底解决计算机处理高维信息所要求的双向高通信带宽。近年来随着虚拟现实技术的迅猛发展，大大地促进了人们在人脸识别、表情解释、口形识别、头部方位检测、视线跟踪、三维定位、手势解释和人体姿势解释等方面研究工作的积极性和动力。

人的手臂和手掌及手指共有27个自由度（6个臂部自由度，21个掌部自由度），因而人的手势可以传达出非常丰富的信息，并且可以作为一种更为直观和自然的交流方式。可以为实现设备间的互联和完成无缝的数据交换提供“以人为本”的技术。随着智能手机和平板电脑等新移动终端的普及，智能手势识别技术正成为人们最期望的人机交互技术之一。

可见，基于视觉进行手势识别的外部条件已经基本成熟。目前，国内对于手势识别研究处于初步阶段，绝大部分的鲁棒性比较差，比如不能很好的区分手部和脸部区域，易受干扰等。动态手势识别是手势识别的主要方面，它包括的主要问题有识别和跟踪两个方面。跟踪是识别的基础，是重中之重。如何提供一种不易受光照影响，不因人种肤色差异而失效，能有效解决其他移动物体干扰情况下和手部被遮挡情况下跟踪丢失机率大等问题的方法，是研究手势识别所需的关键技术。

有鉴于此，本发明立足于提出一种系统鲁棒的手部跟踪的方法和装置，推动手部识别技术的发展，进而为人机交互添砖加瓦。

发明内容

针对现有手部跟踪方法应用于基于视觉的人机交互领域时，跟踪效果易受干扰，不稳定，在其他移动物体干扰情况下和手部被遮挡情况下跟踪丢失机率大的缺陷，提供一种自学习的基于肤色模型的手部跟踪装置及方法。

本发明提供的自学习的基于肤色模型的手部跟踪装置，包括：

预处理单元，包括背景模型和肤色模型，用于从本帧图像中提取手部候选区域，以及用于通过形态学检测，从手部候选区域获取初始手部区域h_init；

自学习单元，用所述手部候选区域和初始手部区域h_init自学习，得到本帧自学习后的手部区域h_final；以及

后序处理单元，用于对本帧自学习后的手部区域h_final处理，得到手部轮廓和指尖位置；

所述自学习单元包括手部跟踪器、手部识别器和P-N学习器，所述手部跟踪器用于对所述初始手部区域h_init和前一帧自学习后的手部区域h_final跟踪；所述手部识别器用P-N学习器识别的前一帧的负样本在线训线，对所述手部候选区域识别；所述P-N学习器用手部跟踪器的跟踪结果和手部识别器的识别结果训练内部的P-N分类器，以及用P-N分类器对所述手部候选区域分类，获取本帧自学习后的手部区域h_final。

优选地，所述手部识别器包括离线分类器和在线分类器，二者依次级联，离线分类器用Haar特征进行分类，在线分类器用2bit Binary特征进行在线训练和分类。

优选地，所述手部跟踪器包括：

第一模块，用于对本帧的初始手部区域h_init和前一帧自学习后的手部区域h_final合并，建立搜索窗；

第二模块，用于从搜索窗内选取跟踪的特征点；

第三模块，用于计算各个特征点的光流向量；

第四模块，用于计算光流向量的加权平均值；

第五模块，用于将算得的加权平均值作为搜索窗的移动矢量，更新搜索窗。

优选地，第三模块中采用Lucas-Kanada稀疏光流法计算光流向量；前一帧自学习后的手部区域h_final特征点的权重大于本帧的初始手部区域h_init特征点的权重。

优选地，第二模块选取的特征点包括角点、亮度梯度变化大的点、和/或边缘点。

优选地，所述预处理单元中，形态学检测的特征包括圆形度、凸缺陷和/或轮廓。

优选地，所述P-N学习器在每次分类后用自学习后的手部区域h_final和手部运动轨迹更新P-N分类器。

本发明提供的自学习的基于肤色模型的手部跟踪方法，包括：

预处理步骤：从本帧图像中提取手部候选区域，以及通过形态学检测，从手部候选区域获取初始手部区域h_init；

自学习及P-N分类步骤：用所述手部候选区域和初始手部区域h_init自学习，得到本帧自学习后的手部区域h_final；以及

后序处理步骤：对本帧自学习后的手部区域h_final处理，得到手部轮廓和指尖位置；

所述自学习及P-N分类步骤包括：

对所述初始手部区域h_init和前一帧自学习后的手部区域h_final跟踪的手部跟踪步骤；

用P-N学习器识别的前一帧的负样本

在线训线，对所述手部候选区域识别的手部识别步骤；以及

用手部跟踪器的跟踪结果和手部识别器的识别结果训练P-N分类器，以及用P-N分类器对所述手部候选区域分类，获取本帧自学习后的手部区域h_final的P-N学习及分类步骤。

优选地，所述手部跟踪步骤包括：

对本帧的初始手部区域h_init和前一帧自学习后的手部区域h_final合并，建立搜索窗；

从搜索窗内选取跟踪的特征点；

计算各个特征点的光流向量；

计算光流向量的加权平均值；

将算得的加权平均值作为搜索窗的移动矢量，更新搜索窗。

优选地，所述手部识别步骤包括：

提取手部候选区域的Haar特征，用离线分类器分类得到本帧的正样本

对P-N分类器识别的前一帧的负样本

和离线分类器输入的本帧的正样本提取2bit Binary特征，用在线分类器分类，得到正在跟踪的手部区域

本发明手部跟踪装置及方法将P-N学习器识别的正负样本分别反馈给手部跟踪器和手部识别器，并结合手部跟踪器和手部识别器的输出对P-N学习器进行训练，鲁棒性好，在处理手部经过脸部等重干扰区域或者被遮挡时，能够稳定准确地跟踪手部。

附图说明

图1是一实施例自学习的基于肤色模型手部跟踪装置的原理框图；

图2是预处理单元实现预处理的流程图；

图3是手部跟踪器实现手部跟踪的流程图；

图4是手部识别器实现手部识别的流程图；

图5是P-N学习器实现学习及判定的流程图；

图6是后续处理单元实现后续处理的流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

图1示意性地表示了自学习的基于肤色模型手部跟踪装置的原理。

如图1所示，本自学习的基于肤色模型的手部跟踪装置包括：预处理单元1，自学习单元2，后序处理单元3。预处理单元1从本帧图像中提取手部候选区域，以及通过形态学检测，从手部候选区域获取初始手部区域h_init和手部识别器的输入对象∑(h₁,h₂…h_m)，自学习单元2用所述手部候选区域和初始手部区域h_init自学习，得到本帧自学习后的手部区域h_final，后序处理单元3对本帧自学习后的手部区域h_final处理，得到手部轮廓和指尖位置，从而实现对手部的跟踪。

其中，自学习单元2包括手部跟踪器21、手部识别器22和P-N学习器23。手部跟踪器21对本帧的初始手部区域h_init和前一帧自学习后的手部区域h_final跟踪；手部识别器22用P-N学习器23识别的前一帧的负样本

在线训线，对本帧的手部候选区域识别；P-N学习器23用手部跟踪器21的跟踪结果和手部识别器22的识别结果训练内部的P-N分类器，以及用P-N分类器对本帧的手部候选区域分类，获取本帧自学习后的手部区域h_final。

预处理单元1采用高斯背景建模技术、肤色建模技术、形态学特征检测以及滤波技术，进行初步的识别处理得到初始的正负样本。

图2示意性地表示了预处理单元1实现预处理的方法。

如图2所示，在步骤201中，对输入的视频序列进行图像平滑处理。例如，可以对图像进行核大小为W＝param1×param2的中值滤波，可表示为g(x,y)=med{f(x-k,y-1),(k,1∈W)}，其中f(x,y)，g(x,y)分别为图像输入和输出。

在步骤202中，通过高斯背景建模，提取前景。采用混合高斯背景建模，通常可以选择3到5个高斯模型，当有新的图像输入时更新混合高斯模型。匹配新图像中每个像素点和混合高斯模型，如果匹配成功则为背景点，否则为前景点。

例如，对于上述g(x,y)，g(x,y)中的任何一个像素点I_x，y，在t时刻的概率为

η为混合高斯分布密度，k是高斯分布的个数，η中方差∑_t=σ²I。选择B个fitness最高的高斯概率进行该像素的更新。

fitness=ω_k/σ_k

h(x,y)=Gaussian(g(x,y))。

在步骤203中，将图像转换到YCbCr空间h(x,y)→h(x₁,y₁)，(x,y)∈RGB,(x₁,y₁)∈YCbCr。因为肤色分布在Cb、Cr上有不错的集中效果，而且根据研究得知在各色人种的肤色分布上，其Cb、Cr上的差异也不大。

在步骤204中，对图像进行肤色前景建模，应用肤色模型抽出手部、脸部以及其他类肤色区域，即手部的候选区域∑(h₁,h₂…h_n)=skin(h(x₁,y₁))。

在步骤205中，估计手部在画面中的面积大小，通过滤波去除那些面积过小的区域，以简化后续的计算。可表示为∑(h₁,h₂…h_m)=filer(∑(h₁,h₂…h_n))（m<n）。

在步骤206中，通过形态学检测，从手部候选区域获取初始手部区域h_init。形态学检测是初始化找到正样本和负样本的关键一环，形态学操作主要对剩余在图像中的类肤色区域（即手部候选区域）进行判断，确定初始手部区域h_init。优选地，形态学检测用圆形度、凸缺陷、轮廓等特征进行检测。优选地，根据下述几条约束条件，在∑(h₁,h₂…h_m)中找到初始手部区域h_init：至少有4个凸缺陷的面积占该区域的比例为5%；手部的圆形度：0.1—0.25；霍夫变换后该区域的直线应在5条以上，而且每条长度占到该区域长度的30%以上。

手部跟踪器21采用lucas-kanada光流技术和median-shift技术进行跟踪和预测，提供自学习的正样本区域。

图3示意性地表示了手部跟踪器21实现手部跟踪的方法。其中的h_final表示前一帧自学习后的手部区域。

如图3所示，在步骤301中，对本帧的初始手部区域h_init和前一帧自学习后的手部区域h_final合并，建立搜索窗。

手部跟踪器21跟踪的手部区域有两部分，第一部分是预处理单元1处理后得到的初始手部区域h_init，第二部分是经过P-N学习器23确认后返回的前一帧自学习后的手部区域h_final。开始阶段，没有P-N学习器23确认返回值时，输入仅仅包含第一部分。具体可以设计为，在t时刻的搜索窗B_t为两个区域h_init和h_final（前一帧自学习后的手部区域）的并集的外接矩形，可表示为

B_{0} &Superset; {h_{init}}^{t = 0}, t = 0

B_{t} &Superset; (h_{init} \cup h_{final}), t &NotEqual; 0

T_t＝tB₀,B₁…B_t}T_t为运动轨迹。

在步骤302中，从搜索窗内选取跟踪的特征点。具体地，在t时刻在搜索窗Bt内初始化跟踪的特征点。其中，属于h_final区域（前一帧自学习后的手部区域）的特征点赋予高的权重ω_final，属于h_init区域的特征点赋予低的权重ω_init。将所有的特征点赋好权值之后，选择权值最高的一批特征点进行跟踪。

Σ p_{n}^{i, j} = Harris (h_{init} \cup h_{final}), (i, j) &Subset; B_{t}

ω_{n}^{i, j} = \{\begin{matrix} ω_{init} & if (i, f) only &Element; h_{init} \\ ω_{final} & if (i, j) only &Element; h_{final} \\ ω_{init} + ω_{final} & if (i, j) &Element; h_{init} \cap h_{final} \end{matrix}\}

Σ p_{m}^{i, j} = update (Σ p_{n}^{i, j}), (i, j) &Subset; B_{t}

特征点并不局限于角点，可以选择角点、旋转不变性的sift特征点、边缘点等等作为跟踪的特征点。

在步骤303中，计算各个特征点的光流向量。具体地，用Lucas-Kanade光流法产生相邻两幅图像(I_t→I_t+1)的稀疏光流向量

Σ {VEC}_{m}^{i, j} = LK (Σ p_{m}^{i, j}), (I_{t} &RightArrow; I_{t + 1}), (i, j) &Subset; B_{t} .

在步骤304中，计算光流向量的加权平均值。首先估计FB（Forward-back）误差，滤掉50%最差的光流向量，剩余的作为median-shift的输入，计算光流向量的平均值Vector，可表示为

Σ {VEC}_{k}^{i, j} = FB (Σ {VEC}_{m}^{i, j}), (k < m), (i, j) &Subset; B_{t}

Vector = Median (Σ {VEC}_{k}^{i, j}), (i, j) &Subset; B_{t} .

在步骤305中，将算得的加权平均值作为搜索窗的移动矢量，更新搜索窗

B_t+1=Vector+B_t。

上述方法中，在计算光流向量前，即步骤302中，已经对各个特征点赋予了权值，步骤305中可以直接计算平均值。也可以在计算平均值时，即步骤305中赋予权值。权值的分配原则是：前一帧自学习后的手部区域h_final特征点的权重应大于本帧的初始手部区域h_init特征点的权重，例如，前者的权重取1，后者的权重取0.5。

手部识别器22的识别与预处理时的识别不同，它要在后续复杂情况下准确无误的识别手部区域。手部识别器22采用级联分类器，包括离线分类器和在线分类器，二者依次级联，接受预处理单元1的输出和P-N学习器23的输出，分类确定最终的手部区域。离线分类器用Haar特征进行分类，在线分类器用2bitBinary特征进行在线训练和分类，用2bit Binary特征x=[x1,x2,……，xk]可以定量的描述物体和背景在边界上的梯度变化。2bit Binary特征在检测块内随机生成，它的优点是可以有效的评价一个复杂背景下的前景轮廓，同时它与光照相关度低。

线下采集手部的样本的Haar特征，训练Adaboost分类器得到离线分类器。离线分类器可以识别出画面中的任何手部区域，但是不能区分哪一只手才是正在跟踪的手，同时也不能识别正在跟踪的手被局部遮挡的情况。在线分类器解决的是离线分类器的不足部分。在线分类器的训练集来自于P-N学习器23给出的负样本，和离线分类器正确识别的手部。在线分类器采集正负样本的2-bitBP特征，不断训练1NN分类器（在线分类器）。当新画面中手部被局部遮挡时，离线分类器失效，进入在线分类器，发现1NN分类器判别后的置信度高于50%，依然把这个被遮挡的手部列为识别出来的手部区域。两个分类器协调工作，保证跟踪的准确性。

图4示意性地表示了手部识别器22实现手部识别的方法。其中的

表示P-N学习器返回的前一帧的负样本

如图4所示，在步骤401中，提取本帧的手部候选区域∑(h₁,h₂…h_m)的harr特征，训练离线分类器，从∑(h₁,h₂…h_m)中找到所有手部的正样本（无论是否为当前跟踪的那一只）

h_{r}^{offline} = {Detect}_{1} (Σ (h_{1}, h_{2} . . . h_{m}))

在步骤402中，P-N学习器23返回前一帧的负样本

离线分类器输入本帧的正样本

提取2bit Binary特征，用F表示，特征间的相似度为S(f_i,f_j)。相似度公式中[.]是逻辑操作，输出0或1。可表示为

F=[f₁,f₂…f_k]

S (f_{i}, f_{j}) = \frac{1}{K} Σ_{i = 1}^{K} ([f_{i}^{K} = f_{j}^{K}])

在步骤403中，学习训练在线分类器，以及确定新图像(I_t→I_t+1)要跟踪的手部区域

h_{r}^{online} = {Detect}_{2} (h_{w}^{pn} + h_{r}^{offline})

在线分类器是1NN分类器，通过P-N学习器23不断提供错误识别的样本，达到排除干扰的识别效果。

P-N学习器23是P-N半监督学习器，通过分析样本数据在空间-时间维度的规律发现运动轨迹，根据P-N约束条件确定新的样本是P是N，然后更新这个P-N分类器（添加有标签的样本集）。对于新分类出来的正负样本有三个输出途径。第一，将P样本传递给跟踪部分，参与下轮跟踪，第二，将N样本作为训练集传递给识别部分，第三，输出最终确定的手部区域（融合后的整个跟踪框）。P-N半监督分类器能够记忆物体的运动轨迹，记忆P-N样本。这个分类相当于预测物体未来轨迹并提供最终确定的轨迹和正确错误的手部区域。在处理手部经过脸部等重干扰区域，或者被遮挡时，P-N半监督学习器起到的整合手部运动轨迹的作用巨大。

手部跟踪器21产生运动轨迹，手部识别器22产生正负样本。距离运动轨迹近的样本被标定为positive，距离远的样本被标定为negative，这就是P-N约束条件。

图5示意性地表示了P-N学习器23实现学习及判定的方法。其中的h_final表示本帧自学习后的手部区域，

表示P-N学习器识别的本帧的负样本

如图5所示，在步骤501中，整合手部识别器22输入的样本信息

和手部跟踪器21输入的轨迹信息T_t={B₀,B₁…B_t}。前者包含的是正确识别的手部样本，后者是实时更新的跟踪轨迹。

在步骤502中，在笛卡尔坐标系中绘制这些历史的手部信息和位置信息。手部信息是一个个离散的点，位置信息是一条曲线采用曲线拟合的办法计算出未来的手部可能出现的位置，达到预测手部位置的目的。

Trajectory=Struc{D_t,T_t}

在步骤503中，P-N学习器对于输入进来的要分类的目标进行P-N约束判定，符合P约束的输出给后序处理单元3，并返回给手部跟踪器21，符合N约束的返回给手部识别器22。分类准则是计算样本到Trajectory的距离。分好类后更新分类器。可表示为

h_final=P_con(∑(h₁,h₂…h_m))

h_{w}^{pn} = N_{con} (Σ (h_{1}, h_{2} . . . h_{m}))

update(h_i,PN)→{h_final,Trajectory}。

整个跟踪过程的输出就是，更新好的PN学习器的参数，正确识别的样本以及其轨迹位置。

经过上述自学习单元2的自学习处理后，已经确定了手部区域的搜索框（即本帧自学习后的手部区域h_final）。该搜索框跟踪的是目标手部，不是类肤色区域，不是脸部，甚至不是另一只手。后序处理单元3对本帧自学习后的手部区域h_final处理，得到手部轮廓和指尖位置。

图6示意性地表示了后序处理单元3实现后序处理的方法。其中的h_final表示本帧自学习后的手部区域。

如图6所示，在步骤601中，在本帧自学习后的手部区域h_final提取手部的轮廓。可以通过形态学分析得到手部的轮廓。

在步骤602中，分析手部特征，根据轮廓点到手掌中心的距离，找到极值点。

在步骤603中，根据极值点及其临近区域的曲率信息定位出指尖。