CN101763515B

CN101763515B - 一种基于计算机视觉的实时手势交互方法

Info

Publication number: CN101763515B
Application number: CN2009100938904A
Authority: CN
Inventors: 王阳生; 周代国; 吴晓雨; 汪晓妍; 李基拓
Original assignee: Beijing Interjoy Technology Ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Beijing Interjoy Technology Ltd; Institute of Automation of Chinese Academy of Science
Priority date: 2009-09-23
Filing date: 2009-09-23
Publication date: 2012-03-21
Anticipated expiration: 2029-09-23
Also published as: CN101763515A

Abstract

本发明公开一种基于计算机视觉的实时手势交互方法，包括：从图像输入设备获取数字图像；通过统计学习方法进行人手的检测；根据检测结果对人手轮廓跟踪器进行初始化，并计算特定人手的肤色模型；通过条件概率密度传播算法和启发式搜索技术相结合的方法对人手轮廓进行跟踪；通过隐马尔科夫模型对人手运动轨迹进行分析，得到手势识别结果；将手势分析的结果用于各种应用程序的交互。本发明实时手势交互方法扩展了传统的鼠标键盘交互方式，利用计算机视觉与图像处理技术实现了自动的人手检测、跟踪与手势识别，实时、鲁棒、易于实现和操作，能使计算机用户通过手部姿态与计算机进行更自然、更直观、更智能的交互。

Description

一种基于计算机视觉的实时手势交互方法

技术领域

本发明涉及图像分析与识别技术领域，特别是基于手势的交互方法。

背景技术

近年来，随着软硬件技术的飞速发展，社会的信息化程度获得了前所未有的提高，计算机已逐渐在人们生活的方方面面得到了广泛应用，人机交互方式因而成为一个越来越重要的问题。从最开始的文本交互方式到后来以鼠标键盘为主要工具的图形用户界面，人机交互一直在朝着友好易用的方向不断发展。

传统的交互方式尽管有着很多优点，但依然不够自然，并且限制了人机交互的速度，对于低文化人群和残疾人群更是如此。基于计算机视觉的手势交互技术具有友好、方便、简洁直观等特点，是传统人机交互方式的一种自然扩充，在计算机游戏控制、智能家电控制、虚拟现实、智能轮椅控制等方面有着广泛的应用，因而有着重要的实用价值。

发明内容

本发明目的是一种基于计算机视觉的实时手势交互方法，通过利用图像分析技术对用户手势动作所包含的语义信息进行理解，达到与计算机进行自然交互的目的，是对键盘鼠标所代表的传统交互方式的扩展。

为了实现上述目的，本发明提出的技术方案是一种基于计算机视觉的实时手势交互方法，其步骤包括：

步骤S1：通过统计方法学习人手目标样本，得到级联结构的分类器；

步骤S2：通过统计方法学习预定义手势的样本，得到各手势的隐马尔科夫模型；

步骤S3：通过图像输入设备实时采集视频图像，如果手势当前已经开始，则执行步骤S8；否则执行步骤S4；

步骤S4：利用级联结构的分类器在输入的视频图像上进行人手检测，如果检测成功，则执行步骤S5；如果检测不成功，则执行步骤S3；

步骤S5：利用人手在图像中的位置，判断手势是否开始，如果手势开始，执行步骤S6，如果没开始手势，执行步骤S3；

步骤S6：根据人手在图像中的位置初始化人手轮廓跟踪算法，得到初始人手轮廓；

步骤S7：根据初始人手轮廓建立人手的肤色模型，返回步骤S3；

步骤S8：利用轮廓跟踪算法跟踪视频图像中人手轮廓，得到视频图像中的人手轮廓状态及手势轨迹；

步骤S9：根据人手轮廓状态及手势轨迹，判断手势是否终止，如果有握手动作发生则手势终止，则执行步骤S10，如果没有握手动作发生但跟踪时间超过预先选定的时间阈值，则认为手势终止，执行步骤S10；如果没有握手动作发生且跟踪时间小于预先选定的时间阈值，则手势没有终止，执行步骤S3；

步骤S10：利用隐马尔科夫模型，对手势轨迹进行识别，得到手势的识别结果；

步骤S11：将手势识别结果用于具体应用。

本发明的有益效果：通过用户的手势信息与计算机进行交互，就是以用户的手部运动信息作为传统的键盘鼠标交互方式的补充，来丰富人机交互的方式。它仅通过摄像头实时获取含有用户手部的图像，在计算机中进行手部运动信息的分析，并将分析结果转化为应用程序的控制指令，实现与计算机的自然交互，有效扩展了传统的人机交互方式。本发明包括人手检测、跟踪与手势识别技术以及一个综合利用三种技术的完整系统，三种技术及其综合应用系统都能在自然背景下达到实时稳定的效果。人手检测创造性的将方向梯度直方图(HOG)特征和Adaboost算法相结合，可以准确获取图像中人手的位置，基于轮廓的人手跟踪算法创造性的综合了条件概率密度传播(Condensation)和启发式扫描技术，可以准确得到每一帧图像里人手的状态，包括位置、大小、旋转角度以及各手指的长度和角度，手势识别能分析人手运动轨迹包含的语义信息。人手检测和跟踪均可以分别单独作为一种方式应用于人机交互，而三种技术相结合可以构造一个完全自动的手势交互系统，能够表达更为丰富的语义信息。随着软硬件技术的快速发展，计算机视觉技术逐渐成熟，摄像头也已经成为计算机的常用配置，应用视觉技术进行自然的人机交互已经成为可能，本发明可以广泛应用于计算机游戏控制、智能家电控制、虚拟现实、智能轮椅控制、广泛应用于数字娱乐、数字教育等方面。

附图说明

图1为本发明实施例基于手势的交互方法流程图。

图2为采用本发明实施例HOG特征结构。

图3为本发明实施例人手分类器级联结构。

图4为本发明实施例人手轮廓模板。

图5a和图5b为本发明实施例条件概率密度传播算法所用度量模型。

图6a和图6b为本发明实施例构造肤色模型所用前景及背景模板。

具体实施方式

下面对本发明加以详细说明，应指出的是，所描述的实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，示意本发明集成了人手检测、跟踪和手势识别的实时手势交互方法流程图，它提供了应用本发明所阐述的人手检测、跟踪和手势识别技术进行人机交互的一种可能方式。需要注意的是，本发明所阐述的人手检测、人手跟踪方法均可单独作为一种人机交互方式应用于游戏控制、家电控制等方面。

本发明实现方法需要的硬件为计算机及图像采集设备。

所述的人手检测是指通过视觉算法在图像中自动确定包围人手的一个较小矩形框；所述人手跟踪是指在视频序列中计算出每帧的人手轮廓状态，包括位置、旋转角、放缩量以及各个手指的长度和角度；所述手势识别是指对用户完成某个预定义手势的轨迹进行分类，确定用户完成的是哪个手势。手势是否开始的判断依据是在连续20帧的人手检测结果里，有超过12帧检测到人手处于同一个位置。

关键技术的实现细节：

一、本发明所述的人手检测是采用方向梯度直方图(HOG)特征，通过基于Adaboost的统计学习方法来实现的。

HOG特征主要是将图像梯度在各个不同方向上进行投影，然后对某个局部区域的方向梯度投影加以统计分析，对轮廓具有一定规律的物体有着很好的描述能力。

一个HOG特征定义如下，假设用C(x_c，y_c，w_c，h_c)表示图像中某个方格(cell)的位置以及大小，其中(x_c，y_c)指方格(cell)左上角的图像坐标，w_c和h_c指方格(cell)的宽度和高度，将方格(cell)C(x_c，y_c，w_c，h_c)所属的一个图像块(block)记为B(x_b，y_b，w_b，h_b)，其中(x_b，y_b)指图像块(block)左上角的图像坐标，w_b和h_b指图像块(block)的宽度和高度。将[0，2π]等分为N个角度区间bin_k，用bin_k记其中的第k个角度区间，则一个HOG特征就是C、B和k的函数，将该HOG特征记为f(C，B，k)，C和B分别就是C(x_c，y_c，w_c，h_c)和B(x_b，y_b，w_b，h_b)。图像I在坐标(x，y)处的梯度(G_x，G_y)用如下卷积定义：

G_x(x，y)＝[-101]*I(x，y)，G_y(x，y)＝[-101]^T*I(x，y)

梯度的大小G(x，y)和方向θ(x，y)为：

G (x, y) = \sqrt{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}},

θ (x, y) = \arctan (\frac{G_{y} (x, y)}{G_{x} (x, y)})

定义梯度(G_x，G_y)在角度区间bin_k的投影ψ_k(x，y)如下：

ψ_{k} (x, y) = \{\begin{matrix} G (x, y) & ifθ (x, y) &Element; {bin}_{k} \\ 0 & otherwise \end{matrix}

利用这些式子，定义HOG特征如下，其中ε代表一个很小的正数，防止分母为0的情况，图2示意了几类常见的HOG特征。

f (C, B, k) = \frac{ϵ + \underset{(x, y) &Element; C}{Σ} ψ_{k} (x, y)}{ϵ + \underset{(x, y) &Element; B}{Σ} G (x, y)}

为加速特征的计算，定义如下积分图：

{IG}_{k} (x, y) = \underset{0 \leq y^{'} \leq y}{\underset{0 \leq x^{'} \leq x}{Σ}} ψ_{k} (x^{'}, y^{'}) k = 1, . . ., N, IG (x, y) = \underset{0 \leq y^{'} \leq y}{\underset{0 \leq x^{'} \leq x}{Σ}} G (x^{'}, y^{'})

IG_k(x，y)表示一个积分图像的定义式，IG(x，y)表示另一个积分图像的定义式。

利用积分图，可以简化HOG特征的分子和分母如下：

\underset{(x, y) &Element; C}{Σ} ψ_{k} (x, y) = {IG}_{k} (x_{c} - 1, y_{c} - 1) + {IG}_{k} (x_{c} + w_{c} - 1, y_{c} + h_{c} - 1) - {IG}_{k} (x_{c} - 1, y_{c} + h_{c} - 1) - {IG}_{k} (x_{c} + w_{c} - 1, y_{c} - 1)

\underset{(x, y) &Element; B}{Σ} G (x, y) = IG (x_{b} - 1, y_{b} - 1) + IG (x_{b} + w_{b} - 1, y_{b} + h_{b} - 1) - IG (x_{b} - 1, y_{b} + h_{b} - 1) - IG (x_{b} + w_{b} - 1, y_{b} - 1)

图像块(Block)、方格(cell)的不同位置和尺寸以及不同的投影角度范围，对应着不同的方向梯度直方图(HOG)特征，对于一幅训练图像，如果不对这些参数加以限制，那么可用的特征数目将是非常巨大的，这其中的很多图像块(block)相互间有着较大面积的重叠，为了减少特征数目从而降低冗余，需要对特征的参数加以限制。我们给出如下一些约束来减少特征的冗余，首先，图像块(block)的最小宽度和高度分别为w_min＝8和h_min＝8，其长宽比例限制为1∶2、1∶1和2∶1。其次，在对样本图像进行扫描时，图像块(block)移动的步长为较短边的0.5倍，图像块(block)，尺寸的放缩因子sc＝1.2。另外将角度区间数目取为N＝9。根据人手的平均长宽比例，将训练图像大小取为48×56。

用于学习人手模式的统计学习方法是Adaboost算法。

Adaboost算法是在人脸检测中应用极其广泛的一种成熟算法，它通过调用弱学习器不断学习训练样本中难学习的样本，从而达到较高的泛化精度。Adaboost算法的主要过程是：首先给定训练样本集合，然后对该样本集合进行循环操作，每次循环用所选特征训练得到一个弱分类器，然后计算该假设的错误率，根据该错误率改变每个例子的权重进入下一个循环，若干个弱分类级联组成一个强分类器。最终的分类器由一系列相似的强分类器级联而成，分类器的分类能力随着级联结构中强分类器的数目增加而增加，如图3所示其中1、2……M为级联起来的各个强分类器，T表示候选区域被某个强分类器接受(即认为是人手区域)，F表示候选区域被强分类器拒绝，是被排除了的候选区域，即认为是非人手区域。只有候选区域被所有强分类器接受才认为它是真正的人手区域，只要某一个强分类器拒绝，即认为它是非人手区域。

学习人手目标样本的步骤包括：步骤S1a：利用视频图像采集大量的人手样本和非人手样本，并进行归一化处理，获得归一化样本；步骤S1b：取归一化样本的方向梯度直方图(HOG)特征作为训练特征，采用Adaboost算法训练得到级联结构的分类器。

二、本发明所述的手势识别通过隐马尔科夫模型实现。

所述手势样本学习的步骤包括：

步骤21：根据应用需要预定义动态手势集合；

步骤22：通过人手轮廓跟踪，采集大量预定义动态手势样本；

步骤23：去除预定义动态手势样本中的异常样本；

步骤25：对预定义动态手势样本轨迹进行预处理，去掉密集点，得到预处理后的样本轨迹；

步骤26：取预处理后的样本轨迹的方向编码作为特征，采用Baum-Welch算法训练得到每类手势的隐马尔科夫模型。

步骤23所述异常样本包括跟踪实效时采集到的样本，以及同预定义手势相差过大的样本。

步骤25所述预处理过程如下：依次计算轨迹中相邻两个点之间的距离，若小于某个经验阈值，则去掉后面那个点，多次重复这个过程直至不再有任何点被去掉。这里阈值根据所有相邻点间的平均距离设定，比如可以取为平均距离的1/4。

步骤26所述方向编码特征是指，首先将[0，2π]等分为M个区间，并按逆时针顺序给每个区间一个序号，然后计算手势轨迹中每对相邻点连线的倾斜角，将这个角度映射到前述M个角度区间对应的编号，这样就将手势轨迹变换为一个编号序列，即方向编码特征。

本发明所述手势识别的步骤包括：

步骤101：对从轮廓跟踪获得的手势轨迹进行预处理去除密集点，获得预处理轨迹；

步骤102：对预处理后的轨迹提取方向编码特征，对特征归一化；

步骤103：采用前向递推算法计算步骤102得到的特征对应于步骤2得到的各类手势模型的概率，取概率最大者为识别结果。

三、本发明所述人手轮廓跟踪采用条件概率密度传播和启发式扫描技术相结合的方法实现，所述轮廓跟踪算法的步骤如下：

步骤81：采用条件概率密度传播(Condensation)算法跟踪轮廓的平移、旋转和放缩运动分量，得到若干候选轮廓，这些候选轮廓关于手指的状态分量还未确定；

步骤82：对每个确定了平移、旋转及放缩运动分量的候选轮廓，逐步调整每个手指的长度和角度，得到各个轮廓的手指运动状态分量，从而产生所有状态分量都确定的最终的候选轮廓；

步骤83：从最终的所有候选轮廓中产生一个轮廓作为跟踪结果。

具体实施过程如下：

人手轮廓采用B样条曲线建模，如图4所示。

人手轮廓的运动状态向量如下：

χ＝(t_x，t_y，α，s，θ_L，l_L，θ_R，l_R，θ_M，l_M，θ_I，l_I，θ_Th1，θ_Th2)

子向量(t_x，t_y，α，s)描述了轮廓的刚体运动，其中(t_x，t_y)是掌心的图像坐标，也可以理解为相对于模板轮廓的平移运动，α表示整个轮廓绕着掌心的面内旋转角，s表示相对于模板轮廓的放缩量。子向量(θ_L，l_L)表示小指的运动状态，其中θ_L表示小指绕其轴点的旋转角，l_L表示小指相对于模板在轴向上的伸缩量。子向量(θ_R，l_R)，(θ_M，l_M)，(θ_I，l_I)意义类似，分别对应于无名指、中指和食指。分量θ_Th1和θ_Th2分别表示大拇指第一关节和第二关节绕各自轴点的旋转角度。

本发明所述跟踪算法将人手轮廓的运动分解看待，首先是整体的运动，包括平移、旋转和缩放，由(t_x，t_y，α，s)描述，这一部分通过条件概率密度传播算法进行跟踪。然后再在完成整体运动的基础上确定各个手指的运动分量，由状态向量的后10维分别描述，这一部分通过启发式扫描的方法实现。

条件概率密度传播算法是粒子滤波思想在跟踪中应用，它利用加权粒子集描述待跟踪目标状态的后验概率分布，通过预测和度量两个阶段更新每帧的粒子集。设t-1时刻的加权粒子集(描述了t-1时刻状态的后验概率分布)为{(x_i ^(t-1)，π_i ^(t-1))，i＝1，2，3，...，N}，其中N为粒子数目，(x_i ^(t-1)，π_i ^(t-1))表示第i个粒子的状态值和权重，为得到t时刻的加权粒子集，首先根据t-1时刻的粒子状态集预测t时刻的状态集，然后再利用观测模型对所有的新状态进行度量以得到其权重。

预测过程包含重采样和状态运动。重采样是指对t-1时刻的粒子状态按一定策略进行复制得到N个状态的过程，该过程应该保证不改变粒子集的分布。通常采用累积概率来实现重采样，首先计算t-1时刻所有粒子的累积概率，然后随机产生一个[0，1]之间的数，找到恰好刚刚大于这个随机数的累积概率的位置，然后复制一个这个位置的粒子状态，直到得到N个状态为止。利用这种方法，原来权重很大的那些粒子状态将会被复制多份，原来权重很小的粒子状态很可能不会再出现，从而保持了粒子集的分布。接下来要根据对重采样的得到的状态集进行运动，运动模型通常是二阶线性自回归过程，它将t时刻的状态表示为前两时刻状态的线性组合再加上一个随机高斯噪声，

x_t＝A₂x_t-2+A₁x_t-1+Bw_t

其中，A₁和A₂是常量矩阵，描述了状态的确定性运动，B也是常量矩阵，描述了随机运动部分，w_t是由独立的标准正态分布随机变量组成的向量。由于可以假设状态向量的各个分量是独立的，因而矩阵A₁、A₂和B可以设为对角阵，这样每个分量的运动实际上相当于一个独立的一维谐振器，例如描述x方向平移运动的谐振器表示为，

t_{x}^{t} = a_{2} \times t_{x}^{t - 2} + a_{1} \times t_{x}^{t - 1} + b \times w_{t_{x}}^{t}

其中

表示一个标准正态分布的随机变量，参数a₁、a₂和b是谐振运动的系数，这些系数通过如下公式确定：

a₁＝2×exp(-βτ)×cos(2πfτ)，a₂＝-exp(-2βτ)

b = ρ \times \sqrt{1 - {(a_{1})}^{2} - {(a_{2})}^{2} - \frac{2 \times {(a_{1})}^{2} \times a_{2}}{1 - a_{2}}}

式中参数β是谐振运动的衰减因子，f称为自然频率，ρ称为平均均方根位移(root-mean-square average displacement)，τ是以秒为单位的时间步长(帧率为25时τ＝(1/25)s)。

通过预测得到了一系列新的状态，它们并没有权重，需要根据观测模型及图像信息对每个状态赋予权重，这是度量阶段的任务。在此阶段，采用的度量方法是，对于每个候选状态对应的轮廓曲线，首先在该曲线上取若干度量点并作关于度量点对称的法线段，然后对每条法线上的像素进行处理以寻找图像边界特征和肤色边界特征，每个找到的特征都会对粒子的最终权重产生一定贡献。每个特征对于粒子权重的贡献采用一个中心位于度量点的单高斯模型描述，图5a示意候选轮廓上的度量法线，图5b示意了描述每条度量法线上特征分布的高斯模型。为了加快速度，将所采用的高斯模型制成查找表，这样通过查表代替直接的计算(包含指数运算)可以大大提高度量速度。对于度量线上的特征，主要选择肤色边界和图像边界，肤色的判断采用后面介绍的线性肤色分类器。这两类信息是分开利用的，对每条度量法线i，会根据肤色边界特征得到一个分数SSkin(i)，根据图像边界特征得到另一个分数SEdge(i)，然后将这两个分数加权求和作为该度量法线的分数S(i)：

S(i)＝t×SSkin(i)+(1-t)×SEdge(i)

考虑到肤色是人手显著的特征，而图像边界不仅人手有，而且也大量出现在背景中，所以给予肤色特征更大的权重，根据实验，t取0.75效果较好。

在对状态向量前4维分量运用条件概率密度传播算法后，得到了一系列候选轮廓，再采用启发式扫描的方法确定每个候选轮廓的手指状态。具体实施过程如下，对于每个候选轮廓，选定某个手指，以固定步长递增或递减其角度，选使得手指轮廓度量值最大的作为结果，在确定角度后，再以固定步长递增或递减手指的长度，选使得度量值最大的作为结果，采用同样的方式确定其余手指的状态。通过启发式扫描的方式就确定了所有候选轮廓的手指运动分量。最终的跟踪结果是权重最大的轮廓。

四、本发明所述跟踪初始化是完全自动的，方法如下：

设人手检测得到的矩形框由(x₀，y₀，w₀，h₀，α₀)表示，其中(x₀，y₀)为矩形框中心的坐标，w₀、h₀为其宽度和高度，α₀表示对应图像的旋转角，也就是人手的倾斜角。设图4所示轮廓模板的包围框面积大小为S₀，那么可以近似认为人手轮廓的初始状态为：

χ_{0} = (x_{0}, y_{0}, α_{0}, \sqrt{(w_{0} \times h_{0}) / S_{0}}, 0.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0)

对于本发明所述跟踪算法，初始化就是要生成第一帧的粒子集，可以通过如下方法实现，首先从χ₀产生N个新的状态，每个状态的前四维通过对χ₀的前4个分量添加高斯噪声扰动得到，其余的分量不变，然后通过稍前的启发式扫描方法确定各状态向量关于手指状态的分量(即后10维分量)，并度量获取整个状态的权重。这样，根据人手检测的结果，自动确定了第一帧的加权粒子集，将权重最大的粒子取为跟踪结果，完成跟踪初始化。

五、本发明所述建立人手肤色模型的步骤包括：

步骤71：定义如下线性肤色分类器：

BGhmin·G+BRmin·R＜B＜BGhmax·G+BRmax·R，

BGvmin·B+GRmin·R＜G＜BGvmax·B+GRmax·R，

其中BGhmin，BRmin，BGhmax，BRmax，BGvmin，GRmin，BGvmax，GRmax是分类器的参数，R，G，B表示像素的RGB颜色分量。

步骤72：根据跟踪初始化得到的人手轮廓建立前景图像背景图像；

步骤73：利用前景图像与背景图像定义如下优化目标F：

F＝k·FSkinArea/FArea-BSkinArea/BArea

FSkinArea＝前景图像里肤色像素数目

FArea＝前景图像里非零像素数目

BSkinArea＝背景图像里肤色像素数目

BArea＝背景图像里非零像素数目

k是一个大于1的常量，根据经验选取为2；

步骤74：逐步调整BGhmin，BRmin，BGhmax，BRmax，BGvmin，GRmin，BGvmax，GRmax，使得步骤73定义的目标F达到最大值，得到线性肤色分类器的最优参数。

步骤72所述的前景图像及背景图像构造过程如下，首先利用跟踪初始化得到的轮廓曲线构造两个模板，如图6a和图6b所示。图6a所示肤色模板是轮廓曲线的控制多边形所围区域，图6b所示背景模板基本与肤色模板互补，为了更好的去掉人手及手臂区域，从手掌末端引出了两条射线并将控制多边形稍微向外围扩大了一些。接下来将两个模板分别与初始图像进行“与”操作，得到前景图像及背景图像。

上面的描述是用于实现本发明及其实施例，因此，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求所限定的范围。

Claims

1.一种基于计算机视觉的实时手势交互方法，其特征在于，包括如下步骤：

步骤S11：将手势识别结果用于具体应用；

所述学习人手目标样本的步骤包括：

步骤S1a：利用视频图像采集大量的人手样本和非人手样本，并进行归一化处理，获得归一化样本；

步骤S1b：取归一化样本的方向梯度直方图(HOG)特征作为训练特征，采用Adaboost算法训练得到级联结构的分类器。

2.根据权利要求1所述的实时手势交互方法，其特征在于：所述学习手势样本的步骤包括：

步骤21：根据应用需要预定义动态手势集合；

步骤23：去除预定义动态手势样本中的异常样本；

3.根据权利要求1所述的实时手势交互方法，其特征在于：采用方向梯度直方图特征，通过Adaboost算法实现人手检测。

4.根据权利要求1所述的实时手势交互方法，其特征在于：所述手势是否开始的判断依据是在连续20帧的人手检测结果里，有超过12帧检测到人手处于同一个位置。

5.根据权利要求1所述的实时手势交互方法，其特征在于：所述建立人手肤色模型的步骤包括：

步骤71：定义如下线性肤色分类器：

BGhmin·G+BRmin·R＜B＜BGhmax·G+BRmax·R，

BGvmin·B+GRmin·R＜G＜BGvmax·B+GRmax·R，

其中BGhmin，BRmin，BGhmax，BRmax，BGvmin，GRmin，BGvmax，GRmax是分类器的参数，R，G，B表示像素的RGB颜色分量；

步骤72：根据跟踪初始化得到的人手轮廓建立前景图像和背景图像；

步骤73：利用前景图像与背景图像定义如下优化目标F：

F＝k·FSkinArea/FArea-BSkinArea/BArea

FSkinArea＝前景图像里肤色像素数目

FArea＝前景图像里非零像素数目

BSkinArea＝背景图像里肤色像素数目

BArea＝背景图像里非零像素数目

k是一个大于1的常量；

步骤74：逐步调整BGhmin，BRmin，BGhmax，BRmax，BGvmin，GRmin，BGvmax，GRmax，使得定义的优化目标F达到最大值，得到线性肤色分类器的最优参数。

6.根据权利要求1所述的实时手势交互方法，其特征在于：所述轮廓跟踪算法的步骤包括：

7.根据权利要求1所述的实时手势交互方法，其特征在于：所述手势识别的步骤包括：

步骤103：采用前向递推算法计算归一化特征对应于各类手势模型的概率，取概率最大者为识别结果。