CN106022211B

CN106022211B - 一种利用手势控制多媒体设备的方法

Info

Publication number: CN106022211B
Application number: CN201610289016.8A
Authority: CN
Inventors: 姜宇; 杨昕欣; 刁为民; 孙永磊
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2016-05-04
Filing date: 2016-05-04
Publication date: 2019-06-28
Anticipated expiration: 2036-05-04
Also published as: CN106022211A

Abstract

一种利用手势控制多媒体设备的方法，步骤如下：一，安装和标定摄像头，将双目摄像头采集到的图像拼接成一幅图像；二，检测站立人物并结合人体结构知识估计人手可能出现区域；三，使用预先训练好的手势分类器在人手可能出现的区域内用滑动窗口搜索单手握拳手势；四，获取接下来的5帧视频图像跟踪站立人物并检测单手伸出食指手势；五，计算人手的相对位移驱动光标移动，利用手势控制多媒体设备；通过以上步骤，本方法采用站立人物检测结合人体结构的先验知识来预测人手可能出现的范围，在降低了对人手检测算法精度要求的同时也极大的提高了系统的实时性和稳定性性能，有效的解决了由于人手较小造成跟踪困难的问题。

Description

一种利用手势控制多媒体设备的方法

技术领域

本发明提供一种利用手势控制多媒体设备的方法，它涉及基于手势识别的多媒体设备控制技术，属于多媒体设备技术领域。

背景技术

现如今，多媒体设备在多种场所的到了广泛的应用，例如上课教学场景和公司开会场景等，拿教室上课场景为例，往往使用红外遥控器来控制多媒体完成一些简单的操作，但是这种红外遥控器的控制指令比较单一，另外这种红外遥控器的硬件设备易损难修，寿命较短。此外，更重要的是遥控器无法满足多人轮流控制设备的要求，因为对于教室这种场景中不可能一直传递遥控器。相比之下，利用手势控制的方法完全可以弥补遥控器的这些不足，轻松实现多人轮流控制操作，而且软件设备比硬件更耐用，更新更为方便。本发明针对教室上课或会议室开会等特定场景，将手势识别方法和人体检测方法相结合，极大的提高了控制方法的速度和稳定性。

发明内容：

本发明的目的是提出一种利用手势控制多媒体设备的方法，以克服现有技术的不足和缺陷。

本发明一种利用手势控制多媒体设备的方法，包括以下步骤：

步骤一，前期准备工作：所需设备包括投影仪、电脑主机和两个同样规格的摄像头，将电脑和投影仪连接，将两个摄像头安装在投影仪显示器的两侧，距离地面高度一致且高于投影仪的显示屏幕，把两摄像头采集到的图像实时的传输到电脑中，采用张定友的棋盘标定法(系本技术领域一种通用方法)，标定两个摄像头的内参外参，建立两摄像头坐标系之间的对应关系，计算出两个摄像头采集到图像的重叠区域，去除掉一幅图像的重叠区域后将两幅图像拼接成一幅图像。

步骤二，因为人多的室内环境中人物之间的遮挡比较严重，如果直接进行人手检测比较困难，所以本发明采用站立人物检测方法来估计人手可能出现的区域。使用聚类通道特征结合Adaboost算法训练站立人物分类器，用快速特征金字塔模型和滑动窗口搜索方式检测图像中的站立人物。(参考文献：Dollár P,Appel R,Belongie S,et al.Fastfeature pyramids for object detection[J].Pattern Analysis and MachineIntelligence,IEEE Transactions on,2014,36(8):1532-1545.)(步骤二的方法是参考这篇文献)。如果当前帧图像中存在站立人物，则存储人物位置并执行步骤三，否则继续捕获下一帧图像，执行步骤一中的图像拼接和步骤二的站立人物检测操作。

步骤三，根据步骤二检测到的站立人物位置结合人体结构先验知识预测人手可能出现的区域，使用预先训练好的手势分类器在人手可能出现的区域内采用滑动窗口搜索单手握拳手势。如果检测到站立人物做出握拳手势，则将检测到的人手位置信息和站立人物位置信息存储下来，然后继续执行步骤四，否则继续获取下一帧视频图像，从步骤一的图像获取和图像拼接开始执行。

步骤四，获取接下来的5帧视频图像，采用粒子滤波方法跟踪步骤三中检测到的站立人物，然后根据跟踪到的站立人物位置和人体结构的先验知识估计人手可能出现的区域，在估计的人手可能出现区域内检测每帧图像中是否存在单手伸出食指手势，如果这5帧视频中出现过单手伸出食指手势则做出此手势的人物获得多媒体设备的控制权限，进入步骤五，如果没有则获取下一帧视频，从步骤一开始执行。

步骤五，计算人手的相对位移，设视频图片的宽度和高度分别为H1和W1，显示画面的宽度和高度分别为H2和W2，则如果人手在图片中的位置为(x1，y1)，那么在显示画面中的位置为根据以上方法用单手伸出食指手势移动驱动光标移动。另外一只手做握拳手势为左键单击命令，做伸出食指手势为右键单击操作。此外若当前控制设备的人员放下双手或坐下后设备的控制权限会自动消除。程序会继续获取视频图像，从步骤一开始执行。在有人员用手势控制设备的同时也会检测是否有其他人站立和做出单手伸出食指手势，如果有则当前人员放下双手，这个人员就可以通过手势控制设备。

通过以上步骤，使用本发明设计的利用手势控制多媒体设备的方法可以方便的实现多人轮流控制多媒体设备的操作，而且由于本方法先采用站立人物检测结合人体结构的先验知识来预测人手可能出现的范围，在降低了对人手检测算法精度要求同时也极大的提高了系统的实时性和稳定性性能。另外，本方面采用人体跟踪结合手势检测的方法跟踪目标手势，有效的解决了由于人手较小造成跟踪困难的问题。

其中，步骤二中提到的“聚类通道特征”其特征图像和特征向量的计算过程如下：

首先，将图像的颜色空间从RGB转换成LUV，再将转换后图像的像素范围从0到255归一化到0到1，分别计算每个像素点L、U、V三个通道图像的梯度幅值，取三通道梯度幅值最大值为这个像素点的梯度值，像素点梯度方向的取值方法相同。然后，取纵向的两个像素点为一位，把每位在每个方向的投影作为每个方向分量的值，将6分量的方向直方图分解成6幅特征图像，这6个特征图像的大小为原图大小的1/2。最后，将得到的LUV空间的三个通道图像和梯度幅值图像大小缩小成原图的1/2，并将这10幅图像组合成一幅特征图像，设原图像的大小为m×n×3，则生成的特征图像大小为再将特征图像中所有像素点从上到下、从左向右展开成一个维度为的列向量，就是所谓的聚类特征向量。

其中，步骤二中“使用聚类通道特征结合Adaboost算法训练站立人物分类器”中训练所需样本的采集过程和处理方法如下：

用步骤一中所安装的摄像头捕获约两小时室内人物正常活动视频，手动标记出每帧视频中站立人物的最小外接矩形，记成(x，y，w，h)，x，y分别是矩形左上顶点的横纵坐标位置，w和h分别为矩形的宽度和高度。假设检测模板的宽度为w₁，高度为h₁，两侧延伸后的模板高度为h₂，宽度为w₂。令：截取样本图片的坐标为：将截取图片宽度和高度缩放到h₂和w₂。假设缩放系数为s，则处理后样本最终高度为：H＝h₂/s，宽度为：W＝w₂/s，根据上述聚类特征图像的计算方法样本图像的最终大小为H×W×10，聚类特征向量的维度为R^p×1，p＝H×W×10，在此得到的聚类特征向量就是训练站立人物所需的正样本向量。在每帧图像中采集与标记的站立人物位置不同但大小相同的非站立人物位置，记为同样经过上述处理得到聚类特征向量作为训练站立人物所需的负样本向量。

其中，步骤二中“使用聚类通道特征结合Adaboost算法训练站立人物分类器”中站立人物分类器的训练过程如下：

1.假设总共需要训练nWeak棵随机树分类器，g表示第g棵随机树，取值范围是1～nWeak。假设正负样本个数分别为n和p，第i个正样本向量的误检测累积得分H_i＝0，第j个负样本向量的误检测累积得分H_j＝0。

2.初始化第i个正样本向量的权重w_pi＝1/2n，第j个负样本向量的权重w_nj=1/2p。

e_g，k＝max(p_g，k，1-p_g，k)

h_g，k＝max(-4，min(4，0.5×log(p_g，k/(1-p_g，k))))

其中，e_g，k是第g棵随机树的第k个节点的初始错误率，h_g，k是第g棵随机树的第k个节点的初始阈值。

3.训练节点：随机抽取总特征数目的1/F个特征，计算这些特征的错误率和阈值，找出错误率最小的特征，把这个特征的阈值加上0.5的补偿，第k个节点的更新错误率e_g，k和阈值h_g，k被更新。使用这个特征分类器检测所有样本，小于阈值的m＝1，大于阈值时m＝0，更新下两次训练的样本权重分别为w_pi×m，w_pi×(～m)，～表示取反。当满足p_g，k＜e^-3，p_g，k＞1-e^-3，d＞d_max，w＜W_min中任意一个条件时停止训练，其中d_max为设定的每棵树的最大深度，W_min设定的所有样本权重和的最小值。

4.用得到的第g棵随机树检测所有样本向量，检测结果记为h_i和h_j，则第i个正样本向量的误检测累积得分：

H_i＝H_i+h_i×α

第j个负样本向量的误检测累积得分：

H_j＝H_j+h_j×α

更新第i个正样本向量的权重为：

同理更新第j个负样本向量的权重为：

其中，α＝1。

5.循环以上2，3，4步，直到随机树个数达到nWeak为止。

其中，在步骤二中所述的“用快速特征金字塔模型和滑动窗口搜索方式检测图像中的站立人物”的具体过程如下：

首先，构造原图像的快速特征金字塔，计算金字塔模型的层数、每层的特征图像尺寸等，然后，计算特征金字塔每层的聚类通道特征图像。最后，采用滑动窗口在每层特征图像中使用分类器逐个窗口进行检测。

其中，在步骤二中所述的“快速特征金字塔”的层数的计算公式为：n_po代表每级上采样的个数，n_ou表示每级下采样的个数，h_o和w_o分别表示待测图像的高度和宽度，h_m，w_m表示的特征金字塔图像最小尺寸，n_s为快速特征金字塔的总层数。

其中，在步骤二中所述的“快速特征金字塔”每层图像尺寸计算过程为：特征金字塔的第i层缩放系数为：

设：

d₀＝min(h_o,w_o)

d₁＝max(h_o，w_o)

其中，s_k为缩放参数，h_o和w_o分别表示待测图像的高度和宽度。

设：

ss_j＝0.01×j×(s₁-s₀)+s₀

其中，j∈(0，100)。

得出:

x＝min(max(es_0j,es_1j))

则第i层的缩放系数为：

sc_i＝ss_x

最后得出第i层的宽和高分别为：

其中，“快速特征金字塔”每层特征图像的计算方法为：快速特征金字塔的真实层的序号r∈{1，a+1，2a+1，...，n_s}，反之是估计层。首先，计算出真实层的聚类通道特征图像，然后估计层的特征图像计算方法为R表示图像的重采样操作，其中，s表示真实层的缩放比例，s′表示估计层的缩放比例，λ_Ω表示估计系数，实验证明每级特征金字塔λ_Ω的取值分别为0，0.1105，0.1083。

其中，步骤三中“预测人手可能出现的区域”的计算过程为：假设步骤二检测到的站立人物的位置为(x，y，w，h)，其中x和y表示检测到矩形的坐上角点坐标，w和h为矩形的高度和宽度。然后，根据人体的先验知识设定人手可能出现的区域为(x-h，y-h，3w，h)。

其中，在步骤四中所述的“采用粒子滤波方法(系本技术领域通用方法)跟踪步骤三中检测到的站立人物”的具体过程为：首先，截取步骤三中检测到的站立人物图片，建立站立人物图片的粒子滤波跟踪模板。然后，获取下一帧视频，跟踪站立人物位置，按照步骤三中方法预测人手可能出现的区域，在人手可能出现区域中使用预先训练好的单手伸出食指手势分类器检测此手势。更新粒子滤波模板，获取下一帧视频，重复以上跟踪步骤，直到5帧视频后结束或者中途跟踪的目标丢失，则放弃此目标。如果图片中有多个人物目标，则先做出单手伸出食指操作的人物获得多媒体设备的控制权限。

其中，步骤三中“单手握拳手势”和步骤四中“单手伸出食指手势”的分类器训练和检测算法与步骤二中使用的“站立人物分类器”的训练和检测方法相同，此处不再赘述。

本发明的有效收益：

1.本发明采用人体检测结合人体结构知识来预测人手可能出现区域，降低了对人手检测算法精度的要求，同时提高了单帧图像的检测速度，增强了系统的实时性和稳定性。

2.本发明利用手势控制多媒体设备简单灵活，可以弥补现有遥控器或鼠标设备轮流操作不方便的缺点，方便的满足了多人轮流控制的需要。

3.本发明采用人物跟踪结合手势检测的方式代替人手跟踪，因为人手目标过小很容易丢失，人物目标较大跟踪会更加稳定。

附图说明：

图1利用手势取得设备控制权限过程流程图。

图2人物跟踪和手势检测方法流程图。

图3本发明所述方法流程图。

具体实施方法：

本发明的目的在于，提出一种利用手势控制多媒体设备的方法，下面结合附图说明本发明具体的实施过程：

本发明一种利用手势控制多媒体设备的方法，见图3所示，包括以下步骤：

步骤一，所需设备包括投影仪、电脑主机和两个同样规格的摄像头，将电脑和投影仪连接，将两个摄像头安装在投影仪显示器的两侧，距离地面高度一致且高于投影仪的显示屏幕，把两摄像头采集到的图像实时的传输到电脑中，两个摄像头的分辨率为720*480。然后，采用张定友的棋盘标定法(本技术领域一种通用方法)，标定两个摄像头的坐标系，求出两个摄像头采集到图像的重叠区域，并去掉一幅图像的重叠区域后将这两个摄像头采集到的两幅图像拼接成一幅图像。

步骤二，因为室内场景中人较多而且人物之间的遮挡比较严重，造成直接的人手检测的难度较大，所以本发明限定只有站立的人物才能触发手势控制系统。使用聚类通道特征结合Adaboost算法，训练站立人物分类器，使用快速特征金字塔和滑动窗口搜索方式检测图像中的站立人物，同时本发明根据使用场景采集分类器训练时使用的正负样本，正样本是在视频图片截取的站立的人物，负样本为随机抽取的非正样本图片。附图1为通过手势获得设备控制权限过程的流程图，启动程序后，获取双目摄像头视频的图像，执行步骤一中的图像拼接步骤，然后检测每一帧图像中是否存在站立人物，如果当前帧图像中存在站立人物，则存储人物位置并执行步骤三，否则继续获取下一帧图像，循环第一步的图像拼接和步骤二的站立人物检测操作。

步骤三，根据步骤二检测到的站立人物位置结合人体结构先验知识限定人手可能出现的区域，使用预先训练好的手势分类器在人手可能出现的区域采用滑动窗口搜索单手握拳手势。如附图1所示判读预测区域中是否有单手握拳手势，如果有则将检测到的人手位置信息和站立人物位置信息存储下来，然后继续执行步骤四，否则获取下一帧视频图像，从步骤一开始执行。

步骤四，如附图2所示，获取接下来的5帧视频图像，采用粒子滤波方法跟踪步骤三中检测到的站立人物，然后根据跟踪到的站立人物位置和人体结构的先验知识估计人手可能出现的区域，在估计的人手可能出现区域内检测每帧图像中是否存在单手伸出食指手势，如果这5帧视频中出现过单手伸出食指手势则做出此手势的人物获得多媒体设备的控制权限，进入步骤五，如果没有则获取下一帧视频，从步骤一开始执行。

步骤五，计算人手的相对位移，设视频图片的宽度和高度分别为H1和W1，显示画面的宽度和高度分别为H2和W2。如果人手在图片中的位置为(x1，y1)，那么在显示画面中的位置为根据以上方法用单手伸出食指手势移动驱动光标移动。另外一个手做握拳手势为左键单击命令，另外一只手做伸出食指手势为右键单击操作。此外若当前控制设备的人员放下双手或坐下后设备的控制权限自动消除，程序会继续获取视频图像，从步骤一开始执行，控制权限可以由其他人接替。

其中，在步骤一中两个摄像头的分辨率均为720*480，通过标定摄像机的内参和外参后得到两摄像头坐标系之间关系，拼接得到图像的大小为1000*480，再标定的过程中也可以调整摄像头的位置，张正友棋盘标定法为本领域常用标定摄像头的方法在此不再赘述。

其中，在步骤二中采集教室场景中连续2小时的教学视频，手动标记出视频图像中站立人物的位置，然后将站立人物的图片边缘扩大，保证差值后站立人物本身大小为100*41，整个人物样本大小为128*64。挑选出2500张质量较好的样本作为训练的正样本，将每个正样本翻转后正样本数目扩大为5000个。同时随机在一些视频图像中抽取大小为128*64的非站立人物图片作为负样本图片，负样本图片数量为5000。

其中，步骤二中“聚类通道特征向量”的具体计算方法为：首先，将样本图像的颜色空间从RGB转到LUV，同时将每个像素点的值归一化到0-1之间。然后，计算每个像素点在LUV空间三个颜色通道的梯度幅值和梯度方向，取三个通道中的最大值为最终值。其中，梯度幅值计算公式为：

G_x＝f(x+1，y)-f(x-1，y)

G_y＝f(x，y+1)-f(x，y-1)

梯度方向的计算公式为：

将原图像纵向每两个像素为一个单元计算6个方向的方向直方图，得到6个方向的梯度幅值特征图像，每幅图像大小为64*32。最后，将LUV图像分量和梯度幅值特征图像缩小到原图像大小的一半，将所有图像组成64*32*10的特征图像，将特征图像向量化成R^64*32*10维的特征向量，其中负样本的特征向量计算方法相同。

其中，步骤二中“使用聚类通道特征结合Adaboost算法，训练站立人物分类器”的具体方法如下：

1.设定级联随机树的数目为4096，正负样本个数均为5000个，初始化第i个正样本向量的误检测累积得分H_i＝0，第j个负样本向量的误检测累积得分H_j＝0；

2.初始化正、负样本的权重均为1/10000，设定每棵随机树的最大深度d_max＝5，样本的最小权重W_min＝0.0001，

e_g，k＝max(p_g，k，1-p_g，k)

h_g，k＝max(-4，min(4，0.5×log(p_g，k/(1-p_g，k))))

其中，e_g，k是第g棵随机树的第k个节点的初始错误率，h_g，k是第g棵随机树的第k个节点的初始阈值；

3.判断如果满足p_g，k＜e^-3，p_g，k＞1-e^-3，d＞d_max，w＜W_min中的任意一个条件，则停止训练这棵随机树，不满足则进入步骤4；

4.随机抽取总特征的1/F，计算每个特征的错误率和阈值，挑选出错误率最小的一个特征分类器，并把这个特征分类器的阈值加上0.5的补偿，F＝16。使用这个特征分类器检测所有样本，小于阈值时m＝1，大于阈值时m＝0，每次更新下两次训练的正样本向量的权重为w_pi×m，w_pi×(～m)，～表示取反，负样本向量的权重更新方法与正样本向量的权重更新方法相同，此外此棵随机树深度加1；

5.重新计算

e_g，k＝max(p_q，k，1-p_g，k)

h_g，k＝max(-4，min(4，0.5×log(p_g，k/(1-p_g，k))))

6.返回步骤3，循环以上步骤直到满足3中条件，则停止训练这棵随机树；

7.用第g个随机树检测正负样本向量得到的结果分别为h_i和h_j，更新累积错误得H_i＝H_i+h_i，H_j＝H_j+h_j，更新第i个正样本向量的权重为更新第j个负样本向量的权重为

8.重复以上2～7步直到随机树的数目达到4096个分类器训练结束。

其中，步骤二中的“快速特征金字塔”每层特征图像的计算方法为：快速特征金字塔的真实层序号r∈{1，a+1，2a+1，...，n_s}，其中a＝8，反之是估计层。首先，计算出真实层的聚类通道特征图像，然后估计层的特征图像计算方法为：R表示图像的重采样操作，s表示真实层的缩放比例，s′表示估计层的缩放比例，λ_Ω表示估计系数，实验证明每级特征金字塔λ_Ω的取值分别为0，0.1105，0.1083。

其中，步骤三中“单手握拳手势”和“单手伸出食指手势”这两种手势分类器的训练和样本采集方法为：

手势分类器训练方法与站立人体分类器训练的方法相同，但是训练样本的大小和一些参数都要做相应调整。采集不同肤色的人手握拳的图片1000张(要求拳头的角度和方向尽可能多)，将图片大小调整到60*60，同时随机抽取2000张非人手握拳图片作为负样本，大小也调整到60*60。计算得到的特征图像大小为30*30*10，最终的到R^30*30*10维的聚类通道特征向量。同样单手伸出食指的人手分类器训练样本也采用同样方法采集和处理，在此不再赘述。

Claims

1.一种利用手势控制多媒体设备的方法，其特征在于：它包括以下步骤：

步骤一，前期准备工作：所需设备包括投影仪、电脑主机和两个同样规格的摄像头，将电脑和投影仪连接，将两个摄像头安装在投影仪显示器的两侧，距离地面高度一致且高于投影仪的显示屏幕，把两摄像头采集到的图像实时的传输到电脑中，采用张定友的棋盘标定法，标定两个摄像头的内参外参，建立两摄像头坐标系之间的对应关系，计算出两个摄像头采集到图像的重叠区域，去除掉一幅图像的重叠区域后将两幅图像拼接成一幅图像；

步骤二，采用站立人物检测方法来估计人手可能出现的区域,使用聚类通道特征结合Adaboost算法训练站立人物分类器，用快速特征金字塔模型和滑动窗口搜索方式检测图像中的站立人物；如果当前帧图像中存在站立人物，则存储人物位置并执行步骤三，否则继续捕获下一帧图像，执行步骤一中的图像拼接和步骤二的站立人物检测操作；

步骤三，根据步骤二检测到的站立人物位置结合人体结构先验知识预测人手可能出现的区域，使用预先训练好的手势分类器在人手可能出现的区域内采用滑动窗口搜索单手握拳手势；如果检测到站立人物做出握拳手势，则将检测到的人手位置信息和站立人物位置信息存储下来，然后继续执行步骤四，否则继续获取下一帧视频图像，从步骤一的图像获取和图像拼接开始执行；

步骤四，获取接下来的5帧视频图像，采用粒子滤波方法跟踪步骤三中检测到的站立人物，然后根据跟踪到的站立人物位置和人体结构的先验知识估计人手可能出现的区域，在估计的人手可能出现区域内检测每帧图像中是否存在单手伸出食指手势，如果这5帧视频中出现过单手伸出食指手势则做出此手势的人物获得多媒体设备的控制权限，进入步骤五，如果没有则获取下一帧视频，从步骤一开始执行；

步骤五，计算人手的相对位移，设视频图片的宽度和高度分别为H1和W1，显示画面的宽度和高度分别为H2和W2，则如果人手在图片中的位置为(x1，y1)，那么在显示画面中的位置为根据以上方法用单手伸出食指手势移动驱动光标移动；另外一只手做握拳手势为左键单击命令，做伸出食指手势为右键单击操作；此外若当前控制设备的人员放下双手及坐下后设备的控制权限会自动消除；程序会继续获取视频图像，从步骤一开始执行；在有人员用手势控制设备的同时也会检测是否有其他人站立和做出单手伸出食指手势，如果有则当前人员放下双手，这个人员就能通过手势控制设备；

首先，将图像的颜色空间从RGB转换成LUV，再将转换后图像的像素范围从0到255归一化到0到1，分别计算每个像素点L、U、V三个通道图像的梯度幅值，取三通道梯度幅值最大值为这个像素点的梯度值，像素点梯度方向的取值方法相同；然后，取纵向的两个像素点为一位，把每位在每个方向的投影作为每个方向分量的值，将6分量的方向直方图分解成6幅特征图像，这6个特征图像的大小为原图大小的1/2；最后，将得到的LUV空间的三个通道图像和梯度幅值图像大小缩小成原图的1/2，并将这10幅图像组合成一幅特征图像，设原图像的大小为m×n×3，则生成的特征图像大小为再将特征图像中所有像素点从上到下、从左向右展开成一个维度为的列向量，就是所谓的聚类特征向量。

2.根据权利要求1所述的一种利用手势控制多媒体设备的方法，其特征在于：在步骤三中所述的“预测人手可能出现的区域”的计算过程为：假设步骤二检测到的站立人物的位置为(x，y，w，h)，其中x和y表示检测到矩形的左上角点坐标，w和h为矩形的高度和宽度；然后，根据人体的先验知识设定人手可能出现的区域为(x-h，y-h，3w，h)。

3.根据权利要求1所述的一种利用手势控制多媒体设备的方法，其特征在于：在步骤四中所述的“采用粒子滤波方法跟踪步骤三中检测到的站立人物”的具体过程为：首先，截取步骤三中检测到的站立人物图片，建立站立人物图片的粒子滤波跟踪模板；然后，获取下一帧视频，跟踪站立人物位置，按照步骤三中方法预测人手可能出现的区域，在人手可能出现区域中使用预先训练好的单手伸出食指手势分类器检测此手势；更新粒子滤波模板，获取下一帧视频，重复以上跟踪步骤，直到5帧视频后结束或者中途跟踪的目标丢失，则放弃此目标；如果图片中有多个人物目标，则先做出单手伸出食指操作的人物获得多媒体设备的控制权限。