CN106022211B - 一种利用手势控制多媒体设备的方法 - Google Patents

一种利用手势控制多媒体设备的方法 Download PDF

Info

Publication number
CN106022211B
CN106022211B CN201610289016.8A CN201610289016A CN106022211B CN 106022211 B CN106022211 B CN 106022211B CN 201610289016 A CN201610289016 A CN 201610289016A CN 106022211 B CN106022211 B CN 106022211B
Authority
CN
China
Prior art keywords
image
gesture
manpower
standing
personage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610289016.8A
Other languages
English (en)
Other versions
CN106022211A (zh
Inventor
姜宇
杨昕欣
刁为民
孙永磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201610289016.8A priority Critical patent/CN106022211B/zh
Publication of CN106022211A publication Critical patent/CN106022211A/zh
Application granted granted Critical
Publication of CN106022211B publication Critical patent/CN106022211B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

一种利用手势控制多媒体设备的方法,步骤如下:一,安装和标定摄像头,将双目摄像头采集到的图像拼接成一幅图像;二,检测站立人物并结合人体结构知识估计人手可能出现区域;三,使用预先训练好的手势分类器在人手可能出现的区域内用滑动窗口搜索单手握拳手势;四,获取接下来的5帧视频图像跟踪站立人物并检测单手伸出食指手势;五,计算人手的相对位移驱动光标移动,利用手势控制多媒体设备;通过以上步骤,本方法采用站立人物检测结合人体结构的先验知识来预测人手可能出现的范围,在降低了对人手检测算法精度要求的同时也极大的提高了系统的实时性和稳定性性能,有效的解决了由于人手较小造成跟踪困难的问题。

Description

一种利用手势控制多媒体设备的方法
技术领域
本发明提供一种利用手势控制多媒体设备的方法,它涉及基于手势识别的多媒体设备控制技术,属于多媒体设备技术领域。
背景技术
现如今,多媒体设备在多种场所的到了广泛的应用,例如上课教学场景和公司开会场景等,拿教室上课场景为例,往往使用红外遥控器来控制多媒体完成一些简单的操作,但是这种红外遥控器的控制指令比较单一,另外这种红外遥控器的硬件设备易损难修,寿命较短。此外,更重要的是遥控器无法满足多人轮流控制设备的要求,因为对于教室这种场景中不可能一直传递遥控器。相比之下,利用手势控制的方法完全可以弥补遥控器的这些不足,轻松实现多人轮流控制操作,而且软件设备比硬件更耐用,更新更为方便。本发明针对教室上课或会议室开会等特定场景,将手势识别方法和人体检测方法相结合,极大的提高了控制方法的速度和稳定性。
发明内容:
本发明的目的是提出一种利用手势控制多媒体设备的方法,以克服现有技术的不足和缺陷。
本发明一种利用手势控制多媒体设备的方法,包括以下步骤:
步骤一,前期准备工作:所需设备包括投影仪、电脑主机和两个同样规格的摄像头,将电脑和投影仪连接,将两个摄像头安装在投影仪显示器的两侧,距离地面高度一致且高于投影仪的显示屏幕,把两摄像头采集到的图像实时的传输到电脑中,采用张定友的棋盘标定法(系本技术领域一种通用方法),标定两个摄像头的内参外参,建立两摄像头坐标系之间的对应关系,计算出两个摄像头采集到图像的重叠区域,去除掉一幅图像的重叠区域后将两幅图像拼接成一幅图像。
步骤二,因为人多的室内环境中人物之间的遮挡比较严重,如果直接进行人手检测比较困难,所以本发明采用站立人物检测方法来估计人手可能出现的区域。使用聚类通道特征结合Adaboost算法训练站立人物分类器,用快速特征金字塔模型和滑动窗口搜索方式检测图像中的站立人物。(参考文献:Dollár P,Appel R,Belongie S,et al.Fastfeature pyramids for object detection[J].Pattern Analysis and MachineIntelligence,IEEE Transactions on,2014,36(8):1532-1545.)(步骤二的方法是参考这篇文献)。如果当前帧图像中存在站立人物,则存储人物位置并执行步骤三,否则继续捕获下一帧图像,执行步骤一中的图像拼接和步骤二的站立人物检测操作。
步骤三,根据步骤二检测到的站立人物位置结合人体结构先验知识预测人手可能出现的区域,使用预先训练好的手势分类器在人手可能出现的区域内采用滑动窗口搜索单手握拳手势。如果检测到站立人物做出握拳手势,则将检测到的人手位置信息和站立人物位置信息存储下来,然后继续执行步骤四,否则继续获取下一帧视频图像,从步骤一的图像获取和图像拼接开始执行。
步骤四,获取接下来的5帧视频图像,采用粒子滤波方法跟踪步骤三中检测到的站立人物,然后根据跟踪到的站立人物位置和人体结构的先验知识估计人手可能出现的区域,在估计的人手可能出现区域内检测每帧图像中是否存在单手伸出食指手势,如果这5帧视频中出现过单手伸出食指手势则做出此手势的人物获得多媒体设备的控制权限,进入步骤五,如果没有则获取下一帧视频,从步骤一开始执行。
步骤五,计算人手的相对位移,设视频图片的宽度和高度分别为H1和W1,显示画面的宽度和高度分别为H2和W2,则如果人手在图片中的位置为(x1,y1),那么在显示画面中的位置为根据以上方法用单手伸出食指手势移动驱动光标移动。另外一只手做握拳手势为左键单击命令,做伸出食指手势为右键单击操作。此外若当前控制设备的人员放下双手或坐下后设备的控制权限会自动消除。程序会继续获取视频图像,从步骤一开始执行。在有人员用手势控制设备的同时也会检测是否有其他人站立和做出单手伸出食指手势,如果有则当前人员放下双手,这个人员就可以通过手势控制设备。
通过以上步骤,使用本发明设计的利用手势控制多媒体设备的方法可以方便的实现多人轮流控制多媒体设备的操作,而且由于本方法先采用站立人物检测结合人体结构的先验知识来预测人手可能出现的范围,在降低了对人手检测算法精度要求同时也极大的提高了系统的实时性和稳定性性能。另外,本方面采用人体跟踪结合手势检测的方法跟踪目标手势,有效的解决了由于人手较小造成跟踪困难的问题。
其中,步骤二中提到的“聚类通道特征”其特征图像和特征向量的计算过程如下:
首先,将图像的颜色空间从RGB转换成LUV,再将转换后图像的像素范围从0到255归一化到0到1,分别计算每个像素点L、U、V三个通道图像的梯度幅值,取三通道梯度幅值最大值为这个像素点的梯度值,像素点梯度方向的取值方法相同。然后,取纵向的两个像素点为一位,把每位在每个方向的投影作为每个方向分量的值,将6分量的方向直方图分解成6幅特征图像,这6个特征图像的大小为原图大小的1/2。最后,将得到的LUV空间的三个通道图像和梯度幅值图像大小缩小成原图的1/2,并将这10幅图像组合成一幅特征图像,设原图像的大小为m×n×3,则生成的特征图像大小为再将特征图像中所有像素点从上到下、从左向右展开成一个维度为的列向量,就是所谓的聚类特征向量。
其中,步骤二中“使用聚类通道特征结合Adaboost算法训练站立人物分类器”中训练所需样本的采集过程和处理方法如下:
用步骤一中所安装的摄像头捕获约两小时室内人物正常活动视频,手动标记出每帧视频中站立人物的最小外接矩形,记成(x,y,w,h),x,y分别是矩形左上顶点的横纵坐标位置,w和h分别为矩形的宽度和高度。假设检测模板的宽度为w1,高度为h1,两侧延伸后的模板高度为h2,宽度为w2。令: 截取样本图片的坐标为:将截取图片宽度和高度缩放到h2和w2。假设缩放系数为s,则处理后样本最终高度为:H=h2/s,宽度为:W=w2/s,根据上述聚类特征图像的计算方法样本图像的最终大小为H×W×10,聚类特征向量的维度为Rp×1,p=H×W×10,在此得到的聚类特征向量就是训练站立人物所需的正样本向量。在每帧图像中采集与标记的站立人物位置不同但大小相同的非站立人物位置,记为同样经过上述处理得到聚类特征向量作为训练站立人物所需的负样本向量。
其中,步骤二中“使用聚类通道特征结合Adaboost算法训练站立人物分类器”中站立人物分类器的训练过程如下:
1.假设总共需要训练nWeak棵随机树分类器,g表示第g棵随机树,取值范围是1~nWeak。假设正负样本个数分别为n和p,第i个正样本向量的误检测累积得分Hi=0,第j个负样本向量的误检测累积得分Hj=0。
2.初始化第i个正样本向量的权重wpi=1/2n,第j个负样本向量的权重wnj=1/2p。
eg,k=max(pg,k,1-pg,k)
hg,k=max(-4,min(4,0.5×log(pg,k/(1-pg,k))))
其中,eg,k是第g棵随机树的第k个节点的初始错误率,hg,k是第g棵随机树的第k个节点的初始阈值。
3.训练节点:随机抽取总特征数目的1/F个特征,计算这些特征的错误率和阈值,找出错误率最小的特征,把这个特征的阈值加上0.5的补偿,第k个节点的更新错误率eg,k和阈值hg,k被更新。使用这个特征分类器检测所有样本,小于阈值的m=1,大于阈值时m=0,更新下两次训练的样本权重分别为wpi×m,wpi×(~m),~表示取反。当满足pg,k<e-3,pg,k>1-e-3,d>dmax,w<Wmin中任意一个条件时停止训练,其中dmax为设定的每棵树的最大深度,Wmin设定的所有样本权重和的最小值。
4.用得到的第g棵随机树检测所有样本向量,检测结果记为hi和hj,则第i个正样本向量的误检测累积得分:
Hi=Hi+hi×α
第j个负样本向量的误检测累积得分:
Hj=Hj+hj×α
更新第i个正样本向量的权重为:
同理更新第j个负样本向量的权重为:
其中,α=1。
5.循环以上2,3,4步,直到随机树个数达到nWeak为止。
其中,在步骤二中所述的“用快速特征金字塔模型和滑动窗口搜索方式检测图像中的站立人物”的具体过程如下:
首先,构造原图像的快速特征金字塔,计算金字塔模型的层数、每层的特征图像尺寸等,然后,计算特征金字塔每层的聚类通道特征图像。最后,采用滑动窗口在每层特征图像中使用分类器逐个窗口进行检测。
其中,在步骤二中所述的“快速特征金字塔”的层数的计算公式为:npo代表每级上采样的个数,nou表示每级下采样的个数,ho和wo分别表示待测图像的高度和宽度,hm,wm表示的特征金字塔图像最小尺寸,ns为快速特征金字塔的总层数。
其中,在步骤二中所述的“快速特征金字塔”每层图像尺寸计算过程为:特征金字塔的第i层缩放系数为:
设:
d0=min(ho,wo)
d1=max(ho,wo)
其中,sk为缩放参数,ho和wo分别表示待测图像的高度和宽度。
设:
ssj=0.01×j×(s1-s0)+s0
其中,j∈(0,100)。
得出:
x=min(max(es0j,es1j))
则第i层的缩放系数为:
sci=ssx
最后得出第i层的宽和高分别为:
其中,“快速特征金字塔”每层特征图像的计算方法为:快速特征金字塔的真实层的序号r∈{1,a+1,2a+1,...,ns},反之是估计层。首先,计算出真实层的聚类通道特征图像,然后估计层的特征图像计算方法为R表示图像的重采样操作,其中,s表示真实层的缩放比例,s′表示估计层的缩放比例,λΩ表示估计系数,实验证明每级特征金字塔λΩ的取值分别为0,0.1105,0.1083。
其中,步骤三中“预测人手可能出现的区域”的计算过程为:假设步骤二检测到的站立人物的位置为(x,y,w,h),其中x和y表示检测到矩形的坐上角点坐标,w和h为矩形的高度和宽度。然后,根据人体的先验知识设定人手可能出现的区域为(x-h,y-h,3w,h)。
其中,在步骤四中所述的“采用粒子滤波方法(系本技术领域通用方法)跟踪步骤三中检测到的站立人物”的具体过程为:首先,截取步骤三中检测到的站立人物图片,建立站立人物图片的粒子滤波跟踪模板。然后,获取下一帧视频,跟踪站立人物位置,按照步骤三中方法预测人手可能出现的区域,在人手可能出现区域中使用预先训练好的单手伸出食指手势分类器检测此手势。更新粒子滤波模板,获取下一帧视频,重复以上跟踪步骤,直到5帧视频后结束或者中途跟踪的目标丢失,则放弃此目标。如果图片中有多个人物目标,则先做出单手伸出食指操作的人物获得多媒体设备的控制权限。
其中,步骤三中“单手握拳手势”和步骤四中“单手伸出食指手势”的分类器训练和检测算法与步骤二中使用的“站立人物分类器”的训练和检测方法相同,此处不再赘述。
本发明的有效收益:
1.本发明采用人体检测结合人体结构知识来预测人手可能出现区域,降低了对人手检测算法精度的要求,同时提高了单帧图像的检测速度,增强了系统的实时性和稳定性。
2.本发明利用手势控制多媒体设备简单灵活,可以弥补现有遥控器或鼠标设备轮流操作不方便的缺点,方便的满足了多人轮流控制的需要。
3.本发明采用人物跟踪结合手势检测的方式代替人手跟踪,因为人手目标过小很容易丢失,人物目标较大跟踪会更加稳定。
附图说明:
图1利用手势取得设备控制权限过程流程图。
图2人物跟踪和手势检测方法流程图。
图3本发明所述方法流程图。
具体实施方法:
本发明的目的在于,提出一种利用手势控制多媒体设备的方法,下面结合附图说明本发明具体的实施过程:
本发明一种利用手势控制多媒体设备的方法,见图3所示,包括以下步骤:
步骤一,所需设备包括投影仪、电脑主机和两个同样规格的摄像头,将电脑和投影仪连接,将两个摄像头安装在投影仪显示器的两侧,距离地面高度一致且高于投影仪的显示屏幕,把两摄像头采集到的图像实时的传输到电脑中,两个摄像头的分辨率为720*480。然后,采用张定友的棋盘标定法(本技术领域一种通用方法),标定两个摄像头的坐标系,求出两个摄像头采集到图像的重叠区域,并去掉一幅图像的重叠区域后将这两个摄像头采集到的两幅图像拼接成一幅图像。
步骤二,因为室内场景中人较多而且人物之间的遮挡比较严重,造成直接的人手检测的难度较大,所以本发明限定只有站立的人物才能触发手势控制系统。使用聚类通道特征结合Adaboost算法,训练站立人物分类器,使用快速特征金字塔和滑动窗口搜索方式检测图像中的站立人物,同时本发明根据使用场景采集分类器训练时使用的正负样本,正样本是在视频图片截取的站立的人物,负样本为随机抽取的非正样本图片。附图1为通过手势获得设备控制权限过程的流程图,启动程序后,获取双目摄像头视频的图像,执行步骤一中的图像拼接步骤,然后检测每一帧图像中是否存在站立人物,如果当前帧图像中存在站立人物,则存储人物位置并执行步骤三,否则继续获取下一帧图像,循环第一步的图像拼接和步骤二的站立人物检测操作。
步骤三,根据步骤二检测到的站立人物位置结合人体结构先验知识限定人手可能出现的区域,使用预先训练好的手势分类器在人手可能出现的区域采用滑动窗口搜索单手握拳手势。如附图1所示判读预测区域中是否有单手握拳手势,如果有则将检测到的人手位置信息和站立人物位置信息存储下来,然后继续执行步骤四,否则获取下一帧视频图像,从步骤一开始执行。
步骤四,如附图2所示,获取接下来的5帧视频图像,采用粒子滤波方法跟踪步骤三中检测到的站立人物,然后根据跟踪到的站立人物位置和人体结构的先验知识估计人手可能出现的区域,在估计的人手可能出现区域内检测每帧图像中是否存在单手伸出食指手势,如果这5帧视频中出现过单手伸出食指手势则做出此手势的人物获得多媒体设备的控制权限,进入步骤五,如果没有则获取下一帧视频,从步骤一开始执行。
步骤五,计算人手的相对位移,设视频图片的宽度和高度分别为H1和W1,显示画面的宽度和高度分别为H2和W2。如果人手在图片中的位置为(x1,y1),那么在显示画面中的位置为根据以上方法用单手伸出食指手势移动驱动光标移动。另外一个手做握拳手势为左键单击命令,另外一只手做伸出食指手势为右键单击操作。此外若当前控制设备的人员放下双手或坐下后设备的控制权限自动消除,程序会继续获取视频图像,从步骤一开始执行,控制权限可以由其他人接替。
其中,在步骤一中两个摄像头的分辨率均为720*480,通过标定摄像机的内参和外参后得到两摄像头坐标系之间关系,拼接得到图像的大小为1000*480,再标定的过程中也可以调整摄像头的位置,张正友棋盘标定法为本领域常用标定摄像头的方法在此不再赘述。
其中,在步骤二中采集教室场景中连续2小时的教学视频,手动标记出视频图像中站立人物的位置,然后将站立人物的图片边缘扩大,保证差值后站立人物本身大小为100*41,整个人物样本大小为128*64。挑选出2500张质量较好的样本作为训练的正样本,将每个正样本翻转后正样本数目扩大为5000个。同时随机在一些视频图像中抽取大小为128*64的非站立人物图片作为负样本图片,负样本图片数量为5000。
其中,步骤二中“聚类通道特征向量”的具体计算方法为:首先,将样本图像的颜色空间从RGB转到LUV,同时将每个像素点的值归一化到0-1之间。然后,计算每个像素点在LUV空间三个颜色通道的梯度幅值和梯度方向,取三个通道中的最大值为最终值。其中,梯度幅值计算公式为:
Gx=f(x+1,y)-f(x-1,y)
Gy=f(x,y+1)-f(x,y-1)
梯度方向的计算公式为:
将原图像纵向每两个像素为一个单元计算6个方向的方向直方图,得到6个方向的梯度幅值特征图像,每幅图像大小为64*32。最后,将LUV图像分量和梯度幅值特征图像缩小到原图像大小的一半,将所有图像组成64*32*10的特征图像,将特征图像向量化成R64*32*10维的特征向量,其中负样本的特征向量计算方法相同。
其中,步骤二中“使用聚类通道特征结合Adaboost算法,训练站立人物分类器”的具体方法如下:
1.设定级联随机树的数目为4096,正负样本个数均为5000个,初始化第i个正样本向量的误检测累积得分Hi=0,第j个负样本向量的误检测累积得分Hj=0;
2.初始化正、负样本的权重均为1/10000,设定每棵随机树的最大深度dmax=5,样本的最小权重Wmin=0.0001,
eg,k=max(pg,k,1-pg,k)
hg,k=max(-4,min(4,0.5×log(pg,k/(1-pg,k))))
其中,eg,k是第g棵随机树的第k个节点的初始错误率,hg,k是第g棵随机树的第k个节点的初始阈值;
3.判断如果满足pg,k<e-3,pg,k>1-e-3,d>dmax,w<Wmin中的任意一个条件,则停止训练这棵随机树,不满足则进入步骤4;
4.随机抽取总特征的1/F,计算每个特征的错误率和阈值,挑选出错误率最小的一个特征分类器,并把这个特征分类器的阈值加上0.5的补偿,F=16。使用这个特征分类器检测所有样本,小于阈值时m=1,大于阈值时m=0,每次更新下两次训练的正样本向量的权重为wpi×m,wpi×(~m),~表示取反,负样本向量的权重更新方法与正样本向量的权重更新方法相同,此外此棵随机树深度加1;
5.重新计算
eg,k=max(pq,k,1-pg,k)
hg,k=max(-4,min(4,0.5×log(pg,k/(1-pg,k))))
6.返回步骤3,循环以上步骤直到满足3中条件,则停止训练这棵随机树;
7.用第g个随机树检测正负样本向量得到的结果分别为hi和hj,更新累积错误得Hi=Hi+hi,Hj=Hj+hj,更新第i个正样本向量的权重为 更新第j个负样本向量的权重为
8.重复以上2~7步直到随机树的数目达到4096个分类器训练结束。
其中,步骤二中的“快速特征金字塔”每层特征图像的计算方法为:快速特征金字塔的真实层序号r∈{1,a+1,2a+1,...,ns},其中a=8,反之是估计层。首先,计算出真实层的聚类通道特征图像,然后估计层的特征图像计算方法为:R表示图像的重采样操作,s表示真实层的缩放比例,s′表示估计层的缩放比例,λΩ表示估计系数,实验证明每级特征金字塔λΩ的取值分别为0,0.1105,0.1083。
其中,步骤三中“单手握拳手势”和“单手伸出食指手势”这两种手势分类器的训练和样本采集方法为:
手势分类器训练方法与站立人体分类器训练的方法相同,但是训练样本的大小和一些参数都要做相应调整。采集不同肤色的人手握拳的图片1000张(要求拳头的角度和方向尽可能多),将图片大小调整到60*60,同时随机抽取2000张非人手握拳图片作为负样本,大小也调整到60*60。计算得到的特征图像大小为30*30*10,最终的到R30*30*10维的聚类通道特征向量。同样单手伸出食指的人手分类器训练样本也采用同样方法采集和处理,在此不再赘述。

Claims (3)

1.一种利用手势控制多媒体设备的方法,其特征在于:它包括以下步骤:
步骤一,前期准备工作:所需设备包括投影仪、电脑主机和两个同样规格的摄像头,将电脑和投影仪连接,将两个摄像头安装在投影仪显示器的两侧,距离地面高度一致且高于投影仪的显示屏幕,把两摄像头采集到的图像实时的传输到电脑中,采用张定友的棋盘标定法,标定两个摄像头的内参外参,建立两摄像头坐标系之间的对应关系,计算出两个摄像头采集到图像的重叠区域,去除掉一幅图像的重叠区域后将两幅图像拼接成一幅图像;
步骤二,采用站立人物检测方法来估计人手可能出现的区域,使用聚类通道特征结合Adaboost算法训练站立人物分类器,用快速特征金字塔模型和滑动窗口搜索方式检测图像中的站立人物;如果当前帧图像中存在站立人物,则存储人物位置并执行步骤三,否则继续捕获下一帧图像,执行步骤一中的图像拼接和步骤二的站立人物检测操作;
步骤三,根据步骤二检测到的站立人物位置结合人体结构先验知识预测人手可能出现的区域,使用预先训练好的手势分类器在人手可能出现的区域内采用滑动窗口搜索单手握拳手势;如果检测到站立人物做出握拳手势,则将检测到的人手位置信息和站立人物位置信息存储下来,然后继续执行步骤四,否则继续获取下一帧视频图像,从步骤一的图像获取和图像拼接开始执行;
步骤四,获取接下来的5帧视频图像,采用粒子滤波方法跟踪步骤三中检测到的站立人物,然后根据跟踪到的站立人物位置和人体结构的先验知识估计人手可能出现的区域,在估计的人手可能出现区域内检测每帧图像中是否存在单手伸出食指手势,如果这5帧视频中出现过单手伸出食指手势则做出此手势的人物获得多媒体设备的控制权限,进入步骤五,如果没有则获取下一帧视频,从步骤一开始执行;
步骤五,计算人手的相对位移,设视频图片的宽度和高度分别为H1和W1,显示画面的宽度和高度分别为H2和W2,则如果人手在图片中的位置为(x1,y1),那么在显示画面中的位置为根据以上方法用单手伸出食指手势移动驱动光标移动;另外一只手做握拳手势为左键单击命令,做伸出食指手势为右键单击操作;此外若当前控制设备的人员放下双手及坐下后设备的控制权限会自动消除;程序会继续获取视频图像,从步骤一开始执行;在有人员用手势控制设备的同时也会检测是否有其他人站立和做出单手伸出食指手势,如果有则当前人员放下双手,这个人员就能通过手势控制设备;
其中,步骤二中提到的“聚类通道特征”其特征图像和特征向量的计算过程如下:
首先,将图像的颜色空间从RGB转换成LUV,再将转换后图像的像素范围从0到255归一化到0到1,分别计算每个像素点L、U、V三个通道图像的梯度幅值,取三通道梯度幅值最大值为这个像素点的梯度值,像素点梯度方向的取值方法相同;然后,取纵向的两个像素点为一位,把每位在每个方向的投影作为每个方向分量的值,将6分量的方向直方图分解成6幅特征图像,这6个特征图像的大小为原图大小的1/2;最后,将得到的LUV空间的三个通道图像和梯度幅值图像大小缩小成原图的1/2,并将这10幅图像组合成一幅特征图像,设原图像的大小为m×n×3,则生成的特征图像大小为再将特征图像中所有像素点从上到下、从左向右展开成一个维度为的列向量,就是所谓的聚类特征向量。
2.根据权利要求1所述的一种利用手势控制多媒体设备的方法,其特征在于:在步骤三中所述的“预测人手可能出现的区域”的计算过程为:假设步骤二检测到的站立人物的位置为(x,y,w,h),其中x和y表示检测到矩形的左上角点坐标,w和h为矩形的高度和宽度;然后,根据人体的先验知识设定人手可能出现的区域为(x-h,y-h,3w,h)。
3.根据权利要求1所述的一种利用手势控制多媒体设备的方法,其特征在于:在步骤四中所述的“采用粒子滤波方法跟踪步骤三中检测到的站立人物”的具体过程为:首先,截取步骤三中检测到的站立人物图片,建立站立人物图片的粒子滤波跟踪模板;然后,获取下一帧视频,跟踪站立人物位置,按照步骤三中方法预测人手可能出现的区域,在人手可能出现区域中使用预先训练好的单手伸出食指手势分类器检测此手势;更新粒子滤波模板,获取下一帧视频,重复以上跟踪步骤,直到5帧视频后结束或者中途跟踪的目标丢失,则放弃此目标;如果图片中有多个人物目标,则先做出单手伸出食指操作的人物获得多媒体设备的控制权限。
CN201610289016.8A 2016-05-04 2016-05-04 一种利用手势控制多媒体设备的方法 Expired - Fee Related CN106022211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610289016.8A CN106022211B (zh) 2016-05-04 2016-05-04 一种利用手势控制多媒体设备的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610289016.8A CN106022211B (zh) 2016-05-04 2016-05-04 一种利用手势控制多媒体设备的方法

Publications (2)

Publication Number Publication Date
CN106022211A CN106022211A (zh) 2016-10-12
CN106022211B true CN106022211B (zh) 2019-06-28

Family

ID=57081642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610289016.8A Expired - Fee Related CN106022211B (zh) 2016-05-04 2016-05-04 一种利用手势控制多媒体设备的方法

Country Status (1)

Country Link
CN (1) CN106022211B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480652A (zh) * 2017-08-29 2017-12-15 北京恒信彩虹科技有限公司 一种手势检测方法及设备
CN108563981B (zh) * 2017-12-31 2022-04-15 广景视睿科技(深圳)有限公司 一种基于投影机和摄相机的手势识别方法和装置
CN109542219B (zh) * 2018-10-22 2021-07-30 广东精标科技股份有限公司 一种应用于智能教室的手势交互系统及方法
CN109871123B (zh) * 2019-01-21 2022-08-16 广东精标科技股份有限公司 一种基于手势或眼神控制的教学方法
CN111310859A (zh) * 2020-03-26 2020-06-19 上海景和国际展览有限公司 一种用于多媒体展示中的快速人工智能数据训练系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344816A (zh) * 2008-08-15 2009-01-14 华南理工大学 基于视线跟踪和手势识别的人机交互方法及装置
CN101661329A (zh) * 2009-09-22 2010-03-03 北京中星微电子有限公司 智能终端的操作控制方法及装置
CN102055925A (zh) * 2009-11-06 2011-05-11 康佳集团股份有限公司 支持手势遥控的电视机及其使用方法
CN102081918A (zh) * 2010-09-28 2011-06-01 北京大学深圳研究生院 一种视频图像显示控制方法及视频图像显示器
CN102662464A (zh) * 2012-03-26 2012-09-12 华南理工大学 一种手势漫游控制系统的手势控制方法
CN102799271A (zh) * 2012-07-02 2012-11-28 Tcl集团股份有限公司 一种基于人手手势的交互命令识别方法及系统
CN102831404A (zh) * 2012-08-15 2012-12-19 深圳先进技术研究院 手势检测方法及系统
CN103376890A (zh) * 2012-04-16 2013-10-30 富士通株式会社 基于视觉的手势遥控系统
CN103530607A (zh) * 2013-09-30 2014-01-22 智慧城市系统服务(中国)有限公司 一种人手检测与识别的方法与装置
CN104375631A (zh) * 2013-10-22 2015-02-25 安徽寰智信息科技股份有限公司 一种基于移动终端的非接触式交互方法
CN104992171A (zh) * 2015-08-04 2015-10-21 易视腾科技有限公司 一种基于2d视频序列的手势识别及人机交互方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201123031A (en) * 2009-12-24 2011-07-01 Univ Nat Taiwan Science Tech Robot and method for recognizing human faces and gestures thereof
US9619035B2 (en) * 2011-03-04 2017-04-11 Microsoft Technology Licensing, Llc Gesture detection and recognition
US8873841B2 (en) * 2011-04-21 2014-10-28 Nokia Corporation Methods and apparatuses for facilitating gesture recognition

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344816A (zh) * 2008-08-15 2009-01-14 华南理工大学 基于视线跟踪和手势识别的人机交互方法及装置
CN101661329A (zh) * 2009-09-22 2010-03-03 北京中星微电子有限公司 智能终端的操作控制方法及装置
CN102055925A (zh) * 2009-11-06 2011-05-11 康佳集团股份有限公司 支持手势遥控的电视机及其使用方法
CN102081918A (zh) * 2010-09-28 2011-06-01 北京大学深圳研究生院 一种视频图像显示控制方法及视频图像显示器
CN102662464A (zh) * 2012-03-26 2012-09-12 华南理工大学 一种手势漫游控制系统的手势控制方法
CN103376890A (zh) * 2012-04-16 2013-10-30 富士通株式会社 基于视觉的手势遥控系统
CN102799271A (zh) * 2012-07-02 2012-11-28 Tcl集团股份有限公司 一种基于人手手势的交互命令识别方法及系统
CN102831404A (zh) * 2012-08-15 2012-12-19 深圳先进技术研究院 手势检测方法及系统
CN103530607A (zh) * 2013-09-30 2014-01-22 智慧城市系统服务(中国)有限公司 一种人手检测与识别的方法与装置
CN104375631A (zh) * 2013-10-22 2015-02-25 安徽寰智信息科技股份有限公司 一种基于移动终端的非接触式交互方法
CN104992171A (zh) * 2015-08-04 2015-10-21 易视腾科技有限公司 一种基于2d视频序列的手势识别及人机交互方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Real time Finger Tracking and Contour Detection for Gesture Recognition using OpenCV》;Ruchi Manish Gurav等;《2015 International Conference on Industrial Instrumentation and Control (ICIC)》;20150530;第974-977页
《基于Kinect的手势识别算法研究及应用》;吴晓雨等;《计算机应用与软件》;20150731;第32卷(第7期);第173-177页

Also Published As

Publication number Publication date
CN106022211A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106022211B (zh) 一种利用手势控制多媒体设备的方法
CN103716594B (zh) 基于运动目标检测的全景拼接联动方法及装置
CN106845357B (zh) 一种基于多通道网络的视频人脸检测和识别方法
CN103905733B (zh) 一种单目摄像头对人脸实时跟踪的方法及系统
CN109657553B (zh) 一种学生课堂注意力检测方法
CN106874884B (zh) 基于部位分割的人体再识别方法
CN104778690B (zh) 一种基于摄像机网络的多目标定位方法
CN103997624B (zh) 重叠域双摄像头目标跟踪系统及方法
US8639020B1 (en) Method and system for modeling subjects from a depth map
CN103677274B (zh) 一种基于主动视觉的互动投影方法及系统
CN110929596A (zh) 一种基于智能手机和人工智能的投篮训练系统与方法
CN110142785A (zh) 一种基于目标检测的巡检机器人视觉伺服方法
CN109284737A (zh) 一种用于智慧教室的学生行为分析和识别系统
CN110837784A (zh) 一种基于人体头部特征的考场偷窥作弊检测系统
CN106355147A (zh) 一种活体人脸检测头部姿态回归器的获取方法及检测方法
JP2015216635A5 (zh)
CN104090664B (zh) 一种交互式投影方法、装置及系统
WO2012117392A1 (en) Device, system and method for determining compliance with an instruction by a figure in an image
CN113762133A (zh) 基于人体姿态识别的自重健身辅助教练系统、方法、终端
CN108921881A (zh) 一种基于单应性约束的跨摄像头目标跟踪方法
CN105898107A (zh) 一种目标物体抓拍方法及系统
JP7422456B2 (ja) 画像処理装置、画像処理方法及びプログラム
Xu et al. Integrated approach of skin-color detection and depth information for hand and face localization
JP2022542566A (ja) オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラム
CN109117753A (zh) 部位识别方法、装置、终端及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190628

CF01 Termination of patent right due to non-payment of annual fee