CN101763515B - 一种基于计算机视觉的实时手势交互方法 - Google Patents
一种基于计算机视觉的实时手势交互方法 Download PDFInfo
- Publication number
- CN101763515B CN101763515B CN2009100938904A CN200910093890A CN101763515B CN 101763515 B CN101763515 B CN 101763515B CN 2009100938904 A CN2009100938904 A CN 2009100938904A CN 200910093890 A CN200910093890 A CN 200910093890A CN 101763515 B CN101763515 B CN 101763515B
- Authority
- CN
- China
- Prior art keywords
- gesture
- staff
- profile
- track
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000003993 interaction Effects 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 9
- 238000013519 translation Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 230000000977 initiatory effect Effects 0.000 claims description 5
- 241001211987 Barea Species 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000009833 condensation Methods 0.000 claims description 3
- 230000005494 condensation Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 abstract description 8
- 230000002452 interceptive effect Effects 0.000 abstract description 6
- 230000005540 biological transmission Effects 0.000 abstract 1
- 239000002245 particle Substances 0.000 description 20
- 210000003811 finger Anatomy 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 210000004932 little finger Anatomy 0.000 description 3
- 241001290610 Abildgaardia Species 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 235000007926 Craterellus fallax Nutrition 0.000 description 1
- 240000007175 Datura inoxia Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 210000005224 forefinger Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 102000030938 small GTPase Human genes 0.000 description 1
- 108060007624 small GTPase Proteins 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开一种基于计算机视觉的实时手势交互方法,包括:从图像输入设备获取数字图像;通过统计学习方法进行人手的检测;根据检测结果对人手轮廓跟踪器进行初始化,并计算特定人手的肤色模型;通过条件概率密度传播算法和启发式搜索技术相结合的方法对人手轮廓进行跟踪;通过隐马尔科夫模型对人手运动轨迹进行分析,得到手势识别结果;将手势分析的结果用于各种应用程序的交互。本发明实时手势交互方法扩展了传统的鼠标键盘交互方式,利用计算机视觉与图像处理技术实现了自动的人手检测、跟踪与手势识别,实时、鲁棒、易于实现和操作,能使计算机用户通过手部姿态与计算机进行更自然、更直观、更智能的交互。
Description
技术领域
本发明涉及图像分析与识别技术领域,特别是基于手势的交互方法。
背景技术
近年来,随着软硬件技术的飞速发展,社会的信息化程度获得了前所未有的提高,计算机已逐渐在人们生活的方方面面得到了广泛应用,人机交互方式因而成为一个越来越重要的问题。从最开始的文本交互方式到后来以鼠标键盘为主要工具的图形用户界面,人机交互一直在朝着友好易用的方向不断发展。
传统的交互方式尽管有着很多优点,但依然不够自然,并且限制了人机交互的速度,对于低文化人群和残疾人群更是如此。基于计算机视觉的手势交互技术具有友好、方便、简洁直观等特点,是传统人机交互方式的一种自然扩充,在计算机游戏控制、智能家电控制、虚拟现实、智能轮椅控制等方面有着广泛的应用,因而有着重要的实用价值。
发明内容
本发明目的是一种基于计算机视觉的实时手势交互方法,通过利用图像分析技术对用户手势动作所包含的语义信息进行理解,达到与计算机进行自然交互的目的,是对键盘鼠标所代表的传统交互方式的扩展。
为了实现上述目的,本发明提出的技术方案是一种基于计算机视觉的实时手势交互方法,其步骤包括:
步骤S1:通过统计方法学习人手目标样本,得到级联结构的分类器;
步骤S2:通过统计方法学习预定义手势的样本,得到各手势的隐马尔科夫模型;
步骤S3:通过图像输入设备实时采集视频图像,如果手势当前已经开始,则执行步骤S8;否则执行步骤S4;
步骤S4:利用级联结构的分类器在输入的视频图像上进行人手检测,如果检测成功,则执行步骤S5;如果检测不成功,则执行步骤S3;
步骤S5:利用人手在图像中的位置,判断手势是否开始,如果手势开始,执行步骤S6,如果没开始手势,执行步骤S3;
步骤S6:根据人手在图像中的位置初始化人手轮廓跟踪算法,得到初始人手轮廓;
步骤S7:根据初始人手轮廓建立人手的肤色模型,返回步骤S3;
步骤S8:利用轮廓跟踪算法跟踪视频图像中人手轮廓,得到视频图像中的人手轮廓状态及手势轨迹;
步骤S9:根据人手轮廓状态及手势轨迹,判断手势是否终止,如果有握手动作发生则手势终止,则执行步骤S10,如果没有握手动作发生但跟踪时间超过预先选定的时间阈值,则认为手势终止,执行步骤S10;如果没有握手动作发生且跟踪时间小于预先选定的时间阈值,则手势没有终止,执行步骤S3;
步骤S10:利用隐马尔科夫模型,对手势轨迹进行识别,得到手势的识别结果;
步骤S11:将手势识别结果用于具体应用。
本发明的有益效果:通过用户的手势信息与计算机进行交互,就是以用户的手部运动信息作为传统的键盘鼠标交互方式的补充,来丰富人机交互的方式。它仅通过摄像头实时获取含有用户手部的图像,在计算机中进行手部运动信息的分析,并将分析结果转化为应用程序的控制指令,实现与计算机的自然交互,有效扩展了传统的人机交互方式。本发明包括人手检测、跟踪与手势识别技术以及一个综合利用三种技术的完整系统,三种技术及其综合应用系统都能在自然背景下达到实时稳定的效果。人手检测创造性的将方向梯度直方图(HOG)特征和Adaboost算法相结合,可以准确获取图像中人手的位置,基于轮廓的人手跟踪算法创造性的综合了条件概率密度传播(Condensation)和启发式扫描技术,可以准确得到每一帧图像里人手的状态,包括位置、大小、旋转角度以及各手指的长度和角度,手势识别能分析人手运动轨迹包含的语义信息。人手检测和跟踪均可以分别单独作为一种方式应用于人机交互,而三种技术相结合可以构造一个完全自动的手势交互系统,能够表达更为丰富的语义信息。随着软硬件技术的快速发展,计算机视觉技术逐渐成熟,摄像头也已经成为计算机的常用配置,应用视觉技术进行自然的人机交互已经成为可能,本发明可以广泛应用于计算机游戏控制、智能家电控制、虚拟现实、智能轮椅控制、广泛应用于数字娱乐、数字教育等方面。
附图说明
图1为本发明实施例基于手势的交互方法流程图。
图2为采用本发明实施例HOG特征结构。
图3为本发明实施例人手分类器级联结构。
图4为本发明实施例人手轮廓模板。
图5a和图5b为本发明实施例条件概率密度传播算法所用度量模型。
图6a和图6b为本发明实施例构造肤色模型所用前景及背景模板。
具体实施方式
下面对本发明加以详细说明,应指出的是,所描述的实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,示意本发明集成了人手检测、跟踪和手势识别的实时手势交互方法流程图,它提供了应用本发明所阐述的人手检测、跟踪和手势识别技术进行人机交互的一种可能方式。需要注意的是,本发明所阐述的人手检测、人手跟踪方法均可单独作为一种人机交互方式应用于游戏控制、家电控制等方面。
本发明实现方法需要的硬件为计算机及图像采集设备。
所述的人手检测是指通过视觉算法在图像中自动确定包围人手的一个较小矩形框;所述人手跟踪是指在视频序列中计算出每帧的人手轮廓状态,包括位置、旋转角、放缩量以及各个手指的长度和角度;所述手势识别是指对用户完成某个预定义手势的轨迹进行分类,确定用户完成的是哪个手势。手势是否开始的判断依据是在连续20帧的人手检测结果里,有超过12帧检测到人手处于同一个位置。
关键技术的实现细节:
一、本发明所述的人手检测是采用方向梯度直方图(HOG)特征,通过基于Adaboost的统计学习方法来实现的。
HOG特征主要是将图像梯度在各个不同方向上进行投影,然后对某个局部区域的方向梯度投影加以统计分析,对轮廓具有一定规律的物体有着很好的描述能力。
一个HOG特征定义如下,假设用C(xc,yc,wc,hc)表示图像中某个方格(cell)的位置以及大小,其中(xc,yc)指方格(cell)左上角的图像坐标,wc和hc指方格(cell)的宽度和高度,将方格(cell)C(xc,yc,wc,hc)所属的一个图像块(block)记为B(xb,yb,wb,hb),其中(xb,yb)指图像块(block)左上角的图像坐标,wb和hb指图像块(block)的宽度和高度。将[0,2π]等分为N个角度区间bink,用bink记其中的第k个角度区间,则一个HOG特征就是C、B和k的函数,将该HOG特征记为f(C,B,k),C和B分别就是C(xc,yc,wc,hc)和B(xb,yb,wb,hb)。图像I在坐标(x,y)处的梯度(Gx,Gy)用如下卷积定义:
Gx(x,y)=[-101]*I(x,y),Gy(x,y)=[-101]T*I(x,y)
梯度的大小G(x,y)和方向θ(x,y)为:
定义梯度(Gx,Gy)在角度区间bink的投影ψk(x,y)如下:
利用这些式子,定义HOG特征如下,其中ε代表一个很小的正数,防止分母为0的情况,图2示意了几类常见的HOG特征。
为加速特征的计算,定义如下积分图:
IGk(x,y)表示一个积分图像的定义式,IG(x,y)表示另一个积分图像的定义式。
利用积分图,可以简化HOG特征的分子和分母如下:
图像块(Block)、方格(cell)的不同位置和尺寸以及不同的投影角度范围,对应着不同的方向梯度直方图(HOG)特征,对于一幅训练图像,如果不对这些参数加以限制,那么可用的特征数目将是非常巨大的,这其中的很多图像块(block)相互间有着较大面积的重叠,为了减少特征数目从而降低冗余,需要对特征的参数加以限制。我们给出如下一些约束来减少特征的冗余,首先,图像块(block)的最小宽度和高度分别为wmin=8和hmin=8,其长宽比例限制为1∶2、1∶1和2∶1。其次,在对样本图像进行扫描时,图像块(block)移动的步长为较短边的0.5倍,图像块(block),尺寸的放缩因子sc=1.2。另外将角度区间数目取为N=9。根据人手的平均长宽比例,将训练图像大小取为48×56。
用于学习人手模式的统计学习方法是Adaboost算法。
Adaboost算法是在人脸检测中应用极其广泛的一种成熟算法,它通过调用弱学习器不断学习训练样本中难学习的样本,从而达到较高的泛化精度。Adaboost算法的主要过程是:首先给定训练样本集合,然后对该样本集合进行循环操作,每次循环用所选特征训练得到一个弱分类器,然后计算该假设的错误率,根据该错误率改变每个例子的权重进入下一个循环,若干个弱分类级联组成一个强分类器。最终的分类器由一系列相似的强分类器级联而成,分类器的分类能力随着级联结构中强分类器的数目增加而增加,如图3所示其中1、2……M为级联起来的各个强分类器,T表示候选区域被某个强分类器接受(即认为是人手区域),F表示候选区域被强分类器拒绝,是被排除了的候选区域,即认为是非人手区域。只有候选区域被所有强分类器接受才认为它是真正的人手区域,只要某一个强分类器拒绝,即认为它是非人手区域。
学习人手目标样本的步骤包括:步骤S1a:利用视频图像采集大量的人手样本和非人手样本,并进行归一化处理,获得归一化样本;步骤S1b:取归一化样本的方向梯度直方图(HOG)特征作为训练特征,采用Adaboost算法训练得到级联结构的分类器。
二、本发明所述的手势识别通过隐马尔科夫模型实现。
所述手势样本学习的步骤包括:
步骤21:根据应用需要预定义动态手势集合;
步骤22:通过人手轮廓跟踪,采集大量预定义动态手势样本;
步骤23:去除预定义动态手势样本中的异常样本;
步骤25:对预定义动态手势样本轨迹进行预处理,去掉密集点,得到预处理后的样本轨迹;
步骤26:取预处理后的样本轨迹的方向编码作为特征,采用Baum-Welch算法训练得到每类手势的隐马尔科夫模型。
步骤23所述异常样本包括跟踪实效时采集到的样本,以及同预定义手势相差过大的样本。
步骤25所述预处理过程如下:依次计算轨迹中相邻两个点之间的距离,若小于某个经验阈值,则去掉后面那个点,多次重复这个过程直至不再有任何点被去掉。这里阈值根据所有相邻点间的平均距离设定,比如可以取为平均距离的1/4。
步骤26所述方向编码特征是指,首先将[0,2π]等分为M个区间,并按逆时针顺序给每个区间一个序号,然后计算手势轨迹中每对相邻点连线的倾斜角,将这个角度映射到前述M个角度区间对应的编号,这样就将手势轨迹变换为一个编号序列,即方向编码特征。
本发明所述手势识别的步骤包括:
步骤101:对从轮廓跟踪获得的手势轨迹进行预处理去除密集点,获得预处理轨迹;
步骤102:对预处理后的轨迹提取方向编码特征,对特征归一化;
步骤103:采用前向递推算法计算步骤102得到的特征对应于步骤2得到的各类手势模型的概率,取概率最大者为识别结果。
三、本发明所述人手轮廓跟踪采用条件概率密度传播和启发式扫描技术相结合的方法实现,所述轮廓跟踪算法的步骤如下:
步骤81:采用条件概率密度传播(Condensation)算法跟踪轮廓的平移、旋转和放缩运动分量,得到若干候选轮廓,这些候选轮廓关于手指的状态分量还未确定;
步骤82:对每个确定了平移、旋转及放缩运动分量的候选轮廓,逐步调整每个手指的长度和角度,得到各个轮廓的手指运动状态分量,从而产生所有状态分量都确定的最终的候选轮廓;
步骤83:从最终的所有候选轮廓中产生一个轮廓作为跟踪结果。
具体实施过程如下:
人手轮廓采用B样条曲线建模,如图4所示。
人手轮廓的运动状态向量如下:
χ=(tx,ty,α,s,θL,lL,θR,lR,θM,lM,θI,lI,θTh1,θTh2)
子向量(tx,ty,α,s)描述了轮廓的刚体运动,其中(tx,ty)是掌心的图像坐标,也可以理解为相对于模板轮廓的平移运动,α表示整个轮廓绕着掌心的面内旋转角,s表示相对于模板轮廓的放缩量。子向量(θL,lL)表示小指的运动状态,其中θL表示小指绕其轴点的旋转角,lL表示小指相对于模板在轴向上的伸缩量。子向量(θR,lR),(θM,lM),(θI,lI)意义类似,分别对应于无名指、中指和食指。分量θTh1和θTh2分别表示大拇指第一关节和第二关节绕各自轴点的旋转角度。
本发明所述跟踪算法将人手轮廓的运动分解看待,首先是整体的运动,包括平移、旋转和缩放,由(tx,ty,α,s)描述,这一部分通过条件概率密度传播算法进行跟踪。然后再在完成整体运动的基础上确定各个手指的运动分量,由状态向量的后10维分别描述,这一部分通过启发式扫描的方法实现。
条件概率密度传播算法是粒子滤波思想在跟踪中应用,它利用加权粒子集描述待跟踪目标状态的后验概率分布,通过预测和度量两个阶段更新每帧的粒子集。设t-1时刻的加权粒子集(描述了t-1时刻状态的后验概率分布)为{(xi (t-1),πi (t-1)),i=1,2,3,...,N},其中N为粒子数目,(xi (t-1),πi (t-1))表示第i个粒子的状态值和权重,为得到t时刻的加权粒子集,首先根据t-1时刻的粒子状态集预测t时刻的状态集,然后再利用观测模型对所有的新状态进行度量以得到其权重。
预测过程包含重采样和状态运动。重采样是指对t-1时刻的粒子状态按一定策略进行复制得到N个状态的过程,该过程应该保证不改变粒子集的分布。通常采用累积概率来实现重采样,首先计算t-1时刻所有粒子的累积概率,然后随机产生一个[0,1]之间的数,找到恰好刚刚大于这个随机数的累积概率的位置,然后复制一个这个位置的粒子状态,直到得到N个状态为止。利用这种方法,原来权重很大的那些粒子状态将会被复制多份,原来权重很小的粒子状态很可能不会再出现,从而保持了粒子集的分布。接下来要根据对重采样的得到的状态集进行运动,运动模型通常是二阶线性自回归过程,它将t时刻的状态表示为前两时刻状态的线性组合再加上一个随机高斯噪声,
xt=A2xt-2+A1xt-1+Bwt
其中,A1和A2是常量矩阵,描述了状态的确定性运动,B也是常量矩阵,描述了随机运动部分,wt是由独立的标准正态分布随机变量组成的向量。由于可以假设状态向量的各个分量是独立的,因而矩阵A1、A2和B可以设为对角阵,这样每个分量的运动实际上相当于一个独立的一维谐振器,例如描述x方向平移运动的谐振器表示为,
a1=2×exp(-βτ)×cos(2πfτ),a2=-exp(-2βτ)
式中参数β是谐振运动的衰减因子,f称为自然频率,ρ称为平均均方根位移(root-mean-square average displacement),τ是以秒为单位的时间步长(帧率为25时τ=(1/25)s)。
通过预测得到了一系列新的状态,它们并没有权重,需要根据观测模型及图像信息对每个状态赋予权重,这是度量阶段的任务。在此阶段,采用的度量方法是,对于每个候选状态对应的轮廓曲线,首先在该曲线上取若干度量点并作关于度量点对称的法线段,然后对每条法线上的像素进行处理以寻找图像边界特征和肤色边界特征,每个找到的特征都会对粒子的最终权重产生一定贡献。每个特征对于粒子权重的贡献采用一个中心位于度量点的单高斯模型描述,图5a示意候选轮廓上的度量法线,图5b示意了描述每条度量法线上特征分布的高斯模型。为了加快速度,将所采用的高斯模型制成查找表,这样通过查表代替直接的计算(包含指数运算)可以大大提高度量速度。对于度量线上的特征,主要选择肤色边界和图像边界,肤色的判断采用后面介绍的线性肤色分类器。这两类信息是分开利用的,对每条度量法线i,会根据肤色边界特征得到一个分数SSkin(i),根据图像边界特征得到另一个分数SEdge(i),然后将这两个分数加权求和作为该度量法线的分数S(i):
S(i)=t×SSkin(i)+(1-t)×SEdge(i)
考虑到肤色是人手显著的特征,而图像边界不仅人手有,而且也大量出现在背景中,所以给予肤色特征更大的权重,根据实验,t取0.75效果较好。
在对状态向量前4维分量运用条件概率密度传播算法后,得到了一系列候选轮廓,再采用启发式扫描的方法确定每个候选轮廓的手指状态。具体实施过程如下,对于每个候选轮廓,选定某个手指,以固定步长递增或递减其角度,选使得手指轮廓度量值最大的作为结果,在确定角度后,再以固定步长递增或递减手指的长度,选使得度量值最大的作为结果,采用同样的方式确定其余手指的状态。通过启发式扫描的方式就确定了所有候选轮廓的手指运动分量。最终的跟踪结果是权重最大的轮廓。
四、本发明所述跟踪初始化是完全自动的,方法如下:
设人手检测得到的矩形框由(x0,y0,w0,h0,α0)表示,其中(x0,y0)为矩形框中心的坐标,w0、h0为其宽度和高度,α0表示对应图像的旋转角,也就是人手的倾斜角。设图4所示轮廓模板的包围框面积大小为S0,那么可以近似认为人手轮廓的初始状态为:
对于本发明所述跟踪算法,初始化就是要生成第一帧的粒子集,可以通过如下方法实现,首先从χ0产生N个新的状态,每个状态的前四维通过对χ0的前4个分量添加高斯噪声扰动得到,其余的分量不变,然后通过稍前的启发式扫描方法确定各状态向量关于手指状态的分量(即后10维分量),并度量获取整个状态的权重。这样,根据人手检测的结果,自动确定了第一帧的加权粒子集,将权重最大的粒子取为跟踪结果,完成跟踪初始化。
五、本发明所述建立人手肤色模型的步骤包括:
步骤71:定义如下线性肤色分类器:
BGhmin·G+BRmin·R<B<BGhmax·G+BRmax·R,
BGvmin·B+GRmin·R<G<BGvmax·B+GRmax·R,
其中BGhmin,BRmin,BGhmax,BRmax,BGvmin,GRmin,BGvmax,GRmax是分类器的参数,R,G,B表示像素的RGB颜色分量。
步骤72:根据跟踪初始化得到的人手轮廓建立前景图像背景图像;
步骤73:利用前景图像与背景图像定义如下优化目标F:
F=k·FSkinArea/FArea-BSkinArea/BArea
FSkinArea=前景图像里肤色像素数目
FArea=前景图像里非零像素数目
BSkinArea=背景图像里肤色像素数目
BArea=背景图像里非零像素数目
k是一个大于1的常量,根据经验选取为2;
步骤74:逐步调整BGhmin,BRmin,BGhmax,BRmax,BGvmin,GRmin,BGvmax,GRmax,使得步骤73定义的目标F达到最大值,得到线性肤色分类器的最优参数。
步骤72所述的前景图像及背景图像构造过程如下,首先利用跟踪初始化得到的轮廓曲线构造两个模板,如图6a和图6b所示。图6a所示肤色模板是轮廓曲线的控制多边形所围区域,图6b所示背景模板基本与肤色模板互补,为了更好的去掉人手及手臂区域,从手掌末端引出了两条射线并将控制多边形稍微向外围扩大了一些。接下来将两个模板分别与初始图像进行“与”操作,得到前景图像及背景图像。
上面的描述是用于实现本发明及其实施例,因此,本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求所限定的范围。
Claims (7)
1.一种基于计算机视觉的实时手势交互方法,其特征在于,包括如下步骤:
步骤S1:通过统计方法学习人手目标样本,得到级联结构的分类器;
步骤S2:通过统计方法学习预定义手势的样本,得到各手势的隐马尔科夫模型;
步骤S3:通过图像输入设备实时采集视频图像,如果手势当前已经开始,则执行步骤S8;否则执行步骤S4;
步骤S4:利用级联结构的分类器在输入的视频图像上进行人手检测,如果检测成功,则执行步骤S5;如果检测不成功,则执行步骤S3;
步骤S5:利用人手在图像中的位置,判断手势是否开始,如果手势开始,执行步骤S6,如果没开始手势,执行步骤S3;
步骤S6:根据人手在图像中的位置初始化人手轮廓跟踪算法,得到初始人手轮廓;
步骤S7:根据初始人手轮廓建立人手的肤色模型,返回步骤S3;
步骤S8:利用轮廓跟踪算法跟踪视频图像中人手轮廓,得到视频图像中的人手轮廓状态及手势轨迹;
步骤S9:根据人手轮廓状态及手势轨迹,判断手势是否终止,如果有握手动作发生则手势终止,则执行步骤S10,如果没有握手动作发生但跟踪时间超过预先选定的时间阈值,则认为手势终止,执行步骤S10;如果没有握手动作发生且跟踪时间小于预先选定的时间阈值,则手势没有终止,执行步骤S3;
步骤S10:利用隐马尔科夫模型,对手势轨迹进行识别,得到手势的识别结果;
步骤S11:将手势识别结果用于具体应用;
所述学习人手目标样本的步骤包括:
步骤S1a:利用视频图像采集大量的人手样本和非人手样本,并进行归一化处理,获得归一化样本;
步骤S1b:取归一化样本的方向梯度直方图(HOG)特征作为训练特征,采用Adaboost算法训练得到级联结构的分类器。
2.根据权利要求1所述的实时手势交互方法,其特征在于:所述学习手势样本的步骤包括:
步骤21:根据应用需要预定义动态手势集合;
步骤22:通过人手轮廓跟踪,采集大量预定义动态手势样本;
步骤23:去除预定义动态手势样本中的异常样本;
步骤25:对预定义动态手势样本轨迹进行预处理,去掉密集点,得到预处理后的样本轨迹;
步骤26:取预处理后的样本轨迹的方向编码作为特征,采用Baum-Welch算法训练得到每类手势的隐马尔科夫模型。
3.根据权利要求1所述的实时手势交互方法,其特征在于:采用方向梯度直方图特征,通过Adaboost算法实现人手检测。
4.根据权利要求1所述的实时手势交互方法,其特征在于:所述手势是否开始的判断依据是在连续20帧的人手检测结果里,有超过12帧检测到人手处于同一个位置。
5.根据权利要求1所述的实时手势交互方法,其特征在于:所述建立人手肤色模型的步骤包括:
步骤71:定义如下线性肤色分类器:
BGhmin·G+BRmin·R<B<BGhmax·G+BRmax·R,
BGvmin·B+GRmin·R<G<BGvmax·B+GRmax·R,
其中BGhmin,BRmin,BGhmax,BRmax,BGvmin,GRmin,BGvmax,GRmax是分类器的参数,R,G,B表示像素的RGB颜色分量;
步骤72:根据跟踪初始化得到的人手轮廓建立前景图像和背景图像;
步骤73:利用前景图像与背景图像定义如下优化目标F:
F=k·FSkinArea/FArea-BSkinArea/BArea
FSkinArea=前景图像里肤色像素数目
FArea=前景图像里非零像素数目
BSkinArea=背景图像里肤色像素数目
BArea=背景图像里非零像素数目
k是一个大于1的常量;
步骤74:逐步调整BGhmin,BRmin,BGhmax,BRmax,BGvmin,GRmin,BGvmax,GRmax,使得定义的优化目标F达到最大值,得到线性肤色分类器的最优参数。
6.根据权利要求1所述的实时手势交互方法,其特征在于:所述轮廓跟踪算法的步骤包括:
步骤81:采用条件概率密度传播(Condensation)算法跟踪轮廓的平移、旋转和放缩运动分量,得到若干候选轮廓,这些候选轮廓关于手指的状态分量还未确定;
步骤82:对每个确定了平移、旋转及放缩运动分量的候选轮廓,逐步调整每个手指的长度和角度,得到各个轮廓的手指运动状态分量,从而产生所有状态分量都确定的最终的候选轮廓;
步骤83:从最终的所有候选轮廓中产生一个轮廓作为跟踪结果。
7.根据权利要求1所述的实时手势交互方法,其特征在于:所述手势识别的步骤包括:
步骤101:对从轮廓跟踪获得的手势轨迹进行预处理去除密集点,获得预处理轨迹;
步骤102:对预处理后的轨迹提取方向编码特征,对特征归一化;
步骤103:采用前向递推算法计算归一化特征对应于各类手势模型的概率,取概率最大者为识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100938904A CN101763515B (zh) | 2009-09-23 | 2009-09-23 | 一种基于计算机视觉的实时手势交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100938904A CN101763515B (zh) | 2009-09-23 | 2009-09-23 | 一种基于计算机视觉的实时手势交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101763515A CN101763515A (zh) | 2010-06-30 |
CN101763515B true CN101763515B (zh) | 2012-03-21 |
Family
ID=42494671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100938904A Expired - Fee Related CN101763515B (zh) | 2009-09-23 | 2009-09-23 | 一种基于计算机视觉的实时手势交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101763515B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3702956A4 (en) * | 2017-10-24 | 2021-08-11 | BOE Technology Group Co., Ltd. | GESTURE RECOGNITION METHOD, GESTURE PROCESSING DEVICE AND COMPUTER-READABLE STORAGE MEDIUM |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402276A (zh) * | 2010-09-13 | 2012-04-04 | 大同股份有限公司 | 可实时辨识非特定手势的嵌入式装置及其辨识方法 |
KR101298024B1 (ko) * | 2010-09-17 | 2013-08-26 | 엘지디스플레이 주식회사 | 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치 |
KR101298023B1 (ko) * | 2010-09-17 | 2013-08-26 | 엘지디스플레이 주식회사 | 사용자 동적 기관 제스처 인식 방법 및 인터페이스와, 이를 사용하는 전기 사용 장치 |
US9323337B2 (en) | 2010-12-29 | 2016-04-26 | Thomson Licensing | System and method for gesture recognition |
KR101620933B1 (ko) * | 2010-12-31 | 2016-05-13 | 노키아 테크놀로지스 오와이 | 제스쳐 인식 메커니즘을 제공하는 방법 및 장치 |
WO2013122586A2 (en) * | 2012-02-15 | 2013-08-22 | Intel Corporation | Automated perceptual quality assessment of touch screen devices |
WO2013063767A1 (en) * | 2011-11-01 | 2013-05-10 | Intel Corporation | Dynamic gesture based short-range human-machine interaction |
CN102426480A (zh) * | 2011-11-03 | 2012-04-25 | 康佳集团股份有限公司 | 一种人机交互系统及其实时手势跟踪处理方法 |
CN102402289B (zh) * | 2011-11-22 | 2014-09-10 | 华南理工大学 | 一种基于机器视觉的手势鼠标识别方法 |
CN103135755B (zh) * | 2011-12-02 | 2016-04-06 | 深圳泰山在线科技有限公司 | 交互系统及方法 |
CN102592112B (zh) * | 2011-12-20 | 2014-01-29 | 四川长虹电器股份有限公司 | 基于隐马尔科夫模型判断手势运动方向的方法 |
CN102521579B (zh) * | 2011-12-21 | 2014-06-25 | Tcl集团股份有限公司 | 一种基于二维平面摄像头推的动作识别方法及系统 |
CN102662460B (zh) * | 2012-03-05 | 2015-04-15 | 清华大学 | 移动终端的非接触式控制装置及其控制方法 |
CN102722239A (zh) * | 2012-05-17 | 2012-10-10 | 上海冠勇信息科技有限公司 | 移动设备的非接触式控制方法 |
CN102789568B (zh) * | 2012-07-13 | 2015-03-25 | 浙江捷尚视觉科技股份有限公司 | 一种基于深度信息的手势识别方法 |
CN102981742A (zh) * | 2012-11-28 | 2013-03-20 | 无锡市爱福瑞科技发展有限公司 | 基于计算机视觉的手势交互系统 |
CN103971109A (zh) * | 2013-02-04 | 2014-08-06 | 佳能株式会社 | 用于提取特征以及用于识别轨迹的方法和设备 |
CN103139627A (zh) * | 2013-02-07 | 2013-06-05 | 上海集成电路研发中心有限公司 | 智能电视及其手势控制方法 |
CN104143075A (zh) * | 2013-05-08 | 2014-11-12 | 光宝科技股份有限公司 | 应用于电子装置的手势判断方法 |
CN104424634B (zh) * | 2013-08-23 | 2017-05-03 | 株式会社理光 | 对象跟踪方法和装置 |
CN103442177A (zh) * | 2013-08-30 | 2013-12-11 | 程治永 | 一种基于手势识别的ptz摄像机控制系统及方法 |
CN103530607B (zh) * | 2013-09-30 | 2016-11-09 | 深圳市中智科创机器人有限公司 | 一种人手检测与识别的方法与装置 |
CN104618566A (zh) * | 2013-11-04 | 2015-05-13 | 贵州广思信息网络有限公司 | 智能手机的控制方法 |
CN103745228B (zh) * | 2013-12-31 | 2017-01-11 | 清华大学 | 基于Fréchet距离的动态手势识别方法 |
CN104123570B (zh) * | 2014-07-22 | 2018-06-05 | 西安交通大学 | 基于共享弱分类器组合的人手分类器以及训练和检测方法 |
CN104123007B (zh) * | 2014-07-29 | 2017-01-11 | 电子科技大学 | 一种多维加权的3d动态手势识别方法 |
CN104268514A (zh) * | 2014-09-17 | 2015-01-07 | 西安交通大学 | 一种基于多特征融合的手势检测方法 |
US9898689B2 (en) * | 2014-11-06 | 2018-02-20 | Qualcomm Incorporated | Nonparametric model for detection of spatially diverse temporal patterns |
CN104731323B (zh) * | 2015-02-13 | 2017-07-04 | 北京航空航天大学 | 一种基于hog特征的多旋转方向svm模型的手势跟踪方法 |
CN104714642A (zh) * | 2015-03-02 | 2015-06-17 | 惠州Tcl移动通信有限公司 | 一种移动终端及其手势识别处理方法和系统 |
CN106325485B (zh) * | 2015-06-30 | 2019-09-10 | 芋头科技(杭州)有限公司 | 一种手势检测识别方法及系统 |
CN104992171A (zh) * | 2015-08-04 | 2015-10-21 | 易视腾科技有限公司 | 一种基于2d视频序列的手势识别及人机交互方法和系统 |
US10102423B2 (en) * | 2016-06-30 | 2018-10-16 | Snap Inc. | Object modeling and replacement in a video stream |
CN106227351A (zh) * | 2016-07-30 | 2016-12-14 | 深圳市光晕网络科技有限公司 | 一种车载设备的状态转换方法及装置 |
CN107015636A (zh) * | 2016-10-27 | 2017-08-04 | 蔚来汽车有限公司 | 虚拟现实头显设备手势控制方法 |
CN106657718B (zh) * | 2016-11-07 | 2019-12-06 | 金陵科技学院 | 实现虚拟现实的数据传送系统及其方法 |
CN108064006A (zh) * | 2018-02-11 | 2018-05-22 | 深圳市沃特沃德股份有限公司 | 智能音箱及播放控制方法 |
US10497179B2 (en) * | 2018-02-23 | 2019-12-03 | Hong Kong Applied Science and Technology Research Institute Company Limited | Apparatus and method for performing real object detection and control using a virtual reality head mounted display system |
CN110275628B (zh) * | 2019-06-26 | 2022-06-07 | 西南民族大学 | 一种基于机器视觉的机电式全自动鼠标操作装置 |
CN110308747B (zh) * | 2019-06-26 | 2022-05-31 | 西南民族大学 | 一种基于机器视觉的电子式全自动计算机操作装置 |
CN112383804A (zh) * | 2020-11-13 | 2021-02-19 | 四川长虹电器股份有限公司 | 一种基于空鼠轨迹的手势识别方法 |
CN113269075B (zh) * | 2021-05-19 | 2024-08-23 | 广州繁星互娱信息科技有限公司 | 手势轨迹识别方法和装置、存储介质及电子设备 |
CN113840177B (zh) * | 2021-09-22 | 2024-04-30 | 广州博冠信息科技有限公司 | 直播互动方法、装置、存储介质与电子设备 |
-
2009
- 2009-09-23 CN CN2009100938904A patent/CN101763515B/zh not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
Mahmoud Elmezain, Ayoub Al-Hamadi, J¨org Appenrodt, Bernd Michae.A Hidden Markov Model-Based Continuous Gesture Recognition System for Hand Motion Trajectory.《IEEE 2008》.2008, * |
Nguyen Dang Binh, Enokida Shuichi, Toshiaki Ejima.Real-Time Hand Tracking and Gesture Recognition System.《GVIP 05 Conference, CICC, Cairo, Egypt》.2005,362-368. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3702956A4 (en) * | 2017-10-24 | 2021-08-11 | BOE Technology Group Co., Ltd. | GESTURE RECOGNITION METHOD, GESTURE PROCESSING DEVICE AND COMPUTER-READABLE STORAGE MEDIUM |
Also Published As
Publication number | Publication date |
---|---|
CN101763515A (zh) | 2010-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101763515B (zh) | 一种基于计算机视觉的实时手势交互方法 | |
CN110147743B (zh) | 一种复杂场景下的实时在线行人分析与计数系统及方法 | |
CN107742102B (zh) | 一种基于深度传感器的手势识别方法 | |
Kim et al. | Simultaneous gesture segmentation and recognition based on forward spotting accumulative HMMs | |
CN100407798C (zh) | 三维几何建模系统和方法 | |
Calhoun et al. | Recognizing multi-stroke symbols | |
Zheng et al. | Prompt vision transformer for domain generalization | |
CN102508867B (zh) | 一种人体运动的运动图检索方法 | |
CN101477619B (zh) | 基于dtw曲线的运动数据动作分类方法 | |
CN101499128A (zh) | 基于视频流的三维人脸动作检测和跟踪方法 | |
Yamane et al. | Human motion database with a binary tree and node transition graphs | |
CN110688965A (zh) | 基于双目视觉的ipt模拟训练手势识别方法 | |
CN106557173A (zh) | 动态手势识别方法及装置 | |
Zhang et al. | Human pose estimation and tracking via parsing a tree structure based human model | |
CN111291713B (zh) | 一种基于骨架的手势识别方法及系统 | |
Xu et al. | Robust hand gesture recognition based on RGB-D Data for natural human–computer interaction | |
CN103985143A (zh) | 基于字典学习的视频中判别性在线目标跟踪方法 | |
CN104751463B (zh) | 一种基于草图轮廓特征的三维模型最佳视角选取方法 | |
Li et al. | Performance evaluation of deep learning classification network for image features | |
CN103577792A (zh) | 用于估计人体姿势的设备和方法 | |
Liang et al. | A robot calligraphy writing method based on style transferring algorithm and similarity evaluation | |
CN108595014A (zh) | 一种基于视觉的实时动态手势识别系统及方法 | |
Liu et al. | Lightweight monocular depth estimation on edge devices | |
Huang et al. | Edge-based feature extraction module for 3D point cloud shape classification | |
CN111914595A (zh) | 一种基于彩色图像的人手三维姿态估计方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120321 Termination date: 20150923 |
|
EXPY | Termination of patent right or utility model |