CN104050488A

CN104050488A - 一种基于切换的卡尔曼滤波模型的手势识别方法

Info

Publication number: CN104050488A
Application number: CN201410267232.3A
Authority: CN
Inventors: 肖秦琨; 侯亭亭; 高嵩
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2014-06-16
Filing date: 2014-06-16
Publication date: 2014-09-17
Anticipated expiration: 2034-06-16
Also published as: CN104050488B

Abstract

本发明公开的一种基于切换的卡尔曼滤波模型的手势识别方法，包括：建立手势视频库，对其预处理；去除视频帧图像背景，基于肤色模型分割出双手与脸部区域；对三个区域进行形态学操作，分别计算质心，获得脸部与双手的位置矢量和双手间的位置矢量；计算光流场，得到双手质心的光流矢量；定义编码规则，对每帧图像的两个光流矢量和三个位置矢量进行编码，得到手势特征链码库；构建S-KFM图模型，以特征链码序列作为其观测信号，以手势姿态含义序列作为其输出信号；以特征链码库作为S-KFM的训练样本进行学习得到最优参数；对待识别的手势视频，重复相关步骤，获得相应特征链码，将其作为S-KFM的输入进行推理，最终获得手势识别结果。

Description

一种基于切换的卡尔曼滤波模型的手势识别方法

技术领域

本发明属于人机交互技术领域，具体涉及一种基于切换的卡尔曼滤波模型的手势识别方法。

背景技术

人机交互技术是实现人类与计算机沟通的技术总称，随着计算机的快速发展，该领域具有深刻的研究意义和广泛的应用前景，成为国内外研究的热点。目前，主要通过语音输入，动作指示实现人机交互。因为语音很容易受到外部环境的影响，以及语言种类不一致的影响，这就增加了人机交互的复杂程度，并且降低了交互准确度。人与人之间的沟通70％是通过肢体语言实现，手势作为一种最简单，直接的肢体语言，其传递的信息量非常丰富，发挥着非常重要的作用，并且不受种族和地域的影响，所以基于手势识别技术实现人机交互无疑是更简单和更快速的方法。目前在国外公开的文献中，Bao P.T,Binh N.T,Khoa T.D.A New Approach to Hand Tracking and Gesture Recognitionby a New Feature Type and HMM.Sixth International Conference onFuzzy Systems and Knowledge Discovery[C].USA:IEEE,2009:3-6，提出了一种基于新型特征与HMM的手势追踪和手势识别方法。

但上述手势识别方法有以下不足：

(1)虽然提出了Tower算法来实现手势的跟踪模块，但是其计算过程非常复杂，增加了程序复杂度和运算量大，使得实时性降低。

(2)使用基于HMM实现手势训练和手势识别，其对于一个观测数据在一个时间只可以推测一个隐变量，使得手势模型过于简单，如果增加变量将占用大量的内存。

(3)主要使用对手势姿态的学习最终实现手势识别，局限了它的应用范围。

发明内容

本发明的目的是提供一种基于切换的卡尔曼滤波模型的手势识别方法，克服了现有方法计算复杂度高，实时性差和使用范围窄的不足。

本发明采用的技术方案是，一种基于切换的卡尔曼滤波模型的手势识别方法，具体按照以下步骤实施：

步骤1：使用相应设备拍摄单目视频，拍摄速度为30帧每秒，构建有N个动态手势的视频库V＝(V₁,V₂,...,V_i,...,V_N)；

步骤2：提取视频V_i的每帧图像，得到帧图像F_i＝(f_i1,f_i2,...,f_ij,...,f_in)，其中n表示视频V_i的帧数，对f_ij进行预处理，基于背景差分和肤色模型获取出f_ij中的脸，左手和右手区域，分别记做(S_ij1,S_ij2,S_ij3)，分别计算出三个区域的质心(M_ij1，M_ij2,M_ij3)；

步骤3：对相邻两幅图像进行光流法求解，得到光流矢量，即U＝(u,v)_i＝(f_i+1-f_i)，继而得到双手质心像素点对应的光流矢量U_ij1＝(u_ij1，v_ij1)，U_ij2＝(u_ij2，v_ij2)；左手到右手的位置矢量P_ij1＝(M_ij2-M_ij3)，左手到脸的位置矢量为P_ij2＝(M_ij2-M_ij1)，右手到脸的位置矢量为P_ij3＝(M_ij3-M_ij1)；

步骤4：定义编码规则，对两个光流矢量以及三个位置矢量经过量化后分别进行编码，得到U_ij1，U_ij2，P_ij1，P_ij2，P_ij3对应的码字，对于一个视频，将对应的n个码字相连得到五条特征链码，即左手运动链码L_i1，右手运动链码L_i2，左手到右手的位置链码L_i3，左手到脸的位置链码L_i4，右手到脸的位置链码L_i5；

步骤5：重复步骤2-4，得到手势库相对应的特征链码库L＝(L_i1,L_i2,L_i3,L_i4,L_i5),i＝1,2,...,N；

步骤6：对待识别手势视频进行步骤2-4处理，获得特征链码l＝(l₁，l₂，l₃，l₄，l₅)；

步骤7：构建由扩展卡尔曼滤波器和自适应卡尔曼滤波器组合构建的切换卡尔曼滤波器图模型，以特征链码序列作为图模型观测信号，以手势姿态含义序列作为输出信号，以L作为S-KFM的训练样本进行学习得到图模型系统的最优参数，将l作为S-KFM的输入进行推理，最终获得手势识别结果。

本发明的特点还在于，

其中的步骤2具体按照以下步骤实施：

(21)对视频进行亮度增强，去抖动的预处理；

(22)将帧图像f_ij与不包含人物图像的背景图像B进行差分，得到只有人物图像的差分图像b_ij；

(23)将b_ij图像由RGB颜色空间转化为HSV颜色空间和YCbCr颜色空间，得到各像素的H，Cb和Cr分量，如果其满足阈值条件：H>＝0.01and H<＝0.1and Cb>＝140and Cb<＝195and Cr>＝140andCr<＝165，则该像素为肤色像素，从而实现对b_ij中人的双手和脸的定位；

(24)将步骤(23)处理后的图像二值化，腐蚀，膨胀，得到更加清晰的双手和脸部封闭区域，分别记做S_ij1，S_ij2，S_ij3；

(25)根据求质心的函数，编写程序分别求得三个区域质心坐标M_ij1，M_ij2，M_ij3。

其中的步骤3具体按照以下步骤实施：

(31)设t时刻，像素点(x，y)的灰度值为I(x，y，t)；(t+Δt)时刻，该点运动到位置(x+Δx,y+Δy)，灰度值为I(x+Δx,y+Δy,t+Δt)，u，v分别是该点光流矢量的x和y分量，根据图像沿着运动轨迹的亮度保持不变的原则，获得光流场约束方程：I_xu+I_yv+I_t＝0，求解出该公式的解即获得图像的光流场(u,v)；

(32)假设在一个小的空间领域Ω上运动矢量保持恒定，即满足光流误差其中，W²(x)表示窗口权重函数，使用加权最小二乘法求解该方程；

(33)设U＝(u,v),▽I(x)＝(I_x,I_y)^T，t时刻有n个点x_i∈Ω,A＝[▽I(x₁),...,▽I(x_m)]^T，W＝diag[W(x₁),...,W(x_n)]，B＝-(I_t(x₁),...,I_t(x_n))^T，则U的解由A^TW²AU＝A^TW²B解得，即U＝[A^TW²A]^-1A^TW²B；

(34)使用4点中心差计算灰度的梯度，其系数模板为(-180-81)/12，空间邻域Ω选择大小为5*5的像素区域，窗口权重函数W²(x)为(0.0625 0.25 0.375 0.25 0.0625)，

A^{T} W^{2} A = [\begin{matrix} Σ W^{2} (x) I_{x}^{2} (x) & Σ W^{2} (x) I_{x} (x) I_{y} (x) \\ Σ W^{2} (x) I_{y} (x) I_{x} (x) & Σ W^{2} (x) I_{y}^{2} (x) \end{matrix}],

将其代入U＝[A^TW²A]^-1A^TW²B，由此估计出图像的光流场U；

(35)在图像光流场中，将双手质心像素点的光流矢量U_ij1，U_ij2输出。

其中的步骤4具体按照以下步骤实施：

(41)根据公式计算出光流矢量以及位置矢量U_ij1，U_ij2，P_ij1，P_ij2，P_ij3的方向角θ_1,2,3,4,5，如果则将方向角量化为θ_1,2，3,4,5＝0；如果则将方向角量化为以此类推，如果则将方向角量化为最终将光流矢量进行十六等级量化；

(42)对光流矢量定义的编码准则为：如果方向角为θ_1,2，3,4,5＝0，则编码为0；如果方向角为则编码为1；如果方向角为则编码为2；以此类推，如果方向角为则编码为15；

(43)对一个视频中各帧图像的双手质心的光流失量和位置矢量U_ij1，U_ij2，P_ij1，P_ij2，P_ij3按照定义的准则进行编码，将对应的n个码字依次连接起来，得到一个视频的左手运动特征链码L_i1，运动特征链码L_i2，左手到右手的位置链码L_i3，左手到脸的位置链码L_i4，右手到脸的位置链码L_i5。

其中的步骤7具体按照以下步骤实施：

(71)将步骤5得到的五条特征链码库分别作为S-KFM的五个观测序列，记做O^1,2,3,4,5，手势含义作为输出，记做X；

(72)根据其函数关系，构建目标运动模型，位置测量模型，状态方程，观测方程等卡尔曼滤波器模型，结合扩展卡尔曼滤波器和自适应卡尔曼滤波器构成S-KFM；

(73)设定S-KFM的初始输入序列，分别计算滤波器的预测方程，观测协方差方程，状态更新方程，滤波增益方程，滤波误差协方差方程，输出手势含义序列库；

(74)将步骤6得到的链码l作为S-KFM的输入，重复相关的步骤，得到待识别手势的手势含义序列，得到手势识别结果。

本发明的有益效果是，本发明通过肤色模型实现手势和脸部定位，计算出图像光流场矢量，通过对手势光流矢量的量化编码得到手势的运动链码，与双手和脸的位置矢量的编码共同构成手势视频的特征链码，将其作为S-KFM输入序列，通过计算方程得到手势识别结果，一是将运动轨迹用链码形式表示出来，使其应用范围更加广阔，二是使用S-KFM作为识别方法，使得识别结果更加精确，减少了识别误差。

附图说明

图1是本发明的具体流程图；

图2是本发明步骤2的具体流程图；

图3是本发明步骤3的具体流程图；

图4是本发明步骤4的具体流程图；

图5是本发明步骤7的具体流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明中相关技术介绍如下：

(1)基于肤色模型手势分割技术：肤色为脸和双手区别于周围环境的最明显和简单的特征，所以通过确定准确的肤色区域阈值条件，就可以定位出人脸和双手区域。拍摄视频的图像颜色空间为RGB颜色空间，但在RGB空间人体的肤色受亮度影响相当大，使得肤色点很难从非肤色点中分离出来，同时，每个人的肤色，尤其是不同种族人的肤色都很不同，其主要是由于饱和度与亮度不同而造成的，而肤色在色度上的差异并不大。在色度空间中，HSV色彩空间采用色调H、饱和度S和亮度V三个维度来表示颜色，成功的将三个变量分别开来，所以使用H的阈值用来区分出肤色。YCbCr颜色空间将颜色的亮度用Y分量区分出来，Cb和Cr分别表示蓝色和红色的浓度偏移量成份，所以附加上Cb和Cr的阈值条件共同实现肤色分割。

(2)光流矢量：光流是指空间运动物体在观测成像面上的像素运动的瞬时速度，是动态的外界在视网膜上的连续流动，是一个二维的速度场。将二维图像平面特定坐标点上的灰度瞬时变化率定义为光流矢量，继而近似计算出来不能直接得到的运动场。光流矢量为零的区域表示静止区域，不为零的区域表示运动区域，这样不仅可以检测运动也可以对运动有了量的估计。对光流矢量的计算采用微分方式，目前主要有HS算法，LK算法和高斯金字塔算法，HS算法的原理简单也容易实现的，但是计算不准确，会有缺失，LK算法运算速度和精度上都有很大提高，高斯金字塔算法的实现精度最高，但是复杂度很高，运算速度不快。

(3)矢量编码：矢量经过量化，对其进行了无失真的压缩，再根据一定的编码规则进行编码，实现用码字表示了矢量。

(4)卡尔曼滤波：卡尔曼滤波是将状态空间模型引入到滤波理论，从而推导出的一套递推估计算法。其以最小均方误差为估计的最佳准则，采用信号与噪声的状态空间模型，利用前一时刻地估计值和现时刻的观测值来更新对状态变量的估计，求出现在时刻的估计值，同时得到一系列的递推估计算法。卡尔曼滤波的实质是由量测值重构系统的状态向量。它以“预测—实测—修正”的顺序递推，根据系统的量测值来消除随机干扰，再现系统的状态，或根据系统的量测值从被污染的系统中恢复系统的本来面目。它可用于实现滤波和预测估计，在计算机视觉和雷达领域有广泛的应用。

本发明方法如图1所示，具体按照以下步骤实施：

步骤1：使用相应设备拍摄单目视频，拍摄速度为30帧每秒，构建有N个动态手势的视频库V＝(V₁,V₂,...,V_i,...,V_N)。

步骤2：提取视频V_i的每帧图像，得到帧图像F_i＝(f_i1,f_i2,...,f_ij,...,f_in)，其中n表示视频V_i的帧数，对f_ij进行预处理，基于背景差分和肤色模型获取出f_ij中的脸，左手和右手区域，分别记做(S_ij1,S_ij2,S_ij3)，分别计算出三个区域的质心(M_ij1，M_ij2,M_ij3)。如图2所示，具体按照以下步骤实施：

(21)对视频进行亮度增强，去抖动的预处理。

(22)帧图像f_ij与不包含人物图像的背景图像B进行差分，得到只有人物图像的差分图像b_ij。

(23)将b_ij图像由RGB颜色空间转化为HSV颜色空间和YCbCr颜色空间，得到各像素的H，Cb和Cr分量，如果其满足阈值条件：

H>＝0.01and H<＝0.1and Cb>＝140and Cb<＝195and Cr>＝140andCr<＝165，则该像素为肤色像素，从而实现对b_ij中人的双手和脸的定位。

(24)将步骤(23)处理后的图像二值化，腐蚀，膨胀，得到更加清晰的双手和脸部封闭区域，分别记做S_ij1，S_ij2，S_ij3。

步骤3：对相邻两幅图像进行光流法求解，得到光流矢量，即U＝(u,v)_i＝(f_i+1-f_i)，继而可以得到双手质心像素点对应的光流矢量U_ij1＝(u_ij1，v_ij1)，U_ij2＝(u_ij2，v_ij2)。左手到右手的位置矢量P_ij1＝(M_ij2-M_ij3)，左手到脸的位置矢量为P_ij2＝(M_ij2-M_ij1)，右手到脸的位置矢量为P_ij3＝(M_ij3-M_ij1)。如图3所示，具体按照以下步骤实施：

(31)设t时刻，像素点(x，y)的灰度值为I(x，y，t)；(t+Δt)时刻，该点运动到位置(x+Δx,y+Δy),灰度值为I(x+Δx,y+Δy,t+Δt),u，v分别是该点光流矢量的x和y分量，根据图像沿着运动轨迹的亮度保持不变的原则，获得光流场约束方程：I_xu+I_yv+I_t＝0，求解出该公式的解即获得图像的光流场(u,v)。

(32) 假设在一个小的空间领域Ω上运动矢量保持恒定，即满足光流误差其中，W²(x)表示窗口权重函数，使用加权最小二乘法求解该方程，

(33)设U＝(u,v),▽I(x)＝(I_x,I_y)^T，t时刻有n个点x_i∈Ω,A＝[▽I(x₁),...,▽I(x_m)]^T，W＝diag[W(x₁),...,W(x_n)]，B＝-(I_t(x₁),...,I_t(x_n))^T，则U的解由A^TW²AU＝A^TW²B解得，即U＝[A^TW²A]^-1A^TW²B。

A^{T} W^{2} A = [\begin{matrix} Σ W^{2} (x) I_{x}^{2} (x) & Σ W^{2} (x) I_{x} (x) I_{y} (x) \\ Σ W^{2} (x) I_{y} (x) I_{x} (x) & Σ W^{2} (x) I_{y}^{2} (x) \end{matrix}],

将其代入U＝[A^TW²A]^-1A^TW²B，由此估计出了图像的光流场U。

步骤4：定义一定的编码规则，对两个光流矢量以及三个位置矢量经过量化后分别进行编码，得到U_ij1，U_ij2，P_ij1，P_ij2，P_ij3对应的码字，对于一个视频，将对应的n个码字相连得到五条特征链码，即左手运动链码L_i1，右手运动链码L_i2，左手到右手的位置链码L_i3，左手到脸的位置链码L_i4，右手到脸的位置链码L_i5。如图4所示，具体按照以下步骤实施：

(41)根据公式计算出光流矢量以及位置矢量U_ij1，U_ij2，P_ij1，P_ij2，P_ij3的方向角θ_1,2,3,4,5，如果则将方向角量化为θ_1,2，3,4,5＝0；如果则将方向角量化为以此类推，如果则将方向角量化为最终将光流矢量进行十六等级量化。

(42)对光流矢量定义的编码准则为：如果方向角为θ_1,2，3,4,5＝0，则编码为0；如果方向角为则编码为1；如果方向角为则编码为2；以此类推，如果方向角为则编码为15。

步骤5：重复步骤2-4，得到手势库相对应的特征链码库L＝(L_i1,L_i2,L_i3,L_i4,L_i5),i＝1,2,...,N。

步骤6：对待识别手势视频进行步骤2-4处理，获得特征链码l＝(l₁，l₂，l₃，l₄，l₅)。

步骤7：构建由扩展卡尔曼滤波器和自适应卡尔曼滤波器组合构建的切换卡尔曼滤波器图模型，以特征链码序列作为图模型观测信号，以手势姿态含义序列作为输出信号。以L作为S-KFM的训练样本进行学习得到图模型系统的最优参数，将l作为S-KFM的输入进行推理，最终获得手势识别结果。如图5所示，具体按照以下步骤实施：

(71)将步骤5得到的五条特征链码库分别作为S-KFM的五个观测序列，记做O^1,2,3,4,5，手势含义作为输出，记做X。

(72)根据其函数关系，构建目标运动模型，位置测量模型，状态方程，观测方程等卡尔曼滤波器模型，结合扩展卡尔曼滤波器和自适应卡尔曼滤波器构成S-KFM。

(73)设定S-KFM的初始输入序列，分别计算滤波器的预测方程，观测协方差方程，状态更新方程，滤波增益方程，滤波误差协方差方程，输出手势含义序列库。

本发明与现有是手势识别技术相比：首先通过对图像光流场的计算，可以追踪到运动的手势，并且定量的表示出运动矢量，使得运算简单，程序简易化。其次使用链码表征手势视频的特征，这一表征方式克服了受手势姿态影响使特征难以统一提取的缺点。最后识别方法使用S-KFM，具有一般性，使用范围广，同时使得变量占用空间减少，提高了识别速度和准确度。

Claims

1.一种基于切换的卡尔曼滤波模型的手势识别方法，其特征在于，具体按照以下步骤实施：

2.根据权利要求1所述的基于切换的卡尔曼滤波模型的手势识别方法，其特征在于，所述的步骤2具体按照以下步骤实施：

(21)对视频进行亮度增强，去抖动的预处理；

3.根据权利要求1所述的基于切换的卡尔曼滤波模型的手势识别方法，其特征在于，所述的步骤3具体按照以下步骤实施：

A^{T} W^{2} A = [\begin{matrix} Σ W^{2} (x) I_{x}^{2} (x) & Σ W^{2} (x) I_{x} (x) I_{y} (x) \\ Σ W^{2} (x) I_{y} (x) I_{x} (x) & Σ W^{2} (x) I_{y}^{2} (x) \end{matrix}],

将其代入U＝[A^TW²A]^-1A^TW²B，由此估计出图像的光流场U；

4.根据权利要求1所述的基于切换的卡尔曼滤波模型的手势识别方法，其特征在于，所述的步骤4具体按照以下步骤实施：

5.根据权利要求1所述的基于切换的卡尔曼滤波模型的手势识别方法，其特征在于，所述的步骤7具体按照以下步骤实施：