CN108629312A

CN108629312A - 一种动态手势跟踪方法及系统

Info

Publication number: CN108629312A
Application number: CN201810420694.2A
Authority: CN
Inventors: 张秋余; 王前; 张墨逸; 杨树强; 周亮; 葛子贤; 李改莉
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2018-10-09

Abstract

本发明公开一种动态手势跟踪方法及系统，方法包括：先对视频帧序列图像进行肤色检测和运动检测，其次分别确定模板图像和运动手势目标图像的离散傅里叶系数矩阵；利用离散傅里叶系数与离散余弦变换系数的关系式，分别确定运动手势目标图像和模板图像的离散余弦变换系数矩阵；然后计算运动手势目标图像和模板图像的哈希值；根据运动手势目标图像的哈希值和模板图像的哈希值确定运动手势目标图像与模板图像的相似度；最后判断运动手势目标图像与模板图像的相似度是否匹配成功，实现在多目标干扰以及复杂背景下对手势目标遮挡、旋转的跟踪，确保跟踪的稳定性和连续性，提高手势目标检测的准确度。

Description

一种动态手势跟踪方法及系统

技术领域

本发明涉及手势跟踪技术领域，特别是涉及一种动态手势跟踪方法及系统。

背景技术

随着人机交互技术的快速发展，人与计算机的交互也变得日益频繁，并得到了越来越多的研究与探索。而手势交互技术的出现，极大地促进了人机交互技术的发展。在手势交互过程中，手势的实时动态跟踪已成为实现手势交互的关键步骤。但由于人手是复杂的变形体，并且手势本身具有的多态性和不确定性，使得手势跟踪易受手势姿态变化、肤色干扰、手势遮挡以及跟踪背景环境复杂等因素的影响，经常会出现跟踪漂移和跟丢的现象。因此，对复杂背景中的动态手势进行高效的跟踪成为人机交互领域的一个重要问题。

目前，常见的手势跟踪方法主要包括六类方法：1)传统的手势跟踪方法(Mean-shift、Cam-shift、卡尔曼滤波、粒子滤波)；2)多种跟踪方法融合的手势跟踪方法(见文献刘士荣,朱伟涛,杨帆,等.基于多特征融合的粒子滤波目标跟踪算法[J].信息与控制,2012,41(6):752-759)；3)融合手势分割和手势检测的手势跟踪方法(见文献全冬兵,程如中,赵勇,等.一种快速高效的手势跟踪识别方法[J].北京大学学报(自然科学版),2015,51(6):999-1007)；4)基于数学建模的手势跟踪方法(见文献Feng Z,Xu T,Lv N,etal.Behavioral Model Tracking of Hand Gestures[C].2015International Conferenceon Virtual Reality andVisualization(ICVRV).IEEE,2015:101-108)；5)基于深度相机的手势跟踪方法(见文献Chien P Y,Miao Y H,Guo J I,et al.A 3D hand trackingdesign for gesture control in complex environments[C].VLSI Design,Automationand Test(VLSI-DAT),2015 International Symposium on.IEEE,2015:1-4)；6)基于感知哈希的跟踪方法，主要包括三类方法：(1)基于感知哈希与改进感知哈希技术的跟踪方法(见文献Fan F,Gao G,Li J,et al.Visual object tracking based on perceptual hashalgorithm[C].International Computer Conference on Wavelet Active MediaTechnology and Information Processing.IEEE,2016:233-236)；(2)基于感知哈希技术与其它跟踪技术相结合的跟踪方法(见文献赵琳,王秋帆,刘源,等.基于感知哈希和小波变换的目标跟踪算法[J].系统工程与电子技术,2016,38(4):739-745)；(3)基于多特征(感知哈希特征)融合的跟踪方法(见文献Shen X,Sui X,Pan K,et al.Adaptive pedestriantracking via patch-based features and spatial–temporal similarity measurement[J].Pattern Recognition,2016,53(C):163-173)。现有手势跟踪方法虽然能够较好地对手势和目标进行稳定地跟踪，但都存在着共同的缺点：1)即使跟踪方法的鲁棒性很强，但在手势目标发生遮挡时，都会造成目标在视频中丢失；2)大多数方法都不能很好的对发生旋转的手势目标进行跟踪；3)大多数方法都不能很好的解决多目标干扰问题；4)大多数方法都不能在跟踪背景复杂时，对手势目标进行稳定连续的跟踪；5)大多数方法的实时性较差，跟踪耗时较多。基于上述问题，如何克服上述问题成为本领域亟需解决的技术问题。

发明内容

本发明的目的是提供一种动态手势跟踪方法及系统，以实现在多目标干扰以及复杂背景下对手势目标遮挡、旋转的跟踪，确保跟踪的稳定性和连续性，提高手势目标检测的准确度。

为实现上述目的，本发明提供了一种动态手势跟踪方法，所述方法包括：

步骤S100：获取视频帧序列图像；

步骤S200：对所述视频帧序列图像进行肤色检测和运动检测，获得运动手势目标帧序列图像；

步骤S300：将运动手势目标帧序列图像中的第i-1帧图像作为模板图像，将运动手势目标帧序列图像中的第i帧图像作为运动手势目标图像；其中，i为大于等于2的整数；

步骤S400：对所述模板图像进行处理，获得模板灰度图像；对所述运动手势目标图像进行处理，获得运动手势目标灰度图像；

步骤S500：对模板灰度图像进行傅里叶变换，获得模板图像的离散傅里叶系数矩阵；对运动手势目标灰度图像进行傅里叶变换，获得运动手势目标图像的离散傅里叶系数矩阵；

步骤S600：利用离散傅里叶系数与离散余弦变换系数的关系式，根据运动手势目标图像的离散傅里叶系数矩阵确定运动手势目标图像的离散余弦变换系数矩阵；根据模板图像的离散傅里叶系数矩阵确定模板图像的离散余弦变换系数矩阵；

步骤S700：根据运动手势目标图像的离散余弦变换系数矩阵计算运动手势目标图像的哈希值；根据模板图像的离散余弦变换系数矩阵计算模板图像的哈希值；

步骤S800：根据运动手势目标图像的哈希值和模板图像的哈希值确定运动手势目标图像与模板图像的相似度；

步骤S900：判断运动手势目标图像与模板图像的相似度是否小于等于设定阈值；

如果相似度小于等于设定阈值，则判断i是否大于n；如果i大于n，则匹配成功，实现对运动手势目标的跟踪；如果i小于等于n，则令i＝i+1，返回步骤S300；其中，n为运动手势目标帧序列图像中的总帧数；

如果相似度大于设定阈值，则匹配失败。

可选的，所述对所述视频帧序列图像进行肤色检测和运动检测，获得运动手势目标帧序列图像；具体包括：

根据所述视频帧序列图像确定运动手势目标区域帧序列补偿图像；

采用三帧差分法，从运动手势目标区域帧序列补偿图像中提取出连续的三帧图像进行运动检测，获得运动手势目标帧序列图像。

可选的，所述根据所述视频帧序列图像确定运动手势目标区域帧序列补偿图像，具体包括：

将所述视频帧序列图像由RGB色彩空间转换成HSV色彩空间，分别获得多个色相分量和饱和度分量；

当各色相分量和饱和度分量符合设定阈值条件，则确定手势目标区域帧序列图像；

将所述视频帧序列图像由RGB色彩空间转换成YCbCr色彩空间，分别对所述视频帧序列图像的红、绿、蓝三种色彩进行线性变换，分别获得第一亮度分量、第二亮度分量和第三亮度分量；

根据所述第一亮度分量、第二亮度分量和第三亮度分量确定亮度分量均值；

根据所述亮度分量均值对所述运动手势目标区域帧序列图像进行光照补偿，获得运动手势目标区域帧序列补偿图像。

可选的，所述采用三帧差分法，从运动手势目标区域帧序列补偿图像中提取出连续的三帧图像进行运动检测，获得运动手势目标帧序列图像，具体包括：

从运动手势目标区域帧序列补偿图像中提取连续的三帧图像，分别为第k-1帧图像、第k帧图像、第k+1帧图像；

分别对第k-1、k帧图像和第k、k+1帧图像做差分运算，分别获得第一二值差分图像和第二二值差分图像；

对第一二值差分图像和第二二值差分图像分别进行阈值化处理，分别获得第一阈值二值化图像和第二阈值二值化图像；

根据第一阈值二值化图像和第二阈值二值化图像确定运动手势目标帧序列图像。

可选的，所述根据运动手势目标图像的离散余弦变换系数矩阵计算运动手势目标图像的哈希值；根据模板图像的离散余弦变换系数矩阵计算模板图像的哈希值，具体包括：

根据运动手势目标图像的离散余弦变换系数矩阵计算运动手势目标图像的离散余弦变换系数均值；根据模板图像的离散余弦变换系数矩阵计算模板图像的离散余弦变换系数均值；

根据运动手势目标图像的离散余弦变换系数均值确定运动手势目标图像的哈希值；根据模板图像的离散余弦变换系数均值确定模板图像的哈希值。

本发明还提供一种动态手势跟踪系统，所述系统包括：

获取模块，用于获取视频帧序列图像；

检测模块，用于对所述视频帧序列图像进行肤色检测和运动检测，获得运动手势目标帧序列图像；

赋值模块，用于将运动手势目标帧序列图像中的第i-1帧图像作为模板图像，将运动手势目标帧序列图像中的第i帧图像作为运动手势目标图像；其中，i为大于等于2的整数；

处理模块，用于对所述模板图像进行处理，获得模板灰度图像；对所述运动手势目标图像进行处理，获得运动手势目标灰度图像；

傅里叶变换模块，用于对模板灰度图像进行傅里叶变换，获得模板图像的离散傅里叶系数矩阵；对运动手势目标灰度图像进行傅里叶变换，获得运动手势目标图像的离散傅里叶系数矩阵；

离散余弦变换系数矩阵确定模块，用于利用离散傅里叶系数与离散余弦变换系数的关系式，根据运动手势目标图像的离散傅里叶系数矩阵确定运动手势目标图像的离散余弦变换系数矩阵；根据模板图像的离散傅里叶系数矩阵确定模板图像的离散余弦变换系数矩阵；

哈希值确定模块，用于根据运动手势目标图像的离散余弦变换系数矩阵计算运动手势目标图像的哈希值；根据模板图像的离散余弦变换系数矩阵计算模板图像的哈希值；

相似度确定模块，用于根据运动手势目标图像的哈希值和模板图像的哈希值确定运动手势目标图像与模板图像的相似度；

判断模块，用于判断运动手势目标图像与模板图像的相似度是否小于等于设定阈值；如果相似度小于等于设定阈值，则判断i是否大于n；如果i大于n，则匹配成功，实现对运动手势目标的跟踪；如果i小于等于n，则令i＝i+1，返回赋值模块；其中，n为运动手势目标帧序列图像中的总帧数；如果相似度大于设定阈值，则匹配失败。

可选的，所述检测模块，具体包括：

确定单元，用于根据所述视频帧序列图像确定运动手势目标区域帧序列补偿图像；

运动检测单元，用于采用三帧差分法，从运动手势目标区域帧序列补偿图像中提取出连续的三帧图像进行运动检测，获得运动手势目标帧序列图像。

可选的，所述确定单元，具体包括：

色相分量和饱和度分量确定子单元，用于将所述视频帧序列图像由RGB色彩空间转换成HSV色彩空间，分别获得多个色相分量和饱和度分量；

手势目标区域帧序列图像确定子单元，用于当各色相分量和饱和度分量符合设定阈值条件，则确定手势目标区域帧序列图像；

线性变换子单元，用于将所述视频帧序列图像由RGB色彩空间转换成YCbCr色彩空间，分别对所述视频帧序列图像的红、绿、蓝三种色彩进行线性变换，分别获得第一亮度分量、第二亮度分量和第三亮度分量；

亮度分量均值确定子单元，用于根据所述第一亮度分量、第二亮度分量和第三亮度分量确定亮度分量均值；

光照补偿子单元，用于根据所述亮度分量均值对所述运动手势目标区域帧序列图像进行光照补偿，获得运动手势目标区域帧序列补偿图像。

可选的，所述运动检测单元，具体包括：

提取子单元，用于从运动手势目标区域帧序列补偿图像中提取连续的三帧图像，分别为第k-1帧图像、第k帧图像、第k+1帧图像；

二值差分图像确定子单元，用于分别对第k-1、k帧图像和第k、k+1帧图像做差分运算，分别获得第一二值差分图像和第二二值差分图像；

阈值处理子单元，用于对第一二值差分图像和第二二值差分图像分别进行阈值化处理，分别获得第一阈值二值化图像和第二阈值二值化图像；

运动手势目标帧序列图像确定子单元，用于根据第一阈值二值化图像和第二阈值二值化图像确定运动手势目标帧序列图像。

可选的，所述哈希值确定模块，具体包括：

离散余弦变换系数均值确定单元，用于根据运动手势目标图像的离散余弦变换系数矩阵计算运动手势目标图像的离散余弦变换系数均值；根据模板图像的离散余弦变换系数矩阵计算模板图像的离散余弦变换系数均值；

哈希值确定单元，用于根据运动手势目标图像的离散余弦变换系数均值确定运动手势目标图像的哈希值；根据模板图像的离散余弦变换系数均值确定模板图像的哈希值。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明在多目标干扰的环境下，对手势目标进行肤色检测和运动检测，完整的对运动手势目标进行实时的检测，确保跟踪的稳定性和连续性，提高手势目标检测的准确度，解决了手势目标在多目标干扰下的跟踪问题。

本发明利用离散傅里叶变换DFT具有抗旋转不变性，根据离散傅里叶系数与离散余弦变换系数的关系式，根据离散傅里叶系数矩阵确定离散余弦变换系数矩阵，并计算运动手势目标图像和模板图像的哈希值，生成的哈希值就可以代表原图像信息，在手势目标发生旋转的情况下，能很好的保存原图像信息，具有抗旋转不变的特性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例动态手势跟踪方法流程图；

图2为本发明实施例动态手势跟踪系统结构图；

图3为本发明实施例为运动手势目标发生遮挡的视频序列；

图4为本发明实施例为运动手势目标发生旋转的视频序列；

图5为本发明实施例为运动手势目标在复杂背景下目标干扰的视频序列；

图6为本发明实施例运动手势目标发生遮挡的检测及初始化结果图；

图7为本发明实施例运动手势目标发生旋转的检测及初始化结果图；

图8为本发明实施例运动手势目标在复杂背景下目标干扰的检测及初始化结果图；

图9为本发明实施例手势目标发生遮挡的跟踪效果图；

图10为本发明实施例手势目标发生旋转的跟踪效果图；

图11为本发明实施例复杂背景下的手势目标跟踪效果图；

图12为本发明实施例运动手势目标的横坐标跟踪精度对比图；

图13为本发明实施例运动手势目标的纵坐标跟踪精度对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

RGB(red,green,blue)颜色空间以R(Red:红)、G(Green:绿)、B(Blue:蓝)三种基本色为基础，进行不同程度的叠加，产生丰富而广泛的颜色。

HSV颜色空间：HSV(hue,saturation,value)分别表示色相、饱和度和亮度。

YCbCr颜色空间，其中，Y是指亮度分量，Cb指蓝色色度分量，而Cr指红色色度分量。

图1为本发明实施例动态手势跟踪方法流程图，如图1所示，本发明提供一种动态手势跟踪方法，所述方法包括：

步骤S100：获取视频帧序列图像；所述视频帧序列图像为组成视频的多帧图像。

如果相似度大于设定阈值，则匹配失败。

下面对各个步骤进行详细分析：

步骤S200：对所述视频帧序列图像进行肤色检测和运动检测，获得运动手势目标帧序列图像；具体包括：

步骤S201：根据所述视频帧序列图像确定手势目标区域帧序列补偿图像；具体包括：

步骤S2011：将所述视频帧序列图像由RGB色彩空间转换成HSV色彩空间，分别获得多个色相分量和饱和度分量；具体的表达式为：

V＝max(R,G,B)

其中，0≤H≤360，0≤S≤1，0≤V≤1，G为绿色分量，R为红色分量，B为蓝色分量，max(R,G,B)为三种颜色空间(RGB)的最大值,min(R,G,B)为三种颜色空间(RGB)的最小值，三种颜色空间(RGB)取值范围是[0,255]。

由于HSV颜色空间的H和S分量肤色聚合程度比较好，与人感受颜色的方式也一致，可以更准确地反映目标的色彩性质。

步骤S2012：当各色相分量和饱和度分量符合设定阈值条件，则确定手势目标区域帧序列图像；所述设定阈值条件为：H[0，45]，S[35，200]。

步骤S2013：将所述视频帧序列图像由RGB色彩空间转换成YCbCr色彩空间，分别对所述视频帧序列图像的红、绿、蓝三种色彩进行线性变换，分别获得第一亮度分量、第二亮度分量和第三亮度分量；

步骤S2014：根据所述第一亮度分量、第二亮度分量和第三亮度分量确定亮度分量均值；

步骤S2015：根据所述亮度分量均值对所述运动手势目标区域帧序列图像进行光照补偿，获得运动手势目标区域帧序列补偿图像；

步骤S202：采用三帧差分法，从运动手势目标区域帧序列补偿图像中提取出连续的三帧图像进行运动检测，获得运动手势目标帧序列图像；具体包括：

步骤S2021：从运动手势目标区域帧序列补偿图像中提取连续的三帧图像，分别为第k-1帧图像、第k帧图像、第k+1帧图像；

步骤S2022：分别对第k-1、k帧图像和第k、k+1帧图像做差分运算，分别获得第一二值差分图像和第二二值差分图像；具体公式为：

D₁(x，y)＝|f_k(x，y)-f_k-1(x，y)|.

D₂(x，y)＝|f_k+1(x，y)-f_k(x，y)|.

其中，f_k-1(x，y)、f_k(x，y)、f_k+1(x，y)分别为第k-1、k、k+1帧的三帧图像，D₁(x，y)为第一二值差分图像，D₂(x，y)为第二二值差分图像；

步骤S2023：对第一二值差分图像和第二二值差分图像分别进行阈值化处理，分别获得第一阈值二值化图像和第二阈值二值化图像；

步骤S2024：根据第一阈值二值化图像和第二阈值二值化图像确定运动手势目标帧序列图像；具体公式为：

R(x，y)＝R１(x，y)∧R₂(x，y).

其中，R₁(x，y)为第一阈值二值化图像，R₂(x，y)为第二阈值二值化图像，R(x，y)为运动手势目标帧序列图像，“∧”符号表示“与”运算。

步骤S400：对所述模板图像进行处理，获得模板灰度图像；对所述运动手势目标图像进行处理，获得运动手势目标灰度图像；具体包括：

步骤S401:对运动手势目标图像进行插值操作，获得运动手势目标插值图像和模板插值图像；对模板图像进行插值操作，获得模板插值图像；所述运动手势目标插值图像和模板插值图像的尺寸统一变为32×32，设置此步骤主要目的是减小后续DCT转换和DFT变换的计算量，所述DCT全称是离散余弦变换(Discrete Cosine Transform)，所述DFT变换为离散傅里叶变换(Discrete FourierTransform)。

步骤S402:对运动手势目标插值图像进行灰度化处理，获得运动手势目标灰度图像；对模板插值图像进行灰度化处理，获得模板灰度图像；设置此步骤主要目的是再次减少后续DCT和DFT变换的计算量。

步骤S500：对模板灰度图像进行傅里叶变换，获得模板图像的离散傅里叶系数矩阵；对运动手势目标灰度图像进行傅里叶变换，获得运动手势目标图像的离散傅里叶系数矩阵；运动手势目标图像的离散傅里叶系数矩阵和模板图像的离散傅里叶系数矩阵均为32×32；具体包括：

步骤S501:对运动手势目标灰度图像进行离散傅里叶变换DFT，获得运动手势目标图像的初始离散傅里叶系数矩阵；对模板灰度图像进行离散傅里叶变换DFT，获得模板图像的初始离散傅里叶系数矩阵，具体公式为：

其中，f(m,n)为灰度图像某个像素点的值，F(k,l)为该图像的DFT变换，k＝0,1,...,M-1,l＝0,1,...,M-1，k表示离散傅里叶系数矩阵的行的维数，l表示离散傅里叶系数矩阵的列的维数，M是系数矩阵的大小。

步骤S502:对运动手势目标图像的初始离散傅里叶系数矩阵进行快速傅里叶变换和整理，获得运动手势目标图像的离散傅里叶系数矩阵；对模板图像的初始离散傅里叶系数矩阵进行快速傅里叶变换和整理，获得模板图像的离散傅里叶系数矩阵；具体步骤为：

采用快速傅里叶(FFT)分别对运动手势目标图像的初始离散傅里叶系数矩阵和模板图像的初始离散傅里叶系数矩阵进行快速变换，即对每一行每一列进行FFT变换。如下式：

其中，F_r(k)表示对DFT系数矩阵的行进行FFT变换，k＝0,1,...,M-1，k表示离散傅里叶系数矩阵的行的维数，M是系数矩阵的大小，r表示DFT系数矩阵的行，f(m,n)为灰度图像某个像素点的值，m表示灰度图像像素点的横坐标，n表示灰度图像像素点的纵坐标，j为虚部系数。

由于DFT变换中只有实部系数可以表示图像，因此，只计算F_r(k)的值。

步骤S600：利用离散傅里叶系数与离散余弦变换系数的关系式，根据运动手势目标图像的离散傅里叶系数矩阵确定运动手势目标图像的离散余弦变换系数矩阵；根据模板图像的离散傅里叶系数矩阵确定模板图像的离散余弦变换系数矩阵；具体步骤包括：

步骤S601：分别保留运动手势目标图像的离散傅里叶系数矩阵和模板图像的离散傅里叶系数矩阵的左上角8×8系数矩阵，分别获得第一系数矩阵和第二系数矩阵；

步骤S602：分别对第一系数矩阵和第二系数矩阵进行DFT变换，获得运动手势目标图像的DFT变换的实部系数和模板图像的实部系数；

步骤S603：利用离散傅里叶系数与离散余弦变换系数的关系式，根据运动手势目标图像的DFT变换的实部系数确定运动手势目标图像的离散余弦变换系数矩阵；根据模板图像的实部系数确定模板图像的离散余弦变换系数矩阵；运动手势目标图像的离散余弦变换系数矩阵和模板图像的离散余弦变换系数矩阵分别为8×8的矩阵；

DFT的实部系数为，如下式：

F_r(0)＝f(0)+f(1)+f(2)+...+f (7)

将式代入上式，获得离散傅里叶系数与离散余弦变换系数的关系式为：

其中，a₄是离散余弦变换系数矩阵，f(m)为灰度图像像素点的横坐标的像素值，m＝0,1,...,M-1，此过程中M＝8，m表示灰度图像像素点的横坐标。

步骤S700：根据运动手势目标图像的离散余弦变换系数矩阵计算运动手势目标图像的哈希值；根据模板图像的离散余弦变换系数矩阵计算模板图像的哈希值；具体包括：

步骤S701:根据运动手势目标图像的离散余弦变换系数矩阵计算运动手势目标图像的离散余弦变换系数均值；根据模板图像的离散余弦变换系数矩阵计算模板图像的离散余弦变换系数均值；

步骤S702:根据运动手势目标图像的离散余弦变换系数均值确定运动手势目标图像的哈希值；根据模板图像的离散余弦变换系数均值确定模板图像的哈希值；所述哈希值由“0”和“1”组成的长度为64位的一维向量；具体步骤为：把运动手势目标图像的离散余弦变换系数矩阵和模板图像的离散余弦变换系数矩阵中各系数大于和等于系数均值的记为“1”，小于系数均值的记为“0”，按照从左到右和从上到下的顺序，读取系数矩阵的量化生成值，并生成由“0”和“1”组成的长度为64位的一维向量。

步骤S800:根据运动手势目标图像的哈希值和模板图像的哈希值确定运动手势目标图像与模板图像的相似度，具体公式为：

Sim＝HamDis(h,h′)

其中，h和h’分别代表模板图像与运动手势目标图像的哈希值，Sim为运动手势目标图像与模板图像的相似度。

由于哈希值是由长度为64位的二进制字符串组成，也就是哈希指纹，其可以代表原图像的信息，通过比较哈希指纹就可以对比两幅图像的相似性。

步骤S900:判断运动手势目标图像与模板图像的相似度是否小于等于设定阈值T_sim；

如果相似度小于等于设定阈值T_sim，则判断i是否大于n，如果i大于n，则匹配成功，实现对运动手势目标的跟踪；如果i小于等于n，则令i＝i+1，返回步骤S300；

如果相似度大于设定阈值T_sim，则匹配失败，说明哈希值比较失败，目标图像与模板图像的相似性差异很大。

在匹配哈希值过程中，通过多次实验与验证，设定阈值T_sim＝6即可满足本发明的要求。

通过以上方案对动态手势进行跟踪具有以下优点：

1)、由于人手是具有颜色信息特征的，所以使用肤色检测法可以将视频帧图像中的手势目标与背景区域区分开来。但是，当背景中含有与人手肤色相近的干扰物时，会对手势的检测造成干扰，手势检测的准确度变低、鲁棒性变差。在这种情况下，单一的使用肤色信息对手势进行检测不能完整的检测出手势目标，就必须对手势的运动信息进行检测。因此，本发明在多目标干扰的环境下，对手势目标进行肤色检测和运动检测，完整的对运动手势目标进行实时的检测，确保跟踪的稳定性和连续性，提高手势目标检测的准确度，解决了手势目标在多目标干扰下的跟踪问题。

2)、由于离散傅里叶变换DFT具有抗旋转不变性，利用离散傅里叶系数与离散余弦变换系数的关系式，在DFT变换中提取离散余弦变换系数，并计算运动手势目标图像和模板图像的离散余弦变换系数均值，把运动手势目标图像的离散余弦变换系数矩阵和模板图像的离散余弦变换系数矩阵中各系数大于和等于系数均值的记为“1”，小于系数均值的记为“0”，按照从左到右和从上到下的顺序，读取系数矩阵的量化生成值，并生成由“0”和“1”组成的长度为64位的一维向量，也就是运动手势目标图像和模板图像的哈希值。生成的哈希值就可以代表原图像信息，在手势目标发生旋转的情况下，能很好的保存原图像信息，具有抗旋转不变的特性。

3)、对遮挡前的第k帧模板图像与遮挡后的第k+1帧运动手势目标图像进行检测，并采用感知哈希技术对遮挡前后的手势目标分别进行感知特征提取，并通过汉明距离进行相似性的判断，从而进行遮挡后的再跟踪。

图2为本发明实施例动态手势跟踪系统结构图，如图2所示，一种动态手势跟踪系统，所述系统包括：

获取模块1，用于获取视频帧序列图像；

检测模块2，用于对所述视频帧序列图像进行肤色检测和运动检测，获得运动手势目标帧序列图像；

赋值模块3，用于将运动手势目标帧序列图像中的第i-1帧图像作为模板图像，将运动手势目标帧序列图像中的第i帧图像作为运动手势目标图像；其中，i为大于等于2的整数；

处理模块4，用于对所述模板图像进行处理，获得模板灰度图像；对所述运动手势目标图像进行处理，获得运动手势目标灰度图像；

傅里叶变换模块5，用于对模板灰度图像进行傅里叶变换，获得模板图像的离散傅里叶系数矩阵；对运动手势目标灰度图像进行傅里叶变换，获得运动手势目标图像的离散傅里叶系数矩阵；

离散余弦变换系数矩阵确定模块6，用于利用离散傅里叶系数与离散余弦变换系数的关系式，根据运动手势目标图像的离散傅里叶系数矩阵确定运动手势目标图像的离散余弦变换系数矩阵；根据模板图像的离散傅里叶系数矩阵确定模板图像的离散余弦变换系数矩阵；

哈希值确定模块7，用于根据运动手势目标图像的离散余弦变换系数矩阵计算运动手势目标图像的哈希值；根据模板图像的离散余弦变换系数矩阵计算模板图像的哈希值；

相似度确定模块8，用于根据运动手势目标图像的哈希值和模板图像的哈希值确定运动手势目标图像与模板图像的相似度；

判断模块9，用于判断运动手势目标图像与模板图像的相似度是否小于等于设定阈值；如果相似度小于等于设定阈值，则判断i是否大于n；如果i大于n，则匹配成功，实现对运动手势目标的跟踪；如果i小于等于n，则令i＝i+1，返回赋值模块；其中，n为运动手势目标帧序列图像中的总帧数；如果相似度大于设定阈值，则匹配失败。

下面对各个模块进行详细论述：

本发明所述检测模块2，具体包括：

本发明所述确定单元，具体包括：

本发明所述运动检测单元，具体包括：

所述哈希值确定模块7，具体包括：

本发明的优点可通过以下仿真实验进一步说明：

实验条件与性能评价标准：

实验硬件平台为：Intel(R)Core(TM)i5-4590CPU@2.50GHz，内存为4GB。实验环境是Win 7操作系统下的Matlab2013a以及VS2013环境下的OpenCV 2.4.9。本发明实验结果为视频局部跟踪效果图，采用三组视频序列对本发明进行实验验证。图3为运动手势目标发生遮挡的视频序列；(a)为第1帧图像，(b)为第135帧图像，(c)为第161帧图像，(d)为第205帧图像，(e)为第413帧图像；图4为运动手势目标发生旋转的视频序列；(a)为第1帧图像，(b)为第112帧图像，(c)为第233帧图像，(d)为第313帧图像，(e)为第427帧图像；图5分别为运动手势目标在复杂背景下目标干扰的视频序列；(a)为第1帧图像，(b)为第53帧图像，(c)为第119帧图像，(d)为第209帧图像，(e)为第301帧图像；如图3-5所示，图3是手势目标发生遮挡的情况，图4是手势目标发生旋转的情况，图5是复杂背景(含肤色以及多个手势目标)下手势目标的跟踪情况。

本发明性能评价标准以计算跟踪精度来衡量。其中：

跟踪精度用于对手势跟踪过程中鲁棒性的客观评价标准，本发明通过计算手势跟踪过程中手势目标的中心坐标位置与手势目标的实际坐标位置，来衡量手势目标的跟踪精确度情况。中心坐标位置与实际坐标位置越接近，跟踪方法的鲁棒性就越好。手势目标质心位置计算公式如下式：

其中，R_k(x,y)为二值差分图像，k＝2,3,...,N，N表示图像的帧数，x和y分别表示像素点的横坐标与纵坐标。

实验内容

实验1：手势目标检测实验

图6为运动手势目标发生遮挡的手势检测结果图。图7为运动手势目标发生旋转的手势检测结果图。图8为运动手势目标在多目标干扰下的手势检测结果图。其中(a)分别为肤色检测；(b)分别为运动检测；(c)分别为运动手势目标图像；实验通过对手势目标肤色信息和运动信息的检测与判断，可以判断出运动手势目标图像的位置，进而可以初始化目标区域。实验结果表明，本发明可以完整检测出运动手势目标补偿区域，使用DFT和DCT变换对对遮挡前的第k帧模板图像与遮挡后的第k+1帧运动手势目标图像进行感知特征提取，并使用汉明距离进行相似性匹配，继续进行跟踪与处理。

实验2：运动手势目标发生遮挡、旋转，以及复杂背景下目标干扰的跟踪实验

图9为本发明实施例手势目标发生遮挡的跟踪效果图；(a)为无遮挡第1帧；(b)为部分遮挡第135帧；(c)为严重遮挡第161帧；(d)为完全遮挡第205帧；(e)为重新出现第413帧；由图9实验结果可以看出：本发明具有很强的鲁棒性，在手势目标发生遮挡时，采用目标检测机制(步骤1)对遮挡前后的手势目标进行检测，重新获取手势目标的位置，并利用DFT与DCT之间的转换关系，提取离散余弦变换系数作为感知哈希特征，并通过比较其哈希值进行相似性的判定，实现了手势目标在发生遮挡后的再跟踪。图10为本发明实施例手势目标发生旋转的跟踪效果图；(a)为无旋转第1帧；(b)为旋转45度第112帧；(c)为旋转75度第233帧；(d)为旋转90度第313帧；(e)为旋转180度第427帧；由图10实验结果可以看出：本发明利用离散傅里叶变换(DFT)的旋转不变性和位移不变性，通过在DFT变换中提取DCT的系数来生成图像的感知哈希值，并通过计算汉明距的方法来判断图像的相似程度，从而进行匹配与跟踪，具有较强的抗旋转性，能够对发生旋转变化的手势目标进行较好的跟踪，并且满足鲁棒性。图11为本发明实施例复杂背景下的手势目标跟踪效果图；(a)为第1帧；(b)为第53帧；(c)为第119帧；(d)为第209帧；(e)为第301帧；由图11实验结果可以看出：本发明是通过对手势目标进行检测与位置判断，并通过融合DFT和DCT变换的感知哈希方法进行跟踪，具有很强的鲁棒性，并满足在多目标干扰和复杂背景等条件下的连续性跟踪。

由图9、图10和图11实验结果综合可知：本发明具有更强的鲁棒性，并且跟踪效果十分理想，能准确的跟踪手势目标。并采用一种在线的模板图像更新方法确保了跟踪的连续性，在手势目标发生遮挡、旋转、变形以及含有多个手势目标的背景复杂下，仍然能准确的对手势目标进行跟踪，具有很强的鲁棒性和实时性。

为了进一步体现本发明更直观的优越性，本发明通过计算手势目标的跟踪精度来体现其鲁棒性性能。图12为本发明实施例运动手势目标的横坐标跟踪精度对比图，图中横坐标表示视频帧序列号，纵坐标表示视频中手势目标质心的横坐标；图12为本发明实施例运动手势目标的横坐标跟踪精度对比图；(a)为本发明实施例运动手势目标发生遮挡的横坐标跟踪精度对比图；(b)为本发明实施例运动手势目标发生旋转的横坐标跟踪精度对比图；(c)为本发明实施例运动手势目标在复杂背景下目标干扰的横坐标跟踪精度对比图；

图13为本发明实施例运动手势目标的纵坐标跟踪精度，图中横坐标表示视频帧序列号，纵坐标表示视频中手势目标质心的纵坐标；(a)为本发明实施例运动手势目标发生遮挡的纵坐标跟踪精度对比图；(b)为本发明实施例运动手势目标发生旋转的纵坐标跟踪精度对比图；(c)为本发明实施例运动手势目标在复杂背景下目标干扰的纵坐标跟踪精度对比图；对比图从图12-13可以看出，本发明跟踪精度较高。在手势目标发生遮挡时，对遮挡前的第k帧模板图像与遮挡后的第k+1帧运动手势目标图像利用视频感知哈希技术的跟踪原理，对遮挡前后的手势目标分别进行感知特征提取，并通过汉明距离进行相似性的判断，从而进行遮挡后的再跟踪，但是在目标消失的过程中，鲁棒性较差，跟踪效果不理想，手势目标位置与实际位置有较小偏差。在手势目标旋转的实验中，本发明利用DFT与DCT的关系，通过DFT来提取离散余弦变换系数，并生成图像的感知特征，从而进行实时的跟踪。由于DFT变换具有抗旋转性，因此本发明能够较好的对旋转的手势目标进行跟踪，跟踪精度较高。并且在多目标跟踪实验中，本发明通过采用一种在线检测机制，可实时的对手势目标进行检测与跟踪。因此，本发明具有较高的跟踪准确率。

综上所述，本发明实现了运动手势目标跟踪区域的自动初始化，通过目标检测机制解决了手势目标的遮挡问题，通过在DFT变换中提取可以代表原图像信息的离散余弦变换系数，在手势目标发生旋转时，仍能准确的跟踪手势目标。在较为复杂的场景下，能够较好地跟踪手势目标，且跟踪效果理想。该发明在满足跟踪鲁棒性的前提下，具有实现简单、计算量小、耗时少的优点，能快速、准确地对手势目标进行跟踪，达到对自然人手运动的实时跟踪。另外，该发明也可用于其它对实时性有需求的物体目标跟踪中。

对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种动态手势跟踪方法，其特征在于，所述方法包括：

步骤S100：获取视频帧序列图像；

如果相似度大于设定阈值，则匹配失败。

2.根据权利要求1所述的动态手势跟踪方法，其特征在于，所述对所述视频帧序列图像进行肤色检测和运动检测，获得运动手势目标帧序列图像；具体包括：

3.根据权利要求2所述的动态手势跟踪方法，其特征在于，所述根据所述视频帧序列图像确定运动手势目标区域帧序列补偿图像，具体包括：

4.根据权利要求2所述的动态手势跟踪方法，其特征在于，所述采用三帧差分法，从运动手势目标区域帧序列补偿图像中提取出连续的三帧图像进行运动检测，获得运动手势目标帧序列图像，具体包括：

5.根据权利要求1所述的动态手势跟踪方法，其特征在于，所述根据运动手势目标图像的离散余弦变换系数矩阵计算运动手势目标图像的哈希值；根据模板图像的离散余弦变换系数矩阵计算模板图像的哈希值，具体包括：

6.一种动态手势跟踪系统，其特征在于，所述系统包括：

获取模块，用于获取视频帧序列图像；

7.根据权利要求6所述的动态手势跟踪系统，其特征在于，所述检测模块，具体包括：

8.根据权利要求7所述的动态手势跟踪系统，其特征在于，所述确定单元，具体包括：

9.根据权利要求7所述的动态手势跟踪系统，其特征在于，所述运动检测单元，具体包括：

10.根据权利要求6所述的动态手势跟踪系统，其特征在于，所述哈希值确定模块，具体包括：