CN109101872B

CN109101872B - 一种3d手势鼠标的生成方法

Info

Publication number: CN109101872B
Application number: CN201810633829.3A
Authority: CN
Inventors: 冯志全; 曾波涛
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2023-04-18
Anticipated expiration: 2038-06-20
Also published as: CN109101872A

Abstract

本发明涉及一种3D手势鼠标的生成方法，包括以下步骤，a.视频输入，采用Kinect获取视频流，根据其手部节点位置获取手部的大致范围，分别提取手部的深度图像和RGB图像；b.特征提取，对于从步骤a中获取的两种图像将分别提取不同的特征用于后续的指尖跟踪；c.特征融合以获得观测模型；d.粒子滤波跟踪，采用的粒子滤波方法过程明细如下：粒子样本集合描述，设粒子集合模型S＝{x,y,v_x，v_y，w_x，w_y，a}，在此，w_x，w_y，均设为固定值d1，a是速度的尺度变换因子，样本集合的更新通过系统状态变化传播方程s_t＝As_t+w_t‑1实现；在本发明中并给出了粒子滤波算法步骤；e.鼠标位置转换。本发明提出了更加有效的特征，并且进行特征融合，再结合角点检测来达到实时精确的跟踪目的的有益效果。

Description

一种3D手势鼠标的生成方法

技术领域

本发明涉及计算机技术领域，具体是指一种3D手势鼠标的生成方法。

背景技术

鼠标是计算机的一种输入设备，也是计算机显示系统纵横坐标定位的指示器，因形似老鼠而得名。鼠标的使用是为了使计算机的操作更加简便快捷，来代替键盘那繁琐的指令。

鼠标的发展历程从原始鼠标、机械鼠标、光电鼠标(光学鼠标，激光鼠标)再到如今的触控鼠标，鼠标技术经历了漫漫征途终于修成正果。

在早些年，大多数用户都只愿意在鼠标身上花费不超过20元投资，当然此种情况今天已难得一见，应用的进步让人们对鼠标开始提出更多的要求，包括舒适的操作手感、灵活的移动和准确定位、可靠性高、不需经常清洁，鼠标的美学设计和制作工艺也逐渐为人所重视。在电脑中，鼠标的操纵性往往起到关键性的作用，而鼠标制造商迎合这股风潮开始大刀阔斧的技术改良，从机械到光学、从有线到无线，造型新颖、工艺细腻的高端产品不断涌现。

而现在本发明提出了一种基于指尖识别跟踪的3D鼠标方法，通过该方法可以跟踪获得手指指尖的3维信息，从而建立一个3维的鼠标。

发明内容

本发明针对上述背景技术，提出了一种基于指尖识别跟踪的3D鼠标方法，通过该方法可以跟踪获得手指指尖的3维信息，从而建立一个3维的鼠标。

本发明是通过以下方法实现的，一种3D手势鼠标的生成方法，其特征在于，包括以下步骤，

a.视频输入

采用Kinect获取视频流，根据其手部节点位置获取手部的大致范围，分别提取手部的深度图像和RGB图像；

b.特征提取

对于从步骤a中获取的两种图像将分别提取不同的特征用于后续的指尖跟踪,

b-1.模板提取，对于步骤a中的深度图像和RGB图像，从中选取不同大小的图像区域作为特征提取模板，分别用M_depih，M_rgb表示，模板值分别为设定为M_depih＝40X40，M_rgb＝80X90；

对于获取的深度图像提取手部的指尖部分，即感兴趣区域M_depih，大小为40X40，对该图像进行二值化处理，从而得到指尖的一副大小为40X40的二值图像，其中白色(像素值255)表示指尖，黑色(像素值0)表示非指尖部分，将整个二值图像作出如下划分，整个图像的像素点数记为C_i，人体手指部分像素个数记为T_i，其中i为感兴趣区域的编号，则每个区域的指尖像素比如下：

对于彩色(RGB)图像，提取手部区域M_rgb＝80X90(区域包含整个手掌)，从该模板中提取边缘梯度信息作为另一个特征，提取边缘梯度信息的方法步骤和参数如下：

将彩色图像转换成灰度图像，利用canny算子进行边缘检测，得到该模板中明显的边缘点，然后用sobel算子与图像进行卷积操作，得到水平和垂直方向上的差分图像，分别标记为分别标记为G_x(x_i)和G_y(x_i)，那么边缘点的梯度幅值和方向分别为

其中θ∈{0,360°}x_i为像素点的坐标向量；

接着，对边缘点的方向指进行量化，一般量化级越高，匹配时越精确，由于是对指尖的小区域求边缘方向，边缘点数量不大，选取量化间隔为45°，量化级为8，为了提高边缘信息的可靠性，利用梯度幅值加权比重计算边缘直方图，以θ(x_i)作为直方图的横坐标，则直方图的纵坐标取值如下式

式中：k＝0，1，…8；

为狄拉克函数；

b-2.特征提取，对从深度图中获取到的二值像素比信息，设定新的相似度衡量方式，将不同的感兴趣区域中的像素占比度进行比较，得到他们的相对差值，作为新的相似度衡量方式，表达式如下：

其中，ρ(y)表示两个模板指尖的像素比特征相性度，

为目标模板的像素度比例，

为当前第第i个模板的指尖像素比；

当ρ(y)越大时，表示与我们需要追踪的目标越相似，特征匹配度越高；

对于从RGB图像获得边缘特征，采用巴氏距离衡量候选模型与目标模型之间的相似度，其公式如下：

其中

表示第i个候选模型的边缘方向直方图，

表示目标模型的边缘方向直方图，

ρ(y)的值越小，代表候选模型与目标模型越相似；

c.特征融合以获得观测模型

在变化的场景中，两种特征的表现性能不同，为了综合两者的优点，采用线性加权的方法联合两种特征的权重，对于式(5)和式(6)，令

如果某个特征的表现性越好，则与目标模型越相似，权重就越大，则联合特征密度可表示为

ρ_sum(y)＝α₁(1-ρ₁)+α₂ρ₂ (9)

d.粒子滤波跟踪

采用的粒子滤波方法过程明细如下：

粒子样本集合描述，设粒子集合模型S＝{x,y,v_x,v_y,w_x,w_y,a}其中x、y是粒子的中心位置，v_x,v_y是粒子在x,y方向上的移动速度，w_x,w_y,表示粒子所在区域的宽和高，在此，w_x,w_y,均设为固定值d1，a是速度的尺度变换因子，样本集合的更新通过系统状态变化传播方程s_i＝As_i+w_i-1实现，其中A为状态转移矩阵，w_i-1为高斯噪声；

粒子滤波算法包括以下步骤：

d-1.给定t-1时刻粒子样本集合，定义估计状态量，根据观测状态，权重和粒子数选择样本并进行重采样，本方法中粒子数设定为N＝50，初始化每个粒子的权重为1/N..现在给定t-1时刻粒子样本集合s_i-1,重采样时，首先对权重数组求归一化累计概率数组

随后根据高斯正太分布随机生成N个[0,1]间的满足均匀分布的随机变量，构成数组r,对数组的中每个元素，采用轮盘赌算法搜索累积概率数组，得到更新后的样本集合；

d-2.根据新的样本粒子集合，由系统转换方程s_i＝As_i+w_t-1，计算新的粒子位置；

d-3.对每一个状态预测量(即每一个样本粒子)，由公式(5)和(6)计算其所在候选区域的EOH(即边缘方向直方图)和像素占比度特征；

d-4.更新权重，由式(7)、(8)计算得到每一个粒子区域对应的EOH(边缘方向直方图)和像素比的特征概率密度ρ₁，ρ₂和权重比α₁和α₂，由式(9)计算候选目标与目标模型的相似度，根据观测得到的特征相似度，对该粒子的权重进行更新，权重的更新采用核函数：

d-5.对状态量进行估计，得到预测状态信息，根据更新后的权重，估计一个状态量作为跟踪输出，根据权重计算集合s_t的平均值，提取目标位置，作为跟踪输出结果，估计量满足关系式：

d-6.对预测的跟踪输出状态量，计算其与目标模型的相似度，当满足相似度阈值后，计算其所在区域的角点位置，重新更新角点位置为预测位置，再次计算更新后的状态量的边缘方向特征和像素占比度，计算该预测状态与观测状态目标模型的相似度，当联合特征相似度大于阈值(初始设定为0.86)的时候，利用遗忘因子更新目标模型的边缘直方图，并重新计算像素比，更新模型，遗忘因子取值范围为0.1～0.3，角点计算时，设定指尖边缘点的集合为F＝(x_p,y_p),首先计算轮廓点集合的中心点

求出其中距离中心最远的一个点为指尖点，

其中p表示第p个轮廓点；

d-7.计算最大权重值，并结合预测位置信息高斯判断跟踪是否正常，若是，则输出目标位置，并回到(1)；否则，跟踪丢失，回到程序开始，等待新目标；

e.鼠标位置转换

粒子滤波跟踪输出的位置仅仅是指尖在图像中的二维坐标，根据Kinect的深度图像和彩色图像的关系，由转换函数(kinect函数调用)得到其3维坐标；由于kinect转换得到的3维坐标与获取的深度图像有关，而其深度图像的波动会对得到的数据有明显的影响，提取粒子滤波输出点的周围相邻的8个位置的三维信息求平均来表示最终输出点的3维位置，

其中p_f(x,y,z)为最终输出的指尖位置的3维坐标，n＝8为相邻一圈的8个像素，但在实际的3维场景运用中，并不直接采用获取的深度坐标作为鼠标的显示位置，需要经过转换之后得到比较好的鼠标显示效果，转换方程为：

p_mouse(x,y,z)＝MC*p_f(x,y,z) (17)

其中p_mouse(x,y,z)为鼠标在3维场景中的位置，转换矩阵MC的构成如下

其中w_x,y,z分别表示场景或者显示器的宽高和深度，

分别表示第一次输入的指尖位置，该位置为后面鼠标操作位置的原点。

作为优选，步骤d中所述的固定值d1为40。

综上所述，本发明提出的一种3D手势鼠标的生成方法，主要采用粒子滤波作为跟踪方法，但是提出了更加有效的特征，并且进行特征融合，再结合角点检测来达到实时精确的跟踪目的。

附图说明

图1为本发明一种3D手势鼠标的生成方法的流程示意图；

图2为本发明中手指部分深度图；

图3为本发明中手指部分灰度图；

图4为本发明中指尖部分轮廓图。

具体实施方式

为能清楚说明本发明方案的技术特点，下面通过具体实施方式，对本方案进一步阐述。

在本实施例中，将固定每个粒子的半窗高和半窗宽，计算每一个粒子区域的边缘方向直方图和人体像素占比，采用巴式距离衡量边缘特征相似度，定义新的相似度衡量方式衡量像素占比度相似度，线性组合两种特征对目标模型进行跟踪，通过得到的预测模型，我们计算出其中离轮廓中心最远的一点，再次更新目标模型。

如图1中所示，一种3D手势鼠标的生成方法，包括以下步骤，

a.视频输入

b.特征提取

对于获取的深度图像提取手部的指尖部分，即感兴趣区域M_depth，大小为40X40，对该图像进行二值化处理，从而得到指尖的一副大小为40X40的二值图像。其中白色(像素值255)表示指尖，黑色(像素值0)表示非指尖部分，将整个二值图像作出如下划分，整个图像的像素点数记为C_i，人体手指部分像素个数记为T_i，其中i为感兴趣区域的编号，则每个区域的指尖像素比如下：

其中θ∈{0,360°}x_i为像素点的坐标向量；

式中：k＝0，1，…8；

为狄拉克函数；

其中，ρ(y)表示两个模板指尖的像素比特征相性度，

为目标模板的像素度比例，

为当前第第i个模板的指尖像素比；

其中

表示第i个候选模型的边缘方向直方图，

表示目标模型的边缘方向直方图，

ρ(y)的值越小，代表候选模型与目标模型越相似；

c.特征融合以获得观测模型

ρ_sum(y)＝α₁(1-ρ₁)+α₂ρ₂ (9)

d.粒子滤波跟踪

采用的粒子滤波方法过程明细如下：

粒子样本集合描述，设粒子集合模型S＝{x,y,v_x,v_y,w_x,w_y,a}其中x、y是粒子的中心位置，v_x,v_y是粒子在x,y方向上的移动速度，w_x,w_y,表示粒子所在区域的宽和高，在本实施例中，w_x,w_y,均设为固定值40，a是速度的尺度变换因子，样本集合的更新通过系统状态变化传播方程s_t＝As_i+w_i-1实现，其中A为状态转移矩阵，w_i-1为高斯噪声；

粒子滤波算法包括以下步骤：

d-1.给定t-1时刻粒子样本集合，定义估计状态量，根据观测状态，权重和粒子数选择样本并进行重采样，本方法中粒子数设定为N＝50，初始化每个粒子的权重为1/N..现在给定t-1时刻粒子样本集合s_t-1,重采样时，首先对权重数组求归一化累计概率数组

d-2.根据新的样本粒子集合，由系统转换方程s_t＝As_i+w_i-1，计算新的粒子位置；

d-5.对状态量进行估计，得到预测状态信息，根据更新后的权重，估计一个状态量作为跟踪输出，根据权重计算集合s_i的平均值，提取目标位置，作为跟踪输出结果，估计量满足关系式：

求出其中距离中心最远的一个点为指尖点，

其中p表示第p个轮廓点；

e.鼠标位置转换

p_mouse(x,y,z)＝MC*p_f(x,y,z) (17)

其中w_x,y,z分别表示场景或者显示器的宽高和深度，

最后，还应说明，上述举例和说明也并不仅限于上述实施例，本发明未经描述的技术特征可以通过或采用现有技术实现，在此不再赘述；以上实施例及附图仅用于说明本发明的技术方案并非是对本发明的限制，参照优选的实施方式对本发明进行了详细说明，本领域的普通技术人员应当理解，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换都不脱离本发明的宗旨，也应属于本发明的权利要求保护范围，例如步骤b-1中，图像区域的大小尺寸也可以选择其他的大小尺寸，再次说明，上述实施例只是给出了随意举了一个目前常用的实施方式。

Claims

1.一种3D手势鼠标的生成方法，其特征在于，包括以下步骤，

a.视频输入

b.特征提取

对于从步骤a中获取的两种图像将分别提取不同的特征用于后续的指尖跟踪，

b-1.模板提取，对于步骤a中的深度图像和RGB图像，从中选取不同大小的图像区域作为特征提取模板，分别用M_depth，M_rgb表示，模板值分别为设定为M_depth＝40X40，M_rgb＝80X90；

对于获取的深度图像提取手部的指尖部分，即感兴趣区域M_depth，大小为40X40，对该图像进行二值化处理，从而得到指尖的一副大小为40X40的二值图像，其中白色(像素值255)表示指尖，黑色(像素值0)表示非指尖部分，将整个二值图像作出如下划分，整个图像的像素点数记为C_i，人体手指部分像素个数记为T_i，其中i为感兴趣区域的编号，则每个区域的指尖像素比如下：

其中θ∈{0，360°}x_i为像素点的坐标向量；

式中：k＝0，1，...8；

为狄拉克函数；

其中，ρ(y)表示两个模板指尖的像素比特征相性度，

为目标模板的像素度比例，

为当前第第i个模板的指尖像素比：

其中

表示第i个候选模型的边缘方向直方图，

表示目标模型的边缘方向直方图，

ρ(y)的值越小，代表候选模型与目标模型越相似；

c.特征融合以获得观测模型

ρ_sum(y)＝α₁(1-ρ₁)+α₂ρ₂ (9)

d.粒子滤波跟踪

采用的粒子滤波方法过程明细如下：

粒子样本集合描述，设粒子集合模型S＝{x，y，v_x，v_y，w_x，w_y，a}其中x、y是粒子的中心位置，v_x，v_y是粒子在x，y方向上的移动速度，w_x，w_y，表示粒子所在区域的宽和高，在此，w_x，w_y，均设为固定值d1，a是速度的尺度变换因子，样本集合的更新通过系统状态变化传播方程s_t＝As_t+w_t-1实现，其中A为状态转移矩阵，w_t-1为高斯噪声；

粒子滤波算法包括以下步骤：

d-1.给定t-1时刻粒子样本集合，定义估计状态量，根据观测状态，权重和粒子数选择样本并进行重采样，本方法中粒子数设定为N＝50，初始化每个粒子的权重为1/N..现在给定t-1时刻粒子样本集合s_t-1，重采样时，首先对权重数组求归一化累计概率数组

随后根据高斯正太分布随机生成N个[0，1]间的满足均匀分布的随机变量，构成数组r，对数组的中每个元素，采用轮盘赌算法搜索累积概率数组，得到更新后的样本集合；

d-2.根据新的样本粒子集合，由系统转换方程s_t＝As_t+w_t-1，计算新的粒子位置；

d-6.对预测的跟踪输出状态量，计算其与目标模型的相似度，当满足相似度阈值后，计算其所在区域的角点位置，重新更新角点位置为预测位置，再次计算更新后的状态量的边缘方向特征和像素占比度，计算该预测状态与观测状态目标模型的相似度，当联合特征相似度大于阈值(初始设定为0.86)的时候，利用遗忘因子更新目标模型的边缘直方图，并重新计算像素比，更新模型，遗忘因子取值范围为0.1～0.3，角点计算时，设定指尖边缘点的集合为F＝(x_p，y_p)，首先计算轮廓点集合的中心点

求出其中距离中心最远的一个点为指尖点，

其中p表示第p个轮廓点；

e.鼠标位置转换

其中p_f(x，y，z)为最终输出的指尖位置的3维坐标，n＝8为相邻一圈的8个像素，但在实际的3维场景运用中，并不直接采用获取的深度坐标作为鼠标的显示位置，需要经过转换之后得到比较好的鼠标显示效果，转换方程为：

p_mouse(x，y，z)＝MC*p_f(x，y，z) (17)

其中p_mouse(x，y，z)为鼠标在3维场景中的位置，转换矩阵MC的构成如下

其中w_x，y，z分别表示场景或者显示器的宽高和深度，

2.根据权利要求1所述的一种3D手势鼠标的生成方法，其特征在于，步骤d中所述的固定值d1为40。