CN109375766A

CN109375766A - 一种基于手势控制的新型学习方法

Info

Publication number: CN109375766A
Application number: CN201811070443.2A
Authority: CN
Inventors: 何艳玲; 王旭; 黄凯; 宋日辉; 周驭让; 赵惠; 张艺斓; 林镇坤
Original assignee: Individual
Current assignee: Red Ship Technology Guangzhou Co ltd
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2019-02-22

Abstract

本发明涉及视频流处理技术及图像处理的技术领域，更具体地，涉及一种基于手势控制的新型学习方法。该方法包括：步骤1：通过摄像头捕捉包含学习者在内的视频；步骤2：通过对视频流的图片进行逐帧的手部识别，得到手部的实时位置；步骤3：分析视频流中连续多帧图片的数据，识别手部运动，实现手势识别；步骤4：使用识别得到的手势，控制终端。本发明将手势控制交互技术引入学习系统，让学员能够更加快捷、方便、高效的操作学习系统，提高学员的学习效率。

Description

一种基于手势控制的新型学习方法

技术领域

本发明涉及视频流处理技术及图像处理的技术领域，更具体地，涉及一种基于手势控制的新型学习方法。

背景技术

学习系统建设是学习的重要任务和重要工作。学习系统一般包含以下几个模块：资讯门户板块(学习信息的载体，用于传播关于民情的有关资讯)、组织生活板块(让广大学员用户能够通过多种方式来参与组织生活，真正实现组织生活“无处不在”)、签到板块(用于考察学员的学习情况)、交流讨论板块(提供学员、群众之间的交流互动的场所)。

学习系统内部的功能丰富、用户需求众多，从而引发了高频且复杂的交互需求。传统学习的模式是“一张报，一支笔，一张嘴”，该模式不仅耗时耗力，交互模式单一，还往往容易导致学员无法及时获取最新资讯和学习内容，上级无法有效掌握学员的学习情况，以及学员的学习互动性、深入性不佳等问题。随着互联网大潮的到来，学习工作更多被搬到了计算机等其他终端设备上，目前已有研究人员尝试采用智能设备、交互技术，大数据等形式改善学习系统，增强学员在使用学习系统过程中的互动性，提高学习和使用效率。

近年来，随着图像识别、视频流技术的不断成熟，越来越多的手势控制和手势识别技术被运用在了多媒体交互系统上。用户通过手势对交互系统进行控制或者信息输入，一来降低了交互过程中复杂的视觉显示成本，大大提升多媒体信息显示的容纳空间，二来用户不仅在控制系统方面提升了效率，而且在系统交互综合技术的作用下，往往能够更加深入的吸收和学习，其中，视频流、图像识别技术起到了关键的作用。

视频流技术(Video Streaming Technologies)是一种数据传输技术，视频数据经过编码，压缩后通过网络进行传输。主流的视频、音频数据传输的协议是 RTP协议。

手势识别是一种基于图像识别的人体行为识别技术，交互设备通过RGB摄像头、红外摄像头等摄像设备获取视频图像信息，并将数据传输至计算机。计算机通过一些图像预处理技术(例如图像去噪、平滑、变换)，加强图像的重要特征，而后通过监督分类算法对图像进行分类，从而达成识别和定位人体信息。在获取人体位置的基础上，

通过视频流和手势识别处理技术，基于学习学习场景的用户，可以在学习与控制系统的过程中使用手势进行人机交互，从而极大的提升信息交流和效率并增强学习的积极性和互动性。

现有技术的缺陷是，没有视频流和手势识别处理技术，仅能通过语音进行人机交互，信息交流的效率较低，学习的积极性和互动性也较低。

没有事先对人像进行识别，因此摄像头捕捉到的所有手势都会被纳入机器的分析范围，一方面造成分析困难，降低了学习系统的使用效率，另一方面也无法排除使用者作弊的可能，旁人可以轻易的帮助使用者通过学习系统的考试等。

没有结合人眼定位，使得机器实际操作过程中，无法像现实中一样眼到即可，还需要手到，非常不便。同时，仅仅是手部动作不需要学习系统使用者全神贯注，使用者非常容易走神，在观看或使用学习系统时，很可能只是动作到位，而眼神和脑子没有到位。

通常是手势轮廓转变为机器中的逻辑坐标，而这要求使用者手势动作幅度必须与实际相符，比如面对着较大、较高的机器，使用者若要点击右上角的东西，就得将手实际伸到右上角，对部分身高低于平均水平的使用者而言，非常吃力，这样的用户交互即使是正常人也不会觉得友好。

缺乏创新的应用方式。几乎所有的专利都缺乏对某一领域的深耕和发掘，也缺乏对时代潮流的把握，因而在营销和成本的考虑下，新的技术往往难以快速曝光，获得广泛的知名度。新的技术也因此错失了跨界合作机会，难以广泛应用到各行各业。

导致上述缺陷的原因是：设计者缺乏对市场和商机的把控，因而难以设计和发明出真正符合市场期待、引爆社会需求的产品。设计者缺乏实际使用的体验，因而在实际的时候缺乏对实际应用功能的考量。一方面缺乏经验，另一方面缺乏对细分领域的专属调整与改进设置。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种基于手势控制的新型学习方法，针对学习工作中，学习者通过机器终端学习时，缺少交互手段的问题，提出一种基于终端机器上的摄像头捕捉的图像，利用视频流处理技术、数字图像处理技术等识别进行手势识别，从而控制终端的方法，实现学习者能与终端进行友好的、有效的互动，提升学习的有效性和能动性。

本发明的技术方案是：一种基于手势控制的新型学习方法，其中，包括以下步骤：

S1.用户通过设备提示，面向新型学习设备做出手势；

S2.设备摄像头捕捉用户的图像颜色信息和深度信息；

S3.使用RTP协议将深度数据流、彩色视频流传输至计算机设备；

S4.计算机通过Kinect对图像中的用户进行人体识别并获取骨骼框架，并读取人体骨骼信息，分析其骨骼变化动作，从而识别手势；

S5.计算机分析手势信息，做出相应的应变，并将结果通过屏幕等交互设备返回至用户。

本发明致力于通过人机交互、智能终端、人工智能等高新技术，建设全新学习学习系统，通过引入手势识别和图像捕捉技术。学习系统设备能够读懂用户的手势，而用户可以光靠手势就能进行交互，优化学习学习的体验。该发明打破以往学习只能通过“纸和笔”进行学习的传统模式，让各级学员能够便利、高效、深入的学习了解学习的同时，也能将学习学习过程互联网化、数据化，打造智慧学习、数据学习。相比以往学习学习系统的交互技术，本发明丰富了用户的学习模式，并提高了用户的学习效率，优化了用户的学习学习体验。

本发明依托于微软开发的Kinect设备、网络传输层协议RTP协议以及学习系统平台实现。

手势能代表多种不同的信息，直观地传达出人们的情感和需求，它具有丰富的表现力和高度的灵活性，成为人际交往中最有力的表达手段，在肢体语言中占有最重要的地位。将手势引入到人机交互中，通过手势与计算机进行交流，手势通常作为一种指令触发相应的事件，例如打开和关闭文件、点击按钮、划动窗口等，更加直观的引导用户去操作。

基于学习系统的双向交互是市场上的一个空白，人们传统的思维将学习限定在了纸笔上，而缺乏对互联网+潮流的理解。学习工作面临着开会难、考试难、教学难等亟待解决的问题，而学习系统可以一站式解决难题，通过对人像识别，锁定系统使用者并识别身份；进一步识别使用者的手势，与背景环境分割开来；同步识别使用者视线和手势轮廓与定位，实现远程、人机交互；同时成本较低，使用年限长，从技术手段支持了学习工作的开展，降低了学习工作的开展成本。

有了学习系统收集和分析使用者眼神、手势、使用路径和结果，领导者可以轻松获取使用数据，了解本地区的学习工作各方面情况；服从者不必为不同领导的不同口味奔波不停，只需要听一个声音、背一个声音，在同一台机器上操作答题即可。大大降低了学习工作的沟通成本，使得学习工作有的放矢，事半功倍。

与现有技术相比，有益效果是：在大多数学员与学习系统进行交互的场景中，绝大部分功能都是通过键盘、鼠标、手柄完成的。这些外接设备来操纵计算机生成的虚拟物体，大大降低了操作者的沉浸感、自然感，不仅不能激发使用者的兴趣而且也限制了操作者的活动能力。本发明将手势控制交互技术引入学习系统，让学员能够更加快捷、方便、高效的操作学习系统，提高学员的学习效率。

基于学习系统的双向交互是市场上的一个空白，人们传统的思维将学习限定在了纸笔上，而缺乏对互联网+潮流的理解。手势控制这一先进的交互技术，将使得学习学习过程中中心逐渐从计算机转移至人身上，使得互联网和智能信息技术提升工作水平。

附图说明

图1是本发明深度信息提取示意图。

图2是本发明Kinect系统的人体骨骼特征框架图。

图3是本发明指向手势骨骼特征图。

图4是本发明缩放手势骨骼特征图。

图5是本发明基于手势识别的学习系统示意图。

图6是本发明手势识别核心技术流程图。

图7是本发明DTW动态手势识别算法示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

一种基于手势控制的新型学习方法，其中，包括以下步骤：

S1.用户通过设备提示，面向新型学习设备做出手势；

S2.设备摄像头捕捉用户的图像颜色信息和深度信息；

如图1所示，所述的步骤S2中，通过Kinect对用户进行人体识别并获取骨骼图，首先采用Light Coding技术，即利用连续光(近红外线)对测量空间进行编码，经感应器读取编码的光线，交由晶片运算进行解码后，产生成一张具有深度的人体图像。

所述的步骤S4中，Kinect提取深度图像中的人体骨骼信息；Kinect预先通过大量的训练让分类器得到学习，从而识别人体骨骼信息并输出骨骼坐标。为进一步说明，给出Kinect系统的骨骼特征框架。Kinect系统中人体的骨骼被标识为 20个特征节点所构建，如图2所示。

其中从A到T依次是臀部节点、脊椎节点、肩部中间节点、左肩部节点、左胳膊肘节点、左手腕部节点、右肩部节点、右胳膊肘节点、右手腕部节点、左臀部节点、左膝盖点、左踝部节点、右臀部节点、右膝盖节点、右踝部节点、头部节点、左手节点、右手节点、左脚节点、右脚节点。

第四步是整个手势识别控制学习系统的核心，其步骤可被细分为，具体为以下步骤：

S41.深度图像特征提取；

S42.根据随机森林的叶子节点预测骨骼模型；

S43.基于骨骼特征信息进行动态手势关节特征描述；

S44.利用动态手势识别算法进行手势识别。

所述的步骤S41中，对于一个给定的像素u，特征通过公式：

提取，其中，特征参数φ＝(δ₁，δ₂)描述了二维像素的两个不同的偏移量δ₁，δ₂，函数z(u)为像素u的实际深度值；而f(u∨φ)可以很好地刻画图像特征之间的深度差关系。

所述的步骤S42中，首先对处在每个像素位置的身体部位进行分类，分类森林将实现这一点；决策森林实现身体部位骨骼点分类后，使用带加权高斯核做进一步处理；对于预测算法中某一特定的身体部位c，根据以下公式定义一个密度函数：

w_i＝P(c|I,x_i)*d_i(x_i)² (2.2)

上述公式中，b_c为特定部位的带宽，N为图像中全部像素的个数，是x像素的三维坐标，对于公式(2.2)中相应的权值w_i，它与特定部位的相关像素的深度以及特定部位的概率分布相关，采用此算法，从上述公式中找出中出现次数最多的那个值，将会得到各骨骼结点的三维信息。

新型学习手势交互系统包含丰富的手势控制，本节主要针对四个功能手势，指向手势、转向手势、缩放手势和挥手手势。转向手势和挥手手势的特征较为简单，下面主要对向手势和缩放手势作特征描述。指向手势的骨骼特征如图3所示：

所述的步骤S43中，包括四个功能手势，指向手势、转向手势、缩放手势和挥手手势；

所述的指向手势，具体描述为：

δ^P，同一身体中手关节和臀部关节的欧式距离，此特征描述子可以有效的区分虽然胳膊是伸展状态但是不是指向的手势动作；

θ^P，肘关节的角度，由肘关节与肩关节组成的向量和肘关节与手关节组成的向量所确定，它可以判断胳膊是否处于伸展状态；

ρ^P，手关节的位置；

所述的缩放手势的特征如图4所示，具体描述为：

δ^w,颈部关节和手关节的欧氏距离，将被标准化在[0,1]范围内，从而避免躯干大小的不同带来的误差；

θ^W,肘关节角度，不需要标准化处理，因为不会受到躯干大小不同的影响。

所述的步骤S44中，使用动态时间规整算法对动态手势进行分类；其核心思想是当两序列完全匹配时，找出使得累计距离最小的那个相应函数；一个序列是手势动作g的参考序列R_g＝{r₁,…,r_m},另一个序列是输入流S＝{s₁,…,s_n}，s_i和 r_i都是特征向量；距离最小的序列即为机器识别的手势动作；

例如对于缩放手势：

对于指向手势：

为了让S对应各种手势的参考序列，采用动态规划的方式调整序列之间的长短，并计算其欧氏距离；

为此构造一个m*n的矩阵网格M，的每一个矩阵元素m_(i,j)都表示两序列的距离，它被定义为：

m_i，j＝d(r_i，s_j)+min(m_i，j-1，m_i-1，j，m_i-1，j-1)

其中d(r_i,s_j)是距离度量准则；如此进行递归计算，可以得到一条最佳的两序列对齐路径；此时需要寻找一条最佳通过此网格中若干格点的路径，路径通过的格点即为两个序列进行计算的对齐的点；把这条路径定义为warping path规整路径，并用W来表示，W的第k个元素定义为wk＝(i,j)k，定义了序列Q和C的映射；这样我们有：

W＝{w₁,…,w_k}，max(m,n)≤k≤m+n+1

此时，可以得到输入流S和每个参考手势控制序列的规整代价最小的路径，其累计距离按如下公式计算：

输出累计距离最小的参考手势姿势序列，交由计算机解读预存的手势命令 (左翻页、前进、缩放等)，并操作学习系统完成人机交互，动态手势识别交互完成。

如图5所示，为系统整体交互流程图，步骤如下：

S1.用户通过设备提示，面向新型学习设备做出手势；

S2.设备摄像头捕捉用户的图像颜色信息和深度信息；

图6为手势识别核心技术流程。

如图7所示，为解决各个学员的做出同一手势的姿态(挥手幅度，时间长短比例)不同，本发明采用DTW算法，让学员的手势同一时间序列特征以最大相似度映射至学习系统存放的参考手势样例上，以此提高准确识别的成功率。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于手势控制的新型学习方法，其特征在于，包括以下步骤：

S1.用户通过设备提示，面向新型学习设备做出手势；

S2.设备摄像头捕捉用户的图像颜色信息和深度信息；

2.根据权利要求1所述的一种基于手势控制的新型学习方法，其特征在于：所述的步骤S2中，通过Kinect对用户进行人体识别并获取骨骼图，首先采用Light Coding技术，即利用连续光对测量空间进行编码，经感应器读取编码的光线，交由晶片运算进行解码后，产生成一张具有深度的人体图像。

3.根据权利要求1所述的一种基于手势控制的新型学习方法，其特征在于：所述的步骤S4中，Kinect提取深度图像中的人体骨骼信息；Kinect预先通过大量的训练让分类器得到学习，从而识别人体骨骼信息并输出骨骼坐标。

4.根据权利要求1所述的一种基于手势控制的新型学习方法，其特征在于：所述的步骤S4中，具体为以下步骤：

S41.深度图像特征提取；

S42.根据随机森林的叶子节点预测骨骼模型；

S43.基于骨骼特征信息进行动态手势关节特征描述；

S44.利用动态手势识别算法进行手势识别。

5.根据权利要求4所述的一种基于手势控制的新型学习方法，其特征在于：所述的步骤S41中，对于一个给定的像素u，特征通过公式：

6.根据权利要求4所述的一种基于手势控制的新型学习方法，其特征在于：所述的步骤S42中，首先对处在每个像素位置的身体部位进行分类，分类森林将实现这一点；决策森林实现身体部位骨骼点分类后，使用带加权高斯核做进一步处理；对于预测算法中某一特定的身体部位c，根据以下公式定义一个密度函数：

w_i＝P(c|I,x_i)*d_i(x_i)² (2.2)

7.根据权利要求4所述的一种基于手势控制的新型学习方法，其特征在于：所述的步骤S43中，包括四个功能手势，指向手势、转向手势、缩放手势和挥手手势；

所述的指向手势，具体描述为：

ρ^P，手关节的位置；

所述的缩放手势，具体描述为：

8.根据权利要求4所述的一种基于手势控制的新型学习方法，其特征在于：所述的步骤S44中，使用动态时间规整算法对动态手势进行分类；其核心思想是当两序列完全匹配时，找出使得累计距离最小的那个相应函数；一个序列是手势动作g的参考序列R_g＝{r₁,…,r_m},另一个序列是输入流S＝{s₁,…,s_n}，s_i和r_i都是特征向量；距离最小的序列即为机器识别的手势动作；

例如对于缩放手势：

对于指向手势：

m_i，j＝d(r_i，s_j)+min(m_i，j-1，m_i-1，j，m_i-1，j-1)

W＝{w₁,…,w_k}，max(m,n)≤k≤m+n+1

输出累计距离最小的参考手势姿势序列，交由计算机解读预存的手势命令，并操作学习系统完成人机交互，动态手势识别交互完成。