CN114265498A

CN114265498A - 一种多模态手势识别和视觉反馈机制结合的方法

Info

Publication number: CN114265498A
Application number: CN202111544200.XA
Authority: CN
Inventors: 陈杰; 李晓冬; 罗子娟; 缪伟鑫
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-04-01
Anticipated expiration: 2041-12-16
Also published as: CN114265498B

Abstract

本发明提供了一种多模态手势识别和视觉反馈机制结合的方法，本发明借助佩戴在头上的视觉传感器高清可见光摄像头、佩戴在用户上臂的肌电电极和佩戴在手上的运动手势数据手套，通过采集视觉图像/视频、瞬时高密度肌电信号和运动信号等多源数据，然后通过多模态手势融合识别方法，对用户手势动作进行综合识别。另外，本发明设计了交互领域中的三维交互反馈控制模型和手势交互视觉反馈机制模型，实现手势交互的视觉反馈，并提出视觉反馈方式运用的设计原则，模型规范形式，原则指导运用，确保视觉反馈能发挥最大的优势。

Description

一种多模态手势识别和视觉反馈机制结合的方法

技术领域

本发明属于人机交互和人工智能领域，涉及一种多模态手势识别和视觉反馈机制结合的方法。

背景技术

近些年来随着计算机技术的不断发展，人机交互技术也在日常生活中发挥越来越重要的作用，如何建立和谐自然的人机交互环境，使用户可方便地以人类所熟知的方式使用计算机是我们急需解决的难题。传统的人机交互方式由当初的只有键盘输入到目前的鼠标、遥杆、无线设备输入等等都大大的便利了人们与计算机之间的交互，使得人们能够更方便的操作计算机，从而能够快速的完成一定的任务，然而这些交互方式既要依赖额外的输入设备，又不符合人们的交互习惯。人手是人体最灵活的部位，手语是人的第二语言。将人手作为人机交互的手段，相比其他生物特征而言更为自然、直接、丰富。由于手势本身的灵活性和多样性，使其可以包含非常丰富的信息，而且使用手势的交互更加符合人们的交流习惯，故其在增强现实、虚拟现实等领域中都有广泛的运用。然而由于人手本身是一个复杂的可变形体，而且手势具有多样性、多义性及不确定性，因此这是一个极富挑战性的多学科交叉的研究课题，是近年来人机交互的研究热点及难点，研究手势识别对于改善人机交互的意义很大。

传统的手势识别技术一般都是基于彩色图像和灰度图像信息，本发明的手势识别不仅基于手势图像、视频还结合了手势的肌电数据和动作数据，在手势交互的准确性方面均有了很大的提升。另外传统基于图像的手势识别方法，在光照条件不理想的情况下，无法进行手势的正确识别，本发明采用视觉手势与肌电手势以及运动手势融合互补的方法进行手势识别，在外界光照条件不理想或者夜晚情况下仍然能够进行正确的手势识别交互。

手势交互视觉反馈机制属于虚拟交互研究范畴，在虚拟交互的范畴中，由于系统缺乏真实的约束和力反馈，所以需要反馈系统的设计，如果没有反馈系统，人就无法得知自己行动的是否产生了有效的结果。在虚拟交互中，首先要分清的问题输入和输出是否一致的问题，视觉反馈机制即是在真实与虚拟之间建立用户视觉感受一致性。目前视觉反馈机制研究不多，本发明设计交互领域中的三维交互反馈控制模型，提出视觉反馈方式运用的设计原则，模型规范形式，原则指导运用，确保视觉反馈能发挥最大的优势。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种多模态手势识别和视觉反馈机制结合的方法，包括多模态手势识别和视觉反馈机制；

所述多模态手势识别，包括：采用视觉手势识别、肌电手势识别和运动手势识别三种模态进行手势交互，最后进行多模态手势融合识别。

视觉手势采用佩戴在头上的高清可见光摄像头进行采集，肌电手势采用佩戴在上臂的肌电电极进行采集，运动手势采用佩戴在手上的数据手套进行采集，摄像头、肌电电极和数据手套是三种手势采集的三类不同传感器。

所述视觉手势识别，包含静态手势识别和动态手势识别；

所述静态手势识别过程包括：采用追踪与检测、数据驱动和模型驱动以及多阶段管道方法实现手势分类；基于全局方向，获得关节位置和角度，通过6自由度获得手部关节的自由度；采用Decision forest决策森林法对手部进行检测，使用深度网络回归关节位置，最后使用IK逆运动学(Inverse Kinematics，逆运动学)优化手部关节检测；采用真实数据、手动标注的方法获取训练数据并进行数据训练和数据生成；手势识别模型生成采用基于粒子群优化方法，从参数空间搜索最优化参数，演化的过程中，记录整个点云的最好位置以及每一个点的局部最好的位置；在每一个粒子的演化过程中，都以它前一个速度的特定运算更新粒子的速度，能够更好地搜索参数空间，避免某很差的局部最优值；

所述动态手势识别，采用基于LSTM长短期记忆人工神经网络的连续手势识别方法，针对自然手势存在多样性、多义性等特点，LSTM长短期记忆人工神经网络关注手势时间序列上的变化、手的运动轨迹、手的外形特征，实现连续手势识别。

所述在每一个粒子的演化过程中，都以它前一个速度的特定运算更新粒子的速度，具体采用如下公式：

其中，

是粒子i在第k次迭代中d维的速度；

是粒子i在第k+1次迭代中d维的速度，

是粒子i在第k次迭代中d维的当前位置，

是粒子i在第k+1次迭代中d维的位置；rand₁、rand₂是随机数；

是粒子i在第k次迭代中d维的个体最优值，

是粒子i在第k次迭代中d维的全局最优值，c₁，c₂是粒子加速系数，表示每个粒子pbest和gbest靠近的随机加速度权值。

所述肌电手势识别，首先采集用户上臂瞬时高密度肌电HD-sEMG信号，HD-sEMG信号描绘了电势在空间中的分布，其对应的热度图就是肌电图像，然后采用深度机器学习框架来从肌电图像中识别手势；所述深度机器学习框架包括两个阶段：离线训练阶段和在线识别阶段；其中，离线训练阶段，事先准备好能够用于深度学习训练的手势数据集，给定肌电图像和对应的手势标签，训练好一个深度学习图像分类器用于识别肌电图像属于哪个手势；在线识别阶段，使用训练好的图像分类器识别肌电图像对应的手势；图像分类器输入分辨率为8*16的图像，经过两个卷积层，两个局部链接层，以及4个全连接层，对手势数据集中的手势进行识别。

所述运动手势识别，包括：使用数据手套，数据手套内置MEMS惯性传感器，MEMS惯性传感器包括三轴陀螺仪、三轴加速度计、三轴磁强计；其中，三轴陀螺仪和三轴加速度计，采用MPU6050传感器；三轴磁强计采用HMC5883型号；

运动手势识别根据单双手、手势朝向和手势幅度的特点选择经典特征，分别采用单双手分类器、手势朝向分类器和手势幅度分类器进行识别(这些分类器均为现有技术)，采用四级树形分类结构框架，每一个非叶子节点代表一个与对应手势候选集相关的分类器(单双手分类器、手势朝向分类器和手势幅度分类器)，捕获不同类型的手势动作信息，每一个节点的分支代表分类器的一个类别；所有可能的手势类别构成了根节点的手势动作候选集，然后每一个非叶子节点的候选集根据相应的节点分类器分类到相应的子节点；在手势识别过程中，未知的手势动作被依次送入单双手分类器、手势朝向分类器和手势幅度分类器后获得最终的识别结果。

所述多模态手势融合识别，其中的多模态是指高清可见光摄像头、肌电电极、数据手套三类传感器采集的三种模态手势数据，这三种模态手势数据分别为：摄像头采集的手势动作视频信号、肌电电极采集的肌电信号和数据手套采集的运动信号，其中肌电信号和运动信号都是生理信号；针对三类信号(即摄像头采集的手势动作视频信号、肌电电极采集的肌电信号和数据手套采集的运动信号，其中肌电信号和运动信号都是生理信号)，手势动作视频信号进行手势分割、有效手势帧提取、手势建模与特征提取，形成视频信号类特征；肌电信号和运动信号进行预处理、活动段检测、特征提取，形成生理信号类特征；针对视频信号类和生理信号类两类特征，分别进行分类识别后，在决策级进行决策融合，最终得到摄像头、肌电电极和数据手套三种传感器融合后的识别结果。

所述在决策级进行决策融合，是采用基于D-S(Dempster-Shafer)证据理论的决策融合方法，在摄像头、肌电电极和数据手套分别采集视频、肌电与运动信号，进行预处理、手势动作分割、特征提取及分类后，分别得到三类传感器(即高清可见光摄像头、肌电电极、数据手套三类传感器)的判决结果；利用三类传感器对各手势类别的证据区间，运用Dempster组合规则计算合成后的基本可信度分配函数，最后进行逻辑判定，得到融合后的判决结果，具体包括：

步骤a1，建立D-S识别框架：

设定D-S证据理论识别框架为Θ，关于命题的相互独立的可能的识别结果或者假设都定义所述识别框架(集合)内；Θ中所包含的所有可能的子集的集合称为Θ的幂集，用符号Ω(Θ)表示；在手势识别中，设定待识别样本的类别可能为a，b，c三种，则在这种情况下，识别框架和幂集定义如下：

Θ＝{a，b，c}，

Ω(Θ)＝{φ，{a}，{b}，{c}，{a，b}，{a，c}，{b，c}，{a，b，c}}；

步骤a2，建立D-S证据组合法则：

设定M1、M2为同一个识别框架Θ下来自两类不同传感器数据的信任度函数，m1、m2分别为M1、M2对应的基本可信度分配函数；

则根据D-S正交原则，合成后的基本可信度分配函数m(C)为：

其中，中间参数

A＝(A₁,A₂,…,A_n)为条件属性集，A_i为条件属性集中第i个元素；B＝(B₁,B₂,…,B_n)为决策属性集，B_j为决策属性集中的第j个元素，C＝A_i∩B_j，C为属性集，i、j取值为1～n，n取值为自然数。

所述视觉反馈机制，包括：建立三维交互反馈控制模型，三维交互反馈控制模型包含交互设备模块、脚本设计模块、三维环境模块、过程模块和反馈模块；

其中，所述交互设备模块用于接收用户实际的手势交互输入，并进行虚拟手势输出，保证输入输出的一致性；

所述脚本设计模块用于对三维环境中的手势交互反馈进行脚本控制，比如移动、旋转、放大、缩小交互的目标对象；

所述三维环境模块用于描述手势交互的目标对象，手势操作的具体对象均在三维环境中呈现(包括虚拟三维目标和真实环境干扰)；

所述过程模块用于描述用户的交互过程，比如用户选择了一个目标并进行了放大和移动这一过程；

所述反馈模块是对交互过程作用在三维环境中目标对象的交互结果进行用户反馈。

三维交互反馈控制模型解决了手势识别过程中真实手部运动和系统识别的虚拟手部运动误差，还解决了用户认知的差异，即“所见非所动”的二次认知的问题；

本发明还包括手势交互反馈控制模型和手势交互视觉反馈机制模型，用户在手势交互的使用过程，根据特定的目的和任务进行一系列的操作，系统将用户的操作信息反馈给用户(例如，用户目的是“放大一个三维环境中目标A”，针对这个目的，用户做了食指和拇指由闭合向外张开的手势动作，那么手势交互反馈控制和视觉反馈机制就会在三维场景中的将随着用户的操作逐渐放大目标A并且高亮显示)。

所述手势交互反馈控制模型执行如下步骤：

步骤b1：输入期望r(t)，比如t时刻输入一个人的实际手势动作；

步骤b2：交互设备模块采集步骤b1中的期望r(t)，同时产生设备误差e(t)；

步骤b3：交互设备模块采集到期望r(t)后，驱动脚本设计模块在三维环境中进行手势交互反馈控制；

步骤b4：用户交互过程结束之后，产生输出y(t)；

步骤b5：比较r(t)和y(t)，把差值r(t)-y(t)反馈到脚本设计模块中的显示环节；

所述手势交互视觉反馈机制模型执行如下步骤：

步骤c1，手势交互视觉反馈机制模型中的视觉反馈信息分为狭义和广义的视觉反馈信息，狭义的视觉反馈是对用户操作行为的回应，包括操作肯定、操作引导、操作、报错；广义的视觉反馈还包括三维用户界面本身的指示信息，包括控制菜单、放大缩小、坐标方向；

步骤c2，经过情景分析，选择适合的交互反馈方式(可以人为进行选择)，包括交互反馈的发生位置、作用范围、作用时间、作用对象、作用方式；

步骤c3，结合硬件设备的特性，将交互反馈呈现给用户，从而完成信息传达到信息反馈的循环流程，如此循环，保证信息通过的持续流畅。

本发明借助佩戴在用户上臂的肌电电极、佩戴在手上的运动手势数据手套和佩戴在头上的视觉高清可见光摄像头，通过采集瞬时高密度肌电图像HD-sEMG、运动信号和视觉图像、视频等多源数据，然后通过多模态手势融合识别方法，对用户手势动作进行综合识别，基于任务上下文认知特点，采用面向典型场景的交互语义映射模型，实现手势交互语义。另外，本发明设计复杂环境下的手势交互反馈机制模型，即交互领域中的三维交互反馈控制模型，实现手势交互的视觉反馈，并提出视觉反馈方式运用的设计原则，模型规范形式，原则指导运用，确保视觉反馈能发挥最大的优势。

本发明首次将视觉、肌电、运动三种模态的手势进行融合识别构建虚拟场景中人机交互平台，与现有技术相比，其显著优点为：

(1)鲁棒性强。传统基于图像的手势识别，需要良好的光照条件，否则无法进行手势提取和识别，本发明采用视觉、肌电和运动融合识别，在视觉模态无法正常工作的情况下，仍然能够通过肌电和运动模态进行正确的手势识别。

(2)精确性高。传统单模态的手势识别，存在识别精度不高的问题。本发明采用三种模态融合识别，进行相互补充和冗余识别，能够大幅提升手势识别的精准度。

(3)便携化：本发明采用的三种手势采集传感器均为可穿戴设备，无需固定在某个物理位置，因此，用户进行交互时不需要在某个固定的物理空间中，交互时方便快捷。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是本发明涉及的典型手势类别。

图2是本发明方法的手部关节描述和自由度示意图。

图3是本发明方法的手部检测结果图。

图4是本发明方法的LSTM模型。

图5是本发明方法的肌电手势识别过程。

图6是本发明方法的部分肌电手势示意图。

图7是本发明方法的运动手势识别过程。

图8是本发明方法的多模态手势融合识别步骤。

图9是本发明方法的三维交互反馈控制模型。

图10是本发明方面的手势交互反馈控制模型。

图11是本发明方法的手势交互视觉反馈机制模型。

具体实施方式

本发明提供了一种多模态手势识别和视觉反馈机制结合的方法，其特征在于，包括多模态手势识别和视觉反馈机制；

所述多模态手势识别，采用视觉手势识别、肌电手势识别和运动手势识别三种模态进行手势交互，最后进行多模态手势融合识别。其中视觉手势采用佩戴在头上的高清可见光摄像头进行采集，肌电手势采用佩戴在手臂上的肌电电极进行采集，运动手势采用佩戴在手上的数据手套进行采集。上述摄像头、肌电电极和数据手套是三种手势采集的三类不同传感器。

所述视觉手势识别，包含静态手势识别和动态手势识别，采用基于深度神经网络的视觉手势识别方法。静态手势识别过程包括：手势分类、关节描述和自由度、手部检测、数据训练和生成、手势识别模型生成等步骤。采用追踪与检测、数据驱动和模型驱动以及多阶段管道方法实现手势分类，图1是本发明涉及的典型手势类别；基于全局方向，获得关节位置和角度，通过6自由度获得手部关节的自由度，图2是手部关节描述和自由度示意图；采用Decision forest(决策森林法)对手部进行检测，使用深度网络回归关节位置，最后使用IK(Inverse Kinematics，逆运动学)优化手部关节检测，图3是手部检测结果图；采用真实数据、手动标注的方法获取训练数据并进行数据训练和数据生成；手势识别模型生成采用基于粒子群优化方法，从参数空间搜索最优化参数，演化的过程中，记录整个点云的最好位置以及每一个点的局部最好的位置；在每一个粒子的演化过程中，都以它前一个速度的特定运算(公式如下)更新粒子的速度，能够更好地搜索参数空间，避免某很差的局部最优值。

其中，

是粒子i在第k次迭代中d维的速度；

是粒子i在第k+1次迭代中d维的速度，

是粒子i在第k次迭代中d维的当前位置，

是粒子i在第k+1次迭代中d维的位置；rand₁、rand₂是随机数；pbest是个体最优值，gbest是粒子的全局最优值，c₁，c₂是粒子加速系数，表示每个粒子pbest和gbest靠近的随机加速度权值。

所述动态手势识别，本发明采用基于LSTM(长短期记忆人工神经网络)的连续手势识别方法。针对自然手势存在多样性、多义性等特点，LSTM关注手势时间序列上的变化、手的运动轨迹、手的外形特征等多个方面，能够实现自然的连续手势识别。LSTM引入了存储单元，这是一种计算单元，它取代了传统节点在网络的隐藏层。有了这些存储单元，网络就可以克服早期经常性网络遇到的训练困难问题。LSTM模型类似于具有隐藏层的标准循环神经网络，但是隐藏层中的每个普通节点被存储器单元替代。每个存储器单元都包含一个具有固定权重的自连接循环边的节点，以确保梯度可以跨多个时间点长传递而不会消失或爆炸。图4是LSTM模型。图中，h_t-1，h_t，h_t+1为t-1、t、t+1时刻隐层向量，x_t-1，x_t，x_t+1为t-1、t、t+1时刻输入，σ表示sigmoid函数，tanh表示双曲正切函数。

所述肌电手势识别，所述肌电手势识别，首先采集用户上臂瞬时高密度肌电HD-sEMG信号，HD-sEMG信号描绘了电势在空间中的分布，其对应的热度图就是肌电图像，然后采用深度机器学习框架来从肌电图像中识别手势。该深度学习框架具有两个阶段：离线训练阶段和在线识别阶段。在训练阶段，事先准备好能够用于深度学习训练的手势数据集，给定肌电图像和对应的手势标签，训练好一个深度学习图像分类器用于识别肌电图像属于哪个手势；在识别阶段，使用训练好的图像分类器识别肌电图像对应的手势。深度卷积网络结构输入分辨率为8*16的图像，经过两个卷积层，两个局部链接层，以及4个全连接层，对数据集中的手势进行识别。图5是肌电手势识别过程。图6是部分肌电手势示意。

所述运动手势识别，运动传感器在捕获手势动作信息中同样具有很大优势，本发明使用数据手套，数据手套内置MEMS惯性传感器。该传感器具有体积小，便于携带、采集效率高、功耗低等优点，对人体的运动范围没有限制。用户佩戴多个传感器也能运动灵活自如。MEMS惯性传感器由三轴陀螺仪、三轴加速度计、三轴磁强计构成。三轴陀螺仪和三轴加速度计方面，本发明采用MPU6050传感器，它整合了三轴陀螺仪和三轴加速度计。陀螺仪的输出范围为每秒钟±250、±500、±1000、±2000度。加速度的输出范围为±2、±4、±8、±16g。MPU6050在数据处理时可以减少复杂的数据融合算法带来的负荷，可以移除陀螺仪轴和加速器间敏感度，降低感测器的漂移带来的误差。三轴磁强计方面，本发明采用HMC5883型号的三轴磁强计，HMC5883是一种表面贴装的高集成度、带有IIC数字接口的弱磁传感器芯片，具有12位模数转换器，具有灵敏度高和可靠性的特点。图7是运动手势识别过程。

运动手势识别根据单双手、手势朝向和手势幅度等目标手势要素自身的特点选择经典特征，分别采用单双手分类器、手势朝向分类器和手势幅度分类器进行识别。本发明采用四级树形分类结构框架，每一个非叶子节点代表一个与对应手势候选集相关的分类器(单双手分类器、手势朝向分类器和手势幅度分类器)，捕获不同类型的手势动作信息，每一个节点的分支代表该分类器的一个类别；所有可能的手势类别构成了根节点的手势动作候选集，然后每一个非叶子节点的候选集根据相应的节点分类器分类到相应的子节点；在手势识别过程中，未知的手势动作被依次送入单双手分类器、手势朝向分类器、手势幅度分类器后获得最终的识别结果。所述多模态手势融合识别，多模态是指高清可见光摄像头、肌电电极、数据手套三类传感器采集的三种模态手势数据，这三种模态数据分别为：摄像头采集的手势动作视频信号、肌电电极采集的肌电信号和数据手套采集的运动信号。基于视觉输入、肌电信号输入和运动传感器各自的特点，从多传感器融合的角度，将摄像头感知的手势动作的视觉信号、反映手势动作运动生理学特征的肌电信号和运动传感信号结合起来，提高多类手势动作识别率。本发明的多模态手势融合识别方法步骤为：首先采集手势动作视频信号、肌电信号和运动信号，针对三类信号，手势动作视频信号进行手势分割、有效手势帧提取、手势建模与特征提取，形成视频信号类特征；肌电和运动信号进行预处理、活动段检测、特征提取，形成生理信号类特征。最后针对两类特征，针对视频信号类和生理信号类两类特征，分别进行分类识别后，在决策级进行决策融合，最终得到摄像头、肌电电极和数据手套三种传感器融合后的识别结果。图8是多模态手势融合识别步骤。

所述决策融合，本发明采用基于D-S证据理论的决策融合方法。在摄像头、肌电电极和数据手套分别采集视频、肌电与运动信号，进行预处理、手势动作分割、特征提取及分类后，分别得到三类传感器的判决结果；利用三类传感器对各手势类别的证据区间，运用Dempster组合规则计算合成后的基本可信度分配函数，最后进行逻辑判定，得到融合后的判决结果。

①D-S识别框架

假设D-S证据理论“识别框架”为Θ-关于命题的相互独立的可能的识别结果或者假设都定义在这个框架(集合)内。Θ中所包含的所有可能的子集的集合称为Θ的幂集，用符号Ω(Θ)表示。在手势识别中，假设待识别样本的类别可能为a，b，c三种，则在这种情况下，“识别框架”及“幂集”定义如下：

Θ＝{a，b，c}

Ω(Θ)＝{φ，{a}，{b}，{c}，{a，b}，{a，c}，{b，c}，{a，b，c}}

②D-S证据组合法则

假设M1、M2为同一个“识别框架”Θ下来自两类不同传感器数据的信任度函数，m1、m2为其对应的基本可信度分配函数。则根据D-S正交原则，合成后的基本可信度分配函数为：

其中，

其中，中间参数

所述视觉反馈机制，所述视觉反馈机制，包括：建立三维交互反馈控制模型，三维交互反馈控制模型主要包含交互设备、脚本设计、三维环境、过程和反馈等模块，其中“交互设备”模块主要用于接收用户实际的手势交互输入，并进行虚拟手势输出，保证输入输出的一致性；“脚本设计”模块主要用于对三维环境中的手势交互反馈进行脚本控制，比如移动、旋转、放大、缩小交互的目标对象；所述三维环境模块用于描述手势交互的目标对象，手势操作的具体对象均在三维环境中呈现(包括虚拟三维目标和真实环境干扰)；所述过程模块用于描述用户的交互过程，比如用户选择了一个目标并进行了放大和移动这一过程；；“反馈”模块在用户的认知范围内，对交互过程作用在三维环境中目标对象的交互结果进行用户反馈，图9是三维交互反馈控制模型。三维交互反馈控制模型解决了手势识别过程中真实手部运动和系统识别的虚拟手部运动误差，还解决了用户认知的差异，即“所见非所动”的二次认知的问题。

基于三维交互反馈控制模型，将三维自然交互环境分为狭义和广义的视觉反馈信息，狭义的视觉反馈是对用户操作行为的后来回应，包括对操作的肯定，操作的引导，操作的报错；广义的视觉反馈还包括三维用户界面本身的指示信息，包括控制菜单、放大缩小、坐标方向；通过视觉反馈的不同类型及其适用的方式，经过情景分析，选择采用适合的交互反馈方式，包括交互反馈发生的位置、作用的范围、作用的时间、作用对象、作用方式，结合硬件设备的特性，将交互反馈呈现给用户，从而完成信息传达、信息反馈的循环流程。

在提出三维交互反馈控制模型的基础上，进一步提出手势交互反馈控制模型和手势交互视觉反馈机制模型，用户在手势交互的使用过程，根据特定的目的和任务进行一系列的操作，系统将用户的操作信息反馈给用户。图10是手势交互反馈机制模型，图中r(t)为期望输入，即为人实际的输入，通过交互设备的识别后，产生了一定的设备误差e(t)，这也包括由于设备选择带来的输入和输出不一致时产生的误差，此时是増加的误差。v(t)是外界的干扰，也是增加的误差，y(t)是输出量。当反馈控制起作用时，对误差进行抵消减少，r(t)和y(t)比较，把差反馈到脚本设计中的显示环节，即w(t)＝r(t)-y(t)。在该系统中，当反馈系统不起作用或者未使用的情况下，系统就变成了开环系统，即反馈＝0。利用三维交互反馈原理模型，可以得出近似的误差分析，以及发现研究点问题的归类。图11是手势交互视觉反馈交互机制模型。

本发明提供了一种多模态手势识别和视觉反馈机制结合的方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种多模态手势识别和视觉反馈机制结合的方法，其特征在于，包括多模态手势识别和视觉反馈机制；

2.根据权利要求1中所述的方法，其特征在于，视觉手势采用佩戴在头上的高清可见光摄像头进行采集，肌电手势采用佩戴在上臂的肌电电极进行采集，运动手势采用佩戴在手上的数据手套进行采集，摄像头、肌电电极和数据手套是三种手势采集的三类不同传感器。

3.根据权利要求2中所述的方法，其特征在于，所述视觉手势识别，包含静态手势识别和动态手势识别；

所述静态手势识别过程包括：采用追踪与检测、数据驱动和模型驱动以及多阶段管道方法实现手势分类；基于全局方向，获得关节位置和角度，通过6自由度获得手部关节的自由度；采用Decision forest决策森林法对手部进行检测，使用深度网络回归关节位置，最后使用IK逆运动学优化手部关节检测；采用真实数据、手动标注的方法获取训练数据并进行数据训练和数据生成；手势识别模型生成采用基于粒子群优化方法，从参数空间搜索最优化参数，演化的过程中，记录整个点云的最好位置以及每一个点的局部最好的位置；在每一个粒子的演化过程中，都以它前一个速度的特定运算更新粒子的速度；

所述动态手势识别，采用基于LSTM长短期记忆人工神经网络的连续手势识别方法，LSTM长短期记忆人工神经网络关注手势时间序列上的变化、手的运动轨迹、手的外形特征，实现连续手势识别。

4.根据权利要求3中所述的方法，其特征在于，所述在每一个粒子的演化过程中，都以它前一个速度的特定运算更新粒子的速度，具体采用如下公式：

其中，

是粒子i在第k次迭代中d维的速度；

是粒子i在第k+1次迭代中d维的速度，

是粒子i在第k次迭代中d维的当前位置，

是粒子i在第k+1次迭代中d维的位置；rand₁、rand₂是随机数；

是粒子i在第k次迭代中d维的个体最优值，

是粒子i在第k次迭代中d维的全局最优值，c₁，c₂是粒子加速系数。

5.根据权利要求4中所述的方法，其特征在于，所述肌电手势识别，首先采集用户上臂瞬时高密度肌电HD-sEMG信号，HD-sEMG信号描绘了电势在空间中的分布，其对应的热度图就是肌电图像，然后采用深度机器学习框架来从肌电图像中识别手势；

所述深度机器学习框架包括两个阶段：离线训练阶段和在线识别阶段；其中，离线训练阶段，事先准备好能够用于深度学习训练的手势数据集，给定肌电图像和对应的手势标签，训练好一个深度学习图像分类器用于识别肌电图像属于哪个手势；在线识别阶段，使用训练好的图像分类器识别肌电图像对应的手势，图像分类器输入分辨率为8*16的图像，经过两个卷积层，两个局部链接层，以及4个全连接层，对手势数据集中的手势进行识别。

6.根据权利要求5中所述的方法，其特征在于，所述运动手势识别，包括：使用数据手套，数据手套内置MEMS惯性传感器，MEMS惯性传感器包括三轴陀螺仪、三轴加速度计、三轴磁强计；

运动手势识别根据单双手、手势朝向和手势幅度的特点选择经典特征，分别采用单双手分类器、手势朝向分类器和手势幅度分类器进行识别，采用四级树形分类结构框架，每一个非叶子节点代表一个与对应手势候选集相关的分类器，捕获不同类型的手势动作信息，每一个节点的分支代表分类器的一个类别；所有可能的手势类别构成了根节点的手势动作候选集，然后每一个非叶子节点的候选集根据相应的节点分类器分类到相应的子节点；在手势识别过程中，未知的手势动作被依次送入单双手分类器、手势朝向分类器和手势幅度分类器后获得最终的识别结果。

7.根据权利要求6中所述的方法，其特征在于，所述多模态手势融合识别，其中的多模态是指高清可见光摄像头、肌电电极、数据手套三类传感器采集的三种模态手势数据，这三种模态手势数据分别为：摄像头采集的手势动作视频信号、肌电电极采集的肌电信号和数据手套采集的运动信号，其中肌电信号和运动信号都是生理信号；针对三类信号，手势动作视频信号进行手势分割、有效手势帧提取、手势建模与特征提取，形成视频信号类特征；肌电信号和运动信号进行预处理、活动段检测、特征提取，形成生理信号类特征；针对视频信号类和生理信号类两类特征，分别进行分类识别后，在决策级进行决策融合，最终得到摄像头、肌电电极和数据手套三种传感器融合后的识别结果。

8.根据权利要求7中所述的方法，其特征在于，所述在决策级进行决策融合，是采用基于D-S证据理论的决策融合方法，在摄像头、肌电电极和数据手套分别采集视频、肌电与运动信号，进行预处理、手势动作分割、特征提取及分类后，分别得到三类传感器的判决结果；利用三类传感器对各手势类别的证据区间，运用Dempster组合规则计算合成后的基本可信度分配函数，最后进行逻辑判定，得到融合后的判决结果，具体包括：

步骤a1，建立D-S识别框架：

设定D-S证据理论识别框架为Θ，关于命题的相互独立的可能的识别结果或者假设都定义所述识别框架内；Θ中所包含的所有可能的子集的集合称为Θ的幂集，用符号Ω(Θ)表示；在手势识别中，设定待识别样本的类别可能为a，b，c三种，则在这种情况下，识别框架和幂集定义如下：

Θ＝{a，b，c}，

Ω(Θ)＝{φ，{a}，{b}，{c}，{a，b}，{a，c}，{b，c}，{a，b，c}}；

步骤a2，建立D-S证据组合法则：

则根据D-S正交原则，合成后的基本可信度分配函数m(C)为：

其中，中间参数

9.根据权利要求8中所述的方法，其特征在于，所述视觉反馈机制，包括：建立三维交互反馈控制模型，三维交互反馈控制模型包含交互设备模块、脚本设计模块、三维环境模块、过程模块和反馈模块；

其中，所述交互设备模块用于接收用户实际的手势交互输入，并进行虚拟手势输出；

所述脚本设计模块用于对三维环境中的手势交互反馈进行脚本控制；

所述三维环境模块用于描述手势交互的目标对象，手势操作的具体对象均在三维环境中呈现；

所述过程模块用于描述用户的交互过程；

10.根据权利要求9中所述的方法，其特征在于，还包括手势交互反馈控制模型和手势交互视觉反馈机制模型，用户在手势交互的使用过程，根据特定的目的进行一系列的操作，通过手势交互反馈控制模型和手势交互视觉反馈机制模型将用户的操作信息反馈给用户；

所述手势交互反馈控制模型执行如下步骤：

步骤b1：输入期望r(t)；

步骤b4：用户交互过程结束之后，产生输出y(t)；

所述手势交互视觉反馈机制模型执行如下步骤：

步骤c1，手势交互视觉反馈机制模型中的视觉反馈信息分为狭义和广义的视觉反馈信息，狭义的视觉反馈是对用户操作行为的回应；广义的视觉反馈还包括三维用户界面本身的指示信息；

步骤c2，经过情景分析，选择适合的交互反馈方式；

步骤c3，将交互反馈呈现给用户，从而完成信息传达到信息反馈的循环流程。