CN111680594A - 一种基于手势识别的增强现实交互方法 - Google Patents

一种基于手势识别的增强现实交互方法 Download PDF

Info

Publication number
CN111680594A
CN111680594A CN202010472836.7A CN202010472836A CN111680594A CN 111680594 A CN111680594 A CN 111680594A CN 202010472836 A CN202010472836 A CN 202010472836A CN 111680594 A CN111680594 A CN 111680594A
Authority
CN
China
Prior art keywords
gesture
dynamic
recognition
static
gestures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010472836.7A
Other languages
English (en)
Other versions
CN111680594B (zh
Inventor
陈宇翔
张健
李明磊
李新乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202010472836.7A priority Critical patent/CN111680594B/zh
Publication of CN111680594A publication Critical patent/CN111680594A/zh
Application granted granted Critical
Publication of CN111680594B publication Critical patent/CN111680594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/117Biometrics derived from hands
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及一种基于手势识别的增强现实交互方法,包括:根据需要识别的动态手势类型,建立复杂背景下多人多角度的静态手势数据集,利用MobileNet基础深度神经网络并结合SSD目标检测算法框架,在该数据集上进行训练,生成手势检测模型,以对获取到的静态手势进行识别;基于视频分帧进行动态手势识别;设计动态手势识别算法;基于动态手势识别进行人机交互,包括:捕获使用者的手势影像,在将短视频进行分帧处理后,将截取到的帧图像进行静态手势识别,并将识别到的结果记录下来,并结合动态手势识别算法进行判断,得到对应动态手势类别变化识别算法中的四种变化手势以及动态手势轨迹变化识别算法中的6种轨迹变化手势的类别和对应的位移量以及面积比。

Description

一种基于手势识别的增强现实交互方法
技术领域
本发明属于计算机模式识别领域,具体涉及的是一种基于手势识别的增强现实交互方法。
背景技术
增强现实技术的主要技术之一是人机交互技术。即通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。人机交互技术主要包括两方面,一方面人通过输入设备给机器输入有关信息,回答问题及提示请示等;另一方面机器通过人的输入进行反馈,从而给人提供大量有关信息及提示请示等。而增强现实系统的交互技术则是指将用户的交互操作输入到增强现实设备处理器后,经过处理将交互的结果通过显示设备显示输出的过程。
现有增强现实系统中的交互方式主要有两大类:外接设备、特定标志。外接设备如鼠标、键盘、数据手套、语音输入装置等。现有的基于PC机的增强现实系统习惯采用键盘、鼠标进行交互。这种交互方式精度高、成本低,但是沉浸感较差。另外一种是借助数据手套、力反馈设备、磁传感器等设备进行交互,这种方式精度高,沉浸感较强,但是成本也相对较高,且操作不方便。特定标志则可以通过事先进行设计。通过比较先进的注册算法,可以使标志具有特殊的含义,当用户操作增强现实设备令其识别到标志之后就会触发指定的场景出现。因此基于特定标志进行交互能够使用户清楚明白操作步骤,降低学习成本。但是这种场景的可扩展性性,交互性不强。
因此本方法发明了一种基于计算视觉的自然手势交互方式。根据需要人机交互的实际需要设计固定数量的动态手势种类,从而确定需要被识别的基础静态手势类型。方案确定后,首先自建复杂背景下多人多角度的静态手势数据集,利用MobileNet基础深度神经网络并结合SSD目标检测算法框架,在自建数据集上进行训练,生成手势检测模型。根据动态手势的特点,通过对每一帧进行手势检测获取静态手势类别、面积以及手势中心坐标的信息设计动态手势识别算法。利用手势类别的稳定性,即同一种手势类别达到累计帧数来规避动态手势速度的不确定性以及动态手势变化的不稳定性,进而提高识别准确率。利用本发明的这种基于动态手势识别的交互方式沉浸感最强,成本低,精度高,不易受光照等条件的影响。
现有增强现实系统中用于人机交互必须要有外接设备,如鼠标、键盘、数据手套、语音输入装置等。通过对这些外接辅助设备的操作来实现对增强现实系统的查看、标绘以及修改等工作。但是在一些特殊场景下,这种基于现有的鼠标与键盘等外接设备的交互方式暴露出诸多问题:首先,在一些场景中,使用者会手持其他装备,很难做到双手的完全解放,而现有的鼠标和键盘等外接设备的操作一般会需要双手操作,这就对增强现实系统的操作产生阻碍;此外,携带鼠标和键盘等额外的输入式设备也会对使用者造成了诸多不便,且增加系统使用成本。
故为了解决上述现有交互方式所存在的问题,本方法特利用使用者自身的手势用来交互,十分灵活方便,而且当使用者在特殊的场合无法进行语音交互时,通过手势的交互就成为了最适合的交互方式。所以本方法基于手势识别技术来代替现有的鼠标、键盘等外接方式来实现对增强现实系统的控制,从而使得操作者所携带的增强现实系统更加的便携与智能化,在未来的增强现实领域中拥有重大的实用价值和发展前景。
另一方面,现有的基于视觉的手势识别为基于规则的手势识别、基于模板匹配的手势识别。基于规则的方法通过人为寻找手势特征之间以及特征内部的关系,并将找到的关系定义为分类规则,根据分类规则对待识别手势的特征进行判断确定手势的类别。该类方法实时性较高,但工作量大且人为寻找手势高维特征之间的关系相当困难,从而导致识别率偏低。基于模板匹配的手势识别方法通过将提取的手势特征与预先存储的手势特征模板进行相似度匹配以达到手势识别的目的。该类方法虽然实现简单,但限制条件较多,鲁棒性差,识别率往往也偏低。
发明内容
本发明的目的在于提供一种基于手势识别的增强现实交互方法,用于解决现有增强现实中人机交互时需要辅助设备的繁琐的问题。
本发明一种基于手势识别的增强现实交互方法,其中,包括:基于MobileNet神经网络并结合SSD进行静态手势识别,包括:根据需要识别的动态手势类型,建立复杂背景下多人多角度的静态手势数据集,利用MobileNet基础深度神经网络并结合SSD目标检测算法框架,在该数据集上进行训练,生成手势检测模型,以对获取到的静态手势进行识别;基于视频分帧进行动态手势识别,包括:利用人手稳定时连续多帧的手势检测类别相同的特点,来判断需要处理的有效手势,在动态手势变化过程中出现的短暂手势视为无效手势;设计动态手势识别算法,包括:设计动态手势类别变化识别算法,进行在动态手势识别过程中手势类型发生变化的动态手势识别;设计动态手势轨迹变化识别算法,完成在动态手势识别过程中,手势类型未发生变化,而手势坐标或面积发生变化的动态手势识别任务;基于动态手势识别进行人机交互,包括:捕获使用者的手势影像,在将短视频进行分帧处理后,将截取到的帧图像进行静态手势识别,并将识别到的结果记录下来,并结合动态手势识别算法进行判断,得到对应动态手势类别变化识别算法中的四种变化手势以及动态手势轨迹变化识别算法中的6种轨迹变化手势的类别和对应的位移量以及面积比。
根据本发明的基于手势识别的增强现实交互方法的一实施例,其中,建立复杂背景下多人多角度的静态手势数据集,包括:搜集相关手势图像,根据增强现实人机交互所需动态手势分析,共需要识别五种静态手势图像包括:手背、手掌、握拳、手指直立以及手指弯曲图像;标注搜集到的静态手势图像,将完整的手势连同背景一起圈起来,接着保存形成标注文件。
根据本发明的基于手势识别的增强现实交互方法的一实施例,其中,利用MobileNet基础深度神经网络并结合SSD目标检测算法框架,在该数据集上进行训练,生成手势检测模型包括:预训练模型版本选择的是SSD框架中前端网络中的网络模型ssd_mobilenet_v1,编写该网络模型的训练配置文件,结合静态手势数据集,训练出增强现实系统人机交互所需要定制的模型;训练步数设定为95000步,使用TensorFlow自带的可视化工具TensorBoard可查看模型训练情况,随着训练步数的增加模型的损失率逐渐减小,并最终接近1.0,训练结束之后,调用Object Detection API库中的export_inference_graph.py脚本将包含模型结构和参数的临时文件转化为可独立运行的PB模型文件,将生成的PB模型文件移植到Andriod平台即可完成静态手势识别任务。
根据本发明的基于手势识别的增强现实交互方法的一实施例,其中,对于训练过程经多次试验测试后,设置初始学习率为0.004,衰减速度和系数分别为800、720和0.95,根据根据不同的识别物体、应用场景、对识别率的要求以及对识别时间的要求不同,设置的参数不同。
根据本发明的基于手势识别的增强现实交互方法的一实施例,其中,设计10种基本的动态手势,与静态手势的关系包括:
Figure BDA0002514878810000041
Figure BDA0002514878810000051
根据本发明的基于手势识别的增强现实交互方法的一实施例,其中,动态手势类别变化识别算法包括:对于握拳、张开、弯曲手指以及伸直手指四个动态手势,首先获取起始手势检测信息,同一种手势信息达到四帧,则认为是稳定手势,记为起始手势,当下一个稳定手势与上一个稳定手势不一样,获取终止手势信息,手势检测信息再发生变化,开始识别下一个手势,将下一个稳定手势的信息记为结束手势;输出阶段,若起始手势与终止手势属于自定义的种静态手势,则输出该动态手势。
根据本发明的基于手势识别的增强现实交互方法的一实施例,其中,动态手势轨迹变化识别算法包括:对手掌靠近、远离、向左移、向右移、向上移以及向下移的动态手势;获取起始手势检测信息,检测到手势类别为手背的稳定手势,记为起始手势,并记录第一帧手势的中心点的坐标信息及面积信息;获取终止手势检测信息;若获取的最新一帧的静态手势类别仍为手背,且与第一帧坐标的位移量超过40pb、面积扩大超过1.5倍或者面积缩小超过1.5倍,则将稳定手势记为结束手势;当结束手势的位移量超过起始手势40pb或者结束手势的面积超过起始手势的1.5倍时进入输出阶段,在输出阶段中判断手势类别,并输出动态手势类别及位移量或面积比。
根据本发明的基于手势识别的增强现实交互方法的一实施例,其中,把动态手势识别交互分为基础手势和复合手势;基础手势包括:张开和握拳手势,用于返回到初始界面和退出应用;手指弯曲和手指伸直手势,用于选中物体和取消选中物体;手掌左移、右移、上移和下移,用于控制光标的左移、右移、上移和下移。
本发明利用手势识别的目的是为了增强现实人机交互,故只需要在识别5种特定的静态手势的基础上进行即可。因而本发明利用深度学习模型进行手势识别。深度学习模型是一种复杂的、多层的人工神经网络结构,具有强大的非线性建模能力,其可以从数据中学习到特征,能够表达更高层次的、更加抽象的内部特征。并通过自建多背景下多人多角度的静态手势数据集,增加了手势识别的鲁棒性与实时性。
附图说明
图1所示为基于手势识别的增强现实交互方法的基本流程图;
图2所示为五种静态手势示意图;
图3所示为LabelImg标注示意图;
图4动态手势类别变化识别算法的流程图;
图5动态手势轨迹变化识别算法的流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1所示为基于手势识别的增强现实交互方法的基本流程图,如图1所示,主要分为静态手势识别环节、动态手势识别环节和人机交互3个环节。具体过程如下:
第一环节,基于MobileNet神经网络并结合SSD的静态手势识别
根据需要识别的动态手势类型,首先自建复杂背景下多人多角度的静态手势数据集。利用MobileNet基础深度神经网络并结合SSD目标检测算法框架,在自建数据集上进行训练,生成手势检测模型,从而对获取到的静态手势进行识别。主要分为以下两个步骤:
第一步:自建复杂背景下多人多角度的静态手势数据集;
为确保手势交互方法的鲁棒性,综合考虑不同背景、不同角度、不同人手姿态以及不同光照等因素的影响,首先利用摄像头搜集相关手势图像。根据增强现实人机交互所需动态手势分析,共需要识别五种静态手势,backPalm(手背)、palm(手掌)、fist(握拳)、firstFinger(手指直立)、bendFinger(手指弯曲),图2为5种手势示意图,如图2所示,其中每个手势需要搜集4000张图像,故共需获取20000张手势图像。
之后应用图片标注软件LabelImg标注搜集到的20000张静态手势图像。图3所示为LabelImg标注示意图,如下图3所示,需要用长方形的方框将完整的手势连同背景一起圈起来,不需要包括胳膊部分。接着保存形成标注文件,为之后的静态手势检测训练提供数据标注。
第二步:基于MobileNet网络并结合SSD进行训练
基础深度神经网络MobileNet是Google最近提出的一种小巧而高效的CNN模型。其特点在于使用了深度可分离的卷积结构,使得其获取得到的深度神经网络模型具有轻量型和流线型这样适应于移动和嵌入式开发的特征。研究人员可以根据要求对网络进行约束,通过两个预先设置的全局超参数,选择匹配移动和嵌入式视觉应用的设计要求。
SSD(全称Single Shot MultiBox Detector),是Wei Liu在ECCV2016上提出的一种目标检测算法,是目前主要的目标检测框架之一。SSD算法是一种端到端的单次多框实时目标检测算法框架,利用回归的思想极大地减少神经网络的计算量,提升算法运行的速度。它不需要生成候选框,而是直接提取输入图片的特征信息,然后直接在特征图上回归这个位置的边界框以及对物体类别进行分类;运用局部特征提取的方法得到不同位置,不同宽高比、尺寸的特征。此外,为了增加模型检测不同大小物体的鲁棒性,SSD算法选取网络中多个层次的特征图进行预测。SSD的目标检测算法框架基于一个前馈卷积网络,可以分为两个部分:一个是前端的特征提取网络,使用一个去除了全连接层的分类网络,本发明中使用的是MobileNet网络;另一个是添加在后面的多尺度特征检测网络,通过池化操作将前面网络产生的特征图尺寸逐层减小,然后再用不同卷积层的多个特征图预测物体分类以及目标边界框的偏移,最后使用最大值抑制方法(Non MaximumSuppression,NMS)产生最终的检测结果,实现多个尺度特征图的检测。
具体的,在本发明中,预训练模型版本选择的是SSD框架中前端网络中用到的具体网络模型ssd_mobilenet_v1。下载模型后,编写模型训练配置文件,结合第一阶段中制作的20000张手势图像数据集,训练出增强现实系统人机交互所需要定制的模型。
经多次试验测试后,可设置初始学习率为0.004,衰减速度和系数分别为800、720和0.95。具体根据不同的识别物体、应用场景、对识别率的要求、对识别时间的要求不同,则设置的参数不同,需要多次计算尝试。
训练步数设定为95000步,使用TensorFlow自带的可视化工具TensorBoard可查看模型训练情况,随着训练步数的增加模型的损失率逐渐减小,并最终接近1.0。训练结束之后,调用Object Detection API库中的export_inference_graph.py脚本将包含模型结构和参数的临时文件转化为可独立运行的PB模型文件。最后将生成的PB文件移植到Andriod平台即可完成静态手势识别任务。
第二环节,基于视频分帧的动态手势识别
动态手势在时间和空间维度上同时存在变化,其中手势检测结果可为后续的动态手势识别提供手势类别、坐标、面积等空间维度上的重要特征。在时间维度上,考虑摄像头采集每一帧的时间是有序的,故图片所处帧的序列位置能够反映其在时间维度上的特点。人手处于镜头中时,手势的位置、形状等特征一直处于变化的状态,但不是每一帧的手势都是有意义的,所以本发明利用人手稳定时连续多帧的手势检测类别相同的特点,来判断需要处理的有效手势。在动态手势变化过程中出现的短暂手势视为无效手势,不做处理。
为完成增强现实系统的人机交互行为,本方面设计了10种基本的动态手势,其与静态手势的关系如表1所示。
表1动态静态手势对应表
序号 动态手势 静态手势变化 控制功能
1 张开 fist→palm 返回到初始界面
2 握拳 palm→fist 退出应用
3 手指弯曲 firstFinger→bendFinger 选中物体
4 手指伸直 bendFinger→firstFinger 取消选中物体
5 手掌左移 backPalm向左移动 物体/光标左移
6 手掌右移 backPalm向右移动 物体/光标右移
7 手掌上移 backPalm向上移动 物体/光标上移
8 手掌下移 backPalm向下移动 物体/光标下移
9 手掌靠近 backPalm靠近身体 物体放大
10 手掌远离 backPalm远离身体 物体缩小
根据上述动态手势的设计,本发明为完成动态手势识别设计了两类算法:一类为动态手势类别变化识别算法,旨在完成在动态手势识别过程中手势类型发生变化的动态手势识别任务;另一类为动态手势轨迹变化识别算法,旨在完成在动态手势识别过程中,手势类型未发生变化只有手势坐标或面积发生变化的动态手势识别任务。
第一类:动态手势类别变化识别算法
动态手势类别变化识别算法针对握拳,张开,弯曲手指,伸直手指四个动态手势。图4动态手势类别变化识别算法的流程图,如图4所示。首先获取起始手势检测信息。同一种手势信息达到四帧,则认为是稳定手势,记为起始手势。然后获取终止手势检测信息,当下一个稳定手势与上一个稳定手势不一样时开始判断终止。手势检测信息再发生变化,开始识别下一个手势,将下一个稳定手势的信息记为结束手势。最后是输出阶段,若起始手势与终止手势属于自定义的种静态手势,则输出该动态手势。否则不输出。输出本次手势识别类别后,如表1中1-4所示,当起始和终止的静态手势如表中第三列所示时,输出对应的动态手势结果,如表纵横第2列所示。结束本次手势识别任务,清空起始手势,并将本次手势识别结束手势作为下一次手势识别的起始手势,从而开启下一次手势识别任务。
第二类:动态手势轨迹变化识别算法
动态手势轨迹变化识别算法针对手掌靠近、远离、向左移、向右移、向上移、向下移六种动态手势。图5动态手势轨迹变化识别算法的流程图,如图5所示。
首先获取起始手势检测信息。检测到手势类别为backPlam(手背)的稳定手势,记为起始手势,并记录第一帧手势的中心点的坐标信息及面积信息。然后获取终止手势检测信息。若摄像头获取的最新一帧的静态手势类别仍为backPlam(手背),且与第一帧坐标的位移量超过40pb,或面积扩大超过1.5倍,又或者面积缩小超过1.5倍,则将稳定手势记为结束手势。当结束手势的位移量超过起始手势40pb或者结束手势的面积超过起始手势的1.5倍时进入输出阶段,最后在输出阶段中判断手势类别,并输出动态手势类别及位移量或面积比,位移量和面积比的输出是实时的,一直变化的。只要手势在移动就会一直输出上一个稳定手势与下一个稳定手势的位移量和面积比。输出本次手势识别类别后,结束本次手势识别任务,清空起始手势,并将本次手势识别结束手势作为下一次手势识别的起始手势,从而开启下一次手势识别任务。动态手势识别分为两种:1种是静态手势类别变化,另一种是静态手势的轨迹变化,这时只需要用到手背这种静态手势即可。
第三环节,基于动态手势识别的人机交互
在增强现实系统中,可用头戴显示器或其他设备上的摄像头捕获使用者的手势影像,在将短视频进行分帧处理(20帧/s)后,再将截取到的帧图像进行静态手势识别,并将识别到的结果记录下来,并结合第二环节中设计的动态手势识别算法进行判断,得到对应动态手势类别变化识别算法中的四种变化手势,如表1中序号1-4所示,以及动态手势轨迹变化识别算法中的6种轨迹变化手势的类别和对应的位移量、面积比,如表1中序号5-10所示。
根据具体不同的增强现实系统的应用,可将上述的10种动态手势设计成不同的控制功能,如表1所示:
其中根据6种轨迹变化手势对应的位移量、面积比来设计相应的算法来控制虚拟光标/物体的位移量、物体的缩放发小。
根据增强现实系统控制需要的,把上述动态手势识别交互分为基础手势和复合手势。
第一类:基础手势,包括:
张开/握拳手势,这两种手势是用于返回到初始界面和退出应用。与键盘的开始按键或Esc键比较类似;
手指弯曲/手指伸直手势,这两种手势用于选中物体和取消选中物体,与鼠标的点选比较相似。
手掌左移/右移/上移/下移,控制光标的左移/右移/上移/下移等;第二类:复合手势,包括:
通过将选中手势和手的位移操作进行结合,可以表现出含义更复杂的复合手势进行人机交互。
1.选中并保持
保持就是指保持住手指弯曲的姿势。选中加保持的组合为后续更复杂的操作提供了基础,当想编辑某个物品而不是打开它时就可以进行这样的交互。
2.操控
操控手势可以用于移动、缩放或旋转一个虚拟物体,适用于使用者想要虚拟物体和手的操作对应的情况。
操控手势的初始目标依赖于选中手势。当短暂触发手指弯曲的手势后,配合手掌左移/右移/上移/下移即可对虚拟物体进行移动操作,配合手掌靠近/远离即可对虚拟物体进行缩放操作。当手指弯曲的手势保持一段时间后,配合手掌左移/右移/上移/下移/靠近/远离即可对虚拟物体进行旋转操作。
本发明根据需要设计的手势人机交互设计动态手势,从而确定需要被识别的基础静态手势类型。方案确定后,首先自建复杂背景下多人多角度的静态手势数据集,利用MobileNet基础深度神经网络并结合SSD目标检测算法框架,在自建数据集上进行训练,生成手势检测模型。根据动态手势的特点,通过对每一帧进行手势检测获取静态手势类别、面积以及手势中心坐标的信息设计动态手势识别算法。本发明利用手势类别的稳定性,即同一种手势类别达到累计帧数来规避动态手势速度的不确定性以及动态手势变化的不稳定性,进而提高识别准确率。
本发明通过自建复杂背景下多人多角度的静态手势数据集,利用MobileNet基础深度神经网络并结合SSD目标检测算法框架,在自建数据集上进行训练,生成手势检测模型。可根据增强现实系统控制所需动态手势的特点设计相应的有限数量的静态手势和动态手势识别算法。
本发明利用手势类别的稳定性,即同一种手势类别达到累计帧数来规避动态手势速度的不确定性以及动态手势变化的不稳定性,从而可以提高动态手势识别的准确率,最终达到增强现实系统人机交互的可实用性。其中动态手势识别的平均响应时间可小于0.4s,识别准确率可超过95%。该方法以静态手势识别为切入点,基于MobileNet基础深度神经网络并结合SSD目标检测算法框架,实现5种特殊静态手势的检测。之后在静态手势识别的基础上,设计动态手势识别算法,并赋予对应的控制动作,最终达到通过动态手势控制增强现实系统。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种基于手势识别的增强现实交互方法,其特征在于,包括:
基于MobileNet神经网络并结合SSD进行静态手势识别,包括:
根据需要识别的动态手势类型,建立复杂背景下多人多角度的静态手势数据集,利用MobileNet基础深度神经网络并结合SSD目标检测算法框架,在该数据集上进行训练,生成手势检测模型,以对获取到的静态手势进行识别;
基于视频分帧进行动态手势识别,包括:利用人手稳定时连续多帧的手势检测类别相同的特点,来判断需要处理的有效手势,在动态手势变化过程中出现的短暂手势视为无效手势;
设计动态手势识别算法,包括:设计动态手势类别变化识别算法,进行在动态手势识别过程中手势类型发生变化的动态手势识别;设计动态手势轨迹变化识别算法,完成在动态手势识别过程中,手势类型未发生变化,而手势坐标或面积发生变化的动态手势识别任务;
基于动态手势识别进行人机交互,包括:
捕获使用者的手势影像,在将短视频进行分帧处理后,将截取到的帧图像进行静态手势识别,并将识别到的结果记录下来,并结合动态手势识别算法进行判断,得到对应动态手势类别变化识别算法中的四种变化手势以及动态手势轨迹变化识别算法中的6种轨迹变化手势的类别和对应的位移量以及面积比。
2.如权利要求1所述的基于手势识别的增强现实交互方法,其特征在于,建立复杂背景下多人多角度的静态手势数据集,包括:
搜集相关手势图像,根据增强现实人机交互所需动态手势分析,共需要识别五种静态手势图像包括:手背、手掌、握拳、手指直立以及手指弯曲图像;
标注搜集到的静态手势图像,将完整的手势连同背景一起圈起来,接着保存形成标注文件。
3.如权利要求1所述的基于手势识别的增强现实交互方法,其特征在于,利用MobileNet基础深度神经网络并结合SSD目标检测算法框架,在该数据集上进行训练,生成手势检测模型包括:
预训练模型版本选择的是SSD框架中前端网络中的网络模型ssd_mobilenet_v1,编写该网络模型的训练配置文件,结合静态手势数据集,训练出增强现实系统人机交互所需要定制的模型;
训练步数设定为95000步,使用TensorFlow自带的可视化工具TensorBoard可查看模型训练情况,随着训练步数的增加模型的损失率逐渐减小,并最终接近1.0,训练结束之后,调用Object Detection API库中的export_inference_graph.py脚本将包含模型结构和参数的临时文件转化为可独立运行的PB模型文件,将生成的PB模型文件移植到Andriod平台即可完成静态手势识别任务。
4.如权利要求3所述的基于手势识别的增强现实交互方法,其特征在于,对于训练过程经多次试验测试后,设置初始学习率为0.004,衰减速度和系数分别为800、720和0.95,根据根据不同的识别物体、应用场景、对识别率的要求以及对识别时间的要求不同,设置的参数不同。
5.如权利要求1所述的基于手势识别的增强现实交互方法,其特征在于,设计10种基本的动态手势,与静态手势的关系包括:
Figure FDA0002514878800000021
Figure FDA0002514878800000031
6.如权利要求1所述的基于手势识别的增强现实交互方法,其特征在于,动态手势类别变化识别算法包括:
对于握拳、张开、弯曲手指以及伸直手指四个动态手势,首先获取起始手势检测信息,同一种手势信息达到四帧,则认为是稳定手势,记为起始手势,当下一个稳定手势与上一个稳定手势不一样,获取终止手势信息,手势检测信息再发生变化,开始识别下一个手势,将下一个稳定手势的信息记为结束手势;输出阶段,若起始手势与终止手势属于自定义的种静态手势,则输出该动态手势。
7.如权利要求1所述的基于手势识别的增强现实交互方法,其特征在于,动态手势轨迹变化识别算法包括:
对手掌靠近、远离、向左移、向右移、向上移以及向下移的动态手势;
获取起始手势检测信息,检测到手势类别为手背的稳定手势,记为起始手势,并记录第一帧手势的中心点的坐标信息及面积信息;获取终止手势检测信息;若获取的最新一帧的静态手势类别仍为手背,且与第一帧坐标的位移量超过40pb、面积扩大超过1.5倍或者面积缩小超过1.5倍,则将稳定手势记为结束手势;当结束手势的位移量超过起始手势40pb或者结束手势的面积超过起始手势的1.5倍时进入输出阶段,在输出阶段中判断手势类别,并输出动态手势类别及位移量或面积比。
8.如权利要求1所述的基于手势识别的增强现实交互方法,其特征在于,把动态手势识别交互分为基础手势和复合手势;
基础手势包括:张开和握拳手势,用于返回到初始界面和退出应用;手指弯曲和手指伸直手势,用于选中物体和取消选中物体;手掌左移、右移、上移和下移,用于控制光标的左移、右移、上移和下移。
CN202010472836.7A 2020-05-29 2020-05-29 一种基于手势识别的增强现实交互方法 Active CN111680594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010472836.7A CN111680594B (zh) 2020-05-29 2020-05-29 一种基于手势识别的增强现实交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010472836.7A CN111680594B (zh) 2020-05-29 2020-05-29 一种基于手势识别的增强现实交互方法

Publications (2)

Publication Number Publication Date
CN111680594A true CN111680594A (zh) 2020-09-18
CN111680594B CN111680594B (zh) 2023-06-09

Family

ID=72453112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010472836.7A Active CN111680594B (zh) 2020-05-29 2020-05-29 一种基于手势识别的增强现实交互方法

Country Status (1)

Country Link
CN (1) CN111680594B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364799A (zh) * 2020-11-18 2021-02-12 展讯通信(上海)有限公司 一种手势识别方法及装置
CN112446291A (zh) * 2020-10-26 2021-03-05 杭州易现先进科技有限公司 手势识别的方法、装置、电子装置和存储介质
CN112486322A (zh) * 2020-12-07 2021-03-12 济南浪潮高新科技投资发展有限公司 一种基于语音识别和手势识别的多模态ar眼镜交互系统
CN112733632A (zh) * 2020-12-28 2021-04-30 华南理工大学 一种基于人脸识别与手势识别的机器人控制方法
CN112784810A (zh) * 2021-02-08 2021-05-11 风变科技(深圳)有限公司 手势识别方法、装置、计算机设备和存储介质
CN112949689A (zh) * 2021-02-01 2021-06-11 Oppo广东移动通信有限公司 图像识别方法、装置、电子设备及存储介质
CN113011723A (zh) * 2021-03-04 2021-06-22 北京计算机技术及应用研究所 一种基于增强现实的远程装备维保系统
CN113392821A (zh) * 2021-08-17 2021-09-14 南昌虚拟现实研究院股份有限公司 动态手势识别方法、装置、电子设备及可读存储介质
CN113672090A (zh) * 2021-08-25 2021-11-19 上海电气集团股份有限公司 一种结构力学试验交互的方法及设备
CN113934307A (zh) * 2021-12-16 2022-01-14 佛山市霖云艾思科技有限公司 一种根据手势和场景开启电子设备的方法
CN114115537A (zh) * 2021-11-22 2022-03-01 中国电子科技集团公司第五十四研究所 一种无人系统手势控制方法及系统
CN114967905A (zh) * 2021-02-26 2022-08-30 广州视享科技有限公司 手势控制方法、装置、计算机可读存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598915A (zh) * 2014-01-24 2015-05-06 深圳奥比中光科技有限公司 一种手势识别方法与装置
CN109993073A (zh) * 2019-03-14 2019-07-09 北京工业大学 一种基于Leap Motion的复杂动态手势识别方法
CN110110646A (zh) * 2019-04-30 2019-08-09 浙江理工大学 一种基于深度学习的手势图像关键帧提取方法
CN110245593A (zh) * 2019-06-03 2019-09-17 浙江理工大学 一种基于图像相似度的手势图像关键帧提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598915A (zh) * 2014-01-24 2015-05-06 深圳奥比中光科技有限公司 一种手势识别方法与装置
CN109993073A (zh) * 2019-03-14 2019-07-09 北京工业大学 一种基于Leap Motion的复杂动态手势识别方法
CN110110646A (zh) * 2019-04-30 2019-08-09 浙江理工大学 一种基于深度学习的手势图像关键帧提取方法
CN110245593A (zh) * 2019-06-03 2019-09-17 浙江理工大学 一种基于图像相似度的手势图像关键帧提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙彦;丁学文;雷雨婷;陈静;孔祥鑫;: "基于SSD_MobileNet_v1网络的猫狗图像识别", 天津职业技术师范大学学报, no. 01 *
王健;朱恩成;黄四牛;任华;: "基于深度学习的动态手势识别方法", 计算机仿真, no. 02 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446291A (zh) * 2020-10-26 2021-03-05 杭州易现先进科技有限公司 手势识别的方法、装置、电子装置和存储介质
WO2022105692A1 (zh) * 2020-11-18 2022-05-27 展讯通信(上海)有限公司 一种手势识别方法及装置
CN112364799A (zh) * 2020-11-18 2021-02-12 展讯通信(上海)有限公司 一种手势识别方法及装置
CN112486322A (zh) * 2020-12-07 2021-03-12 济南浪潮高新科技投资发展有限公司 一种基于语音识别和手势识别的多模态ar眼镜交互系统
CN112733632A (zh) * 2020-12-28 2021-04-30 华南理工大学 一种基于人脸识别与手势识别的机器人控制方法
CN112733632B (zh) * 2020-12-28 2023-02-14 华南理工大学 一种基于人脸识别与手势识别的机器人控制方法
CN112949689A (zh) * 2021-02-01 2021-06-11 Oppo广东移动通信有限公司 图像识别方法、装置、电子设备及存储介质
CN112784810A (zh) * 2021-02-08 2021-05-11 风变科技(深圳)有限公司 手势识别方法、装置、计算机设备和存储介质
CN114967905A (zh) * 2021-02-26 2022-08-30 广州视享科技有限公司 手势控制方法、装置、计算机可读存储介质和电子设备
CN113011723A (zh) * 2021-03-04 2021-06-22 北京计算机技术及应用研究所 一种基于增强现实的远程装备维保系统
CN113011723B (zh) * 2021-03-04 2024-03-01 北京计算机技术及应用研究所 一种基于增强现实的远程装备维保系统
CN113392821A (zh) * 2021-08-17 2021-09-14 南昌虚拟现实研究院股份有限公司 动态手势识别方法、装置、电子设备及可读存储介质
CN113672090A (zh) * 2021-08-25 2021-11-19 上海电气集团股份有限公司 一种结构力学试验交互的方法及设备
CN114115537A (zh) * 2021-11-22 2022-03-01 中国电子科技集团公司第五十四研究所 一种无人系统手势控制方法及系统
CN113934307A (zh) * 2021-12-16 2022-01-14 佛山市霖云艾思科技有限公司 一种根据手势和场景开启电子设备的方法

Also Published As

Publication number Publication date
CN111680594B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN111680594B (zh) 一种基于手势识别的增强现实交互方法
CN107808143B (zh) 基于计算机视觉的动态手势识别方法
Ren et al. Robust part-based hand gesture recognition using kinect sensor
Ibraheem et al. Survey on various gesture recognition technologies and techniques
US6624833B1 (en) Gesture-based input interface system with shadow detection
CN110796018B (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN107423398A (zh) 交互方法、装置、存储介质和计算机设备
CN106502390B (zh) 一种基于动态3d手写数字识别的虚拟人交互系统及方法
EP3090382A1 (en) Real-time 3d gesture recognition and tracking system for mobile devices
CN102930270A (zh) 基于肤色检测与背景消除的手部识别方法及系统
CN112001394A (zh) 基于ai视觉下的听写交互方法、系统、装置
Linqin et al. Dynamic hand gesture recognition using RGB-D data for natural human-computer interaction
CN114445853A (zh) 一种视觉手势识别系统识别方法
CN115223239A (zh) 一种手势识别方法、系统、计算机设备以及可读存储介质
VanderHoeven et al. Robust motion recognition using gesture phase annotation
WO2024078088A1 (zh) 互动处理方法及装置
CN111651038A (zh) 基于ToF的手势识别控制方法及其控制系统
CN111860086A (zh) 基于深度神经网络的手势识别方法、装置及系统
Zhou et al. Training convolutional neural network for sketch recognition on large-scale dataset.
Thomas et al. A comprehensive review on vision based hand gesture recognition technology
CN115016641A (zh) 基于手势识别的会议控制方法、装置、会议系统和介质
Axyonov et al. Method of multi-modal video analysis of hand movements for automatic recognition of isolated signs of Russian sign language
CN112001380B (zh) 基于人工智能现实场景下的中文意义词组的识别方法和系统
Karthik et al. Survey on Gestures Translation System for Hearing Impaired People in Emergency Situation using Deep Learning Approach
Lu et al. Dynamic hand gesture recognition using HMM-BPNN model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant