CN109343701A - 一种基于动态手势识别的智能人机交互方法 - Google Patents

一种基于动态手势识别的智能人机交互方法 Download PDF

Info

Publication number
CN109343701A
CN109343701A CN201811022506.7A CN201811022506A CN109343701A CN 109343701 A CN109343701 A CN 109343701A CN 201811022506 A CN201811022506 A CN 201811022506A CN 109343701 A CN109343701 A CN 109343701A
Authority
CN
China
Prior art keywords
gesture
detection
frame
characteristic spectrum
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811022506.7A
Other languages
English (en)
Inventor
李宏亮
尹康
袁欢
梁小娟
邓志康
颜海强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811022506.7A priority Critical patent/CN109343701A/zh
Publication of CN109343701A publication Critical patent/CN109343701A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于动态手势识别的智能人机交互方法,属于人机交互技术领域。本发明针对目前基于手势的人机交互方案一般采用传统的机器学习算法,无法满足智慧家庭背景下嵌入式设备对实时性、鲁棒性的要求。本发明通过改进轻量化的目标检测网络,实现对手部区域的快速准确检测,在此基础上集成目标跟踪算法获取手部的运动轨迹并根据轨迹分类结果提供个性化的人机交互行为。本发明能够在嵌入式设备上实现对动态手势的实时识别,并对光照、肤色、背景等因素有极强的鲁棒性,是一种面向智慧家庭场景的智能人机交互解决方案。

Description

一种基于动态手势识别的智能人机交互方法
技术领域
本发明提出了一种基于动态手势识别的非接触式交互方法,是一种面向智慧家庭场景的智能人机交互解决方案。
背景技术
近年来,随着机器学习技术,特别是深度学习理论的飞速发展,以及高清摄像头、高性能显卡等硬件设备制造工艺的日益成熟,人工智能技术从主要被应用于工业界,开始被越来越广泛地应用于人们的日常生活中,例如,基于车牌识别的智能门禁系统、基于人脸识别的无人值守超市、基于风格迁移的人脸卡通化软件等。在此背景下,旨在综合人工智能、物联网、云计算以创造出舒适、健康、安全、便捷的定制化家居生活的“智慧家庭”概念应运而生,其中,如何结合家庭环境感知对家居设备进行控制,即设计出一种面向智慧家庭场景的智能人机交互解决方案,是一项极具挑战性的工作。
目前,市面上已经有一批基于手势识别的人机交互方案及设备,但是,该类方案一般只能识别静态手势,且多需要特殊的设备,应用场景较为有限。以微软Xbox One主机的手势操作为例,其手势交互方案不仅需要配备专用的Kinect深度摄像头,且基本只能识别肢体动作,对手势的识别率较低,无法满足用户日常所需。另一方面,囿于家居场景中嵌入式设备的算力限制,现有方案无法使用残差网络等目前业界性能最好的卷积神经网络,而只能采用传统机器学习算法中的支持向量机甚至简单的模板匹配方法来进行静态手势识别,此类方法一方面识别效果较差,特别是对光照、肤色、手势方向、图像背景等因素的鲁棒性较差;另一方面,该类方法不易集成手部区域跟踪及轨迹分类算法,无法实现对动态手势即手势运动轨迹作出交互响应行为,基本不能满足智能化家庭背景下的人机交互需求。总的来讲,面向家居智能化的时代背景,传统的机器学习方法已经无法满足智能人机交互方案需要在嵌入式设备上满足鲁棒性、实时性、准确性的要求,因此,引入深度学习方案,在嵌入式设备上实现深度卷积神经网络,是智慧家庭发展的必然要求。
本发明旨在面向室内场景下的动态手势识别任务的实际需求,有针对性地改进轻量化目标检测卷积神经网络,并集成手势跟踪及轨迹分类算法,在NVIDIA TX2开发板上实现对动态手势的实时、高性能检测,并在此基础上提供非接触式的智能人机交互方法,为智慧家庭整体解决方案提供友好的人机接口。
发明内容
本发明的发明目的在于:针对目前基于手势的人机交互方案一般采用传统的机器学习算法,无法满足智慧家庭背景下嵌入式设备对实时性、鲁棒性的要求。本发明尝试改进轻量化的目标检测网络,实现对手部区域的快速准确检测,在此基础上集成目标跟踪算法获取手部的运动轨迹并根据轨迹分类结果提供个性化的人机交互行为。
本发明的一种基于动态手势识别的智能人机交互方法,包括下列步骤:
步骤一、对彩色摄像头捕获的视频帧进行手部区域检测:
通过卷积神经网络提取视频图像的低阶特征谱和高阶特征谱,进行尺寸归一化后进行特征谱融合,得到融合特征谱;
基于融合特征谱进行手部区域检测,得到初步目标检测框,并对其进行非极大值抑制操作以去除冗余检测框;
具体抑制处理为:
(1)将所有检测目标框根据分类置信度按从大到小的顺序排序;
(2)选取置信度最高分所对应的检测框,记为框A并保留;
(3)遍历所有非A框,去除其中与框A的交并比大于预设阈值的检测目标框;
(4)对未处理的检测目标框重复步骤(2)~(3),直到所有检测目标框均被处理,所述处理包括保留和删除;
步骤二、对手部区域进行基于相关滤波的手势跟踪:
步骤三、对手势轨迹进行分类:
通过预设的分类网络(如神经网络),每隔固定帧数进行一次手势轨迹分类处理,且在将轨迹样本送入分类网络前,应当进行白边补全及大小归一化操作;
步骤四:根据手势轨迹作出交互行为。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明提出了一种基于动态手势识别的非接触式交互方法,该方法改进了基于深度卷积神经网络的目标检测网络并集成了跟踪、分类算法,能够在嵌入式设备上实现对动态手势的实时识别,并对光照、肤色、背景等因素有极强的鲁棒性,是一种面向智慧家庭场景的智能人机交互解决方案。
附图说明
图1是实施例的处理过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
本发明针对目前基于手势的人机交互方案一般采用传统的机器学习算法,无法满足智慧家庭背景下嵌入式设备对实时性、鲁棒性的要求。本发明尝试改进轻量化的目标检测网络,实现对手部区域的快速准确检测,在此基础上集成目标跟踪算法获取手部的运动轨迹并根据轨迹分类结果提供个性化的人机交互行为。
首先,对彩色摄像头捕获的视频帧进行手部区域检测。
常规的目标检测网络直接抽取高阶特征谱作预测,没有充分融合不同尺度的特征,且由于高阶特征谱中的点对应原图中的感受野较大,而手部区域占整幅图像的比例一般较小,所以常规检测网络对手部区域的检出率一般不高。为此,本发明在卷积神经网络中引入上下文信息,即将包含丰富边缘、纹理等信息的低阶特征谱和包含丰富语义信息的高阶特征谱融合后再进行目标框回归及分类操作。特别地,为了充分融合卷积特征谱的信息,本发明将低阶特征谱经池化(pooling)操作后归一化为38×38像素大小,将高阶特征谱经反卷积(deconvolution)操作后也归一化为38×38像素大小,再将两者进行相加融合后进行后续操作。
其次,为了防止同一个目标被检测多次,应在得到初步检测结果后进行非极大值抑制操作以去除冗余检测框,具体算法步骤如下:
(1)将所有检测目标框(检测框)根据分类置信度按从大到小的顺序排序;
(2)选取置信度最高分所对应的检测框,记为框A并保留;
(3)遍历其它所有检测框(即遍历所有非A框),去除其中与框A的IOU(交并比)大于预设阈值(本具体实施方式中的优选取值设置为0.5)的框;
(4)再继续从未处理(保留、删除)的检测框中选出置信度最高的,重复步骤(2)~(3,直到所有检测框均被处理
然后,对手部区域进行跟踪。
由于手部检测网络无法保证每一帧均能准确检出手部并保证手势轨迹的平滑,即存在漏检和虚检现象,因此,为了保证轨迹分类网络的输入质量,并兼顾实时性需求,本发明引入了基于相关滤波的手势跟踪方法。
记H、G、F、λ分别为相关滤波器模板、样本标签、训练样本和正则化参数,则有
其中k表示特征迭代指示变量,d表示特征总维数,l表示特征维度,表示样本标签G的共轭,即表示共轭符号;
为了加快求解速度,可以迭代求解滤波器的分子A和分母B,即
其中,η为学习率,t为迭代次数,表示在第t次迭代时的训练样本,其对应的特征维度分别为l、k,为第t次迭代的样本标签Gt的共轭。
由上式可得,下一帧的目标位置可由最小化分数y得到,即
其中,F-1为傅里叶逆变换,Zl表示目标区域的二维傅里叶变换结果。
再者,对手势轨迹进行分类。
为了提高程序整体运行效率,并考虑到实际使用场景下手势轨迹的绘制过程,手势分类网络不在每一帧前向传播轨迹样本,而是每隔固定帧数K(例如40帧)分类一次。此外,由于检测网络的输出结果的大小和尺寸均不固定,因此,在将轨迹样本送入分类网络前,应当进行白边补全及大小归一化操作(优选的统一大小为224×224像素点)。
最后,根据手势轨迹作出交互行为。
为了提供个性化的交互服务,具体的交互行为应当取决于具体的应用场景并可由用户自行定制。举例来说,当本发明方法被应用到智能音箱上时,交互动作可以是对话行为;当本发明方法被应用到陪护机器人上时,交互动作可以是移动行为。
参见图1,在具体实现时,本发明主要可以分为手部区域检测、手部区域跟踪、手势轨迹分类和交互响应4个步骤,各步骤具体为:。
步骤S1:手部区域检测:
步骤S101:从彩色摄像头获取视频帧图像;
步骤S102:对捕获图像进行减均值、通道交换、大小归一化等预处理操作;
步骤S103:检测手部区域;
步骤S104:对手部区域检测框进行非极大值抑制。
步骤S2:手部区域跟踪:
步骤S201:当手部区域检测框的置信度高于预设阈值时,将其作为跟踪框的首帧目标位置;
步骤S202:利用相关滤波器更新当前帧目标位置(更新跟踪框);
其中相关滤波器具体实现可参考文献《Henriques J F,Caseiro R,Martins P,etal.High-Speed Tracking with Kernelized Correlation Filters[J].IEEETransactions on Pattern Analysis&Machine Intelligence,2015,37(3):583-596.》。
步骤S203:如果跟踪置信度小于预设阈值,则返回跟踪失败,否则继续更新目标位置。
步骤S3:手势轨迹分类:
步骤S301:在预设时刻生成手势轨迹样本图像;
步骤S302:在分类网络中前向传播轨迹样本,获取轨迹分类结果。
S4:交互响应:根据轨迹分类结果作出预设交互行为。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (3)

1.一种基于动态手势识别的智能人机交互方法,其特征在于,包括下列步骤:
步骤一、对彩色摄像头捕获的视频帧进行手部区域检测:
通过卷积神经网络提取视频图像的低阶特征谱和高阶特征谱,并将低阶特征谱经池化操作后归一化为预设大小;将高阶特征谱经反卷积操作后也归一化为预设大小,归一化后的低阶特征谱与高阶特征谱的尺寸相同,然后对两者进行特征谱融合,得到融合特征谱;
基于融合特征谱进行手部区域检测,得到初步目标检测框,并对其进行非极大值抑制操作以去除冗余检测框;
具体抑制处理为:
(1)将所有检测目标框根据分类置信度按从大到小的顺序排序;
(2)选取置信度最高分所对应的检测框,记为框A并保留;
(3)遍历所有非A框,去除其中与框A的交并比大于预设阈值的检测目标框;
(4)对未处理的检测目标框重复步骤(2)~(3),直到所有检测目标框均被处理,所述处理包括保留和删除;
步骤二、对手部区域进行基于相关滤波的手势跟踪:
步骤三、对手势轨迹进行分类:
通过预设的分类网络,每隔固定帧数进行一次手势轨迹分类处理,且在将轨迹样本送入分类网络前,进行白边补全及大小归一化操作;
步骤四:根据手势轨迹作出交互行为。
2.如权利要求1所述的方法,其特征在于,步骤一中,特征谱的归一化尺寸为38×38像素大小。
3.如权利要求2所述的方法,其特征在于,步骤二中,检测目标框的交并比的阈值优选值为0.5。
CN201811022506.7A 2018-09-03 2018-09-03 一种基于动态手势识别的智能人机交互方法 Pending CN109343701A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811022506.7A CN109343701A (zh) 2018-09-03 2018-09-03 一种基于动态手势识别的智能人机交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811022506.7A CN109343701A (zh) 2018-09-03 2018-09-03 一种基于动态手势识别的智能人机交互方法

Publications (1)

Publication Number Publication Date
CN109343701A true CN109343701A (zh) 2019-02-15

Family

ID=65292400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811022506.7A Pending CN109343701A (zh) 2018-09-03 2018-09-03 一种基于动态手势识别的智能人机交互方法

Country Status (1)

Country Link
CN (1) CN109343701A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934183A (zh) * 2019-03-18 2019-06-25 北京市商汤科技开发有限公司 图像处理方法及装置、检测设备及存储介质
CN111126133A (zh) * 2019-11-08 2020-05-08 博云视觉(北京)科技有限公司 一种基于深度学习的智能冰箱存取动作识别方法
CN111144475A (zh) * 2019-12-22 2020-05-12 上海眼控科技股份有限公司 车厢座位的确定方法、装置、电子设备及可读存储介质
CN111736607A (zh) * 2020-06-28 2020-10-02 上海黑眸智能科技有限责任公司 基于脚部运动的机器人运动引导方法、系统以及终端
CN112506342A (zh) * 2020-12-04 2021-03-16 郑州中业科技股份有限公司 基于动态手势识别的人机交互方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426480A (zh) * 2011-11-03 2012-04-25 康佳集团股份有限公司 一种人机交互系统及其实时手势跟踪处理方法
CN105740823A (zh) * 2016-02-01 2016-07-06 北京高科中天技术股份有限公司 基于深度卷积神经网络的动态手势轨迹识别方法
CN107016689A (zh) * 2017-02-04 2017-08-04 中国人民解放军理工大学 一种尺度自适应的相关滤波对冲目标跟踪方法
CN107240122A (zh) * 2017-06-15 2017-10-10 国家新闻出版广电总局广播科学研究院 基于时空连续相关滤波的视频目标跟踪方法
CN107452022A (zh) * 2017-07-20 2017-12-08 西安电子科技大学 一种视频目标跟踪方法
CN107578423A (zh) * 2017-09-15 2018-01-12 杭州电子科技大学 多特征分层融合的相关滤波鲁棒跟踪方法
CN107660039A (zh) * 2017-09-26 2018-02-02 哈尔滨拓博科技有限公司 一种识别动态手势的灯具控制系统
CN107680119A (zh) * 2017-09-05 2018-02-09 燕山大学 一种基于时空上下文融合多特征及尺度滤波的跟踪算法
CN108460403A (zh) * 2018-01-23 2018-08-28 上海交通大学 一种图像中多尺度特征融合的目标检测方法与系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426480A (zh) * 2011-11-03 2012-04-25 康佳集团股份有限公司 一种人机交互系统及其实时手势跟踪处理方法
CN105740823A (zh) * 2016-02-01 2016-07-06 北京高科中天技术股份有限公司 基于深度卷积神经网络的动态手势轨迹识别方法
CN107016689A (zh) * 2017-02-04 2017-08-04 中国人民解放军理工大学 一种尺度自适应的相关滤波对冲目标跟踪方法
CN107240122A (zh) * 2017-06-15 2017-10-10 国家新闻出版广电总局广播科学研究院 基于时空连续相关滤波的视频目标跟踪方法
CN107452022A (zh) * 2017-07-20 2017-12-08 西安电子科技大学 一种视频目标跟踪方法
CN107680119A (zh) * 2017-09-05 2018-02-09 燕山大学 一种基于时空上下文融合多特征及尺度滤波的跟踪算法
CN107578423A (zh) * 2017-09-15 2018-01-12 杭州电子科技大学 多特征分层融合的相关滤波鲁棒跟踪方法
CN107660039A (zh) * 2017-09-26 2018-02-02 哈尔滨拓博科技有限公司 一种识别动态手势的灯具控制系统
CN108460403A (zh) * 2018-01-23 2018-08-28 上海交通大学 一种图像中多尺度特征融合的目标检测方法与系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NANANEETH BODLA等: "Soft-NMS-Improving Object Detection With One Line of Code", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION(ICCV)》 *
PEIYUN HU等: "Finding Tiny Faces", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 *
W.LIU等: "Single shot multibox detector", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 *
张欣 等: "基于相关滤波和关键点的目标跟踪算法", 《电视技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934183A (zh) * 2019-03-18 2019-06-25 北京市商汤科技开发有限公司 图像处理方法及装置、检测设备及存储介质
CN111126133A (zh) * 2019-11-08 2020-05-08 博云视觉(北京)科技有限公司 一种基于深度学习的智能冰箱存取动作识别方法
CN111144475A (zh) * 2019-12-22 2020-05-12 上海眼控科技股份有限公司 车厢座位的确定方法、装置、电子设备及可读存储介质
CN111736607A (zh) * 2020-06-28 2020-10-02 上海黑眸智能科技有限责任公司 基于脚部运动的机器人运动引导方法、系统以及终端
CN111736607B (zh) * 2020-06-28 2023-08-11 上海黑眸智能科技有限责任公司 基于脚部运动的机器人运动引导方法、系统以及终端
CN112506342A (zh) * 2020-12-04 2021-03-16 郑州中业科技股份有限公司 基于动态手势识别的人机交互方法及系统

Similar Documents

Publication Publication Date Title
CN109343701A (zh) 一种基于动态手势识别的智能人机交互方法
Mahmood et al. Facial expression recognition in image sequences using 1D transform and gabor wavelet transform
CN111274977B (zh) 多任务卷积神经网络模型及使用方法、装置和存储介质
US9001199B2 (en) System and method for human detection and counting using background modeling, HOG and Haar features
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
JP6608465B2 (ja) ジェスチャーの検知識別の方法及びシステム
Zhang et al. Pedestrian detection method based on Faster R-CNN
CN103295016B (zh) 基于深度与rgb信息和多尺度多方向等级层次特征的行为识别方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN111989689A (zh) 用于识别图像内目标的方法和用于执行该方法的移动装置
Nguyen et al. Yolo based real-time human detection for smart video surveillance at the edge
CN110119726A (zh) 一种基于YOLOv3模型的车辆品牌多角度识别方法
CN112507918B (zh) 一种手势识别方法
CN106650617A (zh) 一种基于概率潜在语义分析的行人异常识别方法
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
CN103105924A (zh) 人机交互方法和装置
CN115223239B (zh) 一种手势识别方法、系统、计算机设备以及可读存储介质
CN113269089A (zh) 基于深度学习的实时手势识别方法及系统
Thabet et al. Fast marching method and modified features fusion in enhanced dynamic hand gesture segmentation and detection method under complicated background
CN111898454A (zh) 权重二值化神经网络与迁移学习人眼状态检测方法及设备
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN108255298B (zh) 一种投影交互系统中的红外手势识别方法及设备
Wu et al. Partially occluded head posture estimation for 2D images using pyramid HoG features
Ye et al. LLOD: a object detection method under low-light condition by feature enhancement and fusion
Yin et al. Flue gas layer feature segmentation based on multi-channel pixel adaptive

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215

RJ01 Rejection of invention patent application after publication