CN112506342A - 基于动态手势识别的人机交互方法及系统 - Google Patents

基于动态手势识别的人机交互方法及系统 Download PDF

Info

Publication number
CN112506342A
CN112506342A CN202011402011.4A CN202011402011A CN112506342A CN 112506342 A CN112506342 A CN 112506342A CN 202011402011 A CN202011402011 A CN 202011402011A CN 112506342 A CN112506342 A CN 112506342A
Authority
CN
China
Prior art keywords
gesture
human
centroid
computer interaction
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011402011.4A
Other languages
English (en)
Other versions
CN112506342B (zh
Inventor
张恒星
刘丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Zoneyet Technology Co ltd
Original Assignee
Zhengzhou Zoneyet Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Zoneyet Technology Co ltd filed Critical Zhengzhou Zoneyet Technology Co ltd
Priority to CN202011402011.4A priority Critical patent/CN112506342B/zh
Priority to PCT/CN2020/137422 priority patent/WO2022116282A1/zh
Publication of CN112506342A publication Critical patent/CN112506342A/zh
Priority to AU2021101815A priority patent/AU2021101815A4/en
Application granted granted Critical
Publication of CN112506342B publication Critical patent/CN112506342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Abstract

本发明属于人机交互技术领域,特别涉及一种基于动态手势识别的人机交互方法及系统,包含:接收摄像头采集的视频图像,对视频图像进行图像处理获取人脸图像及对应人脸图像的手势控制人手势区域;提取手势控制人手势区域特征信息,并依据特征信息确定手势运动轨迹;通过对手势运动轨迹进行分类识别来确定给与交互系统的控制信号,交互系统对控制信号进行匹配以做出相应交互应答。本发明通过人脸识别来获取手势控制人进而确定用于人机交互的相关控制人员的手势运动轨迹,解决复杂场景下多人存在时非控制人的手势对人机交互的干扰,提升用户体验,具有较好的应用前景。

Description

基于动态手势识别的人机交互方法及系统
技术领域
本发明属于人机交互技术领域,特别涉及一种基于动态手势识别的人机交互方法及系统。
背景技术
随着计算机技术的发展,人与机器交互的重要性逐渐凸显。通过对人机交互的发展历程、人机交互现状的研究和分析,可以看出未来的发展趋势将倾向于自然交互的模式。人机交互的发展从原先的键盘输入到鼠标、触摸屏的出现再到手势的逐渐兴起,人机交互向着更加人性化、更加自然与便捷、更能体现出以人为中心的思想方向发展。
手势作为一种包含丰富信息的人体姿态,在人机交互中应用十分广泛。由于手势的多样性与复杂性,手势运动在时间、空间上的差异性等特点,加上视觉本身存在的不确定性,使得人体手势在识别问题上具有重大挑战。手势识别过程中复杂的背景信息对手势识别造成很大的干扰,现有的手势识别技术多是静态的单张图片的识别,静态手势的识别缺少了时空连续性信息,在人机交互的过程中很难准确地理解手势的意义。现有的基于视频连续帧的动态手势识别技术准确率低,运行速度慢,在人机交互的过程中很难达到实时的互动效果,实用性不高,体验性差。现有的人机交互都是背景要求比较苛刻,当控制场景中有多人存在时,其他人的手势会对控制人的手势产生影响,使机器难以理解控制人手势包含的信息,交互信号会发生错乱,很难准确地进行人机交互。
发明内容
针对传统基于图像的动态手势识别速度慢、当场景中多人存在时多人手势相互影响、手势识别系统准确率底及人机交互过程中体验性差等问题,本发明提供一种基于动态手势识别的人机交互方法及系统,可以解决复杂场景下多人存在时非控制人的手势对人机交互的干扰,提升用户体验。
按照本发明所提供的设计方案,一种基于动态手势识别的人机交互方法,包含如下内容:
接收摄像头采集的视频图像,对视频图像进行图像处理获取人脸图像及对应人脸图像的手势控制人手势区域;
提取手势控制人手势区域特征信息,并依据特征信息确定手势运动轨迹;
通过对手势运动轨迹进行分类识别来确定给与交互系统的控制信号,交互系统对控制信号进行匹配以做出相应交互应答。
作为本发明基于动态手势识别的人机交互方法,进一步的,获取人脸图像时,依据数据库中预先设置的人物优先级来确定人脸图像中手势控制人。
作为本发明基于动态手势识别的人机交互方法,进一步地,通过构建人脸识别网络,并利用预先采集的人脸数据样本对人脸识别网络进行模型训练学习;利用训练后的人脸识别网络来获取人脸图像中手势控制人信息。
作为本发明基于动态手势识别的人机交互方法,进一步地,通过构建yolov3网络,并利用预先采集的手势数据样本对yolov3网络进行模型训练学习;利用训练后的yolov3网络来获取手势区域信息。
作为本发明基于动态手势识别的人机交互方法,进一步地,yolov3网络包含深度残差网络模型及与该深度残差网络模型中残差单元块连接的若干尺度卷积层,利用尺度卷积层构建特征金字塔,并以N倍步长对特征金字塔进行上采样,将获取到的采样特征与卷积特征进行特征融合,对不同尺度的特征进行特征回归来并通过非极大抑制算法来计算当前得分最高的预测框与其他预测框交并比,按照阈值和得分滤除非手势检测框,以确定手势区域。
作为本发明基于动态手势识别的人机交互方法,进一步地,获取人脸图像时,将视频图像中第一帧图片送入人脸识别网络来确定人脸图像中手势控制人信息,并依据该第一帧图片通过yolov3网络来得到手势运动轨迹的初始位置;利用改进的K-means算法对手势进行聚类获取手势先验框,利用双线性插值法对手势区域进行质心点提取,根据特定约束条件的空间特征匹配视频图像中下一帧控制人手势位置,进而确定手势运动轨迹。
作为本发明基于动态手势识别的人机交互方法,进一步地,确定手势运动轨迹中,首先,将手势区域转换为HSV空间,基于HSV空间对手部肤色区域进行分割;对分割后的图片去除噪声并提取手多边形边框;利用双线性插值法提取多边形边框质心;根据特定约束条件的空间特征算法定位当前帧手势位置,对当前手势质心点位置进行微调修正来修正手势运动轨迹。
作为本发明基于动态手势识别的人机交互方法,进一步地,修正手势运动轨迹中,依据当前图片帧手势点质心坐标计算所有质心点到上一个控制点的欧式距离;将最小欧氏距离对应质心作为待定控制点质心位置;若待定控制点质心与前一质心点垂直距离及水平距离均分别小于对应给定参数,且当前帧帧数域前一质心点帧数差小于设定阈值,则将待定质心点放入质心点数组中,否则,将(0,0)放入质心点数组;基于卡尔曼算法对当前控制手势的质心点位置进行微调,得到真实质心点位置;若质心点数组长度达到长度阈值,则提出数组中所有(0,0)点,并对数组进行曲线拟合;进行下一轮控制手势提取时,首先清空数组。
作为本发明基于动态手势识别的人机交互方法,进一步地,对手势运动轨迹进行分类时,利用预先训练学习后的XGBoost分类器进行轨迹分类,分类器输出端通过socket与用于将信号与交互系统场景映射的终端连接,交互系统各服务器之间数据共享。
进一步地,基于上述的方法,本发明还提供一种基于动态手势识别的人机交互系统,包含:数据采集模块、轨迹提取模块和识别交互模块,其中,
数据采集模块,用于接收摄像头采集的视频图像,对视频图像进行图像处理获取人脸图像及对应人脸图像的手势控制人手势区域;
轨迹提取模块,用于提取手势控制人手势区域特征信息,并依据特征信息确定手势运动轨迹;
识别交互模块,用于通过对手势运动轨迹进行分类识别来确定给与交互系统的控制信号,交互系统对控制信号进行匹配以做出相应交互应答。
本发明的有益效果:
本发明针对传统基于图像的动态手势识别速度慢、当场景中多人存在时多人手势相互影响、手势识别系统准确率底及人机交互过程中体验性差等问题,通过人脸识别来获取手势控制人进而确定用于人机交互的相关控制人员的手势运动轨迹,解决复杂场景下多人存在时非控制人的手势对人机交互的干扰,提升用户体验;并进一步通过对传统的yolov3算法进行了改进,通过增加残差网和尺度卷积个数,提升大视野复杂场景下静态手势检测的准确率,更有利于复杂场景下小尺度的手部检测;通过特定约束条件的空间特征匹配算法和卡尔曼算法算法,可以准确地提取出手势在连续帧间的运动轨迹,使用采用训练好的XGBoost模型对运动轨迹进行分类,提高分类的准确率,具有较好的应用前景。
附图说明:
图1为实施例中人机交互流程示意;
图2为实施例中网络模型训练识别流程示意;
图3为实施例中改进的yolov3卷积神经网络结构示意;
图4为实施例中动态手势轨迹提取框架示意;
图5为实施例中基于特定约束条件的运动手势检测结构示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
本发明实施例,参见图1所示,提供一种基于动态手势识别的人机交互方法,包含如下内容:
S101、接收摄像头采集的视频图像,对视频图像进行图像处理获取人脸图像及对应人脸图像的手势控制人手势区域;
S102、提取手势控制人手势区域特征信息,并依据特征信息确定手势运动轨迹;
S103、通过对手势运动轨迹进行分类识别来确定给与交互系统的控制信号,交互系统对控制信号进行匹配以做出相应交互应答。
针对传统基于图像的动态手势识别速度慢、当场景中多人存在时多人手势相互影响、手势识别系统准确率底及人机交互过程中体验性差等问题,通过人脸识别来获取手势控制人进而确定用于人机交互的相关控制人员的手势运动轨迹,解决复杂场景下多人存在时非控制人的手势对人机交互的干扰,提升用户体验。
作为本发明实施例中基于动态手势识别的人机交互方法,进一步的,获取人脸图像时,依据数据库中预先设置的人物优先级来确定人脸图像中手势控制人。进一步地,通过构建人脸识别网络,并利用预先采集的人脸数据样本对人脸识别网络进行模型训练学习;利用训练后的人脸识别网络来获取人脸图像中手势控制人信息。进一步地,通过构建yolov3网络,并利用预先采集的手势数据样本对yolov3网络进行模型训练学习;利用训练后的yolov3网络来获取手势区域信息。
参见图2所示,通过人脸检测网络检测出场景中所有人的人脸,通过facenet网络对检测到的人脸进行特征提取,可通过与公司人脸库进行对比分析,分析识别出现场每个人的身份,并进一步可结合内部管理系统中每个人的管理权限优先级,确定手势控制人。通过训练好的手势检测模型对手势控制人的手部位置进行检测,得到手势控制的初始位置。利用预先收集到的样本数据手势训练集和测试集对改进过的yolov3进行卷积神经网络进行训练,以进行模型参数调优。
作为本发明实施例中基于动态手势识别的人机交互方法,进一步地,yolov3网络包含深度残差网络模型及与该深度残差网络模型中残差单元块连接的若干尺度卷积层,利用尺度卷积层构建特征金字塔,并以N倍步长对特征金字塔进行上采样,将获取到的采样特征与卷积特征进行特征融合,对不同尺度的特征进行特征回归来并通过非极大抑制算法来计算当前得分最高的预测框与其他预测框交并比,按照阈值和得分滤除非手势检测框,以确定手势区域。
参见图3所示,改进的yolov3主要包括对主网络层的改进和卷积特征尺度的增加。在Darknet-53网络前52层后又增加了2个卷积层,通过改变卷积核的步长来实现张亮的尺寸变换,卷积的步长为2,网络中共经过7次缩小,特征图变为源输入尺寸的1/128,所以网络输入的图片尺寸应缩放到512×512。主网络新加的两个卷积层与YOLOv3原有的3个卷积层共同构建含有5个不同尺度的卷积层的特征金字塔,即:64×64、32×32、16×16、8×8、4×4分辨率,通过2倍步长对该金字塔进行上采样,通过深度残差网进行融合。
作为本发明实施例中基于动态手势识别的人机交互方法,进一步地,获取人脸图像时,将视频图像中第一帧图片送入人脸识别网络来确定人脸图像中手势控制人信息,并依据该第一帧图片通过yolov3网络来得到手势运动轨迹的初始位置;利用改进的K-means算法对手势进行聚类获取手势先验框,利用双线性插值法对手势区域进行质心点提取,根据特定约束条件的空间特征匹配视频图像中下一帧控制人手势位置,进而确定手势运动轨迹。
特征提取网络将输入的图片按照特征图的大小划分为M×M个单元格,手势中心落到哪个单元格中,这个单元格就会负责检测该目标,通过卷积特征与对应的上采样特征的融合,获得更丰富更具有鉴别性的特征并送入到检测网络,检测网络对5种尺度进行特征回归,并使用非极大抑制算法,并计算当前得分最高的预测框与其他预测框的交并比(IoU),按照阈值和得分滤除非手势的检测框,每个边界框预测4个坐标:tx,ty,tw,th,其定义如下:
bx=σ(tx)+cx
by=σ(ty)+cy
Figure BDA0002817252380000041
Figure BDA0002817252380000042
其中,cx和cy表示一个网格与图像左上角的横纵距离,pw和ph表示边界框的宽和高。bx、by、bw、bh就是预测得到的Bounding Box的中心坐标和尺寸大小(宽、高)。Confidence表示置信度。
在训练数据前,可使用改进的K-means算法重新聚类手势获得15个先验框,让手势的预测框和真实边框尽可能的接近增加了手势检测的准确率,具体步骤如下:
步骤1.1、输入手势数据集D和聚类簇数m,从数据D中随机选取一个样本点作为初始聚类中心c1。
步骤1.2、通过欧氏距离或切比雪夫距离计算集合D中剩余样本点到聚类中心的距离,并将每个样本点与其相距最近的簇类中心的距离定义为d(x)。
步骤1.3、计算每个样本点可以在下一次被选为簇类中心
Figure BDA0002817252380000051
的概率。按照轮盘法选出下一个聚类中心。
步骤1.4、重复1.2和1.3的步骤,直到选出n个中心。
步骤1.5、针对数据集中每个样本xi,通过欧氏距离或切比雪夫距离计算集合D中剩余样本点到聚类中心的距离。
步骤1.6、针对每个类别ci,从新计算他
Figure BDA0002817252380000052
的聚类中心点。
步骤1.7、重复1.5和1.6步骤直到质心点的位置不再发生变化或者达到设定的迭代次数,输出簇类C=C1,C2,C3,......,Cm。
作为本发明实施例中基于动态手势识别的人机交互方法,进一步地,确定手势运动轨迹中,首先,将手势区域转换为HSV空间,基于HSV空间对手部肤色区域进行分割;对分割后的图片去除噪声并提取手多边形边框;利用双线性插值法提取多边形边框质心;根据特定约束条件的空间特征算法定位当前帧手势位置,对当前手势质心点位置进行微调修正来修正手势运动轨迹。
参见图4和5所示,利用双线性插值算法对手势质心进行提取,根据包含特定约束条件的空间特征及卡尔曼算法对连续帧间进行运动轨迹提取。具体步骤如下:
步骤4.1、将手势框从RGB空间转换为HSV空间,基于HSV空间对手部肤色区域进行分割。
步骤4.2、分割后的图片进行腐蚀、膨胀、高斯滤波器算法去除噪声,并使用8连通区域填充算法提取出手的多边形边框。
步骤4.3、使用双线性插值法提取多边形手势边框的质心。
先根据f(i,j)及f(i+1,j)插值得:
f(u,j)=f(i,j)+a[f(i+1,j)-f(i,j)]
再根据f(i,j+1)及f(i+1,j+1)插值得:
f(u,j+1)=f(i,j+1)+a[f(i+1,j+1)-f(i,j+1)]
最后根据f(u,j)及f(u,j+1)插值得:
f(u,v)=f(i,j)(1-α)(1-β)+f(i+1,j)a(1-β)
+f(i,j+1)(1-a)β+f(i+1,j+1)aβ
若对任一u,v值,规定[u]、[v]表示不超过u、v的最大整数,则:
i=[u],j=[v],a=u-[u],β=v-[v]
经过插值算法的质心坐标公式可表示为:
Figure BDA0002817252380000061
作为本发明实施例中基于动态手势识别的人机交互方法,进一步地,修正手势运动轨迹中,依据当前图片帧手势点质心坐标计算所有质心点到上一个控制点的欧式距离;将最小欧氏距离对应质心作为待定控制点质心位置;若待定控制点质心与前一质心点垂直距离及水平距离均分别小于对应给定参数,且当前帧帧数域前一质心点帧数差小于设定阈值,则将待定质心点放入质心点数组中,否则,将(0,0)放入质心点数组;基于卡尔曼算法对当前控制手势的质心点位置进行微调,得到真实质心点位置;若质心点数组长度达到长度阈值,则提出数组中所有(0,0)点,并对数组进行曲线拟合;进行下一轮控制手势提取时,首先清空数组。
根据特定约束条件的空间特征算法进行当前帧的手势位置的粗略定位,基于卡尔曼算法对当前控制手势的质心点位置进行微调。
上一帧的手势控制的位置点为x0,y0。当前帧检测到的手势质心点集为xi,yi(i=1,2,3,...)基于空间特征的约束条件为:
Figure BDA0002817252380000062
其中dj是上一帧的控制点与当前所有控制点的距离集合,dm代表当前帧检测的手势控制点的位置,d1代表前后两帧的垂直变化范围的最大值,l1代表前后两个有效帧的位置差。
具体实施步骤如下:
步骤4.4.1、当前图片帧的所有手势点的质心坐标为Z(xi,yi),i=0,1,2...,计算所有质心点到上一个控制点的距离dj,j∈Ω,Ω为当前帧手质心点坐标集合。找出最小欧氏距离对应的质心(x1,y1),作为待定控制点质心位置。
步骤4.4.2、待定控制点质心如果满足以下3个条件,将待定质心点放入质心点数组中:
①待定质心点与前一质心点的垂直距离小于给定参数ymax
②待定质心点与前一质心点的水平距离小于给定参数Xmax
③当前帧的帧数与前一质心点的帧数差小于15.
步骤4.4.3、待定控制点质心如果不满足步骤4.4.2的3个条件,将(0,0)放入到质心点数组中。
步骤4.4.4、基于卡尔曼算法对当前控制手势的质心点位置进行微调,得到真实的质心点位置。
步骤4.4.5、当质心点数组的长度达到32时,剔除数组中所有的(0,0)点,并对质心点数组进行曲线拟合。
步骤4.4.6、清空数组,进行下一轮的控制手势轨迹的提取。
作为本发明实施例中基于动态手势识别的人机交互方法,进一步地,对手势运动轨迹进行分类时,利用预先训练学习后的XGBoost分类器进行轨迹分类,分类器输出端通过socket与用于将信号与交互系统场景映射的终端连接,交互系统各服务器之间数据共享。
对运动轨迹进行分类时,采用训练好的XGBoost分类器。分类器输出的信号通过socket发送给终端,终端将接收到的信号经过map映射到对应的场景模块,在特定的场景下各服务器之间使用redis进行数据共享,最终系统结合硬件做出对应的交互应答。
进一步地,基于上述的方法,本发明实施例还提供一种基于动态手势识别的人机交互系统,包含:数据采集模块、轨迹提取模块和识别交互模块,其中,
数据采集模块,用于接收摄像头采集的视频图像,对视频图像进行图像处理获取人脸图像及对应人脸图像的手势控制人手势区域;
轨迹提取模块,用于提取手势控制人手势区域特征信息,并依据特征信息确定手势运动轨迹;
识别交互模块,用于通过对手势运动轨迹进行分类识别来确定给与交互系统的控制信号,交互系统对控制信号进行匹配以做出相应交互应答。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的方法或系统,本发明实施例还提供一种网络设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的系统或执行上述的方法。
基于上述的系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的系统。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述系统实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述系统实施例中相应内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述系统实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于动态手势识别的人机交互方法,其特征在于,包含如下内容:
接收摄像头采集的视频图像,对视频图像进行图像处理获取人脸图像及对应人脸图像的手势控制人手势区域;
提取手势控制人手势区域特征信息,并依据特征信息确定手势运动轨迹;
通过对手势运动轨迹进行分类识别来确定给与交互系统的控制信号,交互系统对控制信号进行匹配以做出相应交互应答。
2.根据权利要求1所述的基于动态手势识别的人机交互方法,其特征在于,获取人脸图像时,依据数据库中预先设置的人物优先级来确定人脸图像中手势控制人。
3.根据权利要求1或2所述的基于动态手势识别的人机交互方法,其特征在于,通过构建人脸识别网络,并利用预先采集的人脸数据样本对人脸识别网络进行模型训练学习;利用训练后的人脸识别网络来获取人脸图像中手势控制人信息。
4.根据权利要求3所述的基于动态手势识别的人机交互方法,其特征在于,通过构建yolov3网络,并利用预先采集的手势数据样本对yolov3网络进行模型训练学习;利用训练后的yolov3网络来获取手势区域信息。
5.根据权利要求4所述的基于动态手势识别的人机交互方法,其特征在于,yolov3网络包含深度残差网络模型及与该深度残差网络模型中残差单元块连接的若干尺度卷积层,利用尺度卷积层构建特征金字塔,并以N倍步长对特征金字塔进行上采样,将获取到的采样特征与卷积特征进行特征融合,对不同尺度的特征进行特征回归来并通过非极大抑制算法来计算当前得分最高的预测框与其他预测框交并比,按照阈值和得分滤除非手势检测框,以确定手势区域。
6.根据权利要求4所述的基于动态手势识别的人机交互方法,其特征在于,获取人脸图像时,将视频图像中第一帧图片送入人脸识别网络来确定人脸图像中手势控制人信息,并依据该第一帧图片通过yolov3网络来得到手势运动轨迹的初始位置;利用改进的K-means算法对手势进行聚类获取手势先验框,利用双线性插值法对手势区域进行质心点提取,根据特定约束条件的空间特征匹配视频图像中下一帧控制人手势位置,进而确定手势运动轨迹。
7.根据权利要求1或6所述的基于动态手势识别的人机交互方法,其特征在于,确定手势运动轨迹中,首先,将手势区域转换为HSV空间,基于HSV空间对手部肤色区域进行分割;对分割后的图片去除噪声并提取手多边形边框;利用双线性插值法提取多边形边框质心;根据特定约束条件的空间特征算法定位当前帧手势位置,对当前手势质心点位置进行微调修正来修正手势运动轨迹。
8.根据权利要求7所述的基于动态手势识别的人机交互方法,其特征在于,修正手势运动轨迹中,依据当前图片帧手势点质心坐标计算所有质心点到上一个控制点的欧式距离;将最小欧氏距离对应质心作为待定控制点质心位置;若待定控制点质心与前一质心点垂直距离及水平距离均分别小于对应给定参数,且当前帧帧数域前一质心点帧数差小于设定阈值,则将待定质心点放入质心点数组中,否则,将(0,0)放入质心点数组;基于卡尔曼算法对当前控制手势的质心点位置进行微调,得到真实质心点位置;若质心点数组长度达到长度阈值,则提出数组中所有(0,0)点,并对数组进行曲线拟合;进行下一轮控制手势提取时,首先清空数组。
9.根据权利要求1所述的基于动态手势识别的人机交互方法,其特征在于,对手势运动轨迹进行分类时,利用预先训练学习后的XGBoost分类器进行轨迹分类,分类器输出端通过socket与用于将信号与交互系统场景映射的终端连接,交互系统各服务器之间数据共享。
10.一种基于动态手势识别的人机交互系统,其特征在于,包含:数据采集模块、轨迹提取模块和识别交互模块,其中,
数据采集模块,用于接收摄像头采集的视频图像,对视频图像进行图像处理获取人脸图像及对应人脸图像的手势控制人手势区域;
轨迹提取模块,用于提取手势控制人手势区域特征信息,并依据特征信息确定手势运动轨迹;
识别交互模块,用于通过对手势运动轨迹进行分类识别来确定给与交互系统的控制信号,交互系统对控制信号进行匹配以做出相应交互应答。
CN202011402011.4A 2020-12-04 2020-12-04 基于动态手势识别的人机交互方法及系统 Active CN112506342B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011402011.4A CN112506342B (zh) 2020-12-04 2020-12-04 基于动态手势识别的人机交互方法及系统
PCT/CN2020/137422 WO2022116282A1 (zh) 2020-12-04 2020-12-18 基于动态手势识别的人机交互方法及系统
AU2021101815A AU2021101815A4 (en) 2020-12-04 2021-04-08 Human-computer interaction method and system based on dynamic gesture recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011402011.4A CN112506342B (zh) 2020-12-04 2020-12-04 基于动态手势识别的人机交互方法及系统

Publications (2)

Publication Number Publication Date
CN112506342A true CN112506342A (zh) 2021-03-16
CN112506342B CN112506342B (zh) 2022-01-28

Family

ID=74968352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011402011.4A Active CN112506342B (zh) 2020-12-04 2020-12-04 基于动态手势识别的人机交互方法及系统

Country Status (3)

Country Link
CN (1) CN112506342B (zh)
AU (1) AU2021101815A4 (zh)
WO (1) WO2022116282A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906563A (zh) * 2021-02-19 2021-06-04 山东英信计算机技术有限公司 一种动态手势识别方法、装置、系统及可读存储介质
CN113031464A (zh) * 2021-03-22 2021-06-25 北京市商汤科技开发有限公司 设备控制方法、装置、电子设备及存储介质
CN113093904A (zh) * 2021-03-26 2021-07-09 河北建筑工程学院 基于体感设备的图形获取方法、系统、介质及设备
CN113190045A (zh) * 2021-05-10 2021-07-30 北京航空航天大学 一种基于笔画人机交互的无人机集群控制方法及系统
CN113342170A (zh) * 2021-06-11 2021-09-03 北京字节跳动网络技术有限公司 手势控制方法、装置、终端和存储介质
CN113542832A (zh) * 2021-07-01 2021-10-22 深圳创维-Rgb电子有限公司 显示控制方法、显示装置及计算机可读存储介质
CN114167978A (zh) * 2021-11-11 2022-03-11 广州大学 一种搭载于建筑机器人的人机交互系统
CN114627561A (zh) * 2022-05-16 2022-06-14 南昌虚拟现实研究院股份有限公司 动态手势识别方法、装置、可读存储介质及电子设备
CN115297263A (zh) * 2022-08-24 2022-11-04 广州方图科技有限公司 适用于拍立方的自动拍照控制方法、系统及拍立方

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408433B (zh) * 2021-06-22 2023-12-05 华侨大学 一种智能监控的手势识别方法、装置、设备和存储介质
CN113408435B (zh) * 2021-06-22 2023-12-05 华侨大学 一种安全监控方法、装置、设备和存储介质
CN113759748A (zh) * 2021-10-20 2021-12-07 深圳市博视系统集成有限公司 一种基于物联网的智能家居控制方法及系统
CN114356073A (zh) * 2021-11-16 2022-04-15 北京交通大学 一种基于uwb通信技术的手势识别方法
CN114356076B (zh) * 2021-12-13 2023-10-03 中国船舶重工集团公司第七0九研究所 一种手势操控方法和系统
CN114265499A (zh) * 2021-12-17 2022-04-01 交控科技股份有限公司 应用于客服终端的交互方法和系统
CN114827351A (zh) * 2022-04-24 2022-07-29 深圳小湃科技有限公司 自动接听来电的方法、装置、设备及存储介质
CN114842662A (zh) * 2022-04-29 2022-08-02 重庆长安汽车股份有限公司 用于地下停车场的寻车控制方法及可读存储介质
CN114973408B (zh) * 2022-05-10 2024-02-23 西安交通大学 一种动态手势识别方法及装置
CN114677751B (zh) * 2022-05-26 2022-09-09 深圳市中文路教育科技有限公司 学习状态的监控方法、监控装置及存储介质
CN114970640B (zh) * 2022-06-21 2023-10-27 徐州工程学院 一种基于知识蒸馏的手势识别方法及系统
CN115547135A (zh) * 2022-07-25 2022-12-30 北方工业大学 一种基于视觉的航空医学应急救援训练引导装置
CN115256059B (zh) * 2022-08-01 2024-01-23 长鑫存储技术有限公司 一种磨片装置控制方法、系统及研磨抛光机
CN116052260B (zh) * 2023-03-24 2023-06-30 江西省气象服务中心(江西省专业气象台、江西省气象宣传与科普中心) 一种天气会商视频会议点名方法及系统
CN116560509A (zh) * 2023-05-17 2023-08-08 山东格物智能科技有限公司 一种基于视觉核心算法的人机交互系统及方法
CN116884078B (zh) * 2023-09-07 2023-11-24 鹿客科技(北京)股份有限公司 摄像装置控制方法、监控设备和计算机可读介质
CN117519487B (zh) * 2024-01-05 2024-03-22 安徽建筑大学 一种基于视觉动捕的掘进机操控教学辅助培训系统
CN117742502B (zh) * 2024-02-08 2024-05-03 安徽大学 一种基于电容、距离传感器的双模态手势识别系统及方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000039192A (ko) * 1998-12-11 2000-07-05 정선종 극좌표 상의 궤적분석에 의한 동적 제스쳐 인식 시스템 및 방법
CN104407694A (zh) * 2014-10-29 2015-03-11 山东大学 一种结合人脸和手势控制的人机交互方法及装置
CN108629312A (zh) * 2018-05-04 2018-10-09 兰州理工大学 一种动态手势跟踪方法及系统
CN108960163A (zh) * 2018-07-10 2018-12-07 亮风台(上海)信息科技有限公司 手势识别方法、装置、设备和存储介质
CN109117794A (zh) * 2018-08-16 2019-01-01 广东工业大学 一种运动目标行为跟踪方法、装置、设备及可读存储介质
CN109165555A (zh) * 2018-07-24 2019-01-08 广东数相智能科技有限公司 基于图像识别的人机猜拳方法、装置与存储介质
CN109325454A (zh) * 2018-09-28 2019-02-12 合肥工业大学 一种基于YOLOv3的静态手势实时识别方法
CN109343701A (zh) * 2018-09-03 2019-02-15 电子科技大学 一种基于动态手势识别的智能人机交互方法
CN109872160A (zh) * 2019-02-01 2019-06-11 广州逗号智能科技有限公司 电子支付方法及装置
US20190325584A1 (en) * 2018-04-18 2019-10-24 Tg-17, Llc Systems and Methods for Real-Time Adjustment of Neural Networks for Autonomous Tracking and Localization of Moving Subject
CN110490165A (zh) * 2019-08-26 2019-11-22 哈尔滨理工大学 一种基于卷积神经网络的动态手势跟踪方法
CN110688914A (zh) * 2019-09-09 2020-01-14 苏州臻迪智能科技有限公司 一种手势识别的方法、智能设备、存储介质和电子设备
CN111046850A (zh) * 2019-12-31 2020-04-21 杭州晨安科技股份有限公司 一种基于声音与图像融合的发言者定位方法
CN111062306A (zh) * 2019-12-12 2020-04-24 广东美的白色家电技术创新中心有限公司 家用电器的控制方法、控制装置、家用电器及存储装置
CN111695408A (zh) * 2020-04-23 2020-09-22 西安电子科技大学 一种智能手势信息识别系统及方法、信息数据处理终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700088B (zh) * 2015-03-23 2017-11-24 南京航空航天大学 一种基于单目视觉移动拍摄下的手势轨迹识别方法
CN110244846A (zh) * 2019-06-13 2019-09-17 陕西国际商贸学院 基于课堂辅助教学智能化系统的人机交互方法
CN111709310B (zh) * 2020-05-26 2024-02-02 重庆大学 一种基于深度学习的手势跟踪与识别方法
CN111797709B (zh) * 2020-06-14 2022-04-01 浙江工业大学 一种基于回归检测的实时动态手势轨迹识别方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000039192A (ko) * 1998-12-11 2000-07-05 정선종 극좌표 상의 궤적분석에 의한 동적 제스쳐 인식 시스템 및 방법
CN104407694A (zh) * 2014-10-29 2015-03-11 山东大学 一种结合人脸和手势控制的人机交互方法及装置
US20190325584A1 (en) * 2018-04-18 2019-10-24 Tg-17, Llc Systems and Methods for Real-Time Adjustment of Neural Networks for Autonomous Tracking and Localization of Moving Subject
CN108629312A (zh) * 2018-05-04 2018-10-09 兰州理工大学 一种动态手势跟踪方法及系统
CN108960163A (zh) * 2018-07-10 2018-12-07 亮风台(上海)信息科技有限公司 手势识别方法、装置、设备和存储介质
CN109165555A (zh) * 2018-07-24 2019-01-08 广东数相智能科技有限公司 基于图像识别的人机猜拳方法、装置与存储介质
CN109117794A (zh) * 2018-08-16 2019-01-01 广东工业大学 一种运动目标行为跟踪方法、装置、设备及可读存储介质
CN109343701A (zh) * 2018-09-03 2019-02-15 电子科技大学 一种基于动态手势识别的智能人机交互方法
CN109325454A (zh) * 2018-09-28 2019-02-12 合肥工业大学 一种基于YOLOv3的静态手势实时识别方法
CN109872160A (zh) * 2019-02-01 2019-06-11 广州逗号智能科技有限公司 电子支付方法及装置
CN110490165A (zh) * 2019-08-26 2019-11-22 哈尔滨理工大学 一种基于卷积神经网络的动态手势跟踪方法
CN110688914A (zh) * 2019-09-09 2020-01-14 苏州臻迪智能科技有限公司 一种手势识别的方法、智能设备、存储介质和电子设备
CN111062306A (zh) * 2019-12-12 2020-04-24 广东美的白色家电技术创新中心有限公司 家用电器的控制方法、控制装置、家用电器及存储装置
CN111046850A (zh) * 2019-12-31 2020-04-21 杭州晨安科技股份有限公司 一种基于声音与图像融合的发言者定位方法
CN111695408A (zh) * 2020-04-23 2020-09-22 西安电子科技大学 一种智能手势信息识别系统及方法、信息数据处理终端

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906563A (zh) * 2021-02-19 2021-06-04 山东英信计算机技术有限公司 一种动态手势识别方法、装置、系统及可读存储介质
CN113031464A (zh) * 2021-03-22 2021-06-25 北京市商汤科技开发有限公司 设备控制方法、装置、电子设备及存储介质
CN113093904A (zh) * 2021-03-26 2021-07-09 河北建筑工程学院 基于体感设备的图形获取方法、系统、介质及设备
CN113190045A (zh) * 2021-05-10 2021-07-30 北京航空航天大学 一种基于笔画人机交互的无人机集群控制方法及系统
CN113342170A (zh) * 2021-06-11 2021-09-03 北京字节跳动网络技术有限公司 手势控制方法、装置、终端和存储介质
CN113542832A (zh) * 2021-07-01 2021-10-22 深圳创维-Rgb电子有限公司 显示控制方法、显示装置及计算机可读存储介质
CN114167978A (zh) * 2021-11-11 2022-03-11 广州大学 一种搭载于建筑机器人的人机交互系统
CN114627561A (zh) * 2022-05-16 2022-06-14 南昌虚拟现实研究院股份有限公司 动态手势识别方法、装置、可读存储介质及电子设备
CN115297263A (zh) * 2022-08-24 2022-11-04 广州方图科技有限公司 适用于拍立方的自动拍照控制方法、系统及拍立方

Also Published As

Publication number Publication date
CN112506342B (zh) 2022-01-28
AU2021101815A4 (en) 2021-05-27
WO2022116282A1 (zh) 2022-06-09

Similar Documents

Publication Publication Date Title
CN112506342B (zh) 基于动态手势识别的人机交互方法及系统
CN110472627B (zh) 一种端到端的sar图像识别方法、装置及存储介质
CN108121986B (zh) 目标检测方法及装置、计算机装置和计算机可读存储介质
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN109697434B (zh) 一种行为识别方法、装置和存储介质
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
EP3888001B1 (en) Anti-spoofing
CN110276342B (zh) 车牌辨识方法以及其系统
WO2023082882A1 (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
Elons et al. A proposed PCNN features quality optimization technique for pose-invariant 3D Arabic sign language recognition
CN109934216B (zh) 图像处理的方法、装置、计算机可读存储介质
CN109035300B (zh) 一种基于深度特征与平均峰值相关能量的目标跟踪方法
Yuan Face detection and recognition based on visual attention mechanism guidance model in unrestricted posture
Wu et al. GoDP: Globally Optimized Dual Pathway deep network architecture for facial landmark localization in-the-wild
CN114821764A (zh) 一种基于kcf追踪检测的手势图像识别方法及系统
CN112101344A (zh) 一种视频文本跟踪方法及装置
Yılmaz et al. Recurrent binary patterns and cnns for offline signature verification
KR102553995B1 (ko) 라벨링 장치 및 학습 장치
CN112733823A (zh) 手势姿态识别关键帧提取方法、装置及可读存储介质
CN107766790A (zh) 一种基于局部约束低秩编码的人体行为识别方法
CN106952287A (zh) 一种基于低秩稀疏表达的视频多目标分割方法
Bai et al. Dynamic hand gesture recognition based on depth information
CN106909936B (zh) 一种基于双车辆可变形部件模型的车辆检测方法
CN115661611A (zh) 一种基于改进Yolov5网络的红外小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant