CN111797709B - 一种基于回归检测的实时动态手势轨迹识别方法 - Google Patents

一种基于回归检测的实时动态手势轨迹识别方法 Download PDF

Info

Publication number
CN111797709B
CN111797709B CN202010539323.3A CN202010539323A CN111797709B CN 111797709 B CN111797709 B CN 111797709B CN 202010539323 A CN202010539323 A CN 202010539323A CN 111797709 B CN111797709 B CN 111797709B
Authority
CN
China
Prior art keywords
track
lstm
centroid
convolution
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010539323.3A
Other languages
English (en)
Other versions
CN111797709A (zh
Inventor
简琤峰
刘星泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010539323.3A priority Critical patent/CN111797709B/zh
Publication of CN111797709A publication Critical patent/CN111797709A/zh
Application granted granted Critical
Publication of CN111797709B publication Critical patent/CN111797709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于回归检测的实时动态手势轨迹识别方法,获取视频图像,分割手部区域,获取关键点,构建基于关键点的手势轨迹;以基于因果卷积和空洞卷积改进的TextCNN对手势轨迹的信息进行特征提取,并将特征序列输入LSTM,以基于变化的输出层结构改进的LSTM对所述特征序列进行回归预测,从预测结果中聚类筛选出最可信的结果,定位和识别轨迹中存在的有效部分。本发明针对动态手势识别中噪声环境下轨迹难以被准确快速识别的问题,提出基于回归检测的方法,结合CNN与LSTM的回归检测算法,能快速检测包含噪声的轨迹中有效部分所在位置和类别,降低噪声对手势轨迹识别影响,对动态手势轨迹实现高鲁棒性分类。

Description

一种基于回归检测的实时动态手势轨迹识别方法
技术领域
本发明涉及电数字数据处理的技术领域,特别涉及一种人机交互与计算机视觉领域的基于回归检测的实时动态手势轨迹识别方法。
背景技术
手势识别是人机交互领域中被广泛应用的重要技术之一,它可以根据对象变化是否在时间维度上具有意义而被划分为两个类型:静态手势识别和动态手势识别;其中,静态手势识别主要用于识别手势静止时的形状,以此判断手势的含义,但是在实际应用环境中,手势往往都是一个在时间维度上变化的序列,例如轨迹、旋转,因此动态手势识别具有更广的应用范围。
动态手势轨迹识别是动态手势识别中的一个重要领域。轨迹识别主要是对一段来自于目标区域,通常是指尖或手的质心的运动路径的轨迹进行识别,以此判断手势轨迹的含义。在许多时候,通过对手势轨迹的识别,可以更准确地了解手势所具有的意义。
动态手势轨迹信息的采集主要有基于摄像头和基于传感器两种方法。其中,基于传感器的方法主要是通过使用Kinect、Leap Motion等传感器来获取手势的深度信息和骨骼状态信息,这种方法的主要问题是传感器不易于佩戴,不适合在大多数情况下使用;基于摄像头的方法主要是通过摄像头拍摄手势的变化,再对视频中每一帧的图像进行处理,从而提取到所需要的手势信息,摄像头主要分为双目摄像头和单目摄像头两种,其中双目摄像头虽然能提取到更详细的信息,但是由于设备复杂,导致普及度不高。
现有技术中,通过单目摄像头进行动态手势轨迹识别的方法主要是先通过颜色空间分割手势,跟踪目标区域(手的质心或指尖),再对获得的轨迹进行识别;其中,对轨迹的识别方法主要包括运用DTW或HMM对轨迹进行预测,这种方法的缺陷在于DTW需要将轨迹与大量模板进行匹配,准确率和速度成反比,而HMM在面对复杂轨迹时不具有理想的效果;当然,也可以运用LSTM对轨迹进行预测,胆这种方法的问题在于LSTM无法对具有噪声的手势轨迹进行有效地识别与定位,噪声主要是手势轨迹中由于手的晃动或人的无意识举动产生的不具备含义的随机轨迹,导致了手势识别无法精确预测。
发明内容
本发明解决了现有技术中,难以对一段包含了有效轨迹的复杂轨迹进行识别定位的问题,提供了一种优化的基于回归检测的实时动态手势轨迹识别方法,其是能够在高噪声环境下实时识别与定位有效轨迹、且具有高鲁棒性的动态手势轨迹识别方法。
本发明所采用的技术方案是,一种基于回归检测的实时动态手势轨迹识别方法,所述方法包括以下步骤:
步骤1:获取视频图像,分割任一视频图像中的手部区域;
步骤2:基于分割得到的手部区域,获取对应的视频图像中与手势轨迹相关的关键点,构建基于关键点的手势轨迹;
步骤3:以基于因果卷积和空洞卷积改进的TextCNN对手势轨迹的信息进行特征提取,并将特征序列输入LSTM;
步骤4:以基于变化的输出层结构改进的LSTM对所述特征序列进行回归预测;
步骤5:从预测结果中聚类筛选出最可信的结果,定位和识别轨迹中存在的有效部分。
优选地,所述步骤1中,将获取的视频图像转换至YCrCb颜色空间,基于在Cr和Cb分量上预设的阈值,去除视频图像中的非肤色区域,分割得到手部区域。
优选地,所述步骤2包括以下步骤:
步骤2.1:基于分割得到的手部区域找到质心,获得质心的位置坐标;
步骤2.2:若当前质心为第一个质心,则以当前质心为第一个关键点;若当前质心不为第一个质心,则基于当前质心的位置坐标,计算当前质心与上一个关键点间的角度的变化量和距离,并将处于阈值范围内的质心记录为新的关键点。
优选地,令当前图像中手部质心的坐标为(xt,yt)、已经记录下来的关键点的坐标为
Figure BDA0002538312450000031
得到质心与最新的关键点间的x轴坐标差
Figure BDA0002538312450000032
y轴坐标差
Figure BDA0002538312450000033
关键点间的x轴坐标差
Figure BDA0002538312450000034
关键点间的y轴坐标差
Figure BDA0002538312450000035
则有关键点之间的角度的变化量
Figure BDA0002538312450000036
距离Dis=||At,l,Bt,l||2;其中,t为当前质心所属帧数,l为当前关键点所属帧数。
优选地,所述步骤3中,基于因果卷积和空洞卷积改进的TextCNN包括并列设置的卷积核大小不相等的3个一维卷积层的输入端,任一所述一维卷积层的输出端连接至对应的最大池化层的输入端,三个所述最大池化层的输出端连接至连接层的输入端,所述连接层的输出端连接至LSTM;所述3个一维卷积层的卷积核分别为2、3、4。
优选地,输入任一一维卷积层的为长度为100的一维张量,所述一维张量包括关键点的角度的变化量和距离,长度不足100的以0填充。
优选地,池化层进行2×2的池化,连接层输出长度为50的一维张量,输入LSTM。
优选地,所述步骤4中,基于变化的输出层结构改进的LSTM包括预设的LSTM和设于LSTM的输出端的全连接层;所述全连接层输出一维张量L,L包括首尾相连的10个子张量,对每一个子张量对应的轨迹识别有效轨迹的中心点,若存在有效轨迹的中心点,则基于此中心点预测有效轨迹的起点、终点和类型;对每个子张量进行两次预测,得到的就是20个结果。
优选地,以IOU代表预测位置与实际位置的交并比,满足
Figure BDA0002538312450000041
其中,Rpredic、Lpredic和6predic分别为预测结果中有效轨迹的终点、起点和长度的预测值,Rtruth、Ltruth和Wtruth为预测结果中有效轨迹的终点、起点和长度的实际值。
优选地,所述步骤5包括以下步骤:
步骤5.1:以20个结果为集合A,对集合A计算置信度Con,Con=Pr(object)×IOU,存在有效轨迹中心点时,Pr(object)为1,否则为0;
步骤5.2:去除置信度小于阈值ath的值对应的集合A中的结果;ath=0.3;
步骤5.3:将剩余结果按置信度从小到大排列,得到一个新的集合B;
步骤5.4:计算集合B中第一项与其他每一项的交并比,若第一项与其他任一项的交并比大于阈值bth,则删去所述其他任一项;bth=0.2;
步骤5.5:重复步骤5.4,直到集合B中剩余每项间IOU都小于0.2,以剩余结果为这次检测的最终结果,得到对应的有效轨迹。
本发明涉及一种优化的基于回归检测的实时动态手势轨迹识别方法,通过获取视频图像,分割任一视频图像中的手部区域,基于分割得到的手部区域,获取对应的视频图像中与手势轨迹相关的关键点,构建基于关键点的手势轨迹,以基于因果卷积和空洞卷积改进的TextCNN对手势轨迹的信息进行特征提取,并将特征序列输入LSTM,以基于变化的输出层结构改进的LSTM对所述特征序列进行回归预测,从预测结果中聚类筛选出最可信的结果,定位和识别轨迹中存在的有效部分。
本发明针对动态手势识别中噪声环境下轨迹难以被准确快速识别的问题,提出了一种基于回归检测的方法,结合了CNN与LSTM的回归检测算法,能够快速检测包含了噪声的轨迹中有效部分所在位置和类别,降低了噪声对手势轨迹识别的影响,对动态手势轨迹实现高鲁棒性的分类。
附图说明
图1为本发明的方法流程图;
图2为本发明的TextCNN网络的结构示意图。
具体实施方式
下面结合实施例对本发明做进一步的详细描述,但本发明的保护范围并不限于此。
本发明涉及一种基于回归检测的实时动态手势轨迹识别方法,通过YCrCb颜色空间分割手部、运用阈值判断方法获取手势轨迹的关键点信息,使用改进的TextCNN对手势轨迹信息进行特征提取,并将特征序列输入LSTM,使用一种全新的LSTM输出格式来对轨迹进行回归预测,并从预测结果中聚类筛选出最可信的结果,从而定位和识别轨迹中存在的有效部分。
所述方法包括以下步骤。
步骤1:获取视频图像,分割任一视频图像中的手部区域。
所述步骤1中,将获取的视频图像转换至YCrCb颜色空间,基于在Cr和Cb分量上预设的阈值,去除视频图像中的非肤色区域,分割得到手部区域。
本发明中,选择单目摄像头进行信息采集。
本发明中,将摄像头获得的RGB颜色空间的帧图像转换到YCrCb颜色空间,由于人体肤色在Cr和Cb分量上具有明显的聚集性,所以通过这两个分量的阈值判断可以有效去除图像中的非肤色区域;一般来说,137<Cr<175,100<Cb<118。
本发明中,为了在不影响分割效果的前提下减小计算量,视频中每一帧图像的分辨率都被压缩至480*640,这使得在图像的信息表达较完整的情况下,需要被计算的像素数量减少。
本发明中,前后帧间的关系由视频主动获得,方法对每一帧进行处理,获取轨迹关键点。
步骤2:基于分割得到的手部区域,获取对应的视频图像中与手势轨迹相关的关键点,构建基于关键点的手势轨迹。
所述步骤2包括以下步骤:
步骤2.1:基于分割得到的手部区域找到质心,获得质心的位置坐标;
步骤2.2:若当前质心为第一个质心,则以当前质心为第一个关键点;若当前质心不为第一个质心,则基于当前质心的位置坐标,计算当前质心与上一个关键点间的角度的变化量和距离,并将处于阈值范围内的质心记录为新的关键点。
令当前图像中手部质心的坐标为(xt,yt)、已经记录下来的关键点的坐标为
Figure BDA0002538312450000061
得到质心与最新的关键点间的x轴坐标差
Figure BDA0002538312450000062
y轴坐标差
Figure BDA0002538312450000063
关键点间的x轴坐标差
Figure BDA0002538312450000064
关键点间的y轴坐标差
Figure BDA0002538312450000065
Figure BDA0002538312450000066
则有关键点之间的角度的变化量
Figure BDA0002538312450000067
距离Dis=||At,l,Bt,l||2;其中,t为当前质心所属帧数,l为当前关键点所属帧数。
本发明中,在获取分割后的手势后,对分割后的肤色区域进行质心计算,获取到当前帧图像中手势对应的质心坐标,计算当前坐标与前一关键点坐标的角度变化量和距离,其中角度变化为一个锐角的弧度值,与预设的阈值进行比较后,判断当前质心是否为轨迹的关键点,将处于阈值范围内的质心记录为新的关键点;每处理一张新的帧图像都会得到一个新的质心,但是不一定会得到新的关键点,故分开计算。
本发明中,每一个视频的第一帧中手部的质心会被直接记录为关键点。通过阈值比较的方法所获得的关键点可以表示一段轨迹中特征较为明显的节点,将这些关键点用直线相连所得到的轨迹与原轨迹可以做到基本一致,因此,由这些关键点组成的序列可视为轨迹序列;为了使算法能够排除关键点在图中的位置对预测结果的影响,我们将关键点间的角度变化和距离大小作为表示关键点序列的数据,由这两种数据组成的一维二通道向量可以视为轨迹的特征向量,并可作为后续步骤的输入。
本发明中,若一直不存在角度变化,则到达了一定距离后,质心也会被记录为关键点。
本发明中,质心计算通过OpenCV自带函数直接处理,此为本领域技术人员容易理解的内容。
步骤3:以基于因果卷积和空洞卷积改进的TextCNN对手势轨迹的信息进行特征提取,并将特征序列输入LSTM。
所述步骤3中,基于因果卷积和空洞卷积改进的TextCNN包括并列设置的卷积核大小不相等的3个一维卷积层的输入端,任一所述一维卷积层的输出端连接至对应的最大池化层的输入端,三个所述最大池化层的输出端连接至连接层的输入端,所述连接层的输出端连接至LSTM;所述3个一维卷积层的卷积核分别为2、3、4。
输入任一一维卷积层的为长度为100的一维张量,所述一维张量包括关键点的角度的变化量和距离,长度不足100的以0填充。
池化层进行2×2的池化,连接层输出长度为50的一维张量,输入LSTM。
本发明中,由于LSTM在处理含有随机噪声轨迹的手势轨迹时,会被噪声干扰、导致效果不佳,所以需要通过对轨迹进行特征提取,使LSTM的输入为轨迹不同尺度下的特征,减轻噪声的影响;通过改进的TextCNN网络来实现上述特征提取。
本发明中,将由关键点间角度变化、距离大小的数值组成的一维二通道向量输入到三个卷积核大小分别为2、3、4的一维卷积层中,每个卷积层都通过因果卷积的方法,对输入序列进行卷积,对卷积结果进行2×2的最大值池化后,结果拼接,获得一个一维九通道的特征张量,将特征张量输入LSTM。
本发明中,搭建了一个用于提取轨迹特征的TextCNN网络,出于LSTM网络输入的需要,故构建了一个长度为100的一维张量,并将轨迹的特征向量放入其中,剩余部分由0填充,使其长度满足要求,且不影响计算,轨迹的长度可以被视为扩展到了100。
本发明中,分别在卷积核大小为2、3、4的并列的卷积层上对张量进行卷积,每一个卷积层都具有8个卷积核;这种卷积形式可以确保网络能提取到轨迹多个尺度的特征,从而避免两段不同的轨迹在短时间或长时间上具有相同特征导致结果产生偏差的问题;此卷积核的配置保证了计算速度的同时,保障了卷积效果。
本发明中,由于手势轨迹是一个随着时间发展的序列,每一个关键点的状态都只与它之前的点有关,因此每一个卷积层都采用了因果卷积的方式,以确保提取到的特征不会包括当前关键点之后的状态。
步骤4:以基于变化的输出层结构改进的LSTM对所述特征序列进行回归预测。
所述步骤4中,基于变化的输出层结构改进的LSTM包括预设的LSTM和设于LSTM的输出端的全连接层;所述全连接层输出一维张量L,L包括首尾相连的10个子张量,对每一个子张量对应的轨迹识别有效轨迹的中心点,若存在有效轨迹的中心点,则基于此中心点预测有效轨迹的起点、终点和类型;对每个子张量进行两次预测,得到的就是20个结果。
以IOU代表预测位置与实际位置的交并比,满足
Figure BDA0002538312450000081
其中,Rpredic、Lpredic和Wpredic分别为预测结果中有效轨迹的终点、起点和长度的预测值,Rtruth、Ltruth和Wtruth为预测结果中有效轨迹的终点、起点和长度的实际值。
本发明中,噪声环境下的轨迹检测的主要问题是轨迹的有效部分可能出现在轨迹的任何部位,因此其有效部分的起点与终点是不确定的,这造成了传统方法在这个问题上无法取得较好的表现;而本发明中,通过设置了一个具有与传统全连接层结构不同的全连接层,将LSTM的输出变形为一个一维张量,可以等效地将整段轨迹看成十段连续小轨迹的连接,对每一段小轨迹都识别其中是否存在有效轨迹的中心点,并根据中心点预测有效轨迹的起点、终点和类型。
本发明中,通过CNN的特征提取,经过了2*2的池化后,得到一个长度为50的一维张量,将张量输入到LSTM中进行检测,在LSTM最后的输出层之后,加入了一个全连接层来将输出整形一个一维张量L,L可以视作十个张量l的首尾拼接。
本发明中,IOU代表了预测位置与实际位置的交并比,在训练阶段可通过公式
Figure BDA0002538312450000091
得到,在实际使用时由网络回归得到;通过一个全连接层,长度为100的输入轨迹可以等效地视作由10个长度为10的小轨迹拼接而成;每份最后的对应输出长度是32,其中包含两个结果,每个结果长度为16;有效轨迹的中心点可能会落在其中任意一段小轨迹中,回归检测的目标就是计算预测中心点的位置以及中心点对应的有效轨迹的类别和长度。
本发明中,在一个张量l中设置了两组预测框,这样做可以使得每次都有一对并行的计算在进行,提高了预测结果的准确度;预测的依据是神经网络通过训练得到的每个神经元的权重;这其中,两次预测是指每一份子轨迹输出的预测结果为两个,取可信度较高的预测结果。
步骤5:从预测结果中聚类筛选出最可信的结果,定位和识别轨迹中存在的有效部分。
所述步骤5包括以下步骤:
步骤5.1:以20个结果为集合A,对集合A计算置信度Con,Con=Pr(object)×IOU,存在有效轨迹中心点时,Pr(object)为1,否则为0;
步骤5.2:去除置信度小于阈值ath的值对应的集合A中的结果;ath=0.3;
步骤5.3:将剩余结果按置信度从小到大排列,得到一个新的集合B;
步骤5.4:计算集合B中第一项与其他每一项的交并比,若第一项与其他任一项的交并比大于阈值bth,则删去所述其他任一项;bth=0.2;
步骤5.5:重复步骤5.4,直到集合B中剩余每项间IOU都小于0.2,以剩余结果为这次检测的最终结果,得到对应的有效轨迹。
本发明中,预测网络输出的是一组十个张量,分别表示每一段小轨迹的预测结果,为了获得真正的结果,我们需要对预测结果进行聚类筛选;聚类的主要依据是由网络预测得到的与结果对应的置信度。
本发明中,LSTM的输出是一个长度为320的一维张量,由20个张量拼接,每个张量包括长度为10的分类概率、长度为2的任一包围盒的置信度、长度为2的任一第一包围盒的轨迹的轨迹中点和长度及长度为2的任一第二包围盒的轨迹的轨迹中点和长度拼接而成,此20个张量即为10个小段对应的预测结果,把长为100的张量分10段,每一段都进行两次用于预测、含有不同的权重的计算,得到的就是20个结果。
本发明中,对此输出进行聚类筛选,以获得最终的结果。聚类的依据是网络预测所获得的置信度与IOU值。在训练阶段中,存在有效轨迹中心点的小段的Pr(object)为1,其余为0;在实际使用时,其值由网络回归得到;在一个由20个张量所组成的结果集合A中,所有置信度小于ath的结果都会被除去,剩余结果会被按从大到小的顺序排列成一个新的结果集合B,并计算B中第一项与其他每一项的IOU,如果IOU大于bth,则视为是对同一段有效轨迹的预测,保留第一项并删除另一项,直到遍历所有项后,计算第二项与其他所有未被删去的项的IOU。重复这些步骤,直到B中所有未被删除的项之间的IOU都不大于0.2,所有剩余项即为本次预测的真正结果。
本发明通过获取视频图像,分割任一视频图像中的手部区域,基于分割得到的手部区域,获取对应的视频图像中与手势轨迹相关的关键点,构建基于关键点的手势轨迹,以基于因果卷积和空洞卷积改进的TextCNN对手势轨迹的信息进行特征提取,并将特征序列输入LSTM,以基于变化的输出层结构改进的LSTM对所述特征序列进行回归预测,从预测结果中聚类筛选出最可信的结果,定位和识别轨迹中存在的有效部分。本发明针对动态手势识别中噪声环境下轨迹难以被准确快速识别的问题,提出了一种基于回归检测的方法,结合了CNN与LSTM的回归检测算法,能够快速检测包含了噪声的轨迹中有效部分所在位置和类别,降低了噪声对手势轨迹识别的影响,对动态手势轨迹实现高鲁棒性的分类。

Claims (6)

1.一种基于回归检测的实时动态手势轨迹识别方法,其特征在于:所述方法包括以下步骤:
步骤1:获取视频图像,分割任一视频图像中的手部区域;
步骤2:基于分割得到的手部区域,获取对应的视频图像中与手势轨迹相关的关键点,构建基于关键点的手势轨迹;所述步骤2包括以下步骤:
步骤2.1:基于分割得到的手部区域找到质心,获得质心的位置坐标;
步骤2.2:若当前质心为第一个质心,则以当前质心为第一个关键点;若当前质心不为第一个质心,则基于当前质心的位置坐标,计算当前质心与上一个关键点间的角度的变化量和距离,并将处于阈值范围内的质心记录为新的关键点;
步骤3:以基于因果卷积和空洞卷积改进的TextCNN对手势轨迹的信息进行特征提取,并将特征序列输入LSTM;
基于因果卷积和空洞卷积改进的TextCNN包括并列设置的卷积核大小不相等的3个一维卷积层的输入端,任一所述一维卷积层的输出端连接至对应的最大池化层的输入端,三个所述最大池化层的输出端连接至连接层的输入端,所述连接层的输出端连接至LSTM;所述3个一维卷积层的卷积核分别为2、3、4;输入任一一维卷积层的为长度为100的一维张量,所述一维张量包括关键点的角度的变化量和距离,长度不足100的以0填充;
步骤4:以基于变化的输出层结构改进的LSTM对所述特征序列进行回归预测;
基于变化的输出层结构改进的LSTM包括预设的LSTM和设于LSTM的输出端的全连接层;所述全连接层输出一维张量L,L包括首尾相连的10个子张量,对每一个子张量对应的轨迹识别有效轨迹的中心点,若存在有效轨迹的中心点,则基于此中心点预测有效轨迹的起点、终点和类型;对每个子张量进行两次预测,得到的就是20个结果;
步骤5:从预测结果中聚类筛选出最可信的结果,定位和识别轨迹中存在的有效部分。
2.根据权利要求1所述的一种基于回归检测的实时动态手势轨迹识别方法,其特征在于:所述步骤1中,将获取的视频图像转换至YCrCb颜色空间,基于在Cr和Cb分量上预设的阈值,去除视频图像中的非肤色区域,分割得到手部区域。
3.根据权利要求1所述的一种基于回归检测的实时动态手势轨迹识别方法,其特征在于:令当前图像中手部质心的坐标为(xt,yt)、已经记录下来的关键点的坐标为
Figure FDA0003459727590000021
得到质心与最新的关键点间的x轴坐标差
Figure FDA0003459727590000022
y轴坐标差
Figure FDA0003459727590000023
关键点间的x轴坐标差
Figure FDA0003459727590000024
关键点间的y轴坐标差
Figure FDA0003459727590000025
则有关键点之间的角度的变化量
Figure FDA0003459727590000026
距离Dis=||At,l,Bt,l||2;其中,t为当前质心所属帧数,l为当前关键点所属帧数。
4.根据权利要求1所述的一种基于回归检测的实时动态手势轨迹识别方法,其特征在于:池化层进行2×2的池化,连接层输出长度为50的一维张量,输入LSTM。
5.根据权利要求1所述的一种基于回归检测的实时动态手势轨迹识别方法,其特征在于:以IOU代表预测位置与实际位置的交并比,满足
Figure FDA0003459727590000031
其中,Rpr9dic、Lpr9dic和Wpr9dic分别为预测结果中有效轨迹的终点、起点和长度的预测值,Rtruth、Ltruth和Wtruth为预测结果中有效轨迹的终点、起点和长度的实际值。
6.根据权利要求5所述的一种基于回归检测的实时动态手势轨迹识别方法,其特征在于:所述步骤5包括以下步骤:
步骤5.1:以20个结果为集合A,对集合A计算置信度Con,Con=Pr(object)×IOU,存在有效轨迹中心点时,Pr(object)为1,否则为0;
步骤5.2:去除置信度小于阈值ath的值对应的集合A中的结果;ath=0.3;
步骤5.3:将剩余结果按置信度从小到大排列,得到一个新的集合B;
步骤5.4:计算集合B中第一项与其他每一项的交并比,若第一项与其他任一项的交并比大于阈值bth,则删去所述其他任一项;bth=0.2;
步骤5.5:重复步骤5.4,直到集合B中剩余每项间IOU都小于0.2,以剩余结果为这次检测的最终结果,得到对应的有效轨迹。
CN202010539323.3A 2020-06-14 2020-06-14 一种基于回归检测的实时动态手势轨迹识别方法 Active CN111797709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010539323.3A CN111797709B (zh) 2020-06-14 2020-06-14 一种基于回归检测的实时动态手势轨迹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010539323.3A CN111797709B (zh) 2020-06-14 2020-06-14 一种基于回归检测的实时动态手势轨迹识别方法

Publications (2)

Publication Number Publication Date
CN111797709A CN111797709A (zh) 2020-10-20
CN111797709B true CN111797709B (zh) 2022-04-01

Family

ID=72802909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010539323.3A Active CN111797709B (zh) 2020-06-14 2020-06-14 一种基于回归检测的实时动态手势轨迹识别方法

Country Status (1)

Country Link
CN (1) CN111797709B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112506342B (zh) * 2020-12-04 2022-01-28 郑州中业科技股份有限公司 基于动态手势识别的人机交互方法及系统
CN114708723B (zh) * 2020-12-16 2023-07-21 华为技术有限公司 轨迹预测方法和装置
CN112613384B (zh) * 2020-12-18 2023-09-19 安徽鸿程光电有限公司 手势识别方法、手势识别装置及交互显示设备的控制方法
CN112906563A (zh) * 2021-02-19 2021-06-04 山东英信计算机技术有限公司 一种动态手势识别方法、装置、系统及可读存储介质
CN112926518A (zh) * 2021-03-29 2021-06-08 上海交通大学 基于视频的复杂场景下手势密码轨迹还原系统
CN113378770B (zh) * 2021-06-28 2023-06-27 北京百度网讯科技有限公司 手势识别方法、装置、设备、存储介质
CN115089206B (zh) * 2022-05-09 2023-02-10 吴先洪 一种对心音信号的预测方法及使用其的心脏听诊装置
CN114973425A (zh) * 2022-08-01 2022-08-30 乐山师范学院 一种交警手势识别方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958218A (zh) * 2017-11-22 2018-04-24 南京邮电大学 一种实时手势识别的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256421A (zh) * 2017-12-05 2018-07-06 盈盛资讯科技有限公司 一种动态手势序列实时识别方法、系统及装置
US11024041B2 (en) * 2018-12-10 2021-06-01 Intel Corporation Depth and motion estimations in machine learning environments
CN110348420B (zh) * 2019-07-18 2022-03-18 腾讯科技(深圳)有限公司 手语识别方法、装置、计算机可读存储介质和计算机设备
CN110399850B (zh) * 2019-07-30 2021-10-15 西安工业大学 一种基于深度神经网络的连续手语识别方法
CN110889387A (zh) * 2019-12-02 2020-03-17 浙江工业大学 一种基于多轨迹匹配的实时动态手势识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958218A (zh) * 2017-11-22 2018-04-24 南京邮电大学 一种实时手势识别的方法

Also Published As

Publication number Publication date
CN111797709A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN111797709B (zh) 一种基于回归检测的实时动态手势轨迹识别方法
CN106354816B (zh) 一种视频图像处理方法及装置
CN111709310B (zh) 一种基于深度学习的手势跟踪与识别方法
CN107909027B (zh) 一种具有遮挡处理的快速人体目标检测方法
JP5604256B2 (ja) 人物動作検出装置およびそのプログラム
AU2020104423A4 (en) Multi-View Three-Dimensional Model Retrieval Method Based on Non-Local Graph Convolutional Network
WO2009109127A1 (en) Real-time body segmentation system
JP2021518944A (ja) ナンバープレート認識方法、および、そのシステム
CN109934216B (zh) 图像处理的方法、装置、计算机可读存储介质
CN105844248B (zh) 人脸检测方法和装置
WO2022174523A1 (zh) 一种提取行人的步态特征的方法、步态识别方法及系统
KR101908481B1 (ko) 보행자 검출 장치 및 방법
CN112329656B (zh) 一种视频流中人体动作关键帧的特征提取方法
Kumar et al. 3D sign language recognition using spatio temporal graph kernels
Choudhury et al. Movement epenthesis detection for continuous sign language recognition
Wang et al. Detection of small aerial object using random projection feature with region clustering
Nasri et al. A novel approach for dynamic hand gesture recognition using contour-based similarity images
Sen et al. A novel hand gesture detection and recognition system based on ensemble-based convolutional neural network
CN110516731B (zh) 一种基于深度学习的视觉里程计特征点检测方法及系统
Zhang et al. Weighted smallest deformation similarity for NN-based template matching
Gheitasi et al. Estimation of hand skeletal postures by using deep convolutional neural networks
Sruthi et al. Double-handed dynamic gesture recognition using contour-based hand tracking and maximum mean probability ensembling (MMPE) for Indian Sign language
Mursalin et al. EpNet: A deep neural network for ear detection in 3D point clouds
KR102058393B1 (ko) 스케치 기반의 영상표절 검사 방법 및 장치
JP6393495B2 (ja) 画像処理装置および物体認識方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant