CN114038059A - 一种基于双帧速率分治行为识别网络的动态手势识别方法 - Google Patents

一种基于双帧速率分治行为识别网络的动态手势识别方法 Download PDF

Info

Publication number
CN114038059A
CN114038059A CN202111316896.0A CN202111316896A CN114038059A CN 114038059 A CN114038059 A CN 114038059A CN 202111316896 A CN202111316896 A CN 202111316896A CN 114038059 A CN114038059 A CN 114038059A
Authority
CN
China
Prior art keywords
frame rate
gesture
rate channel
network
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111316896.0A
Other languages
English (en)
Other versions
CN114038059B (zh
Inventor
程淑红
杨镇豪
张典范
程树春
芦嘉鑫
谢文锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202111316896.0A priority Critical patent/CN114038059B/zh
Publication of CN114038059A publication Critical patent/CN114038059A/zh
Application granted granted Critical
Publication of CN114038059B publication Critical patent/CN114038059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双帧速率分治行为识别网络的动态手势识别方法,采用一种双通道三维卷积神经网络模型来提取动态手势的时空特征,所使用的输入设备为普通的USB摄像头采集的视频帧序列,通过普通USB摄像头采集手势图像和视频进能够完成手势识别,相较于使用3D传感器大大节省了设备成本,旨在能够广泛的应用于多种领域。同时本发明根据目前手势人机交互常使用的手势种类定义诸如向左、向右、确定等手势,是一种通过深度学习实现的分类问题,本发明根据常见的人机交互指令创建的手势视频数据集,在采集过程中考虑到不同场景和角度的应用情况,在虚拟现实和智能办公领域保持良好的识别准确率。

Description

一种基于双帧速率分治行为识别网络的动态手势识别方法
技术领域
本发明涉及视频行为检测领域,尤其是一种基于双帧速率分治行为识别网络的动态手势识别方法。
背景技术
人机交互正从传统的鼠标、键盘等传统的输入输出模式转向更加符合人类交流习惯的模式,使人与计算机之间的交互更流畅、自然、高效,这是人机交互智能化的一个主要目标。手势作为人与人交流的一种重要形式,在人机交互过程中具有意义明确、操作简便和相应迅速的优点,在手语识别、辅助机器人、虚拟现实和智能家具等领域广泛应用。
手势又分为静态手势和动态手势。相比于静态手势,动态手势更加灵活,所能表达的含义更加丰富。目前实现动态手势的识别主要是基于3D传感器或者摄像头实现的。3D传感设备包括Kinect、LeapMotion和Time-of-Flight Sensors。比如Yuhui Lai等人通过实现对手势骨骼的实时检测,获取关键点的深度坐标实现动态手势和人体行为识别;Zhou Ren等人使用比传统方法更加精确的Kinect深度信息来分割手势区域,实现了手势识别;Abhishek B.Jani等人利用TOF传感器生成三维点云,实现了复杂的手势轨迹跟踪。以上方法都使用到了3D传感设备,但都存在设备昂贵和难以普及的缺点,而对摄像头采集到的图像和视频流进行识别能大大减少设备成本,同时采用深度学习的方法具有鲁棒性高的优点。Vijay John等人使用一种双通道卷积神经网络,每个卷积网络都使用单一的权重和softmax分类器,但这种方法没有考虑到动态手势过程的时间和空间信息;Limin Wang等人提出一种双流的时序分割网络来进行视频行为识别,采用两个通道分别提取时间信息和空间信息,但提取时间信息的通道输入的是连续帧间的光流信息,计算量过大,导致相应速度变慢。
发明内容
本发明需要解决的技术问题是提供一种基于双帧速率分治行为识别网络的动态手势识别方法,采用高分辨率低通道数的慢速卷积通道提取手势的空间特征,采用低分辨率高通道数来提取手势的时间特征。
为解决上述技术问题,本发明所采用的技术方案是:一种基于双帧速率分治行为识别网络的动态手势识别方法,包括如下步骤:
S1、根据人的手势交流习惯和人机交互中用户常输入的指令,定义向左、向右、向上、向下、确认、取消六种动态手势和一个无手势类别,并根据UCF101数据集格式录制手势视频数据集,配置标签文件,作为神经网络的训练数据集和测试输入;
S2、根据手势视频数据集具有的时间特征和空间特征,搭建双帧速率分治行为识别网络,双帧速率分治行为识别网络包含高帧速通道和低帧速通道,所述高帧速通道和低帧速通道采用一种由无ReLU的残差块、预激活残差块和与激活层加BN层结构的3D-IResnet50网络作为主干网络;
S3、根据步骤S2中高帧速通道和低帧速通道的无ReLU的残差块后加入CBAM注意力机制,CBAM注意力机制对从卷积神经网络输出的特征通道数、特征的宽、高和帧数均进行权重分配,输出带有权重的特征并输入到下一个无ReLU的残差块;
S4、在Ubuntu18.04操作系统上配置conda虚拟环境,使用pytorch深度学习框架,搭建双帧速率分治行为识别网络并训练采集的手势视频数据集,对训练好的模型输入手势视频数据,根据输出结果判断手势种类。
本发明技术方案的进一步改进在于:所述步骤S1中六种动态手势视频均在不同光照环境、不同摄像头视角、不同录制者情况下采集120-150个,且手势视频数据集采用30帧录制,视频分辨率480×480,每个视频从手势的第一帧开始,到最后一帧结束进行剪辑。
本发明技术方案的进一步改进在于:所述步骤S2中高帧速通道输入低分辨率高帧数视频数据,低帧速通道输入高分辨率低帧数数据,在高帧速通道和低帧速通道之间使用侧向连接层进行高帧速通道和低帧速通道交互,实现时空特征信息融合。
本发明技术方案的进一步改进在于:所述低帧速通道输入视频长度为:
L=T×τ,
其中T为低帧速通道输入的采集帧数,τ为低帧速通道采集的帧间间隔;
本发明技术方案的进一步改进在于:所述高帧速通道输入视频的高帧率采样且采样频率为低帧速通道输入视频采样频率的α倍,α=8,则高帧速通道采集的帧间间隔为τ/α,高帧速通道的3D-IResnet50网络输入输出特征通道数为低帧速通道的β倍,β=1/8。
本发明技术方案的进一步改进在于:所述步骤S2中高帧速通道和低帧速通道均分为4个残差块,每个残差块由start block、middle block和end block构成,start block、middle block均在网络的主干通路上移除了ReLU激活函数,保留了负权值信息;end block在主干通路上添加了BN层,减少极端数值对特征提取的影响,在高帧速通道的每个主要残差块结束时使用一次三维卷积侧向连接到低帧速通道,完成时间特征和空间特征的融合,最后由低帧速通道连接一个全连接层和BN层输出预测结果。
本发明技术方案的进一步改进在于:所述步骤S3中CBAM注意力机制将高帧速通道和低帧速通道的残差块输出的手势特征T∈RC×H×W×D再次推理,分别输出一维的通道维度(C)上的权重向量Wc∈RC×1×1×1和三维的空间维度(H,W,D)上的权重矩阵WS∈R1×H×W×D,经过CBAM注意力机制的计算过程如下:
Figure BDA0003343956750000031
T″为经过注意力机制分配权重后输出的手势特征,其中
Figure BDA0003343956750000032
为元素依次相乘运算符,根据以上公式得出CBAM注意力机制分为两个阶段:一是对输入特征的通道计算权重向量,则需要压缩空间维度到1×1×1,使用最大池化和平均池化在三个空间维度上进行压缩,分别得到最大池化空间描述
Figure BDA0003343956750000041
和平均池化空间描述
Figure BDA0003343956750000042
然后使用多层感知机网络对两个空间描述向量进行计算得到Wc∈RC×1×1×1
Figure BDA0003343956750000043
其中,σ为sigmoid函数,
Figure BDA0003343956750000044
第二是对输入特征的空间维度计算权重矩阵,使用最大池化和平均池化得到空间信息的两个不同的特征描述
Figure BDA0003343956750000045
Figure BDA0003343956750000046
最后使用三维卷积操作生成空间注意力矩阵:
Figure BDA0003343956750000047
其中c为三维卷积操作,σ为sigmoid函数。
本发明技术方案的进一步改进在于:所述步骤S4中手势视频数据集划分按照3:1:1为训练集、验证集和测试集,设置训练周期数,保留验证准确率最好的模型作为最终手势识别模型,通过摄像头输入手势视频数据得到模型的推理结果,将置信度最高的手势编号作为识别结果。
由于采用了上述技术方案,本发明取得的技术进步是:
1、本发明采用一种双通道三维卷积神经网络模型来提取动态手势的时空特征,所使用的输入设备为普通的USB摄像头采集的视频帧序列,通过普通USB摄像头采集手势图像和视频进能够完成手势识别,相较于使用3D传感器大大节省了设备成本,旨在能够广泛的应用于多种领域。同时本发明根据目前手势人机交互常使用的手势种类定义诸如向左、向右、确定等手势,是一种通过深度学习实现的分类问题;
2、本发明可在传统人机交互工具使用不便的场景中快速、准确的实现简单的人对计算机设备下达指令,比如公共场合、智能家居;
3、本发明根据常见的人机交互指令创建的手势视频数据集,在采集过程中考虑到不同场景和角度的应用情况,在虚拟现实和智能办公领域保持良好的识别准确率。
4、本发明以三维卷积为核心,采用高分辨率低通道数的慢速卷积通道提取手势的空间特征,采用低分辨率高通道数来提取手势的时间特征;为了提高神经网络的学习效率和学习能力,改用3D-Iresnet50作为网络的主干结构,在残差块后添加CBAM注意力机制来增加特征提取能力。
附图说明
图1为双帧速率分治模型结构图;
图2为start block、middle block和end block结构图;
图3为3D-IResnet50结构图;
图4为CBAM注意力机制结构图。
具体实施方式
下面结合实施例对本发明做进一步详细说明:
本发明采用一种双帧速率分治卷神经网络结构来实现动态手势识别,同时为了减少训练负担和提升准确率,将3D-Resnet50改进为3D-IResnet50,同时在每个残差块后引入CBAM注意力机制。为了提高模型的鲁棒性,采集的数据包含不同的光线背景和角度录制。通过剪辑,每个视频包含随机手势个数和帧数,加入不同程度的噪声或局部裁剪,来增加数据集的泛化能力。按照UCF101视频数据集格式制作标签文件,将数据及送入双帧速率分治行为识别网络中进行训练,选取验证精度最优的模型作为训练结果。以上具体内步骤如下:
S1、如图1所示,根据人的手势交流习惯和人机交互中用户常输入的指令,定义向左、向右、向上、向下、确认、取消六种动态手势和一个背景类别。手势的具体定义如下:
向左:手掌从右往左划动;
向右:手掌从左往右划动;
向上:手掌从下往上划动;
向下:手掌从上往下划动;
确认:手从握拳展开为OK型手势;
取消:伸出食指以顺时针方向画圈;
背景类别:无手势的背景视频。
并根据UCF101数据集格式录制手势视频数据集,配置标签文件,作为神经网络的训练数据集和测试输入;六种动态手势视频均在不同光照环境、不同摄像头视角、不同录制者情况下采集120-150个,每个视频3-6秒,且手势视频数据集采用30帧录制,视频分辨率480×480,每个视频从手势的第一帧开始,到最后一帧结束进行剪辑;
S2、如图2所示的双帧速率分治行为识别网络,根据手势视频数据集具有的时间特征和空间特征,本专利申请将双帧速率分治行为识别网络分为高帧速通道和低帧速通道,分别提取手势帧序列数据的时间特征和空间特征,高帧速通道和低帧速通道采用一种由无ReLU的残差块、预激活残差块和与激活层加BN层结构的3D-IResnet50网络作为主干网络;
高帧速通道输入低分辨率高帧数视频数据,低帧速通道输入高分辨率低帧数数据,在高帧速通道和低帧速通道之间使用侧向连接层进行高帧速通道和低帧速通道交互,实现时空特征信息融合。
低帧速通道输入的是视频的低帧率采样,设置输入低帧速通道的采集帧数T,采集的帧间隔为τ,则输入视频长度为:
L=T×τ
高帧速通道输入视频的高帧率采样,采样频率为低帧速通道的α倍(α通常等于8),则采集的帧间隔为τ/α。为了使高帧速通道专注于视频的时间信息提取,而且高帧速通道输入的帧数更大,为了减少计算量,快通道的3D-IResnet50网络输入输出特征通道数为慢通道的β倍(β通常等于1/8)。
在本发明中,设置的输入的视频数据每64帧送入双帧速率分治行为识别网络,设置高帧速通道采集帧数T=32,采集帧间间隔τ=2,低帧速通道的采集帧数T=4,采集帧间间隔τ=16。所以输入高帧速通道的经过切片操作后的尺寸分别为(4×224×224)和(32×224×224)。设置低帧速通道特征通道数是高帧速通道特征通道数的8倍。
3D-IResnet50作为主干网络,但是主干通路上的ReLU函数会使部分负权重消失,对整个网络的信息传播产生负面影响,同时主干上没有BN标准化导致网络学习难度增加。针对以上问题本发明采用3D-IResnet50结构作为高帧速通道的特征提取网络。
传统的3D-Resnet网络结构的主干通道存在的ReLU激活函数使一些负权重信息直接归零,迫使网络重新调整权值,以输出不受影响的正值来通过ReLU。但是移除主干的ReLU激活函数又会导致block之间的非线性缺失,限制网络的学习能力。因此本发明采用一种由无ReLU的残差块、预激活残差块和与激活层加BN层结构的3D-IResnet50网络来解决以上两个问题,使网络的学习能力和准确率都得到提高。
在高帧速通道的每个残差块结束时都会将输出特征通过侧向连接层与低帧速通道进行特征融合。由于高帧速通道与低帧速通道输出的特征尺寸不同,所以侧向连接层设计成用一次三维卷积来使快通道特征进行尺寸变换,再将变换后的特征与低帧速通道输出特征在通道维度上拼接,成为慢通道接下来残差网络的输入。将低帧速通道的特征形状定义为{T,S2,C},高帧速通道的特征形状为{αT,S2,βC}。侧向连接层尺寸变换如下:
Figure BDA0003343956750000071
双帧速率分治行为识别网络最后由低帧速通道输出,经过一个三维平均池化层和一个全连接层输出预测结果,可根据分类数量调节全连接层最后输出向量维度。
Resnet50残差网络的bottleneck单元可定义为:
Figure BDA0003343956750000081
其中,xl+1和xl分别是第l个残差块的输出和输入,ReLU代表激活函数,
Figure BDA0003343956750000082
为残差块训练过程中学习的映射函数。如果输出输出维度不一样,则通过一个
Figure BDA0003343956750000083
变换为
Figure BDA0003343956750000084
维度。但是原始bottleneck的主传播路径上的ReLU激活函数会使部分有用但为负值的信息直接归零,神经网络需要重新学习正值来得到正确映射,加大了学习难度。随着网络的加深,ReLU激活函数越多,网络学习难度越大,所以需要限制ReLU数量。
本发明采用的3D-IResnet50结构如图3所示,根据Resnet50结构分成四个残差块,主干通路的ReLU数量固定为4个,这样会大大减少负权值消失带来的影响。在每个残差块中,用start block、middle block和end block代替了bottleneck,其中start block是bottleneck在主干通路上移除激活函数的变形,middle block使用一种预激活结构,除了将主干的ReLU移除,还将支路的BN层和激活函数移到卷积层之前。end block在主干通路上添加了BN层,对当前主要残差块的输出进行归一化,减少极端数据对特征提取过程造成负面影响。
本发明采用的3D-IResnet50主干特征提取网络在3DResnet50基础上改动,在网络深度,计算量不变的情况下提升了网络的学习能力和训练的收敛速度。
S3、根据步骤S2中高帧速通道和低帧速通道的无ReLU的残差块后加入CBAM注意力机制,CBAM注意力机制对从卷积神经网络输出的特征通道数、特征的宽、高和帧数均进行权重分配,输出带有权重的特征并输入到下一个无ReLU的残差块;
在步骤2建立的3D-IResnet50主干网络的的每个主要残差块的输出部分加入CBAM注意力机制。CBAM注意力机制是一种应用在卷积神经网络前向传播阶段的注意力模块。CBAM注意力机制不仅在卷积网络输出特征的通道维度上附加权重,还计算空间维度上权重信息。在本发明中,由于输入到网络的数据在空间上有三个维度,即宽、高和深度(帧数),因此将应用在二维卷积的CBAM改进成能够应用在三维卷积网络,拓展CBAM注意力机制在空间上的维度。
CBAM注意力机制将主要残差块输出的手势特征T∈RC×H×W×D再次推理,分别输出一维的通道维度(C)上的权重向量:
Wc∈RC×1×1×1
和三维的空间维度(H,W,D)上的权重矩阵:
WS∈R1×H×W×D
经过3D-CBAM注意力机制的计算过程如下:
Figure BDA0003343956750000091
T″即为经过注意力机制分配权重后输出的手势特征。其中
Figure BDA0003343956750000092
为元素依次相乘运算符。如图4所示CBAM注意力机制结构图,根据以上公式得出CBAM注意力机制分为两个阶段:一是对输入特征的通道计算权重向量,则需要压缩空间维度到1×1×1,为了减少计算量,使用最大池化和平均池化在三个空间维度上进行压缩,分别得到最大池化空间描述
Figure BDA0003343956750000093
和平均池化空间描述
Figure BDA0003343956750000094
然后使用多层感知机网络对两个空间描述向量进行计算得到Wc∈RC×1×1×1
Figure BDA0003343956750000095
其中,σ为sigmoid函数,
Figure BDA0003343956750000096
第二是对输入特征的空间维度计算权重矩阵,使用最大池化和平均池化得到空间信息的两个不同的特征描述
Figure BDA0003343956750000097
Figure BDA0003343956750000098
最后使用三维卷积操作生成空间注意力矩阵:
Figure BDA0003343956750000099
其中c为三维卷积操作,σ为sigmoid函数。
S4、在Ubuntu18.04操作系统上配置conda虚拟环境,使用pytorch深度学习框架,pycharm编译器。设置手势视频数据,手势视频数据集划分按照3:1:1为训练集、验证集和测试集,输入到双帧速率分治行为识别网络的尺寸为(64×224×224),batch_size为32,训练周期为300轮,初始学习率设置为0.05,每迭代50轮学习率变为原来的一半。在训练过程中保存最新模型和验证精度最高的模型。
选取训练过程中验证精度最高的模型作为训练结果,利用测试集或摄像头验证模型,输出经过归一化的各个手势种类置信度,置信度最高的即当前识别结果。
步骤4:在Ubuntu18.04操作系统上配置conda虚拟环境,使用pytorch深度学习框架,搭建双帧速率分治行为识别网络并训练采集的手势视频数据集,对训练好的模型输入手势视频数据,根据输出结果判断手势种类。数据集划分按照3:1:1为训练集、验证集和测试集。设置训练周期为100轮,保留验证准确率最好的模型作为最终手势识别模型,通过摄像头输入手势视频数据得到模型的推理结果,将置信度最高的手势编号作为识别结果。某次识别结果如下:
[('OK',0.99754465),('CANCLE',0.0022106129),('DOWN',0.000101452955),('BACKGROUND',5.468726e-05),('UP',5.000741e-05),('LEFT',2.6633716e-05),('RIGHT',1.2005275-05)]
识别结果手势结果标签和置信度表示,按照置信度从大到小排列,置信度最高的即为本次识别结果。
本发明采用一种双通道三维卷积神经网络模型来提取动态手势的时空特征,所使用的输入设备为普通的USB摄像头采集的视频帧序列,通过普通USB摄像头采集手势图像和视频进能够完成手势识别,相较于使用3D传感器大大节省了设备成本,旨在能够广泛的应用于多种领域。同时本发明根据目前手势人机交互常使用的手势种类定义诸如向左、向右、确定等手势,是一种通过深度学习实现的分类问题。本发明以三维卷积为核心,采用高分辨率低通道数的慢速卷积通道提取手势的空间特征,采用低分辨率高通道数来提取手势的时间特征;为了提高神经网络的学习效率和学习能力,改用3D-Iresnet50作为网络的主干结构,在残差块后添加CBAM注意力机制来增加特征提取能力。

Claims (8)

1.一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:包括如下步骤:
S1、根据人的手势交流习惯和人机交互中用户常输入的指令,定义向左、向右、向上、向下、确认、取消六种动态手势和一个无手势类别,并根据UCF101数据集格式录制手势视频数据集,配置标签文件,作为神经网络的训练数据集和测试输入;
S2、根据手势视频数据集具有的时间特征和空间特征,搭建双帧速率分治行为识别网络,双帧速率分治行为识别网络包含高帧速通道和低帧速通道,所述高帧速通道和低帧速通道采用一种由无ReLU的残差块、预激活残差块和与激活层加BN层结构的3D-IResnet50网络作为主干网络;
S3、根据步骤S2中高帧速通道和低帧速通道的无ReLU的残差块后加入CBAM注意力机制,CBAM注意力机制对从卷积神经网络输出的特征通道数、特征的宽、高和帧数均进行权重分配,输出带有权重的特征并输入到下一个无ReLU的残差块;
S4、在Ubuntu18.04操作系统上配置conda虚拟环境,使用pytorch深度学习框架,搭建双帧速率分治行为识别网络并训练采集的手势视频数据集,对训练好的模型输入手势视频数据,根据输出结果判断手势种类。
2.根据权利要求1所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述步骤S1中六种动态手势视频均在不同光照环境、不同摄像头视角、不同录制者情况下采集120-150个,且手势视频数据集采用30帧录制,视频分辨率480×480,每个视频从手势的第一帧开始,到最后一帧结束进行剪辑。
3.根据权利要求1所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述步骤S2中高帧速通道输入低分辨率高帧数视频数据,低帧速通道输入高分辨率低帧数数据,在高帧速通道和低帧速通道之间使用侧向连接层进行高帧速通道和低帧速通道交互,实现时空特征信息融合。
4.根据权利要求3所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述低帧速通道输入视频长度为:
L=T×τ,
其中T为低帧速通道输入的采集帧数,τ为低帧速通道采集的帧间间隔。
5.根据权利要求4所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述高帧速通道输入视频的高帧率采样且采样频率为低帧速通道输入视频采样频率的α倍,α=8,高帧速通道采集的帧间间隔为τ/α,高帧速通道的3D-IResnet50网络输入输出特征通道数为低帧速通道的β倍,β=1/8。
6.根据权利要求5所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述步骤S2中高帧速通道和低帧速通道均分为4个残差块,每个残差块由start block、middle block和end block构成,start block、middle block均在网络的主干通路上移除了ReLU激活函数,保留了负权值信息;end block在主干通路上添加了BN层,减少极端数值对特征提取的影响,在高帧速通道的每个主要残差块结束时使用一次三维卷积侧向连接到低帧速通道,完成时间特征和空间特征的融合,最后由低帧速通道连接一个全连接层和BN层输出预测结果。
7.根据权利要求6所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述步骤S3中CBAM注意力机制将高帧速通道和低帧速通道的残差块输出的手势特征T∈RC×H×W×D再次推理,分别输出一维的通道维度(C)上的权重向量Wc∈RC×1×1×1和三维的空间维度(H,W,D)上的权重矩阵WS∈R1×H×W×D,经过CBAM注意力机制的计算过程如下:
Figure FDA0003343956740000021
T″为经过注意力机制分配权重后输出的手势特征,其中
Figure FDA0003343956740000022
为元素依次相乘运算符,根据以上公式得出CBAM注意力机制分为两个阶段:一是对输入特征的通道计算权重向量,则需要压缩空间维度到1×1×1,使用最大池化和平均池化在三个空间维度上进行压缩,分别得到最大池化空间描述
Figure FDA0003343956740000031
和平均池化空间描述
Figure FDA0003343956740000032
然后使用多层感知机网络对两个空间描述向量进行计算得到Wc∈RC×1×1×1
Figure FDA0003343956740000033
其中,σ为sigmoid函数,
Figure FDA0003343956740000034
第二是对输入特征的空间维度计算权重矩阵,使用最大池化和平均池化得到空间信息的两个不同的特征描述
Figure FDA0003343956740000035
Figure FDA0003343956740000036
最后使用三维卷积操作生成空间注意力矩阵:
Figure FDA0003343956740000037
其中c为三维卷积操作,σ为sigmoid函数。
8.根据权利要求1所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述步骤S4中手势视频数据集划分按照3∶1∶1为训练集、验证集和测试集,设置训练周期数,保留验证准确率最好的模型作为最终手势识别模型,通过摄像头输入手势视频数据得到模型的推理结果,将置信度最高的手势编号作为识别结果。
CN202111316896.0A 2021-11-09 2021-11-09 一种基于双帧速率分治行为识别网络的动态手势识别方法 Active CN114038059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111316896.0A CN114038059B (zh) 2021-11-09 2021-11-09 一种基于双帧速率分治行为识别网络的动态手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111316896.0A CN114038059B (zh) 2021-11-09 2021-11-09 一种基于双帧速率分治行为识别网络的动态手势识别方法

Publications (2)

Publication Number Publication Date
CN114038059A true CN114038059A (zh) 2022-02-11
CN114038059B CN114038059B (zh) 2024-05-24

Family

ID=80136795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111316896.0A Active CN114038059B (zh) 2021-11-09 2021-11-09 一种基于双帧速率分治行为识别网络的动态手势识别方法

Country Status (1)

Country Link
CN (1) CN114038059B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597427A (zh) * 2023-07-18 2023-08-15 山东科技大学 一种基于深度学习的舰船驾驶台身份识别方法
CN117111530A (zh) * 2023-09-27 2023-11-24 浙江加力仓储设备股份有限公司 通过手势的搬运车智能控制系统及其方法
CN117492373A (zh) * 2023-09-25 2024-02-02 西安电子科技大学 基于手势识别控制的智能家居系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190124346A1 (en) * 2017-10-19 2019-04-25 Arizona Board Of Regents On Behalf Of Arizona State University Real time end-to-end learning system for a high frame rate video compressive sensing network
CN111860128A (zh) * 2020-06-05 2020-10-30 南京邮电大学 一种基于多流快慢图卷积网络的人体骨骼行为识别方法
CN112507898A (zh) * 2020-12-14 2021-03-16 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN113283298A (zh) * 2021-04-26 2021-08-20 西安交通大学 基于时间注意力机制和双流网络的实时行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190124346A1 (en) * 2017-10-19 2019-04-25 Arizona Board Of Regents On Behalf Of Arizona State University Real time end-to-end learning system for a high frame rate video compressive sensing network
CN111860128A (zh) * 2020-06-05 2020-10-30 南京邮电大学 一种基于多流快慢图卷积网络的人体骨骼行为识别方法
CN112507898A (zh) * 2020-12-14 2021-03-16 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN113283298A (zh) * 2021-04-26 2021-08-20 西安交通大学 基于时间注意力机制和双流网络的实时行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王龙;刘辉;王彬;李鹏举: "结合肤色模型和卷积神经网络的手势识别方法", 计算机工程与应用, vol. 53, no. 6, 31 December 2017 (2017-12-31) *
程淑红;程彦龙;杨镇豪;: "基于手势多特征融合及优化Multiclass-SVC的手势识别", 仪器仪表学报, no. 06, 29 July 2020 (2020-07-29) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597427A (zh) * 2023-07-18 2023-08-15 山东科技大学 一种基于深度学习的舰船驾驶台身份识别方法
CN116597427B (zh) * 2023-07-18 2023-10-20 山东科技大学 一种基于深度学习的舰船驾驶台身份识别方法
CN117492373A (zh) * 2023-09-25 2024-02-02 西安电子科技大学 基于手势识别控制的智能家居系统
CN117111530A (zh) * 2023-09-27 2023-11-24 浙江加力仓储设备股份有限公司 通过手势的搬运车智能控制系统及其方法
CN117111530B (zh) * 2023-09-27 2024-05-03 浙江加力仓储设备股份有限公司 通过手势的搬运车智能控制系统及其方法

Also Published As

Publication number Publication date
CN114038059B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
WO2020228525A1 (zh) 地点识别及其模型训练的方法和装置以及电子设备
CN114038059B (zh) 一种基于双帧速率分治行为识别网络的动态手势识别方法
CN112560656A (zh) 一种联合注意力机制端到端训练的行人多目标跟踪方法
CN113449573A (zh) 一种动态手势识别方法及设备
CN113378641B (zh) 基于深度神经网络和注意力机制的手势识别方法
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN115328319B (zh) 一种基于轻量型手势识别的智能控制方法及装置
CN112507859B (zh) 一种用于移动机器人的视觉跟踪方法
CN112068555A (zh) 一种基于语义slam方法的语音控制型移动机器人
CN114581502A (zh) 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质
CN117475518B (zh) 一种同步人体运动识别与预测方法及系统
CN113378691B (zh) 基于实时用户行为分析的智能家居管理系统及方法
CN111291785A (zh) 目标检测的方法、装置、设备及存储介质
CN114241606A (zh) 一种基于自适应集学习预测的人物交互检测方法
CN112069979B (zh) 一种实时动作识别人机交互系统
CN117456431A (zh) 一种基于扩张卷积和密集连接的镜头边界检测方法
CN116246338B (zh) 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN114882493A (zh) 一种基于图像序列的三维手部姿态估计与识别方法
CN112199994A (zh) 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置
CN116109673A (zh) 一种基于行人姿态估计的多帧轨迹跟踪系统及其方法
CN115063717B (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
CN116129051A (zh) 一种基于图和注意力交织的三维人体姿态估计方法及系统
CN113894779B (zh) 一种应用于机器人交互的多模态数据处理方法
CN113822172B (zh) 一种视频时空行为检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant