CN115578683A

CN115578683A - 一种动态手势识别模型的搭建方法及动态手势识别方法

Info

Publication number: CN115578683A
Application number: CN202211568452.0A
Authority: CN
Inventors: 付民; 郝思达; 刘雪峰; 孙梦楠; 郑冰
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-01-06
Anticipated expiration: 2042-12-08
Also published as: CN115578683B

Abstract

本发明提供了一种动态手势识别模型的搭建方法及动态手势识别方法，模型的搭建方法包括以下步骤：获取动态手势视频的数据集，对获取的数据集进行预处理，首先把视频处理为一帧一帧的图像，并且把每帧图像裁剪为固定大小，然后对数据集进行标注并划分数据集；基于ConvNeXt网络结构，构建TS3C‑Net网络模型，并对模型进行训练；训练完成的网络模型进行测试，并选取准确率最高的模型；模型搭建完成后用于动态手势的识别。本发明首次把ConvNext用于手势识别领域，解决了3D动态手势识别中计算量过高以及识别率较低的问题，TS3C‑Net在实验数据集上的表现超过了最先进的方法。

Description

一种动态手势识别模型的搭建方法及动态手势识别方法

技术领域

本发明属于计算机视觉中的手势识别技术领域，尤其涉及一种动态手势识别模型的搭建方法及动态手势识别方法。

背景技术

手势识别在人机交互、手语识别、虚拟现实（VR）、增强现实（AR）等领域有着重要作用。例如，在驾驶过程中通过手势与汽车的次要功能（如音乐和空调）进行交互，比触摸屏更安全，因为触摸屏交互会吸引驾驶员的视线。虽然视觉外观信息对手势识别很重要，但更重要的是时间序列的关联性。近几年，卷积神经网络（Convolutional Neural Network, CNN）在静态图像分类方面取得巨大的进步，人们很自然的想把这种进步拓展到视频方面。最初，CNN被用来对视频的单个帧进行基于图像的手势识别，然而，这种方式未考虑图像序列之间的时间和运动信息的关联性，无法区分某些动作，比如举起手和放下手。通常通过3DCNN来解决此问题， 3DCNN可以同时提取连续帧中的时间和空间信息。Tran等人基于VGG网络提出卷积3D网络（C3D），对网络结构以及卷积核尺寸进行了研究，结果表明3×3×3的卷积核可以提取最充分的时空特征。然而，C3D引入大量的参数，导致网络很难收敛。膨胀3D（I3D）通过权重复制将ImageNet数据集预训练的2D卷积核膨胀为3D卷积核，解决了3D网络参数过多导致训练困难的问题。I3D具有里程碑的意义，成为3D网络最经常使用的参数初始化方法。随着残差网络（ResNet）的成功，Tran等人把残差理论引入到他们的C3D中，提出了残差3D（R3D），R3D对输入分辨率、下采样步长、网络结构等进行了系统性评估。Okan等人把动作识别应用到实际中，他们的网络由探测器和分类器组成，解决了实际应用中动作识别单次激活的问题。随着I3D以及多个大规模数据集（Kinetics、UCF101等）的提出，3D网络难以训练的问题得到了缓解，但是参数量过多、推理速度慢的缺点还未解决。人们提出了很多方法来解决这个问题。残差（2+1）D（R(2+1)D）和可分离3D（S3D）致力于寻找速度和准确性的平衡，把3D卷积分解为2D的空间卷积加1D的时间卷积。Tran等人提出信道分离卷积网络（CSN），把3D卷积分解为k×k×k的深度卷积以及1×1×1的点卷积，其中k×k×k深度卷积用于时空交互，1×1×1点卷积用于信道交互。

以上方法虽然一定程度减少了参数量和计算成本，但是实际应用中还是无法承受。现有用于动态手势识别的3DCNN的缺点在于提取时空运动信息不充分导致识别准确度低以及计算成本较高。

发明内容

针对上述问题，本发明第一方面提供了一种动态手势识别模型的搭建方法，其特征在于，包括以下步骤：

步骤1，获取动态手势视频的数据集，所述数据集针对不同的应用场景拍摄或下载获取；

步骤2，对步骤1中获取的数据集进行预处理；首先把视频处理为一帧一帧的图像，并且把每帧图像裁剪为固定大小，然后对数据集进行标注，标注的信息包括动作从开始到结束分别是第几帧以及动作所属的分类，最后对标注完成的数据集划分训练集、验证集和测试集；

步骤3，基于ConvNeXt网络结构，把ConvNeXt res层以及下采样层中所有的2D卷积核替换为3D卷积核，得到3D-ConvNeXt，其次在3D-ConvNeXt的基础上每个卷积块中加入一条小感受野的分支卷积，构建为TS3C-Net网络模型；将步骤2中预处理后的训练集和验证集输入到所述TS3C-Net网络模型中，首先对TS3C-Net网络模型进行参数初始化，对输入的分解为图像的视频流进行下采样，获取T帧作为网络输入，将输入的T帧图像分辨率调整到224×224，然后用角部裁剪和尺度抖动进行数据增强，模型输入的最终图像大小为N×T×3×224×224，其中N是批次大小，T是片段的数量；对TS3C-Net网络模型进行训练；用指数移动平均法EMA来减少网络过拟合，并且把EMA模型作为最终的测试模型；

步骤4，使用测试集对步骤3中训练完成的TS3C-Net网络模型进行测试，选取EMA模型中验证准确率最高模型作为最终模型。

优选的，所述步骤3中TS3C-Net网络模型的具体结构为：

所述TS3C-Net基于ConvNeXt网络进行改进，包括stem层、res层、下采样层以及head层；

所述stem层由大小为3×4×4步长为1×4×4的卷积核以及一个层归一化组成，所述stem层用于减少输入的空间维度固有的冗余，减轻网络计算量，stem的输出作为res层的输入；

所述res层包括res2、res3、res4、res5四层，分别有3、3、9、3个卷积块，每个卷积块由3×3×3卷积核、3×7×7卷积核、MLP层、层归一化以及GELU激活函数组成，所述卷积块可由如下公式表示：

y = x + MLP(GELU(MLP(LN(conv3(x)+conv7(x)))))

其中x指卷积块的输入，y指卷积块的输出；conv3和conv7分别指3×3×3卷积运算、3×7×7卷积运算；LN指层归一化；MLP指多层感知机；GELU指GELU激活函数；

所述下采样层共四层，分别位于res2、res3、res4和res5之前，由一个层归一化后跟一个大小为1×2×2步长为1×2×2的卷积核组成，用于减少计算量、防止过拟合以及增大感受野；

所述head层用于预测手势的类别，位于res5之后，由全局平局池化层后跟一个多层感知机组成；全局平局池化层得到批次大小×768的特征图，全连接层将批次大小×768映射到批次大小×类别数，作为最终结果。

优选的，所述步骤3中在3D-ConvNeXt的基础上每个卷积块中加入一条小感受野的分支卷积，是在3D-ConvNeXt网络原有卷积块的3×7×7卷积核中加入了3×3×3卷积核分支，以提取多尺度的时空信息，并在网络模型进行参数初始化时采用随机初始化策略。

优选的，所述步骤3中对TS3C-Net网络模型进行参数初始化具体为，预训练的2D卷积核在时间维度复制三份，然后权重除以三，以确保卷积的最终结果保持不变，这样就等效于3D网络在一段静止不动视频上进行了预训练。

优选的，所述对输入的分解为图像的视频流进行下采样，所述下采样方式采用均匀采样，给定一个输入视频流，首先将其分为时间长度相等的T个片段，然后从每个片段随机选取一帧，共T帧作为网络输入。

优选的，所述步骤3中用角部裁剪和尺度抖动进行数据增强后，继续采用数据增强方法Mixup和Cutmix进行进一步增强。

优选的，所述步骤3中对TS3C-Net网络模型进行训练的策略为：使用AdamW作为优化器，学习率为4e-3；迭代300次，前20个迭代进行预热，学习率线性增长，预热结束之后，采用余弦退火对学习率衰减；采样帧数和批次大小分别设定为8和160；用标签平滑策略对网络正则化。

本发明第二方面提供了一种动态手势识别方法，包括以下步骤：获取动态手势视频；把视频处理为一帧一帧的图像，并输入到如第一方面所述的搭建方法所搭建的动态手势识别模型中；输出识别结果。

本发明第三方面还提供了一种动态手势识别模型的搭建设备，其特征在于：所述设备包括至少一个处理器和至少一个存储器，所述处理器和存储器相耦合；所述存储器中存储有计算机执行程序；所述处理器执行存储器中存储的计算机执行程序时，可以使处理器执行如第一方面所述的动态手势识别模型的搭建方法。

本发明第四方面还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序或指令，所述程序或指令被处理器执行时可以使处理器执行如第一方面所述的动态手势识别模型的搭建方法。

与现有技术相比，本发明主要提供了一种动态手势识别模型的搭建方法及动态手势识别方法，本发明解决了3D动态手势识别中计算量过高以及识别率较低的问题。在现有的3D方法中，在EgoGesture公开数据集上以最低的计算量得到最高的识别率；在Jester公开数据集上以最低的计算量得到第二高的识别率，识别率第一的模型计算量是本发明的4.8倍。证明了本发明的优势在于计算量低且准确性好。

本发明通过两个步骤得到TS3C-Net，首先基于ConvNeXt网络结构，把ConvNeXtres层以及下采样层中所有的2D卷积核替换为3D卷积核，得到3D-ConvNeXt，其次在3D-ConvNeXt的基础上每个卷积块中加入一条小感受野的分支卷积，构建为TS3C-Net网络模型。本发明以ConvNeXt为基础，主要有两个原因：1）由于ConvNeXt大量使用深度卷积，它的计算成本很低；2）它是最先进的网络结构之一，在物体识别方面具有很高的性能。经过大量实验，本发明得出3D-ConvNeXt网络，可以提取更具有分辨性的时空特征。3D-ConvNeXt同样有着ConvNeXt的优点。3D-ConvNeXt采用3×7×7的卷积核，在空间维度感受野较大，然而在手势识别中，手在图片中占的比例较小，故网络需要聚焦注意力在手部区域，同时抑制无关的背景信息。本发明在3D-ConvNeXt中更进一步，在网络原有卷积块的3×7×7卷积核中加入了3×3×3卷积核分支，以提取多尺度的时空信息，得到最终的TS3C-Net。区分区域的对应特征被聚拢在一起，而不相关的信息被削弱，从而得到更好的特征集。

附图说明

图1为本发明动态手势识别模型搭建方法的流程示意图；

图2为不同视角下拍摄的手势识别图像实例；

图3为 3D-ConvNeXt和TS3C-Net的卷积块设计结构比对图（只展示了阶段2的卷积块）。

图4为3D-ConvNeXt提取特征的可视化图例。

图5为TS3C-Net提取特征的可视化图例。

图6为实施例2中动态手势识别模型搭建设备的结构简易框图。

具体实施方式

下面结合具体实施例对发明进行进一步说明。

实施例1：

本发明首次把ConvNext用于手势识别领域，并提出了基于ConvNext的TS3C-Net，验证了Mixup、Cutmix数据增强方法以及标签平滑正则化技术在动态手势识别中的作用。在每个卷积块卷积块中加入不同尺度卷积核，提取更为充分的时空信息以及运动信息。

本发明提供了一种动态手势识别模型的搭建方法，如图1所示，包括以下步骤：

本实施例以两个公开可用的动态手势数据集上进行了实验，包括：EgoGesture以及Jester。TS3C-Net在EgoGesture数据集和Jester数据集上的表现超过了最先进的方法。本发明还对TS3C-Net进行了深入的消融研究，以验证其有效性。

1.获取数据集：

EgoGesture数据集是一个用于以自我为中心的手势识别的大规模数据集。这个数据集的分辨率为320×240，有RGB和深度两种模态，共83个分类，收集自6个不同的室内和室外场景。数据集的分割是由不同的主体以3：1：1的比例创建的，共计14416个训练样本，4768个验证样本和4977个测试样本。Jester是最大的公开可用的手势识别数据集，以第三视角拍摄，非常适合用于人机交互。这个数据集有27个类别，118562个训练视频，14787个验证视频和14743个测试视频。

本发明在实际应用场景中，获取动态手势识别数据集，可通过网络摄像头或手机直接拍摄RGB视频；也可网上下载公开可用数据集。针对不同的应用场景获取所需的数据，比如，若用于虚拟现实(AR)、增强现实（VR）等领域的人机交互，可拍摄第一视角的手势识别数据集；若用于汽车的次要功能（如音乐和空调）、智能电视等领域的人机交互，可拍摄第三视角的手势识别数据集。本发明分别从第一和第三视角两个公开数据集上验证本发明的泛化性，如下所述EgoGesture是第一视角手势识别数据集；Jester是第三视角手势识别数据集。所述第一视角和第三视角如图3所示。

2.数据预处理：

获取到视频数据后，首先把视频处理为一帧一帧的图像，并且把每帧图像裁剪为固定大小，本发明裁剪尺寸为320×240。然后对数据集进行标注，标注的信息包括动作从开始到结束分别是第几帧以及动作所属的分类。最后对标注完成的数据集按照3：1：1的比例划分训练集、验证集和测试集。最终的标注文件为.pkl格式，存储一个动作中从开始到结束每一帧的绝对路径以及对应的动作分类。

本发明所用数据集为EgoGesture和Jester。其中EgoGesture分辨率为320×240，有RGB和深度两种模态，共83个分类，收集自6个不同的室内和室外场景。数据集的分割是由不同的主体以3：1：1的比例创建的，共计14416个训练样本，4768个验证样本和4977个测试样本。Jester是最大的公开可用的手势识别数据集，以第三视角拍摄。这个数据集有27个类别，118562个训练视频，14787个验证视频和14743个测试视频。

3.搭建模型：

ConvNeXt在图像分类、目标探测和分割等领域取得较大优势，本发明挖掘它在手势识别方面的潜力，3D-ConvNeXt网络架构见表1。

表1 3D-ConvNeXt的架构

TS3C-Net基于3D-ConvNeXt网络进行改进，包括stem层、res层、下采样层以及head层；

stem层由大小为3×4×4步长为1×4×4的卷积核以及一个层归一化组成，所述stem层用于减少输入的空间维度固有的冗余，减轻网络计算量，stem的输出作为res层的输入；

res层包括res2、res3、res4、res5四层，分别有3、3、9、3个卷积块，每个卷积块由3×3×3卷积核、3×7×7卷积核、MLP层、层归一化以及GELU激活函数组成，所述卷积块可由如下公式表示：

y = x + MLP(GELU(MLP(LN(conv3(x)+conv7(x)))))

下采样层共四层，分别位于res2、res3、res4和res5之前，由一个层归一化后跟一个大小为1×2×2步长为1×2×2的卷积核组成，用于减少计算量、防止过拟合以及增大感受野；

head层用于预测手势的类别，位于res5之后，由全局平局池化层后跟一个多层感知机组成；全局平局池化层得到批次大小×768的特征图，全连接层将批次大小×768映射到批次大小×类别数，作为最终结果。

大部分卷积层都有3×7×7的过滤器，同时处理时空信息。由于输入的空间维度存在固有的冗余，对输入视频序列以3×4×4的卷积核、1×4×4的步长进行下采样，以达到适当的特征图大小。不同阶段的过滤器的数量被设置为96，192，384和768，每个过滤器使用两个多层感知机MLP层，将特征投射到高维子空间，然后再返回到原始维度。通过大量实验发现，在3×7×7，5×7×7以及7×7×7卷积核中，3×7×7卷积核得到最好的结果。池化层被步长为2的1×2×2卷积层所取代，以实现下采样。然后对时空维度进行全局均值池化，得到批次大小×768的特征图。最后，一个全连接层将批次大小×768映射到批次大小×类别数。时间维度上采样会损失准确性，所以本发明时间维度不进行采样。

自从Inception提出可以通过重叠多个3×3卷积核代替大尺寸的卷积核，并且感受野保持不变，这种观念成为近几年的共识。最近，Ding等人发现，多个3×3卷积核的叠加实际上的感受野并不如与之相对应的大卷积核。这就是为什么ConvNeXt使用7×7的大尺度卷积核可以得到更好的性能。3D-ConvNeXt采用3×7×7的卷积核，有着大的感受野，然而在手势识别中，手在图片中占的比例较小，需要将更多的注意力集中在手部区域，同时抑制无关的背景信息。如图2所示，本发明在3D-ConvNeXt网络原有卷积块的3×7×7卷积核中加入了3×3×3卷积核分支，以提取多尺度的时空信息。最终的特征图不再具有相同的均匀分布，而是将一些相关的特征聚集在一起，生成多个密集分布的特征子集。因此，对于输入的数据，经过不同的卷积处理后，区分区域的对应特征被聚拢在一起，而不相关的信息被削弱，从而得到更好的特征集。与Inception网络不同的是，两个分支的结果逐元素相加而不是串联。

图2中（只展示了阶段2的卷积块）， 3D-ConvNeXt和TS3C-Net的卷积块设计比对，96-d和384表示通道数，d3×7×7和d3×3×3表示深度卷积，LN表示LN正则化，GELU表示GELU激活函数。

4.模型训练：

通过I3D的膨胀方法，使用在ImageNet数据集预训练的ConvNeXt作为卷积层、多层感知机层和下采样层的初始化参数，每个卷积块中的3×3×3卷积核分支采用随机初始化策略。预训练的2D卷积核在时间维度复制三份，然后权重除以三，以确保卷积的最终结果保持不变，这样就等效于3D网络在一段静止不动视频上进行了预训练。均匀采样的准确性要高于密集采样，所以本发明采用均匀采样。给定一个输入视频流，首先将其分为时间长度相等的T个片段，然后从每个片段随机选取一帧，共T帧作为网络输入。对于EgoGesture数据集，首先把图像调整到224×224，然后用角部裁剪和尺度抖动进行数据增强。对于Jester数据集，图像帧的较短边被固定为256，并使用了与EgoGesture数据集同样的数据增强方法。模型输入的最终大小为N×T×3×224×224，其中N是批次大小，T是片段的数量。

TS3C-Net在一台有两块NVIDIA GeForce RTX 3090 显卡的服务器中进行训练。训练策略与ConvNeXt原文相同：使用AdamW作为优化器，学习率为4e-3；迭代300次，前20个迭代进行预热，学习率线性增长，预热结束之后，采用余弦退火对学习率衰减；采样帧数和批次大小分别设定为8和160；用标签平滑策略对网络正则化。本发明把静态图像中的数据增强方法Mixup和Cutmix直接用到了视频流中。用指数移动平均法（EMA）来减少网络过拟合，并且把EMA模型作为最终的测试模型。

5.模型测试：

使用测试集对训练完成的TS3C-Net网络模型进行测试，选取验证准确率最高模型作为最终模型。空间上对于EgoGesture，将尺寸调整为224×224，对于Jester较短边被固定为256，然后对图像进行中心裁剪。时间上从视频中随机采样10次，最终的预测是所有片段的平均分。

6.实验结果比对：

与现有方法比较：

本发明首先在大规模手势识别数据集EgoGesture上，把TS3C-Net与其他最新的方法进行了比较。表2比较了不同手势识别方法在多种帧数下的准确性，最好的结果进行了加粗标记。TS3C-Net的输入帧数最少，速度最快，但是准确度最高。

为了验证本发明中的方法对各种手势识别任务的泛化性，本发明还在Jester数据集上对此方法进行了测试。本发明使用与在EgeGesture数据集上相同的实验设置，输入8帧RGB视频流，结果同样展示在表2中，最好的结果进行了加粗标记。在Jeser数据集上表现最好的是DirecFormer，准确性超出TS3C-Net 1%，但是速度比TS3C-Net慢4.8倍。在相似的计算量下，TS3C-Net取得最好的准确性，证明了它的泛化能力。

表2 本方法与其他方法分别在两个数据集上的实验结果对比

方法	预训练	帧数	GFLOPs	EgoGesture	Jester
						C3D	Kinetics	16	-	90.9	95.9
I3D	ImageNet	32	153	90.33	-
						SlowFast	ImageNet	32	51	92.8	96.91
R(2+1)D	Kinetics	16	75.7	93.4	96.28
						STCA-R(2+1)D	Kinetics	16	75.8	94.3	97.05
BM-NAS	-	32	-	94.96
						S3D	Kinetics	32	-		96.6
DirecFormer	ImageNet	8	196		98.15
						TS3C-Net	ImageNet	8	40.7	95.36	97.1

其中GFLOPs指每秒10亿次的浮点运算数，衡量模型所需的计算量。GFLOPs越小模型所需计算量越小，速度越快。

图4和图5分别为3D-ConvNeXt与TS3C-Net提取特征的可视化图，通过类激活映射方式对特征图的热图可视化。图4是3D-ConvNeXt的结果，图5是TS3C-Net的结果，光晕颜色越深说明权重越大。可以注意到，图5中的TS3C-Net把更多的注意力权重放在了手的区域，得出更精确的预测区域。

TS3C-Net在现有方法中取得最好的性能，说明提取时空信息最为充分。由图4和图5的比对证明双尺度卷积核可以提取更为充分的时空特征。可以观察到，与3D-ConvNeXt相比，TS3C-Net不仅提取了运动信息，还抑制了不相关的信息，产生更精确的预测区域。

消融实验：

为了研究TS3C-Net中不同方法的功效，在EgoGesture数据集上进行了大量的消融实验。数据预处理与训练策略与上述方法相同，以8帧RGB数据作为输入，在ImageNet数据集上进行了预训练。top-1准确性作为性能评估指标，最好的结果进行了加粗处理，结果如表3所示。

由表3可以观察到：①在视频中引入Mixup、Cutmix、标签平滑对top-1准确率增长贡献最大。②无论是否采用Mixup等技术，TS3C-Net都优于3D-ConvNeXt，证明了双尺度模型的优越性。③TS3C-Net + Mixup、Cutmix、标签平滑等训练策略，实现了95.36%最好的top-1准确性。

表3 在EgoGesture数据集上的消融实验

方法	预训练	帧数	模态	准确度
					3D-ConvNeXt	ImageNet	8	RGB	94.35
TS3C-Net	ImageNet	8	RGB	94.43
					3D-ConvNeXt+训练策略	ImageNet	8	RGB	95.11
TS3C-Net +训练策略	ImageNet	8	RGB	95.36

在不同的应用场景中，可以获取相应场景中的动态手势收据集按上述方法搭建动态手势识别模型，完成模型搭建后，获取动态手势视频，把视频处理为一帧一帧的图像，并输入到所搭建的动态手势识别模型中，输出识别结果。

实施例2：

如图6所示，本发明同时提供了一种动态手势识别模型的搭建设备，设备包括至少一个处理器和至少一个存储器，同时还包括通信接口和内部总线；存储器中存储有计算机执行程序；所述处理器执行存储器存储的计算机执行程序时，可以使处理器执行使处理器执行如实施例1所述的动态手势识别模型的搭建方法。其中内部总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(PeripheralComponent，PCI)总线或扩展工业标准体系结构(.XtendedIndustry StandardArchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

设备可以被提供为终端、服务器或其它形态的设备。

图6是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件：处理组件，存储器，电源组件，多媒体组件，音频组件，输入/输出(I/O)的接口，传感器组件，以及通信组件。处理组件通常控制电子设备的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件可以包括一个或多个模块，便于处理组件和其他组件之间的交互。例如，处理组件可以包括多媒体模块，以方便多媒体组件和处理组件之间的交互。

存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。 I/O接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件包括一个或多个传感器，用于为电子设备提供各个方面的状态评估。例如，传感器组件可以检测到电子设备的打开/关闭状态，组件的相对定位，例如所述组件为电子设备的显示器和小键盘，传感器组件还可以检测电子设备或电子设备一个组件的位置改变，用户与电子设备接触的存在或不存在，电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

实施例3：

本发明还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序或指令，所述程序或指令被处理器执行时可以使处理器执行如如实施例1所述的动态手势识别模型的搭建方法。

具体地，可以提供配有可读存储介质的系统、装置或设备，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘（如 CD-ROM、CD-R、CD-RW、DVD- 20 ROM、DVD-RAM、DVD-RW、DVD-RW）、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

应理解存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种动态手势识别模型的搭建方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种动态手势识别模型的搭建方法，其特征在于：所述步骤3中TS3C-Net网络模型的具体结构为：

y = x + MLP(GELU(MLP(LN(conv3(x)+conv7(x)))))

3.如权利要求1所述的一种动态手势识别模型的搭建方法，其特征在于：所述步骤3中在3D-ConvNeXt的基础上每个卷积块中加入一条小感受野的分支卷积，是在3D-ConvNeXt网络原有卷积块的3×7×7卷积核中加入了3×3×3卷积核分支，以提取多尺度的时空信息，并在网络模型进行参数初始化时采用随机初始化策略。

4.如权利要求1所述的一种动态手势识别模型的搭建方法，其特征在于：所述步骤3中对TS3C-Net网络模型进行参数初始化具体为，预训练的2D卷积核在时间维度复制三份，然后权重除以三，以确保卷积的最终结果保持不变，这样就等效于3D网络在一段静止不动视频上进行了预训练。

5.如权利要求1所述的一种动态手势识别模型的搭建方法，其特征在于：所述对输入的分解为图像的视频流进行下采样，所述下采样方式采用均匀采样，给定一个输入视频流，首先将其分为时间长度相等的T个片段，然后从每个片段随机选取一帧，共T帧作为网络输入。

6.如权利要求1所述的一种动态手势识别模型的搭建方法，其特征在于：所述步骤3中用角部裁剪和尺度抖动进行数据增强后，继续采用数据增强方法Mixup和Cutmix进行进一步增强。

7.如权利要求1所述的一种动态手势识别模型的搭建方法，其特征在于：所述步骤3中对TS3C-Net网络模型进行训练的策略为：使用AdamW作为优化器，学习率为4e-3；迭代300次，前20个迭代进行预热，学习率线性增长，预热结束之后，采用余弦退火对学习率衰减；采样帧数和批次大小分别设定为8和160；用标签平滑策略对网络正则化。

8.一种动态手势识别方法，其特征在于，包括以下步骤：获取动态手势视频；把视频处理为一帧一帧的图像，并输入到如权利要求1至7任意一项所述的搭建方法所搭建的动态手势识别模型中；输出识别结果。

9.一种动态手势识别模型的搭建设备，其特征在于：所述设备包括至少一个处理器和至少一个存储器，所述处理器和存储器相耦合；所述存储器中存储有计算机执行程序；所述处理器执行存储器中存储的计算机执行程序时，可以使处理器执行如权利要求1至7任意一项所述的动态手势识别模型的搭建方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序或指令，所述程序或指令被处理器执行时可以使处理器执行如权利要求1至7任意一项所述的动态手势识别模型的搭建方法。