CN116563938A

CN116563938A - 基于动态时空卷积的动态手势识别方法

Info

Publication number: CN116563938A
Application number: CN202310230599.7A
Authority: CN
Inventors: 常绍鹏; 黄学雨; 刘耀坤; 向军臣
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2023-03-11
Filing date: 2023-03-11
Publication date: 2023-08-08

Abstract

本发明提供一种基于动态时空卷积的动态手势识别方法。基于动态时空卷积的动态手势识别方法包括如下步骤：获取包含动态手势的数据集；数据集帧采样；划分数据集；构建动态时空建模模块；构建基于动态时空卷积的手势识别模型；训练基于动态时空卷积的动态手势识别模型；使用训练得到的模型用于动态手势的识别。本发明采用基于动态时空卷积的模型对动态手势进行识别，通过在2D卷积网络上增加具有动态时间建模模块的方式避免了使用3D卷积计算量过高的问题，本发明提出的动态时间建模模块采用动态卷积的方式对完整动作提取时序信息进行建模，同时增加的计算成本很小却可以大幅提高识别准确率。

Description

基于动态时空卷积的动态手势识别方法

技术领域

本发明属于计算机视觉中的手势识别领域，涉及一种动态手势识别模型的搭建方法和动态手势识别方法。

背景技术

动态手势作为一种自然的交互方式，在虚拟现实、汽车用户界面、智能家居等领域具有非常重要的意义。基于视觉的手势识别技术因其使用的摄像头易于获取且无需佩戴额外设备的优势，是手势识别研究的重点。随着深度学习的发展基于深度学习的方法已成为当前手势识别领域的主流方法。

基于深度学习的动态手势识别方法有多种，其中一些方法采用 2 维卷积来提取手势的时空特征。例如，Simonyan 等人提出的双流网络(Two-Stream)，该网络将 RGB 图像和光流信息作为输入，利用 2 维卷积分别学习空间特征和运动特征。L.Wang 等人提出的时域分割网络(TSN)，将每个视频段分割为多个片段，并使用双流网络提取每个片段的时空特征，最后将特征融合得到预测结果，但光流的抽取需要较高的计算成本难以用于实时检测。基于视觉的动态手势识别通常采用视频数据，因此有研究者尝试采用 3 维卷积提取视频的时间和空间信息。Du Tran 等人使用 3×3×3 的小卷积核构建 C3D 模型，性能超过了当时 2D 卷积结构。虽然基于 3D 卷积的模型可以直接处理视频数据，但由于 3D 卷积比2D 卷积多了一个维度，计算成本也呈指数增加。

以上方法中，基于2D卷积的方法时空特征提取不足，存在准确度低的缺点；基于3D 卷积方法参数量过大，在实际应用中存在实时性差的缺点；因此使用在2D卷积网络中插入时空建模模块的方式是一种平衡计算成本和准确度的方法。

发明内容

针对上述问题，本发明提供了一种基于2D卷积的动态手势识别模型的搭建方法，包括以下步骤：

步骤1，获取动态手势视频数据集，在不同的背景下拍摄不同人的的不同手势；

步骤2，对步骤1种获取的数据集进行预处理；首先将视频处理为一帧一帧的图像序列，并通过裁剪将图像调整为固定大小，然后对数据集进行标注，需要标注手势动作的开始帧、结束帧和所属类别，最后将数据集划分为训练集、验证集、测试集；

步骤3，构建具有动态时空建模能力的即插即用模块，首先对考虑全局时序信息，构建长期时序聚合模块LAM，然后考虑短期运动信息，构建运动特征激励模块ME，最后将长期时序聚合模块和短句运动激励模块组合得到具有时空建模能力的即插即用模块LAMME；

具体的来说，长期时序建模模块LAM包括全局时序信息累加和全局时序信息动态聚合，所述全局时序累加，首先使用全局平均池化将输入特征图压缩，然后使用一维卷积抽取全局时间信息，最后包含全局时序信息的特征图和原特征图累加得到包含全局时序信息的特征图；所述全局时序信息聚合，首先使用全局平均池化将特征图压缩，然后使用两个全连接层对全局时序信息动态编码后使用softmax归一化得到动态卷积权重，最后使用2D卷积的方式在经过全局时序累加后的特征图上聚合全局时序信息；

具体的来说，所述运动信息激励，首先使用1×1的2维卷积压缩通道数，然后使用相邻帧之间的特征图相减来模拟运动信息，然后使用1×1的2维卷积还原通道数，接下来使用sigmoid函数计算运动敏感权重，然后使用得到的运动敏感权重乘原输入特征图得到经过运动激励后的特征图；

所述长期时序建模模块和运动激励模块的组合，是将长期时序建模模块和运动激励模块串联得到的组合模块，输入的特征图经过组合模块后特征图就包含了长期时序信息和运动信息。

步骤4，将步骤3种构建的具有时空建模能力的即插即用模块添加到Resnet-50网络中的残差块的1×1卷积后，构建为LAMME-Net网络模型；将步骤2中经过预处理的训练集和验证集输入到LAMME-Net网络模型中；使用ImageNet-1K预训练权重进行参数初始化，将输入的图像序列进行下采样，每个手势视频片段取T帧作为输入，将输入的图像分辨率调整为224×224，网络的最终的输入为N×T×3×224×224，其中N为训练批次大小，T为采样帧数；对LAMME-Net网络模型进行训练，使用学习率多级下降策略提高网络性能，保存验证集准确率最高的模型为最终的测试模型。

本发明第二方面提供了一种离线动态手势识别方法，包括以下步骤：获取动态手势视频；将视频抽取为图像序列，并输入到搭建的动态手势识别网络中；输出识别结果。

本发明第三方面提供了一种实时动态手势识别方法，包括以下步骤：获取动态手势视频流，以S为间隔将帧输入缓冲区，将缓冲区内的图像序列输入搭建的动态手势识别模型中，输出识别结果。

本发明具有以下优点：

与现有技术相比，本发明提供了一种高效的动态手势识别方法，本发明解决了2D卷积网络动态手势识别率较低的问题。在现有的2D识别方法中，本发明提出的方法在EgoGesture公开数据集上得到了94.3%的识别率，且计算成本比第二高的方法更低。

本发明提出的具有时空建模能力的模块LAMME具有即插即用的优点，可以插入到ResNet网络中，或者插入到其它轻量级网络如MobileNet等骨干网络中，并能显著提高原网络的时间建模能力。

本发明使用动态卷积的方式对长期时序信息建模，能够针对不同手势存在的种类、速度等差异进行动态全局时序建模。

本发明通过考虑长期时序和运动信息两个方面得到了LAMME-Net，在进行全局时序建模后使用运动信息激励激发运动敏感通道，通过运动信息激励增强运动敏感信息，有效提升了动态手势识别准确率。

本发明通过使用缓冲区存储输入视频流中的帧，然后将缓冲区中内容输入动态手势识别模型进行识别，最后得到预测结果，有效的实现了实时的动态手势识别。

附图说明

图1为本发明基于2D卷积的动态手势识别的方法的流程示意图

图2为本发明长期时序建模模块LAM结构示意图

图3为本发明运动信息激励模块ME的结构示意图

图4为本发明时空建模模块LAMME的结构示意图

图5为本发明基于2D卷积的动态手势识别的网络结构图

图6为本发明进行离线动态手势识别的流程示意图

图7为本发明进行实时动态手势识别的流程示意图

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例

为了构建动态手势识别网络模型，本发明采用如下技术方案，基于2D卷积的动态手势识别方法，如图1所示，包括如下步骤：

S1：获取动态手势视频数据集

收集在不同背景下不同人的不同手势的视频，使用公开第一人称手势数据集EgoGesture，包含来自 50 个对象在 6 种不同背景下的手势，共有 2081 个视频，24161个手势样本，83 种手势类别；

S2：数据集处理

对S1中获取的数据集进行预处理，首先将视频处理为一帧一帧的图像，然后通过裁剪将图像的分辨率固定调整为320×240，接下来对数据集进行标注，需要标注手势动作的开始帧、结束帧和所属手势类别，生成标注文件；

S3：数据集划分

将数据集按3:1:1的比例划分为训练集、验证集、测试集，共14416个训练样本，4768个验证样本，4977个测试样本；

S4：构建具有时空建模能力的即插即用模块

构建具有时空建模能力的即插即用模块，首先先考虑长期时序信息，构建长期时序聚合模块LAM，使用全局池化压缩特征图，然后使用一维卷积提取全局特征信息，将提取的全局特征信息和原始特征图进行累加，使用两个全连接层对全局信息进行编码，使用softmax归一化生成卷积权重，使用生成的卷积权重进行卷积聚合长期时序信息；然后考虑运动信息，构建运动激励模块ME，使用特征图之间的差模拟运动信息，然后使用sigmoid归一化生成激励权重，使用激励权重和原特征图相乘获得经过运动激励后特征图；接下来将LAM模块和ME组合起来构成具有时空建模能力的LAMME模块；

S5：构建基于2D卷积的动态手势识别模型

采用Resnet50网络作为原始网络，Resent50网络包括1个预处理层、4个Block、1个平均池化层、1个全连接层和1个softmax 层，将S4中构建的LAMME模块插入到每个Block的1×1卷积后，得到LAMME-Net网络模型；

S6：训练基于2D卷积的动态手势识别模型

将S2和S3中经过预处理后的训练集和验证集输入到S5中构建的LAMME-Net网络模型中，首先使用ImageNet预训练权重进行参数初始化，将输入的图像序列进行下采样，每个视频片段取T帧作为输入，将输入的图像分辨率调整为224×224，网络的最终的输入为N×T×3×224×224，其中N为训练批次大小，T为采样帧数；对LAMME-Net网络模型进行训练，使用Adam作为优化器，初始学习率为0.01，迭代25次，学习率在10、15、20次衰减为原来的10%，采样帧数为8，训练批次为64，并使用ImageNet预训练权重对模型进行初始化，保存验证集准确率最高的模型为最终的识别模型。

S7：动态手势识别

使用S6中得到的模型进行动态手势识别，本发明在大规模手势识别数据集EgoGesture上，把LAMME-Net和其它方法进行了比较。表1比较了不同手势识别方法的准确性，其中FLOPs衡量模型所需要的计算量，FLOPs越小模型所需计算量越小，速度越快，本发明提出的LAMME-Net以较小的计算量取得了最高的识别准确率。

表1 与其它方法的对比

方法	骨干网络	FLOPs	Top-1准确率
				TSN	Resnet-50	33G	83.1
TSM	Resnet-50	33G	92.1
				TAM	Resnet-50	33.06G	93.5
ACTION-Net	Resnet-50	34.75G	94.2
				LAMME-Net	Resnet-50	33.2G	94.3

实施例

如图4所示，本发明的时空建模模块LAMME包括长期时序建模模块LAM和运动信息激励ME两部分，LAM和ME使用串联的方式组合到一起。

LAM模块用于长期时序建模，先对全局信息进行增强，使用全局池化压缩特征图，然后使用一维卷积提取全局特征信息，将提取的全局特征信息和原始特征图进行累加就得到了全局信息增强后的特征图；然后聚合长期时序信息，使用两个全连接层对全局信息进行编码，使用softmax归一化生成卷积权重，最后使用生成的卷积权重进行卷积聚合长期时序信息，LAM模块的结构如图2所示。

ME模块用于激发运动敏感通道，使用特征图之间的差模拟运动信息，然后使用sigmoid归一化生成激励权重，使用激励权重和原特征图相乘获得经过运动激励后特征图，ME模块的结构如图3所示。

LAMME模块由LAM和ME模块串联得到，LAMME模块的结构图如图4所示。

表2使用消融实验证明了本发明提出的LAM和ME模块的有效性，在2D卷积网络TSN上添加LAM模块后在测试集上取得了93.8%的准确率，而在LAM和ME模块组合到一起后达到了94.3%的准确率。

表2 消融实验

模型	Top-1准确率	参数量	浮点计算量
				TSN	83.1%	23.67M	33.05G
ME	89.8%	23.83M	33.22G
				LAM	93.8%	24.94M	33.07G
LAMME	94.3%	25.11M	33.24G

实施例

动态手势识别可分为离线动态手势识别和实时动态手势识别。其中离线动态手势识别流程如图6所示，将视频抽取为图像序列，然后输入到动态手势识别网络中，最后输出识别结果，我们使用EgoGesture数据集的测试集进行识别准确率达到了94.3%；实时手势识别流程如图7所示，首先获取动态手势视频流，每隔S帧将图像帧存入缓冲区，然后将缓冲区内的图像序列输入到动态手势识别模型中，若预测置信度大于设置的阈值则输出识别结果，经测试在移动端的RTX 3050显卡上完成一次识别平均只需要53毫秒，证明本发明提出的方法可以很好用于实时的动态手势识别。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。本说明书中未作详细描述的部分属于本领域专业技术人员公知的现有技术。

Claims

1.一种动态手势识别模型的构建方法，其特征在于，包括以下步骤：

S1：获取动态手势视频数据集收集在不同背景下不同人的不同手势的视频；

S2：数据集帧采样对 S1中获取的数据集进行预处理，首先将视频处理为一帧一帧的图像，然后通过裁剪将图像调整为固定大小，接下来对数据集进行标注，需要标注手势动作的开始帧、结束帧和所属手势类别；

S3：数据集划分将数据集按 3:1:1的比例划分为训练集、验证集、测试集；

S4：构建具有时空建模能力的动态时空建模模块构建具有时空建模能力的模块，首先先考虑长期时序信息，由构建长期时序聚合模块 LAM，使用全局池化压缩特征图，然后使用一维卷积提取全局特征信息，将提取的全局特征信息和原始特征图进行累加，使用两个全连接层对全局信息进行动态编码，使用 softmax归一化生成卷积权重，使用生成的卷积权重进行卷积聚合长期时序信息；然后考虑运动信息，构建运动激励模块 ME，使用特征图之间的差模拟运动信息，然后使用 sigmoid归一化生成激励权重，使用激励权重和原特征图相乘获得经过运动激励后特征图；接下来将 LAM模块和 ME组合起来构成具有时空建模能力的 LAMME模块；

S5：构建基于动态时空卷积的动态手势识别模型采用 Resnet50网络作为原始网络，Resent50网络包括 1个预处理层、4个 Block、1个平均池化层、1个全连接层和 1个softmax 层，将 S4中构建的 LAMME模块插入到每个 Block的 1×1卷积后，得到 LAMME-Net网络模型；

S6：训练基于动态时空卷积的动态手势识别模型将 S2和 S3中经过预处理后的训练集和验证集输入到 S5中构建的 LAMME-Net网络模型中，首先使用 ImageNet预训练权重进行参数初始化，将输入的图像序列进行下采样，每个视频片段取 T 帧作为输入，将输入的图像分辨率调整为 224×224，网络的最终的输入为N×T×3×224×224，其中 N为训练批次大小，T为采样帧数；对 LAMME-Net网络模型进行训练，使用学习率多级下降策略提高训练得到的模型性能，保存验证集准确率最高的模型为最终的测试模型；

S7：动态手势识别，使用 S6中得到的模型进行动态手势识别，可分为离线动态手势识别和实时动态手势识别。其中离线动态手势识别将视频抽取为图像序列，然后输入到动态手势识别网络中，最后输出识别结果；实时手势识别获取动态手势视频流，每隔 S帧将图像帧存入缓冲区，然后将缓冲区内的图像序列输入到动态手势识别模型中，最后输出识别结果。

2.如权利要求 1所示的一种动态手势识别网络模型的搭建方法，其特征在于：所述长期时序建模模块 LAM包括全局时序信息累加和全局时序信息动态聚合；所述全局时序累加，首先使用全局平均池化将输入特征图压缩，然后使用一维卷积抽取全局时间信息，最后包含全局时序信息的特征图和原特征图累加得到包含全局时序信息的特征图；所述全局时序信息动态聚合，首先使用全局平均池化将特征图压缩，然后使用两个全连接层对全局时序信息编码后使用 softmax归一化得到动态卷积权重，最后使用 2D卷积的方式在经过全局时序累加后的特征图上聚合全局时序信息。

3.如权利要求 1所示的一种动态手势识别网络模型的搭建方法，其特征在于所述运动信息激励，首先使用 1×1的 2维卷积压缩通道数，然后使用相邻帧之间的特征图相减来模拟运动信息，然后使用 1×1的 2维卷积还原通道数，接下来使用 sigmoid函数计算运动敏感权重，然后使用得到的运动敏感权重乘原输入特征图得到经过运动激励后的特征图；所述长期时序建模模块和运动激励模块的组合，是将长期时序建模模块和运动激励模块串联得到的组合模块，输入的特征图经过组合模块后特征图就包含了长期时序信息和运动信息。

4.如权利要求 1所述的一种动态手势识别模型的构建方法，其特征在于使用全局平均池化和一维卷积累加增强长期时序信息。

5.如权利要求 1所述的一种动态手势识别模型的构建方法，其特征在于使用全连接层对长期时序信息编码后使用 softmax归一化生成动态卷积权重，然后卷积的方式聚合长期时序特征。

6.如权利要求 1所述的一种动态手势识别模型的构建方法，其特征在于在长期时序建模模块后对获得的具有长期时序信息的特征图使用运动激励模块激发运动敏感特征获得运动特征。

7.如权利要求 1 所述的一种动态手势识别模型的构建方法，其特征在于所述 S6 对LAMME-Net网络模型进行训练的策略为：使用 Adam作为优化器，初始学习率为 0.01，迭代25次，学习率在 10、15、20次衰减为原来的 10%，采样帧数为 8，训练批次为 64，并使用ImageNet预训练权重对模型进行初始化。

8.一种离线动态手势识别方法，其特征在于，包括以下步骤：获取动态手势视频；将视频抽取为图像序列，并输入到权利要求 1到 7任意一项所述搭建方法所搭建的动态手势识别网络中；输出识别结果。

9.一种实时动态手势识别方法，其特征在于，包括以下步骤：获取动态手势视频流，以S为间隔将图像帧输入缓冲区，将缓冲区内的图像序列输入权利要求 1到 7任意一项所述的搭建方法搭建的动态手势识别模型中，输出识别结果。