CN116563938A - 基于动态时空卷积的动态手势识别方法 - Google Patents
基于动态时空卷积的动态手势识别方法 Download PDFInfo
- Publication number
- CN116563938A CN116563938A CN202310230599.7A CN202310230599A CN116563938A CN 116563938 A CN116563938 A CN 116563938A CN 202310230599 A CN202310230599 A CN 202310230599A CN 116563938 A CN116563938 A CN 116563938A
- Authority
- CN
- China
- Prior art keywords
- dynamic
- gesture recognition
- dynamic gesture
- convolution
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 230000007774 longterm Effects 0.000 claims description 27
- 230000005284 excitation Effects 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000009825 accumulation Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000035945 sensitivity Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 238000013100 final test Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 6
- 230000009471 action Effects 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 2
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000012014 frustrated Lewis pair Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于动态时空卷积的动态手势识别方法。基于动态时空卷积的动态手势识别方法包括如下步骤:获取包含动态手势的数据集;数据集帧采样;划分数据集;构建动态时空建模模块;构建基于动态时空卷积的手势识别模型;训练基于动态时空卷积的动态手势识别模型;使用训练得到的模型用于动态手势的识别。本发明采用基于动态时空卷积的模型对动态手势进行识别,通过在2D卷积网络上增加具有动态时间建模模块的方式避免了使用3D卷积计算量过高的问题,本发明提出的动态时间建模模块采用动态卷积的方式对完整动作提取时序信息进行建模,同时增加的计算成本很小却可以大幅提高识别准确率。
Description
技术领域
本发明属于计算机视觉中的手势识别领域,涉及一种动态手势识别模型的搭建方法和动态手势识别方法。
背景技术
动态手势作为一种自然的交互方式,在虚拟现实、汽车用户界面、智能家居等领域具有非常重要的意义。基于视觉的手势识别技术因其使用的摄像头易于获取且无需佩戴额外设备的优势,是手势识别研究的重点。随着深度学习的发展基于深度学习的方法已成为当前手势识别领域的主流方法。
基于深度学习的动态手势识别方法有多种,其中一些方法采用 2 维卷积来提取手势的时空特征。例如,Simonyan 等人提出的双流网络(Two-Stream),该网络将 RGB 图像和光流信息作为输入,利用 2 维卷积分别学习空间特征和运动特征。L.Wang 等人提出的时域分割网络(TSN),将每个视频段分割为多个片段,并使用双流网络提取每个片段的时空特征,最后将特征融合得到预测结果,但光流的抽取需要较高的计算成本难以用于实时检测。基于视觉的动态手势识别通常采用视频数据,因此有研究者尝试采用 3 维卷积提取视频的时间和空间信息。Du Tran 等人使用 3×3×3 的小卷积核构建 C3D 模型,性能超过了当时 2D 卷积结构。虽然基于 3D 卷积的模型可以直接处理视频数据,但由于 3D 卷积比2D 卷积多了一个维度,计算成本也呈指数增加。
以上方法中,基于2D卷积的方法时空特征提取不足,存在准确度低的缺点;基于3D 卷积方法参数量过大,在实际应用中存在实时性差的缺点;因此使用在2D卷积网络中插入时空建模模块的方式是一种平衡计算成本和准确度的方法。
发明内容
针对上述问题,本发明提供了一种基于2D卷积的动态手势识别模型的搭建方法,包括以下步骤:
步骤1,获取动态手势视频数据集,在不同的背景下拍摄不同人的的不同手势;
步骤2,对步骤1种获取的数据集进行预处理;首先将视频处理为一帧一帧的图像序列,并通过裁剪将图像调整为固定大小,然后对数据集进行标注,需要标注手势动作的开始帧、结束帧和所属类别,最后将数据集划分为训练集、验证集、测试集;
步骤3,构建具有动态时空建模能力的即插即用模块,首先对考虑全局时序信息,构建长期时序聚合模块LAM,然后考虑短期运动信息,构建运动特征激励模块ME,最后将长期时序聚合模块和短句运动激励模块组合得到具有时空建模能力的即插即用模块LAMME;
具体的来说,长期时序建模模块LAM包括全局时序信息累加和全局时序信息动态聚合,所述全局时序累加,首先使用全局平均池化将输入特征图压缩,然后使用一维卷积抽取全局时间信息,最后包含全局时序信息的特征图和原特征图累加得到包含全局时序信息的特征图;所述全局时序信息聚合,首先使用全局平均池化将特征图压缩,然后使用两个全连接层对全局时序信息动态编码后使用softmax归一化得到动态卷积权重,最后使用2D卷积的方式在经过全局时序累加后的特征图上聚合全局时序信息;
具体的来说,所述运动信息激励,首先使用1×1的2维卷积压缩通道数,然后使用相邻帧之间的特征图相减来模拟运动信息,然后使用1×1的2维卷积还原通道数,接下来使用sigmoid函数计算运动敏感权重,然后使用得到的运动敏感权重乘原输入特征图得到经过运动激励后的特征图;
所述长期时序建模模块和运动激励模块的组合,是将长期时序建模模块和运动激励模块串联得到的组合模块,输入的特征图经过组合模块后特征图就包含了长期时序信息和运动信息。
步骤4,将步骤3种构建的具有时空建模能力的即插即用模块添加到Resnet-50网络中的残差块的1×1卷积后,构建为LAMME-Net网络模型;将步骤2中经过预处理的训练集和验证集输入到LAMME-Net网络模型中;使用ImageNet-1K预训练权重进行参数初始化,将输入的图像序列进行下采样,每个手势视频片段取T帧作为输入,将输入的图像分辨率调整为224×224,网络的最终的输入为N×T×3×224×224,其中N为训练批次大小,T为采样帧数;对LAMME-Net网络模型进行训练,使用学习率多级下降策略提高网络性能,保存验证集准确率最高的模型为最终的测试模型。
本发明第二方面提供了一种离线动态手势识别方法,包括以下步骤:获取动态手势视频;将视频抽取为图像序列,并输入到搭建的动态手势识别网络中;输出识别结果。
本发明第三方面提供了一种实时动态手势识别方法,包括以下步骤:获取动态手势视频流,以S为间隔将帧输入缓冲区,将缓冲区内的图像序列输入搭建的动态手势识别模型中,输出识别结果。
本发明具有以下优点:
与现有技术相比,本发明提供了一种高效的动态手势识别方法,本发明解决了2D卷积网络动态手势识别率较低的问题。在现有的2D识别方法中,本发明提出的方法在EgoGesture公开数据集上得到了94.3%的识别率,且计算成本比第二高的方法更低。
本发明提出的具有时空建模能力的模块LAMME具有即插即用的优点,可以插入到ResNet网络中,或者插入到其它轻量级网络如MobileNet等骨干网络中,并能显著提高原网络的时间建模能力。
本发明使用动态卷积的方式对长期时序信息建模,能够针对不同手势存在的种类、速度等差异进行动态全局时序建模。
本发明通过考虑长期时序和运动信息两个方面得到了LAMME-Net,在进行全局时序建模后使用运动信息激励激发运动敏感通道,通过运动信息激励增强运动敏感信息,有效提升了动态手势识别准确率。
本发明通过使用缓冲区存储输入视频流中的帧,然后将缓冲区中内容输入动态手势识别模型进行识别,最后得到预测结果,有效的实现了实时的动态手势识别。
附图说明
图1为本发明基于2D卷积的动态手势识别的方法的流程示意图
图2为本发明长期时序建模模块LAM结构示意图
图3为本发明运动信息激励模块ME的结构示意图
图4为本发明时空建模模块LAMME的结构示意图
图5为本发明基于2D卷积的动态手势识别的网络结构图
图6为本发明进行离线动态手势识别的流程示意图
图7为本发明进行实时动态手势识别的流程示意图
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例
为了构建动态手势识别网络模型,本发明采用如下技术方案,基于2D卷积的动态手势识别方法,如图1所示,包括如下步骤:
S1:获取动态手势视频数据集
收集在不同背景下不同人的不同手势的视频,使用公开第一人称手势数据集EgoGesture,包含来自 50 个对象在 6 种不同背景下的手势,共有 2081 个视频,24161个手势样本,83 种手势类别;
S2:数据集处理
对S1中获取的数据集进行预处理,首先将视频处理为一帧一帧的图像,然后通过裁剪将图像的分辨率固定调整为320×240,接下来对数据集进行标注,需要标注手势动作的开始帧、结束帧和所属手势类别,生成标注文件;
S3:数据集划分
将数据集按3:1:1的比例划分为训练集、验证集、测试集,共14416个训练样本,4768个验证样本,4977个测试样本;
S4:构建具有时空建模能力的即插即用模块
构建具有时空建模能力的即插即用模块,首先先考虑长期时序信息,构建长期时序聚合模块LAM,使用全局池化压缩特征图,然后使用一维卷积提取全局特征信息,将提取的全局特征信息和原始特征图进行累加,使用两个全连接层对全局信息进行编码,使用softmax归一化生成卷积权重,使用生成的卷积权重进行卷积聚合长期时序信息;然后考虑运动信息,构建运动激励模块ME,使用特征图之间的差模拟运动信息,然后使用sigmoid归一化生成激励权重,使用激励权重和原特征图相乘获得经过运动激励后特征图;接下来将LAM模块和ME组合起来构成具有时空建模能力的LAMME模块;
S5:构建基于2D卷积的动态手势识别模型
采用Resnet50网络作为原始网络,Resent50网络包括1个预处理层、4个Block、1个平均池化层、1个全连接层和1个softmax 层,将S4中构建的LAMME模块插入到每个Block的1×1卷积后,得到LAMME-Net网络模型;
S6:训练基于2D卷积的动态手势识别模型
将S2和S3中经过预处理后的训练集和验证集输入到S5中构建的LAMME-Net网络模型中,首先使用ImageNet预训练权重进行参数初始化,将输入的图像序列进行下采样,每个视频片段取T帧作为输入,将输入的图像分辨率调整为224×224,网络的最终的输入为N×T×3×224×224,其中N为训练批次大小,T为采样帧数;对LAMME-Net网络模型进行训练,使用Adam作为优化器,初始学习率为0.01,迭代25次,学习率在10、15、20次衰减为原来的10%,采样帧数为8,训练批次为64,并使用ImageNet预训练权重对模型进行初始化,保存验证集准确率最高的模型为最终的识别模型。
S7:动态手势识别
使用S6中得到的模型进行动态手势识别,本发明在大规模手势识别数据集EgoGesture上,把LAMME-Net和其它方法进行了比较。表1比较了不同手势识别方法的准确性,其中FLOPs衡量模型所需要的计算量,FLOPs越小模型所需计算量越小,速度越快,本发明提出的LAMME-Net以较小的计算量取得了最高的识别准确率。
表1 与其它方法的对比
方法 | 骨干网络 | FLOPs | Top-1准确率 |
TSN | Resnet-50 | 33G | 83.1 |
TSM | Resnet-50 | 33G | 92.1 |
TAM | Resnet-50 | 33.06G | 93.5 |
ACTION-Net | Resnet-50 | 34.75G | 94.2 |
LAMME-Net | Resnet-50 | 33.2G | 94.3 |
实施例
如图4所示,本发明的时空建模模块LAMME包括长期时序建模模块LAM和运动信息激励ME两部分,LAM和ME使用串联的方式组合到一起。
LAM模块用于长期时序建模,先对全局信息进行增强,使用全局池化压缩特征图,然后使用一维卷积提取全局特征信息,将提取的全局特征信息和原始特征图进行累加就得到了全局信息增强后的特征图;然后聚合长期时序信息,使用两个全连接层对全局信息进行编码,使用softmax归一化生成卷积权重,最后使用生成的卷积权重进行卷积聚合长期时序信息,LAM模块的结构如图2所示。
ME模块用于激发运动敏感通道,使用特征图之间的差模拟运动信息,然后使用sigmoid归一化生成激励权重,使用激励权重和原特征图相乘获得经过运动激励后特征图,ME模块的结构如图3所示。
LAMME模块由LAM和ME模块串联得到,LAMME模块的结构图如图4所示。
表2使用消融实验证明了本发明提出的LAM和ME模块的有效性,在2D卷积网络TSN上添加LAM模块后在测试集上取得了93.8%的准确率,而在LAM和ME模块组合到一起后达到了94.3%的准确率。
表2 消融实验
模型 | Top-1准确率 | 参数量 | 浮点计算量 |
TSN | 83.1% | 23.67M | 33.05G |
ME | 89.8% | 23.83M | 33.22G |
LAM | 93.8% | 24.94M | 33.07G |
LAMME | 94.3% | 25.11M | 33.24G |
实施例
动态手势识别可分为离线动态手势识别和实时动态手势识别。其中离线动态手势识别流程如图6所示,将视频抽取为图像序列,然后输入到动态手势识别网络中,最后输出识别结果,我们使用EgoGesture数据集的测试集进行识别准确率达到了94.3%;实时手势识别流程如图7所示,首先获取动态手势视频流,每隔S帧将图像帧存入缓冲区,然后将缓冲区内的图像序列输入到动态手势识别模型中,若预测置信度大于设置的阈值则输出识别结果,经测试在移动端的RTX 3050显卡上完成一次识别平均只需要53毫秒,证明本发明提出的方法可以很好用于实时的动态手势识别。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。本说明书中未作详细描述的部分属于本领域专业技术人员公知的现有技术。
Claims (9)
1.一种动态手势识别模型的构建方法,其特征在于,包括以下步骤:
S1:获取动态手势视频数据集收集在不同背景下不同人的不同手势的视频;
S2:数据集帧采样对 S1中获取的数据集进行预处理,首先将视频处理为一帧一帧的图像,然后通过裁剪将图像调整为固定大小,接下来对数据集进行标注,需要标注手势动作的开始帧、结束帧和所属手势类别;
S3:数据集划分将数据集按 3:1:1的比例划分为训练集、验证集、测试集;
S4:构建具有时空建模能力的动态时空建模模块构建具有时空建模能力的模块,首先先考虑长期时序信息,由构建长期时序聚合模块 LAM,使用全局池化压缩特征图,然后使用一维卷积提取全局特征信息,将提取的全局特征信息和原始特征图进行累加,使用两个全连接层对全局信息进行动态编码,使用 softmax归一化生成卷积权重,使用生成的卷积权重进行卷积聚合长期时序信息;然后考虑运动信息,构建运动激励模块 ME,使用特征图之间的差模拟运动信息,然后使用 sigmoid归一化生成激励权重,使用激励权重和原特征图相乘获得经过运动激励后特征图;接下来将 LAM模块和 ME组合起来构成具有时空建模能力的 LAMME模块;
S5:构建基于动态时空卷积的动态手势识别模型采用 Resnet50网络作为原始网络,Resent50网络包括 1个预处理层、4个 Block、1个平均池化层、1个全连接层和 1个softmax 层,将 S4中构建的 LAMME模块插入到每个 Block的 1×1卷积后,得到 LAMME-Net网络模型;
S6:训练基于动态时空卷积的动态手势识别模型将 S2和 S3中经过预处理后的训练集和验证集输入到 S5中构建的 LAMME-Net网络模型中,首先使用 ImageNet预训练权重进行参数初始化,将输入的图像序列进行下采样,每个视频片段取 T 帧作为输入,将输入的图像分辨率调整为 224×224,网络的最终的输入为N×T×3×224×224,其中 N为训练批次大小,T为采样帧数;对 LAMME-Net网络模型进行训练,使用学习率多级下降策略提高训练得到的模型性能,保存验证集准确率最高的模型为最终的测试模型;
S7:动态手势识别,使用 S6中得到的模型进行动态手势识别,可分为离线动态手势识别和实时动态手势识别。其中离线动态手势识别将视频抽取为图像序列,然后输入到动态手势识别网络中,最后输出识别结果;实时手势识别获取动态手势视频流,每隔 S帧将图像帧存入缓冲区,然后将缓冲区内的图像序列输入到动态手势识别模型中,最后输出识别结果。
2.如权利要求 1所示的一种动态手势识别网络模型的搭建方法,其特征在于:所述长期时序建模模块 LAM包括全局时序信息累加和全局时序信息动态聚合;所述全局时序累加,首先使用全局平均池化将输入特征图压缩,然后使用一维卷积抽取全局时间信息,最后包含全局时序信息的特征图和原特征图累加得到包含全局时序信息的特征图;所述全局时序信息动态聚合,首先使用全局平均池化将特征图压缩,然后使用两个全连接层对全局时序信息编码后使用 softmax归一化得到动态卷积权重,最后使用 2D卷积的方式在经过全局时序累加后的特征图上聚合全局时序信息。
3.如权利要求 1所示的一种动态手势识别网络模型的搭建方法,其特征在于所述运动信息激励,首先使用 1×1的 2维卷积压缩通道数,然后使用相邻帧之间的特征图相减来模拟运动信息,然后使用 1×1的 2维卷积还原通道数,接下来使用 sigmoid函数计算运动敏感权重,然后使用得到的运动敏感权重乘原输入特征图得到经过运动激励后的特征图;所述长期时序建模模块和运动激励模块的组合,是将长期时序建模模块和运动激励模块串联得到的组合模块,输入的特征图经过组合模块后特征图就包含了长期时序信息和运动信息。
4.如权利要求 1所述的一种动态手势识别模型的构建方法,其特征在于使用全局平均池化和一维卷积累加增强长期时序信息。
5.如权利要求 1所述的一种动态手势识别模型的构建方法,其特征在于使用全连接层对长期时序信息编码后使用 softmax归一化生成动态卷积权重,然后卷积的方式聚合长期时序特征。
6.如权利要求 1所述的一种动态手势识别模型的构建方法,其特征在于在长期时序建模模块后对获得的具有长期时序信息的特征图使用运动激励模块激发运动敏感特征获得运动特征。
7.如权利要求 1 所述的一种动态手势识别模型的构建方法,其特征在于所述 S6 对LAMME-Net网络模型进行训练的策略为:使用 Adam作为优化器,初始学习率为 0.01,迭代25次,学习率在 10、15、20次衰减为原来的 10%,采样帧数为 8,训练批次为 64,并使用ImageNet预训练权重对模型进行初始化。
8.一种离线动态手势识别方法,其特征在于,包括以下步骤:获取动态手势视频;将视频抽取为图像序列,并输入到权利要求 1到 7任意一项所述搭建方法所搭建的动态手势识别网络中;输出识别结果。
9.一种实时动态手势识别方法,其特征在于,包括以下步骤:获取动态手势视频流,以S为间隔将图像帧输入缓冲区,将缓冲区内的图像序列输入权利要求 1到 7任意一项所述的搭建方法搭建的动态手势识别模型中,输出识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310230599.7A CN116563938A (zh) | 2023-03-11 | 2023-03-11 | 基于动态时空卷积的动态手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310230599.7A CN116563938A (zh) | 2023-03-11 | 2023-03-11 | 基于动态时空卷积的动态手势识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563938A true CN116563938A (zh) | 2023-08-08 |
Family
ID=87492231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310230599.7A Pending CN116563938A (zh) | 2023-03-11 | 2023-03-11 | 基于动态时空卷积的动态手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563938A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117111530A (zh) * | 2023-09-27 | 2023-11-24 | 浙江加力仓储设备股份有限公司 | 通过手势的搬运车智能控制系统及其方法 |
-
2023
- 2023-03-11 CN CN202310230599.7A patent/CN116563938A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117111530A (zh) * | 2023-09-27 | 2023-11-24 | 浙江加力仓储设备股份有限公司 | 通过手势的搬运车智能控制系统及其方法 |
CN117111530B (zh) * | 2023-09-27 | 2024-05-03 | 浙江加力仓储设备股份有限公司 | 通过手势的搬运车智能控制系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
CN113239869B (zh) | 基于关键帧序列和行为信息的两阶段行为识别方法及系统 | |
CN111626245A (zh) | 一种基于视频关键帧的人体行为识别方法 | |
CN109871749B (zh) | 一种基于深度哈希的行人重识别方法和装置、计算机系统 | |
CN113870286B (zh) | 一种基于多级特征和掩码融合的前景分割方法 | |
CN109948721A (zh) | 一种基于视频描述的视频场景分类方法 | |
CN113255616B (zh) | 一种基于深度学习的视频行为识别方法 | |
CN110738103A (zh) | 活体检测方法、装置、计算机设备和存储介质 | |
CN109635822A (zh) | 基于深度学习编码译码网络的立体图像视觉显著提取方法 | |
CN115063326B (zh) | 基于图像压缩的红外夜视图像高效通讯方法 | |
CN116563938A (zh) | 基于动态时空卷积的动态手势识别方法 | |
CN111008570B (zh) | 一种基于压缩-激励伪三维网络的视频理解方法 | |
CN114373194A (zh) | 基于关键帧与注意力机制的人体行为识别方法 | |
CN117292313A (zh) | 一种基于改进YOLOv7模型的小目标漂浮垃圾检测方法 | |
CN115937693A (zh) | 一种基于遥感图像的道路识别方法及系统 | |
CN112818958B (zh) | 动作识别方法、装置及存储介质 | |
CN111209886B (zh) | 一种基于深度神经网络的快速行人再识别方法 | |
CN112766179A (zh) | 一种基于运动特征混合深度网络的火灾烟雾检测方法 | |
CN116798123A (zh) | 一种个性化联邦学习下的视频行为识别方法 | |
CN116740808A (zh) | 基于深度学习目标检测和图像分类的动物行为识别方法 | |
CN113450824B (zh) | 一种基于多尺度视频特征融合的语音唇读方法及系统 | |
CN115272660A (zh) | 一种基于双流神经网络的唇语识别方法及系统 | |
CN113723271A (zh) | 一种基于时空注意力模块的行为识别模型优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |