CN109961005B - 一种基于二维卷积网络的动态手势识别方法及系统 - Google Patents
一种基于二维卷积网络的动态手势识别方法及系统 Download PDFInfo
- Publication number
- CN109961005B CN109961005B CN201910079917.8A CN201910079917A CN109961005B CN 109961005 B CN109961005 B CN 109961005B CN 201910079917 A CN201910079917 A CN 201910079917A CN 109961005 B CN109961005 B CN 109961005B
- Authority
- CN
- China
- Prior art keywords
- actual
- image
- frame
- video
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 80
- 238000005070 sampling Methods 0.000 claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims abstract description 44
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000009432 framing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 41
- 238000011176 pooling Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000009471 action Effects 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
本公开公开了一种基于二维卷积网络的动态手势识别方法及系统,包括:采集实际动态手势视频,对视频进行分帧处理;对分帧后的实际图像进行帧抽样;对帧抽样后的实际图像进行编码得到实际图像的实际特征向量;对实际特征向量进行融合得到实际特征矩阵;将实际特征矩阵输入到训练好的二维卷积神经网络中,输出手势识别结果。其通过将源视频流处理成一帧图像并将其送入二维卷积网络,得到手势动作的分类结果。视频生成的图像同时含有该视频的空间特征信息和时序信息。该方法有效的降低了手势识别的计算复杂度。
Description
技术领域
本公开涉及一种基于二维卷积网络的动态手势识别方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
手势可以说是人类除了语言外的另一重要的交流工具,其包含着丰富的语义信息,应用广泛,如人机交互、增强现实、情感计算,手语识别等领域。最初的手势识别主要是利用穿戴设备,直接检测手、胳膊各关节的角度和空间位置。这些设备多是通过有线技术将计算机系统与用户相互连接,使用户的手势信息完整无误地传送至识别系统中,其典型设备如数据手套等,由于设备的依赖导致其实用性(舒适性、安全性)和易用性较差,近些年来人们越来越关注无需碰触设备即可识别手势动作的基于视觉的手势识别技术。
手势识别技术,可以分为静态手势识别和动态手势识别两种。静态手势只能识别手势的“状态”,而不能感知手势的“持续变化”。比如手处于“握拳”状态就可以被正确识别,但是手掌由左向右滑动这种语义动作是无法被正确识别的。动态手势识别方法由于可以获取动作的时序信息,因此可以处理更为复杂的手势,有着更为广阔的应用前景
深度学习方法在图像分类、检测和分割等方面的大量应用都表明了其能显著提升视觉任务中的性能表现。相对于图像任务,视频理解需要额外处理时序信息,通过深度学习的特征提取能力,可以很好的融合视频的空间特征和时序特征。同时传统方法如隐马尔可夫模型等需要人工设计若干个特征描述子,这无疑增大了识别任务的难度。
发明内容
为了解决现有技术的不足,本公开提供了一种基于二维卷积网络的动态手势识别方法及系统,其通过将源视频流处理成一帧图像并将其送入二维卷积网络,得到手势动作的分类结果。视频生成的图像同时含有该视频的空间特征信息和时序信息。该方法有效的降低了手势识别的计算复杂度。
第一方面,本公开提供了一种基于二维卷积网络的动态手势识别方法;
一种基于二维卷积网络的动态手势识别方法,包括:
采集实际动态手势视频,对视频进行分帧处理;对分帧后的实际图像进行帧抽样;
对帧抽样后的实际图像进行编码得到实际图像的实际特征向量;
对实际特征向量进行融合得到实际特征矩阵;
将实际特征矩阵输入到训练好的二维卷积神经网络中,输出手势识别结果。
作为一种可能的实现方式,所述对分帧后的实际图像进行帧抽样的具体步骤为:
对视频进行分帧处理后,得到若干帧图像;
按照时间顺序,将所述若干帧图像划分为K个视频段,每个视频段中均包括N帧图像;
然后,对每个视频段均抽取i帧图像;最后得到抽样后的图像序列。
上述技术方案的有益效果是,通过帧抽样,可以降低手势动作的特征冗余度,降低计算量,提高识别的精度。
作为一种可能的实现方式,所述对每个视频段均抽取i帧图像所采取的方式包括下列方式中的至少一种方式:
(A1)固定抽样:对于每一个视频段,只抽取该视频段的第n帧图像;
(A2)随机抽样:对于每一个视频段,随机抽取该视频段的某一帧图像;
(A3)关键帧抽样:对于每一个视频段,识别或指定关键帧,并且只抽取该视频段的关键帧图像。
随机抽样的有益效果是,当一次训练结束后,再次采取随机抽样对二维卷积神经网络进行训练,第N次训练所使用的图像有很大概率与在先训练所使用的图像不同,这样对二维卷积神经网络的训练会更加全面,因为随机抽样一定程度上相当于对训练数据进行了扩增。
关键帧抽样的有益效果是,可以提升识别的精度,因为抽取的是关键帧图像,关键帧图像相比其余帧图像更具有代表性,其特征信息量也与其余帧图像多。
作为一种可能的实现方式,所述对帧抽样后的实际图像进行编码得到实际图像的实际特征向量的方法包括下列方法中的至少一种方法:
(B1)对抽样得到的每一帧图像进行图像压缩,然后对压缩后的图像进行向量拉伸,得到图像的一维向量;所述向量拉伸,是将第i+1行的首元素连接在第i行的尾元素之后;
(B2)对抽样得到的每一帧图像采用卷积神经网络进行特征提取,得到图像的一维向量。
向量拉伸得到图像一维向量的有益效果是,对于小数据集,复杂度低。
采用卷积神经网络进行特征提取的有益效果是,特征提取能力更强。
作为一种可能的实现方式,所述对实际特征向量进行融合得到实际特征矩阵的具体步骤为:
将编码得到的图像的一维向量进行向量拼接,得到融合后的实际特征矩阵;
在拼接的过程中,每个一维向量均作为实际特征矩阵的行向量;按照图像帧的时间顺序对所有的一维向量进行排序,将排序后的所有一维特征向量依次作为实际特征矩阵的行向量后,就得到一个完整的实际特征矩阵。
向量拼接的有益效果是:实际特征矩阵的行向量代表视频中某一帧的空间信息;实际特征矩阵的列向量代表视频中的时序信息;实际特征矩阵同时包括了原视频的空间信息和时序信息。
作为一种可能的实现方式,二维卷积神经网络的结构,包括:
依次连接的输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一全连接层和第二全连接层;
所述第一卷积层的通道数为64,第一卷积层的卷积核尺寸为3*7;
所述第一池化层的类型为Max-Pooling,第一池化层的尺寸为2*2;
所述第二卷积层的通道数为64,第二卷积层的卷积核尺寸为3*5;
所述第二池化层的类型为Max-Pooling,第二池化层的尺寸为2*2;
所述第三卷积层的通道数为64,第三卷积层的卷积核尺寸为3*3;
所述第三池化层的类型为Max-Pooling,第三池化层的尺寸为2*2;
第一全连接层的神经元个数为512个;
第二全连接层的神经元个数为设定分类个数。
作为一种可能的实现方式,二维卷积神经网络的训练过程,具体包括:
采集训练动态手势视频,对视频进行分帧处理;对分帧后的训练图像进行帧抽样;
对帧抽样后的训练图像进行编码得到训练图像的训练特征向量;
对训练特征向量进行融合得到训练特征矩阵;
将训练特征矩阵输入到二维卷积神经网络中进行训练,得到训练好的二维卷积神经网络。
准备训练动态手势视频时,对视频进行分帧处理;对分帧后的训练图像进行帧抽样,将每个原视频等间隔抽取图像帧;假定原视频P,总帧数为L,设定抽取的帧数为N;
当L>N时,采用等间隔采样的方式抽取N帧图像;
当L<N时,将从L中随机选择N-L帧图像进行复制,且复制后的图像帧排列在对应的被复制图像帧之后,这样就得到了N帧图像。
因此,在申请实施例中,其通过将源视频流处理成一帧图像并将其送入二维卷积网络,得到手势动作的分类结果。视频生成的图像同时含有该视频的空间特征信息和时序信息。该方法有效的降低了手势识别的计算复杂度。
第二方面,本公开还提供了一种基于二维卷积网络的动态手势识别系统;
一种基于二维卷积网络的动态手势识别系统,包括:
帧抽样模块,采集实际动态手势视频,对视频进行分帧处理;对分帧后的实际图像进行帧抽样;
图像编码模块,对帧抽样后的实际图像进行编码得到实际图像的实际特征向量;
特征向量融合模块,对实际特征向量进行融合得到实际特征矩阵;
手势识别模块,将实际特征矩阵输入到训练好的二维卷积神经网络中,输出手势识别结果。
因此,在申请实施例中,其通过将源视频流处理成一帧图像并将其送入二维卷积网络,得到手势动作的分类结果。视频生成的图像同时含有该视频的空间特征信息和时序信息。该方法有效的降低了手势识别的计算复杂度。
第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面任一可能的实现方式中的方法。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面任一可能的实现方式中方法的步骤。
与现有技术相比,本公开的有益效果是:
通过帧抽样,可以降低手势动作的特征冗余度,降低计算量,提高识别的精度。
随机抽样的有益效果是,当一次训练结束后,再次采取随机抽样对二维卷积神经网络进行训练,第N次训练所使用的图像有很大概率与在先训练所使用的图像不同,这样对二维卷积神经网络的训练会更加全面,因为随机抽样一定程度上相当于对训练数据进行了扩增。
关键帧抽样的有益效果是,可以提升识别的精度,因为抽取的是关键帧图像,关键帧图像相比其余帧图像更具有代表性,其特征信息量也与其余帧图像多。
向量拉伸得到图像一维向量的有益效果是,对于小数据集,复杂度低。
采用卷积神经网络进行特征提取的有益效果是,特征提取能力更强。
向量拼接的有益效果是:实际特征矩阵的行向量代表视频中某一帧的空间信息;实际特征矩阵的列向量代表视频中的时序信息;实际特征矩阵同时包括了原视频的空间信息和时序信息。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为一个或多个实施方式的流程图;
图2为一个或多个实施方式的矩阵结构图;
图3为一个或多个实施方式的流程图;
图4为一个或多个实施方式的系统功能模块图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1:
如图1和图3所示,设定输入为一段视频序列W
S1帧抽样
由于视频的连续性导致相邻若干帧之间差异性较小,如果不对视频序列进行帧采样,那么最终得到的动作特征冗余度会过高,而这将会增大计算量和降低识别的精度。
对于输入的视频序列W,我们对其进行等分为K段:{S1,S2,S3,...,SK}。这K个视频段有着相同帧数的图像。然后我们对每一个视频段Sk,k=1,2,...,K从中以某种方式抽取一帧图像,记为Tk,注意Sk和Tk是一一对应的。通过帧采样,我们将抽样后的图像序列{T1,T2,T3,...,TK}来代表原视频V。这样就大大减少了计算量,同时在一定程度上增强了对长时动作的建模能力。
关于帧抽取的方式,可以有多种方式:
(A1)固定抽样
对于某个视频段Sk,只抽取该视频段的第n帧,注意,n值一旦确定,那么对于所有视频段n都是相同的。
(A2)随机抽样
对于某个视频段Sk,随机地抽取该视频段中某一帧。随机抽样在一定程度上相当于进行了训练数据的增扩,因为每次所有训练数据均已参与训练后我们都将重新进行一次随机抽样,而对于某个视频段来说,不同次随机采样的图像帧有较大概率是不同的。
(A3)关键帧
无论是固定抽样还是随机抽样,我们都已经隐式地认为抽取的图像对于识别都是同等的重要的。关键帧技术则是将某个视频段中最具代表性的图像帧抽取出来,这无疑可以提升识别任务的精度,但同时意味需要提前进行部分计算来提取关键帧。
根据不同的系统需要,采取不同的帧采样方式。如果对总体的计算量较为敏感,帧采样采取随机采样的方式即可,否则使用关键帧抽取技术,进一步提升识别精度。
S2编码
对于帧采样过程得到的图像序列{T1,T2,T3,...,TK},我们对其中的每一张图像Tk都进行编码,得到特征向量Vk,注意Vk和Tk也是一一对应的关系。特征向量Vk代表着图像Tk的空间信息,同时经过编码得到的该向量将会是一维向量。
对于编码的方式也可采取多种不同的方式
(B1)图像拉伸
在本发明的实施例中,可选地,首先对图像Tk调整大小得到T′k,缩小图像尺寸有利于降低计算量。然后将压缩后的图像T′k进行向量拉伸,即把第i+1行的首元素连接在第i行的尾元素之后,这样我们就得到了一维向量Vk。假定视频帧尺寸为120×150,则将该图像压缩至25×25,再经过矩阵拉伸后得到尺寸为625的一维向量
(B2)卷积网络
在本发明的实施例中,可选地,对于图像Tk,使用较浅的卷积网络进行特征提取。可以采用三层卷积层再加一层全连接层的结构,其中卷积核均为3*3大小。全连接层的目的是得到一维向量。
通过卷积网络进行编码的方式相对于简单的图像拉伸,其空间特征提取能力更强,但由于模型的复杂度大,适用于大数据集训练,否则网络有过拟合风险。对于小数据集,简单的图像拉伸操作已经足够。
S3特征连接
对于编码步骤中得到的一系列特征{V1,V2,V3,...,VK},我们将其进行连接为一帧图像X。
如图2所示,该图像X每一行为特征向量Vk,由于与原视频W抽样后的图像Tk是一一对应的,故从行方向看,图像X每一行都代表了视频中某一帧的空间信息;同时,由于特征向量的叠加,从列方向看,图像X则包含了视频的时序信息。
因此经过特征连接后,生成的图像X同时具有原视频的空间信息和时序信息。
S4卷积网络的构建
对于特征连接得到的图像X,我们将其送入一个二维卷积网络。假定X的空间维度为64×625,则该卷积网络有三层卷积层和两层全连接层。与此同时,每一层卷积层后都连接一个ReLU激活层和一个Pooling池化层。
由于图像X高和宽的差距较大,我们对于每个卷积层的卷积核都设定了不同的尺寸。其中,第一层卷积层的卷积核尺寸为3×7;第二层卷积层的卷积核尺寸为3×5;第三层卷积层的卷积核尺寸为3×3。我们对于所有的池化层都采用了相同的参数设置:采用Max-Pooling,尺寸为2×2。对于最后的两个全连接层,第一层神经元个数设定为512,第二层神经元个数设定为识别任务的类别总数。
表1
输入 | 64×625 |
卷积层1 | 通道数:64;卷积核尺寸:3×7 |
池化层1 | 类型:Max;尺寸:2×2 |
卷积层2 | 通道数:64;卷积核尺寸:3×5 |
池化层2 | 类型:Max;尺寸:2×2 |
卷积层3 | 通道数:64;卷积核尺寸:3×3 |
池化层3 | 类型:Max;尺寸:2×2 |
全连接层1 | 512 |
全连接层2 | 分类个数 |
S5卷积网络的训练
深度卷积网络的训练往往会出现过拟合现象,为此我们采用了多种技术来降低过拟合风险从而提升算法的识别精度:1)批归一化;2)Dropout;3)数据扩增。
准备训练所需数据集时,现将每个原视频等间隔抽取图像帧。假定源视频P,总帧数为L,设定的需要抽取的帧数为N。那么当L>N时,我们采用等间隔采样的方式抽取N帧图像;当L<N时,我们将从L中随机选择N-L帧图像进行复制,且复制后的图像帧排列在对应的被复制图像帧之后。这N帧图像组成了此算法的输入视频W。
实施例2:如图4所示,
一种基于二维卷积网络的动态手势识别系统,包括:
帧抽样模块,采集实际动态手势视频,对视频进行分帧处理;对分帧后的实际图像进行帧抽样;
图像编码模块,对帧抽样后的实际图像进行编码得到实际图像的实际特征向量;
特征向量融合模块,对实际特征向量进行融合得到实际特征矩阵;
手势识别模块,将实际特征矩阵输入到训练好的二维卷积神经网络中,输出手势识别结果。
因此,在申请实施例中,其通过将源视频流处理成一帧图像并将其送入二维卷积网络,得到手势动作的分类结果。视频生成的图像同时含有该视频的空间特征信息和时序信息。该方法有效的降低了手势识别的计算复杂度。
实施例3:
本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成方法中的各个操作,为了简洁,在此不再赘述。
应理解,在本公开中,该处理器可以是中央处理单元CPU,该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外一点,所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种基于二维卷积网络的动态手势识别方法,其特征是,包括:
采集实际动态手势视频,对视频进行分帧处理;对分帧后的实际图像进行帧抽样;
对帧抽样后的实际图像进行编码得到实际图像的实际特征向量;
所述对帧抽样后的实际图像进行编码得到实际图像的实际特征向量的方法包括:对抽样得到的每一帧图像进行图像压缩,然后对压缩后的图像进行向量拉伸,得到图像的一维向量;所述向量拉伸,是将第i+1行的首元素连接在第i行的尾元素之后;
对实际特征向量进行融合得到实际特征矩阵;
所述对实际特征向量进行融合得到实际特征矩阵的具体步骤为:
将编码得到的图像的一维向量进行向量拼接,得到融合后的实际特征矩阵;
在拼接的过程中,每个一维向量均作为实际特征矩阵的行向量;按照图像帧的时间顺序对所有的一维向量进行排序,将排序后的所有一维特征向量依次作为实际特征矩阵的行向量后,就得到一个完整的实际特征矩阵;
实际特征矩阵同时包括了原视频的空间信息和时序信息,实际特征矩阵的行向量代表视频中某一帧的空间信息,实际特征矩阵的列向量代表视频中的时序信息;
将实际特征矩阵输入到训练好的二维卷积神经网络中,输出手势识别结果。
2.如权利要求1所述的方法,其特征是,所述对分帧后的实际图像进行帧抽样的具体步骤为:
对视频进行分帧处理后,得到若干帧图像;
按照时间顺序,将所述若干帧图像划分为K个视频段,每个视频段中均包括N帧图像;
然后,对每个视频段均抽取i帧图像;最后得到抽样后的图像序列。
3.如权利要求2所述的方法,其特征是,所述对每个视频段均抽取i帧图像所采取的方式包括下列方式中的至少一种方式:
(A1)固定抽样:对于每一个视频段,只抽取该视频段的第n帧图像;
(A2)随机抽样:对于每一个视频段,随机抽取该视频段的某一帧图像;
(A3)关键帧抽样:对于每一个视频段,识别或指定关键帧,并且只抽取该视频段的关键帧图像。
4.如权利要求1所述的方法,其特征是,所述对帧抽样后的实际图像进行编码得到实际图像的实际特征向量的方法还包括:
对抽样得到的每一帧图像采用卷积神经网络进行特征提取,得到图像的一维向量。
5.如权利要求1所述的方法,其特征是,二维卷积神经网络的结构,包括:
依次连接的输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一全连接层和第二全连接层;
所述第一卷积层的通道数为64,第一卷积层的卷积核尺寸为3*7;
所述第一池化层的类型为Max-Pooling,第一池化层的尺寸为2*2;
所述第二卷积层的通道数为64,第二卷积层的卷积核尺寸为3*5;
所述第二池化层的类型为Max-Pooling,第二池化层的尺寸为2*2;
所述第三卷积层的通道数为64,第三卷积层的卷积核尺寸为3*3;
所述第三池化层的类型为Max-Pooling,第三池化层的尺寸为2*2;
第一全连接层的神经元个数为512个;
第二全连接层的神经元个数为设定分类个数。
6.如权利要求1所述的方法,其特征是,二维卷积神经网络的训练过程,具体包括:
采集训练动态手势视频,对视频进行分帧处理;对分帧后的训练图像进行帧抽样;
对帧抽样后的训练图像进行编码得到训练图像的训练特征向量;
对训练特征向量进行融合得到训练特征矩阵;
将训练特征矩阵输入到二维卷积神经网络中进行训练,得到训练好的二维卷积神经网络;
准备训练动态手势视频时,对视频进行分帧处理;对分帧后的训练图像进行帧抽样,将每个原视频等间隔抽取图像帧;假定原视频P,总帧数为L,设定抽取的帧数为N;
当L>N时,采用等间隔采样的方式抽取N帧图像;
当L<N时,将从L中随机选择N-L帧图像进行复制,且复制后的图像帧排列在对应的被复制图像帧之后,这样就得到了N帧图像。
7.一种基于二维卷积网络的动态手势识别系统,其特征是,包括:
帧抽样模块,采集实际动态手势视频,对视频进行分帧处理;对分帧后的实际图像进行帧抽样;
图像编码模块,对帧抽样后的实际图像进行编码得到实际图像的实际特征向量;
所述对帧抽样后的实际图像进行编码得到实际图像的实际特征向量的方法包括:对抽样得到的每一帧图像进行图像压缩,然后对压缩后的图像进行向量拉伸,得到图像的一维向量;所述向量拉伸,是将第i+1行的首元素连接在第i行的尾元素之后;
特征向量融合模块,对实际特征向量进行融合得到实际特征矩阵;
所述对实际特征向量进行融合得到实际特征矩阵的具体步骤为:
将编码得到的图像的一维向量进行向量拼接,得到融合后的实际特征矩阵;
在拼接的过程中,每个一维向量均作为实际特征矩阵的行向量;按照图像帧的时间顺序对所有的一维向量进行排序,将排序后的所有一维特征向量依次作为实际特征矩阵的行向量后,就得到一个完整的实际特征矩阵;
实际特征矩阵同时包括了原视频的空间信息和时序信息,实际特征矩阵的行向量代表视频中某一帧的空间信息,实际特征矩阵的列向量代表视频中的时序信息;
手势识别模块,将实际特征矩阵输入到训练好的二维卷积神经网络中,输出手势识别结果。
8.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-6任一项方法所述的步骤。
9.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-6任一项方法所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910079917.8A CN109961005B (zh) | 2019-01-28 | 2019-01-28 | 一种基于二维卷积网络的动态手势识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910079917.8A CN109961005B (zh) | 2019-01-28 | 2019-01-28 | 一种基于二维卷积网络的动态手势识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109961005A CN109961005A (zh) | 2019-07-02 |
CN109961005B true CN109961005B (zh) | 2021-08-31 |
Family
ID=67023521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910079917.8A Active CN109961005B (zh) | 2019-01-28 | 2019-01-28 | 一种基于二维卷积网络的动态手势识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109961005B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263868A (zh) * | 2019-06-24 | 2019-09-20 | 北京航空航天大学 | 基于SuperPoint特征的图像分类网络 |
CN110472531B (zh) * | 2019-07-29 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN110458059B (zh) * | 2019-07-30 | 2022-02-08 | 北京科技大学 | 一种基于计算机视觉的手势识别方法及识别装置 |
CN110794959A (zh) * | 2019-09-25 | 2020-02-14 | 苏州联游信息技术有限公司 | 一种基于图像识别的手势交互ar投影方法及装置 |
CN111178142A (zh) * | 2019-12-05 | 2020-05-19 | 浙江大学 | 一种基于时空上下文学习的手部姿态估计方法 |
CN113536864B (zh) * | 2020-04-22 | 2023-12-01 | 深圳市优必选科技股份有限公司 | 手势识别方法、装置、计算机可读存储介质及终端设备 |
CN112016423B (zh) * | 2020-08-20 | 2024-06-18 | 浙江大华技术股份有限公司 | 车辆车门状态的识别方法、装置、设备及计算机存储介质 |
CN112001324B (zh) * | 2020-08-25 | 2024-04-05 | 北京影谱科技股份有限公司 | 篮球比赛视频的球员动作识别方法、装置和设备 |
CN112100075B (zh) * | 2020-09-24 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 一种用户界面回放方法、装置、设备及存储介质 |
CN114756115A (zh) * | 2020-12-28 | 2022-07-15 | 阿里巴巴集团控股有限公司 | 交互控制方法、装置及设备 |
CN112818936B (zh) * | 2021-03-02 | 2022-12-09 | 成都视海芯图微电子有限公司 | 一种连续手势的快速识别分类方法及系统 |
CN115131871A (zh) * | 2021-03-25 | 2022-09-30 | 华为技术有限公司 | 一种手势识别系统、方法及计算设备 |
CN113011395B (zh) * | 2021-04-26 | 2023-09-01 | 深圳市优必选科技股份有限公司 | 一种单阶段动态位姿识别方法、装置和终端设备 |
CN113569811A (zh) * | 2021-08-30 | 2021-10-29 | 创泽智能机器人集团股份有限公司 | 一种行为识别方法及相关装置 |
CN114373221B (zh) * | 2021-12-03 | 2024-09-17 | 南京信息工程大学 | 一种融合几何结构特征图的手语识别方法、系统、装置及存储介质 |
CN114202732B (zh) * | 2022-02-15 | 2022-05-10 | 南京甄视智能科技有限公司 | 视频行为分类方法、模型训练方法、装置、介质及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103716685A (zh) * | 2014-01-09 | 2014-04-09 | 福建网龙计算机网络信息技术有限公司 | 图标识别系统、服务器和方法 |
CN104598915A (zh) * | 2014-01-24 | 2015-05-06 | 深圳奥比中光科技有限公司 | 一种手势识别方法与装置 |
CN105205475A (zh) * | 2015-10-20 | 2015-12-30 | 北京工业大学 | 一种动态手势识别方法 |
CN106991372A (zh) * | 2017-03-02 | 2017-07-28 | 北京工业大学 | 一种基于混合深度学习模型的动态手势识别方法 |
CN107180226A (zh) * | 2017-04-28 | 2017-09-19 | 华南理工大学 | 一种基于组合神经网络的动态手势识别方法 |
CN107688391A (zh) * | 2017-09-01 | 2018-02-13 | 广州大学 | 一种基于单目视觉的手势识别方法和装置 |
CN108932500A (zh) * | 2018-07-09 | 2018-12-04 | 广州智能装备研究院有限公司 | 一种基于深度神经网络的动态手势识别方法及系统 |
-
2019
- 2019-01-28 CN CN201910079917.8A patent/CN109961005B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103716685A (zh) * | 2014-01-09 | 2014-04-09 | 福建网龙计算机网络信息技术有限公司 | 图标识别系统、服务器和方法 |
CN104598915A (zh) * | 2014-01-24 | 2015-05-06 | 深圳奥比中光科技有限公司 | 一种手势识别方法与装置 |
CN105205475A (zh) * | 2015-10-20 | 2015-12-30 | 北京工业大学 | 一种动态手势识别方法 |
CN106991372A (zh) * | 2017-03-02 | 2017-07-28 | 北京工业大学 | 一种基于混合深度学习模型的动态手势识别方法 |
CN107180226A (zh) * | 2017-04-28 | 2017-09-19 | 华南理工大学 | 一种基于组合神经网络的动态手势识别方法 |
CN107688391A (zh) * | 2017-09-01 | 2018-02-13 | 广州大学 | 一种基于单目视觉的手势识别方法和装置 |
CN108932500A (zh) * | 2018-07-09 | 2018-12-04 | 广州智能装备研究院有限公司 | 一种基于深度神经网络的动态手势识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
"11-关键帧提取";三年五年158店;《百度文库》;20181006;全文 * |
"Dynamic Hand Gesture Recognition using Convolutional Neural Network with RGB-D Fusion";Bindu Verma 等;《ICVGIP’18》;20181231;第1-8页 * |
"Hand Gesture Recognition using Convolutional";Shengchang Lan 等;《URSI》;20181231;第147-148页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109961005A (zh) | 2019-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961005B (zh) | 一种基于二维卷积网络的动态手势识别方法及系统 | |
Ma et al. | AU R-CNN: Encoding expert prior knowledge into R-CNN for action unit detection | |
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
Zhang et al. | Short and long range relation based spatio-temporal transformer for micro-expression recognition | |
Sincan et al. | Using motion history images with 3d convolutional networks in isolated sign language recognition | |
CN109858407B (zh) | 一种基于多种信息流特征和异步融合的视频行为识别方法 | |
Patel et al. | Moment based sign language recognition for indian languages | |
Santhalingam et al. | Sign language recognition analysis using multimodal data | |
CN111680550B (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN111626113A (zh) | 一种基于面部动作单元的面部表情识别方法和装置 | |
CN114519877A (zh) | 人脸识别方法、人脸识别装置、计算机设备及存储介质 | |
Raheja et al. | Android based portable hand sign recognition system | |
Zhou et al. | A study on attention-based LSTM for abnormal behavior recognition with variable pooling | |
Tur et al. | Evaluation of hidden markov models using deep cnn features in isolated sign recognition | |
CN108229432A (zh) | 人脸标定方法及装置 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Padhi et al. | Hand gesture recognition using densenet201-mediapipe hybrid modelling | |
Hong et al. | Characterizing subtle facial movements via Riemannian manifold | |
Li et al. | Global co-occurrence feature learning and active coordinate system conversion for skeleton-based action recognition | |
Gündüz et al. | Turkish sign language recognition based on multistream data fusion | |
CN110826534A (zh) | 一种基于局部主成分分析的人脸关键点检测方法及系统 | |
CN113780140A (zh) | 基于深度学习的手势图像分割与识别方法以及装置 | |
Hassan et al. | Enhanced dynamic sign language recognition using slowfast networks | |
Priyadharsini et al. | Sign language recognition using convolutional neural networks | |
Meenigea | Real-Time Hand Detection and Recognition For Sign Language Beginners Using Skin-Color Modeling and Convolutional Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |