CN111401209B - 一种基于深度学习的动作识别方法 - Google Patents
一种基于深度学习的动作识别方法 Download PDFInfo
- Publication number
- CN111401209B CN111401209B CN202010167013.3A CN202010167013A CN111401209B CN 111401209 B CN111401209 B CN 111401209B CN 202010167013 A CN202010167013 A CN 202010167013A CN 111401209 B CN111401209 B CN 111401209B
- Authority
- CN
- China
- Prior art keywords
- steps
- optical flow
- deep learning
- obtaining
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000009471 action Effects 0.000 title claims abstract description 25
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 230000003287 optical effect Effects 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 8
- 238000010586 diagram Methods 0.000 claims abstract description 6
- 230000009467 reduction Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000006399 behavior Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 101100194606 Mus musculus Rfxank gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Abstract
本发明公开了一种基于深度学习的动作识别方法,包括如下步骤:对视频帧F进行提取,划分为T*16帧;对每16帧fi进行光流提取得到相应光流图;利用多尺度的3D卷积神经网络分别对连续的16帧RGB图和光流图进行特征提取,分别得到两个特征向量xoriginal和xoptical;将获得的两个特征向量串联在一起得到特征向量xi,维度为d1;重复上述步骤并行处理T次,最终得到一个维度为(d1,T)的特征矩阵X;通过一个以注意力机制为核心构建的一个网络,得到权值矩阵A;将权值矩阵A代入公式M=A*XT获得新的特征矩阵M;将新的特征矩阵M输入至LSTM网络,再经过全连接层的降维,得到特征向量Xfinal;最后利用softmax进行分类,取最大值对应的类别为所识别的动作类别。
Description
技术领域
本发明涉及计算机视觉识别技术领域,尤其涉及一种基于深度学习的动作识别方法。
背景技术
随着计算机视觉技术、机器学习技术、特别是深度学习技术的发展,人体行为识别领域得到了长足的进步,并且该领域具有广阔的应用前景,如人机交互、监控无人化、健身训练、医学仿真等等。
随着健身产业的兴起,越来越多的人希望能够得到更多的健身动作指导,但是由于场地和专业人员的有限,人们往往未能够得到实时且准确的指导。但是,我们可以借助于人体行为识别技术,做到足不出户便可以知道所做的健身动作正确与否。且相较于较为复杂多样的行为动作识别,健身动作识别的可操作性更强。因为健身动作通常是在固定视角下,且主体在做重复且频率相对一致的健身动作,如深蹲、俯卧撑、桥等等。如此背景单一、主体运动单一的健身动作可以较为轻易地被机器学习模型所学习。
传统的动作识别与评判方法,通常是利用基于光度梯度的局部特征检测算法从视频中提取显著光度变化的兴趣点,然后运用专家知识对其进行空间特性、时间特性或时空特性进行描述;最后在特征空间中建立模型进行学习,如支持向量机、高斯判别模型等。但是此类方法得到的模型泛化性不强。
近年来,深度学习的发展十分迅猛,深度学习能够有效地从信息中提取特征,特别是卷积神经网络在图像领域的特征表示,但是其不能直接应用于人体行为此类具有三维信息的视频。
且由于健身视频中拍摄的角度不同、动作人的频率不同、动作的多样性等等,使得同一健身动作具有多义性。所以现有的技术根据人体关节点如流程图般定义的判断方法是难以泛化的。
而一段健身视频中的有效健身片段是不确定的,所以现有的技术仅仅利用递归模型,如LSTM、贝叶斯滤波、GNU等,往往效果不好,因为它们将无效片段也引入递归模型,使得模型的表现不佳。因此,现有技术需要进一步改进和完善。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度学习的动作识别方法。
本发明的目的通过下述技术方案实现:
一种基于深度学习的动作识别方法,该识别方法主要包括如下步骤:
步骤S1:对视频帧F进行提取,划分为T*16帧,即F=(f1,f2,...,fT);
步骤S2:对每16帧fi进行光流提取得到相应的16张光流图;
步骤S3:利用多尺度的3D卷积神经网络分别对连续的16帧RGB图和光流图进行特征提取,分别得到两个特征向量xoriginal和xoptical;
步骤S4:将获得的两个特征向量串联在一起得到特征向量xi,维度为d1;
步骤S5:重复上述步骤并行处理T次,最终得到一个维度为(d1,T)的特征矩阵X;
步骤S6:通过一个以注意力机制为核心构建的一个网络,得到权值矩阵A;
步骤S7:将权值矩阵A代入公式M=A*XT获得新的特征矩阵M;
步骤S8:将新的特征矩阵M输入至LSTM网络,再经过全连接层的降维,得到特征向量Xfinal;
步骤S9:最后利用softmax进行分类,取最大值对应的类别为所识别的动作类别。
作为本发明的优选方案,所述步骤S1中,如果视频帧F不足16帧,则对最后一帧图像进行复制补充即可。
作为本发明的优选方案,所述步骤S2的多尺度包含多空间尺度和多时间尺度。
作为本发明的优选方案,所述步骤S1还包括将视频每一帧图片缩放成224*224像素大小。
本发明的工作过程和原理是:本发明提供一种基于图像流加光流的双流法、3D卷积、多尺度信息融合和注意力机制的深度学习方法,用以有效地解决动作识别面临的多义性、多方式、有效动作序列难以确定等等问题。该方法可以利用任意健身动作视频作为训练集进行训练,不需要截取有效片段。
与现有技术相比,本发明还具有以下优点:
(1)本发明所提供的基于深度学习的动作识别方法通过光流提取技术能够充分地利用健身动作的光度梯度变化信息,增强识别效果。
(2)本发明所提供的基于深度学习的动作识别方法利用多尺度的3D卷积神经网络可以有效地提取视频特征,对视频进行准确、全面的表征。
(3)本发明所提供的基于深度学习的动作识别方法采用注意力机制网络,通过训练使其能够加权选择出真正有效的健身运动片段,提高识别效果。
附图说明
图1是本发明所提供的基于深度学习的动作识别方法的结构示意图。
图2是本发明所提供的基于深度学习的动作识别方法的实施例2的流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明作进一步说明。
实施例1:
如图1所示,本实施例公开了一种基于深度学习的动作识别方法,该识别方法主要包括如下步骤:
步骤S1:对视频帧F进行提取,划分为T*16帧,即F=(f1,f2,...,fT);
步骤S2:对每16帧fi进行光流提取得到相应的16张光流图;
步骤S3:利用多尺度的3D卷积神经网络分别对连续的16帧RGB图和光流图进行特征提取,分别得到两个特征向量xoriginal和xoptical;
步骤S4:将获得的两个特征向量串联在一起得到特征向量xi,维度为d1;
步骤S5:重复上述步骤并行处理T次,最终得到一个维度为(d1,T)的特征矩阵X;
步骤S6:通过一个以注意力机制为核心构建的一个网络,得到权值矩阵A;
步骤S7:将权值矩阵A代入公式M=A*XT获得新的特征矩阵M;
步骤S8:将新的特征矩阵M输入至LSTM网络,再经过全连接层的降维,得到特征向量Xfinal;
步骤S9:最后利用softmax进行分类,取最大值对应的类别为所识别的动作类别。
作为本发明的优选方案,所述步骤S1中,如果视频帧F不足16帧,则对最后一帧图像进行复制补充即可。
作为本发明的优选方案,所述步骤S2的多尺度包含多空间尺度和多时间尺度。
作为本发明的优选方案,所述步骤S1还包括将视频每一帧图片缩放成224*224像素大小。
本发明的工作过程和原理是:本发明提供一种基于图像流加光流的双流法、3D卷积、多尺度信息融合和注意力机制的深度学习方法,用以有效地解决健身动作识别面临的多义性、多方式、有效动作序列难以确定等等问题。该方法可以利用任意健身动作视频作为训练集进行训练,不需要截取有效片段。
实施例2:
本实施例公开了一种基于深度学习的动作识别方法,其整体框架如图1所示,而图2为该模型结构的详细参数以及模型运行步骤:
1、将视频每一帧图片缩放成224*224大小,并且以16帧为单位划分成(f1,f2,...,fT)共T个片段;运用TVL1光流法对fi进行光流提取,得到16张x和y方向的光流图。
2、16帧RGB图像(维度:224*224*3)和光流图(维度:224*224*2)分别通过结构相同的3D卷积神经网络,3D卷积神经网络结构如图2所示。数字含义代表:3D卷积核(卷积核个数*深度*宽度*高度,步长,(填充)),池化层(深度*宽度*高度,步长)。该结构中所用的激活函数为ReLU。
3D卷积层1通过不同深度的卷积核并行处理原始输入数据,进而有效地捕捉了视频的短、中、长的外观和时间特征,如此可以有效地提升模型的特征提取能力,使得后续的特征向量表征更为丰富与准确。而卷积层4类似于GoogleNet的Inception模块,通过如此多个空间尺度的特征提取和融合,同样可以增强后续特征向量的表达。而最终的全连接层1和2的作用在于非线性化处理RGB和光流串联的特征向量,如此有利于降维和提高最终特征向量的表征泛化能力。最终得到特征向量xi(4096,1)。如上并行处理(f1,f2,...,fT),最终得到特征向量(x1,x2,...,xT)。
3、将步骤2得到的特征向量(x1,x2,...,xT)并联在一起,得到维度为(4096,T)的特征矩阵X。注意力机制网络实际上就是线性降维与非线性化的组合,如此以得到原特征矩阵的加权值。通过数据集学习,该加权值将为较为重要的时间片段赋予较大的权值。特征矩阵X输入至注意力机制网络,输出权值矩阵A,公式如下所示:
A=σ1(WS2σ2(WS1F))
σ1和σ2分别为softmax,hyperbolic tangent函数,WS1和WS2维度分别为(2048,4096),(1024,2048)。求得的A维度为(1024,T)
于是新的特征矩阵M可由权值矩阵A线性求解得到,公式如下所示:
M=A*XT
M的维度为(1024,4096)。
4、将步骤3得到的特征矩阵M输入至LSTM网络,再经过全连接层的降维,得到特征向量Xfinal,最后利用softmax进行分类,取最大值对应的类别为所识别的健身动作类别。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种基于深度学习的动作识别方法,其特征在于,包括如下步骤:
步骤S1:对视频帧F进行提取,划分为T*16帧,即F=(f1,f2,...,fT);
步骤S2:对每16帧fi进行光流提取得到相应的16张光流图;
步骤S3:利用多尺度的3D卷积神经网络分别对连续的16帧RGB图和光流图进行特征提取,分别得到两个特征向量xoriginal和xoptical;
步骤S4:将获得的两个特征向量串联在一起得到特征向量xi,维度为d1;
步骤S5:重复上述步骤并行处理T次,最终得到一个维度为(d1,T)的特征矩阵X;
步骤S6:通过一个以注意力机制为核心构建的一个网络,得到权值矩阵A;
步骤S7:将权值矩阵A代入公式M=A*XT获得新的特征矩阵M;
步骤S8:将新的特征矩阵M输入至LSTM网络,再经过全连接层的降维,得到特征向量Xfinal;
步骤S9:最后利用softmax进行分类,取最大值对应的类别为所识别的动作类别。
2.根据权利要求1所述的基于深度学习的动作识别方法,其特征在于,所述步骤S1中,如果视频帧F不足16帧,则对最后一帧图像进行复制补充即可。
3.根据权利要求1所述的基于深度学习的动作识别方法,其特征在于,所述步骤S2的多尺度包含多空间尺度和多时间尺度。
4.根据权利要求1所述的基于深度学习的动作识别方法,其特征在于,所述步骤S1还包括将视频每一帧图片缩放成224*224像素大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010167013.3A CN111401209B (zh) | 2020-03-11 | 2020-03-11 | 一种基于深度学习的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010167013.3A CN111401209B (zh) | 2020-03-11 | 2020-03-11 | 一种基于深度学习的动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401209A CN111401209A (zh) | 2020-07-10 |
CN111401209B true CN111401209B (zh) | 2023-11-07 |
Family
ID=71432326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010167013.3A Active CN111401209B (zh) | 2020-03-11 | 2020-03-11 | 一种基于深度学习的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401209B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001308B (zh) * | 2020-08-21 | 2022-03-15 | 四川大学 | 一种采用视频压缩技术和骨架特征的轻量级行为识别方法 |
CN116777892B (zh) * | 2023-07-03 | 2024-01-26 | 东莞市震坤行胶粘剂有限公司 | 基于视觉检测的点胶质量检测方法及其系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
CN109784280A (zh) * | 2019-01-18 | 2019-05-21 | 江南大学 | 基于Bi-LSTM-Attention模型的人体行为识别方法 |
-
2020
- 2020-03-11 CN CN202010167013.3A patent/CN111401209B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
CN109784280A (zh) * | 2019-01-18 | 2019-05-21 | 江南大学 | 基于Bi-LSTM-Attention模型的人体行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111401209A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738697B (zh) | 基于深度学习的单目深度估计方法 | |
Wang et al. | Detect globally, refine locally: A novel approach to saliency detection | |
CN108416266B (zh) | 一种利用光流提取运动目标的视频行为快速识别方法 | |
CN106529447B (zh) | 一种小样本人脸识别方法 | |
CN107506761B (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
CN107818554B (zh) | 信息处理设备和信息处理方法 | |
CN109410168B (zh) | 用于确定图像中的子图块类别的卷积神经网络的建模方法 | |
CN109522855B (zh) | 结合ResNet和SENet的低分辨率行人检测方法、系统及存储介质 | |
CN110647991B (zh) | 一种基于无监督领域自适应的三维人体姿态估计方法 | |
Gu et al. | Blind image quality assessment via learnable attention-based pooling | |
CN112381004B (zh) | 一种基于骨架的双流自适应图卷积网络行为识别方法 | |
CN105657402A (zh) | 一种深度图恢复方法 | |
Sun et al. | Multiscale generative adversarial network for real‐world super‐resolution | |
CN110827304B (zh) | 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统 | |
CN111259735B (zh) | 基于多级预测特征增强卷积神经网络的单人姿态估计方法 | |
CN111401293A (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 | |
CN110930378A (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
CN112101262A (zh) | 一种多特征融合手语识别方法及网络模型 | |
CN114170088A (zh) | 一种基于图结构数据的关系型强化学习系统及方法 | |
CN112464844A (zh) | 一种基于深度学习与运动目标检测的人体行为动作识别方法 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN113807356B (zh) | 一种端到端的低能见度图像语义分割方法 | |
CN113673560B (zh) | 一种基于多流三维自适应图卷积的人体行为识别方法 | |
CN111553250B (zh) | 一种基于人脸特征点的精准面瘫程度评测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |