CN113807318A - 一种基于双流卷积神经网络和双向gru的动作识别方法 - Google Patents
一种基于双流卷积神经网络和双向gru的动作识别方法 Download PDFInfo
- Publication number
- CN113807318A CN113807318A CN202111182076.7A CN202111182076A CN113807318A CN 113807318 A CN113807318 A CN 113807318A CN 202111182076 A CN202111182076 A CN 202111182076A CN 113807318 A CN113807318 A CN 113807318A
- Authority
- CN
- China
- Prior art keywords
- frame
- classification result
- output
- neural network
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 27
- 230000009471 action Effects 0.000 title claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000010586 diagram Methods 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 10
- 230000004913 activation Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000003287 optical effect Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 8
- 241000288105 Grus Species 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双流卷积神经网络和双向GRU的动作识别方法,包括以下步骤:对视频等间距采样M帧图像,缩放;将第一帧图像输入空间流CNN,得到空间流特征图;计算堆叠,将其输入时间流CNN,得到时间流特征图;级联,使用三层卷积神经网络融合,得到融合后的特征图;将特征图送入两层全连接层,然后送入softmax函数得到单帧分类结果;继续以上的步骤,计算剩余帧的分类结果;将识别结果送入双向门控单元,得到各视频抽样帧的分类结果ht;基于高斯加权的融合方式,将M组ht进行融合,得到最终的视频分类结果,本方法在保持模型准确性的情况下,减少了模型参数,简化了模型结构,提高了模型运算速度;采用高斯加权融合的方式,提高了分类结果的可靠性。
Description
技术领域
本发明专利属于人工智能领域中的计算机视觉技术,尤其涉及一种基于双流卷积神经网络和双向GRU的动作识别方法。
背景技术
在互联网大数据的时代背景下,越来越多的视频被共享,如何快速从海量的视频资源中提取信息具有极高的研究和应用价值。视频中的人体行为识别也逐渐成为计算机视觉领域的一大研究热点,并在公共视频监控、人机交互、科学认知、医疗康复等领域得到了广泛的应用。近年来,随着计算机算力水平的不断提高,深度学习得到了深入的发展,基于深度学习的行为识别算法逐渐崭露头角。
目前,基于深度学习的行为识别算法主要分为三类:单流网络模型方法、双流网络模型方法、多流网络模型方法。其中双流网络模型以神经科学理论作为依据,兼顾视频的时空特征,该类方法结果与主观结果一致性较高,而且适用性强,具有较高的泛化性和拓展性,目前双流网络模型方法被广泛采用。
对于视频序列等含有上下文相关性的数据,人们提出了具有记忆能力的神经网络模型,大致分为四类:
(1)循环神经网络(Recurrent Neural Network,RNN)。循环神经网络具有记忆性、参数共享的特点,因此在对序列的非线性特征进行学习时具有一定优势。但是,循环神经网络存在梯度消失和梯度爆炸等问题,只适用于处理短视频序列,不能很好地处理长视频序列。
(2)长短期记忆神经网络(Long Short-Term Memory,LSTM)。LSTM网络用一个记忆单元替换原来RNN模型中的隐藏层节点,其关键在于存在细胞状态来存储历史信息,设计了三个门结构通过Sigmoid函数和逐点乘积操作来更新或删除细胞状态里的信息,解决了梯度消失和梯度爆炸的问题。
(3)双向长短期记忆神经网络(Bi Long Short-Term Memory,BLSTM)。此网络模型在LSTM网络的基础上既考虑了视频的正向序列特性,也考虑了视频的逆向序列特性,对视频的序列特性表征较为完整。
(4)双向门循环单元(Bi Gate Recurrent Unit,BGRU)。此网络模型在BLSTM的基础上将LSTM中的遗忘门与输入门合并为更新门。重置门决定了如何将新的输入信息与前面的记忆相结合,更新门定义了前面记忆保存到当前时间步的量。双向门循环单元在保证模型准确率的同时大幅提升了运算速度。
上文所提到的双流网络模型方法的泛化性和拓展性较好,因此,人们在此模型的基础上提出了很多改进模型,如将双流网络模型与具有记忆能力的神经网络融合,形成“双流网络模型+具有记忆力的神经网络”的结构。现有效果较好的融合方式是“双流网络模型+BLSTM”的结构。优点是有效提高了识别准确率,缺点是庞大的参数使得该类模型的复杂度和训练难度大幅提高。而如今,双向门循环单元(BGRU)是一种准确且简洁的神经网络模型,它可以在保证模型准确率的基础上减少现有具有记忆能力的神经网络模型的复杂度,为解决上述问题提供了工具。
双向门循环单元(BGRU)由两个相反方向的单向GRU组成,而对于单向GRU而言,随着状态的累积,模型所含有的历史信息越多,则其准确率越高。当正向与逆向GRU叠加时,以输入GRU的特征次序为横轴,模型准确率为纵轴,模型准确率呈现“中间高,两边低”分布。此时,“双流网络模型+BLSTM”采用取均值的方式融合识别结果,不能很好地利用模型的双向特性,影响了其进一步应用。而高斯分布具有“中间高,两边低”、对称且平滑的特点,与模型准确率的分布大致相同,可以充分利用模型的双向特性,为解决上述问题提供了工具。
如果有一种方法,能够充分利用双向门循环单元(BGRU)的简洁性的特点,将之与双流网络模型有机结合,那么相对于现有的“双流网络模型+BLSTM”的结构,可以在提高识别准确率的同时减少网络参数和训练难度。同时根据BGRU的双向特点(中间输出的准确率较首尾输出的准确率更高),在结果融合时采用高斯加权融合的方式,得出一种高性能的行为识别算法,那么就可以是对双流网络模型进行了更加有效的优化,增加了这种方案的行为识别算法的工程性和准确性。
查阅现有的专利、论文,并未发现相关的资料。
发明内容
本发明目的在于提供一种基于双流卷积神经网络和双向GRU的行为识别方法,充分利用双向门循环单元(BGRU),将之与双流网络模型有机结合,相对于现有的“双流网络模型+BLSTM”的结构,可以在提高识别准确率的同时减少网络参数和训练难度。
技术方案:为实现上述目的,本发明采用的技术方案为:
利用现有的双流网络模型提取视频特征,与兼顾准确性和简洁性的双向门循环单元(BGRU)结合,采用高斯加权融合的方式融合识别结果,在提高识别准确率的同时减少了网络参数和训练难度。
其方案为:
(1)对输入视频进行预处理,抽取视频帧并进行缩放与裁剪,计算堆叠的光流;
(2)将抽取的第一帧分解为红、绿、蓝三通道输入空间流CNN提取特征,将第一帧对应的堆叠的光流输入时间流CNN提取特征;
(3)将第一帧的空间流和时间流特征融合输入两层全连接层再通过softmax函数得到单帧分类结果并输入双向GRU网络;
(4)以同样的步骤计算剩余帧的融合特征并输入双向GRU网络;
(3)对双向GRU网络的输出使用高斯加权融合,输出行为识别结果。
本发明基于双流卷积神经网络和双向GRU的行为识别方法,包含以下步骤:
预处理部分(步骤1~步骤2):
步骤1),对输入的视频进行等间距采样,一段输入视频等间距采样M帧图像,记为imgi,i∈[1,M]。如img1表示第一帧。对采样得到的每帧图像,再抽取其后的连续(L-1)帧图像组成一个帧块,记为imgij,其中i∈[1,M],j∈[1,L],如img11表示第一帧块的第一帧;
步骤2),对采样得到的图像进行同样的缩放,将图像缩放至大小为N*N,得到预处理图片。
空间流特征提取部分(步骤3~步骤5):
步骤3)将第一帧图像img1分解为红、绿、蓝三个通道,获得三个通道下的图像Xn(x,y),其中n代表第n通道,n为大于等于1小于等于3的整数,第1、第2、第3通道分别代表红、绿、蓝三个通道;x、y分别为图像中像素点的横向坐标、纵向坐标;
步骤4),将分解得到的3通道图输入卷积神经网络(CNN);
步骤5),得到第一帧图像的空间流特征图。
时间流特征提取部分(步骤6~步骤7):
步骤6),计算第一帧光流的堆叠;
步骤7),将计算得到堆叠的光流输入卷积神经网络(CNN),得到时间流特征图。
双流特征融合部分(步骤8):
步骤8),将空间流网络输出的特征图与时间流网络输出的特征图级联,然后使用三层卷积神经网络融合。
全连接与输出部分(步骤9~步骤10):
步骤9),将特征图送入两层全连接层,得到全连接层输出结果export,然后送入softmax函数得到第一帧的单帧识别分类结果;
步骤10),使用与步骤3至步骤9同样的方法计算剩余帧的识别结果,直到得到所有的M帧单帧分类结果。
双向门循环单元(BGRU)部分(步骤11):
步骤11),将该视频均匀抽样M帧的单帧分类结果送入双向门控单元(BGRU),GRU模型的更新公式如下:
rt=σ(Wr·[ht-1,xt])#式1
zt=σ(Wz·[ht-1,xt])#式2
上述公式可以使用ht=GRU(xt,ht-1)表示,其中rt表示t时刻的重置门,σ表示sigmod函数;xt表示t时刻的输入,zt表示t时刻的更新门,表示t时刻的候选激活状态,ht表示t时刻的激活状态,即初步分类结果,ht-1表示t时刻的隐层状态(即(t-1)时刻的激活状态),Wr,Wz,W为权值矩阵。
其中wt,vt为权值矩阵,bt为偏置。最终分别得到M帧图像的ht。
高斯加权融合部分(步骤12):
步骤12),提出新的基于高斯加权的融合方式,将M组ht(分别为h1,h2……hM,)采用高斯加权融合的方式进行融合,得到视频最终分类结果output,其公式如下:
其中,f(i)为高斯分布函数,output[i]表示视频最终分类结果output中的第i个元素,μ是均值,为M/2;s2为方差,此处为1(s为标准差,其值为1);output中值最大的元素所对应的行为分类标签即为最终的动作识别结果。
神经网络训练部分(步骤13):
步骤13),使用随机梯度下降算法(SGD)训练神经网络,并根据计算得到的梯度更新参数。
本发明相比现有技术:
(1)将双流网络模型与轻量级的双向门循环单元(BGRU)结合;
(2)采用高斯加权融合的方式融合识别结果;
与现有技术相比,本发明具有以下优点:
(1)在空间流和时间流分别使用vgg-16网络,充分提取了视频的空间信息和时间信息;使用双向GRU既考虑了视频的正向序列特性,也考虑了视频的逆向序列特性,对视频的序列特性表征较为完整,同时在保持模型准确性的情况下,减少了模型参数,简化了模型结构,提高了模型运算速度;
(2)结果融合时根据BGRU的双向特点(中间输出的准确率较首尾输出的准确率更高)采用高斯加权融合的方式,提高了分类结果的可靠性。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例的特征融合步骤的流程图。
图3是本发明实施例的特征融合步骤的数据流图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
请参考图1,图1示出了本实施例的流程图,其中:
预处理部分(步骤1~步骤2):
步骤1),采用公开的UCF-101数据集,对输入的视频进行等间距采样,一段输入视频等间距采样25帧图像,记为imgi,i∈[1,25]。如img1表示第一帧。对采样得到的每帧图像,再抽取其后的连续9帧图像组成一个帧块(共10帧),记为imgij,其中i∈[1,25],j∈[1,10],如img11表示第一帧块的第一帧;
步骤2),对采样得到的图像进行同样的缩放,将图像缩放至大小为256*256。
空间流特征提取部分(步骤3~步骤5):
步骤3)将第一帧图像img1分解为红、绿、蓝三个通道,获得三个通道下的图像Xn(x,y),其中n代表第n通道,n为大于等于1小于等于3的整数,第1、第2、第3通道分别代表红、绿、蓝三个通道;x、y分别为图像中像素点的横向坐标、纵向坐标;
步骤4),将分解得到的3通道图输入vgg-16网络;
步骤5),得到第一帧图像的特征图。
时间流特征提取部分(步骤6~步骤7):
步骤6),计算第一帧光流的堆叠。
步骤7),将特征图输入vgg-16网络。
图2示出了特征融合步骤的流程图,图3示出了本实施例的特征融合步骤的数据流,其步骤如下:
双流特征融合部分(步骤8):
步骤8),将空间流网络输出的特征图与时间流网络输出的特征图级联,然后使用三层卷积神经网络融合。
全连接与输出部分(步骤9~步骤10):
步骤9),将特征图送入两层全连接层,然后送入softmax函数得到单帧分类结果。
步骤10),使用与步骤3至步骤9同样的方法计算剩余帧的分类结果。
双向门循环单元(BGRU)部分(步骤11):
步骤11),将该视频均匀抽样25帧的分类结果送入双向门控单元(BGRU),GRU模型的更新公式如下:
rt=σ(Wr·[ht-1,xt])#式10
zt=σ(Wz·[ht-1,xt])#式11
上述公式可以使用ht=GRU(xt,ht-1)表示,其中rt表示t时刻的重置门,σ表示sigmod函数;xt表示t时刻的输入,zt表示t时刻的更新门,表示t时刻的候选激活状态,ht表示t时刻的激活状态,即初步分类结果,ht-1表示t时刻的隐层状态(即(t-1)时刻的激活状态),Wr,Wz,W为权值矩阵。BGRU由两个相反方向的单向GRU组成,BGRU在t时刻的激活状态通过前向激活状态和逆向激活状态加权求和得到,其计算公式为:
其中wt,vt为权值矩阵,bt为偏置。最终分别得到25帧图像的ht。
高斯加权融合部分(步骤12):
步骤12),提出新的基于高斯加权的融合方式,将25组ht(分别为h1,h2……h25,)采用高斯加权融合的方式进行融合,得到视频动作识别的最终分类结果output,其公式如下:
其中,f(i)为高斯分布函数,output[i]为output中的第i个元素,μ是均值,为25/2;s2为方差,此处为1(s为标准差,其值为1);output中值最大的元素所对应的行为分类标签即为最终的动作识别结果。
神经网络训练部分(步骤13):
步骤13),使用随机梯度下降算法(SGD)训练神经网络,并根据计算得到的梯度更新参数:
所述步骤4中的vgg-16网络是一种较深的卷积神经网络,其结构包含:13个卷积层,每个卷积层都不会改变前一层的特征图的长和宽;通过Conv(卷积)可以实现通道数的增加;5个池化层,分别分布在2或者3次卷积以后。池化层的作用是降低特征图尺寸并且能提高网络抗干扰能力;vgg-16网络输出特征图大小为7*7*512。
所述步骤6中堆叠光流的计算过程为:密集的光流可以视为连续帧t和t+1之间的一组位移矢量场。记第t帧中的点(u,v),第t帧的光流为It,其计算公式如下:
其中u=[1;w],v=[1:h],k=[1;L],w为图像的宽度,h为图像的长度,L为帧数。
所述步骤8的级联操作公式如下:
其中y表示级联后的特征图,为空间流网络输出的特征图上某个位置(α,β,d),其中α表示第α行,β表示第β列,d表示第d张特征图,s表示空间,为时间流网络输出的特征图上某个位置(α,β,d),t表示时间。级联融合得到的特征图大小为7*7*1024。
所述步骤8的三层卷积神经网络融合操作中,卷积核大小分别为3*3*512、3*3*1024、1*1*512,其中最后一层卷积起到降低维数的作用,最终得到输出特征图的大小为7*7*512,与原特征图大小一致。
所述步骤9中的softmax函数公式如下:
其中,export表示全连接层输出结果,P表示概率,即单帧分类结果,P(i)表示单帧分类结果中的第i个值,k表示export中第k个元素,export[]表示export中第i个元素,i∈[1,101],P表示概率,exp()表示以自然对数e为底数的指数函数。
所述步骤13的随机梯度下降法(SGD)分为以下几步:
其中oq表示第Q层第q个节点的输出,tq表示第Q层第q个节点的标签。
(3)根据计算得到的梯度更新参数。
本发明提出的基于双流卷积神经网络和双向GRU的行为识别方法,在UCF-101数据集上的识别率是92.9%,比基于双流卷积神经网络的行为识别方法提升了1.5%。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,包括以下步骤:
对输入的视频等间距采样M帧图像,再对采样的图像缩放,得到预处理后的图像;
将预处理后的第一帧图像输入空间流CNN提取特征,得到空间流特征图;
计算第一帧光流的堆叠,将堆叠特征图输入时间流CNN提取特征,得到时间流特征图;
将空间流特征图与时间流特征图级联,然后使用三层卷积神经网络融合,得到融合后的特征图;
将融合后的特征图送入两层全连接层,得到全连接层输出结果export,然后送入softmax函数得到第一帧的单帧分类结果;
继续以上的步骤,计算剩余帧的识别结果,直到得到M帧单帧分类结果;
将M帧单帧分类结果送入双向门控单元,得到各视频抽样帧的初步分类结果ht,其中,t∈[1,M];
基于高斯加权的融合方式,将M组ht采用高斯加权融合的方式进行融合,得到视频最终分类结果,其公式如下:
其中,f(i)为高斯分布函数,output[i]表示视频最终分类结果中的第i个元素,μ是均值,为M/2;s2为方差,此处为1,s为标准差,其值为1;
视频最终分类结果中值最大的元素所对应的行为分类标签即为最终的动作识别结果。
2.根据权利要求1所述的一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,将预处理后的第一帧图像分解为红、绿、蓝三个通道,再将分解得到的3通道图输入至空间流CNN提取特征。
5.根据权利要求4所述的一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,使用随机梯度下降算法训练神经网络,并根据计算得到的梯度更新参数。
6.根据权利要求5所述的一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,空间流CNN和时间流CNN分别使用vgg-16网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111182076.7A CN113807318B (zh) | 2021-10-11 | 2021-10-11 | 一种基于双流卷积神经网络和双向gru的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111182076.7A CN113807318B (zh) | 2021-10-11 | 2021-10-11 | 一种基于双流卷积神经网络和双向gru的动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113807318A true CN113807318A (zh) | 2021-12-17 |
CN113807318B CN113807318B (zh) | 2023-10-31 |
Family
ID=78939376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111182076.7A Active CN113807318B (zh) | 2021-10-11 | 2021-10-11 | 一种基于双流卷积神经网络和双向gru的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807318B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114565880A (zh) * | 2022-04-28 | 2022-05-31 | 武汉大学 | 一种基于光流追踪的伪造视频检验方法、系统及设备 |
CN115723287A (zh) * | 2022-12-16 | 2023-03-03 | 河北科技大学 | 基于温度控制聚氨酯发泡的生产设备 |
CN116738324A (zh) * | 2023-08-11 | 2023-09-12 | 太极计算机股份有限公司 | 模型训练方法和渔船单拖作业行为的识别方法 |
CN117274263A (zh) * | 2023-11-22 | 2023-12-22 | 泸州通源电子科技有限公司 | 一种显示器瘢痕缺陷检测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102023010A (zh) * | 2010-10-26 | 2011-04-20 | 西安理工大学 | 基于mems的小波域多传感器信息融合系统及融合方法 |
CN108647591A (zh) * | 2018-04-25 | 2018-10-12 | 长沙学院 | 一种基于视觉-语义特征的视频中行为识别方法和系统 |
EP3404578A1 (en) * | 2017-05-17 | 2018-11-21 | Samsung Electronics Co., Ltd. | Sensor transformation attention network (stan) model |
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
CN111079655A (zh) * | 2019-12-18 | 2020-04-28 | 航天物联网技术有限公司 | 一种基于融合神经网络的视频中人体行为识别方法 |
US20200210708A1 (en) * | 2019-01-02 | 2020-07-02 | Boe Technology Group Co., Ltd. | Method and device for video classification |
CN111860691A (zh) * | 2020-07-31 | 2020-10-30 | 福州大学 | 基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法 |
CN112329690A (zh) * | 2020-11-16 | 2021-02-05 | 河北工业大学 | 基于时空残差网络和时序卷积网络的连续手语识别方法 |
CN112613486A (zh) * | 2021-01-07 | 2021-04-06 | 福州大学 | 基于多层注意力和BiGRU的专业立体视频舒适度分类方法 |
WO2021098616A1 (zh) * | 2019-11-21 | 2021-05-27 | 中国科学院深圳先进技术研究院 | 运动姿态识别方法、运动姿态识别装置、终端设备及介质 |
-
2021
- 2021-10-11 CN CN202111182076.7A patent/CN113807318B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102023010A (zh) * | 2010-10-26 | 2011-04-20 | 西安理工大学 | 基于mems的小波域多传感器信息融合系统及融合方法 |
EP3404578A1 (en) * | 2017-05-17 | 2018-11-21 | Samsung Electronics Co., Ltd. | Sensor transformation attention network (stan) model |
CN108647591A (zh) * | 2018-04-25 | 2018-10-12 | 长沙学院 | 一种基于视觉-语义特征的视频中行为识别方法和系统 |
US20200210708A1 (en) * | 2019-01-02 | 2020-07-02 | Boe Technology Group Co., Ltd. | Method and device for video classification |
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
WO2021098616A1 (zh) * | 2019-11-21 | 2021-05-27 | 中国科学院深圳先进技术研究院 | 运动姿态识别方法、运动姿态识别装置、终端设备及介质 |
CN111079655A (zh) * | 2019-12-18 | 2020-04-28 | 航天物联网技术有限公司 | 一种基于融合神经网络的视频中人体行为识别方法 |
CN111860691A (zh) * | 2020-07-31 | 2020-10-30 | 福州大学 | 基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法 |
CN112329690A (zh) * | 2020-11-16 | 2021-02-05 | 河北工业大学 | 基于时空残差网络和时序卷积网络的连续手语识别方法 |
CN112613486A (zh) * | 2021-01-07 | 2021-04-06 | 福州大学 | 基于多层注意力和BiGRU的专业立体视频舒适度分类方法 |
Non-Patent Citations (6)
Title |
---|
HAIYANG HU 等: "Workflow recognition with structured two-stream convolutional networks", 《PATTERN RECOGNITION LETTERS》, vol. 130, pages 267 - 274, XP086039673, DOI: 10.1016/j.patrec.2018.10.011 * |
KAREN SIMONYAN 等: "Two-Stream Convolutional Networks for Action Recognition in Videos", 《ARXIV》, pages 1 - 11 * |
吕淑平 等: "基于双流卷积神经网络的人体动作识别研究", 《实验技术与管理》, vol. 38, no. 8, pages 144 - 148 * |
桑海峰 等: "基于双向门控循环单元的3D人体运动预测", 《电子与信息学报》, vol. 41, no. 9, pages 2256 - 2263 * |
王科: "基于三维时空特征和上下文信息的视频分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 5, pages 138 - 1015 * |
陈颖 等: "基于3D双流卷积神经网络和GRU网络的人体行为识别", 《计算机应用与软件》, vol. 37, no. 5, pages 164 - 168 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114565880A (zh) * | 2022-04-28 | 2022-05-31 | 武汉大学 | 一种基于光流追踪的伪造视频检验方法、系统及设备 |
CN114565880B (zh) * | 2022-04-28 | 2022-07-19 | 武汉大学 | 一种基于光流追踪的伪造视频检验方法、系统及设备 |
CN115723287A (zh) * | 2022-12-16 | 2023-03-03 | 河北科技大学 | 基于温度控制聚氨酯发泡的生产设备 |
CN116738324A (zh) * | 2023-08-11 | 2023-09-12 | 太极计算机股份有限公司 | 模型训练方法和渔船单拖作业行为的识别方法 |
CN116738324B (zh) * | 2023-08-11 | 2023-12-22 | 太极计算机股份有限公司 | 模型训练方法和渔船单拖作业行为的识别方法 |
CN117274263A (zh) * | 2023-11-22 | 2023-12-22 | 泸州通源电子科技有限公司 | 一种显示器瘢痕缺陷检测方法 |
CN117274263B (zh) * | 2023-11-22 | 2024-01-26 | 泸州通源电子科技有限公司 | 一种显示器瘢痕缺陷检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113807318B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652066B (zh) | 基于多自注意力机制深度学习的医疗行为识别方法 | |
CN113807318B (zh) | 一种基于双流卷积神经网络和双向gru的动作识别方法 | |
CN112507898B (zh) | 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法 | |
Li | A deep spatiotemporal perspective for understanding crowd behavior | |
US20220215227A1 (en) | Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium | |
CN111652903B (zh) | 一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法 | |
CN108734095B (zh) | 一种基于3d卷积神经网络的动作检测方法 | |
CN108133188A (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN109446923A (zh) | 基于训练特征融合的深度监督卷积神经网络行为识别方法 | |
CN113297936B (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN112200096B (zh) | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 | |
Zhu et al. | Attentive multi-stage convolutional neural network for crowd counting | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
Wang et al. | Edge computing-enabled crowd density estimation based on lightweight convolutional neural network | |
Li et al. | Fire flame image detection based on transfer learning | |
Niu et al. | ALSTM: adaptive LSTM for durative sequential data | |
Liu et al. | An optimized Capsule-LSTM model for facial expression recognition with video sequences | |
Cheng et al. | Exploit the potential of multi-column architecture for crowd counting | |
Islam et al. | New hybrid deep learning method to recognize human action from video | |
CN111414846B (zh) | 基于关键时空信息驱动和组群共现性结构化分析的组群行为识别方法 | |
Zhang et al. | Research on facial expression recognition based on neural network | |
CN114495151A (zh) | 一种群组行为识别方法 | |
CN113688204A (zh) | 一种利用相似场景及混合注意力的多人会话情感预测方法 | |
Harris et al. | A biologically inspired visual working memory for deep networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |