CN113807318A - 一种基于双流卷积神经网络和双向gru的动作识别方法 - Google Patents

一种基于双流卷积神经网络和双向gru的动作识别方法 Download PDF

Info

Publication number
CN113807318A
CN113807318A CN202111182076.7A CN202111182076A CN113807318A CN 113807318 A CN113807318 A CN 113807318A CN 202111182076 A CN202111182076 A CN 202111182076A CN 113807318 A CN113807318 A CN 113807318A
Authority
CN
China
Prior art keywords
frame
classification result
output
neural network
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111182076.7A
Other languages
English (en)
Other versions
CN113807318B (zh
Inventor
王仲文
胡凯
庞子超
解帅
崔梦宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202111182076.7A priority Critical patent/CN113807318B/zh
Publication of CN113807318A publication Critical patent/CN113807318A/zh
Application granted granted Critical
Publication of CN113807318B publication Critical patent/CN113807318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双流卷积神经网络和双向GRU的动作识别方法,包括以下步骤:对视频等间距采样M帧图像,缩放;将第一帧图像输入空间流CNN,得到空间流特征图;计算堆叠,将其输入时间流CNN,得到时间流特征图;级联,使用三层卷积神经网络融合,得到融合后的特征图;将特征图送入两层全连接层,然后送入softmax函数得到单帧分类结果;继续以上的步骤,计算剩余帧的分类结果;将识别结果送入双向门控单元,得到各视频抽样帧的分类结果ht;基于高斯加权的融合方式,将M组ht进行融合,得到最终的视频分类结果,本方法在保持模型准确性的情况下,减少了模型参数,简化了模型结构,提高了模型运算速度;采用高斯加权融合的方式,提高了分类结果的可靠性。

Description

一种基于双流卷积神经网络和双向GRU的动作识别方法
技术领域
本发明专利属于人工智能领域中的计算机视觉技术,尤其涉及一种基于双流卷积神经网络和双向GRU的动作识别方法。
背景技术
在互联网大数据的时代背景下,越来越多的视频被共享,如何快速从海量的视频资源中提取信息具有极高的研究和应用价值。视频中的人体行为识别也逐渐成为计算机视觉领域的一大研究热点,并在公共视频监控、人机交互、科学认知、医疗康复等领域得到了广泛的应用。近年来,随着计算机算力水平的不断提高,深度学习得到了深入的发展,基于深度学习的行为识别算法逐渐崭露头角。
目前,基于深度学习的行为识别算法主要分为三类:单流网络模型方法、双流网络模型方法、多流网络模型方法。其中双流网络模型以神经科学理论作为依据,兼顾视频的时空特征,该类方法结果与主观结果一致性较高,而且适用性强,具有较高的泛化性和拓展性,目前双流网络模型方法被广泛采用。
对于视频序列等含有上下文相关性的数据,人们提出了具有记忆能力的神经网络模型,大致分为四类:
(1)循环神经网络(Recurrent Neural Network,RNN)。循环神经网络具有记忆性、参数共享的特点,因此在对序列的非线性特征进行学习时具有一定优势。但是,循环神经网络存在梯度消失和梯度爆炸等问题,只适用于处理短视频序列,不能很好地处理长视频序列。
(2)长短期记忆神经网络(Long Short-Term Memory,LSTM)。LSTM网络用一个记忆单元替换原来RNN模型中的隐藏层节点,其关键在于存在细胞状态来存储历史信息,设计了三个门结构通过Sigmoid函数和逐点乘积操作来更新或删除细胞状态里的信息,解决了梯度消失和梯度爆炸的问题。
(3)双向长短期记忆神经网络(Bi Long Short-Term Memory,BLSTM)。此网络模型在LSTM网络的基础上既考虑了视频的正向序列特性,也考虑了视频的逆向序列特性,对视频的序列特性表征较为完整。
(4)双向门循环单元(Bi Gate Recurrent Unit,BGRU)。此网络模型在BLSTM的基础上将LSTM中的遗忘门与输入门合并为更新门。重置门决定了如何将新的输入信息与前面的记忆相结合,更新门定义了前面记忆保存到当前时间步的量。双向门循环单元在保证模型准确率的同时大幅提升了运算速度。
上文所提到的双流网络模型方法的泛化性和拓展性较好,因此,人们在此模型的基础上提出了很多改进模型,如将双流网络模型与具有记忆能力的神经网络融合,形成“双流网络模型+具有记忆力的神经网络”的结构。现有效果较好的融合方式是“双流网络模型+BLSTM”的结构。优点是有效提高了识别准确率,缺点是庞大的参数使得该类模型的复杂度和训练难度大幅提高。而如今,双向门循环单元(BGRU)是一种准确且简洁的神经网络模型,它可以在保证模型准确率的基础上减少现有具有记忆能力的神经网络模型的复杂度,为解决上述问题提供了工具。
双向门循环单元(BGRU)由两个相反方向的单向GRU组成,而对于单向GRU而言,随着状态的累积,模型所含有的历史信息越多,则其准确率越高。当正向与逆向GRU叠加时,以输入GRU的特征次序为横轴,模型准确率为纵轴,模型准确率呈现“中间高,两边低”分布。此时,“双流网络模型+BLSTM”采用取均值的方式融合识别结果,不能很好地利用模型的双向特性,影响了其进一步应用。而高斯分布具有“中间高,两边低”、对称且平滑的特点,与模型准确率的分布大致相同,可以充分利用模型的双向特性,为解决上述问题提供了工具。
如果有一种方法,能够充分利用双向门循环单元(BGRU)的简洁性的特点,将之与双流网络模型有机结合,那么相对于现有的“双流网络模型+BLSTM”的结构,可以在提高识别准确率的同时减少网络参数和训练难度。同时根据BGRU的双向特点(中间输出的准确率较首尾输出的准确率更高),在结果融合时采用高斯加权融合的方式,得出一种高性能的行为识别算法,那么就可以是对双流网络模型进行了更加有效的优化,增加了这种方案的行为识别算法的工程性和准确性。
查阅现有的专利、论文,并未发现相关的资料。
发明内容
本发明目的在于提供一种基于双流卷积神经网络和双向GRU的行为识别方法,充分利用双向门循环单元(BGRU),将之与双流网络模型有机结合,相对于现有的“双流网络模型+BLSTM”的结构,可以在提高识别准确率的同时减少网络参数和训练难度。
技术方案:为实现上述目的,本发明采用的技术方案为:
利用现有的双流网络模型提取视频特征,与兼顾准确性和简洁性的双向门循环单元(BGRU)结合,采用高斯加权融合的方式融合识别结果,在提高识别准确率的同时减少了网络参数和训练难度。
其方案为:
(1)对输入视频进行预处理,抽取视频帧并进行缩放与裁剪,计算堆叠的光流;
(2)将抽取的第一帧分解为红、绿、蓝三通道输入空间流CNN提取特征,将第一帧对应的堆叠的光流输入时间流CNN提取特征;
(3)将第一帧的空间流和时间流特征融合输入两层全连接层再通过softmax函数得到单帧分类结果并输入双向GRU网络;
(4)以同样的步骤计算剩余帧的融合特征并输入双向GRU网络;
(3)对双向GRU网络的输出使用高斯加权融合,输出行为识别结果。
本发明基于双流卷积神经网络和双向GRU的行为识别方法,包含以下步骤:
预处理部分(步骤1~步骤2):
步骤1),对输入的视频进行等间距采样,一段输入视频等间距采样M帧图像,记为imgi,i∈[1,M]。如img1表示第一帧。对采样得到的每帧图像,再抽取其后的连续(L-1)帧图像组成一个帧块,记为imgij,其中i∈[1,M],j∈[1,L],如img11表示第一帧块的第一帧;
步骤2),对采样得到的图像进行同样的缩放,将图像缩放至大小为N*N,得到预处理图片。
空间流特征提取部分(步骤3~步骤5):
步骤3)将第一帧图像img1分解为红、绿、蓝三个通道,获得三个通道下的图像Xn(x,y),其中n代表第n通道,n为大于等于1小于等于3的整数,第1、第2、第3通道分别代表红、绿、蓝三个通道;x、y分别为图像中像素点的横向坐标、纵向坐标;
步骤4),将分解得到的3通道图输入卷积神经网络(CNN);
步骤5),得到第一帧图像的空间流特征图。
时间流特征提取部分(步骤6~步骤7):
步骤6),计算第一帧光流的堆叠;
步骤7),将计算得到堆叠的光流输入卷积神经网络(CNN),得到时间流特征图。
双流特征融合部分(步骤8):
步骤8),将空间流网络输出的特征图与时间流网络输出的特征图级联,然后使用三层卷积神经网络融合。
全连接与输出部分(步骤9~步骤10):
步骤9),将特征图送入两层全连接层,得到全连接层输出结果export,然后送入softmax函数得到第一帧的单帧识别分类结果;
步骤10),使用与步骤3至步骤9同样的方法计算剩余帧的识别结果,直到得到所有的M帧单帧分类结果。
双向门循环单元(BGRU)部分(步骤11):
步骤11),将该视频均匀抽样M帧的单帧分类结果送入双向门控单元(BGRU),GRU模型的更新公式如下:
rt=σ(Wr·[ht-1,xt])#式1
zt=σ(Wz·[ht-1,xt])#式2
Figure BDA0003297699490000041
Figure BDA0003297699490000042
上述公式可以使用ht=GRU(xt,ht-1)表示,其中rt表示t时刻的重置门,σ表示sigmod函数;xt表示t时刻的输入,zt表示t时刻的更新门,
Figure BDA0003297699490000043
表示t时刻的候选激活状态,ht表示t时刻的激活状态,即初步分类结果,ht-1表示t时刻的隐层状态(即(t-1)时刻的激活状态),Wr,Wz,W为权值矩阵。
BGRU由两个相反方向的单向GRU组成,BGRU在t时刻的激活状态通过前向激活状态
Figure BDA0003297699490000044
和逆向激活状态
Figure BDA0003297699490000045
加权求和得到,其计算公式为:
Figure BDA0003297699490000046
Figure BDA0003297699490000047
Figure BDA0003297699490000048
其中wt,vt为权值矩阵,bt为偏置。最终分别得到M帧图像的ht
高斯加权融合部分(步骤12):
步骤12),提出新的基于高斯加权的融合方式,将M组ht(分别为h1,h2……hM,)采用高斯加权融合的方式进行融合,得到视频最终分类结果output,其公式如下:
Figure BDA0003297699490000049
Figure BDA00032976994900000410
其中,f(i)为高斯分布函数,output[i]表示视频最终分类结果output中的第i个元素,μ是均值,为M/2;s2为方差,此处为1(s为标准差,其值为1);output中值最大的元素所对应的行为分类标签即为最终的动作识别结果。
神经网络训练部分(步骤13):
步骤13),使用随机梯度下降算法(SGD)训练神经网络,并根据计算得到的梯度更新参数。
本发明相比现有技术:
(1)将双流网络模型与轻量级的双向门循环单元(BGRU)结合;
(2)采用高斯加权融合的方式融合识别结果;
与现有技术相比,本发明具有以下优点:
(1)在空间流和时间流分别使用vgg-16网络,充分提取了视频的空间信息和时间信息;使用双向GRU既考虑了视频的正向序列特性,也考虑了视频的逆向序列特性,对视频的序列特性表征较为完整,同时在保持模型准确性的情况下,减少了模型参数,简化了模型结构,提高了模型运算速度;
(2)结果融合时根据BGRU的双向特点(中间输出的准确率较首尾输出的准确率更高)采用高斯加权融合的方式,提高了分类结果的可靠性。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例的特征融合步骤的流程图。
图3是本发明实施例的特征融合步骤的数据流图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
请参考图1,图1示出了本实施例的流程图,其中:
预处理部分(步骤1~步骤2):
步骤1),采用公开的UCF-101数据集,对输入的视频进行等间距采样,一段输入视频等间距采样25帧图像,记为imgi,i∈[1,25]。如img1表示第一帧。对采样得到的每帧图像,再抽取其后的连续9帧图像组成一个帧块(共10帧),记为imgij,其中i∈[1,25],j∈[1,10],如img11表示第一帧块的第一帧;
步骤2),对采样得到的图像进行同样的缩放,将图像缩放至大小为256*256。
空间流特征提取部分(步骤3~步骤5):
步骤3)将第一帧图像img1分解为红、绿、蓝三个通道,获得三个通道下的图像Xn(x,y),其中n代表第n通道,n为大于等于1小于等于3的整数,第1、第2、第3通道分别代表红、绿、蓝三个通道;x、y分别为图像中像素点的横向坐标、纵向坐标;
步骤4),将分解得到的3通道图输入vgg-16网络;
步骤5),得到第一帧图像的特征图。
时间流特征提取部分(步骤6~步骤7):
步骤6),计算第一帧光流的堆叠。
步骤7),将特征图输入vgg-16网络。
图2示出了特征融合步骤的流程图,图3示出了本实施例的特征融合步骤的数据流,其步骤如下:
双流特征融合部分(步骤8):
步骤8),将空间流网络输出的特征图与时间流网络输出的特征图级联,然后使用三层卷积神经网络融合。
全连接与输出部分(步骤9~步骤10):
步骤9),将特征图送入两层全连接层,然后送入softmax函数得到单帧分类结果。
步骤10),使用与步骤3至步骤9同样的方法计算剩余帧的分类结果。
双向门循环单元(BGRU)部分(步骤11):
步骤11),将该视频均匀抽样25帧的分类结果送入双向门控单元(BGRU),GRU模型的更新公式如下:
rt=σ(Wr·[ht-1,xt])#式10
zt=σ(Wz·[ht-1,xt])#式11
Figure BDA0003297699490000061
Figure BDA0003297699490000062
上述公式可以使用ht=GRU(xt,ht-1)表示,其中rt表示t时刻的重置门,σ表示sigmod函数;xt表示t时刻的输入,zt表示t时刻的更新门,
Figure BDA0003297699490000063
表示t时刻的候选激活状态,ht表示t时刻的激活状态,即初步分类结果,ht-1表示t时刻的隐层状态(即(t-1)时刻的激活状态),Wr,Wz,W为权值矩阵。BGRU由两个相反方向的单向GRU组成,BGRU在t时刻的激活状态通过前向激活状态
Figure BDA0003297699490000064
和逆向激活状态
Figure BDA0003297699490000065
加权求和得到,其计算公式为:
Figure BDA0003297699490000066
Figure BDA0003297699490000067
Figure BDA0003297699490000068
其中wt,vt为权值矩阵,bt为偏置。最终分别得到25帧图像的ht
高斯加权融合部分(步骤12):
步骤12),提出新的基于高斯加权的融合方式,将25组ht(分别为h1,h2……h25,)采用高斯加权融合的方式进行融合,得到视频动作识别的最终分类结果output,其公式如下:
Figure BDA0003297699490000071
Figure BDA0003297699490000072
其中,f(i)为高斯分布函数,output[i]为output中的第i个元素,μ是均值,为25/2;s2为方差,此处为1(s为标准差,其值为1);output中值最大的元素所对应的行为分类标签即为最终的动作识别结果。
神经网络训练部分(步骤13):
步骤13),使用随机梯度下降算法(SGD)训练神经网络,并根据计算得到的梯度更新参数:
所述步骤4中的vgg-16网络是一种较深的卷积神经网络,其结构包含:13个卷积层,每个卷积层都不会改变前一层的特征图的长和宽;通过Conv(卷积)可以实现通道数的增加;5个池化层,分别分布在2或者3次卷积以后。池化层的作用是降低特征图尺寸并且能提高网络抗干扰能力;vgg-16网络输出特征图大小为7*7*512。
所述步骤6中堆叠光流的计算过程为:密集的光流可以视为连续帧t和t+1之间的一组位移矢量场。记第t帧中的点(u,v),第t帧的光流为It,其计算公式如下:
Figure BDA0003297699490000073
Figure BDA0003297699490000074
其中u=[1;w],v=[1:h],k=[1;L],w为图像的宽度,h为图像的长度,L为帧数。
所述步骤8的级联操作公式如下:
Figure BDA0003297699490000075
Figure BDA0003297699490000076
其中y表示级联后的特征图,
Figure BDA0003297699490000077
为空间流网络输出的特征图上某个位置(α,β,d),其中α表示第α行,β表示第β列,d表示第d张特征图,s表示空间,
Figure BDA0003297699490000078
为时间流网络输出的特征图上某个位置(α,β,d),t表示时间。级联融合得到的特征图大小为7*7*1024。
所述步骤8的三层卷积神经网络融合操作中,卷积核大小分别为3*3*512、3*3*1024、1*1*512,其中最后一层卷积起到降低维数的作用,最终得到输出特征图的大小为7*7*512,与原特征图大小一致。
所述步骤9中的softmax函数公式如下:
Figure BDA0003297699490000081
其中,export表示全连接层输出结果,P表示概率,即单帧分类结果,P(i)表示单帧分类结果中的第i个值,k表示export中第k个元素,export[]表示export中第i个元素,i∈[1,101],P表示概率,exp()表示以自然对数e为底数的指数函数。
所述步骤13的随机梯度下降法(SGD)分为以下几步:
(1)计算输出层的梯度,
Figure BDA0003297699490000082
表示输出层(第Q层)第q个节点的梯度,其计算公式如下:
Figure BDA0003297699490000083
其中oq表示第Q层第q个节点的输出,tq表示第Q层第q个节点的标签。
(2)计算隐含层的梯度,
Figure BDA0003297699490000084
表示第G个隐含层第g个节点的梯度,其计算公式如下:
Figure BDA0003297699490000085
其中og表示第G个隐含层第g个节点的标签值,
Figure BDA0003297699490000086
表示第G个隐含层上一层(第J层)第j个节点的梯度,wab表示权值矩阵第a行第b列的值。
(3)根据计算得到的梯度更新参数。
本发明提出的基于双流卷积神经网络和双向GRU的行为识别方法,在UCF-101数据集上的识别率是92.9%,比基于双流卷积神经网络的行为识别方法提升了1.5%。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,包括以下步骤:
对输入的视频等间距采样M帧图像,再对采样的图像缩放,得到预处理后的图像;
将预处理后的第一帧图像输入空间流CNN提取特征,得到空间流特征图;
计算第一帧光流的堆叠,将堆叠特征图输入时间流CNN提取特征,得到时间流特征图;
将空间流特征图与时间流特征图级联,然后使用三层卷积神经网络融合,得到融合后的特征图;
将融合后的特征图送入两层全连接层,得到全连接层输出结果export,然后送入softmax函数得到第一帧的单帧分类结果;
继续以上的步骤,计算剩余帧的识别结果,直到得到M帧单帧分类结果;
将M帧单帧分类结果送入双向门控单元,得到各视频抽样帧的初步分类结果ht,其中,t∈[1,M];
基于高斯加权的融合方式,将M组ht采用高斯加权融合的方式进行融合,得到视频最终分类结果,其公式如下:
Figure FDA0003297699480000011
Figure FDA0003297699480000012
其中,f(i)为高斯分布函数,output[i]表示视频最终分类结果中的第i个元素,μ是均值,为M/2;s2为方差,此处为1,s为标准差,其值为1;
视频最终分类结果中值最大的元素所对应的行为分类标签即为最终的动作识别结果。
2.根据权利要求1所述的一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,将预处理后的第一帧图像分解为红、绿、蓝三个通道,再将分解得到的3通道图输入至空间流CNN提取特征。
3.根据权利要求2所述的一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,门控循环单元模型GRU的更新公式如下:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
Figure FDA0003297699480000013
Figure FDA0003297699480000014
上述公式可以使用ht=GRU(xt,ht-1)表示,其中rt表示t时刻的重置门,σ表示sigmod函数;xt表示t时刻的输入,Zt表示t时刻的更新门,
Figure FDA0003297699480000021
表示t时刻的候选激活状态,ht表示t时刻的激活状态,即初步分类结果,ht-1表示t时刻的隐层状态,即(t-1)时刻的激活状态,Wr,Wz,W为权值矩阵。
4.根据权利要求3所述的一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,双向门控循环单元BGRU由两个相反方向的单向GRU组成,BGRU在t时刻的激活状态通过前向激活状态
Figure FDA0003297699480000022
和逆向激活状态
Figure FDA0003297699480000023
加权求和得到,其计算公式为:
Figure FDA0003297699480000024
Figure FDA0003297699480000025
Figure FDA0003297699480000026
其中wt,vt为权值矩阵,bt为偏置。最终分别得到M帧图像的ht
5.根据权利要求4所述的一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,使用随机梯度下降算法训练神经网络,并根据计算得到的梯度更新参数。
6.根据权利要求5所述的一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,空间流CNN和时间流CNN分别使用vgg-16网络。
7.根据权利要求6所述的一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,堆叠光流的计算过程为:密集的光流视为连续帧t和t+1之间的一组位移矢量场,记第t帧中的点(u,v),第t帧的光流为It,其计算公式如下:
Figure FDA0003297699480000027
Figure FDA0003297699480000028
其中u=[1;w],v=[1:m],k=[1;L],w为图像的宽度,m为图像的长度,L为帧数。
8.根据权利要求7所述的一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,级联操作公式如下:
Figure FDA0003297699480000029
Figure FDA00032976994800000210
其中y表示级联后的特征图,
Figure FDA00032976994800000211
为空间流网络输出的特征图上某个位置(α,β,d),其中α表示第α行,β表示第β列,d表示第d张特征图,s表示空间,
Figure FDA00032976994800000212
为时间流网络输出的特征图上某个位置(α,β,d),t表示时间。
9.根据权利要求8所述的一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,softmax函数为:
Figure FDA0003297699480000031
其中export表示全连接层输出结果,P表示概率,即单帧分类
果,P(i)表示单帧分类结果中的第i个值;
其中,P(i)表示单帧分类结果中的第i个概率值,export[i]表示全连接层输出结果中的第i个元素,export[k]表示全连接层输出结果中的第k个元素,i,k∈[1,101],exp()表示以自然对数e为底数的指数函数。
10.根据权利要求9所述的一种基于双流卷积神经网络和双向GRU的动作识别方法,其特征在于,随机梯度下降法分为以下几步:
计算输出层的梯度,
Figure FDA0003297699480000032
表示输出层,即第Q层,第q个节点的梯度,其计算公式如下:
Figure FDA0003297699480000033
其中oq表示第Q层第q个节点的输出,tq表示第Q层第q个节点的标签。
计算隐含层的梯度,
Figure FDA0003297699480000034
表示第G个隐含层第g个节点的梯度,其计算公式如下:
Figure FDA0003297699480000035
其中og表示第G个隐含层第g个节点的标签值,
Figure FDA0003297699480000036
表示第G个隐含层上一层,即第J层,第j个节点的梯度,wab表示权值矩阵第a行第b列的值。
CN202111182076.7A 2021-10-11 2021-10-11 一种基于双流卷积神经网络和双向gru的动作识别方法 Active CN113807318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111182076.7A CN113807318B (zh) 2021-10-11 2021-10-11 一种基于双流卷积神经网络和双向gru的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111182076.7A CN113807318B (zh) 2021-10-11 2021-10-11 一种基于双流卷积神经网络和双向gru的动作识别方法

Publications (2)

Publication Number Publication Date
CN113807318A true CN113807318A (zh) 2021-12-17
CN113807318B CN113807318B (zh) 2023-10-31

Family

ID=78939376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111182076.7A Active CN113807318B (zh) 2021-10-11 2021-10-11 一种基于双流卷积神经网络和双向gru的动作识别方法

Country Status (1)

Country Link
CN (1) CN113807318B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114565880A (zh) * 2022-04-28 2022-05-31 武汉大学 一种基于光流追踪的伪造视频检验方法、系统及设备
CN115723287A (zh) * 2022-12-16 2023-03-03 河北科技大学 基于温度控制聚氨酯发泡的生产设备
CN116738324A (zh) * 2023-08-11 2023-09-12 太极计算机股份有限公司 模型训练方法和渔船单拖作业行为的识别方法
CN117274263A (zh) * 2023-11-22 2023-12-22 泸州通源电子科技有限公司 一种显示器瘢痕缺陷检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023010A (zh) * 2010-10-26 2011-04-20 西安理工大学 基于mems的小波域多传感器信息融合系统及融合方法
CN108647591A (zh) * 2018-04-25 2018-10-12 长沙学院 一种基于视觉-语义特征的视频中行为识别方法和系统
EP3404578A1 (en) * 2017-05-17 2018-11-21 Samsung Electronics Co., Ltd. Sensor transformation attention network (stan) model
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN111079655A (zh) * 2019-12-18 2020-04-28 航天物联网技术有限公司 一种基于融合神经网络的视频中人体行为识别方法
US20200210708A1 (en) * 2019-01-02 2020-07-02 Boe Technology Group Co., Ltd. Method and device for video classification
CN111860691A (zh) * 2020-07-31 2020-10-30 福州大学 基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法
CN112329690A (zh) * 2020-11-16 2021-02-05 河北工业大学 基于时空残差网络和时序卷积网络的连续手语识别方法
CN112613486A (zh) * 2021-01-07 2021-04-06 福州大学 基于多层注意力和BiGRU的专业立体视频舒适度分类方法
WO2021098616A1 (zh) * 2019-11-21 2021-05-27 中国科学院深圳先进技术研究院 运动姿态识别方法、运动姿态识别装置、终端设备及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023010A (zh) * 2010-10-26 2011-04-20 西安理工大学 基于mems的小波域多传感器信息融合系统及融合方法
EP3404578A1 (en) * 2017-05-17 2018-11-21 Samsung Electronics Co., Ltd. Sensor transformation attention network (stan) model
CN108647591A (zh) * 2018-04-25 2018-10-12 长沙学院 一种基于视觉-语义特征的视频中行为识别方法和系统
US20200210708A1 (en) * 2019-01-02 2020-07-02 Boe Technology Group Co., Ltd. Method and device for video classification
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
WO2021098616A1 (zh) * 2019-11-21 2021-05-27 中国科学院深圳先进技术研究院 运动姿态识别方法、运动姿态识别装置、终端设备及介质
CN111079655A (zh) * 2019-12-18 2020-04-28 航天物联网技术有限公司 一种基于融合神经网络的视频中人体行为识别方法
CN111860691A (zh) * 2020-07-31 2020-10-30 福州大学 基于注意力和循环神经网络的专业立体视频视觉舒适度分类方法
CN112329690A (zh) * 2020-11-16 2021-02-05 河北工业大学 基于时空残差网络和时序卷积网络的连续手语识别方法
CN112613486A (zh) * 2021-01-07 2021-04-06 福州大学 基于多层注意力和BiGRU的专业立体视频舒适度分类方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HAIYANG HU 等: "Workflow recognition with structured two-stream convolutional networks", 《PATTERN RECOGNITION LETTERS》, vol. 130, pages 267 - 274, XP086039673, DOI: 10.1016/j.patrec.2018.10.011 *
KAREN SIMONYAN 等: "Two-Stream Convolutional Networks for Action Recognition in Videos", 《ARXIV》, pages 1 - 11 *
吕淑平 等: "基于双流卷积神经网络的人体动作识别研究", 《实验技术与管理》, vol. 38, no. 8, pages 144 - 148 *
桑海峰 等: "基于双向门控循环单元的3D人体运动预测", 《电子与信息学报》, vol. 41, no. 9, pages 2256 - 2263 *
王科: "基于三维时空特征和上下文信息的视频分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 5, pages 138 - 1015 *
陈颖 等: "基于3D双流卷积神经网络和GRU网络的人体行为识别", 《计算机应用与软件》, vol. 37, no. 5, pages 164 - 168 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114565880A (zh) * 2022-04-28 2022-05-31 武汉大学 一种基于光流追踪的伪造视频检验方法、系统及设备
CN114565880B (zh) * 2022-04-28 2022-07-19 武汉大学 一种基于光流追踪的伪造视频检验方法、系统及设备
CN115723287A (zh) * 2022-12-16 2023-03-03 河北科技大学 基于温度控制聚氨酯发泡的生产设备
CN116738324A (zh) * 2023-08-11 2023-09-12 太极计算机股份有限公司 模型训练方法和渔船单拖作业行为的识别方法
CN116738324B (zh) * 2023-08-11 2023-12-22 太极计算机股份有限公司 模型训练方法和渔船单拖作业行为的识别方法
CN117274263A (zh) * 2023-11-22 2023-12-22 泸州通源电子科技有限公司 一种显示器瘢痕缺陷检测方法
CN117274263B (zh) * 2023-11-22 2024-01-26 泸州通源电子科技有限公司 一种显示器瘢痕缺陷检测方法

Also Published As

Publication number Publication date
CN113807318B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN111652066B (zh) 基于多自注意力机制深度学习的医疗行为识别方法
CN113807318B (zh) 一种基于双流卷积神经网络和双向gru的动作识别方法
CN112507898B (zh) 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
Li A deep spatiotemporal perspective for understanding crowd behavior
US20220215227A1 (en) Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium
CN111652903B (zh) 一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法
CN108734095B (zh) 一种基于3d卷积神经网络的动作检测方法
CN108133188A (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN109446923A (zh) 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN113297936B (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN112200096B (zh) 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
Zhu et al. Attentive multi-stage convolutional neural network for crowd counting
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
Wang et al. Edge computing-enabled crowd density estimation based on lightweight convolutional neural network
Li et al. Fire flame image detection based on transfer learning
Niu et al. ALSTM: adaptive LSTM for durative sequential data
Liu et al. An optimized Capsule-LSTM model for facial expression recognition with video sequences
Cheng et al. Exploit the potential of multi-column architecture for crowd counting
Islam et al. New hybrid deep learning method to recognize human action from video
CN111414846B (zh) 基于关键时空信息驱动和组群共现性结构化分析的组群行为识别方法
Zhang et al. Research on facial expression recognition based on neural network
CN114495151A (zh) 一种群组行为识别方法
CN113688204A (zh) 一种利用相似场景及混合注意力的多人会话情感预测方法
Harris et al. A biologically inspired visual working memory for deep networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant