CN110378208A - 一种基于深度残差网络的行为识别方法 - Google Patents

一种基于深度残差网络的行为识别方法 Download PDF

Info

Publication number
CN110378208A
CN110378208A CN201910499059.2A CN201910499059A CN110378208A CN 110378208 A CN110378208 A CN 110378208A CN 201910499059 A CN201910499059 A CN 201910499059A CN 110378208 A CN110378208 A CN 110378208A
Authority
CN
China
Prior art keywords
residual error
error network
network unit
size
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910499059.2A
Other languages
English (en)
Other versions
CN110378208B (zh
Inventor
陈华华
查永亮
叶学义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910499059.2A priority Critical patent/CN110378208B/zh
Publication of CN110378208A publication Critical patent/CN110378208A/zh
Application granted granted Critical
Publication of CN110378208B publication Critical patent/CN110378208B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Abstract

本发明公开了一种基于深度残差网络的行为识别方法。本发明以深度残差网络分别构建空间网络和时间网络,包括训练阶段和测试阶段:在训练阶段,提取训练视频的原始帧和光流,分别送入空间网络和时间网络进行训练;在测试阶段,提取测试视频的原始帧和光流,分别送入训练得到的空间和时间网络模型,每个模型分别得到每个行为所属各分类的得分;再将两个模型的分类得分进行融合,通过softmax分类器判断出最终的行为类别。本发明方法能够根据特征通道的重要程度来增强对当前行为有效的特征,并抑制较小的特征,从而提高模型对输入数据的表达能力。本发明具有较高的行为识别准确率,特别是在一些复杂动作和较难识别动作中有较好的表现。

Description

一种基于深度残差网络的行为识别方法
技术领域
本发明属于计算机技术领域,尤其是行为识别技术领域,涉及一种对视频人体行为进行识别的方法,特别是一种基于深度残差网络(Residual Neural Network,ResNet)的行为识别方法。
背景技术
视频行为识别是指使用一些算法使计算机去自动识别图像序列或视频中的动作。首先从图像序列和视频中提取有效的视觉特征信息,再用适当的方法去表示这些信息,最后构造一个分类模型来对行为进行学习并实现正确识别。
由于视频中连续帧的行为外观非常相似,因此视频行为识别模型需要对外观进行时间推理。在行为识别中,除了行为外观以外,还需要对复杂的时间关系建模。虽然卷积神经网络在基于图像识别的任务中取得了巨大成功,但是如何利用深层网络对视频的时间演化进行有效建模仍不清楚。
发明内容
本发明的目的就是提供一种基于深度残差网络的行为识别方法,以更好的表达特征,从而提高行为识别的准确率。
本发明方法将深度残差网络应用到行为识别中,包括训练阶段和测试阶段。
所述的训练阶段首先进行预处理:
选取待检测视频数据集,视频数据集包含训练数据集和测试数据集;将待训练视频等分为K个片段,表示为Sr={Sr1,Sr2,…,SrK},下角标r表示训练集,假设视频长度为A,则每个片段长度为A/K;图像尺寸均规范化为M×N,M和N分别表示图像的高度和宽度;
从每个片段中随机提取一帧图像,并用TV-L1算法(注:引用自Zach C,Pock T,Bischof H.A Duality Based Approach for Realtime TV-L1Optical Flow[J]//PatternRecognition,2007:214-223.)提取6个连续帧间的光流数据,光流数据分为x方向和y方向,提取结果表示为Tr={Tr1,Tr2,…,TrK},其中包含一帧图像Irk,通道数为3,以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5,k∈{1,2,…,K}。
训练阶段的具体步骤是:
步骤(1).构建时空双流网络:所述的时空双流网络包含空间网络和时间网络,空间网络和时间网络都使用级联ResNet网络实现;所述的级联ResNet网络包括卷积层、最大池化层、残差网络单元、平均池化层、全连接层和softmax分类器;
所述的残差网络单元包含以下结构:第一层包含1×1卷积核,该层参数为通道数channel为H,步长stride为Q,补零宽度zero-padding为0,批归一化(BatchNormalization,BN)处理和改进型线性单元(Rectified Linear Unit,Relu)处理;第二层包含3×3卷积核,该层参数为通道数channel为I,步长stride为1,补零宽度zero-padding为1,BN处理和Relu处理;第三层包含1×1卷积核,该层参数为通道数channel为J,步长stride为1,补零宽度zero-padding为0,BN处理,输出J个通道的二维矩阵Ui,i=1,2,…,J;第三层后接平均池化层,经过平均池化层后,经过两个前后级联的通道数为J/16的全连接层,输出再经过通道数为J的全连接层,后接Sigmoid激活函数层,输出是长度为J的实数数列s;将Ui和s一起输入缩放层得到输出Vi,缩放层运算为Vi=si⊙Ui,表示si与Ui中的每个元素相乘,si是数列s的第i个元素,i=1,2,…,J;输出J个通道的Vi,i=1,2,…,J;最后将缩放层的输出和第一层的输入相加,采用Relu处理后输出,输出通道数为J。如果第一层输入的通道数不足J,就将缺少的通道数用0填充。
空间网络的学习步骤如下:(a)输入图像尺寸为224×224×3,经过一个卷积核大小为7×7的卷积层,该层参数为通道数channel为64,步长stride为2,补零宽度zero-padding为3,BN处理,激活函数采用Relu,输出尺寸为112×112×64;(b)经过最大池化层,池化核大小为3×3,步长stride为2,输出尺寸为56×56×64;(c)经过3个结构相同的残差网络单元,该残差单元中Q为1、H为64、I为64、J为256,输出尺寸为56×56×256;(d)经过1个残差网络单元,该残差网络单元中Q为2、H为128、I为128、J为512,输出尺寸为28×28×512;(e)经过3个结构相同的残差网络单元,该残差网络单元中Q为1、H为128、I为128、J为512,输出尺寸为28×28×512;(f)经过1个残差网络单元,该残差网络单元中Q为2、H为256、I为256、J为1024,输出尺寸为14×14×1024;(g)经过22个结构相同的残差网络单元,该残差网络单元中Q为1、H为256、I为256、J为1024,输出尺寸为14×14×1024;(h)经过1个残差网络单元,该残差网络单元中Q为2、H为512、I为512、J为2048,输出尺寸为7×7×2048;(i)经过2个结构相同的残差网络单元,该残差网络单元中Q为1、H为512、I为512、J为2048,输出尺寸为7×7×2048;(j)经过级联的平均池化层和全连接层,池化层的大小7×7,stide为1,输出尺寸为1×1×2048,全连接层输出通道数为C,输出尺寸为1×1×C,使用Softmax分类器得出分类结果,C为行为类别数。
时间网络的学习步骤如下:(k)输入光流图像尺寸为224×224×10,经过一个7×7的卷积核的卷积,该层参数为通道数channel为64,步长stride为2,补零宽度zero-padding为3,BN处理,激活函数采用Relu,输出尺寸为112×112×64;(l)经过最大池化层,池化核大小为3×3,步长stride为2,输出尺寸为56×56×64;(m)经过3个结构相同的残差网络单元,该残差单元中Q为1、H为64、I为64、J为256,输出尺寸为56×56×256;(n)经过1个残差网络单元,该残差网络单元中Q为2、H为128、I为128、J为512,输出尺寸为28×28×512;(o)经过3个结构相同的残差网络单元,该残差网络单元中Q为1、H为128、I为128、J为512,输出尺寸为28×28×512;(p)经过1个残差网络单元,该残差网络单元中Q为2、H为256、I为256、J为1024,输出尺寸为14×14×1024;(q)经过22个结构相同的残差网络单元,该残差网络单元中Q为1、H为256、I为256、J为1024,输出尺寸为14×14×1024;(r)经过1个残差网络单元,该残差网络单元中Q为2、H为512、I为512、J为2048,输出尺寸为7×7×2048;(s)经过2个结构相同的残差网络单元,该残差网络单元中Q为1、H为512、I为512、J为2048,输出尺寸为7×7×2048;(t)经过级联的平均池化层和全连接层,池化层的大小7×7,stride为1,输出尺寸为1×1×2048,经全连接层输出尺寸为1×1×C,使用Softmax分类器得出分类结果。
步骤(2).将分段Tr={Tr1,Tr2,…,TrK}中Trk的图像Irk分别送入空间网络中进行迭代训练,k∈{1,2,…,K};批量大小设置为Nrip,r表示训练集,i表示空间网络以图像为输入,p表示批量大小设置,Nrip∈{4,5,6,7,8};学习率初始值为Lri,0≤Lri≤0.0015;每隔Nri次迭代后更新学习率,使学习率降为原来的thri,1200≤Nri≤1600,0.8≤thri≤0.9;当训练迭代Nrii次时,结束训练,得到空间网络的模型,6000≤Nrii≤8000。
训练完成后得到该片段属于每类动作的外观分类得分是由全连接层C个通道输出值组成的矢量,向量长度为C。
将所有片段的分类得分送入均值函数中,得到视频属于每个类别的最终外观得分GIr是长度为C的向量。
步骤(3).将分段Tr={Tr1,Tr2,…,TrK}中Trk的x方向光流数据和y方向光流数据一起组成10通道的数据送入时间网络中进行迭代训练,k∈{1,2,…,K};批量大小设置为Nrlp,r表示训练集,l表示空间网络以光流为输入,p表示批量大小设置,Nrlp∈{4,5,6,7,8};学习率初始值为Lrl,0≤Lrl≤0.0015;每隔Nrl次迭代后更新学习率,使学习率降为原来的thrl,2500≤Nrl≤3000,0.8≤thri≤0.9;当训练迭代Nrli次时,结束训练,得到时间网络的模型,16000≤Nrli≤18000。
训练完成后得到该片段属于每类动作的运动分类得分是由全连接层C个通道输出值组成的矢量,向量长度为C。
将所有片段的分类得分送入均值函数中,得到视频属于每个类别的最终运动得分GLr也是长度为C的向量。
至此,训练阶段完毕。
所述的测试阶段首先进行预处理:
选取待测试视频数据集,每帧图像大小为M×N,将待测试视频等分为K个片段,表示为Sc={Sc1,Sc2,…,ScK},下角标c表示测试集,假设测试集视频长度为B,则每个测试集片段长度为B/K;
从每个片段中随机提取一帧图像,并用TV-L1算法提取6个连续帧间的光流数据,光流数据分为x方向和y方向,每段提取结果表示为Tc={Tc1,Tc2,…,TcK},其中包含一帧图像Ick′,通道数为3,以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5,k′∈{1,2,…,K}。
测试阶段的具体步骤是:
步骤(Ⅰ).将分段Tc={Tc1,Tc2,…,TcK}中Tck′的Ick′送入训练阶段得到的空间网络模型中,得到该片段属于每类动作的外观分类得分再将所有片段的外观分类得分送入均值函数中,得到视频属于每个类别的最终外观得分GIc是长度为C的向量。
步骤(Ⅱ).将分段Tc={Tc1,Tc2,…,TcK}中Tck′的x方向光流数据和y方向光流数据一起组成10通道的光流数据送入训练得到的时间网络模型中,得到该片段属于每类动作的运动分类得分再将所有片段的分类得分送入均值函数中,得到视频属于每个类别的最终运动得分GLc也是长度为C的向量。
步骤(Ⅲ).将GIc和GLc按照1:1~2比例进行加权平均融合,得到视频属于每个类别的得分G(Tc1,Tc2,…,TcK),G是一个长度为C的向量。
G(Tc1,Tc2,…,TcK)中具有最大得分值的元素对应的类别就是该视频所属的行为类别。
本发明提出了基于ResNet的行为识别方法,以ResNet构建时间和空间双流网络,和现有的方法相比,该方法对一些复杂动作和较难识别动作中有更好的表现。
本发明的基于深度残差网络的行为识别方法,采用视频的原始帧作为空间网络的输入,提取动作的外观特征。以光流作为时间网络的输入,提取视频的运动特征,使得网络能够充分利用视频的信息,提高行为识别的准确率。本发明中的残差网络单元具有可根据特征通道的重要程度增强行为的显著特征,抑制较小的特征,提高了双流网络的特征提取能力,提高了识别准确率。本发明具有较高的行为识别准确率,特别是在一些复杂动作和较难识别动作中有较好的表现。
具体实施方式
下面结合实施例对本发明做进一步说明,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知的功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
一种基于深度残差网络的行为识别方法,该方法包括两个阶段:训练阶段和测试阶段。
训练阶段包括三个模块:1、预处理模块,该模块主要功能是获取训练视频的原始帧和光流;2、搭建时空双流网络模块,该模块主要功能是搭建基于ResNet的空间网络和时间网络;3、训练神经网络,该模块主要功能是利用光流和原始帧分别对时空双流网络进行训练,得到空间网络模型和时间网络模型。
测试阶段也包括三个模块:1、预处理模块,该模块主要功能是获取测试视频的原始帧和光流;2、时空双流网络测试模块,该模块主要功能是将测试数据集的原始帧和光流分别送入空间网络模型和时间网络模型测试,使用分类器得到空间网络和时间网络的输出得分;3、行为识别模块,对空间网络和时间网络的输出得分进行融合,得到行为识别结果。
下面以ucf-101数据集为例(C=101,K=3),进一步说明该方法。
一、训练阶段:
首先进行预处理:
选取待检测视频数据集,视频数据集包含训练数据集和测试数据集;将待训练视频等分为3个片段,表示为Sr={Sr1,Sr2,Sr3},下角标r表示训练集,假设视频长度为A,则每个片段长度为A/3;图像尺寸均规范化为224×224。
从每个片段中随机提取一帧图像,并用TV-L1算法提取6个连续帧间的光流数据,光流数据分为x方向和y方向,提取结果表示为Tr={Tr1,Tr2,Tr3},其中包含一帧图像Irk,通道数为3,以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5,k∈{1,2,3}。
步骤(1).构建时空双流网络:时空双流网络包含空间网络和时间网络,空间网络和时间网络都使用级联ResNet网络实现。级联ResNet网络由卷积层、最大池化层、残差网络单元、平均池化层、全连接层和softmax分类器组成。
残差网络单元包含以下结构:
第一层包含1×1卷积核,该层参数为通道数channel为H,步长stride为Q,补零宽度zero-padding为0,BN(批归一化)处理和Relu(改进型线性单元)处理。
第二层包含3×3卷积核,该层参数为通道数channel为I,步长stride为1,补零宽度zero-padding为1,BN处理和Relu处理。
第三层包含1×1卷积核,该层参数为通道数channel为J,步长stride为1,补零宽度zero-padding为0,BN处理,输出J个通道的二维矩阵Ui,i=1,2,…,J。
第三层后接平均池化层,经过平均池化层后,经过两个前后级联的通道数为J/16的全连接层,输出再经过通道数为J的全连接层,后接Sigmoid激活函数层,输出是长度为J的实数数列s。
将J个通道的Ui和s一起输入缩放层得到输出Vi,缩放层运算为Vi=si⊙Ui,表示si与Ui中的每个元素相乘,si是数列s的第i个元素,i=1,2,…,J;输出J个通道的Vi,i=1,2,…,J。
最后将缩放层的输出和第一层的输入相加,采用Relu处理后输出,输出通道数为J。如果第一层输入的通道数不足J,就将缺少的通道数用0填充。
空间ResNet网络学习步骤如下:
(a)输入图像尺寸为224×224×3,经过一个卷积核大小为7×7的卷积层,该层参数为通道数channel为64,步长stride为2,补零宽度zero-padding为3,BN处理,激活函数采用Relu,输出尺寸为112×112×64;
(b)经过最大池化层,池化核大小为3×3,步长stride为2,输出尺寸为56×56×64;
(c)经过3个结构相同的残差网络单元,该残差单元中Q为1、H为64、I为64、J为256,输出尺寸为56×56×256;
(d)经过1个残差网络单元,该残差网络单元中Q为2、H为128、I为128、J为512,输出尺寸为28×28×512;
(e)经过3个结构相同的残差网络单元,该残差网络单元中Q为1、H为128、I为128、J为512,输出尺寸为28×28×512;
(f)经过1个残差网络单元,该残差网络单元中Q为2、H为256、I为256、J为1024,输出尺寸为14×14×1024;
(g)经过22个结构相同的残差网络单元,该残差网络单元中Q为1、H为256、I为256、J为1024,输出尺寸为14×14×1024;
(h)经过1个残差网络单元,该残差网络单元中Q为2、H为512、I为512、J为2048,输出尺寸为7×7×2048;
(i)经过2个结构相同的残差网络单元,该残差网络单元中Q为1、H为512、I为512、J为2048,输出尺寸为7×7×2048;
(j)经过级联的平均池化层和全连接层,池化层大小7×7,stide为1,输出尺寸为1×1×2048,全连接层输出通道数为C,输出尺寸为1×1×C,使用Softmax分类器得出分类结果。
时间网络的学习步骤如下:
(k)输入光流图像尺寸为224×224×10,经过一个7×7的卷积核的卷积,该层参数为通道数channel为64,步长stride为2,补零宽度zero-padding为3,BN处理,激活函数采用Relu,输出尺寸为112×112×64;
(l)经过最大池化层,池化核大小为3×3,步长stride为2,输出尺寸为56×56×64;
(m)经过3个结构相同的残差网络单元,该残差单元中Q为1、H为64、I为64、J为256,输出尺寸为56×56×256;
(n)经过1个残差网络单元,该残差网络单元中Q为2、H为128、I为128、J为512,输出尺寸为28×28×512;
(o)经过3个结构相同的残差网络单元,该残差网络单元中Q为1、H为128、I为128、J为512,输出尺寸为28×28×512;
(p)经过1个残差网络单元,该残差网络单元中Q为2、H为256、I为256、J为1024,输出尺寸为14×14×1024;
(q)经过22个结构相同的残差网络单元,该残差网络单元中Q为1、H为256、I为256、J为1024,输出尺寸为14×14×1024;
(r)经过1个残差网络单元,该残差网络单元中Q为2、H为512、I为512、J为2048,输出尺寸为7×7×2048;
(s)经过2个结构相同的残差网络单元,该残差网络单元中Q为1、H为512、I为512、J为2048,输出尺寸为7×7×2048;
(t)经过级联的平均池化层和全连接层,池化层的大小7×7,stride为1,输出尺寸为1×1×2048,经全连接层输出尺寸为1×1×C,使用Softmax分类器得出分类结果。
步骤(2).将分段Tr={Tr1,Tr2,Tr3}中Trk的图像Irk分别送入空间网络中进行迭代训练,批量大小设置为8,学习率初始值为0.001,并且每隔1500次迭代后更新学习率,使学习率降为原来的0.8,k∈{1,2,3};当训练迭代6000次时,结束训练,得到空间网络的模型。
训练完成后得到该片段属于每类动作的外观分类得分 为长度为C的向量;将所有片段的外观分类得分送入均值函数中,得到视频属于每个类别的最终外观得分GIr也是长度为C的向量。
步骤(3).将分段Tr={Tr1,Tr2,Tr3}中Trk的x方向光流数据和y方向光流数据一起组成10通道的数据送入时间网络中进行迭代训练,k∈{1,2,3},批量大小设为8,学习率初始值设为0.001,并且每隔3000次迭代后更新学习率,使学习率降为原来的0.8。当训练迭代18000次时,结束训练,得到时间网络的模型。训练完成后得到该片段属于每类动作的运动分类得分其中,k∈{1,2,3}。再将所有片段的运动分类得分送入均值函数中,得到视频属于每个类别的最终运动得分GLr也是长度为C的向量。
至此,训练阶段完毕。
二、测试阶段:
首先进行预处理:
选取待测试视频数据集,每帧图像大小规范化为224×224,将待测试视频等分为3个片段,表示为Sc={Sc1,Sc2,Sc3},假设测试集视频长度为B,则每个测试集片段长度为B/3。
从每个片段中随机提取一帧图像,并用TV-L1算法提取6个连续帧间的光流数据,光流数据分为x方向和y方向,每段提取结果表示为Tc={Tc1,Tc2,Tc3},其中包含一帧图像Ick′,通道数为3,以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5,k′∈{1,2,3}。
步骤(Ⅰ).将分段Tc={Tc1,Tc2,Tc3}中Tck′的Ick′送入训练阶段得到的空间网络模型中,得到该片段属于每类动作的外观分类得分k′∈{1,2,3}。再将所有片段的外观分类得分送入均值函数中,得到视频属于每个类别的最终外观得分GIc是长度为C的向量。
步骤(Ⅱ).将分段Tc={Tc1,Tc2,Tc3}中Tck′的x方向光流数据和y方向光流数据一起组成10通道的光流数据送入训练得到的时间网络模型中,得到该片段属于每类动作的运动分类得分k′∈{1,2,3}。再将所有片段的运动分类得分送入均值函数中,得到视频属于每个类别的最终运动得分GLc也是长度为C的向量。
步骤(Ⅲ).将GIc和GLc按照1:1.5比例进行加权平均融合,得到视频属于每个类别的得分G(Tc1,Tc2,Tc3),G是一个长度为C的向量。
G(Tc1,Tc2,Tc3)中具有最大得分值的元素对应的类别就是该视频所属的类别。

Claims (6)

1.一种基于深度残差网络的行为识别方法,包括训练阶段和测试阶段,其特征在于:
所述的训练阶段首先进行预处理:
选取待检测视频数据集,视频数据集包含训练数据集和测试数据集;将待训练视频等分为K个片段,表示为Sr={Sr1,Sr2,…,SrK},下角标r表示训练集,假设视频长度为A,则每个片段长度为A/K;图像尺寸均规范化为M×N,M和N分别表示图像的高度和宽度;
从每个片段中随机提取一帧图像,并用TV-L1算法提取6个连续帧间的光流数据,光流数据分为x方向和y方向,提取结果表示为Tr={Tr1,Tr2,…,TrK},其中包含一帧图像Irk,通道数为3,以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5,k∈{1,2,…,K};
训练阶段的具体步骤是:
步骤(1).构建时空双流网络:所述的时空双流网络包含空间网络和时间网络,空间网络和时间网络都使用级联ResNet网络实现;所述的级联ResNet网络包括卷积层、最大池化层、残差网络单元、平均池化层、全连接层和softmax分类器;
所述的残差网络单元包含以下结构:
第一层包含1×1卷积核,该层参数为通道数channel为H,步长stride为Q,补零宽度zero-padding为0,BN处理和Relu处理;所述的BN处理为批归一化处理,Relu处理为改进型线性单元处理;
第二层包含3×3卷积核,该层参数为通道数channel为I,步长stride为1,补零宽度zero-padding为1,BN处理和Relu处理;
第三层包含1×1卷积核,该层参数为通道数channel为J,步长stride为1,补零宽度zero-padding为0,BN处理,输出J个通道的二维矩阵Ui,i=1,2,…,J;
第三层后接平均池化层,经过平均池化层后,经过两个前后级联的通道数为J/16的全连接层,输出再经过通道数为J的全连接层,后接Sigmoid激活函数层,输出是长度为J的实数数列s;将Ui和s一起输入缩放层得到输出Vi,缩放层运算为Vi=si⊙Ui,表示si与Ui中的每个元素相乘,si是数列s的第i个元素,i=1,2,…,J;输出J个通道的Vi,i=1,2,…,J;最后将缩放层的输出和第一层的输入相加,采用Relu处理后输出,输出通道数为J;如果第一层输入的通道数不足J,就将缺少的通道数用0填充;
空间网络的学习步骤如下:
(a)输入图像尺寸为224×224×3,经过一个卷积核大小为7×7的卷积层,该层参数为通道数channel为64,步长stride为2,补零宽度zero-padding为3,BN处理,激活函数采用Relu,输出尺寸为112×112×64;
(b)经过最大池化层,池化核大小为3×3,步长stride为2,输出尺寸为56×56×64;
(c)经过3个结构相同的残差网络单元,该残差单元中Q为1、H为64、I为64、J为256,输出尺寸为56×56×256;
(d)经过1个残差网络单元,该残差网络单元中Q为2、H为128、I为128、J为512,输出尺寸为28×28×512;
(e)经过3个结构相同的残差网络单元,该残差网络单元中Q为1、H为128、I为128、J为512,输出尺寸为28×28×512;
(f)经过1个残差网络单元,该残差网络单元中Q为2、H为256、I为256、J为1024,输出尺寸为14×14×1024;
(g)经过22个结构相同的残差网络单元,该残差网络单元中Q为1、H为256、I为256、J为1024,输出尺寸为14×14×1024;
(h)经过1个残差网络单元,该残差网络单元中Q为2、H为512、I为512、J为2048,输出尺寸为7×7×2048;
(i)经过2个结构相同的残差网络单元,该残差网络单元中Q为1、H为512、I为512、J为2048,输出尺寸为7×7×2048;
(j)经过级联的平均池化层和全连接层,池化层的大小7×7,步长stide为1,输出尺寸为1×1×2048,全连接层输出通道数为C,输出尺寸为1×1×C,使用Softmax分类器得出分类结果;
时间网络的学习步骤如下:
(k)输入光流图像尺寸为224×224×10,经过一个7×7的卷积核的卷积,该层参数为通道数channel为64,步长stride为2,补零宽度zero-padding为3,BN处理,激活函数采用Relu,输出尺寸为112×112×64;
(l)经过最大池化层,池化核大小为3×3,步长stride为2,输出尺寸为56×56×64;
(m)经过3个结构相同的残差网络单元,该残差单元中Q为1、H为64、I为64、J为256,输出尺寸为56×56×256;
(n)经过1个残差网络单元,该残差网络单元中Q为2、H为128、I为128、J为512,输出尺寸为28×28×512;
(o)经过3个结构相同的残差网络单元,该残差网络单元中Q为1、H为128、I为128、J为512,输出尺寸为28×28×512;
(p)经过1个残差网络单元,该残差网络单元中Q为2、H为256、I为256、J为1024,输出尺寸为14×14×1024;
(q)经过22个结构相同的残差网络单元,该残差网络单元中Q为1、H为256、I为256、J为1024,输出尺寸为14×14×1024;
(r)经过1个残差网络单元,该残差网络单元中Q为2、H为512、I为512、J为2048,输出尺寸为7×7×2048;
(s)经过2个结构相同的残差网络单元,该残差网络单元中Q为1、H为512、I为512、J为2048,输出尺寸为7×7×2048;
(t)经过级联的平均池化层和全连接层,池化层的大小7×7,步长stride为1,输出尺寸为1×1×2048,经全连接层输出尺寸为1×1×C,使用Softmax分类器得出分类结果;
步骤(2).将分段Tr={Tr1,Tr2,…,TrK}中Trk的图像Irk分别送入空间网络中进行迭代训练,k∈{1,2,…,K};批量大小设置为Nrip,r表示训练集,i表示空间网络以图像为输入,p表示批量大小设置,Nrip∈{4,5,6,7,8};设置学习率初始值为Lri,每隔Nri次迭代后更新学习率,使学习率降为原来的thri,当训练迭代Nrii次时,结束训练,得到空间网络的模型;
训练完成后得到该片段属于每类动作的外观分类得分 是由全连接层C个通道输出值组成的矢量,向量长度为C;
将所有片段的分类得分送入均值函数中,得到视频属于每个类别的最终外观得分
步骤(3).将分段Tr={Tr1,Tr2,…,TrK}中Trk的x方向光流数据和y方向光流数据一起组成10通道的数据送入时间网络中进行迭代训练,k∈{1,2,...,K};批量大小设置为Nrlp,r表示训练集,l表示空间网络以光流为输入,p表示批量大小设置,Nrlp∈{4,5,6,7,8};设置学习率初始值为Lrl,每隔Nrl次迭代后更新学习率,使学习率降为原来的thrl,当训练迭代Nrli次时,结束训练,得到时间网络的模型;
训练完成后得到该片段属于每类动作的运动分类得分 是由全连接层C个通道输出值组成的矢量;
将所有片段的分类得分送入均值函数中,得到视频属于每个类别的最终运动得分
所述的测试阶段首先进行预处理:
选取待测试视频数据集,每帧图像大小为M×N,将待测试视频等分为K个片段,表示为Sc={Sc1,Sc2,…,ScK},下角标c表示测试集,假设测试集视频长度为B,则每个测试集片段长度为B/K;
从每个片段中随机提取一帧图像,并用TV-L1算法提取6个连续帧间的光流数据,光流数据分为x方向和y方向,每段提取结果表示为Tc={Tc1,Tc2,…,TcK},其中包含一帧图像Ick′,通道数为3,以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5,k′∈{1,2,…,K};
测试阶段的具体步骤是:
步骤(Ⅰ).将分段Tc={Tc1,Tc2,…,TcK}中Tck′的Ick′送入训练阶段得到的空间网络模型中,得到该片段属于每类动作的外观分类得分再将所有片段的外观分类得分送入均值函数中,得到视频属于每个类别的最终外观得分
步骤(Ⅱ).将分段Tc={Tc1,Tc2,…,TcK}中Tck′的x方向光流数据和y方向光流数据一起组成10通道的光流数据送入训练得到的时间网络模型中,得到该片段属于每类动作的运动分类得分再将所有片段的分类得分送入均值函数中,得到视频属于每个类别的最终运动得分
步骤(Ⅲ).将GIc和GLc进行加权平均融合,得到视频属于每个类别的得分G(Tc1,Tc2,…,TcK);
G(Tc1,Tc2,…,TcK)中具有最大得分值的元素对应的类别就是该视频所属的行为类别。
2.如权利要求1所述的一种基于深度残差网络的行为识别方法,其特征在于所述的训练阶段的步骤(2)中具体是:设置学习率初始值为Lri,0≤Lri≤0.0015,每隔Nri次迭代后更新学习率,使学习率降为原来的thri,1200≤Nri≤1600,0.8≤thri≤0.9;当训练迭代Nrii次时,结束训练,6000≤Nrii≤8000。
3.如权利要求1所述的一种基于深度残差网络的行为识别方法,其特征在于所述的训练阶段的步骤(3)中具体是:设置学习率初始值为Lrl,0≤Lrl≤0.0015;每隔Nrl次迭代后更新学习率,使学习率降为原来的thrl,2500≤Nrl≤3000,0.8≤thri≤0.9;当训练迭代Nrli次时,结束训练,16000≤Nrli≤18000。
4.如权利要求1所述的一种基于深度残差网络的行为识别方法,其特征在于所述的训练阶段中最终外观得分GIr和最终运动得分GLr是长度为C的向量,C为行为类别数。
5.如权利要求1所述的一种基于深度残差网络的行为识别方法,其特征在于所述的测试阶段中最终外观得分GIc、最终运动得分GLc、视频属于每个类别的得分G,均是长度为C的向量,C为行为类别数。
6.如权利要求1所述的一种基于深度残差网络的行为识别方法,其特征在于所述的测试阶段步骤(Ⅲ)中将GIc和GLc按照1:1~2比例进行加权平均融合。
CN201910499059.2A 2019-06-11 2019-06-11 一种基于深度残差网络的行为识别方法 Expired - Fee Related CN110378208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910499059.2A CN110378208B (zh) 2019-06-11 2019-06-11 一种基于深度残差网络的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910499059.2A CN110378208B (zh) 2019-06-11 2019-06-11 一种基于深度残差网络的行为识别方法

Publications (2)

Publication Number Publication Date
CN110378208A true CN110378208A (zh) 2019-10-25
CN110378208B CN110378208B (zh) 2021-07-13

Family

ID=68249992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910499059.2A Expired - Fee Related CN110378208B (zh) 2019-06-11 2019-06-11 一种基于深度残差网络的行为识别方法

Country Status (1)

Country Link
CN (1) CN110378208B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178319A (zh) * 2020-01-06 2020-05-19 山西大学 基于压缩奖惩机制的视频行为识别方法
CN111400540A (zh) * 2020-03-11 2020-07-10 金陵科技学院 一种基于挤压和激励残差网络的歌声检测方法
CN111401149A (zh) * 2020-02-27 2020-07-10 西北工业大学 基于长短期时域建模算法的轻量级视频行为识别方法
CN111639563A (zh) * 2020-05-18 2020-09-08 浙江工商大学 一种基于多任务的篮球视频事件与目标在线检测方法
CN111652307A (zh) * 2020-05-29 2020-09-11 广西大学 基于卷积神经网络的红木家具智能无损鉴定方法及装置
CN112084928A (zh) * 2020-09-04 2020-12-15 东南大学 基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法
CN112200096A (zh) * 2020-10-14 2021-01-08 公安部第三研究所 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN113255616A (zh) * 2021-07-07 2021-08-13 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376747A (zh) * 2018-12-11 2019-02-22 北京工业大学 一种基于双流卷积神经网络的视频火焰检测方法
CN109446931A (zh) * 2018-10-11 2019-03-08 河南科技大学 基于时序关联分析的动物运动行为判别方法及装置
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN109711277A (zh) * 2018-12-07 2019-05-03 中国科学院自动化研究所 基于时空频域混合学习的行为特征提取方法、系统、装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446923A (zh) * 2018-10-10 2019-03-08 北京理工大学 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN109446931A (zh) * 2018-10-11 2019-03-08 河南科技大学 基于时序关联分析的动物运动行为判别方法及装置
CN109711277A (zh) * 2018-12-07 2019-05-03 中国科学院自动化研究所 基于时空频域混合学习的行为特征提取方法、系统、装置
CN109376747A (zh) * 2018-12-11 2019-02-22 北京工业大学 一种基于双流卷积神经网络的视频火焰检测方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178319A (zh) * 2020-01-06 2020-05-19 山西大学 基于压缩奖惩机制的视频行为识别方法
CN111401149A (zh) * 2020-02-27 2020-07-10 西北工业大学 基于长短期时域建模算法的轻量级视频行为识别方法
CN111401149B (zh) * 2020-02-27 2022-05-13 西北工业大学 基于长短期时域建模算法的轻量级视频行为识别方法
CN111400540A (zh) * 2020-03-11 2020-07-10 金陵科技学院 一种基于挤压和激励残差网络的歌声检测方法
CN111400540B (zh) * 2020-03-11 2023-10-17 金陵科技学院 一种基于挤压和激励残差网络的歌声检测方法
CN111639563A (zh) * 2020-05-18 2020-09-08 浙江工商大学 一种基于多任务的篮球视频事件与目标在线检测方法
CN111639563B (zh) * 2020-05-18 2023-07-18 浙江工商大学 一种基于多任务的篮球视频事件与目标在线检测方法
CN111652307A (zh) * 2020-05-29 2020-09-11 广西大学 基于卷积神经网络的红木家具智能无损鉴定方法及装置
CN112084928A (zh) * 2020-09-04 2020-12-15 东南大学 基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法
CN112200096A (zh) * 2020-10-14 2021-01-08 公安部第三研究所 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质
CN113255616A (zh) * 2021-07-07 2021-08-13 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法

Also Published As

Publication number Publication date
CN110378208B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN110378208A (zh) 一种基于深度残差网络的行为识别方法
Sun et al. Lattice long short-term memory for human action recognition
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
Zhou et al. Photorealistic facial expression synthesis by the conditional difference adversarial autoencoder
Cherian et al. Riemannian dictionary learning and sparse coding for positive definite matrices
CN104217214B (zh) 基于可配置卷积神经网络的rgb‑d人物行为识别方法
CN109934115A (zh) 人脸识别模型的构建方法、人脸识别方法及电子设备
CN109902798A (zh) 深度神经网络的训练方法和装置
CN108932500A (zh) 一种基于深度神经网络的动态手势识别方法及系统
CN107463920A (zh) 一种消除局部遮挡物影响的人脸识别方法
CN109871781A (zh) 基于多模态3d卷积神经网络的动态手势识别方法及系统
CN107808129A (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN109325443A (zh) 一种基于多实例多标签深度迁移学习的人脸属性识别方法
CN107506722A (zh) 一种基于深度稀疏卷积神经网络人脸情感识别方法
CN110309732A (zh) 基于骨架视频的行为识别方法
CN106529499A (zh) 基于傅里叶描述子和步态能量图融合特征的步态识别方法
CN106203363A (zh) 人体骨架运动序列行为识别方法
CN106981080A (zh) 基于红外图像和雷达数据的夜间无人车场景深度估计方法
CN107844795A (zh) 基于主成分分析的卷积神经网络特征提取方法
CN106991408A (zh) 一种候选框生成网络的生成方法及人脸检测方法
CN107657204A (zh) 深层网络模型的构建方法及人脸表情识别方法和系统
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
CN108921047A (zh) 一种基于跨层融合的多模型投票均值动作识别方法
Zhu et al. Facial aging and rejuvenation by conditional multi-adversarial autoencoder with ordinal regression
CN109753864A (zh) 一种基于caffe深度学习框架的人脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210713