CN110378208A

CN110378208A - 一种基于深度残差网络的行为识别方法

Info

Publication number: CN110378208A
Application number: CN201910499059.2A
Authority: CN
Inventors: 陈华华; 查永亮; 叶学义
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-10-25
Anticipated expiration: 2039-06-11
Also published as: CN110378208B

Abstract

本发明公开了一种基于深度残差网络的行为识别方法。本发明以深度残差网络分别构建空间网络和时间网络，包括训练阶段和测试阶段：在训练阶段，提取训练视频的原始帧和光流，分别送入空间网络和时间网络进行训练；在测试阶段，提取测试视频的原始帧和光流，分别送入训练得到的空间和时间网络模型，每个模型分别得到每个行为所属各分类的得分；再将两个模型的分类得分进行融合，通过softmax分类器判断出最终的行为类别。本发明方法能够根据特征通道的重要程度来增强对当前行为有效的特征，并抑制较小的特征，从而提高模型对输入数据的表达能力。本发明具有较高的行为识别准确率，特别是在一些复杂动作和较难识别动作中有较好的表现。

Description

一种基于深度残差网络的行为识别方法

技术领域

本发明属于计算机技术领域，尤其是行为识别技术领域，涉及一种对视频人体行为进行识别的方法，特别是一种基于深度残差网络(Residual Neural Network，ResNet)的行为识别方法。

背景技术

视频行为识别是指使用一些算法使计算机去自动识别图像序列或视频中的动作。首先从图像序列和视频中提取有效的视觉特征信息，再用适当的方法去表示这些信息，最后构造一个分类模型来对行为进行学习并实现正确识别。

由于视频中连续帧的行为外观非常相似，因此视频行为识别模型需要对外观进行时间推理。在行为识别中，除了行为外观以外，还需要对复杂的时间关系建模。虽然卷积神经网络在基于图像识别的任务中取得了巨大成功，但是如何利用深层网络对视频的时间演化进行有效建模仍不清楚。

发明内容

本发明的目的就是提供一种基于深度残差网络的行为识别方法，以更好的表达特征，从而提高行为识别的准确率。

本发明方法将深度残差网络应用到行为识别中，包括训练阶段和测试阶段。

所述的训练阶段首先进行预处理：

选取待检测视频数据集，视频数据集包含训练数据集和测试数据集；将待训练视频等分为K个片段，表示为S_r＝{S_r1,S_r2,…,S_rK}，下角标r表示训练集，假设视频长度为A,则每个片段长度为A/K；图像尺寸均规范化为M×N，M和N分别表示图像的高度和宽度；

从每个片段中随机提取一帧图像，并用TV-L1算法(注：引用自Zach C,Pock T,Bischof H.A Duality Based Approach for Realtime TV-L1Optical Flow[J]//PatternRecognition,2007:214-223.)提取6个连续帧间的光流数据，光流数据分为x方向和y方向，提取结果表示为T_r＝{T_r1,T_r2,…,T_rK}，其中包含一帧图像I_rk，通道数为3，以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5，k∈{1,2,…,K}。

训练阶段的具体步骤是：

步骤(1).构建时空双流网络：所述的时空双流网络包含空间网络和时间网络，空间网络和时间网络都使用级联ResNet网络实现；所述的级联ResNet网络包括卷积层、最大池化层、残差网络单元、平均池化层、全连接层和softmax分类器；

所述的残差网络单元包含以下结构：第一层包含1×1卷积核，该层参数为通道数channel为H，步长stride为Q，补零宽度zero-padding为0，批归一化(BatchNormalization，BN)处理和改进型线性单元(Rectified Linear Unit，Relu)处理；第二层包含3×3卷积核，该层参数为通道数channel为I，步长stride为1，补零宽度zero-padding为1,BN处理和Relu处理；第三层包含1×1卷积核，该层参数为通道数channel为J，步长stride为1，补零宽度zero-padding为0，BN处理，输出J个通道的二维矩阵U_i,i＝1,2,…,J；第三层后接平均池化层，经过平均池化层后，经过两个前后级联的通道数为J/16的全连接层，输出再经过通道数为J的全连接层，后接Sigmoid激活函数层，输出是长度为J的实数数列s；将U_i和s一起输入缩放层得到输出V_i，缩放层运算为V_i＝s_i⊙U_i，表示s_i与U_i中的每个元素相乘，s_i是数列s的第i个元素，i＝1,2,…,J；输出J个通道的V_i，i＝1,2,…,J；最后将缩放层的输出和第一层的输入相加，采用Relu处理后输出，输出通道数为J。如果第一层输入的通道数不足J，就将缺少的通道数用0填充。

空间网络的学习步骤如下：(a)输入图像尺寸为224×224×3，经过一个卷积核大小为7×7的卷积层，该层参数为通道数channel为64，步长stride为2，补零宽度zero-padding为3,BN处理，激活函数采用Relu，输出尺寸为112×112×64；(b)经过最大池化层，池化核大小为3×3，步长stride为2，输出尺寸为56×56×64；(c)经过3个结构相同的残差网络单元，该残差单元中Q为1、H为64、I为64、J为256，输出尺寸为56×56×256；(d)经过1个残差网络单元，该残差网络单元中Q为2、H为128、I为128、J为512，输出尺寸为28×28×512；(e)经过3个结构相同的残差网络单元，该残差网络单元中Q为1、H为128、I为128、J为512，输出尺寸为28×28×512；(f)经过1个残差网络单元，该残差网络单元中Q为2、H为256、I为256、J为1024，输出尺寸为14×14×1024；(g)经过22个结构相同的残差网络单元，该残差网络单元中Q为1、H为256、I为256、J为1024，输出尺寸为14×14×1024；(h)经过1个残差网络单元，该残差网络单元中Q为2、H为512、I为512、J为2048，输出尺寸为7×7×2048；(i)经过2个结构相同的残差网络单元，该残差网络单元中Q为1、H为512、I为512、J为2048，输出尺寸为7×7×2048；(j)经过级联的平均池化层和全连接层，池化层的大小7×7，stide为1，输出尺寸为1×1×2048，全连接层输出通道数为C，输出尺寸为1×1×C，使用Softmax分类器得出分类结果，C为行为类别数。

时间网络的学习步骤如下：(k)输入光流图像尺寸为224×224×10，经过一个7×7的卷积核的卷积，该层参数为通道数channel为64，步长stride为2，补零宽度zero-padding为3,BN处理，激活函数采用Relu，输出尺寸为112×112×64；(l)经过最大池化层，池化核大小为3×3，步长stride为2，输出尺寸为56×56×64；(m)经过3个结构相同的残差网络单元，该残差单元中Q为1、H为64、I为64、J为256，输出尺寸为56×56×256；(n)经过1个残差网络单元，该残差网络单元中Q为2、H为128、I为128、J为512，输出尺寸为28×28×512；(o)经过3个结构相同的残差网络单元，该残差网络单元中Q为1、H为128、I为128、J为512，输出尺寸为28×28×512；(p)经过1个残差网络单元，该残差网络单元中Q为2、H为256、I为256、J为1024，输出尺寸为14×14×1024；(q)经过22个结构相同的残差网络单元，该残差网络单元中Q为1、H为256、I为256、J为1024，输出尺寸为14×14×1024；(r)经过1个残差网络单元，该残差网络单元中Q为2、H为512、I为512、J为2048，输出尺寸为7×7×2048；(s)经过2个结构相同的残差网络单元，该残差网络单元中Q为1、H为512、I为512、J为2048，输出尺寸为7×7×2048；(t)经过级联的平均池化层和全连接层，池化层的大小7×7，stride为1，输出尺寸为1×1×2048，经全连接层输出尺寸为1×1×C，使用Softmax分类器得出分类结果。

步骤(2).将分段T_r＝{T_r1,T_r2,…,T_rK}中T_rk的图像I_rk分别送入空间网络中进行迭代训练，k∈{1,2,…,K}；批量大小设置为N_rip，r表示训练集，i表示空间网络以图像为输入，p表示批量大小设置，N_rip∈{4,5,6,7,8}；学习率初始值为L_ri，0≤L_ri≤0.0015；每隔N_ri次迭代后更新学习率，使学习率降为原来的th_ri，1200≤N_ri≤1600，0.8≤th_ri≤0.9；当训练迭代N_rii次时，结束训练，得到空间网络的模型，6000≤N_rii≤8000。

训练完成后得到该片段属于每类动作的外观分类得分是由全连接层C个通道输出值组成的矢量，向量长度为C。

将所有片段的分类得分送入均值函数中，得到视频属于每个类别的最终外观得分G_Ir是长度为C的向量。

步骤(3).将分段T_r＝{T_r1,T_r2,…,T_rK}中T_rk的x方向光流数据和y方向光流数据一起组成10通道的数据送入时间网络中进行迭代训练，k∈{1,2,…,K}；批量大小设置为N_rlp，r表示训练集，l表示空间网络以光流为输入，p表示批量大小设置，N_rlp∈{4,5,6,7,8}；学习率初始值为L_rl，0≤L_rl≤0.0015；每隔N_rl次迭代后更新学习率，使学习率降为原来的th_rl，2500≤N_rl≤3000，0.8≤th_ri≤0.9；当训练迭代N_rli次时，结束训练，得到时间网络的模型，16000≤N_rli≤18000。

训练完成后得到该片段属于每类动作的运动分类得分是由全连接层C个通道输出值组成的矢量，向量长度为C。

将所有片段的分类得分送入均值函数中，得到视频属于每个类别的最终运动得分G_Lr也是长度为C的向量。

至此，训练阶段完毕。

所述的测试阶段首先进行预处理：

选取待测试视频数据集，每帧图像大小为M×N，将待测试视频等分为K个片段，表示为S_c＝{S_c1,S_c2,…,S_cK}，下角标c表示测试集，假设测试集视频长度为B,则每个测试集片段长度为B/K；

从每个片段中随机提取一帧图像，并用TV-L1算法提取6个连续帧间的光流数据，光流数据分为x方向和y方向，每段提取结果表示为T_c＝{T_c1,T_c2,…,T_cK}，其中包含一帧图像I_ck′，通道数为3，以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5，k′∈{1,2,…,K}。

测试阶段的具体步骤是：

步骤(Ⅰ).将分段T_c＝{T_c1,T_c2,…,T_cK}中T_ck′的I_ck′送入训练阶段得到的空间网络模型中，得到该片段属于每类动作的外观分类得分再将所有片段的外观分类得分送入均值函数中，得到视频属于每个类别的最终外观得分G_Ic是长度为C的向量。

步骤(Ⅱ).将分段T_c＝{T_c1,T_c2,…,T_cK}中T_ck′的x方向光流数据和y方向光流数据一起组成10通道的光流数据送入训练得到的时间网络模型中，得到该片段属于每类动作的运动分类得分再将所有片段的分类得分送入均值函数中，得到视频属于每个类别的最终运动得分G_Lc也是长度为C的向量。

步骤(Ⅲ).将G_Ic和G_Lc按照1:1～2比例进行加权平均融合，得到视频属于每个类别的得分G(T_c1,T_c2,…,T_cK)，G是一个长度为C的向量。

G(T_c1,T_c2,…,T_cK)中具有最大得分值的元素对应的类别就是该视频所属的行为类别。

本发明提出了基于ResNet的行为识别方法，以ResNet构建时间和空间双流网络，和现有的方法相比，该方法对一些复杂动作和较难识别动作中有更好的表现。

本发明的基于深度残差网络的行为识别方法，采用视频的原始帧作为空间网络的输入，提取动作的外观特征。以光流作为时间网络的输入，提取视频的运动特征，使得网络能够充分利用视频的信息，提高行为识别的准确率。本发明中的残差网络单元具有可根据特征通道的重要程度增强行为的显著特征，抑制较小的特征，提高了双流网络的特征提取能力，提高了识别准确率。本发明具有较高的行为识别准确率，特别是在一些复杂动作和较难识别动作中有较好的表现。

具体实施方式

下面结合实施例对本发明做进一步说明，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知的功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

一种基于深度残差网络的行为识别方法，该方法包括两个阶段：训练阶段和测试阶段。

训练阶段包括三个模块：1、预处理模块，该模块主要功能是获取训练视频的原始帧和光流；2、搭建时空双流网络模块，该模块主要功能是搭建基于ResNet的空间网络和时间网络；3、训练神经网络，该模块主要功能是利用光流和原始帧分别对时空双流网络进行训练，得到空间网络模型和时间网络模型。

测试阶段也包括三个模块：1、预处理模块，该模块主要功能是获取测试视频的原始帧和光流；2、时空双流网络测试模块，该模块主要功能是将测试数据集的原始帧和光流分别送入空间网络模型和时间网络模型测试，使用分类器得到空间网络和时间网络的输出得分；3、行为识别模块，对空间网络和时间网络的输出得分进行融合，得到行为识别结果。

下面以ucf-101数据集为例(C＝101,K＝3),进一步说明该方法。

一、训练阶段：

首先进行预处理：

选取待检测视频数据集，视频数据集包含训练数据集和测试数据集；将待训练视频等分为3个片段，表示为S_r＝{S_r1,S_r2,S_r3}，下角标r表示训练集，假设视频长度为A,则每个片段长度为A/3；图像尺寸均规范化为224×224。

从每个片段中随机提取一帧图像，并用TV-L1算法提取6个连续帧间的光流数据，光流数据分为x方向和y方向，提取结果表示为T_r＝{T_r1,T_r2,T_r3}，其中包含一帧图像I_rk，通道数为3，以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5，k∈{1,2,3}。

步骤(1).构建时空双流网络：时空双流网络包含空间网络和时间网络，空间网络和时间网络都使用级联ResNet网络实现。级联ResNet网络由卷积层、最大池化层、残差网络单元、平均池化层、全连接层和softmax分类器组成。

残差网络单元包含以下结构：

第一层包含1×1卷积核，该层参数为通道数channel为H，步长stride为Q，补零宽度zero-padding为0，BN(批归一化)处理和Relu(改进型线性单元)处理。

第二层包含3×3卷积核，该层参数为通道数channel为I，步长stride为1，补零宽度zero-padding为1,BN处理和Relu处理。

第三层包含1×1卷积核，该层参数为通道数channel为J，步长stride为1，补零宽度zero-padding为0，BN处理，输出J个通道的二维矩阵U_i,i＝1,2,…,J。

第三层后接平均池化层，经过平均池化层后，经过两个前后级联的通道数为J/16的全连接层，输出再经过通道数为J的全连接层，后接Sigmoid激活函数层，输出是长度为J的实数数列s。

将J个通道的U_i和s一起输入缩放层得到输出V_i，缩放层运算为V_i＝s_i⊙U_i，表示s_i与U_i中的每个元素相乘，s_i是数列s的第i个元素，i＝1,2,…,J；输出J个通道的V_i，i＝1,2,…,J。

最后将缩放层的输出和第一层的输入相加，采用Relu处理后输出，输出通道数为J。如果第一层输入的通道数不足J，就将缺少的通道数用0填充。

空间ResNet网络学习步骤如下：

(a)输入图像尺寸为224×224×3，经过一个卷积核大小为7×7的卷积层，该层参数为通道数channel为64，步长stride为2，补零宽度zero-padding为3,BN处理，激活函数采用Relu，输出尺寸为112×112×64；

(b)经过最大池化层，池化核大小为3×3，步长stride为2，输出尺寸为56×56×64；

(c)经过3个结构相同的残差网络单元，该残差单元中Q为1、H为64、I为64、J为256，输出尺寸为56×56×256；

(d)经过1个残差网络单元，该残差网络单元中Q为2、H为128、I为128、J为512，输出尺寸为28×28×512；

(e)经过3个结构相同的残差网络单元，该残差网络单元中Q为1、H为128、I为128、J为512，输出尺寸为28×28×512；

(f)经过1个残差网络单元，该残差网络单元中Q为2、H为256、I为256、J为1024，输出尺寸为14×14×1024；

(g)经过22个结构相同的残差网络单元，该残差网络单元中Q为1、H为256、I为256、J为1024，输出尺寸为14×14×1024；

(h)经过1个残差网络单元，该残差网络单元中Q为2、H为512、I为512、J为2048，输出尺寸为7×7×2048；

(i)经过2个结构相同的残差网络单元，该残差网络单元中Q为1、H为512、I为512、J为2048，输出尺寸为7×7×2048；

(j)经过级联的平均池化层和全连接层，池化层大小7×7，stide为1，输出尺寸为1×1×2048，全连接层输出通道数为C，输出尺寸为1×1×C，使用Softmax分类器得出分类结果。

时间网络的学习步骤如下：

(k)输入光流图像尺寸为224×224×10，经过一个7×7的卷积核的卷积，该层参数为通道数channel为64，步长stride为2，补零宽度zero-padding为3,BN处理，激活函数采用Relu，输出尺寸为112×112×64；

(l)经过最大池化层，池化核大小为3×3，步长stride为2，输出尺寸为56×56×64；

(m)经过3个结构相同的残差网络单元，该残差单元中Q为1、H为64、I为64、J为256，输出尺寸为56×56×256；

(n)经过1个残差网络单元，该残差网络单元中Q为2、H为128、I为128、J为512，输出尺寸为28×28×512；

(o)经过3个结构相同的残差网络单元，该残差网络单元中Q为1、H为128、I为128、J为512，输出尺寸为28×28×512；

(p)经过1个残差网络单元，该残差网络单元中Q为2、H为256、I为256、J为1024，输出尺寸为14×14×1024；

(q)经过22个结构相同的残差网络单元，该残差网络单元中Q为1、H为256、I为256、J为1024，输出尺寸为14×14×1024；

(r)经过1个残差网络单元，该残差网络单元中Q为2、H为512、I为512、J为2048，输出尺寸为7×7×2048；

(s)经过2个结构相同的残差网络单元，该残差网络单元中Q为1、H为512、I为512、J为2048，输出尺寸为7×7×2048；

(t)经过级联的平均池化层和全连接层，池化层的大小7×7，stride为1，输出尺寸为1×1×2048，经全连接层输出尺寸为1×1×C，使用Softmax分类器得出分类结果。

步骤(2).将分段T_r＝{T_r1,T_r2,T_r3}中T_rk的图像I_rk分别送入空间网络中进行迭代训练，批量大小设置为8，学习率初始值为0.001，并且每隔1500次迭代后更新学习率，使学习率降为原来的0.8，k∈{1,2,3}；当训练迭代6000次时，结束训练，得到空间网络的模型。

训练完成后得到该片段属于每类动作的外观分类得分为长度为C的向量；将所有片段的外观分类得分送入均值函数中，得到视频属于每个类别的最终外观得分G_Ir也是长度为C的向量。

步骤(3).将分段T_r＝{T_r1,T_r2,T_r3}中T_rk的x方向光流数据和y方向光流数据一起组成10通道的数据送入时间网络中进行迭代训练，k∈{1,2,3}，批量大小设为8，学习率初始值设为0.001，并且每隔3000次迭代后更新学习率，使学习率降为原来的0.8。当训练迭代18000次时，结束训练，得到时间网络的模型。训练完成后得到该片段属于每类动作的运动分类得分其中，k∈{1,2,3}。再将所有片段的运动分类得分送入均值函数中，得到视频属于每个类别的最终运动得分G_Lr也是长度为C的向量。

至此，训练阶段完毕。

二、测试阶段：

首先进行预处理：

选取待测试视频数据集，每帧图像大小规范化为224×224，将待测试视频等分为3个片段，表示为S_c＝{S_c1,S_c2,S_c3}，假设测试集视频长度为B,则每个测试集片段长度为B/3。

从每个片段中随机提取一帧图像，并用TV-L1算法提取6个连续帧间的光流数据，光流数据分为x方向和y方向，每段提取结果表示为T_c＝{T_c1,T_c2,T_c3}，其中包含一帧图像I_ck′，通道数为3，以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5，k′∈{1,2,3}。

步骤(Ⅰ).将分段T_c＝{T_c1,T_c2,T_c3}中T_ck′的I_ck′送入训练阶段得到的空间网络模型中，得到该片段属于每类动作的外观分类得分k′∈{1,2,3}。再将所有片段的外观分类得分送入均值函数中，得到视频属于每个类别的最终外观得分G_Ic是长度为C的向量。

步骤(Ⅱ).将分段T_c＝{T_c1,T_c2,T_c3}中T_ck′的x方向光流数据和y方向光流数据一起组成10通道的光流数据送入训练得到的时间网络模型中，得到该片段属于每类动作的运动分类得分k′∈{1,2,3}。再将所有片段的运动分类得分送入均值函数中，得到视频属于每个类别的最终运动得分G_Lc也是长度为C的向量。

步骤(Ⅲ).将G_Ic和G_Lc按照1:1.5比例进行加权平均融合，得到视频属于每个类别的得分G(T_c1,T_c2,T_c3)，G是一个长度为C的向量。

G(T_c1,T_c2,T_c3)中具有最大得分值的元素对应的类别就是该视频所属的类别。

Claims

1.一种基于深度残差网络的行为识别方法，包括训练阶段和测试阶段，其特征在于：

所述的训练阶段首先进行预处理：

从每个片段中随机提取一帧图像，并用TV-L1算法提取6个连续帧间的光流数据，光流数据分为x方向和y方向，提取结果表示为T_r＝{T_r1,T_r2,…,T_rK}，其中包含一帧图像I_rk，通道数为3，以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5，k∈{1,2,…,K}；

训练阶段的具体步骤是：

所述的残差网络单元包含以下结构：

第一层包含1×1卷积核，该层参数为通道数channel为H，步长stride为Q，补零宽度zero-padding为0，BN处理和Relu处理；所述的BN处理为批归一化处理，Relu处理为改进型线性单元处理；

第二层包含3×3卷积核，该层参数为通道数channel为I，步长stride为1，补零宽度zero-padding为1,BN处理和Relu处理；

第三层包含1×1卷积核，该层参数为通道数channel为J，步长stride为1，补零宽度zero-padding为0，BN处理，输出J个通道的二维矩阵U_i,i＝1,2,…,J；

第三层后接平均池化层，经过平均池化层后，经过两个前后级联的通道数为J/16的全连接层，输出再经过通道数为J的全连接层，后接Sigmoid激活函数层，输出是长度为J的实数数列s；将U_i和s一起输入缩放层得到输出V_i，缩放层运算为V_i＝s_i⊙U_i，表示s_i与U_i中的每个元素相乘，s_i是数列s的第i个元素，i＝1,2,…,J；输出J个通道的V_i，i＝1,2,…,J；最后将缩放层的输出和第一层的输入相加，采用Relu处理后输出，输出通道数为J；如果第一层输入的通道数不足J，就将缺少的通道数用0填充；

空间网络的学习步骤如下：

(j)经过级联的平均池化层和全连接层，池化层的大小7×7，步长stide为1，输出尺寸为1×1×2048，全连接层输出通道数为C，输出尺寸为1×1×C，使用Softmax分类器得出分类结果；

时间网络的学习步骤如下：

(t)经过级联的平均池化层和全连接层，池化层的大小7×7，步长stride为1，输出尺寸为1×1×2048，经全连接层输出尺寸为1×1×C，使用Softmax分类器得出分类结果；

步骤(2).将分段T_r＝{T_r1,T_r2,…,T_rK}中T_rk的图像I_rk分别送入空间网络中进行迭代训练，k∈{1,2,…,K}；批量大小设置为N_rip，r表示训练集，i表示空间网络以图像为输入，p表示批量大小设置，N_rip∈{4,5,6,7,8}；设置学习率初始值为L_ri，每隔N_ri次迭代后更新学习率，使学习率降为原来的th_ri，当训练迭代N_rii次时，结束训练，得到空间网络的模型；

训练完成后得到该片段属于每类动作的外观分类得分是由全连接层C个通道输出值组成的矢量，向量长度为C；

将所有片段的分类得分送入均值函数中，得到视频属于每个类别的最终外观得分

步骤(3).将分段T_r＝{T_r1,T_r2,…,T_rK}中T_rk的x方向光流数据和y方向光流数据一起组成10通道的数据送入时间网络中进行迭代训练，k∈{1,2,...,K}；批量大小设置为N_rlp，r表示训练集，l表示空间网络以光流为输入，p表示批量大小设置，N_rlp∈{4,5,6,7,8}；设置学习率初始值为L_rl，每隔N_rl次迭代后更新学习率，使学习率降为原来的th_rl，当训练迭代N_rli次时，结束训练，得到时间网络的模型；

训练完成后得到该片段属于每类动作的运动分类得分是由全连接层C个通道输出值组成的矢量；

将所有片段的分类得分送入均值函数中，得到视频属于每个类别的最终运动得分

所述的测试阶段首先进行预处理：

从每个片段中随机提取一帧图像，并用TV-L1算法提取6个连续帧间的光流数据，光流数据分为x方向和y方向，每段提取结果表示为T_c＝{T_c1,T_c2,…,T_cK}，其中包含一帧图像I_ck′，通道数为3，以及x方向的光流数据和y方向的光流数据每个方向的通道数均为5，k′∈{1,2,…,K}；

测试阶段的具体步骤是：

步骤(Ⅰ).将分段T_c＝{T_c1,T_c2,…,T_cK}中T_ck′的I_ck′送入训练阶段得到的空间网络模型中，得到该片段属于每类动作的外观分类得分再将所有片段的外观分类得分送入均值函数中，得到视频属于每个类别的最终外观得分

步骤(Ⅱ).将分段T_c＝{T_c1,T_c2,…,T_cK}中T_ck′的x方向光流数据和y方向光流数据一起组成10通道的光流数据送入训练得到的时间网络模型中，得到该片段属于每类动作的运动分类得分再将所有片段的分类得分送入均值函数中，得到视频属于每个类别的最终运动得分

步骤(Ⅲ).将G_Ic和G_Lc进行加权平均融合，得到视频属于每个类别的得分G(T_c1,T_c2,…,T_cK)；

2.如权利要求1所述的一种基于深度残差网络的行为识别方法，其特征在于所述的训练阶段的步骤(2)中具体是：设置学习率初始值为L_ri，0≤L_ri≤0.0015，每隔N_ri次迭代后更新学习率，使学习率降为原来的th_ri，1200≤N_ri≤1600，0.8≤th_ri≤0.9；当训练迭代N_rii次时，结束训练，6000≤N_rii≤8000。

3.如权利要求1所述的一种基于深度残差网络的行为识别方法，其特征在于所述的训练阶段的步骤(3)中具体是：设置学习率初始值为L_rl，0≤L_rl≤0.0015；每隔N_rl次迭代后更新学习率，使学习率降为原来的th_rl，2500≤N_rl≤3000，0.8≤th_ri≤0.9；当训练迭代N_rli次时，结束训练，16000≤N_rli≤18000。

4.如权利要求1所述的一种基于深度残差网络的行为识别方法，其特征在于所述的训练阶段中最终外观得分G_Ir和最终运动得分G_Lr是长度为C的向量，C为行为类别数。

5.如权利要求1所述的一种基于深度残差网络的行为识别方法，其特征在于所述的测试阶段中最终外观得分G_Ic、最终运动得分G_Lc、视频属于每个类别的得分G，均是长度为C的向量，C为行为类别数。

6.如权利要求1所述的一种基于深度残差网络的行为识别方法，其特征在于所述的测试阶段步骤(Ⅲ)中将G_Ic和G_Lc按照1:1～2比例进行加权平均融合。