CN109325435B

CN109325435B - 基于级联神经网络的视频动作识别及定位方法

Info

Publication number: CN109325435B
Application number: CN201811077637.5A
Authority: CN
Inventors: 周圆; 李鸿儒; 杨建兴; 毛爱玲; 李绰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-09-15
Filing date: 2018-09-15
Publication date: 2022-04-19
Anticipated expiration: 2038-09-15
Also published as: CN109325435A

Abstract

本发明公开了一种基于级联神经网络的视频动作识别及定位方，步骤(1)、生成候选区间并扩展，把候选区间分为三类；步骤(2)、将扩展后的候选区间中的彩色图像进行结构化；步骤(3)、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取，获得二维特征图F；步骤(4)、得到全局时域特征向量和全局空域特征向量f_t′,f_s′；步骤(5)、将全局时域特征向量和全局空域特征向量f_t′,f_s′输入动作分类器、完整性分类器和候选区间坐标调整器中，计算损失函数并优化网络参数；步骤(6)、得到最终预测结果即以取整后的loc+Δloc_i帧为中心、宽度为取整后的size+Δsize_i帧的范围的第m类动作。与现有技术相比，本发明能够精准判断原始视频中从开始到结束的区间内是第几类动作。

Description

基于级联神经网络的视频动作识别及定位方法

技术领域

本发明涉及机器视觉领域视频理解，特别是涉及一种视频动作识别及定位算法。

背景技术

动作识别及定位是视频理解技术中基础的一环，它能够有效地去除视频中大量的冗余信息，自动理解视频含义并进行分类，从而减轻人工审核视频的负担。目前，某些动作识别及定位算法可以一定程度上完成动作识别的任务，但是依赖于人对包含大量冗余信息的视频进行裁剪，去除无用的背景信息，无法直接对原始视频数据进行处理；此外，现有算法无法准确定位有意义动作在原始视频中的位置，无法有效减轻人的负担。

随着深度神经网络技术的发展，许多网络模型被应用于多种图像及视频任务，展现了深度神经网络强大的特征提取能力。

发明内容

为了解决现有技术难以直接处理原始视频并精准定位有意义动作的问题，本发明提出一种基于深度神经网络的视频动作识别及定位方法，通过神经网络自动完成原始视频中有意义动作的识别及定位，以实现视频语义的自动理解。

本发明的一种基于级联神经网络的视频动作识别及定位方法，该方法包括以下步骤：

步骤1、用基于聚类算法的视频候选区间生成算法生成大量候选区间，并将原候选区间扩展至原来的两倍长度，同时把候选区间分为三类：第一类，候选区间与训练数据集中包含动作的视频片段重叠度IoU大于0.7，第二类，候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.3，大于0.01，第三类，候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.01；

步骤2、将扩展后的候选区间中的彩色图像进行结构化处理，本步骤的具体处理包括：将连续六帧图像作为一个视频单元，使用TVL1光流算法计算相邻两帧RGB图像之间的像素流动，生成十张光流图；将这十张光流图与从每个视频单元中随机选出的一张RGB图像作为一个视频单元时/空域特征提取网络的输入；

步骤3、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取，获得二维特征图F，本步骤的具体处理包括：所述视频单元时/空域特征提取网络包含时域GoogLeNet和空域GoogLeNet，时域GoogLeNet和空域GoogLeNet对输入层接受的数据维度参数进行了调整，其中时域GoogLeNet的输入层固定接受维度为n×10×w×h的矩阵，空域GoogLeNet的输入层固定接受维度为n×3×w×h的矩阵，其中，n为一批训练样本中图片的张数，w为图片宽度的像素数，h为图片高度的像素数，3和10代表通道数目；时域GoogLeNet和空域GoogLeNet的输出分别为时域特征图F_t和空域特征图F_s，两种特征图共同作为步骤4中全局时空特征提取网络的输入；

步骤4、将尺寸不一的特征图时域特征图F_t和空域特征图F_s改变为固定尺寸的、结构化的特征图F_t′,F_s′，并利用全局时空域特征提取网络进行特征图F_t′,F_t′的全局时域特征向量和空域特征向量的提取，得到全局时域特征向量和全局空域特征向量f_t′,f_s′；

步骤5、将全局时域特征向量和全局空域特征向量f_t′,f_s′输入动作分类器、完整性分类器和候选区间坐标调整器中，分别进行损失函数的计算；

动作分类器与完整性分类器的总损失函数L_cls表达式为：

第一项

为动作分类器的损失函数，只有第一类和第三类训练样本用于训练动作分类器；第二项

为完成度分类器的损失函数，只有第一类和第二类训练样本用于训练完成度分类器；其中，V_j表示完整性分类器的输出；P_j表示动作分类器的输出，c_j ^*表示分类标签，N为一个训练批次中训练样本的个数，j为一个训练批次中某一样本的编号；

候选区间坐标调整器的损失函数L_reg为

其中，

表示当训练样本为第一类样本时取1、为第二类及第三类样本时取0；smooth_L1代表平滑的L1损失函数；r_j＝{Δloc′_j,Δsize′_j}表示网络预测的候选区间坐标调整至真实动作区间的调整量，

表示候选区间调整至真实动作区间真实需要的坐标调整量；loc_m表示候选区间的中心坐标，size_m表示候选区间的长度，

表示真实动作的中心坐标，

表示真实动作的长度，Δloc_j′、Δsize_j′分别表示网络预测的候选区间中心点loc需要的调整量以及网络预测的候选区间宽度size需要的调整量，Δloc_j、Δsize_j分别对应真实的候选区间中心点loc需要的调整量以及真实的候选区间宽度size需要的调整量；根据损失函数L_reg计算误差，利用反向传播优化网络参数；

骤(6)、融合步骤(5)中动作分类器的输出P_j和完整性分类器的输出V_j，得到预测的分类得分向量

使用极大值抑制的方法去除冗余的候选区间，最终使用候选区间中心点loc调整量Δloc_i和候选区间宽度size调整量Δsize_j作为坐标调整器的输出，调整候选区间坐标，得到最终预测结果loc+Δloc_j、size+Δsize_j，即以取整后的loc+Δloc_m帧为中心、宽度为取整后的size+Δsize_j帧的范围的第m类动作，m为数值最大的得分向量O对应的维数。

所述步骤3中的利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取，获得的特征图通过调整等分份数与全连接层维度调整维度，该算法包括以下步骤：

步骤31、把候选区间分为三个区间，前四分之一为动作开始区间，中间二分之一为动作持续区间，后四分之一为动作结束区间。把动作开始区间均等分成a份，动作持续区间均等分成b份，动作结束区间均等分成a份，对每份中包含的全部特征向量取平均；

步骤32、将每等份中的特征向量取平均后得到的向量，输入一个输出维度k可调整的全连接层，得到一个新的维度为(2a+b)×k特征图。

本发明的一种基于结构化时域池化和特征重编码的视频特征图维度调整方法，该算法包括以下步骤：

步骤1、把候选区间分为三个区间，前四分之一为动作开始区间，中间二分之一为动作持续区间，后四分之一为动作结束区间。把动作开始区间均等分成a份，动作持续区间均等分成b份，动作结束区间均等分成a份，对每份中包含的全部特征向量取平均；

步骤2、将每等份中的特征向量取平均后得到的向量，输入一个输出维度k可调整的全连接层，得到一个新的维度为(2a+b)×k特征图。

与现有技术相比，本发明能够精准判断原始视频中从第几秒开始到第几秒结束的区间内，以及是第几类动作。

附图说明

图1为本发明的基于级联神经网络的视频动作识别及定位方法流程图；

图2为本发明的基于级联神经网络的视频动作识别及定位方法实施例的执行结果示意图。

具体实施方式

下面将结合附图对本发明的实施方式作进一步的详细描述。

如图1所示，为本发明的基于级联神经网络的视频动作识别及定位方法流程图，具体细节如下：

一、基于聚类的视频候选区间生成算法：

步骤(1)、设计一种包含时域特征提取子网络与空域特征提取子网络的神经网络，该网络还包含一个二分类器，输出零到一之间的值，用于表示每帧图像对应时间点包含动作的可能性(动作得分)。通过把视频输入该网络，得到每一帧图像对应时刻的动作得分；

步骤(2)、设定一个阈值x，当动作得分高于这个值x时，判定这个时刻包含动作，并标注为1，否则，判定这个时刻不包含动作，并标注为0；

步骤(3)、得到一系列的0、1之后，进行聚类操作,。选取前一时刻标注为0、当前时刻标注为1的时刻点为种子点，吸收后面的时刻点，若后面的时刻点标注为1则正样本数加1，若后面的时刻点为0则负样本数加1，当正样本数与负样本数的比值小于一个阈值y，则停止吸收时刻点，得到一个候选区间。

二、基于结构化时域池化和特征重编码的视频特征图维度调整算法：

步骤(1)、把候选区间分为三个区间，前四分之一为动作开始区间，中间二分之一为动作持续区间，后四分之一为动作结束区间。把动作开始区间均等分成a份，动作持续区间均等分成b份，动作结束区间均等分成a份，对每份中包含的全部特征向量取平均；

步骤(2)、将每等份中的特征向量取平均后得到的向量，输入一个输出维度k可调整的全连接层，得到一个新的维度为(2a+b)×k特征图。

三、基于级联神经网络的视频动作识别及定位算法：

步骤(1)、用基于聚类的视频候选区间生成算法生成大量候选区间，并将原候选区间扩展至原来的两倍长度。同时把候选区间分为三类：第一类，候选区间与训练数据集中包含动作的视频片段重叠度IoU大于0.7，第二类，候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.3，大于0.01，第三类，候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.01；

步骤(2)、将扩展后的候选区间中的彩色图像进行结构化处理：将连续六帧图像作为一个视频单元，使用TVL1光流算法，计算相邻两帧RGB图像之间的像素流动，生成光流图。图像为二维数字矩阵，表示像素流动需要两个方向，即需要两张光流图表示一对相邻RGB图像之间的像素流动，又因为6帧图像共有5对相邻图像，所以连续的6帧RGB图像可得到十张光流图。将这十张光流图与从每个视频单元中随机选出的一张RGB图像视为一个步骤二中视频单元时空域特征提取网络的输入结构，即只能以一张RGB图像和十张光流图的组合方式才能输入网络；

步骤3、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取，获得二维特征图F，本步骤的具体处理包括：所述视频单元时/空域特征提取网络包含时域GoogLeNet和空域GoogLeNet，时域GoogLeNet和空域GoogLeNet对输入层接受的数据维度参数进行了调整，其中时域GoogLeNet的输入层固定接受维度为n×10×w×h的矩阵，空域GoogLeNet的输入层固定接受维度为n×3×w×h的矩阵，其中，n为一批训练样本中图片的张数，w为图片宽度的像素数，h为图片高度的像素数，3和10代表通道数目，n＝64，w＝320，h＝240；时域GoogLeNet和空域GoogLeNet的输出分别为时域特征图F_t和空域特征图F_s，两种特征图共同作为步骤(4)中全局时空特征提取网络的输入；

步骤4、利用基于结构化时域池化和特征重编码的视频特征图维度调整算法，将尺寸不一的特征图F_t,F_t改变为固定尺寸的、结构化的特征图F_t′,F_t′，并利用全局时空域特征提取网络提取特征图F_t′,F_t′的全局时空特征向量f_t′,f_s′；

步骤5、将全局时空特征向量f_t′,f_s′输入动作分类器(全连接层)、完整性分类器(全连接层)和候选区间坐标调整器(全连接层)中分别进行损失函数的计算；其中，动作分类器与完整性分类器的总损失函数L_cls表达式为

其中，V_j表示完整性分类器的输出；P_j表示动作分类器的输出，c_j ^*表示分类标签，N为一个训练批次中训练样本的个数；j为一个训练批次中某一样本的编号。式中第一项

为动作分类器的损失函数，只有第一类和第三类训练样本用于训练动作分类器。第二项

为完成度分类器的损失函数，只有第一类和第二类训练样本用于训练完成度分类器；

候选区间坐标调整器的损失函数L_reg为：

其中，

表示候选区间调整至真实动作区间真实需要的坐标调整量；loc_j表示候选区间的中心坐标，size_j表示候选区间的长度，

表示真实动作的中心坐标，

步骤6、融合步骤(5)中动作分类器的输出P_j和完整性分类器V_j的输出，得到预测的分类得分向量

使用极大值抑制(NMS)的方法去除冗余的候选区间，最终使用坐标调整器的输出(候选区间中心点loc调整量Δloc_i和候选区间宽度size调整量Δsize_j)调整候选区间坐标得到最终预测结果loc+Δloc_j、size+Δsize_j，即以loc+Δloc_j(取整)帧为中心，宽度为size+Δsize_n size+Δsize_j(取整)帧的范围，是第m类(m为O得分向量中数值最大的那一维)动作。

本发明的具体实施例描述如下：

本发明的技术方案中，提取视频的光流图像选用了TVL1光流算法。训练相关模型时，使用ImageNet数据集上的预训练模型进行初始化，有助于缩短训练时间和提升性能。实验选用随机梯度下降的方法优化网络参数，初始学习率为0.001，后每经过5K次迭代，学习率下降为原来的十分之一，15k次迭代后终止。训练过程中，第一类、第二类、第三类训练样本的比例为1:6:1。推理时，极大值抑制的门限值设置为0.6。

如图2所示，为实验结果参考。预测的候选区间与真实区间重叠度IoU大于0.5，判定为预测准确。对于原始视频中零散分布的有意义的动作，算法可以较好的自动去除冗余信息，不需要人为去除，并可准确判断相关动作种类。对于第1、2、3段测试视频，算法很好的完成了有意义动作的分类及定位，未出现候选区间缺失或不包含有意义动作的情况，摆脱了对人工去除视频冗余的依赖。第4段视频中出现了两个有意义动作被判断为一个的情况，这是由于两段动作之间的间隔相对于两段动作的持续时间之和很短，所以出现该情况。

Claims

1.一种基于级联神经网络的视频动作识别及定位方法，其特征在于，该方法包括以下步骤：

步骤(1)、用基于聚类算法的视频候选区间生成算法生成大量候选区间，并将原候选区间扩展至原来的两倍长度，同时把候选区间分为三类：第一类，候选区间与训练数据集中包含动作的视频片段重叠度IoU大于0.7，第二类，候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.3，大于0.01，第三类，候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.01；

步骤(2)、将扩展后的候选区间中的彩色图像进行结构化处理，本步骤的具体处理包括：将连续六帧图像作为一个视频单元，使用TVL1光流算法计算相邻两帧RGB图像之间的像素流动，生成十张光流图；将这十张光流图与从每个视频单元中随机选出的一张RGB图像作为一个视频单元时/空域特征提取网络的输入；

步骤(3)、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取，获得二维特征图F，本步骤的具体处理包括：所述视频单元时/空域特征提取网络包含时域GoogLeNet和空域GoogLeNet，时域GoogLeNet和空域GoogLeNet对输入层接受的数据维度参数进行了调整，其中时域GoogLeNet的输入层固定接受维度为n×10×w×h的矩阵，空域GoogLeNet的输入层固定接受维度为n×3×w×h的矩阵，其中，n为一批训练样本中图片的张数，w为图片宽度的像素数，h为图片高度的像素数，3和10代表通道数目；时域GoogLeNet和空域GoogLeNet的输出分别为时域特征图F_t和空域特征图F_s，两种特征图共同作为步骤(4)中全局时空特征提取网络的输入；

步骤(4)、将尺寸不一的特征图时域特征图F_t和空域特征图F_s改变为固定尺寸的、结构化的特征图F_t′,F_s′，并利用全局时空域特征提取网络进行特征图F_t′,F_t′的全局时域特征向量和空域特征向量的提取，得到全局时域特征向量和全局空域特征向量f_t′,f_s′；

步骤(5)、将全局时域特征向量和全局空域特征向量f_t′,f_s′输入动作分类器、完整性分类器和候选区间坐标调整器中，分别进行损失函数的计算；

动作分类器与完整性分类器的总损失函数L_cls表达式为：

第一项

为完成度分类器的损失函数，只有第一类和第二类训练样本用于训练完成度分类器；其中，V_j表示完整性分类器的输出；P_j表示动作分类器的输出，c_j ^*表示分类标签，N为一个训练批次中训练样本的个数；j为一个训练批次中某一样本的编号；

候选区间坐标调整器的损失函数L_reg为

其中，

表示候选区间调整至真实动作区间真实需要的坐标调整量；loc_j表示候选区间的中心坐标，size_m表示候选区间的长度，

表示真实动作的中心坐标，

步骤(6)、融合步骤(5)中动作分类器的输出P_j和完整性分类器的输出V_j，得到预测的分类得分向量

使用极大值抑制的方法去除冗余的候选区间，最终使用候选区间中心点loc调整量Δloc_i和候选区间宽度size调整量Δsize_j作为坐标调整器的输出，调整候选区间坐标，得到最终预测结果loc+Δloc_j、size+Δsize_j，即以取整后的loc+Δloc_j帧为中心、宽度为取整后的size+Δsize_j帧的范围的第m类动作，m为数值最大的得分向量O对应的维数。

2.如权利要求1所述的基于级联神经网络的视频动作识别及定位方法，其特征在于，用基于聚类算法的视频候选区间生成算法生成大量候选区间基于聚类算法的视频候选区间生成算法：

步骤(1)、设计一种包含时域特征提取子网络与空域特征提取子网络的神经网络，该网络还包含一个二分类器，输出零到一之间的值，用于表示每帧图像对应时间点包含动作的可能性；把视频输入该网络，得到每一帧图像对应时刻的动作得分；

步骤(2)、设定一个阈值x，当动作得分高于阈值x时，判定这个时刻包含动作，并标注为1，否则，判定这个时刻不包含动作，并标注为0；

步骤(3)、得到一系列的0、1之后，进行聚类操作：选取前一时刻标注为0、当前时刻标注为1的时刻点为种子点，吸收后面的时刻点，若后面的时刻点标注为1则正样本数加1，若后面的时刻点为0则负样本数加1，当正样本数与负样本数的比值小于一个阈值y，则停止吸收时刻点，得到一个候选区间。

3.如权利要求1所述的一种基于级联神经网络的视频动作识别及定位方法，其特征在于，所述步骤(3)中的利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取，获得的特征图通过调整等分份数与全连接层维度调整维度，该算法包括以下步骤：

步骤(31)、把候选区间分为三个区间，前四分之一为动作开始区间，中间二分之一为动作持续区间，后四分之一为动作结束区间；把动作开始区间均等分成a份，动作持续区间均等分成b份，动作结束区间均等分成a份，对每份中包含的全部特征向量取平均；

步骤(32)、将每等份中的特征向量取平均后得到的向量，输入一个输出维度k可调整的全连接层，得到一个新的维度为(2a+b)×k特征图。

4.一种基于结构化时域池化和特征重编码的视频特征图维度调整方法，该方法包括以下步骤：

步骤(1)、把候选区间分为三个区间，前四分之一为动作开始区间，中间二分之一为动作持续区间，后四分之一为动作结束区间；把动作开始区间均等分成a份，动作持续区间均等分成b份，动作结束区间均等分成a份，对每份中包含的全部特征向量取平均；