CN110188654B

CN110188654B - 一种基于移动未裁剪网络的视频行为识别方法

Info

Publication number: CN110188654B
Application number: CN201910443353.1A
Authority: CN
Inventors: 李春国; 徐煜耀; 杨绿溪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2023-04-07
Anticipated expiration: 2039-05-27
Also published as: CN110188654A

Abstract

一种基于移动未裁剪网络的视频行为识别方法，本发明在未裁剪网络的基础上，提出基于移动未裁剪网络的视频行为识别方法。本发明先对长时序未裁剪视频进行基于镜头的采样，再利用移动有效卷积网络提取候选段的特征，然后通过分类模块对其生成动作分类分数，接着利用选择模块针对某一动作类别对所有候选段进行排序，最后通过类激活序列相邻分数比较法，选出动作最有可能存在的时序区域。本发明在THUMOS 2014数据集上的行为识别正确率达到了81.9％。另外，本发明在交并比阈值设为0.3的前提下，在此数据集上行为时序检测的平均均值精度达到了28.3。另一方面，可以通过此发明实现为未裁剪的视频数据集进行行为时序标定，进而提升标定效率。

Description

一种基于移动未裁剪网络的视频行为识别方法

技术领域

本发明涉及属于计算机视觉与人工智能、多媒体信号处理领域，特别是涉及一种基于移动未裁剪网络的视频行为识别方法。

背景技术

目前，一些研究机构通过手工裁剪的方式制作了一些数据集，如THUMOS14和ActivityNet。这些数据集都是一些长视频，但是均附有一个标注文件，来说明这个视频中哪类动作起始时间与结束时间。虽然这些精确的时间注解可以缓解训练网络时的困难，但是这将很大程度上制约视频行为识别算法在实际场景中的应用。这主要有以下几个原因：首先，注释每个动作实例的非常耗时；其次，微博、YouTube等视频网站上的大量视频一般不会对动作进行裁剪，在这样的大规模数据中修剪视频将是不切实际的；另外，更重要的是，对于动作边界的定义很模糊，没有关于动作的起止时间范围的合理定义。因此，这些动作的时间标注是裁定人的主观意识，在不同的人之间不一致，这将对网络的训练造成影响。

现实生活中的视频往往是未经过裁剪的视频，因此，如何克服未裁剪视频的上述问题并将这些视频数据整理成可用的数据集显得尤为重要。对于视频而言，对它进行视频层面的类别标记是比较容易的。如何利用这些只进行了视频层面类别标记但没有进行行为裁剪的视频，来帮助提升行为识别算法的适用性将显得至关重要。由于这些视频没有具体的动作时间标记来帮助网络进行训练，因此称这类任务是弱监督行为检测(WeaklySupervised Action Detection，WSD)。所谓的行为检测就是给视频中的行为进行起止时间的标定，并给出行为的分类。然而，这种弱监督方式也带来了新的挑战，因为算法不仅需要学习每个动作类的视觉模式，而且还需要自动推理可能的动作实例的时间位置。因此在完成这类任务时，需要同时兼顾这两个层面。Wang等人提出了一种新的端到端训练的深度学习网络——未裁剪网络(UntrimmedNet)。在没有动作实例的时间标注的情况下，UntrimmedNet可以直接将一个未裁剪的视频作为输入，仅仅利用它的视频级标签来学习网络权重，让网络能够实现对视频中行为起止时间段的标定。

本发明在UntrimmedNet的基础上，对其结构进行了改进，利用移动有效卷积网络代替了UntrimmedNet中原来的视频特征提取器，使网络的训练不那么耗时，这里记这种结构为移动未裁剪网络(Mobile-Untrimmed-Net，MU-Net)。另外，本发明提出了一种分数相邻比较法，运用于MU-Net中，使得时序段检测精度得以上升。

发明内容

为了解决以上问题，本发明提供一种基于移动未裁剪网络的视频行为识别方法，为了有效利用长时序未裁剪视频数据集，本发明在未裁剪网络的基础上，提出基于移动未裁剪网络的视频行为识别方法。本发明先对长时序未裁剪视频进行基于镜头的采样，再利用移动有效卷积网络提取候选段的特征，然后通过分类模块对其生成动作分类分数，接着利用选择模块针对某一动作类别对所有候选段进行排序，最后通过类激活序列相邻分数比较法，选出动作最有可能存在的时序区域。本发明在THUMOS 2014数据集上的行为识别正确率达到了81.9％。另外，本发明在交并比阈值设为0.3的前提下，在此数据集上行为时序检测的平均均值精度达到了28.3。另一方面，可以通过此发明实现为未裁剪的视频数据集进行行为时序标定，进而提升标定效率，为达此目的，本发明提供一种基于移动未裁剪网络的视频行为识别方法，包括以下步骤：

(1)将输入的视频进行基于镜头的采样；

(2)将采样后的视频候选段利用移动有效卷积网络提取特征；

(3)将移动有效卷积网络提取的特征利用分类模块进行类别打分，得到相应的行为类别分数；

(4)将不同的视频候选段通过选择模块利用注意力机制针对某一类别进行注意力权重计算；

(5)将不同视频候选段的注意力权重通过类激活序列相邻分数比较法，选出动作最有可能存在的时序区域。

作为本发明进一步改进，所述步骤(1)中对输入的视频进行基于镜头的采样，具体步骤为：

步骤1.1：对于一个输入视频，提取每一帧的HOG特征，并计算相邻帧之间的HOG特征差值，如果这个差值大于某一阈值，阈值设定为0.0715，那么就可以认为这里发生了一次镜头切换，然后，从每一个镜头中按顺序采样固定的K帧，得到视频候选段。

作为本发明进一步改进，所述步骤(2)中将采样后的视频候选段利用移动有效卷积网络提取特征，具体步骤为：

步骤2.1：将步骤1.1基于镜头采样得到的视频候选段，对其进行稀疏采样，得到视频帧输入到移动有效卷积网络中，以此来进行特征提取，提取到的特征向量记为φ(c)。

作为本发明进一步改进，所述步骤(3)中将移动有效卷积网络提取的特征利用分类模块进行类别打分，得到相应的行为类别分数，具体步骤为：

步骤3.1：基于镜头采样得到的视频候选段经过步骤2.1得到特征向量φ(c)之后，利用分类模块对其进行类别打分，其中分类模块由全连接层与SoftMax层组成，假设目前有C个动作类别，全连接层构造了一个线性映射

能够将特征向量φ(c)转换成C维的分数向量x^c(c)，将这个过程表示为如式(1)所示：

x^c(c)＝W^cφ(c) (5)

在得到这个分数向量之后，利用SoftMax函数对其进行分数归一化，得到相对的分数值，可见式(2)所示：

其中，

表示的是向量x^c(c)在第i个类别上的绝对分数。为了更清晰的说明，这里把x^c(c)称为片段候选区c初始的分类分数，而

表示的是SoftMax分类分数。

作为本发明进一步改进，所述步骤(4)中将不同的视频候选段通过选择模块利用注意力机制针对某一类别进行注意力权重计算，具体步骤为：

步骤4.1：对经过步骤1.1采样得到的视频候选段，通过学习一个注意力权重来加强那些具有判别能力的候选段的地位，并抑制那些只拥有背景运动没有所需动作实例的候选段，对于每一个视频候选段，将步骤2.1得到的特征向量φ(c)进行一个如式(3)所示的线性变换，就能学习到注意力权重值x^s(c)；

x^s(c)＝w^sTφ(c) (7)

其中，

就是模型的参数，T表示转置，然后，这些不同片段候选区的注意力权重通过SoftMax层，得到如式(4)所示的分数，然后将不同片段候选区的该分数进行比较；

这里式中，x^s(c)称为原始候选片段c的原始分数，而

表示的是SoftMax分数。

作为本发明进一步改进，所述步骤(5)中将不同视频候选段的注意力权重通过类激活序列相邻分数比较法，选出动作最有可能存在的时序区域，具体步骤为：

步骤5.1：将步骤4.1得到的不同视频候选段的注意力权重构成一个类激活序列，首先设定一个阈值0.0001，当候选段的注意力权重小于这个阈值时，这里就认为它是背景片段，把它剔除；

步骤5.2：将经过步骤5.1背景剔除之后的视频候选段中的注意力权重与另一个阈值，阈值取0.5比较，当视频候选段c的某一类别k的注意力大于该阈值时，就认为该片段候选区是类别k行为的片段，如果一个低分数片段位于两个高分数片段中间，则将此低分数片段也视为动作实例所在时序段，这就一定程度上避免了使用一个大阈值可能会将一个动作实例分割成几个片段的情况发生，需要注意的是，这里的低分数区也不能过低，如果该分数值低于某一阈值，也会将其视为非该类动作区域，这里将此阈值设置为0.1。

作为本发明进一步改进，所述THUMOS14数据集来自于行为识别竞赛，竞赛名字即为THUMOS，该数据集主要针对两类任务一个是行为识别任务，另一个是时序行为检测任务，针对行为识别任务，它有101个动作类别，且训练集即为UCF101的数据集，这些都是已经裁剪过的视频。对于时序检测任务，它有20个动作类别，这些是未裁剪的视频，该数据集包含了四个部分：训练集、评估集、背景集、测试集。

作为本发明进一步改进，建立模型的实验平台如下：Ubuntu14系统，采用GeForceGTX 980显卡，采用Caffe框架来进行网络的训练与测试，使用基于Nesterov动量优化的小批次法来训练，并在每个全连接层中使用Dropout法进行正则化，防止过拟合，将每个视频候选段分割成8片段，并从每个片段中随机选择一个帧，将输入帧的大小调整到240×320，并采用固定角裁剪和基于水平翻转的尺度抖动来进行数据增强，然后，将输入调整为3×8×224×224，训练时初始学习率设置为0.001，当验证误差饱和4次时，学习率降低10倍，训练网络的动量设置为0.9，权重衰减设置为0.0005，小批次的大小设置为8。

有益效果：本发明在未裁剪网络的基础上，提出基于移动未裁剪网络的视频行为识别方法。本发明先对长时序未裁剪视频进行基于镜头的采样，再利用移动有效卷积网络提取候选段的特征，然后通过分类模块对其生成动作分类分数，接着利用选择模块针对某一动作类别对所有候选段进行排序，最后通过类激活序列相邻分数比较法，选出动作最有可能存在的时序区域。本发明在THUMOS 2014数据集上的行为识别正确率达到了81.9％。另外，本发明在交并比阈值设为0.3的前提下，在此数据集上行为时序检测的平均均值精度达到了28.3。另一方面，可以通过此发明实现为未裁剪的视频数据集进行行为时序标定，进而提升标定效率。

附图说明

图1为移动未裁剪网络的视频行为识别整体流程；

图2为移动有效卷积网络的网络结构；

图3为类激活序列相邻分数比较法示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供一种基于移动未裁剪网络的视频行为识别方法，为了有效利用长时序未裁剪视频数据集，本发明在未裁剪网络的基础上，提出基于移动未裁剪网络的视频行为识别方法。本发明先对长时序未裁剪视频进行基于镜头的采样，再利用移动有效卷积网络提取候选段的特征，然后通过分类模块对其生成动作分类分数，接着利用选择模块针对某一动作类别对所有候选段进行排序，最后通过类激活序列相邻分数比较法，选出动作最有可能存在的时序区域。本发明在THUMOS 2014数据集上的行为识别正确率达到了81.9％。另外，本发明在交并比阈值设为0.3的前提下，在此数据集上行为时序检测的平均均值精度达到了28.3。另一方面，可以通过此发明实现为未裁剪的视频数据集进行行为时序标定，进而提升标定效率。

下面以公开数据集THUMOS 2014为例，结合附图对本发明一种基于移动未裁剪网络的视频行为识别方法的具体实施方式作进一步详细说明。

步骤1：将输入的视频进行基于镜头的采样。

对于一个输入视频，提取每一帧的HOG特征，并计算相邻帧之间的HOG特征差值。如果这个差值大于某一阈值(这里设定为0.0715)，那么就可以认为这里发生了一次镜头切换。然后，从每一个镜头中按顺序采样固定的K帧，得到视频候选段。

步骤2：将步骤1基于镜头采样得到的视频候选段，进行稀疏采样，得到视频帧输入到移动有效卷积网络中，以此来进行特征提取，提取到的特征向量记为φ(c)。移动有效卷积网络的结构可见说明书附图2所示。

步骤3：基于镜头采样得到的视频候选段经过步骤2得到特征向量φ(c)之后，利用分类模块对其进行类别打分，其中分类模块由全连接层与SoftMax层组成。假设目前有C个动作类别，全连接层构造了一个线性映射

能够将特征向量φ(c)转换成C维的分数向量x^c(c)，可以将这个过程表示为如式(1)所示：

x^c(c)＝W^cφ(c) (9)

其中，

表示的是SoftMax分类分数。

步骤4：对经过步骤1采样得到的视频候选段，通过学习一个注意力权重来加强那些具有判别能力的候选段的地位，并抑制那些只拥有背景运动没有所需动作实例的候选段。对于每一个视频候选段，将步骤2得到的特征向量φ(c)进行一个如式(3)所示的线性变换，就能学习到注意力权重值x^s(c)。

x^s(c)＝w^sTφ(c) (11)

其中，

就是模型的参数，T表示转置。然后，这些不同片段候选区的注意力权重通过SoftMax层，得到如式(4)所示的分数，然后将不同片段候选区的该分数进行比较。

这里式中，x^s(c)称为原始候选片段c的原始分数，而

表示的是SoftMax分数。

步骤5：将步骤4得到的不同视频候选段的注意力权重构成一个类激活序列，首先设定一个阈值0.0001，当候选段的注意力权重小于这个阈值时，这里就认为它是背景片段，把它剔除。再将经过背景剔除之后的视频候选段中的注意力权重与另一个阈值(取0.5)比较，当视频候选段c的某一类别k的注意力大于该阈值时，就认为该片段候选区是类别k行为的片段。如果一个低分数片段位于两个高分数片段中间，则将此低分数片段也视为动作实例所在时序段，这就一定程度上避免了使用一个大阈值可能会将一个动作实例分割成几个片段的情况发生。需要注意的是，这里的低分数区也不能过低，如果该分数值低于某一阈值，也会将其视为非该类动作区域，这里将此阈值设置为0.1。该过程可见说明书附图3所示

步骤6：在数据集THUMOS 2014上的测试结果如表1表2所示；

表1 视频行为识别测试结果

表2 时序行为检测结果

本发明中模型训练的超参数为：

至此完成了基于移动未裁剪网络的视频行为识别方法的训练和推理流程。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于移动未裁剪网络的视频行为识别方法，包括以下步骤，其特征在于：

(1)将输入的视频进行基于镜头的采样；

所述步骤(1)中对输入的视频进行基于镜头的采样，具体步骤为：

步骤1.1：对于一个输入视频，提取每一帧的HOG特征，并计算相邻帧之间的HOG特征差值，如果这个差值大于某一阈值，阈值设定为0.0715，那么就可以认为这里发生了一次镜头切换，然后，从每一个镜头中按顺序采样固定的K帧，得到视频候选段；

(2)将采样后的视频候选段利用移动有效卷积网络提取特征；

所述步骤(2)中将采样后的视频候选段利用移动有效卷积网络提取特征，具体步骤为：

步骤2.1：将步骤1.1基于镜头采样得到的视频候选段，对其进行稀疏采样，得到视频帧输入到移动有效卷积网络中，以此来进行特征提取，提取到的特征向量记为φ(c)；

所述步骤(3)中将移动有效卷积网络提取的特征利用分类模块进行类别打分，得到相应的行为类别分数，具体步骤为：

x^c(c)＝W^cφ(c) (1)

其中，

表示的是向量x^c(c)在第i个类别上的绝对分数，为了更清晰的说明，这里把x^c(c)称为片段候选区c初始的分类分数，而

表示的是SoftMax分类分数；

所述步骤(4)中将不同的视频候选段通过选择模块利用注意力机制针对某一类别进行注意力权重计算，具体步骤为：

x^s(c)＝w^sTφ(c) (3)

其中，

这里式中，x^s(c)称为原始候选片段c的原始分数，而

表示的是SoftMax分数；

(5)将不同视频候选段的注意力权重通过类激活序列相邻分数比较法，选出动作最有可能存在的时序区域；

所述步骤(5)中将不同视频候选段的注意力权重通过类激活序列相邻分数比较法，选出动作最有可能存在的时序区域，具体步骤为：

步骤5.2：将经过步骤5.1背景剔除之后的视频候选段中的注意力权重与另一个阈值，阈值取0.5比较，当视频候选段c的某一类别k的注意力大于该阈值时，就认为该片段候选区是类别k行为的片段，如果一个低分数片段位于两个高分数片段中间，则将此低分数片段也视为动作实例所在时序段。

2.根据权利要求1所述的一种基于移动未裁剪网络的视频行为识别方法，其特征在于：建立模型的实验平台如下：Ubuntu 14系统，采用GeForce GTX 980显卡，采用Caffe框架来进行网络的训练与测试，使用基于Nesterov动量优化的小批次法来训练，并在每个全连接层中使用Dropout法进行正则化，防止过拟合，将每个视频候选段分割成8片段，并从每个片段中随机选择一个帧，将输入帧的大小调整到240×320，并采用固定角裁剪和基于水平翻转的尺度抖动来进行数据增强，然后，将输入调整为3×8×224×224，训练时初始学习率设置为0.001，当验证误差饱和4次时，学习率降低10倍，训练网络的动量设置为0.9，权重衰减设置为0.0005，小批次的大小设置为8。