CN110688927B

CN110688927B - 一种基于时序卷积建模的视频动作检测方法

Info

Publication number: CN110688927B
Application number: CN201910890368.2A
Authority: CN
Inventors: 张汗灵; 龙亚艺
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2022-09-30
Anticipated expiration: 2039-09-20
Also published as: CN110688927A

Abstract

本发明提出一种基于时序卷积建模的视频动作检测方法，首先采用动作提案生成技术产生尽可能包含完整动作的提案片段；其次使用非极大值抑制配合加权IoU筛选出完整且重叠度高的提案，随后对提案进行稀疏采样得到指定数量的视频帧；采用深度网络模型提取视频帧的时空特征；然后对得到的帧级时空特征按演化模式划分成三个阶段，随后使用时序卷积对每个阶段的特征分别进行时序建模。最后使用分类器和回归器来预测动作类别和检测动作发生的时间区间。应用本发明可以克服提案的不完整性，同时最大限度的保留视频流的时序信息，进而更为精确的检测视频中的动作。

Description

一种基于时序卷积建模的视频动作检测方法

技术领域

本发明涉及图像、视频处理技术领域，具体是涉及一种基于时序卷积建模的视频动作检测方法。

背景技术

动作检测是近几年视频分析领域中备受关注的研究方向之一，它既要求识别动作类别又要定位出动作在未裁剪、任意长视频中发生的时间区间。

自THUMOS’14挑战赛将时空定位任务切换为时序定位任务以来，近几年动作检测领域取得了快速的进展，然而高精度、高效率的动作检测依旧是视频分析领域的一个大难点。任务的难点在于它既有静态图像处理存在的背景，噪点，遮挡，模糊等所有常见干扰，还有复杂多变的动作姿态，场景。一个高精度网络必须具备高度的抽象能力，学习动作的潜在模式区别，理解不同动作中人与特定物体的关联，区分场景对动作识别的贡献和干扰。也就是说，该任务不仅要求模型具备理解视频高级语义的能力，还要求对提取的不同高级语义进行综合判断。当前的动作检测的性能制约了它在监控，服务型机器人，视频检索等智能视觉系统中的应用。

2016年以前，大多动作检测方法都采用手工特征取得了不错的效果。此类模型通常做法是先提取HOG,MBH,DT等运动描述符(Motion descriptors)，然后编码特征，最后用诸如SVM等分类器进行分类。例如在THUMOS’14、15挑战赛上，大部分模型都采用了经过FV编码的iDT特征。然而，随着应用的视频场景变得更复杂，数据集也变得更大，传统的手工特征(hand-craftedfeatures)带来了昂贵的开销，渐渐被弃用。受到R-CNN的启发，Shou等人提出一种多阶段的模型(S-CNN)完全采用CNN特征。虽然该模型用于解决动作定位问题，但它的本质是一个分类网络，它将滑动窗口产生的片段作为输入，若该片段被网络识别为某一类别，则该片段的持续时间默认为视频中动作发生的区间。该方法的检测精度过度依赖于提案片段的召回率。为了进一步解决精度问题，部分方法尝试利用边界回归。Xu等人通过参考Faster R-CNN引入一个回归网络来回归提案与真实动作片段之间中点和长度的相对偏移。前面提到的两种方式都使用Tran等人提出的C3D网络提取深度特征，其优势是采用3D卷积来处理视频所包含的时序信息且模型的设计简单。但是，它具有比2D ConvNets更多的参数由于多出的时序维度，这使得它难以训练。实践中发现它的性能常常不如双流网络。Dai等人提出一个时序上下文网络(TCN)来更好的利用视频的时序信息。具体地，在提案产生阶段将片段拓展为原来的两倍，然后在不同尺度的特征集中选取一对特征，并使用时序卷积获取上下文信息，最后将两个特征合并成固定维度的表征用于排序和分类。

发明内容

本发明的目的在于克服现有时序动作检测技术的不足而提供一种基于时序卷积建模的视频动作检测方法，以最大限度的保留视频的时序信息，同时引导网络模型抽象出动作开始和结束阶段的高级语义，帮助更好的定位动作。

为了实现上述目的，本发明采用如下技术方案：

一种基于时序卷积建模的视频动作检测方法，具体实施步骤如下：

步骤一：动作提案生成

对整个视频流应用动作提案生成技术来产生尽可能包含动作的大量视频片段，再通过非极大值抑制(NMS)技术配合本发明提出的加权IoU作为搜索元素，从生成的大量剪辑片段中筛选与真实实例重叠度较高剪辑片段用于网络模型的输入。

步骤二：片段特征提取

对通过筛选的剪辑片段按预设值进行拓展，形成带有上下文信息的视频片段。再对其进行稀疏采样得到指定数量的视频帧，最后使用深度网络模型提取视频帧的时空特征。

步骤三：时序卷积建模

将得到的视频帧的时空特征根据动作的时序演变模式分为开始，演化，结束三个阶段。针对每个阶段均使用一个时序卷积层对连续多帧的时空特征进行时序建模，提取出前后多帧之间的时序关系信息。

步骤四：分类与回归

经过时序上下文建模之后的特征被分别送入分类器和回归器，分类器用于预测该剪辑片段的动作内容属于某一类的置信值，回归器用于细化定位动作发生的开始和结束时间。

作为优选，步骤一中：

假设每个视频中的真实动作实例表示为

这里的I_g代表视频V中真实动作实例的数量，

和

分别代表真实动作实例

的开始时间和结束时间。视频中第m个提案片段

中的动作实例表示为

I_p代表提案中动作实例的个数。首先计算提案片段中的第j个动作实例与该视频所有真实动作实例的时序区间的交集和并集的比值，

IoU可以反映二者之间的重叠度。再计算两者的时序区间的交集和真实实例区间的比值，本方法将其称之为IoT，可以表示为

它能够反映出动作提案片段的完整性。将IoT作为IoU调制系数从而得到加权IoU：

IoU_w＝IoT*IoU

作为优选，步骤三中：

三个阶段的时空特征可以表示为

一个时序卷积层可以被简单表示为Conv(l_in,c_out,k,s)，这里的l_in,c_out,kands分别代表输入数据长度，输出通道数，卷积核大小以及卷积核步长(stride)。经过时序卷积后的阶段特征可表示为：

其中，W和b表示时序卷积层的权重和偏置(bias)。

可选的，将步骤四中分类器得到各类别的置信值作为softmax函数的输入，计算得到片段属于特定类别的置信度。回归器预测提案片段区间与真实动作实例片段区间的中心点和长度的相对变化，通过坐标转换公式可计算出预测的实际时间区间。

可选的，在本发明方法训练的过程中，针对分类器采用交叉熵损失函数计算置信值的损失，针对回归器采用smooth L1损失函数计算预测偏移量的损失，计算两种损失的加权平均值作为融合损失，最终优化器根据融合损失来优化网络模型。本发明的损失函数如下所示：

Loss＝L_cls+βL_reg

β表示回归损失的系数，它被用于保持损失平衡，默认设置为1。

本发明提出一种基于时序卷积建模的视频动作检测方法，首先采用动作提案生成技术产生尽可能包含完整动作的提案片段；其次使用非极大值抑制算法配合加权IoU筛选出完整且重叠度高的提案，随后对提案进行稀疏采样得到指定数量的视频帧；采用深度网络模型提取提案视频帧的时空特征；然后对得到的帧级时空特征按演化模式划分成三个阶段，随后使用时序卷积对每个阶段的特征分别进行时序建模。最后使用分类器和回归器来预测动作类别和回归动作发生的时间区间。应用本发明可以克服提案的不完整性，同时最大限度的保留视频流的时序信息，进而更为精确的检测视频中的动作。

附图说明

为了更清楚地说明本发明的技术方案，下面将对方法描述中所需要使用的附图作简单地介绍。

图1是本发明所述一种基于时序卷积建模的视频动作检测方法的流程图。

图2是本发明实施例提供的一种时序卷积建模子模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。图1为本发明提供的一种基于时序卷积建模的视频时序动作检测方法的流程图,该方法包括如下步骤:

S100，通过动作提案生成技术遍历视频流产生尽可能包含动作的提案片段。

上述动作不限类型和复杂程度，也可以是某一种活动，如赛跑，骑马等等。

一种实现方式中，可以在视频序列上通过滑动不同尺度的窗口来产生多尺度动作提案。还可以进一步利用二分类模型剔除部分背景片段保留动作片段，从而优化提案的质量。

另一种实现方式中，可以对所有的视频帧进行预测判断其是动作的概率，然后对得到的概率序列利用分组技术组成包含动作的片段，能够进一步提高动作提案中包含完整动作的概率。

S110，对提案片段进行进一步地筛选，剔除冗余。训练时还需对提案片段进行标签分配，对提案的帧序列进行稀疏采样，得到预设数量的视频帧，具体的：

A)使用非极大值抑制算法，剔除与重叠度较大提案相近的冗余提案。

B)提案标签的分配就是根据预先设置正、负样本的阈值将大于正样本阈值(包含动作内容较为完整)的标记为模型训练的正样本，小于负样本阈值(基本不含动作内容)的标记为负样本。

上述的两个步骤均涉及到评价指标，一种实现方式中使用IoU作为评价指标，另一种实现方式是使用加权IoU作为评价指标。

作为优选，加权IoU不仅能够体现提案与真实动作实例的重叠度，更能体现提案包含动作的完整性，这对于动作检测的精确性有很大影响。

C)稀疏采样旨在减少输入数据的冗余，降低计算成本。采样时根据预设的各阶段比例，分阶段采样指定比例的帧。同时保证一批数据中的正负样本处于合适比例，提升模型训练效果。

假设一个未裁剪的视频表示为

有L_v帧。每个视频中的真实动作实例表示为

这里的I_g代表视频V中真实动作实例的数量，

和

分别代表真实动作实例

的开始时间和结束时间。首先，采用提案生成技术，对视频V生成多尺度的提案集，表示为

L_s表示该视频中片段提案的数量。

视频中第m个提案片段

中的动作实例表示为

IoU_w＝IoT*IoU

S120，将采样得到的视频帧进行数据增强以及归一化处理，再使用深度网络模型提取的时空特征。一种实现方式是使用双流网络，分别从RGB图像帧和光流图像帧中获取空间特征和时序特征。另一种方式是利用3D卷积网络从RGB图像帧序列中直接获取时空特征。

S130，假设通过深度网络模型对视频片段进行编码，得到每个片段的帧级时空特征

其中f_n为第n帧的一维特征向量。然后，对提取的帧级时空特征F_f执行一个时序上下文建模子模块来构建完整的上下文表征F。

时序卷积上下文建模子模块能够利用候选提案片段的帧级特征来学习动作各阶段中相邻的帧之间的潜在关联，例如身体各部位的运动等。该模块如图2所示，给定一个动作片段的帧级特征F_f，将其人为的划分为三个阶段：开始，演化和结束，得到三个阶段特征，表示为

然后，对每个阶段的特征应用一个对应的时序卷积层用于该阶段内的多帧特征的筛选和组合。一个时序卷积层可以被简单表示为Conv(l_in,c_out,k,s)，这里的l_in,c_out,k and s分别代表输入数据长度，输出通道数，卷积核大小以及卷积核步长(stride)。时序卷积后的阶段特征可表示为：

W和b表示时序卷积层的权重和偏置(bias)。为了使得模块能够学习特征在时序上的演化模式，必须保证卷积核在

的时间维度上滑动，因此要对输入特征进行转置和reshape操作。

最后对各阶段的融合特征进行简单的联接得到片段级特征F＝{F^p，p＝0,1,2}，从而实现对时序上下文的建模。时序卷积层的使用不仅减少了特征帧的数量而且极大限度的保留了各阶段的上下文信息。

S140，经过时序建模之后的特征被分别送入分类器和回归器，分类器用于预测该剪辑片段的动作内容属于某一类的置信值，根据置信值大小可判断分类器的预测的类别，还可以将各类别的置信值作为softmax函数的输入，计算得到片段属于特定类别的置信度。回归器预测提案片段区间与真实动作实例片段区间的中心点和长度的相对变化，精细化定位动作发生的开始和结束时间。最终可以通过坐标转换公式将预测的偏移量转化为实际时间区间。

Loss＝L_cls+βL_reg

本发明提出一种基于时序卷积建模的视频动作检测方法，首先采用动作提案生成技术产生尽可能包含完整动作的提案片段；其次使用非极大值抑制算法配合加权IoU筛选出完整且重叠度高的提案，随后对提案进行稀疏采样得到指定数量的视频帧；采用深度网络模型提取提案视频帧的时空特征；然后对得到的帧级时空特征按演化模式划分成三个阶段，随后使用时序卷积对每个阶段的特征分别进行时序建模。最后使用分类器和回归器来预测动作类别和检测动作发生的时间区间。应用本发明可以克服提案的不完整性，同时最大限度的保留视频流的时序信息，进而更为精确的检测视频中的动作。

Claims

1.一种基于时序卷积建模的视频动作检测方法，其特征在于，所述方法包括：

采用动作提案生成技术产生尽可能包含完整动作的提案片段；

使用非极大值抑制配合加权IoU筛选出完整且重叠度高的提案，并对提案进行稀疏采样得到指定数量的视频帧；采用深度网络模型提取提案视频帧的时空特征；对得到的帧级时空特征按演化模式划分成三个阶段，随后使用时序卷积对每个阶段的时空特征分别进行时序建模；使用分类器和回归器来预测动作类别和回归动作发生的时间区间，进而更为精确的检测视频中的动作；

使用非极大值抑制算法配合加权IoU筛选出完整且重叠度高的提案，并对提案进行稀疏采样得到指定数量的视频帧，包括：

计算提案片段与对应真实动作实例之间的加权IoU并将其作为非极大值抑制算法的搜索元素，执行算法以剔除冗余的提案片段；

在训练过程中，将加权IoU作为正负样本分配的评价准则，预先设置合适的加权IoU大小作为阈值；根据预设的阈值将提案片段分为正样本集和负样本集；网络输入时，对提案片段进行稀疏采样，同时保证各演化阶段的帧数为预设比例；

利用以下公式计算每个提案片段与真实动作片段之间的加权IoU值：

假设一个未裁剪的视频表示为