CN108875610A

CN108875610A - 一种基于边界查找的用于视频中动作时间轴定位的方法

Info

Publication number: CN108875610A
Application number: CN201810569922.2A
Authority: CN
Inventors: 李革; 孔伟杰; 李楠楠; 钟家兴; 张涛; 李宏; 王荣刚; 王文敏; 高文
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2018-11-23
Anticipated expiration: 2038-06-05
Also published as: CN108875610B

Abstract

一种基于边界查找的用于视频中动作时间轴定位的方法，采用时间轴边界似然的组件来改进第三阶段的定位问题。该组件通过三个步骤来执行更精确的视频动作定位：给定一段由第一和第二阶段产生的类别可知的动作提议，第一步将其左右边界扩充得到一个更大的搜索间隔片段，同时将这个时间间隔均匀等分成多个单元，每个单元包含同样数目的帧数；第二步对每一个单元计算内外概率或者边界概率，分别表示该单元位于真实标注之内或之外以及是该动作发生的开始边界或结束边界的概率；第三步基于每个单元计算出的概率，利用最大似然估计来估计出最优的动作时间轴边界，从而达到定位的效果。

Description

一种基于边界查找的用于视频中动作时间轴定位的方法

技术领域

本发明涉及视频分析技术领域，尤其涉及一种基于边界查找的用于视频中动作时间轴定位的方法，该方法是基于视频深度三维特征并利用最大似然法进行动作边界查找来实现视频中动作时间轴精确定位。

背景技术

视频动作时间轴定位技术是指给定一段包含一个或多个动作的未修剪长视频，让计算机结合视频处理与相关的机器学习算法，通过对该视频内容进行分析，能够对其中是否发生某类动作做出判断，同时还需要定位动作发生和结束的位置。由于在当今这个数据爆炸的时代，每天多会产生海量的视频数据，这些数据中包含丰富有价值的信息，如何从原始视频数据中提取出有用信息是视频分析技术最主要的目的。近些年，作为视频分析中的一个新的任务，视频动作时间轴定位技术被广泛研究，然而由于视频背景复杂，动作长度不一，动作发生的时刻任意等因素，也使得该任务具有很大的挑战性。

对于给定的一段视频帧序列，现有的大部分算法通常采用“提议+分类+定位(微调)”的三阶段策略来解决这个问题。第一阶段提议：产生一系列行为不可知的动作提议，这些提议是大量有可能包含某类动作的候选视频段，其通常通过多尺度滑动窗口或者其他高效的动作提议算法对原视频进行二分类得到；第二阶段分类：利用预先训练的行为可知的分类器对每一个提议进行分类，识别出该提议所属的动作类别；第三阶段定位：利用时间轴边界框回归对每个提议框的边界进行定位微调得到最终更精准的检测结果。在现有的许多方法中，提议和分类的性能已经能达到较高的水平，然而如何实现精准的边界定位微调依旧是一个开放的问题。虽然大部分方法采用了回归网络来达到这一目的，但是，直接利用边界坐标进行回归是一个较难学习的任务，而且仅仅利用提议的起止时间坐标回归是无法产生足够准确的动作时间轴边界，因此如何精确地对动作时间轴边界进行定位是目前很多方法性能的瓶颈所在，也是一个目前亟待解决的问题。

发明内容

为了解决上述时间轴边界回归所存在的问题，并产生更精准的动作时间轴边界，本发明提出了一个称为时间轴边界似然(Temporal Boundary Likelihood，TBL)的组件来改进第三阶段的定位问题。该组件通过三个步骤来执行更精确视频动作定位：给定一段由第一和第二阶段产生的类别可知的动作提议，第一步将其左右边界扩充得到一个更大的搜索间隔片段，同时将这个时间间隔均匀等分成多个单元，每个单元包含同样数目的帧数；第二步对每一个单元计算内外(In-Out)概率或者边界(Boundary)概率，分别表示该单元位于真实标注(Ground Truth)之内或之外以及是该动作发生的开始边界或结束边界的概率；第三步基于每个单元计算出的概率，利用最大似然估计来估计出最优的动作时间轴边界，从而达到定位的效果。由于内外概率和边界概率能提供更细节更有用的用于定位的信息，因此边界寻找模型能够产生比边界回归模型仅仅利用两个边界坐标值去回归更精确的动作时间轴边界。通过在THUMOS’14和ActivityNet 1.3数据集上大量的实验，验证了本定位算法的优越性，并且检测效果优越于目前所存在的算法。

本发明提出一种名为时间轴边界似然网络(Temporal Boundary LikelihoodNetwork，TBL-Net)的算法框架进行视频动作时间轴定位，同样采用“提议+分类+定位”的三阶段检测框架，相对应的整个框架包括了3个主要组件：动作提议网络、动作分类网络和动作定位网络。

输入一段视频序列，首先利用共享的C3D深度网络对其提取丰富的深度时空特征，在C3D最后一层特征图conv5b上利用动作提议网络(Action Proposal Network)结合类似于Faster R-CNN目标检测框架中锚点(Anchor)机制来提取大量可能包含动作的高质量提议片段。对于每一个动作提议，本发明设计了一种多次迭代的方法对其进行分类和定位：在每一次迭代中，首先利用分类网络对该动作提议进行分类，得到其属于每一类的概率值；然后利用定位网络查找每一段提议所对应搜索间隔片段中存在动作的左右边界，得到检测后的动作片段，该片段经过定位网络定位调整之后，会具有更加靠近真是标注的时间轴边界，在下一次迭代中对该片段进行同样的操作。达到迭代终止条件后，将各次迭代产生的检测结果进行利用极大值抑制进行融合，得到最终的检测结果。具体包括如下步骤：

1)输入：一段待检测的视频帧序列，维度为3×L×H×W，其中L为序列的长度，H和W表示3通道帧图像的长和宽；

2)特征提取：利用C3D深度卷积网络模型对输入的视频帧序列进行特征提取，每一个卷积层都会产生一个特征图；最后一层特征图为F_conv5b，维度为

3)动作提议网络：利用一个卷积层和一个最大值池化层将最后一层特征图conv5b压缩到仅保留时间维度的特征图F_tpn，其维度为利用一个滑动空间窗口在F_tpn上以步长为1的速度沿着时间轴维度滑动，每滑到一个位置，同时预测产生K个不同尺度的锚点，并根据这些锚点产生相应的动作提议；每个动作提议都根据其中包含目标的可能性预测一个分数，根据分数从高到低排序，保留前N(如前2000个)最有可能包含动作提议，生成候选动作提议集B⁰；

4)开始迭代：设置迭代次数为T，在每次迭代给定一个候选动作提议集里面包含上一次迭代得到的检测结果，在这一次迭代中本发明利用分类和定位网络执行如下的操作对其进行进一步定位微调，将每次迭代之后得到的新的动作提议集重新送入到进行进一步迭代，迭代结束后，将每次迭代之后的结果进行融合得到最终的检测结果；

5)动作分类网络：对候选动作提议集B^t中的每一个动作片段首先利用3D RoI池化层将其池化到固定维度(512×1×4×4)的特征，从而可以将其送入两个全连接层和一个Softmax层去预测一组分数值表示该提议属于每一类的概率；

6)动作定位网络：动作定位网络由一个时间轴边界似然组件构成，其输入是一个动作片段，输出是一组条件概率矩阵，表示该片段中动作边界的某种位置信息。对候选动作提议集B^t中的每一个动作片段首先将其扩充γ倍来生成一个更大的搜索间隔片段，同时将I均匀等分成M个单元，每个单元包含同样数目的帧数；然后同样利用3D RoI池化层池化后的固定维度特征送入三个全连接层产生一个尺寸为N×M×C的一维特征向量，将该向量送入到一个Sigmoid层产生最终维度为N×M×C的条件概率矩阵，这里本发明定义了如下两种概率：

·内外(In-Out)概率：本发明定义内外概率来表示该单元位于真实标注边界内部的概率；理想情况下，给定一个真实标注，其中和分别表示其开始和结束边界，则In-Out概率p_io应该与如下目标概率T＝{T_io}相等。

·边界(Boundary)概率：本发明定义边界概率和分别表示该单元是该动作的开始边界以及结束边界的概率；理想情况下，给定一个真实标注，其中和分别表示其开始和结束边界，则边界概率p_l应该与如下目标概率T＝{T_s,T_e}相等，其中l∈{s,e}。

在检测阶段，基于上述的两种条件概率，给定一个搜索间隔片段I，本发明设计了如下三种模型，利用极大似然估计(Maximum Likelihood Estimation,MLE)来确定该搜索间隔片段中存在动作的时间轴边界B＝B_s,B_e)。

·内外(In-Out)模型：基于时间轴边界B中每一个内外概率，最大化如下似然函数：

其中上式右式第一项表示B中每一个单元在真实标注之内的概率值相乘，第二项表示不再B的每一个单元在真实标注之内的概率值相乘。

·边界(Boundary)模型：基于B中每一个边界概率，最大化如下似然函数：

L_boundary(B)＝p_s(B_s)·p_e(B_e)

·组合(Combined)模型：同时基于B中每一个内外和边界概率，最大化如下似然函数：

L_combined(B)＝L_in-out(B)·L_boundary(B)

因此，上述定位网络输出的N×M×C的条件概率矩阵中的N＝{1,2,3}分别对应于内外概率、边界概率以及组合概率，M表示单元数，C表示动作类别数。

7)检测结果输出：通过上述对候选动作提议进行多次迭代，在迭代结束后对每次迭代结果利用阈值为0.3的极大值抑制进行融合，得到最终的检测结果。

与现有技术相比，本发明的有益效果是：

1)本发明将动作时间轴边界定位问题转化为边界寻找问题，即对一个搜索间隔片段中每一个均分的单元分配某种概率，并在概率的基础上进行最大似然估计来得到最终的定位结果，所得到的结果比边界回归模型更准确。

2)本发明提出了一个新颖的动作时间轴定位深度模型，可以端到端训练并产生准确的定位结果。

3)本发明所描述的算法已经在THUMOS’14和ActivityNet v1.3数据集上进行了测试。结果表明在THUMOS’14数据集上算法的检测效果优越于目前所存在的算法，在tIoU＝0.5的mAP(Mean Average Precision)达到了31.1％，达到了目前最好效果；在ActivityNetv1.3数据集上算法同样取得了有竞争力的结果，验证了本发明模型的有效性。

下面结合附图，通过实例对本发明作进一步描述，但不以任何方式限制本发明的权利要求范围。

附图说明

图1：本发明所提出的时间轴边界似然组件进行动作边界查找示意图。

图2：本发明所提出的时间轴边界似然网络算法网络框架图。

图3：依据本发明进行视频动作时间轴检测流程图。

具体实施方式

图1是本发明的时间轴边界似然组件进行动作边界查找示意图，整个操作流程称作边界寻找(Boundary Seeking)。

图2是本发明提供的行人检测方法的整体框架图，其中：1-输入长度为L的视频帧序列；2-利用C3D网络对视频帧序列进行特征提取；3-利用动作提议网络在C3D网络得到的最后一层特征图conv5b上提取可能包含动作的动作提议片段；4-C3D网络得到的最后一层特征图F_conv5b，维度为5-利用一个卷积层和一个最大值池化层将最后一层特征图conv5b压缩到仅保留时间维度的特征图F_tpn，维度为6-提取出的长短不一的动作提议片段；7-对每一个动作提议利用扩展并3D RoI池化后的固定维度特征；8-动作分类网络：对每一个动作提议输出其属于每一个动作类别的概率；9-动作定位网络：对每一个动作提议输出每一类的M个边界条件概率或者内外条件概率用于训练和检测。

图3是本发明提供的行人检测方法的方法流程图，整体流程为：输入视频帧序列S1；利用C3D网络提取特征S2；利用动作提议网络提取提议片段集合S3；利用分类网络对提议集合中的每个提议进行分类获得类别分数S4；利用定位网络获得提议集合中每个提议的内外或边界概率S5；对所得概率利用最大似然估计对时间边界进行定位S6；生成新的提议集合S7；迭代次数加1S8；判断是否满足迭代停止条件S9；如果满足，将新的提议集重新送回网络进行进一步的分类和定位S10；如果不满足，合并前n词的迭代结果，得到最终的检测结果S11。

为了验证本发明算法的有效性，在两个极具挑战性的公开数据集上进行了测试，分别是THUMOS’14和ActivityNet。THUMOS’14数据集包含20个小时来自20个不同动作类别的视频，其中共有413段视频，200段用来做验证集，213个用来做测试集。在检测阶段，两个被错误标注的视频：第270号和第1496号被排除在外。在评估阶段，本发明报道了当目前窗口与真实值的交并比tIoU＝{0.1,0.2,0.3,0.4,0.5,0.6,0.7}时每一类别动作的mAP，并且将mAP@tIoU＝0.5时的值与其他方法作为比较，来衡量本发明模型的性能。ActivityNet有两个版本：v1.2和v1.3，本发明选择了后者来进行实验，该版本包括了19994段视频，200个动作类别，其中10024段用来训练，4926段用来验证，5044段用来测试。在评估阶段，本发明报道了tIoU＝{0.5,0.75,0.95}时每一类别动作的mAP，并将tIoU＝[0.5:0.05:0.95]时mAP的平均值作为与其他方法的比较。

在训练整个网络时，本发明利用如下损失函数同时优化动作分类网络和动作定位网络：

其中N_cls和N_loc分别表示Batch Size和动作提议段的数目，λ表示损失权重调整参数，当在THUMOS’14数据及上训练时λ＝20，当在ActivityNet数据及上训练时λ＝250。下标i和j表示索引，θ₁和θ₂分别表示分类网络和定位网络的参数。对于分类网络，L_cls表示标准的多类别交叉熵损失函数，其中的a_i和表示预测后的类别概率值和真实标注；对于定位网络，p_(·)j＝{p_(io)j,p_(bd)j}表示对于每一个提议片段所对应搜索间隔的内外或边界概率值，T_(·)j＝{T_(io)j,T_(bd)j}表示对于每一个提议片段所对应的目标概率值。对于L_loc采用了二元逻辑回归损失函数，对于内外模型，L_loc具体由如下式子给出：

对于边界模型，L_loc具体由如下式子给出：

对于上面两个式子，其中对于边界模型，本发明采用类似于R-C3D(Xu H,Das A,Saenko K.R-c3d:Region convolutional 3d network fortemporal activity detection[C]//The IEEE International Conference on ComputerVision(ICCV).2017,6:8.)的权重参数来平衡属于边界的单元和非边界单元之间的权重。

本发明以THUMOS’14数据集为例，来说明本发明的算法如何在实际中使用。本发明的TBL-Net模型基于R-C3D的公开代码并在Caffe深度学习框架上实现，网络首先输入是512帧的视频帧序列，帧率为25帧/s；然后本发明利用在Sport-1M数据集上预训练并在UCF101数据集上微调后的C3D权值来初始化网络，进行特征提取；在动作提议网络中，本发明设计了28个不同尺度的锚点来提取动作提议片段，这28个锚点[2,4,6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,46,48,50,52,54,56]，本发明利用以10^-4的学习率训练5万次后的模型来进行模型的验证，其余的实现细节和R-C3D相同。

在本发明中有三个重要的超参数，分别是划分单元数M、动作提议扩充因子γ和检测迭代次数T，通过多组消融实验，本发明获得的最佳超参数设置为M＝32,γ＝2.0,T＝3，利用该最佳超参数，将本发明的三个模型：内外模型、边界模型和组合模型与目前现有的方法在THUMOS’14数据集上做如下对比，如下：

表1在THUMOS’14数据集上进行动作时间轴检测结果对比

从表1中可以看出，本发明的三个TBL-Net模型检测mAP在不同tIoU阈值的情况下都超过了基线模型R-C3D，并且超过了所有的目前的基于C3D特征的模型，同时本发明的边界模型达到了目前现存算法中最好的性能。Two-Stream特征由于利用到了光流信息，其识别效率本身就比C3D特征性能更好，但是本发明基于C3D特征的三个模型和目前的基于Two-Stream特征的算法达到了很有竞争力的结果，说明了本发明算法的有效性。

在ActivityNet v1.3测试集上，本发明进行了同样的检测结果对比，网络首先输入是768帧的视频帧序列，帧率为3帧/s；然后本发明利用在Sport-1M数据集上预训练并在ActivityNet数据集上微调后的C3D权值来初始化网络，进行特征提取；在动作提议网络中，本发明设计了20个不同尺度的锚点来提取动作提议片段，这20个锚点[1,2,3,4,5,6,7,8,10,12,14,16,20,24,28,32,40,48,56,64]，本发明利用以10^-4的学习率训练10万次并以10^-5的学习率训练5万次后的模型来进行模型的验证，其余的实现细节和R-C3D相同，超参数设置同样为M＝32,γ＝2.0,T＝3，对比结果如下。

表2在ActivityNet v1.3测试集上进行动作时间轴检测结果对比

tIoU	0.5	0.75	0.95	Average
					UPC[7]	22.30	-	-	-
R-C3D(基线)[6]	26.45	11.47	1.69	13.33
					TBL-Net(In-Out)	26.65	14.12	2.50	15.00
TBL-Net(Boundary)	27.82	15.00	2.82	15.68

从表2中可以看出，本发明的两个时间轴边界似然网络模型(TBL-Net)检测mAP在不同tIoU阈值的情况下都超过了基线模型R-C3D，并且超过了远远超过了UPC，一个同样利用C3D特征的算法，证明了本发明算法的有效性和优越性。

表1和表2中用于对比的现有方法分别记载在以下相应文献中：

[1]Dai X,Singh B,Zhang G,et al.Temporal Context Network for ActivityLocalization in Videos[C]//2017IEEE International Conference on ComputerVision(ICCV).IEEE,2017:5727-5736.

[2]Yue Zhao,Yuanjun Xiong,Limin Wang,Zhirong Wu,Xiaoou Tang,and DahuaLin.Temporal action detection with structured segment networks.In The IEEEInternational Conference on Computer Vision(ICCV),volume 8,2017.

[3]Jiyang Gao,Zhenheng Yang,and Ram Nevatia.Cascaded boundaryregression for temporal action detection.In Proceedings of the BritishMachine Vision Conference(BMVC),2017.

[4]Zheng Shou,Jonathan Chan,Alireza Zareian,Kazuyuki Miyazawa,andShih-Fu Chang.Cdc:convolutional-de-convolutional networks for precisetemporal action localization in untrimmed videos.In 2017IEEE Conference onComputer Vision and Pattern Recognition(CVPR),pages 1417–1426.IEEE,2017.

[5]S Buch,V Escorcia,B Ghanem,L Fei-Fei,and JC Niebles.End-to-end,single-stream temporal action detection in untrimmed videos.In Proceedings ofthe British Machine Vision Conference(BMVC),2017.

[6]Huijuan Xu,Abir Das,and Kate Saenko.R-c3d:Region convolutional 3dnetwork for temporal activity detection.In The IEEE International Conferenceon Computer Vision(ICCV),volume 6,page 8,2017.

[7]Alberto Montes,Amaia Salvador,Santiago Pascual,and Xavier Giro-iNieto.Temporal activity detection in untrimmed videos with recurrent neuralnetworks.arXiv preprint arXiv:1608.08128,2016.

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于边界查找的用于视频中动作时间轴定位的方法，其特征在于：该方法包括如下步骤：

4)开始迭代：设置迭代次数为T，在每次迭代给定一个候选动作提议集里面包含上一次迭代得到的检测结果，在这一次迭代中我们利用分类和定位网络执行如下的操作对其进行进一步定位微调，将每次迭代之后得到的新的动作提议集重新送入到进行进一步迭代，迭代结束后，将每次迭代之后的结果进行融合得到最终的检测结果；

6)动作定位网络：动作定位网络由一个时间轴边界似然组件构成，其输入是一个动作片段，输出是一组条件概率矩阵，表示该片段中动作边界的某种位置信息。

2.根据权利要求1所述的动作时间轴定位的方法，其特征在于：步骤6)中，对候选动作提议集B^t中的每一个动作片段首先将其扩充γ倍来生成一个更大的搜索间隔片段，同时将I均匀等分成M个单元，每个单元包含同样数目的帧数；然后同样利用3D Roi池化层池化后的固定维度特征送入三个全连接层产生一个尺寸为N×M×C的一维特征向量，将该向量送入到一个Sigmoid层产生最终维度为N×M×C的条件概率矩阵。

3.根据权利要求2所述的动作时间轴定位的方法，其特征在于：所述的概率为：

●内外(In-Out)概率：内外概率来表示该单元位于真实标注边界内部的概率；理想情况下，给定一个真实标注，其中和分别表示其开始和结束边界，则In-Out概率p_io应该与如下目标概率T＝{T_io}相等；

●边界(Boundary)概率：边界概率和分别表示该单元是该动作的开始边界以及结束边界的概率；理想情况下，给定一个真实标注，其中和分别表示其开始和结束边界，则边界概率p₁应该与如下目标概率T＝{T_s，T_e}相等，其中l∈{s，e}。

4.根据权利要求3所述的动作时间轴定位的方法，其特征在于：基于上述的内外概率和边界概率，给定一个搜索间隔片段I，设计如下三种模型，利用极大似然估计(MaximumLikelihood Estimation，MLE)来确定该搜索间隔片段中存在动作的时间轴边界B＝(B_s，B_e)；

●内外(In-Out)模型：基于时间轴边界B中每一个内外概率，最大化如下似然函数：

其中上式右式第一项表示B中每一个单元在真实标注之内的概率值相乘，第二项表示不再B的每一个单元在真实标注之内的概率值相乘；

●边界(Boundary)模型：基于B中每一个边界概率，最大化如下似然函数：

L_boundary(B)＝p_s(B_s)·p_e(B_e)

●组合(Combined)模型：同时基于B中每一个内外和边界概率，最大化如下似然函数：

L_combined(B)＝L_in-out(B)·L_boundary(B)

上述定位网络输出的N×M×C的条件概率矩阵中的N＝{1，2，3}分别对应于内外概率、边界概率以及组合概率，M表示单元数，C表示动作类别数。

5.根据权利要求1至4所述的任意一项动作时间轴定位的方法，其特征在于：步骤6)后还有步骤7)检测结果输出：通过上述对候选动作提议进行多次迭代，在迭代结束后对每次迭代结果利用阈值为0.3的极大值抑制进行融合，得到最终的检测结果。