CN109977819B

CN109977819B - 一种应用模板匹配方法的弱监督单个动作定位方法

Info

Publication number: CN109977819B
Application number: CN201910193601.1A
Authority: CN
Inventors: 陈沅涛; 王进; 陈曦; 王志; 丁林; 段振春; 刘燚; 蔡周沁雄
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha duying Electronic Technology Co., Ltd
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2020-04-24
Anticipated expiration: 2039-03-14
Also published as: CN109977819A

Abstract

本发明公开了一种应用模板匹配方法的弱监督单个动作定位方法，包括：在视频每一帧中给出若干动作主体位置的候选框区域，按照时间顺序把这些候选框连接形成动作提名；利用训练集视频中部分视频帧求得动作模板，其中与动作模板匹配误差越小的动作提名越能接近动作实际位置；利用动作提名与动作模板训练动作定位模型完成动作定位操作。该方法是弱监督性质，训练时将动作真实位置看成是隐变量，利用动作模板在短时间内完成模型参数的学习，动作定位准确，受相机抖动影响较小，并且可以处理任意长度视频，方法应用范围广泛。

Description

一种应用模板匹配方法的弱监督单个动作定位方法

技术领域

本发明涉及运动视频的动作定位技术领域，具体涉及一种应用模板匹配方法的弱监督单个动作定位方法。

背景技术

计算机视觉中动作定位任务不仅需要在空间上和时序上完成定位动作操作，而且需要确定动作类别。即：不仅需要确定动作在视频每个视频帧上的具体实际位置，而且需要确定动作从什么时刻开始到什么时刻结束，以及视频中动作是什么类别动作。动作定位有着广泛实际应用前景，比如：警方需要确定犯罪分子逃跑路线或街头斗殴经过以及球迷希望集中观看足球场上精彩射门瞬间等具体应用环境。

近些年来，计算机视觉领域针对视频动作定位的研究工作已有部分研究成果，其中大部分只能达到在时序上对动作进行定位操作，无法在空间上对动作进行定位。现有的能够实现动作时空定位的方法大致可分为两类：一种是强监督方法；另一种是弱监督方法。强监督方法定位操作的主要缺点是必须需要针对数据集中视频每帧图像逐一完成标注操作，使得科研人员把大部分时间消耗在标注数据集这种简单重复工作中，牺牲真正研究算法的宝贵时间。弱监督方法通过利用从网络上下载图像来帮助定位人的实际动作，减小标注数据集所花费时间精力，但是获取合适的网络图像、处理网络图像同样存在难度。

发明内容

现有动作时空定位方法中，强监督方法数据集标注工作量大且容易标错，弱监督方法难以获取网络图像，为克服这一缺陷，本发明的目的是提出一种应用模板匹配方法的弱监督单个动作定位方法，本方法只需要针对视频做类别标注和极少的视频帧级别标注操作，能够大大减少处理数据集的宝贵时间，同时也不用借助上述网络图像搜集过程。

为实现上述目的，本发明采用以下技术方案：

一种应用模板匹配方法的弱监督单个动作定位方法，包括：

对数据集中训练集的每类视频均选取部分视频帧，每一帧均用标注框人工标注动作主体位置，提取标注框的VGG特征，形成每类动作的动作模板M，表示为：M＝dim×n，式中dim为VGG特征的维度，_n为标注框个数；

构建基于模板匹配的动作定位模型；

模型训练：对训练集中单个视频的每一帧给出动作主体的若干个候选框，然后按时间顺序连接候选框形成多个候选动作轨迹，得到该训练视频的动作提名，即为样本提名，提取该训练视频的C3D特征和对应的样本提名的C3D特征，将该训练视频的每个样本提名分别与动作模板相匹配，通过设置约束条件使动作定位模型对该训练视频进行正确的类别判定，并选择与动作实际位置最接近的样本提名作为该训练视频中动作主体的位置，输出对应的模型参数；

模型测试：对测试集中单个视频的每一帧给出动作主体的若干个候选框，然后按时间顺序连接候选框形成多个候选动作轨迹，得到该测试视频的动作提名，即为目标提名，提取该测试视频的C3D特征和对应的目标提名的C3D特征，代入训练好的动作定位模型，利用确定的模型参数确定动作类别和动作位置。

优选的，候选框的获取方法为YOLOv3、EdgeBoxes和Objectness方法，其中YOLOv3方法用于在每一帧上提取动作主体的候选框，EdgeBoxes和Objectness用于在每一帧上提取物体的候选框，连接候选框时优先连接YOLOv3候选框，在出现丢失检测帧时采用EdgeBoxes或Objectness候选框替代。

优选的，候选框连接时设定连接得分阈值，在连接得分小于该连接得分阈值时，结束相应动作提名的后续连接，其中，候选框之间的连接得分由式(1)至式(4)计算：

score＝α₁·IOU+α₂·A+α₃·S (1)；

α₁+α₂+α₃＝1 (4)；

式中，box₁和box₂代表待连接的两个候选框，IOU表示两个候选框的重叠度，A表示两个候选框的面积相似性，area₁和area₂分别是两个候选框的具体面积，S表示颜色直方图实际相似性。其中，参数α₁、α₂、α₃分别优选为0.3、0.3、0.4，连接得分阈值优选为0.2。

优选的，模型训练的方法为：

设V＝{(x_i,y_i)_i＝1:N}表示训练集，其中x_i表示第i个视频，N是训练集的视频数量，Y是动作类别集合，y_i是视频x_i的动作类别，y_i∈Y；H_i表示从视频x_i中提取的样本提名h_i的集合，采用公式(5)-(6)所示的判别函数F(x,h)判别与视频动作实际位置最接近的样本提名：

式中，Φ(x,h)是由视频_x的C3D特征和视频_x中样本提名h的C3D特征组成的联合特征，w_y表示与动作类别y相关的模型参数向量，w_y∈w，_w为模型参数；

采用隐变量支持向量机学习判别函数F(x,h)的参数，隐变量支持向量机参数优化问题定义如下：

s.t.

式中，c₁、c₂是惩罚系数，ξ_i、

是松弛变量，y′从动作类别集合Y中取值，

表示与视频x_i动作实际位置最接近的样本提名；对Δ(y_i,y′)，当y_i≠y时，Δ＝1，否则Δ＝0；t_j是动作类别y_j的动作模板，

表示

与t_j的匹配误差，

h′_i∈H_i

本发明的有益效果：

本方法是弱监督性质，训练视频只需要进行动作类别标注和部分帧级别标注，训练时将动作真实位置看成是隐变量，利用动作模板在短时间内完成模型参数的学习，动作定位准确，受相机抖动影响较小，并且可以处理任意长度视频，方法应用范围广泛。通过在数据集UCF-Sports上的实际实验表明，与同属于弱监督性质的STAL方法相比，本方法对单个主要动作的实际视频定位效果更好。

附图说明

图1是本发明一种实施方式对UCF-Sports测试集中每类动作的识别率。

图2是本发明一种实施方式在UCF-Sports测试集中的定位效果图。

具体实施方式

下面通过附图及具体实施方式对本发明进行详细的说明。

为解决现有视频中普遍存在的动作定位不够准确现象问题，本实施例提出基于模板匹配方法的动作定位方法。该方法属于弱监督学习方法，在处理数据集时除开标注动作类别之外只需要在部分视频帧上完成人工标注即可。

该方法包括：构建基于模板匹配的动作定位模型，在对训练集中单个视频的每一帧中给出若干动作主体位置的候选框区域，按照时间顺序把这些候选框连接形成多个候选的动作轨迹，得到该训练视频的动作提名，即为样本提名，提取该训练视频的C3D特征和对应的样本提名的C3D特征；利用训练集视频中部分视频帧求得动作模板，其中与动作模板匹配误差越小的样本提名越能接近动作实际位置；利用该训练视频的C3D特征、对应的样本提名、该样本提名的C3D特征和动作模板训练动作定位模型完成动作定位操作。在模型训练过程中，真实动作位置未进行人工标注操作，而看成是模型隐变量，训练时从动作提名中取值，利用模板匹配方法促使动作定位模型从众多样本提名中选择最合适的样本提名作为动作实际位置。

测试阶段，同样在每个测试视频帧中给出动作主体的候选框，连接候选框形成动作提名，从测试视频中提取的动作提名称作目标提名，然后将该测试视频的C3D特征和对应的目标提名的C3D特征代入训练好的动作定位模型，确定动作类别和动作位置。该方法对包含单个主要动作的视频动作定位效果好，受到相机抖动影响较小，并且可处理任意长度视频数据，应用范围广泛。

由以上描述可知，模型训练和最后识别都需要获取动作提名，为此，需要在每个视频帧上获取候选框。现有的获得候选框的方法有YOLOv3、EdgeBoxes和Objectness。Objectness方法根据目标框之间的NG特征具有显著共性，以及目标框和背景框的NG特征明显不同，确定哪些候选框中是目标。虽然，这种方法运算速度快、召回率高，但是结果不够精确。EdgeBoxes利用边缘信息，确定框内轮廓数量和与框边缘重叠轮廓数量，然后确定候选框，这种方法的缺陷在于评分较高的框近似是整幅图像大小规模，虽然召回率高但是不够精确。YOLOv3相对于前两种方法，优点是给出候选框精确度高，同时可以判定类别，缺点却是召回率较低。

为克服上述三种方法的不足，本实施例采用YOLOv3方法在每一帧上提取动作主体(以人为例)的候选框，考虑到YOLOv3方法能够提取高质量的“人”候选框，但是由于人的姿态丰富多变，会出现在某些帧上丢失检测的情况，因此同时利用EdgeBoxes和Objectness继续在每一帧上提取物体候选框，最后每一个视频帧上得到候选框包括所有YOLOv3候选框，以及得分排名靠前的EdgeBoxes和Objectness候选框。由于EdgeBoxes和Objectness获得候选框比较丰富，召回率较高，但是大多数都不精确且不知道框内物体具体是什么，在候选框连接时优先连接YOLOv3候选框，在出现丢失检测帧时则采用EdgeBoxes或Objectness候选框替代。

当视频帧级别候选框获取之后，需要在帧与帧之间无间断连接候选框，所形成候选框序列即是动作提名。动作提名最大特性是平滑性与相似性，帧与帧之间连接需要平滑，前一个框与后一个框要具备很强相似性。

本实施例中，候选框连接时设定连接得分阈值，在连接得分小于该连接得分阈值时，结束相应动作提名的后续连接，其中，候选框之间的连接得分_score由式(1)至式(4)计算：

score＝α₁·IOU+α₂·A+α₃·S (1)；

α₁+α₂+α₃＝1 (4)；

式中，box₁和box₂代表待连接的两个候选框，IOU表示两个候选框的重叠度，A表示两个候选框的面积相似性，area₁和area₂分别是两个候选框的具体面积，S表示颜色直方图实际相似性。IOU和A约束动作提名平滑性，S约束动作提名的候选框之间相似性。经过实验发现，候选框重叠度和候选框大小相似性两个因素对获得动作提名同等重要，候选框颜色直方图相似性要比其它两个因素影响更大，所以后续实验中候选框连接得分公式中的参数α₁、α₂、α₃分别设为0.3、0.3、0.4。连接得分阈值设为0.2，在每个动作提名连接时，如果与下一帧上候选框连接得分score<0.2，则结束该提名的后续连接。

每类动作的动作模板是该类动作各种动作姿态的集合，如数据集中有c类动作，就会形成c种类型动作模板。由于训练视频中动作位置未被人工标注，动作模板的作用在于使模型训练时选择最合适的样本提名作为训练视频中动作的位置，并确定动作类型。

对数据集中训练集的每类视频均选取部分视频帧，每一帧均用标注框人工标注动作主体位置，提取标注框的VGG特征，形成每类动作的动作模板M，表示为：M＝dim×n，式中dim为VGG特征的维度，n为标注框个数。

获得训练视频的样本提名和每类动作的动作模板后，下一步对动作定位模型进行训练，确定视频中动作的类别和时空位置。

设V＝{(x_i,y_i)_i＝1:N}表示训练集，其中x_i表示第i个视频，N是训练集的视频数量，Y是动作类别集合，y_i是视频x_i的动作类别，y_i∈Y。H_i表示从视频x_i中提取的样本提名h_i的集合，视频x_i中动作的实际位置在训练之前未被人工标注，模型训练时选择一个最合适的样本提名

作为视频x_i中动作的位置，

视作动作定位模型的隐变量。

定义判别函数F(x,h)如公式(5)-(6)所示：

式中，Φ(x,h)是由视频_x的C3D特征和其样本提名h的C3D特征组成的联合特征，w_y表示与动作类别y相关的模型参数向量，w_y∈w，_w为模型参数。

为学习判别函数F(x,h)的参数，引入隐变量支持向量机，与普通支持向量机相比，不同点在于模型训练时视频中动作的实际位置没有显示地告知，需要在参数学习过程中确定，将其看作隐变量。隐变量支持向量机参数优化问题定义如下：

s.t.

式中，c₁、c₂是惩罚系数，ξ_i、

是松弛变量，y′从动作类别集合Y中取值，y′∈Y；对Δ(y_i,y′)，当y_i≠y时，Δ＝1，否则Δ＝0；t_j是动作类别y_j的动作模板，

表示

与t_j的匹配误差，用来评估样本提名与动作模板的相似性，误差值越小说明相似性越大。

h′_i∈H_i，

的值是确定的，用来归一化Θ(h′_i,t_j)，使得

的值始终在[0,1]范围内。

约束条件(8)是含有隐变量的支持向量机中最大间隔约束，确保动作定位模型能够对视频进行正确的类别判定。由于视频中动作位置未被人工标注，在训练阶段未知，看作是隐变量，约束条件(9)利用动作模板促使动作定位模型倾向于选择与动作实际位置一致的样本提名，增强动作定位的准确性。求解优化问题(7)，得到模型参数w。

利用参数w，将待测视频的C3D特征及其目标提名的C3D特征代入公式(7)，可以知道待测视频的动作类别和动作位置。

为验证以上方法的定位效果，使用UCF-Sports数据集进行实验。UCF-Sports数据集中包含多个运动视频，总共10类动作合计150个视频。其中，跳水动作(DS)有14个视频，打高尔夫(GS)有18个视频，踢(K)有20个视频，举重(L)有6个视频，骑马(RH)有12个视频，跑步(RS)有13个视频，玩滑板(S)有12个视频，鞍马(SB)有20个视频，单杠(SS)有13个视频，走(WF)有22个视频。UCF-Sports数据集中视频的时间长度不一，视频帧分辨率不一，背景复杂，对于动作定位来说十分具有挑战性。

遵循UCF-Sports数据集官网对动作定位任务中数据集分类的建议，数据集中的103个视频作为训练数据，47个视频作为测试数据，训练集和测试集的比例大概是2：1。实验中用C3D网络提取4096维的视频特征和动作提名特征，动作提名中关键帧步长ρ是6，每个动作模板中包含20个人工标注的候选框。

表1直观展示了动作定位模型对UCF-Sports数据集上测试集视频的分类结果，以此计算动作定位模型对每类动作的识别准确率，如图1所示，折合总体的识别准确率为87.2％。

表1动作类别预测结果

现有的对动作类别识别效果较好的方法有：稀疏时间池化网络法(STPN)(CuiweiLiu,Xinxiao Wu,Yunde Jia.Weakly Supervised Action Recognition andLocalization Using Web Images.ACCV(5)2014:642-657.)、基于判别中心模型的行为定位和识别方法(DFCM)(Tian Lan,Yang Wang,Greg Mori.Discriminative figure-centricmodels for joint action localization and recognition.ICCV 2011:2003-2010.)和多目标判别的弱监督人体行为识别和定位方法(MDWSHA)(Ehsan Adeli-Mosabbeb,RicardoSilveira Cabral,Fernando De la Torre,Mahmood Fathy.Multi-label DiscriminativeWeakly-Supervised Human Activity Recognition and Localization.ACCV(5)2014:241-258.)。

将本实施例与上述三种方法的动作类别识别效果进行比较，结果如表2所示，可以看出本实施例的动作分类效果更佳。

表2动作类别识别效果对比

实验定位效果如图2所示，图中虚线框是测试集中人工标注的位置，实线框由本实施例方法定位产生，定位效果的衡量标准按照公式(10)计算：

式中τ是定位结果和动作真实位置之间的重叠度，表示定位的效果；n是动作持续的帧数，IOU_i(b₁,b₂)是第i帧上定位框b₁与实际框b₂之间的交并比。取重叠度阈值为0.2，即定位结果如果与动作真实位置重叠度大于0.2认为定位结果正确。

现有的弱监督定位方法中，效果最好的是时空行为定位方法(STAL)(PhilippeWeinzaepfel,Zaid Harchaoui,Cordelia Schmid.Learning to track for spatio-temporal action localization.In:Proceedings of IEEE International Conferenceon Computer Vision,Santiago,Chile,2015.12.7-12.13:3164-3172.)，该方法先给出动作提名，然后利用网络图像来对动作提名排序，选出得分最高的动作提名作为定位结果。

表3定位效果对比

本实施例与STAL的定位效果对比如表3所示，可以看出，本实施例的定位效果优于STAL方法。本实施例动作的定位和识别同时进行，两者之间相互促进，知道动作类别可以帮助定位，知道动作位置也可以帮助判定类别，提高了各自的精度。另外，本实施例利用视频帧帮助定位动作比STAL利用网络图像更加合适，因为视频帧中动作姿态来自一个完整连续的动作视频，比静止孤立的网络图像能够更好地表现动作的特点。

以上实施例是对本发明的解释，但是，本发明并不局限于上述实施方式中的具体细节，本领域的技术人员在本发明的技术构思范围内进行的多种等同替代或简单变型方式，均应属于本发明的保护范围。

Claims

1.一种应用模板匹配方法的弱监督单个动作定位方法，其特征在于，包括：

对数据集中训练集的每类视频均选取部分视频帧，每一帧均用标注框人工标注动作主体位置，提取标注框的VGG特征，形成每类动作的动作模板M，表示为：M＝dim×n，式中dim为VGG特征的维度，n为标注框个数；

构建基于模板匹配的动作定位模型；

2.根据权利要求1所述的应用模板匹配方法的弱监督单个动作定位方法，其特征在于，候选框的获取方法为YOLOv3、EdgeBoxes和Objectness方法，其中YOLOv3方法用于在每一帧上提取动作主体的候选框，EdgeBoxes和Objectness用于在每一帧上提取物体的候选框，连接候选框时优先连接YOLOv3候选框，在出现丢失检测帧时采用EdgeBoxes或Objectness候选框替代。

3.根据权利要求1所述的应用模板匹配方法的弱监督单个动作定位方法，其特征在于，候选框连接时设定连接得分阈值，在连接得分小于该连接得分阈值时，结束相应动作提名的后续连接，其中，候选框之间的连接得分由式(1)至式(4)计算：

score＝α₁·IOU+α₂·A+α₃·S (1)；