CN111079646A

CN111079646A - 基于深度学习的弱监督视频时序动作定位的方法及系统

Info

Publication number: CN111079646A
Application number: CN201911296268.3A
Authority: CN
Inventors: 李冠彬; 刘劲; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-04-28
Anticipated expiration: 2039-12-16
Also published as: CN111079646B

Abstract

本发明公开了一种基于深度学习的弱监督视频时序动作定位方法及系统，该方法包括：S1，提取视频中当前帧及前一帧，利用光流估算网络提取光流，并连同等间隔对视频采样的帧输入双流动作识别网络提取视频特征；S2，将视频特征进行语义一致性建模，获得嵌入特征；S3，训练分类模块将嵌入特征映射到类激活序列；S4，采用注意力模块更新视频特征；S5，将更新后的视频特征作为下一次循环的输入，重复S2‑S4直到停止；S6，将每次循环产生的类激活序列融合，计算估计的动作类别与真实类别标签的分类损失；S7，将每次循环的嵌入特征融合计算动作特征间的相似性损失；S8，根据分类损失及相似性损失得到目标损失，更新系统模型参数。

Description

基于深度学习的弱监督视频时序动作定位的方法及系统

技术领域

本发明涉及基于深度学习的计算机视觉领域，特别是涉及一种基于深度学习的弱监督视频时序动作定位的方法及系统。

背景技术

弱监督视频时序动作定位是指在仅依赖视频级别动作类别标注的情况下，定位动作实例在视频中的起始时间和结束时间。最近，由于其在计算机视觉领域其他任务的广泛应用，例如：稠密视频描述、视频动作的时空检测，这项任务逐渐引起人们的重视。

近年来，时序动作定位技术取得了长足的进步。基于深度学习的方法，尤其是卷积神经网络，在其中占据着重要地位。例如，L.Wang等人在2017年的研究工作“UntrimmedNetsfor Weakly Supervised Action Recognition and Detection”(In Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,pages 6402-6411,2017)采用预训练的双流卷积网络提取视频特征，然后应用注意力机制直接生成最终的类激活序列，通过阈值和Softmax操作分别得到动作定位结果和视频级别的分类结果。又例如，P.Nguyen等人在2018年的研究工作“Weakly Supervised Action Localization bySparse Temporal Pooling Network”(In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,pages 6752-6761,2018)中，在L.Wang等人的研究工作基础上提出了注意力的稀疏损失来规则化注意力权重，生成最终的类激活序列。然而，这些方法仅关注视频中最具判别性的片段而非所有的动作相关片段，导致动作定位不完整或是漏检。

另一方面，K.K.Singh等人在2017年的研究工作“Hide-and-seek:Forcing aNetwork to be Meticulous for Weakly-Supervised Object and ActionLocalization”(In Proceedings of the IEEE International Conference on ComputerVision,pages 3544-3553,2017)利用随机隐藏视频帧的策略训练动作分类网络。然而，这一方法的训练过程不可控制，且忽略了视频中动作的语义一致性，没有显式地建模动作语义一致性用于指导动作定位过程。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于深度学习的弱监督视频时序动作定位方法及系统，有效地利用明确的运动信息来更精准定位视频中的动作实例。

为达上述及其它目的，本发明提出一种基于深度学习的弱监督视频时序动作定位方法，包括如下步骤：

步骤S1，提取视频中当前帧以及其前一帧，利用光流估算网络提取光流，并连同等间隔对视频采样的帧输入预训练的双流动作识别网络，提取视频特征；

步骤S2，将提取的视频特征通过循环神经网络进行语义一致性建模，获得所述视频特征的嵌入表示；

步骤S3，训练分类模块将步骤S2获得的嵌入特征映射到类激活序列；

步骤S4，采用基于嵌入特征的注意力模块根据步骤S2获得的嵌入特征得到视频时间维度的注意力分布，并使用所述注意力分布更新视频特征；

步骤S5，将更新后的视频特征作为下一次循环的输入，重复步骤S2-S4的训练过程，直到符合停止条件；

步骤S6，将每次循环产生的类激活序列进行融合，进而解析生成时序动作定位结果和估计的动作类别，计算估计的动作类别与真实动作类别标签的分类损失；

步骤S7，将每次循环的嵌入特征进行融合，计算视频动作特征间的相似性损失；

步骤S8，将分类损失及相似性损失按权相加，得到目标损失，更新系统的模型参数。

优选地，于步骤S1中，所述光流估算网络采用TV-L1网络，在处理视频第一帧时，将第一帧与其自身合并一起，输入到所述TV-L1网络中通过TV-L1算法得到光流。

优选地，于步骤S1中，所述预训练的双流动作识别网络采用膨胀三维卷积网络，以实现视频外观和运动特征的提取。

优选地，于步骤S2中，所述循环神经网络采用长短期记忆网络，于每次循环中接收上一次循环的网络隐含状态以及更新的视频特征，进行特征语义一致性建模。

优选地，于步骤S2中，在第一次循环时，所述长短期记忆网络仅接收原始视频特征用于建模特征语义一致性。

优选地，于步骤S3中，所述分类模块采用一个全连接层将嵌入特征映射到隐含层，采用修正线性单元ReLU激活后使用随机失活层防止过拟合，最后使用一个全连接层将隐含特征映射到动作类别空间，以产生所述类激活序列。

优选地，于步骤S4中，所述基于嵌入特征的注意力模块采用双层感知机根据步骤S2得到的嵌入特征预测所述视频特征在时间维度上的注意力分布，并通过计算注意力分布的反相用于更新原始视频特征。

优选地，于步骤S6中，将步骤S5中每次循环产生的类激活序列沿循环维度进行张量拼接，应用平均池化操作得到融合的类激活序列，并对融合的类激活序列执行阈值操作和Softmax操作分别得到动作实例的时序定位结果和视频级别的估计类别，将估计的动作类别与真实的动作类别标签计算交叉熵作为分类损失。

优选地，于步骤S7中，将步骤S5中每次循环的嵌入特征沿循环维度进行张量拼接，应用平均池化操作得到融合的嵌入特征，使用视频特征向量余弦相似性的铰链损失作为动作的相似性损失。

为达到上述目的，本发明还提供一种基于深度学习的弱监督视频时序动作定位系统，包括：

特征提取单元，用于提取视频中当前帧以及其前一帧，利用光流估算网络提取光流，并连同等间隔对视频采样的帧输入预训练的双流动作识别网络，提取视频特征，输入至语义一致性建模单元；

语义一致性建模单元，用于将提取的视频特征通过循环神经网络进行语义一致性建模，建立当前视频特征与历史动作语义信息的联系，生成所述视频特征的保持语义一致性的嵌入特征，输入至类激活序列单元和特征更新单元；

类激活序列生成单元，用于将嵌入特征进行解析生成视频的类激活序列；

特征更新单元，用于使用嵌入特征生成视频时间维度的注意力分布，并使用所述注意力分布更新视频特征；

循环训练单元，用于多次循环式地对视频特征进行所述语义一致性建模单元、类激活序列生成单元以及特征更新单元的训练过程，直到满足设定的停止条件时停止训练。

分类损失计算单元，用于融合每次循环生成的类激活序列并解析成时序动作定位结果和估计的动作类别，将所述估计的动作类别与真实的动作类别标签计算分类损失；

相似性损失计算单元，用于融合每次循环生成的嵌入特征，计算视频动作特征间的相似性损失；

权重更新单元，用于使分类损失和相似性损失加权求和，得到目标损失，更新系统的模型参数。

与现有技术相比，本发明一种基于深度学习的弱监督视频时序动作定位方法及系统通过光流估计算法提取光流，并连同等间隔采样的帧输入双流动作识别网络提取视频外观和运动特征，采用循环神经网络建模特征语义一致性生成特征的嵌入表示，采用基于嵌入特征的分类模块和注意力模块分别生成类激活序列和更新视频特征，多次循环地进行训练过程直到符合停止条件，融合每次循环生成的类激活序列和动作特征，解析生成动作定位结果和估计的动作类别，计算估计类别与真实类别的分类损失并计算视频间特征相似性损失，更新系统模型参数，实现了有效利用动作语义一致性来逐步精准检测出视频中的动作实例的目的。

附图说明

图1为本发明一种基于深度学习的弱监督视频时序动作定位方法的步骤流程图；

图2为本发明具体实施例之基于深度学习的弱监督视频时序动作定位过程示意图；

图3(a)与图3(b)为本发明具体实施例中基于嵌入特征的分类模块和注意力模块的结构图；

图4为本发明一种基于深度学习的弱监督视频时序动作定位系统的系统架构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种基于深度学习的弱监督视频时序动作定位方法的步骤流程图，图2为本发明具体实施例之基于深度学习的弱监督视频时序动作定位过程示意图。如图1及图2所示，本发明一种基于深度学习的弱监督视频时序动作定位方法，包括如下步骤：

步骤S1，提取视频中当前帧以及其前一帧，通过光流估计算法提取光流，并连同等间隔采样的帧输入预训练的双流动作识别网络，提取视频外观和运动特征。

具体地，步骤S1进一步包括：

步骤S101，获取视频的当前帧以及其前一帧，将当前帧与前一帧合并在一起，通过光流估计算法提取光流。

在本发明具体实施例中，为了得到高质量的光流估算结果，参考了C.Zach等人的研究工作“A Duality Based Approach for Realtime TV-L1 Optical Flow”(InProceedings of the 29th DAGM Symposium on Pattern Recognition，pages 214-223,2007)，使用TV-L1作为光流估算网络。需说明的是，对于视频中的第一帧而言，由于它没有前一帧，本发明将它自身看作是前一帧，然后将第一帧与其自身合并一起，输入到TV-L1光流估算网络中得到光流。

步骤S102，等间隔获取视频中的采样帧，将获得的采样帧与步骤S101得到的光流一起输入预训练的双流动作识别网络提取视频外观和运动特征。

在本发明具体实施例中，按每16帧采样一帧的规则获取视频中的采样帧，将采样帧与步骤S101得到的光流一起输入预训练的双流动作识别网络提取视频外观和运动特征，本发明参考了J.Carreira等人的研究工作“Quo Vadis,Action Recognition？A New Modeland the Kinetics Dataset”(In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,pages 4724-4733,2017)，使用膨胀三维卷积网络I3D提取通道数为2048的视频特征。

步骤S2，将提取的视频特征通过循环神经网络进行语义一致性建模，获得特征的嵌入表示。

在本发明具体实施例中，所述循环神经网络采取了长短期记忆网络，于每次循环中接收上一次循环的网络隐含状态以及更新的视频特征，进行特征语义一致性建模。在第一次循环时，由于长短期记忆网络不存在上一次循环的网络隐含状态，仅接收原始视频特征用于建模特征语义一致性，形成通道数为512的嵌入特征。

步骤S3，训练分类模块将步骤S2获得的嵌入特征映射到类激活序列。

具体地，分类模块采取了一个全连接层(FC)将根据步骤S2得到的嵌入特征映射到隐含层，于修正线性单元ReLU激活后使用随机失活层(Dropout)防止过拟合，最后使用一个全连接层(FC)将隐含特征映射到动作类别空间，产生类激活序列，如图3(a)所示，其中两个全连接层分别具有512、C个输出通道，C代表动作类别的总数目。嵌入特征记为h,隐含层特征记为H,得到的类激活序列记为S，该分类模块的数学表达如下所示：

H＝ReLU(FC(h))

S＝FC(Dropout(H))

其中，h和H都是尺寸为T×D的张量，S是尺寸为T×C的张量，T、D和C分别代表视频的采样帧数、特征通道数和动作类别总数。

步骤S4，采用基于嵌入特征的注意力模块得到视频时间维度的注意力分布，使用该分布更新视频特征。

具体地，注意力模块采取了双层感知机(即如图3(b),包括两个全连接层FC和修正线性单元ReLU，以及softmax)利用步骤S2得到的嵌入特征h预测视频时间维度上的注意力分布A，计算注意力分布的反相M用于更新原始视频特征F，如图3(b)所示。本发明中，所述注意力模块的数学表达如下所示：

A＝Softmax(FC₂(ReLU(FC₁(h))))

M＝1.-A

其中

表示广播相乘。FC₁和FC₂为全连接层，其输出通道数分别为512和1。1.是大小与张量A相同的元素全为1的矩阵。所述注意力模块首先通过嵌入特征h得到在视频时间维度的注意力分布A，通过计算注意力反相M来更新视频特征F，抑制高注意力片段的特征且较多保留低注意力片段的特征，使后续动作定位过程关注低注意力片段，有效捕捉更具完整性的动作。

步骤S5，将步骤S4中更新的视频特征作为下一次循环的输入，重复步骤S2-S4的训练过程，直到符合停止条件。具体地，每一循环交替进行步骤S2建模语义一致性、S3生成类激活序列、S4更新视频特征，直到满足设定的停止条件时停止训练。

步骤S6，将每次循环产生的类激活序列进行融合，进而解析生成时序动作定位结果和估计的动作类别，计算估计的动作类别与真实类别标签的分类损失。

具体地，将步骤S5中每次循环产生的类激活序列沿循环维度进行张量拼接，应用平均池化操作得到融合的类激活序列，对融合的类激活序列执行阈值操作和Softmax操作分别得到动作实例的时序定位结果和视频级别的估计类别，将估计的动作类别与真实的类别标签计算交叉熵作为分类损失。

步骤S7，将每次循环的嵌入特征进行融合，计算视频动作特征间的相似性损失。

具体地，将步骤S5中每次循环的嵌入特征沿循环维度进行张量拼接，应用平均池化操作得到融合的嵌入特征，本发明参考了S.Paul等人的研究工作“WTALC:Weakly-supervised Temporal Activity Localization and Classification”(In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,pages 4724-4733,2017)使用视频特征向量余弦相似性的铰链损失作为动作的相似性损失。

步骤S8，将分类损失及相似性损失按权相加，得到目标损失，更新模型参数。

具体地，本发明中，取分类损失及相似性损失的权重均为0.5，按权相加后得到目标损失，然后采用随机梯度下降算法更新模型参数。

图4为本发明一种基于深度学习的弱监督视频时序动作定位系统的系统架构图。如图4所示，本发明一种基于深度学习的弱监督视频时序动作定位系统，包括：

特征提取单元401，用于提取视频中当前帧以及其前一帧，通过光流估计算法提取光流，并连同等间隔采样的帧输入预训练的双流动作识别网络，提取视频外观和运动特征，输入至语义一致性建模单元。

具体地，特征提取单元401获取视频中当前帧以及其前一帧，将当前帧与前一帧合并在一起，通过光流估计算法提取光流，为了得到高质量的光流估算结果，采用了C.Zach等人的研究工作“A Duality Based Approach for Realtime TV-L1 Optical Flow”(InProceedings of the 29th DAGM Symposium on Pattern Recognition，pages 214-223,2007)，使用TV-L1作为光流估算网络。对于视频中的第一帧而言，它没有前一帧，特征提取单元401将它自身看作是前一帧，然后将第一帧与其自身合并一起，输入到TV-L1中得到光流，得到光流后，与等间隔采样的视频帧一起输入预训练的双流动作识别网络提取视频外观和运动特征，本发明参考了J.Carreira等人的研究工作“Quo Vadis,ActionRecognition？A New Model and the Kinetics Dataset”(In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,pages 4724-4733,2017)，特征提取单元401使用膨胀三维卷积网络提取视频特征。

语义一致性建模单元402，用于将提取的视频特征通过循环神经网络进行语义一致性建模，获得特征的嵌入表示。

具体地，语义一致性建模单元402采用长短期记忆网络，于每次循环中接收上一次循环的网络隐含状态以及更新的视频特征，进行特征语义一致性建模。于第一次循环时，长短期记忆网络不存在上一次循环的网络隐含状态，仅接收原始视频特征用于建模特征语义一致性，形成通道数为512的嵌入特征。

类激活序列生成单元403，用于训练分类模块将嵌入特征映射到类激活序列。具体地，类激活序列生成单元403采取了一个全连接层将语义一致性建模单元402得到的嵌入特征映射到隐含层，于修正线性单元ReLU激活后使用随机失活层防止过拟合，最后使用一个全连接层将隐含特征映射到动作类别空间，产生类激活序列。

特征更新单元404，用于采用基于嵌入特征的注意力模块得到视频时间维度的注意力分布，使用该分布更新视频特征。具体地，注意力模块采取了双层感知机利用语义一致性建模单元402得到的嵌入特征预测视频时间维度上的注意力分布，计算注意力分布的反相用于更新原始视频特征，抑制高注意力片段的特征且较多保留低注意力片段的特征，使后续动作定位过程关注低注意力片段，有效捕捉更具完整性的动作。

循环训练单元405，用于将特征更新单元404中更新的视频特征作为下一次循环的输入，重复执行语义一致性建模单元402、类激活序列生成单元403、特征更新单元404的训练过程，直到符合停止条件。具体地，每一循环交替执行语义一致性建模单元402、类激活序列生成单元403和特征更新单元404，直到满足设定的停止条件时停止训练。

分类损失计算单元406，用于将每次循环产生的类激活序列进行融合，进而解析生成时序动作定位结果和估计的动作类别，计算估计的动作类别与真实类别标签的分类损失。具体地，将循环训练单元405中每次循环产生的类激活序列沿循环维度进行张量拼接，应用平均池化操作得到融合的类激活序列，对融合的类激活序列执行阈值操作和Softmax操作分别得到动作实例的时序定位结果和视频级别的估计类别，将估计的动作类别与真实的类别标签计算交叉熵作为分类损失。

相似性损失计算单元407，用于将每次循环的嵌入特征进行融合，计算视频动作特征间的相似性损失。具体地，将循环训练单元405中每次循环的嵌入特征沿循环维度进行张量拼接，应用平均池化操作得到融合的嵌入特征，本发明参考了S.Paul等人的研究工作“WTALC:Weakly-supervised Temporal Activity Localization and Classification”(In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pages 4724-4733,2017)使用视频特征向量余弦相似性的铰链损失作为动作的相似性损失。

权重更新单元408，用于将获得的分类损失及相似性损失按权相加，得到目标损失，更新模型参数。具体地，权重更新单元408取分类损失及相似性损失的权重均为0.5，按权相加后得到目标损失，然后采用随机梯度下降算法更新模型参数。

综上所述，本发明一种基于深度学习的弱监督视频时序动作定位方法及系统通过光流估计算法提取光流，并连同等间隔采样的帧输入双流动作识别网络提取视频外观和运动特征，采用循环神经网络建模特征语义一致性生成特征的嵌入表示，采用基于嵌入特征的分类模块和注意力模块分别生成类激活序列和更新视频特征，多次循环地进行训练过程直到符合停止条件，融合每次循环生成的类激活序列和动作特征，解析生成动作定位结果和估计的动作类别，计算估计类别与真实类别的分类损失并计算视频间特征相似性损失，更新系统的模型参数，实现了有效利用动作语义一致性来逐步精准检测出视频中的动作实例的目的，本发明针对已有弱监督视频时序动作定位方法仅关注最具判别力的视频片段导致动作定位不完整或是漏检的缺陷，提出了基于语义一致性嵌入特征的注意力模块来建模动作定位过程的语义一致性，并设计出了循环更新的训练策略，充分发挥了模型的性能，最终的效果超过了所有现有的弱监督视频时序动作定位方法。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于深度学习的弱监督视频时序动作定位方法，包括如下步骤：

步骤S1，提取视频的当前帧以及其前一帧，利用光流估算网络提取光流，并连同等间隔对视频采样的帧输入预训练的双流动作识别网络，提取视频特征；

2.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法，其特征在于：于步骤S1中，所述光流估算网络采用TV-L1网络，在处理视频第一帧时，将第一帧与其自身合并一起，输入到所述TV-L1网络中通过TV-L1算法得到光流。

3.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法，其特征在于：于步骤S1中，所述预训练的双流动作识别网络采用膨胀三维卷积网络，以实现视频外观和运动特征的提取。

4.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法，其特征在于：于步骤S2中，所述循环神经网络采用长短期记忆网络，于每次循环中接收上一次循环的网络隐含状态以及更新的视频特征，进行特征语义一致性建模。

5.如权利要求4所述的一种基于深度学习的弱监督视频时序动作定位方法，其特征在于:于步骤S2中，在第一次循环时，所述长短期记忆网络仅接收原始视频特征用于建模特征语义一致性。

6.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法，其特征在于：于步骤S3中，所述分类模块采用一个全连接层将嵌入特征映射到隐含层，并采用修正线性单元ReLU激活后使用随机失活层防止过拟合，最后使用一个全连接层将隐含特征映射到动作类别空间，以产生所述类激活序列。

7.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法，其特征在于：于步骤S4中，所述基于嵌入特征的注意力模块采用双层感知机根据步骤S2得到的嵌入特征预测所述视频特征在时间维度上的注意力分布，并通过计算注意力分布的反相用于更新原始视频特征。

8.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法，其特征在于：于步骤S6中，将步骤S5中每次循环产生的类激活序列沿循环维度进行张量拼接，应用平均池化操作得到融合的类激活序列，并对融合的类激活序列执行阈值操作和Softmax操作分别得到动作实例的时序定位结果和视频级别的估计类别，将估计的动作类别与真实的动作类别标签计算交叉熵作为分类损失。

9.如权利要求1所述的一种基于深度学习的弱监督视频时序动作定位方法，其特征在于：于步骤S7中，将步骤S5中每次循环的嵌入特征沿循环维度进行张量拼接，应用平均池化操作得到融合的嵌入特征，使用视频特征向量余弦相似性的铰链损失作为动作的相似性损失。

10.一种基于深度学习的弱监督视频时序动作定位系统，包括：

特征提取单元，用于提取视频的当前帧以及其前一帧，利用光流估算网络提取光流，并连同等间隔对视频采样的帧输入预训练的双流动作识别网络，提取视频特征，输入至语义一致性建模单元；

权重更新单元，用于对分类损失和相似性损失加权求和，得到目标损失，更新系统的模型参数。