CN114049581A

CN114049581A - 一种基于动作片段排序的弱监督行为定位方法和装置

Info

Publication number: CN114049581A
Application number: CN202111135210.8A
Authority: CN
Inventors: 张晓宇; 石海超
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-02-15

Abstract

本发明公开了一种基于动作片段排序的弱监督行为定位方法和装置，包括提取视频集中各视频的RGB特征与光流特征后，进行自注意力计算；使用自注意力RGB特征与自注意力光流特征，进行视频帧排序，得到每一视频的若干视频特征表示；利用视频特征表示，对一分类器及对抗网络进行共同训练，生成视频分类器；采用视频分类器对目标视频的自注意力RGB特征与自注意力光流特征进行分类，并根据视频分类结果与自注意力权重向量进行时序类别激活映射计算，以获取行为定位结果。本发明可以对复杂的视频动作和背景的视觉‑运动相关性灵活而明确的建模，利用对抗学习框架学习更加鲁棒的视频分类模型，降低计算复杂度及时序标注的时间。

Description

一种基于动作片段排序的弱监督行为定位方法和装置

技术领域

本发明属于视频分析领域，涉及视频行为识别和检测技术，具体涉及一种基于动作片段排序的弱监督行为定位方法和装置。

背景技术

视频行为识别和检测技术，是视频分析的主要分支之一。视频分析就是使用计算机视觉分析技术，通过将场景中背景和目标分离进而分析并追踪摄像机场景内目标。由于互联网视频数据的不断涌现，视频内容分析在工业和学术领域吸引了广泛的注意力。视频内容分析一个重要的分支是行为识别，行为识别通常是致力于对人工裁剪好的视频片段进行分类。然而，大多数现实世界的视频都是长视频，并且包含多个动作实例，同时包含不相关的背景场景和活动。因此，学术和工业领域也开始将注意力放在时序行为检测的任务上。时序行为检测致力于检测长视频中的动作实例，包括时序的动作边界和实例类别。对于时序行为检测的任务可以应用到监控视频分析和智能家居护理等任务上。

行为检测可以看作是每一张图像进行目标检测的时序版本，单张图像的目标检测和视频的行为检测的目标都是检测边界以及多个实例的类别信息(时序上的动作和空间上物体)。目前大多数目标检测的模型是基于R-CNN以及其变体进行，这些模型采用的是通过对边界的候选区域进行分类并且检测的框架。受到R-CNN的启发，很多时序行为检测的方法采用相似的框架，对候选区域方法生成的时序动作实例进行分类，或者使用简单的滑动窗口的方法。这些框架有很多局限性：首先，候选区域的生成和分类模型是分别进行训练的；其次，候选区域生成方法或者滑动窗口方法需要额外的时间消耗；由滑动窗口方法产生的动作实例的时序动作边界通常是近似的，而不是精确的；同时，因为滑动窗口的尺度大小不一致，对于预测各种各样尺度的实例也不灵活；对大量训练数据进行时序标注需要耗费大量时间，因此可以采用弱监督方法进行训练。另外，由于视频帧数量很大，为了充分挖掘视频帧的信息，可以采用自监督学习的方法，进一步挖掘视频信息。

发明内容

本发明的目的在于提供一种基于动作片段排序的弱监督行为定位方法和装置，利用动作片段内部排序和动作片段之间排序，进行特征增强，构建长视频的特征表达，动作片段内部排序可以充分利用视频帧之间的序列关系，从而通过神经网络学习视频片段的特征表示，充分将时序信息考虑进来。动作片段之间的排序，可以对建模动作片段在视频中的位置信息，获取不同动作片段顺序的视频特征数据，从而起到特征增强的作用，有利于提高模型的泛化性。同时，基于对抗训练的方法，为动作片段内部排序和动作片段之间排序添加对抗噪声，使得模型训练更加鲁棒。

本发明采用的技术方案如下：

一种基于动作片段排序的弱监督行为定位方法，其步骤包括：

1)提取视频集中各视频的RGB特征与光流特征后，进行自注意力计算，获取自注意力权重向量、自注意力RGB特征与自注意力光流特征；

2)使用自注意力RGB特征与自注意力光流特征，进行视频帧排序，得到每一视频的若干视频特征表示；

3)利用视频特征表示，对一分类器及对抗网络进行共同训练，生成视频分类器；

4)采用视频分类器对目标视频的自注意力RGB特征与自注意力光流特征进行分类，并根据视频分类结果与自注意力权重向量进行时序类别激活映射计算，以获取行为定位结果。

进一步地，提取RGB特征与光流特征之前，对视频进行预处理，其中预处理包括：对视频的图片进行统一裁剪操作。

进一步地，所述统一剪裁操作包括：center cropped操作。

进一步地，提取RGB特征与光流特征的方法包括：使用I3D网络或使用Transformer。

进一步地，视频帧排序包括动作片段内部帧排序、动作片段之间排序、动作和动作打乱顺序、动作和背景打乱顺序及背景和背景打乱顺序中的至少一种。

进一步地，通过以下步骤获取行为定位结果：

1)将获取的动作集成T-CAM得分与背景集成T-CAM得分进行融合，得到集成T-CAM得分；

2)将集成T-CAM得分与一设定阈值比较，将保留的动作发生时间段作为行为定位结果。

进一步地，针对获取的行为定位预测结果，采用非极大值抑制方法进行去重。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行以上所述方法。

一种电子装置，包括存储器和处理器，其中存储器存储执行以上所述方法的程序。

利用本发明的方法可以对长视频进行动作分类并定位动作发生的时间间隔，与现有技术相比具有以下优点：

1、本发明提出一种基于动作片段排序的视频特征建模的方法，充分利用视频中动作片段的内部帧的时序关系以及多个动作片段之间的位置关系，从而可以对复杂的视频动作和背景的视觉-运动相关性灵活而明确的建模；

2、本发明使用对抗学习框架进行特征学习，增加对抗噪声，学习更加鲁棒的视频分类模型；

3、本发明使用弱监督学习机制学习模型，仅仅使用视频级别的标签进行训练，不使用时序的标签，大大降低了计算复杂度以及时序标注的时间。

附图说明

图1是利用本发明方法进行视频行为识别和定位的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，下面通过具体实施例和附图对本发明进行进一步详细阐述。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供的基于动作片段排序的弱监督行为定位方法，适用于对长视频进行行为识别和定位，该方法的流程如图1所示，其主要步骤包括：首先对视频进行预处理，对视频提取RGB帧和光流，然后分别对RGB帧和光流提取特征，得到RGB特征和光流特征，然后使用自注意力机制提取自注意力特征，更好的捕获视频的空间和时序信息，紧接着，采用动作片段内部帧排序，原始的视频片段序列作为真实值，采用组合数的方法得到多种排序组合，并训练分类模型，从而对视频帧的顺序建模，学习有效的视频片段表示。对动作片段之间进行排序，建模不同动作片段的位置信息，生成不同位置片段新视频特征，并作为数据增强的方法送到网络中进行训练，在不利用外部数据的情况下，获得了不同的视频特征数据，有利于提高模型的泛化性能。同时，基于对抗学习的思想，为动作片段内部帧排序和动作片段之间排序的过程添加对抗噪声，训练视频分类模型，得到更加鲁棒的分类模型，得到视频行为识别的结果，根据得到的行为识别的结果和计算得到的自注意力权重，对视频的动作实例进行定位。

本发明方法分为训练和测试两部分，训练阶段，训练自注意力模块，动作片段排序模块，对抗学习模块和一个分类器。在测试阶段，只需要经过自注意力模块、动作片段排序模块和分类器，就可以得到视频的分类结果和自注意力权重，并且根据得到的自注意力权重和分类结果进行视频动作定位。

实例1基于动作片段排序的弱监督行为定位方法和装置

以THUMOS14数据集为例：

1)对数据进行预处理，包括图片进行统一裁剪操作(比如进行center cropped操作，统一裁剪成224×224的大小)；

2)首先使用特征表达较强的特征提取器(例如I3D网络、Transformer)提取长视频数据集的RGB和光流特征；

3)将2)得到的视频特征输入到自注意力模块，获取自注意力权重向，并提取自注意力特征；

注意力特征包括：自注意力RGB特征和自注意力光流特征；

4)将3)得到的2种自注意力特征输入到动作片段排序模块，分别进行动作片段内部帧排序和动作片段之间的排序，得到更多样的视频特征表示；

5)将4)得到的动作排序特征表示输入到对抗学习模块，添加对抗噪声，训练分类模型，得到更加鲁棒的视频特征表示；

所述动作片段排序模块分为动作片段内部帧之间的排序和动作片段外部之间排序两部分；动作片段内部帧之间的排序，旨在对视频帧的顺序建模，学习有效的视频片段表示。动作片段之间的排序，旨在建模不同动作片段的位置信息，生成不同位置片段新视频特征，并作为数据增强的方法送到网络中进行训练；

此外，还可以根据指定的规则进行排序，比如动作和动作打乱顺序，动作和背景打乱顺序，背景和背景打乱顺序等等，本发明不予以限制。

6)将5)得到的视频特征向量输入到分类器进行分类，得到视频分类结果；

7)根据3)得到的自注意力权重向量和6)的视频分类结果，计算时序类别激活映射(TCAM)；

8)基于7)得到的TCAM的结果，可以将长视频中的动作或者背景区分开，将超过阈值位置保留，最后采用非极大值抑制的方法去除高度重叠的预测结果，这样最终得到视频中动作发生的时间段；

比较本发明方法与其他方法的结果，得到的行为识别准确率如表1所示，得到的行为定位的平均精度如表2所示：

表1.在THUMOS14数据集上的行为识别准确率

数据集	本发明方法	PreTrimNet	TSRNet
				THUMOS14	0.928	0.892	0.871

表1中，W-TALC和TSRNet是对比的方法，这两个方法都是弱监督的方法。因此可以用本发明的方法进行对比。

表2.在THUMOS14数据集上IoU＝0.5时的行为定位的平均精度(mAP)

数据集	本发明方法	PreTrimNet	TSRNet
				THUMOS14	31.12	23.09	18.6

根据表1和表2的结果，分别体现了本发明的方法能显著提升视频的行为识别和定位结果。

实例2基于图结构表达和图像-视频增强的弱监督行为定位装置

特征提取单元，用于对长视频进行特征提取；

自注意力单元，用于对特征提取单元得到的特征进行自注意力特征的提取，得到更加紧致的特征表达；

动作片段排序单元，用于对自注意力模块提取的特征，依据索引对动作片段内部帧进行排序以及动作片段之间进行排序；

对抗学习单元，用于对动作片段排序单元增加对抗噪声，得到更加鲁棒的模型；

行为识别单元，用于对经过对抗学习的得到的视频特征向量进行动作分类，得到长视频属于某一类的概率；

行为定位单元，用于根据自注意力权重计算的T-CAM值，区分视频中的动作或者背景，并且采用非极大值抑制进行后处理，得到视频中动作实例发生的时间间隔，提升行为定位的平均精度。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于动作片段排序的弱监督行为定位方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，提取RGB特征与光流特征之前，对视频进行预处理，其中预处理包括：对视频的图片进行统一裁剪操作。

3.如权利要求2所述的方法，其特征在于，所述统一剪裁操作包括：center cropped操作。

4.如权利要求1所述的方法，其特征在于，提取RGB特征与光流特征的方法包括：使用I3D网络或使用Transformer。

5.如权利要求1所述的方法，其特征在于，视频帧排序包括动作片段内部帧排序、动作片段之间排序、动作和动作打乱顺序、动作和背景打乱顺序及背景和背景打乱顺序中的至少一种。

6.如权利要求1所述的方法，其特征在于，通过以下步骤获取行为定位结果：

7.如权利要求1所述的方法，其特征在于，针对获取的行为定位预测结果，采用非极大值抑制方法进行去重。

8.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-7中任一所述方法。

9.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-7中任一所述方法。