CN111985333A

CN111985333A - 一种基于图结构信息交互增强的行为检测方法及电子装置

Info

Publication number: CN111985333A
Application number: CN202010698168.XA
Authority: CN
Inventors: 张晓宇; 石海超; 王树鹏
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-11-24
Anticipated expiration: 2040-07-20
Also published as: CN111985333B

Abstract

本发明提供一种基于图结构信息交互增强的行为检测方法及电子装置，包括提取一视频的n维视频特征，计算该n维视频特征基于自注意力的n维视频特征表达及各视频特征表达维度的自注意力权重向量，并根据n维视频特征表达，构建一图特征表达；将图特征表达输入一已训练的对抗网络，得到视频特征向量，并对视频特征向量进行分类；根据分类结果及自注意力权重向量，获取该视频的帧类别激活结果，分辨视频中的各动作或背景，得到所述视频中各动作的发生时间段。本发明可对复杂的视频动作和背景的视觉‑运动相关性灵活而明确的建模，更好的学习长视频特征，大大降低了计算复杂度以及时序标注的时间。

Description

一种基于图结构信息交互增强的行为检测方法及电子装置

技术领域

本发明属于视频分析领域，涉及视频行为识别和检测技术，具体涉及一种基于图结构信息交互增强的行为检测方法及电子装置。

背景技术

视频行为识别和检测技术，是视频分析的主要分支之一。视频分析就是使用计算机视觉分析技术，通过将场景中背景和目标分离进而分析并追踪摄像机场景内目标。由于互联网视频数据的不断涌现，视频内容分析在工业和学术领域吸引了广泛的注意力。视频内容分析一个重要的分支是行为识别，行为识别通常是致力于对人工裁剪好的视频片段进行分类。然而，大多数现实世界的视频都是长视频，并且包含多个动作实例，同时包含不相关的背景场景和活动。因此，学术和工业领域也开始将注意力放在时序行为检测的任务上。时序行为检测致力于检测长视频中的动作实例，包括时序的动作边界和实例类别。对于时序行为检测的任务可以应用到监控视频分析和智能家居护理等任务上。

行为检测可以看作是每一张图像进行目标检测的时序版本，单张图像的目标检测和视频的行为检测的目标都是检测边界以及多个实例的类别信息(时序上的动作和空间上物体)。目前大多数目标检测的模型是基于R-CNN以及其变体进行，这些模型采用的是通过对边界的候选区域进行分类并且检测的框架。受到R-CNN的启发，很多时序行为检测的方法采用相似的框架，对候选区域方法生成的时序动作实例进行分类，或者使用简单的滑动窗口的方法。这些框架有很多局限性：首先，候选区域的生成和分类模型是分别进行训练的；其次，候选区域生成方法或者滑动窗口方法需要额外的时间消耗；由滑动窗口方法产生的动作实例的时序动作边界通常是近似的，而不是精确的；同时，因为滑动窗口的尺度大小不一致，对于预测各种各样尺度的实例也不灵活；对大量训练数据进行时序标注需要耗费大量时间，因此可以采用弱监督方法进行训练。

发明内容

本发明的目的在于提供一种基于图结构信息交互增强的行为检测方法及电子装置，利用图神经网络，构建长视频的图特征表达，并且通过额外的图像特征信息，使用生成对抗网络进行知识迁移，在这个过程中，仅仅利用长视频的视频级别的标注信息和图像的类别标签，不使用长视频的时序标签，使用弱监督学习提高长视频的行为识别和定位能力。

本发明采用的技术方案如下：

一种基于图结构信息交互增强的行为检测方法，其步骤包括：

1)提取一视频的n维视频特征，计算该n维视频特征基于自注意力的n维视频特征表达及各视频特征表达维度的自注意力权重向量，并根据n维视频特征表达，构建一图特征表达；

2)将图特征表达输入一已训练的对抗网络，得到视频特征向量，并对视频特征向量进行分类；

3)根据分类结果及自注意力权重向量，获取该视频的帧类别激活结果，分辨视频中的各动作或背景，得到所述视频中各动作的发生时间段；

其中，通过以下步骤训练对抗网络：

a)提取样本视频集中各样本视频的n维视频样本特征，计算该n维样本视频特征基于自注意力的n维样本视频特征表达，构建若干样本图特征表达；

b)获取每一样本图像包含一动作的样本图像数据集，提取每一样本图像数据的样本图像特征，得到若干样本图像特征；

c)将若干的样本图特征表达与样本图像特征输入所述对抗网络，对所述对抗网络进行训练。

进一步地，n维视频特征包括动作RGB特征、背景RGB特征、动作光流特征和背景光流特征；通过以下步骤得到动作RGB特征、背景RGB特征、动作光流特征和背景光流特征：

1)将视频处理为若干图片，并对各图片进行统一剪裁操作；

2)通过一膨胀3D卷积网络，提取视频的RGB特征与光流特征；

3)依据RGB特征、光流特征及全变分L1算法得到视频的动作RGB特征、背景RGB特征、动作光流特征与背景光流特征。

进一步地，对各图片进行统一剪裁操作的方法包括中心裁剪操作。

进一步地，通过n维视频特征表达与伪逆计算，获取各视频特征表达维度的自注意力权重向量。

进一步地，将n维视频特征表达输入一两层GRU网络，构建所述图特征表达。

进一步地，所述对抗网络包括循环生成对抗网络；

进一步地，通过以下步骤获取该视频的帧类别激活结果：

1)根据分类结果及自注意力权重向量，计算各维视频特征相应的帧类别激活得分；

2)根据帧类别激活得分，将各维视频特征相应的帧类别激活进行融合，获取该视频的帧类别激活结果。

进一步地，依据残差网络101网络，提取每一样本图像数据的样本图像特征；所述样本图像特征包括RGB图像特征。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

利用本发明的方法可以对长视频进行动作分类并定位动作发生的时间间隔，与现有技术相比具有以下优点：

1、本发明提出一种基于图神经网络对视频特征建模的方法，从而可以对复杂的视频动作和背景的视觉-运动相关性灵活而明确的建模；

2、本发明使用生成对抗网络框架进行特征迁移，整合了长视频和图像数据集的特征，对长视频进行特征增强，更好的学习长视频特征；

3、本发明使用弱监督学习机制学习模型，仅仅使用视频级别的标签进行训练，不使用时序的标签，大大降低了计算复杂度以及时序标注的时间。

附图说明

图1是本发明的方法流程图。

图2是本发明的模型训练流程图

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明提供的基于图结构表达和图像-视频增强的弱监督行为定位方法，适用于对长视频进行行为识别和定位，其主要步骤包括：首先对视频进行预处理，将图片进行统一裁剪操作(比如进行中心裁剪(center cropped)操作，统一裁剪成224×224的大小)；接着，使用膨胀3D卷积网络(Inflated 3D ConvNet(I3D))提取长视频的RGB和光流特征，然后使用全变分L1(Total VariationL1，TV-L1)算法将长视频的动作和背景分离，得到长视频的动作和背景片段的RGB和光流的视频级别的特征，一共得到4种视频特征，分别是动作RGB特征，动作光流特征，背景RGB特征和背景光流特征。然后对于每一种视频特征，输入到自注意力模块中，分别得到动作和背景的RGB和光流特征的自注意力机制的特征表达。紧接着，将这4种特征表达输入到图神经网络里构建图特征表达。另一方面，使用ResNet101提取图像数据集的特征，将得到的图像特征和视频的图特征表达输入到生成对抗网络里，训练模型，进一步进行行为识别，得到视频行为识别的结果，根据得到的行为识别的结果和计算得到的自注意力权重，对视频的动作实例进行定位。

本发明方法分为训练和测试两部分，测试阶段如图1所示，需要经过自注意力模块(A Structured Self-attentive Sentence Embedding,in ICLR 2017.)、图神经网络和分类器，就可以得到视频的分类结果和自注意力权重，并且根据得到的自注意力权重和分类结果进行视频动作定位。而训练阶段如图2所示，训练自注意力模块，图神经网络，生成对抗网络和一个分类器。。

本发明的一种基于图结构表达和图像-视频增强的弱监督行为定位方法，包括以下步骤：

1)首先提取长视频的特征的特征；

进一步地，所述提取长视频特征包括RGB和光流特征；

进一步地，所述提取长视频采用I3D网络；

2)使用TV-L1算法对长视频特征的动作和背景分离，得到动作RGB特征，动作光流特征，背景RGB特征和背景光流特征。紧接着，将4种特征分别输入到自注意力模块，提取自注意力特征。所述提取的视频自注意力特征向量包括：

a)对于长视频特征，将4种自注意力特征输入到图神经网络，得到长视频的图结构特征表达；

进一步地，所述图神经网络为两层GRU；

3)将得到的长视频的图结构特征表达输入到通过样本视频集与样本图像极训练的对抗网络，进行特征迁移。

进一步地，所述生成对抗网络为循环生成对抗网络(CycleGAN)；

进一步地，通过以下步骤训练对抗网络：

c)将若干的样本图特征表达与样本图像特征输入所述对抗网络，对所述对抗网络进行训练；

进一步地，提取所述样本图像数据集特征采用残差网络101(ResNet101)网络；

进一步地，输入到自注意力模块的特征包括四部分，动作RGB特征，动作光流特征，背景RGB特征和背景光流特征，得到4种特征的自注意力特征表示。

进一步地，基于得到的自注意力权重向量和对视频的分类结果，其中自注意力权重向量是依据自注意力模块提取的特征，通过伪逆(Moore-Penrose)计算得到。

进一步地，基于T-CAM(时序类别激活映射)，提出一种基于帧类别激活(FCA)的方法，计算四种特征分别对应的得分，以为了得到更加精确的动作时间段，将超过设定阈值的帧保留，并得到最终的行为定位的结果。

实例1基于图结构表达和图像-视频增强的弱监督行为定位方法和装置

以THUMOS14数据集为例：

1)首先使用I3D提取长视频数据集的RGB和光流特征；

2)使用TV-L1算法将I3D提取的RGB和光流特征进行动作和背景分离，分别得到动作和背景的RGB特征和光流特征，共4种视频特征；

3)将2)得到的视频特征输入到自注意力模块，提取自注意力特征；

4)将3)得到的4种自注意力特征输入到图神经网络，进行图结构的建模，得到图结构的特征表示；

5)将4)得到的图结构的特征表示，输入到通过样本视频集的图结构特征表示与样本图像数据集的样本图像特征训练的对抗网络，进行特征迁移，得到更加鲁棒的视频特征表示；

使用ResNet101提取样本图像数据集的样本图像特征；

6)将5)得到的视频特征向量输入到分类器进行分类，得到视频分类结果；

7)根据4)得到的自注意力权重向量和6)的视频分类结果，计算帧类别激活(FCA)的得分，再将动作和背景的RGB和光流计算的FCA的结果融合，得到最终的视频的FCA的结果；

8)基于7)得到的FCA的结果，可以将长视频中的动作或者背景区分开，将超过阈值位置保留，最后采用非极大值抑制的方法去除高度重叠的预测结果，这样最终得到视频中各动作发生的时间段。

比较本发明方法与其他方法的结果，得到的行为识别准确率如表1所示，得到的行为定位的平均精度如表2所示：

表1.在THUMOS14数据集上的行为识别准确率

数据集	本发明方法	W-TALC	TSRNet
				THUMOS14	0.893	0.856	0.871

表1中，W-TALC(Weakly-Supervised TemporalActivity Localization andClassification,in ECCV 2018.)和TSRNet(Learning Transferable Self-AttentiveRepresentations for Action Recognition in Untrimmed Videos with WeakSupervision,inAAAI 2019.)是对比的方法，这两个方法都是弱监督的方法。因此可以用本发明的方法进行对比。

表2.在THUMOS14数据集上IoU＝0.5时的行为定位的平均精度(mAP)

数据集	本发明方法	W-TALC	TSRNet
				THUMOS14	26.02	16.9	18.6

根据表1和表2的结果，分别体现了本发明的方法能显著提升视频的行为识别和定位结果。

实例2基于图结构表达和图像-视频增强的弱监督行为定位方法和装置

特征提取单元，用于对长视频和图像数据集进行特征提取；

自注意力单元，用于对特征提取单元得到的特征进行自注意力特征的提取，得到更加紧致的特征表达；

图神经网络单元，用于对自注意力模块提取的特征进行图建模，得到图结构特征；

生成对抗网络单元，用于对得到的图像特征和视频的图结构特征进行特征迁移，让长视频特征更具有判别性；

行为识别单元，用于对经过生成对抗网络的得到的视频特征向量进行动作分类，得到长视频属于某一类的概率；

行为定位单元，用于根据图结构表达通过伪逆计算得到的自注意力权重向量和行为识别分类结果计算得到的FCA值，区分视频中的动作或者背景，并且采用非极大值抑制进行后处理，提升行为定位的平均精度。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于图结构信息交互增强的行为检测方法，其步骤包括：

其中，通过以下步骤训练对抗网络：

2.如权利要求1所述的方法，其特征在于，n维视频特征包括动作RGB特征、背景RGB特征、动作光流特征和背景光流特征；通过以下步骤得到动作RGB特征、背景RGB特征、动作光流特征和背景光流特征：

1)将视频处理为若干图片，并对各图片进行统一剪裁操作；

2)通过一膨胀3D卷积网络，提取视频的RGB特征与光流特征；

3.如权利要求2所述的方法，其特征在于，对各图片进行统一剪裁操作的方法包括中心裁剪操作。

4.如权利要求1所述的方法，其特征在于，通过n维视频特征表达与伪逆计算，获取各视频特征表达维度的自注意力权重向量。

5.如权利要求1所述的方法，其特征在于，将n维视频特征表达输入一两层GRU网络，构建所述图特征表达。

6.如权利要求1所述的方法，其特征在于，所述对抗网络包括循环生成对抗网络；

7.如权利要求1所述的方法，其特征在于，通过以下步骤获取该视频的帧类别激活结果：

8.如权利要求1所述的方法，其特征在于，依据残差网络101网络，提取每一样本图像数据的样本图像特征；所述样本图像特征包括RGB图像特征。

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。