CN110490055A

CN110490055A - 一种基于三重编码的弱监督行为识别定位方法和装置

Info

Publication number: CN110490055A
Application number: CN201910610183.1A
Authority: CN
Inventors: 张晓宇; 石海超
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-11-22

Abstract

本发明公开了一种基于三重编码的弱监督行为识别定位方法和装置。本方法为：利用训练样本集训练一个分类器以及编码器‑解码器架构中的编码器和解码器：其中，首先提取每对长视频和短视频的特征并输入到解码器，重构视频特征并计算重构损失函数对网络参数进行更新，另一方面将提取特征输入到自注意力模块，提取自注意力特征及权重；如何将自注意力特征输入到分类器进行分类，得到视频分类结果；测试阶段，利用训练好编码器‑解码器架构提取视频的自注意力特征及其权重，然后利用训练好的分类器获取该视频的视频分类结果，计算得到该视频的T‑CAM值；然后根据T‑CAM值将视频中的动作与背景区分开，并得到动作发生的时间段。

Description

一种基于三重编码的弱监督行为识别定位方法和装置

技术领域

本发明属于视频分析领域，涉及视频行为识别和检测技术，具体涉及一种基于三重编码的弱监督行为识别定位方法和装置。

背景技术

视频行为识别和检测技术，是视频分析的主要分支之一。视频分析就是使用计算机图像视觉分析技术，通过将场景中背景和目标分离进而分析并追踪载摄像机场景内目标。由于互联网视频数据的不断涌现，视频内容分析在工业和学术领域吸引了广泛的注意力。视频内容分析一个重要的分支是行为识别，行为识别通常是致力于对人工裁剪好的视频片段进行分类。然而，大多数现实世界的视频都是长视频，并且包含多个动作实例，同时包含不相关的背景场景和活动。因此，学术和工业领域也开始将注意力放在时序行为检测的任务上。时序行为检测致力于检测长视频中的动作实例，包括时序的动作边界和实例类别。对于时序行为检测的任务可以应用到监控视频分析和智能家居护理等任务上。

行为检测可以看作是每一张图像进行目标检测的时序版本，单张图像的目标检测和视频的行为检测的目标都是检测边界以及多个实例的类别信息(时序上的动作和空间上物体)。目前大多数目标检测的模型是基于R-CNN以及其变体进行，这些模型采用的是通过对边界的候选区域进行分类以及检测的框架。受到R-CNN的启发，很多时序行为检测的方法采用相似的框架，对候选区域方法生成的时序动作实例进行分类，或者使用简单的滑动窗口的方法。这些框架有很多局限性：首先，候选区域的生成和分类模型是分别进行训练的；其次，候选区域生成方法或者滑动窗口方法需要额外的时间消耗；由滑动窗口方法产生的动作实例的时序动作边界通常是近似的，而不是精确的；同时，因为滑动窗口的尺度大小不一致，对于预测各种各样尺度的实例也不灵活；对大量训练数据进行时序标注需要耗费大量时间。

发明内容

本发明的目的在于提供一种基于三重编码的弱监督行为识别定位方法和装置，利用额外的短视频特征信息，进行知识迁移，在这个过程中，仅仅利用长视频和短视频的视频级别的标注信息，不用长视频的时序标签，使用弱监督学习提高长视频的行为识别和定位能力。

本发明首先使用ResNet101对长视频和短视频分别提取RGB特征和光流特征，即视频级别的特征，然后对于每一种视频类型的特征，输入到三种编码器中，从编码器出来的特征一方面输入解码器，对短视频和长视频的特征进行重建，另一方面输入自注意力模块，得到自注意力特征，进一步进行行为识别和检测。

本发明采用的技术方案如下：

一种基于三重编码的弱监督行为识别定位方法，包括以下步骤：

1)利用训练样本集训练一个分类器以及编码器-解码器架构中的编码器和解码器：其中，对于训练样本集中每一对长视频和短视频；首先提取该对长视频和短视频的特征；训练样本集中包括多对长视频和短视频，同一对长视频和短视频属于同一视频；然后将长视频的特征输入编码器提取长视频特征的隐向量，将短视频的特征输入编码器提取短视频特征的隐向量；然后将长视频的隐向量输入到解码器中重建长视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新，将短视频的隐向量输入到解码器中重建短视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新；将长视频的隐向量输入到自注意力模块提取长视频的每一帧自注意力特征及其权重，将短视频的隐向量输入到自注意力模块提取短视频的每一帧自注意力特征及其权重；然后将得到的自注意力特征输入到分类器进行分类，得到长视频的视频分类结果和短视频的视频分类结果；

2)测试阶段，对于一待处理的视频，利用训练好编码器-解码器架构提取该视频的自注意力特征及其权重，然后利用训练好的分类器获取该视频的视频分类结果；然后根据该视频的自注意力特征权重和视频分类结果计算得到该视频的T-CAM值；然后根据该视频的T-CAM值将该视频中的动作与背景区分开，并得到该视频中动作发生的时间段。

进一步地，所述提取长视频和短视频的特征包括RGB特征和光流特征。

进一步地，采用ResNet101网络提取长视频和短视频的特征。

进一步的，在编码器-解码器框架下，使用一个三元组编码器{E_p,t,E_s,E_p,u}，进一步提取视频特征的隐向量；E_p,t是对短视频的特征进行编码，即短视频专有特征编码器；E_s是对长视频和短视频公有的特征进行编码，即长视频短视频公有特征编码器；E_p,u是对长视频专有的特征进行编码，即长视频专有特征编码器。所述提取的视频特征的隐向量包括：

a)对于长视频特征，将该特征分别输入到E_s、E_p,u，得到长视频特有的特征和公共的特征；长视频的特有特征包括背景特征和低维视频统计特征；公共的特征包括映射到公共子空间中的高维视频特征。

b)对于短视频特征，将该特征分别输入到E_p,t,E_s，得到短视频特有的特征和公共的特征；短视频的特有特征包括背景特征和低维视频统计特征；公共的特征包括映射到公共子空间中的高维视频特征。

对于同一种视频(长视频或者短视频)，得到特有的特征和公共的特征之后，在输入到解码器之前，需要将同一类视频的每一个视频的特有特征和公共特征结合，对两种特征进行特征融合作为解码器的输入。

将提取的视频特征的隐向量输入到解码器以及输入到自注意力模块。

进一步地，将隐向量输入到解码器是为了重建视频特征；解码器对编码器得到的视频特征进行解码，将编码的特征大小恢复到输入到编码器的特征大小，计算重建损失函数，对编码器-解码器架构的网络参数进行优化。输入到解码器中的隐向量包括提取长视频和短视频得到的特有特征和公共特征。

进一步地，将隐向量输入到自注意力模块是为了提取自注意力特征进行行为识别并且根据得到的自注意力权重进行行为定位。自注意力模块对输入的隐向量进行如下操作：首先对隐向量进行特征维度变换，经过tanh激活函数后再经过维度变换，输入到softmax里对隐向量进行归一化操作，得到自注意力权重向量，用编码器得到的视频隐向量特征表示与自注意力权重向量相乘，得到自注意力特征。

进一步地，得到的自注意力权重是每一帧的权重。

进一步地，根据得到的自注意力的权重和对视频的分类结果相乘，得到每一个视频的向量表示；得到的视频向量用来进行视频分类(动作识别)，视频的分类结果根据softmax的分类结果得到，在训练的时候给定视频标签，然后分类的时候softmax的输出是一个N维向量，N代表视频的类别数，每一个类别对应一个序号，最大值就代表视频属于对应的类别，从而可以得到视频的分类结果。

进一步地，为了得到更加精确的动作时间段，计算T-CAM(时序类别激活映射)值，将RGB和光流的信息都融合进来，得到最终的行为定位的结果。进行行为定位的原理是：得到的自注意力权重向量，每一个值代表一帧的权重，设置阈值，根据权重大小判断是视频动作还是背景，因为视频背景的自注意力权重肯定比视频中动作的权重小，根据这一个判定准则，就可以筛选出连续动作的帧片段，进行动作定位。

T-CAM值的计算方法为：首先将输入到softmax的特征矩阵与编码器得到的特征矩阵相乘，得到维度转换后的特征矩阵；然后对上述得到的特征矩阵进行sigmoid操作，判断是否是该动作类别，然后用自注意力权重与sigmoid计算得到的类别概率相乘，就得到T-CAM值(向量)。

对特有特征和公共特征分别计算得到对应的T-CAM值，然后将这两种T-CAM值加权，得到RGB或者光流特征的T-CAM值，最终将RGB和光流分别计算得到的T-CAM值加权，就得到每个视频最终的T-CAM值，根据设定的阈值，就可以将T-CAM向量(表示视频每一帧的重要性)中的动作还是背景区分出来，经过后处理(NMS)，就可以将连续动作帧或者背景帧找出来，从而对视频中的动作进行定位。本方法中提出的T-CAM称为Multi-view T-CAM(多视角T-CAM)。

一种基于三重编码的弱监督行为识别定位装置，包括：

特征提取单元，用于对长视频和短视频进行特征提取；

三重编码器单元，用于对特征提取单元得到的特征进行编码，分别得到长视频和短视频的特有特征和公共特征；

解码器单元，用于对三重编码器得到的特征进行解码，重建视频特征；

行为识别单元，用于对提取的自注意力特征进行动作分类，得到长视频属于某一类的概率；

进一步地，还包括行为定位单元，用于根据自注意力权重计算得到的T-CAM值，区分视频中的动作或者背景，并且采用非极大值抑制进行后处理，得到视频中动作实例发生的时间间隔，提升行为定位的平均精度。

利用本发明的方法可以对长视频进行动作分类并定位动作发生的时间间隔，与现有技术相比具有以下优点：

1、本发明提出一种对原始视频特征进行编解码，并且在编码之后对长视频和短视频进行知识迁移，将视频特征映射到一个连续的子空间中，从而对长视频进行行为识别和定位；

2、本发明使用编码-解码的框架进行模型学习，整合了三个编码器提取长视频和短视频的特有的特征和共同的特征，并且利用解码器重构视频特征，防止视频信息的损耗；

3、本发明使用弱监督学习机制学习模型，仅仅使用视频级别的标签进行训练，不使用时序的标签，大大降低了计算复杂度以及时序标注的时间。

附图说明

图1是利用本发明方法进行视频行为识别和定位的流程图；其中“数据预处理”是指对图片进行统一裁剪操作(比如进行center cropped操作，统一裁剪成224×224的大小)。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明提供的基于三重编码的弱监督行为识别和定位方法，适用于对长视频进行行为识别和定位，该方法的流程如图1所示，其主要步骤包括：首先对视频进行预处理，提取RGB帧和光流，然后分别对RGB帧和光流提取特征，得到RGB特征和光流特征，并将提取的特征输入三重编码器，提取编码之后的视频特征，得到视频特有的特征和共同的特征。一方面，将这些特征输入解码器，重建视频特征，以减小信息损耗；另一方面，将这些特征，送到自注意力模块(参考自注意力机制算法Lin,Zhouhan,et al."A structured self-attentive sentence embedding."In 5th International Conference on LearningRepresentations(ICLR)2017)，提取自注意力特征，并对自注意力特征进行分类，得到视频行为识别的结果，根据得到的行为识别的结果和计算得到的自注意力权重，对视频的动作实例进行定位。

本发明方法分为训练和测试两部分，训练阶段，训练三个编码器，一个解码器和一个分类器。在测试阶段，只需要经过三个编码器和分类器，就可以得到视频的分类结果和自注意力权重，并且根据得到的自注意力权重和分类结果进行视频动作定位。

实例1基于三重编码的弱监督行为识别定位方法和装置

以THUMOS14数据集为例，数据集中长视频和短视频是成对出现的，输入的是视频对：

1)首先使用ResNet101提取每对长视频和短视频的RGB特征和光流特征；

2)将ResNet101提取的RGB和光流特征输入到三重编码器中，分别得到长视频和短视频的特有特征和公共的特征；

3)将2)得到的视频的特有特征和公共的特征一方面输入到解码器，重构视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新(重构视频特征是为了减小提取视频特征过程中造成的信息损失；重构损失函数是利用解码器输出的重构特征与编码器对应的输入计算重构损失)，另一方面输入到自注意力模块，提取自注意力特征，并且计算得到视频帧的自注意力权重；其中，将长视频的隐向量输入到注意力模块提取长视频的自注意力特征及其权重，将短视频的隐向量输入到注意力模块提取短视频的自注意力特征及其权重。

另外，还有两个损失函数的计算如下：

(1)差分损失函数，通过计算长视频的特有特征和公共特征之间的JS散度和短视频的特有特征和公共特征之间的JS散度得到；

(2)适应性损失函数，通过计算长视频和短视频的公共特征的JS散度得到。

利用重构损失函数、差分损失函数和适应性损失函数对编码器-解码器架构的网络参数进行更新。

如下分别是适应性损失函数和差分损失函数的表达式

如下是重构损失函数的表达式：

其中表示长视频和短视频标签一致的情况下短视频的公共特征，表示长视频和短视频标签一致的情况下长视频的公共特征，表示长视频和短视频标签不一致的情况下短视频的公共特征，表示长视频和短视频标签不一致的情况下长视频的公共特征。

表示输入到编码器的短视频的特征，表示重构的短视频的特征，表示输入到编码器的长视频的特征，表示重构的长视频的特征，n_t表示短视频的数量，n_u表示长视频的数量。

4)将步骤3)得到的长视频自注意力特征和短视频自注意力特征输入到分类器进行分类，分别得到长视频的视频分类结果和短视频的视频分类结果；

5)根据3)得到的每一帧的自注意力权重向量和分解得到的视频向量，计算得到加权T-CAM的值，再将RGB和光流计算的T-CAM的结果融合，得到最终的视频的T-CAM的结果；这里首先通过分类器中分类层之前的全连接层的参数矩阵与编码器分解得到的视频相乘得到T-CAM值，然后通过自注意力权重与使用sigmoid函数对T-CAM进行分类得到的向量的每一个值相乘得到加权T-CAM值。

6)基于5)得到的T-CAM的结果，可以将长视频中的动作与背景区分开，将超过设定阈值位置保留(高于阈值的认为是动作，低于阈值的认为是背景)，最后采用非极大值抑制的方法去除高度重叠的预测结果，这样最终得到视频中动作发生的时间段。

比较本发明方法与其他方法的结果，得到的行为识别准确率如表1所示，得到的行为定位的平均精度如表2所示：

表1.在THUMOS14数据集上的行为识别准确率

数据集	本发明方法	UntrimmedNets	W-TALC
				THUMOS14	0.879	0.822	0.856

表1中，UntrimmedNets和W-TALC是对比的方法，这两个方法都是弱监督的方法。因此可以用本发明的方法进行对比。

表2.在THUMOS14数据集上IoU＝0.5时的行为定位的平均精度(mAP)

数据集	本发明方法	UntrimmedNets	W-TALC
				THUMOS14	23.65	13.7	16.9

根据表1和表2的结果，分别体现了本发明的方法能显著提升视频的行为识别和定位结果。

实例2基于三重编码的弱监督行为识别定位方法和装置

特征提取单元，用于对长视频和短视频进行特征提取；

行为识别单元，用于对提取的自注意力特征进行动作分类，得到长视频属于某一类的概率，即视频分类结果；

行为定位单元，用于根据自注意力权重计算得到的T-CAM值，区分视频中的动作或者背景，并且采用非极大值抑制进行后处理，提升行为定位的平均精度。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于三重编码的弱监督行为识别定位方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，所述特征包括RGB特征和光流特征。

3.如权利要求1或2所述的方法，其特征在于，采用ResNet101网络提取长视频和短视频的特征。

4.如权利要求1所述的方法，其特征在于，提取长视频特征的隐向量的方法为：首先将长视频特征分别输入到编码器E_s、E_p,u，得到长视频的特有特征和公共特征；然后对长视频的特有特征和公共特征进行特征融合得到长视频特征的隐向量；其中，E_s是对公共特征进行编码的特征编码器，E_p,u是对长视频的特有特征进行编码的特征编码器。

5.如权利要求1所述的方法，其特征在于，提取短视频特征的隐向量的方法为：首先将短视频特征分别输入到编码器E_s、E_p,t，得到短视频的特有特征和公共特征；然后对短视频的特有特征和公共特征进行特征融合得到短视频特征的隐向量；其中，E_s是对公共特征进行编码的特征编码器，E_p,t是对短视频的特有特征进行编码的特征编码器。

6.如权利要求1所述的方法，其特征在于，根据得到视频的T-CAM值将该视频中的动作与背景区分开，将超过设定阈值位置保留，最后采用非极大值抑制的方法去除重叠的预测结果，得到该视频中动作发生的时间段。

7.一种基于三重编码的弱监督行为识别定位装置，其特征在于，包括

特征提取单元，用于对视频进行特征提取；

编码器单元，用于对特征提取单元得到的特征进行编码，分别得到视频的特有特征和公共特征；

解码器单元，用于对编码器单元得到的特征进行解码，重建视频特征；

行为识别单元，用于对提取的自注意力特征进行动作分类，得到视频的视频分类结果；

行为定位单元，用于根据自注意力权重计算得到视频的T-CAM值，区分视频中的动作或者背景，并且采用非极大值抑制进行处理得到视频中动作实例发生的时间间隔。

8.如权利要求7所述的弱监督行为识别定位装置，其特征在于，利用训练样本集训练编码器单元和解码器单元；训练样本集中包括多对长视频和短视频，同一对长视频和短视频属于同一视频；其训练方法为：对于训练样本集中每一对长视频和短视频；首先提取该对长视频和短视频的特征；然后将长视频的特征输入编码器提取长视频特征的隐向量，将短视频的特征输入编码器提取短视频特征的隐向量；然后将长视频的隐向量输入到解码器中重建长视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新，将短视频的隐向量输入到解码器中重建短视频的视频特征并计算重构损失函数对编码器-解码器架构的网络参数进行更新；将长视频的隐向量输入到自注意力模块提取长视频的每一帧自注意力特征及其权重，将短视频的隐向量输入到自注意力模块提取短视频的每一帧自注意力特征及其权重；然后将得到的自注意力特征输入到分类器进行分类，得到长视频的视频分类结果和短视频的视频分类结果。

9.如权利要求8所述的弱监督行为识别定位装置，其特征在于，提取长视频特征的隐向量的方法为：首先将长视频特征分别输入到编码器E_s、E_p,u，得到长视频的特有特征和公共特征；然后对长视频的特有特征和公共特征进行特征融合得到长视频特征的隐向量；其中，E_s是对公共特征进行编码的特征编码器，E_p,u是对长视频的特有特征进行编码的特征编码器；提取短视频特征的隐向量的方法为：首先将短视频特征分别输入到编码器E_s、E_p,t，得到短视频的特有特征和公共特征；然后对短视频的特有特征和公共特征进行特征融合得到短视频特征的隐向量；其中，E_s是对公共特征进行编码的特征编码器，E_p,t是对短视频的特有特征进行编码的特征编码器。

10.如权利要求7或8所述的弱监督行为识别定位装置，其特征在于，所述特征包括RGB特征和光流特征。