CN112084887A

CN112084887A - 一种基于注意力机制的自适应视频分类方法及系统

Info

Publication number: CN112084887A
Application number: CN202010838907.0A
Authority: CN
Inventors: 吉长江
Original assignee: Beijing Moviebook Technology Corp ltd
Current assignee: Beijing Moviebook Technology Corp ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-12-15

Abstract

本申请提供了一种基于注意力机制的自适应视频分类方法及系统，在本申请提供的方法中，先获取无监督视频流作为目标域视频流；再获取有有标注的图像数据和视频数据作为源域数据集；然后利用预设的领域自适应模型对目标域视频流和源域数据集进行特征训练，以输出目标域视频流的特征参数；最后基于目标域视频流的特征参数对目标域视频流进行分类，生成目标域视频流的类别标签。基于本申请提供的基于注意力机制的自适应视频分类方法及系统，将针对现有模型的缺陷，采用web上的图像和视频数据作为源域数据集，增加源域数据的多样性，并通过注意力机制降低源域数据的噪声影响，提高分类准确性。

Description

一种基于注意力机制的自适应视频分类方法及系统

技术领域

本申请涉及视频分类技术领域，特别是涉及一种基于注意力机制的自适应视频分类方法及系统。

背景技术

视频分类是计算机视觉中经过深入研究的问题，是指给定一个视频片段，对其中包含的内容进行分类，类别通常是动作，场景，物体等，在监视和人机交互等领域具有许多重要的应用。一般采用基于深度学习的方法来进行视频分类，但是训练深度神经网络通常需要大量的带标记数据集，然而视频领域的多样性和人工标注的昂贵性，足够多的标记数据是难以获得的，因此无监督的自适应视频分类方法逐渐成为研究热点。

目前现有的自适应视频分类模型对于源域数据的选择具有一定的局限性，当源域数据和目标域数据差异较大时会降低分类器性能，而且源域数据中噪声的影响也会使得分类器获得较差的准确性。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于注意力机制的自适应视频分类方法，包括：

获取无监督视频流作为目标域视频流；

获取有标注的图像数据和视频数据作为源域数据集；

利用预设的领域自适应模型对所述目标域视频流和源域数据集进行特征训练，以输出所述目标域视频流的特征参数；

基于所述目标域视频流的特征参数对所述目标域视频流进行分类，生成所述目标域视频流的类别标签。

可选地，所述获取有标注的图像数据和视频数据作为源域数据集，包括：

基于预设网络数据集分别选取有标注的图像数据和视频数据作为源域数据集；

对所述源域数据集进行预处理；其中，预处理包括数据大小的调整和/或视频帧的提取。

可选地，采用生成对抗网络作为所述领域自适应模型；

所述生成对抗网络包括图像生成对抗网络和视频生成对抗网络；

所述图像生成对抗网络包括二维卷积神经网络模型，所述视频生成对抗网络包括三维卷积神经网络模型。

可选地，所述利用预设的领域自适应模型对所述目标域视频流和源域数据集进行特征训练，以输出所述目标域视频流的特征参数，包括：

将所述目标域视频流和所述源域数据集输入所述二维卷积神经网络模型进行图像特征训练，基于注意力机制分别对所述源域数据集中图像数据的图像特征、视频数据中视频帧的图像特征与所述目标域视频流中视频帧的图像特征进行比对，输出图像特征比对后的第一权重；

将所述目标域视频流、所述源域数据集、第一权重输入所述三维卷积神经网络模型进行视频特征训练，基于注意力机制对所述源域数据集中的视频数据中视频帧的视频特征与所述目标域视频流中视频帧的视频特征进行比对，输出视频特征比对后的第二权重，进而输出所述目标域视频流的特征参数。

可选地，所述基于所述目标域视频流的特征参数对所述目标域视频流进行分类，生成所述目标域视频流的类别标签，包括：

采用softmax激活函数基于所述目标域视频流的特征参数对所述目标域视频流进行分类，生成所述目标域视频流的类别标签；

将所述类别标签添加至所述目标域视频流。

根据本申请的另一个方面，提供了一种基于注意力机制的自适应视频分类系统，包括：

目标域视频流获取模块，其配置成获取无监督视频流作为目标域视频流；

源域数据集生成模块，其配置成获取有标注的图像数据和视频数据作为源域数据集；

特征参数输出模块，其配置成利用预设的领域自适应模型对所述目标域视频流和源域数据集进行特征训练，以输出所述目标域视频流的特征参数；

类别标签添加模块，其配置成基于所述目标域视频流的特征参数对所述目标域视频流进行分类，生成所述目标域视频流的类别标签。

可选地，所述源域数据集生成模块，还配置成：

可选地，采用生成对抗网络作为所述领域自适应模型；

可选地，所述特征参数输出模块，还配置成：

可选地，所述类别标签添加模块，还配置成：

将所述类别标签添加至所述目标域视频流。

本申请提供了一种基于注意力机制的自适应视频分类方法及系统，在本申请提供的方法中，先获取无监督视频流作为目标域视频流；再获取有标注的图像数据和视频数据作为源域数据集；然后利用预设的领域自适应模型对目标域视频流和源域数据集进行特征训练，以输出目标域视频流的特征参数；最后基于目标域视频流的特征参数对目标域视频流进行分类，生成目标域视频流的类别标签。

基于本申请提供的基于注意力机制的自适应视频分类方法及系统，将针对现有模型的缺陷，采用web上的图像和视频数据作为源域数据集，增加源域数据的多样性，并通过注意力机制降低源域数据的噪声影响，提高分类准确性。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请实施例的基于注意力机制的自适应视频分类方法流程示意图；

图2是根据本申请实施例的图像GAN模型示意图；

图3是根据本申请实施例的视频GAN模型示意图；

图4是根据本申请实施例的2D-CNN模型流程图；

图5是根据本申请实施例的3D-CNN模型流程图；

图6是根据本申请实施例的一种基于注意力机制的自适应视频分类系统结构示意图；

图7是根据本申请实施例的计算设备示意图；

图8是根据本社情实施例的计算机可读存储介质示意图。

具体实施方式

目前，在视频分类领域中，较常采用基于深度学习的方法来进行视频分类，可以采用三维卷积视频网络模型例如C3D，P3D，I3D等，因为其共同学习视频帧内容和运动的特征而适用于视频分类领域。其中I3D使用全3D滤波器，而P3D将时空卷积分解为空间卷积和时间卷积，先进行空间卷积再进行时间卷积。还有一些经典的模型例如LRCNs，它是LSTM和ConvNet结合进行视频分类的方法，首先在图像分类任务上训练好ConvNet分类器，它就可以很好地提取视频帧的表观特征；而对于时序特征的提取，则可以通过直接增加LSTM层来实现，因为LSTM能够将多个时刻的状态作为当前时刻的输入，从而允许时间维度上的信息得以保留。

在领域自适应中大多基于生成对抗网络，例如PixelDA模型能够从源分布中生成逼真的样本，而其他像DANN(英文全称Domain-Adversarial Training of NeuralNetworks)则是学习域不变的特征表示。其他相关工作包括ADDA(英文全称AdversarialDiscriminative Domain Adaptation)，它通过在源域上预先训练分类器来学习分段模型，然后在之后添加对抗性组件以实现领域自适应；或是通过结合域混淆损失和转移域之间的类相关性以保留类特定信息来学习域不一致。

图1是根据本申请实施例的一种基于注意力机制的自适应视频分类方法流程示意图。参见图1所知，本申请实施例提供的一种基于注意力机制的自适应视频分类方法可以包括：

步骤S101：获取无监督视频流作为目标域视频流；

步骤S102：获取有标注的图像数据和视频数据作为源域数据集；

步骤S103：利用预设的领域自适应模型对目标域视频流和源域数据集进行特征训练，以输出目标域视频流的特征参数；

步骤S104：基于目标域视频流的特征参数对目标域视频流进行分类，生成目标域视频流的类别标签。

本申请提供了一种基于注意力机制的自适应视频分类方法，在本申请提供的方法中，先获取无监督视频流作为目标域视频流；再获取有标注的图像数据和视频数据作为源域数据集；然后利用预设的领域自适应模型对目标域视频流和源域数据集进行特征训练，以输出目标域视频流的特征参数；最后基于目标域视频流的特征参数对目标域视频流进行分类，生成目标域视频流的类别标签。基于本申请提供的基于注意力机制的自适应视频分类方法，能够有效利用Web上的带标注图像和视频，并通过注意力机制减少了源域数据的噪声影响，提升了模型的准确率。本实施例提及的图像数据和视频数据可以是人物、风景等不同类型的图像或是视频数据，本发明对此不做限定。

首先，参见上述步骤S101，先获取待分类的视频流作为目标域视频流，而且待分类的视频流是无监督的，即待分类的视频流不具有分类标签。另外，作为目标域视频流的待分类的视频流可以从目标域数据集中获取的，本申请实施例中选取的目标域数据集为UCF-101数据集，它包含101个动作类别，充分满足视频类型的多样性。

获取目标域视频流后，接下来执行步骤S102，获取有标注的图像数据和有标注的视频数据，作为源域数据集。在本申请一可选实施例中，获取源域数据集时，可以基于预设网络数据集分别选取有标注的图像数据和视频数据作为源域数据集；对源域数据集进行预处理；其中，预处理包括数据大小的调整和/或视频帧的提取，或是其他对图像的降噪等处理。

具体来讲，源域数据集为网络上的有标注的数据(来自公共搜索引擎的结果)，其中图像数据使用标准图像搜索引擎收集800-900张图像，而视频数据在YouTube收集25个类别，每个类别50个视频的视频数据集。

上文提及，在获取源于数据集后，需要通过预处理进行调整。其中对于图像数据，提取图像的224×224的随机裁剪；对于视频数据，首先可以以类似的方式调整视频大小，然后使用Hecate工具提取关键帧和视频块，对于每个视频块，提取24帧。由于使用的源域数据集是Web数据，会具有很大的噪声影响，因此采用了基于注意力的模块减少噪声影响。

本申请实施例提供的方法从web网络上获取带标注的图像和视频，获得方式较为简单，数据种类较为丰富，能够有效的提高视频分类模型的泛化能力，使其能够适用于多种类别的视频分类数据。

在获取了目标域视频流和源域数据集后，执行步骤S103，利用预设的领域自适应模型对目标域视频流和源域数据集进行特征训练。

在本实施例中，预设的领域自适应模型采用生成对抗网络(GenerativeAdversarial Networks，简称GAN)，其中，生成对抗网络包括图像生成对抗网络和视频生成对抗网络；而图像生成对抗网络包括二维卷积神经网络(2D Convolutional NeuralNetworks，简称2D-CNN)模型，视频生成对抗网络包括三维卷积神经网络(3DConvolutional Neural Networks，简称3D-CNN)模型。

领域自适应模型的目标是学习编码器GAN-E，它可以产生不同领域也无法区分的特征表示。领域自适应模型采用生成对抗网络GAN，GAN由图像GAN和视频GAN组成，其中图像GAN包括三组，分别用于区分有监督的网络图像和有监督的网络视频帧、区分有监督的网络视频帧和目标帧(即，无监督的目标域视频帧。)、区分有监督的网络图像和目标帧(即，无监督的目标域视频帧)，其中需要区分的两组互为“真实”特征比对；视频GAN包括一组，用于区分有监督的网络视频帧和目标帧，这两组互为“真实”特征比对。GAN包括生成器和鉴别器。生成器由编码器和解码器组成，编码器中获得的特征被送至解码器，解码器可以重建原始特征向量。鉴别器将生成器生成的特征作为输入，将其与“真实”特征进行比对判别为真或假，最终生成器和鉴别器的博弈操作将使得生成器中的编码器GAN-E产生不同领域也无法区分的特征表示。

在本申请实施例中，编码器GAN-E的输出(解码器的输入)即分别为2D-CNN和3D-CNN的输出，也就是说，在图像GAN中，编码器GAN-E由2D-CNN组成，而在视频GAN中，编码器GAN-E为3D-CNN，值得注意的是，3D-CNN模型的初始化权重是经过图像GAN的训练获得的编码器GAN-E的权重。

也就是说，领域自适应模型中，整体GAN包含图像GAN以及视频GAN两个部分，GAN包含生成器和鉴别器两个部分，其中生成器又包含编码器和解码器，通过GAN结构形成最佳编码器，在编码器后加入分类器进行最终分类。

如图2所示，对于图像GAN，初始的编码器输入为E(I)、E(T)为例，其它两组的训练过程与之相同。图像GAN的输入为E(I)、E(T)，经过解码器再经过判别器，通过不断判别循环使得最终编码器产生不同领域也无法区分的特征表示，在其后加入分类器。

对于视频GAN，如图3所举的例子，视频GAN的输入为3D-E(T)和D-E(V)。，经过解码器再经过判别器，通过不断判别循环使得最终编码器产生不同领域也无法区分的特征表示，在其后加入分类器。

在本申请一可选实施例中，利用预设的领域自适应模型对所述目标域视频流和源域数据集进行特征训练时，可先将目标域视频流和源域数据集输入二维卷积神经网络模型进行图像特征训练，基于注意力机制分别对源域数据集中图像数据的图像特征、视频数据中视频帧的图像特征与目标域视频流中视频帧的图像特征进行比对，输出图像特征比对后的第一权重。然后，将目标域视频流、源域数据集、第一权重输入三维卷积神经网络模型进行视频特征训练，基于注意力机制对源域数据集中的视频数据中视频帧的视频特征与目标域视频流中视频帧的视频特征进行比对，输出视频特征比对后的第二权重，进而输出目标域视频流的特征参数。

2D-CNN，它的作用是学习图像特征，训练模型权重，采用它分别学习三组模型权重，其输入分别为有监督的网络图像、有监督的网络视频帧和无监督的目标域视频帧，其输出的三组模型权重将分别作为领域自适应模型的输入。采用的2D-CNN模型为ResNet-34架构，在其中加入了基于注意力的机制，将有监督的网络图像和有监督的网络视频帧的图像特征与目标域视频帧的特征进行比对，根据其相似性对有监督的网络图像和有监督的网络视频帧赋予不同的权重，以减少噪声的干扰。

同时，在ResNet-34架构的最后加入注意力网络，通过计算有监督的网络图像特征和有监督的网络视频帧的图像特征与目标域视频帧特征的相似性，对有监督的网络图像和有监督的网络视频帧赋予不同的权重。

具体地，在计算有监督的网络图像特征的注意力权重时，给定一组网络图像

为每一个图像

计算注意力分数α_i，令E(x^I)表示图像x^I经由ResNet-34架构(即2D-CNN)得到的嵌入特征表示，A代表具体的注意力网络，计算注意力分数的过程为：

其中e_ik代表图像

与图像

间的相似性。

选取其中相似性最高的部分：

其中m_it为相似性最高的前T个分数。

对前T个分数求和：

最后计算得到图像的计算注意力分数：

其中τ为参数权重(根据不同数据集和网络模型，在训练过程中获取)。由此得到了图像的注意力分数，视频帧的注意力分数计算采用的相同方式。

3D-CNN，用来学习视频的时空特征，采用它分别学习两组权重，其输入分别为有监督的网络视频帧和无监督的目标域视频帧，学习到的两组权重就是这两组输入视频帧在经由网络训练后的网络参数(网络参数即为视频帧的时空特征)。该模型采用经过领域自适应模型训练后的2D-CNN模型的权重作为初始化权重，其输出的模型权重也将分别作为领域自适应模型的编码器输入部分。

3D-CNN模型中也加入了基于注意力的机制，将有监督的网络视频祯的特征与目标域视频祯的特征进行比对，根据其相似性对有监督的网络视频祯赋予不同的权重，以减少噪声的干扰。其中，3D-CNN模型中的基于注意力机制计算方式与上述2D-CNN模型的基于注意力机制的计算方式相同。

如图4所示的例子，对于2D-CNN，输入为有监督的网络图像(I)、有监督的网络视频帧(V)和无监督的目标域视频帧(T)，经由2D-CNN后，两组数据进入注意力机制网络，最终得到三组输出：E(I)、E(T)、E(V)。

而对于3D-CNN，如图5所示，输入为有监督的网络视频帧(V)和无监督的目标域视频帧(T),其中由2D-CNN得到的输出E(T)、E(V)作为3D-CNN的初始化权重，经由3D-CNN后，据进入注意力机制网络，最终得到两组输出：3D-E(T)、3D-E(V)。

最后执行步骤S104，基于目标域视频流的特征参数对目标域视频流进行分类，生成目标域视频流的类别标签。

进一步地说，采用softmax激活函数基于目标域视频流的特征参数对目标域视频流进行分类，生成目标域视频流的类别标签；然后将类别标签添加至所述目标域视频流。

即通过领域自适应模型后，已经获得了编码器GAN-E，它可以产生不同领域也无法区分的特征表示，在编码器后连接分类器，采用softmax激活函数产生目标域视频的类别标签。

总体来说，本申请实施例提出一种基于注意力机制的自适应视频分类方法，这是一种两阶段的模型训练方法，首先使用标准2D-CNN学习图像模型，将学习的空间权重转移到3D-CNN，然后继续对视频进行训练，而且模型整体采用了迁移学习的思想。

基于同一发明构思，如图6所示，本申请实施例还提供了一种基于注意力机制的自适应视频分类系统，包括：

目标域视频流获取模块610，其配置成获取无监督视频流作为目标域视频流；

源域数据集生成模块620，其配置成获取有标注的图像数据和视频数据作为源域数据集；

特征参数输出模块630，其配置成利用预设的领域自适应模型对目标域视频流和源域数据集进行特征训练，以输出目标域视频流的特征参数；

类别标签添加模块640，其配置成基于目标域视频流的特征参数对目标域视频流进行分类，生成目标域视频流的类别标签。

在本申请一可选实施例中，源域数据集生成模块620，还配置成：

对源域数据集进行预处理；其中，预处理包括数据大小的调整和/或视频帧的提取。

在本申请一可选实施例中，采用生成对抗网络作为领域自适应模型；生成对抗网络包括图像生成对抗网络和视频生成对抗网络；图像生成对抗网络包括二维卷积神经网络模型，视频生成对抗网络包括三维卷积神经网络模型。

在本申请一可选实施例中，特征参数输出模块630，还配置成：

将目标域视频流和源域数据集输入二维卷积神经网络模型进行图像特征训练，基于注意力机制分别对源域数据集中图像数据的图像特征、视频数据中视频帧的图像特征与目标域视频流中视频帧的图像特征进行比对，输出图像特征比对后的第一权重；

将目标域视频流、源域数据集、第一权重输入所述三维卷积神经网络模型进行视频特征训练，基于注意力机制对源域数据集中的视频数据中视频帧的视频特征与目标域视频流中视频帧的视频特征进行比对，输出视频特征比对后的第二权重，进而输出目标域视频流的特征参数。

在本申请一可选实施例中，类别标签添加模块640，还配置成：

采用softmax激活函数基于目标域视频流的特征参数对目标域视频流进行分类，生成目标域视频流的类别标签；将类别标签添加至所述目标域视频流。

本申请实施例还提供了一种计算设备，参照图7，该计算设备包括存储器720、处理器710和存储在所述存储器720内并能由所述处理器710运行的计算机程序，该计算机程序存储于存储器720中的用于程序代码的空间730，该计算机程序在由处理器710执行时实现用于执行任一项根据本发明的方法步骤731。

本申请实施例还提供了一种计算机可读存储介质。参照图8，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序731′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于注意力机制的自适应视频分类方法，包括：

获取无监督视频流作为目标域视频流；

获取有标注的图像数据和视频数据作为源域数据集；

2.根据权利要求1所述的方法，其特征在于，所述获取有标注的图像数据和视频数据作为源域数据集，包括：

3.根据权利要求1所述的方法，其特征在于，采用生成对抗网络作为所述领域自适应模型；

4.根据权利要求3所述的方法，其特征在于，所述利用预设的领域自适应模型对所述目标域视频流和源域数据集进行特征训练，以输出所述目标域视频流的特征参数，包括：

5.根据权利要求1所述的模型，其特征在于，所述基于所述目标域视频流的特征参数对所述目标域视频流进行分类，生成所述目标域视频流的类别标签，包括：

将所述类别标签添加至所述目标域视频流。

6.一种基于注意力机制的自适应视频分类系统，包括：

7.根据权利要求6所述的系统，其特征在于，所述源域数据集生成模块，还配置成：

8.根据权利要求7所述的系统，其特征在于，

采用生成对抗网络作为所述领域自适应模型；

9.根据权利要求8所述的系统，其特征在于，所述特征参数输出模块，还配置成：

10.根据权利要求9所述的系统，其特征在于，所述类别标签添加模块，还配置成：

将所述类别标签添加至所述目标域视频流。