CN115311605A

CN115311605A - 基于近邻一致性和对比学习的半监督视频分类方法及系统

Info

Publication number: CN115311605A
Application number: CN202211195726.6A
Authority: CN
Inventors: 吴建龙; 孙玮; 聂礼强; 甘甜; 李潇婕; 丁宁; 姜飞俊
Original assignee: Zhejiang Maojing Artificial Intelligence Technology Co ltd; Shandong University; Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Zhejiang Maojing Artificial Intelligence Technology Co ltd; Shandong University; Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-11-08
Anticipated expiration: 2042-09-29
Also published as: CN115311605B

Abstract

本发明属于计算机视觉视频分类领域，为了解决现有技术对视频中的运动信息挖掘不足，引入监督信号过少，模型训练效率低下以及学习到的特征判别性不足，这些均导致视频分类的准确率较低的问题，提供基于近邻一致性和对比学习的半监督视频分类方法及系统。其中基于近邻一致性和对比学习的半监督视频分类方法包括提取待分类视频样本的RGB帧图像；基于RGB帧图像及训练好的教师网络，得到所有视频分类的预测分布，将概率最大的类别作为分类结果；其基于教师‑学生网络对视频进行分类，能够在仅有少量标注数据的情况下提高视频分类的准确性。

Description

基于近邻一致性和对比学习的半监督视频分类方法及系统

技术领域

本发明属于计算机视觉视频分类领域，尤其涉及一种基于近邻一致性和对比学习的半监督视频分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

监督学习需要大量的有标签数据，而获取全部数据的标签往往需要耗费大量的人工、时间、成本等，这便为监督学习及其实际应用带来很多不便。相比较而言，无标签数据的获取要容易得多，而若仅仅依靠无标签数据训练模型即无监督学习，模型很难取得优异的表现。基于上述两点，半监督学习逐渐受到研究者们的关注。半监督学习从大量无标签数据中提取有价值的隐藏信息，只需结合少量标签数据来训练模型，大大减少了标注数据的成本投入，同时也进一步改善了无监督学习效果不佳的现象。目前半监督学习在图像分类领域已经有很多效果出色的半监督分类方法，有一些甚至已经超过了现有的监督学习方法，但是在视频分类领域却表现欠佳。

视频分类任务相较于图像分类任务来说更难。一方面，视频分类处理的数据是视频，视频中不仅包含图像的外貌信息，还包含了帧与帧之间运动关系，这种动态的运动关系加大了视频分类的难度。另一方面，标注视频的类别标签相较于标注图像的类别标签来说，更加费时、费力。

FixMatch是半监督图像分类领域非常常用且具有高准确率的方法，但是若将FixMatch直接迁移到视频分类中去，得到的效果却并不好。导致这种现象的原因主要有两点，第一是因为FixMatch只能关注到RGB图像中的外貌信息，忽略了视频中的运动信息，而运动信息恰恰是视频正确分类的关键。第二个原因是FixMatch只对能够生成高置信度伪标签的样本进行伪标签学习，而对于无法生成高置信度伪标签的样本将会采取丢弃策略，这会导致监督信号不足、训练效率低下和特征判别性不足。

近期针对半监督视频分类的方法被提出，试图来解决FixMatch迁移效果不好的问题。TCL通过实例间对比损失最大化同一视频不同速度之间的一致性，并引入了组间对比损失来学习高层的语义信息。TCL虽然使用了所有无标签样本，但是只考虑了视频的RGB模态，对运动信息的挖掘不足。MvPL利用视频的多种模态信息如RGB、temporal gradient（TG）和光流等构造高置信度的伪标签，从而指导模型训练。MvPL利用了多模态学到了更多的运动信息，但是与FixMatch一致，丢弃了无法生成高置信度伪标签的样本，训练效率仍然不高。LTG提出利用知识蒸馏的方法，从TG模型中提取运动信息，并指导RGB模型学习。同时提出跨模态的对比学习来获得更好的特征表示。LTG既使用了视频的多模态信息，又利用了所有无标签样本，但是这种方法计算量很大且训练时间很长。

综上所述，目前半监督领域的视频分类技术存在以下问题：半监督图像分类方法FixMatch迁移到视频分类领域效果不佳；现有技术对视频中的运动信息挖掘不足，引入监督信号过少，模型训练效率低下以及学习到的特征判别性不足，这些均导致视频分类的准确率较低。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于近邻一致性和对比学习的半监督视频分类方法及系统，其基于教师-学生网络对视频进行分类，能够在仅有少量标注数据的情况下提高视频分类的准确性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于近邻一致性和对比学习的半监督视频分类方法。

一种基于近邻一致性和对比学习的半监督视频分类方法，其包括：

提取待分类视频样本的RGB帧图像；

基于RGB帧图像及训练好的教师网络，得到所有视频分类的预测分布，并将其中概率最大的类别作为分类结果；

其中，所述教师网络来源于教师-学生网络，教师-学生网络的训练过程为：

对于有标签视频样本，进行监督学习，得到监督学习损失；

对于无标签视频样本，进行伪标签学习，得到伪标签学习损失；

对于无法生成伪标签的无标签视频样本，进行近邻一致性学习，得到近邻一致性损失；

依据近邻视频样本信息，进行近邻对比学习，得到近邻对比损失；

根据整合在一起的监督学习损失、伪标签学习损失、近邻一致性损失和近邻对比损失，对教师-学生网络进行联合优化训练。

作为一种实施方式，在训练教师-学生网络的过程，还包括：

提取视频样本的RGB帧和TG帧，并进行强弱扩充。

上述技术方案的优点在于，引入RGB和TG两种模态，能够充分挖掘视频中的运动信息，从而提高基于教师-学生网络所构建的模型的准确性和鲁棒性。

作为一种实施方式，在训练教师-学生网络的过程中：

对于有标签视频样本，依据标签和弱扩充后样本的预测分布，最小化二者交叉熵。

作为一种实施方式，在训练教师-学生网络的过程中：

对于无标签视频样本，教师网络利用弱扩充后的RGB帧和TG帧生成高置信度的伪标签，并最小化伪标签和由学生网络得到的强扩充样本预测分布之间的交叉熵。

作为一种实施方式，在训练教师-学生网络的过程中：

对于无法生成伪标签的无标签样本，教师网络借助近邻信息生成高置信度的近邻标签，并最小化近邻标签和由学生网络得到的强扩充样本预测分布之间的KL散度。

上述技术方案的优点在于，针对监督信号过少的问题，提出利用近邻信息为无法生成高置信度伪标签的样本构造近邻标签，指导模型进行一致性学习，进而提升模型训练效率。

作为一种实施方式，在训练教师-学生网络的过程中：

依据近邻信息，将样本与其近邻样本构造正样本对，与非近邻样本构造负样本对，并利用对比学习，最小化正样本对之间的距离，最大化负样本对之间的距离。

上述技术方案的优点在于，针对特征表示判别性不足的问题，提出近邻对比损失，利用近邻信息构造正样本，以提升下游视频分类的准确率。

本发明的第二个方面提供一种基于近邻一致性和对比学习的半监督视频分类系统。

一种基于近邻一致性和对比学习的半监督视频分类系统，其包括：

RGB帧提取模块，其用于提取待分类视频样本的RGB帧图像；

视频分类模块，其用于基于RGB帧图像及训练好的教师网络，得到所有视频分类的预测分布，并将其中概率最大的类别作为分类结果；

对于有标签视频样本，进行监督学习，得到监督学习损失；

作为一种实施方式，在训练教师-学生网络的过程中：

提取视频样本的RGB帧和TG帧，并进行强弱扩充；

作为一种实施方式，在训练教师-学生网络的过程中：

提取视频样本的RGB帧和TG帧，并进行强弱扩充；

作为一种实施方式，在训练教师-学生网络的过程中：

与现有技术相比，本发明的有益效果是：

（1）本发明针对半监督图像分类方法FixMatch迁移到视频分类领域效果不佳的问题，提出基于近邻一致性学习和近邻对比学习的半监督视频分类方法；

（2）本发明为了充分挖掘视频中的运动信息，引入RGB和TG两种模态，并基于教师-学生网络构建模型，以提升模型的鲁棒性；

（3）本发明针对监督信号过少的问题，提出利用近邻信息为无法生成高置信度伪标签的样本构造近邻标签，指导模型进行一致性学习，进而提升模型训练效率；

（4）本发明针对特征表示判别性不足的问题，提出近邻对比损失，利用近邻信息构造正样本，以提升下游视频分类的准确率；

（5）本发明充分利用所有无标签样本，模型训练效率和分类准确率更高，样本特征更具有判别性，而且实现简单，迁移性强。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例中有标签样本的训练示意图。

图2是本发明实施例中无标签样本的训练示意图。

图3是本发明实施例中近邻一致性学习和近邻对比学习的过程示意图。

图4是本发明实施例中分类阶段示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种基于近邻一致性和对比学习的半监督视频分类方法，其包括：

步骤1：提取待分类视频样本的RGB帧图像；

步骤2：基于RGB帧图像及训练好的教师网络，得到所有视频分类的预测分布，并将其中概率最大的类别作为分类结果。

对于有标签视频样本，进行监督学习，得到监督学习损失；

本实施例中涉及到半监督视频分类。在半监督视频分类的设定中，只有少量的视频样本

是有标签的，绝大多数视频

都是没有标签的，每个视频样本都由若干帧构成。对于有标签视频样本集合

，

是第

个有标签视频样本，

是其对应的类别标签，

为有标签视频样本的数量。与之类似，对于无标签视频样本集合

，

是第

个无标签视频样本,

为无标签视频样本的数量且满足

。

本实施例共有两个阶段，分别为训练阶段和分类阶段。

在训练阶段，如图1所示，对于少量的有标签样本

，通过最小化真实标签

和预测分布之间的交叉熵来训练学生网络。如图2所示，对于大量的无标签样本

，为了获得更多的监督信号，我们利用教师网络分别生成高置信度的伪标签和近邻标签，进而探究伪标签和近邻标签与学生网络之间的一致性。另外，为了使得到的特征更具有判别性，利用近邻信息构造了近邻对比损失。最后我们将上述过程结合起来，联合优化整个教师-学生网络。

在分类阶段，如图4所示，利用训练好的教师-学生网络中的教师网络进行视频分类。

其中，在训练教师-学生网络的过程，还包括：

提取视频样本的RGB帧和TG帧，并进行强弱扩充。这样通过引入RGB和TG两种模态，能够充分挖掘视频中的运动信息，从而提高基于教师-学生网络所构建的模型的准确性和鲁棒性。

（1）监督学习

在训练教师-学生网络的过程中：

在训练初期，仅使用有标签视频样本对学生网络进行训练。为了充分学习视频中的运动信息，引入了TG模态。TG中蕴含了大量的时序、运动信息，能够很好地弥补RGB中运动信息不足的缺点。我们首先抽取有标签视频样本

的RGB帧和TG帧，分别表示为

。我们对

和

进行弱时空增强

（即使用更多的帧，更小的噪音来增强数据），然后分别通过学生编码器

和分类层

得到预测分布，并最小化其与样本标签

之间的交叉熵，如下式：

其中

表示函数复合操作，

为交叉熵函数，

表示每个批次中的有标签样本数量，

为学生网络的参数。

（2）伪标签学习

其中，在训练教师-学生网络的过程中：

为了充分利用大量无标签视频样本，我们沿用FixMatch的做法，为每个无标签视频样本生成高置信度的伪标签。如图2所示，对于每一个无标签视频样本

，我们同样先抽取RGB帧

和TG帧

，教师网络利用

和

之间的互补信息以构造高置信度的伪标签并指导学生网络的训练。具体来说，我们首先将

和

分别经过弱时空增强

，然后通过教师网络得到预测分布。若二者预测分布的均值

中的最大的类别概率超过了事先所设定的阈值

，就将该类别作为

的伪标签

，即：

其中

为教师编码器和分类层，

能够挑选出预测分布

中概率最大的类别。对于教师网络我们采用动量更新的形式进行更新，如下式：

其中

为教师网络的参数，

是动量因子。采用动量更新可以为样本提供额外的数据增强，并鼓励教师网络记住以前所学习到的知识，从而可以加强整个模型的鲁棒性。最终伪标签学习只需要优化如下损失：

其中

为指示函数，

为一个批次中无标签样本数量和有标签样本数量的比例。

表示强时空增强，即使用更少的帧、更强的噪音来增强数据。

（3）近邻一致性学习

其中，在训练教师-学生网络的过程中：

对于无法生成伪标签的无标签样本，教师网络借助近邻信息生成高置信度的近邻标签，并最小化近邻标签和由学生网络得到的强扩充样本预测分布之间的KL散度。这样能够引入更多的监督信号，进而提升模型的训练效率。

当无标签样本的预测分布的最大概率超过所设定的阈值，模型将进行伪标签学习，若没有超过设定的阈值，模型将抛弃此无标签样本，所以每个批次中只有一部分的无标签样本被利用。而没有超过阈值的样本已经进行了前向传播，这不仅会造成计算浪费，也会导致整个模型的监督信号过少，从而使得训练非常的耗时、模型不鲁棒且特征缺少判别性。为了充分利用每个批次中的所有无标签样本，我们提出近邻一致性学习。对于无法产生高置信度伪标签的无标签样本，教师模型利用其近邻信息来生成高置信度的监督信号，我们称之为近邻标签，然后我们最大化近邻标签和学生网络预测分布之间的一致性。如图3所示，为了找到高置信度的近邻，我们将RGB和TG模态的

近邻的交集作为每个无标签样本的近邻，从而实现过滤噪声近邻的目标。相反，如果我们只直接使用一种模态的

近邻，那么模型就会过分关注外貌或边界运动信息，从而会降低所找到的近邻的置信度。具体来说，

和

经过弱时空增强

和教师编码器

编码得到特征

和

，我们分别寻找

和

在RGB特征队列和TG特征队列中的

近邻，并表示为：

其中

分别为RGB、TG特征队列中所存的无标签样本的历史特征。

是队列长度，

计算向量间的相似度，这里采用余弦相似度。二者的交集

将作为样本

的近邻指导学生网络的学习，即：

注意在计算

近邻之前，我们会先将

分别压入RGB、TG 特征队列中，所以二者的交集至少会存在一个，即样本本身。我们从预测分布队列中（保存了无标签样本的历史RGB预测分布和TG预测分布的均值

）取出交集

所对应的预测分布，并计算所有近邻预测分布的均值，即近邻中心:

与UDA类似，我们对

进行sharpen操作，以鼓励模型做出低熵预测，sharpen后的

作为近邻标签，引导样本向其近邻中心靠近。最终我们通过最小化KL散度来最大化近邻标签和预测分布之间的一致性：

（4）近邻对比学习

其中，在训练教师-学生网络的过程中：

依据近邻信息，将样本与其近邻样本构造正样本对，与非近邻样本构造负样本对，并利用对比学习，最小化正样本对之间的距离，最大化负样本对之间的距离，从而增强特征的判别性。

具有判别性的特征有利于生成更高质量的监督信号，从而提升下游分类任务的准确率。为了保证模型能学习到判别性高的特征，我们提出了新颖的近邻对比损失。与MoCoV2类似，我们先将浅层特征投影，根据投影后的深层特征计算对比损失。基于样本和样本的近邻所属类别应该相同的假设，我们将每个样本的近邻作为其正样本，非近邻样本作为负样本。通过利用近邻信息拓展正样本，我们将原本实例层级的对比学习拓展到类别层级。具体来说，通过学生网络我们得到特征

和

。如图3所示，对于特征

，其正样本不仅包括RGB投影特征队列中交集

所对应的近邻，还包括TG投影特征队列中交集

所对应的近邻，而这两个队列中的非近邻样本将作为负样本，

也是如此。我们构造近邻对比损失最小化正样本对之间的距离，最大化负样本对之间的距离：

其中

和

分别为RGB 、TG投影特征队列中保存的投影后的历史特征。

衡量向量

之间的距离，

为温度系数。

将上述监督学习损失、伪标签学习损失、近邻一致性损失和近邻对比损失整合到一起，对整个教师-学生网络进行联合优化训练。最终训练阶段的目标函数如下：

其中

，

和

均为常数来平衡不同优化项的贡献。

当模型训练完成，我们就可以进行视频分类了。如图4所示，给定一个视频样本

，将其对应的RGB帧

输入到教师网络，输出该样本的预测分布，预测分布中概率最大的类别

就是最终的分类结果，即：

如表1、表2所示，在不同数据集上对比了本发明方法与当前最新的半监督方法的准确率，可以看到在所有数据集不同有标签数据比例的设定下，本发明的准确率都高于其他半监督方法。

表1 本发明方法与最新半监督图像分类方法的对比

其中，在表1中：

S4L是Self-Supervised Semi-Supervised Learning的缩写，即将半监督学习和自监督学习结合起来的一种学习方式。

MixMatch是谷歌研发的一种新型半监督学习算法MixMatch，该算法引入了单个损失项，很好地将上述主流方法统一到半监督学习中。

FixMatch是Google Brain的Sohn等人最近开发的一种半监督方法，它改善了半监督学习（SSL）的技术水平。它是对之前的方法（例如UDA和ReMixMatch）的简单组合。

表2 本发明方法与最新半监督视频分类方法的对比

其中，在表2中：

TCL：Semi-SupervisedActionRecognitionwithTemporalContrastiveLearning的简称，该算法首次将半监督学习与时序间的对比学习相结合。

MvPL是Facebook人工智能实验室研发的一种半监督视频分类算法，该算法将视频的多模态特性与伪标签技术相结合，提升了半监督视频分类的准确率。

LTG是LearningfromTemporalGradientforSemi-SupervisedActionRecognition的简称，是近期新提出的一种基于知识蒸馏的半监督视频分类算法，它将知识蒸馏的思想应用到视频的不同模态间，进一步改善了视频分类的效果。

实施例二

本实施例提供了一种基于近邻一致性和对比学习的半监督视频分类系统，其包括：

（1）RGB帧提取模块，其用于提取待分类视频样本的RGB帧图像；

（2）视频分类模块，其用于基于RGB帧图像及训练好的教师网络，得到所有视频分类的预测分布，并将其中概率最大的类别作为分类结果；

对于有标签视频样本，进行监督学习，得到监督学习损失；

具体地，在训练教师-学生网络的过程中：

提取视频样本的RGB帧和TG帧，并进行强弱扩充；

具体地，在训练教师-学生网络的过程中：

提取视频样本的RGB帧和TG帧，并进行强弱扩充；

具体地，在训练教师-学生网络的过程中：

其中，在训练教师-学生网络的过程中：

在训练教师-学生网络的过程中：

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

在其他一些实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于近邻一致性和对比学习的半监督视频分类方法中的步骤。

在其他一些实施例中，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于近邻一致性和对比学习的半监督视频分类方法中的步骤。

本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于近邻一致性和对比学习的半监督视频分类方法，其特征在于，包括：

提取待分类视频样本的RGB帧图像；

对于有标签视频样本，进行监督学习，得到监督学习损失；

2.如权利要求1所述的基于近邻一致性和对比学习的半监督视频分类方法，其特征在于，在训练教师-学生网络的过程，还包括：

提取视频样本的RGB帧和TG帧，并进行强弱扩充。

3.如权利要求2所述的基于近邻一致性和对比学习的半监督视频分类方法，其特征在于，在训练教师-学生网络的过程中：

4.如权利要求2所述的基于近邻一致性和对比学习的半监督视频分类方法，其特征在于，在训练教师-学生网络的过程中：

5.如权利要求2所述的基于近邻一致性和对比学习的半监督视频分类方法，其特征在于，在训练教师-学生网络的过程中：

6.如权利要求1或2所述的基于近邻一致性和对比学习的半监督视频分类方法，其特征在于，在训练教师-学生网络的过程中：

7.一种基于近邻一致性和对比学习的半监督视频分类系统，其特征在于，包括：

RGB帧提取模块，其用于提取待分类视频样本的RGB帧图像；

对于有标签视频样本，进行监督学习，得到监督学习损失；

8.如权利要求7所述的基于近邻一致性和对比学习的半监督视频分类系统，其特征在于，在训练教师-学生网络的过程中：

提取视频样本的RGB帧和TG帧，并进行强弱扩充；

9.如权利要求8所述的基于近邻一致性和对比学习的半监督视频分类系统，其特征在于，在训练教师-学生网络的过程中：

10.如权利要求8所述的基于近邻一致性和对比学习的半监督视频分类系统，其特征在于，在训练教师-学生网络的过程中：