CN115311605A - 基于近邻一致性和对比学习的半监督视频分类方法及系统 - Google Patents

基于近邻一致性和对比学习的半监督视频分类方法及系统 Download PDF

Info

Publication number
CN115311605A
CN115311605A CN202211195726.6A CN202211195726A CN115311605A CN 115311605 A CN115311605 A CN 115311605A CN 202211195726 A CN202211195726 A CN 202211195726A CN 115311605 A CN115311605 A CN 115311605A
Authority
CN
China
Prior art keywords
neighbor
video
teacher
learning
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211195726.6A
Other languages
English (en)
Other versions
CN115311605B (zh
Inventor
吴建龙
孙玮
聂礼强
甘甜
李潇婕
丁宁
姜飞俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Maojing Artificial Intelligence Technology Co ltd
Shandong University
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Zhejiang Maojing Artificial Intelligence Technology Co ltd
Shandong University
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Maojing Artificial Intelligence Technology Co ltd, Shandong University, Shenzhen Graduate School Harbin Institute of Technology filed Critical Zhejiang Maojing Artificial Intelligence Technology Co ltd
Priority to CN202211195726.6A priority Critical patent/CN115311605B/zh
Publication of CN115311605A publication Critical patent/CN115311605A/zh
Application granted granted Critical
Publication of CN115311605B publication Critical patent/CN115311605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本发明属于计算机视觉视频分类领域,为了解决现有技术对视频中的运动信息挖掘不足,引入监督信号过少,模型训练效率低下以及学习到的特征判别性不足,这些均导致视频分类的准确率较低的问题,提供基于近邻一致性和对比学习的半监督视频分类方法及系统。其中基于近邻一致性和对比学习的半监督视频分类方法包括提取待分类视频样本的RGB帧图像;基于RGB帧图像及训练好的教师网络,得到所有视频分类的预测分布,将概率最大的类别作为分类结果;其基于教师‑学生网络对视频进行分类,能够在仅有少量标注数据的情况下提高视频分类的准确性。

Description

基于近邻一致性和对比学习的半监督视频分类方法及系统
技术领域
本发明属于计算机视觉视频分类领域,尤其涉及一种基于近邻一致性和对比学习的半监督视频分类方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
监督学习需要大量的有标签数据,而获取全部数据的标签往往需要耗费大量的人工、时间、成本等,这便为监督学习及其实际应用带来很多不便。相比较而言,无标签数据的获取要容易得多,而若仅仅依靠无标签数据训练模型即无监督学习,模型很难取得优异的表现。基于上述两点,半监督学习逐渐受到研究者们的关注。半监督学习从大量无标签数据中提取有价值的隐藏信息,只需结合少量标签数据来训练模型,大大减少了标注数据的成本投入,同时也进一步改善了无监督学习效果不佳的现象。目前半监督学习在图像分类领域已经有很多效果出色的半监督分类方法,有一些甚至已经超过了现有的监督学习方法,但是在视频分类领域却表现欠佳。
视频分类任务相较于图像分类任务来说更难。一方面,视频分类处理的数据是视频,视频中不仅包含图像的外貌信息,还包含了帧与帧之间运动关系,这种动态的运动关系加大了视频分类的难度。另一方面,标注视频的类别标签相较于标注图像的类别标签来说,更加费时、费力。
FixMatch是半监督图像分类领域非常常用且具有高准确率的方法,但是若将FixMatch直接迁移到视频分类中去,得到的效果却并不好。导致这种现象的原因主要有两点,第一是因为FixMatch只能关注到RGB图像中的外貌信息,忽略了视频中的运动信息,而运动信息恰恰是视频正确分类的关键。第二个原因是FixMatch只对能够生成高置信度伪标签的样本进行伪标签学习,而对于无法生成高置信度伪标签的样本将会采取丢弃策略,这会导致监督信号不足、训练效率低下和特征判别性不足。
近期针对半监督视频分类的方法被提出,试图来解决FixMatch迁移效果不好的问题。TCL通过实例间对比损失最大化同一视频不同速度之间的一致性,并引入了组间对比损失来学习高层的语义信息。TCL虽然使用了所有无标签样本,但是只考虑了视频的RGB模态,对运动信息的挖掘不足。MvPL利用视频的多种模态信息如RGB、temporal gradient(TG)和光流等构造高置信度的伪标签,从而指导模型训练。MvPL利用了多模态学到了更多的运动信息,但是与FixMatch一致,丢弃了无法生成高置信度伪标签的样本,训练效率仍然不高。LTG提出利用知识蒸馏的方法,从TG模型中提取运动信息,并指导RGB模型学习。同时提出跨模态的对比学习来获得更好的特征表示。LTG既使用了视频的多模态信息,又利用了所有无标签样本,但是这种方法计算量很大且训练时间很长。
综上所述,目前半监督领域的视频分类技术存在以下问题:半监督图像分类方法FixMatch迁移到视频分类领域效果不佳;现有技术对视频中的运动信息挖掘不足,引入监督信号过少,模型训练效率低下以及学习到的特征判别性不足,这些均导致视频分类的准确率较低。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于近邻一致性和对比学习的半监督视频分类方法及系统,其基于教师-学生网络对视频进行分类,能够在仅有少量标注数据的情况下提高视频分类的准确性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于近邻一致性和对比学习的半监督视频分类方法。
一种基于近邻一致性和对比学习的半监督视频分类方法,其包括:
提取待分类视频样本的RGB帧图像;
基于RGB帧图像及训练好的教师网络,得到所有视频分类的预测分布,并将其中概率最大的类别作为分类结果;
其中,所述教师网络来源于教师-学生网络,教师-学生网络的训练过程为:
对于有标签视频样本,进行监督学习,得到监督学习损失;
对于无标签视频样本,进行伪标签学习,得到伪标签学习损失;
对于无法生成伪标签的无标签视频样本,进行近邻一致性学习,得到近邻一致性损失;
依据近邻视频样本信息,进行近邻对比学习,得到近邻对比损失;
根据整合在一起的监督学习损失、伪标签学习损失、近邻一致性损失和近邻对比损失,对教师-学生网络进行联合优化训练。
作为一种实施方式,在训练教师-学生网络的过程,还包括:
提取视频样本的RGB帧和TG帧,并进行强弱扩充。
上述技术方案的优点在于,引入RGB和TG两种模态,能够充分挖掘视频中的运动信息,从而提高基于教师-学生网络所构建的模型的准确性和鲁棒性。
作为一种实施方式,在训练教师-学生网络的过程中:
对于有标签视频样本,依据标签和弱扩充后样本的预测分布,最小化二者交叉熵。
作为一种实施方式,在训练教师-学生网络的过程中:
对于无标签视频样本,教师网络利用弱扩充后的RGB帧和TG帧生成高置信度的伪标签,并最小化伪标签和由学生网络得到的强扩充样本预测分布之间的交叉熵。
作为一种实施方式,在训练教师-学生网络的过程中:
对于无法生成伪标签的无标签样本,教师网络借助近邻信息生成高置信度的近邻标签,并最小化近邻标签和由学生网络得到的强扩充样本预测分布之间的KL散度。
上述技术方案的优点在于,针对监督信号过少的问题,提出利用近邻信息为无法生成高置信度伪标签的样本构造近邻标签,指导模型进行一致性学习,进而提升模型训练效率。
作为一种实施方式,在训练教师-学生网络的过程中:
依据近邻信息,将样本与其近邻样本构造正样本对,与非近邻样本构造负样本对,并利用对比学习,最小化正样本对之间的距离,最大化负样本对之间的距离。
上述技术方案的优点在于,针对特征表示判别性不足的问题,提出近邻对比损失,利用近邻信息构造正样本,以提升下游视频分类的准确率。
本发明的第二个方面提供一种基于近邻一致性和对比学习的半监督视频分类系统。
一种基于近邻一致性和对比学习的半监督视频分类系统,其包括:
RGB帧提取模块,其用于提取待分类视频样本的RGB帧图像;
视频分类模块,其用于基于RGB帧图像及训练好的教师网络,得到所有视频分类的预测分布,并将其中概率最大的类别作为分类结果;
其中,所述教师网络来源于教师-学生网络,教师-学生网络的训练过程为:
对于有标签视频样本,进行监督学习,得到监督学习损失;
对于无标签视频样本,进行伪标签学习,得到伪标签学习损失;
对于无法生成伪标签的无标签视频样本,进行近邻一致性学习,得到近邻一致性损失;
依据近邻视频样本信息,进行近邻对比学习,得到近邻对比损失;
根据整合在一起的监督学习损失、伪标签学习损失、近邻一致性损失和近邻对比损失,对教师-学生网络进行联合优化训练。
作为一种实施方式,在训练教师-学生网络的过程中:
提取视频样本的RGB帧和TG帧,并进行强弱扩充;
对于有标签视频样本,依据标签和弱扩充后样本的预测分布,最小化二者交叉熵。
作为一种实施方式,在训练教师-学生网络的过程中:
提取视频样本的RGB帧和TG帧,并进行强弱扩充;
对于无标签视频样本,教师网络利用弱扩充后的RGB帧和TG帧生成高置信度的伪标签,并最小化伪标签和由学生网络得到的强扩充样本预测分布之间的交叉熵。
作为一种实施方式,在训练教师-学生网络的过程中:
对于无法生成伪标签的无标签样本,教师网络借助近邻信息生成高置信度的近邻标签,并最小化近邻标签和由学生网络得到的强扩充样本预测分布之间的KL散度。
作为一种实施方式,在训练教师-学生网络的过程中:
依据近邻信息,将样本与其近邻样本构造正样本对,与非近邻样本构造负样本对,并利用对比学习,最小化正样本对之间的距离,最大化负样本对之间的距离。
作为一种实施方式,在训练教师-学生网络的过程中:
对于无标签视频样本,教师网络利用弱扩充后的RGB帧和TG帧生成高置信度的伪标签,并最小化伪标签和由学生网络得到的强扩充样本预测分布之间的交叉熵。
作为一种实施方式,在训练教师-学生网络的过程中:
对于无法生成伪标签的无标签样本,教师网络借助近邻信息生成高置信度的近邻标签,并最小化近邻标签和由学生网络得到的强扩充样本预测分布之间的KL散度。
与现有技术相比,本发明的有益效果是:
(1)本发明针对半监督图像分类方法FixMatch迁移到视频分类领域效果不佳的问题,提出基于近邻一致性学习和近邻对比学习的半监督视频分类方法;
(2)本发明为了充分挖掘视频中的运动信息,引入RGB和TG两种模态,并基于教师-学生网络构建模型,以提升模型的鲁棒性;
(3)本发明针对监督信号过少的问题,提出利用近邻信息为无法生成高置信度伪标签的样本构造近邻标签,指导模型进行一致性学习,进而提升模型训练效率;
(4)本发明针对特征表示判别性不足的问题,提出近邻对比损失,利用近邻信息构造正样本,以提升下游视频分类的准确率;
(5)本发明充分利用所有无标签样本,模型训练效率和分类准确率更高,样本特征更具有判别性,而且实现简单,迁移性强。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例中有标签样本的训练示意图。
图2是本发明实施例中无标签样本的训练示意图。
图3是本发明实施例中近邻一致性学习和近邻对比学习的过程示意图。
图4是本发明实施例中分类阶段示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例提供了一种基于近邻一致性和对比学习的半监督视频分类方法,其包括:
步骤1:提取待分类视频样本的RGB帧图像;
步骤2:基于RGB帧图像及训练好的教师网络,得到所有视频分类的预测分布,并将其中概率最大的类别作为分类结果。
其中,所述教师网络来源于教师-学生网络,教师-学生网络的训练过程为:
对于有标签视频样本,进行监督学习,得到监督学习损失;
对于无标签视频样本,进行伪标签学习,得到伪标签学习损失;
对于无法生成伪标签的无标签视频样本,进行近邻一致性学习,得到近邻一致性损失;
依据近邻视频样本信息,进行近邻对比学习,得到近邻对比损失;
根据整合在一起的监督学习损失、伪标签学习损失、近邻一致性损失和近邻对比损失,对教师-学生网络进行联合优化训练。
本实施例中涉及到半监督视频分类。在半监督视频分类的设定中,只有少量的视频样本
Figure DEST_PATH_IMAGE001
是有标签的,绝大多数视频
Figure 9439DEST_PATH_IMAGE002
都是没有标签的,每个视频样本都由若干帧构成。对于有标签视频样本集合
Figure DEST_PATH_IMAGE003
Figure 385056DEST_PATH_IMAGE004
是第
Figure DEST_PATH_IMAGE005
个有标签视频样本,
Figure 212198DEST_PATH_IMAGE006
是其对应的类别标签,
Figure DEST_PATH_IMAGE007
为有标签视频样本的数量。与之类似,对于无标签视频样本集合
Figure 882171DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
是第
Figure 198882DEST_PATH_IMAGE005
个无标签视频样本,
Figure 124113DEST_PATH_IMAGE010
为无标签视频样本的数量且满足
Figure DEST_PATH_IMAGE011
本实施例共有两个阶段,分别为训练阶段和分类阶段。
在训练阶段,如图1所示,对于少量的有标签样本
Figure 223787DEST_PATH_IMAGE001
,通过最小化真实标签
Figure 285284DEST_PATH_IMAGE006
和预测分布之间的交叉熵来训练学生网络。如图2所示,对于大量的无标签样本
Figure 507318DEST_PATH_IMAGE002
,为了获得更多的监督信号,我们利用教师网络分别生成高置信度的伪标签和近邻标签,进而探究伪标签和近邻标签与学生网络之间的一致性。另外,为了使得到的特征更具有判别性,利用近邻信息构造了近邻对比损失。最后我们将上述过程结合起来,联合优化整个教师-学生网络。
在分类阶段,如图4所示,利用训练好的教师-学生网络中的教师网络进行视频分类。
其中,在训练教师-学生网络的过程,还包括:
提取视频样本的RGB帧和TG帧,并进行强弱扩充。这样通过引入RGB和TG两种模态,能够充分挖掘视频中的运动信息,从而提高基于教师-学生网络所构建的模型的准确性和鲁棒性。
(1)监督学习
在训练教师-学生网络的过程中:
对于有标签视频样本,依据标签和弱扩充后样本的预测分布,最小化二者交叉熵。
在训练初期,仅使用有标签视频样本对学生网络进行训练。为了充分学习视频中的运动信息,引入了TG模态。TG中蕴含了大量的时序、运动信息,能够很好地弥补RGB中运动信息不足的缺点。我们首先抽取有标签视频样本
Figure 857528DEST_PATH_IMAGE004
的RGB帧和TG帧,分别表示为
Figure 823210DEST_PATH_IMAGE012
。我们对
Figure DEST_PATH_IMAGE013
Figure 942476DEST_PATH_IMAGE014
进行弱时空增强
Figure DEST_PATH_IMAGE015
(即使用更多的帧,更小的噪音来增强数据),然后分别通过学生编码器
Figure 69832DEST_PATH_IMAGE016
和分类层
Figure DEST_PATH_IMAGE017
得到预测分布,并最小化其与样本标签
Figure 969655DEST_PATH_IMAGE006
之间的交叉熵,如下式:
Figure 473448DEST_PATH_IMAGE018
其中
Figure DEST_PATH_IMAGE019
表示函数复合操作,
Figure 712800DEST_PATH_IMAGE020
为交叉熵函数,
Figure DEST_PATH_IMAGE021
表示每个批次中的有标签样本数量,
Figure 11057DEST_PATH_IMAGE022
为学生网络的参数。
(2)伪标签学习
其中,在训练教师-学生网络的过程中:
对于无标签视频样本,教师网络利用弱扩充后的RGB帧和TG帧生成高置信度的伪标签,并最小化伪标签和由学生网络得到的强扩充样本预测分布之间的交叉熵。
为了充分利用大量无标签视频样本,我们沿用FixMatch的做法,为每个无标签视频样本生成高置信度的伪标签。如图2所示,对于每一个无标签视频样本
Figure DEST_PATH_IMAGE023
,我们同样先抽取RGB帧
Figure 398176DEST_PATH_IMAGE024
和TG帧
Figure DEST_PATH_IMAGE025
,教师网络利用
Figure 440081DEST_PATH_IMAGE024
Figure 533939DEST_PATH_IMAGE025
之间的互补信息以构造高置信度的伪标签并指导学生网络的训练。具体来说,我们首先将
Figure 330994DEST_PATH_IMAGE024
Figure 877513DEST_PATH_IMAGE025
分别经过弱时空增强
Figure 51005DEST_PATH_IMAGE015
,然后通过教师网络得到预测分布。若二者预测分布的均值
Figure 61687DEST_PATH_IMAGE026
中的最大的类别概率超过了事先所设定的阈值
Figure DEST_PATH_IMAGE027
,就将该类别作为
Figure 967326DEST_PATH_IMAGE023
的伪标签
Figure 995282DEST_PATH_IMAGE028
,即:
Figure DEST_PATH_IMAGE029
Figure 706886DEST_PATH_IMAGE030
其中
Figure DEST_PATH_IMAGE031
为教师编码器和分类层,
Figure 509757DEST_PATH_IMAGE032
能够挑选出预测分布
Figure DEST_PATH_IMAGE033
中概率最大的类别。对于教师网络我们采用动量更新的形式进行更新,如下式:
Figure 586297DEST_PATH_IMAGE034
其中
Figure DEST_PATH_IMAGE035
为教师网络的参数,
Figure 107408DEST_PATH_IMAGE036
是动量因子。采用动量更新可以为样本提供额外的数据增强,并鼓励教师网络记住以前所学习到的知识,从而可以加强整个模型的鲁棒性。最终伪标签学习只需要优化如下损失:
Figure DEST_PATH_IMAGE037
其中
Figure 294807DEST_PATH_IMAGE038
为指示函数,
Figure DEST_PATH_IMAGE039
为一个批次中无标签样本数量和有标签样本数量的比例。
Figure 217764DEST_PATH_IMAGE040
表示强时空增强,即使用更少的帧、更强的噪音来增强数据。
(3)近邻一致性学习
其中,在训练教师-学生网络的过程中:
对于无法生成伪标签的无标签样本,教师网络借助近邻信息生成高置信度的近邻标签,并最小化近邻标签和由学生网络得到的强扩充样本预测分布之间的KL散度。这样能够引入更多的监督信号,进而提升模型的训练效率。
当无标签样本的预测分布的最大概率超过所设定的阈值,模型将进行伪标签学习,若没有超过设定的阈值,模型将抛弃此无标签样本,所以每个批次中只有一部分的无标签样本被利用。而没有超过阈值的样本已经进行了前向传播,这不仅会造成计算浪费,也会导致整个模型的监督信号过少,从而使得训练非常的耗时、模型不鲁棒且特征缺少判别性。为了充分利用每个批次中的所有无标签样本,我们提出近邻一致性学习。对于无法产生高置信度伪标签的无标签样本,教师模型利用其近邻信息来生成高置信度的监督信号,我们称之为近邻标签,然后我们最大化近邻标签和学生网络预测分布之间的一致性。如图3所示,为了找到高置信度的近邻,我们将RGB和TG模态的
Figure DEST_PATH_IMAGE041
近邻的交集作为每个无标签样本的近邻,从而实现过滤噪声近邻的目标。相反,如果我们只直接使用一种模态的
Figure 527522DEST_PATH_IMAGE041
近邻,那么模型就会过分关注外貌或边界运动信息,从而会降低所找到的近邻的置信度。具体来说,
Figure 535930DEST_PATH_IMAGE024
Figure 589336DEST_PATH_IMAGE025
经过弱时空增强
Figure 366799DEST_PATH_IMAGE015
和教师编码器
Figure 253984DEST_PATH_IMAGE042
编码得到特征
Figure DEST_PATH_IMAGE043
Figure 890633DEST_PATH_IMAGE044
,我们分别寻找
Figure 747730DEST_PATH_IMAGE043
Figure 379700DEST_PATH_IMAGE044
在RGB特征队列和TG特征队列中的
Figure 31261DEST_PATH_IMAGE041
近邻,并表示为:
Figure DEST_PATH_IMAGE045
Figure 14261DEST_PATH_IMAGE046
其中
Figure DEST_PATH_IMAGE047
分别为RGB、TG特征队列中所存的无标签样本的历史特征。
Figure 347153DEST_PATH_IMAGE048
是队列长度,
Figure DEST_PATH_IMAGE049
计算向量间的相似度,这里采用余弦相似度。二者的交集
Figure 833629DEST_PATH_IMAGE050
将作为样本
Figure DEST_PATH_IMAGE051
的近邻指导学生网络的学习,即:
Figure 876932DEST_PATH_IMAGE052
注意在计算
Figure 143965DEST_PATH_IMAGE041
近邻之前,我们会先将
Figure 280549DEST_PATH_IMAGE047
分别压入RGB、TG 特征队列中,所以二者的交集至少会存在一个,即样本本身。我们从预测分布队列中(保存了无标签样本的历史RGB预测分布和TG预测分布的均值
Figure DEST_PATH_IMAGE053
)取出交集
Figure 683848DEST_PATH_IMAGE050
所对应的预测分布,并计算所有近邻预测分布的均值,即近邻中心:
Figure 880474DEST_PATH_IMAGE054
与UDA类似,我们对
Figure DEST_PATH_IMAGE055
进行sharpen操作,以鼓励模型做出低熵预测,sharpen后的
Figure 572487DEST_PATH_IMAGE055
作为近邻标签,引导样本向其近邻中心靠近。最终我们通过最小化KL散度来最大化近邻标签和预测分布之间的一致性:
Figure 309499DEST_PATH_IMAGE056
(4)近邻对比学习
其中,在训练教师-学生网络的过程中:
依据近邻信息,将样本与其近邻样本构造正样本对,与非近邻样本构造负样本对,并利用对比学习,最小化正样本对之间的距离,最大化负样本对之间的距离,从而增强特征的判别性。
具有判别性的特征有利于生成更高质量的监督信号,从而提升下游分类任务的准确率。为了保证模型能学习到判别性高的特征,我们提出了新颖的近邻对比损失。与MoCoV2类似,我们先将浅层特征投影,根据投影后的深层特征计算对比损失。基于样本和样本的近邻所属类别应该相同的假设,我们将每个样本的近邻作为其正样本,非近邻样本作为负样本。通过利用近邻信息拓展正样本,我们将原本实例层级的对比学习拓展到类别层级。具体来说,通过学生网络我们得到特征
Figure DEST_PATH_IMAGE057
Figure 770567DEST_PATH_IMAGE058
。如图3所示,对于特征
Figure DEST_PATH_IMAGE059
,其正样本不仅包括RGB投影特征队列中交集
Figure 138094DEST_PATH_IMAGE050
所对应的近邻,还包括TG投影特征队列中交集
Figure 114141DEST_PATH_IMAGE050
所对应的近邻,而这两个队列中的非近邻样本将作为负样本,
Figure 326947DEST_PATH_IMAGE060
也是如此。我们构造近邻对比损失最小化正样本对之间的距离,最大化负样本对之间的距离:
Figure DEST_PATH_IMAGE061
其中
Figure 173680DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE063
分别为RGB 、TG投影特征队列中保存的投影后的历史特征。
Figure 508847DEST_PATH_IMAGE064
衡量向量
Figure DEST_PATH_IMAGE065
之间的距离,
Figure 175452DEST_PATH_IMAGE066
为温度系数。
将上述监督学习损失、伪标签学习损失、近邻一致性损失和近邻对比损失整合到一起,对整个教师-学生网络进行联合优化训练。最终训练阶段的目标函数如下:
Figure DEST_PATH_IMAGE067
其中
Figure 191949DEST_PATH_IMAGE068
Figure DEST_PATH_IMAGE069
Figure 627610DEST_PATH_IMAGE070
均为常数来平衡不同优化项的贡献。
当模型训练完成,我们就可以进行视频分类了。如图4所示,给定一个视频样本
Figure DEST_PATH_IMAGE071
,将其对应的RGB帧
Figure 71360DEST_PATH_IMAGE072
输入到教师网络,输出该样本的预测分布,预测分布中概率最大的类别
Figure DEST_PATH_IMAGE073
就是最终的分类结果,即:
Figure 225261DEST_PATH_IMAGE074
如表1、表2所示,在不同数据集上对比了本发明方法与当前最新的半监督方法的准确率,可以看到在所有数据集不同有标签数据比例的设定下,本发明的准确率都高于其他半监督方法。
表1 本发明方法与最新半监督图像分类方法的对比
Figure DEST_PATH_IMAGE075
其中,在表1中:
S4L是Self-Supervised Semi-Supervised Learning的缩写,即将半监督学习和自监督学习结合起来的一种学习方式。
MixMatch是谷歌研发的一种新型半监督学习算法MixMatch,该算法引入了单个损失项,很好地将上述主流方法统一到半监督学习中。
FixMatch是Google Brain的Sohn等人最近开发的一种半监督方法,它改善了半监督学习(SSL)的技术水平。它是对之前的方法(例如UDA和ReMixMatch)的简单组合。
表2 本发明方法与最新半监督视频分类方法的对比
Figure 45450DEST_PATH_IMAGE076
其中,在表2中:
TCL:Semi-SupervisedActionRecognitionwithTemporalContrastiveLearning的简称,该算法首次将半监督学习与时序间的对比学习相结合。
MvPL是Facebook人工智能实验室研发的一种半监督视频分类算法,该算法将视频的多模态特性与伪标签技术相结合,提升了半监督视频分类的准确率。
LTG是LearningfromTemporalGradientforSemi-SupervisedActionRecognition的简称,是近期新提出的一种基于知识蒸馏的半监督视频分类算法,它将知识蒸馏的思想应用到视频的不同模态间,进一步改善了视频分类的效果。
实施例二
本实施例提供了一种基于近邻一致性和对比学习的半监督视频分类系统,其包括:
(1)RGB帧提取模块,其用于提取待分类视频样本的RGB帧图像;
(2)视频分类模块,其用于基于RGB帧图像及训练好的教师网络,得到所有视频分类的预测分布,并将其中概率最大的类别作为分类结果;
其中,所述教师网络来源于教师-学生网络,教师-学生网络的训练过程为:
对于有标签视频样本,进行监督学习,得到监督学习损失;
对于无标签视频样本,进行伪标签学习,得到伪标签学习损失;
对于无法生成伪标签的无标签视频样本,进行近邻一致性学习,得到近邻一致性损失;
依据近邻视频样本信息,进行近邻对比学习,得到近邻对比损失;
根据整合在一起的监督学习损失、伪标签学习损失、近邻一致性损失和近邻对比损失,对教师-学生网络进行联合优化训练。
具体地,在训练教师-学生网络的过程中:
提取视频样本的RGB帧和TG帧,并进行强弱扩充;
对于有标签视频样本,依据标签和弱扩充后样本的预测分布,最小化二者交叉熵。
具体地,在训练教师-学生网络的过程中:
提取视频样本的RGB帧和TG帧,并进行强弱扩充;
对于无标签视频样本,教师网络利用弱扩充后的RGB帧和TG帧生成高置信度的伪标签,并最小化伪标签和由学生网络得到的强扩充样本预测分布之间的交叉熵。
具体地,在训练教师-学生网络的过程中:
对于无法生成伪标签的无标签样本,教师网络借助近邻信息生成高置信度的近邻标签,并最小化近邻标签和由学生网络得到的强扩充样本预测分布之间的KL散度。
具体地,在训练教师-学生网络的过程中:
依据近邻信息,将样本与其近邻样本构造正样本对,与非近邻样本构造负样本对,并利用对比学习,最小化正样本对之间的距离,最大化负样本对之间的距离。
其中,在训练教师-学生网络的过程中:
对于无标签视频样本,教师网络利用弱扩充后的RGB帧和TG帧生成高置信度的伪标签,并最小化伪标签和由学生网络得到的强扩充样本预测分布之间的交叉熵。
在训练教师-学生网络的过程中:
对于无法生成伪标签的无标签样本,教师网络借助近邻信息生成高置信度的近邻标签,并最小化近邻标签和由学生网络得到的强扩充样本预测分布之间的KL散度。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
在其他一些实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于近邻一致性和对比学习的半监督视频分类方法中的步骤。
在其他一些实施例中,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于近邻一致性和对比学习的半监督视频分类方法中的步骤。
本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于近邻一致性和对比学习的半监督视频分类方法,其特征在于,包括:
提取待分类视频样本的RGB帧图像;
基于RGB帧图像及训练好的教师网络,得到所有视频分类的预测分布,并将其中概率最大的类别作为分类结果;
其中,所述教师网络来源于教师-学生网络,教师-学生网络的训练过程为:
对于有标签视频样本,进行监督学习,得到监督学习损失;
对于无标签视频样本,进行伪标签学习,得到伪标签学习损失;
对于无法生成伪标签的无标签视频样本,进行近邻一致性学习,得到近邻一致性损失;
依据近邻视频样本信息,进行近邻对比学习,得到近邻对比损失;
根据整合在一起的监督学习损失、伪标签学习损失、近邻一致性损失和近邻对比损失,对教师-学生网络进行联合优化训练。
2.如权利要求1所述的基于近邻一致性和对比学习的半监督视频分类方法,其特征在于,在训练教师-学生网络的过程,还包括:
提取视频样本的RGB帧和TG帧,并进行强弱扩充。
3.如权利要求2所述的基于近邻一致性和对比学习的半监督视频分类方法,其特征在于,在训练教师-学生网络的过程中:
对于有标签视频样本,依据标签和弱扩充后样本的预测分布,最小化二者交叉熵。
4.如权利要求2所述的基于近邻一致性和对比学习的半监督视频分类方法,其特征在于,在训练教师-学生网络的过程中:
对于无标签视频样本,教师网络利用弱扩充后的RGB帧和TG帧生成高置信度的伪标签,并最小化伪标签和由学生网络得到的强扩充样本预测分布之间的交叉熵。
5.如权利要求2所述的基于近邻一致性和对比学习的半监督视频分类方法,其特征在于,在训练教师-学生网络的过程中:
对于无法生成伪标签的无标签样本,教师网络借助近邻信息生成高置信度的近邻标签,并最小化近邻标签和由学生网络得到的强扩充样本预测分布之间的KL散度。
6.如权利要求1或2所述的基于近邻一致性和对比学习的半监督视频分类方法,其特征在于,在训练教师-学生网络的过程中:
依据近邻信息,将样本与其近邻样本构造正样本对,与非近邻样本构造负样本对,并利用对比学习,最小化正样本对之间的距离,最大化负样本对之间的距离。
7.一种基于近邻一致性和对比学习的半监督视频分类系统,其特征在于,包括:
RGB帧提取模块,其用于提取待分类视频样本的RGB帧图像;
视频分类模块,其用于基于RGB帧图像及训练好的教师网络,得到所有视频分类的预测分布,并将其中概率最大的类别作为分类结果;
其中,所述教师网络来源于教师-学生网络,教师-学生网络的训练过程为:
对于有标签视频样本,进行监督学习,得到监督学习损失;
对于无标签视频样本,进行伪标签学习,得到伪标签学习损失;
对于无法生成伪标签的无标签视频样本,进行近邻一致性学习,得到近邻一致性损失;
依据近邻视频样本信息,进行近邻对比学习,得到近邻对比损失;
根据整合在一起的监督学习损失、伪标签学习损失、近邻一致性损失和近邻对比损失,对教师-学生网络进行联合优化训练。
8.如权利要求7所述的基于近邻一致性和对比学习的半监督视频分类系统,其特征在于,在训练教师-学生网络的过程中:
提取视频样本的RGB帧和TG帧,并进行强弱扩充;
对于有标签视频样本,依据标签和弱扩充后样本的预测分布,最小化二者交叉熵。
9.如权利要求8所述的基于近邻一致性和对比学习的半监督视频分类系统,其特征在于,在训练教师-学生网络的过程中:
对于无标签视频样本,教师网络利用弱扩充后的RGB帧和TG帧生成高置信度的伪标签,并最小化伪标签和由学生网络得到的强扩充样本预测分布之间的交叉熵。
10.如权利要求8所述的基于近邻一致性和对比学习的半监督视频分类系统,其特征在于,在训练教师-学生网络的过程中:
对于无法生成伪标签的无标签样本,教师网络借助近邻信息生成高置信度的近邻标签,并最小化近邻标签和由学生网络得到的强扩充样本预测分布之间的KL散度。
CN202211195726.6A 2022-09-29 2022-09-29 基于近邻一致性和对比学习的半监督视频分类方法及系统 Active CN115311605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211195726.6A CN115311605B (zh) 2022-09-29 2022-09-29 基于近邻一致性和对比学习的半监督视频分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211195726.6A CN115311605B (zh) 2022-09-29 2022-09-29 基于近邻一致性和对比学习的半监督视频分类方法及系统

Publications (2)

Publication Number Publication Date
CN115311605A true CN115311605A (zh) 2022-11-08
CN115311605B CN115311605B (zh) 2023-01-03

Family

ID=83865867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211195726.6A Active CN115311605B (zh) 2022-09-29 2022-09-29 基于近邻一致性和对比学习的半监督视频分类方法及系统

Country Status (1)

Country Link
CN (1) CN115311605B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681123A (zh) * 2023-07-31 2023-09-01 福思(杭州)智能科技有限公司 感知模型训练方法、装置、计算机设备和存储介质
CN117611957A (zh) * 2024-01-19 2024-02-27 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于统一正负伪标签的无监督视觉表征学习方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190012581A1 (en) * 2017-07-06 2019-01-10 Nokia Technologies Oy Method and an apparatus for evaluating generative machine learning model
CN113536970A (zh) * 2021-06-25 2021-10-22 华为技术有限公司 一种视频分类模型的训练方法及相关装置
CN114564964A (zh) * 2022-02-24 2022-05-31 杭州中软安人网络通信股份有限公司 一种基于k近邻对比学习的未知意图检测方法
CN114663986A (zh) * 2022-03-31 2022-06-24 华南理工大学 一种基于双解耦生成和半监督学习的活体检测方法及系统
CN114821204A (zh) * 2022-06-30 2022-07-29 山东建筑大学 一种基于元学习嵌入半监督学习图像分类方法与系统
CN114943689A (zh) * 2022-04-27 2022-08-26 河钢数字技术股份有限公司 基于半监督学习的钢铁冷轧退火炉元器件检测方法
CN115049876A (zh) * 2022-06-14 2022-09-13 山东建筑大学 基于判别性原子嵌入半监督网络的图像分类方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190012581A1 (en) * 2017-07-06 2019-01-10 Nokia Technologies Oy Method and an apparatus for evaluating generative machine learning model
CN113536970A (zh) * 2021-06-25 2021-10-22 华为技术有限公司 一种视频分类模型的训练方法及相关装置
CN114564964A (zh) * 2022-02-24 2022-05-31 杭州中软安人网络通信股份有限公司 一种基于k近邻对比学习的未知意图检测方法
CN114663986A (zh) * 2022-03-31 2022-06-24 华南理工大学 一种基于双解耦生成和半监督学习的活体检测方法及系统
CN114943689A (zh) * 2022-04-27 2022-08-26 河钢数字技术股份有限公司 基于半监督学习的钢铁冷轧退火炉元器件检测方法
CN115049876A (zh) * 2022-06-14 2022-09-13 山东建筑大学 基于判别性原子嵌入半监督网络的图像分类方法及系统
CN114821204A (zh) * 2022-06-30 2022-07-29 山东建筑大学 一种基于元学习嵌入半监督学习图像分类方法与系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681123A (zh) * 2023-07-31 2023-09-01 福思(杭州)智能科技有限公司 感知模型训练方法、装置、计算机设备和存储介质
CN116681123B (zh) * 2023-07-31 2023-11-14 福思(杭州)智能科技有限公司 感知模型训练方法、装置、计算机设备和存储介质
CN117611957A (zh) * 2024-01-19 2024-02-27 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于统一正负伪标签的无监督视觉表征学习方法及系统
CN117611957B (zh) * 2024-01-19 2024-03-29 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于统一正负伪标签的无监督视觉表征学习方法及系统

Also Published As

Publication number Publication date
CN115311605B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN110458844B (zh) 一种低光照场景的语义分割方法
CN109523463B (zh) 一种基于条件生成对抗网络的人脸老化方法
CN115311605B (zh) 基于近邻一致性和对比学习的半监督视频分类方法及系统
CN109063565B (zh) 一种低分辨率人脸识别方法及装置
CN107506712B (zh) 一种基于3d深度卷积网络的人类行为识别的方法
CN112036322B (zh) 多任务网络跨域行人重识别模型构建方法、系统及装置
CN112069940B (zh) 一种基于分阶段特征学习的跨域行人重识别方法
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及系统
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN113076994B (zh) 一种开集域自适应图像分类方法及系统
CN112819065B (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
CN114092964A (zh) 基于注意力引导和多尺度标签生成的跨域行人重识别方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN112836675B (zh) 一种基于聚类生成伪标签的无监督行人重识别方法及系统
CN110929848A (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN111027377A (zh) 一种双流神经网络时序动作定位方法
CN112927266A (zh) 基于不确定性引导训练的弱监督时域动作定位方法及系统
CN111291705B (zh) 一种跨多目标域行人重识别方法
CN112837338A (zh) 一种基于生成对抗网络的半监督医学图像分割方法
CN116206327A (zh) 一种基于在线知识蒸馏的图像分类方法
CN116543351A (zh) 一种基于时空串并联关系编码的自监督群体行为识别方法
Zhu et al. Unsupervised voice-face representation learning by cross-modal prototype contrast
CN114463340A (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN117152459A (zh) 图像检测方法、装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant