CN114494973A - 视频语义分割网络的训练方法、系统、设备及存储介质 - Google Patents

视频语义分割网络的训练方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN114494973A
CN114494973A CN202210132989.6A CN202210132989A CN114494973A CN 114494973 A CN114494973 A CN 114494973A CN 202210132989 A CN202210132989 A CN 202210132989A CN 114494973 A CN114494973 A CN 114494973A
Authority
CN
China
Prior art keywords
image
frame
video
semantic segmentation
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210132989.6A
Other languages
English (en)
Other versions
CN114494973B (zh
Inventor
王子磊
庄嘉帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210132989.6A priority Critical patent/CN114494973B/zh
Publication of CN114494973A publication Critical patent/CN114494973A/zh
Application granted granted Critical
Publication of CN114494973B publication Critical patent/CN114494973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视频语义分割网络的训练方法、系统、设备及存储介质,利用视频数据内在的关联性,设计了帧间特征重构的方案,借助无标注帧特征所提取的类别原型对有标注帧特征进行重构,从而利用标注信息对重构特征进行监督学习,达到了利用视频数据的单帧标注信息对无标注帧提供准确监督信号的目的,训练视频数据的不同帧均受到相同的监督信号进行监督,从而拉近了不同帧的特征分布,可以有效缓解帧间过拟合现象,进而提升模型的泛化性能;并且在测试集上测试表明通过本发明训练后的视频语义分割网络获得更高的分割精度。

Description

视频语义分割网络的训练方法、系统、设备及存储介质
技术领域
本发明涉及视频分析技术领域,尤其涉及一种视频语义分割网络的训练方法、系统、设备及存储介质。
背景技术
随着视频监控、传输与存储技术的发展,在实际应用场景中可以很方便经济地获取大量的视频数据。如何对视频数据中的场景与目标对象进行精细化识别,成为了许多应用的核心需求,视频语义分割技术也因此受到了越来越多的关注。视频语义分割技术的目的是为视频片段中的每一个像素点进行分类,从而实现对视频场景的像素级解析。与图像语义分割不同,视频语义分割可以挖掘视频数据存在的时序关联先验,利用相邻帧之间的时序相关性来引导当前帧的分割,减少冗余计算,提升语义分割的性能。
现有的视频语义分割技术需要借助大量的像素级标注数据进行模型训练才能达到高精度的识别效果,然而制作像素级标注数据需要付出大量的人力和时间,这在实际应用场景中很难满足。如果仅在少量标注数据上进行训练,模型往往会因为过拟合问题导致泛化性能的降低,进而导致在测试数据上性能下降。所以,很多研究人员开始关注半监督语义分割技术,研究如何利用少量的标注数据与大量的无标注数据进行模型训练,从而缓解过拟合问题。
目前主流的半监督学习方法都是考虑如何为无标注数据设计合理的监督信号,从而参与到模型训练中。在专利《一种自注意对抗学习的半监督语义分割方法》中,通过判别器对无标注数据的预测结果与有标注数据的标注信息进行对抗训练,从而形成对无标注数据的监督信号。在专利《半监督语义分割模型训练方法、识别方法和装置》与专利《语义分割模型的半监督学习方法、相关装置及产品》中,利用有标注数据训练得到初步模型,然后利用初步模型对无标注数据进行预测得到伪标签,最后利用所有的数据重新训练模型。在专利《基于熵最小化的半监督图像语义分割方法》中,利用特征梯度正则化策略增强编码器对深层特征图的编码能力,然后提出一种自适应锐化策略,将无标注数据的决策边界保持在一个低密度区域,进而获得无标注数据的伪标签。
然而,上述主流的半监督学习方法都是基于图像数据进行设计的,没有充分挖掘视频数据的特性,因而无法有效利用现有的大量无标注视频数据。除此之外,如图1所示,在前期实验中发现,视频语义分割方法存在帧间过拟合现象,即对于训练视频数据(TraningVideo)的标注帧图像(Labeled Frames)与无标注帧图像(UnLabeled Frames)存在明显的分割精度差异,这意味着模型的泛化性能受到了影响。
发明内容
本发明的目的是提供一种视频语义分割网络的训练方法、系统、设备及存储介质,它是一种半监督学习方案,利用视频数据的单帧标注信息对无标注帧提供准确监督信号,使得无标注视频数据参与模型训练,缓解帧间过拟合现象,从而提升泛化性能与分割精度。
本发明的目的是通过以下技术方案实现的:
一种视频语义分割网络的训练方法,包括:
获取包含若干视频片段的训练视频数据;视频片段中包含标注帧图像与无标注帧图像,或者仅包含无标注帧图像;当视频片段中仅包含无标注帧图像时,从视频片段中采样出单个图像并通过特征提取与分类得到伪标签,并将相应图像作为标注帧图像;
将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型;
将标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,结合标注帧图像的标注信息计算第一分类损失;
对于单个视频片段,利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征;
将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失;
结合所述第一分类损失与第二分类损失,对待训练视频语义分割网络进行训练。
一种视频语义分割网络的训练系统,该系统包括:
数据获取单元,用于获取包含若干视频片段的训练视频数据;视频片段中包含标注帧图像与无标注帧图像,或者仅包含无标注帧图像;当视频片段中仅包含无标注帧图像时,从视频片段中采样出单个图像并通过特征提取与分类得到伪标签,并将相应图像作为标注帧图像;
类别原型生成单元,用于将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型;
第一分类损失计算单元,用于将标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,结合标注帧图像的标注信息计算第一分类损失;
特征重构单元,对于单个视频片段,利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征;
第二分类损失计算单元,将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失;
网络训练单元,用于结合所述第一分类损失与第二分类损失,对待训练视频语义分割网络进行训练。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,利用视频数据内在的关联性,设计了帧间特征重构的方案,借助无标注帧特征所提取的类别原型对有标注帧特征进行重构,从而利用标注信息对重构特征进行监督学习,达到了利用视频数据的单帧标注信息对无标注帧提供准确监督信号的目的,训练视频数据的不同帧(包含有标注帧和无标注帧)均受到相同的监督信号进行监督,从而拉近了不同帧的特征分布,可以有效缓解帧间过拟合现象,进而提升模型的泛化性能;并且在测试集上测试表明通过本发明训练后的视频语义分割网络获得更高的分割精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明背景技术提供的帧间过拟合示意图;
图2为本发明实施例提供的一种视频语义分割网络的训练方法的流程图;
图3为本发明实施例提供的一种视频语义分割网络的训练方法的框架示意图;
图4为本发明实施例提供的一种视频语义分割网络的训练系统的示意图;
图5为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
其次,对现有主流的半监督学习方法进行介绍,大致可以分为两个主要的损失函数。第一个是针对有标注数据的交叉熵损失:
Figure BDA0003503429180000041
其中,
Figure BDA0003503429180000042
表示有标注的视频片段,
Figure BDA0003503429180000043
表示标注帧,y表示标注信息,H和W表示标注帧图像的空间维度,C表示语义类别数。
第二个是针对无标注数据的损失函数,这里通常是通过为无标注数据构造监督信号,从而让无标注数据参与到模型训练中,这里将其标识为Lunsup
所以,整体的损失函数为:
L=Lsup+λLunsup
在之前的背景技术中已经对现有主流的半监督学习方法的缺陷进行了说明,即它们有充分挖掘视频数据的特性,并且存在帧间过拟合现象。
为了解决现有视频语义分割方法所面临的标注数据稀缺问题,充分利用无标注的视频数据参与训练,本发明提供一种基于帧间特征重构的半监督视频语义分割网络的训练方案。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种视频语义分割网络的训练方法,图2展示了该方法的主要流程,图3展示了该方法的总体框架;该方法主要包括:
1、获取包含若干视频片段的训练视频数据。
视频片段可以包括两类,一类是为包含标注帧图像与无标注帧图像的视频片段另一类为仅包含无标注帧图像的视频片段,称为无标注视频片段。
其中,包含标注帧图像与无标注帧图像的视频片段中标注帧设置方式可参照常规技术实现,以典型公开数据集Cityscapes为例,每30帧对第20帧进行一帧的标注。图3中无标注帧图像
Figure BDA0003503429180000051
与标注帧图像
Figure BDA0003503429180000052
的角标t2与t1表示不同时刻,可以是相邻时刻,也可以是相邻的时刻;以前述典型公开数据集Cityscapes为例,这两帧图像可以是同属于一个30帧的视频片段中两帧。
对于无标注视频片段,将采样出的单个图像进行特征提取与分类得到伪标签,并将相应图像作为标注帧图像。此部分基于待训练视频语义分割网络得到伪标签,具体可参见后续步骤2中提取到的方式。
后续针对无标注帧图像与标注帧图像进行的协同处理,都是指同一视频片段中的帧图像。
2、将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型。
本步骤的优选实施方式如下:
1)通过待训练视频语义分割网络的特征提取器NetB,对无标注帧图像
Figure BDA0003503429180000053
进行特征提取,得到特征
Figure BDA0003503429180000054
再通过待训练视频语义分割网络的分类器NetC计算伪标签(PseudoLabel)
Figure BDA0003503429180000055
表示为:
Figure BDA0003503429180000061
2)基于伪标签
Figure BDA0003503429180000062
对无标注帧图像
Figure BDA0003503429180000063
中属于同类别的像素特征计算特征均值,表示为:
Figure BDA0003503429180000064
其中,
Figure BDA0003503429180000065
表示特征
Figure BDA0003503429180000066
中对应的第i个像素的特征值,
Figure BDA0003503429180000067
表示伪标签
Figure BDA0003503429180000068
中第i个像素对于第c个类别的one-hot标签,
Figure BDA00035034291800000624
表示指示函数。
3)综合所有类别的特征均值,生成无标注帧图像的类别原型(Class Prototypes)
Figure BDA0003503429180000069
本领域技术人员可以理解,类别原型是计算机视觉领域中的专有名词,表示对属于某个类别的一系列特征进行均值计算,用其均值表征整个类别的信息。
3、将标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,结合标注帧图像的标注信息计算第一分类损失。
本发明实施例中,所述第一分类损失(采用交叉熵损失)表示为:
Figure BDA00035034291800000610
其中,
Figure BDA00035034291800000611
表示标注帧图像集合,
Figure BDA00035034291800000612
表示标注帧图像,
Figure BDA00035034291800000613
表示标注帧图像的标注信息,H*W表示像素总数,H、W分别表示图像的高度、宽度;p(i,c)表示待训练视频语义分割网络对标注帧图像输出的分类结果p中,第i个像素属于第c个类别的预测概率值,
Figure BDA00035034291800000614
属于标注帧图像的标注信息
Figure BDA00035034291800000615
表示第i个像素属于第c个类别的one-hot标签,C为语义类别数。
4、对于单个视频片段,利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征。
标注帧图像
Figure BDA00035034291800000616
的特征在前述步骤3中,由待训练视频语义分割网络的特征提取器NetB提取,记为特征
Figure BDA00035034291800000617
对特征
Figure BDA00035034291800000618
与无标注帧图像的类别原型
Figure BDA00035034291800000619
进行相似度关系建模,将特征
Figure BDA00035034291800000620
中第i个像素的特征值
Figure BDA00035034291800000621
与无标注帧图像的类别原型
Figure BDA00035034291800000622
中第c个类别对应的值
Figure BDA00035034291800000623
的相似度记为s(i,c)
本发明实施例中,采用注意力机制完成关系建模,相似度s(i,c)的计算公式表示为:
Figure BDA0003503429180000071
Figure BDA0003503429180000072
Figure BDA0003503429180000073
其中,s’(i,c)表示中间结果,中间两个式子表示L2正则化操作,
Figure BDA0003503429180000074
表示特征
Figure BDA0003503429180000075
的归一化结果,
Figure BDA0003503429180000076
表示无标注帧图像的类别原型
Figure BDA0003503429180000077
的归一化结果;e表示自然常数,τ为温度系数。
利用相似度s(i,c)
Figure BDA0003503429180000078
进行加权,获得加权重构的特征值,表示为:
Figure BDA0003503429180000079
其中,
Figure BDA00035034291800000710
表示第i个像素加权重构的特征值。
综合所有像素的加权重构的特征值,获得所述无标注帧图像的重构特征
Figure BDA00035034291800000711
5、将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失。
本发明实施例中,将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,表示为:
Figure BDA00035034291800000712
其中,σ表示softmax函数,NetC表示待训练视频语义分割网络的分类器,
Figure BDA00035034291800000713
表示无标注帧图像的重构特征
Figure BDA00035034291800000714
的分类概率。
利用标注帧图像的标注信息进行监督,计算第二分类损失(采用交叉熵损失),表示为:
Figure BDA00035034291800000715
其中,
Figure BDA00035034291800000719
表示求期望操作,H*W表示像素总数,H、W分别表示图像的高度、宽度;
Figure BDA00035034291800000716
表示分类结果
Figure BDA00035034291800000717
中第i个像素属于第c个类别的预测概率值;
Figure BDA00035034291800000718
属于标注帧图像的标注信息,表示第i个像素属于第c个类别的one-hot标签,C为语义类别数。
6、结合所述第一分类损失与第二分类损失,对待训练视频语义分割网络进行训练。
结合所述第一分类损失与第二分类损失构建总损失函数:
Figure BDA0003503429180000081
其中,λ为调节系数。
本领域技术人员可以理解,以上训练主要是针对视频语义分割网络中的特征提取器与分类器;训练完毕后,固定特征提取器与分类器,再训练光流网络与融合层;相关的训练流程可参照常规方式来实现,本发明不不做赘述。
本发明实施例上述方案主要获得如下有益效果:
1)可以利用标注帧图像的标注信息为无标注帧特征提供准确的语义监督,与现有的方法相比,监督信号质量更高,训练过程更加稳定。
2)可以方便地嵌入到现有的视频语义分割方法中,通过为无标注视频数据构造准确的语义监督,充分利用大量无标注视频数据参与训练,强化模型的训练效果,提升模型的泛化性能,从而提升模型在测试集上的语义分割精度。
3)仅应用于训练过程,在测试过程中不会引入额外的计算量,算法效率高。
为了进一步提升模型的鲁棒性,本发明进一步对无标注帧图像
Figure BDA0003503429180000082
进行强数据增强操作得到图像
Figure BDA0003503429180000083
(也属于无标注帧图像),同样对图像
Figure BDA0003503429180000084
进行特征提取与类别原型生成。不同的是,此处利用
Figure BDA0003503429180000085
(即无标注帧图像
Figure BDA0003503429180000086
的特征)计算得到的伪标签
Figure BDA0003503429180000087
进行类别原型生成,即对于图像
Figure BDA0003503429180000088
Figure BDA0003503429180000089
都使用生成相应的类别原型。然后,同样利用生成的图像
Figure BDA00035034291800000810
的类别原型进行有标注帧特征重构并计算交叉熵损失(即第二分类损失),具体的计算流程请参见前文的介绍。这种方式可以隐式地提高模型对强数据增强操作的鲁棒性,有效地提升模型的泛化性能。
为了充分利用无标注视频数据,本发明进一步将帧间特征重构方案应用到无标注视频片段。如之前所述,针对无标注视频片段,随机采样两帧图像
Figure BDA00035034291800000811
Figure BDA00035034291800000812
(均为无标注帧图像),通过待训练视频语义分割网络对
Figure BDA00035034291800000813
进行特征提取与分类获得伪标签
Figure BDA00035034291800000814
Figure BDA00035034291800000815
进行强数据增强得到
Figure BDA00035034291800000816
构造训练样本
Figure BDA00035034291800000817
便可以应用于帧间特征重构方案中,后续流程与前述介绍方案相同,可以理解为将图像
Figure BDA00035034291800000818
作为有标注帧图像,其标注信息为伪标签
Figure BDA00035034291800000819
通过将无标注视频片段应用于模型训练中,进一步强化模型的训练效果,提升模型的泛化性能。
为了便于理解,下面结合上述训练方法对整个视频语义分割的完整实施过程进行介绍。
1、收集数据集。
半监督视频语义分割数据集,包含少量标注视频片段,其中每个视频片段仅标注一帧,以及大量无标注视频片段,共同组成训练数据集。此外,准备少量标注视频片段作为测试集。
2、建立语义分割网络。
本发明使用深度学习框架,建立语义分割网络,并根据选定的数据集确定网络结构参数,如图2所示。网络框架主要由语义分割网络组成,包含特征提取器NetB和分类器NetC。语义分割网络可以直接使用现有的图像语义分割网络,例如,采用PSP18和PSP101作为图像语义分割网络,因为它在准确性和效率方面都有很好的性能。本领域技术人员可以理解,目前主流的视频语义分割网络一是先训练好图像语义分割网络,然后再利用额外的光流网络等进行时序融合等操作。
3、图像语义分割网络训练。
图像语义分割模型首先在ImageNet上进行预训练,然后在选定的数据集上进行微调训练。具体地,对于每一个训练样本,从有标注视频片段中采样标注帧,利用标注信息计算交叉熵损失Lsup;然后采样无标注帧,利用帧间特征重构计算无监督损失
Figure BDA0003503429180000091
Figure BDA0003503429180000092
最后无标注视频片段中随机采样两帧,利用帧间特征重构方法计算无监督损失
Figure BDA0003503429180000093
Figure BDA0003503429180000094
以上四个损失均为特征重构损失(即前文提到的第二分类损失),角标s表示在增强数据中进行的操作,计算公式同样可参照前文。
4、视频语义分割模型训练。
经过前面的第3部分,得到经过帧间特征重构进行优化训练的PSP18和PSP101模型,这两个模型可以直接应用于现有的视频语义分割方法中,训练之后可以称之为视频语义分割网络。
此部分,采用Accel作为视频语义分割网络,包括:两个图像语义分割网络(即前文提及的PSP18和PSP101)、光流网络和融合层,因为它在准确性和效率方面都有很好的性能。固定PSP18和PSP101的特征提取器NetB,分类器NetC保持参与训练。此外,采用FlowNet作为光流网络,首先在飞椅数据集上进行预训练,然后与两个分割模型的分类器,以及初始化的融合层在有标注视频片段上进行联合训练。
5、视频语义分割模型测试。
对于测试集中的每个视频片段,将标注帧前的第五帧作为关键帧,利用PSP101进行特征提取,然后借助光流网络预测当前帧与下一帧的光流,进行逐帧特征传播。接着,利用PSP18对标注帧进行特征提取,将利用融合层对传播特征与当前帧特征进行特征融合,最终输出融合后的分割结果。
实施例二
本发明还提供一种视频语义分割网络的训练系统,其主要基于前述实施例一提供的方法实现,如图4所示,该系统主要包括:
数据获取单元,用于获取包含若干视频片段的训练视频数据;视频片段中包含标注帧图像与无标注帧图像,或者仅包含无标注帧图像;当视频片段中仅包含无标注帧图像时,从视频片段中采样出单个图像并通过特征提取与分类得到伪标签,并将相应图像作为标注帧图像;
类别原型生成单元,用于将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型;
第一分类损失计算单元,用于将标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,结合标注帧图像的标注信息计算第一分类损失;
特征重构单元,对于单个视频片段,利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征;
第二分类损失计算单元,将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失;
网络训练单元,用于结合所述第一分类损失与第二分类损失,对待训练视频语义分割网络进行训练。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
需要说明的是,上述系统各单元所涉及的相关技术细节在之前的实施例一中已经做了详细的介绍,此处不再赘述。
实施例三
本发明还提供一种处理设备,如图5所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种视频语义分割网络的训练方法,其特征在于,包括:
获取包含若干视频片段的训练视频数据;视频片段中包含标注帧图像与无标注帧图像,或者仅包含无标注帧图像;当视频片段中仅包含无标注帧图像时,从视频片段中采样出单个图像并通过特征提取与分类得到伪标签,并将相应图像作为标注帧图像;
将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型;
将标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,结合标注帧图像的标注信息计算第一分类损失;
对于单个视频片段,利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征;
将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失;
结合所述第一分类损失与第二分类损失,对待训练视频语义分割网络进行训练。
2.根据权利要求1所述的一种视频语义分割网络的训练方法,其特征在于,所述将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型包括:
通过待训练视频语义分割网络的特征提取器NetB,对无标注帧图像
Figure FDA0003503429170000011
进行特征提取,得到特征
Figure FDA0003503429170000012
再通过待训练视频语义分割网络的分类器NetC计算伪标签
Figure FDA0003503429170000013
表示为:
Figure FDA0003503429170000014
基于伪标签
Figure FDA0003503429170000015
对无标注帧图像
Figure FDA0003503429170000016
中属于同类别的像素特征计算特征均值,表示为:
Figure FDA0003503429170000017
其中,
Figure FDA0003503429170000018
表示特征
Figure FDA0003503429170000019
中对应的第i个像素的特征值,
Figure FDA00035034291700000110
表示伪标签
Figure FDA00035034291700000111
中第i个像素对于第c个类别的one-hot标签,
Figure FDA00035034291700000112
表示指示函数;
综合所有类别的特征均值,生成无标注帧图像的类别原型
Figure FDA00035034291700000113
3.根据权利要求1所述的一种视频语义分割网络的训练方法,其特征在于,所述利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征包括:
对标注帧图像
Figure FDA0003503429170000021
的特征
Figure FDA0003503429170000022
与无标注帧图像的类别原型
Figure FDA0003503429170000023
进行相似度关系建模,将特征
Figure FDA0003503429170000024
中第i个像素的特征值
Figure FDA0003503429170000025
与无标注帧图像的类别原型
Figure FDA0003503429170000026
中第c个类别对应的值
Figure FDA0003503429170000027
的相似度记为s(i,c)
利用相似度s(i,c)
Figure FDA0003503429170000028
进行加权,获得加权重构的特征值,表示为:
Figure FDA0003503429170000029
其中,
Figure FDA00035034291700000210
表示第i个像素加权重构的特征值;
综合所有像素的加权重构的特征值,获得所述无标注帧图像的重构特征
Figure FDA00035034291700000211
4.根据权利要求3所述的一种视频语义分割网络的训练方法,其特征在于,相似度s(i,c)的计算公式表示为:
Figure FDA00035034291700000212
Figure FDA00035034291700000213
Figure FDA00035034291700000214
其中,s’(i,c)表示中间结果,C为语义类别数;
Figure FDA00035034291700000215
表示特征
Figure FDA00035034291700000216
的归一化结果,
Figure FDA00035034291700000217
表示无标注帧图像的类别原型
Figure FDA00035034291700000218
的归一化结果;e表示自然常数,τ为温度系数。
5.根据权利要求1所述的一种视频语义分割网络的训练方法,其特征在于,将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失包括:
将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,表示为:
Figure FDA00035034291700000219
其中,σ表示softmax函数,NetC表示待训练视频语义分割网络的分类器,
Figure FDA00035034291700000220
表示无标注帧图像的重构特征
Figure FDA00035034291700000221
的分类概率;
并利用标注帧图像的标注信息进行监督,计算第二分类损失,表示为:
Figure FDA0003503429170000031
其中,
Figure FDA0003503429170000032
表示求期望操作,H*W表示像素总数,H、W分别表示图像的高度、宽度;
Figure FDA0003503429170000033
表示分类结果
Figure FDA0003503429170000034
中第i个像素属于第c个类别的预测概率值;
Figure FDA0003503429170000035
属于标注帧图像的标注信息,表示第i个像素属于第c个类别的one-hot标签,C为语义类别数。
6.根据权利要求1所述的一种视频语义分割网络的训练方法,其特征在于,所述第一分类损失表示为:
Figure FDA0003503429170000036
其中,
Figure FDA0003503429170000037
表示标注帧图像集合,
Figure FDA0003503429170000038
表示标注帧图像,
Figure FDA0003503429170000039
表示标注帧图像的标注信息,H*W表示像素总数,H、W分别表示图像的高度、宽度;p(i,c)表示待训练视频语义分割网络对标注帧图像输出的分类结果p中,第i个像素属于第c个类别的预测概率值,
Figure FDA00035034291700000310
属于标注帧图像的标注信息
Figure FDA00035034291700000311
表示第i个像素属于第c个类别的one-hot标签,C为语义类别数。
7.根据权利要求1~6任一项所述的一种视频语义分割网络的训练方法,其特征在于,该方法还包括:
对无标注帧图像
Figure FDA00035034291700000312
进行强数据增强操作得到图像
Figure FDA00035034291700000313
利用所述无标注帧图像
Figure FDA00035034291700000314
的伪标签
Figure FDA00035034291700000315
生成所述图像
Figure FDA00035034291700000316
的类别原型,将所述图像
Figure FDA00035034291700000317
作为无标注帧图像进行特征重构并计算第二分类损失;
其中,对于仅包含无标注帧图像的视频片段,随机采样两帧图像
Figure FDA00035034291700000318
Figure FDA00035034291700000319
通过待训练视频语义分割网络对图像
Figure FDA00035034291700000320
进行特征提取与分类获得伪标签
Figure FDA00035034291700000321
对图像
Figure FDA00035034291700000322
进行强数据增强得到图像
Figure FDA00035034291700000323
构造训练样本
Figure FDA00035034291700000324
将图像
Figure FDA00035034291700000325
作为标注帧图像,其标注信息为伪标签
Figure FDA00035034291700000326
图像
Figure FDA00035034291700000327
Figure FDA00035034291700000328
均为无标注帧图像。
8.一种视频语义分割网络的训练系统,其特征在于,基于权利要求1~7任一项所述的方法实现,该系统包括:
数据获取单元,用于获取包含若干视频片段的训练视频数据;视频片段中包含标注帧图像与无标注帧图像,或者仅包含无标注帧图像;当视频片段中仅包含无标注帧图像时,从视频片段中采样出单个图像并通过特征提取与分类得到伪标签,并将相应图像作为标注帧图像;
类别原型生成单元,用于将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型;
第一分类损失计算单元,用于将标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,结合标注帧图像的标注信息计算第一分类损失;
特征重构单元,对于单个视频片段,利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征;
第二分类损失计算单元,将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失;
网络训练单元,用于结合所述第一分类损失与第二分类损失,对待训练视频语义分割网络进行训练。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
CN202210132989.6A 2022-02-14 2022-02-14 视频语义分割网络的训练方法、系统、设备及存储介质 Active CN114494973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210132989.6A CN114494973B (zh) 2022-02-14 2022-02-14 视频语义分割网络的训练方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210132989.6A CN114494973B (zh) 2022-02-14 2022-02-14 视频语义分割网络的训练方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114494973A true CN114494973A (zh) 2022-05-13
CN114494973B CN114494973B (zh) 2024-03-29

Family

ID=81479702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210132989.6A Active CN114494973B (zh) 2022-02-14 2022-02-14 视频语义分割网络的训练方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114494973B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882452A (zh) * 2022-05-17 2022-08-09 张弛 轨道线路安全监测方法、列车运行控制方法及控制系统
CN115278299A (zh) * 2022-07-27 2022-11-01 腾讯科技(深圳)有限公司 无监督的训练数据生成方法、装置、介质及设备
CN116309653A (zh) * 2023-05-18 2023-06-23 中国科学技术大学 弱监督图像语义分割方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
CN113657455A (zh) * 2021-07-23 2021-11-16 西北工业大学 一种基于三重网络与标注一致性正则化的半监督学习方法
CN113838158A (zh) * 2021-08-31 2021-12-24 广东智媒云图科技股份有限公司 一种图像和视频的重构方法、装置、终端设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
CN113657455A (zh) * 2021-07-23 2021-11-16 西北工业大学 一种基于三重网络与标注一致性正则化的半监督学习方法
CN113838158A (zh) * 2021-08-31 2021-12-24 广东智媒云图科技股份有限公司 一种图像和视频的重构方法、装置、终端设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑宝玉;王雨;吴锦雯;周全;: "基于深度卷积神经网络的弱监督图像语义分割", 南京邮电大学学报(自然科学版), no. 05, 13 November 2018 (2018-11-13) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882452A (zh) * 2022-05-17 2022-08-09 张弛 轨道线路安全监测方法、列车运行控制方法及控制系统
CN114882452B (zh) * 2022-05-17 2022-12-30 张弛 轨道线路安全监测方法、列车运行控制方法及控制系统
CN115278299A (zh) * 2022-07-27 2022-11-01 腾讯科技(深圳)有限公司 无监督的训练数据生成方法、装置、介质及设备
CN115278299B (zh) * 2022-07-27 2024-03-19 腾讯科技(深圳)有限公司 无监督的训练数据生成方法、装置、介质及设备
CN116309653A (zh) * 2023-05-18 2023-06-23 中国科学技术大学 弱监督图像语义分割方法、系统、设备及存储介质
CN116309653B (zh) * 2023-05-18 2023-08-29 中国科学技术大学 弱监督图像语义分割方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN114494973B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
Yang et al. A survey of DNN methods for blind image quality assessment
Huang et al. Foreground-action consistency network for weakly supervised temporal action localization
Huang et al. Body structure aware deep crowd counting
Cheng et al. Sspc-net: Semi-supervised semantic 3d point cloud segmentation network
Tang et al. Weakly supervised salient object detection with spatiotemporal cascade neural networks
Zhang et al. Supervision by fusion: Towards unsupervised learning of deep salient object detector
CN114494973B (zh) 视频语义分割网络的训练方法、系统、设备及存储介质
CN114332568B (zh) 域适应图像分类网络的训练方法、系统、设备及存储介质
CN110097115B (zh) 一种基于注意力转移机制的视频显著性物体检测方法
Zhang et al. Hierarchical weakly supervised learning for residential area semantic segmentation in remote sensing images
CN109522961B (zh) 一种基于字典深度学习的半监督图像分类方法
CN110287879B (zh) 一种基于注意力机制的视频行为识别方法
CN112257441B (zh) 一种基于反事实生成的命名实体识别增强方法
Li et al. Streamer action recognition in live video with spatial-temporal attention and deep dictionary learning
Liu et al. Subtler mixed attention network on fine-grained image classification
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
Zhang et al. An efficient semi-supervised manifold embedding for crowd counting
Zhang et al. Image composition assessment with saliency-augmented multi-pattern pooling
CN115658934A (zh) 一种基于多类注意力机制的图文跨模态检索方法
Oraibi et al. Enhancement digital forensic approach for inter-frame video forgery detection using a deep learning technique
CN116543146B (zh) 一种基于窗口自注意与多尺度机制的图像密集描述方法
CN117611901A (zh) 一种基于全局和局部对比学习的小样本图像分类方法
CN115994239A (zh) 一种基于原型对比学习的半监督遥感图像检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant