CN114494973A - 视频语义分割网络的训练方法、系统、设备及存储介质 - Google Patents
视频语义分割网络的训练方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN114494973A CN114494973A CN202210132989.6A CN202210132989A CN114494973A CN 114494973 A CN114494973 A CN 114494973A CN 202210132989 A CN202210132989 A CN 202210132989A CN 114494973 A CN114494973 A CN 114494973A
- Authority
- CN
- China
- Prior art keywords
- image
- frame
- video
- semantic segmentation
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 101
- 238000012549 training Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 21
- 238000002372 labelling Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 10
- 238000009826 distribution Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 230000004927 fusion Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种视频语义分割网络的训练方法、系统、设备及存储介质,利用视频数据内在的关联性,设计了帧间特征重构的方案,借助无标注帧特征所提取的类别原型对有标注帧特征进行重构,从而利用标注信息对重构特征进行监督学习,达到了利用视频数据的单帧标注信息对无标注帧提供准确监督信号的目的,训练视频数据的不同帧均受到相同的监督信号进行监督,从而拉近了不同帧的特征分布,可以有效缓解帧间过拟合现象,进而提升模型的泛化性能;并且在测试集上测试表明通过本发明训练后的视频语义分割网络获得更高的分割精度。
Description
技术领域
本发明涉及视频分析技术领域,尤其涉及一种视频语义分割网络的训练方法、系统、设备及存储介质。
背景技术
随着视频监控、传输与存储技术的发展,在实际应用场景中可以很方便经济地获取大量的视频数据。如何对视频数据中的场景与目标对象进行精细化识别,成为了许多应用的核心需求,视频语义分割技术也因此受到了越来越多的关注。视频语义分割技术的目的是为视频片段中的每一个像素点进行分类,从而实现对视频场景的像素级解析。与图像语义分割不同,视频语义分割可以挖掘视频数据存在的时序关联先验,利用相邻帧之间的时序相关性来引导当前帧的分割,减少冗余计算,提升语义分割的性能。
现有的视频语义分割技术需要借助大量的像素级标注数据进行模型训练才能达到高精度的识别效果,然而制作像素级标注数据需要付出大量的人力和时间,这在实际应用场景中很难满足。如果仅在少量标注数据上进行训练,模型往往会因为过拟合问题导致泛化性能的降低,进而导致在测试数据上性能下降。所以,很多研究人员开始关注半监督语义分割技术,研究如何利用少量的标注数据与大量的无标注数据进行模型训练,从而缓解过拟合问题。
目前主流的半监督学习方法都是考虑如何为无标注数据设计合理的监督信号,从而参与到模型训练中。在专利《一种自注意对抗学习的半监督语义分割方法》中,通过判别器对无标注数据的预测结果与有标注数据的标注信息进行对抗训练,从而形成对无标注数据的监督信号。在专利《半监督语义分割模型训练方法、识别方法和装置》与专利《语义分割模型的半监督学习方法、相关装置及产品》中,利用有标注数据训练得到初步模型,然后利用初步模型对无标注数据进行预测得到伪标签,最后利用所有的数据重新训练模型。在专利《基于熵最小化的半监督图像语义分割方法》中,利用特征梯度正则化策略增强编码器对深层特征图的编码能力,然后提出一种自适应锐化策略,将无标注数据的决策边界保持在一个低密度区域,进而获得无标注数据的伪标签。
然而,上述主流的半监督学习方法都是基于图像数据进行设计的,没有充分挖掘视频数据的特性,因而无法有效利用现有的大量无标注视频数据。除此之外,如图1所示,在前期实验中发现,视频语义分割方法存在帧间过拟合现象,即对于训练视频数据(TraningVideo)的标注帧图像(Labeled Frames)与无标注帧图像(UnLabeled Frames)存在明显的分割精度差异,这意味着模型的泛化性能受到了影响。
发明内容
本发明的目的是提供一种视频语义分割网络的训练方法、系统、设备及存储介质,它是一种半监督学习方案,利用视频数据的单帧标注信息对无标注帧提供准确监督信号,使得无标注视频数据参与模型训练,缓解帧间过拟合现象,从而提升泛化性能与分割精度。
本发明的目的是通过以下技术方案实现的:
一种视频语义分割网络的训练方法,包括:
获取包含若干视频片段的训练视频数据;视频片段中包含标注帧图像与无标注帧图像,或者仅包含无标注帧图像;当视频片段中仅包含无标注帧图像时,从视频片段中采样出单个图像并通过特征提取与分类得到伪标签,并将相应图像作为标注帧图像;
将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型;
将标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,结合标注帧图像的标注信息计算第一分类损失;
对于单个视频片段,利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征;
将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失;
结合所述第一分类损失与第二分类损失,对待训练视频语义分割网络进行训练。
一种视频语义分割网络的训练系统,该系统包括:
数据获取单元,用于获取包含若干视频片段的训练视频数据;视频片段中包含标注帧图像与无标注帧图像,或者仅包含无标注帧图像;当视频片段中仅包含无标注帧图像时,从视频片段中采样出单个图像并通过特征提取与分类得到伪标签,并将相应图像作为标注帧图像;
类别原型生成单元,用于将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型;
第一分类损失计算单元,用于将标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,结合标注帧图像的标注信息计算第一分类损失;
特征重构单元,对于单个视频片段,利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征;
第二分类损失计算单元,将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失;
网络训练单元,用于结合所述第一分类损失与第二分类损失,对待训练视频语义分割网络进行训练。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,利用视频数据内在的关联性,设计了帧间特征重构的方案,借助无标注帧特征所提取的类别原型对有标注帧特征进行重构,从而利用标注信息对重构特征进行监督学习,达到了利用视频数据的单帧标注信息对无标注帧提供准确监督信号的目的,训练视频数据的不同帧(包含有标注帧和无标注帧)均受到相同的监督信号进行监督,从而拉近了不同帧的特征分布,可以有效缓解帧间过拟合现象,进而提升模型的泛化性能;并且在测试集上测试表明通过本发明训练后的视频语义分割网络获得更高的分割精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明背景技术提供的帧间过拟合示意图;
图2为本发明实施例提供的一种视频语义分割网络的训练方法的流程图;
图3为本发明实施例提供的一种视频语义分割网络的训练方法的框架示意图;
图4为本发明实施例提供的一种视频语义分割网络的训练系统的示意图;
图5为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
其次,对现有主流的半监督学习方法进行介绍,大致可以分为两个主要的损失函数。第一个是针对有标注数据的交叉熵损失:
第二个是针对无标注数据的损失函数,这里通常是通过为无标注数据构造监督信号,从而让无标注数据参与到模型训练中,这里将其标识为Lunsup。
所以,整体的损失函数为:
L=Lsup+λLunsup
在之前的背景技术中已经对现有主流的半监督学习方法的缺陷进行了说明,即它们有充分挖掘视频数据的特性,并且存在帧间过拟合现象。
为了解决现有视频语义分割方法所面临的标注数据稀缺问题,充分利用无标注的视频数据参与训练,本发明提供一种基于帧间特征重构的半监督视频语义分割网络的训练方案。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种视频语义分割网络的训练方法,图2展示了该方法的主要流程,图3展示了该方法的总体框架;该方法主要包括:
1、获取包含若干视频片段的训练视频数据。
视频片段可以包括两类,一类是为包含标注帧图像与无标注帧图像的视频片段另一类为仅包含无标注帧图像的视频片段,称为无标注视频片段。
其中,包含标注帧图像与无标注帧图像的视频片段中标注帧设置方式可参照常规技术实现,以典型公开数据集Cityscapes为例,每30帧对第20帧进行一帧的标注。图3中无标注帧图像与标注帧图像的角标t2与t1表示不同时刻,可以是相邻时刻,也可以是相邻的时刻;以前述典型公开数据集Cityscapes为例,这两帧图像可以是同属于一个30帧的视频片段中两帧。
对于无标注视频片段,将采样出的单个图像进行特征提取与分类得到伪标签,并将相应图像作为标注帧图像。此部分基于待训练视频语义分割网络得到伪标签,具体可参见后续步骤2中提取到的方式。
后续针对无标注帧图像与标注帧图像进行的协同处理,都是指同一视频片段中的帧图像。
2、将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型。
本步骤的优选实施方式如下:
本领域技术人员可以理解,类别原型是计算机视觉领域中的专有名词,表示对属于某个类别的一系列特征进行均值计算,用其均值表征整个类别的信息。
3、将标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,结合标注帧图像的标注信息计算第一分类损失。
本发明实施例中,所述第一分类损失(采用交叉熵损失)表示为:
其中,表示标注帧图像集合,表示标注帧图像,表示标注帧图像的标注信息,H*W表示像素总数,H、W分别表示图像的高度、宽度;p(i,c)表示待训练视频语义分割网络对标注帧图像输出的分类结果p中,第i个像素属于第c个类别的预测概率值,属于标注帧图像的标注信息表示第i个像素属于第c个类别的one-hot标签,C为语义类别数。
4、对于单个视频片段,利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征。
本发明实施例中,采用注意力机制完成关系建模,相似度s(i,c)的计算公式表示为:
5、将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失。
本发明实施例中,将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,表示为:
利用标注帧图像的标注信息进行监督,计算第二分类损失(采用交叉熵损失),表示为:
其中,表示求期望操作,H*W表示像素总数,H、W分别表示图像的高度、宽度;表示分类结果中第i个像素属于第c个类别的预测概率值;属于标注帧图像的标注信息,表示第i个像素属于第c个类别的one-hot标签,C为语义类别数。
6、结合所述第一分类损失与第二分类损失,对待训练视频语义分割网络进行训练。
结合所述第一分类损失与第二分类损失构建总损失函数:
其中,λ为调节系数。
本领域技术人员可以理解,以上训练主要是针对视频语义分割网络中的特征提取器与分类器;训练完毕后,固定特征提取器与分类器,再训练光流网络与融合层;相关的训练流程可参照常规方式来实现,本发明不不做赘述。
本发明实施例上述方案主要获得如下有益效果:
1)可以利用标注帧图像的标注信息为无标注帧特征提供准确的语义监督,与现有的方法相比,监督信号质量更高,训练过程更加稳定。
2)可以方便地嵌入到现有的视频语义分割方法中,通过为无标注视频数据构造准确的语义监督,充分利用大量无标注视频数据参与训练,强化模型的训练效果,提升模型的泛化性能,从而提升模型在测试集上的语义分割精度。
3)仅应用于训练过程,在测试过程中不会引入额外的计算量,算法效率高。
为了进一步提升模型的鲁棒性,本发明进一步对无标注帧图像进行强数据增强操作得到图像(也属于无标注帧图像),同样对图像进行特征提取与类别原型生成。不同的是,此处利用(即无标注帧图像的特征)计算得到的伪标签进行类别原型生成,即对于图像与都使用生成相应的类别原型。然后,同样利用生成的图像的类别原型进行有标注帧特征重构并计算交叉熵损失(即第二分类损失),具体的计算流程请参见前文的介绍。这种方式可以隐式地提高模型对强数据增强操作的鲁棒性,有效地提升模型的泛化性能。
为了充分利用无标注视频数据,本发明进一步将帧间特征重构方案应用到无标注视频片段。如之前所述,针对无标注视频片段,随机采样两帧图像和(均为无标注帧图像),通过待训练视频语义分割网络对进行特征提取与分类获得伪标签对进行强数据增强得到构造训练样本便可以应用于帧间特征重构方案中,后续流程与前述介绍方案相同,可以理解为将图像作为有标注帧图像,其标注信息为伪标签通过将无标注视频片段应用于模型训练中,进一步强化模型的训练效果,提升模型的泛化性能。
为了便于理解,下面结合上述训练方法对整个视频语义分割的完整实施过程进行介绍。
1、收集数据集。
半监督视频语义分割数据集,包含少量标注视频片段,其中每个视频片段仅标注一帧,以及大量无标注视频片段,共同组成训练数据集。此外,准备少量标注视频片段作为测试集。
2、建立语义分割网络。
本发明使用深度学习框架,建立语义分割网络,并根据选定的数据集确定网络结构参数,如图2所示。网络框架主要由语义分割网络组成,包含特征提取器NetB和分类器NetC。语义分割网络可以直接使用现有的图像语义分割网络,例如,采用PSP18和PSP101作为图像语义分割网络,因为它在准确性和效率方面都有很好的性能。本领域技术人员可以理解,目前主流的视频语义分割网络一是先训练好图像语义分割网络,然后再利用额外的光流网络等进行时序融合等操作。
3、图像语义分割网络训练。
图像语义分割模型首先在ImageNet上进行预训练,然后在选定的数据集上进行微调训练。具体地,对于每一个训练样本,从有标注视频片段中采样标注帧,利用标注信息计算交叉熵损失Lsup;然后采样无标注帧,利用帧间特征重构计算无监督损失和最后无标注视频片段中随机采样两帧,利用帧间特征重构方法计算无监督损失和以上四个损失均为特征重构损失(即前文提到的第二分类损失),角标s表示在增强数据中进行的操作,计算公式同样可参照前文。
4、视频语义分割模型训练。
经过前面的第3部分,得到经过帧间特征重构进行优化训练的PSP18和PSP101模型,这两个模型可以直接应用于现有的视频语义分割方法中,训练之后可以称之为视频语义分割网络。
此部分,采用Accel作为视频语义分割网络,包括:两个图像语义分割网络(即前文提及的PSP18和PSP101)、光流网络和融合层,因为它在准确性和效率方面都有很好的性能。固定PSP18和PSP101的特征提取器NetB,分类器NetC保持参与训练。此外,采用FlowNet作为光流网络,首先在飞椅数据集上进行预训练,然后与两个分割模型的分类器,以及初始化的融合层在有标注视频片段上进行联合训练。
5、视频语义分割模型测试。
对于测试集中的每个视频片段,将标注帧前的第五帧作为关键帧,利用PSP101进行特征提取,然后借助光流网络预测当前帧与下一帧的光流,进行逐帧特征传播。接着,利用PSP18对标注帧进行特征提取,将利用融合层对传播特征与当前帧特征进行特征融合,最终输出融合后的分割结果。
实施例二
本发明还提供一种视频语义分割网络的训练系统,其主要基于前述实施例一提供的方法实现,如图4所示,该系统主要包括:
数据获取单元,用于获取包含若干视频片段的训练视频数据;视频片段中包含标注帧图像与无标注帧图像,或者仅包含无标注帧图像;当视频片段中仅包含无标注帧图像时,从视频片段中采样出单个图像并通过特征提取与分类得到伪标签,并将相应图像作为标注帧图像;
类别原型生成单元,用于将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型;
第一分类损失计算单元,用于将标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,结合标注帧图像的标注信息计算第一分类损失;
特征重构单元,对于单个视频片段,利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征;
第二分类损失计算单元,将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失;
网络训练单元,用于结合所述第一分类损失与第二分类损失,对待训练视频语义分割网络进行训练。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
需要说明的是,上述系统各单元所涉及的相关技术细节在之前的实施例一中已经做了详细的介绍,此处不再赘述。
实施例三
本发明还提供一种处理设备,如图5所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种视频语义分割网络的训练方法,其特征在于,包括:
获取包含若干视频片段的训练视频数据;视频片段中包含标注帧图像与无标注帧图像,或者仅包含无标注帧图像;当视频片段中仅包含无标注帧图像时,从视频片段中采样出单个图像并通过特征提取与分类得到伪标签,并将相应图像作为标注帧图像;
将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型;
将标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,结合标注帧图像的标注信息计算第一分类损失;
对于单个视频片段,利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征;
将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失;
结合所述第一分类损失与第二分类损失,对待训练视频语义分割网络进行训练。
5.根据权利要求1所述的一种视频语义分割网络的训练方法,其特征在于,将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失包括:
将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,表示为:
并利用标注帧图像的标注信息进行监督,计算第二分类损失,表示为:
8.一种视频语义分割网络的训练系统,其特征在于,基于权利要求1~7任一项所述的方法实现,该系统包括:
数据获取单元,用于获取包含若干视频片段的训练视频数据;视频片段中包含标注帧图像与无标注帧图像,或者仅包含无标注帧图像;当视频片段中仅包含无标注帧图像时,从视频片段中采样出单个图像并通过特征提取与分类得到伪标签,并将相应图像作为标注帧图像;
类别原型生成单元,用于将无标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,分类结果作为伪标签,并利用伪标签生成无标注帧图像的类别原型;
第一分类损失计算单元,用于将标注帧图像输入至待训练视频语义分割网络依次进行特征提取与分类,结合标注帧图像的标注信息计算第一分类损失;
特征重构单元,对于单个视频片段,利用提取的标注帧图像的特征与无标注帧图像的类别原型的相似度关系,对所述无标注帧图像的类别原型进行加权重构,获得所述无标注帧图像的重构特征;
第二分类损失计算单元,将所述无标注帧图像的重构特征输入至待训练视频语义分割网络进行分类,并利用标注帧图像的标注信息进行监督,计算第二分类损失;
网络训练单元,用于结合所述第一分类损失与第二分类损失,对待训练视频语义分割网络进行训练。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210132989.6A CN114494973B (zh) | 2022-02-14 | 2022-02-14 | 视频语义分割网络的训练方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210132989.6A CN114494973B (zh) | 2022-02-14 | 2022-02-14 | 视频语义分割网络的训练方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114494973A true CN114494973A (zh) | 2022-05-13 |
CN114494973B CN114494973B (zh) | 2024-03-29 |
Family
ID=81479702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210132989.6A Active CN114494973B (zh) | 2022-02-14 | 2022-02-14 | 视频语义分割网络的训练方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114494973B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114882452A (zh) * | 2022-05-17 | 2022-08-09 | 张弛 | 轨道线路安全监测方法、列车运行控制方法及控制系统 |
CN115278299A (zh) * | 2022-07-27 | 2022-11-01 | 腾讯科技(深圳)有限公司 | 无监督的训练数据生成方法、装置、介质及设备 |
CN116309653A (zh) * | 2023-05-18 | 2023-06-23 | 中国科学技术大学 | 弱监督图像语义分割方法、系统、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020156303A1 (zh) * | 2019-01-30 | 2020-08-06 | 广州市百果园信息技术有限公司 | 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质 |
CN113657455A (zh) * | 2021-07-23 | 2021-11-16 | 西北工业大学 | 一种基于三重网络与标注一致性正则化的半监督学习方法 |
CN113838158A (zh) * | 2021-08-31 | 2021-12-24 | 广东智媒云图科技股份有限公司 | 一种图像和视频的重构方法、装置、终端设备及存储介质 |
-
2022
- 2022-02-14 CN CN202210132989.6A patent/CN114494973B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020156303A1 (zh) * | 2019-01-30 | 2020-08-06 | 广州市百果园信息技术有限公司 | 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质 |
CN113657455A (zh) * | 2021-07-23 | 2021-11-16 | 西北工业大学 | 一种基于三重网络与标注一致性正则化的半监督学习方法 |
CN113838158A (zh) * | 2021-08-31 | 2021-12-24 | 广东智媒云图科技股份有限公司 | 一种图像和视频的重构方法、装置、终端设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
郑宝玉;王雨;吴锦雯;周全;: "基于深度卷积神经网络的弱监督图像语义分割", 南京邮电大学学报(自然科学版), no. 05, 13 November 2018 (2018-11-13) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114882452A (zh) * | 2022-05-17 | 2022-08-09 | 张弛 | 轨道线路安全监测方法、列车运行控制方法及控制系统 |
CN114882452B (zh) * | 2022-05-17 | 2022-12-30 | 张弛 | 轨道线路安全监测方法、列车运行控制方法及控制系统 |
CN115278299A (zh) * | 2022-07-27 | 2022-11-01 | 腾讯科技(深圳)有限公司 | 无监督的训练数据生成方法、装置、介质及设备 |
CN115278299B (zh) * | 2022-07-27 | 2024-03-19 | 腾讯科技(深圳)有限公司 | 无监督的训练数据生成方法、装置、介质及设备 |
CN116309653A (zh) * | 2023-05-18 | 2023-06-23 | 中国科学技术大学 | 弱监督图像语义分割方法、系统、设备及存储介质 |
CN116309653B (zh) * | 2023-05-18 | 2023-08-29 | 中国科学技术大学 | 弱监督图像语义分割方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114494973B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
Yang et al. | A survey of DNN methods for blind image quality assessment | |
Huang et al. | Foreground-action consistency network for weakly supervised temporal action localization | |
Huang et al. | Body structure aware deep crowd counting | |
Cheng et al. | Sspc-net: Semi-supervised semantic 3d point cloud segmentation network | |
Tang et al. | Weakly supervised salient object detection with spatiotemporal cascade neural networks | |
Zhang et al. | Supervision by fusion: Towards unsupervised learning of deep salient object detector | |
CN114494973B (zh) | 视频语义分割网络的训练方法、系统、设备及存储介质 | |
CN114332568B (zh) | 域适应图像分类网络的训练方法、系统、设备及存储介质 | |
CN110097115B (zh) | 一种基于注意力转移机制的视频显著性物体检测方法 | |
Zhang et al. | Hierarchical weakly supervised learning for residential area semantic segmentation in remote sensing images | |
CN109522961B (zh) | 一种基于字典深度学习的半监督图像分类方法 | |
CN110287879B (zh) | 一种基于注意力机制的视频行为识别方法 | |
CN112257441B (zh) | 一种基于反事实生成的命名实体识别增强方法 | |
Li et al. | Streamer action recognition in live video with spatial-temporal attention and deep dictionary learning | |
Liu et al. | Subtler mixed attention network on fine-grained image classification | |
CN109086794B (zh) | 一种基于t-lda主题模型的驾驶行为模式识方法 | |
CN113515669A (zh) | 基于人工智能的数据处理方法和相关设备 | |
Zhang et al. | An efficient semi-supervised manifold embedding for crowd counting | |
Zhang et al. | Image composition assessment with saliency-augmented multi-pattern pooling | |
CN115658934A (zh) | 一种基于多类注意力机制的图文跨模态检索方法 | |
Oraibi et al. | Enhancement digital forensic approach for inter-frame video forgery detection using a deep learning technique | |
CN116543146B (zh) | 一种基于窗口自注意与多尺度机制的图像密集描述方法 | |
CN117611901A (zh) | 一种基于全局和局部对比学习的小样本图像分类方法 | |
CN115994239A (zh) | 一种基于原型对比学习的半监督遥感图像检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |