CN111723812A - 一种基于序列知识蒸馏的实时语义分割方法 - Google Patents
一种基于序列知识蒸馏的实时语义分割方法 Download PDFInfo
- Publication number
- CN111723812A CN111723812A CN202010504654.3A CN202010504654A CN111723812A CN 111723812 A CN111723812 A CN 111723812A CN 202010504654 A CN202010504654 A CN 202010504654A CN 111723812 A CN111723812 A CN 111723812A
- Authority
- CN
- China
- Prior art keywords
- network
- image
- module
- prediction result
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 35
- 230000011218 segmentation Effects 0.000 title claims abstract description 30
- 230000006870 function Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 101100065246 Mus musculus Enc1 gene Proteins 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于序列知识蒸馏的实时语义分割方法,包括如下步骤:步骤1,获取室外街景图像;步骤2,将采集的室外街景图像送入序列预测网络,得到语义分割结果;所述序列预测网络采用Xception网络作为主干网络,用于提取图像特征;序列预测网络中的编解码器包含若干编码模块和若干解码模块,每个模块都针对输入的图像输出一个预测结果,且前一个模块的预测结果作为下一个模块预测结果输入的一部分,从而充分利用现有网络,提升网络性能,且在梯度更新时优化前向网络的参数,进而优化先前的预测结果。此种语义分割方法可在只增加少量计算量的同时,充分降低网络传输过程中造成的信息损失,从而进一步提升网络精度。
Description
技术领域
本发明属于图像分割技术领域,特别涉及一种基于序列知识蒸馏的实时语义分割方法。
背景技术
近年来,尽管深度学习在语义分割领域取得了极大的进展,例如Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2015:3431-3440.、Ronneberger O,Fischer P,Brox T.U-net:Convolutional networks for biomedical image segmentation[C]//InternationalConference on Medical image computing and computer-assistedintervention.Springer,Cham,2015:234-241.、Badrinarayanan V,Kendall A,CipollaR.Segnet:A deep convolutional encoder-decoder architecture for imagesegmentation[J].IEEE transactions on pattern analysis and machineintelligence,2017,39(12):2481-2495.、Chen L C,Papandreou G,Kokkinos I,etal.Semantic image segmentation with deep convolutional nets and fullyconnected crfs[J].arXiv preprint arXiv:1412.7062,2014.、Chen L C,Papandreou G,Kokkinos I,et al.Deeplab:Semantic image segmentation with deep convolutionalnets,atrous convolution,and fully connected crfs[J].IEEE transactions onpattern analysis and machine intelligence,2017,40(4):834-848.等,但这些方法大都只考虑精度,而无法实际应用。而一些快速语义分割的工作,却只得到较低的精度。
针对传统的语义分割网络模型大、未考虑到速度和无法在实际场景中使用的问题,拟提出序列知识蒸馏的框架来实现实时语义分割。之前的一些语义分割工作,只在解码阶段添加监督信息,从而忽略网络编码层的潜能。在边缘检测上已有人提出在encode阶段添加监督信息,然而这些方法直接将每个模块的预测结果直接上采样至原分辨率大小,级联后再通过卷积层输出最后的预测结果,该方法对语义分割而言并非有效,且极其耗时。
现有的知识蒸馏方法只在最后一个预测结果上来蒸馏Teacher网络或监督图像的知识信息,未能充分挖掘网络的潜能。有鉴与此,有必要提供一种基于序列知识蒸馏的实时语义分割方法来解决上述问题。
发明内容
本发明的目的,在于提供一种基于序列知识蒸馏的实时语义分割方法,其可在只增加少量计算量的同时,充分降低网络传输过程中造成的信息损失,从而进一步提升网络精度。
为了达成上述目的,本发明的解决方案是:
一种基于序列知识蒸馏的实时语义分割方法,包括如下步骤:
步骤1,获取室外街景图像;
步骤2,将采集的室外街景图像送入序列预测网络,得到语义分割结果;
所述序列预测网络采用Xception网络作为主干网络,用于提取图像特征;序列预测网络中的编解码器包含若干编码模块和若干解码模块,每个模块都针对输入的图像输出一个预测结果,且前一个模块的预测结果作为下一个模块预测结果输入的一部分,从而充分利用现有网络,提升网络性能,且在梯度更新时优化前向网络的参数,进而优化先前的预测结果。
上述步骤1中,采用RGB摄像头获取室外街景图像。
上述步骤2中,Xception网络提取图像特征的具体方法是:对训练集中的每幅图像提取原图像同样大小的h×w×n维的特征,其中,n表示训练集中的类别的个数,h和w分别代表输入图像的长和宽的大小。
上述步骤2中,对于所有编码模块和解码模块,其输出的预测结果是大小为hi×wi×n维的图像特征,i表示第i个模块,hi和wi分别代表第i个模块的长和宽。
上述步骤2中,编码模块设计有两种,第一种编码模块包括一个3×3的深度可分离卷积、一个步长等于2的3×3卷积和一个1×1卷积,第二种编码模块包括一个3×3的深度可分离卷积、一个步长等于1的1×1卷积和一个1×1卷积;解码模块设计有一种,包括一个步长为2的3×3反卷积、一个3×3的深度可分离卷积和一个3×3卷积。
上述步骤2中,在构建训练集时,采用带注释的图像以及未经标记的图像进行训练,若图像存在标记信息,则使用标记图像作为监督信息进行训练;若图像不存在标记信息,则使用Teacher网络的最后的预测结果作为Student网络的监督信息。
上述步骤2中,在对存在标记信息和不存在标记信息的图像进行学习时,其框架总体损失函数表示为:
其中,λ是用来平衡标注图像和未标注图像之间的权重,取值0或1,取0时表示使用不存在标记信息的图像作为小网络的Ground truth;Llabeled表示标注图像的损失函数,Lunlabeled表示未标注图像的损失函数。
上述步骤2中,对于每个编码模块或解码模块,均包含3种知识蒸馏方案:
像素知识蒸馏,使用交叉熵损失函数,从存在标记信息的图像或者Teacher网络的预测结果上蒸馏像素级别的类别知识;
边缘知识蒸馏,使用空间边缘损失函数,从存在标记信息的图像或者Teacher网络的预测结果上蒸馏多个尺度的空间边缘知识;以及,
整体知识蒸馏,使用对抗网络,从存在标记信息的图像或者Teacher网络的预测结果蒸馏整体的知识。
采用上述方案后,本发明具有以下改进:
(1)本发明提出一种序列预测网络(SPNet),该网络基于端到端的编解码器架构,用于实现高精度的实时语义分割,其中,编码模块用于解决下采样和通道减少时信息丢失的问题,解码模块用于上采样时来恢复空间位置信息和边缘信息;
(2)本发明充分利用大量未标记的图像,结合序列预测网络,在每一个模块上使用了3种知识蒸馏的方法,分别是像素知识蒸馏、空间边缘知识蒸馏和整体知识蒸馏,在只增加一些额外计算量的同时,极大地提高语义分割的准确性。
附图说明
图1是本发明提供的基于序列知识蒸馏的实时语义分割网络结构;
其中,虚线箭头表示级联操作,点划线箭头表示梯度反向传播;CEL表示交叉熵损失,SEL表示空间边缘损失,WGAN表示GAN损失函数,Ground Truth表示标注图像,teachernetwork表示教师网络;Llabeled表示标注图像的损失函数,Lunlabeled表示未标注图像的损失函数;
图2是基于序列知识蒸馏的实时语义分割模块图;
其中,(a)和(b)是编码模块,分别称为SPNet_EnC1和SPNet_EnC2;(c)是解码模块,称为SPNet_DeC3;(a)用于图像降采样过程,(c)用于图像重建过程;
其中,DS-COV表示深度可分离卷积,Max-pooling表示最大池化,Upsample表示上采样,Skip connection表示跳跃连接;
图3是在知识蒸馏的方法,从下到上分别是像素级知识蒸馏,空间边缘知识蒸馏和整体知识蒸馏;
其中,pixel-wise distillation表示像素级知识蒸馏,Spatial-edgedistillation表示空间知识蒸馏,Holisticdistillation表示整体知识蒸馏,Discriminator Network表示对抗网络,Wassertein loss是对抗网络的损失,Spatial-edge loss表示空间损失,crossentropyloss表示交叉熵损失函数,Side feature map表示中间层的图像特征,Final feature map表示神经网络最后一层特征,soremap表示argmax后的分数图像,不同分数值表示不同类别;虚线箭头表示输出不同的中间层特征;
图4是在水平方向和垂直方向上三个像素点内计算空间约束;
图5是本发明应用于在Cityscape的分割结果;
其中,Image表示输入RGB图像,Groundtruth表示标注图像,ICNet和DABNet是对比方法的名称。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
本发明提供一种基于序列知识蒸馏的实时语义分割方法,主要利用序列预测网络对采集的室外街景图像进行语义分割,所述序列预测网络主要包含如下内容:
1)如图1所示,本发明利用Xception作为主干网络来设计SPNet,通过使用三种设计来有效缓解现有实时网络中传播时产生的信息丢失问题:
首先提出了一个预测促进的方法来优化整个网络的参数,使用上一模块网络的预测结果来指导下一个模块的预测,下一个预测结果在梯度更新时则进一步优化上一模块的参数,从而改善了先前的预测样的设置使模型能够捕获从底层网络向高层网络传播的上下文信息,这将直接优化最后的输出结果;
其次,本发明将类似CRF的空间先验整合到CNN网络中。为实现这一目标,本发明提出了一种新颖的空间边缘损失(SEL),该方法可惩罚CNN网络预测的空间偏移损失,并避免CRF离线推理的高昂代价;
第三,我们将知识蒸馏的方法整合到我们的网络中,以进一步利用未标记的数据来提高网络的性能。
与现有的CNN语义分割框架相比,本发明做了以下调整来提升网络的精度。首先使用Xception作为骨干网络,对通道数量和步长进行调整,以实现速度和精度之间的更佳平衡。其次,我们使用跳跃连接从底层特征来恢复边界信息。与U-Net不同,我们在反卷积之前将底层特征和高层特征级联,从而提供了更丰富的特征来提升准确性。和DenseNet使用同时多个块中的特征不同,我们使用了一种上一个模块的预测结果来提高当前模块的准确性,并仅在相邻模块之间传递此跨模块结构信息。接着,我们介绍了空间边缘损失,并将其应用于多个分辨率的预测层,从而模拟了CRF的空间先验训练过程。这种设计使模型可以针对不同感受野的预测结果进行空间约束。最后,我们将知识蒸馏整合到我们的方法中,在缺少标注图像同时,将大网络学到的知识传递给小网络,让小网络的性能逼近大网络的性能。得益于提出的SPNet网络和空间边缘损失,我们可以进一步挖掘多尺度轻量级网络的像素知识、空间知识和整体知识。
2)设计编解码器。如图2所示,本发明SPNet中主要包含三种卷积,两种编码模块和一种解码模块,其中,(a)和(b)是编码模块,(c)是解码模块。
图2(a)显示了SPNet_EnC1的设计,该模块中主要包括3个卷积,一个3×3的深度可分离卷积,一个步长等于2的3×3卷积和一个1×1卷积,其中,1×1卷积用于控制输出通道的数量,图2(a)中的C表示当前数据库的类别数量,步长为2的3×3卷积将输出特征图像的长宽均减少为输入图像的一半,而使用3×3卷积的目的是在图像特征分辨率减小时降低信息的丢失。在通过深度可分离卷积后,得到当前模块的中间层特征,将上一模块的预测结果与当前模块的中间层特征级联,并使用1×1卷积,输出当前模块的预测结果,并引入GroundTruth,使用Softmax交叉熵损失函数,计算当前预测结果的前向网络的损失。本模块的预测结果不仅用于降低在图像分辨率和通道发生变化时候造成的损失,并且前一个预测结果也将作为后一个预测结果输入的一部分,用于指导后一个模块的预测。具体做法是,将当前模块的预测结果与当前模块的中间层级联,并通过步长为2的3×3卷积,得到当前模块的输出。因输出图像特征的分辨率减半,所以,本发明使用一个3×3的Max-pooling将当前模块预测结果的分辨率减半。
图2(b)显示了SPNet_EnC2的设计,该模块在结构上与SPNet_EnC1大致相似,同样是编码器部分的模块,不同的是SPNet_EnC1用于处理图像分辨率减小的模块,SPNet_EnC2用于处理图像分辨率的模块。故SPNet_EnC2与SPNet_EnC1在设计上有2处不同之处,其一是SPNet_EnC2使用步长为1的1×1卷积替换掉步长为2的3×3卷积,该方法可极大降低网络的计算量,其二是把当前模块的预测结果用来指导下一模块的预测,因为该模块输入输出图像分辨率大小一致。
图2(c)显示了SPNet_DeC3的设计,该模块将图像特征从低分辨率重建至高分辨率,但由于在高分辨图像上计算量激增,为均衡速度和精度,只将从解码器得到的图像特征从原图像的1/32重建至原图像的1/4,再上采样至原图像大小。SPNet_DeC3主要包括一个步长为2的3×3反卷积,一个3×3的深度可分离卷积和一个3×3卷积,其中,步长为2的3×3反卷积用于恢复图像分辨率,深度可分离卷积用于学习更精确的类别信息。Skip connect获取底层的空间位置信息,来恢复重建结果的空间位置信息。在通过一个步长为2的3×3反卷积和一个深度可分离卷积后,得到当前模块的中间层特征,并将底层特征与当前模块的中间层特征级联,再通过一个3×3卷积,得到当前模块的预测结果。其中,底层特征是编码器中与具有相同分辨率的最后一层特征,底层特征用于提供当前分辨率的空间位置信息,当前模块的中间层特征用于提供更精确的类别信息。最后将底层特征与当前模块的中间层特征级联,直接作为下一模块的输入。
3)序列知识蒸馏方法:因为语义分割任务的标注数据极为耗时,这意味着分割任务的标签训练集数量有限。除了各种作者提供的带注释的图像之外,我们还可以从互联网上获取大量未经标记的图像以进行训练。在这里,我们Teacher-Student学习框架进一步利用那些未标记的RGB图像来改善Student网络的性能。在此框架中,我们Teacher网络获得的分割结果作为Student网络的伪label信息,然后在这些未标记图像上继续训练我们的Student网络。因此,整个网络有两种学习模式,一种是对带有精细注释的全标记图像进行学习,另一种是对教师网络生成标注较差的未标记图像进行学习。两种学习模式都可以集成到同一框架中。更具体地说,带有标记数据和未标记数据的框架总体损失函数可以表示为:
其中,λ是用来平衡标注图像和未标注图像之间的权重,λ取值0或1,取0时表示使用未标注图像作为小网络的Ground truth。Llabeled表示标注图像的损失函数,Lunlabeled表示未标注图像的损失函数。
如图3所示,本发明共使用三种蒸馏方案,从下到上分别是像素级知识蒸馏,空间边缘知识蒸馏和整体知识蒸馏,有标注和无标注的图像使用同一套损失。
像素级知识蒸馏方案使用交叉熵损失函数,在预测图像和标注图像间的进行点对点的单像素级优化,公式如下:
其中,p和q分别代表预测图像和标注图像,t代表第t个模块,k表示类别数量,H和W表示图像的宽和高,Ht、Wt表示第t个模块的宽和高。和表示p和q在第t个模块上,第k个通道上的值。对和在k个通道上的值做argmax操作(返回最大值的位置),可得到和
空间知识蒸馏方案使用空间边缘损失来优化相邻像素间的关系,如图4所示,本发明拟对每个点在水平和垂直方向上的相邻三个像素之间的边缘关系进行约束,公式如下:
表示水平方向和垂直方向的边缘图像,r表示相邻r个像素计算边缘图像。相邻点的label值如果相等,则属于非边缘,如果不相等,则为边缘值,再将预测图像和标注图像之间的多个尺度的空间边缘图像加权计算损失,公式如下:
整体知识蒸馏方案使用WGAN损失,最初提出的GAN通过最小化Jensen Shannon(JS)散度来约束最小和最大目标,这通常会导致在训练生成器时出现不稳定的梯度。为解决此问题,WGAN使用Wasserstein距离来测量对抗网络中两个分布之间的差异。Wasserstein距离定义为使模型分布收敛到实际分布最小成本,解决了神经网络训练中梯度消失或爆炸的问题,如下所示:
其中,是期望算子,I是输入RGB的图像,St和Tt是Student网络和Teacher网络在t个模块的预测结果,Teacher网络的最后预测结果直接通过双线性差值resize到和预测结果同一分辨率上,如果存在标注图像的时候,则直接使用标注图像。Dt是第t模块中的对抗网络,将St和Tt投影为整体得分。Dt仅包含五个卷积层,并且加入attention的方法来增加感受野的大小。在此过程中,我们提取了知识以评估Student网络和Teacher网络的分割图像质量。我们的方法在cityscape上验证集的精度如图5所示,目前已达到时下较为领先的水平。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (8)
1.一种基于序列知识蒸馏的实时语义分割方法,其特征在于包括如下步骤:
步骤1,获取室外街景图像;
步骤2,将采集的室外街景图像送入序列预测网络,得到语义分割结果;
所述序列预测网络采用Xception网络作为主干网络,用于提取图像特征;序列预测网络中的编解码器包含若干编码模块和若干解码模块,每个模块都针对输入的图像输出一个预测结果,且前一个模块的预测结果作为下一个模块预测结果输入的一部分。
2.如权利要求1所述的方法,其特征在于:所述步骤1中,采用RGB摄像头获取室外街景图像。
3.如权利要求1所述的方法,其特征在于:所述步骤2中,Xception网络提取图像特征的具体方法是:对训练集中的每幅图像提取原图像同样大小的h×w×n维的特征,其中,n表示训练集中的类别的个数,h和w分别代表输入图像的长和宽的大小。
4.如权利要求1所述的方法,其特征在于:所述步骤2中,对于所有编码模块和解码模块,其输出的预测结果是大小为hi×wi×n维的图像特征,i表示第i个模块,hi和wi分别代表第i个模块的长和宽。
5.如权利要求1所述的方法,其特征在于:所述步骤2中,编码模块设计有两种,第一种编码模块包括一个3×3的深度可分离卷积、一个步长等于2的3×3卷积和一个1×1卷积,第二种编码模块包括一个3×3的深度可分离卷积、一个步长等于1的1×1卷积和一个1×1卷积;解码模块设计有一种,包括一个步长为2的3×3反卷积、一个3×3的深度可分离卷积和一个3×3卷积。
6.如权利要求1所述的方法,其特征在于:所述步骤2中,在构建训练集时,采用带注释的图像以及未经标记的图像进行训练,若图像存在标记信息,则使用标记图像作为监督信息进行训练;若图像不存在标记信息,则使用Teacher网络的最后的预测结果作为Student网络的监督信息。
8.如权利要求7所述的方法,其特征在于:所述步骤2中,对于每个编码模块或解码模块,均包含3种知识蒸馏方案:
像素知识蒸馏,使用交叉熵损失函数,从存在标记信息的图像或者Teacher网络的预测结果上蒸馏像素级别的类别知识;
边缘知识蒸馏,使用空间边缘损失函数,从存在标记信息的图像或者Teacher网络的预测结果上蒸馏多个尺度的空间边缘知识;以及,
整体知识蒸馏,使用对抗网络,从存在标记信息的图像或者Teacher网络的预测结果蒸馏整体的知识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010504654.3A CN111723812B (zh) | 2020-06-05 | 2020-06-05 | 一种基于序列知识蒸馏的实时语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010504654.3A CN111723812B (zh) | 2020-06-05 | 2020-06-05 | 一种基于序列知识蒸馏的实时语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723812A true CN111723812A (zh) | 2020-09-29 |
CN111723812B CN111723812B (zh) | 2023-07-07 |
Family
ID=72566004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010504654.3A Active CN111723812B (zh) | 2020-06-05 | 2020-06-05 | 一种基于序列知识蒸馏的实时语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723812B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465111A (zh) * | 2020-11-17 | 2021-03-09 | 大连理工大学 | 一种基于知识蒸馏和对抗训练的三维体素图像分割方法 |
CN113538480A (zh) * | 2020-12-15 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 图像分割处理方法、装置、计算机设备和存储介质 |
CN114267062A (zh) * | 2021-12-07 | 2022-04-01 | 北京的卢深视科技有限公司 | 模型训练方法、电子设备和计算机可读存储介质 |
JP7490116B1 (ja) | 2022-12-06 | 2024-05-24 | 之江実験室 | 病理画像の分類方法、装置、デバイスおよび記憶媒体 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8508622B1 (en) * | 2010-01-15 | 2013-08-13 | Pixar | Automatic real-time composition feedback for still and video cameras |
CN109271537A (zh) * | 2018-08-10 | 2019-01-25 | 北京大学 | 一种基于蒸馏学习的文本到图像生成方法和系统 |
CN110009013A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 编码器训练及表征信息提取方法和装置 |
CN110163236A (zh) * | 2018-10-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN110223281A (zh) * | 2019-06-06 | 2019-09-10 | 东北大学 | 一种数据集中含有不确定数据时的肺结节图像分类方法 |
CN110414368A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于知识蒸馏的无监督行人重识别方法 |
CN110580302A (zh) * | 2019-08-13 | 2019-12-17 | 天津大学 | 一种基于半异构联合嵌入网络的草图图像检索方法 |
CN111062951A (zh) * | 2019-12-11 | 2020-04-24 | 华中科技大学 | 一种基于语义分割类内特征差异性的知识蒸馏方法 |
-
2020
- 2020-06-05 CN CN202010504654.3A patent/CN111723812B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8508622B1 (en) * | 2010-01-15 | 2013-08-13 | Pixar | Automatic real-time composition feedback for still and video cameras |
CN109271537A (zh) * | 2018-08-10 | 2019-01-25 | 北京大学 | 一种基于蒸馏学习的文本到图像生成方法和系统 |
CN110163236A (zh) * | 2018-10-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN110009013A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 编码器训练及表征信息提取方法和装置 |
CN110223281A (zh) * | 2019-06-06 | 2019-09-10 | 东北大学 | 一种数据集中含有不确定数据时的肺结节图像分类方法 |
CN110414368A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于知识蒸馏的无监督行人重识别方法 |
CN110580302A (zh) * | 2019-08-13 | 2019-12-17 | 天津大学 | 一种基于半异构联合嵌入网络的草图图像检索方法 |
CN111062951A (zh) * | 2019-12-11 | 2020-04-24 | 华中科技大学 | 一种基于语义分割类内特征差异性的知识蒸馏方法 |
Non-Patent Citations (2)
Title |
---|
UMBERTO MICHIELI 等: "Knowledge Distillation for Incremental Learning in Semantic Segmentation" * |
喻杉: "基于深度环境理解和行为模仿的强化学习智能体设计" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465111A (zh) * | 2020-11-17 | 2021-03-09 | 大连理工大学 | 一种基于知识蒸馏和对抗训练的三维体素图像分割方法 |
CN113538480A (zh) * | 2020-12-15 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 图像分割处理方法、装置、计算机设备和存储介质 |
CN114267062A (zh) * | 2021-12-07 | 2022-04-01 | 北京的卢深视科技有限公司 | 模型训练方法、电子设备和计算机可读存储介质 |
CN114267062B (zh) * | 2021-12-07 | 2022-12-16 | 合肥的卢深视科技有限公司 | 人脸解析模型的训练方法、电子设备和存储介质 |
JP7490116B1 (ja) | 2022-12-06 | 2024-05-24 | 之江実験室 | 病理画像の分類方法、装置、デバイスおよび記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN111723812B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723812A (zh) | 一种基于序列知识蒸馏的实时语义分割方法 | |
CN111062951B (zh) | 一种基于语义分割类内特征差异性的知识蒸馏方法 | |
CN110443818B (zh) | 一种基于涂鸦的弱监督语义分割方法与系统 | |
CN116342596B (zh) | 一种基于YOLOv5改进的变电站设备螺母缺陷识别检测方法 | |
CN111008633B (zh) | 一种基于注意力机制的车牌字符分割方法 | |
CN111210446B (zh) | 一种视频目标分割方法、装置和设备 | |
Zhang et al. | Lightweight and efficient asymmetric network design for real-time semantic segmentation | |
CN113221874A (zh) | 基于Gabor卷积和线性稀疏注意力的文字识别系统 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN114648684A (zh) | 一种用于图像目标检测的轻量级双分支卷积神经网络及其检测方法 | |
US20240062347A1 (en) | Multi-scale fusion defogging method based on stacked hourglass network | |
CN115775316A (zh) | 基于多尺度注意力机制的图像语义分割方法 | |
CN114241218A (zh) | 一种基于逐级注意力机制的目标显著性检测方法 | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
CN113869396A (zh) | 基于高效注意力机制的pc屏幕语义分割方法 | |
CN117689860A (zh) | 一种基于深度学习的车道线图像增强方法 | |
Li et al. | Efficient image analysis with triple attention vision transformer | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN111259176B (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
Chacon-Murguia et al. | Moving object detection in video sequences based on a two-frame temporal information CNN | |
CN114821420B (zh) | 基于多时间分辨率时态语义聚合网络的时序动作定位方法 | |
CN115424012A (zh) | 一种基于上下文信息的轻量图像语义分割方法 | |
CN115660984A (zh) | 一种图像高清还原方法、装置及存储介质 | |
CN114638870A (zh) | 一种基于深度学习的室内场景单目图像深度估计方法 | |
CN114494056A (zh) | 一种量子彩色图像的中值滤波方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |