CN111639524A - 一种自动驾驶图像语义分割优化方法 - Google Patents

一种自动驾驶图像语义分割优化方法 Download PDF

Info

Publication number
CN111639524A
CN111639524A CN202010311647.1A CN202010311647A CN111639524A CN 111639524 A CN111639524 A CN 111639524A CN 202010311647 A CN202010311647 A CN 202010311647A CN 111639524 A CN111639524 A CN 111639524A
Authority
CN
China
Prior art keywords
network
segmentation
training
activation
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010311647.1A
Other languages
English (en)
Other versions
CN111639524B (zh
Inventor
赖剑煌
郭彤彤
李中华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010311647.1A priority Critical patent/CN111639524B/zh
Publication of CN111639524A publication Critical patent/CN111639524A/zh
Application granted granted Critical
Publication of CN111639524B publication Critical patent/CN111639524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种自动驾驶图像语义分割优化方法,该方法设计了一种使用标签来辅助激活的AAM模块,通过分割标签对网络提取的特征进行修正,使得同类物体提取出来的特征具有近似相同的值。将AAM模块集成到分割模型的编码器与解码器中间,通过训练得到一个性能比基准模型更好的模型,称为教师网络;通过知识迁移将教师网络基于AAM模块的所学知识迁移到分割模型中,从而提升其分割性能。本发明能够很好地挖掘分割标签的信息来提高分割模型的性能,并且无需修改网络结构,具有很强的应用价值。

Description

一种自动驾驶图像语义分割优化方法
技术领域
本发明涉及自动驾驶以及图像语义分割领域,特别涉及一种自动驾驶图像语义分割优化方法。
背景技术
智能交通的感知任务最大的挑战在于需要处理的环境高度复杂。通过相机获取到的图像是非常丰富的多维信号,但是这些图像又需要极其复杂的算法来处理。传统的基于视觉的方法主要是开发特定的技术来检测交通中的组成成分,例如行人汽车交通灯等,通过深度学习把这些分类问题统一成一个简单的问题:语义分割。
语义分割是由粗略分类到精细分类这个问题的进化产物,要对每一个像素都进行一个类别预测。在深度学习中,需要设计网络来获取整张图片的语义及位置信息。可以概括为以下几种思路:Patch classification、全卷积、Encoder-Decoder架构(编码器-解码器架构)、空洞卷积。为了帮助网络提升他们的性能,挖掘更多的先验知识是一个很好的办法。应用过程中获取到的数据集一般都包括RGB原图像和对应的分割掩膜。在端到端的语义分割网络训练过程中,标签掩膜是整个网络的学习目标,最终通过计算网络得到的掩膜和标签之间的分类损失,利用优化器将其最小化来获得更高的分类精度。
在编码器-解码器架构方法中,编码器的目标是学习一张RGB原图的高层语义特征,去试图学习并激活整张图片中不同类别的目标,并将不同类别目标的激活值尽可能的区分开。可发现分割标签就是由0~类别数N区间内的数字组成。如果把这些数字想象成激活的不同程度,那这种信息就可以作为先验知识,来帮助提升整个网络的性能。
然而,在训练阶段使用已标注的分割标签作为网络输入能产生更优异的分类结果,但也会导致在测试阶段产生糟糕的分类,因为测试数据集的分割标签往往是不可得的。
为此,如何在保持实时的前提下提高分割精度,成为一个重要的研究内容。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种自动驾驶图像语义分割优化方法,该方法针对自动驾驶图像,深度挖掘分割标签信息,将标签信息协助语义分割,挖掘更多先验知识,帮助网络学习判别性信息及实现最大化的分割结果,在保持实时的前提下提高分割精度。
本发明的目的通过以下的技术方案实现:一种自动驾驶图像语义分割优化方法,包括步骤:
构建一教师-学生学习网络,其中教师网络是指编码器、AAM模块、解码器训练得到的分割模型,学生网络为仅包括编码器、解码器的基准模型,通过知识迁移将学习好的教师网络的知识迁移到学生网络,进而训练学生网络;
在训练教师网络过程中将AAM模块集成到基准模型的编码器和解码器中间,得到教师网络分割模型;
其中,AAM模块中没有可学习参数,其执行下述4个步骤:
将编码器输出的多通道高层语义特征图按通道的维度求平均,获得每个像素位置的平均特征值,进而得到单通道平均特征图;
将单通道平均特征图逐像素的和训练集分割标签相乘,得到单通道前辅助性特征激活图;所述训练集分割标签中属于不同的目标的像素有不同的激活等级;
将单通道前辅助性特征激活图与激活因子相乘,得到最终辅助性特征激活图;所述激活因子在训练过程中会随着训练次数的增加逐渐减小直至为零;
将最终辅助性特征激活图与多通道高层语义特征图相加,作为解码器的输入。
本发明在训练教师网络过程中,在编码器和解码器中间插入AAM模块,AAM模块将编码器高层语义特征和训练集分割标签作为输入,可以获取辅助性特征激活图,加大不同类目标的特征激活值距离,帮助网络提升分割性能。通过设置激活因子可以控制在训练后期降低训练集分割标签的参与,有助于网络自身的学习。本发明能够很好地挖掘分割标签的信息来提高分割模型的性能,并且无需修改网络结构,提升学生网络的分类性能,具有很强的应用价值。
优选的,AAM模块中激活因子的计算公式为:
Figure BDA0002458067940000021
其中t和max分别表示当前和最大的训练循环次数。
优选的,教师网络的分割损失采用多类交叉熵损失,每一个类别损失权重根据数据集提前计算,被忽视的类别的权重设为零,多类交叉熵损失计算公式如下:
Figure BDA0002458067940000031
其中,W×H表示图像的分辨率大小,qi,j表示由网络预测的第i个像素属于第j类的概率,yi,j代表对应的真值(Ground Truth),ωj表示第j类的权重,R表示从1到W×H的像素集合,K表示所有类别的集合。
更进一步的,用KL散度来约束教师网络和学生网络的输出概率分布距离,使得分布距离尽可能缩短。相比之下,这种经过进修的网络表现比原始的baseline(基准)分割网络性能更优。本发明学生网络的训练采用KL损失去迁移教师网络的知识,其表达式如下:
Figure BDA0002458067940000032
其中,W×H表示图像的分辨率大小,
Figure BDA0002458067940000033
表示由学生网络预测的第i个像素的类概率,
Figure BDA0002458067940000034
表示由教师网络预测的第i个像素的类概率,R表示从1到W×H的像素集合;
学生网络训练过程中总的损失函数表达为以下式子:
Figure BDA0002458067940000035
其中
Figure BDA0002458067940000036
是多类交叉熵损失,λ是一个超参数。
优选的,本发明中所述的基准模型包括但不限于:LEDNet,DFANet,SegNet,ENet,ESPNet,ERFNet,ICNet和CGNet;分割模型采用Adam优化器来训练。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明针对自动驾驶图像,提出了辅助性的激活模块AAM去挖掘训练集图像的分割标签潜在的信息,能够在保持实时的前提下提高分割精度。
2、本发明提出了一个新颖的工作机制,将AAM模块协助下的教师网络训练好的知识迁移到没有AAM模块的学生网络中去,这样可以很好地解决在测试阶段测试集缺乏分割标签参与网络输入导致的泛化能力不足的问题。值得注意的是教师网络和学生网络仅仅相差一个AAM模块。
3、本发明将未携带AAM模块的baseline分割网络作为学生网络。教师网络因为有了辅助性的激活模块的帮助,获得的知识更稳定。将它的知识迁移到学生网络中,让学生网络即使没有标签的额外协助也可以训练出好的参数,可提升性能。
附图说明
图1是本发明在八个分割网络上作用的实验结果。
图2是本发明提出的辅助性激活模块AAM的原理结构图。
图3是本发明完整的网络结构图。
图4是本发明在Cityscapes数据集上的实验结果图片效果。
图5是本发明在Camvid数据集上的实验结果图片效果。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本发明的重点在于如何保证网络实时的前提下挖掘训练集分割标签的信息来提高基准模型的分割性能,提出了一种自动驾驶图像语义分割优化方法,该方法的核心是在基准模型的编码器和解码器中间设置一个AAM模块,将训练集分割标签和编码器高层语义特征作为AAM模块的输入,通过AAM模块的处理得到辅助性的特征激活值,帮助网络提升分割性能。
进一步的,根据上述自动驾驶图像语义分割优化方法,本实施例构建图3所示的教师-学生学习网络,其中教师网络是指所述编码器、AAM模块、解码器训练得到的分割模型,学生网络为仅包括编码器、解码器的基准模型,通过知识迁移将学习好的教师网络的知识迁移到学生网络,进而训练学生网络。达到优化基准模型的目的。在实际应用中,该网络还可以应用到缺陷在线检测等要求实时进行语义分割的领域。
下面结合图1-5对本实施例方法及其效果进行详细说明。
如图3所示,在整个网络结构图中,编码器获取图像的高层语义特征图,得到目标在空间和语义上的信息,即目标激活图。高层特征图越能区分原图像中各个目标,解码器就能获得更好的语义分割掩膜。所以在训练过程中,在编码器和解码器中间插入AAM模块获取最终的辅助性特征激活图加大不同目标的特征激活值距离,优化高层特征图,可帮助网络提升分割性能。
AAM模块是挖掘并利用训练集分割标签的信息。正如图2所示,在训练阶段,AAM模块将编码器的高层特征图和训练集分割标签作为输入。执行下述4个步骤:
(1)将编码器输出的多通道高层语义特征图按通道的维度求平均,获得每个像素位置的平均特征值,进而得到单通道平均特征图。特征图分辨率不变,通道由C变为1。C表示高层语义特征图的通道数量。
(2)利用训练集分割标签的数值属性,属于不同的目标的像素有不同的激活等级,将单通道平均特征图逐像素的和训练集分割标签相乘,获得单通道前辅助性特征激活图。同一类别的目标辅助性激活程度相同,不同类别的目标辅助性激活程度就不同,可以拉大不同目标的特征值差异。
(3)设置一个激活因子α,激活因子在训练期间会逐渐降低,辅助性特征激活图也会逐渐减小,控制在训练后期降低训练集分割标签的参与,有助于网络自身的学习。其中的激活因子α为:
Figure BDA0002458067940000051
其中t和max分别表示当前和最大的训练循环次数。
然后,将单通道前辅助性特征激活图与激活因子相乘,得到最终辅助性特征激活图。
(4)将最终辅助性特征激活图通过传播机制与多通道高层语义特征图相加,作为解码器的输入。
如表1所示,将AAM模块集成到不同的教师网络上后,在训练集和测试集上得到分割结果,从该表数据可看到,尽管AAM模块的参与的确在训练阶段展示取得了较好的分割效果,但由于测试阶段,测试集的分割标签不能直接作为网络的输入,没有AAM的模块协助,未能产生好的分割效果。
表1不同教师网络在训练和测试集上的结果
Teacher Training mIoU(%) Validation mIoU(%)
LEDNet* 91.4 23.2
DFANet* 90.3 53.0
SegNet* 69.9 4.1
ENet* 88.2 37.1
ESPNet* 88.5 35.3
ERFNet* 90.5 27.2
ICNet* 82.9 55.6
CGNet* 83.9 60.6
由于在测试阶段,网络没有数据标签作为输入,在S1部分中提到的激活因子在一定程度上可以解决此泛化能力的问题,但起到的作用很小。循环学习的机制在图像分割上的作用远远比想象中的更加依赖于标签。这就导致在测试阶段,整个模型没有AAM模块的参与,将加深泛化差的问题。对于深度学习中的泛化能力问题,很多研究者已经提出像增加BN层或者数据增强的方式来解决,但是这些方法能力是非常有限的。
本实施例提出了一种解决泛化能力问题的方法LAFE,利用知识迁移,将有AAM模块参与的网络称为教师网络,将它获取的稳定的知识迁移到没有AAM模块参与的学生网络中,提升学生网络分割性能。
LAFE方法可以作用到已有的baseline(基准)分割模型中进行优化。这项技术仅仅涉及到训练过程,在测试阶段不改变baseline网络结构,不增加任何计算量。整个训练过程分为两个阶段:
a、利用AAM模块训练出教师网络。
在编码器-解码器架构中,编码器将输入图像经过多层卷积层以及下采样得到高层的语义特征图。高层特征图可以获取各类别目标的位置信息以及语义信息。随后解码器获取编码器学到的高层特征图,通过上采样等一系列操作得到最终的分割掩膜。AAM模块利用了训练集分割标签的阶梯状数值的表示,不仅仅辅助了每个目标中像素的分类,还加大不同目标之间的距离。在AAM模块中,分割标签的分辨率会与下采样和编码器得到的特征图分辨率一致。
AAM模块得到的单通道辅助性特征激活图将会被加到编码器高层特征图上,再传入给解码器解码。这种工作模式将表达为以下数学表达式:
al+1=a1+α(t)e (2)
其中al和al+1分别表示编码器的高层特征图以及将输入到解码器的特征图。本发明训练阶段的AAM模块并没有涉及学习参数,而且测试阶段没有增加计算量、没有改变网络模型。通过实验结果显示,挖掘训练集标签信息的AAM模块起到了非常重要的作用。
教师网络的分割损失采用了多类交叉熵损失。每一个类别损失权重都会根据数据集提前计算。被忽视的类别的权重设为零。多类交叉熵损失计算公式如下:
Figure BDA0002458067940000071
其中,W×H表示图像的分辨率大小,qi,j表示由网络预测的第i个像素属于第j类的概率,yi,j代表对应的真值(Ground Truth),ωj表示第j类的权重,R表示从1到W×H的像素集合,K表示所有类别的集合。
b、将学习好的教师网络的知识迁移到学生网络中,训练出优异的学生网络。
将训练集分割标签协助的、训练好的教师网络的知识迁移到学生网络中,提高网络泛化能力。知识迁移的过程中,所选定的教师网络参数将会是训练教师网络过程中性能最好的模型,辅助性激活因子也将是这个模型相应的因子值。学生网络的结构和教师网络的结构在训练时只相差AAM模块。在分类概率中,不正确的类别概率值也会说明很多关于模型是如何泛化的信息。类别分类概率作为软目标。在教师网络和学生网络之间,采用了KL散度来去度量两个网络的输出概率分布距离并尽可能缩短。LAFE是一个相对独立的方法,可以帮助已有的baseline分割网络提升性能。
学生网络的训练应用KL损失去迁移教师网络的知识。其表达式如下:
Figure BDA0002458067940000072
其中,W×H表示图像的分辨率大小,
Figure BDA0002458067940000073
表示由学生网络预测的第i个像素的类概率,
Figure BDA0002458067940000074
表示由教师网络预测的第i个像素的类概率。
学生网络训练过程中总的损失函数表达为以下式子:
Figure BDA0002458067940000075
其中
Figure BDA0002458067940000076
是多类交叉熵损失,λ是一个超参数,在实验中设为0.25。
本实施例使用了两个数据集Cityscapes和Camvid来验证LAFE技术的有效性。Cityscapes这个数据集主要是用来描述城市街道场景与理解。其中包括50个不同城市的街道场景的视频帧。本发明利用了5000个高质量的细标注标签。这个标签数据总共包括2975张训练图,500张验证图以及1525张测试图。
Camvid这个数据集是第一个收集目标类别语义标签的视频集。这个数据集总共包括有32个类别。实验仅用11个类别有精细像素级的标注。其他类别的目标将被忽视不参与到训练中。
本实施例选择了八个性能优异的baseline来作为被辅助对象,包括LEDNet,DFANet,SegNet,ENet,ESPNet,ERFNet,ICNet和CGNet。为了方便实验的进行,所有的分割网络都用Adam优化器来训练,优化器中的两个配置参数-指数衰减率β1和β2分别设为0.9和0.999。权重衰减系数设为0.0004。总训练次数300次。学习率最初定为0.0005。并且通过相乘
Figure BDA0002458067940000081
更新。两个数据集的图像分辨率分别为1024x512和480x360。在训练阶段应用了数据增强的方法其中包括随机平移0到2个像素、随机垂直反转。测试阶段没有应用增强数据。所有的实验都是在PyTorch框架上写的。并且使用3个GTX1080ti GPU。将baseline网络和利用LAFE进修的baseline两种模型得到的性能之间做了mIoU和category精确度比较。
在Cityscapes上的结果如下表数据所示,“+”表示本实施例方法处理后的模型。
表2在Cityscapes上不同网络的结果对比
Figure BDA0002458067940000082
每个模型的性能都以提高,分别产生了1.8、6.6、4.06、5,28、5.5、1.7、1.0的精确度的增益。说明知识迁移缓解了泛化差的问题。这些类别包括墙、栅栏、交通灯、交通标志、行人、卡车、公共汽车以及火车自行车。在原始网络中都表现极好的类别上一仍旧保持着高的性能。附图4是分割可视化结果,可以证明经过LAFE技术进修的baseline模型对所有的类别都有一致性的质量上的提高。
在Camvid上的结果如表3所示,其中“+”表示本实施例方法处理后的模型。
表3在Camvid上不同网络的结果对比
Figure BDA0002458067940000091
由于这个数据集存在某些类别的数据极其不平衡的缺陷,本实施例训练的分割网络可能在某些类别上会产生比较低的性能,比如栅栏。而在其它类别上,以及平均水平都做得很好。通过比较所有的实验,唯一的下降就是Segnet这个网络,分析该网络编码器下采样率16倍过低导致失去了更多的信息。图5显示了分割网络输出的可视化例子,这也证明了在质量上的提高。
本项发明提出了利用训练集分割标签来协助baseline分割网络提升性能。提出的LAFE方法通过知识迁移,将训练好的教师网络的知识去训练出一个更高性能的学生网络。该方法尝试着去挖掘更多先验知识,帮助网络学习判别性信息及实现最大化的分割结果。本实施例将LAFE方法应用到了八个语义分割的baseline网络结构中,在Cityscapes和Camvid的两个数据集上的实验都实现了分割精度上的极大提升,证明其有效性,而且测试阶段仍旧保留了原始的网络结构。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (5)

1.一种自动驾驶图像语义分割优化方法,其特征在于,
构建一教师-学生学习网络,其中教师网络是指编码器、AAM模块、解码器训练得到的分割模型,学生网络为仅包括编码器、解码器的基准模型,通过知识迁移将学习好的教师网络的知识迁移到学生网络,进而训练学生网络;
在训练教师网络过程中将AAM模块集成到基准模型的编码器和解码器中间,得到教师网络分割模型;
其中,AAM模块中没有可学习参数,其执行下述4个步骤:
将编码器输出的多通道高层语义特征图按通道的维度求平均,获得每个像素位置的平均特征值,进而得到单通道平均特征图;
将单通道平均特征图逐像素的和训练集分割标签相乘,得到单通道前辅助性特征激活图;所述训练集分割标签中属于不同的目标的像素有不同的激活等级;
将单通道前辅助性特征激活图与激活因子相乘,得到最终辅助性特征激活图;所述激活因子在训练过程中会随着训练次数的增加逐渐减小直至为零;
将最终辅助性特征激活图与多通道高层语义特征图相加,作为解码器的输入。
2.根据权利要求1所述的自动驾驶图像语义分割优化方法,其特征在于,AAM模块中激活因子的计算公式为:
Figure FDA0002458067930000011
其中t和max分别表示当前和最大的训练循环次数。
3.根据权利要求1所述的自动驾驶图像语义分割优化方法,其特征在于,教师网络的分割损失采用多类交叉熵损失,每一个类别损失权重根据数据集提前计算,被忽视的类别的权重设为零,多类交叉熵损失计算公式如下:
Figure FDA0002458067930000012
其中,W×H表示图像的分辨率大小,qi,j表示由网络预测的第i个像素属于第j类的概率,yi,j代表对应的真值,ωj表示第j类的权重,R表示从1到W×H的像素集合,K表示所有类别的集合。
4.根据权利要求3所述的自动驾驶图像语义分割优化方法,其特征在于,学生网络的训练采用KL损失去迁移教师网络的知识,其表达式如下:
Figure FDA0002458067930000021
其中,W×H表示图像的分辨率大小,
Figure FDA0002458067930000022
表示由学生网络预测的第i个像素的类概率,
Figure FDA0002458067930000023
表示由教师网络预测的第i个像素的类概率,R表示从1到W×H的像素集合;
学生网络训练过程中总的损失函数表达为以下式子:
Figure FDA0002458067930000024
其中
Figure FDA0002458067930000025
是多类交叉熵损失,λ是一个超参数。
5.根据权利要求1所述的自动驾驶图像语义分割优化方法,其特征在于,所述的基准模型包括但不限于:LEDNet,DFANet,SegNet,ENet,ESPNet,ERFNet,ICNet和CGNet;分割模型采用Adam优化器来训练。
CN202010311647.1A 2020-04-20 2020-04-20 一种自动驾驶图像语义分割优化方法 Active CN111639524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010311647.1A CN111639524B (zh) 2020-04-20 2020-04-20 一种自动驾驶图像语义分割优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010311647.1A CN111639524B (zh) 2020-04-20 2020-04-20 一种自动驾驶图像语义分割优化方法

Publications (2)

Publication Number Publication Date
CN111639524A true CN111639524A (zh) 2020-09-08
CN111639524B CN111639524B (zh) 2023-04-18

Family

ID=72330763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010311647.1A Active CN111639524B (zh) 2020-04-20 2020-04-20 一种自动驾驶图像语义分割优化方法

Country Status (1)

Country Link
CN (1) CN111639524B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505797A (zh) * 2021-09-09 2021-10-15 深圳思谋信息科技有限公司 模型训练方法、装置、计算机设备和存储介质
CN113688760A (zh) * 2021-08-31 2021-11-23 广州文远知行科技有限公司 自动驾驶的数据识别方法、装置、计算机设备和存储介质
CN114267062A (zh) * 2021-12-07 2022-04-01 北京的卢深视科技有限公司 模型训练方法、电子设备和计算机可读存储介质
CN114359563A (zh) * 2022-03-21 2022-04-15 深圳思谋信息科技有限公司 模型训练方法、装置、计算机设备和存储介质
CN114399640A (zh) * 2022-03-24 2022-04-26 之江实验室 一种不确定区域发现与模型改进的道路分割方法及装置
CN115100491A (zh) * 2022-08-25 2022-09-23 山东省凯麟环保设备股份有限公司 一种面向复杂自动驾驶场景的异常鲁棒分割方法与系统
CN116626670A (zh) * 2023-07-18 2023-08-22 小米汽车科技有限公司 自动驾驶模型的生成方法、装置、车辆及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670392A (zh) * 2018-09-04 2019-04-23 中国人民解放军陆军工程大学 基于混合自动编码器道路图像语义分割方法
US20190147320A1 (en) * 2017-11-15 2019-05-16 Uber Technologies, Inc. "Matching Adversarial Networks"

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147320A1 (en) * 2017-11-15 2019-05-16 Uber Technologies, Inc. "Matching Adversarial Networks"
CN109670392A (zh) * 2018-09-04 2019-04-23 中国人民解放军陆军工程大学 基于混合自动编码器道路图像语义分割方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688760A (zh) * 2021-08-31 2021-11-23 广州文远知行科技有限公司 自动驾驶的数据识别方法、装置、计算机设备和存储介质
CN113505797A (zh) * 2021-09-09 2021-10-15 深圳思谋信息科技有限公司 模型训练方法、装置、计算机设备和存储介质
CN114267062A (zh) * 2021-12-07 2022-04-01 北京的卢深视科技有限公司 模型训练方法、电子设备和计算机可读存储介质
CN114267062B (zh) * 2021-12-07 2022-12-16 合肥的卢深视科技有限公司 人脸解析模型的训练方法、电子设备和存储介质
CN114359563A (zh) * 2022-03-21 2022-04-15 深圳思谋信息科技有限公司 模型训练方法、装置、计算机设备和存储介质
CN114359563B (zh) * 2022-03-21 2022-06-28 深圳思谋信息科技有限公司 模型训练方法、装置、计算机设备和存储介质
CN114399640A (zh) * 2022-03-24 2022-04-26 之江实验室 一种不确定区域发现与模型改进的道路分割方法及装置
CN115100491A (zh) * 2022-08-25 2022-09-23 山东省凯麟环保设备股份有限公司 一种面向复杂自动驾驶场景的异常鲁棒分割方法与系统
CN115100491B (zh) * 2022-08-25 2022-11-18 山东省凯麟环保设备股份有限公司 一种面向复杂自动驾驶场景的异常鲁棒分割方法与系统
US11954917B2 (en) 2022-08-25 2024-04-09 Shandong Kailin Environmental Protection Equipment Co., Ltd. Method of segmenting abnormal robust for complex autonomous driving scenes and system thereof
CN116626670A (zh) * 2023-07-18 2023-08-22 小米汽车科技有限公司 自动驾驶模型的生成方法、装置、车辆及存储介质
CN116626670B (zh) * 2023-07-18 2023-11-03 小米汽车科技有限公司 自动驾驶模型的生成方法、装置、车辆及存储介质

Also Published As

Publication number Publication date
CN111639524B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111639524B (zh) 一种自动驾驶图像语义分割优化方法
WO2022083157A1 (zh) 目标检测方法、装置及电子设备
CN109753913B (zh) 计算高效的多模式视频语义分割方法
Zhang et al. Lightweight and efficient asymmetric network design for real-time semantic segmentation
CN111814621A (zh) 一种基于注意力机制的多尺度车辆行人检测方法及装置
CN106022237A (zh) 一种端到端的卷积神经网络的行人检测方法
CN114120319A (zh) 一种基于多层次知识蒸馏的连续图像语义分割方法
CN110717493B (zh) 一种基于深度学习的含堆叠字符的车牌识别方法
CN111008633A (zh) 一种基于注意力机制的车牌字符分割方法
CN112070174A (zh) 一种基于深度学习的自然场景下文本检测方法
CN115147819A (zh) 基于注视点预测模型的驾驶员注视点预测方法
Hua et al. Convolutional networks with bracket-style decoder for semantic scene segmentation
Liu et al. URTSegNet: A real-time segmentation network of unstructured road at night based on thermal infrared images for autonomous robot system
CN113963333B (zh) 一种基于改进yolof模型的交通标志牌检测方法
CN113869396A (zh) 基于高效注意力机制的pc屏幕语义分割方法
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN114973202B (zh) 一种基于语义分割的交通场景障碍物检测方法
CN112580424B (zh) 一种复杂车路环境的偏振特征多尺度池化分类算法
CN115577793A (zh) 一种面向网络结构的映射式蒸馏方法及其训练方法
Zhu et al. A Faster Semantic Segmentation Method for Lane Detection
CN109902572A (zh) 一种基于深度学习的车辆检测方法
Wang et al. MFCANet: A road scene segmentation network based on Multi-Scale feature fusion and context information aggregation
CN114067116B (zh) 一种基于深度学习和权重分配的实时语义分割系统及方法
Chen et al. AMSC: Adaptive Masking and Structure-Constraint Learning for Domain Adaptive Semantic Segmentation Under Adverse Conditions
Qu et al. Multi-branch residual image semantic segmentation combined with inverse weight gated-control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant