CN117671647A - 一种多任务道路场景感知方法 - Google Patents
一种多任务道路场景感知方法 Download PDFInfo
- Publication number
- CN117671647A CN117671647A CN202410130909.2A CN202410130909A CN117671647A CN 117671647 A CN117671647 A CN 117671647A CN 202410130909 A CN202410130909 A CN 202410130909A CN 117671647 A CN117671647 A CN 117671647A
- Authority
- CN
- China
- Prior art keywords
- task
- loss
- segmentation
- lane line
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000008447 perception Effects 0.000 title claims abstract description 48
- 230000011218 segmentation Effects 0.000 claims abstract description 138
- 238000001514 detection method Methods 0.000 claims abstract description 63
- 230000006870 function Effects 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000005303 weighing Methods 0.000 claims description 3
- 230000016776 visual perception Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 208000020442 loss of weight Diseases 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供一种多任务道路场景感知方法,其可以在完成车辆检测、车道线分割和允许行驶区域分割的任务的基础上,提高多任务模型的训练效率及检测精度。其基于ResNet50构建多任务道路场景感知模型,在模型中设置了车辆检测分支、车道线分割分支和允许行驶区域分割分支,采用多尺度损失约束的方式为车辆检测、车道线分割和允许行驶区域分割设置损失函数。
Description
技术领域
本发明涉及自动驾驶视觉感知技术领域,具体为一种多任务道路场景感知方法。
背景技术
视觉感知作为自动驾驶辅助系统的重要组成部分,通过对车辆周围环境的感知与理解,如:交通目标、车道线、允许行驶区域、交通标志、障碍物等,用以辅助自动驾驶车辆或者辅助驾驶人员做出正确的决策。随着深度学习技术的发展,基于深度学习的视觉感知算法被应用到道路场景感知模型中。道路场景中包含了许多视觉感知任务,如果对每个任务都设计一种模型来完成道路场景感知将会将导致更多的计算资源和时间成本,模型复杂度增大,推理时间增加,难以部署到资源有限的嵌入式设备中。
在现有技术中,大多采用基于多任务的网络模型,这类网络模型通常由一个共享的特征提取网络和多个任务分支网络构成。具体的设计思路为:共享的特征提取网络用于提取图像丰富的语义特征,针对不同的任务设计相应的任务分支网络;将提取的共享特征输入到多个任务分支,完成多个视觉感知任务。这一网络结构可以有效地减少内存和计算量,同时减少模型的训练时间,并且在联合多个视觉任务的训练过程中可以利用不同任务之间的互补信息进一步提高模型性能。
车辆检测、车道线分割和允许行驶区域分割是道路场景感知中重要的3项任务。尽管现有技术采用一个共享网络和多个任务分支的模型结构,可以完成以上3项任务,但是已有方法对于车道线分割和允许行驶区域分割在训练过程中,仅采用网络最终输出的分割结果和真实标签做损失约束,未挖掘中间层的分割结果,导致分割精度较低。同时已有方法对于多个任务的损失仅采用简单的累加方式作为总损失,未有效地平衡不同任务损失的权重系数,导致多任务模型的训练收敛效率较低,以及模型精度较低。
发明内容
为了解决技术中基于多个任务分支的网络模型进行道路场景感知时训练效率低及检测精度不足的问题,本发明提供一种多任务道路场景感知方法,其可以在完成车辆检测、车道线分割和允许行驶区域分割的任务的基础上,提高多任务模型的训练效率及检测精度。
本发明的技术方案是这样的:一种多任务道路场景感知方法,其包括以下步骤:
S1:在车辆上安置摄像头采集车辆前方道路场景图像,建立包含车辆检测、车道线分割和允许行驶区域分割标注的训练数据集;
S2:构建多任务道路场景感知模型;
S3:设计多任务损失函数;
S4:使用所述训练数据集对所述多任务道路场景感知模型进行训练,得到训练好的所述多任务道路场景感知模型;
S5:基于训练好的所述多任务道路场景感知模型进行道路场景感知检测,并且将模型结果进行可视化,查看车辆检测、车道线分割和允许行驶区域分割的效果;
其特征在于:
所述多任务道路场景感知模型基于ResNet50进行构建;
所述多任务道路场景感知模型包括:特征提取主干网络、特征融合网络、车辆检测分支、车道线分割分支和允许行驶区域分割分支;
摄像头采集的前方道路场景图像输入到所述特征提取主干网络中进行提取多尺度的图像特征后,利用所述特征融合网络融合提取的多尺度特征,最后,将融合后的特征分别输到所述车辆检测分支、所述车道线分割分支和所述允许行驶区域分割分支;
为所述车辆检测分支、所述车道线分割分支和所述允许行驶区域分割分支都采用多尺度损失约束构建损失函数;
总损失函数通过自适应学习的方式调节多个任务损失的权重系数;
总损失函数LTotal包括:车辆检测任务损失、车道线分割任务损失和允许行驶区域分割任务损失;
,
式中,Ntask为分类任务和回归任务的总任务数,taski为任务编号;表示任务taski的损失,具体包括车辆检测任务损失中的置信度损失、分类损失和定位损失,车道线分割任务损失中的加权二值交叉熵损失和交并比损失,以及允许行驶区域分割任务损失中的加权二值交叉熵损失和交并比损失;/>用于区分任务taski的类型,当任务为回归任务时,/>为2,当任务为分类任务则/>为1;/>表示任务taski要学习的损失权重参数;/>为任务难度因子,用以平衡非困难任务和困难任务;
当任务为车辆检测任务时,为车辆检测损失函数Lvehicle:
,
式中,λobj、λcls和λreg分别表示置信度损失、分类损失和定位损失的权衡因子,Lobj、Lcls和Lreg分别表示物体置信度损失、分类损失和定位损失;
当任务为车道线分割任务时,为车道线分割损失函数Llane:
,
式中,Nlvl表示多尺度分割约束的特征层数量,lvli表示特征层编号,表示特征图/>的车道线分割损失的平衡因子;Lwbce为加权二元交叉熵损失,Liou为交并比损失;
当任务为允许行驶区域分割任务时,为允许行驶区域分割损失函数Ldrive:
,
式中,允许行驶区域分割任务的多尺度分割约束的层数与车道线分割任务相同,表示特征图/>的允许行驶区域分割损失的平衡因子;Lwbce为加权二元交叉熵损失,Liou为交并比损失。
其进一步特征在于:
所述多任务道路场景感知模型中,
所述特征提取主干网络包括卷积模块和激活函数,通过连续的卷积操作提取原图下采样比例为8、16和32的P3、P4和P5共3个尺度的特征图;
所述特征融合网络采用特征金字塔结构,通过横向连接、自上而下和自下而上操作充分融合浅层特征图的精确位置信息和深层特征图的高级语义信息;
所述车辆检测分支包括卷积操作,采用3个尺度的特征图作为输入,预测多个尺度特征图上的车辆,最终通过NMS去除冗余的检测框,保留最终的检测结果;
所述车道线分割分支包括:多个卷积操作和上采样操作,采用包含精确位置信息的单个特征图P3作为输入,最终输出车道线分割区域;
所述允许行驶区域分割分支包括多个卷积操作和上采样操作,采用包含精确位置信息的单个特征图P3作为输入,最终输出允许行驶区域分割区域;
车辆检测的总损失函数Lvehicle中,物体置信度损失Lobj为:
;
其中,每个预测层有S2个网格点,每个网格点负责预测B个预测框;表示第i个网格点的第j个预测框是否包含物体,如果有物体,/>,否则为0;Ci j表示第i个网格点的第j个预测框对应的预测值;
分类损失Lcls为:
;
其中,Iij obj表示第i个网格点的第j个基准框是否负责这个目标,如果负责,Iij obj=1,此时需要对这个基准框回归的预测框计算分类误差,否则不计入分类损失;和Pi j分别表示第i个网格点的第j个预测框对应的某个类别的真实值和预测概率值;c表示检测框的真实类别,classes表示总类别数;
定位损失Lreg为:
;
其中,IoU表示预测框与真实框之间的交并比,ρ(.)用于计算预测框和真实框中心点之间的欧几里得距离,ρ2(.)表示ρ(.)的平方,d表示包围真实框和预测框的最小矩形框的对角线长度; αv用于约束预测框的宽高与真实框一致,α为权衡参数, v用来衡量长宽比的一致性;b表示预测框的中心点坐标,bgt表示真实框的中心点坐标;
;
;
其中,w表示预测框的宽,h表示预测框的高,wgt表示真实框的宽,hgt表示真实框的高;
所述车道线分割的总损失函数中,加权二元交叉熵损失Lwbce为:
;
其中,Npx是图像中总像素数量,pxi表示图像像素点编号,是第pxi个像素的真实标签值,/>是第pxi个像素的模型预测值;
交并比损失Liou为:
;
其还包括:基于同方差不确定性的高斯似然估计来调节多个任务损失;
回归任务的最大对数似然函数转化如下:
;
其中,y表示真实标签,x表示模型输入,w表示待训练的模型参数,fw(x)表示模型输出,σ表示观测噪声,Lw reg(x) 为回归任务的损失;logp()表示对数似然函数;
分类任务的最大对数似然函数转化如下:
;
其中,c表示真实类别,C表示分类任务的总类别数,clsi表示类别编号,表示模型预测结果是类别clsi的概率,/>为分类任务的损失;fc w(x)表示模型预测结果是真实类别c的概率。
本发明提供的一种多任务道路场景感知方法,其基于ResNet50构建多任务道路场景感知模型,在模型中设置了车辆检测分支、车道线分割分支和允许行驶区域分割分支,采用多尺度损失约束的方式为车辆检测、车道线分割和允许行驶区域分割设置损失函数,其中车辆检测损失包括多个尺度的检测损失,通过多尺度检测可以有效地检测出不同距离的车辆;车道线分割分支挖掘了网络中间层的车道线分割信息,通过对中间分割结果进行损失约束,改善中间分割结果,可以有效地提高最终的车道线分割结果精度;允许行驶区域分割分支同样挖掘了网络中间层的允许行驶区域分割信息,通过对中间分割结果进行损失约束,改善中间分割结果,可以有效地保证最终的允许行驶区域分割结果的准确性;本方法中在总损失函数LTotal中设置任务难度因子,用以平衡非困难任务和困难任务的损失,确保任务的难度与其对应的损失大小关系是正比关系,进而确保训练中的收敛过程更平稳,进而确保模型的训练效率更高。本申请技术方案充分挖掘车道线分割分支和允许行驶区域分割分支的中间层分割信息,通过联合中间层分割结果和最终输出的分割结果进行多尺度约束,使得分割精度更准确。同时本发明采用自适应学习的方式调节多个任务损失的权重系数,可以有效地提高多任务模型的训练效率及精度。
附图说明
图1 为本发明的多任务模型结构图;
图2 为本发明实施例的多尺度分割损失约束示意图;
图3为本发明实施例的多任务模型的车辆检测、车道线分割和允许行驶区域分割的可视化效果图。
具体实施方式
本申请包括一种多任务道路场景感知方法,其包括以下步骤。
S1:在车辆上安置摄像头采集车辆前方道路场景图像,建立包含车辆检测、车道线分割和允许行驶区域分割标注的训练数据集。
对于采集的图像进行筛选,标注车辆目标框、车道线分割区域、允许行驶区域分割区域,建立道路场景感知数据集;将整个数据集随机排序,按6:2:2的比例划分训练集、验证集和测试集。
S2:构建多任务道路场景感知模型。
多任务道路场景感知模型基于ResNet50进行构建;本申请的多任务模型结构图,可以精准的完成三个任务,包括车辆检测、车道线分割和允许行驶区域分割。
如图1所示,多任务道路场景感知模型包括:特征提取主干网络、特征融合网络、车辆检测分支、车道线分割分支和允许行驶区域分割分支;
摄像头采集的前方道路场景图像输入到特征提取主干网络中进行提取多尺度的图像特征后,利用特征融合网络融合提取的多尺度特征,最后,将融合后的特征分别输到车辆检测分支、车道线分割分支和允许行驶区域分割分支。
多任务道路场景感知模型中,
特征提取主干网络包括卷积模块和激活函数,通过连续的卷积操作提取原图下采样比例为8、16和32的P3、P4和P5共3个尺度的特征图;特征图P3、P4和P5在附图1中标记为P3、P4和P5;
特征融合网络采用特征金字塔结构,通过横向连接、自上而下和自下而上操作充分融合浅层特征图的精确位置信息和深层特征图的高级语义信息;
车辆检测分支包括卷积操作,采用3个尺度的特征图作为输入,预测多个尺度特征图上的车辆,最终通过NMS去除冗余的检测框,保留最终的检测结果;
车道线分割分支包括:采用包含精确位置信息的单个的特征图P3作为输入,通过多个卷积和上采样操作,最终输出车道线分割区域;
允许行驶区域分割分支包括多个卷积操作和上采样操作,采用包含精确位置信息的单个特征图P3作为输入,最终输出允许行驶区域分割区域。
具体地,将摄像头采集的图像输入到特征提取网络ResNet50中得到多尺度的特征图:C3、C4和C5,特征图C3、C4和C5在附图1中标记为C3、C4和C5。其中特征图C3的宽高为原图的1/8,C4的宽高为原图的1/16,C5的宽高为原图的1/32。将C5经过一个1×1卷积得到P5,将C4经过一个1×1卷积调节通道并与2倍上采样后的P5相加,获得包含深层语义和浅层细节的特征图P4。将C3经过一个1×1卷积调节通道并与2倍上采样后的P4相加,获得特征图P3。再经过自上而下的特征融合后,对于车辆检测分支,需要对已融合的多尺度特征做进一步的自下而上的特征融合,然后输到多尺度车辆检测分支,每个车辆检测分支包含一个3×3卷积和一个1×1卷积,预测出目标置信度、坐标偏离量和类别概率。最后,通过非极大值抑制算法,去除冗余的预测框,得到最终的检测结果。
对于车道线分割和允许行驶区域分割分支,由于分割任务需要浅层的位置信息,不宜采用深层特征,所以,采用高分辨的特征图P3作为两个分割分支的输入。对于车道线分割分支,首先进行3×3卷积和2倍上采样操作,得到原图比例1/4的特征图,然后再次采用一个3×3卷积和上采样操作,得到原图比例1/2的特征图,最后采用一个3×3卷积和2倍上采样操作得到和原图大小一致的车道线分割图。对于允许行驶区域分割分支,首先进行3×3卷积和2倍上采样操作,得到原图比例1/4的特征图,然后再次采用一个3×3卷积和上采样操作,得到原图比例1/2的特征图,最后采用一个3×3卷积和2倍上采样操作得到和原图大小一致的允许行驶区域分割图。
值得注意的是,现有技术也存在使用一个共享的特征提取网络,结合特定的任务分支来完成多项视觉感知任务,但是这类方法未考虑网络训练过程中多个任务之间的损失权重系数,仅仅是将不同的任务损失进行简单的叠加。不同任务在训练过程中的难易程度是不一样的,且每个任务的收敛过程是有差异的,在训练过程中采用相同的任务损失权重可能会导致神经网络在次优的方向上进行学习,会导致不同任务之间的学习比重产生偏差,不能使多个任务都取得较高的性能。同时,针对车道线分割和允许行驶区域分割分支,现有技术在训练仅仅采用分支网络的最后的分割结果作为损失约束,该做法虽然可以完成训练并获得最终的分割结果,但是得到的分割结果的精度较低,无法满足实际需求。
针对上述问题,本发明的一种多任务场景感知方法在训练过程中,采用自适应学习的方式来分配各个任务的损失权重,使得每个任务在训练过程中保持校优的学习方向。同时,对于分割任务,采用多粒度的损失约束,通过充分挖掘中间层的分割信息,约束中间层的分割结果,可以有效地改善最终分割精度。总的损失包括车辆检测损失、车道线分割损失和允许行驶区域分割损失。下面对本发明设计的损失函数进行详细地说明。
S3:设计多任务损失函数。
为车辆检测分支、车道线分割分支和允许行驶区域分割分支都采用多尺度损失约束构建损失函数;总损失函数通过自适应学习的方式调节多个任务损失的权重系数。
车辆检测的总损失包含物体置信度损失Lobj、分类损失Lcls和定位损失Lreg。
物体置信度损失采用二元交叉熵损失,Lobj为:
;
其中,每个预测层有S2个网格点,每个网格点负责预测B个预测框;表示第i个网格点的第j个预测框是否包含物体,如果有物体,/>,否则为0;Ci j表示第i个网格点的第j个预测框对应的预测值。
分类损失是根据类别预测向量计算预测类别与真实标签的交叉熵损失,Lcls为:
;
其中,Iij obj表示第i个网格点的第j个基准框是否负责这个目标,如果负责,Iij obj=1,此时需要对这个基准框回归的预测框计算分类误差,否则不计入分类损失;和Pi j分别表示第i个网格点的第j个预测框对应的某个类别的真实值和预测概率值;c表示检测框的真实类别,classes表示总类别数。
定位损失采用CIoU损失,Lreg为:
;
其中,IoU表示预测框与真实框之间的交并比,ρ(.)用于计算预测框和真实框中心点之间的欧几里得距离,ρ2(.)表示ρ(.)的平方,d表示包围真实框和预测框的最小矩形框的对角线长度; αv用于约束预测框的宽高与真实框一致,α为权衡参数, v用来衡量长宽比的一致性;b表示预测框的中心点坐标,bgt表示真实框的中心点坐标。
;
;
其中, w表示预测框的宽,h表示预测框的高,wgt表示真实框的宽,hgt表示真实框的高。
车辆检测的总损失函数Lvehicle:
,
式中,λobj、λcls和λreg分别表示置信度损失、分类损失和定位损失的权衡因子,Lobj、Lcls和Lreg分别表示物体置信度损失、分类损失和定位损失。
车道线分割的损失函数包含加权二元交叉熵损失Lwbce和交并比损失Liou。由于在车道线分割任务中,存在着大量的背景像素数量,而前景即车道线往往仅占据较少的像素数量,因此,在损失设计中应更多的关注前景部分。为了使模型在训练中更关注前景部分,本发明设计,为了平衡分割任务的前景和背景像素,本发明在二元交叉熵损失的基础上,采用权重系数增加对前景像素的惩罚,当预测前景像素概率较低时,增大其损失值,使得模型在训练过程中更聚焦于前景像素,进而确保反向优化过程中能够更好的学习到对前景像素的分割,进而确保对前景的识别结果更准确。
加权二元交叉熵损失Lwbce为:
;
其中,Npx是图像中总像素数量,pxi表示图像像素点编号,是第pxi个像素的真实标签值,/>是第pxi个像素的模型预测值。
为了进一步缓解前景和背景像素数量上的差异,引入交并比损失Liou,具体为:
。
本方法中充分挖掘了中间层的分割信息,采用多尺度分割约束策略,通过约束多个特征层的分割结果,包括中间层和最终输出层,来提高分割精度。车道线分割的总损失函数Llane定义为:
,
式中,Nlvl表示多尺度分割约束的特征层数量,本实施例中设置为3;lvli表示特征层编号,表示特征图/>的车道线分割损失的平衡因子;Lwbce为加权二元交叉熵损失,Liou为交并比损失。
允许行驶区域分割和车道线分割同属于分割任务,允许行驶区域分割损失沿用车道线分割损失,具体的允许行驶区域分割损失函数Ldrive为:
,
式中,允许行驶区域分割任务的多尺度分割约束的层数与车道线分割任务相同,表示特征图/>的允许行驶区域分割损失的平衡因子;Lwbce为加权二元交叉熵损失,Liou为交并比损失。
为了能自适应学习多个任务的权重,采用基于同方差不确定性的高斯似然估计来调节多个任务损失,设计任务难度因子用以平衡非困难任务和困难任务,同时引入正则项确保模型稳定训练。
对于回归任务,定义似然函数为:
,
其中,y表示真实标签,x表示模型输入,w表示待训练的模型参数,fw(x)表示模型输出,N表示高斯分布,σ表示观测噪声。
回归任务的最大对数似然函数转化如下:
其中,Lw reg(x) 为回归任务的损失,logp()表示对数似然函数。
对于分类任务,定义似然函数为:
,
其中,c表示真实标签的类别,fc w(x)表示模型预测结果是真实类别c的概率。
分类任务的最大对数似然函数转化如下:
其中,C表示分类任务的总类别数,clsi表示类别编号,表示模型预测结果是类别clsi的概率,/>为分类任务的损失。
为了简化最大对数似然函数,假设当σ接近1时,
,
为了满足该假设,在分类任务损失中引入正则项,使得σ接近1。
采用同方差不确定性加权时,当σ2较小时,任务难度较小,而此时对该任务分配的损失权重却较大;当σ2较大时,任务难度较大,而此时对该任务分配的损失权重却较小。为了兼顾非困难任务和困难任务,本方法中设计任务难度因子用以平衡非困难任务和困难任务。为了确保损失值为正,将原最大似然函数中的logσ替换为log(σ+1)。
综上总损失函数LTotal包括:车辆检测任务损失、车道线分割任务损失和允许行驶区域分割任务损失;
,
式中,Ntask为分类任务和回归任务的总任务数,taski为任务编号;表示任务taski的损失,具体包括车辆检测任务损失中的置信度损失、分类损失和定位损失,车道线分割任务损失中的加权二值交叉熵损失和交并比损失,以及允许行驶区域分割任务损失中的加权二值交叉熵损失和交并比损失;/>用于区分任务taski的类型,当任务为回归任务时,/>为2,当任务为分类任务则/>为1;/>表示任务taski要学习的损失权重参数;/>为任务难度因子,用以平衡非困难任务和困难任务。
S4:使用训练数据集对多任务道路场景感知模型进行训练,得到训练好的多任务道路场景感知模型。
将设计的模型在建立的数据集上进行训练,训练过程中采用随机变换、色彩扰动、马赛克数据增强等数据增强策略来丰富数据集,增强模型的鲁棒性。
其中,数据增强策略具体为:
平移:将图像按一定比例进行平移处理;
旋转:将图像按一定比例进行旋转处理;
翻转:将图像按一定概率进行左右翻转;
色彩扰动:将图像在HSV色彩空间对色调(H)、饱和度(S)和明度(V)添加扰动;
Mosaic数据增强:随机选取4张图像,经随机裁剪后拼接成1张图像。
S5:基于训练好的多任务道路场景感知模型进行道路场景感知检测,并且将模型结果进行可视化,查看车辆检测、车道线分割和允许行驶区域分割的效果。
将模型结果进行可视化,查看车辆检测、车道线分割和允许行驶区域分割的效果,具体为:将测试图片输入训练好的模型,可视化输出结果,查看车辆检测、车道线分割和允许行驶区域分割的准确性。
如图3所示实施例,为基于本方法中的多任务模型的车辆检测、车道线分割和允许行驶区域分割的可视化结果。矩形框1表示检测到的车辆,线条2表示分割出来的车道线区域,区域3表示分割出来的允许行驶区域。
使用本发明的技术方案后,通过设计的多任务道路场景感知模型对车辆前方道路场景进行检测和分割,可以准确地检测出前方车辆,还可以有效地分割出前方车道线和允许行驶区域。本方法中的多任务道路场景感知模型结构简单,可以同时完成车辆检测、车道线分割、允许行驶区域分割任务。对于车道线分割和允许行驶区域分割任务,本方法充分挖掘多个尺度的分割特征,采用多尺度约束分割结果进一步提高了车道线分割和允许行驶区域分割的精度。同时,针对多个任务损失,本发明采用自适应学习的方式平衡各个任务损失,设计任务难度因子用以平衡非困难任务和困难任务,加快模型训练效率,同时使得多个任务都取得较高的精度。
Claims (5)
1.一种多任务道路场景感知方法,其包括以下步骤:
S1:在车辆上安置摄像头采集车辆前方道路场景图像,建立包含车辆检测、车道线分割和允许行驶区域分割标注的训练数据集;
S2:构建多任务道路场景感知模型;
S3:设计多任务损失函数;
S4:使用所述训练数据集对所述多任务道路场景感知模型进行训练,得到训练好的所述多任务道路场景感知模型;
S5:基于训练好的所述多任务道路场景感知模型进行道路场景感知检测,并且将模型结果进行可视化,查看车辆检测、车道线分割和允许行驶区域分割的效果;
其特征在于:
所述多任务道路场景感知模型基于ResNet50进行构建;
所述多任务道路场景感知模型包括:特征提取主干网络、特征融合网络、车辆检测分支、车道线分割分支和允许行驶区域分割分支;
摄像头采集的前方道路场景图像输入到所述特征提取主干网络中进行提取多尺度的图像特征后,利用所述特征融合网络融合提取的多尺度特征,最后,将融合后的特征分别输到所述车辆检测分支、所述车道线分割分支和所述允许行驶区域分割分支;
为所述车辆检测分支、所述车道线分割分支和所述允许行驶区域分割分支都采用多尺度损失约束构建损失函数;
总损失函数通过自适应学习的方式调节多个任务损失的权重系数;
总损失函数LTotal包括:车辆检测任务损失、车道线分割任务损失和允许行驶区域分割任务损失;
,
式中,Ntask为分类任务和回归任务的总任务数,taski为任务编号;表示任务taski的损失,具体包括车辆检测任务损失中的置信度损失、分类损失和定位损失,车道线分割任务损失中的加权二值交叉熵损失和交并比损失,以及允许行驶区域分割任务损失中的加权二值交叉熵损失和交并比损失;/>用于区分任务taski的类型,当任务为回归任务时,为2,当任务为分类任务则/>为1;/>表示任务taski要学习的损失权重参数;为任务难度因子,用以平衡非困难任务和困难任务;
当任务为车辆检测任务时,为车辆检测损失函数Lvehicle:
,
式中,λobj、λcls和λreg分别表示置信度损失、分类损失和定位损失的权衡因子,Lobj、Lcls和Lreg分别表示物体置信度损失、分类损失和定位损失;
当任务为车道线分割任务时,为车道线分割损失函数Llane:
,
式中,Nlvl表示多尺度分割约束的特征层数量,lvli表示特征层编号,表示特征图的车道线分割损失的平衡因子;Lwbce为加权二元交叉熵损失,Liou为交并比损失;
当任务为允许行驶区域分割任务时,为允许行驶区域分割损失函数Ldrive:
,
式中,允许行驶区域分割任务的多尺度分割约束的层数与车道线分割任务相同,表示特征图/>的允许行驶区域分割损失的平衡因子;Lwbce为加权二元交叉熵损失,Liou为交并比损失。
2.根据权利要求1所述一种多任务道路场景感知方法,其特征在于:所述多任务道路场景感知模型中,
所述特征提取主干网络包括卷积模块和激活函数,通过连续的卷积操作提取原图下采样比例为8、16和32的P3、P4和P5共3个尺度的特征图;
所述特征融合网络采用特征金字塔结构,通过横向连接、自上而下和自下而上操作充分融合浅层特征图的精确位置信息和深层特征图的高级语义信息;
所述车辆检测分支包括卷积操作,采用3个尺度的特征图作为输入,预测多个尺度特征图上的车辆,最终通过NMS去除冗余的检测框,保留最终的检测结果;
所述车道线分割分支包括:多个卷积操作和上采样操作,采用包含精确位置信息的单个特征图P3作为输入,最终输出车道线分割区域;
所述允许行驶区域分割分支包括多个卷积操作和上采样操作,采用包含精确位置信息的单个特征图P3作为输入,最终输出允许行驶区域分割区域。
3.根据权利要求1所述一种多任务道路场景感知方法,其特征在于:车辆检测的总损失函数Lvehicle中,物体置信度损失Lobj为:
;
其中,每个预测层有S2个网格点,每个网格点负责预测B个预测框;表示第i个网格点的第j个预测框是否包含物体,如果有物体,/>,否则为0;Ci j表示第i个网格点的第j个预测框对应的预测值;
分类损失Lcls为:
;
其中,Iij obj表示第i个网格点的第j个基准框是否负责这个目标,如果负责,Iij obj=1,此时需要对这个基准框回归的预测框计算分类误差,否则不计入分类损失;和Pi j分别表示第i个网格点的第j个预测框对应的某个类别的真实值和预测概率值;c表示检测框的真实类别,classes表示总类别数;
定位损失Lreg为:
;
其中,IoU表示预测框与真实框之间的交并比,ρ(.)用于计算预测框和真实框中心点之间的欧几里得距离,ρ2(.)表示ρ(.)的平方,d表示包围真实框和预测框的最小矩形框的对角线长度; αv用于约束预测框的宽高与真实框一致,α为权衡参数, v用来衡量长宽比的一致性;b表示预测框的中心点坐标,bgt表示真实框的中心点坐标;
;
;
其中,w表示预测框的宽,h表示预测框的高,wgt表示真实框的宽,hgt表示真实框的高。
4.根据权利要求1所述一种多任务道路场景感知方法,其特征在于:所述车道线分割的总损失函数中,加权二元交叉熵损失Lwbce为:
;
其中,Npx是图像中总像素数量,pxi表示图像像素点编号,是第pxi个像素的真实标签值,/>是第pxi个像素的模型预测值;
交并比损失Liou为:
。
5.根据权利要求1所述一种多任务道路场景感知方法,其特征在于:其还包括:基于同方差不确定性的高斯似然估计来调节多个任务损失;
回归任务的最大对数似然函数转化如下:
;
其中,y表示真实标签,x表示模型输入,w表示待训练的模型参数,fw(x)表示模型输出,σ表示观测噪声,Lw reg(x) 为回归任务的损失;logp()表示对数似然函数;
分类任务的最大对数似然函数转化如下:
;
其中,c表示真实类别,C表示分类任务的总类别数,clsi表示类别编号,表示模型预测结果是类别clsi的概率,/>为分类任务的损失;fc w(x)表示模型预测结果是真实类别c的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410130909.2A CN117671647B (zh) | 2024-01-31 | 2024-01-31 | 一种多任务道路场景感知方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410130909.2A CN117671647B (zh) | 2024-01-31 | 2024-01-31 | 一种多任务道路场景感知方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117671647A true CN117671647A (zh) | 2024-03-08 |
CN117671647B CN117671647B (zh) | 2024-04-26 |
Family
ID=90064479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410130909.2A Active CN117671647B (zh) | 2024-01-31 | 2024-01-31 | 一种多任务道路场景感知方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671647B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582201A (zh) * | 2020-05-12 | 2020-08-25 | 重庆理工大学 | 一种基于几何注意力感知的车道线检测系统 |
CN115294550A (zh) * | 2022-08-05 | 2022-11-04 | 厦门大学 | 一种基于多任务学习的自动驾驶汽车道路场景理解方法 |
US20230144209A1 (en) * | 2020-06-12 | 2023-05-11 | Huawei Technologies Co., Ltd. | Lane line detection method and related device |
CN116152766A (zh) * | 2023-02-20 | 2023-05-23 | 同济大学 | 一种基于道路场景的车道线和车道区域检测方法 |
CN116665176A (zh) * | 2023-07-21 | 2023-08-29 | 石家庄铁道大学 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
-
2024
- 2024-01-31 CN CN202410130909.2A patent/CN117671647B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582201A (zh) * | 2020-05-12 | 2020-08-25 | 重庆理工大学 | 一种基于几何注意力感知的车道线检测系统 |
US20230144209A1 (en) * | 2020-06-12 | 2023-05-11 | Huawei Technologies Co., Ltd. | Lane line detection method and related device |
CN115294550A (zh) * | 2022-08-05 | 2022-11-04 | 厦门大学 | 一种基于多任务学习的自动驾驶汽车道路场景理解方法 |
CN116152766A (zh) * | 2023-02-20 | 2023-05-23 | 同济大学 | 一种基于道路场景的车道线和车道区域检测方法 |
CN116665176A (zh) * | 2023-07-21 | 2023-08-29 | 石家庄铁道大学 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117671647B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175576B (zh) | 一种结合激光点云数据的行驶车辆视觉检测方法 | |
US11651302B2 (en) | Method and device for generating synthetic training data for an artificial-intelligence machine for assisting with landing an aircraft | |
Xu et al. | Scale-aware feature pyramid architecture for marine object detection | |
CN114970321A (zh) | 一种基于动态轨迹流的场景流数字孪生方法及系统 | |
CN112950645B (zh) | 一种基于多任务深度学习的图像语义分割方法 | |
CN110633632A (zh) | 一种基于循环指导的弱监督联合目标检测和语义分割方法 | |
Huang et al. | Spatial-temproal based lane detection using deep learning | |
Xing et al. | Traffic sign recognition using guided image filtering | |
Rateke et al. | Passive vision region-based road detection: A literature review | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN117037119A (zh) | 基于改进YOLOv8的道路目标检测方法及系统 | |
Sun et al. | IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes | |
CN115984537A (zh) | 图像处理方法、装置及相关设备 | |
Hoang et al. | Optimizing YOLO Performance for Traffic Light Detection and End-to-End Steering Control for Autonomous Vehicles in Gazebo-ROS2 | |
Khazaee et al. | An accurate real-time license plate detection method based on deep learning approaches | |
CN114241250A (zh) | 一种级联回归目标检测方法、装置及计算机可读存储介质 | |
CN111008622B (zh) | 一种图像对象检测方法、装置以及计算机可读存储介质 | |
CN115294176B (zh) | 一种双光多模型长时间目标跟踪方法、系统及存储介质 | |
CN117671647B (zh) | 一种多任务道路场景感知方法 | |
CN114494893B (zh) | 基于语义重用上下文特征金字塔的遥感图像特征提取方法 | |
Yang et al. | A novel vision-based framework for real-time lane detection and tracking | |
Lukac et al. | An algorithm selection based platform for image understanding using high-level symbolic feedback and machine learning | |
Oh et al. | Towards defensive autonomous driving: Collecting and probing driving demonstrations of mixed qualities | |
Kalist et al. | A Novel Lanemark Identification System using Kalman Filtration Logic and Image Processing Principles | |
Meftah et al. | Deep residual network for autonomous vehicles obstacle avoidance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |