CN112418236A - 一种基于多任务神经网络的汽车可行驶区域规划方法 - Google Patents
一种基于多任务神经网络的汽车可行驶区域规划方法 Download PDFInfo
- Publication number
- CN112418236A CN112418236A CN202011328854.4A CN202011328854A CN112418236A CN 112418236 A CN112418236 A CN 112418236A CN 202011328854 A CN202011328854 A CN 202011328854A CN 112418236 A CN112418236 A CN 112418236A
- Authority
- CN
- China
- Prior art keywords
- neural network
- network
- layer
- task
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明请求保护一种基于多任务神经网络的汽车可行驶区域规划方法,涉及深度学习、计算机视觉、辅助驾驶、图像处理等领域。首先本发明基于硬参数共享机制构建具有语义分割与目标检测两种功能的轻量级多任务神经网络;其次根据网络输出格式,制作训练集与构建相应的损失函数数学模型;再次对网络进行训练,使用本发明提出的损失函数数学模型进行反向传播优化网络参数;最后将多任务神经网络应用于汽车可行驶区域规划中。本发明的多任务神经网络不但具有车道分割功能,还具有车辆、行人检测功能,通过单目测距可以起到汽车防碰撞预警功能,减少汽车发生碰撞的概率。
Description
技术领域
本发明属于深度学习、计算机视觉、辅助驾驶、图像处理等领域,具体涉及一种应用于汽车可行驶区域规划的多任务神经网络。
背景技术
随着深度学习的发展,自动驾驶技术越来越成熟,一些公司已经生产出部分自动驾驶汽车,并上路测试,然而自动驾驶在环境感知领域仍然存在一些问题。自动驾驶中的环境感知需要分割车道并判断哪条车道为可行驶车道,以及检测前方车辆和行人等目标,防止发生碰撞。分割车道与检测目标属于两种不同的功能,分别是语义分割与目标检测。在车载芯片中同时运行语义分割与目标检测神经网络,会消耗车载芯片大量的计算资源,并对其他功能产生影响。
综上所述,现有技术存在的问题是:多种神经网络同时运行在一块车载芯片中,会对芯片产生极大的负荷并消耗大量的计算资源。
解决上述技术问题的难题:
根据现有的轻量级神经网络,构建出一种轻量级并包含语义分割和目标检测功能的多任务神经网络。
与本发明最接近的是对比文件CN1111178253A,本申请涉及一种自动驾驶的视觉感知方法、装置、计算机设备和存储介质所述方法包括:获取采集的视觉感知图像;将所述视觉感知图像输入训练好的多任务神经网络的主干网络,通过所述主干网络提取所述视觉感知图像的共享特征,得到共享特征图;将所述共享特征图分别输入所述多任务神经网络中的各分支网络,各所述分支网络基于所述共享特征图分别进行对应的任务的分类,输出相应任务的分类结果;根据预设视觉感知目标,提取对应任务的分类结果进行融合,得到视觉感知结果,所述视觉感知结果包括车道线信息、路面标志信息、通行区域路况信息和路面障碍物信息中的至少一种。采用本方法能够提高视觉感知的精度。
首先,文件CN1111178253A对应用在自动驾驶上的多任务神经网络只是一个笼统的概括性介绍,在他文件中的一些步骤流程,都是一些很宽泛的概括性流程,并不具有指导意义和现实意义;然后,应该选用何种网络,以及多网络之间如何组合连接也没有提交描述;其次,损失函数如何构建,选用什么损失函数也没有描述,也是一个简单线性加权求和;最后在文件CN1111178253A中提及的多任务神经网络,具有过多的任务分支,过多的任务分支会造成两点问题:1.难以训练,每个任务之间都有自己的独有属性,如果只使用简单的线性加权求和损失函数,个人任务网络并不能训练成功;2.参数过多,任务分支多,总网络的参数量就会增加,计算量相应也会增加,这样网络的计算速度就会非常慢,就无法达到实时要求,不具有实用价值,例如mask-rcnn,该网络仅具有两个任务分支,网络的检测速度就比较慢啦。
首先,本发明中的多任务神经网络,具有详细的网络结构图,可以复现,检测精度经过试验验证,可以达到辅助驾驶要求;其次本发明中的多任务神经网络速度很快,经过试验验证可以达到20FPS以上,可以满足辅助驾驶的需求;然后,本文是基于YOLO网络并结合DenseNet与PSPNet网络进行改进的;最后本发明为了使网络能够快速收敛,特提出一种新的损失函数,经过试验验证可以有效加快网络收敛速度。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于多任务神经网络的汽车可行驶区域规划方法。本发明的技术方案如下:
一种基于多任务神经网络的汽车可行驶区域规划方法,其包括以下步骤:
步骤1,构建具有语义分割与目标检测两种功能的轻量级多任务神经网络,包括:基于硬参数共享机制构建轻量级多任务神经网络任务共享层;构建多尺度目标检测特定层;基于金字塔池化模型构建语义分割特定层;
步骤2,根据轻量级多任务神经网络输出格式,制作训练集;
步骤3,构建多任务神经网络损失函数数学模型;
步骤4,将多任务神经网络应用于汽车可行驶区域规划中,将多任务神经网络模型部署至车载嵌入式平台中,在嵌入式平台中运行模型检测汽车前方车辆、行人,并分割车道,将检测到的信息发送至嵌入式平台控制中心,多任务神经网络模型分割车道,会将当前汽车所在车道和汽车旁边虚线分割车道检测出来,在图片中会用不同颜色显示,有颜色显示的区域都是可行驶区域,颜色是人为设定的,利用实验者和驾驶者观察,实际中这些有颜色显示的区域在计算机中的像素值都是像素值为1或2.。
进一步的,所述步骤1构建具有语义分割与目标检测两种功能的轻量级多任务神经网络,具体包括以下子步骤:
步骤1.1:基于硬参数共享机制构建轻量级多任务神经网络任务共享层,硬参数共享机制:网络中多个任务分支共享一个主干网络,即一个主干网络提取的图像特征传给多个任务分支;软参数共享机制:每个任务分支使用一个主干网络,然后使用算法将各个主干网络关联起来,该任务共享层结合DenseNet密集连接结构与跨级局部网络CSPNet的CSP残差结构:网络输入的是相机拍摄的一帧帧图片,图片中包含各种东西,本文所述网络的功能就是检测相机拍摄图片中的车辆,行人,任务共享层每次下采样,特征图尺寸就会下降一半,经过多次下采样,特征图的尺寸也会有多次下降一半,这些特征图叠在一起看起来就像一个金字塔;
步骤1.2:基于FPN特征金字塔网络方法,构建多尺度目标检测特定层;
步骤1.3:基于金字塔池化模型构建语义分割特定层,并使用双线性插值法对特征图进行上采样,使采样后的尺寸与网络输入尺寸相同。
进一步的,所述任务共享层共分为7层,从上到下分别是CBL层、CBL层、CSP层、CSP层、DCB、CSP层、CBL层,其中CBL层包括卷积层-批量归一化层-激活函数层;CSP层是一个残差结构,在ResNet的残差块外部再连接一条大的残差边,DCB层是DenseNet网络中的密集连接结构。
进一步的,所述步骤2根据轻量级多任务神经网络输出格式,制作训练集,具体包括以下子步骤:
步骤2.1:根据多任务神经网络输出,将训练集标签分为两类:用于目标检测的VOC格式标签,用于语义分割的掩码格式标签;
步骤2.2:使用LabelImg与Labelme工具分别对同一张图片进行标注,然后生成.xml文件与单通道的.png灰度图,在灰度图中,不可行驶区域像素值为0,当前车道像素值为1,旁边可行驶车道像素值为2,使用K-means聚类算法,对所有的数据集中车辆,行人等预设目标尺寸进行聚类,生成5种尺寸的矩形框,按降序排列,其中前3种尺寸的矩形框作为目标检测特定层输出尺寸为13×13的特征图的默认框;其中后3种尺寸的矩形框作为目标检测特定层输出尺寸为26×26的特征图的默认框;目标检测特定层最后使用逻辑回归,从3个默认框中寻找置信度最高的那个,它就是输出最接近真实目标的默认框边界。
进一步的,所述步骤3构建多任务神经网络损失函数数学模型,具体包括以下子步骤:
步骤3.1:确定目标检测任务特定层与语义分割任务特定层损失函数,然后在每个特定层计算损失值的过程中对损失值进行归一化处理;
步骤3.2:使用动态损失权重对两个特定层网络的损失值线性加权求和,公式如1所示:
FM=W1·F1+W2·F2 (1)
其中FM是多任务神经网络的损失值,F1,W1分别是目标检测特定层网络的损失值与权重系数,F2,W2分别是语义分割特定层网络的损失值与权重系数,W1,W2根据两种网络的损失值进行动态计算,计算公式如(2)、(3)所示:
其中|ΔF1|为目标检测特定层网络的当前次epoch的损失值与上一次epoch的损失值差的绝对值,|ΔF2|为语义分割特定层网络的当前次epoch的损失值与上一次epoch的损失值差的绝对值。
进一步的,所述步骤4将多任务神经网络应用于汽车可行驶区域规划中,具体包括以下子步骤:
步骤4.1:利用提出的损失函数数学模型来进行反向传播,使网络参数达到最优;
步骤4.2:图像处理包含:1.将图片尺寸使用最邻近插值法放大或缩小为网络输入尺寸;比如网络输入尺寸为416x416,就需要将图片尺寸放大或缩小为416x416;2.将放大或缩小的图片进行归一化处理,即图片像素值统一除以255,使图片像素值从0-255变为0-1.,处理后视频帧送入多任务神经网络中,经过网络的前向推理,目标检测分支与语义分割分支分别输出对应的结果;
步骤4.3:在后处理程序中,将两个分支的输出结果进行融合,用来使用OpenCV将目标检测分支得到的结果(包含每个目标的类别,得分,坐标)绘制在原图中,然后再将语义分割分支结果绘制在原图中,即两个分支得到的结果绘制在同一张图片上,规划可行驶区域以及防碰撞预警。
目标检测任务特定层损失函数分为3个部分,分别是:
1.默认框回归损失函数
默认框回归损失函数使用CIOU损失函数,公式如4所示:
式中,IOU——真实框与预测框的交并比
ρ——真实框与预测框的中心点欧式距离
C——将真实框与预测框包含的最小外接矩形对角线长
v——衡量长宽比的相似性
v的具体含义如公式5所示:
式中,wgt,hgt——真实框的宽高
w,h——预测框的宽高
2.置信度损失函数
置信度损失使用交叉熵损失函数,公式如6所示:
Loss=-∑xp(x)log2q(x) (6)
式中,p(x)——真实概率分布
q(x)——预测概率分布
其中,在计算置信度损失的过程中分为两部分,一部分计算包含目标的默认框的置信度损失,一部分计算不包含目标的默认框的置信度损失,最后将这两部分损失相加求和。
3.分类损失函数
分类损失同样使用交叉熵损失函数,只不过分类损失只计算包含目标的默认框的类别损失值。最后将这三部分的损失值线性加权就是整个目标检测特定层的总损失值。
语义分割特定层使用两种损失函数来优化权重,分别是交叉熵损失函数和DiceLoss损失函数。其中交叉熵损失函数为主函数,在上文中已经有过介绍,这里不再赘述;Dice Loss损失函数是辅助损失函数,用来辅助交叉熵损失函数做进一步判断。Dice Loss损失函数公式如7所示:
式中,|y∩ygt|——预测分割图张量与真实分割图张量点乘并求和
|y|——预测分割图张量累加和
|ygt|——真实分割图张量累加和
本发明的优点及有益效果如下:
效果1:本发明结合多种轻量级神经网络的优秀结构,构建一种新型轻量级多任务神经网络,相比于Mask-RCNN实例分割网络,本网络不但具有语义分割与目标检测两种功能,而且具有更快的检测速度以及不逊色的检测精度。
效果2:本发明结合多种轻量级神经网络的优秀结构,构建一种新型轻量级多任务神经网络,具有更少的参数量,在车载芯片运行过程中,会消耗更少的计算资源。
效果3:本发明结合多种轻量级神经网络的优秀结构,构建一种新型轻量级多任务神经网络,相比于传统的分割车道方法,具有更好的泛化能力,不需针对某个特定场景进行调节参数。
效果4:本发明结合多种轻量级神经网络的优秀结构,构建一种新型轻量级多任务神经网络,不但可以有效分割车道,规划汽车可行驶区域,还可以检测车辆前方目标,防止发生碰撞,增大汽车行驶的安全性。
本发明的创新主要是步骤1,步骤3;步骤4不晓得是不是,因为就我实习经验了解,在辅助驾驶领域,想要实现我所述的多任务神经网络功能,一般是使用深度学习进行目标检测,然后使用传统图像处理(霍夫变换,canny边缘检测)检测车道线。
步骤一创新:结合多种网络中的优秀设计结构,改进YOLO网络,根据工程实际需求构建一种多任务神经网络,使它不但具有目标检测功能,还具有语义分割功能,同时网络的检测精度和检测速度都能够达到辅助驾驶要求。
步骤三创新:针对多任务神经网络难以训练的问题,本发明提出一种基于动态损失权重的线性加权求和损失函数,该损失函数可以有效帮助网络加快收敛速度,同时促进多任务神经网络的多个子网络进行同步收敛。
附图说明
图1是本发明提供优选实施例的应用于汽车可行驶区域规划的多任务神经网络流程图。
图2是本发明实施例提供的多任务神经网络结构示意图。
图3是本发明实施例提供的DenseNet密集连接结构示意图。
图4是本发明实施例提供的PSPNet金字塔池化尺度融合结构示意图。
图5是本发明实施例提供的多任务神经网络结构及各层参数变化说明示意图。
图6是本发明实施例提供的汽车可行驶区域规划方法输入的原图。
图7是本发明实施例提供的汽车可行驶区域规划方法输出的识别结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,本发明实施例提供的应用于汽车可行驶区域规划的多任务神经网络包括以下步骤:
1.构建具有语义分割与目标检测两种功能的轻量级多任务神经网络
多任务神经网络结构如图2所示,本发明中的多任务神经网络采用硬参数共享模式,即多个任务特定层共同使用一个任务共享层。任务共享层共分为7层,从上到下分别是CBL层、CBL层、CSP层、CSP层、DCB(DenseNet Connection Block)、CSP层、CBL层。其中CBL层包括卷积层-批量归一化层-激活函数层;CSP层是一个残差结构,在ResNet的残差块外部再连接一条大的残差边,具体结构如图2所示;DCB层是DenseNet网络中的密集连接结构,具体结构如图3所示。
本发明中的多任务神经网络共有两个任务特定层,分别是语义分割任务特定层和目标检测任务特定层。
语义分割特定层用来分割车道,规划汽车可行驶区域,属于多任务神经网络网络中的主要功能,而且语义分割特定层有两个分支,一个是辅助训练分支,一个是预测结果分支。预测结果分支采用的是PSPNet中的金字塔池化尺度融合结构,可以解决全局信息缺失问题,并处理图像语义分割中场景之间的上下文关系和全局信息。具体结构如图4所示,得到任务共享层的输出结果后,首先采用全局平均池化和平均池化对特征图进行池化操作,使输出结果尺寸分别是1×1,2×2,3×3,6×6。随后使用卷积核为1×1的卷积将特征图的通道数变为原来的1/4,随后使用双线性插值法将卷积后的特征图上采样到与池化前的尺寸相同,然后与输入特征图进行通道拼接,得到的特征图通道数变为原来的2倍。多任务神经网络各层参数变化示意图如图5所示,网络输入尺寸设定为416×416,则经过金字塔池化尺度融合结构后的特征图尺寸为30×30×512,随后使用卷积核为3×3和1×1的卷积进行多尺度信息的融合与降维,最后使用双线性插值法,将特征图尺寸上采样到416×416,假设分割类别数为3,则最后输出尺寸为416×416×3,最后使用Softmax激活函数将每个通道的输出值映射到0~1之间的概率值,选择每个通道得分最高的一个,就是分割结果。
目标检测特定层有两个输入,分别是13×13,26×26,使用特征金字塔结构,将13×13的特征图分成两路,一路经过一系列的卷积操作后原样输出,作为目标检测特定层的一路输出分支;另一路上采样后尺寸变为26×26,然后和26×26的输入特征图进拼接融合,最后经过一系列的卷积操作后,输出网络。
2.根据网络输出格式,制作训练集
使用LabelImg软件对图片中的车辆,行人等预设目标进行标注,生成VOC格式的.xml文件;使用Labelme软件对图片中的车道进行标注,生成.json标签文件,然后使用代码将.json标签文件转化为单通道的.png格式灰度图。
使用K-means聚类算法,对所有的数据集中车辆,行人等预设目标尺寸进行聚类,生成5种尺寸的矩形框,按降序排列,其中前3种尺寸的矩形框作为目标检测特定层输出尺寸为13×13的特征图的默认框;其中后3种尺寸的矩形框作为目标检测特定层输出尺寸为26×26的特征图的默认框。目标检测特定层最后使用逻辑回归,从3个默认框中寻找置信度最高的那个,它就是输出最接近真实目标的默认框边界。
3.构建多任务神经网络损失函数数学模型
在本发明的实施例中,将多任务神经网络的损失值设定为两种子网络的损失值线性加权和,公式如1所示:
FM=W1·F1+W2·F2 (1)
其中FM是多任务神经网络的损失值,F1,W1分别是目标检测特定层网络的损失值与权重系数,F2,W2分别是语义分割特定层网络的损失值与权重系数。W1,W2根据两种网络的损失值进行动态计算,计算公式如2,3所示:
其中|ΔF1|为目标检测特定层网络的当前次epoch的损失值与上一次epoch的损失值差的绝对值,|ΔF2|为语义分割特定层网络的当前次epoch的损失值与上一次epoch的损失值差的绝对值。
4.将多任务神经网络应用于汽车可行驶区域规划中
将视频帧送入多任务神经网络中,目标检测特定层与语义分割特定层都会有一个输出结果,在后处理程序中,将这两个子网络的输出结果进行融合,得到最终的预测结果,如图6,7所示。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (6)
1.一种基于多任务神经网络的汽车可行驶区域规划方法,其特征在于,包括以下步骤:
步骤1,构建具有语义分割与目标检测两种功能的轻量级多任务神经网络,包括:基于硬参数共享机制构建轻量级多任务神经网络任务共享层;构建多尺度目标检测特定层;基于金字塔池化模型构建语义分割特定层;
步骤2,根据轻量级多任务神经网络输出格式,制作训练集;
步骤3,构建多任务神经网络损失函数数学模型;
步骤4,将多任务神经网络应用于汽车可行驶区域规划中,将多任务神经网络模型部署至车载嵌入式平台中,在嵌入式平台中运行模型检测汽车前方车辆、行人,并分割车道,将检测到的信息发送至嵌入式平台控制中心,多任务神经网络模型分割车道,会将当前汽车所在车道和汽车旁边虚线分割车道检测出来,在图片中会用不同颜色显示,有颜色显示的区域都是可行驶区域,颜色是人为设定的,利用实验者和驾驶者观察,实际中这些有颜色显示的区域在计算机中的像素值都是像素值为1或2。
2.根据权利要求1所述的一种基于多任务神经网络的汽车可行驶区域规划方法,其特征在于,所述步骤1构建具有语义分割与目标检测两种功能的轻量级多任务神经网络,具体包括以下子步骤:
步骤1.1:基于硬参数共享机制构建轻量级多任务神经网络任务共享层,硬参数共享机制:网络中多个任务分支共享一个主干网络,即一个主干网络提取的图像特征传给多个任务分支;软参数共享机制:每个任务分支使用一个主干网络,然后使用算法将各个主干网络关联起来,该任务共享层结合DenseNet密集连接结构与跨级局部网络CSPNet的CSP残差结构:网络输入的是相机拍摄的一帧帧图片,图片中包含各种东西,本文所述网络的功能就是检测相机拍摄图片中的车辆,行人,任务共享层每次下采样,特征图尺寸就会下降一半,经过多次下采样,特征图的尺寸也会有多次下降一半,这些特征图叠在一起看起来就像一个金字塔;
步骤1.2:基于FPN特征金字塔网络方法,构建多尺度目标检测特定层;
步骤1.3:基于金字塔池化模型构建语义分割特定层,并使用双线性插值法对特征图进行上采样,使采样后的尺寸与网络输入尺寸相同。
3.根据权利要求2所述的一种基于多任务神经网络的汽车可行驶区域规划方法,其特征在于,所述任务共享层共分为7层,从上到下分别是CBL层、CBL层、CSP层、CSP层、DCB、CSP层、CBL层,其中CBL层包括卷积层-批量归一化层-激活函数层;CSP层是一个残差结构,在ResNet的残差块外部再连接一条大的残差边,DCB层是DenseNet网络中的密集连接结构。
4.根据权利要求1所述的一种基于多任务神经网络的汽车可行驶区域规划方法,其特征在于,所述步骤2根据轻量级多任务神经网络输出格式,制作训练集,具体包括以下子步骤:
步骤2.1:根据多任务神经网络输出,将训练集标签分为两类:用于目标检测的VOC格式标签,用于语义分割的掩码格式标签;
步骤2.2:使用LabelImg与Labelme工具分别对同一张图片进行标注,然后生成.xml文件与单通道的.png灰度图,在灰度图中,不可行驶区域像素值为0,当前车道像素值为1,旁边可行驶车道像素值为2,使用K-means聚类算法,对所有的数据集中车辆,行人等预设目标尺寸进行聚类,生成5种尺寸的矩形框,按降序排列,其中前3种尺寸的矩形框作为目标检测特定层输出尺寸为13×13的特征图的默认框;其中后3种尺寸的矩形框作为目标检测特定层输出尺寸为26×26的特征图的默认框;目标检测特定层最后使用逻辑回归,从3个默认框中寻找置信度最高的那个,它就是输出最接近真实目标的默认框边界。
5.根据权利要求1所述的一种基于多任务神经网络的汽车可行驶区域规划方法,其特征在于,所述步骤3构建多任务神经网络损失函数数学模型,具体包括以下子步骤:
步骤3.1:确定目标检测任务特定层与语义分割任务特定层损失函数,然后在每个特定层计算损失值的过程中对损失值进行归一化处理;
步骤3.2:使用动态损失权重对两个特定层网络的损失值线性加权求和,公式如1所示:
FM=W1·F1+W2·F2(1)
其中FM是多任务神经网络的损失值,F1,W1分别是目标检测特定层网络的损失值与权重系数,F2,W2分别是语义分割特定层网络的损失值与权重系数,W1,W2根据两种网络的损失值进行动态计算,计算公式如(2)、(3)所示:
其中|ΔF1|为目标检测特定层网络的当前次epoch的损失值与上一次epoch的损失值差的绝对值,|ΔF2|为语义分割特定层网络的当前次epoch的损失值与上一次epoch的损失值差的绝对值。
6.根据权利要求5所述的一种基于多任务神经网络的汽车可行驶区域规划方法,其特征在于,所述步骤4将多任务神经网络应用于汽车可行驶区域规划中,具体包括以下子步骤:
步骤4.1:利用提出的损失函数数学模型来进行反向传播,使网络参数达到最优;
步骤4.2:图像处理包含:1.将图片尺寸使用最邻近插值法放大或缩小为网络输入尺寸;比如网络输入尺寸为416x416,就需要将图片尺寸放大或缩小为416x416;2.将放大或缩小的图片进行归一化处理,即图片像素值统一除以255,使图片像素值从0-255变为0-1.,处理后视频帧送入多任务神经网络中,经过网络的前向推理,目标检测分支与语义分割分支分别输出对应的结果;
步骤4.3:在后处理程序中,将两个分支的输出结果进行融合,用来使用OpenCV将目标检测分支得到的结果(包含每个目标的类别,得分,坐标)绘制在原图中,然后再将语义分割分支结果绘制在原图中,即两个分支得到的结果绘制在同一张图片上,规划可行驶区域以及防碰撞预警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011328854.4A CN112418236B (zh) | 2020-11-24 | 2020-11-24 | 一种基于多任务神经网络的汽车可行驶区域规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011328854.4A CN112418236B (zh) | 2020-11-24 | 2020-11-24 | 一种基于多任务神经网络的汽车可行驶区域规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112418236A true CN112418236A (zh) | 2021-02-26 |
CN112418236B CN112418236B (zh) | 2022-10-18 |
Family
ID=74778047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011328854.4A Active CN112418236B (zh) | 2020-11-24 | 2020-11-24 | 一种基于多任务神经网络的汽车可行驶区域规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418236B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113034478A (zh) * | 2021-03-31 | 2021-06-25 | 太原科技大学 | 一种基于深度学习网络的焊缝缺陷识别定位方法、系统 |
CN113052834A (zh) * | 2021-04-20 | 2021-06-29 | 河南大学 | 一种基于卷积神经网络多尺度特征的管道缺陷检测方法 |
CN113409194A (zh) * | 2021-06-30 | 2021-09-17 | 上海汽车集团股份有限公司 | 泊车信息获取方法及装置、泊车方法及装置 |
CN113420687A (zh) * | 2021-06-29 | 2021-09-21 | 三一专用汽车有限责任公司 | 可行驶区域的获取方法、装置和车辆 |
CN113963238A (zh) * | 2021-12-22 | 2022-01-21 | 深圳佑驾创新科技有限公司 | 多任务感知识别模型的构建方法以及多任务感知识别方法 |
CN114048536A (zh) * | 2021-11-18 | 2022-02-15 | 重庆邮电大学 | 一种基于多任务神经网络的道路结构预测与目标检测方法 |
CN114519381A (zh) * | 2021-12-31 | 2022-05-20 | 上海仙途智能科技有限公司 | 基于多任务学习网络的感知方法及装置、存储介质、终端 |
CN115277452A (zh) * | 2022-07-01 | 2022-11-01 | 中铁第四勘察设计院集团有限公司 | 基于边端协同的ResNet自适应加速计算方法及应用 |
CN116385949A (zh) * | 2023-03-23 | 2023-07-04 | 广州里工实业有限公司 | 一种移动机器人的区域检测方法、系统、装置及介质 |
CN116665176A (zh) * | 2023-07-21 | 2023-08-29 | 石家庄铁道大学 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
CN117372983A (zh) * | 2023-10-18 | 2024-01-09 | 北京化工大学 | 一种低算力的自动驾驶实时多任务感知方法及装置 |
CN117944059A (zh) * | 2024-03-27 | 2024-04-30 | 南京师范大学 | 基于视觉及雷达特征融合的轨迹规划方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102014213485A1 (de) * | 2013-07-11 | 2015-01-15 | Denso Corporation | Fahrunterstützungsvorrichtung |
CN108764018A (zh) * | 2018-04-03 | 2018-11-06 | 北京交通大学 | 一种基于卷积神经网络的多任务车辆再识别方法及装置 |
CN110163069A (zh) * | 2019-01-04 | 2019-08-23 | 深圳市布谷鸟科技有限公司 | 用于辅助驾驶的车道线检测方法 |
CN110414387A (zh) * | 2019-07-12 | 2019-11-05 | 武汉理工大学 | 一种基于道路分割的车道线多任务学习检测方法 |
CN111178253A (zh) * | 2019-12-27 | 2020-05-19 | 深圳佑驾创新科技有限公司 | 自动驾驶的视觉感知方法、装置、计算机设备和存储介质 |
-
2020
- 2020-11-24 CN CN202011328854.4A patent/CN112418236B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102014213485A1 (de) * | 2013-07-11 | 2015-01-15 | Denso Corporation | Fahrunterstützungsvorrichtung |
CN108764018A (zh) * | 2018-04-03 | 2018-11-06 | 北京交通大学 | 一种基于卷积神经网络的多任务车辆再识别方法及装置 |
CN110163069A (zh) * | 2019-01-04 | 2019-08-23 | 深圳市布谷鸟科技有限公司 | 用于辅助驾驶的车道线检测方法 |
CN110414387A (zh) * | 2019-07-12 | 2019-11-05 | 武汉理工大学 | 一种基于道路分割的车道线多任务学习检测方法 |
CN111178253A (zh) * | 2019-12-27 | 2020-05-19 | 深圳佑驾创新科技有限公司 | 自动驾驶的视觉感知方法、装置、计算机设备和存储介质 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113034478A (zh) * | 2021-03-31 | 2021-06-25 | 太原科技大学 | 一种基于深度学习网络的焊缝缺陷识别定位方法、系统 |
CN113052834A (zh) * | 2021-04-20 | 2021-06-29 | 河南大学 | 一种基于卷积神经网络多尺度特征的管道缺陷检测方法 |
CN113420687A (zh) * | 2021-06-29 | 2021-09-21 | 三一专用汽车有限责任公司 | 可行驶区域的获取方法、装置和车辆 |
CN113409194A (zh) * | 2021-06-30 | 2021-09-17 | 上海汽车集团股份有限公司 | 泊车信息获取方法及装置、泊车方法及装置 |
CN113409194B (zh) * | 2021-06-30 | 2024-03-22 | 上海汽车集团股份有限公司 | 泊车信息获取方法及装置、泊车方法及装置 |
CN114048536A (zh) * | 2021-11-18 | 2022-02-15 | 重庆邮电大学 | 一种基于多任务神经网络的道路结构预测与目标检测方法 |
CN113963238A (zh) * | 2021-12-22 | 2022-01-21 | 深圳佑驾创新科技有限公司 | 多任务感知识别模型的构建方法以及多任务感知识别方法 |
CN114519381A (zh) * | 2021-12-31 | 2022-05-20 | 上海仙途智能科技有限公司 | 基于多任务学习网络的感知方法及装置、存储介质、终端 |
CN115277452B (zh) * | 2022-07-01 | 2023-11-28 | 中铁第四勘察设计院集团有限公司 | 基于边端协同的ResNet自适应加速计算方法及应用 |
CN115277452A (zh) * | 2022-07-01 | 2022-11-01 | 中铁第四勘察设计院集团有限公司 | 基于边端协同的ResNet自适应加速计算方法及应用 |
CN116385949B (zh) * | 2023-03-23 | 2023-09-08 | 广州里工实业有限公司 | 一种移动机器人的区域检测方法、系统、装置及介质 |
CN116385949A (zh) * | 2023-03-23 | 2023-07-04 | 广州里工实业有限公司 | 一种移动机器人的区域检测方法、系统、装置及介质 |
CN116665176A (zh) * | 2023-07-21 | 2023-08-29 | 石家庄铁道大学 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
CN116665176B (zh) * | 2023-07-21 | 2023-09-26 | 石家庄铁道大学 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
CN117372983A (zh) * | 2023-10-18 | 2024-01-09 | 北京化工大学 | 一种低算力的自动驾驶实时多任务感知方法及装置 |
CN117944059A (zh) * | 2024-03-27 | 2024-04-30 | 南京师范大学 | 基于视觉及雷达特征融合的轨迹规划方法 |
CN117944059B (zh) * | 2024-03-27 | 2024-05-31 | 南京师范大学 | 基于视觉及雷达特征融合的轨迹规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112418236B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112418236B (zh) | 一种基于多任务神经网络的汽车可行驶区域规划方法 | |
US11928866B2 (en) | Neural networks for object detection and characterization | |
CN110188705B (zh) | 一种适用于车载系统的远距离交通标志检测识别方法 | |
WO2020244653A1 (zh) | 物体识别方法及装置 | |
CN113128348A (zh) | 一种融合语义信息的激光雷达目标检测方法及系统 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN113361432B (zh) | 一种基于深度学习的视频文字端到端检测与识别的方法 | |
CN111046781A (zh) | 一种基于三元注意力机制的鲁棒三维目标检测方法 | |
Dinh et al. | Transfer learning for vehicle detection using two cameras with different focal lengths | |
Sellat et al. | Intelligent Semantic Segmentation for Self‐Driving Vehicles Using Deep Learning | |
CN112016569A (zh) | 基于注意力机制的目标检测方法、网络、设备和存储介质 | |
CN111814863A (zh) | 一种轻量级车辆与行人的检测方法 | |
CN111666988A (zh) | 一种基于多层信息融合的目标检测算法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
Sofla et al. | Road extraction from satellite and aerial image using SE-Unet | |
CN115631344A (zh) | 一种基于特征自适应聚合的目标检测方法 | |
Ahmed et al. | A smart IoT enabled end-to-end 3D object detection system for autonomous vehicles | |
CN114973199A (zh) | 一种基于卷积神经网络的轨道交通列车障碍物检测方法 | |
Liang et al. | Car detection and classification using cascade model | |
CN114821508A (zh) | 基于隐式上下文学习的道路三维目标检测方法 | |
Yasmin et al. | Small obstacles detection on roads scenes using semantic segmentation for the safe navigation of autonomous vehicles | |
CN112949635B (zh) | 一种基于特征增强和IoU感知的目标检测方法 | |
CN114495050A (zh) | 一种面向自动驾驶前向视觉检测的多任务集成检测方法 | |
Haris et al. | Lane lines detection under complex environment by fusion of detection and prediction models | |
Acun et al. | D3NET (divide and detect drivable area net): deep learning based drivable area detection and its embedded application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |