CN116665176B - 一种面向车辆自动驾驶的多任务网络道路目标检测方法 - Google Patents
一种面向车辆自动驾驶的多任务网络道路目标检测方法 Download PDFInfo
- Publication number
- CN116665176B CN116665176B CN202310902562.4A CN202310902562A CN116665176B CN 116665176 B CN116665176 B CN 116665176B CN 202310902562 A CN202310902562 A CN 202310902562A CN 116665176 B CN116665176 B CN 116665176B
- Authority
- CN
- China
- Prior art keywords
- feature
- detection
- model
- convolution
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000012795 verification Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 2
- 238000007710 freezing Methods 0.000 claims description 2
- 238000007670 refining Methods 0.000 claims 2
- 238000010276 construction Methods 0.000 claims 1
- 238000013519 translation Methods 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 18
- 238000009795 derivation Methods 0.000 abstract description 3
- 230000016776 visual perception Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种面向车辆自动驾驶的多任务网络道路目标检测方法,所述方法包括如下步骤:收集车辆行驶道路的检测数据集,将其划分为训练集、验证集和测试集,并对输入图像进行数据增强;将数据集中的数据根据检测场景中的不同类型进行注释;搭建多任务网络模型,构建损失函数;根据不同需求选择不同训练方法训练多任务网络模型,迭代多轮后得到收敛的最佳模型;加载最佳模型参数,输入待检测目标数据,获取模型检测结果和评估结果;模型优化后导出。本发明模型能够通过同一个模型获得道路车辆目标检测、车道线检测、可行驶区域检测三个视觉感知任务的检测结果,实现更高的检测效率和准确率。
Description
技术领域
本发明属于车辆自动驾驶技术领域,具体涉及一种面向车辆自动驾驶的多任务网络道路目标检测方法。
背景技术
随着人工智能和自动驾驶技术的不断发展,车辆自动驾驶成为一种热门的研究和应用领域。目标检测是车辆自动驾驶中的一个重要任务,它能够帮助车辆系统感知道路上的其他车辆、车道、交通标识等目标,为决策和规划提供关键信息。
传统的目标检测方法通常是针对特定的目标类别进行设计和优化,而车辆自动驾驶需要同时处理多个目标类别。这使得单一任务目标检测方法在处理多类别目标时存在一定的局限性,而且需要将不同任务的检测模型依次部署到车载设备中,对设备的存储量,运行能力要求很高,并且实际应用过程中会产生很高的人工维护成本。
多任务学习是一种能够同时处理多个相关任务的机器学习方法。在车辆自动驾驶中,多任务学习可以利用目标之间的相关性和共享特征,提高检测的准确性和效率。通过共享网络的底层特征提取层,多任务网络可以从不同的任务中学习更加泛化的特征表示,较于单任务模型更加方便且具有更有效的检测结果。近期一些用于多任务检测的方法希望做到同时解决多个任务的检测,然而由于检测任务训练效果差,模型接收到的视野受限,对车辆可行驶区域和车道的检测易受车辆遮挡的影响,最终致使模型检测结果出现边缘捕获不完整,边界不清晰,检测效率低精度低的问题。
发明内容
针对上述问题,本发明的目的在于提供一种面向车辆自动驾驶的多任务网络道路目标检测方法,该方法考虑到了检测模型的高效性实用性和应用场景的复杂性,解决了现有检测方法检测精度低、边缘检测效果不清晰的问题,在同一台设备通过一个模型可以获得道路车辆目标检测、车道线检测、可行驶区域检测三个视觉感知任务的检测结果,实现更高的检测效率和准确率。
为达到上述目的,本发明采用的技术方案如下:
本发明提出一种面向车辆自动驾驶的多任务网络道路目标检测方法,步骤如下:
步骤S1:收集车辆行驶道路的检测数据集,将其划分为训练集、验证集和测试集,并对输入图像进行数据增强;
步骤S2:将数据集中的数据根据检测场景中的不同类型进行注释;
步骤S3:步骤S3:搭建多任务网络模型,构建损失函数,所述多任务网络模型包括:
特征提取编码器网络,所述特征提取编码器网络支持特征传播和特征重用,采用CSP-Darknet结构提取输入图像的特征,生成包含多个尺度和多个语义级别信息的特征,设计构建多局部金字塔结构模块重构特征提取网络,通过局部小范围的拼接特征增强模型特征提取能力,帮助模型准确检测出图像中尺度不一致的目标;
特征融合网络,所述特征融合网络融合不同语义层次的特征,根据不同任务的特征需求,为检测分支分配特征图;用幻影卷积模块取代了普通卷积模块,设计构建联合动态卷积模块使动态卷积和幻影卷积并联执行,通过联合动态卷积模块重构特征融合网络;
目标检测解码分支,所述目标检测解码分支采用基于锚框的多尺度检测方案,根据数据集的边界框大小和图片目标大小的匹配度自适应设置锚框,目标检测解码分支会预测位置的偏移量、缩放后的宽高、每个类别的概率值和对应的置信度,根据加权二进制交叉熵处理样本不平衡问题;
两个分割解码分支,所述两个分割解码分支设计了一种特征对齐策略,以两次上采样且特征融合后的单个特征图作为输入,特征图的尺寸大小为W×H×2,用来判断每个像素是目标区域还是背景的概率,结合不同链路的相同尺度特征图实现特征增强,有效判断每个像素是目标区域还是背景区域的概率;构建边缘细化模块,使模型获得更健壮的特征来关注细节层次的边界像素,从而使检测结果获得更清晰的边界轮廓;
步骤S4:根据不同需求选择不同训练方法训练多任务网络模型,迭代多轮后得到收敛的最佳模型;
步骤S5:加载最佳模型参数,输入待检测目标数据,获取模型检测结果和评估结果;
步骤S6:模型优化后导出。
进一步地,所述步骤S1中的数据使用公开的BDD100K数据集以及数据标注,其中涵盖不同时间、不同天气条件和不同驾驶场景。
进一步地,所述数据集中的车道线图像需要进行数据增强,数据增强包括:裁剪、旋转、垂直位移、Mosaic和Mixup策略。
进一步地,所述特征提取编码器网络包括五个Conv + BN + SiLU层、四个CSP模块和一个多局部金字塔结构模块,其中Conv表示卷积核大小3×3的普通卷积,BN表示BN(Batch Normalization)归一化,SiLU表示激活函数。
进一步地,所述CSP模块将输入分给两个分支进行同步操作,上分支包括一个单独的Conv + BN + SiLU结构,一个3×3卷积核的卷积和多个残差结构模块,其中每个残差结构模块包含两个Conv + BN + SiLU结构;下分支包括一个3×3卷积核的卷积,上下分支拼接后再经过一层Conv + BN + SiLU结构完成该CSP模块的操作。
进一步地,所述多局部金字塔结构模块包括两个Conv + BN + SiLU结构、三个最大池化层、和一个单独的卷积层。
进一步地,所述特征融合网络包括四个幻影卷积操作、四个联合动态卷积模块和两次上采样操作,将特征提取编码器的后三层特征图作为输入,将不同尺寸的特征图经过加工处理后转换为相同尺度,并进行拼接,将大感受野模糊特征图逐步拼接到小感受野清晰特征图中,有助于像素分类;而增大感受野,反向将小感受野特征拼接到大感受野特征中有助于车辆等大目标检测。
进一步地,所述联合动态卷积模块包括三个普通卷积、两个幻影卷积和一个动态卷积,用该模块重构特征融合网络有效提高检测精度,同时动态卷积和幻影卷积的并联执行有助于降低模型参数量。
进一步地,所述分割解码分支结构采用了一种特征对齐策略,分别以特征融合网络中经过两次上采样后拼接起来的特征图和特征提取网络的第二层特征图作为输入,两个尺度大小相同的特征图进行加和操作,设计边缘细化模块来增加依赖关系强的像素权重。
进一步地,所述边缘细化模块结构包括两个卷积核大小为3×3的卷积、三层空洞卷积、一个卷积核大小为1×1的卷积、一层全局平均池化层和一个Sigmoid激活函数操作,该模块有利于模型检测出清晰的边缘轮廓,更关注细节,消除边缘噪声的干扰。
进一步地,所述损失函数包含车辆检测损失、可行驶区域分割损失和车道线分割损失;
车辆检测损失是分类损失、目标对象损失和边界框损失的加权和,可行驶区域分割损失使用交叉熵损失函数来缩小分割出的结果和真实标签之间的差异,车道线分割损失不仅有交叉熵损失还因其预测类别方面的有效性而具有额外的SIoU损失,所以模型的整体损失函数是三部分的加权和。
进一步地,所述步骤S4中的不同训练方法包括道路信息同步检测法和单分支独立训练法,可以同时训练多个检测任务,也可以根据模型中的单分支任务进行训练。
本发明的有益效果:
本发明的方法中提出一种用于车辆的多任务网络模型,包括特征提取编码器网络、特征融合网络、目标检测解码分支、两个分割解码分支。搭建特征提取网络获取不同尺度的特征图,设计多局部金字塔结构模块增强特征提取能力,助模型准确检测出图像中尺度不一致的目标;构建特征融合网络将不同尺度特征图进行融合,根据不同任务的特征需求,为检测分支分配特征图,另外设计了联合动态卷积模块,使模型在保证参数量的同时获得更高的精度值;通过目标检测解码分支实现目标车辆位置的预测,根据加权二进制交叉熵处理样本不平衡问题;两个分割解码分支设计了一种特征对齐策略,结合不同链路的相同尺度特征图实现特征增强,同时设计了边缘细化模块,使模型获得更健壮的特征来关注细节层次的边界像素,从而使检测结果获得更清晰的边界轮廓。本发明模型能够同时获得三个视觉感知任务的检测结果,针对不同的检测任务设计了不同的检测分支,能实现更高的检测效率和准确率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明方法的整体实现流程图;
图2是本发明中多任务网络模型整体结构图;
图3是本发明中特征提取编码器网络图;
图4是本发明中CSP模块结构图;
图5是本发明中多局部金字塔结构模块结构图;
图6是本发明中特征融合网络图;
图7是本发明中联合动态卷积模块结构图;
图8是本发明中分割解码分支结构图;
图9是本发明中边缘细化模块结构图。
具体实施方式
为了使本领域的技术人员可以更清楚地对本发明进行了解,下面结合具体实施例与附图进行说明。此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
参照图1所示,本发明所提供的面向车辆自动驾驶的多任务网络道路目标检测方法,步骤如下:
步骤S1:收集车辆行驶道路的检测数据集,将其划分为训练集、验证集和测试集,并对输入图像进行数据增强;
其中,所述步骤S1中的数据使用公开的BDD100K数据集以及数据标注,其中涵盖不同时间、不同天气条件和不同驾驶场景。
所述数据集中的车道线图像需要进行数据增强,数据增强包括:裁剪、旋转、垂直位移、Mosaic和Mixup策略。
步骤S2:将数据集中的数据根据检测场景中的不同类型进行注释;
步骤S3:搭建多任务网络模型,构建损失函数;
如图2所示,搭建的多任务网络模型整体结构包括:特征提取编码器网络、特征融合网络、目标检测解码分支、两个分割解码分支,其中目标检测解码分支主要执行车辆检测任务,两个分割解码分支分别执行车道线和可行驶区域的检测任务。
如图3所示,所述特征提取编码器网络将输入图像首先经过了两层Conv + BN +SiLU层然后经过一个CSP模块得到特征图f1,然后经过一层Conv + BN + SiLU层后经过一个CSP模块得到特征图f2,再重复一次一层Conv + BN + SiLU层和一个CSP模块得到特征图f3,最后经过一层Conv + BN + SiLU层、一个多局部金字塔结构模块和一个CSP模块得到特征图f4。
如图4所示,所述CSP模块将输入分给两个分支进行同步操作,上分支包括一个单独的Conv + BN + SiLU结构,多个残差结构模块和一个3×3卷积核的卷积用来实现下采样,其中每个残差结构模块包含两个Conv + BN + SiLU结构,然后输出结果与该残差结构的输入进行加和操作;下分支包括一个3×3卷积核的卷积,上下分支拼接后再经过一层Conv + BN + SiLU结构完成该模块的操作。
如图5所示,所述多局部金字塔结构模块首先经过一层Conv + BN + SiLU结构层,然后得到的输出与最大池化层的输出进行小局部范围拼接,第二层最大池化层的输出与第三层最大池化层的输出进行小局部范围拼接,第一次拼接后的特征经过一次卷积消除噪声后与第二次拼接后的特征再次执行拼接操作,最后经过一层Conv + BN + SiLU结构得到模块的输出结果。该模块的实现过程定义为:
,
,
,
,
式中、/>和/>分别表示成为主链路中经过池化层后的操作结果,/>表示Conv + BN + SiLU结构。
如图6所示,所述特征融合网络包括四个幻影卷积操作、四个联合动态卷积模块和两次上采样操作,将特征提取编码器的后三层特征图作为输入,特征图f4经过幻影卷积后上采样到与特征图f3大小相等,然后拼接后的特征图经过一层联合动态卷积和一层幻影卷积后上采样到与特征图f2相等大小,然后拼接后得到三层特征图有效信息的融合;
语义分割任务是基于像素点的,更多的关注细粒度的类别区分,而目标检测任务是基于锚框的,更关注全局信息,所以上述操作融合后的特征图经过联合动态卷积后作为进入目标检测解码分支的第一个特征图,该特征图经过幻影卷积后与左侧幻影卷积输出的特征图拼接,充分进行来自不同链路来源的特征信息补正,再经过联合动态卷积后输出给目标检测解码分支;至此特征图再次经过一层幻影卷积后与左侧幻影卷积拼接,再经过一层联合动态卷积得到输送至解码分支的第三个特征图。
如图7所示,所述联合动态卷积模块包括三个普通卷积、两个幻影卷积和一个动态卷积,首先将输入经过一层普通卷积改变通道数,分别输入给两层幻影卷积和一层动态卷积来提取特征然后将两个不同链路的输出结果进行加和操作,加和后的结果与输入经过一层普通卷积后的结果进行拼接操作,而后再经过一层卷积得到该模块的输出结果;用该模块重构特征融合网络有效提高检测精度,同时动态卷积和幻影卷积的并联执行有助于降低模型参数量。该过程定义为:
,
,
式中和/>分别表示上下不同分支,/>代表幻影卷积,/>表示动态卷积。
如图8所示,所述分割解码分支结构采用了一种特征对齐策略,分别以特征融合网络中经过两次上采样后拼接起来的特征图和特征提取网络得到的第二层特征图作为输入,两个尺度大小相同的特征图进行加和操作,其中经过了两次边缘细化模块来增强像素依赖关系;
尽管两个分割和一个检测任务共享特征提取和特征融合模块,但任务不同对特征的利用也不同,由于分割解码部分输入进来的特征图是经过多次上采样得到的,但是上采样操作会使车道可行驶区域或者车道线的边缘细节模糊,从而降低目标分割的清晰度,甚至会将两个任务的像素点判断错误,结果造成混乱,所以本发明为解决上述问题设计了边缘细化模块。
如图9所示,所述边缘细化模块首先经过3×3的卷积增加模型的非线性表达能力,然后通过扩张率分别为1、2、5的空洞卷积扩大特征图感受野,并对不同层拼接后的结果进行卷积操作;另一分支对输入进行平均池化操作来聚合上下文信息,然后一维卷积后接Sigmoid激活函数对数据扁平化处理,将处理后的一维数组与另一分支高维度特征图进行点乘操作后得到输出结果。
所述损失函数包含目标检测损失、可行驶区域分割损失和车道线分割损失。
目标检测损失是分类损失、目标对象损失和边界框损失的加权和,目标检测损失可以表示为:
,
其中,分类损失和目标置信度损失/>中用加权二进制交叉熵损失来处理样本不平衡问题的。/>是指边界框损失,使用的是CIoU损失函数,该损失函数较其他损失函数增加了长宽相似性的损失度量,这样预测框会更贴近于真实框,有助于检测模型的优化,使目标检测任务获得更好的效果,其表达式表示为:
,
其中,是权重函数,/>用来度量长宽比的相似性,/>和/>分别代表了预测框和真实框的中心点,/>代表计算两个中心点间的欧式距离,/>代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。
可行驶区域分割损失使用交叉熵损失函数,可以表示为:
,
其中,代表了交叉熵损失。
车道线分割损失不仅有上述交叉熵损失还因其预测类别方面的有效性而具有额外的损失函数,表达式为:
。
为了判断每个像素是否被正确分类,在损失中增加了,/>的计算方法可以表示为:
,
其中表示模型预测的像素点是目标像素且预测正确,/>表示模型预测的像素点是背景像素且预测错误,/>表示模型预测的像素点是背景像素且预测正确。
所以模型的整体损失函数是三部分的加权和,整体损失函数可以表示为:
,
上述所述的、/>、/>、/>、/>、/>、/>、/>、/>是用于平衡每个损失的可调节参数。
步骤S4:根据不同需求选择不同训练方法训练多任务网络模型,迭代多轮后得到收敛的最佳模型;
不同训练方法包括道路信息同步检测法和单分支独立训练法,可以根据预定义设置模型同时训练多个检测任务,也可以根据模型中的单分支任务进行训练。
训练中,使用了余弦学习率和学习率热身的学习策略,有助于缓解模型早期过拟合,保持分布的平稳性和模型的稳定性。
步骤S5:加载最佳模型参数,输入待检测目标数据,获取模型检测结果和评估结果;
步骤S6:模型优化后导出。
通过将模型的参数设置为不可训练或固定参数的方式实现冻结模型,冻结模型后可以将其导出保存;也可以将最优模型根据应用设备转换为适合目标框架或设备的格式投入车辆检测应用。
为了验证以上实施例的有效性,我们将本发明应用于实际,通过计算准确率来和道路目标多任务检测方面的先进方法进行对比。具体来说,我们使用BDD100K数据集来评估我们的发明方法。BDD100K数据集是最具有多样性的公开驾驶数据集之一,数据集中的视频涵盖不同时间、不同天气条件和不同驾驶场景。
BDD100K数据集上的实验结果如表1、表2和表3所示。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。
Claims (9)
1.一种面向车辆自动驾驶的多任务网络道路目标检测方法,其特征在于,包括如下步骤:
步骤S1:收集车辆行驶道路的检测数据集,将其划分为训练集、验证集和测试集,并对输入图像进行数据增强;
步骤S2:将数据集中的数据根据检测场景中的不同类型进行注释;
步骤S3:搭建多任务网络模型,构建损失函数,所述多任务网络模型包括:
特征提取编码器网络,所述特征提取编码器网络支持特征传播和特征重用,将输入图像首先经过了两层Conv + BN + SiLU层然后经过一个CSP模块得到特征图f1,然后经过一层Conv + BN + SiLU层后经过一个CSP模块得到特征图f2,再重复一次一层Conv + BN +SiLU层和一个CSP模块得到特征图f3,最后经过一层Conv + BN + SiLU层、一个多局部金字塔结构模块和一个CSP模块得到特征图f4,所述多局部金字塔结构模块首先将Conv + BN +SiLU结构层和第一层最大池化层的输出进行小局部范围拼接,第二层最大池化层的输出与第三层最大池化层的输出进行小局部范围拼接,然后两次拼接的结果经过卷积操作后再次执行拼接操作;
特征融合网络,所述特征融合网络融合不同语义层次的特征,根据不同任务的特征需求,为检测分支分配特征图;用幻影卷积模块取代了普通卷积模块,设计构建联合动态卷积模块使动态卷积和幻影卷积并联执行,通过联合动态卷积模块构建特征融合网络;
目标检测解码分支,所述目标检测解码分支采用基于锚框的多尺度检测方案,根据数据集的边界框大小和图片目标大小的匹配度自适应设置锚框,预测位置的偏移量、缩放后的宽高、每个类别的概率值和对应的置信度,根据加权二进制交叉熵处理样本不平衡问题;
两个分割解码分支,所述两个分割解码分支设计了一种特征对齐策略,特征图f4上采样后与特征图f3拼接,然后将得到的拼接特征图上采样后与特征图f2再次拼接,该过程得到的特征图作为两个分割解码分支输入,f2、f3、f4三层特征图的结合实现特征增强,有效判断每个像素是目标区域还是背景区域的概率;构建边缘细化模块,使模型获得更健壮的特征来关注细节层次的边界像素,从而使检测结果获得更清晰的边界轮廓,所述边缘细化模块第一分支首先经过3×3的卷积增加模型的非线性表达能力,然后通过扩张率分别为1、2、5的空洞卷积扩大特征图感受野,并对不同层拼接后的结果进行卷积操作;第二分支对输入进行平均池化操作来聚合上下文信息,然后一维卷积后接Sigmoid激活函数对数据扁平化处理,将第二分支处理后的一维数组与第一分支高维度特征图进行点乘操作后得到输出结果;
步骤S4:根据不同需求选择不同训练方法训练多任务网络模型,迭代多轮后得到收敛的最佳模型;
所述不同训练方法包括道路信息同步检测法和单分支独立训练法,可以根据预定义设置同时训练多任务模型,也可以对模型中的单分支任务进行训练;
步骤S5:加载最佳模型参数,输入待检测目标数据,获取模型检测结果和评估结果;
步骤S6:模型优化后导出;
通过将模型的参数设置为不可训练或固定参数的方式实现冻结模型,冻结模型后可以将其导出保存;也可以将最优模型根据应用设备转换为适合目标框架或设备的格式投入车辆检测应用。
2.根据权利要求1所述的面向车辆自动驾驶的多任务网络道路目标检测方法,其特征在于,所述步骤S1中的数据使用公开的BDD100K数据集以及数据标注,其中涵盖不同时间、不同天气条件和不同驾驶场景;
所述数据集中的车道线图像需要进行数据增强,数据增强包括:平移、旋转、垂直位移、Mosaic和Mixup策略。
3.根据权利要求1所述的面向车辆自动驾驶的多任务网络道路目标检测方法,其特征在于,所述特征提取编码器网络包括五个Conv + BN + SiLU层、四个CSP模块和一个多局部金字塔结构模块,其中Conv表示普通卷积,BN表示BN归一化,SiLU表示激活函数,所述多局部金字塔结构模块包括两个Conv + BN + SiLU结构、三个最大池化层、和一个单独的卷积层,在最后一个CSP模块之前加入多局部金字塔结构模块实现网络构建。
4.根据权利要求3所述的面向车辆自动驾驶的多任务网络道路目标检测方法,其特征在于,所述CSP模块将输入分给两个分支进行同步操作,上分支包括一个单独的Conv + BN+ SiLU结构,一个3×3卷积核的卷积和多个残差结构模块,其中每个残差结构模块包含两个Conv + BN + SiLU结构;下分支包括一个3×3卷积核的卷积,上下分支拼接后再经过一层Conv + BN + SiLU结构完成该CSP模块的操作。
5.根据权利要求1所述的面向车辆自动驾驶的多任务网络道路目标检测方法,其特征在于,所述特征融合网络包括四个幻影卷积、四个联合动态卷积模块和两次上采样操作,将特征提取编码器的后三层特征图作为输入,将不同尺寸的特征图经过加工处理后转换为相同尺度,并进行拼接,将大感受野模糊特征图逐步拼接到小感受野清晰特征图中,有助于像素分类;而增大感受野,反向将小感受野特征拼接到大感受野特征中有助于大目标检测。
6.根据权利要求1所述的面向车辆自动驾驶的多任务网络道路目标检测方法,其特征在于,所述联合动态卷积模块包括三个普通卷积、两个幻影卷积和一个动态卷积。
7.根据权利要求1所述的面向车辆自动驾驶的多任务网络道路目标检测方法,其特征在于,所述两个分割解码分支结构以特征融合网络中经过两次上采样后拼接起来的特征图和特征提取网络的第二层特征图作为输入,两个尺度大小相同的特征图进行加和操作。
8.根据权利要求1所述的面向车辆自动驾驶的多任务网络道路目标检测方法,其特征在于,所述边缘细化模块包括两个卷积核大小为3×3的卷积、三层空洞卷积、一个卷积核大小为1×1的卷积、一层全局平均池化层和一个Sigmoid激活函数操作。
9.根据权利要求1所述的面向车辆自动驾驶的多任务网络道路目标检测方法,其特征在于,所述损失函数包含车辆检测损失、可行驶区域分割损失和车道线分割损失;
车辆检测损失是分类损失、目标对象损失和边界框损失的加权和,可行驶区域分割损失使用交叉熵损失函数来缩小分割出的结果和真实标签之间的差异,车道线分割损失不仅有交叉熵损失还因其预测类别方面的有效性而具有额外的SIoU损失,模型的整体损失函数是三部分的加权和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310902562.4A CN116665176B (zh) | 2023-07-21 | 2023-07-21 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310902562.4A CN116665176B (zh) | 2023-07-21 | 2023-07-21 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116665176A CN116665176A (zh) | 2023-08-29 |
CN116665176B true CN116665176B (zh) | 2023-09-26 |
Family
ID=87715536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310902562.4A Active CN116665176B (zh) | 2023-07-21 | 2023-07-21 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665176B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078967B (zh) * | 2023-09-04 | 2024-03-01 | 石家庄铁道大学 | 一种有效且轻量的多尺度行人重识别方法 |
CN117372983B (zh) * | 2023-10-18 | 2024-06-25 | 北京化工大学 | 一种低算力的自动驾驶实时多任务感知方法及装置 |
CN117593717B (zh) * | 2024-01-18 | 2024-04-05 | 武汉大学 | 一种基于深度学习的车道追踪方法及系统 |
CN117671647B (zh) * | 2024-01-31 | 2024-04-26 | 无锡车联天下信息技术有限公司 | 一种多任务道路场景感知方法 |
CN118015564A (zh) * | 2024-02-17 | 2024-05-10 | 东莞理工学院 | 一种可用于高速路段的多任务感知流量调控网络方法 |
CN117854045B (zh) * | 2024-03-04 | 2024-07-05 | 东北大学 | 一种面向自动驾驶的车辆目标检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418236A (zh) * | 2020-11-24 | 2021-02-26 | 重庆邮电大学 | 一种基于多任务神经网络的汽车可行驶区域规划方法 |
CN114445664A (zh) * | 2022-01-25 | 2022-05-06 | 重庆邮电大学 | 基于自适应动态卷积网络的图像分类识别方法、装置和计算机设备 |
CN114782412A (zh) * | 2022-05-26 | 2022-07-22 | 马上消费金融股份有限公司 | 图像检测方法、目标检测模型的训练方法及装置 |
CN115205274A (zh) * | 2022-07-26 | 2022-10-18 | 西南石油大学 | 一种基于轻量化级联网络的布匹瑕疵检测方法 |
CN115294550A (zh) * | 2022-08-05 | 2022-11-04 | 厦门大学 | 一种基于多任务学习的自动驾驶汽车道路场景理解方法 |
CN115797881A (zh) * | 2022-12-26 | 2023-03-14 | 江苏大学 | 一种用于交通道路路面信息的多任务联合感知网络模型及检测方法 |
CN115909245A (zh) * | 2022-11-30 | 2023-04-04 | 华南理工大学 | 一种基于深度学习的视觉多任务处理方法 |
CN116452937A (zh) * | 2023-04-25 | 2023-07-18 | 重庆邮电大学 | 基于动态卷积与注意力机制的多模态特征目标检测方法 |
-
2023
- 2023-07-21 CN CN202310902562.4A patent/CN116665176B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418236A (zh) * | 2020-11-24 | 2021-02-26 | 重庆邮电大学 | 一种基于多任务神经网络的汽车可行驶区域规划方法 |
CN114445664A (zh) * | 2022-01-25 | 2022-05-06 | 重庆邮电大学 | 基于自适应动态卷积网络的图像分类识别方法、装置和计算机设备 |
CN114782412A (zh) * | 2022-05-26 | 2022-07-22 | 马上消费金融股份有限公司 | 图像检测方法、目标检测模型的训练方法及装置 |
CN115205274A (zh) * | 2022-07-26 | 2022-10-18 | 西南石油大学 | 一种基于轻量化级联网络的布匹瑕疵检测方法 |
CN115294550A (zh) * | 2022-08-05 | 2022-11-04 | 厦门大学 | 一种基于多任务学习的自动驾驶汽车道路场景理解方法 |
CN115909245A (zh) * | 2022-11-30 | 2023-04-04 | 华南理工大学 | 一种基于深度学习的视觉多任务处理方法 |
CN115797881A (zh) * | 2022-12-26 | 2023-03-14 | 江苏大学 | 一种用于交通道路路面信息的多任务联合感知网络模型及检测方法 |
CN116452937A (zh) * | 2023-04-25 | 2023-07-18 | 重庆邮电大学 | 基于动态卷积与注意力机制的多模态特征目标检测方法 |
Non-Patent Citations (3)
Title |
---|
FANet: An Arbitrary Direction Remote Sensing Object Detection Network Based on Feature Fusion and Angle Classification;Yunzuo Zhang et al;《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》;第1-11页 * |
GMetaNet: Multi-scale ghost convolutional neural network with auxiliary MetaFormer decoding path for brain tumor segmentation;Yao Lu et al;《Biomedical Signal Processing and Control》;第1-18页 * |
轮廓指导的层级混合多任务全卷积网络;何克磊等;《软件学报》;第1573-1584页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116665176A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116665176B (zh) | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 | |
CN112200161B (zh) | 一种基于混合注意力机制的人脸识别检测方法 | |
CN111047551B (zh) | 一种基于U-net改进算法的遥感影像变化检测方法及系统 | |
CN112183203B (zh) | 一种基于多尺度像素特征融合的实时交通标志检测方法 | |
CN111160311A (zh) | 基于多注意力机制双流融合网络的黄河冰凌语义分割方法 | |
CN111882620B (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN113569667A (zh) | 基于轻量级神经网络模型的内河船舶目标识别方法及系统 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN112686233B (zh) | 基于轻量化边缘计算的车道线识别方法及装置 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN113591617B (zh) | 基于深度学习的水面小目标检测与分类方法 | |
CN111553414A (zh) | 一种基于改进Faster R-CNN的车内遗失物体检测方法 | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及系统 | |
CN115482518A (zh) | 一种面向交通场景的可扩展多任务视觉感知方法 | |
CN112613434A (zh) | 道路目标检测方法、装置及存储介质 | |
CN112070037A (zh) | 基于遥感影像的道路提取方法、装置、介质及设备 | |
CN118196628A (zh) | 基于不同预训练特征提取骨干的增强型语义-位置特征融合网络方法、装置及应用 | |
Cano-Ortiz et al. | Improving detection of asphalt distresses with deep learning-based diffusion model for intelligent road maintenance | |
CN117115770A (zh) | 一种基于卷积神经网络和注意力机制的自动驾驶方法 | |
CN116246172A (zh) | 一种基于道路分割和交叉口检测的道路提取方法和系统 | |
CN113344005B (zh) | 一种基于优化小尺度特征的图像边缘检测方法 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 | |
CN113160101A (zh) | 一种合成高仿真图像的方法 | |
CN117523205B (zh) | 少样本ki67多类别细胞核的分割识别方法 | |
CN114882449B (zh) | 一种基于Car-Det网络模型的车辆检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |