CN117115770A - 一种基于卷积神经网络和注意力机制的自动驾驶方法 - Google Patents
一种基于卷积神经网络和注意力机制的自动驾驶方法 Download PDFInfo
- Publication number
- CN117115770A CN117115770A CN202311192579.1A CN202311192579A CN117115770A CN 117115770 A CN117115770 A CN 117115770A CN 202311192579 A CN202311192579 A CN 202311192579A CN 117115770 A CN117115770 A CN 117115770A
- Authority
- CN
- China
- Prior art keywords
- attention mechanism
- feature map
- feature
- network
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 38
- 230000011218 segmentation Effects 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims description 65
- 238000012549 training Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 35
- 238000010586 diagram Methods 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000009977 dual effect Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 9
- 238000003062 neural network model Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001125 extrusion Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明属于自动驾驶技术领域,具体涉及一种基于卷积神经网络和注意力机制的自动驾驶方法,包括:获取路面信息,将路面信息输入到基于注意力机制的语义分割网络中,得到车道线识别预测图;将路面信息输入到基于注意力机制的目标检测网络,根据车道线识别预测图对图像中的目标进行识别,得到识别结果;根据识别结果进行汽车自动驾驶;本发明通过对注意力机制进行改进,使得网络模型更加关注于重要的图像区域,抑制噪声和干扰,并且提高对细节和关键目标的感知能力,提高检测和识别的精度和鲁棒性。
Description
技术领域
本发明属于自动驾驶技术领域,具体涉及一种基于卷积神经网络和注意力机制的自动驾驶方法。
背景技术
近年来,随着人工智能领域的快速发展,如何利用人工智能为各行各业加速赋能成为新一轮发展热潮。在汽车工业领域,自动驾驶技术引领了未来交通领域的重要发展方向,引起了国内外的广泛关注,具有广阔的发展前景。如何将自动驾驶技术从科幻转变成现实,成为世界各国争相研究的热点技术。在驾驶过程中,如何对复杂的道路场景进行理解成为了自动驾驶,辅助驾驶中最具难度的任务之一。目前,要实现自动驾驶的车辆必须准确地感知和识别道路信息,如车道线,交通标志,行人,车辆等元素,并且要从该复杂环境中提取出有效的特征信息。利用深度卷积神经网络(DCNN)等人工智能算法能够通过学习大量的驾驶图片数据,自动提取并学习有效特征,从而实现自动驾驶中所需的感知和识别能力。除此之外,人工智能算法具备优良的适应性和可迭代性。自动驾驶技术的发展和应用会面临着不断变化的交通环境,道路条件和用户需求等挑战。但是人工智能算法可以根据不同的道路场景需求进行灵活地优化和调整,具备很强的适应性和可迭代性。
在图像处理中,基于传统深度学习的语义分割算法和目标检测算法虽然已经取得了不小的成就,但是在自动驾驶领域仍然存在一些困境:首先是如何解决复杂多变的道路环境带来的影响,其次是已存在的算法本身仍然存在一些缺陷需要改进。首先是如何应对复杂多变的道路场景。(1)不同时间段光照强度的不同,例如白天与黑夜的光照条件下带来的影响。(2)在恶劣天气情况下,如雾天,雨天带来的影响。上述的复杂道路场景都会降低行驶过程中车载相机采集的图像数据质量,将这些低质量,充满噪点的图像数据输入算法模型时,都会对算法模型的鲁棒性和精确性带来巨大挑战。其次,是针对自动驾驶任务中已有的算法模型,如针对道路背景和车道线进行语义分割的神经网络模型,针对汽车,行人,交通标识等空间物体进行目标检测的神经网络模型,这些算法仍然存在着精度,实时性等问题。例如常用于语义分割的deeplabv3plus神经网络模型,在一些复杂条件下,无法通过特征提取网络提取出有效的特征信息,从而导致分割精度降低。又比如用于目标检测的yolov7神经网络模型,因为整个yolo系列都更加关注于如何提升目标检测的实时性,处理速度,从而导致目标检测的精度逊色于其他神经网络模型。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于卷积神经网络和注意力机制的自动驾驶方法,包括:构建自动驾驶模型;将路面信息输入到训练好后的自动驾驶模型中,得到路面信息识别结果;根据路面信息识别结果进行汽车自动驾驶;其中自动驾驶模型包括基于注意力机制的语义分割网络和基于注意力机制的目标检测网络;
对自动驾驶模型进行训练的过程包括:
S1、采集道路图像数据,对道路图像数据进行标注;将标注后的数据划分为训练集、验证集以及测试集;
S2、将训练集中的数据输入到基于注意力机制的语义分割网络中,得到车道线识别预测图;
S3、将训练集中的数据输入到基于注意力机制的目标检测网络,得到目标检测图;将车道线识别预测图与目标检测图进行融合,得到识别结果;
S4:根据识别结果计算模型的损失函数;
S5:将验证集输入到自动驾驶模型中进行验证,采用测试对验证后的自动驾驶模型进行测试,不断调整参数,当损失函数收敛时完成模型训练。
本发明的有益效果:
本发明在传统的语义分割网络模型(deeplabv3plus)和目标检测网络模型(yolov7)的基础上,提出一种基于注意力机制的深度卷积神经网络模型;本发明通过对注意力机制进行改进,使得网络模型更加关注于重要的图像区域,抑制噪声和干扰,并且提高对细节和关键目标的感知能力,因此与传统卷积神经网络模型的劣势形成互补,可以更好地提升网络模型应对光照强度,恶劣天气等复杂因素的适应能力,并且可以使得模型更加聚焦于目标特征区域,提高检测和识别的精度和鲁棒性。
附图说明
图1为本发明的基于卷积神经网络和注意力机制的自动驾驶方法流程图;
图2为本发明的优化后的通道注意力机制模块结构图;
图3为本发明的混合注意力机制模块结构图;
图4为本发明的语义分割网络模型结构图;
图5为本发明的基于双重注意力机制的特征提取网络的结构图;
图6为本发明的基于通道注意力机制和ASPP的加强特征提取网络的结构图;
图7为本发明的目标检测网络模型结构图;
图8为本发明的基于可变形卷积和通道注意力机制的特征提取网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于卷积神经网络和注意力机制的自动驾驶方法,如图1所示,该方法包括:构建自动驾驶模型;将路面信息输入到训练好后的自动驾驶模型中,得到路面信息识别结果;根据路面信息识别结果进行汽车自动驾驶;其中自动驾驶模型包括基于注意力机制的语义分割网络和基于注意力机制的目标检测网络;
对自动驾驶模型进行训练的过程包括:
S1、采集道路图像数据,对道路图像数据进行标注;将标注后的数据划分为训练集、验证集以及测试集;
S2、将训练集中的数据输入到基于注意力机制的语义分割网络中,得到车道线识别预测图;
S3、将训练集中的数据输入到基于注意力机制的目标检测网络,得到目标检测图;将车道线识别预测图与目标检测图进行融合,得到识别结果;
S4:根据识别结果计算模型的损失函数;
S5:将验证集输入到自动驾驶模型中进行验证,采用测试对验证后的自动驾驶模型进行测试,不断调整参数,当损失函数收敛时完成模型训练。
本发明提出的自动驾驶方法大致可以分为两个阶段:第一阶段为训练阶段,在此阶段中将图像数据输入至基于注意力机制的深度卷积神经网络中进行训练;第二阶段为测试阶段,此阶段是利用训练阶段保存的最优网络模型,对未被训练过的图像数据进行预测,以此检测整个网络模型的性能和精度。具体包括:
步骤1:划分数据集
具体包括:将采集好的道路图像数据打上标注,然后按照8:1:1的比例将标准数据集分割成训练集,验证集,测试集。训练集参与整个网络模型的训练,验证集不参与网络模型的训练,它的作用是在训练过程中检测整个网络模型的状态,是否收敛等情况,一般用于调整超参数,检验网络模型是否发生过拟合现象。测试集不参与网络模型的训练,整个训练过程都与测试集无关,它是对最终保存的网络模型参数进行评判。
步骤2:训练并调整网络模型参数
将训练集和验证集输入改进过后的语义分割网络,目标检测网络。优化过后的语义分割网络的主要任务是将图像数据按车道线信息,背景信息分割开,以此完成车道线识别任务。优化过后的目标检测网络主要是对图像数据中的汽车,行人,交通标识,自行车等空间物体进行检测,以此完成空间目标检测任务。
整个自动驾驶算法的核心是由语义分割网络,目标检测网络共同构成,二者在训练过程中用到的训练集和验证集一致,但是要解决的问题是不一样的,且二者的执行顺序是并行的,即同时执行训练任务,以此可以减少整个网络模型的训练时间,提升效率。
步骤3:测试网络模型性能
当验证集分别在语义分割网络,目标检测网络中表现稳定后,即可停止训练,此时可以得到一份最优的网络模型参数。将划分好的测试集输入该模型中,即可对保存的最优网络模型进行评判。因为整个模型自始至终都没有接触过测试集,所以该测试集可以很好的检验出网络模型的泛化能力。
在本实施例中,公开了一种优化后的注意力机制,具体包括:该注意力机制的目的在于将特征图上的每个通道都赋予相应的权重,从而可以让神经网络重点关注某些特征通道。优化后的通道注意力机制如图2所示,下面将对该注意力机制的操作进行说明。
挤压操作:假设输入特征图为X,它的尺寸为C*H*W,其中C代表输入特征图的通道数,H,W代表输入特征图的高度和长度。利用一次全局最大池化(GlobalMaxPooling),将输入的特征图压缩成一个1*1*C的特征向量,这个特征向量即可表示出每个通道的重要程度。
激励操作:激励操作主要包含两次全连接和两个激活函数。主要目的是将挤压操作得到的重要程度转化为归一化的权重值。具体包括:将上一步得到的特征向量先经过一次全连接再用Relu激活函数进行激活,然后再用一次全连接和HardSigmoid激活函数进行激活,最终得到了一个代表每个特征通道的权重向量。
特征加权操作:将学习到的权重向量的每一个权重值与对应原始特征图上的通道特征相乘,即可得到加权后的特征图X′。
优化策略就是将原本挤压操作中的全局平均池化替换成全局最大池化,从而生成初始的通道权重值。这么做的目的为了应对前文所提及的在不同光照强度,恶劣天气环境中采集到的低质量图像数据,更换为全局最大池化是因为其对边缘和细节特征更为敏感,通过全局最大池化可以突出特征图中的边缘,纹理和局部细节信息,从而可以很好的抑制低质量图像中噪点带来的干扰。其次,原始的通道注意力机制采用的全局平均池化会将每个通道中的特征平均化,会模糊特征之间的差异,导致部分信息丢失,很难应对低质量图像带来的负面影响,而全局最大池化操作选择最大值,保存的是特征图中的显著信息,减少了平均化效应。
将原本通道注意力机制中的Sigmoid激活函数替换成HardSigmoid激活函数,二者比较而言,因为Sigmoid函数包含指数计算,速度慢,HardSigmoid函数只有乘法运算,提高了整个函数的计算效率,在面对大量训练集时可以有效地减少网络训练时间。整个通道注意力机制的表达式为:
X′=Scale(X)=X*HardSigmoid(W2*Relu(W1*MaxPool(X)))
其中,X′表示加权后的特征图,Scale(X)表示特征向量与特征通道之间的乘法操作,X表示特征图,HardSigmoid表示激活函数,W2表示第二次全连接产生的权重参数,Relu表示激活函数,W1表示第一次全连接产生的权重参数,MaxPool表示最大池化操作。
如图3所示,本发明使用到的是混合域注意力机制,该注意力机制作为一种简单而有效的注意力模块,也经常被使用到卷积神经网络训练过程中。针对该注意力机制,将优化后的通道注意力模块替换原本的通道注意力模块。在使用混合域注意力机制提取更具有判别性和区分度的特征的同时,由于混合域注意力机制会增加更多的参数,所以会影响网络模型参数计算效率。因此权衡使用该注意力机制带来的性能提升和计算资源的消耗,本发明只会将该注意力机制使用至两处。
在本实施例中,基于注意力机制的语义分割网络如图4所示,整个语义分割网络模型仍然采用Encoder-Decoder结构作为主体框架。Encoder部分是本网络模型创新的重点,主要包含了基于双重注意力机制的特征提取网络,基于通道注意力机制和ASPP的加强特征提取网络。Decoder部分是从原始网络模型中继承而来。
Encoder部分:将图像输入至Encoder部分时,首先会经过一个基于双重注意力机制的特征提取网络,该网络部分中包含许多个深度卷积模块,从该特征提取网络中会生成两个特征图,第一个特征图是未经历全部卷积模块的低级特征图,第二个特征图是经历全部卷积模块的特征图;得到的第一个特征图会直接被送入Decoder模块,第二个特征图会被送入基于通道注意力机制和ASPP的加强特征提取网络中从而生成一个高级特征图。在加强特征提取网络中,特征图会先后经历ASPP模块,通道注意力模块,主要是通过增加网络的深度和感受野来扩大特征的上下文范围,再结合注意力机制赋予的权重,以此学习到更深层次的特征信息,从而提高了模型的性能和泛化能力。
Decoder部分:该部分沿用了原始模型中的Decoder模块。首先是会对低级特征图利用1*1卷积进行通道降维,同时将高级特征图进行双线性插值上采样,此时俩个特征图从维度上来说已经变得大小一致,再将两个特征图拼接到一起,送入3*3卷积进行处理,再进行一次上采样便可以得到车道线识别的预测图。
在本实施例中,基于双重注意力机制的特征提取网络由在Resnet50网络结构上引进了前文提到的改进的通道注意力模块和混合域注意力模块。基于双重注意力机制的特征提取网络如图5所示。Resnet50结构首先要经历一次7*7卷积和最大池化,将这部分称为初始化块,然后会经历四个大的残差块(ResBlock),每个大的残差块重复次数是不同的,但其中的操作大体上都是相同的,包含了多个卷积和恒等映射。在初始化块中添加了混合域注意力模块,在最后一次残差块(ResBlock4)后也添加了一次混合域注意力模块,这样的做法相当于用两次大的混合域注意力模块将整个特征提取网络包裹起来,使得整个特征提取网络形成一个整体,从宏观角度上提高了整个网络对特征细节和上下文的关注能力,形成一种上下映射关系。对于每一个残差块(ResBlock),在每一个残差块上引入改进后的通道注意力模块,引入该模块可以对每一个Residual生成的特征图赋予通道维度的权重,增强了每一次残差块的特征表示能力。改进后的ResBlock模块可以说是从微观角度上提升网络对关键特征的感知能力,减少了噪点信息,不重要特征对网络模型的干扰。
上文中提到的从整个特征提取网络中生成的两个特征图,第一个是经过ResBlock1输出的低级特征图,第二个是从最后一次混合域注意力机制输出的特征图。
在本实施例中,基于通道注意力机制和ASPP的加强特征提取网络如图6所示,该网络的改进在于对原有的ASPP结构后添加了改进的通道注意力模块,具体包括:首先将上一步得到的特征图输入ASPP模块,ASPP会对特征图进行多个并行的,不同膨胀率的空洞卷积和平均池化,然后将生成的五个特征图拼接成一个大的特征图。之后特征图被传递给改进后的通道注意力模块进行挤压和激励操作,那么每个小的特征图都赋予了通道上的权重,增强特征的表示能力。再经过一个1*1的卷积对特征图进行压缩,最终得到了一个高级特征图,该高级特征图将被送至Decoder模块。
原网络结构是直接对ASPP生成的特征图进行1*1卷积,也就是对特征图进行压缩,但是这样忽略了在拼接五个不同特征图后,每个特征通道的内在重要程度。引入注意力机制后能够动态地学习通道间的关联性,自适应地调整特征通道的权重,这样使得整个特征图代表的上下文信息更加紧密。
在本实施例中,如图7所示,基于注意力机制的目标检测网络为对yolov7网络模型基础上进行改进,对基于注意力机制的目标检测网络进行训练包括:
步骤1:特征提取;图像数据首先会在优化后的特征提取网络中进行特征提取。随着特征提取网络的不断加深,得到三个有效特征图,可以称为低级,中级,高级特征。
步骤2:特征加强;将最高级的有效特征图会被输入至SPPCSPC结构中进行处理,利用该结构可以使得网络适应不同分辨率的图像,并且减少了一半的计算量。将三个有效特征图送入FPN+PAN的加强特征提取双塔中,对三个特征图先进行上采样实现特征融合,再进行下采样实现特征融合。
步骤3:输出预测结果;之后会输出三个加强过的有效特征图,再分别经过一次RepConv,即可实现对同一类物体的多尺度(大,中,小尺寸)预测。
对特征提取网络进行优化为基于可变形卷积和通道注意力机制的特征提取网络;该特征提取网络是在原网络结构上引进了可变形卷积和前文提到的改进的通道注意力模块。整体的特征提取网络如图8所示。
具体包括:整个特征提取网络就是由多个卷积,池化,ELAN特征提取单元所构成,主要的操作就是通过不断地堆叠这些模块,从而加深对输入图像的特征提取。改进主要集中在ELAN特征提取单元,并且在输出不同级别的特征之前加上了通道注意力模块。详细的改进结构在图8中有所展示。原本的ELAN特征提取单元是由三个普通的1*1卷积,四个普通的3*3卷积通过堆叠而成,主要的作用就是进行特征提取和特征通道数控制。将所有的普通3*3卷积替换成3*3的可变形卷积。
在本实施例中,基于注意力机制的目标检测网络包括优化特征提取网络、SPPCSPC结构、FPN+PAN的加强特征提取双塔模块以及三个RepConv层;基于注意力机制的目标检测网络对特征图进行处理包括:将图片输入到优化特征提取网络中进行特征提取,得到低级特征图、中级特征图以及高级特征图;将高级特征图输入到SPPCSPC结构中;将SPPCSPC结构的输出结果、低级特征图、中级特征图输入到FPN+PAN的加强特征提取双塔模块中进行采样融合,得到有效特征图;将有效特征图分别输入到三个RepConv层中,得到大目标识别结果、中目标识别结果以及小目标识别结果。
优化特征提取网络对图片进行特征提取包括:卷积层、池化层、改进的ELAN特征提取单元以及改进的通道注意力模块;优化特征提取网络对图片进行处理包括:将输入图片经过一次3*3卷积和改进的ELAN特征提取单元进行特征提取,输入图像每经过一轮三次卷积、一次池化操作以及一个改进的ELAN特征提取单元后输出一次特征图;将输出的特征图分别经过一次改进的通道注意力模块,得到低级特征图、中级特征图以及高级特征图。改进的ELAN特征提取单元包括:3次1*1普通卷积,4次3*3可变形卷积,其处理过程包括:将俩次1*1卷积的结果,和经过两次3*3可变形卷积,4次3*3可变形卷积的结果拼接在一起,最终再经过一次1*1卷积调整通道数即可。
FPN+PAN的加强特征提取双塔模块对SPPCSPC结构的输出结果、低级特征图、中级特征图进行采样融合包括:对高级特征图进行上采样,将上采样的特征逐步与中级特征和低级特征进行特征堆叠,生成逐层向下的特征金字塔,其中逐层向下特征金字塔的每一个层级为一个不同尺度的融合特征图;对低级融合特征图进行下采样,将下采样的特征逐步与中级融合特征和高级融合特征进行特征堆叠,生成逐层向上的特征金字塔,其中逐层向上的特征金字塔每一个层级为一个不同尺度的融合特征图。
在驾驶过程中,根据采集到的图像数据可知汽车之间的形态是不一致的,行人也具有高矮胖瘦等特质,但是传统普通卷积操作中,卷积核的采样位置是固定的,因此没有办法去很好地拟合不规则目标的特征,但是可变形卷积引入了可学习的偏移量参数,使得卷积核能够在每个采样位置进行微调,从而适应目标的不同形变,这样的特征提取会包含更多的局部细节和结构信息。
将ELAN特征提取单元输出的特征图经过一次改进后的通道注意力模块,此时特征图的每个特征通道就赋予了相应的权重,就会更加聚焦于重要特征,减少了冗余特征的影响。通过这样一系列改进,最终输出的低级,中级,高级三个特征就很好地减少了复杂场景和不同尺度带来的负面影响,提高了整个目标检测的精确性和鲁棒性。
模型的损失函数由基于注意力机制的语义分割网络损失函数和基于注意力机制的目标检测网络损失函数组成。
基于注意力机制的语义分割网络损失函数包括:
L=Lcross+Ldice
其中Lcross代表交叉熵损失函数,当语义分割平台使用Softmax对像素点进行分类的时候使用;Ldice代表Dice系数损失函数,Dice系数是一种集合相似度度量函数,一般用于计算两个样本之间的相似度。
Lcross损失包括:
其中N代表样本数量,C代表类别数量,yij是样本i的真实标签,如果样本i属于类别j则为1,否则为0;是网络模型预测的样本i属于类别j的概率。该损失函数可以最小化模型预测值与真实标签之间的差异,让模型更好地拟合数据,并且提高模型的泛化能力。
Ldice损失包括:
其中X代表预测结果,Y代表真实结果。整个Ldice的取值范围在[0,1]之间,越接近0代表预测结果和真实结果的相似度越高,损失越小。
基于注意力机制的目标检测网络损失函数包括:
L=Lloc+Lconf+Lclass
其中Lloc代表定位损失,Lconf代表置信度损失,Lclass代表分类损失。置信度损失和分类损失都采用交叉熵损失函数,定位损失采用CIoU损失函数。
Lloc定位损失包括:
其中IoU代表交并比,b代表预测框,bgt代表真实框,ρ代表预测框和真实框之间的距离,c代表能够包含预测框和真实框的最小外接矩形的对角线距离,α为平衡参数,v用来衡量长宽比是否一致。Lloc定位损失考虑了真实框与预测框的距离,重叠区域,纵横比,可以使得网络模型更加贴合训练数据,使得目标检测效果更进一步。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于卷积神经网络和注意力机制的自动驾驶方法,其特征在于,包括:构建自动驾驶模型;将路面信息输入到训练好后的自动驾驶模型中,得到路面信息识别结果;根据路面信息识别结果进行汽车自动驾驶;其中自动驾驶模型包括基于注意力机制的语义分割网络和基于注意力机制的目标检测网络;
对自动驾驶模型进行训练的过程包括:
S1、采集道路图像数据,对道路图像数据进行标注;将标注后的数据划分为训练集、验证集以及测试集;
S2、将训练集中的数据输入到基于注意力机制的语义分割网络中,得到车道线识别预测图;
S3、将训练集中的数据输入到基于注意力机制的目标检测网络,得到目标检测图;将车道线识别预测图与目标检测图进行融合,得到识别结果;
S4:根据识别结果计算模型的损失函数;
S5:将验证集输入到自动驾驶模型中进行验证,采用测试对验证后的自动驾驶模型进行测试,不断调整参数,当损失函数收敛时完成模型训练。
2.根据权利要求1所述的一种基于卷积神经网络和注意力机制的自动驾驶方法,其特征在于,基于注意力机制的语义分割网络采用Encoder-Decoder结构,包括Encoder模块和Decoder模块;其中Encoder模块由基于双重注意力机制的特征提取网络和基于通道注意力机制和ASPP的加强特征提取网络组成;Decoder模块由第一卷积层、双线性插值上采样层、拼接层、第二卷积层以及上采样层组成。
3.根据权利要求2所述的一种基于卷积神经网络和注意力机制的自动驾驶方法,其特征在于,采用基于注意力机制的语义分割网络对图像进行处理包括:基于双重注意力机制的特征提取网络由多个深度卷积模块组成;将道路图像输入到基于双重注意力机制的特征提取网络中进行特征提取,得到第一特征图和第二特征图;将第二特征图输入到基于通道注意力机制和ASPP的加强特征提取网络中,得到高级特征图;将第一特征图和高级特征图输入到Decoder模块中;采用第一卷积层对第一特征图进行通道降维,采用双线性插值上采样层对高级特征图进行双线性插值上采样;将降维后的特征图和采样后的特征图进行拼接,将拼接后的特征图输入到第二卷积层和上采样层中,得到车道线识别的预测图。
4.根据权利要求3所述的一种基于卷积神经网络和注意力机制的自动驾驶方法,其特征在于,基于双重注意力机制的特征提取网络包括初始化模块、四个残差模块组以及第一混合域注意力机制模块;其中初始化模块由卷积层、第二混合域注意力机制模块以及最大池化层组成,各个残差模块组由不同的残差模块组成,每个残差模块引入改进后的通道注意力机制模块。
5.根据权利要求4所述的一种基于卷积神经网络和注意力机制的自动驾驶方法,其特征在于,改进的通道注意力机制包括:
X′=Scale(X)=X*HardSigmoid(W2*Relu(W1*MaxPool(X)))
其中,X′表示加权后的特征图,Scale(X)表示特征向量与特征通道之间的乘法操作,X表示特征图,HardSigmoid表示激活函数,W2表示第二次全连接产生的权重参数,Relu表示激活函数,W1表示第一次全连接产生的权重参数,MaxPool表示最大池化操作。
6.根据权利要求4所述的一种基于卷积神经网络和注意力机制的自动驾驶方法,其特征在于,混合域注意力机制对特征图进行处理包括:将特征图输入到改进的通道注意力模块中,得到通道特征图;将通道特征图与输入特征图进行融合,得到融合特征图;采用空间注意力模块对融合特征图进行进空间特征提取;将空间特征图和融合特征图进行融合,得到输出特征图。
7.根据权利要求1所述的一种基于卷积神经网络和注意力机制的自动驾驶方法,其特征在于,基于注意力机制的目标检测网络包括优化特征提取网络、SPPCSPC结构、FPN+PAN的加强特征提取双塔模块以及三个RepConv层;基于注意力机制的目标检测网络对特征图进行处理包括:将图片输入到优化特征提取网络中进行特征提取,得到低级特征图、中级特征图以及高级特征图;将高级特征图输入到SPPCSPC结构中;将SPPCSPC结构的输出结果、低级特征图、中级特征图输入到FPN+PAN的加强特征提取双塔模块中进行采样融合,得到有效特征图;将有效特征图分别输入到三个RepConv层中,得到大目标识别结果、中目标识别结果以及小目标识别结果。
8.根据权利要求7所述的一种基于卷积神经网络和注意力机制的自动驾驶方法,其特征在于,优化特征提取网络对图片进行特征提取包括:卷积层、池化层、改进的ELAN特征提取单元以及改进的通道注意力模块;优化特征提取网络对图片进行处理包括:将输入图片经过一次3*3卷积和改进的ELAN特征提取单元进行特征提取,输入图像每经过一轮三次卷积、一次池化操作以及一个改进的ELAN特征提取单元后输出一次特征图;将输出的特征图分别经过一次改进的通道注意力模块,得到低级特征图、中级特征图以及高级特征图。
9.根据权利要求7所述的一种基于卷积神经网络和注意力机制的自动驾驶方法,其特征在于,FPN+PAN的加强特征提取双塔模块对SPPCSPC结构的输出结果、低级特征图、中级特征图进行采样融合包括:对高级特征图进行上采样,将上采样的特征逐步与中级特征和低级特征进行特征堆叠,生成逐层向下的特征金字塔,其中逐层向下特征金字塔的每一个层级为一个不同尺度的融合特征图;对低级融合特征图进行下采样,将下采样的特征逐步与中级融合特征和高级融合特征进行特征堆叠,生成逐层向上的特征金字塔,其中逐层向上的特征金字塔每一个层级为一个不同尺度的融合特征图。
10.根据权利要求1所述的一种基于卷积神经网络和注意力机制的自动驾驶方法,其特征在于,模型的损失函数由基于注意力机制的语义分割网络损失函数和基于注意力机制的目标检测网络损失函数组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311192579.1A CN117115770A (zh) | 2023-09-15 | 2023-09-15 | 一种基于卷积神经网络和注意力机制的自动驾驶方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311192579.1A CN117115770A (zh) | 2023-09-15 | 2023-09-15 | 一种基于卷积神经网络和注意力机制的自动驾驶方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117115770A true CN117115770A (zh) | 2023-11-24 |
Family
ID=88807575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311192579.1A Pending CN117115770A (zh) | 2023-09-15 | 2023-09-15 | 一种基于卷积神经网络和注意力机制的自动驾驶方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117115770A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765502A (zh) * | 2024-02-22 | 2024-03-26 | 北京理工大学前沿技术研究院 | 一种高速公路自动驾驶预警方法、系统、设备及存储介质 |
-
2023
- 2023-09-15 CN CN202311192579.1A patent/CN117115770A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765502A (zh) * | 2024-02-22 | 2024-03-26 | 北京理工大学前沿技术研究院 | 一种高速公路自动驾驶预警方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188705B (zh) | 一种适用于车载系统的远距离交通标志检测识别方法 | |
WO2021244621A1 (zh) | 基于全局引导选择性上下文网络的场景语义解析方法 | |
CN110909666B (zh) | 一种基于改进型YOLOv3卷积神经网络的夜间车辆检测方法 | |
CN112183203B (zh) | 一种基于多尺度像素特征融合的实时交通标志检测方法 | |
CN111738110A (zh) | 基于多尺度注意力机制的遥感图像车辆目标检测方法 | |
CN116665176B (zh) | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 | |
CN113095152B (zh) | 一种基于回归的车道线检测方法及系统 | |
CN114841972A (zh) | 基于显著性图和语义嵌入特征金字塔的输电线路缺陷识别方法 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN112990065B (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN115631344B (zh) | 一种基于特征自适应聚合的目标检测方法 | |
CN113205107A (zh) | 一种基于改进高效率网络的车型识别方法 | |
CN117079163A (zh) | 一种基于改进yolox-s的航拍图像小目标检测方法 | |
CN117115770A (zh) | 一种基于卷积神经网络和注意力机制的自动驾驶方法 | |
CN113052057A (zh) | 一种基于改进卷积神经网络的交通标志识别方法 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN116630702A (zh) | 一种基于语义分割网络的路面附着系数预测方法 | |
CN114332921A (zh) | 基于改进聚类算法的Faster R-CNN网络的行人检测方法 | |
CN118015490A (zh) | 一种无人机航拍图像小目标检测方法、系统及电子设备 | |
CN117612136A (zh) | 一种基于增量小样本学习的自动驾驶目标检测方法 | |
CN116863227A (zh) | 一种基于改进YOLOv5的危化品车辆检测方法 | |
CN116740572A (zh) | 一种基于改进yolox的海上船舰目标检测方法和系统 | |
CN115376094A (zh) | 基于尺度感知神经网络的无人清扫车路面识别方法及系统 | |
CN112131996B (zh) | 基于通道分离卷积的路侧图像多尺度行人快速检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |