CN116665153A - 一种基于改进型Deeplabv3+网络模型的道路场景分割方法 - Google Patents
一种基于改进型Deeplabv3+网络模型的道路场景分割方法 Download PDFInfo
- Publication number
- CN116665153A CN116665153A CN202310711740.5A CN202310711740A CN116665153A CN 116665153 A CN116665153 A CN 116665153A CN 202310711740 A CN202310711740 A CN 202310711740A CN 116665153 A CN116665153 A CN 116665153A
- Authority
- CN
- China
- Prior art keywords
- network
- network model
- image
- road scene
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000011218 segmentation Effects 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012795 verification Methods 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 238000002372 labelling Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 10
- 238000003709 image segmentation Methods 0.000 claims description 7
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 abstract description 8
- 238000011176 pooling Methods 0.000 abstract description 7
- 230000008447 perception Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进型Deeplabv3+网络模型的道路场景分割方法,包括获取道路场景图像数据并进行预处理,生成标签图像;将预处理图像和标签图像组合,得到数据集并分为训练集、验证集和测试集;构建改进型Deeplabv3+网络模型;训练集和验证集用来训练改进型Deeplabv3+网络模型;将测试集的预处理图像输入训练好的模型,得到道路场景图像的分割结果。本发明采用四元数卷积取代二维卷积,提高网络的拟合能力,降低参数量;采用大卷积替换空洞卷积对空间金字塔池化模块进行重构,增加有效感受野并提高对待征信息的复用效率;在解码端引入编码端中降采样层输出的特征图和注意力机制模块,实现多尺度特征融合和细节感知;将模型的训练和推理解耦,减少计算量和内存消耗。
Description
技术领域
本发明涉及语义分割技术领域,尤其涉及一种基于改进型Deeplabv3+网络的道路场景分割方法。
背景技术
城市道路图像语义分割是一种将图像中每个像素点根据其所属的类别划分为不同的颜色区域的技术,旨在更细致地理解图像语义,以便更好地进行道路交通管理、自动驾驶和智能交通等应用。传统的聚类分割算法难以对类别进行细分,从而无法获取有用的语义信息。现在常用的技术是使用深度学习模型,例如卷积神经网络可以通过学习大量的数据进行图像识别和分割,进而实现更精细的语义分割。例如,可以通过分割出道路区域,实现道路交通拥堵检测和智能路灯控制等功能,通过分割出车辆和行人等物体,实现交通违规检测和行人安全监测等功能。
DeepLabv3+是一种基于深度学习的语义分割模型,它采用了空洞卷积和多尺度融合等先进技术来处理不同尺度的图像,并且能够适应不同的数据集和任务。相较于其他模型,DeepLabv3+具有更高的准确率和精度,能够准确地识别出图像中的不同物体和区域。但在分割物体边界时,可能会出现不连续和分割错误的现象。为了解决这个问题,本发明以底层特征复用和捕获多尺度语义信息为出发点,对DeepLabv3+算法进行了改进。通过构建四元数卷积神经网络提取网络浅层细节信息,之后进行级联式特征融合,完成底层信息的复用,最终利用空间金字塔结构进一步获取多尺度特征信息,以达到更加准确的物体边界分割效果。
发明内容
本发明的目的在于针对现有技术中的不足,提供一种基于改进型Deeplabv3+网络的道路场景分割方法,可以有效的进行底层特征复用和捕获多尺度语义信息以达到更加准确的物体边界分割效果。
为达到上述目的,本发明是采用下述技术方案实现的:一种基于改进型Deeplabv3+网络模型的道路场景分割方法,其特征在于,包括以下步骤:
(1)获取道路场景图像数据;
(2)对所述道路场景图像数据进行预处理,根据预处理图像生成标签图像;将预处理图像和对应的标签图像按照一一对应的方式进行组合,得到数据集;将数据集分为训练集、验证集和测试集;
(3)引入四元数卷积来改进ConvNeXt网络;以Deeplabv3+网络为原型,将改进的ConvNeXt网络替换主干网络中的Xception网络,在解码端引入编码端中降采样层输出的特征图和注意力机制模块,构建改进型Deeplabv3+网络模型;
(4)所述训练集和验证集用来训练改进型Deeplabv3+网络模型;
(5)将所述测试集的预处理图像输入训练好的改进型Deeplabv3+网络模型,得到道路场景图像的分割结果。
进一步地,所述步骤(2)中,预处理包括尺寸调整、翻转、标准归一化和裁剪操作。
进一步地,所述步骤(2)中,生成标签图像的方法包括手工绘制、蒙版绘制、半自动标注和AI辅助标注。
进一步地,所述步骤(3)中,所述引入四元数卷积来改进ConvNeXt网络具体为:将ConvNeXt卷积层的卷积核表示为四元数形式,并使用四元数乘法来实现卷积操作,得到改进的ConvNeXt网络。
进一步地,所述步骤(3)中,还包括:采用大卷积替换空洞卷积对所述Deeplabv3+网络中的ASPP模块进行重构,得到RepASPP模块,所述RepASPP模块用于将改进型Deeplabv3+网络模型的训练和推理解耦。
进一步地,所述步骤(4)具体为:将所述训练集输入改进型Deeplabv3+网络模型,进行计算并得到预测结果;计算预测结果与标签图像之间的误差,并利用梯度优化算法减小误差,更新模型权重参数;通过迭代优化的过程,使得模型逐渐收敛。
进一步地,所述步骤(4)包括以下子步骤:
(4.1)使用在ImageNet数据集上预训练的权重对改进型Deeplabv3+网络模型进行初始化;
(4.2)将训练集中的预处理图像输入改进型Deeplabv3+网络模型,得到道路场景图像分割的预测结果;
(4.3)使用交叉熵损失函数计算预测结果与对应标签图像之间的误差;
(4.4)根据计算的误差,使用梯度下降算法来更新改进型Deeplabv3+网络的权重参数;
(4.5)重复步骤(4.2)-步骤(4.4),每次迭代结束,使用验证集中的预处理图像对改进型Deeplabv3+网络模型进行评估,选择最优模型;直至迭代结束,保存训练好的模型。
本发明的有益效果是:
1、本发明采用四元数卷积取代二维卷积,提高网络的拟合能力,降低参数量;
2、本发明采用大卷积替换空洞卷积对空间金字塔池化模块进行重构,增加有效感受野并提高对待征信息的复用效率;
3、本发明在解码端引入编码端中降采样层输出的特征信息和注意力机制模块,以实现更好的多尺度特征融合和细节感知;
4、本发明使用结构重参数化技术,将模型的训练和推理解耦,减少计算量和内存消耗。
附图说明
图1是本发明实施例提供的改进型Deeplabv3+网络模型的道路场景分割方法的基本流程示意图;
图2是本发明实施例提供的改进型DeepLabV3+网络模型结构示意图;
图3是本发明实施例提供的改进空间金字塔池化模块示意图;
图4是本发明实施例提供的解耦训练与推理的架构图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一
如图1所示,是本发明实施例提供的一种改进型Deeplabv3+网络的道路场景分割方法的基本流程示意图,本发明的一种改进型Deeplabv3+网络的道路场景分割方法,包括以下步骤:
步骤1:获取道路场景图像数据;
在本实施例中,使用摄像头设备在实际道路场景中采集图像数据。将摄像头设备安装在采集平台上,例如车辆或移动机器人,确保传感器设备的正确安装并校准,以获取准确的图像数据。然后对传感器进行参数调整,包括曝光时间、焦距、视场角等,以确保采集到的图像质量符合要求。再根据所需的道路场景数据范围和覆盖面积,确定数据采集的位置和路径规划,可根据需要选择城市街道、乡村道路或高速公路等不同道路类型。摄像头设备将持续采集图像数据,将采集到的图像数据存储在适当的媒介中,例如硬盘、内存卡或云存储。并记录采集的相关信息,例如时间戳、位置信息和传感器参数等,以便后续处理和分析。最后,对采集的图像数据进行质量检查,包括图像清晰度、曝光度、遮挡情况等方面的评估。通过排除低质量或异常数据,确保采集到的图像数据具备可靠的质量特性。
步骤2:对所述道路场景图像数据进行预处理,根据预处理图像生成标签图像;其中生成标签图像的方法包括手工绘制、蒙版绘制、半自动标注和AI辅助标注;将预处理图像和对应的标签图像按照一一对应的方式进行组合,得到数据集;将数据集分为训练集、验证集和测试集;
在本实施例中,将步骤1采集到的道路场景图像进行尺寸调整,将其缩放为大小224×224×3的图像,这可以确保图像在后续处理和训练过程中的一致性;对调整过的道路场景图像使用transform模块进行随机翻转、标准归一化以及随机裁剪等操作进行预处理,增强模型的泛化能力;对预处理图像采用蒙版标注方法进行处理,标注出图像中各个区域的像素位置。也可以通过人工标注或者自动标注算法来实现。生成的标签图像与预处理图像尺寸相同,其中每个像素的取值表示该像素所属的类别;将预处理图像和对应的标签图像按照一一对应的方式进行组合,即每个预处理图像对应一个标签图像,这样就得到了数据集;将数据集中随机抽出60%的样本作为训练集,20%的样本作为验证集,剩下20%的样本作为测试集,得到训练样本和测试样本。
步骤3:引入了四元数卷积来改进ConvNeXt网络;以Deeplabv3+网络为原型,将改进的ConvNeXt网络替换主干网络中的Xception网络;在解码端引入编码端中降采样层输出的特征图和注意力机制模块,构建改进型Deeplabv3+网络模型;构建改进型Deeplabv3+网络模型还可以采用大卷积替换空洞卷积对空间金字塔池化(Atrous Spatial PyramidPooling,ASPP)模块进行重构,使用结构重参数化技术将训练与推理解耦;
请参见图2,图2是本发明实施例提供的改进型DeepLabV3+网络模型结构示意图。
(3.1)引入了四元数卷积来改进ConvNeXt网络;以Deeplabv3+网络为原型,将改进的ConvNeXt网络替换主干网络中的Xception网络。
本发明引入了四元数卷积来改进ConvNeXt网络,将ConvNeXt卷积层的卷积核表示为四元数形式,并使用四元数乘法来实现卷积操作,成功地将传统的二维卷积扩展到三维数据处理中。通过使用四元数卷积,不同训练目标的权重比例得到了优化,从而更好地适应各种训练目标的特征分布。将改进后的ConvNeXt网络替换主干网络中的Xception网络。改进后的ConvNeXt网络可以更好地提取和表示图像特征,从而增强了改进型Deeplabv3+网络模型在图像分割任务中的性能和效果。
如图2所示,改进型Deeplabv3+网络模型主要由Encoder,RepASPP和Decoder3个模块组成。
首先,给定一个输入图像,改进型Deeplabv3+网络模型采用改进的ConvNeXt网络作为编码器来提取层次特征。改进的ConvNeXt网络有5个降采样层,每个降采样层的步长为2,表示在每个降采样层之后,输入图像的尺寸会缩小1/2。经过第一个降采样层后,图像的尺寸变为输入图像的1/2,经过第二个降采样层后,图像的尺寸变为输入图像的1/4。由此,编码器输出的最终的特征图大小是输入图像的1/32,表示经过5个降采样层后,特征图的尺寸相对于输入图像的尺寸缩小了32倍。
然后,改进型Deeplabv3+网络模型采用RepASPP对随机依赖进行建模。RepASPP以编码器的输出特征作为输入,生成一个包含全局上下文信息的特征。
最后,改进型Deeplabv3+网络模型使用解码器逐步融合多层次特征并输出得到的图像。解码器由两个融合ECANet(Efficient Channel Attention Network)注意力机制模块和一个分割头组成。每个ECANet以2个特征作为输入,即由编码器各阶段提取的低级特征图,和由RepASPP或更深的融合模块生成的高级特征图。在分割头中执行Resize和Predict操作,将1/8个下采样特征的通道减少到类的数量。采用上采样操作将特征大小扩展到输入图像大小,并采用argmax操作预测每个像素的标签。
请参见图3,图3是本发明实施例提供的改进空间金字塔池化模块。
(3.2)采用大卷积替换空洞卷积对空间金字塔池化模块进行重构,以增加有效感受野并提高对待征信息的复用效率。具体的重构步骤如下:
(3.2.1)确定用于重构ASPP模块的大卷积核的尺寸。如图3所示,本发明实施例提出了使用大小为1、13、25和31的卷积核,这些卷积核的尺寸可以捕捉不同尺度的语义信息。
(3.2.2)将ASPP模块中原有的空洞卷积替换为使用大卷积核的新卷积核,得到RepASPP模块。相对于小卷积核和空洞卷积,大卷积核具有更大的有效感受野,更适用于捕捉形状偏差而非纹理偏差。
(3.3)在解码端引入编码端中降采样层输出的特征图和注意力机制模块,以实现更好的多尺度特征融合和细节感知。
为了更好的多尺度特征融合和细节感知,在解码端引入了编码端中降采样层输出的特征信息。编码器使用改进的ConvNeXt网络对输入图像进行特征提取,其中的降采样层通常会通过减小特征图的尺寸来增加感受野,并提取更高级别的语义信息。在这个过程中,由于尺度的变化,不同降采样层的输出特征图具有不同的空间分辨率和语义信息。在解码器的每个解卷积层后,将相应降采样层的特征图与解码器的特征图进行融合。解码器使用上采样和跳跃连接的方式将编码器的特征图恢复到原始图像尺寸,并进行语义分割预测。可以通过逐元素相加或逐元素拼接操作实现跳跃连接。
其中,为了更有效地利用编码端输出的特征图,在融合过程中使用了ECANet注意力机制模块,该模块通过一维卷积实现局部跨通道的交互作用,可以提取通道之间的依赖关系。该改进有助于网络更加专注于待检测目标,突出重要特征,并进一步提高网络模型在目标检测方面的准确性。
请参见图4,图4是本发明实施例提供的解耦的训练和推理架构图。
(3.4)使用结构重参数化技术,采用RepASPP模块将模型的训练和推理解耦。
如图4所示,RepASPP结构由一个通用的基础结构和一组可学习参数组成,基础结构包括特征融合的Concat操作和1x1卷积操作,在训练和推理时是共享的。在训练阶段,如图4中的A图所示,RepASPP使用标准的卷积计算,包括反向传播和参数更新,来训练可学习参数。而在推理阶段,如图4中的B图所示,RepASPP将四个并行的卷积层参数替换为一个固定的卷积核参数,极大地减少了计算量和内存消耗。
通过训练和推理的解耦,改进型Deeplabv3+网络模型在训练阶段能够充分利用反向传播和参数更新,提升了模型的表现力和性能。在推理阶段,通过使用固定的卷积核参数,大幅度降低了计算量和内存消耗,提高了推理的效率。这种解耦设计在训练和推理过程中针对不同的需求进行优化,既保证了模型的学习能力,又提升了实际应用时的计算效率。
步骤4:将所述训练集的预处理图像输入改进型Deeplabv3+网络模型,进行计算并得到预测结果;计算预测结果与标签图像之间的误差,并利用梯度优化算法减小误差,更新模型权重参数;通过迭代优化的过程,使得模型逐渐收敛;
模型训练具体过程如下:
(4.1)权重初始化:使用在ImageNet数据集上预训练的权重对改进型Deeplabv3+网络模型进行初始化。
(4.2)前向传播:将训练集中的预处理图像输入改进型Deeplabv3+网络模型,进行处理后得到图像分割的预测结果。预测结果与预处理图像尺寸相同,其中每个像素被分配了一个类别标签,表示该像素所属的类别。
(4.3)计算误差:使用交叉熵损失函数计算预测结果与标签图像之间的误差,改进型Deeplabv3+网络模型对第i个像素的预测概率为pi,yi为真实标签,交叉熵损失函数记为:
式中,∑表示对所有像素进行求和,yi表示真实标签的one-hot编码(将属于该类别的位置设为1,其他位置设为0),pi表示模型对第i个像素的预测概率。
(4.4)反向传播:根据损失函数,使用链式法则计算损失对网络权重参数的梯度。网络模型的权重参数为ω,损失函数为,通过反向传播算法计算/>对ω的梯度的公式为:
式中,表示损失函数对预测结果p的梯度,/>表示预测结果p对权重参数ω的梯度。反向传播算法通过逐层反向传播,计算每层的梯度,并将梯度传递回网络的每个层。
(4.5)更新权重参数:根据计算的误差,使用梯度下降算法来更新网络模型的权重参数。网络模型的权重参数为ω,学习率为η,更新权重参数的公式记为:
其中,表示误差对权重参数的梯度,通过计算反向传播得到。
(4.6)重复步骤(4.2)-步骤(4.3),在每个迭代结束后,使用验证集来评估模型在未见过的数据上的性能表现。根据在验证集上的性能,对模型进行调整和优化,比如调整超参数、修改模型结构等。确保模型在未见过的数据上的泛化能力,并防止过拟合。如果损失函数在连续若干次迭代中变化不大,即趋于稳定,可以认为模型已经收敛,模型停止训练。通过多次迭代优化,使得模型逐渐收敛,即不断减小预测结果与标签图像之间的误差,从而提高分割的准确性。
通过迭代优化的过程,使得模型逐渐收敛。本发明可以有效的进行底层特征复用和捕获多尺度语义信息以达到更加准确的物体边界分割效果。
步骤5:将所述测试集的预处理图像输入训练好的改进型Deeplabv3+网络模型,得到测试集图像预测的分割结果;将所得测试集图像预测结果与相应的标签图像进行比较,计算交并比指数(Intersection over Union,IoU),将所有图像的IoU值求取平均值得到平均交并比指数(Mean Intersection over Union,mIoU)作为性能评估指标,以衡量改进型Deeplabv3+网络模型在道路场景图像分割任务上的准确性和效果。
计算交并比指数(IoU)的公式记为:
IoU=TP/(TP+FP+FN)
式中,TP表示真正例(True Positive),即预测为正类且与标签图像相应位置为正类的像素数量;FP表示假正例(False Positive),即预测为正类但与标签图像相应位置为负类的像素数量;FN表示假负例(False Negative),即预测为负类但与标签图像相应位置为正类的像素数量。
平均交并比指数(mIoU)计算公式记为:
mIoU=(IoU1+IoU2+…+IoUn)/n
式中,IoU1,IoU2,…,IoUn表示每个图像的交并比指数(IoU),n表示图像的总数量。mIoU的取值范围为0到1,数值越接近1表示改进型Deeplabv3+网络模型在道路场景图像分割任务上的准确性和效果越好。
本实施例提供的基于改进型Deeplabv3+网络模型的道路场景分割方法,所述方法为:利用摄像头设备在实际道路场景中采集图像数据;对采集的图像进行预处理操作,包括尺寸调整、随机翻转、标准归一化和随机裁剪操作;采用蒙版标注方法对预处理图像进行处理,标注出图像中各区域的像素位置,生成相应的标签图像;将预处理图像和对应的标签图像按照一一对应的方式进行组合,得到数据集;将数据集分为训练集和测试集;使用在ImageNet数据集上预训练的权重对改进型Deeplabv3+网络模型进行初始化;将训练集的预处理图像输入改进型Deeplabv3+网络模型,进行计算并得到预测结果;计算预测结果与标签图像之间的误差,并利用梯度优化算法减小误差,更新模型权重参数;通过迭代优化的过程,使得模型逐渐收敛;将测试集的预处理图像输入训练好的改进型Deeplabv3+网络,计算平均交并比指数性能评估指标,以衡量改进型Deeplabv3+网络在道路场景图像分割任务上的准确性和效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (7)
1.一种基于改进型Deeplabv3+网络模型的道路场景分割方法,其特征在于,包括以下步骤:
(1)获取道路场景图像数据;
(2)对所述道路场景图像数据进行预处理,根据预处理图像生成标签图像;将预处理图像和对应的标签图像按照一一对应的方式进行组合,得到数据集;将数据集分为训练集、验证集和测试集;
(3)引入四元数卷积来改进ConvNeXt网络;以Deeplabv3+网络为原型,将改进的ConvNeXt网络替换主干网络中的Xception网络,在解码端引入编码端中降采样层输出的特征图和注意力机制模块,构建改进型Deeplabv3+网络模型;
(4)所述训练集和验证集用来训练改进型Deeplabv3+网络模型;
(5)将所述测试集的预处理图像输入训练好的改进型Deeplabv3+网络模型,得到道路场景图像的分割结果。
2.根据权利要求1所述的一种基于改进型Deeplabv3+网络模型的道路场景分割方法,其特征在于,所述步骤(2)中,预处理包括尺寸调整、翻转、标准归一化和裁剪操作。
3.根据权利要求1所述的一种基于改进型Deeplabv3+网络模型的道路场景分割方法,其特征在于,所述步骤(2)中,生成标签图像的方法包括手工绘制、蒙版绘制、半自动标注和AI辅助标注。
4.根据权利要求1所述的一种基于改进型Deeplabv3+网络模型的道路场景分割方法,其特征在于,所述步骤(3)中,所述引入四元数卷积来改进ConvNeXt网络具体为:将ConvNeXt卷积层的卷积核表示为四元数形式,并使用四元数乘法来实现卷积操作,得到改进的ConvNeXt网络。
5.根据权利要求1所述的一种基于改进型Deeplabv3+网络模型的道路场景分割方法,其特征在于,所述步骤(3)中,还包括:采用大卷积替换空洞卷积对所述Deeplabv3+网络中的ASPP模块进行重构,得到RepASPP模块,所述RepASPP模块用于将改进型Deeplabv3+网络模型的训练和推理解耦。
6.根据权利要求1所述的一种基于改进型Deeplabv3+网络模型的道路场景分割方法,其特征在于,所述步骤(4)具体为:将所述训练集输入改进型Deeplabv3+网络模型,进行计算并得到预测结果;计算预测结果与标签图像之间的误差,并利用梯度优化算法减小误差,更新模型权重参数;通过迭代优化的过程,使得模型逐渐收敛。
7.根据权利要求1或6所述的一种基于改进型Deeplabv3+网络的道路场景分割方法,其特征在于,所述步骤(4)包括以下子步骤:
(4.1)使用在ImageNet数据集上预训练的权重对改进型Deeplabv3+网络模型进行初始化;
(4.2)将训练集中的预处理图像输入改进型Deeplabv3+网络模型,得到道路场景图像分割的预测结果;
(4.3)使用交叉熵损失函数计算预测结果与对应标签图像之间的误差;
(4.4)根据计算的误差,使用梯度下降算法来更新改进型Deeplabv3+网络的权重参数;
(4.5)重复步骤(4.2)-步骤(4.4),每次迭代结束,使用验证集中的预处理图像对改进型Deeplabv3+网络模型进行评估,选择最优模型;直至迭代结束,保存训练好的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310711740.5A CN116665153A (zh) | 2023-06-15 | 2023-06-15 | 一种基于改进型Deeplabv3+网络模型的道路场景分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310711740.5A CN116665153A (zh) | 2023-06-15 | 2023-06-15 | 一种基于改进型Deeplabv3+网络模型的道路场景分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116665153A true CN116665153A (zh) | 2023-08-29 |
Family
ID=87722311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310711740.5A Pending CN116665153A (zh) | 2023-06-15 | 2023-06-15 | 一种基于改进型Deeplabv3+网络模型的道路场景分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665153A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274762A (zh) * | 2023-11-20 | 2023-12-22 | 西南交通大学 | 基于视觉的地铁隧道低照度场景下实时轨道提取方法 |
-
2023
- 2023-06-15 CN CN202310711740.5A patent/CN116665153A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274762A (zh) * | 2023-11-20 | 2023-12-22 | 西南交通大学 | 基于视觉的地铁隧道低照度场景下实时轨道提取方法 |
CN117274762B (zh) * | 2023-11-20 | 2024-02-06 | 西南交通大学 | 基于视觉的地铁隧道低照度场景下实时轨道提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160311B (zh) | 基于多注意力机制双流融合网络的黄河冰凌语义分割方法 | |
CN111368687B (zh) | 一种基于目标检测和语义分割的人行道车辆违停检测方法 | |
CN110728658A (zh) | 一种基于深度学习的高分辨率遥感影像弱目标检测方法 | |
CN113468967B (zh) | 基于注意力机制的车道线检测方法、装置、设备及介质 | |
CN115731533B (zh) | 一种基于改进YOLOv5的车载目标检测方法 | |
CN109961057A (zh) | 一种车辆位置获得方法及装置 | |
CN110598613B (zh) | 一种高速公路团雾监测方法 | |
CN114049356B (zh) | 一种结构表观裂缝检测方法、装置及系统 | |
CN112906816B (zh) | 基于光微分与双通道神经网络的目标检测方法和装置 | |
CN112257793A (zh) | 一种基于改进YOLO v3算法的远距离交通标志检测方法 | |
CN111582339A (zh) | 一种基于深度学习的车辆检测与识别的方法 | |
CN114926693A (zh) | 基于加权距离的sar图像小样本识别方法及装置 | |
CN115063786A (zh) | 一种高位远景模糊车牌检测方法 | |
CN116665153A (zh) | 一种基于改进型Deeplabv3+网络模型的道路场景分割方法 | |
CN115439654A (zh) | 动态约束下的弱监督农田地块精细化分割方法及系统 | |
KC | Enhanced pothole detection system using YOLOX algorithm | |
CN112785610B (zh) | 一种融合低层特征的车道线语义分割方法 | |
CN116311004B (zh) | 基于稀疏光流提取的视频运动目标检测方法 | |
CN111832463A (zh) | 一种基于深度学习的交通标志检测方法 | |
CN117152414A (zh) | 一种基于尺度注意力辅助学习方法的目标检测方法及系统 | |
CN115346206B (zh) | 基于改进超分辨的深度卷积特征识别的车牌检测方法 | |
CN116758411A (zh) | 一种基于遥感图像逐像素处理的舰船小目标检测方法 | |
CN116630702A (zh) | 一种基于语义分割网络的路面附着系数预测方法 | |
CN116343194A (zh) | 基于垂直表征的双流3d目标检测学习方法及系统 | |
Jiangzhou et al. | Research on real-time object detection algorithm in traffic monitoring scene |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |