CN117649526A - 一种面向自动驾驶道路场景的高精度语义分割方法 - Google Patents
一种面向自动驾驶道路场景的高精度语义分割方法 Download PDFInfo
- Publication number
- CN117649526A CN117649526A CN202311622708.6A CN202311622708A CN117649526A CN 117649526 A CN117649526 A CN 117649526A CN 202311622708 A CN202311622708 A CN 202311622708A CN 117649526 A CN117649526 A CN 117649526A
- Authority
- CN
- China
- Prior art keywords
- feature
- segmentation
- semantic
- output
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 165
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000011176 pooling Methods 0.000 claims abstract description 101
- 238000000605 extraction Methods 0.000 claims abstract description 87
- 230000002776 aggregation Effects 0.000 claims abstract description 24
- 238000004220 aggregation Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- LOHSJZLQNKMZMK-QWHCGFSZSA-N methyl (2r)-2-[[(2s)-2-amino-3-(4-hydroxyphenyl)propanoyl]amino]-5-(diaminomethylideneamino)pentanoate Chemical compound NC(N)=NCCC[C@H](C(=O)OC)NC(=O)[C@@H](N)CC1=CC=C(O)C=C1 LOHSJZLQNKMZMK-QWHCGFSZSA-N 0.000 claims description 5
- 108010077537 tyrosylarginine methyl ester Proteins 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 10
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010276 construction Methods 0.000 abstract 1
- 238000003709 image segmentation Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 208000000044 Amnesia Diseases 0.000 description 1
- 208000026139 Memory disease Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006984 memory degeneration Effects 0.000 description 1
- 208000023060 memory loss Diseases 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种面向自动驾驶道路场景的高精度语义分割方法,涉及交通技术领域,该方法基于语义分割网络展开实现,语义分割网络基于ResNet模型优化构建得到,其包含一个双分支特征网络,浅层细节特征提取分支和深层语义特征提取分支进行信息融合,深层语义特征提取分支的输出连接高效聚合金字塔池化模块可以获取上下文信息,高效聚合金字塔池化模块的输出与浅层细节特征提取分支的输出相加后输入注意力模块,在大尺度分支网络尾部添加的注意力模块可以对卷积神经网络提取的深层特征携带的语义信息进行加强学习,突出特征图中重要的语义信息,提升语义分割网络的分割能力,从而有利于提高在自动驾驶道路场景下的分割精度。
Description
技术领域
本申请涉及交通技术领域,尤其是一种面向自动驾驶道路场景的高精度语义分割方法。
背景技术
图像分割(Image Segmentation)是图像处理和机器视觉技术中的一项关键技术,是计算机视觉(Computer Vision)领域重要的组成部分,通过图像分割能对图像进行更深层次的分析和理解。该技术主要将图像细分为不同的子区域,是一个像素级别的图像解析过程。目前,图像分割主要分为语义分割、实例分割和全景分割,它们根据将目标实体划分为不同类别、不同实体、以及二者的结合体进行区分。其中,语义分割是图像分割技术中的基础,也是较为重要的内容,它通过对图像中的每一个像素点进行分类,精确地进行区域划分。图像分割本质上是一种精细的逐像素回归任务,主要是将图像中的每一个像素进行分类,比如将背景映射为0,前景映射为其他N-1个类别。
早期,传统方法首先实现对图像的准确分割,主要包括基于区域、阈值、边缘的三类图像分割方法,同时结合一些特定的图像处理算法,如:基于形态学的分割、基于小波分析和变换的分割、基于区域水平集的分割以及基于角点的分割等算法。此后,机器学习的方法开始广泛结合使用,如:贝叶斯、SVM等。虽然,这些图像分割方法可以达到一定的分割精度,但仍依靠先验知识,对复杂目标分割的鲁棒性较差,细粒度信息提取能力较弱,学习能力有限,很难在少样本的情况下学习到通用模型的参数,无法很好地应用到现实生活场景。
得益于深度学习的快速发展,卷积神经网络被应用于语义分割,其性能大大优于基于手动特征的传统方法,且在自动驾驶、医学图像处理、卫星遥感、无人机巡航等领域都取得了巨大的进步。通过卷积神经网络(Convolutional Neural Networks,CNN)搭建图像分割模型可以实现算法的端到端训练,CNN的优势在于参数共享和高效的局部信息聚合,但是语义分割通常需要长距离的依赖,为了整合全局的信息,基础的CNN模型需要堆叠很多层的卷积层,导致目前基础CNN对于自动驾驶道路场景环境下分割方法精度较低。
发明内容
本申请针对上述问题及技术需求,提出了一种面向自动驾驶道路场景的高精度语义分割方法,本申请的技术方案如下:
一种面向自动驾驶道路场景的高精度语义分割方法,该高精度语义分割方法包括:
基于ResNet模型构建语义分割网络的网络架构,语义分割网络包括特征预处理模块、双分支融合模块、高效聚合金字塔池化模块、注意力模块和分割头模块,双分支融合模块包括相互融合的浅层细节特征提取分支和深层语义特征提取分支,输入图像经过特征预处理模块处理后分别进入浅层细节特征提取分支和深层语义特征提取分支,深层语义特征提取分支最终输出的深层语义特征图输入高效聚合金字塔池化模块,高效聚合金字塔池化模块输出的特征图与浅层细节特征提取分支最终输出的浅层细节特征图相加后经过注意力模块并输入分割头模块;
构建自动驾驶道路场景的分割样本数据集,并利用分割样本数据集基于语义分割网络的网络架构进行模型训练;
利用完成模型训练的语义分割网络在自动驾驶道路场景下进行高精度语义分割。
其进一步的技术方案为,浅层细节特征提取分支包括N个浅层特征提取层,深层语义特征提取分支包括N个深层特征提取层,N≥2;
第i个浅层特征提取层输出的浅层细节特征图经过降采样后与第i个深层特征提取层输出的深层语义特征图拼接融合并输入第i+1个深层特征提取层;第i个深层特征提取层输出的深层语义特征图先通过1×1卷积压缩通道、再利用双线性插值进行上采样后与第i个浅层特征提取层输出的浅层细节特征图拼接融合并输入第i+1个浅层特征提取层,参数1≤i≤N-1。
其进一步的技术方案为,浅层细节特征提取分支包括三个浅层特征提取层,每个浅层特征提取层的输出图像尺寸与输入图像尺寸保持不变;深层语义特征提取分支包括三个深层特征提取层,每个深层特征提取层的输出图像尺寸是输入图像尺寸的1/2。
其进一步的技术方案为,在高效聚合金字塔池化模块中,深层语义特征提取分支最终输出的深层语义特征图分别输入1×1卷积、平均池化单元和全局平均池化单元,深层语义特征图经过1×1卷积输出的特征图与平均池化单元输出的特征图相加后经过3×3卷积得到平均池化特征图,深层语义特征图经过1×1卷积输出的特征图与全局平均池化单元输出的特征图相加后经过3×3卷积得到全局平均池化特征图,深层语义特征图经过1×1卷积输出的特征图、平均池化特征图和全局平均池化特征图连接后经过1×1卷积输出融合特征图,深层语义特征图经过1×1卷积输出的特征图与融合特征图相加后输出。
其进一步的技术方案为,高效聚合金字塔池化模块中的平均池化单元包括依次串联的第一池化层、第二池化层和第三池化层,深层语义特征图经过1×1卷积输出的特征图并行与三个池化层输出的特征图相加;第一池化层输出的特征图经过1×1卷积以及上采样后与深层语义特征图经过1×1卷积输出的特征图相加,且,第二池化层输出的特征图经过1×1卷积以及上采样后与深层语义特征图经过1×1卷积输出的特征图相加,且,第三池化层输出的特征图经过1×1卷积以及上采样后与深层语义特征图经过1×1卷积输出的特征图相加,且,全局平均池化单元输出的特征图经过1×1卷积以及上采样后与深层语义特征图经过1×1卷积输出的特征图相加。
其进一步的技术方案为,第一池化层的池化核为5、步长为2,第二池化层的池化核为3、步长为2,第三池化层的池化核为3、步长为2。
其进一步的技术方案为,注意力模块采用三维注意力模型TDAM。
其进一步的技术方案为,特征预处理模块包括两个连续的3×3卷积层,用于将输入语义分割网络的图像的尺寸降采样到1/8。
其进一步的技术方案为,构建自动驾驶道路场景的分割样本数据集包括:
获取自动驾驶道路场景下的视频数据并截取关键帧图像作为样本图像,对样本图像中的不同分割目标进行标注并转换生成掩码图,构建得到分割样本数据集包括若干个样本图像及每个样本图像对应的相同尺寸的掩码图;样本图像对应的掩码图包含样本图像中的各个分割目标的标签信息,标签信息包括位置信息和属性信息,分割目标的位置信息包括若干个坐标点并按标注顺序依次给出,通过转换形成掩码图中的轮廓信息;分割目标的属性信息为分割目标的类别信息,通过转换得到对应的轮廓区域像素值,且不同分割目标的轮廓区域像素值不同。
其进一步的技术方案为,利用分割样本数据集基于语义分割网络的网络架构进行模型训练包括:
将分割样本数据集随机划分为训练集、验证集和测试集;
使用ImageNet数据集基于语义分割网络的网络架构进行模型预训练;
根据模型预训练的结果初始化语义分割网络的模型参数,将训练集中的样本图像输入语义分割网络得到预测分割结果,使用交叉熵损失函数计算得到的预测分割结果与输入的样本图像对应的掩码图之间的误差,根据交叉熵损失函数对语义分割网络的模型参数的梯度进行反向传播并利用梯度下降法更新模型参数;每结束一轮迭代,利用验证集评估语义分割网络的性能直至语义分割网络收敛;
将测试集中的样本图像输入已经收敛的语义分割网络中得到预测分割结果,将每个样本图像得到的预测分割结果与输入的样本图像对应的掩码图进行比较并计算平均交并比指标为其中,P是所有样本图像中包含的分割目标的总类别,/>是其中第i类的平均交并比且/>Q是测试集中的样本图像中的总数量,/>是测试集中第j张样本图像的预测分割结果与对应的掩码图之间的交并比,且任意TP是第j张样本图像的预测分割结果为正类且对应的掩码图为正类的像素数量,FP是第j张样本图像的预测分割结果为正类且对应的掩码图为负类的像素数量,FN是第j张样本图像的预测分割结果为负类且对应的掩码图为负类的像素数量。
本申请的有益技术效果是:
本申请公开了一种面向自动驾驶道路场景的高精度语义分割方法,该方法基于ResNet模型构建了一个包含双分支特征网络的语义分割网络,浅层细节特征提取分支和深层语义特征提取分支进行信息融合以提升语义分割网络的分割能力;语义分割网络中的高效聚合金字塔池化模块可以获取上下文信息,在大尺度分支网络尾部添加的注意力模块又可以对卷积神经网络提取的深层特征携带的语义信息进行加强学习,突出特征图中重要的语义信息,进一步提升语义分割网络的分割能力,从而有利于提高在自动驾驶道路场景下的分割精度。
本申请的语义分割网络中的高效聚合金字塔池化模块改进了池化的计算方法,可以在不增加参数量的同时减少模型计算量,提升模型的推理速度。
附图说明
图1是本申请构建的语义分割网络的网络架构图。
图2是本申请中的高效聚合金字塔池化模块的结构图。
图3是本申请一个实施例的高精度语义分割方法的方法流程图。
具体实施方式
下面结合附图对本申请的具体实施方式做进一步说明。
本申请公开了一种面向自动驾驶道路场景的高精度语义分割方法,该高精度语义分割方法包括:
步骤1,基于ResNet模型构建语义分割网络的网络架构。
请参考图1所示的语义分割网络的网络架构,该语义分割网络包括特征预处理模块、双分支融合模块、高效聚合金字塔池化模块、注意力模块和分割头模块。其中:
(1)特征预处理模块用于对输入的图像进行预处理操作。在一个实施例中,特征预处理模块包括两个连续的3×3卷积层,将两个连续的3×3卷积分支作为基本模块用于构建后续网络,用一个基本块和一个3×3卷积将输入语义分割网络的图像的尺寸降采样到1/8。通过两个连续的3×3卷积代替原始的7×7卷积可以有效降低该语义分割网络的参数以及计算量。
(2)双分支融合模块包括相互融合的浅层细节特征提取分支和深层语义特征提取分支。
请结合图1,浅层细节特征提取分支包括N个浅层特征提取层,深层语义特征提取分支包括N个深层特征提取层,N≥2。在一个实施例中,浅层细节特征提取分支包括三个浅层特征提取层,每个浅层特征提取层的输出图像尺寸与输入图像尺寸保持不变,因此均为输入语义分割网络的图像的1/8。深层语义特征提取分支包括三个深层特征提取层,每个深层特征提取层的输出图像尺寸是输入图像尺寸的1/2,因此分别为输入语义分割网络的图像的1/16、1/32、1/64。
浅层细节特征提取分支和深层语义特征提取分支之间的双分支融合包括将浅层细节特征提取分支提取到的浅层细节特征图融合到深层语义特征提取分支,以及将深层语义特征提取分支提取到的深层语义特征图融合到浅层细节特征提取分支。(a)对于浅层细节特征图至深层语义特征提取分支的融合:任意第i个浅层特征提取层输出的浅层细节特征图经过降采样后与第i个深层特征提取层输出的深层语义特征图拼接融合并输入第i+1个深层特征提取层,这里的降采样处理比较典型的使用3×3且步长为2的卷积操作从而实现特征图的一致性。(b)对于深层语义特征图至浅层细节特征提取分支的融合:第i个深层特征提取层输出的深层语义特征图先通过1×1卷积压缩通道降低计算量,再利用双线性插值进行上采样后与第i个浅层特征提取层输出的浅层细节特征图相加并输入第i+1个浅层特征提取层,参数1≤i≤N-1。
输入图像经过特征预处理模块处理后分别进入浅层细节特征提取分支和深层语义特征提取分支,深层语义特征提取分支最终输出最后一个深层特征提取层的深层语义特征图,浅层细节特征提取分支最终输出最后一个浅层特征提取层的浅层细节特征图。
(3)高效聚合金字塔池化模块
为了更好地提高精度,可以在深层语义特征提取分支的输出添加具有不同池化尺度的金字塔池化模块(Pyramid Pooling Module,PPM),来帮助提取多尺度特征信息。PPM能很好的嵌入上下文信息,但是只利用单个3×3卷积或者1×1卷积得到的拼接特征图无法很好的获取上下文信息,并且如果使用分层残差按层次与大池化层输出融合,无法实现并行化计算,对于轻量化的嵌入式网络来说非常耗时。
因此本申请对这部分改进,在深层语义特征提取分支的输出添加高效聚合金字塔池化模块,深层语义特征提取分支最终输出的深层语义特征图输入高效聚合金字塔池化模块提取丰富的上下文信息。
请参考图2,在高效聚合金字塔池化模块中,深层语义特征提取分支最终输出的深层语义特征图分别输入1×1卷积、平均池化单元和全局平均池化单元。深层语义特征图经过1×1卷积输出的特征图与平均池化单元输出的特征图相加后经过3×3卷积得到平均池化特征图,深层语义特征图经过1×1卷积输出的特征图与全局平均池化单元输出的特征图相加后经过3×3卷积得到全局平均池化特征图,深层语义特征图经过1×1卷积输出的特征图、平均池化特征图和全局平均池化特征图连接后经过1×1卷积输出融合特征图,深层语义特征图经过1×1卷积输出的特征图与融合特征图相加后输出。
通过深层语义特征图经过1×1卷积依次与池化单元输出实现残差融合,达到并行化的效果。另外高效聚合金字塔池化模块中的平均池化单元包括依次串联的第一池化层、第二池化层和第三池化层,深层语义特征图经过1×1卷积输出的特征图并行与三个池化层输出的特征图相加。第一池化层输出的特征图经过1×1卷积以及上采样后与深层语义特征图经过1×1卷积输出的特征图相加,且,第二池化层输出的特征图经过1×1卷积以及上采样后与深层语义特征图经过1×1卷积输出的特征图相加,且,第三池化层输出的特征图经过1×1卷积以及上采样后与深层语义特征图经过1×1卷积输出的特征图相加,且,全局平均池化单元输出的特征图经过1×1卷积以及上采样后与深层语义特征图经过1×1卷积输出的特征图相加。在一个实施例中,第一池化层的池化核为5、步长为2,第二池化层的池化核为3、步长为2,第三池化层的池化核为3、步长为2,也即该高效聚合金字塔池化模块中删除了大池化核的池化层,串行使用多个小池化核的池化层,再并行输出,一般来说核尺寸越大,计算量越大,耗时越多,因此这种做法可以在不增加参数量的同时减少计算量,提升模型性能。
(4)注意力模块
高效聚合金字塔池化模块输出的特征图与浅层细节特征提取分支最终输出的浅层细节特征图相加后输入注意力模块。
通常的,注意力分为通道一维注意力和空间二维注意力,为了更好地利用通道和空间注意力,本申请的注意力模块采用三维注意力模型TDAM,使得语义分割网络对于每个张量子元素都赋予不同的权重,从而对输出的语义信息赋予不同的重要性标签,提升对重要目标的关注程度。理论上,TDAM作为通用的注意力模块可以被继承到每个卷积层后面,以改进输出层的结果。但是本申请只在分割头模块前添加TDAM的原因是深度卷积神经网络在深层的特征映射图携带更多的语义信息,目的是为了加强特征映射图对这些语义信息的表征,从而来提高模型的整体性能。
(5)分割头模块,最终实现图像分割并输出图像分割的结果。
步骤2,构建自动驾驶道路场景的分割样本数据集。
本申请构建的分割样本数据集采用实采的数据,将摄像头安装在采集平台上确保正确安装并校准,以准确的获取自动驾驶道路场景的实时数据,对传感器进行参数调整,包括曝光时间、焦距、视场角等,以确保采集到的图像质量符合要求。根据需求确定道路场景,进行路径规划。将持续采集的视频数据存储在适当的媒介中。另外为了保证采集到的视频数据质量可靠,还会对采集的视频数据进行初步处理,评估视频数据的清晰度、曝光度等方面,从而排除低质量或异常的视频数据。
然后从获取到的视频数据中截取关键帧图像作为样本图像,对样本图像中的不同分割目标进行标注并转换生成掩码图,构建得到分割样本数据集包括若干个样本图像及每个样本图像对应的相同尺寸的掩码图。样本图像对应的掩码图包含样本图像中的各个分割目标的标签信息,标签信息包括位置信息和属性信息,由json标注文件转换得到,通过labelme语义标注工具可以得到样本图像的json标签文件。分割目标的位置信息包括若干个坐标点并按标注顺序依次给出,通过转换形成掩码图中的轮廓信息。分割目标的属性信息为分割目标的类别信息,通过转换得到对应的轮廓区域像素值,且不同分割目标的轮廓区域像素值不同,比如背景的轮廓区域像素值为0,而其他类别的分割目标的轮廓区域像素值分别为1、2、3等等。
步骤3,利用分割样本数据集基于语义分割网络的网络架构进行模型训练。
在步骤2构建得到分割样本数据集后,将分割样本数据集随机划分为训练集、验证集和测试集,一般按照6:2:2的比例进行划分。考虑到训练集的图像尺寸过大时,虽然会提升语义分割网络的检测精度,但也会影响语义分割网络的检测速度,同时增加显存损耗。因此考虑到检测精度和检测速度之间的一个平衡,还对训练集的图像缩小至预定尺寸,同时统一验证集和测试集图像尺寸,方便后续批量处理。
首先使用ImageNet数据集基于语义分割网络的网络架构进行模型预训练,本申请构建的语义分割网络是基于ResNet结构改进的双分支结构,原始的预训练权重无法很好的适配新的模型,而公开数据集具有很好的通用性,可以学到通用的特征和模式,从而迁移到分割样本数据集中去,因此首先在公开数据集上进行预训练。
根据模型预训练的结果初始化语义分割网络的模型参数,将训练集中的样本图像输入语义分割网络得到预测分割结果,使用交叉熵损失函数计算得到的预测分割结果与输入的样本图像对应的掩码图之间的误差,根据交叉熵损失函数对语义分割网络的模型参数的梯度进行反向传播并利用梯度下降法更新模型参数。每结束一轮迭代,利用验证集评估语义分割网络的性能,若出现过拟合则可以对语义分割网络的模型参数进行调整优化,提升语义分割网络的泛化能力,若交叉熵损失函数在迭代中趋于稳定则认为语义分割网络收敛,完成训练过程。
完成训练后,还可以利用测试集对训练完成的语义分割网络进行测试,包括将测试集中的样本图像输入已经收敛的语义分割网络中得到预测分割结果,将每个样本图像得到的预测分割结果与输入的样本图像对应的掩码图进行比较并计算平均交并比指标为其中,P是所有样本图像中包含的分割目标的总类别,/>是其中第i类的平均交并比且/>Q是测试集中的样本图像中的总数量,/>是测试集中第j张样本图像的预测分割结果与对应的掩码图之间的交并比。任意TP是第j张样本图像的预测分割结果为正类且对应的掩码图为正类的像素数量,FP是第j张样本图像的预测分割结果为正类且对应的掩码图为负类的像素数量,FN是第j张样本图像的预测分割结果为负类且对应的掩码图为负类的像素数量。平均交并比指标/>的取值范围为0~1,平均交并比指标/>越接近1表示训练得到的语义分割网络在自动驾驶道路场景下的分割效果越好。
需要说明的是,步骤2和步骤3与构建语义分割网络的网络架构的步骤1并没有特定的先后执行顺序,如图3所示的流程图,可以是并行执行的。
在训练得到语义分割网络并确定性能达到要求后,即可利用完成模型训练的语义分割网络在自动驾驶道路场景下进行高精度语义分割,通过将自动驾驶道路场景下的待分割图像输入语义分割网络即可得到分割结果。
以上所述的仅是本申请的优选实施方式,本申请不限于以上实施例。可以理解,本领域技术人员在不脱离本申请的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本申请的保护范围之内。
Claims (10)
1.一种面向自动驾驶道路场景的高精度语义分割方法,其特征在于,所述高精度语义分割方法包括:
基于ResNet模型构建语义分割网络的网络架构,所述语义分割网络包括特征预处理模块、双分支融合模块、高效聚合金字塔池化模块、注意力模块和分割头模块,所述双分支融合模块包括相互融合的浅层细节特征提取分支和深层语义特征提取分支,输入图像经过所述特征预处理模块处理后分别进入浅层细节特征提取分支和深层语义特征提取分支,深层语义特征提取分支最终输出的深层语义特征图输入高效聚合金字塔池化模块,高效聚合金字塔池化模块输出的特征图与浅层细节特征提取分支最终输出的浅层细节特征图相加后经过注意力模块并输入分割头模块;
构建自动驾驶道路场景的分割样本数据集,并利用所述分割样本数据集基于所述语义分割网络的网络架构进行模型训练;
利用完成模型训练的所述语义分割网络在自动驾驶道路场景下进行高精度语义分割。
2.根据权利要求1所述的高精度语义分割方法,其特征在于,浅层细节特征提取分支包括N个浅层特征提取层,深层语义特征提取分支包括N个深层特征提取层,N≥2;
第i个浅层特征提取层输出的浅层细节特征图经过降采样后与第i个深层特征提取层输出的深层语义特征图拼接融合并输入第i+1个深层特征提取层;第i个深层特征提取层输出的深层语义特征图先通过1×1卷积压缩通道、再利用双线性插值进行上采样后与第i个浅层特征提取层输出的浅层细节特征图拼接融合并输入第i+1个浅层特征提取层,参数1≤i≤N-1。
3.根据权利要求2所述的高精度语义分割方法,其特征在于,浅层细节特征提取分支包括三个浅层特征提取层,每个浅层特征提取层的输出图像尺寸与输入图像尺寸保持不变;深层语义特征提取分支包括三个深层特征提取层,每个深层特征提取层的输出图像尺寸是输入图像尺寸的1/2。
4.根据权利要求1所述的高精度语义分割方法,其特征在于,在所述高效聚合金字塔池化模块中,深层语义特征提取分支最终输出的深层语义特征图分别输入1×1卷积、平均池化单元和全局平均池化单元,深层语义特征图经过1×1卷积输出的特征图与平均池化单元输出的特征图相加后经过3×3卷积得到平均池化特征图,深层语义特征图经过1×1卷积输出的特征图与全局平均池化单元输出的特征图相加后经过3×3卷积得到全局平均池化特征图,深层语义特征图经过1×1卷积输出的特征图、平均池化特征图和全局平均池化特征图连接后经过1×1卷积输出融合特征图,深层语义特征图经过1×1卷积输出的特征图与融合特征图相加后输出。
5.根据权利要求4所述的高精度语义分割方法,其特征在于,高效聚合金字塔池化模块中的平均池化单元包括依次串联的第一池化层、第二池化层和第三池化层,深层语义特征图经过1×1卷积输出的特征图并行与三个池化层输出的特征图相加;第一池化层输出的特征图经过1×1卷积以及上采样后与深层语义特征图经过1×1卷积输出的特征图相加,且,第二池化层输出的特征图经过1×1卷积以及上采样后与深层语义特征图经过1×1卷积输出的特征图相加,且,第三池化层输出的特征图经过1×1卷积以及上采样后与深层语义特征图经过1×1卷积输出的特征图相加,且,全局平均池化单元输出的特征图经过1×1卷积以及上采样后与深层语义特征图经过1×1卷积输出的特征图相加。
6.根据权利要求5所述的高精度语义分割方法,其特征在于,
第一池化层的池化核为5、步长为2,第二池化层的池化核为3、步长为2,第三池化层的池化核为3、步长为2。
7.根据权利要求1所述的高精度语义分割方法,其特征在于,注意力模块采用三维注意力模型TDAM。
8.根据权利要求1所述的高精度语义分割方法,其特征在于,特征预处理模块包括两个连续的3×3卷积层,用于将输入语义分割网络的图像的尺寸降采样到1/8。
9.根据权利要求1所述的高精度语义分割方法,其特征在于,所述构建自动驾驶道路场景的分割样本数据集包括:
获取自动驾驶道路场景下的视频数据并截取关键帧图像作为样本图像,对样本图像中的不同分割目标进行标注并转换生成掩码图,构建得到分割样本数据集包括若干个样本图像及每个样本图像对应的相同尺寸的掩码图;样本图像对应的掩码图包含样本图像中的各个分割目标的标签信息,标签信息包括位置信息和属性信息,分割目标的位置信息包括若干个坐标点并按标注顺序依次给出,通过转换形成掩码图中的轮廓信息;分割目标的属性信息为分割目标的类别信息,通过转换得到对应的轮廓区域像素值,且不同分割目标的轮廓区域像素值不同。
10.根据权利要求9所述的高精度语义分割方法,其特征在于,利用所述分割样本数据集基于所述语义分割网络的网络架构进行模型训练包括:
将所述分割样本数据集随机划分为训练集、验证集和测试集;
使用ImageNet数据集基于语义分割网络的网络架构进行模型预训练;
根据模型预训练的结果初始化语义分割网络的模型参数,将训练集中的样本图像输入所述语义分割网络得到预测分割结果,使用交叉熵损失函数计算得到的预测分割结果与输入的样本图像对应的掩码图之间的误差,根据交叉熵损失函数对语义分割网络的模型参数的梯度进行反向传播并利用梯度下降法更新模型参数;每结束一轮迭代,利用验证集评估语义分割网络的性能直至语义分割网络收敛;
将测试集中的样本图像输入已经收敛的语义分割网络中得到预测分割结果,将每个样本图像得到的预测分割结果与输入的样本图像对应的掩码图进行比较并计算平均交并比指标为其中,P是所有样本图像中包含的分割目标的总类别,/>是其中第i类的平均交并比且/>Q是测试集中的样本图像中的总数量,/>是测试集中第j张样本图像的预测分割结果与对应的掩码图之间的交并比,且任意TP是第j张样本图像的预测分割结果为正类且对应的掩码图为正类的像素数量,FP是第j张样本图像的预测分割结果为正类且对应的掩码图为负类的像素数量,FN是第j张样本图像的预测分割结果为负类且对应的掩码图为负类的像素数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311622708.6A CN117649526A (zh) | 2023-11-28 | 2023-11-28 | 一种面向自动驾驶道路场景的高精度语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311622708.6A CN117649526A (zh) | 2023-11-28 | 2023-11-28 | 一种面向自动驾驶道路场景的高精度语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117649526A true CN117649526A (zh) | 2024-03-05 |
Family
ID=90044626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311622708.6A Pending CN117649526A (zh) | 2023-11-28 | 2023-11-28 | 一种面向自动驾驶道路场景的高精度语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117649526A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118397072A (zh) * | 2024-06-24 | 2024-07-26 | 湘江实验室 | 基于高分辨率语义分割的pvc管尺寸检测方法及装置 |
CN118411641A (zh) * | 2024-07-02 | 2024-07-30 | 齐鲁空天信息研究院 | 基于语义强化的无人机视角下人体目标检测方法及系统 |
-
2023
- 2023-11-28 CN CN202311622708.6A patent/CN117649526A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118397072A (zh) * | 2024-06-24 | 2024-07-26 | 湘江实验室 | 基于高分辨率语义分割的pvc管尺寸检测方法及装置 |
CN118411641A (zh) * | 2024-07-02 | 2024-07-30 | 齐鲁空天信息研究院 | 基于语义强化的无人机视角下人体目标检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781262B (zh) | 基于视觉slam的语义地图的构建方法 | |
CN111814623A (zh) | 一种基于深度神经网络的车辆车道偏离视觉检测方法 | |
CN111882620B (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN113095152B (zh) | 一种基于回归的车道线检测方法及系统 | |
CN117649526A (zh) | 一种面向自动驾驶道路场景的高精度语义分割方法 | |
CN112434586B (zh) | 一种基于域自适应学习的多复杂场景目标检测方法 | |
CN112287832A (zh) | 一种基于高分辨率遥感影像的城镇违法建筑物检测方法 | |
CN114120115B (zh) | 一种融合点特征和网格特征的点云目标检测方法 | |
CN115049821A (zh) | 一种基于多传感器融合的三维环境目标检测方法 | |
CN113591617B (zh) | 基于深度学习的水面小目标检测与分类方法 | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN113052108A (zh) | 基于深度神经网络的多尺度级联航拍目标检测方法和系统 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN114913493A (zh) | 一种基于深度学习的车道线检测方法 | |
CN115661569A (zh) | 一种高精度的细粒度sar目标检测方法 | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
CN115239765A (zh) | 基于多尺度可形变注意力的红外图像目标跟踪系统及方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
Zhang et al. | Full-scale Feature Aggregation and Grouping Feature Reconstruction Based UAV Image Target Detection | |
Wang et al. | Research on vehicle detection based on faster R-CNN for UAV images | |
CN117237660A (zh) | 一种基于深度学习特征聚合的点云数据处理和分割方法 | |
CN117011728A (zh) | 基于改进YOLOv7的无人机航拍目标检测方法 | |
CN117132910A (zh) | 一种用于无人机的车辆检测方法、装置及存储介质 | |
CN116630915A (zh) | 一种具有关系增广注意力的逆序分层鸟瞰图推理方法 | |
CN116363610A (zh) | 一种基于改进YOLOv5的航拍车辆旋转目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |