CN116071374B - 一种车道线实例分割方法及系统 - Google Patents
一种车道线实例分割方法及系统 Download PDFInfo
- Publication number
- CN116071374B CN116071374B CN202310185940.1A CN202310185940A CN116071374B CN 116071374 B CN116071374 B CN 116071374B CN 202310185940 A CN202310185940 A CN 202310185940A CN 116071374 B CN116071374 B CN 116071374B
- Authority
- CN
- China
- Prior art keywords
- lane line
- mask
- feature
- algorithm
- masks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000001514 detection method Methods 0.000 claims abstract description 83
- 238000012216 screening Methods 0.000 claims abstract description 30
- 230000001629 suppression Effects 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000005259 measurement Methods 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000013077 scoring method Methods 0.000 claims abstract description 7
- 230000000007 visual effect Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 22
- 238000010276 construction Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000003708 edge detection Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 5
- 241000270295 Serpentes Species 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 2
- 201000005625 Neuroleptic malignant syndrome Diseases 0.000 description 36
- 230000005764 inhibitory process Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011897 real-time detection Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 1
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种车道线实例分割方法及系统,属于智能交通技术领域,方法包括:采用深度神经网络对输入图像进行各种层次特征的提取;采用注意力机制对输入图像的高层语义特征和中层特征分配不同的通道注意力分数和空间注意力分数;采用分配了注意力分数后的特征图构建特征金字塔;采用实时实例分割算法通过构建预测头和掩膜原型,获取初始实例分割检测结果;依次使用非极大值抑制算法和车道线几何特征评分方法对初始实例分割检测结果进行筛选,获取最终的实例分割结果。本发明解决了在目前实例分割方法在车道线检测场景中普遍存在的因为非极大值抑制算法出现的检测结果漏检或抑制不全的问题,同时依然满足实时而准确的车道线检测。
Description
技术领域
本发明属于智能交通技术领域,更具体地,涉及一种车道线实例分割方法及系统。
背景技术
随着科学技术的进步和人们生活水平的不断提高,现存汽车的数量也随之增大。然而,这也使得世界各地的拥堵状况和交通事故等现象变得越来越严重。而自动驾驶系统可以帮助提高通行的效率,并且降低由于驾驶员等其他人为因素引起的交通事故的概率,引起了人们广泛的关注。车道线检测就是自动驾驶系统中关键技术之一,它被整合应用于自动驾驶车辆中的环境感知模块,用于向车辆提供车辆周围的环境信息,包括车道线的类型、车道线的精确边沿位置以及车辆的可行驶区域等。
车道线检测目前已经有很多方法实现,可以分为基于传统图像处理的方法以及基于深度学习的方法。基于传统图像处理的方法主要是对图像进行滤波降噪后,使用边沿检测算子对车道边沿特征进行提取,最后进行车道线结构拟合。传统方法虽然理论简单,然而鲁棒性较差,无法很好地应对不同天气、不同时间段下画面差异大的复杂场景,并且实时性差。而基于深度学习的方法可以利用深度神经网络对图像的各种层次的语义特征进行充分提取,因此鲁棒性较好,且可以利用GPU强大的处理能力实现更快的检测。
实例分割的检测方法是基于深度学习的车道线检测算法中的一类,该方法可以对每一个像素点是否属于某条车道线进行判断,检测结果可以以掩膜的形式清晰地表达。实例分割方法的处理过程中通常会获得同一个对象的许多质量不一的掩膜和对应的预测边界框,通常需要使用非极大值抑制(Non-Maximum Suppression,NMS)对质量不佳的结果进行抑制,以实现每一个车道线实例最终只对应一个预测边界框以及掩膜。然而,在车道线分布密集的场景中,它们的预测边界框互相之间存在较大的重叠。如果设定的非极大值抑制阈值过大,经过非极大值抑制处理之后每个车道线实例仍然会存在多个掩膜和对应的预测边界框;如果设定的非极大值抑制阈值过小,则经过非极大值抑制处理之后可能导致密集的两条相邻车道线之间仅剩下一条车道线的检测结果,另一条车道线的检测结果则被抑制出现漏检情况。此外,车道线检测的检测帧率也是必须要满足的一个指标,因为车道线检测模块不仅需要获取到车道线的精确位置,还需要将具体的结果提供给其他模块进一步处理,以得到最终的车辆控制决策。然而基于实例分割的车道线检测算法需要对图像中的每一个像素点进行分类,这会导致检测帧率较低而无法满足实时检测的需求。因此有必要提出技术手段实现准确实时的车道线实例分割检测。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种车道线实例分割方法及系统,旨在解决现有的实例分割的车道线检测算法需要对图像中的每一个像素点进行分类,导致检测帧率较低而无法满足实时检测需求的问题。
为实现上述目的,一方面,本发明提供了一种车道线实例分割方法,包括以下步骤:
S101:对输入图像依次进行ROI区域截取、归一化和标准化处理;
S102:采用深度神经网络对经过S101处理的输入图像进行各种层次特征的提取;其中,深度神经网络的第五个阶段的输出为高层语义特征,第四个阶段的输出为中层特征;
S103:采用注意力机制对输入图像的高层语义特征和中层特征分配不同的注意力分数;注意力分数包括:对特征图不同通道分配不同的通道注意力分数和对特征图上不同位置赋予不同的空间注意力分数;
S104:采用分配了注意力分数后的特征图构建特征金字塔以实现特征融合;
S105:基于特征金字塔,采用实时实例分割算法通过构建预测头和掩膜原型,获取初始实例分割检测若干掩膜结果;
S106:使用非极大值抑制算法对初始实例分割检测若干掩膜结果进行初步筛选,再使用车道线几何特征评分方法进一步筛选,获取最终的实例分割结果。
进一步优选地,构建特征金字塔的方法为:
对分配注意力分数的中层特征图进行卷积以进一步地特征提取,并使卷积后的中层特征图和高层语义特征图的张量尺寸相同;
将卷积后的中层特征图和高层语义特征图进行相加,再进一步卷积进行特征提取,构建仅有两层的特征金字塔。
进一步优选地,S105具体包括以下步骤:
参考实时实例分割算法SOLO算法、SOLOv2算法、DeepSnake算法、YOLACT算法、YOLACT++算法或YolactEdge算法中的任意一种,在特征金字塔的基础上构建预测头以获取类别置信度、掩膜置信度和锚框参数的位置偏移;采用卷积层和上采样获取掩膜原型,其中,亮值超过预设亮值的区域为目标区域;
将参考YOLACT算法中的预测头和掩膜原型分支作为线性组合单元,将预测头和掩膜原型的输出结果线性组合相乘,获取每个实例的若干掩膜。
进一步优选地,选取Traditional NMS算法、Soft NMS算法、Fast NMS算法、Cluster NMS算法中的任意一种对初始实例分割检测若干掩膜结果进行抑制,滤除重复的预测边界框以及对应的实例掩膜,使得每一个车道线实例对应不超过预设数量的掩膜以及预测边界框。
进一步优选地,车道线几何特征评分方法包括以下步骤:
根据不同掩膜的面积差异分配不同的权重,构建掩膜权重集合;
采用Sobel边沿检测算子对掩膜进行边沿检测,对获取掩膜的边界点坐标分布进行聚类,构建掩膜间的空间分布相似度集合;
计算所有掩膜的形心,采用DBSCAN聚类算法进行聚类,构建聚类集合;
将掩膜权重集合、掩膜间的空间分布相似度集合、聚类集合赋不同超参数相加获取相似度矩阵;
将相似度矩阵中所有的行进行去重,保留下来的行作为最终的实例分割结果。
另一方面,本发明提供了一种车道线实例分割系统,包括:图像预处理模块、图像视觉特征提取模块、视觉注意力模块、分割任务辅助学习模块、车道线实例分割检测模块、非极大值抑制计算模块和车道线几何特征评分筛选模块;
图像预处理模块用于对输入图像依次进行ROI区域截取、归一化和标准化处理;
图像视觉特征提取模块用于采用深度神经网络对预处理后的输入图像进行各种层次特征的提取;其中,所述深度神经网络的第五个阶段的输出为高层语义特征,第四个阶段的输出为中层特征;
视觉注意力模块用于采用注意力机制对输入图像的高层语义特征和中层特征分配不同的注意力分数;注意力分数包括:对特征图不同通道分配不同的通道注意力分数和对特征图上不同位置赋予不同的空间注意力分数;
分割任务辅助学习模块用于采用分配了注意力分数后的特征图构建特征金字塔,以实现特征融合;
车道线实例分割检测模块用于基于特征金字塔,采用实时实例分割算法通过构建预测头和掩膜原型,获取初始实例分割检测若干掩膜结果;
非极大值抑制计算模块用于使用非极大值抑制算法对初始实例分割检测若干掩膜结果进行初步筛选;
车道线几何特征评分筛选模块用于使用车道线几何特征评分方法进一步对初步筛选后的实例分割检测若干掩膜结果进行筛选,获取最终的实例分割结果。
进一步优选地,车道线实例分割检测模块包括中层特征图处理单元和特征融合单元;
中层特征图处理单元用于对分配注意力分数的中层特征图进行卷积以进一步特征提取,并使卷积后的中层特征图和高层语义特征图的张量尺寸相同;
特征融合单元用于将卷积后的中层特征图和高层语义特征图进行相加,再进一步卷积进行特征提取,构建仅有两层的特征金字塔。
进一步优选地,车道线实例分割检测模块参考YOLACT算法的设计,包括预测头构建单元、掩膜原型构建单元和线性组合单元;
预测头构建单元用于在特征金字塔的基础上构建预测头以获取类别置信度、掩膜置信度和锚框参数的位置偏移;
掩膜原型构建单元用于对每个输入图片生成指定数量的掩膜原型;
线性组合单元将预测头和掩膜原型的输出结果线性组合相乘,获取每个实例的若干掩膜。
进一步优选地,非极大值抑制计算模块的执行方法为:
选取Traditional NMS算法、Soft NMS算法、Fast NMS算法、Cluster NMS算法中的任意一种对初始实例分割检测若干掩膜结果进行抑制,滤除重复的预测边界框以及对应的实例掩膜,使得每一个车道线实例对应不超过预设数量的掩膜以及预测边界框。
进一步优选地,车道线几何特征评分筛选模块包括掩膜权重集合构建单元、空间分布相似度集合构建单元、聚类集合构建单元、加权求和单元和去重单元;
掩膜权重集合构建单元用于根据不同掩膜的面积差异分配不同的权重,构建掩膜权重集合;
空间分布相似度集合构建单元用于采用Sobel边沿检测算子对掩膜进行边沿检测,对获取掩膜的边界点坐标分布进行聚类,构建掩膜间的空间分布相似度集合;
聚类集合构建单元用于计算所有掩膜的形心,采用DBSCAN聚类算法进行聚类,构建聚类集合;
加权求和单元用于将掩膜权重集合、掩膜间的空间分布相似度集合、聚类集合赋不同超参数相加获取相似度矩阵;
去重单元用于将相似度矩阵中所有的行进行去重,保留下来的行作为最终的实例分割结果。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下
有益效果:
本发明通过深度神经网络获取输入图像的各层次特征,并通过注意力模块让网络更关注有价值的信息,以获取更加精确的特征表达;同时,通过使用分割辅助学习的多任务学习方式以优化深度神经网络的权重,可以更进一步提高检测的准确率;考虑到在嵌入式设备等低算力设备检测的实时性需求,本发明选取针对移动端设备设计的MobileNetV2作为主干特征提取网络,以其中层和高层特征为基础构建了一个仅有两层的特征金字塔网络进行特征融合,以保证检测的帧率;并且还参考目前最快的实时实例分割算法YolactEdge的部分特征转换的处理方法减小网络计算量,以进一步地提高检测帧率。
本发明设计的车道线几何特征评分筛选模块进一步解决了在车道线分布密集的场景下,非极大值抑制阈值过大导致的车道线实例抑制不全,即一个车道线的检测结果包含了多个掩膜和对应预测边界框的问题,以及阈值设置过小导致的车道线漏检的问题。
附图说明
图1是本发明实施例提供的基于注意力和掩膜几何特征的车道线实例分割方法流程图;
图2是本发明实施例提供的基于注意力和掩膜几何特征的车道线实例分割系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于视觉注意力和车道线几何特征的车道线实例分割方法,包括以下步骤:
S1:构建深度神经网络模型,其中,包括图像视觉特征提取模块、视觉注意力模块、分割任务辅助学习模块和车道线实例分割检测模块;
图像视觉特征提取模块,由卷积神经网络组成,用于充分提取输入图像的低层手工特征和高层语义特征;
视觉注意力模块,包括通道注意力模块和空间注意力模块;通道注意力模块可以对特征图不同的通道分配不同的通道注意力分数,而空间注意力模块则可以对一张特征图上的不同位置赋予不同的空间注意力分数,通过注意力分数的方式表示神经网络对不同通道或区域的关注程度,以注意力分数作为加权系数,将对应特征进行加权平均得到新的全局特征;
分割任务辅助学习模块,可以将图像视觉特征提取模块学习到的不同层次的特征图进行特征融合,特征融合的结果包含了图像各种层次的丰富的特征信息;通过使用多任务学习的方式对特征融合结果进行语义分割训练,可以更好地调整图像视觉特征提取模块的各种权重系数,进而实现更好的性能;
车道线实例分割检测模块,可以将图像视觉特征提取模块输出的,并且经过视觉注意力模块分配了注意力分数的各个特征图进行目标检测以及掩膜提取;目标检测是对特征整合后的特征图进行车道线目标实例定位,获取目标范围(用矩形区域表示)以及目标类别;掩膜提取则在目标车道线实例的区域中获取其掩膜,将属于目标和属于背景的像素坐标进行区别;
S2:对所需检测的场景采集原始数据,手工标注后将其构建为车道线边沿数据集BJ-ULL,使用BJ-ULL数据集的训练集训练深度神经网络模型;
S3:将待检测的图像输入至训练好的深度神经网络模型中,得到对应的检测结果。
进一步地,选取图像视觉特征提取模块的中层特征和高层语义特征添加控件注意力和通道注意力的方法,具体包括以下步骤:
设第i个输入图像为X i,定义图像视觉特征提取模块的特征图分辨率减小后的第一个输出到进一步减小前的最后一个输出为一个阶段,则总共可将图像视觉特征提取模块划分为五个阶段,五个阶段的输出分别为则/>为高层语义特征;/>为中层特征,和/>为低层特征;选取图像特征提取网络的中层特征/>和高层语义特征/>添加空间注意力fs和通道注意力fc:
其中,为第i个输入图像的第j层特征分配注意力权重之后的结果;
进一步优选地,选取添加注意力后的中层特征和高层语义特征/>进行特征融合,构建特征金字塔网络(Feature Pyramid Network,FPN),以更好地识别不同大小的车道线,具体为:
将中层特征图进行卷积以进一步提取特征,记为f4(·),并且使得其和高层语义特征/>的张量尺寸相同(通道和分辨率),随后将卷积结果和高层语义特征图进行相加,最后再进一步地卷积进行特征提取,记为f5(·),以获取更深层的语义特征/>通过这种方式可以构建一个仅有两层的特征金字塔,以在实现中层和高层不同尺寸的特征融合的同时保证检测的实时性:
其中,为第i个输入的第四层输出结果经过进一步提取特征的结果和第五层输出结果的叠加,/>为对/>进一步提取特征得到的结果;
进一步优选地,选取SOLO算法、SOLOv2算法、DeepSnake算法、YOLACT算法、YOLACT++算法、YolactEdge算法中的任意一种作为车道线实时实例分割的检测算法,以获取目标检测的结果以及对应的掩膜;
进一步优选地,选取Traditional NMS算法、Soft NMS算法、Fast NMS算法、Cluster NMS算法中的任意一种作为非极大值抑制处理的方法,对初始实例分割检测结果进行抑制,滤除重复的预测边界框以及对应的实例掩膜,使得每一个车道线实例对应不超过预设数量的掩膜以及预测边界框。
进一步优选地,使用车道线几何特征评分筛选模块对非极大值抑制处理的结果进行进一步地精细筛选,使得每一个车道线实例的检测结果有且仅有一个质量最佳的掩膜以及对应的预测边界框,具体方法为:
掩膜的面积是一种较好的初步筛选方法,如果两个掩膜的面积差值越小,那么它们归属于同一实例的概率就越大,根据面积的差异以分配权重:
其中,N表示待处理的掩膜数;δA是一个预先设定的阈值,用以限定两个掩膜的面积差异,k用以调整归一化的分布程度;M掩膜,mij为M具体的i行j列的值;A是该掩膜的面积;w为掩膜的宽;h为掩膜的高;
掩膜边界点的像素点的坐标分布也能在一定程度上反映出空间位置信息;将两个掩膜Mi和Mj,使用Sobel边沿检测算子获得其边沿点的掩膜Ei和Ej,拉直为一维向量ei和ej,并求出两个一维向量的交集,分别统计交集的元素占两个一维向量的比值:
Ei=Sobel(Mi),Ej=Sobel(Mj)
ei=argwhere(Flatten(Ei)>0),ej=argwhere(Flatten(Ej)>0)
其中,Flatten(·)代表拉平运算,argwhere(·)表示获取坐标;g(ei,ej)中的C(mi∩mj,mi)表示计算ei和ej的交集元素在ei中的个数,sum(·)表示对掩膜所有像素点的值求和,len(·)表示求数组长度,sij表示第i个掩膜和第j个掩膜的空间分布相似度,sij的值越大,则说明它们的空间分布越接近。
不同车道线实例的形心位置分布不同,因此可以将所有的掩膜的形心求出来,并且使用DBSCAN等聚类算法对形心进行聚类,也可以区分掩膜的归属实例;形心的计算方法如下:
其中,当图像为掩膜时A代表掩膜的面积;根据形心聚类的结果构建CN×N=(cij)N×N,当第i个掩膜和第j个掩膜归属于同一个聚类中心时将cij设为1,其他情况令其为0;w为掩膜的宽;h为掩膜的高;
上述的整个流程可以总结为:
a.根据不同的掩膜的面积进行初步分类,构建WN×N;
b.对掩膜进行边沿检测,对获取的边界点坐标分布进行聚类,构建sN×N;
c.计算所有掩膜的形心,使用DBSCAN聚类算法进行聚类,并计算出CN×N;
d.将它们全部加到一起获得相似度矩阵:
SimN×N=(simij)N×N=αWN×N+βSN×N+γCN×N
其中,α、β、γ、δ为超参数;WN×N为掩膜权重集合;SN×N为掩膜间的空间分布相似度集合;CN×N为聚类集合;然后使用下式以对矩阵进行二值化,并保证其为对称矩阵;
其中,simij为Sim具体的i行j列的值;
e.将Sim中所有的行进行去重,最后保留下来的行就是最终的聚类结果;每一行中仅有1和0两种元素,其中为1的索引对应的掩膜归属于同一聚类结果,即同一个车道线实例;最后比较它们的得分,并选取得分最高的掩膜作为最终的结果。
实施例
图1为本发明实施例提供的基于注意力和掩膜几何特征的车道线实例分割方法流程图,包括以下步骤:
S101:对输入图像进行预处理,包括ROI区域截取以及归一化和标准化;
进一步优选地,ROI区域截取为截取输入图像中车道线的分布区域,去除无关区域(主要为天空),从而减小运算量以提高检测帧率;在本发明实施例中,所选取的方式为将输入图像上方1/3的部分截去,留下下方2/3的部分;
进一步优选地,归一化和标准化,即将输入图像xi∈X进行归一化映射到0~1之间,以减小各输入之间的尺度差异,让训练时梯度下降的方向振荡更小,收敛更快:
其中,Xi为输入图像;X为输入图像集合;
S102:通过深度神经网络,获取输入的预处理好的图像的各层次特征;
进一步优选地,选取AlexNet网络、LeNet网络、GoogLeNet网络、VGG网络、ResNet网络、ShuffleNet网络、MobileNet网络中的任意一种作为图像特征提取网络,来提取输入图像的各种层次特征;
进一步优选地,用以获取图像特征的网络为卷积神经网络MobileNetV2的前5个阶段:
MobileNetV2网络架构的主要思想是深度可分离卷积(Depthwise SeparableConvolution)、线性瓶颈层(Linear Bottleneck)和倒残差(Inverted Residual);
选取深度可分离卷积代替网络中的大部分标准卷积运算,可以减少一部分网络参数,从而提高网络检测的速度;假设输入特征图需要得到的输出特征图如果使用普通卷积的方法,需要cy个cx×n×n的卷积核,不考虑偏置的情况下总参数量为cy×cx×n×n;如果使用深度可分离卷积,则先使用cx个1×n×n的卷积核分别对应特征图的cx个通道进行卷积得到cx个特征图,总参数量为cx×n×n;随后再使用1×1逐点卷积的方式更改通道数得到最终需要的结果,总参数量为cx×cy;对比二者,使用普通卷积的总参数量为cx×(cy×n2),使用深度可分离卷积的方式总参数量为cx×(cy+n2),cy通常是几十到几百,因此深度可分离卷积方式的参数量远小于标准卷积的参数量;
线性瓶颈层的操作是对于输入的通道数小于输出的通道数时删除最后的激活函数,非线性函数ReLU会将所有小于0的部分设置为0而破坏信息,去掉这些层的ReLU激活函数不但可以避免部分信息的破坏,还可以在一定程度上提高网络的前向传播的帧率;
倒残差不同于ResNet中普通的残差块的通道变化从多到少再到多,相反地,倒残差块的通道数变化为从少到多再到少;通过将特征映射到高维空间后运算再降维的操作可以减少特征的损失;
S103:使用注意力机制对获得的图像中、高层次的特征图分配不同的注意力分数;
本发明设计的注意力模块包括两个部分,一是对分割辅助学习模块的输入特征图添加通道注意力和空间注意力;二是对主干特征提取网络的输出添加上通道注意力;
进一步优选地,用以添加通道注意力的网络可以是SENet网络、CBAM网络、ECANet网络中的任意一种;
更进一步地,用以添加通道注意力的网络为ECANet网络;
ECANet网络提出了一种不降维的局部跨通道交互方法,可以有效避免降维对于通道注意力学习效果的影响,该模块在只增加少量参数的情况下,增益效果却十分明显;此外ECANet网络提出的适当的跨通道交互可以在保持性能的同时,显著降低模型的复杂性;分类任务的Top-1精度结果显示,ECANet优于SENet以及CBAM,因此优先选用ECANet以进行通道注意力分数的分配;
进一步优选地,用以添加空间注意力的网络可以是CBAM网络、CANet网络(Coordinate Attention Network)中的任意一种;
进一步优选地,用来添加空间注意力的网络为CANet,它通过提取水平与垂直方向的注意力特征图来建模通道间的长距离依赖关系,而且水平与垂直注意力的方式相比于CBAM的使用全局池化的方式,可以更有效地提供精确的空间位置信息,因此优先选用CANet来进行空间注意力分数的分配;
需要分配注意力分数的特征图包括图像视觉特征提取模块MobileNetV2中的最后两个阶段(第四、五阶段,即中层特征和高层特征),因为车道线在图像中所占的区域面积较大,从感受野的角度分析,特征图的层次越高,它的一个像素点对应原始输入图像的区域越大,因此采取这两个阶段用于后续的特征金字塔构建以及注意力机制的添加;设输入的第i个图像为Xi,其第四阶段的输出为第五阶段的输出为/>对这两个特征图先使用CANet添加空间注意力,再使用ECANet添加通道注意力,再对其使用双线性插值的方式进行上采样以将分辨率调整到和真值(Ground Truth)相同的大小:
其中,表示对应位置的元素相乘,fCA(·)为对特征图使用CANet分配空间注意力分数,fECA(·)对特征图使用ECANet分配通道注意力分数,GAP表示全局平均池化,AVPx表示沿图片水平方向的平均池化,AVPy表示沿图片竖直方向的平均池化,BN表示批次标准化操作,Concat表示特征堆叠,/>为sigmoid函数,Conv2group表示分成两组进行卷积,Upbilinear(·)表示使用双线性插值的方式进行上采样;/>为抽象的代表输入符号;为具体的输入描述;
进一步优选地,需要对添加了注意力机制的分割任务辅助学习模块设计损失函数以对模型进行监督训练。
在分割任务辅助学习模块中,首先需要将上采样后并且分配了注意力分散后得到的特征图进行特征堆叠,随后使用1×1的卷积进行纬度调整和特征融合得到/>使用sigmoid函数将其映射到0~1之间的概率表达,最后使用二元交叉熵损失函数进行训练和优化:
其中,Lseg为分割辅助损失;wT为目标标签的宽度;hT为目标标签的高度;为……;m和n为表示具体位置的表示,分别表示水平和竖直位置;
S104:使用分配了注意力分数后的特征图构建特征金字塔;
分配了注意力分数后的特征图即步骤S103中提到的和/>将中层特征图/>进行卷积以进一步地提取特征,记为f4(·),并且使得其和高层语义特征/>的张量尺寸相同(通道和分辨率),随后将卷积结果和高层语义特征图进行相加,构建一个仅有两层的特征金字塔(/>和/>)以实现特征融合:
S105:使用实时实例分割算法获取各个车道线实例的所有掩膜;
具体为:选取SOLO算法、算法、SOLOv2算法、DeepSnake算法、YOLACT算法、YOLACT++算法、YolactEdge算法中的任意一种作为车道线实时实例分割的检测算法,来获得目标检测的结果以及对应的车道线实例掩膜;
进一步优选地,选取用以进行实例分割的算法为YolactEdge,因为它的帧率在经典的实时实例分割算法中是最快的,它达到如此快速的原因是,它考虑了视频流在时间上图像帧的相似性,对于视频流的处理它将图像帧分为了关键帧(第1帧)和非关键帧(关键帧后的4帧)进行处理,并且将模型转换为TensorRT模型以实现加速;
参考YolactEdge的部分特征转换的处理方法,对于关键帧在主干部分计算全部的特征层,对于非关键帧在主干部分仅计算低层特征层和中层特征层而高层特征层使用关键帧的高层特征层/>进行线性变换T得来;这种方式同样减少了需要计算的特征层数量,提高了实际检测的帧率;并且由于非关键帧的特征金字塔的/>由自身的中层特征参与构成,其准确率不会有很大的下降:
参考YOLACT和YolactEdge的处理方式,在特征金字塔的基础上构建预测头以获得类别置信度、掩膜置信度和锚框参数的位置偏移,通过卷积和上采样获得掩膜原型,其中,亮值大的区域就是目标区域;最后将预测头和掩膜原型网络的输出结果线性组合即可获取每个实例的掩膜;最后综合两个分支的结果相乘获得最终的实例分割检测结果;
S106:使用非极大值抑制算法对检测结果进行粗略筛选,再使用车道线几何特征评分筛选模块进行精细筛选,获得最终结果;
进一步地,选取Traditional NMS算法、Soft NMS算法、Fast NMS算法、ClusterNMS算法中的任意一种对车道线实例分割模块的检测结果进行抑制,粗略地滤除大量的重复的预测边界框以及对应的掩膜,使得每一个车道线实例仅剩下少量的掩膜以及对应的预测边界框;
进一步优选地,选取的非极大值抑制算法为Cluster NMS;Traditional NMS以单一的NMS阈值作为分割标准,不适用于密集场景和遮挡场景,因此不予选择;
Soft NMS的得分惩罚机制虽然提高了在密集和遮挡场景的检测精度,但是其依然是顺序操作,没有充分利用CPU和GPU的强大的并行运算能力,并且速度也比TraditionalNMS慢,也不予采用;Fast NMS虽然采用了矩阵运算提高了运行速度,但是由于其会抑制更多的框,检测精度低于传统NMS,因此也不与采用;Cluster NMS采用了和Fast NMS类似的矩阵运算,速度上得到了保证,并且结果和传统NMS一致,它的精度高于也高于Fast NMS,因此选择使用Cluster NMS进行非极大值抑制处理;此外,Cluster NMS还有多种变体,如得分惩罚机制SPM(Score Penalty Mechanism)、添加了中心点距离惩罚项等,这可以进一步提升结果的精度;
进一步地,使用车道线几何特征评分筛选模块对非极大值抑制处理的结果进行进一步地精细筛选,使得每一个车道线实例的检测结果有且仅有一个质量最佳的掩膜以及对应的边界框,具体为:
掩膜的面积是一种较好的初步筛选方法,如果两个掩膜的面积的差值越小,那么它们归属于同一实例的概率就越大,所以根据面积的差异以分配权重:
其中,A是该掩膜的面积,只需将其中所有的像素点的值求和即可;
N表示待处理的掩膜数,δA是一个预先设定的阈值,用来限定两个掩膜的面积差异,k为可调整参数,用来调整归一化的分布程度;M为掩膜。为了将所有权重归一化,并且两个掩膜的面积的差的绝对值是恒正的,因此使用反正切归一化的方法来将其约束到0和1之间。
掩膜边界点的像素点的坐标分布也能在一定程度上反映出空间位置信息。将两个掩膜Mi和Mj,使用Sobel边沿检测算子获得其边沿点的掩膜Ei和Ej,拉直为一维向量ei和ej,并求出两个一维向量的交集,分别统计交集的元素占两个一维向量的比值:
Ei=Sobel(Mi),Ej=Sobel(Mj)
ei=argwhere(Flatten(Ei)>0),ej=argwhere(Flatten(Ej)>0)
其中,Flatten(·)代表拉平运算,argwhere(·)为获取坐标,g(ei,ej)中的C(mi∩mj,mi)表示计算ei和ej的交集元素在ei中的个数,sum(·)表示对掩膜所有像素点的值求和,因为Ei为掩膜,所以结果为求Ei的不为0的像素点数,乘2表示每个像素点坐标由2个值组成,len(·)表示求数组长度,sij表示第i个掩膜和第j个掩膜的空间分布相似度,sij的值越大,则说明它们的空间分布越接近。
不同的车道线实例的形心位置分布不同,因此可以将所有的掩膜的形心求出来,并且使用DBSCAN等聚类算法对形心进行聚类,也可以区分掩膜的归属实例。形心的计算方法如下:
其中当图像为掩膜时A代表掩膜的面积。根据形心聚类的结果构建CN×N=(cij)N×N,当第i个掩膜和第j个掩膜归属于同一个聚类中心时将cij设为1,其他情况令其为0。
上述的整个流程可以总结为:
1)根据不同的掩膜的面积不同进行初步分类,构建WN×N;
2)对掩膜使用Sobel算子进行边沿检测,对获得的边界点坐标分布进行聚类,构建SN×N;
3)计算所有掩膜的形心,使用DBSCAN聚类算法进行聚类,并计算出CN×N;
4)将它们全部加到一起获得相似度矩阵:
SimN×N=(simij)N×N=αWN×N+βSN×N+γCN×N
其中α、β、γ、δ为超参数。然后使用下式来对矩阵进行二值化,并保证其为对称矩阵。
5)将Sim中所有的行进行去重,最后保留下来的行就是最终的聚类结果。每一行中仅有1和0两种元素,其中为1的索引对应的掩膜归属于同一个聚类结果,即同一个车道线实例。最后比较它们的得分,并选取得分最高的掩膜最为最终的结果。
相应地,图2为本发明实施例提供的基于注意力和掩膜几何特征的车道线实例分割方法和系统的结构示意图,包括网络主干部分以及分割任务辅助学习模块。网络主干部分包含了图像视觉特征提取模块(用于提取图像的各层次特征)、视觉注意力模块(用于提高准确率)、实例分割模块(用于获得最终检测结果);分割任务辅助学习模块用于进行语义分割多任务训练优化主干部分的图像视觉特征提取模块以提高准确率。
实施例2
以下通过实验以证明本发明的有效性:
本实验选用BJ-ULL数据集进行性能测试;BJ-ULL(Beijing-Urban Lane Line)是在某市城区街道采集的车道线图像构成的;BJ-ULL可用于车道线沿线检测以及车道线逆反射系数计算,并且BJ-ULL还包括弯道、夜间亮度不足、强光照射等挑战性检测场景;BJ-ULL数据集的原始数据为10个时长为5分钟的彩色视频(包括白天和夜间两种场景),以及4000幅车道线灰度图像,分辨率均为4096×2160像素;从原始视频中提取图像的方式为:对于较为普遍的直线场景采用每10帧提取一幅图像的方式,而对于较为稀少的场景如弯道、夜间亮度不足、强光照射等情况,采取每5帧提取一幅图像的方式;处理后的数据集总共有8191幅,其中随机的选择7191幅设为训练集,剩下的1000幅设为测试集;为了提升检测效率,所有训练集图像均被下采样至1280×720像素的分辨率;该数据集的具体组成如表1所示;
表1
环境 | 车道线类型 | 车道线数量 | 图像总数 | 占比 |
白天 | 实线 | 4 | 1002 | 12.23% |
白天 | 实线 | 2 | 418 | 5.10% |
白天 | 实线 | 1 | 501 | 6.12% |
白天 | 虚线 | 1 | 251 | 3.06% |
夜间 | 实线 | 4 | 752 | 9.18% |
夜间 | 实线 | 2 | 507 | 6.19% |
夜间 | 实线 | 1 | 516 | 6.30% |
夜间 | 虚线 | 1 | 167 | 2.04% |
灰度 | 实线 | 4 | 1672 | 20.41% |
灰度 | 实线 | 2 | 919 | 11.22% |
灰度 | 实线 | 1 | 901 | 11.00% |
灰度 | 虚线 | 1 | 585 | 7.14% |
COCO数据集的格式是最常用于目标检测和实例分割的数据集格式之一,因此,将BJ-ULL数据集的格式构建为COCO格式;相应地,评估指标也可以采用COCO格式数据集的评估指标mAP(mean Average Precision),其核心使用的是IoU标准;COCO的标注格式中包含了实例的边界框以及多边形标注的掩膜外轮廓坐标,则相应的也有Box IoU以及Mask IoU;在实例分割检测评估中采用的是Mask IoU,即两个掩膜的交并比;
COCO评估指标中对于TP、TN、FP和FN的定义如下:
TP:Mask IoU>thresh的掩膜数量;
FP:Mask IoU≤thresh的掩膜数量(或检测到同一个地面真值的多余掩膜的数量);
FN:没有检测到的;
地面真值的数量;
TN:不予考虑;
可以根据不同的置信度(网络输出)计算出不同的查准率(Precision)和查全率(Recall),并将它们绘制为Precision—Recall曲线(简称P—-R曲线);则AP定义为P—R曲线下的面积,越接近1代表结果越好;
在COCO的评估标准中,从0.5~0.95每隔0.05取一个阈值(thresh),随后计算这10个不同阈值下的AP值,并且在最后以这些阈值下的AP平均作为结果;最后统计各类别的AP平均值即为mAP;AP值可分为Box AP和Mask AP;Box AP用于综合评价目标检测模型指标,利用的评估准则是预测边界框的IoU;Mask AP用于综合评价实例分割模型指标,利用的评估准则是掩膜的IoU;
试验使用0.001的初始学习率进行训练,并且每50个epoch将学习率除以10;总的训练次数设置为200个epoch,batchsize设置为32;超参数α、β、γ、δ分别设为0.3、0.3、0.4、0.75;图像的裁剪输入尺寸为550×500像素;
表2展示了使用各种NMS与几何特征筛选模块组合处理前后的Mask AP值和帧率;从结果中可以看出,在没有使用车道线几何特征评分筛选模块的情况下,选择使用ClusterNMS对检测结果进行粗略抑制的有效性,帧率相比于YolactEdge的Fast NMS略高,而MaskAP值高了1.64%;从结果中还能看出,本发明设计的车道线几何特征评分筛选模块可以在满足检测需求实时性的同时有效地提高检测精度;
表2
NMS | 车道线几何特征评分筛选模块 | Mask AP(%) | FPS |
Traditional NMS | 70.64 | 76.85 | |
Traditional NMS | √ | 75.92 | 69.67 |
Fast NMS | 68.91 | 78.01 | |
Fast NMS | √ | 74.57 | 69.93 |
Cluster NMS | 70.64 | 78.54 | |
Cluster NMS | √ | 76.21 | 70.04 |
Cluster SPM NMS | 70.94 | 78.12 | |
Cluster SPM NMS | √ | 76.62 | 69.83 |
Cluster SPM Dist NMS | 72.44 | 72.95 | |
Cluster SPM Dist NMS | √ | 77.27 | 64.25 |
表3为本发明方法与部分实时实例分割算法PolarMask、SOLOV2、YolactEdge在BJ-ULL数据集上对Mask AP准确率和平均帧率的比较结果;从结果中可看出本发明方法在准确率和帧率方面都达到了最佳性能,这证明了本发明方法的有效性;
表3
综上所述,本发明与现有的开源的基于深度学习的车道线检测算法相比,具有一定的优势:
本发明通过深度神经网络获取输入图像的各层次特征,并通过注意力模块让网络更关注有价值的信息,以获取更加精确的特征表达;同时,通过使用分割辅助学习的多任务学习方式以优化深度神经网络的权重,可以更进一步提高检测的准确率;考虑到在嵌入式设备等低算力设备检测的实时性需求,本发明选取针对移动端设备设计的MobileNetV2作为主干特征提取网络,以其中层和高层特征为基础构建了一个仅有两层的特征金字塔网络进行特征融合,以保证检测的帧率;并且还参考目前最快的实时实例分割算法YolactEdge的部分特征转换的处理方法减小网络计算量,以进一步地提高检测帧率。此外,本发明设计的车道线几何特征评分筛选模块进一步解决了在车道线分布密集的场景下,非极大值抑制阈值过大导致的车道线实例抑制不全,即一个车道线的检测结果包含了多个掩膜和对应预测边界框的问题,以及阈值设置过小导致的车道线漏检的问题。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种车道线实例分割方法,其特征在于,包括以下步骤:
S101:对输入图像依次进行ROI区域截取、归一化和标准化处理;
S102:采用深度神经网络对经过S101处理的输入图像进行各种层次特征的提取;其中,所述深度神经网络的第五个阶段的输出为高层语义特征,第四个阶段的输出为中层特征;
S103:采用注意力机制对输入图像的高层语义特征和中层特征分配不同的注意力分数;注意力分数包括:对特征图不同通道分配不同的通道注意力分数和对特征图上不同位置赋予不同的空间注意力分数;
S104:采用分配了注意力分数后的特征图构建特征金字塔以实现特征融合;
S105:基于特征金字塔,采用实时实例分割算法通过构建预测头和掩膜原型,获取初始实例分割检测若干掩膜结果;
S106:使用非极大值抑制算法对初始实例分割检测若干掩膜结果进行初步筛选,再使用车道线几何特征评分方法进一步筛选,获取最终的实例分割结果;
其中,车道线几何特征评分方法包括以下步骤:
根据不同掩膜的面积差异分配不同的权重,构建掩膜权重集合;
采用Sobel边沿检测算子对掩膜进行边沿检测,对获取掩膜的边界点坐标分布进行聚类,构建掩膜间的空间分布相似度集合;
计算所有掩膜的形心,采用DBSCAN聚类算法进行聚类,构建聚类集合;
将掩膜权重集合、掩膜间的空间分布相似度集合、聚类集合赋不同超参数相加获取相似度矩阵;
将相似度矩阵中所有的行进行去重,保留下来的行作为最终的实例分割结果。
2.根据权利要求1所述的车道线实例分割方法,其特征在于,构建特征金字塔的方法为:
对分配注意力分数的中层特征图进行卷积以进一步特征提取,并使卷积后的中层特征图和高层语义特征图的张量尺寸相同;
将卷积后的中层特征图和高层语义特征图进行相加,再进一步卷积进行特征提取,构建仅有两层的特征金字塔。
3.根据权利要求1或2所述的车道线实例分割方法,其特征在于,S105具体包括以下步骤:
参考实时实例分割算法SOLO算法、SOLOv2算法、DeepSnake算法、YOLACT算法、YOLACT++算法或YolactEdge算法中的任意一种,在特征金字塔的基础上构建预测头以获取类别置信度、掩膜置信度和锚框参数的位置偏移;采用卷积层和上采样获取掩膜原型,其中,亮值超过预设亮值的区域为目标区域;
将参考YOLACT算法中的预测头和掩膜原型分支作为线性组合单元,将预测头和掩膜原型的输出结果线性组合相乘,获取每个实例的若干掩膜。
4.根据权利要求3所述的车道线实例分割方法,其特征在于,选取Traditional NMS算法、Soft NMS算法、Fast NMS算法、Cluster NMS算法中的任意一种对初始实例分割检测若干掩膜结果进行抑制,滤除重复的预测边界框以及对应的实例掩膜,使得每一个车道线实例对应不超过预设数量的掩膜以及预测边界框。
5.一种车道线实例分割系统,其特征在于,包括:图像预处理模块、图像视觉特征提取模块、视觉注意力模块、分割任务辅助学习模块、车道线实例分割检测模块、非极大值抑制计算模块和车道线几何特征评分筛选模块;
图像预处理模块用于对输入图像依次进行ROI区域截取、归一化和标准化处理;
图像视觉特征提取模块用于采用深度神经网络对预处理后的输入图像进行各种层次特征的提取;其中,所述深度神经网络的第五个阶段的输出为高层语义特征,第四个阶段的输出为中层特征;
视觉注意力模块用于采用注意力机制对输入图像的高层语义特征和中层特征分配不同的注意力分数;注意力分数包括:对特征图不同通道分配不同的通道注意力分数和对特征图上不同位置赋予不同的空间注意力分数;
分割任务辅助学习模块用于采用分配了注意力分数后的特征图构建特征金字塔,以实现特征融合;
车道线实例分割检测模块用于基于特征金字塔,采用实时实例分割算法通过构建预测头和掩膜原型,获取初始实例分割检测若干掩膜结果;
非极大值抑制计算模块用于使用非极大值抑制算法对初始实例分割检测若干掩膜结果进行初步筛选;
车道线几何特征评分筛选模块用于使用车道线几何特征评分方法进一步对初步筛选后的实例分割检测若干掩膜结果进行筛选,获取最终的实例分割结果;
车道线几何特征评分筛选模块包括掩膜权重集合构建单元、空间分布相似度集合构建单元、聚类集合构建单元、加权求和单元和去重单元;
掩膜权重集合构建单元用于根据不同掩膜的面积差异分配不同的权重,构建掩膜权重集合;
空间分布相似度集合构建单元用于采用Sobel边沿检测算子对掩膜进行边沿检测,对获取掩膜的边界点坐标分布进行聚类,构建掩膜间的空间分布相似度集合;
聚类集合构建单元用于计算所有掩膜的形心,采用DBSCAN聚类算法进行聚类,构建聚类集合;
加权求和单元用于将掩膜权重集合、掩膜间的空间分布相似度集合、聚类集合赋不同超参数相加获取相似度矩阵;
去重单元用于将相似度矩阵中所有的行进行去重,保留下来的行作为最终的实例分割结果。
6.根据权利要求5所述的车道线实例分割系统,其特征在于,车道线实例分割检测模块包括中层特征图处理单元和特征融合单元;
中层特征图处理单元用于对分配注意力分数的中层特征图进行卷积以进一步特征提取,并使卷积后的中层特征图和高层语义特征图的张量尺寸相同;
特征融合单元用于将卷积后的中层特征图和高层语义特征图进行相加,再进一步卷积进行特征提取,构建仅有两层的特征金字塔。
7.根据权利要求5或6所述的车道线实例分割系统,其特征在于,车道线实例分割检测模块参考YOLACT算法的设计,包括预测头构建单元、掩膜原型构建单元和线性组合单元;
预测头构建单元用于在特征金字塔的基础上构建预测头以获取类别置信度、掩膜置信度和锚框参数的位置偏移;
掩膜原型构建单元用于对每个输入图片生成指定数量的掩膜原型;
线性组合单元用于将预测头和掩膜原型的输出结果线性组合相乘,获取每个实例的若干掩膜。
8.根据权利要求7所述的车道线实例分割系统,其特征在于,非极大值抑制计算模块的执行方法为:
选取Traditional NMS算法、Soft NMS算法、Fast NMS算法、Cluster NMS算法中的任意一种对初始实例分割检测若干掩膜结果进行抑制,滤除重复的预测边界框以及对应的实例掩膜,使得每一个车道线实例对应不超过预设数量的掩膜以及预测边界框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310185940.1A CN116071374B (zh) | 2023-02-28 | 2023-02-28 | 一种车道线实例分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310185940.1A CN116071374B (zh) | 2023-02-28 | 2023-02-28 | 一种车道线实例分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116071374A CN116071374A (zh) | 2023-05-05 |
CN116071374B true CN116071374B (zh) | 2023-09-12 |
Family
ID=86176853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310185940.1A Active CN116071374B (zh) | 2023-02-28 | 2023-02-28 | 一种车道线实例分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071374B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935349B (zh) * | 2023-09-15 | 2023-11-28 | 华中科技大学 | 一种基于Zigzag变换的车道线检测方法、系统、设备及介质 |
CN118351316B (zh) * | 2024-05-14 | 2024-09-20 | 重庆交通大学 | 一种基于深度学习的桥梁拉索表观缺陷分割方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582201A (zh) * | 2020-05-12 | 2020-08-25 | 重庆理工大学 | 一种基于几何注意力感知的车道线检测系统 |
CN112669350A (zh) * | 2020-12-31 | 2021-04-16 | 广东电网有限责任公司电力科学研究院 | 一种自适应特征融合的智能变电站人体目标跟踪方法 |
CN113538402A (zh) * | 2021-07-29 | 2021-10-22 | 燕山大学 | 一种基于密度估计的人群计数方法及系统 |
WO2022126377A1 (zh) * | 2020-12-15 | 2022-06-23 | 中国科学院深圳先进技术研究院 | 检测车道线的方法、装置、终端设备及可读存储介质 |
CN114743126A (zh) * | 2022-03-09 | 2022-07-12 | 上海瀚所信息技术有限公司 | 一种基于图注意力机制网络的车道线标志分割方法 |
CN115205811A (zh) * | 2022-02-28 | 2022-10-18 | 东北电力大学 | 一种基于深度学习方法的遮挡车道线检测方法 |
CN115222946A (zh) * | 2022-09-19 | 2022-10-21 | 南京信息工程大学 | 一种单阶段实例图像分割方法、装置以及计算机设备 |
CN115294473A (zh) * | 2022-07-05 | 2022-11-04 | 哈尔滨理工大学 | 一种基于目标检测与实例分割的绝缘子故障识别方法及系统 |
CN115546750A (zh) * | 2022-09-28 | 2022-12-30 | 华南理工大学 | 一种基于Transformer编码器和空洞卷积的车道线检测方法 |
CN115661771A (zh) * | 2022-10-09 | 2023-01-31 | 北京英泰智科技股份有限公司 | 一种基于不均匀锚的车道线边沿实时检测方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10679351B2 (en) * | 2017-08-18 | 2020-06-09 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
-
2023
- 2023-02-28 CN CN202310185940.1A patent/CN116071374B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582201A (zh) * | 2020-05-12 | 2020-08-25 | 重庆理工大学 | 一种基于几何注意力感知的车道线检测系统 |
WO2022126377A1 (zh) * | 2020-12-15 | 2022-06-23 | 中国科学院深圳先进技术研究院 | 检测车道线的方法、装置、终端设备及可读存储介质 |
CN112669350A (zh) * | 2020-12-31 | 2021-04-16 | 广东电网有限责任公司电力科学研究院 | 一种自适应特征融合的智能变电站人体目标跟踪方法 |
CN113538402A (zh) * | 2021-07-29 | 2021-10-22 | 燕山大学 | 一种基于密度估计的人群计数方法及系统 |
CN115205811A (zh) * | 2022-02-28 | 2022-10-18 | 东北电力大学 | 一种基于深度学习方法的遮挡车道线检测方法 |
CN114743126A (zh) * | 2022-03-09 | 2022-07-12 | 上海瀚所信息技术有限公司 | 一种基于图注意力机制网络的车道线标志分割方法 |
CN115294473A (zh) * | 2022-07-05 | 2022-11-04 | 哈尔滨理工大学 | 一种基于目标检测与实例分割的绝缘子故障识别方法及系统 |
CN115222946A (zh) * | 2022-09-19 | 2022-10-21 | 南京信息工程大学 | 一种单阶段实例图像分割方法、装置以及计算机设备 |
CN115546750A (zh) * | 2022-09-28 | 2022-12-30 | 华南理工大学 | 一种基于Transformer编码器和空洞卷积的车道线检测方法 |
CN115661771A (zh) * | 2022-10-09 | 2023-01-31 | 北京英泰智科技股份有限公司 | 一种基于不均匀锚的车道线边沿实时检测方法和系统 |
Non-Patent Citations (1)
Title |
---|
NWPU-Captions Dataset and MLCA-Net for Remote Sensing Image Captioning;Qimin Cheng 等;《IEEE Transactions on Geoscience and Remote Sensing ( Volume: 60)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116071374A (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740465B (zh) | 一种基于实例分割神经网络框架的车道线检测算法 | |
CN116071374B (zh) | 一种车道线实例分割方法及系统 | |
CN110956094B (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
CN111598030B (zh) | 一种航拍图像中车辆检测和分割的方法及系统 | |
CN111008562B (zh) | 一种特征图深度融合的人车目标检测方法 | |
Xu et al. | Inter/intra-category discriminative features for aerial image classification: A quality-aware selection model | |
CN110414417B (zh) | 一种基于多层次融合多尺度预测的交通标志牌识别方法 | |
CN112232349A (zh) | 模型训练方法、图像分割方法及装置 | |
CN110796168A (zh) | 一种基于改进YOLOv3的车辆检测方法 | |
CN113421269A (zh) | 一种基于双分支深度卷积神经网络的实时语义分割方法 | |
GB2580671A (en) | A computer vision system and method | |
CN108573276A (zh) | 一种基于高分辨率遥感影像的变化检测方法 | |
CN109919883B (zh) | 一种基于灰度转换的交通视频数据获取方法 | |
CN112862824A (zh) | 新型冠状病毒肺炎病灶检测方法、系统、装置和存储介质 | |
CN112036231B (zh) | 一种基于车载视频的车道线和路面指示标志检测与识别方法 | |
CN108416292A (zh) | 一种基于深度学习的无人机航拍图像道路提取方法 | |
CN114120069B (zh) | 基于方向自注意力的车道线检测系统、方法和存储介质 | |
CN113592893B (zh) | 一种确定主体和精准化边缘相结合的图像前景分割方法 | |
CN114220126A (zh) | 一种目标检测系统及获取方法 | |
CN115019274A (zh) | 一种融合追踪与检索算法的路面病害识别方法 | |
CN115527133A (zh) | 一种基于目标密度信息的高分图像背景优化方法 | |
CN106529441A (zh) | 基于模糊边界分片的深度动作图人体行为识别方法 | |
CN112801021B (zh) | 基于多级语义信息的车道线检测方法及系统 | |
CN111275732A (zh) | 一种基于深度卷积神经网络的前景对象图像分割方法 | |
CN116862252B (zh) | 一种基于复合卷积算子的城市建筑物损失应急评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |