CN115546768B - 基于多尺度机制和注意力机制的路面标线识别方法及系统 - Google Patents
基于多尺度机制和注意力机制的路面标线识别方法及系统 Download PDFInfo
- Publication number
- CN115546768B CN115546768B CN202211524047.9A CN202211524047A CN115546768B CN 115546768 B CN115546768 B CN 115546768B CN 202211524047 A CN202211524047 A CN 202211524047A CN 115546768 B CN115546768 B CN 115546768B
- Authority
- CN
- China
- Prior art keywords
- road surface
- image
- image data
- pavement
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了基于多尺度机制和注意力机制的路面标线识别方法及系统,涉及图像识别技术领域,在通过卷积神经网络构建模型时,以图像分类卷积网络ConvNeXt为基线,在提取图像特征信息的最后阶段融入多尺度机制,用于路面标线的高精度分割识别,并在网络恢复图像特征信息的最后阶段添加了注意力机制,使得该网络在保持多尺度提取特征的同时,还可以兼顾全局信息的构建,并且在一定程度上提高了网络构建边缘信息的能力,实现道路路面标线的高精度像素级分割。
Description
技术领域
本发明涉及图像识别技术领域,具体涉及基于多尺度机制和注意力机制的路面标线识别方法及系统。
背景技术
随着大规模的道路基础设施运营维护和管理工作逐渐提上日程,其中最为重要的是路面使用状况评估和道路交通资产统计调查。
路面标线作为道路交通安全的重要标识物,为了实现车辆的智能驾驶,或是为驾驶员提供辅助驾驶功能,例如:车道保持功能,或是跟踪路面标线驾驶功能,都需要在道路图像中识别路面标线,为智能驾驶或是辅助驾驶提供车辆位于道路上的空间位置信息,以便控制系统对车辆进行辅助控制。
随着人工智能计算机视觉的不断发展,深度卷积神经网络已经被成功的运用于跟踪路面标线驾驶、车辆检测、地震灾害物检测、工程损伤监测等。然而,现有的深度卷积神经网络算法虽然在识别效果和泛化能力上较传统的算法模型有质的提升,但在路面标线的精确定量评估上仍然有进一步的研究发展空间。一方面在真实的路面场景中,使用卷积神经网络对一幅路面图像逐像素的进行分类,是一项极具挑战性的任务;再加上路面状况复杂多变,标线的磨损、缺失、开裂以及各种遮挡物、路面噪声的存在,又使得标线的分割识别更加的困难;现有的深度卷积神经网络算法的效果非常容易受到局部信息缺失(比如标线的缺损、开裂或被遮挡)以及路面噪声的影响(比如和路面标线颜色相近的白色涂料等),从而出现大量的误识别以及目标边界定位不准确的现象,降低识别率较低,鲁棒性较差。
发明内容
本发明所要解决的技术问题是:现有的深度卷积神经网络算法应用在路面标线检测过程中易受到标线局部信息缺失以及路面噪声的影响,从而出现大量的误识别以及标线目标边界定位不准确的现象,本发明目的在于提供基于多尺度机制和注意力机制的路面标线识别方法及系统,解决上述技术问题。
本发明通过下述技术方案实现:
本发明提供基于多尺度机制和注意力机制的路面标线识别方法,包括:
扫描待识别路段实时采集路面图像数据;
对路面图像数据进行预处理后输入已构建好的图像分割识别模型中进行分割识别得到路面图像数据的识别结果;
所述图像分割识别模型以卷积网络ConvNeXt为基线,在提取图像特征信息的最后阶段融入多尺度机制,并在恢复图像特征信息的最后阶段添加注意力机制。
本方案工作原理:本发明提供的基于多尺度机制和注意力机制的路面标线识别方法,在通过卷积神经网络构建模型时,以图像分类卷积网络ConvNeXt为基线,在提取图像特征信息的最后阶段融入多尺度机制,用于路面标线的高精度分割识别,并在网络恢复图像特征信息的最后阶段添加了注意力机制,使得该网络在保持多尺度提取特征的同时,还可以兼顾全局信息的构建,并且在一定程度上提高了网络构建边缘信息的能力,实现道路路面标线的高精度像素级分割。
进一步优化方案为,所述预处理包括过程:
根据下式对路面图像进行归一化处理:
其中i,j分别代表路面图像的行号和列号,C(i, j)代表原始路面面图像数据对应的像素值,I(i, j)代表归一化处理后的路面图像的像素值,I(i, j)属于(0,1)。
进一步优化方案为,图像分割识别模型的构建方法包括:
T1,采样路面图像数据并构建路面真值数据;所述路面真值数据为根据路面图像数据绘制的路面标线轮廓图像数据;
T2,将路面真值数据进行二值化处理:在路面标线轮廓图像数据中,设置路面背景的像素值为0,路面标线的像素值为1,以数值形式表示出路面标线轮廓图像数据;
T3,用路面图像数据和二值化处理后的路面真值数据训练出图像分割识别模型。
进一步优化方案为,步骤T1包括以下子步骤:
T11,获取历史路面图像数据构建全训练样本;所述全训练样本包括多个模式类,各模式类具有相同个数的样本;所述模式类包括:路面标线完整模式类、路面标线动态缺失模式类和路面标线静态缺失模式类
T12,将全训练样本输入隐马尔科夫模型进行训练得到各模式类的模型;
T13,用各模式类的模型对全训练样本进行识别,保存每个样本在每个模型下的概率
{Pi}={P0,P1,...Pi,},其中P0>P1>...>Pi,i为模型序号;
并基于概率{Pi}计算相对概率值Px:
当n等于0时,Px=P0-P1;当n不等于0时,Px=n(Pn-P0);n表示任意一个路面标线完整模式类样本的概率;
T14,基于相对概率值Px划分出正样本集和负样本集并确定边界样本集;
T15,以边界样本集作为路面图像数据训练样本集用于构建路面真值数据。
进一步优化方案为,全训练样本构建方法包括:
从历史路面图像数据中筛选出所有路面标线动态缺失的路面图像:动态过程j包含的路面图像j1,j2,...jn;j=1,2,...M;
基于各动态过程的路面图像获取3M个特征图像,所有的特征图像构成路面标线动态缺失模式类的N个样本;
从历史路面图像数据中随机筛选出N个路面标线完整模式类的样本,和N个路面标线静态缺失模式类的样本得到全训练样本。
进一步优化方案为,特征图像的获取方法包括:
基于动态过程的路面图像计算总遮盖面积和路面标线总面积,将总遮盖面积等效为一个长宽比为3:2的矩形遮盖物;
基于矩形遮盖物获取第一特征图像、第二特征图像和第三特征图像;
所述第一特征图像为矩形遮盖物遮盖最大面积路面标线时的图像,所述第二特征图像和第三特征图像为矩形遮盖物遮盖路面标线面积为矩形遮盖物面积的1/3时的图像。
进一步优化方案为,T14包括以下过程:
判断各样本的相对概率值Px是否小于零,若是则当前样本划分至负样本集,否则划分为正样本集;
由全部正样本集和部分负样本集构成边界样本集。
进一步优化方案为,T3包括以下子步骤:
T31,对路面图像数据进行初步特征提取得到特征层;
T32,再将特征层进行高语义特征提取后下采样得到尺寸分别为N/4、N/8、N/16和N/32的特征信息图,N表示路面图像数据的尺寸;
T33,对尺寸为N/8和N/16的特征信息图分别进行卷积上采样得到两个尺寸为N/4的特征图,对尺寸为N/32的特征信息图进行空洞卷积多尺度融合得到一个尺寸为N/4的特征图像,将三个尺寸为N/4的特征图与尺寸为N/4的特征信息图进行特征拼接融合得到融合特征图像;
T34,基于融合特征图像和注意力机制构建全局信息并恢复边缘细节信息得到图像分割识别模型。
进一步优化方案,T34包括以下子步骤:
T341,将特征图像进行全局平均池化和一维卷积层操作得到一个一维的目标向量;
T342,对目标向量使用Sigmoid激活函数,使目标向量中的每个元素都是一个(0,1)之间的一个权重值;
T343,把目标向量中的权重值与特征图像相乘使特征图中每一像素都对应一个权重值;
T344,基于二值化处理后的路面真值数据不断的反向传播训练网络直到获得最优权重矩阵,基于最优权重矩阵得到图像分割识别模型。
本方案还提供基于多尺度机制和注意力机制的路面标线识别系统,用于实现上述任一方案所述的方法,包括采集模块、识别模块和模型构建模块;
所述采集模块用于扫描待识别路段实时采集路面图像数据;
所述识别模块用于对路面图像数据进行预处理后输入已构建好的图像分割识别模型中进行分割识别得到路面图像数据的识别结果;
模型构建模块用于以卷积网络ConvNeXt为基线,在提取图像特征信息的最后阶段融入多尺度机制,并在恢复图像特征信息的最后阶段添加注意力机制构建出图像分割识别模型。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明提供的基于多尺度机制和注意力机制的路面标线识别方法及系统,在通过卷积神经网络构建模型时,以图像分类卷积网络ConvNeXt为基线,在提取图像特征信息的最后阶段融入多尺度机制,用于路面标线的高精度分割识别,并在网络恢复图像特征信息的最后阶段添加了注意力机制,使得该网络在保持多尺度提取特征的同时,还可以兼顾全局信息的构建,并且在一定程度上提高了网络构建边缘信息的能力,实现道路路面标线的高精度像素级分割。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为基于多尺度机制和注意力机制的路面标线识别方法流程示意图;
图2为图像分割识别模型结构示意图;
图3为W-ASPP空洞卷积多尺度融合结构示意图;
图4为特征提取结构示意图;
图5为注意力机制模块工作原理示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
本实施例提供基于多尺度机制和注意力机制的路面标线识别方法,如图1所示,包括:
使用道路检测车车载双目激光相机系统扫描待识别路段实时采集路面图像数据;
所述预处理包括过程:
根据下式对路面图像进行归一化处理:
其中i,j分别代表路面图像的行号和列号,C(i, j)代表原始路面面图像数据对应的像素值,I(i, j)代表归一化处理后的路面图像的像素值,I(i, j)属于(0,1)。
对路面图像数据进行预处理后输入已构建好的图像分割识别模型中进行分割识别得到路面图像数据的识别结果;
所述图像分割识别模型以卷积网络ConvNeXt为基线,在提取图像特征信息的最后阶段融入多尺度机制,并在恢复图像特征信息的最后阶段添加注意力机制。
图像分割识别模型的构建方法包括:
T1,采样路面图像数据并构建路面真值数据;所述路面真值数据为根据路面图像数据绘制的路面标线轮廓图像数据;为了让算法具备识别路面标线特征的能力,当算法模型达到一个较好的效果的时候,就可以将神经网络算法的参数模型封装到智能识别系统中,用于实时的检测,因此构建路面真值数据,构建的方法就是人工绘制出目标路面标线的精确轮廓,作为后期训练神经网络算法的真值图像。
具体的步骤T1包括以下子步骤:
T11,获取历史路面图像数据,并基于历史路面图像数据构建全训练样本;所述全训练样本包括多个模式类,各模式类具有相同个数的样本;所述模式类包括:路面标线完整模式类、路面标线动态缺失模式类和路面标线静态缺失模式类;
全训练样本构建方法包括:
从历史路面图像数据中筛选出所有路面标线动态缺失的路面图像:动态过程j包含的路面图像j1,j2,...jn;j=1,2,...M;
基于各动态过程的路面图像获取3M个特征图像,所有的特征图像构成路面标线动态缺失模式类的N个样本;特征图像的获取方法包括:
基于动态过程的路面图像计算总遮盖面积和路面标线总面积,将总遮盖面积等效为一个长宽比为3:2的矩形遮盖物;
基于矩形遮盖物获取第一特征图像、第二特征图像和第三特征图像;
所述第一特征图像为矩形遮盖物遮盖最大面积路面标线时的图像,所述第二特征图像和第三特征图像为矩形遮盖物遮盖路面标线面积为矩形遮盖物面积的1/3时的图像。
从历史路面图像数据中随机筛选出N个路面标线完整模式类的样本,和N个路面标线静态缺失模式类的样本得到全训练样本。依据路面标线动态缺失模式类的样本数量来确定其他模式类样本的数量,不仅剔除了路面标线动态缺失模式类中的无效样本,还避免了其他模式类的陪同样本。
T12,将全训练样本输入隐马尔科夫模型进行训练得到各模式类的模型;
T13,用各模式类的模型对全训练样本进行识别,保存每个样本在每个模型下的概率
{Pi}={P0,P1,...Pi,},其中P0>P1>...>Pi,i为模型序号;并计算相对概率值Px:
当n等于0时,Px=P0-P1;当n不等于0时,Px=n(Pn-P0);n表示任意一个路面标线完整模式类样本的概率;
T14,基于相对概率值Px划分出正样本集和负样本集,并基于正样本集和负样本集确定边界样本集;T14包括以下过程:
判断各样本的相对概率值Px是否小于零,若是则当前样本划分至负样本集,否则划分为正样本集;
由全部正样本集和部分负样本集构成边界样本集。
T15,以边界样本集作为路面图像数据训练样本集用于构建路面真值数据。
一般情况下,训练数据决定了训练出的模型的性能,训练数据的数据量对于训练的影响简单地描述为:当数据量过少时,容易出现训练不足 (欠训练)的问题,数据量过多,则容易出现过训练的问题。而对于路面标线这一应用场景,由于路面标线存在多种模式类型,如路面标线无损、路面标线断裂、路面标线由于井盖被迫截止,还有情况是在获取路面图片的过程中有其他行驶车辆遮挡的情形,这每一种情形都是一种模式,对于样本数据集来说,它应该尽可能地包含多种模式,以及各个模式的各个种类,而且每个种类的样本数量以及在全部数 据中所占的比例应该有利于模型的建立和评价,而问题在于一个模式体现在样本数据上千差万别,人工难以进行正确地分类,而且对于每种类别的样本数据量的比例也难以确定;采集能够全面覆盖该模式所有种类的样本数据集是比较困难的,在实际工作中,常常只能得到一定数量的样本数据; 再通过人工挑选的方法来选择训练数据,这种方法的主要缺点在于对人的依赖性大,不同的人挑选的结果是不同的,而且人工挑选的样本不一定满足训练的要求,此外,在大样本集的情况下,人工挑选是非常费力费时的;为此,本实施例基于隐马尔科夫模型对全训练样本进行训练得到各模式类的模型,综合分析不同训练样本数据对训练的影响,提划分出负样本集和正样本集,从隐马尔科夫模型的统计特性的角度来说,在统计模式识别中所采用的训练机制,与数据分布有极大的关系,如果某种模式类别的数据量越多,它在训练出的模型中所起的作用就越大;训练样本中,好样本的存在,可以使得训练出的模式类区域更加紧凑,不同模式类区域间隔更大,但好样本数目太多,容易使得训练出的模式类区域过于狭小,从而增加了边界样本和差样本的误识风险;训练样本中,差样本的存在可能使得训练出的模式类区域尽可能地大,同时也使得不同模式类区域之间容易产生重叠,增大了分类误差;而用边界样本进行训练,则可使训练出的类区域尽量大,而相邻类区域尽量没有重叠,此时分类性能最佳,换句话说,就是边界样本标记了模式类区域的边界,使得图像分割识别模型在识别实时的路面图像数据时对标线缺陷的分类更精准,为后续准确的恢复奠定基础。
传统的训练过程中,在确定训练样本时,通常是直接确定好样本和坏样本的比例和数量,而这会忽略了样本数据的分布问题,导致训练得到的模型在进行实时数据识别过程中比较粗糙,影响识别精度;本方案基于隐马尔科夫模型对全训练样本进行训练时,主要以边界样本集进行训练,而边界样本集的获取是基于相对概率值Px而非直接随机采集,在以边界样本集进行训练时,相对概率值Px的取值范围更小一些(最大的相对概率值Px值变小,最小的相对概率值Px值变大),即样本分布的更集中一些,其主要原因在于相对概率值Px特别大的正样本没有参与训练,因而它们的相对概率值Px减小,同时由于只采用边界样本训练,使得每个模式类的类区域扩大了,从而提高了负样本的相对概率值Px值,某些负样本的相对概率值Px值由负变正,进入到能够迅速被隐马尔科夫模型识别。
对于路面标线存的路面标线无损、路面标线断裂、路面标线由于井盖被迫截止,及获取路面图片的过程中有其他行驶车辆遮挡的情形,这里归类为路面标线完整模式类、路面标线动态缺失模式类和路面标线静态缺失模式类三种类型;对于路面标线动态缺失模式类主要包含路面标线被相对运动的车辆或其他物体所遮挡,在整个相对运动过程中会连续采集到多个图片样本,为了使样本更具有代表性,筛选出特征图像作为样本数据,这样就剔除了大量的无用数据。对于路面标线静态缺失模式类如路面标线被静止的物体遮盖,对于路面标线断裂或由于井盖等设施被迫中断的情形也等同于路面标线被静止的物体遮盖的情景;以此分类构建出的全训练样本的每个模式类包含了路面标线被遮盖多种情形的样本,丰富了全训练样本的类型。
T2,将路面真值数据进行二值化处理:在路面标线轮廓图像数据中,设置路面背景的像素值为0,路面标线的像素值为1,以数值形式表示出路面标线轮廓图像数据;
T3,用路面图像数据和二值化处理后的路面真值数据训练出图像分割识别模型;具体的T3包括以下子步骤:
T31,对路面图像数据进行初步特征提取得到特征层;路面图像输入到网络中后,先利用4×4×96Conv2D—LN对输入的路面图像进行初步的特征提取获得特征层,特征层的尺寸是原路面图像尺寸的1/4;其中4×4×96Conv2D表示卷积核为4×4×96的卷积层且使用的步长Strides为4,Layer Normalization表示层正则化。然后对初步提取的特征层输入高语义特征提取结构中进一步特征提取,高语义特征提取结构也是图像分类网络ConvNeXt的基础架构特征提取模块ConvNeXt Block的构架如图2所示。
T32,再将特征层进行高语义特征提取后下采样得到尺寸分别为N/4、N/8、N/16和N/32的特征信息图,N表示路面图像的尺寸;
高语义特征提取结构分为四部分来进行特征提取,其中包括三个特征提取结构ConvNeXt Block和三个下采样结构DownSample。
如图4所示,特征提取结构ConvNeXt Block用于对图像进行特征的多尺度提取,主要由依次为:卷积核为7×7DepthwiseConv2D的深度可分离卷积层、层正则化LayerNormalization
、卷积核为1×1的卷积层1×1Conv2D、非线性激活函数GELU、层正则化LayerNormalization、卷积核为1×1的卷积层1×1Conv2D、非线性激活函数GELU和随机失活层DropOut组成。而且,所有的卷积层内部使用的移动步长均为1;
其中下采样结构DownSample,特征提取结构ConvNeXt Block提取的特征进一步的下采样,获取更高层语义的特征;采样结构DownSample由层正则化和步长为2、卷积核大小为2×2的卷积层组成:其中第一个ConvNeXt Block使用的卷积核通道数dims=96,并且循环三次,然后进入第一个下采样结构,下采样的倍数是二倍,即现在得到的特征信息图的大小是原输入路面图像尺寸的1/4;第二个ConvNeXt Block使用的卷积核通道数dims=192,并且循环三次,然后再进入第二个下采样结构,下采样的倍数是二倍,即现在得到的特征信息图的大小是原输入路面图像尺寸的1/8;第三个ConvNeXt Block使用的卷积核通道数dims=384,并且循环九次,然后再进入第三个下采样结构,下采样的倍数是二倍,即现在得到的特征信息图的大小是原输入路面图像尺寸的1/16;第四个ConvNeXt Block使用的卷积核通道数dims=768,并且循环三次得到的特征信息图的大小是原输入路面图像尺寸的1/16;经过以上四个部分的特征提取,分别得到了原输入路面图像尺寸的1/4、1/8、1/16和1/32四种不同尺寸大小的特征信息图,用于解码器中多尺度特征信息的构建和局部细节目标的恢复。
T33,对尺寸为N/8和N/16的特征信息图分别进行卷积上采样得到两个尺寸为N/4的特征图,对尺寸为N/32的特征信息图进行空洞卷积多尺度融合得到一个尺寸为N/4的特征图像,将三个尺寸为N/4的特征图与尺寸为N/4的特征信息图进行特征拼接融合得到融合特征图像;
对于高语义特征提取结构提取的尺寸为N/32(原输入尺寸的1/32)的特征信息图执行DW-ASPP空洞卷积多尺度融合操作,如图3所示,W-ASPP空洞卷积多尺度融合结构有五个并行的分支:1×1深度可分离卷积层Depthwise Conv2D、膨胀率Rate=6的深度可分离卷积层3×3Depthwise Conv2D、膨胀率Rate=12的深度可分离卷积层3×3Depthwise Conv2D、膨胀率Rate=18的深度可分离卷积层3×3Depthwise Conv2D和平均池化层AveragePooling组成,其中卷积层内部所使用的卷积步长均为1;这五个并行的分支分别对尺寸为N/32的特征信息图进行特征融合提取,进一步的获取多尺度的空间特征信息,然后将进一步细化的空间特征信息通过步长为8、卷积核大小为3×3Conv2DTranspose的转置卷积上采样8倍,得到N/4大小的特征图,为路面标线信息的恢复提供底层丰富的语义信息。
对于高语义特征提取结构提取的尺寸为N/16的特征信息图,通过卷积核大小为3×3Conv2DTranspose的卷积层以及步长Strides=4、卷积核大小为3×3的转置卷积上采样4倍,得到N/4大小的特征图。
对于高语义特征提取结构提取的尺寸为N/8的特征信息图,通过卷积核大小为3×3Conv2DTranspose的卷积层以及步长Strides=2、卷积核大小为3×3的转置卷积上采样2倍,得到N/4大小的特征图。
将以上三步获取到的3个不同的N/4特征图和第一个ConvNeXt Block提取的尺寸为N/4的特征信息图进行特征拼接融合Concatenate,得到最后高语义特征和多尺度特征信息的融合特征图像,然后对融合特征图像进行语义分割。
T34,基于融合特征图像和注意力机制构建全局信息并恢复边缘细节信息得到图像分割识别模型,
多尺度特征融合机制结构的融合结果需要进行进一步的特征信息的分析后输出最后的分割结果,因此由结构3×3×256Conv2D—Up Sample—ECA Attention—1×1×1Conv2D—Dice Loss来完成,其中3×3×256Conv2D表示卷积核为3×3×256的卷积层,步长为1;Up Sample代表利用双线性插值上采样,上采样的倍数为4倍,将其还原到原输入尺寸大小;ECA Attention是让网络更加关注目标物体的注意力机制,用于完成最后全局信息的构建以及边缘细节信息的恢复,如图5所示,具体包括以下子步骤:
T341,将特融合特征图像上采样还原到原输入路面图像尺寸大小后,进行全局平均池化和一维卷积层操作得到一个一维的目标向量;(图5中256x512x256全局平均池化和一维卷积层操作得到目标向量1x256)
T342,对目标向量使用Sigmoid激活函数,使目标向量中的每个元素都是一个(0,1)之间的一个权重值;
T343,把目标向量中的权重值与特征图像相乘使特征图中每一像素都对应一个权重值;
T344,基于二值化处理后的路面真值数据不断的反向传播训练网络直到获得最优权重矩阵,基于最优权重矩阵得到图像分割识别模型。
在网络不断的反向传播训练中,非目标像素的权重就会逐渐变小,而目标物体像素的权重就会逐渐增加,直到达到一个最优的权重矩阵。1×1×1Conv2D表示卷积核为1×1×1的卷积层,步长为1,这一步的操作便可获取到了最终的语义分割结果。Dice Loss是用于监测网络识别的结果和路面真值图像之间重合度的损失函数,损失函数的值越小,代表网络识别的结果和路面真值图像越接近。
本发明方案重新添加设计了多尺度特征融合机制结构和结果推理模块,在原来ConvNeXt的基础结构的基础上,本发明结合现有的深度卷积神经网络存在的一些缺点和不足,重新设计添加了多尺度特征融合机制结构和结果推理模块;在多尺度特征融合机制结构中,利用了空洞卷积层和多尺度融合思想对目标细节进行重新恢复和构建,弥补了目前许多卷积神经网络算法由于多尺度信息不丰富所造成的局部细节信息缺失;在结果推理模块中,利用了ECA注意力机制对融合的多尺度特征层的像素进行一一的权重分配,并在不断的优化训练中,找到最佳的权重矩阵,获得最优的分割结果ECA注意力机制的加入弥补了现有的一些卷积神经网络算法由于图像噪声的存在所造成的目标定位不准确。
由上述方法得到的图像分割识别模型最后的分割效果具有很好的鲁棒性,对于路面标线磨损的地方、标线上出现的轮胎印以及标线开裂的地方,都可以很好的进行标线全局信息的重建。对于路面上出现和路面标线颜色相近的路面噪声,该图像分割识别模型也可以很好的降低噪声的干扰,减少了预测像素值的误判,恢复了更多的局部细节信息。对于标线附近出现的井盖干扰物,通过将全训练样本输入隐马尔科夫模型进行训练得到各模式类的模型来获取图像分割识别模型,很好的排除了干扰项,该图像分割识别模型在路面标线的特征和形状上学习到了更多的细节,并在恢复边缘信息上有一定的优势。
实施例2
本实施例提供基于多尺度机制和注意力机制的路面标线识别系统,用于实现上一实施例所述的方法,包括采集模块、识别模块和模型构建模块;
所述采集模块用于扫描待识别路段实时采集路面图像数据;
所述识别模块用于对路面图像数据进行预处理后输入已构建好的图像分割识别模型中进行分割识别得到路面图像数据的识别结果;
模型构建模块用于以卷积网络ConvNeXt为基线,在提取图像特征信息的最后阶段融入多尺度机制,并在恢复图像特征信息的最后阶段添加注意力机制构建出图像分割识别模型。
实施例3
本实施例基于传统的PSPNet算法模型、FCN-8S算法模型、HRNet-OCR算法模型、U-net算法模型及上述实施例的图像分割识别模型进行对1000张实测的路面图像数据进行测试,各个算法网络的指标表现如下表:
其中指标采用了目前智能算法领域最具代表性的四个指标,即召回率、精确率、F1-Score分数和交并比IOU,其得分数值越大,说明算法模型的泛化能力和性能越优。值得一提的是,F1-Score指标是Recall和Precision的调和平均数:
F1-Score=2*Recall*Precision/(Recall+Precision));
可以更加综合的反应算法网络的性能优异。从上表可以看出,和目前主流的网络模型:PSPNet、FCN-8S、HRNet-OCR、U-net相比,本发明提出的图像分割识别模型在标线的识别上具有明显的优势。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.基于多尺度机制和注意力机制的路面标线识别方法,其特征在于,包括:
扫描待识别路段实时采集路面图像数据;
对路面图像数据进行预处理后输入已构建好的图像分割识别模型中进行分割识别得到路面图像数据的识别结果;
所述预处理包括过程:
根据下式对路面图像进行归一化处理:
其中i,j分别代表路面图像的行号和列号,C(i, j)代表原始路面面图像数据对应的像素值,I(i, j)代表归一化处理后的路面图像的像素值,I(i, j)属于(0,1);
图像分割识别模型的构建方法包括:
T1,获取路面图像数据训练样本集并构建路面真值数据;所述路面真值数据为根据路面图像数据绘制的路面标线轮廓图像数据;
步骤T1包括以下子步骤:
T11,获取历史路面图像数据构建全训练样本;所述全训练样本包括多个模式类,各模式类具有相同个数的样本;所述模式类包括:路面标线完整模式类、路面标线动态缺失模式类和路面标线静态缺失模式类;
T12,将全训练样本输入隐马尔科夫模型进行训练得到各模式类的模型;
全训练样本构建方法包括:
从历史路面图像数据中筛选出所有路面标线动态缺失的路面图像:动态过程j包含的路面图像j1,j2,...jn;j=1,2,...M;
基于各动态过程的路面图像获取3M个特征图像,所有的特征图像构成路面标线动态缺失模式类的N个样本;
从历史路面图像数据中随机筛选出N个路面标线完整模式类的样本,和N个路面标线静态缺失模式类的样本得到全训练样本;
特征图像的获取方法包括:
根据动态过程的路面图像计算出总遮盖面积和路面标线总面积,将总遮盖面积等效为一个长宽比为3:2的矩形遮盖物;
令矩形遮盖物遮盖路面标线获取第一特征图像、第二特征图像和第三特征图像;
所述第一特征图像为矩形遮盖物遮盖最大面积路面标线时的图像,所述第二特征图像和第三特征图像为矩形遮盖物遮盖路面标线面积为矩形遮盖物面积的1/3时的图像;
T13,用各模式类的模型对全训练样本进行识别,保存每个样本在每个模型下的概率
{Pi}={P0,P1,...Pi},其中P0>P1>...>Pi;i为模型的序号;
并基于概率{Pi}计算相对概率值Px:当n等于0时,Px=P0-P1;当n不等于0时,Px=n(Pn-P0);n表示任意一个路面标线完整模式类样本的概率;
T14,基于相对概率值Px划分出正样本集和负样本集后确定边界样本集;
T14包括以下过程:
判断各样本的相对概率值Px是否小于零,若是则当前样本划分至负样本集,否则划分为正样本集;
由全部正样本集和部分负样本集构成边界样本集;
T15,以边界样本集作为路面图像数据训练样本集用于构建路面真值数据;
T2,将路面真值数据进行二值化处理:在路面标线轮廓图像数据中,设置路面背景的像素值为0,路面标线的像素值为1,以数值形式表示出路面标线轮廓图像数据;
T3,用路面图像数据和二值化处理后的路面真值数据训练出图像分割识别模型;
T3包括以下子步骤:
T31,对路面图像数据进行初步特征提取得到特征层;
T32,再将特征层进行高语义特征提取后下采样得到尺寸分别为N/4、N/8、N/16和N/32的特征信息图,N表示路面图像数据的尺寸;
T33,对尺寸为N/4、N/8和N/16的特征信息图进行上采样得到三个尺寸为N/4的特征图像,对尺寸为N/32的特征信息图进行空洞卷积多尺度融合得到一个尺寸为N/4的特征图像;
T34,基于特征图像和注意力机制构建全局信息并恢复边缘细节信息得到图像分割识别模型;
T34包括以下子步骤:
T341,将特征图像进行全局平均池化和一维卷积层操作得到一个一维的目标向量;
T342,对目标向量使用Sigmoid激活函数,使目标向量中的每个元素都是一个(0,1)之间的一个权重值;
T343,把目标向量中的权重值与特征图像相乘使特征图中每一像素都对应一个权重值;
T344,基于二值化处理后的路面真值数据不断的反向传播训练网络直到获得最优权重矩阵,基于最优权重矩阵得到图像分割识别模型;
所述图像分割识别模型以卷积网络ConvNeXt为基线,在提取图像特征信息的最后阶段融入多尺度机制,并在恢复图像特征信息的最后阶段添加注意力机制。
2.基于多尺度机制和注意力机制的路面标线识别系统,用于实现权利要求1所述的方法,其特征在于,包括采集模块、识别模块和模型构建模块;
所述采集模块用于扫描待识别路段实时采集路面图像数据;
所述识别模块用于对路面图像数据进行预处理后输入已构建好的图像分割识别模型中进行分割识别得到路面图像数据的识别结果;
模型构建模块用于以卷积网络ConvNeXt为基线,在提取图像特征信息的最后阶段融入多尺度机制,并在恢复图像特征信息的最后阶段添加注意力机制构建出图像分割识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211524047.9A CN115546768B (zh) | 2022-12-01 | 2022-12-01 | 基于多尺度机制和注意力机制的路面标线识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211524047.9A CN115546768B (zh) | 2022-12-01 | 2022-12-01 | 基于多尺度机制和注意力机制的路面标线识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115546768A CN115546768A (zh) | 2022-12-30 |
CN115546768B true CN115546768B (zh) | 2023-04-07 |
Family
ID=84721782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211524047.9A Active CN115546768B (zh) | 2022-12-01 | 2022-12-01 | 基于多尺度机制和注意力机制的路面标线识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546768B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115841600B (zh) * | 2023-02-23 | 2023-05-16 | 山东金诺种业有限公司 | 基于深度学习的甘薯外观品质分类方法 |
CN116071725B (zh) * | 2023-03-06 | 2023-08-08 | 四川蜀道新能源科技发展有限公司 | 一种路面标线识别方法及系统 |
CN116052110B (zh) * | 2023-03-28 | 2023-06-13 | 四川公路桥梁建设集团有限公司 | 一种路面标线缺损智能定位方法及系统 |
CN116310764B (zh) * | 2023-05-18 | 2023-07-21 | 西南交通大学 | 一种路面井盖智能检测方法及系统 |
CN116758508B (zh) * | 2023-08-18 | 2024-01-12 | 四川蜀道新能源科技发展有限公司 | 基于像素差异扩大处理的路面标线检测方法、系统及终端 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021135254A1 (zh) * | 2019-12-31 | 2021-07-08 | 深圳云天励飞技术股份有限公司 | 车牌号码识别方法、装置、电子设备及存储介质 |
CN115311637A (zh) * | 2022-08-10 | 2022-11-08 | 上海同陆云交通科技有限公司 | 一种路面污损及标线磨损检测方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102001763B1 (ko) * | 2018-01-02 | 2019-07-18 | 창원대학교 산학협력단 | 영상처리 기반의 속도표지판 인식 방법 및 장치 |
US10726279B1 (en) * | 2019-01-31 | 2020-07-28 | StradVision, Inc. | Method and device for attention-driven resource allocation by using AVM and reinforcement learning to thereby achieve safety of autonomous driving |
KR20220075428A (ko) * | 2019-11-20 | 2022-06-08 | 엔비디아 코포레이션 | 신경망을 이용한 멀티-스케일 피처들의 식별 |
CN112070054B (zh) * | 2020-09-17 | 2022-07-29 | 福州大学 | 基于图结构与注意力机制的车载激光点云标线分类方法 |
CN112215819B (zh) * | 2020-10-13 | 2023-06-30 | 中国民航大学 | 基于深度特征融合的机场道面裂缝检测方法 |
CN113780187A (zh) * | 2021-09-13 | 2021-12-10 | 南京邮电大学 | 交通标志识别模型训练方法、交通标志识别方法和装置 |
CN114495060B (zh) * | 2022-01-25 | 2024-03-26 | 青岛海信网络科技股份有限公司 | 一种道路交通标线识别方法及装置 |
CN115376094B (zh) * | 2022-10-27 | 2023-02-03 | 山东聚祥机械股份有限公司 | 基于尺度感知神经网络的无人清扫车路面识别方法及系统 |
-
2022
- 2022-12-01 CN CN202211524047.9A patent/CN115546768B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021135254A1 (zh) * | 2019-12-31 | 2021-07-08 | 深圳云天励飞技术股份有限公司 | 车牌号码识别方法、装置、电子设备及存储介质 |
CN115311637A (zh) * | 2022-08-10 | 2022-11-08 | 上海同陆云交通科技有限公司 | 一种路面污损及标线磨损检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115546768A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115546768B (zh) | 基于多尺度机制和注意力机制的路面标线识别方法及系统 | |
CN111598030B (zh) | 一种航拍图像中车辆检测和分割的方法及系统 | |
CN109902600B (zh) | 一种道路区域检测方法 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN110084817B (zh) | 基于深度学习的数字高程模型生产方法 | |
CN114627052A (zh) | 一种基于深度学习的红外图像漏气漏液检测方法及系统 | |
CN112465759A (zh) | 一种基于卷积神经网络的航空发动机叶片缺陷检测方法 | |
CN110956207B (zh) | 一种光学遥感影像全要素变化检测方法 | |
CN113569724B (zh) | 基于注意力机制和扩张卷积的道路提取方法及系统 | |
CN114266794B (zh) | 基于全卷积神经网络的病理切片图像癌症区域分割系统 | |
CN111524117A (zh) | 一种基于特征金字塔网络的隧道表面缺陷检测方法 | |
CN112308826A (zh) | 一种基于卷积神经网络的桥梁结构表面缺陷检测方法 | |
CN114897738A (zh) | 一种基于语义不一致性检测的图像盲修复方法 | |
CN112396039A (zh) | 一种基于邻域关系的火星栅格地形地图生成方法 | |
CN115100652A (zh) | 基于高分遥感图像的电子地图自动化生成方法 | |
EP4174792A1 (en) | Method for scene understanding and semantic analysis of objects | |
CN114943902A (zh) | 基于多尺度特征感知网络的城市植被无人机遥感分类方法 | |
CN112785610B (zh) | 一种融合低层特征的车道线语义分割方法 | |
CN113989287A (zh) | 城市道路遥感图像分割方法、装置、电子设备和存储介质 | |
CN116052110B (zh) | 一种路面标线缺损智能定位方法及系统 | |
CN112488996A (zh) | 非齐次三维食管癌能谱ct弱监督自动标注方法与系统 | |
CN113192018B (zh) | 基于快速分割卷积神经网络的水冷壁表面缺陷视频识别方法 | |
CN115690787A (zh) | 语义分割方法、图像处理设备以及计算机可读存储介质 | |
Ye et al. | FMAM-Net: Fusion Multi-Scale Attention Mechanism Network for Building Segmentation in Remote Sensing Images | |
CN116091911A (zh) | 一种地震勘探工区建筑物自动识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |