CN117690107B - 一种车道边线识别方法和装置 - Google Patents
一种车道边线识别方法和装置 Download PDFInfo
- Publication number
- CN117690107B CN117690107B CN202311742487.6A CN202311742487A CN117690107B CN 117690107 B CN117690107 B CN 117690107B CN 202311742487 A CN202311742487 A CN 202311742487A CN 117690107 B CN117690107 B CN 117690107B
- Authority
- CN
- China
- Prior art keywords
- feature map
- semantic
- model
- pidnet
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000004927 fusion Effects 0.000 claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 62
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000012795 verification Methods 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 230000010354 integration Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 96
- 238000010586 diagram Methods 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 47
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 11
- 238000003708 edge detection Methods 0.000 claims description 7
- 241000283070 Equus zebra Species 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 13
- 238000001514 detection method Methods 0.000 description 15
- 238000003860 storage Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及车辆技术领域,提供了一种车道边线识别方法和装置。所述方法包括:对图像数据进行多边形标注获取原始特征图,将原始特征图按照预设比例分配分别获取训练集、验证集和测试集;构建初始PIDNet模型;初始PIDNet模型中包括:多个CBL结构、积分分支、比例分支、微分分支、第一边缘融合模块、上采样模块和损失函数;使用训练集、验证集、测试集以及损失函数对所述初始PIDNet模型进行训练,得到训练完成的PIDNet模型,使用训练完成的PIDNet模型进行车道边线的识别。本发明使用多边形标注提高数据标注的精度,并在PIDNet模型通过设置多个分支,分别提取不同的特征信息,并最终对不同的特征信息进行处理,以减少模型训练和识别过程中的特征损失,提高车道边线识别的精度。
Description
技术领域
本发明涉及车辆技术领域,特别是涉及一种车道边线识别方法和装置。
背景技术
现有技术中的车道边线识别方法通常依赖于图像的亮度和颜色信息来检测车道线,当光照条件变化或者天气不佳时,如阴雨、雪天或夜晚,这些方法可能会失效或产生误检测;难以区分车道线与周围的杂乱背景和障碍物,这种困难可能导致误检测或漏检测,且道路上的车道线形状可能各异包括直线、曲线、虚线、实线、箭头标记等。总之传统方法通常难以应对这些多样性。
鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。
发明内容
本发明要解决的技术问题是现有技术中的车道边线识别方法依赖于图像的亮度和颜色信息,且难以应对背景的多样性。
本发明采用如下技术方案:
第一方面,本发明提供了一种车道边线识别方法,包括:
对图像数据进行多边形标注获取原始特征图,将所述原始特征图按照预设比例分配分别获取训练集、验证集和测试集;
构建初始PIDNet模型,所述初始PIDNet模型中包括:多个CBL结构、积分分支、比例分支、微分分支、第一边缘融合模块和上采样模块;
所述多个CBL结构用于对输入初始PIDNet模型的原始特征图进行下采样得到第一特征图;
所述积分分支用于对第一特征图进行语义特征提取,得到语义特征图;其中,所述语义特征图包括第一语义特征图、第二语义特征图和第三语义特征图;
所述比例分支用于结合所述第一语义特征图和所述第二语义特征图,对第一特征图进行细节特征提取,得到细节特征图;
所述微分分支用于结合所述第一语义特征图和所述第二语义特征图,对第一特征图进行边界特征提取,得到边界特征图;其中,所述边界特征图通过对第一特征图、所述第一语义特征图和所述第二语义特征图进行边缘注意力引导融合得到;
所述第一边缘融合模块用于对所述第三语义特征图、所述细节特征图和所述边界特征图进行边缘注意力引导融合,得到特征图Stage4;
所述上采样模块用于对所述特征图Stage4进行上采样得到原始特征图的预测结果;
使用所述训练集、验证集、测试集以及损失函数对所述初始PIDNet模型进行训练,得到训练完成的PIDNet模型,使用所述训练完成的PIDNet模型进行车道边线的识别。
优选的,所述微分分支包括第二边缘融合模块、第三边缘融合模块和Sigmoid函数;
所述第二边缘融合模块用于对第一特征图和第一语义特征图进行边缘注意力引导融合得到特征图Stage2_D;
所述第三边缘融合模块用于对所述特征图Stage2_D和第二语义特征图进行边缘注意力引导融合得到特征图Stage3_D;
使所述特征图Stage3_D经过所述Sigmoid函数,得到所述边界特征图。
优选的,所述第二边缘融合模块用于对第一特征图和第一语义特征图进行边缘注意力引导融合得到特征图Stage2_D,具体包括:
使第一特征图依次经过一个基础残差块和一个Relu函数,得到特征图Stage2_D_1;
使第一语义特征图经过一个卷积层和上采样层,得到特征图Stage2_D_2;
将特征图Stage2_D_1与特征图Stage2_D_2相叠加,得到所述特征图Stage2_D。
优选的,所述比例分支包括第一像素融合模块、第二像素融合模块和第三残差处理模块;
所述第一像素融合模块用于对第一特征图和第一语义特征图进行像素注意力引导融合得到特征图Stage2_P;其中,在计算得到参数热力系数特征图σ后,使用全白热力系数图减去所述参数特力系数特征图σ得到参数热力系数特征图β,使用所述参数热力系数特征图σ、参数热力系数特征图β对所述第一语义特征图和经残差处理后的第一特征图进行联立,得到所述特征图Stage2_P;
所述第二像素融合模块用于对特征图Stage2_P和第二语义特征图进行像素注意力引导融合得到特征图Stage3_P;
所述第三残差处理模块用于使特征图Stage3_P经过一个基础残差块和一个Relu函数,得到所述细节特征图。
优选的,所述损失函数包括四个子损失函数的加权求和;其中,所述四个子损失函数分别为第一子损失函数、第二子损失函数、第三子损失函数和第四子损失函数;
所述第一子损失函数用于代表特征图Stage2_P与原始特征图之间在标签语义上的损失值;
所述第二子损失函数代表特征图Stage4与原始特征图之间的加权二叉交叉熵损失值;
所述第三子损失函数代表特征图Stage3_D与原始特征图之间的交叉熵损失值;
所述第四子损失函数代表特征图Stage4经过边缘检测和膨胀操作后生成的第一轮廓图,与原始特征图经过边缘检测和膨胀操作后生成的第二轮廓图之间的交叉熵损失值。
优选的,所述第一子损失函数为
所述第二子损失函数为
所述第三子损失函数为
所述第四子损失函数为其中,ytrue代表原始特征图的标签的语义值,ystage2_p代表特征图Stage2_P,ystage3_d代表特征图Stage3_D,ystage4代表特征图Stage4,ytrue_boundary代表ytrue中所有目标之间的边界语义值,ystage4_boundary代表通过ystage4推理出来的所有目标之间的边界语义值。
优选的,所述积分分支包括第一残差处理模块、第二残差处理模块、瓶颈残差块和金字塔池化模块;
所述第一残差处理模块用于对第一特征图进行残差处理,得到第一语义特征图;
所述第二残差处理模块用于对所述第一语义特征图进行残差处理,得到第二语义特征图;
所述瓶颈残差块用于对所述第二语义特征图进行瓶颈残差处理,得到多个中间特征图;
所述金字塔池化模块用于对所述多个中间特征图进行聚合,得到第三语义特征图。
优选的,所述第一残差处理模块用于对第一特征图进行残差处理,得到第一语义特征图,具体包括:
使所述第一特征图依次经过一个基础残差块和一个Relu函数,得到所述第一语义特征图。
优选的,所述图像数据从交叉口、斑马线、停车场、隧道、桥梁、施工区域、停车区域、掉头区域和多车道道路中的一个或多个类型的位置采集得到。
第二方面,本发明还提供了一种车道边线识别装置,用于实现第一方面所述的车道边线识别方法,所述装置包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,用于执行第一方面所述的车道边线识别方法。
第三方面,本发明还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,用于完成第一方面所述的车道边线识别方法。
本发明使用多边形标注得到训练集和验证集,从而通过提高数据标注的精度提高PIDNet模型的训练效果,进而提高模型对车道线检测的精度,并在PIDNet模型通过设置多个分支,分别提取不同的特征信息,并最终对不同的特征信息进行处理,从而减少模型训练和识别过程中的特征损失,提高车道边线识别的精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种车道边线识别方法的流程示意图;
图2是本发明实施例提供的一种车道边线识别方法中初始PIDNet模型的示意图;
图3是本发明实施例提供的另一种车道边线识别方法中初始PIDNet模型的示意图;
图4是本发明实施例提供的再一种车道边线识别方法中初始PIDNet模型的示意图;
图5是本发明实施例提供的另一种车道边线识别方法的流程示意图;
图6是本发明实施例提供的再一种车道边线识别方法的流程示意图;
图7是本发明实施例提供的一种车道边线识别装置的架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明中术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1:
现有技术中的车道边线识别方法依赖于图像的亮度和颜色信息,且难以应对背景的多样性,为了解决此问题,本发明实施例1提供了一种车道边线识别方法,包括构建深度学习模型,如图1所示,方法包括:
在步骤201中,对图像数据进行多边形标注获取原始特征图,将所述原始特征图按照预设比例分配分别获取训练集、验证集和测试集;在优选的实施方式中,所述图像数据从交叉口、斑马线、停车场、隧道、桥梁、施工区域、停车区域、掉头区域和多车道道路中的一个或多个类型的位置采集得到。
在步骤202中,构建初始PIDNet模型。所述预设比例由本领域技术人员根据PIDNet模型的训练需求分析得到。在可选的实施方式中,所述预设比例可以是85:10:5,即85%分配给训练集,10%分配给验证集,5%分配给测试集。
在步骤203中,使用所述训练集、验证集、测试集以及预设的损失函数对所述初始PIDNet模型进行训练,得到训练完成的PIDNet模型,使用所述训练完成的PIDNet模型进行车道边线的识别。
由于现有的标注方法中关键点标注的具体做法为等纵轴法,即在前视图上,对每条车道线都是用一个点序去描述,且这串点序中相邻两个点的之间的纵坐标之差的绝对值都是设定好的。但对于每个点而言,不可能每次都在轮廓交接处(特征明显不确定),且对于非标准(如断裂、混色等)的车道线两点间的连线可能就没画在车道线上(数据整体准确性低,尤其是在前视图)。
而本实施例使用多边形标注得到训练集和验证集,其原理是将车道线当作一个个独立的目标,沿着它的边缘去标注,根据图像的实际成像质量去确定实际的多边形顶点的数量,且对于断块的车道线可以灵活的将该车道线分成若干子目标继续标注,从而通过提高数据标注的精度提高PIDNet模型的训练效果,进而提高模型对车道线检测的精度。且在优选的实施方式中,本实施例还通过采集多种类型位置的图像数据,从而尽可能的引入多种特殊道路情况,使训练完成的PIDNet模型能够应对多样化的背景。且本实施例通过使用深度学习模型,即上述的PIDNet模型进行车道边线识别,从而可以适应不同光照条件、天气、道路类型和车道线形状,使其在各种场景下表现更为鲁棒,并具有更强的泛化性能,以降低对于图像亮度和颜色信息的依赖,最终实现提高车道线检测精度的效果。
其中,所述PIDNet模型包括多个CBL结构、积分分支、比例分支、微分分支、第一边缘融合模块和上采样模块;其中,按照初始PIDNet模型的数据流向,所述初始PIDNet模型被划分为五个阶段,包括第一阶段、第二阶段、第三阶段、第四阶段和第五阶段;所述多个CBL结构划分至第一阶段,积分分支、比例分支和微分分支均涵盖第二阶段、第三阶段和第四阶段,并将第一边缘融合模块划分至第四阶段,所述上采样模块划分至第五阶段,如图2所示。
所述多个CBL结构用于对输入初始PIDNet模型的原始特征图进行下采样得到第一特征图。在实际使用中,所述多个CBL结构为3个CBL结构。
所述积分分支(在图4中表现为I分支)用于对第一特征图进行语义特征提取,得到语义特征图;其中,所述语义特征图包括第一语义特征图、第二语义特征图和第三语义特征图。
所述比例分支(在图4中表现为P分支)用于结合所述第一语义特征图和所述第二语义特征图,对第一特征图进行细节特征提取,得到细节特征图。
所述微分分支(在图4中表现为D分支)用于结合所述第一语义特征图和所述第二语义特征图,对第一特征图进行边界特征提取,得到边界特征图;其中,所述边界特征图通过对第一特征图、所述第一语义特征图和所述第二语义特征图进行边缘注意力引导融合得到。
所述第一边缘融合模块用于对所述第三语义特征图、所述细节特征图和所述边界特征图进行边缘注意力引导融合,得到特征图Stage4。
所述上采样模块用于对所述特征图Stage4进行上采样得到原始特征图的预测结果。
其中,所述输入初始PIDNet模型的原始特征图来自于训练集、验证集或测试集。使用训练完成的PIDNet模型进行车道边线的识别过程与初始PIDNet模型得到原始特征图的预测结果的过程基于同一构思实现,其不同点在于,在使用训练完成的PIDNet模型进行车道边线的识别时,输入至训练完成的PIDNet模型的原始特征图来自于实时采集的车辆所在环境的环境图像。
所述语义特征图中包含原始特征图中的语义信息(也叫上下文信息),所述细节特征图中包含原始特征图中的细节信息,所述边界特征图中包含原始特征图中的边界信息(也叫高频信息)。
本实施例通过设置多个分支,分别提取不同的特征信息,并最终对不同的特征信息进行处理,从而减少模型训练和识别过程中的特征损失,提高车道边线识别的精度。
其中,所述边缘融合模块在实际使用中也被本领域技术人员称作边缘注意力引导融合模块(简称为:Bag模块),在实际使用中,如图3所示,所述微分分支包括第二边缘融合模块、第三边缘融合模块和Sigmoid函数;其中,所述第二边缘模块划分至第二阶段,所述第三边缘融合模块划分至第三阶段,所述Sigmoid函数划分至第四阶段。
所述第二边缘融合模块用于对第一特征图和第一语义特征图进行边缘注意力引导融合得到特征图Stage2_D;所述第三边缘融合模块用于对所述特征图Stage2_D和第二语义特征图进行边缘注意力引导融合得到特征图Stage3_D;使所述特征图Stage3_D经过所述Sigmoid函数,得到所述边界特征图。
在实际使用中,在第四阶段的Sigmoid函数的输入端,还连接有基础残差块和Relu函数,以对Stage3_D进行残差处理后再输入给所述Sigmoid函数。其中,如图4所示,所述第二边缘融合模块用于对第一特征图和第一语义特征图进行边缘注意力引导融合得到特征图Stage2_D,具体包括:
使第一特征图依次经过一个基础残差块(在附图中表现为BasicBlock)和一个Relu函数,得到特征图Stage2_D_1;使第一语义特征图经过一个卷积层和上采样层,得到特征图Stage2_D_2;将特征图Stage2_D_1与特征图Stage2_D_2相叠加,得到所述特征图Stage2_D。所述第三边缘融合模块与第二边缘融合模块的实现基于同一构思实现。
由于积分分支在语义上是准确的,但它失去了太多的空间和几何细节,特别是对于边界区域和小对象。相应地,微分分支能更好地保留空间细节,故而本实施例通过在微分分支中添加第二边缘融合模块和第三边缘融合模块,迫使模型沿着边界区域更多地信任微分分支,并利用上下文特征(即语义特征)来填充其他区域,从而提高模型的准确度。
在可选的实施方式中,如图3所示,所述积分分支包括第一残差处理模块、第二残差处理模块,瓶颈残差块和金字塔池化模块;其中,所述第一残差处理模块划分至第二阶段,所述第二残差处理模块划分至第三阶段,所述瓶颈残差块和金字塔池化模块划分至第四阶段。
所述第一残差处理模块用于对第一特征图进行残差处理,得到第一语义特征图;所述第二残差处理模块用于对所述第一语义特征图进行残差处理,得到第二语义特征图。
所述瓶颈残差块(在图4中表现为:BottleneckBlock)用于对所述第二语义特征图进行瓶颈残差处理,得到多个中间特征图;在可选的实施方式中,所述中间特征图的数量为4个。
所述金字塔池化模块用于对所述多个中间特征图进行聚合,得到第三语义特征图,具体的:对于BottleneckBlock产生的中间特征图,分别进行1/2、1/4、1/8、1/(n/8)的平均池化,接着分别进行2、4、8、n/8的双线性插值上采样还原,使用上采样所得结果分别与各中间特征图相叠加,再分别经过一个卷积核大小为[3,3]的卷积层,再然后将它们叠加在一起并经过一个卷积核大小为[1,1]的卷积层,最后将这个卷积层的输出与各中间特征图叠加生成所述第三语义特征图。
其中,如图4所示,所述第一残差处理模块用于对第一特征图进行残差处理,得到第一语义特征图,具体包括:使所述第一特征图依次经过一个基础残差块和一个Relu函数,得到所述第一语义特征图。所述第二残差处理模块基于与第一残差处理模块同一构思实现。
本实施例通过引入残差块,从而有助于解决梯度消失和梯度爆炸问题,使得网络更容易训练,即使网络非常深,也能够更有效地传播梯度,避免在反向传播过程中出现梯度过小的情况,这使得训练更深的神经网络成为可能,从而提高了网络的性能。
在可选的实施方式中,如图3所示,所述比例分支包括第一像素融合模块、第二像素融合模块和第三残差处理模块;像素融合模块在实际使用中也被本领域技术人员称作像素注意力引导融合模块(简称为:Pag模块);其中,所述第一像素融合模块划分至第二阶段,所述第二像素融合模块划分至第三阶段,所述第三残差处理模块划分至第四阶段。
所述第一像素融合模块用于对第一特征图和第一语义特征图进行像素注意力引导融合得到特征图Stage2_P;其中,在计算得到参数热力系数特征图σ后,使用全白热力系数图减去所述参数特力系数特征图σ得到参数热力系数特征图β,使用所述参数热力系数特征图σ、参数热力系数特征图β对所述第一语义特征图和经残差处理后的第一特征图进行联立,得到所述特征图Stage2_P。
其中,所述计算得到参数热力系数特征图σ,具体包括:同时进行双线操作,在第一条线中将第一特征图经过一个Relu函数、一个卷积核大小为[1,1]的卷积层和一个双线性插值的上采样层,在第二条线中,将Stage2_P_I经过一个卷积核大小为[1,1]的卷积层,以进行批标准化得到Stage2_P_I,将Stage2_P_I经过一个Relu函数、一个卷积核大小为[1,1]的卷积层,再将这两条线的输出相乘还原后经过Sigmoid函数,生成一张参数热力系数特征图σ。
所述残差处理为使第一特征图经过基础残差块和Relu函数。所述进行联立具体包括:使用参数热力系数特征图β乘以经残差处理后的第一特征图,加上使用参数热力系数特征图σ乘以第一语义特征图所得的输出,得到所述特征图Stage2_P。其中,参数热力系数特征图σ代表第一特征图本身的细节纹理质量,而参数热力系数特征图β代表Stage2_P_I与它的上下文关联程度。
所述第二像素融合模块用于对特征图Stage2_P和第二语义特征图进行像素注意力引导融合得到特征图Stage3_P;所述第三残差处理模块用于使特征图Stage3_P经过一个基础残差块和一个Relu函数,得到所述细节特征图。所述第二像素融合模块基于与第一像素融合模块同一构思实现。
本实施例通过计算得到参数热力系数特征图σ和参数热力系数特征图β,并通过使用参数热力系数特征图σ和参数热力系数特征图β对所述第一语义特征图和经残差处理后的第一特征图进行联立,从而达到“比例”的效果。
在可选的实施方式中,所述第一边缘融合模块用于对所述第三语义特征图、所述细节特征图和所述边界特征图进行边缘注意力引导融合,得到特征图Stage4,具体包括:将边界特征图通过Sigmoid函数生成一张参数热力系数特征图α,再用和α相同尺度的全白热力系数图(热力图中的所有值都相同且等于1)减去α生成另一张参数热力系数特征图ω;用ω乘上第三语义特征图再加细节特征图后经过个卷积核大小为[1,1]的卷积层、批标准化、Relu函数生成特征图Stage4_1,用α乘上细节特征图再加上第三语义特征图后经过个卷积核大小为[1,1]的卷积层、批标准化、Relu函数生成特征图Stage4_2,这样交替生成后最后将Stage4_1与Stage4_2相加生成第四阶段的最终输出特征图Stage4,具体的:
f(OUT41)=ω×f(I4)+f(P4)
f(OUT42)=f(I4)+α×f(P4)
f(OUT4)=f(OUT41)+f(OUT42)
其中,f(OUT41)代表Stage4_1,f(OUT42)代表Stage4_2,f(OUT4)代表第四阶段的整体输出,即特征图Stage4,f(I4)和f(P4)分别代表I和P分支的在该阶段的输入,即f(I4)为第三语义特征图,f(P4)为细节特征图,ω和α是如上述的两张对应的参数热力系数特征图。
初始PIDNet模型的前四阶段构成了骨干(推理)网络,将特征图Stage4经过第五阶段的上采样模块,以将特征图Stage4还原到原始特征图的尺寸即可完成推理得到模型的预测结果(即原始特征图的预测结果)。
本实施例通过将第三语义特征图、所述细节特征图和所述边界特征图相结合,通过使用Bag模块,迫使模型更加信任细节分支沿着边界区域,并利用上下文特征填充其他区域,减少模型在空间和几何细节的丢失,从而提高训练完成的PIDNet模型的准确率。
在优选的实施方式中,所述预设的损失函数包括四个子损失函数的加权求和,即由四个子损失函数加权求和得到所述损失函数的值;其中,所述四个子损失函数分别为第一子损失函数、第二子损失函数、第三子损失函数和第四子损失函数。
所述第一子损失函数用于代表比例分支的第二阶段输出与原始特征图之间在标签语义上的损失值。结合上述实施方式,所述比例分支的第二阶段输出为特征图Stage2_P。
所述第二子损失函数代表特征图Stage4(即初始PIDNet模型的第四阶段输出)与原始特征图之间的加权二叉交叉熵损失值。
所述第三子损失函数代表微分分支的第三阶段输出与原始特征图之间的交叉熵损失值。结合上述实施方式,所述微分分支的第三阶段输出为特征图Stage3_D。
所述第四子损失函数代表初始PIDNet模型的第四阶段输出经过边缘检测和膨胀操作后生成的第一轮廓图,与原始特征图经过边缘检测和膨胀操作后生成的第二轮廓图之间的交叉熵损失值。所述边缘检测可通过canny算子实现。
在具体实现过程中,所述第一子损失函数为
所述第二子损失函数为
所述第三子损失函数为
所述第四子损失函数为其中,ytrue代表原始特征图的标签的语义值,ystage2_p代表比例分支的第二阶段输出,即特征图Stage2_P,ystage3_d代表微分分支的第三阶段输出,即特征图Stage3_D,ystage4代表初始PIDNet模型的第四阶段输出,即特征图Stage4,ytrue_boundary代表ytrue中所有目标之间的边界语义值,ystage4_boundary代表通过ystage4推理出来的所有目标之间的边界语义值。
本实施例通过引出4个loss函数loss_sem_p、loss_sem_i、loss_bd、loss_sem_bd,以用于更好地优化整个网络,并增强Bag模块的功能,从而提高模型的训练精度。
在对初始PIDNet模型进行训练结束后,即可使用训练完成的PIDNet模型进行车道边线识别,其中,训练完成的PIDNet模型在进行车道边线识别时所进行的处理与训练过程基于同一构思,其不同点在于:训练过程所得的原始特征图的预测结果需用于模型的参数优化,而识别所得的原始特征图的预测结果即为车道边线识别结果。
在优选的实施例中,将验证集和训练集输入至初始PIDNet模型中并基于预设的学习策略进行初始PIDNet模型训练;将所有数据分为若干个批次,每个批次训练完毕后,进行分析优化参数,直至所有批次完成。最终将最后一个批次的模型的损失函数及其它指标达到预设值,输出模型及评价指标。
基于测试集对输出模型进行测试,若判断达到预设阈值,则输出最终的训练最优模型;读入测试集图像并对训模模型进行初步验证,这里主要着重于检测车道边线检测方法及车道边线,然后将模型的检测结果与测试集的标签作比较,统计出真实检测准确率并和预设准确率阈值进行比较,若未达标则调整数据集比例将训练集的占比增加并人工去除掉难识别的数据,若全部达标则输出最终的训练完毕模型。
预先对初始PIDNet模型进行训练,并将训练完成的PIDNet模型加载到车辆或识别装置上,以在后续过程中,使用车辆或识别装置进行车道边线的识别,具体包括:将训练完成的PIDNet模型的模型序列化成onnx文件,再经过trtexec生成推理库tensorrt的engine文件,最后利用tensorrt和opencv对加载输入进来的实时图像数据以及engine文件并传出结果,以供后续的汽车车道边线识别使用。
在此需要说明的是,在本实施例中,为了便于表述,一些特征图使用特征图加英文后缀的形式表现,如特征图Stage4、特征图Stage2_D和特征图Stage3_D等,其中,不同的英文后缀代指不同的特征图,另一些特征图使用文字进行表述,如原始特征图、第一语义特征图、第二语义特征图和第三语义特征图、细节特征图、边界特征图等,若未经特殊说明,上述英文后缀表现形式的特征图与文中的文字表现的特征图也不同,这两种不同的表现形式仅仅是为了便于表述而区分出的两种命名方式,而并非代指有其他特殊含义。
其中,英文后缀表现形式中Stage后接的第一个数字往往代表特征图的输出阶段,其中的P、D和I代指特征图的来源分支(即来自于积分分支(I)或来自于比例分支(P),又或来自于微分分支(D)),按照此命名方式,结合图2,则所述第一特征图也可表述为特征图Stage1,第一语义特征图也可表述为特征图Stage2_I,第二语义特征图也可表述为特征图Stage3_I,第三语义特征图也可表述为特征图Stage4_I,细节特征图也可表述为特征图Stage4_P,边界特征图也可表述为特征图Stage4_D。
实施例2:
本发明基于实施例1所描述的方法基础上,结合具体的应用场景,并借由相关场景下的技术表述来阐述本发明特性场景下的实现过程。
本实施例所提供的车道边线识别方法,如图5所示,具体包括:
在步骤301中,在Cityscapes数据集格式基础上,对自采的鸟瞰图制做数据集,以85:10:5(可替换)的比例,将所有图像数据划归到训练集、验证集与测试集中,并对训练集、验证集图像数据上的车道线和可行驶区域进行多边形(mask)标注,即将车道线当作一个个独立的目标,沿着它的边缘去标注,根据图像的实际成像质量去确定实际的多边形顶点的数量,且对于断块的车道线可以灵活的将该车道线分成若干子目标继续标注。
同时,训练数据尽可能的引入多种特殊道路情况,如交叉口、斑马线、停车场、隧道和桥梁、施工区域、停车和掉头区域、多车道道路等,通过对这些场景下显著的干扰特征进行识别,以尽量提高模型对车道线检测的精度。
在步骤302中,构建初始PIDNet模型。
在步骤303中,对初始PIDNet模型进行训练。
在步骤304中,使用训练完成的PIDNet模型进行车道线的识别,具体的:将上一步的模型序列化成onnx文件,再经过trtexec生成推理库tensorrt的engine文件,最后利用tensorrt和opencv对加载输入进来的实时图像数据以及engine文件并传出结果,以供后续的汽车规划控制使用。
其中,所述初始PIDNet模型如图4所示,所述对初始PIDNet模型进行训练,如图6所示,具体包括:
在步骤401中,数据准备,具体的:准备用于语义分割的训练数据集,包括标注了路可行驶区域及车道边线的图像和对应的关键点标签。
在步骤402中,模型选择,具体的:PIDNet拥有三个分支:比例(P)分支、积分(I)分支、微分(D)分支。
在步骤403中,数据预处理,具体的:对训练数据进行预处理,包括图像的缩放、裁剪、归一化等操作,以及关键点标签的处理,确保数据的适用性和一致性。
在步骤404中,模型构建,具体的:使用选定及优化的模型架构构建语义分割模型。
在步骤405中,模型训练,具体的:使用准备好的训练数据集对语义分割模型进行训练。训练过程中通常采用优化算法来最小化预测关键点与真实关键点之间的差距。
在步骤406中,模型优化,具体的:进行模型的优化和调整,包括超参数的选择、正则化操作的添加等,以提高模型的性能和泛化能力。
在步骤407中,模型测试与评估,具体的:用测试集进行测试,沿用语义分割常用指标mAcc、mIou进行评估。
所述步骤405具体包括:
将验证集和训练集输入至初始PIDNet模型中并基于预设的学习策略进行初始PIDNet模型训练;将所有数据分为若干个批次,每个批次训练完毕后,进行分析优化参数,直至所有批次完成。最终将最后一个批次的模型的损失函数及其它指标达到预设值,输出模型及评价指标。
本实施例对输入像素尺度为n*n的图片(记为Stage0)运用3个CBL结构(卷积+批标准化+激活函数)进行连续3次的下采样,生成相当于像素尺度为n/8*n/8的一阶段特征图(记为Stage1,即实施例1中的第一特征图);然后以这个一阶段特征图作为输入,设计了拆分展开的三个具有互补职责的分支。其中,比例(P)分支负责解析和保留高分辨率特征图中的细节信息,积分(I)分支负责聚合局部和全局的上下文信息以捕获远距离依赖,微分(D)分支负责提取高频特征以预测边界区域。
对于积分(I)分支,主要提供的丰富而准确的语义信息对于比例(P)和微分(D)分支的细节解析和边界检测至关重要,因此可将积分(I)分支视为其他两个分支的备份。它的做法是连续的下采样+最终的金字塔池化聚合模块。具体而言,该分支借鉴了经典的残差网络ResNet,对于该分支在第二阶段特征图(记为Stage2_I,即第一语义特征图)和第三阶段特征图(记为Stage3_I,即第二语义特征图)生成时,都引入了一个ResNet基础残差块BasicBlock+Relu函数的结构,最后在第四阶段引入了一个ResNet颈部块(即瓶颈残差块)BottleneckBlock+自行设计的并行聚合金字塔池化模块(简称为:PAPPM)(其中,BottleneckBlock的主要作用是允许加深网络层数,同时减小计算复杂度、提高网络性能和降低参数数量)。
PAPPM的设计原理是基于原始的金字塔池化模块PPM,对于BottleneckBlock产生的临时特征图(记为Stage4_I_temp),分别进行1/2、1/4、1/8、1/(n/8)的平均池化,接着分别进行2、4、8、n/8的双线性插值上采样还原,然后分别与Stage4_I_temp相叠加,再分别经过一个卷积核大小为[3,3]的卷积层,再然后将它们叠加在一起并经过一个卷积核大小为[1,1]的卷积层,最后将这个卷积层的输出与Stage4_I_temp叠加生成积分(I)分支在第四阶段的输出(记为Stage4_I,即第三语义特征图)。
对于比例(P)分支,它在第二阶段特征图(记为Stage2_P)和第三阶段特征图(记为Stage3_P)生成都是利用自行设计的Pag模块生成的,在第四阶段特征图(记为Stage4_P,即实施例1中的细节特征图),则直接去除掉了Pag模块,让比例(P)分支有选择地进行融合从I分支中学习有用的语义特性。Pag模块拥有两个输入,其中一个输入是上一阶段特征图经过一个基础残差块BasicBlock+Relu函数的结构产生的特征图(记为StageX_P_P,作用于该分支所有阶段,其中,X代表对应的阶段,如在第二阶段中为Stage2_P_P),其中,在第二阶段中,所述上一阶段特征图为第一特征图,另外一个输入是对应积分(I)分支阶段的特征图经过一个卷积核大小为[1,1]的卷积层经过批标准化后产生的特征图(记为StageX_P_I,作用于该分支第二、三阶段);在Pag模块中同时也进行双线操作,并行地将StageX_P_I经过一个Relu函数、一个卷积核大小为[1,1]的卷积层和一个双线性插值的上采样层,将StageX_P_P经过一个Relu函数、一个卷积核大小为[1,1]的卷积层,再将这两条线的输出相乘还原后经过Sigmoid函数,生成一张参数热力系数特征图(记为σ),再用和σ相同尺度的全白热力系数图(热力图中的所有值都相同且等于1)减去σ生成另一张参数热力系数特征图(记为β)。σ象征着StageX_P_P本身的细节纹理质量,而β象征着StageX_P_I与它的上下文关联程度。最终,联立这StageX_P_P和StageX_P_I,分别乘上σ和β,得到比例(P)分支在该阶段的输出。
对于微分(D)分支,它是为了获取高频信息以获取目标准确的边缘信息,它在第二阶段特征图(记为Stage2_D)和第三阶段特征图(记为Stage3_D)生成都是利用Bag模块生成的,即在上一阶段特征图经过一个基础残差块BasicBlock+Relu函数的结构产生的特征图(记为StageX_D_1),与对应积分(I)分支阶段的特征图经过一个卷积核大小为[3,3]的卷积层后再经过双线性插值模块(上采样)还原到Stage1大小上生成的特征图(记为StageX_D_2)相叠加,生成该阶段的特征图(记为StageX_D);它在第四阶段特征图(记为Stage4_D,即边界特征图)则直接将Stage3_D经过一个基础残差块BasicBlock+Relu函数的结构产生。
PIDNet网络的第四阶段则是将Stage4_P、Stage4_I、Stage4_D结合,这里设计了一个边缘注意力引导融合模块(Bag),迫使模型更加信任细节分支沿着边界区域,并利用上下文特征填充其他区域,减少模型在空间和几何细节的丢失。主要的做法是将Stage4_D通过Sigmoid函数生成一张参数热力系数特征图(记为α),再用和α相同尺度的全白热力系数图(热力图中的所有值都相同且等于1)减去α生成另一张参数热力系数特征图(记为ω);用ω乘上Stage4_I再加上Stage4_P后经过个卷积核大小为[1,1]的卷积层、批标准化、Relu函数生成特征图Stage4_1,用α乘上Stage4_P再加上Stage4_I后经过个卷积核大小为[1,1]的卷积层、批标准化、Relu函数生成特征图Stage4_2,这样交替生成后最后将Stage4_1与Stage4_2相加生成第四阶段的最终输出Stage4。
f(OUT41)=ω×f(I4)+f(P4)
f(OUT42)=f(I4)+α×f(P4)
f(OUT4)=f(OUT41)+f(OUT42)
其中,f(OUT41)代表Stage4_1,f(OUT42)代表Stage4_2,f(OUT4)代表该阶段的整体输出,f(I4)和f(P4)分别代表I和P分支的在该阶段的输入,ω和α是如之前所述的两张对应的参数热力系数特征图。
PIDNet网络的前四阶段构成了骨干(推理)网络,即第五个阶段包含了Stage4经过一个上采样将特征图还原到Stage0的尺寸即可完成推理就代表模型的预测结果,以及附加设计的损失函数。这里总共引出了4个loss函数loss_sem_p、loss_sem_i、loss_bd、loss_sem_bd。其中loss_sem_p代表Stage2_P与Stage0标签语义的损失值以更好地优化整个网络,loss_sem_i代表Stage4与Stage0的采用加权二叉交叉熵损失值,loss_bd表Stage3_D与Stage0的交叉熵损失值,loss_sem_bd代表Stage4与Stage0分别经过canny算子和膨胀操作后生成的两个轮廓图之间的交叉熵损失值以增强Bag模块的功能。
loss=k1×losssem_p+k2×losssem_i+k3×lossbd+k4×losssem_bd
其中,loss代表整体的损失函数值,k1、k2、k3、k4代表对应的训练损耗参数根据经验分别设置为0.4、1.0、20.0、1.0,losssem_p、losssem_i、lossbd、losssem_bd分别对应上述的4个损失值,ytrue代表真实(Stage0)标签(即原始特征图)的语义值,ystage2_p、ystage3_d、ystage4这三个上述描述对应的特征图,ytrue_boundary代表ytrue中所有目标之间的边界语义值,ystage4_boundary代表通过ystage4推理出来的所有目标之间的边界语义值。
在此需要说明的是,本实施例中相应标识中所对应的X均代表相应的阶段,X为正整数,且X大于等于2,X小于等于4。
再基于测试集对输出模型进行测试,若判断达到预设阈值,则输出最终的训练最优模型;具体的:读入测试集图像并对训模模型进行初步验证,这里主要着重于检测车道边线检测方法及车道边线,然后将模型的检测结果与测试集的标签作比较,统计出真实检测准确率并和预设准确率阈值进行比较,若未达标则调整数据集比例将训练集的占比增加并人工去除掉难识别的数据,若全部达标则输出最终的训练完成的PIDNet模型。
实施例3:
如图7所示,是本发明实施例的车道边线识别装置的架构示意图。本实施例的车道边线识别装置包括一个或多个处理器21以及存储器22。其中,图7中以一个处理器21为例。
处理器21和存储器22可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器22作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序和非易失性计算机可执行程序,如实施例1中的车道边线识别方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令,从而执行车道边线识别方法。
存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器22可选包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例1中的车道边线识别方法。
值得说明的是,上述装置和系统内的模块、单元之间的信息交互、执行过程等内容,由于与本发明的处理方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种车道边线识别方法,其特征在于,包括:
对图像数据进行多边形标注获取原始特征图,将所述原始特征图按照预设比例分配分别获取训练集、验证集和测试集;
构建初始PIDNet模型,所述初始PIDNet模型中包括:多个CBL结构、积分分支、比例分支、微分分支、第一边缘融合模块和上采样模块;
所述多个CBL结构用于对输入初始PIDNet模型的原始特征图进行下采样得到第一特征图;
所述积分分支用于对第一特征图进行语义特征提取,得到语义特征图;其中,所述语义特征图包括第一语义特征图、第二语义特征图和第三语义特征图;
所述比例分支用于结合所述第一语义特征图和所述第二语义特征图,对第一特征图进行细节特征提取,得到细节特征图;
所述微分分支用于结合所述第一语义特征图和所述第二语义特征图,对第一特征图进行边界特征提取,得到边界特征图;其中,所述边界特征图通过对第一特征图、所述第一语义特征图和所述第二语义特征图进行边缘注意力引导融合得到;
所述第一边缘融合模块用于对所述第三语义特征图、所述细节特征图和所述边界特征图进行边缘注意力引导融合,得到特征图Stage4;
所述上采样模块用于对所述特征图Stage4进行上采样得到原始特征图的预测结果;
使用所述训练集、验证集、测试集以及预设的损失函数对所述初始PIDNet模型进行训练,得到训练完成的PIDNet模型,使用所述训练完成的PIDNet模型进行车道边线的识别;
所述微分分支包括第二边缘融合模块、第三边缘融合模块和Sigmoid函数;
所述第二边缘融合模块用于对第一特征图和第一语义特征图进行边缘注意力引导融合得到特征图Stage2_D;
所述第三边缘融合模块用于对所述特征图Stage2_D和第二语义特征图进行边缘注意力引导融合得到特征图Stage3_D;
使所述特征图Stage3_D经过所述Sigmoid函数,得到所述边界特征图;
所述比例分支包括第一像素融合模块、第二像素融合模块和第三残差处理模块;
所述第一像素融合模块用于对第一特征图和第一语义特征图进行像素注意力引导融合得到特征图Stage2_P;其中,在计算得到参数热力系数特征图σ后,使用全白热力系数图减去所述参数热力系数特征图σ得到参数热力系数特征图β,使用所述参数热力系数特征图σ、参数热力系数特征图β对所述第一语义特征图和经残差处理后的第一特征图进行联立,得到所述特征图Stage2_P;
所述第二像素融合模块用于对特征图Stage2_P和第二语义特征图进行像素注意力引导融合得到特征图Stage3_P;
所述第三残差处理模块用于使特征图Stage3_P经过一个基础残差块和一个Relu函数,得到所述细节特征图;
所述预设的损失函数包括四个子损失函数的加权求和;其中,所述四个子损失函数分别为第一子损失函数、第二子损失函数、第三子损失函数和第四子损失函数;
所述第一子损失函数用于代表特征图Stage2_P与原始特征图之间在标签语义上的损失值;
所述第二子损失函数代表特征图Stage4与原始特征图之间的加权二元交叉熵损失值;
所述第三子损失函数代表特征图Stage3_D与原始特征图之间的交叉熵损失值;
所述第四子损失函数代表特征图Stage4经过边缘检测和膨胀操作后生成的第一轮廓图,与原始特征图经过边缘检测和膨胀操作后生成的第二轮廓图之间的交叉熵损失值。
2.根据权利要求1所述的车道边线识别方法,其特征在于,所述第二边缘融合模块用于对第一特征图和第一语义特征图进行边缘注意力引导融合得到特征图Stage2_D,具体包括:
使第一特征图依次经过一个基础残差块和一个Relu函数,得到特征图Stage2_D_1;
使第一语义特征图经过一个卷积层和上采样层,得到特征图Stage2_D_2;
将特征图Stage2_D_1与特征图Stage2_D_2相叠加,得到所述特征图Stage2_D。
3.根据权利要求1所述的车道边线识别方法,其特征在于,所述第一子损失函数为;
所述第二子损失函数为;
所述第三子损失函数为;
所述第四子损失函数为;其中,/>代表原始特征图的标签的语义值,/>代表特征图Stage2_P,/>代表特征图Stage3_D,/>代表特征图Stage4,/>代表/>中所有目标之间的边界语义值,代表通过/>推理出来的所有目标之间的边界语义值。
4.根据权利要求1所述的车道边线识别方法,其特征在于,所述积分分支包括第一残差处理模块、第二残差处理模块、瓶颈残差块和金字塔池化模块;
所述第一残差处理模块用于对第一特征图进行残差处理,得到第一语义特征图;
所述第二残差处理模块用于对所述第一语义特征图进行残差处理,得到第二语义特征图;
所述瓶颈残差块用于对所述第二语义特征图进行瓶颈残差处理,得到多个中间特征图;
所述金字塔池化模块用于对所述多个中间特征图进行聚合,得到第三语义特征图。
5.根据权利要求4所述的车道边线识别方法,其特征在于,所述第一残差处理模块用于对第一特征图进行残差处理,得到第一语义特征图,具体包括:
使所述第一特征图依次经过一个基础残差块和一个Relu函数,得到所述第一语义特征图。
6.根据权利要求1-5任一所述的车道边线识别方法,其特征在于,所述图像数据从交叉口、斑马线、停车场、隧道、桥梁、施工区域、停车区域、掉头区域和多车道道路中的一个或多个类型的位置采集得到。
7.一种车道边线识别装置,其特征在于,所述装置包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,用于执行权利要求1-6任一所述的车道边线识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311742487.6A CN117690107B (zh) | 2023-12-15 | 2023-12-15 | 一种车道边线识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311742487.6A CN117690107B (zh) | 2023-12-15 | 2023-12-15 | 一种车道边线识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117690107A CN117690107A (zh) | 2024-03-12 |
CN117690107B true CN117690107B (zh) | 2024-04-26 |
Family
ID=90126232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311742487.6A Active CN117690107B (zh) | 2023-12-15 | 2023-12-15 | 一种车道边线识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117690107B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118397403B (zh) * | 2024-07-01 | 2024-09-17 | 合肥市正茂科技有限公司 | 低照度车辆图像检测模型的训练方法、装置、设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105892471A (zh) * | 2016-07-01 | 2016-08-24 | 北京智行者科技有限公司 | 汽车自动驾驶方法和装置 |
JP2019131141A (ja) * | 2018-02-02 | 2019-08-08 | Kddi株式会社 | 車載制御装置 |
CN111462126A (zh) * | 2020-04-08 | 2020-07-28 | 武汉大学 | 一种基于边缘增强的语义图像分割方法及系统 |
CN114527646A (zh) * | 2021-12-18 | 2022-05-24 | 北京工业大学 | 面向城市固废焚烧过程的多回路准对角递归神经网络pid控制方法 |
CN114782949A (zh) * | 2022-04-29 | 2022-07-22 | 中南大学 | 一种边界引导上下文聚合的交通场景语义分割方法 |
CN115954089A (zh) * | 2022-12-24 | 2023-04-11 | 深圳市普兴医疗设备有限公司 | 一种基于图像识别算法的医疗影像分析和智能大健康管理系统 |
CN116229056A (zh) * | 2022-12-16 | 2023-06-06 | 长沙理工大学 | 基于双分支特征融合的语义分割方法、装置、设备 |
CN116335005A (zh) * | 2023-03-15 | 2023-06-27 | 长安大学 | 一种道路裂缝识别跟踪开槽机器人及其控制系统和方法 |
CN116453121A (zh) * | 2023-06-13 | 2023-07-18 | 合肥市正茂科技有限公司 | 一种车道线识别模型的训练方法及装置 |
CN116524460A (zh) * | 2023-03-23 | 2023-08-01 | 惠州华阳通用电子有限公司 | 一种基于并行架构的停车位检测方法及存储介质 |
-
2023
- 2023-12-15 CN CN202311742487.6A patent/CN117690107B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105892471A (zh) * | 2016-07-01 | 2016-08-24 | 北京智行者科技有限公司 | 汽车自动驾驶方法和装置 |
JP2019131141A (ja) * | 2018-02-02 | 2019-08-08 | Kddi株式会社 | 車載制御装置 |
CN111462126A (zh) * | 2020-04-08 | 2020-07-28 | 武汉大学 | 一种基于边缘增强的语义图像分割方法及系统 |
CN114527646A (zh) * | 2021-12-18 | 2022-05-24 | 北京工业大学 | 面向城市固废焚烧过程的多回路准对角递归神经网络pid控制方法 |
CN114782949A (zh) * | 2022-04-29 | 2022-07-22 | 中南大学 | 一种边界引导上下文聚合的交通场景语义分割方法 |
CN116229056A (zh) * | 2022-12-16 | 2023-06-06 | 长沙理工大学 | 基于双分支特征融合的语义分割方法、装置、设备 |
CN115954089A (zh) * | 2022-12-24 | 2023-04-11 | 深圳市普兴医疗设备有限公司 | 一种基于图像识别算法的医疗影像分析和智能大健康管理系统 |
CN116335005A (zh) * | 2023-03-15 | 2023-06-27 | 长安大学 | 一种道路裂缝识别跟踪开槽机器人及其控制系统和方法 |
CN116524460A (zh) * | 2023-03-23 | 2023-08-01 | 惠州华阳通用电子有限公司 | 一种基于并行架构的停车位检测方法及存储介质 |
CN116453121A (zh) * | 2023-06-13 | 2023-07-18 | 合肥市正茂科技有限公司 | 一种车道线识别模型的训练方法及装置 |
Non-Patent Citations (6)
Title |
---|
GapLoss: A Loss Function for Semantic Segmentation of Roads in Remote Sensing Images;Wei Yuan等;《Remote Sens. 2022》;20220518;第14卷(第10期);第1-20页 * |
PIDNet: A Real-time Semantic Segmentation Network Inspired by PIDControllers;Jiacong Xu等;《arXiv》;20230430;第1-11页 * |
交通态势识别及状态转换机制研究;吴磊 等;《交通标准化》;20070330;第2007卷(第Z1期);第61-66页 * |
动态行人入侵检测研究与应用;孙精辰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220115(第1期);第I138-1129页 * |
基于语义分割的实时车道线检测方法;张冲 等;《光电工程》;20221231;第49卷(第5期);第1-12页 * |
弯道自适应巡航控制研究;王睿希;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20220315(第3期);第C035-406页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117690107A (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
CN111666921B (zh) | 车辆控制方法、装置、计算机设备和计算机可读存储介质 | |
KR102373456B1 (ko) | 자동 주차 시스템을 제공하기 위해 결정 지점 간의 관계 및 결정 지점에 대한 리그레션 결과를 이용하여 주차 공간을 검출하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치 | |
CN112528878A (zh) | 检测车道线的方法、装置、终端设备及可读存储介质 | |
CN117690107B (zh) | 一种车道边线识别方法和装置 | |
CN109657614B (zh) | 航拍道路交通事故现场勘查中道路自动识别方法 | |
CN116783620A (zh) | 根据点云的高效三维对象检测 | |
CN115082672A (zh) | 一种基于边界框回归的红外图像目标检测方法 | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及系统 | |
CN112132013A (zh) | 一种车辆关键点检测方法 | |
CN117152414A (zh) | 一种基于尺度注意力辅助学习方法的目标检测方法及系统 | |
CN115273032A (zh) | 交通标志识别方法、装置、设备及介质 | |
CN114973199A (zh) | 一种基于卷积神经网络的轨道交通列车障碍物检测方法 | |
CN114519819A (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN112613434A (zh) | 道路目标检测方法、装置及存储介质 | |
CN117292128A (zh) | 一种基于stdc网络的图像实时语义分割方法及装置 | |
Uzar et al. | Performance analysis of YOLO versions for automatic vehicle detection from UAV images | |
Abraham et al. | Traffic lights and traffic signs detection system using modified you only look once | |
CN114495060A (zh) | 一种道路交通标线识别方法及装置 | |
Zhao et al. | Building outline delineation: From very high resolution remote sensing imagery to polygons with an improved end-to-end learning framework | |
CN112597996A (zh) | 基于任务驱动的自然场景中交通标志显著性检测方法 | |
CN111144361A (zh) | 一种基于二值化cgan网络的公路车道检测方法 | |
CN117011819A (zh) | 基于特征引导注意力的车道线检测方法、装置及设备 | |
Sato et al. | Scene recognition for blind spot via road safety mirror and in-vehicle camera | |
CN116935249A (zh) | 一种无人机场景下三维特征增强的小目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |