CN116129386A - 可行驶区域检测方法、系统及计算机可读介质 - Google Patents
可行驶区域检测方法、系统及计算机可读介质 Download PDFInfo
- Publication number
- CN116129386A CN116129386A CN202310211147.4A CN202310211147A CN116129386A CN 116129386 A CN116129386 A CN 116129386A CN 202310211147 A CN202310211147 A CN 202310211147A CN 116129386 A CN116129386 A CN 116129386A
- Authority
- CN
- China
- Prior art keywords
- vanishing point
- region
- drivable
- layer
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种可行驶区域检测方法、系统及计算机可读介质,该可行驶区域检测方法,包括:将道路图像的正视图输入消失点检测网络,消失点检测网络输出预测消失点坐标;根据预测消失点坐标计算偏航角和俯仰角,根据偏航角和俯仰角得到逆透视变换矩阵和透视变换矩阵,以及根据逆透视变换矩阵将道路图像的正视图映射为鸟瞰图;将鸟瞰图输入语义分割网络,语义分割网络输出可行驶区域概率图;根据分块动态阈值方法处理可行驶区域概率图,得到可行驶区域二值图;以及根据透视变换矩阵将可行驶区域二值图映射为包括可行驶区域信息的正视图。本发明基于消失点估计与语义分割的可行驶区域检测方法可以提高可行驶区域检测结果的准确度。
Description
技术领域
本发明主要涉及自动驾驶技术领域,具体地涉及一种可行驶区域检测方法、系统及计算机可读介质。
背景技术
可行驶区域检测是自动驾驶车辆系统的关键组成部分,可行驶区域检测方法对获取的道路图像中允许车辆行驶的区域进行检测,从而为车辆的自主决策规划提供信息依据。
现有的可行驶区域检测方法主要在车辆端运行,例如基于视觉的可行驶区域检测方法,其输入是拍摄装置获取的道路图像,其输出是道路图像中的可行驶区域掩膜或可行驶区域边缘点。运行在车辆端的检测方法需要具有较高的检测精度以及实时计算输出的能力,但由于计算量较大通常难以实时获得计算结果。受天气、光照和路面地形等诸多因素的影响,拍摄装置获取的道路图像可能质量不佳,并且道路图像中的物体距离拍摄装置越远在道路图像中呈像越小,这些因素都可能会导致远处的可行驶区域检测结果的准确度较低且容易误检。
在可行驶区域检测的后处理步骤中,通常做法是设置一个固定阈值,判断可行驶区域概率图中大于等于固定阈值的像素为可行驶区域像素,再根据这些可行驶区域像素确定出可行驶区域。采用这种固定阈值的方法可能导致当设置较高的阈值时,可以提高检出像素的置信度,而当设置较低的阈值时,可以降低可行驶区域像素的漏检率,由此无法确定出合适的固定阈值。并且如果对可行驶区域概率图中的所有像素点均使用相同阈值,会导致越靠近可行驶区域中心的位置,其为可行驶区域的概率越大,而越靠近可行驶区域边缘的位置,其为可行驶区域的概率越低,很容易在边缘区域发生可行驶区域像素漏检的情况。现有技术对可行驶区域检测结果的准确度较低,无法满足自动驾驶车辆的要求。
发明内容
本申请所要解决的技术问题是提供一种可行驶区域检测方法、系统及计算机可读介质,可以提高可行驶区域检测结果的准确度。
本申请为解决上述技术问题而采用的技术方案是一种可行驶区域检测方法,包括:将道路图像的正视图输入消失点检测网络,消失点检测网络输出预测消失点坐标;根据预测消失点坐标计算偏航角和俯仰角,根据偏航角和俯仰角得到逆透视变换矩阵和透视变换矩阵,以及根据逆透视变换矩阵将道路图像的正视图映射为鸟瞰图;将鸟瞰图输入语义分割网络,语义分割网络输出可行驶区域概率图;根据分块动态阈值方法处理可行驶区域概率图,得到可行驶区域二值图;以及根据透视变换矩阵将可行驶区域二值图映射为包括可行驶区域信息的正视图。
在本申请的一实施例中,消失点检测网络包括第一卷积神经网络,第一卷积神经网络包括卷积层、激活层、批量归一化层、池化层、随机失活层以及重排列层中的任意种,以及可行驶区域检测方法还包括使用标注有消失点位置坐标和/或可行驶区域的道路图像的正视图训练消失点检测网络。
在本申请的一实施例中,训练消失点检测网络的步骤包括:在消失点检测网络的最后一层根据重排列层得到重排列特征图;将消失点位置坐标除以2并向下取整,得到消失点位置坐标对应于重排列特征图的标注坐标,以标注坐标为中心带入二维高斯分布公式生成热力图,使用下面的公式计算热力图上像素点的取值v:
其中,(x,y)表示热力图上某像素点的坐标,(new_vp_x,new_vp_y)表示标注坐标,σ2表示方差;根据重排列特征图和热力图之间的均方差值构建损失函数;根据损失函数和梯度下降算法更新消失点检测网络的参数。
在本申请的一实施例中,使用下面的公式计算偏航角和俯仰角:
其中,θ表示俯仰角,γ表示偏航角,αv表示相机的上下视场角范围,αu表示相机的水平视场角范围,(vp_x,vp_y)表示预测消失点坐标,N表示道路图像的正视图的高度,M表示道路图像的正视图的宽度。
在本申请的一实施例中,语义分割网络包括第二卷积神经网络,第二卷积神经网络包括用于生成空间信息特征图的低阶空间信息提取模块和用于生成语义信息特征图的高阶语义信息提取模块,高阶语义信息提取模块包括分类残差网络ResNet18。
在本申请的一实施例中,在将鸟瞰图输入语义分割网络的步骤之后还包括:鸟瞰图分别进入低阶空间信息提取模块和高阶语义信息提取模块,低阶空间信息提取模块对鸟瞰图进行多次卷积操作并生成空间信息特征图,高阶语义信息提取模块根据鸟瞰图和分类残差网络ResNet18生成语义信息特征图,以及语义分割网络融合空间信息特征图和语义信息特征图生成可行驶区域概率图。
在本申请的一实施例中,使用下面的公式计算语义分割网络的损失函数L:
其中,M表示类别数,yc为取值包括0和1的one-hot编码向量,pc表示预测样本属于C类别的概率,C为大于0的任意整数。
在本申请的一实施例中,根据分块动态阈值方法处理可行驶区域概率图的步骤包括:步骤S1:根据第一初始阈值二值化处理可行驶区域概率图得到第一二值图,根据第二初始阈值二值化处理可行驶区域概率图得到第二二值图;步骤S2:将第一二值图减去第二二值图得到差值图像;步骤S3:设置w*h的固定大小滑窗,滑窗用于遍历差值图像,其中w表示滑窗的宽度,h表示滑窗的高度;步骤S4:滑窗依次遍历差值图像的像素,当滑窗遍历至差值图像上像素值为1的位置时,将滑窗的中心位置与可行驶区域概率图相对应,得到可行驶区域概率图上对应于滑窗的调节区域,根据调节区域得到调节阈值,使用调节阈值对调节区域内的像素值进行二值化处理;步骤S5:将滑窗在差值图像上未覆盖到的区域与可行驶区域概率图相对应,得到可行驶区域概率图上的待处理区域,根据全局阈值对待处理区域内的像素值进行二值化处理。
在本申请的一实施例中,在步骤S4中,根据调节区域得到调节阈值的步骤包括:统计调节区域内的概率直方图,将概率直方图中两个峰值之间的灰度值作为调节阈值。
在本申请的一实施例中,在步骤S4中,若调节区域内的概率直方图中不存在两个峰值,则改变第一初始阈值与第二初始阈值,重复步骤S1~步骤S4直到调节区域内的概率直方图中存在两个峰值。
在本申请的一实施例中,第一初始阈值小于第二初始阈值,第一初始阈值和第二初始阈值为0到1之间的任意值,滑窗遍历过程中的步进大小包括:向右为1/2w,向下为1/2h。
本申请为解决上述技术问题还提出一种可行驶区域检测系统,包括:存储器,用于存储可由处理器执行的指令;处理器,用于执行指令以实现如上的可行驶区域检测方法。
本申请为解决上述技术问题还提出一种存储有计算机程序代码的计算机可读介质,计算机程序代码在由处理器执行时实现如上的可行驶区域检测方法。
本申请的技术方案使用消失点检测网络根据道路图像的正视图来预测消失点坐标,以及根据预测消失点坐标将道路图像的正视图映射为鸟瞰图,后续基于鸟瞰图进行可行驶区域检测,相比常规直接在道路图像的正视图上进行可行驶区域检测的方法,可以提高道路图像中远处区域的检测结果;本申请使用轻量化的语义分割网络根据鸟瞰图来生成可行驶区域概率图,可以在保证计算精确的前提下提升网络模型的运算速度,满足实时性要求;通过分块动态阈值方法处理可行驶区域概率图,可以自动根据合适的阈值更加准确地分割出可行驶区域的边缘像素点,从而提高检出像素的置信度,降低可行驶区域像素的漏检率。本申请的这种基于消失点估计与语义分割的可行驶区域检测方法可以提高可行驶区域检测结果的准确度,满足自动驾驶车辆的要求。
附图说明
为让本申请的上述目的、特征和优点能更明显易懂,以下结合附图对本申请的具体实施方式作详细说明,其中:
图1是本申请一实施例的可行驶区域检测方法的示例性流程图;
图2是本申请一实施例中标注有消失点位置坐标和可行驶区域的道路图像正视图的示例图;
图3是本申请一实施例中消失点检测网络的示例性结构图;
图4是本申请一实施例中语义分割网络的示例性结构图;
图5是本申请一实施例的可行驶区域检测系统的系统框图。
具体实施方式
为让本申请的上述目的、特征和优点能更明显易懂,以下结合附图对本申请的具体实施方式作详细说明。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,因此本申请不受下面公开的具体实施例的限制。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,或将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本申请提出一种可行驶区域检测方法,该方法可应用于自动驾驶车辆系统中,为车辆的自主决策规划提供信息。本申请的可行驶区域检测方法可以在车辆端运行,例如运行于车辆的控制器内,还可以在云平台中运行。当该可行驶区域检测方法运行于云平台时,车辆端数据与云平台数据通过无线网络交互,示例性地,云平台可包括私有云、公共云、混合云、社区云、分布式云、互联云、多重云等或者其任意组合。本申请对该可行驶区域检测方法的运行环境不做限制。
图1是本申请一实施例的可行驶区域检测方法的示例性流程图,参考图1所示,该实施例的可行驶区域检测方法包括以下步骤:步骤S110:将道路图像的正视图输入消失点检测网络,消失点检测网络输出预测消失点坐标;步骤S120:根据预测消失点坐标计算偏航角和俯仰角,根据偏航角和俯仰角得到逆透视变换矩阵和透视变换矩阵,以及根据逆透视变换矩阵将道路图像的正视图映射为鸟瞰图;步骤S130:将鸟瞰图输入语义分割网络,语义分割网络输出可行驶区域概率图;步骤S140:根据分块动态阈值方法处理可行驶区域概率图,得到可行驶区域二值图;步骤S150:根据透视变换矩阵将可行驶区域二值图映射为包括可行驶区域信息的正视图。
在此,先介绍本申请用于训练消失点检测网络的数据集的构建方法,该数据集中包括多张道路图像的正视图,上述的步骤S110至步骤S150将在后文详细说明。图2是本申请一实施例中标注有消失点位置坐标和可行驶区域的道路图像正视图的示例图。参考图2所示,在一些实施例中,可行驶区域检测方法包括使用标注有消失点位置坐标210和/或可行驶区域220的道路图像的正视图200训练消失点检测网络。
在采集道路图像正视图的过程中,可以使用安装在车辆上或其它载具上的摄像装置拍摄不同场景中的道路图像,场景包括但不限于白天、夜晚、雨天、雾天、雪天、隧道、城市道路、乡村道路、高速公路、直道以及弯道等;道路可包括结构化道路和非结构化道路,结构化道路通常是高速公路和城市干道等结构化较好的公路,这类道路具有清晰的道路标志线,道路的背景环境较单一,道路的几何特征也较明显,而非结构化道路通常是城市非主干道和乡村街道等结构化程度较低的道路,这类道路没有车道线和清晰的道路边界,再加上受阴影和水迹等影响,道路区域和非道路区域难以区分。
参考图2所示,收集到多张不同场景中的道路图像200后,在每张道路图像200中标注出消失点位置坐标210,或者同时标注出消失点位置坐标210和可行驶区域220。示例性地,可以在道路图像200中道路消失的位置画点来表示消失点位置坐标210,用闭合多边形框出可行驶区域边缘来表示可行驶区域220。本申请用所有标注好的道路图像组成训练数据集。本申请用于训练语义分割网络的数据集也可采用类似的方法构建,本申请不做限制。
下面详细说明前文所述的步骤S110至步骤S150:
在步骤S110中,将道路图像的正视图输入消失点检测网络,消失点检测网络输出预测消失点坐标。示例性地,在车辆行驶过程中,拍摄装置实时拍摄车辆前方及周围的道路图像的正视图,经训练的消失点检测网络通过处理这些实时拍摄的道路图像的正视图后,输出每张道路图像的预测消失点坐标。
在一些实施例中,消失点检测网络包括第一卷积神经网络,第一卷积神经网络包括卷积层、激活层、批量归一化层、池化层、随机失活层以及重排列层中的任意种。图3是本申请一实施例中消失点检测网络的示例性结构图,参考图3所示,示例性地,该消失点检测网络有九层,分别是第一层L301~第九层L309,该消失点检测网络的输入是拍摄装置实时拍摄的道路图像的正视图310,输出是预测消失点坐标320。当该消失点检测网络处在训练阶段时,使用如图2所示的至少标注有消失点位置坐标210的道路图像200作为标签。
继续参考图3所示,示例性地,道路图像的正视图310大小为1280*720*3。消失点检测网络的第一层L301包括卷积层(Convolutional,Conv)、激活层(Rectified LinearUnit,ReLU)、批量归一化层(Batch Normalization,BN)以及池化层Pooling,其中卷积层Conv包括96个大小为11*11的卷积核,卷积步长stride为4,卷积填充padding为0,第一层L301生成的特征图大小为318*178*96;消失点检测网络的第二层L302包括卷积层Conv、激活层ReLU、批量归一化层BN以及池化层Pooling,其中卷积层Conv包括256个大小为5*5的卷积核,卷积步长stride为1,卷积填充padding为2,第二层L302生成的特征图大小为159*89*256;消失点检测网络的第三层L303包括卷积层Conv和激活层ReLU,其中卷积层Conv包括384个大小为3*3的卷积核,卷积步长stride为1,卷积填充padding为1,第三层L303生成的特征图大小为159*89*384。
继续参考图3所示,消失点检测网络的第四层L304包括卷积层Conv和激活层ReLU,其中卷积层Conv包括384个大小为3*3的卷积核,卷积步长stride为1,卷积填充padding为1,第四层L304生成的特征图大小为159*89*384;消失点检测网络的第五层L305包括卷积层Conv、激活层ReLU以及池化层Pooling,其中卷积层Conv包括384个大小为3*3的卷积核,卷积步长stride为1,卷积填充padding为1,第五层L305生成的特征图大小为79*44*384;消失点检测网络的第六层L306包括卷积层Conv、激活层ReLU以及随机失活层Dropout,其中卷积层Conv包括1024个大小为6*6的卷积核,卷积步长stride为1,卷积填充padding为3,随机失活层Dropout用于防止网络模型过拟合以提高泛化性能,第六层L306生成的特征图大小为80*45*1024。
继续参考图3所示,消失点检测网络的第七层L307包括卷积层Conv、激活层ReLU以及随机失活层Dropout,其中卷积层Conv包括1024个大小为1*1的卷积核,卷积步长stride为1,卷积填充padding为0,第七层L307生成的特征图大小为80*45*1024;消失点检测网络的第八层L308包括卷积层Conv和激活层Sigmoid,其中卷积层Conv包括64个大小为1*1的卷积核,卷积步长stride为1,卷积填充padding为0,第八层L308生成的特征图大小为80*45*64;消失点检测网络的第九层L309包括重排列层Reshape,重排列层Reshape用于在不改变数据值的前提下以重新排列数据,第九层L309生成的特征图为重排列特征图,其大小为640*360*1,通过重排列层Reshape将第八层L308生成的大小为80*45*64的特征图重新排列为640*360*1以便于消失点检测网络模型计算损失函数。
本申请通过使用轻量化的消失点检测网络,能快速获得预测消失点坐标,从而提升可行驶区域检测方法的整体效率。本申请对消失点检测网络的层数及每层的结构不做限制。
在一些实施例中,训练消失点检测网络的步骤包括:在消失点检测网络的最后一层根据重排列层得到重排列特征图;将消失点位置坐标除以2并向下取整,得到消失点位置坐标对应于重排列特征图的标注坐标,以标注坐标为中心带入二维高斯分布公式生成热力图,使用下面的公式(1)计算热力图上像素点的取值v:
其中,(x,y)表示热力图上某像素点的坐标,(new_vp_x,new_vp_y)表示标注坐标,σ2表示方差;根据重排列特征图和热力图之间的均方差值构建损失函数;根据损失函数和梯度下降算法更新消失点检测网络的参数。
示例性地,在训练消失点检测网络的过程中,使用至少标注有消失点位置坐标的道路图像的正视图作为标签。令标注的消失点位置坐标为(t_vp_x,t_vp_y),由于重排列特征图的大小是道路图像的正视图的二分之一,因此将该消失点位置坐标(t_vp_x,t_vp_y)除以2并向下取整,得到其在重排列特征图上对应于重排列特征图的标注坐标(new_vp_x,new_vp_y),获得的标注坐标与消失点位置坐标之间满足关系式:new_vp_x≈(t_vp_x)/2以及new_vp_y≈(t_vp_y)/2。以标注坐标(new_vp_x,new_vp_y)为中心带入二维高斯分布公式,生成大小为640*360*1大小的热力图,使用前文所述的公式(1)计算热力图上像素点的取值v,可知热力图上的特点包括,热力图上距离消失点坐标(new_vp_x,new_vp_y)近的像素点数值大,而距离消失点坐标(new_vp_x,new_vp_y)远的像素点数值小。
示例性地,在训练消失点检测网络的过程中,网络前向计算输出的重排列特征图与生成的热力图大小均为640*360*1,由此网络的训练损失函数可以根据重排列特征图和热力图之间的均方差值来构建,根据损失函数和梯度下降算法来更新消失点检测网络的参数。在消失点检测网络的预测阶段,遍历网络输出的预测特征图,找到预测特征图上取值最大点的坐标并将其记为预测消失点坐标a,由于消失点检测网络输入的道路图像的正视图宽高是预测特征图宽高的2倍,因此将预测消失点坐标a的坐标值乘以2后获得映射于正视图上的预测消失点坐标b,该预测消失点坐标b是消失点检测网络最终输出的坐标。本申请相比传统的基于消失点位置直接回归的神经网络方法,采用了基于热力图的消失点检测方法,神经网络训练过程更加稳定,预测的消失点位置更加准确。
在步骤S120中,根据预测消失点坐标计算偏航角和俯仰角,根据偏航角和俯仰角得到逆透视变换矩阵和透视变换矩阵,以及根据逆透视变换矩阵将道路图像的正视图映射为鸟瞰图。示例性地,在车辆行驶过程中,偏航角和俯仰角会随着车辆颠簸以及道路起伏而发生改变,若拍摄装置的内外参是固定的,则会影响图像从正视图转为鸟瞰图的效果,继而影响后续可行驶区域的分割结果。由于拍摄装置的俯仰角会对消失点的纵坐标造成一定偏移,拍摄装置的偏航角会对消失点的横坐标造成一定偏移,因此根据预测消失点坐标可以估计出偏航角和俯仰角,再由偏航角和俯仰角计算出逆透视变换矩阵,根据逆透视变换矩阵可以更加准确地将道路图像的正视图映射为鸟瞰图。
在一些实施例中,使用下面的公式(2)计算偏航角和俯仰角:
其中,θ表示俯仰角,γ表示偏航角,αv表示相机的上下视场角范围,αu表示相机的水平视场角范围,(vp_x,vp_y)表示预测消失点坐标,N表示道路图像的正视图的高度,M表示道路图像的正视图的宽度。
在步骤S130中,将鸟瞰图输入语义分割网络,语义分割网络输出可行驶区域概率图。示例性地,该可行驶区域概率图与鸟瞰图大小相同,其图像通道为1,其像素值在0~1之间,像素值的大小表示像素属于可行驶区域的概率,像素值越大表示属于可行驶区域的概率越大。本申请在鸟瞰图上进行可行驶区域检测,相较于直接在正视图上进行可行驶区域检测的方法,本申请可以提升道路图像的正视图中远处区域检测结果的准确度。
在一些实施例中,语义分割网络包括第二卷积神经网络,第二卷积神经网络包括用于生成空间信息特征图的低阶空间信息提取模块和用于生成语义信息特征图的高阶语义信息提取模块,高阶语义信息提取模块包括分类残差网络ResNet18。图4是本申请一实施例中语义分割网络的示例性结构图,参考图4所示,示例性地,本申请的语义分割网络包括低阶空间信息提取模块420、高阶语义信息提取模块430以及融合模块440。该语义分割网络采用了双路径网络结构,一条路径使用低阶空间信息提取模块420来提取低阶的空间信息,另外一条路径使用高阶语义信息提取模块430来提取高阶的语义信息,最后在融合模块440将低阶空间信息提取模块420和高阶语义信息提取模块430的信息进行融合。
在一些实施例中,参考图4所示,在将鸟瞰图输入语义分割网络的步骤之后还包括:鸟瞰图410分别进入低阶空间信息提取模块420和高阶语义信息提取模块430,低阶空间信息提取模块420对鸟瞰图410进行多次卷积操作并生成空间信息特征图,高阶语义信息提取模块430根据鸟瞰图410和分类残差网络ResNet18生成语义信息特征图,以及语义分割网络融合空间信息特征图和语义信息特征图生成可行驶区域概率图450。
示例性地,参考图4所示,输入语义分割网络的鸟瞰图410大小为1280*720*1。在语义分割网络的低阶空间信息提取模块420中,第一层L421包括卷积层Conv、激活层ReLU以及批量归一化层BN,其中卷积层Conv包括64个大小为3*3的卷积核,卷积步长stride为2,卷积填充padding为1,第一层L421生成的特征图大小为640*360*64;第二层L422包括卷积层Conv、激活层ReLU以及批量归一化层BN,其中卷积层Conv包括128个大小为3*3的卷积核,卷积步长stride为2,卷积填充padding为1,第二层L422生成的特征图大小为320*180*128;第三层L423包括卷积层Conv、激活层ReLU以及批量归一化层BN,其中卷积层Conv包括256个大小为3*3的卷积核,卷积步长stride为2,卷积填充padding为1,第三层L423生成的特征图大小为160*90*256。低阶空间信息提取模块420会对鸟瞰图410进行三次卷积操作,下采样次数少,以提取低阶的空间信息来捕获空间细节。
继续参考图4所示,在语义分割网络的高阶语义信息提取模块430中,分类残差网络ResNet18的头层L431生成的特征图大小为320*180*64;分类残差网络ResNet18的第三层L432生成的特征图大小为160*90*128;分类残差网络ResNet18的第四层L433生成的特征图大小为80*45*256;分类残差网络ResNet18的第五层L434生成的特征图大小为40*23*512。高阶语义信息提取模块430的第五层L435包括上采样层UpSampling、通道连接层Concate、卷积层Conv以及激活层ReLU,其中通道连接层Concate用于将两个或多个宽高相同但通道数不同的特征图在通道方向进行连接,第五层L435将分类残差网络ResNet18的第五层L434输出的特征图上采样2倍后与分类残差网络ResNet18的第四层L433输出的特征图进行连接,第五层L435生成的特征图大小为80*45*512;高阶语义信息提取模块430的第六层L436包括上采样层UpSampling、通道连接层Concate、卷积层Conv以及激活层ReLU,第六层L436将第五层L435生成的特征图上采样2倍后与分类残差网络ResNet18的第三层L432输出的特征图进行连接,第六层L436生成的特征图大小为160*90*256。高阶语义信息提取模块430的层数较深,下采样次数较多,计算量低,能够捕获丰富的上下文语义信息。
继续参考图4所示,在融合模块440中,融合模块440的第一层L441包括通道连接层Concate、卷积层Conv以及激活层ReLU,第一层L441将低阶空间信息提取模块420中第三层L423输出的特征图与高阶语义信息提取模块430中第六层L436输出的特征图连接,第一层L441生成的特征图大小为160*90*256;融合模块440的第二层L442包括上采样层UpSampling和激活层Sigmoid,其中激活层Sigmoid用于将输出值的范围映射到0~1之间以便于对可行驶区域概率图进行后处理,第二层L442对第一层L441生成的特征图进行卷积、非线性激活、8倍上采样后,第二层L442输出和鸟瞰图410大小相同的可行驶区域概率图450。
相比传统的语义分割算法,本申请通过使用包括双路径的语义分割网络结构,可以实现可行驶区域高精度的语义分割并显著降低总体计算量,可以实时处理数据,满足自动驾驶车辆场景中的实时性要求。
在一些实施例中,使用下面的公式(3)计算语义分割网络的损失函数L:
其中,M表示类别数,yc为取值包括0和1的one-hot编码向量,pc表示预测样本属于C类别的概率,C为大于0的任意整数。
在步骤S140中,根据分块动态阈值方法处理可行驶区域概率图,得到可行驶区域二值图。在一些实施例中,根据分块动态阈值方法处理可行驶区域概率图的步骤包括:
步骤S1:根据第一初始阈值二值化处理可行驶区域概率图得到第一二值图,根据第二初始阈值二值化处理可行驶区域概率图得到第二二值图。第一初始阈值和第二初始阈值必须不同,在一些实施例中,第一初始阈值小于第二初始阈值,第一初始阈值和第二初始阈值为0到1之间的任意值,示例性地,第一初始阈值为0.4,第二初始阈值为0.5。
步骤S2:将第一二值图减去第二二值图得到差值图像。示例性地,差值图像上的像素值非0即1,差值图像中的像素通常是可行驶区域的边缘区域或者概率值局部差异较大的区域。
步骤S3:设置w*h的固定大小滑窗,滑窗用于遍历差值图像,其中w表示滑窗的宽度,h表示滑窗的高度。在一些实施例中,滑窗从差值图像的左上方开始沿向右向下的顺序遍历,遍历过程中的步进大小包括:向右为1/2w,向下为1/2h。
步骤S4:滑窗依次遍历差值图像的像素,当滑窗遍历至差值图像上像素值为1的位置时,将滑窗的中心位置与可行驶区域概率图相对应,得到可行驶区域概率图上对应于滑窗的调节区域,根据调节区域得到调节阈值,使用调节阈值对调节区域内的像素值进行二值化处理。在一些实施例中,步骤S4中,根据调节区域得到调节阈值的步骤包括:统计调节区域内的概率直方图,将概率直方图中两个峰值之间的灰度值作为调节阈值,若调节区域内的概率直方图中不存在两个峰值,则改变第一初始阈值与第二初始阈值,例如将第一初始阈值设为0.3,将第二初始阈值设为0.6,再重复步骤S1~步骤S4直到调节区域内的概率直方图中存在两个峰值。
步骤S5:将滑窗在差值图像上未覆盖到的区域与可行驶区域概率图相对应,得到可行驶区域概率图上的待处理区域,根据全局阈值对待处理区域内的像素值进行二值化处理。示例性地,将该全局阈值设为0.7。
本申请使用分块动态阈值方法并根据前述的步骤S1~步骤S5来对可行驶区域概率图进行二值化处理,相较于直接使用全局阈值分割的方法,本申请可以更加准确地分割出可行驶区域的边缘像素点,从而在可行驶区域的边界区域获得更加准确且鲁棒的分割结果,提升了可行驶区域的检测精度。
在步骤S150中,根据透视变换矩阵将可行驶区域二值图映射为包括可行驶区域信息的正视图。示例性地,本申请根据透视变换矩阵将鸟瞰图上的可行驶区域分割结果映射回正视图,以便在正视图上显示出可行驶区域的检测结果。
本申请的技术方案使用消失点检测网络根据道路图像的正视图来预测消失点坐标,以及根据预测消失点坐标将道路图像的正视图映射为鸟瞰图,后续基于鸟瞰图进行可行驶区域检测,相比常规直接在道路图像的正视图上进行可行驶区域检测的方法,可以提高道路图像中远处区域的检测结果;本申请使用轻量化的语义分割网络根据鸟瞰图来生成可行驶区域概率图,可以在保证计算精确的前提下提升网络模型的运算速度,满足实时性要求;通过分块动态阈值方法处理可行驶区域概率图,可以自动根据合适的阈值更加准确地分割出可行驶区域的边缘像素点,从而提高检出像素的置信度,降低可行驶区域像素的漏检率。本申请的这种基于消失点估计与语义分割的可行驶区域检测方法可以提高可行驶区域检测结果的准确度,满足自动驾驶车辆的要求。
本申请还包括一种可行驶区域检测系统,包括存储器和处理器。其中,该存储器用于存储可由处理器执行的指令;处理器用于执行该指令以实现前文所述的可行驶区域检测方法。
图5是本申请一实施例的可行驶区域检测系统的系统框图。参考图5所示,该可行驶区域检测系统500可包括车辆系统510和服务器计算机520,该车辆系统510通过通信网络530以无线方式和服务器计算机520交互数据。车辆系统510包括车辆通信端口511、车辆处理器512、只读存储器(ROM)513以及随机存取存储器(RAM)514,在一些实施例中,车辆处理器512可以由一个或多个处理器组成。车辆通信端口511可以实现该车辆系统510与外部的数据通信。该车辆系统510还可以包括不同形式的程序储存单元以及数据储存单元,例如只读存储器(ROM)513和随机存取存储器(RAM)514,能够存储车辆系统510处理和/或通信使用的各种数据文件,以及车辆处理器512所执行的可能的程序指令。车辆处理器512执行这些指令以实现方法的主要部分。车辆处理器512处理的结果通过车辆通信端口511传给用户设备,在用户界面上显示。
上述的可行驶区域检测方法可以实施为处理器程序,保存在车辆系统510的程序储存单元中,并可加载到车辆处理器512中执行,以实施本申请的可行驶区域检测方法。
本申请还包括一种存储有计算机程序代码的计算机可读介质,该计算机程序代码在由处理器执行时实现前文所述的可行驶区域检测方法。
可行驶区域检测方法实施为计算机程序时,也可以存储在计算机可读存储介质中作为制品。例如,计算机可读存储介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁条)、光盘(例如,压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如,电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外,本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。
应该理解,上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现,处理器可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。
本申请的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。例如,计算机可读介质可包括,但不限于,磁性存储设备(例如,硬盘、软盘、磁带……)、光盘(例如,压缩盘CD、数字多功能盘DVD……)、智能卡以及闪存设备(例如,卡、棒、键驱动器……)。
计算机可读介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述申请披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
Claims (13)
1.一种可行驶区域检测方法,其特征在于,包括:
将道路图像的正视图输入消失点检测网络,所述消失点检测网络输出预测消失点坐标;
根据所述预测消失点坐标计算偏航角和俯仰角,根据所述偏航角和所述俯仰角得到逆透视变换矩阵和透视变换矩阵,以及根据所述逆透视变换矩阵将所述道路图像的正视图映射为鸟瞰图;
将所述鸟瞰图输入语义分割网络,所述语义分割网络输出可行驶区域概率图;
根据分块动态阈值方法处理所述可行驶区域概率图,得到可行驶区域二值图;以及
根据所述透视变换矩阵将所述可行驶区域二值图映射为包括可行驶区域信息的正视图。
2.如权利要求1所述的可行驶区域检测方法,其特征在于,所述消失点检测网络包括第一卷积神经网络,所述第一卷积神经网络包括卷积层、激活层、批量归一化层、池化层、随机失活层以及重排列层中的任意种,以及所述可行驶区域检测方法还包括使用标注有消失点位置坐标和/或可行驶区域的道路图像的正视图训练所述消失点检测网络。
5.如权利要求1所述的可行驶区域检测方法,其特征在于,所述语义分割网络包括第二卷积神经网络,所述第二卷积神经网络包括用于生成空间信息特征图的低阶空间信息提取模块和用于生成语义信息特征图的高阶语义信息提取模块,所述高阶语义信息提取模块包括分类残差网络ResNet18。
6.如权利要求5所述的可行驶区域检测方法,其特征在于,在将所述鸟瞰图输入语义分割网络的步骤之后还包括:所述鸟瞰图分别进入所述低阶空间信息提取模块和所述高阶语义信息提取模块,所述低阶空间信息提取模块对所述鸟瞰图进行多次卷积操作并生成所述空间信息特征图,所述高阶语义信息提取模块根据所述鸟瞰图和所述分类残差网络ResNet18生成所述语义信息特征图,以及所述语义分割网络融合所述空间信息特征图和所述语义信息特征图生成所述可行驶区域概率图。
8.如权利要求1所述的可行驶区域检测方法,其特征在于,根据分块动态阈值方法处理所述可行驶区域概率图的步骤包括:
步骤S1:根据第一初始阈值二值化处理所述可行驶区域概率图得到第一二值图,根据第二初始阈值二值化处理所述可行驶区域概率图得到第二二值图;
步骤S2:将所述第一二值图减去所述第二二值图得到差值图像;
步骤S3:设置w*h的固定大小滑窗,所述滑窗用于遍历所述差值图像,其中w表示所述滑窗的宽度,h表示所述滑窗的高度;
步骤S4:所述滑窗依次遍历所述差值图像的像素,当所述滑窗遍历至所述差值图像上像素值为1的位置时,将所述滑窗的中心位置与所述可行驶区域概率图相对应,得到所述可行驶区域概率图上对应于所述滑窗的调节区域,根据所述调节区域得到调节阈值,使用所述调节阈值对所述调节区域内的像素值进行二值化处理;
步骤S5:将所述滑窗在所述差值图像上未覆盖到的区域与所述可行驶区域概率图相对应,得到所述可行驶区域概率图上的待处理区域,根据全局阈值对所述待处理区域内的像素值进行二值化处理。
9.如权利要求8所述的可行驶区域检测方法,其特征在于,在所述步骤S4中,根据所述调节区域得到调节阈值的步骤包括:统计所述调节区域内的概率直方图,将所述概率直方图中两个峰值之间的灰度值作为所述调节阈值。
10.如权利要求9所述的可行驶区域检测方法,其特征在于,在所述步骤S4中,若所述调节区域内的概率直方图中不存在两个峰值,则改变所述第一初始阈值与所述第二初始阈值,重复所述步骤S1~所述步骤S4直到所述调节区域内的概率直方图中存在两个峰值。
11.如权利要求8所述的可行驶区域检测方法,其特征在于,所述第一初始阈值小于所述第二初始阈值,所述第一初始阈值和所述第二初始阈值为0到1之间的任意值,所述滑窗遍历过程中的步进大小包括:向右为1/2w,向下为1/2h。
12.一种可行驶区域检测系统,其特征在于,包括:
存储器,用于存储可由处理器执行的指令;
处理器,用于执行所述指令以实现如权利要求1-11任一项所述的可行驶区域检测方法。
13.一种存储有计算机程序代码的计算机可读介质,其特征在于,所述计算机程序代码在由处理器执行时实现如权利要求1-11任一项所述的可行驶区域检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310211147.4A CN116129386A (zh) | 2023-03-03 | 2023-03-03 | 可行驶区域检测方法、系统及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310211147.4A CN116129386A (zh) | 2023-03-03 | 2023-03-03 | 可行驶区域检测方法、系统及计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129386A true CN116129386A (zh) | 2023-05-16 |
Family
ID=86310158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310211147.4A Pending CN116129386A (zh) | 2023-03-03 | 2023-03-03 | 可行驶区域检测方法、系统及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129386A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116817887A (zh) * | 2023-06-28 | 2023-09-29 | 哈尔滨师范大学 | 语义视觉slam地图构建方法、电子设备及存储介质 |
-
2023
- 2023-03-03 CN CN202310211147.4A patent/CN116129386A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116817887A (zh) * | 2023-06-28 | 2023-09-29 | 哈尔滨师范大学 | 语义视觉slam地图构建方法、电子设备及存储介质 |
CN116817887B (zh) * | 2023-06-28 | 2024-03-08 | 哈尔滨师范大学 | 语义视觉slam地图构建方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9990736B2 (en) | Robust anytime tracking combining 3D shape, color, and motion with annealed dynamic histograms | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
JP6723247B2 (ja) | ターゲット取得の方法及び装置 | |
CN110415277B (zh) | 基于光流和卡尔曼滤波的多目标追踪方法、系统、装置 | |
CN114782691A (zh) | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 | |
CN111523447B (zh) | 车辆跟踪方法、装置、电子设备及存储介质 | |
CN113409361B (zh) | 一种多目标跟踪方法、装置、计算机及存储介质 | |
CN107944403B (zh) | 一种图像中的行人属性检测方法及装置 | |
Zhang et al. | Image object detection and semantic segmentation based on convolutional neural network | |
Wang et al. | Simultaneous detection and tracking using deep learning and integrated channel feature for ambint traffic light recognition | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN114627441A (zh) | 非结构化道路识别网络训练方法、应用方法及存储介质 | |
CN116129386A (zh) | 可行驶区域检测方法、系统及计算机可读介质 | |
Khan et al. | LRDNet: Lightweight LiDAR aided cascaded feature pools for free road space detection | |
Liu et al. | A new multi-channel deep convolutional neural network for semantic segmentation of remote sensing image | |
CN115493612A (zh) | 一种基于视觉slam的车辆定位方法及装置 | |
CN104700384B (zh) | 基于增强现实技术的展示系统及展示方法 | |
CN116343159B (zh) | 一种非结构化场景可通行区域检测方法、装置及存储介质 | |
CN116342877A (zh) | 一种复杂场景下基于改进aspp和融合模块的语义分割方法 | |
CN116129318A (zh) | 一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法 | |
CN112818743B (zh) | 图像识别的方法、装置、电子设备及计算机存储介质 | |
Jiangzhou et al. | Research on real-time object detection algorithm in traffic monitoring scene | |
CN112634331A (zh) | 一种光流预测方法及装置 | |
CN111104908A (zh) | 一种道路边沿确定方法及装置 | |
US20240046601A1 (en) | Deep recognition model training method, electronic device and readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |