CN114116933A - 一种基于单目图像的语义拓扑联合建图方法 - Google Patents
一种基于单目图像的语义拓扑联合建图方法 Download PDFInfo
- Publication number
- CN114116933A CN114116933A CN202111340486.XA CN202111340486A CN114116933A CN 114116933 A CN114116933 A CN 114116933A CN 202111340486 A CN202111340486 A CN 202111340486A CN 114116933 A CN114116933 A CN 114116933A
- Authority
- CN
- China
- Prior art keywords
- map
- node
- semantic
- topological
- coordinate system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000011218 segmentation Effects 0.000 claims abstract description 33
- 238000013523 data management Methods 0.000 claims abstract description 32
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 230000004438 eyesight Effects 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 30
- 238000013507 mapping Methods 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000007476 Maximum Likelihood Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 10
- 125000002015 acyclic group Chemical group 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 7
- 240000004050 Pentaglottis sempervirens Species 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 239000000470 constituent Substances 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000016776 visual perception Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/05—Geographic models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Remote Sensing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于单目图像的语义拓扑联合建图方法,包括:车辆同步采集相机RGB图像数据、GPS和IMU定位数据等;将采集图像输入至语义分割网络,得到图像路面类型标识的语义分割图;将各图像中被提取的路面标识像素点投影至地图全局坐标下,并将其融入地图数据管理系统;将地图数据管理系统生成的全局语义地图分解成多个ROI,通过本发明设计的网络结构在语义地图上进行车道拓扑状态的最优解搜索,最后将所有建立拓扑状态的ROI结合成完整的拓扑地图。与现有技术相比,本发明以车载视觉和定位系统为传感器配置方案,可以构建出相对精度达99%的语义地图,并且设计了支持低成本传感器的众包融合策略,能够可靠保证拓扑地图的位置精度和拓扑关系正确率。
Description
技术领域
本发明涉及自动驾驶技术领域,尤其是涉及一种基于单目图像的语义拓扑联合建图方法。
背景技术
在车辆实现自动驾驶的过程中,除了需要给车辆配备各种实时传感器,如相机、激光雷达、毫米波雷达之外,基本都离不开另外一个可以提供大量周围环境信息的“传感器”——高精度地图。高精度地图不同于面向人类的传统电子地图,它是专为自动驾驶汽车打造的,能够支持其完成自动驾驶任务,是一种能够提供信息更多、精度也更高的地图。
目前,高精度地图建图的技术路线主要分为两种:一种是使用激光雷达与视觉感知融合的多模态数据路线(对应Waymo,Here的测绘车采集策略);另一种则是以视觉感知信息为主的路线(对应Mobileye的众包采集策略)。其中,使用激光雷达进行建图的方式,其成本高昂,在面对巨大待建图道路总量以及道路情况随时可能更新的情况下,应尽可能发展使用低成本传感器如相机和GNSS定位系统进行建图的技术。
但不管是采用激光雷达和视觉融合感知的建图方案、还是依靠视觉感知的建图方案,构建高精度地图的流程都包括数据采集、数据清洗和匹配拼接、人工或半自动化的地图语义元素标注、人工或半自动化的拓扑关系标注等步骤,部分难以通过计算机视觉识别的语义特征以及语义元素之间的拓扑逻辑关系标注仍旧离不开人工的编辑加工(平均工作量约为30km路段/人/天),而拓扑信息由于抽象程度更高,需要更大的工作量,因此,降低建图工作的成本和提高其自动化程度是当前亟需解决的问题。
此外,在高精度地图建图涉及到的多个领域中,也存在着很多有待改善的问题,例如基于视觉的道路语义特征提取方法仍面临着距离自车较远位置的检测精度明显下降的问题;语义建图方法中一部分工作使用了激光雷达或者人工的标注,另一部分使用了传统的自然特征点作为建图特征,而使用车道线等路面语义信息作为建图特征的相关工作采用了视觉或激光里程计的定位方式,不满足高精度地图对精度的要求;拓扑建图方法中大部分工作仍停留在道路级别拓扑路网的构建,不满足高精度地图车道级别的要求,少量构建车道级别拓扑地图的工作仍是采用激光雷达作为主要传感器,面临硬件成本较高的问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于单目图像的语义拓扑联合建图方法,以实现低成本、高自动化程度的语义建图和拓扑建图。
本发明的目的可以通过以下技术方案来实现:一种基于单目图像的语义拓扑联合建图方法,包括以下步骤:
S1、车辆沿路径行驶,同步采集车辆前方RGB图像数据、车辆位姿信息、车辆定位数据以及定位数据对应的时间戳信息;
S2、将车辆前方RGB图像数据输入语义分割网络,输出得到包含图像路面类别标识的语义分割图;
S3、构建全局语义地图:将语义分割图中各路面类别标识像素点投影至车体坐标系;
再将车体坐标系中各路面类别标识像素点投影至地图全局坐标系,并将地图全局坐标系中各路面类别标识像素点融入地图数据管理系统;
直至每张RGB图像数据对应语义分割图中各路面类别标识像素点均已融入地图数据管理系统;
由地图数据管理系统生成全局语义地图;
S4、构建拓扑地图:将全局语义地图分解成多个ROI(region of interest,感兴趣区域),并对全局语义地图进行车道拓扑状态的最优解搜索,最后将所有建立拓扑状态的ROI结合构成完整的拓扑地图。
进一步地,所述步骤S1中车辆前方RGB图像数据和车辆位姿信息具体是由安装在车辆上的单目相机视觉传感器采集得到,所述车辆定位数据以及定位数据对应的时间戳信息具体是由安装在车辆上的GPS和IMU(Inertial Measurement Unit,惯性测量单元)采集得到。
进一步地,所述步骤S2中语义分割网络具体是一种采取以编-解码器结构的全卷积神经网络为基础骨干、并结合空间变换网络构建的语义分割网络,所述语义分割网络的具体工作过程为:在编码的过程中将前视图视角的特征图逐步转换到鸟瞰图视角;
在解码的过程中再通过反向的变换,将鸟瞰图视角下多维特征图转换回前视图视角,最终仍使用前视图视角的真值进行有监督训练;
整个编码-解码过程可导,根据语义分割网络的输出,以得到路面标记的语义信息提取图。
进一步地,所述步骤S3具体包括以下步骤:
S31、图像坐标系到车体坐标系的投影:根据单目相机内参以及相机坐标系相对于车体坐标系的外参,将语义分割图中各路面类别标识像素点投影至车体坐标系;
S32、车体坐标系到地图全局坐标系的投影:结合车辆位姿和定位数据,通过记录的时间戳,将RGB图像和定位信息进行同步,进行位姿的四元数插值计算,得到每一张RGB图像所对应的同一时刻的车辆位姿,根据每张RGB图像所对应的位姿,将车体坐标系下的语义特征点投影至地图全局坐标系下;
S33、建立地图数据管理单元Nest和Bin,以构成地图数据管理系统,所述Nest是以10m*10m*10m为大小的物理世界中的立方体,所述Bin是以5cm*5cm*5cm为大小的物理世界中立方体,具体的:
Nest={(IDx,IDy,IDz),{Bins}}
Bin={(IDx,IDy,IDz),labelB,votebox}
其中,ID为其立方体中心点在世界坐标系中的坐标除以相应的分辨率,Bin中类别标签labelB表示这个单元属于哪一种语义类别,投票箱votebox记录了这个Bin被分类为每一种类别的频数,将投票箱内的各个类别被观测到的频次用直方图的形式表示,频次记录最高的类别即作为这个Bin的类别标签;
结合数据管理融合算法和动态投票箱内融合算法,将地图全局坐标系中的坐标点融入地图数据管理系统。
进一步地,所述步骤S33中数据管理融合算法的具体过程为:
输入:RGB图像经过语义分割和坐标变换后,投影到地图全局坐标系中,得到点集{RealPointi},每个RealPoint∈{RealPointi}都可以根据其坐标以及Nest和Bin的分辨率,以分别计算各RealPoint所属的Nest以及Bin,其中,RealPoint={(x,y,z),label},RealPoint={(x,y,z),label},RealPoint为地图全局坐标系中的一个路面语义特征点,(x,y,z)为路面语义特征点在地图全局坐标系中的坐标数据,label为路面语义特征点对应的语义类别标签;
如果所归属的Nest当前不存在,则新建一个Nest以及相应的Bin;
否则将当前RealPoint投放到所属的Nest中进行融合,如果当前RealPoint所属的Bin不存在,则新建相应的Bin,并初始化Bin的labelB为RealPoint的label,votebox中对应label的频次为1,其它为0;
否则将当前RealPoint投放进所属的Bin中进行融合投票,更新数据;
输出:处理完点集{RealPoint_i}后保存地图数据。
进一步地,所述步骤S33中动态投票箱内融合算法的具体过程为:
前提:当前Bin已存在,类别标签labelB=i,投票箱votebox={cj},j为类别编号,类别总数为num_class,即0≤j<num_class,且当前类别的被观测频次ci=max({cj});
输入:一个新的RealPoint(语义分割类别为t),坐标属于当前Bin,需要融合:
在当前Bin的投票箱中更新类别t被观测到频次ct=ct+1;
如果ct>250,则对投票箱内的所有频次数据进行同程度的削减:
cj=max(0,cj-50)
保证频次不会出现负数,0≤j<num_class;
如果在当前Bin的投票箱中,类别t被观测频次大于当前Bin的标签类i被观测到的频次ct>ci,则更新当前Bin的类别标签为t;
否则无需更新类别,仅需更新投票箱数据,融合结束;
输出:融合更新后的Bin。
进一步地,所述步骤S4中对全局语义地图进行车道拓扑状态的最优解搜索具体包括以下步骤:
S41、将拓扑图层的构建建模为一个提取有向无环图的最大似然问题,其中,有向无环图中的节点编码了车道线的位置和方向属性,连接节点的边则表示拓扑连接关系;
S42、构建贪心算法提取拓扑关系;
S43、考虑到车道线具有狭长、连续性强的特性,采用卷积神经网络进行全局多尺度特征的提取、采用循环神经网络进行拓扑节点的提取生成,以构建得到拓扑图层。
进一步地,所述步骤S41中构建的最大似然问题具体为:
输入的语义图层定义为期望的网络输出是将车道线结构化表示的有向无环图G,其中G=(V,E),V表示图中节点的集合,E表示图中边的集合,每个节点vi=(xi,θi,si)编码了节点所处局部的几何和拓扑属性,xi表示了该节点所处的位置,θi表示了节点所指方向,si表示了节点的拓扑状态,并定义四种拓扑状态:
(1)正常状态:该节点只有一个父节点和一个子节点;
(2)分叉状态:该点有一个父节点和两个子节点,车道线在这个节点处分叉出两根独立的车道线;
(3)合并状态:该节点有两个父节点和一个子节点,两根车道线在这个节点处合并为一根车道线;
(4)结束状态:该节点为当前车道线的终点,对应了路口遇到停止线的状态;
此外,定义vC(i)为节点vi的子节点,vP(i)为节点vi的父节点,当vi节点为分叉点的时候,子节点vC(i)的数量有2个,当vi节点为合并点的时候,父节点vP(i)的数量有2个,当vi节点为结束点的时候,子节点vC(i)的数量有0个;
上述最大似然问题被建模成深度神经网络的形式进行最优解的搜索。
进一步地,所述步骤S42中构建的贪心算法的具体工作过程为:
之后以父节点P(i)的位置xP(i)和方向θP(i)为基准锁定子图中局部感兴趣区域ROIθ;
在感兴趣区域ROIθ中预测得到节点vi的方向θi;
再以父节点P(i)的位置xP(i)和节点vi方向θi为基准锁定子图中局部感兴趣区域ROIx;
之后在感兴趣区域ROIx中预测得到节点vi所在的位置xi;
然后以节点vi的位置xi和节点vi的方向θi为基准锁定子图中局部感兴趣区域ROIs;
最后在感兴趣区域ROIs中预测得到节点vi所处的拓扑状态si;
输出:节点vi的所有几何和拓扑状态(xi,θi,si),并构建合适的约束函数,使得每次预测产生的节点vi逐渐逼近真值。
进一步地,所述步骤S43中构建拓扑图层的具体过程为:
经过全局多尺度特征提取模块,输出多尺度的特征图;
多尺度的特征经过车道线注意力模块输出车道线的注意力特征图;
将全局多尺度特征和车道线注意力特征合并后的融合特征图作为后续检测头截取感兴趣区域ROI的来源;
首先将根据父节点的位置和方向从车道线注意力特征图中截取相应ROI传递给方向预测分支,输出下一个节点的方向;
根据方向预测分支输出的方向在车道线注意力特征图上调整ROI的截取范围,再传递给位置预测分支,输出下一个节点的位置;
根据上面的两个分支输出方向和位置从融合特征图中截取相应ROI,传递给状态预测分支,输出下一个节点的拓扑状态。至此在给定父节点的情况下,新节点的全部状态量都已获得;
将生成的节点作为父节点继续进行子节点的搜索;
输出:构建好的拓扑图层。
与现有技术相比,本发明以高精度地图中最常见的两个重要图层:语义(几何)图层和拓扑图层为切入点,提出以车载视觉和定位系统为传感器配置方案,开拓性地搭建了完整的语义和拓扑联合建图算法框架,并针对语义建图和拓扑建图方法分别进行了改进,主要涉及基于视觉的语义分割路面标记提取、基于视觉和定位信息的自动化语义建图以及基于语义地图的自动化拓扑建图,不仅能够保证低成本,同时本发明提出的方法可以构建出相对精度达99%的语义地图,并设计了支持低成本传感器的众包融合策略,拓扑地图位置精度和拓扑关系正确率也高达90%以上,大大提高了建图的自动化程度。
附图说明
图1为本发明的方法流程示意图;
图2为实施例的应用过程示意图;
图3为实施例的联合建图方法原理示意图;
图4为实施例中采集数据车辆传感器配置图;
图5为本发明的图像路面语义分割神经网络架构图;
图6为本发明的拓扑建图网络整体架构图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于单目图像的语义拓扑联合建图方法,包括以下步骤:
S1、车辆沿路径行驶,同步采集车辆前方RGB图像数据、车辆位姿信息、车辆定位数据以及定位数据对应的时间戳信息;
S2、将车辆前方RGB图像数据输入语义分割网络,输出得到包含图像路面类别标识的语义分割图;
S3、构建全局语义地图:将语义分割图中各路面类别标识像素点投影至车体坐标系;
再将车体坐标系中各路面类别标识像素点投影至地图全局坐标系,并将地图全局坐标系中各路面类别标识像素点融入地图数据管理系统;
直至每张RGB图像数据对应语义分割图中各路面类别标识像素点均已融入地图数据管理系统;
由地图数据管理系统生成全局语义地图;
S4、构建拓扑地图:将全局语义地图分解成多个ROI(region of interest,感兴趣区域),并对全局语义地图进行车道拓扑状态的最优解搜索,最后将所有建立拓扑状态的ROI结合构成完整的拓扑地图。
本实施例应用上述方法,其具体应用过程和方法原理分别如图2和图3所示,主要包括:
1)首先按照图4所示的车辆传感器配置进行数据同步采集,包括前视相机的RGB图像数据、车辆位姿信息、GPS和IMU获取的定位数据以及数据对应的时间戳,其中,车辆(相机内参和相机相对于车体坐标系的外参已精确标定)沿着设定的路径行驶。
2)将采集的RGB图像输入本发明提出的语义分割网络,以输出得到包含路面类别标识的语义分割图,如图5所示,本发明采取以编-解码器(Encoder-Decoder)结构的全卷积神经网络(FCN)为基础骨干,结合空间变换网络(STN)的思想搭建了一种新颖的语义(或实例)分割网络。这种语义分割网络可以将传统的逆透视投影算法拆解成多个可导的单应性变换层,在编码的过程中将前视图视角的特征图逐步转换到鸟瞰图视角,而在解码的过程中再通过反向的变换将鸟瞰图视角下多维特征图转换回前视图视角,最终仍使用前视图视角的真值进行有监督训练。整个过程可导,该网络可以使用端到端的训练方式。根据语义分割网络的输出可以得到路面标记的语义信息提取图。
需要说明的是,其中的连续透视变换原理具体为:假设鸟瞰图是由一个垂直向下拍摄的虚拟相机生成,完整的逆透视变换过程是将前视相机的图像转换到所述虚拟相机视角的图像。一次性进行这样的变换即为传统的逆透视变换算法,只需要计算一个单应性变换矩阵H即可。本发明则是将完整的逆透视变换H分解为一系列连续的透视变换{Hi,i+1}(以下用Hi简称),Hi可以将图像从视角i投影到视角i+1(假设存在N个虚拟相机)。结合相机的成像模型,假设已知相机的内参和外参,则这个投影过程即可表示为:
3)结合相机内参和相机相对于车体坐标系的外参,将图像中被提取的语义特征点投影到车体坐标系下,再结合车辆位姿和定位数据将车体坐标系下的语义特征点投影至地图全局坐标下,同时进行全局坐标系下的语义特征点融入地图数据管理系统的新建和更新。这里的相机内参和相机相对于车体坐标系的外参是已知的并经过精确标定,投影至车辆坐标系下的变换是在假设车辆局部地面平坦的情况下,即车标坐标系下的坐标z值为0,根据上述关系可以推导出的关系式,其中P′v为车体坐标系下的点,为图像坐标系下的点。这里的结合车辆位姿和定位数据是通过记录的时间戳将图像和定位信息进行同步,进行位姿的四元数插值计算,得到每一张图像所对应的同一时刻的车辆位姿。根据每张图像所对应的位姿,将车体坐标系下的语义特征点投影到地图全局坐标系下,车体坐标系到全局坐标系的转换关系为同时本发明还采用了一种全新的地图数据管理系统,该系统建立地图数据管理单元Nest和Bin。Nest是以10m*10m*10m为大小的物理世界中的立方体,Bin是以5cm*5cm*5cm为大小的物理世界中立方体,最终的地图数据将以这两个单元为基础进行层级管理:
Nest={(IDx,IDy,IDz),{Bins}}
Bin={(IDx,IDy,IDz),labelB,votebox}
其中ID为其立方体中心点在世界坐标系中的坐标除以相应的分辨率,Bin中类别标签labelB表示这个单元属于哪一种语义类别,投票箱votebox记录了这个Bin被分类为每一种类别的频数,将投票箱内的各个类别被观测到的频次用直方图的形式表示,频次记录最高的类别作为这个Bin的类别标签。
该地图数据管理系统的优势在于以Nest和Bin这两种地图数据管理单元,结合数据管理融合算法和动态投票箱内融合算法,可以准确地将地图数据包括各个路面语义标记等表示出来,同时新建与更新机制准确,有利于众包模式在该地图数据管理系统的应用。
具体过程包括:
3.1)图像坐标系到车体坐标系的投影
已知相机内参K和相机坐标系相对于车体坐标系的外参假设图像中某一点坐标为PI=(u,v)T,在车体坐标系中的坐标为Pv=(xv,yv,zv)T,再结合“车辆所处路面局部平坦”这一假设,得到Pv=(xv,yv,0)T,车体坐标系下路面上的点Pv经过归一化后得到左乘得到相机坐标系下该点的归一化坐标即 可表述为旋转矩阵和平移向量的组合, 由于矩阵的第三列将与0相乘,因此可化简为
3.2)车体坐标系到全局坐标系的投影
结合车辆位姿和定位数据,通过记录的时间戳将图像和定位信息进行同步,进行位姿的四元数插值计算,得到每一张图像所对应的同一时刻的车辆位姿。根据每张图像所对应的位姿,将车体坐标系下的语义特征点投影到地图全局坐标系下,车体坐标系到全局坐标系的转换关系为
3.3)融入地图数据管理系统的多次观测数据融合
图像中经过语义分割提取出的路面类别标识像素点经过上述图像坐标系到车体坐标系、车体坐标系到世界坐标系(即地图全局坐标系)的两步投影后得到了一个物理世界中的路面语义特征点,其在全局坐标系中的坐标为Pg=(xg,yg,zg)T,以及这个点所属的语义类别(例如属于白色车道线)为labeli。每个点的这些信息抽象为一个数据结构RealPoint,成员有世界坐标系下的坐标以及语义类别标签:RealPoint={(x,y,z),label},此外建立地图数据管理单元Nest和Bin。Nest是以10m*10m*10m为大小的物理世界中的立方体,Bin是以5cm*5cm*5cm为大小的物理世界中立方体,最终的地图数据将以这两个单元为基础进行层级管理。Nest={(IDx,IDy,IDz),{Bins}},Bin={(IDx,IDy,IDz),labelB,votebox},其中ID为其立方体中心点在世界坐标系中的坐标除以相应的分辨率,Bin中类别标签labelB表示这个单元属于哪一种语义类别,投票箱votebox记录了这个Bin被分类为每一种类别的频数,将投票箱内的各个类别被观测到的频次用直方图的形式表示,频次记录最高的类别作为这个Bin的类别标签。
语义建图过程中数据管理融合算法流程和动态投票箱对多次观测的融合算法流程如下:
4)结合上述步骤3)中的地图数据管理系统生成的最终全局语义地图,将其分解成许多个ROI输入到本发明提出的拓扑建图神经网络,如图6所示,在语义地图上进行车道拓扑状态的最优解搜索,最后将所有建立拓扑状态的ROI结合成完整的拓扑地图。本发明将拓扑图层的构建建模为一个提取有向无环图的最大似然问题,利用神经网络强大的拟合能力去近似有向无环图的概率分布。考虑到网络的输入是图像,且要提取的目标是车道线,它具有形状狭长、连续性强的特性,因此采用卷积神经网络进行全局多尺度特征的提取,采用循环神经网络进行拓扑节点的提取生成。
即将拓扑状态的最优解搜索分解为三部分:拓扑建图问题的建模、拓扑节点提取算法流程、拓扑建图网络整体架构。
4.1)拓扑建图问题的建模
本发明将车道线级别的所述拓扑地图的建图(简称拓扑建图)抽象为一个有向无环图的搜索和构建,有向无环图中的节点编码了车道线的位置和方向属性,连接节点的边表示了拓扑连接关系,但由于在整个所述全局语义地图上以有向无环图的形式进行精确的拓扑地图搜索的计算量和成本是相当巨大的,进而将其转化为可以用深度神经网络进行优化的最大似然问题,问题描述如下:
输入的语义图层定义为期望的网络输出是将车道线结构化表示的有向无环图G。其中G=(V,E),V表示图中节点的集合,E表示图中边的集合。每个节点vi=(xi,θi,si)编码了节点所处局部的几何和拓扑属性。xi表示了该节点所处的位置,θi表示了节点所指方向,si表示了节点的拓扑状态。在这里定义四种拓扑状态:
(a)正常状态:该节点只有一个父节点和一个子节点;
(b)分叉状态:该点有一个父节点和两个子节点,车道线在这个节点处分叉出两根独立的车道线;
(c)合并状态:该节点有两个父节点和一个子节点,两根车道线在这个节点处合并为一根车道线;
(d)结束状态:该节点为当前车道线的终点,对应了路口遇到停止线的状态。
此外定义vC(i)为节点vi的子节点,vP(i)为节点vi的父节点。当vi节点为分叉点的时候,子节点vC(i)的数量有2个,当vi节点为合并点的时候,父节点vP(i)的数量有2个,当vi节点为结束点的时候,子节点vC(i)的数量有0个。
上述最大似然问题被建模成深度神经网络的形式进行最优解的搜索,由于车道线具有狭长,连续性强的特性,因此搭建了以卷积神经网络(Convolution Neural Network,CNN)和循环神经网络(Recursive Neural Network,RNN)相结合的网络结构求解这一问题。
4.2)拓扑节点提取算法流程
按照上述拓扑建图的建模方式,要在几乎无穷多可能的解空间中找到最合适的有向无环图,直接暴力搜索低效且无法实现,为此构建了一种贪心算法用于提取拓扑关系。
4.3)拓扑建图网络整体架构
在将拓扑图层的构建建模为一个提取有向无环图的最大似然问题后,本发明利用神经网络强大的拟合能力去近似有向无环图的概率分布。考虑到网络的输入是图像,且要提取的目标是车道线,它具有形状狭长、连续性强的特性,因此采用卷积神经网络进行全局多尺度特征的提取,采用循环神经网络进行拓扑节点的提取生成。
在完成上述四个步骤后,高精度地图的语义拓扑层构建完毕。综上可知,本发明以搭建高精度地图的建图框架为基础,提出以车载视觉和定位系统作为感知信息来源的自动化高精度地图算法。目的是使用尽可能低的硬件成本,尽可能低的人力成本,尽可能高的自动化程度进行高精度地图中两个最重要的图层的构建——语义图层和拓扑图层。使用到的方法涉及基于视觉的语义分割路面标记提取、基于视觉和定位信息的自动化语义建图以及基于语义地图的自动化拓扑建图。采用本发明提出的方法,能够构建出相对精度达99%的语义地图,并且设计了支持低成本传感器的众包融合策略,拓扑地图的位置精度和拓扑关系正确率也高达90%以上。
Claims (10)
1.一种基于单目图像的语义拓扑联合建图方法,其特征在于,包括以下步骤:
S1、车辆沿路径行驶,同步采集车辆前方RGB图像数据、车辆位姿信息、车辆定位数据以及定位数据对应的时间戳信息;
S2、将车辆前方RGB图像数据输入语义分割网络,输出得到包含图像路面类别标识的语义分割图;
S3、构建全局语义地图:将语义分割图中各路面类别标识像素点投影至车体坐标系;
再将车体坐标系中各路面类别标识像素点投影至地图全局坐标系,并将地图全局坐标系中各路面类别标识像素点融入地图数据管理系统;
直至每张RGB图像数据对应语义分割图中各路面类别标识像素点均已融入地图数据管理系统;
由地图数据管理系统生成全局语义地图;
S4、构建拓扑地图:将全局语义地图分解成多个ROI,并对全局语义地图进行车道拓扑状态的最优解搜索,最后将所有建立拓扑状态的ROI结合构成完整的拓扑地图。
2.根据权利要求1所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S1中车辆前方RGB图像数据和车辆位姿信息具体是由安装在车辆上的单目相机视觉传感器采集得到,所述车辆定位数据以及定位数据对应的时间戳信息具体是由安装在车辆上的GPS和IMU采集得到。
3.根据权利要求2所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S2中语义分割网络具体是一种采取以编-解码器结构的全卷积神经网络为基础骨干、并结合空间变换网络构建的语义分割网络,所述语义分割网络的具体工作过程为:在编码的过程中将前视图视角的特征图逐步转换到鸟瞰图视角;
在解码的过程中再通过反向的变换,将鸟瞰图视角下多维特征图转换回前视图视角,最终仍使用前视图视角的真值进行有监督训练;
整个编码-解码过程可导,根据语义分割网络的输出,以得到路面标记的语义信息提取图。
4.根据权利要求3所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、图像坐标系到车体坐标系的投影:根据单目相机内参以及相机坐标系相对于车体坐标系的外参,将语义分割图中各路面类别标识像素点投影至车体坐标系;
S32、车体坐标系到地图全局坐标系的投影:结合车辆位姿和定位数据,通过记录的时间戳,将RGB图像和定位信息进行同步,进行位姿的四元数插值计算,得到每一张RGB图像所对应的同一时刻的车辆位姿,根据每张RGB图像所对应的位姿,将车体坐标系下的语义特征点投影至地图全局坐标系下;
S33、建立地图数据管理单元Nest和Bin,以构成地图数据管理系统,所述Nest是以10m*10m*10m为大小的物理世界中的立方体,所述Bin是以5cm*5cm*5cm为大小的物理世界中立方体,具体的:
Nest={(IDx,IDy,IDz),{Bins}}
Bin={(IDx,IDy,IDz),labelB,votebox}
其中,ID为其立方体中心点在世界坐标系中的坐标除以相应的分辨率,Bin中类别标签labelB表示这个单元属于哪一种语义类别,投票箱votebox记录了这个Bin被分类为每一种类别的频数,将投票箱内的各个类别被观测到的频次用直方图的形式表示,频次记录最高的类别即作为这个Bin的类别标签;
结合数据管理融合算法和动态投票箱内融合算法,将地图全局坐标系中的坐标点融入地图数据管理系统。
5.根据权利要求4所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S33中数据管理融合算法的具体过程为:
输入:RGB图像经过语义分割和坐标变换后,投影到地图全局坐标系中,得到点集{RealPointi},每个RealPoint∈{RealPointi}都可以根据其坐标以及Nest和Bin的分辨率,以分别计算各RealPoint所属的Nest以及Bin,其中,RealPoint={(x,y,z),label},RealPoint为地图全局坐标系中的一个路面语义特征点,(x,y,z)为路面语义特征点在地图全局坐标系中的坐标数据,label为路面语义特征点对应的语义类别标签;
如果所归属的Nest当前不存在,则新建一个Nest以及相应的Bin;
否则将当前RealPoint投放到所属的Nest中进行融合,如果当前RealPoint所属的Bin不存在,则新建相应的Bin,并初始化Bin的labelB为RealPoint的label,votebox中对应label的频次为1,其它为0;
否则将当前RealPoint投放进所属的Bin中进行融合投票,更新数据;
输出:处理完点集{RealPoint_i}后保存地图数据。
6.根据权利要求5所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S33中动态投票箱内融合算法的具体过程为:
前提:当前Bin已存在,类别标签labelB=i,投票箱votebox={cj},j为类别编号,类别总数为num_class,即0≤j<num_class,且当前类别的被观测频次ci=max({cj});
输入:一个新的RealPoint(语义分割类别为t),坐标属于当前Bin,需要融合:
在当前Bin的投票箱中更新类别t被观测到频次ct=ct+1;
如果ct>250,则对投票箱内的所有频次数据进行同程度的削减:
cj=max(0,cj-50)
保证频次不会出现负数,0≤j<num_class;
如果在当前Bin的投票箱中,类别t被观测频次大于当前Bin的标签类i被观测到的频次ct>ci,则更新当前Bin的类别标签为t;
否则无需更新类别,仅需更新投票箱数据,融合结束;
输出:融合更新后的Bin。
7.根据权利要求1所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S4中对全局语义地图进行车道拓扑状态的最优解搜索具体包括以下步骤:
S41、将拓扑图层的构建建模为一个提取有向无环图的最大似然问题,其中,有向无环图中的节点编码了车道线的位置和方向属性,连接节点的边则表示拓扑连接关系;
S42、构建贪心算法提取拓扑关系;
S43、考虑到车道线具有狭长、连续性强的特性,采用卷积神经网络进行全局多尺度特征的提取、采用循环神经网络进行拓扑节点的提取生成,以构建得到拓扑图层。
8.根据权利要求7所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S41中构建的最大似然问题具体为:
输入的语义图层定义为期望的网络输出是将车道线结构化表示的有向无环图G,其中G=(V,E),V表示图中节点的集合,E表示图中边的集合,每个节点vi=(xi,θi,si)编码了节点所处局部的几何和拓扑属性,xi表示了该节点所处的位置,θi表示了节点所指方向,si表示了节点的拓扑状态,并定义四种拓扑状态:
(1)正常状态:该节点只有一个父节点和一个子节点;
(2)分叉状态:该点有一个父节点和两个子节点,车道线在这个节点处分叉出两根独立的车道线;
(3)合并状态:该节点有两个父节点和一个子节点,两根车道线在这个节点处合并为一根车道线;
(4)结束状态:该节点为当前车道线的终点,对应了路口遇到停止线的状态;
此外,定义vC(i)为节点vi的子节点,vP(i)为节点vi的父节点,当vi节点为分叉点的时候,子节点vC(i)的数量有2个,当vi节点为合并点的时候,父节点vP(i)的数量有2个,当vi节点为结束点的时候,子节点vC(i)的数量有0个;
上述最大似然问题被建模成深度神经网络的形式进行最优解的搜索。
9.根据权利要求8所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S42中构建的贪心算法的具体工作过程为:
之后以父节点P(i)的位置xP(i)和方向θP(i)为基准锁定子图中局部感兴趣区域ROIθ;
在感兴趣区域ROIθ中预测得到节点vi的方向θi;
再以父节点P(i)的位置xP(i)和节点vi方向θi为基准锁定子图中局部感兴趣区域ROIx;
之后在感兴趣区域ROIx中预测得到节点vi所在的位置xi;
然后以节点vi的位置xi和节点vi的方向θi为基准锁定子图中局部感兴趣区域ROIs;
最后在感兴趣区域ROIs中预测得到节点vi所处的拓扑状态si;
输出:节点vi的所有几何和拓扑状态(xi,θi,si),并构建合适的约束函数,使得每次预测产生的节点vi逐渐逼近真值。
10.根据权利要求9所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S43中构建拓扑图层的具体过程为:
经过全局多尺度特征提取模块,输出多尺度的特征图;
多尺度的特征经过车道线注意力模块输出车道线的注意力特征图;
将全局多尺度特征和车道线注意力特征合并后的融合特征图作为后续检测头截取感兴趣区域ROI的来源;
首先将根据父节点的位置和方向从车道线注意力特征图中截取相应ROI传递给方向预测分支,输出下一个节点的方向;
根据方向预测分支输出的方向在车道线注意力特征图上调整ROI的截取范围,再传递给位置预测分支,输出下一个节点的位置;
根据上面的两个分支输出方向和位置从融合特征图中截取相应ROI,传递给状态预测分支,输出下一个节点的拓扑状态。至此在给定父节点的情况下,新节点的全部状态量都已获得;
将生成的节点作为父节点继续进行子节点的搜索;
输出:构建好的拓扑图层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111340486.XA CN114116933B (zh) | 2021-11-12 | 2021-11-12 | 一种基于单目图像的语义拓扑联合建图方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111340486.XA CN114116933B (zh) | 2021-11-12 | 2021-11-12 | 一种基于单目图像的语义拓扑联合建图方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114116933A true CN114116933A (zh) | 2022-03-01 |
CN114116933B CN114116933B (zh) | 2024-09-24 |
Family
ID=80379267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111340486.XA Active CN114116933B (zh) | 2021-11-12 | 2021-11-12 | 一种基于单目图像的语义拓扑联合建图方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114116933B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114543788A (zh) * | 2022-04-25 | 2022-05-27 | 北京理工大学 | 结构非结构环境通用的多层全局感知地图构建方法及系统 |
CN114964208A (zh) * | 2022-04-24 | 2022-08-30 | 山东新一代信息产业技术研究院有限公司 | 一种基于视觉的较高精度导航特征地图构建方法 |
CN116976356A (zh) * | 2023-07-24 | 2023-10-31 | 云创智行科技(苏州)有限公司 | 一种拓扑图重复节点语义推断方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106840148A (zh) * | 2017-01-24 | 2017-06-13 | 东南大学 | 室外作业环境下基于双目摄像机的可穿戴式定位与路径引导方法 |
EP3543907A1 (en) * | 2018-03-22 | 2019-09-25 | HERE Global B.V. | Method, apparatus, and system for dynamic adaptation of an in-vehicle feature detector |
CN111360780A (zh) * | 2020-03-20 | 2020-07-03 | 北京工业大学 | 一种基于视觉语义slam的垃圾捡拾机器人 |
-
2021
- 2021-11-12 CN CN202111340486.XA patent/CN114116933B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106840148A (zh) * | 2017-01-24 | 2017-06-13 | 东南大学 | 室外作业环境下基于双目摄像机的可穿戴式定位与路径引导方法 |
EP3543907A1 (en) * | 2018-03-22 | 2019-09-25 | HERE Global B.V. | Method, apparatus, and system for dynamic adaptation of an in-vehicle feature detector |
CN111360780A (zh) * | 2020-03-20 | 2020-07-03 | 北京工业大学 | 一种基于视觉语义slam的垃圾捡拾机器人 |
Non-Patent Citations (2)
Title |
---|
WEI TIAN等: "vision-based mapping of lane semantics and topology for intelligent vehicles", INTERNATIONAL JOURNAL OF APPLIED EARTH OBSERVATIONS AND GEOINFORMATION, 30 July 2022 (2022-07-30), pages 1 - 11 * |
刘鑫等: "多机器人协同SLAM技术研究进展", 计算机工程, vol. 48, no. 5, 18 November 2021 (2021-11-18), pages 1 - 10 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114964208A (zh) * | 2022-04-24 | 2022-08-30 | 山东新一代信息产业技术研究院有限公司 | 一种基于视觉的较高精度导航特征地图构建方法 |
CN114543788A (zh) * | 2022-04-25 | 2022-05-27 | 北京理工大学 | 结构非结构环境通用的多层全局感知地图构建方法及系统 |
CN114543788B (zh) * | 2022-04-25 | 2022-08-09 | 北京理工大学 | 结构非结构环境通用的多层全局感知地图构建方法及系统 |
CN116976356A (zh) * | 2023-07-24 | 2023-10-31 | 云创智行科技(苏州)有限公司 | 一种拓扑图重复节点语义推断方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114116933B (zh) | 2024-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xia et al. | Geometric primitives in LiDAR point clouds: A review | |
CN111815776B (zh) | 综合机载和车载三维激光点云及街景影像的三维建筑物精细几何重建方法 | |
Li et al. | Hdmapnet: An online hd map construction and evaluation framework | |
Li et al. | Building and optimization of 3D semantic map based on Lidar and camera fusion | |
US20230135512A1 (en) | Method for updating road signs and markings on basis of monocular images | |
CN113516664B (zh) | 一种基于语义分割动态点的视觉slam方法 | |
CN111060924B (zh) | 一种slam与目标跟踪方法 | |
Bao et al. | High-definition map generation technologies for autonomous driving | |
CN114116933A (zh) | 一种基于单目图像的语义拓扑联合建图方法 | |
CN111080659A (zh) | 一种基于视觉信息的环境语义感知方法 | |
Li et al. | WHU-helmet: A helmet-based multisensor SLAM dataset for the evaluation of real-time 3-D mapping in large-scale GNSS-denied environments | |
Yin et al. | General place recognition survey: Towards the real-world autonomy age | |
CN118314180A (zh) | 基于无导数优化的点云匹配方法及系统 | |
CN116129066A (zh) | 基于数字孪生的自动驾驶高精度地图模型及高精度静态地图制作方法 | |
CN115131669A (zh) | 多源数据协同的人车路网一体化构建方法 | |
CN115564865A (zh) | 一种众包高精地图的构建方法、系统、电子设备及车辆 | |
Ren et al. | Lightweight semantic-aided localization with spinning LiDAR sensor | |
Mutz et al. | What is the best grid-map for self-driving cars localization? An evaluation under diverse types of illumination, traffic, and environment | |
He et al. | Automatch: Leveraging traffic camera to improve perception and localization of autonomous vehicles | |
Wu et al. | A stepwise minimum spanning tree matching method for registering vehicle-borne and backpack LiDAR point clouds | |
Tang et al. | High-definition maps construction based on visual sensor: A comprehensive survey | |
Ma et al. | Monocular 3d lane detection for autonomous driving: Recent achievements, challenges, and outlooks | |
Pfeiffer | The stixel world | |
Kong et al. | UAV LiDAR data-based lane-level road network generation for urban scene HD Maps | |
Wang et al. | DelvMap: Completing Residential Roads in Maps Based on Couriers’ Trajectories and Satellite Imagery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |