CN114116933A - 一种基于单目图像的语义拓扑联合建图方法 - Google Patents

一种基于单目图像的语义拓扑联合建图方法 Download PDF

Info

Publication number
CN114116933A
CN114116933A CN202111340486.XA CN202111340486A CN114116933A CN 114116933 A CN114116933 A CN 114116933A CN 202111340486 A CN202111340486 A CN 202111340486A CN 114116933 A CN114116933 A CN 114116933A
Authority
CN
China
Prior art keywords
map
node
semantic
topological
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111340486.XA
Other languages
English (en)
Other versions
CN114116933B (zh
Inventor
田炜
余先旺
任晓舟
邓振文
黄禹尧
谭大艺
韩帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202111340486.XA priority Critical patent/CN114116933B/zh
Publication of CN114116933A publication Critical patent/CN114116933A/zh
Application granted granted Critical
Publication of CN114116933B publication Critical patent/CN114116933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/05Geographic models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于单目图像的语义拓扑联合建图方法,包括:车辆同步采集相机RGB图像数据、GPS和IMU定位数据等;将采集图像输入至语义分割网络,得到图像路面类型标识的语义分割图;将各图像中被提取的路面标识像素点投影至地图全局坐标下,并将其融入地图数据管理系统;将地图数据管理系统生成的全局语义地图分解成多个ROI,通过本发明设计的网络结构在语义地图上进行车道拓扑状态的最优解搜索,最后将所有建立拓扑状态的ROI结合成完整的拓扑地图。与现有技术相比,本发明以车载视觉和定位系统为传感器配置方案,可以构建出相对精度达99%的语义地图,并且设计了支持低成本传感器的众包融合策略,能够可靠保证拓扑地图的位置精度和拓扑关系正确率。

Description

一种基于单目图像的语义拓扑联合建图方法
技术领域
本发明涉及自动驾驶技术领域,尤其是涉及一种基于单目图像的语义拓扑联合建图方法。
背景技术
在车辆实现自动驾驶的过程中,除了需要给车辆配备各种实时传感器,如相机、激光雷达、毫米波雷达之外,基本都离不开另外一个可以提供大量周围环境信息的“传感器”——高精度地图。高精度地图不同于面向人类的传统电子地图,它是专为自动驾驶汽车打造的,能够支持其完成自动驾驶任务,是一种能够提供信息更多、精度也更高的地图。
目前,高精度地图建图的技术路线主要分为两种:一种是使用激光雷达与视觉感知融合的多模态数据路线(对应Waymo,Here的测绘车采集策略);另一种则是以视觉感知信息为主的路线(对应Mobileye的众包采集策略)。其中,使用激光雷达进行建图的方式,其成本高昂,在面对巨大待建图道路总量以及道路情况随时可能更新的情况下,应尽可能发展使用低成本传感器如相机和GNSS定位系统进行建图的技术。
但不管是采用激光雷达和视觉融合感知的建图方案、还是依靠视觉感知的建图方案,构建高精度地图的流程都包括数据采集、数据清洗和匹配拼接、人工或半自动化的地图语义元素标注、人工或半自动化的拓扑关系标注等步骤,部分难以通过计算机视觉识别的语义特征以及语义元素之间的拓扑逻辑关系标注仍旧离不开人工的编辑加工(平均工作量约为30km路段/人/天),而拓扑信息由于抽象程度更高,需要更大的工作量,因此,降低建图工作的成本和提高其自动化程度是当前亟需解决的问题。
此外,在高精度地图建图涉及到的多个领域中,也存在着很多有待改善的问题,例如基于视觉的道路语义特征提取方法仍面临着距离自车较远位置的检测精度明显下降的问题;语义建图方法中一部分工作使用了激光雷达或者人工的标注,另一部分使用了传统的自然特征点作为建图特征,而使用车道线等路面语义信息作为建图特征的相关工作采用了视觉或激光里程计的定位方式,不满足高精度地图对精度的要求;拓扑建图方法中大部分工作仍停留在道路级别拓扑路网的构建,不满足高精度地图车道级别的要求,少量构建车道级别拓扑地图的工作仍是采用激光雷达作为主要传感器,面临硬件成本较高的问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于单目图像的语义拓扑联合建图方法,以实现低成本、高自动化程度的语义建图和拓扑建图。
本发明的目的可以通过以下技术方案来实现:一种基于单目图像的语义拓扑联合建图方法,包括以下步骤:
S1、车辆沿路径行驶,同步采集车辆前方RGB图像数据、车辆位姿信息、车辆定位数据以及定位数据对应的时间戳信息;
S2、将车辆前方RGB图像数据输入语义分割网络,输出得到包含图像路面类别标识的语义分割图;
S3、构建全局语义地图:将语义分割图中各路面类别标识像素点投影至车体坐标系;
再将车体坐标系中各路面类别标识像素点投影至地图全局坐标系,并将地图全局坐标系中各路面类别标识像素点融入地图数据管理系统;
直至每张RGB图像数据对应语义分割图中各路面类别标识像素点均已融入地图数据管理系统;
由地图数据管理系统生成全局语义地图;
S4、构建拓扑地图:将全局语义地图分解成多个ROI(region of interest,感兴趣区域),并对全局语义地图进行车道拓扑状态的最优解搜索,最后将所有建立拓扑状态的ROI结合构成完整的拓扑地图。
进一步地,所述步骤S1中车辆前方RGB图像数据和车辆位姿信息具体是由安装在车辆上的单目相机视觉传感器采集得到,所述车辆定位数据以及定位数据对应的时间戳信息具体是由安装在车辆上的GPS和IMU(Inertial Measurement Unit,惯性测量单元)采集得到。
进一步地,所述步骤S2中语义分割网络具体是一种采取以编-解码器结构的全卷积神经网络为基础骨干、并结合空间变换网络构建的语义分割网络,所述语义分割网络的具体工作过程为:在编码的过程中将前视图视角的特征图逐步转换到鸟瞰图视角;
在解码的过程中再通过反向的变换,将鸟瞰图视角下多维特征图转换回前视图视角,最终仍使用前视图视角的真值进行有监督训练;
整个编码-解码过程可导,根据语义分割网络的输出,以得到路面标记的语义信息提取图。
进一步地,所述步骤S3具体包括以下步骤:
S31、图像坐标系到车体坐标系的投影:根据单目相机内参以及相机坐标系相对于车体坐标系的外参,将语义分割图中各路面类别标识像素点投影至车体坐标系;
S32、车体坐标系到地图全局坐标系的投影:结合车辆位姿和定位数据,通过记录的时间戳,将RGB图像和定位信息进行同步,进行位姿的四元数插值计算,得到每一张RGB图像所对应的同一时刻的车辆位姿,根据每张RGB图像所对应的位姿,将车体坐标系下的语义特征点投影至地图全局坐标系下;
S33、建立地图数据管理单元Nest和Bin,以构成地图数据管理系统,所述Nest是以10m*10m*10m为大小的物理世界中的立方体,所述Bin是以5cm*5cm*5cm为大小的物理世界中立方体,具体的:
Nest={(IDx,IDy,IDz),{Bins}}
Bin={(IDx,IDy,IDz),labelB,votebox}
其中,ID为其立方体中心点在世界坐标系中的坐标除以相应的分辨率,Bin中类别标签labelB表示这个单元属于哪一种语义类别,投票箱votebox记录了这个Bin被分类为每一种类别的频数,将投票箱内的各个类别被观测到的频次用直方图的形式表示,频次记录最高的类别即作为这个Bin的类别标签;
结合数据管理融合算法和动态投票箱内融合算法,将地图全局坐标系中的坐标点融入地图数据管理系统。
进一步地,所述步骤S33中数据管理融合算法的具体过程为:
输入:RGB图像经过语义分割和坐标变换后,投影到地图全局坐标系中,得到点集{RealPointi},每个RealPoint∈{RealPointi}都可以根据其坐标以及Nest和Bin的分辨率,以分别计算各RealPoint所属的Nest以及Bin,其中,RealPoint={(x,y,z),label},RealPoint={(x,y,z),label},RealPoint为地图全局坐标系中的一个路面语义特征点,(x,y,z)为路面语义特征点在地图全局坐标系中的坐标数据,label为路面语义特征点对应的语义类别标签;
如果所归属的Nest当前不存在,则新建一个Nest以及相应的Bin;
否则将当前RealPoint投放到所属的Nest中进行融合,如果当前RealPoint所属的Bin不存在,则新建相应的Bin,并初始化Bin的labelB为RealPoint的label,votebox中对应label的频次为1,其它为0;
否则将当前RealPoint投放进所属的Bin中进行融合投票,更新数据;
输出:处理完点集{RealPoint_i}后保存地图数据。
进一步地,所述步骤S33中动态投票箱内融合算法的具体过程为:
前提:当前Bin已存在,类别标签labelB=i,投票箱votebox={cj},j为类别编号,类别总数为num_class,即0≤j<num_class,且当前类别的被观测频次ci=max({cj});
输入:一个新的RealPoint(语义分割类别为t),坐标属于当前Bin,需要融合:
在当前Bin的投票箱中更新类别t被观测到频次ct=ct+1;
如果ct>250,则对投票箱内的所有频次数据进行同程度的削减:
cj=max(0,cj-50)
保证频次不会出现负数,0≤j<num_class;
如果在当前Bin的投票箱中,类别t被观测频次大于当前Bin的标签类i被观测到的频次ct>ci,则更新当前Bin的类别标签为t;
否则无需更新类别,仅需更新投票箱数据,融合结束;
输出:融合更新后的Bin。
进一步地,所述步骤S4中对全局语义地图进行车道拓扑状态的最优解搜索具体包括以下步骤:
S41、将拓扑图层的构建建模为一个提取有向无环图的最大似然问题,其中,有向无环图中的节点编码了车道线的位置和方向属性,连接节点的边则表示拓扑连接关系;
S42、构建贪心算法提取拓扑关系;
S43、考虑到车道线具有狭长、连续性强的特性,采用卷积神经网络进行全局多尺度特征的提取、采用循环神经网络进行拓扑节点的提取生成,以构建得到拓扑图层。
进一步地,所述步骤S41中构建的最大似然问题具体为:
输入的语义图层定义为
Figure BDA0003351770990000059
期望的网络输出是将车道线结构化表示的有向无环图G,其中G=(V,E),V表示图中节点的集合,E表示图中边的集合,每个节点vi=(xii,si)编码了节点所处局部的几何和拓扑属性,xi表示了该节点所处的位置,θi表示了节点所指方向,si表示了节点的拓扑状态,并定义四种拓扑状态:
(1)正常状态:该节点只有一个父节点和一个子节点;
(2)分叉状态:该点有一个父节点和两个子节点,车道线在这个节点处分叉出两根独立的车道线;
(3)合并状态:该节点有两个父节点和一个子节点,两根车道线在这个节点处合并为一根车道线;
(4)结束状态:该节点为当前车道线的终点,对应了路口遇到停止线的状态;
此外,定义vC(i)为节点vi的子节点,vP(i)为节点vi的父节点,当vi节点为分叉点的时候,子节点vC(i)的数量有2个,当vi节点为合并点的时候,父节点vP(i)的数量有2个,当vi节点为结束点的时候,子节点vC(i)的数量有0个;
给定输入语义地图
Figure BDA0003351770990000051
后,目标是在所有可能的有向无环图G的解空间
Figure BDA0003351770990000052
中找到概率最大的一个,也就构建成了最大似然问题:
Figure BDA0003351770990000053
由于G是由若干节点和边组成的有向无环图,因此
Figure BDA0003351770990000054
可以联合概率分布的方式表示如下:
Figure BDA0003351770990000055
其中,每一项条件概率
Figure BDA0003351770990000056
又可以被拆解成节点的三个组成元素,即位置、方向、拓扑状态的条件概率连乘:
Figure BDA0003351770990000057
上述最大似然问题被建模成深度神经网络的形式进行最优解的搜索。
进一步地,所述步骤S42中构建的贪心算法的具体工作过程为:
输入:给定父节点vP(i)=(xP(i)P(i),sP(i))以及当前输入的语义地图子图
Figure BDA0003351770990000058
之后以父节点P(i)的位置xP(i)和方向θP(i)为基准锁定子图中局部感兴趣区域ROIθ
在感兴趣区域ROIθ中预测得到节点vi的方向θi
再以父节点P(i)的位置xP(i)和节点vi方向θi为基准锁定子图中局部感兴趣区域ROIx
之后在感兴趣区域ROIx中预测得到节点vi所在的位置xi
然后以节点vi的位置xi和节点vi的方向θi为基准锁定子图中局部感兴趣区域ROIs
最后在感兴趣区域ROIs中预测得到节点vi所处的拓扑状态si
输出:节点vi的所有几何和拓扑状态(xii,si),并构建合适的约束函数,使得每次预测产生的节点vi逐渐逼近真值。
进一步地,所述步骤S43中构建拓扑图层的具体过程为:
输入:一张语义地图(子图)
Figure BDA0003351770990000061
经过全局多尺度特征提取模块,输出多尺度的特征图;
多尺度的特征经过车道线注意力模块输出车道线的注意力特征图;
将全局多尺度特征和车道线注意力特征合并后的融合特征图作为后续检测头截取感兴趣区域ROI的来源;
首先将根据父节点的位置和方向从车道线注意力特征图中截取相应ROI传递给方向预测分支,输出下一个节点的方向;
根据方向预测分支输出的方向在车道线注意力特征图上调整ROI的截取范围,再传递给位置预测分支,输出下一个节点的位置;
根据上面的两个分支输出方向和位置从融合特征图中截取相应ROI,传递给状态预测分支,输出下一个节点的拓扑状态。至此在给定父节点的情况下,新节点的全部状态量都已获得;
将生成的节点作为父节点继续进行子节点的搜索;
输出:构建好的拓扑图层。
与现有技术相比,本发明以高精度地图中最常见的两个重要图层:语义(几何)图层和拓扑图层为切入点,提出以车载视觉和定位系统为传感器配置方案,开拓性地搭建了完整的语义和拓扑联合建图算法框架,并针对语义建图和拓扑建图方法分别进行了改进,主要涉及基于视觉的语义分割路面标记提取、基于视觉和定位信息的自动化语义建图以及基于语义地图的自动化拓扑建图,不仅能够保证低成本,同时本发明提出的方法可以构建出相对精度达99%的语义地图,并设计了支持低成本传感器的众包融合策略,拓扑地图位置精度和拓扑关系正确率也高达90%以上,大大提高了建图的自动化程度。
附图说明
图1为本发明的方法流程示意图;
图2为实施例的应用过程示意图;
图3为实施例的联合建图方法原理示意图;
图4为实施例中采集数据车辆传感器配置图;
图5为本发明的图像路面语义分割神经网络架构图;
图6为本发明的拓扑建图网络整体架构图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于单目图像的语义拓扑联合建图方法,包括以下步骤:
S1、车辆沿路径行驶,同步采集车辆前方RGB图像数据、车辆位姿信息、车辆定位数据以及定位数据对应的时间戳信息;
S2、将车辆前方RGB图像数据输入语义分割网络,输出得到包含图像路面类别标识的语义分割图;
S3、构建全局语义地图:将语义分割图中各路面类别标识像素点投影至车体坐标系;
再将车体坐标系中各路面类别标识像素点投影至地图全局坐标系,并将地图全局坐标系中各路面类别标识像素点融入地图数据管理系统;
直至每张RGB图像数据对应语义分割图中各路面类别标识像素点均已融入地图数据管理系统;
由地图数据管理系统生成全局语义地图;
S4、构建拓扑地图:将全局语义地图分解成多个ROI(region of interest,感兴趣区域),并对全局语义地图进行车道拓扑状态的最优解搜索,最后将所有建立拓扑状态的ROI结合构成完整的拓扑地图。
本实施例应用上述方法,其具体应用过程和方法原理分别如图2和图3所示,主要包括:
1)首先按照图4所示的车辆传感器配置进行数据同步采集,包括前视相机的RGB图像数据、车辆位姿信息、GPS和IMU获取的定位数据以及数据对应的时间戳,其中,车辆(相机内参和相机相对于车体坐标系的外参已精确标定)沿着设定的路径行驶。
2)将采集的RGB图像输入本发明提出的语义分割网络,以输出得到包含路面类别标识的语义分割图,如图5所示,本发明采取以编-解码器(Encoder-Decoder)结构的全卷积神经网络(FCN)为基础骨干,结合空间变换网络(STN)的思想搭建了一种新颖的语义(或实例)分割网络。这种语义分割网络可以将传统的逆透视投影算法拆解成多个可导的单应性变换层,在编码的过程中将前视图视角的特征图逐步转换到鸟瞰图视角,而在解码的过程中再通过反向的变换将鸟瞰图视角下多维特征图转换回前视图视角,最终仍使用前视图视角的真值进行有监督训练。整个过程可导,该网络可以使用端到端的训练方式。根据语义分割网络的输出可以得到路面标记的语义信息提取图。
需要说明的是,其中的连续透视变换原理具体为:假设鸟瞰图是由一个垂直向下拍摄的虚拟相机生成,完整的逆透视变换过程是将前视相机的图像转换到所述虚拟相机视角的图像。一次性进行这样的变换即为传统的逆透视变换算法,只需要计算一个单应性变换矩阵H即可。本发明则是将完整的逆透视变换H分解为一系列连续的透视变换{Hi,i+1}(以下用Hi简称),Hi可以将图像从视角i投影到视角i+1(假设存在N个虚拟相机)。结合相机的成像模型,假设已知相机的内参和外参,则这个投影过程即可表示为:
Figure BDA0003351770990000081
其中,Ri,i+1(简称为Ri)是虚拟相机i+1相对于虚拟相机i的旋转矩阵,而ti是对应的平移向量,
Figure BDA0003351770990000082
是地面的法向量,表示了地面的垂直方向,di是虚拟相机i到地面的距离,Ki是虚拟相机i的内参矩阵。
3)结合相机内参和相机相对于车体坐标系的外参,将图像中被提取的语义特征点投影到车体坐标系下,再结合车辆位姿和定位数据将车体坐标系下的语义特征点投影至地图全局坐标下,同时进行全局坐标系下的语义特征点融入地图数据管理系统的新建和更新。这里的相机内参和相机相对于车体坐标系的外参是已知的并经过精确标定,投影至车辆坐标系下的变换是在假设车辆局部地面平坦的情况下,即车标坐标系下的坐标z值为0,根据上述关系可以推导出
Figure BDA0003351770990000091
的关系式,其中P′v为车体坐标系下的点,
Figure BDA0003351770990000092
为图像坐标系下的点。这里的结合车辆位姿和定位数据是通过记录的时间戳将图像和定位信息进行同步,进行位姿的四元数插值计算,得到每一张图像所对应的同一时刻的车辆位姿。根据每张图像所对应的位姿,将车体坐标系下的语义特征点投影到地图全局坐标系下,车体坐标系到全局坐标系的转换关系为
Figure BDA0003351770990000093
同时本发明还采用了一种全新的地图数据管理系统,该系统建立地图数据管理单元Nest和Bin。Nest是以10m*10m*10m为大小的物理世界中的立方体,Bin是以5cm*5cm*5cm为大小的物理世界中立方体,最终的地图数据将以这两个单元为基础进行层级管理:
Nest={(IDx,IDy,IDz),{Bins}}
Bin={(IDx,IDy,IDz),labelB,votebox}
其中ID为其立方体中心点在世界坐标系中的坐标除以相应的分辨率,Bin中类别标签labelB表示这个单元属于哪一种语义类别,投票箱votebox记录了这个Bin被分类为每一种类别的频数,将投票箱内的各个类别被观测到的频次用直方图的形式表示,频次记录最高的类别作为这个Bin的类别标签。
该地图数据管理系统的优势在于以Nest和Bin这两种地图数据管理单元,结合数据管理融合算法和动态投票箱内融合算法,可以准确地将地图数据包括各个路面语义标记等表示出来,同时新建与更新机制准确,有利于众包模式在该地图数据管理系统的应用。
具体过程包括:
3.1)图像坐标系到车体坐标系的投影
已知相机内参K和相机坐标系相对于车体坐标系的外参
Figure BDA0003351770990000094
假设图像中某一点坐标为PI=(u,v)T,在车体坐标系中的坐标为Pv=(xv,yv,zv)T,再结合“车辆所处路面局部平坦”这一假设,得到Pv=(xv,yv,0)T,车体坐标系下路面上的点Pv经过归一化后得到
Figure BDA0003351770990000095
左乘
Figure BDA0003351770990000096
得到相机坐标系下该点的归一化坐标
Figure BDA0003351770990000097
Figure BDA0003351770990000098
Figure BDA0003351770990000099
Figure BDA00033517709900000910
可表述为旋转矩阵和平移向量的组合,
Figure BDA00033517709900000911
Figure BDA0003351770990000101
由于矩阵
Figure BDA0003351770990000102
的第三列将与0相乘,因此可化简为
Figure BDA0003351770990000103
Figure BDA0003351770990000104
而图像坐标系中的点
Figure BDA0003351770990000105
可以根据相机内参K从相机坐标系下转换得到
Figure BDA0003351770990000106
Figure BDA0003351770990000107
zI为归一化系数,由于左右两边PI与P′v均是归一化形式的坐标,故可以统一为归一化参数z。设
Figure BDA0003351770990000108
可以得到
Figure BDA0003351770990000109
3.2)车体坐标系到全局坐标系的投影
结合车辆位姿和定位数据,通过记录的时间戳将图像和定位信息进行同步,进行位姿的四元数插值计算,得到每一张图像所对应的同一时刻的车辆位姿。根据每张图像所对应的位姿,将车体坐标系下的语义特征点投影到地图全局坐标系下,车体坐标系到全局坐标系的转换关系为
Figure BDA00033517709900001010
3.3)融入地图数据管理系统的多次观测数据融合
图像中经过语义分割提取出的路面类别标识像素点经过上述图像坐标系到车体坐标系、车体坐标系到世界坐标系(即地图全局坐标系)的两步投影后得到了一个物理世界中的路面语义特征点,其在全局坐标系中的坐标为Pg=(xg,yg,zg)T,以及这个点所属的语义类别(例如属于白色车道线)为labeli。每个点的这些信息抽象为一个数据结构RealPoint,成员有世界坐标系下的坐标以及语义类别标签:RealPoint={(x,y,z),label},此外建立地图数据管理单元Nest和Bin。Nest是以10m*10m*10m为大小的物理世界中的立方体,Bin是以5cm*5cm*5cm为大小的物理世界中立方体,最终的地图数据将以这两个单元为基础进行层级管理。Nest={(IDx,IDy,IDz),{Bins}},Bin={(IDx,IDy,IDz),labelB,votebox},其中ID为其立方体中心点在世界坐标系中的坐标除以相应的分辨率,Bin中类别标签labelB表示这个单元属于哪一种语义类别,投票箱votebox记录了这个Bin被分类为每一种类别的频数,将投票箱内的各个类别被观测到的频次用直方图的形式表示,频次记录最高的类别作为这个Bin的类别标签。
语义建图过程中数据管理融合算法流程和动态投票箱对多次观测的融合算法流程如下:
Figure BDA00033517709900001011
Figure BDA0003351770990000111
4)结合上述步骤3)中的地图数据管理系统生成的最终全局语义地图,将其分解成许多个ROI输入到本发明提出的拓扑建图神经网络,如图6所示,在语义地图上进行车道拓扑状态的最优解搜索,最后将所有建立拓扑状态的ROI结合成完整的拓扑地图。本发明将拓扑图层的构建建模为一个提取有向无环图的最大似然问题,利用神经网络强大的拟合能力去近似有向无环图的概率分布。考虑到网络的输入是图像,且要提取的目标是车道线,它具有形状狭长、连续性强的特性,因此采用卷积神经网络进行全局多尺度特征的提取,采用循环神经网络进行拓扑节点的提取生成。
即将拓扑状态的最优解搜索分解为三部分:拓扑建图问题的建模、拓扑节点提取算法流程、拓扑建图网络整体架构。
4.1)拓扑建图问题的建模
本发明将车道线级别的所述拓扑地图的建图(简称拓扑建图)抽象为一个有向无环图的搜索和构建,有向无环图中的节点编码了车道线的位置和方向属性,连接节点的边表示了拓扑连接关系,但由于在整个所述全局语义地图上以有向无环图的形式进行精确的拓扑地图搜索的计算量和成本是相当巨大的,进而将其转化为可以用深度神经网络进行优化的最大似然问题,问题描述如下:
输入的语义图层定义为
Figure BDA0003351770990000121
期望的网络输出是将车道线结构化表示的有向无环图G。其中G=(V,E),V表示图中节点的集合,E表示图中边的集合。每个节点vi=(xii,si)编码了节点所处局部的几何和拓扑属性。xi表示了该节点所处的位置,θi表示了节点所指方向,si表示了节点的拓扑状态。在这里定义四种拓扑状态:
(a)正常状态:该节点只有一个父节点和一个子节点;
(b)分叉状态:该点有一个父节点和两个子节点,车道线在这个节点处分叉出两根独立的车道线;
(c)合并状态:该节点有两个父节点和一个子节点,两根车道线在这个节点处合并为一根车道线;
(d)结束状态:该节点为当前车道线的终点,对应了路口遇到停止线的状态。
此外定义vC(i)为节点vi的子节点,vP(i)为节点vi的父节点。当vi节点为分叉点的时候,子节点vC(i)的数量有2个,当vi节点为合并点的时候,父节点vP(i)的数量有2个,当vi节点为结束点的时候,子节点vC(i)的数量有0个。
给定输入语义地图
Figure BDA0003351770990000122
后,目标是在所有可能的有向无环图G的解空间
Figure BDA0003351770990000123
中找到概率最大的一个,也就构建成了最大似然问题:
Figure BDA0003351770990000124
由于G是由若干节点和边组成的有向无环图,因此
Figure BDA0003351770990000127
可以联合概率分布的方式表示如下:
Figure BDA0003351770990000125
其中每一项条件概率
Figure BDA0003351770990000126
又可以被拆解成节点的三个组成元素,即位置、方向、拓扑状态的条件概率连乘:
Figure BDA0003351770990000131
上述最大似然问题被建模成深度神经网络的形式进行最优解的搜索,由于车道线具有狭长,连续性强的特性,因此搭建了以卷积神经网络(Convolution Neural Network,CNN)和循环神经网络(Recursive Neural Network,RNN)相结合的网络结构求解这一问题。
4.2)拓扑节点提取算法流程
按照上述拓扑建图的建模方式,要在几乎无穷多可能的解空间中找到最合适的有向无环图,直接暴力搜索低效且无法实现,为此构建了一种贪心算法用于提取拓扑关系。
Figure BDA0003351770990000132
4.3)拓扑建图网络整体架构
在将拓扑图层的构建建模为一个提取有向无环图的最大似然问题后,本发明利用神经网络强大的拟合能力去近似有向无环图的概率分布。考虑到网络的输入是图像,且要提取的目标是车道线,它具有形状狭长、连续性强的特性,因此采用卷积神经网络进行全局多尺度特征的提取,采用循环神经网络进行拓扑节点的提取生成。
Figure BDA0003351770990000141
在完成上述四个步骤后,高精度地图的语义拓扑层构建完毕。综上可知,本发明以搭建高精度地图的建图框架为基础,提出以车载视觉和定位系统作为感知信息来源的自动化高精度地图算法。目的是使用尽可能低的硬件成本,尽可能低的人力成本,尽可能高的自动化程度进行高精度地图中两个最重要的图层的构建——语义图层和拓扑图层。使用到的方法涉及基于视觉的语义分割路面标记提取、基于视觉和定位信息的自动化语义建图以及基于语义地图的自动化拓扑建图。采用本发明提出的方法,能够构建出相对精度达99%的语义地图,并且设计了支持低成本传感器的众包融合策略,拓扑地图的位置精度和拓扑关系正确率也高达90%以上。

Claims (10)

1.一种基于单目图像的语义拓扑联合建图方法,其特征在于,包括以下步骤:
S1、车辆沿路径行驶,同步采集车辆前方RGB图像数据、车辆位姿信息、车辆定位数据以及定位数据对应的时间戳信息;
S2、将车辆前方RGB图像数据输入语义分割网络,输出得到包含图像路面类别标识的语义分割图;
S3、构建全局语义地图:将语义分割图中各路面类别标识像素点投影至车体坐标系;
再将车体坐标系中各路面类别标识像素点投影至地图全局坐标系,并将地图全局坐标系中各路面类别标识像素点融入地图数据管理系统;
直至每张RGB图像数据对应语义分割图中各路面类别标识像素点均已融入地图数据管理系统;
由地图数据管理系统生成全局语义地图;
S4、构建拓扑地图:将全局语义地图分解成多个ROI,并对全局语义地图进行车道拓扑状态的最优解搜索,最后将所有建立拓扑状态的ROI结合构成完整的拓扑地图。
2.根据权利要求1所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S1中车辆前方RGB图像数据和车辆位姿信息具体是由安装在车辆上的单目相机视觉传感器采集得到,所述车辆定位数据以及定位数据对应的时间戳信息具体是由安装在车辆上的GPS和IMU采集得到。
3.根据权利要求2所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S2中语义分割网络具体是一种采取以编-解码器结构的全卷积神经网络为基础骨干、并结合空间变换网络构建的语义分割网络,所述语义分割网络的具体工作过程为:在编码的过程中将前视图视角的特征图逐步转换到鸟瞰图视角;
在解码的过程中再通过反向的变换,将鸟瞰图视角下多维特征图转换回前视图视角,最终仍使用前视图视角的真值进行有监督训练;
整个编码-解码过程可导,根据语义分割网络的输出,以得到路面标记的语义信息提取图。
4.根据权利要求3所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、图像坐标系到车体坐标系的投影:根据单目相机内参以及相机坐标系相对于车体坐标系的外参,将语义分割图中各路面类别标识像素点投影至车体坐标系;
S32、车体坐标系到地图全局坐标系的投影:结合车辆位姿和定位数据,通过记录的时间戳,将RGB图像和定位信息进行同步,进行位姿的四元数插值计算,得到每一张RGB图像所对应的同一时刻的车辆位姿,根据每张RGB图像所对应的位姿,将车体坐标系下的语义特征点投影至地图全局坐标系下;
S33、建立地图数据管理单元Nest和Bin,以构成地图数据管理系统,所述Nest是以10m*10m*10m为大小的物理世界中的立方体,所述Bin是以5cm*5cm*5cm为大小的物理世界中立方体,具体的:
Nest={(IDx,IDy,IDz),{Bins}}
Bin={(IDx,IDy,IDz),labelB,votebox}
其中,ID为其立方体中心点在世界坐标系中的坐标除以相应的分辨率,Bin中类别标签labelB表示这个单元属于哪一种语义类别,投票箱votebox记录了这个Bin被分类为每一种类别的频数,将投票箱内的各个类别被观测到的频次用直方图的形式表示,频次记录最高的类别即作为这个Bin的类别标签;
结合数据管理融合算法和动态投票箱内融合算法,将地图全局坐标系中的坐标点融入地图数据管理系统。
5.根据权利要求4所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S33中数据管理融合算法的具体过程为:
输入:RGB图像经过语义分割和坐标变换后,投影到地图全局坐标系中,得到点集{RealPointi},每个RealPoint∈{RealPointi}都可以根据其坐标以及Nest和Bin的分辨率,以分别计算各RealPoint所属的Nest以及Bin,其中,RealPoint={(x,y,z),label},RealPoint为地图全局坐标系中的一个路面语义特征点,(x,y,z)为路面语义特征点在地图全局坐标系中的坐标数据,label为路面语义特征点对应的语义类别标签;
如果所归属的Nest当前不存在,则新建一个Nest以及相应的Bin;
否则将当前RealPoint投放到所属的Nest中进行融合,如果当前RealPoint所属的Bin不存在,则新建相应的Bin,并初始化Bin的labelB为RealPoint的label,votebox中对应label的频次为1,其它为0;
否则将当前RealPoint投放进所属的Bin中进行融合投票,更新数据;
输出:处理完点集{RealPoint_i}后保存地图数据。
6.根据权利要求5所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S33中动态投票箱内融合算法的具体过程为:
前提:当前Bin已存在,类别标签labelB=i,投票箱votebox={cj},j为类别编号,类别总数为num_class,即0≤j<num_class,且当前类别的被观测频次ci=max({cj});
输入:一个新的RealPoint(语义分割类别为t),坐标属于当前Bin,需要融合:
在当前Bin的投票箱中更新类别t被观测到频次ct=ct+1;
如果ct>250,则对投票箱内的所有频次数据进行同程度的削减:
cj=max(0,cj-50)
保证频次不会出现负数,0≤j<num_class;
如果在当前Bin的投票箱中,类别t被观测频次大于当前Bin的标签类i被观测到的频次ct>ci,则更新当前Bin的类别标签为t;
否则无需更新类别,仅需更新投票箱数据,融合结束;
输出:融合更新后的Bin。
7.根据权利要求1所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S4中对全局语义地图进行车道拓扑状态的最优解搜索具体包括以下步骤:
S41、将拓扑图层的构建建模为一个提取有向无环图的最大似然问题,其中,有向无环图中的节点编码了车道线的位置和方向属性,连接节点的边则表示拓扑连接关系;
S42、构建贪心算法提取拓扑关系;
S43、考虑到车道线具有狭长、连续性强的特性,采用卷积神经网络进行全局多尺度特征的提取、采用循环神经网络进行拓扑节点的提取生成,以构建得到拓扑图层。
8.根据权利要求7所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S41中构建的最大似然问题具体为:
输入的语义图层定义为
Figure FDA0003351770980000031
期望的网络输出是将车道线结构化表示的有向无环图G,其中G=(V,E),V表示图中节点的集合,E表示图中边的集合,每个节点vi=(xi,θi,si)编码了节点所处局部的几何和拓扑属性,xi表示了该节点所处的位置,θi表示了节点所指方向,si表示了节点的拓扑状态,并定义四种拓扑状态:
(1)正常状态:该节点只有一个父节点和一个子节点;
(2)分叉状态:该点有一个父节点和两个子节点,车道线在这个节点处分叉出两根独立的车道线;
(3)合并状态:该节点有两个父节点和一个子节点,两根车道线在这个节点处合并为一根车道线;
(4)结束状态:该节点为当前车道线的终点,对应了路口遇到停止线的状态;
此外,定义vC(i)为节点vi的子节点,vP(i)为节点vi的父节点,当vi节点为分叉点的时候,子节点vC(i)的数量有2个,当vi节点为合并点的时候,父节点vP(i)的数量有2个,当vi节点为结束点的时候,子节点vC(i)的数量有0个;
给定输入语义地图
Figure FDA0003351770980000041
后,目标是在所有可能的有向无环图G的解空间
Figure FDA0003351770980000042
中找到概率最大的一个,也就构建成了最大似然问题:
Figure FDA0003351770980000043
由于G是由若干节点和边组成的有向无环图,因此
Figure FDA0003351770980000044
可以联合概率分布的方式表示如下:
Figure FDA0003351770980000045
其中,每一项条件概率
Figure FDA0003351770980000046
又可以被拆解成节点的三个组成元素,即位置、方向、拓扑状态的条件概率连乘:
Figure FDA0003351770980000047
上述最大似然问题被建模成深度神经网络的形式进行最优解的搜索。
9.根据权利要求8所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S42中构建的贪心算法的具体工作过程为:
输入:给定父节点vP(i)=(xP(i),θP(i),sP(i))以及当前输入的语义地图子图
Figure FDA0003351770980000048
之后以父节点P(i)的位置xP(i)和方向θP(i)为基准锁定子图中局部感兴趣区域ROIθ
在感兴趣区域ROIθ中预测得到节点vi的方向θi
再以父节点P(i)的位置xP(i)和节点vi方向θi为基准锁定子图中局部感兴趣区域ROIx
之后在感兴趣区域ROIx中预测得到节点vi所在的位置xi
然后以节点vi的位置xi和节点vi的方向θi为基准锁定子图中局部感兴趣区域ROIs
最后在感兴趣区域ROIs中预测得到节点vi所处的拓扑状态si
输出:节点vi的所有几何和拓扑状态(xi,θi,si),并构建合适的约束函数,使得每次预测产生的节点vi逐渐逼近真值。
10.根据权利要求9所述的一种基于单目图像的语义拓扑联合建图方法,其特征在于,所述步骤S43中构建拓扑图层的具体过程为:
输入:一张语义地图(子图)
Figure FDA0003351770980000051
经过全局多尺度特征提取模块,输出多尺度的特征图;
多尺度的特征经过车道线注意力模块输出车道线的注意力特征图;
将全局多尺度特征和车道线注意力特征合并后的融合特征图作为后续检测头截取感兴趣区域ROI的来源;
首先将根据父节点的位置和方向从车道线注意力特征图中截取相应ROI传递给方向预测分支,输出下一个节点的方向;
根据方向预测分支输出的方向在车道线注意力特征图上调整ROI的截取范围,再传递给位置预测分支,输出下一个节点的位置;
根据上面的两个分支输出方向和位置从融合特征图中截取相应ROI,传递给状态预测分支,输出下一个节点的拓扑状态。至此在给定父节点的情况下,新节点的全部状态量都已获得;
将生成的节点作为父节点继续进行子节点的搜索;
输出:构建好的拓扑图层。
CN202111340486.XA 2021-11-12 2021-11-12 一种基于单目图像的语义拓扑联合建图方法 Active CN114116933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111340486.XA CN114116933B (zh) 2021-11-12 2021-11-12 一种基于单目图像的语义拓扑联合建图方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111340486.XA CN114116933B (zh) 2021-11-12 2021-11-12 一种基于单目图像的语义拓扑联合建图方法

Publications (2)

Publication Number Publication Date
CN114116933A true CN114116933A (zh) 2022-03-01
CN114116933B CN114116933B (zh) 2024-09-24

Family

ID=80379267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111340486.XA Active CN114116933B (zh) 2021-11-12 2021-11-12 一种基于单目图像的语义拓扑联合建图方法

Country Status (1)

Country Link
CN (1) CN114116933B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114543788A (zh) * 2022-04-25 2022-05-27 北京理工大学 结构非结构环境通用的多层全局感知地图构建方法及系统
CN114964208A (zh) * 2022-04-24 2022-08-30 山东新一代信息产业技术研究院有限公司 一种基于视觉的较高精度导航特征地图构建方法
CN116976356A (zh) * 2023-07-24 2023-10-31 云创智行科技(苏州)有限公司 一种拓扑图重复节点语义推断方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106840148A (zh) * 2017-01-24 2017-06-13 东南大学 室外作业环境下基于双目摄像机的可穿戴式定位与路径引导方法
EP3543907A1 (en) * 2018-03-22 2019-09-25 HERE Global B.V. Method, apparatus, and system for dynamic adaptation of an in-vehicle feature detector
CN111360780A (zh) * 2020-03-20 2020-07-03 北京工业大学 一种基于视觉语义slam的垃圾捡拾机器人

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106840148A (zh) * 2017-01-24 2017-06-13 东南大学 室外作业环境下基于双目摄像机的可穿戴式定位与路径引导方法
EP3543907A1 (en) * 2018-03-22 2019-09-25 HERE Global B.V. Method, apparatus, and system for dynamic adaptation of an in-vehicle feature detector
CN111360780A (zh) * 2020-03-20 2020-07-03 北京工业大学 一种基于视觉语义slam的垃圾捡拾机器人

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI TIAN等: "vision-based mapping of lane semantics and topology for intelligent vehicles", INTERNATIONAL JOURNAL OF APPLIED EARTH OBSERVATIONS AND GEOINFORMATION, 30 July 2022 (2022-07-30), pages 1 - 11 *
刘鑫等: "多机器人协同SLAM技术研究进展", 计算机工程, vol. 48, no. 5, 18 November 2021 (2021-11-18), pages 1 - 10 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114964208A (zh) * 2022-04-24 2022-08-30 山东新一代信息产业技术研究院有限公司 一种基于视觉的较高精度导航特征地图构建方法
CN114543788A (zh) * 2022-04-25 2022-05-27 北京理工大学 结构非结构环境通用的多层全局感知地图构建方法及系统
CN114543788B (zh) * 2022-04-25 2022-08-09 北京理工大学 结构非结构环境通用的多层全局感知地图构建方法及系统
CN116976356A (zh) * 2023-07-24 2023-10-31 云创智行科技(苏州)有限公司 一种拓扑图重复节点语义推断方法及装置

Also Published As

Publication number Publication date
CN114116933B (zh) 2024-09-24

Similar Documents

Publication Publication Date Title
Xia et al. Geometric primitives in LiDAR point clouds: A review
CN111815776B (zh) 综合机载和车载三维激光点云及街景影像的三维建筑物精细几何重建方法
Li et al. Hdmapnet: An online hd map construction and evaluation framework
Li et al. Building and optimization of 3D semantic map based on Lidar and camera fusion
US20230135512A1 (en) Method for updating road signs and markings on basis of monocular images
CN113516664B (zh) 一种基于语义分割动态点的视觉slam方法
CN111060924B (zh) 一种slam与目标跟踪方法
Bao et al. High-definition map generation technologies for autonomous driving
CN114116933A (zh) 一种基于单目图像的语义拓扑联合建图方法
CN111080659A (zh) 一种基于视觉信息的环境语义感知方法
Li et al. WHU-helmet: A helmet-based multisensor SLAM dataset for the evaluation of real-time 3-D mapping in large-scale GNSS-denied environments
Yin et al. General place recognition survey: Towards the real-world autonomy age
CN118314180A (zh) 基于无导数优化的点云匹配方法及系统
CN116129066A (zh) 基于数字孪生的自动驾驶高精度地图模型及高精度静态地图制作方法
CN115131669A (zh) 多源数据协同的人车路网一体化构建方法
CN115564865A (zh) 一种众包高精地图的构建方法、系统、电子设备及车辆
Ren et al. Lightweight semantic-aided localization with spinning LiDAR sensor
Mutz et al. What is the best grid-map for self-driving cars localization? An evaluation under diverse types of illumination, traffic, and environment
He et al. Automatch: Leveraging traffic camera to improve perception and localization of autonomous vehicles
Wu et al. A stepwise minimum spanning tree matching method for registering vehicle-borne and backpack LiDAR point clouds
Tang et al. High-definition maps construction based on visual sensor: A comprehensive survey
Ma et al. Monocular 3d lane detection for autonomous driving: Recent achievements, challenges, and outlooks
Pfeiffer The stixel world
Kong et al. UAV LiDAR data-based lane-level road network generation for urban scene HD Maps
Wang et al. DelvMap: Completing Residential Roads in Maps Based on Couriers’ Trajectories and Satellite Imagery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant