CN114116933A

CN114116933A - 一种基于单目图像的语义拓扑联合建图方法

Info

Publication number: CN114116933A
Application number: CN202111340486.XA
Authority: CN
Inventors: 田炜; 余先旺; 任晓舟; 邓振文; 黄禹尧; 谭大艺; 韩帅
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-03-01
Anticipated expiration: 2041-11-12
Also published as: CN114116933B

Abstract

本发明涉及一种基于单目图像的语义拓扑联合建图方法，包括：车辆同步采集相机RGB图像数据、GPS和IMU定位数据等；将采集图像输入至语义分割网络，得到图像路面类型标识的语义分割图；将各图像中被提取的路面标识像素点投影至地图全局坐标下，并将其融入地图数据管理系统；将地图数据管理系统生成的全局语义地图分解成多个ROI，通过本发明设计的网络结构在语义地图上进行车道拓扑状态的最优解搜索，最后将所有建立拓扑状态的ROI结合成完整的拓扑地图。与现有技术相比，本发明以车载视觉和定位系统为传感器配置方案，可以构建出相对精度达99％的语义地图，并且设计了支持低成本传感器的众包融合策略，能够可靠保证拓扑地图的位置精度和拓扑关系正确率。

Description

一种基于单目图像的语义拓扑联合建图方法

技术领域

本发明涉及自动驾驶技术领域，尤其是涉及一种基于单目图像的语义拓扑联合建图方法。

背景技术

在车辆实现自动驾驶的过程中，除了需要给车辆配备各种实时传感器，如相机、激光雷达、毫米波雷达之外，基本都离不开另外一个可以提供大量周围环境信息的“传感器”——高精度地图。高精度地图不同于面向人类的传统电子地图，它是专为自动驾驶汽车打造的，能够支持其完成自动驾驶任务，是一种能够提供信息更多、精度也更高的地图。

目前，高精度地图建图的技术路线主要分为两种：一种是使用激光雷达与视觉感知融合的多模态数据路线(对应Waymo，Here的测绘车采集策略)；另一种则是以视觉感知信息为主的路线(对应Mobileye的众包采集策略)。其中，使用激光雷达进行建图的方式，其成本高昂，在面对巨大待建图道路总量以及道路情况随时可能更新的情况下，应尽可能发展使用低成本传感器如相机和GNSS定位系统进行建图的技术。

但不管是采用激光雷达和视觉融合感知的建图方案、还是依靠视觉感知的建图方案，构建高精度地图的流程都包括数据采集、数据清洗和匹配拼接、人工或半自动化的地图语义元素标注、人工或半自动化的拓扑关系标注等步骤，部分难以通过计算机视觉识别的语义特征以及语义元素之间的拓扑逻辑关系标注仍旧离不开人工的编辑加工(平均工作量约为30km路段/人/天)，而拓扑信息由于抽象程度更高，需要更大的工作量，因此，降低建图工作的成本和提高其自动化程度是当前亟需解决的问题。

此外，在高精度地图建图涉及到的多个领域中，也存在着很多有待改善的问题，例如基于视觉的道路语义特征提取方法仍面临着距离自车较远位置的检测精度明显下降的问题；语义建图方法中一部分工作使用了激光雷达或者人工的标注，另一部分使用了传统的自然特征点作为建图特征，而使用车道线等路面语义信息作为建图特征的相关工作采用了视觉或激光里程计的定位方式，不满足高精度地图对精度的要求；拓扑建图方法中大部分工作仍停留在道路级别拓扑路网的构建，不满足高精度地图车道级别的要求，少量构建车道级别拓扑地图的工作仍是采用激光雷达作为主要传感器，面临硬件成本较高的问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于单目图像的语义拓扑联合建图方法，以实现低成本、高自动化程度的语义建图和拓扑建图。

本发明的目的可以通过以下技术方案来实现：一种基于单目图像的语义拓扑联合建图方法，包括以下步骤：

S1、车辆沿路径行驶，同步采集车辆前方RGB图像数据、车辆位姿信息、车辆定位数据以及定位数据对应的时间戳信息；

S2、将车辆前方RGB图像数据输入语义分割网络，输出得到包含图像路面类别标识的语义分割图；

S3、构建全局语义地图：将语义分割图中各路面类别标识像素点投影至车体坐标系；

再将车体坐标系中各路面类别标识像素点投影至地图全局坐标系，并将地图全局坐标系中各路面类别标识像素点融入地图数据管理系统；

直至每张RGB图像数据对应语义分割图中各路面类别标识像素点均已融入地图数据管理系统；

由地图数据管理系统生成全局语义地图；

S4、构建拓扑地图：将全局语义地图分解成多个ROI(region of interest，感兴趣区域)，并对全局语义地图进行车道拓扑状态的最优解搜索，最后将所有建立拓扑状态的ROI结合构成完整的拓扑地图。

进一步地，所述步骤S1中车辆前方RGB图像数据和车辆位姿信息具体是由安装在车辆上的单目相机视觉传感器采集得到，所述车辆定位数据以及定位数据对应的时间戳信息具体是由安装在车辆上的GPS和IMU(Inertial Measurement Unit，惯性测量单元)采集得到。

进一步地，所述步骤S2中语义分割网络具体是一种采取以编-解码器结构的全卷积神经网络为基础骨干、并结合空间变换网络构建的语义分割网络，所述语义分割网络的具体工作过程为：在编码的过程中将前视图视角的特征图逐步转换到鸟瞰图视角；

在解码的过程中再通过反向的变换，将鸟瞰图视角下多维特征图转换回前视图视角，最终仍使用前视图视角的真值进行有监督训练；

整个编码-解码过程可导，根据语义分割网络的输出，以得到路面标记的语义信息提取图。

进一步地，所述步骤S3具体包括以下步骤：

S31、图像坐标系到车体坐标系的投影：根据单目相机内参以及相机坐标系相对于车体坐标系的外参，将语义分割图中各路面类别标识像素点投影至车体坐标系；

S32、车体坐标系到地图全局坐标系的投影：结合车辆位姿和定位数据，通过记录的时间戳，将RGB图像和定位信息进行同步，进行位姿的四元数插值计算，得到每一张RGB图像所对应的同一时刻的车辆位姿，根据每张RGB图像所对应的位姿，将车体坐标系下的语义特征点投影至地图全局坐标系下；

S33、建立地图数据管理单元Nest和Bin，以构成地图数据管理系统，所述Nest是以10m*10m*10m为大小的物理世界中的立方体，所述Bin是以5cm*5cm*5cm为大小的物理世界中立方体，具体的：

Nest＝{(ID_x,ID_y,ID_z),{Bins}}

Bin＝{(ID_x,ID_y,ID_z),label_B,votebox}

其中，ID为其立方体中心点在世界坐标系中的坐标除以相应的分辨率，Bin中类别标签label_B表示这个单元属于哪一种语义类别，投票箱votebox记录了这个Bin被分类为每一种类别的频数，将投票箱内的各个类别被观测到的频次用直方图的形式表示，频次记录最高的类别即作为这个Bin的类别标签；

结合数据管理融合算法和动态投票箱内融合算法，将地图全局坐标系中的坐标点融入地图数据管理系统。

进一步地，所述步骤S33中数据管理融合算法的具体过程为：

输入：RGB图像经过语义分割和坐标变换后，投影到地图全局坐标系中，得到点集{RealPoint_i}，每个RealPoint∈{RealPoint_i}都可以根据其坐标以及Nest和Bin的分辨率，以分别计算各RealPoint所属的Nest以及Bin，其中，RealPoint＝{(x,y,z),label}，RealPoint＝{(x,y,z),label}，RealPoint为地图全局坐标系中的一个路面语义特征点，(x,y,z)为路面语义特征点在地图全局坐标系中的坐标数据，label为路面语义特征点对应的语义类别标签；

如果所归属的Nest当前不存在，则新建一个Nest以及相应的Bin；

否则将当前RealPoint投放到所属的Nest中进行融合，如果当前RealPoint所属的Bin不存在，则新建相应的Bin，并初始化Bin的label_B为RealPoint的label，votebox中对应label的频次为1，其它为0；

否则将当前RealPoint投放进所属的Bin中进行融合投票，更新数据；

输出：处理完点集{RealPoint_i}后保存地图数据。

进一步地，所述步骤S33中动态投票箱内融合算法的具体过程为：

前提：当前Bin已存在，类别标签label_B＝i，投票箱votebox＝{c_j}，j为类别编号，类别总数为num_class，即0≤j＜num_class，且当前类别的被观测频次c_i＝max({c_j})；

输入：一个新的RealPoint(语义分割类别为t)，坐标属于当前Bin，需要融合：

在当前Bin的投票箱中更新类别t被观测到频次c_t＝c_t+1；

如果c_t＞250，则对投票箱内的所有频次数据进行同程度的削减：

c_j＝max(0,c_j-50)

保证频次不会出现负数，0≤j＜num_class；

如果在当前Bin的投票箱中，类别t被观测频次大于当前Bin的标签类i被观测到的频次c_t＞c_i，则更新当前Bin的类别标签为t；

否则无需更新类别，仅需更新投票箱数据，融合结束；

输出：融合更新后的Bin。

进一步地，所述步骤S4中对全局语义地图进行车道拓扑状态的最优解搜索具体包括以下步骤：

S41、将拓扑图层的构建建模为一个提取有向无环图的最大似然问题，其中，有向无环图中的节点编码了车道线的位置和方向属性，连接节点的边则表示拓扑连接关系；

S42、构建贪心算法提取拓扑关系；

S43、考虑到车道线具有狭长、连续性强的特性，采用卷积神经网络进行全局多尺度特征的提取、采用循环神经网络进行拓扑节点的提取生成，以构建得到拓扑图层。

进一步地，所述步骤S41中构建的最大似然问题具体为：

输入的语义图层定义为

期望的网络输出是将车道线结构化表示的有向无环图G，其中G＝(V,E)，V表示图中节点的集合，E表示图中边的集合，每个节点v_i＝(x_i,θ_i,s_i)编码了节点所处局部的几何和拓扑属性，x_i表示了该节点所处的位置，θ_i表示了节点所指方向，s_i表示了节点的拓扑状态，并定义四种拓扑状态：

(1)正常状态：该节点只有一个父节点和一个子节点；

(2)分叉状态：该点有一个父节点和两个子节点，车道线在这个节点处分叉出两根独立的车道线；

(3)合并状态：该节点有两个父节点和一个子节点，两根车道线在这个节点处合并为一根车道线；

(4)结束状态：该节点为当前车道线的终点，对应了路口遇到停止线的状态；

此外，定义v_C(i)为节点v_i的子节点，v_P(i)为节点v_i的父节点，当v_i节点为分叉点的时候，子节点v_C(i)的数量有2个，当v_i节点为合并点的时候，父节点v_P(i)的数量有2个，当v_i节点为结束点的时候，子节点v_C(i)的数量有0个；

给定输入语义地图

后，目标是在所有可能的有向无环图G的解空间

中找到概率最大的一个，也就构建成了最大似然问题：

由于G是由若干节点和边组成的有向无环图，因此

可以联合概率分布的方式表示如下：

其中，每一项条件概率

又可以被拆解成节点的三个组成元素，即位置、方向、拓扑状态的条件概率连乘：

上述最大似然问题被建模成深度神经网络的形式进行最优解的搜索。

进一步地，所述步骤S42中构建的贪心算法的具体工作过程为：

输入：给定父节点v_P(i)＝(x_P(i),θ_P(i),s_P(i))以及当前输入的语义地图子图

之后以父节点P(i)的位置x_P(i)和方向θ_P(i)为基准锁定子图中局部感兴趣区域ROI_θ；

在感兴趣区域ROI_θ中预测得到节点v_i的方向θ_i；

再以父节点P(i)的位置x_P(i)和节点v_i方向θ_i为基准锁定子图中局部感兴趣区域ROI_x；

之后在感兴趣区域ROI_x中预测得到节点v_i所在的位置x_i；

然后以节点v_i的位置x_i和节点v_i的方向θ_i为基准锁定子图中局部感兴趣区域ROI_s；

最后在感兴趣区域ROI_s中预测得到节点v_i所处的拓扑状态s_i；

输出：节点v_i的所有几何和拓扑状态(x_i,θ_i,s_i)，并构建合适的约束函数，使得每次预测产生的节点v_i逐渐逼近真值。

进一步地，所述步骤S43中构建拓扑图层的具体过程为：

输入：一张语义地图(子图)

经过全局多尺度特征提取模块，输出多尺度的特征图；

多尺度的特征经过车道线注意力模块输出车道线的注意力特征图；

将全局多尺度特征和车道线注意力特征合并后的融合特征图作为后续检测头截取感兴趣区域ROI的来源；

首先将根据父节点的位置和方向从车道线注意力特征图中截取相应ROI传递给方向预测分支，输出下一个节点的方向；

根据方向预测分支输出的方向在车道线注意力特征图上调整ROI的截取范围，再传递给位置预测分支，输出下一个节点的位置；

根据上面的两个分支输出方向和位置从融合特征图中截取相应ROI，传递给状态预测分支，输出下一个节点的拓扑状态。至此在给定父节点的情况下，新节点的全部状态量都已获得；

将生成的节点作为父节点继续进行子节点的搜索；

输出：构建好的拓扑图层。

与现有技术相比，本发明以高精度地图中最常见的两个重要图层：语义(几何)图层和拓扑图层为切入点，提出以车载视觉和定位系统为传感器配置方案，开拓性地搭建了完整的语义和拓扑联合建图算法框架，并针对语义建图和拓扑建图方法分别进行了改进，主要涉及基于视觉的语义分割路面标记提取、基于视觉和定位信息的自动化语义建图以及基于语义地图的自动化拓扑建图，不仅能够保证低成本，同时本发明提出的方法可以构建出相对精度达99％的语义地图，并设计了支持低成本传感器的众包融合策略，拓扑地图位置精度和拓扑关系正确率也高达90％以上，大大提高了建图的自动化程度。

附图说明

图1为本发明的方法流程示意图；

图2为实施例的应用过程示意图；

图3为实施例的联合建图方法原理示意图；

图4为实施例中采集数据车辆传感器配置图；

图5为本发明的图像路面语义分割神经网络架构图；

图6为本发明的拓扑建图网络整体架构图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种基于单目图像的语义拓扑联合建图方法，包括以下步骤：

由地图数据管理系统生成全局语义地图；

本实施例应用上述方法，其具体应用过程和方法原理分别如图2和图3所示，主要包括：

1)首先按照图4所示的车辆传感器配置进行数据同步采集，包括前视相机的RGB图像数据、车辆位姿信息、GPS和IMU获取的定位数据以及数据对应的时间戳，其中，车辆(相机内参和相机相对于车体坐标系的外参已精确标定)沿着设定的路径行驶。

2)将采集的RGB图像输入本发明提出的语义分割网络，以输出得到包含路面类别标识的语义分割图，如图5所示，本发明采取以编-解码器(Encoder-Decoder)结构的全卷积神经网络(FCN)为基础骨干，结合空间变换网络(STN)的思想搭建了一种新颖的语义(或实例)分割网络。这种语义分割网络可以将传统的逆透视投影算法拆解成多个可导的单应性变换层，在编码的过程中将前视图视角的特征图逐步转换到鸟瞰图视角，而在解码的过程中再通过反向的变换将鸟瞰图视角下多维特征图转换回前视图视角，最终仍使用前视图视角的真值进行有监督训练。整个过程可导，该网络可以使用端到端的训练方式。根据语义分割网络的输出可以得到路面标记的语义信息提取图。

需要说明的是，其中的连续透视变换原理具体为：假设鸟瞰图是由一个垂直向下拍摄的虚拟相机生成，完整的逆透视变换过程是将前视相机的图像转换到所述虚拟相机视角的图像。一次性进行这样的变换即为传统的逆透视变换算法，只需要计算一个单应性变换矩阵H即可。本发明则是将完整的逆透视变换H分解为一系列连续的透视变换{H_i,i+1}(以下用H_i简称)，H_i可以将图像从视角i投影到视角i+1(假设存在N个虚拟相机)。结合相机的成像模型，假设已知相机的内参和外参，则这个投影过程即可表示为：

其中，R_i,i+1(简称为R_i)是虚拟相机i+1相对于虚拟相机i的旋转矩阵，而t_i是对应的平移向量，

是地面的法向量，表示了地面的垂直方向，d_i是虚拟相机i到地面的距离，K_i是虚拟相机i的内参矩阵。

3)结合相机内参和相机相对于车体坐标系的外参，将图像中被提取的语义特征点投影到车体坐标系下，再结合车辆位姿和定位数据将车体坐标系下的语义特征点投影至地图全局坐标下，同时进行全局坐标系下的语义特征点融入地图数据管理系统的新建和更新。这里的相机内参和相机相对于车体坐标系的外参是已知的并经过精确标定，投影至车辆坐标系下的变换是在假设车辆局部地面平坦的情况下，即车标坐标系下的坐标z值为0，根据上述关系可以推导出

的关系式，其中P′_v为车体坐标系下的点，

为图像坐标系下的点。这里的结合车辆位姿和定位数据是通过记录的时间戳将图像和定位信息进行同步，进行位姿的四元数插值计算，得到每一张图像所对应的同一时刻的车辆位姿。根据每张图像所对应的位姿，将车体坐标系下的语义特征点投影到地图全局坐标系下，车体坐标系到全局坐标系的转换关系为

同时本发明还采用了一种全新的地图数据管理系统，该系统建立地图数据管理单元Nest和Bin。Nest是以10m*10m*10m为大小的物理世界中的立方体，Bin是以5cm*5cm*5cm为大小的物理世界中立方体，最终的地图数据将以这两个单元为基础进行层级管理：

Nest＝{(ID_x,ID_y,ID_z),{Bins}}

Bin＝{(ID_x,ID_y,ID_z),label_B,votebox}

其中ID为其立方体中心点在世界坐标系中的坐标除以相应的分辨率，Bin中类别标签label_B表示这个单元属于哪一种语义类别，投票箱votebox记录了这个Bin被分类为每一种类别的频数，将投票箱内的各个类别被观测到的频次用直方图的形式表示，频次记录最高的类别作为这个Bin的类别标签。

该地图数据管理系统的优势在于以Nest和Bin这两种地图数据管理单元，结合数据管理融合算法和动态投票箱内融合算法，可以准确地将地图数据包括各个路面语义标记等表示出来，同时新建与更新机制准确，有利于众包模式在该地图数据管理系统的应用。

具体过程包括：

3.1)图像坐标系到车体坐标系的投影

已知相机内参K和相机坐标系相对于车体坐标系的外参

假设图像中某一点坐标为P_I＝(u,v)^T，在车体坐标系中的坐标为P_v＝(x_v,y_v,z_v)^T，再结合“车辆所处路面局部平坦”这一假设，得到P_v＝(x_v,y_v,0)^T，车体坐标系下路面上的点P_v经过归一化后得到

左乘

得到相机坐标系下该点的归一化坐标

即

可表述为旋转矩阵和平移向量的组合，

由于矩阵

的第三列将与0相乘，因此可化简为

而图像坐标系中的点

可以根据相机内参K从相机坐标系下转换得到

z_I为归一化系数，由于左右两边P_I与P′_v均是归一化形式的坐标，故可以统一为归一化参数z。设

可以得到

3.2)车体坐标系到全局坐标系的投影

结合车辆位姿和定位数据，通过记录的时间戳将图像和定位信息进行同步，进行位姿的四元数插值计算，得到每一张图像所对应的同一时刻的车辆位姿。根据每张图像所对应的位姿，将车体坐标系下的语义特征点投影到地图全局坐标系下，车体坐标系到全局坐标系的转换关系为

3.3)融入地图数据管理系统的多次观测数据融合

图像中经过语义分割提取出的路面类别标识像素点经过上述图像坐标系到车体坐标系、车体坐标系到世界坐标系(即地图全局坐标系)的两步投影后得到了一个物理世界中的路面语义特征点，其在全局坐标系中的坐标为P_g＝(x_g,y_g,z_g)^T，以及这个点所属的语义类别(例如属于白色车道线)为label_i。每个点的这些信息抽象为一个数据结构RealPoint，成员有世界坐标系下的坐标以及语义类别标签：RealPoint＝{(x,y,z),label}，此外建立地图数据管理单元Nest和Bin。Nest是以10m*10m*10m为大小的物理世界中的立方体，Bin是以5cm*5cm*5cm为大小的物理世界中立方体，最终的地图数据将以这两个单元为基础进行层级管理。Nest＝{(ID_x,ID_y,ID_z),{Bins}}，Bin＝{(ID_x,ID_y,ID_z),label_B,votebox}，其中ID为其立方体中心点在世界坐标系中的坐标除以相应的分辨率，Bin中类别标签label_B表示这个单元属于哪一种语义类别，投票箱votebox记录了这个Bin被分类为每一种类别的频数，将投票箱内的各个类别被观测到的频次用直方图的形式表示，频次记录最高的类别作为这个Bin的类别标签。

语义建图过程中数据管理融合算法流程和动态投票箱对多次观测的融合算法流程如下：

4)结合上述步骤3)中的地图数据管理系统生成的最终全局语义地图，将其分解成许多个ROI输入到本发明提出的拓扑建图神经网络，如图6所示，在语义地图上进行车道拓扑状态的最优解搜索，最后将所有建立拓扑状态的ROI结合成完整的拓扑地图。本发明将拓扑图层的构建建模为一个提取有向无环图的最大似然问题，利用神经网络强大的拟合能力去近似有向无环图的概率分布。考虑到网络的输入是图像，且要提取的目标是车道线，它具有形状狭长、连续性强的特性，因此采用卷积神经网络进行全局多尺度特征的提取，采用循环神经网络进行拓扑节点的提取生成。

即将拓扑状态的最优解搜索分解为三部分：拓扑建图问题的建模、拓扑节点提取算法流程、拓扑建图网络整体架构。

4.1)拓扑建图问题的建模

本发明将车道线级别的所述拓扑地图的建图(简称拓扑建图)抽象为一个有向无环图的搜索和构建，有向无环图中的节点编码了车道线的位置和方向属性，连接节点的边表示了拓扑连接关系，但由于在整个所述全局语义地图上以有向无环图的形式进行精确的拓扑地图搜索的计算量和成本是相当巨大的，进而将其转化为可以用深度神经网络进行优化的最大似然问题，问题描述如下：

输入的语义图层定义为

期望的网络输出是将车道线结构化表示的有向无环图G。其中G＝(V,E)，V表示图中节点的集合，E表示图中边的集合。每个节点v_i＝(x_i,θ_i,s_i)编码了节点所处局部的几何和拓扑属性。x_i表示了该节点所处的位置，θ_i表示了节点所指方向，s_i表示了节点的拓扑状态。在这里定义四种拓扑状态：

(a)正常状态：该节点只有一个父节点和一个子节点；

(b)分叉状态：该点有一个父节点和两个子节点，车道线在这个节点处分叉出两根独立的车道线；

(c)合并状态：该节点有两个父节点和一个子节点，两根车道线在这个节点处合并为一根车道线；

(d)结束状态：该节点为当前车道线的终点，对应了路口遇到停止线的状态。

此外定义v_C(i)为节点v_i的子节点，v_P(i)为节点v_i的父节点。当v_i节点为分叉点的时候，子节点v_C(i)的数量有2个，当v_i节点为合并点的时候，父节点v_P(i)的数量有2个，当v_i节点为结束点的时候，子节点v_C(i)的数量有0个。

给定输入语义地图

后，目标是在所有可能的有向无环图G的解空间

中找到概率最大的一个，也就构建成了最大似然问题：

由于G是由若干节点和边组成的有向无环图，因此

可以联合概率分布的方式表示如下：

其中每一项条件概率

上述最大似然问题被建模成深度神经网络的形式进行最优解的搜索，由于车道线具有狭长，连续性强的特性，因此搭建了以卷积神经网络(Convolution Neural Network，CNN)和循环神经网络(Recursive Neural Network，RNN)相结合的网络结构求解这一问题。

4.2)拓扑节点提取算法流程

按照上述拓扑建图的建模方式，要在几乎无穷多可能的解空间中找到最合适的有向无环图，直接暴力搜索低效且无法实现，为此构建了一种贪心算法用于提取拓扑关系。

4.3)拓扑建图网络整体架构

在将拓扑图层的构建建模为一个提取有向无环图的最大似然问题后，本发明利用神经网络强大的拟合能力去近似有向无环图的概率分布。考虑到网络的输入是图像，且要提取的目标是车道线，它具有形状狭长、连续性强的特性，因此采用卷积神经网络进行全局多尺度特征的提取，采用循环神经网络进行拓扑节点的提取生成。

在完成上述四个步骤后，高精度地图的语义拓扑层构建完毕。综上可知，本发明以搭建高精度地图的建图框架为基础，提出以车载视觉和定位系统作为感知信息来源的自动化高精度地图算法。目的是使用尽可能低的硬件成本，尽可能低的人力成本，尽可能高的自动化程度进行高精度地图中两个最重要的图层的构建——语义图层和拓扑图层。使用到的方法涉及基于视觉的语义分割路面标记提取、基于视觉和定位信息的自动化语义建图以及基于语义地图的自动化拓扑建图。采用本发明提出的方法，能够构建出相对精度达99％的语义地图，并且设计了支持低成本传感器的众包融合策略，拓扑地图的位置精度和拓扑关系正确率也高达90％以上。

Claims

1.一种基于单目图像的语义拓扑联合建图方法，其特征在于，包括以下步骤：

由地图数据管理系统生成全局语义地图；

S4、构建拓扑地图：将全局语义地图分解成多个ROI，并对全局语义地图进行车道拓扑状态的最优解搜索，最后将所有建立拓扑状态的ROI结合构成完整的拓扑地图。

2.根据权利要求1所述的一种基于单目图像的语义拓扑联合建图方法，其特征在于，所述步骤S1中车辆前方RGB图像数据和车辆位姿信息具体是由安装在车辆上的单目相机视觉传感器采集得到，所述车辆定位数据以及定位数据对应的时间戳信息具体是由安装在车辆上的GPS和IMU采集得到。

3.根据权利要求2所述的一种基于单目图像的语义拓扑联合建图方法，其特征在于，所述步骤S2中语义分割网络具体是一种采取以编-解码器结构的全卷积神经网络为基础骨干、并结合空间变换网络构建的语义分割网络，所述语义分割网络的具体工作过程为：在编码的过程中将前视图视角的特征图逐步转换到鸟瞰图视角；

4.根据权利要求3所述的一种基于单目图像的语义拓扑联合建图方法，其特征在于，所述步骤S3具体包括以下步骤：

Nest＝{(ID_x，ID_y，ID_z)，{Bins}}

Bin＝{(ID_x，ID_y，ID_z)，label_B，votebox}

5.根据权利要求4所述的一种基于单目图像的语义拓扑联合建图方法，其特征在于，所述步骤S33中数据管理融合算法的具体过程为：

输入：RGB图像经过语义分割和坐标变换后，投影到地图全局坐标系中，得到点集{RealPoint_i}，每个RealPoint∈{RealPoint_i}都可以根据其坐标以及Nest和Bin的分辨率，以分别计算各RealPoint所属的Nest以及Bin，其中，RealPoint＝{(x，y，z)，label}，RealPoint为地图全局坐标系中的一个路面语义特征点，(x，y，z)为路面语义特征点在地图全局坐标系中的坐标数据，label为路面语义特征点对应的语义类别标签；

输出：处理完点集{RealPoint_i}后保存地图数据。

6.根据权利要求5所述的一种基于单目图像的语义拓扑联合建图方法，其特征在于，所述步骤S33中动态投票箱内融合算法的具体过程为：

在当前Bin的投票箱中更新类别t被观测到频次c_t＝c_t+1；

c_j＝max(0，c_j-50)

保证频次不会出现负数，0≤j＜num_class；

否则无需更新类别，仅需更新投票箱数据，融合结束；

输出：融合更新后的Bin。

7.根据权利要求1所述的一种基于单目图像的语义拓扑联合建图方法，其特征在于，所述步骤S4中对全局语义地图进行车道拓扑状态的最优解搜索具体包括以下步骤：

S42、构建贪心算法提取拓扑关系；

8.根据权利要求7所述的一种基于单目图像的语义拓扑联合建图方法，其特征在于，所述步骤S41中构建的最大似然问题具体为：

输入的语义图层定义为