CN110136049A

CN110136049A - 一种基于环视图像与轮速计融合的定位方法及车载终端

Info

Publication number: CN110136049A
Application number: CN201811280053.8A
Authority: CN
Inventors: 张家旺; 汪路超; 谢国富
Original assignee: Beijing Initial Speed Technology Co Ltd
Current assignee: Beijing Momenta Technology Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-08-16
Anticipated expiration: 2038-10-30
Also published as: CN110136049B

Abstract

一种基于环视图像与轮速计融合的定位方法及车载终端，所述定位方法包括：拼接多个图像采集装置在同一时刻拍摄到的多张目标图像，以得到俯视拼接图；识别俯视拼接图中的图像语义特征；基于所述图像语义特征和轮速计进行定位。该方法采用环视拼接图的直接法并融合轮速计，在保证算法鲁棒性的同时能够有效提升定位精度。

Description

一种基于环视图像与轮速计融合的定位方法及车载终端

技术领域

本发明涉及自动驾驶技术领域，具体涉及一种基于环视图像与轮速计融合的定位方法及车载终端。

背景技术

目前基于环视图像的车辆定位技术因其定位精度高、成本低廉等优点，具有很大的应用前景。基于环视图像的定位技术主要分为两类：1)基于特征点匹配的方法；2)基于环视拼接图的直接法。方法1)的优点是定位精度高，主要的问题在于特征点的提取及特征点的匹配非常依赖应用场景，算法鲁棒性差；方法2)的优点是对场景更鲁棒，缺点是常常会得到局部最优的结果导致定位精度较低。

发明内容

本发明提出一种基于环视图像与轮速计融合的方案，能够实时构建地图并进行定位。该方案采用环视拼接图的直接法并融合轮速计，在保证算法鲁棒性的同时能够有效提升定位精度。

本发明的一个方面是提供一种基于环视图像与轮速计融合的定位方法，其特征在于，所述方法包括步骤：

101、拼接多个图像采集装置在同一时刻拍摄到的多张目标图像，以得到俯视拼接图；

102、识别所述俯视拼接图中的图像语义特征；

103、基于所述图像语义特征和轮速计进行定位；

所述步骤102包括，通过深度学习的神经网络模型识别所述图像语义特征，并且预先对所述神经网络模型进行训练。

所述训练采用交叉熵来衡量网络的预测值与实际值的差异，所述交叉熵的公式如下：

其中y为图像元素的标记值，1表示语义元素，0表示非语义元素；n为图像的像素总数，x为输入，a为神经元的输出。

优选的，在所述步骤102中，所述图像语义特征可以为车道线、停车库位线、库位点、斑马线、车道箭头的一种或多种。

本发明的第二方面，是提供一种基于环视图像与轮速计融合的定位方法，其特征在于，所述方法包括步骤：

102、识别所述俯视拼接图中的图像语义特征；

103、基于所述图像语义特征和轮速计进行定位。，其特征在于，

在所述步骤103中，所述定位的估计方法由以下公式定义：

p_i+1,λ_i＝argmin(||p_i*Aⁱ-p_i+1*Aⁱ⁺¹||²+||p_i+λ_iΔp_i-p_i+1||²)；

其中，P_i和P_i+1分别为i和i+1时刻的车辆位姿；λ_i为轮速计与图像之间的尺度比例系数；Aⁱ和Aⁱ⁺¹分别为i和i+1时刻图像上的语义特征；ΔP_i为从i到i+1时刻轮速计位姿增量；arg min(f(x))表示在f(x)取最小值时，自变量x的集合。

本发明的第三方面，是提供一种车载终端，其特征在于，包括：

拼接子单元，用于拼接多个图像采集装置在同一时刻拍摄到的多张目标图像，以得到俯视拼接图；

识别子单元，用于识别所述俯视拼接图中的图像语义特征；

定位子单元，用于基于所述图像语义特征和轮速计进行定位。

优选的，所述图像语义特征可以为车道线、停车库位线、库位点、斑马线、车道箭头的一种或多种。

优选的，所述识别子单元，用于通过深度学习的神经网络模型识别所述图像语义特征，并且预先对所述神经网络模型进行训练。

优选的，所述训练采用交叉熵来衡量网络的预测值与实际值的差异，所述交叉熵的公式如下：

其中y为图像元素的标记值，1表示语义元素，0表示非语义元素；n为图像的像素总数，x为输入，a为神经元的输出a＝σ(z),z＝∑_jw_jx_j+b。

本发明的第四方面，是提供一种车载终端，其特征在于，包括：

识别子单元，用于识别所述俯视拼接图中的图像语义特征；

所述定位的估计方法由以下公式定义：

本发明的发明点包括但不限于以下几点：

1)利用环视拼接图，进行语义特征提取，并根据语义特征进行实时地图构建及定位。其中通过深度学习的神经网络模型识别所述图像语义特征，对于神经网络使用了交叉熵来衡量网络的预测值与实际值的差异。

2)在利用图像语义特征进行定位的过程中融合轮速计数据，避免获得局部最优解，从而提升建图定位的精度是本发明的发明点之一。

本发明不是简单的将环视拼接图这一利用图像定位的方式与轮速计定位方式的简单叠加。在现有技术中存在有图像定位方法，也存在有轮速计定位方法，这两种方法如果简单的叠加，无法处理好两者的关系，即利用好两者的优点，又做到规避掉两种方式的缺点。本发明利用鱼眼相机单次采集得到的目标图像构建出的局部地图；将图像中的一些特征线如车道线、停车库位线、库位点(库位线之间的交点)、斑马线、车道箭头作为图像语义特征输入到神经网络中；最后通过该图像语义特征结合本申请所公开的独特的估算模型和公式估计不同时刻车辆的相对位姿的变化情况，在此情况下再结合轮速计的运动学模型得到定位信息。因此其并不简单的等同于两种定位方式的叠加。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于环视图像与轮速计融合的定位方法的流程示意图；

图2是本发明实施例公开的一种由车载终端构建的停车场局部地图示例图；

图3是本发明实施例公开的另一种由车载终端构建的停车场局部地图示例图；

具体实施例

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种基于俯视拼接图的定位方法及车载终端。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种基于环视图像与轮速计融合的定位方法的流程示意图。其中，该方法应用于车载电脑、车载工业控制计算机(Industrialpersonal Computer，IPC)等车载终端，本发明实施例不做限定。上述的车载终端与车辆的各个传感器连接，接收并处理各个传感器采集到的数据。如图1所示，该基于环视图像与轮速计融合的定位方法可以包括以下步骤：

101、拼接多个图像采集装置在同一时刻拍摄到的多张目标图像，以得到俯视拼接图。

在本发明实施例中，图像采集装置可以为摄像头，为了方便描述，如无特殊说明，下文中的摄像头指图像采集装置。上述的多个摄像头为分别安装在车辆前、后、左、右四个方向的摄像头，每个摄像头的取景范围至少包括该摄像头的下方地面。可选的，上述的摄像头可以为鱼眼摄像头，鱼眼摄像头的视场(Field OF View，FOV)较大，从而可以使得单个鱼眼摄像头拍摄到的目标图像中尽可能多地包括车辆的周边环境，提高观测的完整性进而提高局部地图的完整性，增加局部地图中包含的信息量。安装在上述四个方向的摄像头组成了摄像头的环视方案，使得车载终端可以一次性获取到车辆周边各个方向的环境信息，从而可以使得利用单次采集得到的目标图像构建出的局部地图包含更多的信息。此外，四路摄像头采集的图像数据存在一定的冗余，如果某一路摄像头失效，其余摄像头采集的图像数据可以作为补充，对车载终端构建局部地图和定位的影响较低。

本发明实施例中，车载终端将安装在车辆前、后、左、右四个方向的摄像头在同一时刻拍摄到的目标图像进行拼接，得到的俯视拼接图包含了以车辆为中心360度的环境信息。此外，如果用于拍摄目标图像的摄像头为上述的摄像头，车载终端在执行步骤102对多张目标图像进行拼接之前，还需要对目标图像进行反畸变处理，即按照一定的映射规则，将鱼眼摄像头拍摄到的目标图像投影到地平面上，再对投影完成得到的图像进行拼接。

102、识别俯视拼接图中的图像语义特征。

本发明实施例中，图像语义特征可以为经过经验筛选，具有特殊含义并有助于车辆定位的语义特征。在一种可能的应用场景中，车辆位于停车场，该停车场可以为地上停车场也可以为地下车库，本发明实施例不做限定。在停车场的应用场景中，图像语义特征可以为车道线、停车库位线、库位点(库位线之间的交点)、斑马线、车道箭头等，本发明实施例不做限定。请一并参阅图2，图2为本发明实施例公开的一种由车载终端构建的停车场局部地图示例图，由图2可以看出，该局部地图由车载终端在该停车场行驶时，途经的车道线、库位线、库位点等语义特征组成，其中，带箭头虚线所示为车辆的行驶轨迹。

此外，作为一种可选的实施方式，本发明实施例中，车载终端可以通过深度学习或图像分割等图像识别算法从俯视拼接图中识别出图像语义特征。优选的，可以使用适用于深度学习的神经网络模型识别图像语义特征，并且预先采用大量标注有图像语义特征的俯视拼接样本图像对神经网络模型进行训练。所述神经网络模型如下：

该网络结构采用Encoder-Decoder模型，主要包括两个部分：编码(Encoder)部分和解码(Decoder)部分。

本发明实施例中将拼接好的图像输入至网络中，其中编码部分网络主要通过卷积和池化层提取图像的特征。网络通过有标记大规模样本的训练，调整网络参数使得编码网络准确的语义特征和非语义特征。编码网络通过两次卷积提取特征之后，通过池化进行下采样。通过级联四个两层卷积加一层池化的结构使得编码网络顶层的神经元的感受野能够覆盖本发明示例中的不同尺度的语义元素。

解码网络是与编码网络对称的结构，其中编码网络的池化层改为上采样层。在解码部分中经过四次上采样，将编码抽取的特征放大到原图尺寸，从而实现像素语义分类。上采样是通过反卷积实现的，这种操作能够得到输入数据的大部分信息，但仍会部分信息的丢失，因此我们引入了底层的特征来补充解码过程中丢失的细节。这些底层特征主要来编码网络中不同尺度的卷积层，在同一个尺度上编码网络卷积层提取的特征正好可以与反卷积合并生成更准确度的特征图。网络训练主要采用交叉熵来来衡量网络的预测值与实际值的差异，交叉熵公式如下：

其中y为图像元素的标记值，即图像的一个像素是语义元素还是非语义元素，一般用1表示语义元素，0表示非语义元素；n为图像的像素总数，x为输入，a为神经元的输出a＝σ(z),z＝∑_jw_jx_j+b，它可以克服网络权值更新过慢的问题。网络模型训练完成之后，在本发明示例实际使用时，网络针对输入图像的每一个像素都进行预测，输出每个像素对应的属性值为0或是1，标记为1的图像元素的连通块即为有意义的语义图像结构，至此实现了图像的语义分割。将车载终端拼接得到的俯视拼接图输入至上述训练好的神经网络模型，基于神经网络模型的识别结果，即可识别出俯视拼接图中的图像语义特征。相较于传统的图像分割技术，通过深度学习的方法从俯视拼接图中提取图像语义特征，可以提高图像语义特征的识别准确率。上述网络结构是针对拼接图像语义特征提取而专门设计的，保证语义特征提取的准确，属于本发明的发明点之一。此外，先对目标图像进行拼接，再从俯视拼接图中提取图像语义特征，而非逐张提取目标图像中的图像语义特征，可以提高图像语义特征的提取效率，也属于本发明的发明点之一。

103、基于图像语义特征和轮速计进行定位。

本发明实施例中，对不同时刻的图像语义特征进行跟踪，在跟踪的过程中不断匹配图像语义特征，估计不同时刻车辆的相对位姿的变化情况。

假设P_i为i时刻的车辆位姿，P_i+1为i+1时刻的车辆位姿，X_j为全局地图中的第j个点的位置，为X_j在i时刻图像所观测到的视觉特征的位置，那么这些数据满足以下关系：

不同时刻观测数据满足以下关系：

由此，根据以前时刻车辆位姿，求解当前位姿利用以下公式：

P_i*Aⁱ＝P_i+1*Aⁱ⁺¹ (3)

其中，

则P_i+1＝argmin(||P_i*Aⁱ-P_i+1*Aⁱ⁺¹||²) (4)

其中，argmin(f(x))表示在f(x)取最小值时，自变量x的集合。

同时，轮速计通过运动学模型得到定位信息：

其中，p_i＝(x_i,y_i,θ_i)^t为i时刻车辆位姿(包括x,y方向坐标和转角θ；Δs_r,Δs_l分别为右后车轮位移和左后车轮位移，可由轮速计脉冲获得，B为轮距；

最后将图像语义特征与轮速计融合，则定位的估计方法由以下公式定义：

p_i+1,λ_i＝argmin(||p_i*Aⁱ-p_i+1*Aⁱ⁺¹||²+||p_i+λ_iΔp_i-p_i+1||²) (6)

其中，P_i和P_i+1分别为i和i+1时刻的车辆位姿；λ_i为轮速计与图像之间的尺度比例系数；Aⁱ和Aⁱ⁺¹分别为i和i+1时刻图像上的语义特征；ΔP_i为从i到i+1时刻轮速计位姿的增量；arg min(f(x))表示在f(x)取最小值时，自变量x的集合。

由于图像与轮速计所在坐标系存在物理尺度的换算，而该换算关系通常由标定完成，但通常情况下由于标定场地的限制，该换算关系并不能满足较大场景的建图定位的要求，因此若不考虑该因素，会因累积误差导致两个不同数据源的定位结果相冲突，从而影响融合结果。为此，在融合过程中估计轮速计位姿增量的尺度，在此约束下使得图像配准达到最优。这是本发明的创新处之一。

本发明实施例中，可得每个时刻的位姿，而每张图像的语义特征构成局部地图，通过图像各自位姿可将局部地图变换到统一的全局地图。根据上一步中的描述，不同时刻观测语义信息与全局地图信息满足以下关系：

由于MAP＝(X₁,X₂,...,X_n)构成了地图的全部信息。

因此，在根据地图进行定位阶段，观察当前图像语义信息，估计合适的位姿，使得当前语义与全局地图语义匹配，具体方法类似建图中的定位方法：

p_i+1,λ_i＝argmin(||MAP-p_i+1*Aⁱ⁺¹||²+||p_i+λ_iΔp_i-p_i+1||²) (7)

其中，P_i和P_i+1分别为i和i+1时刻的车辆位姿；λ_i为轮速计与图像之间的尺度比例系数；Aⁱ⁺¹为i+1时刻图像上的语义特征；ΔP_i为从i到i+1时刻轮速计位姿的增量；arg min(f(x))表示在f(x)取最小值时，自变量x的集合。

等式右边第一项为当前语义与地图的匹配，第二项为融合轮速计信息的约束项，求解该非线性最小二乘问题即得到最优定位结果。

实施例二

请参阅图3，图3是本发明实施例公开的一种车载终端的结构示意图。如图3所示，车载终端包括：

拼接子单元301，用于拼接多个图像采集装置在同一时刻拍摄到的多张目标图像，以得到俯视拼接图。

识别子单元302，用于识别俯视拼接图中的图像语义特征。

本发明实施例中，图像语义特征为可以为经过经验筛选，具有特殊含义并有助于车辆定位的语义特征。在一种可能的应用场景中，车辆位于停车场，该停车场可以为地上停车场也可以为地下车库，本发明实施例不做限定。在停车场的应用场景中，图像语义特征可以为车道线、停车库位线、库位点(库位线之间的交点)、斑马线、车道箭头等，本发明实施例不做限定。请一并参阅图2，图2为本发明实施例公开的一种由车载终端构建的停车场局部地图示例图，由图2可以看出，该局部地图由车载终端在该停车场行驶时，途经的车道线、库位线、库位点等语义特征组成，其中，带箭头虚线所示为车辆的行驶轨迹。

此外，作为一种可选的实施方式，本发明实施例中，车载终端的识别子单元可以通过深度学习或图像分割等图像识别算法从俯视拼接图中识别出图像语义特征。优选的，可以使用适用于深度学习的神经网络模型识别图像语义特征，并且预先采用大量标注有图像语义特征的俯视拼接样本图像对神经网络模型进行训练。所述神经网络模型如下：

定位子单元303，用于基于图像语义特征和轮速计进行定位。

假设P_i为i时刻的车辆位姿，为i时刻的观测到的视觉特征的位置，X_j为i时刻观测数据在地图中的位置，那么这些数据满足以下关系：

不同时刻观测数据满足以下关系：

P_i*Aⁱ＝P_i+1*Aⁱ⁺¹ (3)

其中，

则P_i+1＝argmin(||P_i*Aⁱ-P_i+1*Aⁱ⁺¹||²) (4)

同时，轮速计通过运动学模型得到定位信息：

Δs＝(Δs_r+Δs_l)/2

Δθ＝(Δs_r-Δs_l)/B (5)

由于图像与轮速计所在坐标系存在物理尺度的换算，而该换算关系通常由标定完成，但通常情况下由于标定场地的限制，该换算关系并不能满足较大场景的建图定位的要求，因此若不考虑该因素，会因累积误差导致两个不同数据源的定位结果相冲突，从而影响融合结果。为此，在融合过程中估计轮速计位姿增量的尺度，在此约束下使得图像配准达到最优。

由于MAP＝(X₁,X₂,...,X_n)构成了地图的全部信息。

p_i+1,λ_i＝argmin(||MAP-p_i+1*Aⁱ⁺¹||²+||p_i+λ_iΔp_i-p_i+1||²) (7)

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种基于俯视拼接图的建图方法及车载终端进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于环视图像与轮速计融合的定位方法，其特征在于，所述方法包括步骤：

102、识别所述俯视拼接图中的图像语义特征；

103、基于所述图像语义特征和轮速计进行定位；

所述步骤102包括，通过深度学习的神经网络模型识别所述图像语义特征，并且预先对所述神经网络模型进行训练；所述训练采用交叉熵来衡量网络的预测值与实际值的差异，所述交叉熵的公式如下：

其中y为图像元素的标记值；n为图像的像素总数，x为输入，a为神经元的输出。

2.根据权利要求1所述的基于环视图像与轮速计融合的定位方法，其特征在于，

在所述步骤102中，所述图像语义特征可以为车道线、停车库位线、库位点、斑马线、车道箭头等的一种或多种。

3.一种基于环视图像与轮速计融合的定位方法，其特征在于，所述方法包括步骤：

102、识别所述俯视拼接图中的图像语义特征；

103、基于所述图像语义特征和轮速计进行定位。

在所述步骤103中，所述定位的估计方法由以下公式定义：

其中，P_i和P_i+1分别为i和i+1时刻的车辆位姿；λ_i为轮速计与图像之间的尺度比例系数；Aⁱ和Aⁱ⁺¹分别为i和i+1时刻图像上的语义特征；ΔP_i为从i到i+1时刻轮速计位姿增量。

4.一种车载终端，其特征在于，包括：

拼接子单元，用于拼接多个图像采集装置在同一时刻拍摄到的多张目标图像，以得到俯视拼接图；其中所述图像采集装置使用鱼眼摄像头；

识别子单元，用于识别所述俯视拼接图中的图像语义特征；

5.根据权利要求4所述的车载终端，其特征在于，

所述图像语义特征可以为车道线、停车库位线、库位点、斑马线、车道箭头等的一种或多种。

6.根据权利要求4或5所述的车载终端，其特征在于，

所述识别子单元，用于通过深度学习的神经网络模型识别所述图像语义特征，并且预先对所述神经网络模型进行训练。

7.根据权利要求6所述的车载终端，其特征在于，

8.一种车载终端，其特征在于，包括：

识别子单元，用于识别所述俯视拼接图中的图像语义特征；

所述定位的估计方法由以下公式定义：