CN113658257A

CN113658257A - 一种无人设备定位方法、装置、设备及存储介质

Info

Publication number: CN113658257A
Application number: CN202110943898.6A
Authority: CN
Inventors: 王睿; 杨庆雄; 韩旭
Original assignee: Guangzhou Weride Technology Co Ltd
Current assignee: Guangzhou Weride Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-11-16
Anticipated expiration: 2041-08-17
Also published as: CN113658257B

Abstract

本发明公开了一种无人设备定位方法、装置、设备及存储介质。通过将图像数据的视觉特征与点云的空间特征结合，使得目标图像数据既包含了丰富的视觉特征，又包含了点云的坐标、激光强度等空间特征，大大丰富了特征的维度，有利于提高定位精度；此外，通过融合基于空间特征的第一定位元素和基于视觉特征的第二定位元素，形成局部语义地图，并与全局语义地图配准，提高了定位精度，即使场景内环境发生变化，也可以通过基于视觉特征的第二定位元素弥补信息损失，实现无人设备的准确定位。

Description

一种无人设备定位方法、装置、设备及存储介质

技术领域

本发明实施例涉及无人设备定位技术，尤其涉及一种无人设备定位方法、装置、设备及存储介质。

背景技术

无人设备是一种不需要人工控制即可对其周围环境进行感知，对场景进行决策判断，对其进行控制的智能设备。在无人设备运行过程中，无人设备的定位是无人设备控制中的核心基础。

目前，通用的无人设备的定位方式为即时定位与地图构建(SimultaneousLocalization And Mapping，SLAM)，即无人设备在自身位置不确定的条件下，在完全未知环境中创建地图(Mapping)，同时利用地图进行自主定位。具体的，预先通过搭载的激光雷达扫描周边环境，得到点云。导航系统根据点云深度处理并生成地图。在运行时，通过对比当前获取的点云和地图，实时分析出无人设备的坐标。

该方法针对于环境变化不大的场景定位精度较高，但是，对于一些环境变化较大的场景，由于环境的改变，导致当前获取的点云难以与预先构建的地图匹配，无法得到精确的位置。

发明内容

本发明提供一种无人设备定位方法、装置、设备及存储介质，以实现场景内环境变化大的无人设备准确定位。

第一方面，本发明实施例提供了一种无人设备定位方法，包括：

获取在待定位点同一可视范围内同时采集的点云和原始图像数据；

将所述点云投影到所述原始图像数据上，得到目标图像数据；

从所述目标图像数据中检测出基于空间特征的第一定位元素和基于视觉特征的第二定位元素，得到由所述第一定位元素和所述第二定位元素组成的局部语义地图；

将所述局部语义地图与预先建立的全局语义地图进行配准，确定所述待定位点的定位结果。

第二方面，本发明实施例还提供了一种无人设备定位装置，包括：

数据获取模块，用于获取在待定位点同一可视范围内同时采集的点云和原始图像数据；

投影模块，用于将所述点云投影到所述原始图像数据上，得到目标图像数据；

局部语义地图确定模块，用于从所述目标图像数据中检测出基于空间特征的第一定位元素和基于视觉特征的第二定位元素，得到由所述第一定位元素和所述第二定位元素组成的局部语义地图；

定位结果确定模块，用于将所述局部语义地图与预先建立的全局语义地图进行配准，确定所述待定位点的定位结果。

第三方面，本发明实施例还提供了一种计算机设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明第一方面提供的无人设备定位方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明第一方面提供的无人设备定位方法。

本发明实施例提供的无人设备定位方法，获取在待定位点同一可视范围内同时采集的点云和原始图像数据，将点云投影到原始图像数据上，得到目标图像数据，从目标图像数据中检测出基于空间特征的第一定位元素和基于视觉特征的第二定位元素，得到由第一定位元素和所述第二定位元素组成的局部语义地图，将局部语义地图与预先建立的全局语义地图进行配准，确定待定位点的定位结果。通过将图像数据的视觉特征与点云的空间特征结合，使得目标图像数据既包含了丰富的视觉特征，又包含了点云的坐标、激光强度等空间特征，大大丰富了特征的维度，有利于提高定位精度；此外，通过融合基于空间特征的第一定位元素和基于视觉特征的第二定位元素，形成局部语义地图，并与全局语义地图配准，提高了定位精度，即使场景内环境发生变化，也可以通过基于视觉特征的第二定位元素弥补信息损失，实现无人设备的准确定位。

附图说明

图1为本发明实施例提供的无人设备的结构示意图；

图2为本发明实施例一提供的一种无人设备定位方法的流程图；

图3A是本发明实施例二提供的一种无人设备定位方法的流程图；

图3B为本发明实施例提供的一种voxelnet的结构示意图；

图3C为本发明实施例提供的一种VFE的结构示意图；

图3D为本发明实施例提供的一种类U型网络的结构示意图；

图4为本发明实施例三提供的一种无人设备定位装置的结构示意图；

图5为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的无人设备的结构示意图，如图1所示，无人设备可以包括控制设备101，总线102，ECU(Electronic Control Unit，电子控制单元)103，传感器104和执行器件105。

其中。控制设备101负责整个无人设备的总体智能控制。控制设备101可以是单独设置的控制器，例如可编程逻辑控制器(Programmable LogicController，PLC)、单片机、工业控制机等；也可以是由其他具有输入/输出端口，并具有运算控制功能的电子器件组成的设备；还可以是安装有无人设备控制类应用的计算机设备。控制设备101可以对从总线102上接收到的ECU 103发来的数据和/或传感器104发来的数据进行分析处理，作出相应的决策，并将决策对应的指令发送到总线102。

总线102可以是用于连接控制设备101，ECU 103、传感器104以及无人设备的其他未示出的设备的总线。由于CAN(Controller AreaNetwork，控制器局域网络)总线的高性能和可靠性已被广泛认同，因此目前无人设备中常用的总线为CAN总线。当然，可以理解的是总线102也可以是其他类型的总线。

总线102可以将控制设备101发出的指令发送给ECU 103，ECU 103将上述指令进行分析处理后发给相应的执行器件105执行。

上述传感器104包括但不限于激光雷达、相机，等等。

需要说明的是，本发明实施例所提供的无人设备定位方法可以由控制设备101执行，相应地，无人设备定位装置一般设置于控制设备101中。

应该理解，图1中的控制设备101、总线102、ECU 103、传感器104和执行器件105的数目仅仅是示意性的。根据实现需要，可以具有任意数目的控制设备101、总线102、ECU103、传感器104和执行器件105，本发明实施例在此不做限定。

实施例一

图2为本发明实施例一提供的一种无人设备定位方法的流程图，本实施例可用于环境变化大的场景下，无人设备的定位，该方法可以由本发明实施例提供的无人设备定位装置来执行，该装置可以由软件和/或硬件的方式实现，通常配置于计算机设备中，如图2所示，该方法具体包括如下步骤：

S201、获取在待定位点同一可视范围内同时采集的点云和原始图像数据。

在本发明实施例中，无人设备搭载有激光雷达和相机。激光雷达用于采集点云，相机用于采集原始图像数据。

在无人设备行进中，持续驱动激光雷达扫描车辆周围环境。激光雷达发射包括多条(例如32线或64线)激光的激光束，并接收物体表面反射回的反射激光。激光雷达准确地测量激光从发射到被反射回的传播时间。鉴于光速是已知的，传播时间即可被转换为对距离的测量。结合激光雷达的高度和激光扫描角度，就可以准确地计算出每一个光斑的在激光雷达所在的坐标系中的三维坐标。

在激光雷达扫描到相机的可视范围时，由特定的同步器触发相机曝光，采集得到图像数据，作为原始图像数据。

S202、将点云投影到原始图像数据上，得到目标图像数据。

在本发明实施例中，针对同一个时刻激光雷达采集到的三维的点云与相机采集到的原始图像数据，可根据激光雷达与相机之间的位置关系，将激光雷达的点云变换到相机的坐标下，并投影到原始图像数据上，得到目标图像数据。

点云包括物体的在空间中的空间特征(例如三维坐标等)，具有空间可解释性，但缺乏语义信息。图像数据包括物体表面的颜色和纹理等视觉特征，具有语义理解层面的优势，但缺少空间可解释性。本发明实施例将点云投影到原始图像数据上，将图像数据的视觉特征与点云的空间特征结合，使得目标图像数据既包含了丰富的视觉特征，又包含了点云的坐标、激光强度等空间特征，大大丰富了特征的维度，有利于提高定位精度。

S203、从目标图像数据中检测出基于空间特征的第一定位元素和基于视觉特征的第二定位元素，得到由第一定位元素和第二定位元素组成的局部语义地图。

示例性的，本发明实施例所述的方法应用于港口中无人车的定位。港口场景通常存在大片空地，没有可供定位的参考物，或者由于货柜的流动性较大导致环境持续变化，导致当前获取的点云难以与预先构建的地图匹配，无法得到精确的位置。

第一定位元素为场景中位置固定，可以用于辅助无人设备定位且离散的物体。第二定位元素为场景中位置固定，可以用于辅助无人设备定位且连续的物体。场景中的环境变化通常是场景中可移动物体的位置变化，由于定位的第一定位元素和第二定位元素的位置通常不会变化，因此，可以用于定位。示例性的，在一具体实施例中，港口中环境变化通常为货柜堆放的位置变化。

在本发明实施例中，基于空间特征对目标图像数据进行目标检测，检测出目标图像数据中第一定位元素。需要说明的是，针对不同的场景，关注的第一定位元素有所不同，本领域技术人员可以根据实际的场景需求而设置关注的第一定位元素，本实施例在此不做限定。示例性的，在一具体实施例中，第一定位元素包括港口中位置固定且离散的物体，例如，标识牌、灯柱等。

在本发明实施例中，基于视觉特征对目标图像数据进行语义分割，从中分割出第二定位元素。需要说明的是，针对不同的场景，关注的第二定位元素有所不同，本领域技术人员可以根据实际的场景需求而设置关注的第二定位元素，本实施例在此不做限定。示例性的，在一具体实施例中，第二定位元素包括港口中位置固定且连续的物体，例如，结构化道路、堆场、车道线这些面积比较大，而且形状连续的物体。这些第二定位元素通常为平面，单纯依赖点云无法有效识别这些第二定位元素。由于第二定位元素具有明显的视觉特征，因此，本发明实施例基于目标图像数据中的视觉特征进行语义分割，能够有效地分割出目标图像数据中的第二定位元素。

在本发明实施例中，第二定位元素还包括印刷在港口地面的贝位号，贝位号能精确得描述货物(通常为货柜)在港口的位置。按国际统一编号方法用以表示货柜在港口三维装箱位置的6位数字代码。6位数字代码，其中最前2位表示行号(贝号)，中间2位表示列号(贝列号)，最后2位表示层号(贝层号)。地面上通常仅印刷行号和列号。若单纯实用点云，则无法识别出印刷在地面的贝位号。在本发明实施例中，由于有了图像带来的视觉特征，因此，可以通过OCR(Optical Character Recognition，光学字符识别)识别出贝位号。

在得到第一定位元素和第二定位元素之后，可以将第一定位元素和第二定位元素融合成局部语义地图，所谓融合即将第一定位元素和第二定位元素中各点按照坐标叠加在一起，局部语义地图包含第一定位元素和第二定位元素的点云。

通过在局部语义地图中融合基于空间特征的第一定位元素和基于视觉特征的第二定位元素，即使场景内环境发生变化，也可以通过基于视觉特征的第二定位元素弥补信息损失，实现无人设备的准确定位；同时也可以避免单独依赖视觉定位容易受环境光和气候条件影响的问题。

S204、将局部语义地图与预先建立的全局语义地图进行配准，确定待定位点的定位结果。

在本发明实施例中，全局语义地图为预先构建的高精度的点云地图，并内置于无人设备的控制设备中。示例性的，可以将局部语义地图与全局语义地图中的一部分点云进行配准，进而确定待定位点的位置。点云配准过程，就是求一个两个点云之间的平移变换矩阵(rigid transform or euclidean transform刚性变换或欧式变换)，将源点云(sourcecloud)变换到目标点云(target cloud)相同的坐标系下，即将局部语义地图变换到全局语义地图相同的坐标系下。在本发明实施例中，可以采用NDT(Normal DistributionTransform，正态分布变换)、ICP(Iterative Closest Point，迭代最近点算法)或深度学习的方法(例如PointNet)对局部语义地图与全局语义地图进行配准，本发明实施例在此不做限定。

在无人设备行进过程中，重复执行上述步骤，就能对无人设备进行实时、持续的定位。

实施例二

图3A是本发明实施例二提供的一种无人设备定位方法的流程图，本实施例在上述实施例一的基础上进行细化，详细描述了无人设备定位方法中各步骤的具体实现过程，如图3A所示，该方法包括：

S301、获取在待定位点同一可视范围内同时采集的点云和原始图像数据。

在本发明实施例中，无人设备搭载有激光雷达和相机。激光雷达用于采集点云，相机用于采集原始图像数据。在无人设备行进中，持续驱动激光雷达扫描车辆周围环境。在激光雷达扫描到相机的可视范围时，由特定的同步器触发相机曝光，采集得到图像数据，作为原始图像数据。

S302、将点云投影到原始图像数据上，得到目标图像数据。

具体的，将点云投影到原始图像数据上，得到目标图像数据的具体过程如下：

1、查询点云在激光雷达所在的坐标系上的第一坐标。

具体的，对于激光雷达所在的坐标系上，点云可以表示为Pw＝(x_j，y_j，z_j，i_j)，其中，j＝1,2,…,N，表示点云的数量，点云中的每个点的信息包括坐标信息(x_j，y_j，z_j)和接收到的激光强度(i_j)。

2、将第一坐标映射为相机所在的坐标系上的第二坐标。

具体的，基于相机的外部参数将第一坐标映射为相机所在的坐标系上的第二坐标。相机的外部参数是相机在世界坐标系的参数，包括相机在世界坐标系的位置、旋转方向和偏移方向等，该外部参数可以用旋转矩阵R和平移向量t表示：

第二坐标Pc可表示为：

Pc＝RPw＝(x_c，y_c，z_c)

3、将第二坐标映射为原始图像数据中的第三坐标。

具体的，基于相机的内部参数和外部参数，将第二坐标映射为原始图像数据中的第三坐标。相机的内部参数包括相机的焦距、成像的像素尺寸等，内部参数可以用矩阵K表示：

第三坐标Puv可表示为：

Puv＝K(Pc+t)＝(u，v)

4、将点云投影到原始图像数据中处于第三坐标的像素点，得到目标图像数据。

需要说明的是，因为相机的视角有限，只有部分点云会投影到原始图像数据上，落在原始图像数据上的点云满足如下规则：

z_c＞0；

O＜u＜W；

0<v<H

其中，W，H分别为原始图像数据的宽和高。

得到的目标图像数据中的每个像素点，具有视觉信息，例如色彩分量(红色、绿色和蓝色分量)，还具有点云的空间信息，例如，坐标和反射强度等。

S303、基于目标检测算法从目标图像数据中检测出第一定位元素。

示例性的，基于目标检测算法从目标图像数据中检测出基于空间特征的第一定位元素。如前文所述，本发明实施例的无人设备定位方法用于港口中无人车的定位，第一定位元素包括港口中位置固定且离散的物体，例如，标识牌、灯柱等。

激光雷达的稀疏点云成像与稠密像素点的图像成像不同，点云都是连续的，图像是离散的；点云可以反应真实世界目标的形状、姿态信息，但是缺少纹理信息；图像是对真实世界的目标离散化后的表达，缺少目标的真实尺寸；图像可以直接作为卷积神经网络的输入，而稀疏则需要做一些预处理。因此，为了完成3D目标检测任务，需要对稀疏点云做特征表达。

具体的，本发明实施例中，采用voxelnet(称之为Feature Learning Network)来实现点云的特征表达，图3B为本发明实施例提供的一种voxelnet的结构示意图，voxelnet的处理过程如下：

1、将目标图像数据中的点云构成的点云空间切割为多个尺寸相同的三维体素。

对于点云所在的空间D×H×W，将其划分为多个尺寸相同的体素(voxel)，定义每一个的体素的大小为V_D×V_H×V_W。

2、对各体素内的点云进行特征提取，得到由各体素对应的特征向量构成的特征矩阵。

具体的，为了减少计算负担，同时消除因为每个体素中点密度不一致带来的判别问题，首先对各体素中的点进行随机采样(Random Sampling)，得到各体素中的采样点。然后对每一非空的体素中的所有采样点进行特征提取。

具体的，本发明实施例采用一个VFE(Voxel Feature Encoding)网络来提取每一非空的体素中的所有采样点进行特征提取，图3C为本发明实施例提供的一种VFE的结构示意图，如图3C所示，对于采样点P_i(x_i，y_i，z_i，r_i)，通过一个全连接网络(Fully ConnectedNeural Network)将其映射至特征空间，特征空间表示可以将点特征整合来描述体素所表达的表面特性。全连接网络由一个线性层、一个归一化层，一个RELU激活函数层组成，线性层将采样点的点特征映射至特征空间，得到线性特征，归一化层对线性特征进行归一化处理，得到归一化特征，RELU激活函数层对归一化特征进行归一化处理，体素内的所有采样点抽象为一个点对点特征(Point-wise-feature)。再通过一个池化层(Element-wiseMaxpooling)对点对点特征进行全局最大池化，得到局部聚合特征(Locally AggregatedFeature)。接着，将局部聚合特征与前面的点对点特征进行融合(Point-wiseConcatenate)，得到每个体素的特征向量(Point-wise Concatenate Feature)。

3、基于特征矩阵对目标图像数据进行分类检测和位置回归，得到第一定位元素的类别和标识第一定位元素的三维检测框。

示例性的，如图3B所示，采用三维的Convolutional Middle Layers进一步抽象特征，增大感受野并学习几何空间表示，示例性的，Convolutional Middle Layers可以是3D-ResNet，3D-ResNet能够对特征矩阵进行深度挖掘，同时避免深层网络的梯度下降和过拟合问题。

接着，采用一个区域生成网络(Region Proposal Network，RPN)对ConvolutionalMiddle Layers输出的特征进行处理，实现对目标图像数据中的物体进行分类检测与位置回归，得到检测出第一定位元素，并用三维检测框示出第一定位元素。区域生成网络的处理过程如下：

针对Convolutional Middle Layers输出的特征中的每一元素，生成以该元素为中心点的多个(例如9个)不同尺度的三维锚框(anchors)，三维锚框的矩阵表达为[x，y，z，w，h，l]，其中，x，y，z为锚框中心点的位置坐标，w，h，l为锚框的长、宽、高。具体的，对尺寸大小为M×N的特征进行卷积操作，输出特征尺寸为M×N×18，这也就刚好对应了每一个元素都有9个锚框。接着，从多个不同尺度的的三维锚框中确定包括第一定位元素的目标锚框。具体的，将各三维锚框中的特征输入预置的分类器中进行分类，确定包括第一定位元素的目标锚框。然后，对目标锚框进行平移和缩放处理，得到三维检测框，第一定位元素完全位于三维检测框内。具体的，对于每个三维锚框，设置一个用于回归的变换量[dx，dy，dz，dh，dw，dl]，变换量dx，dy，dz为对目标锚框的中心点进行平移的偏移量，变换量dh，dw，dl为对目标锚框的长、宽和高进行缩放的缩放量。

S304、基于语义分割算法从目标图像数据中分割出第二定位元素。

在本发明实施例中，第二定位元素包括港口中位置固定且连续的物体，例如，结构化道路、堆场、车道线这些面积比较大，而且形状连续的物体。这些第二定位元素通常为平面，单纯依赖点云无法有效识别这些第二定位元素。由于第二定位元素具有明显的视觉特征，因此，本发明实施例基于目标图像数据中的视觉特征进行语义分割，能够有效地分割出目标图像数据中的第二定位元素。

示例性的，在本发明实施例中，通过融合多种不同尺度的特征来进行语义分割。低层特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多。高层特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差。在本发明实施例中，从目标图像数据中提取多种不同尺度的特征，即包括高层特征，也包括低层特征，兼顾了细节信息和语义信息。

在本发明实施例中，可以采用特征金字塔网络或类U型网络实现上述多种尺度的特征提取和融合过程。示例性的，在一具体实施例中，采用类U型网络实现多种尺度的特征提取和融合，图3D为本发明实施例提供的一种类U型网络的结构示意图，如图3D所示，多种尺度的特征提取和融合过程如下：

1、将目标图像数据输入一个卷积块中进行处理，得到第一特征。具体的，卷积块依次包括卷积层、归一化层和激活层。

2、将第一特征输入第一残差块中进行处理，得到与目标图像数据尺寸相同的第一尺度特征。具体的，通过第一残差块对第一特征进行挖掘，得到与目标图像数据尺寸相同的第一尺度特征。第一残差块依次包括卷积层1、归一化层1、激活层1、卷积层2、归一化层2和激活层2。

3、对第一尺度特征进行下采样处理，得到尺寸为目标图像数据的0.5倍的第二特征。示例性的，下采样的具体方式可以包括随机取样、卷积、池化等，本发明实施例在此不做限定。

4、将第二特征输入第二残差块中进行处理，得到尺寸为目标图像数据的0.5倍的第二尺度特征。示例性的，第二残差块的结构与第一残差块的结构类似，不同的是，第二残差块的卷积层的通道数大于第一残差块的卷积层的通道数，通过增加通道数，增加特征的维度，进而使得提取到的特征具有更强的语义信息。

5、对第二尺度特征进行下采样处理，得到尺寸为目标图像数据的0.25倍的第三特征。示例性的，下采样的具体方式可以包括随机取样、卷积、池化等，本发明实施例在此不做限定。

6、将第三特征输入第三残差块中进行处理，得到尺寸为目标图像数据的0.25倍的第三尺度特征。示例性的，第三残差块的结构与第二残差块的结构类似，不同的是，第三残差块中卷积层的通道数大于第二残差块中卷积层的通道数，通过增加通道数，增加特征的维度，进而使得提取到的特征具有更强的语义信息。

7、对第三尺度特征进行下采样处理，得到尺寸为目标图像数据的0.125倍的第四特征。示例性的，下采样的具体方式可以包括随机取样、卷积、池化等，本发明实施例在此不做限定。

8、将第四特征输入第四残差块中进行处理，得到尺寸为目标图像数据的0.125倍的第四尺度特征。示例性的，第四残差块的结构与第三残差块的结构类似，不同的是，第四残差块中卷积层的通道数大于第三残差块中卷积层的通道数，通过增加通道数，增加特征的维度，进而使得提取到的特征具有更强的语义信息。

9、对第四尺度特征进行卷积处理，得到第五特征。示例性的，将第四尺度特征输入第一卷积层中进行卷积处理，得到第五特征。

10、对第五特征进行上采样处理，得到尺寸为目标图像数据的0.25倍的第一上采样特征。示例性的，上采样的具体方式可以包括线性插值、转置卷积(也可以称之为反卷积、分数步长卷积)、池化等，本发明实施例在此不做限定。

11、将第一上采样特征与第三尺度特征对应元素相加，得到第六特征。具体的，第一上采样特征与第三尺度特征的长度相同，将第一上采样特征与第三尺度特征对应元素相加，得到第六特征。

12、对第六特征进行卷积处理，得到第七特征。示例性的，将第六特征输入第二卷积层中进行卷积处理，得到第七特征。

13、对第七特征进行上采样处理，得到尺寸为目标图像数据的0.5倍的第二上采样特征。示例性的，上采样的具体方式可以包括线性插值、转置卷积(也可以称之为反卷积、分数步长卷积)、池化等，本发明实施例在此不做限定。

14、将第二上采样特征与第二尺度特征对应元素相加，得到第八特征。具体的，第二上采样特征与第二尺度特征的长度相同，将第二上采样特征与第二尺度特征对应元素相加，得到第八特征。

15、对第八特征进行卷积处理，得到第九特征。示例性的，将第八特征输入第三卷积层中进行卷积处理，得到第九特征。

16、对第九特征进行上采样处理，得到与目标图像数据尺寸相同的第三上采样特征。示例性的，上采样的具体方式可以包括线性插值、转置卷积(也可以称之为反卷积、分数步长卷积)、池化等，本发明实施例在此不做限定。

17、将第三上采样特征与第一尺度特征对应元素相加，得到第十特征。具体的，第三上采样特征与第一尺度特征的长度相同，将第三上采样特征与第一尺度特征对应元素相加，得到第十特征。

18、对第十特征进行池化处理，得到融合特征。示例性的，将第十特征输入池化层中进行全局平均池化处理，得到融合特征。

S305、融合第一定位元素和第二定位元素，得到局部语义地图。

上述得到的第一定位元素为三维立体点云，第二定位元素为二维点云，在后续的配准过程中计算量非常大，配准效率较低。在本发明实施例中，由于港口中的定位元素相对简单，为了减少后续配准过程的计算量，可以取第一定位元素的中心点(也即三维检测框的中心点)作为目标点，取第二定位元素的边缘线作为目标线。然后融合目标点和目标线，得到局部语义地图。

接下来，将局部语义地图与预先建立的全局语义地图进行配准，确定待定位点的定位结果。点云配准过程，就是求一个两个点云之间的平移变换矩阵。示例性的，在本发明实施例中，采用NDT(Normal Distribution Transform，正态分布变换)的方式对局部语义地图与全局语义地图进行配准，具体过程如下：

S306、将局部语义地图叠加到全局语义地图上。

在本发明实施例中，全局语义地图为预先构建的高精度的点云地图，并内置于无人设备的控制设备中。将局部语义地图叠加到全局语义地图上，将局部语义地图与全局语义地图中的一部分点云进行配准，进而确定待定位点的位置。具体的，首先，将全局语义地图的三维空间网格化，得到多个尺寸相同的三维网格。然后，将局部语义地图中的点云投影到三维网格内。

S307、以全局语义地图为参考，对局部语义地图进行平移变换。

具体的，假设局部语义地图中点云为X＝(x₁，x₂，…，x_n)，用空间转换函数T＝(R，x_k)来表示使用平移变换矩阵R对x_k进行平移和姿态变换。

S308、计算局部语义地图与全局语义地图的匹配度。

所谓匹配度即为局部语义地图中的点与全局语义地图中的点重合的可能性。在本发明实施例中，计算匹配度的过程如下：

1、基于三维网格内的点云计算三维网格的概率密度函数。

具体的，y_m表示一个三维网格内的所有点，根据三维网格内所有点的均值和协方差得到三维网格的概率密度函数。

三维网格内所有点的均值如下：

三维网格内所有点的协方差如下：

概率密度函数为：

2、以平移变换后的局部语义地图中的点云作为概率密度函数的自变量构建似然函数。

具体的，以平移变换后的局部语义地图中的点云作为概率密度函数的自变量构建似然函数，如下：

3、计算似然函数的似然值作为局部语义地图与全局语义地图的匹配度。

我们的目标是为了通过不断对局部语义地图中的点云做平移变换，寻找最似然函数的最大值。等价于最小化负对数似然函数，负对数似然函数的公式为：

将求似然函数最大值等价为求负对数似然函数的最小值的好处为：加法对求导更友好，便于寻求最小值。

S309、将局部语义地图与全局语义地图匹配度最高时，全局语义地图的平移变换结果作为待定位点的定位结果。

如前文所述，点云配准过程，就是求一个两个点云之间的平移变换矩阵。具体的，将似然函数最大值(也即负对数似然函数最小值)时的平移变换矩阵作为待定位点的定位结果。

在一个场景下，港口卸装特大级集装箱船作业时，会形成一种极端作业环境，例如，车道两侧分别是集装箱船，以及桥吊车轮(遮挡了点云数据和图像数据的采集)，上方为桥吊吊臂(遮挡卫星定位信号)，并且会多台同时工作，形成半封闭的狭长通道。在该狭长通道内，无人设备几乎无法获得任何用于定位的信息。针对这种极端场景，可以利用局部语义定位模式来处理，以确保无人设备能在当前车道内安全行驶(装卸集装箱过程中，无人设备无需变道，排队装卸)，直到无人设备抵达狭长通道的出口处，重新按照前述实施例所述的方法进行定位。具体的，针对该场景的处理过程如下：

在从目标图像数据中检测出基于空间特征的第一定位元素和基于视觉特征的第二定位元素之后，还包括：

将检测到的第一定位元素与第二定位元素的总数量与预先设置的阈值进行比较，判断第一定位元素和第二定位元素的总数量是否大于预设的阈值，若是，说明无人设备当前所在的区域有用于定位的定位元素，能够根据前述实施例所述的定位方法进行定位，此时，执行将局部语义地图与预先建立的全局语义地图进行配准，确定待定位点的定位结果的步骤。若否，则说明无人设备进入上述临时的狭长通道内，此时，控制无人设备保持当前车道行驶。当无人设备行驶至当前车道预定位置时，返回执行获取在待定位点同一可视范围内同时采集的点云和原始图像数据的步骤。其中，预定位置可以是可重新采集的点云和原始图像数据的位置，在本发明实施例中，预定位置为前述狭长通道的出口。具体的，可以在无人设备沿车道线行驶过程中，对采集的图像进行处理，确定无人设备是否到达狭长通道的出口；此外，预定位置为当前车道的定位信号较好出，在一个优选的实施例下，预设定位信号强度阈值，当无人设备在当前车道行驶时，实时监测定位信号强度，当行驶到某个位置的信号强度大于等于该阈值时，返回执行获取在待定位点同一可视范围内同时采集的点云和原始图像数据的步骤继续执行。

本发明实施例提供的无人设备定位方法，通过将图像数据的视觉特征与点云的空间特征结合，使得目标图像数据既包含了丰富的视觉特征，又包含了点云的坐标、激光强度等空间特征，大大丰富了特征的维度，有利于提高定位精度。通过融合基于空间特征的第一定位元素和基于视觉特征的第二定位元素，形成局部语义地图，并与全局语义地图配准，提高了定位精度，即使场景内环境发生变化，也可以通过基于视觉特征的第二定位元素弥补信息损失，实现无人设备的准确定位。通过融合多种不同尺度的特征来进行语义分割，兼顾了细节信息和语义信息，有利于提高语义分割准确度。以第一定位元素的中心点和第二定位元素的边缘线构建局部语义地图，减少后续配准过程的计算量，提高了配准效率。

实施例三

图4为本发明实施例三提供的一种无人设备定位装置的结构示意图，如图4所示，该装置包括：

数据获取模块401，用于获取在待定位点同一可视范围内同时采集的点云和原始图像数据；

投影模块402，用于将所述点云投影到所述原始图像数据上，得到目标图像数据；

局部语义地图确定模块403，用于从所述目标图像数据中检测出基于空间特征的第一定位元素和基于视觉特征的第二定位元素，得到由所述第一定位元素和所述第二定位元素组成的局部语义地图；

定位结果确定模块404，用于将所述局部语义地图与预先建立的全局语义地图进行配准，确定所述待定位点的定位结果。

在本发明的一些实施例中，投影模块402包括：

第一坐标查询子模块，用于查询所述点云在激光雷达所在的坐标系上的第一坐标，所述激光雷达用于采集所述点云；

第一坐标映射子模块，用于将所述第一坐标映射为相机所在的坐标系上的第二坐标，所述相机用于采集所述原始图像数据；

第二坐标映射子模块，用于将所述第二坐标映射为所述原始图像数据中的第三坐标；

投影子模块，用于将所述点云投影到所述原始图像数据中处于所述第三坐标的像素点，得到目标图像数据。

在本发明的一些实施例中，局部语义地图确定模块403包括：

第一定位元素检测子模块，用于基于目标检测算法从所述目标图像数据中检测出第一定位元素；

第二定位元素分割子模块，用于基于语义分割算法从所述目标图像数据中分割出第二定位元素；

元素融合子模块，用于融合所述第一定位元素和所述第二定位元素，得到局部语义地图。

在本发明的一些实施例中，第一定位元素检测子模块包括：

体素切割单元，用于将目标图像数据中的点云构成的点云空间切割为多个尺寸相同的三维体素；

第一特征提取单元，用于对各所述体素内的点云进行特征提取，得到由各所述体素对应的特征向量构成的特征矩阵；

分类回归单元，用于基于所述特征矩阵对所述目标图像数据进行分类检测和位置回归，得到第一定位元素的类别和标识所述第一定位元素的三维检测框。

在本发明的一些实施例中，第二定位元素分割子模块包括：

第二特征提取单元，用于从所述目标图像数据中提取多种不同尺度的特征；

特征融合单元，用于融合多种不同尺度的特征，得到与所述目标图像数据尺度相同的融合特征；

像素分类单元，用于基于所述融合特征对所述目标图像数据进行像素分类，确定所述目标图像数据中的第二定位元素。

在本发明的一些实施例中，元素融合子模块包括：

目标点选取单元，用于取所述第一定位元素的中心点作为目标点；

目标线选取单元，用于取所述第二定位元素的边缘线作为目标线；

融合单元，用于融合所述目标点和所述目标线，得到局部语义地图。

在本发明的一些实施例中，定位结果确定模块404包括：

地图叠加子模块，用于将所述局部语义地图叠加到全局语义地图上；

平移变换子模块，用于以所述全局语义地图为参考，对所述局部语义地图进行平移变换；

匹配度计算子模块，用于计算所述局部语义地图与所述全局语义地图的匹配度；

定位结果确定子模块，用于将所述局部语义地图与所述全局语义地图匹配度最高时，所述全局语义地图的平移变换结果作为所述待定位点的定位结果。

在本发明的一些实施例中，地图叠加子模块包括：

网格化单元，用于将所述全局语义地图的三维空间网格化，得到多个三维网格；

点云投影单元，用于将所述局部语义地图中的点云投影到所述三维网格内。

在本发明的一些实施例中，匹配度计算子模块包括：

概率密度函数计算单元，用于基于所述三维网格内的点云计算所述三维网格的概率密度函数；

似然函数构建单元，用于以平移变换后的所述局部语义地图中的所述点云作为所述概率密度函数的自变量构建似然函数；

似然值计算单元，用于计算似然函数的似然值作为所述局部语义地图与所述全局语义地图的匹配度。

在本发明的一些实施例中，无人设备定位装置还包括：

判断模块，用于在从所述目标图像数据中检测出基于空间特征的第一定位元素和基于视觉特征的第二定位元素之后，判断所述第一定位元素和所述第二定位元素的总数量是否大于预设的阈值；

第一执行模块，用于在第一定位元素和第二定位元素的总数量大于预设的阈值时，执行将所述局部语义地图与预先建立的全局语义地图进行配准，确定所述待定位点的定位结果的步骤；

控制模块，用于在第一定位元素和第二定位元素的总数量小于或等于预设的阈值时，控制所述无人设备保持当前车道行驶；

返回执行模块，用于在所述无人设备行驶至当前车道预定位置时，返回执行获取在待定位点同一可视范围内同时采集的点云和原始图像数据的步骤。

上述无人设备定位装置可执行本发明任意实施例所提供的无人设备定位方法，具备执行无人设备定位方法相应的功能模块和有益效果。

实施例四

本发明实施例四提供了一种计算机设备，图5为本发明实施例四提供的一种计算机设备的结构示意图，如图5所示，该计算机设备包括处理器501、存储器502、通信模块503、输入装置504和输出装置505；计算机设备中处理器501的数量可以是一个或多个，图5中以一个处理器501为例；计算机设备中的处理器501、存储器502、通信模块503、输入装置504和输出装置505可以通过总线或其他方式连接，图5中以通过总线连接为例。上述处理器501、存储器502、通信模块503、输入装置504和输出装置505可以集成在计算机设备的控制主板上。

存储器502作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本实施例中的无人设备定位方法对应的模块。处理器501通过运行存储在存储器502中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述实施例提供的无人设备定位方法。

存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器502可进一步包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块503，用于与外界设备(例如智能终端)建立连接，并实现与外界设备的数据交互。输入装置504可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。

本实施例提供的一种计算机设备，可执行本发明上述任意实施例提供的无人设备定位方法，具体相应的功能和有益效果。

实施例五

本发明实施例五提供了一种包含计算机可执行指令的存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明上述任意实施例提供的无人设备定位方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明实施例所提供的无人设备定位方法中的相关操作。

需要说明的是，对于装置、设备和存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的无人设备定位方法。

值得注意的是，上述装置中，所包括的各个模块、子模块、单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种无人设备定位方法，其特征在于，包括：

2.根据权利要求1所述的无人设备定位方法，其特征在于，将所述点云投影到所述原始图像数据上，得到目标图像数据，包括：

查询所述点云在激光雷达所在的坐标系上的第一坐标，所述激光雷达用于采集所述点云；

将所述第一坐标映射为相机所在的坐标系上的第二坐标，所述相机用于采集所述原始图像数据；

将所述第二坐标映射为所述原始图像数据中的第三坐标；

将所述点云投影到所述原始图像数据中处于所述第三坐标的像素点，得到目标图像数据。

3.根据权利要求1所述的无人设备定位方法，其特征在于，从所述目标图像数据中检测出基于空间特征的第一定位元素和基于视觉特征的第二定位元素，得到由所述第一定位元素和所述第二定位元素组成的局部语义地图，包括：

基于目标检测算法从所述目标图像数据中检测出第一定位元素；

基于语义分割算法从所述目标图像数据中分割出第二定位元素；

融合所述第一定位元素和所述第二定位元素，得到局部语义地图。

4.根据权利要求3所述的无人设备定位方法，其特征在于，基于目标检测算法从所述目标图像数据中检测出第一定位元素，包括：

将目标图像数据中的点云构成的点云空间切割为多个尺寸相同的三维体素；

对各所述体素内的点云进行特征提取，得到由各所述体素对应的特征向量构成的特征矩阵；

基于所述特征矩阵对所述目标图像数据进行分类检测和位置回归，得到第一定位元素的类别和标识所述第一定位元素的三维检测框。

5.根据权利要求3所述的无人设备定位方法，其特征在于，基于语义分割算法从所述目标图像数据中分割出第二定位元素，包括：

从所述目标图像数据中提取多种不同尺度的特征；

融合多种不同尺度的特征，得到与所述目标图像数据尺度相同的融合特征；

基于所述融合特征对所述目标图像数据进行像素分类，确定所述目标图像数据中的第二定位元素。

6.根据权利要求3所述的无人设备定位方法，其特征在于，融合所述第一定位元素和所述第二定位元素，得到局部语义地图，包括：

取所述第一定位元素的中心点作为目标点；

取所述第二定位元素的边缘线作为目标线；

融合所述目标点和所述目标线，得到局部语义地图。

7.根据权利要求1-6任一所述的无人设备定位方法，其特征在于，将所述局部语义地图与预先建立的全局语义地图进行配准，确定所述待定位点的定位结果，包括：

将所述局部语义地图叠加到全局语义地图上；

以所述全局语义地图为参考，对所述局部语义地图进行平移变换；

计算所述局部语义地图与所述全局语义地图的匹配度；

将所述局部语义地图与所述全局语义地图匹配度最高时，所述全局语义地图的平移变换结果作为所述待定位点的定位结果。

8.根据权利要求7所述的无人设备定位方法，其特征在于，将所述局部语义地图叠加到全局语义地图上，包括：

将所述全局语义地图的三维空间网格化，得到多个三维网格；

将所述局部语义地图中的点云投影到所述三维网格内。

9.根据权利要求8所述的无人设备定位方法，其特征在于，计算所述局部语义地图与所述全局语义地图的匹配度，包括：

基于所述三维网格内的点云计算所述三维网格的概率密度函数；

以平移变换后的所述局部语义地图中的所述点云作为所述概率密度函数的自变量构建似然函数；

计算似然函数的似然值作为所述局部语义地图与所述全局语义地图的匹配度。

10.根据权利要求1-6任一所述的无人设备定位方法，其特征在于，在从所述目标图像数据中检测出基于空间特征的第一定位元素和基于视觉特征的第二定位元素之后，还包括：

判断所述第一定位元素和所述第二定位元素的总数量是否大于预设的阈值；

若是，则执行将所述局部语义地图与预先建立的全局语义地图进行配准，确定所述待定位点的定位结果的步骤；

若否，则控制所述无人设备保持当前车道行驶；

当所述无人设备行驶至当前车道预定位置时，返回执行获取在待定位点同一可视范围内同时采集的点云和原始图像数据的步骤。

11.一种无人设备定位装置，其特征在于，包括：

12.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的无人设备定位方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的无人设备定位方法。