CN117830411A

CN117830411A - 跨模态定位方法、智能设备及存储介质

Info

Publication number: CN117830411A
Application number: CN202311866511.7A
Authority: CN
Inventors: 李琦; 黄泽; 孙立; 袁弘渊; 任少卿
Original assignee: Anhui Weilai Zhijia Technology Co Ltd
Current assignee: Anhui Weilai Zhijia Technology Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-04-05

Abstract

本申请涉及自动驾驶技术领域，具体提供一种跨模态定位方法、智能设备及存储介质，旨在解决现有的定位方法的定位精度较差的技术问题。为此目的，本申请的跨模态定位方法包括：获取点云采集设备采集的点云帧和图像采集设备采集的视觉图像；基于点云帧和视觉图像确定共视区域和视觉图像的初始位姿，共视区域为点云帧与视觉图像的重叠区域；基于点云帧、共视区域和初始位姿确定视觉图像的精确位姿。如此，获得了精确位姿，提高了定位精度。

Description

跨模态定位方法、智能设备及存储介质

技术领域

本申请涉及自动驾驶技术领域，具体提供一种跨模态定位方法、智能设备及存储介质。

背景技术

目前常用的定位方法主要分为短距离定位和长距离定位。短距离定位方法主要依赖密集点云地图提供的几何信息，主要适合处理初始位姿较优时的定位问题。长距离定位方法专注于解决初始位姿较差且点云中包含较大非共视区域的定位问题。这两种方法对初始位姿或共视区域的依赖较大，导致定位精度较差，从而影响车辆的安全行驶。

相应地，本领域需要一种新的跨模态定位方案来解决上述问题。

申请内容

为了克服上述缺陷，提出了本申请，以提供解决或至少部分地解决上述的技术问题。本申请提供了一种跨模态定位方法、智能设备及存储介质。

在第一方面，本申请提供一种跨模态定位方法，所述方法包括：

获取点云采集设备采集的点云帧和图像采集设备采集的视觉图像；

基于所述点云帧和所述视觉图像确定共视区域和所述视觉图像的初始位姿，所述共视区域为所述点云帧与所述视觉图像的重叠区域；

基于所述点云帧、所述共视区域和所述初始位姿确定所述视觉图像的精确位姿。

在一个实施方式中，所述基于所述点云帧和所述视觉图像确定共视区域，包括：

分别获取所述点云帧的点云特征和所述视觉图像的图像特征；

对所述点云特征和所述图像特征进行特征融合，获得融合特征；

基于所述融合特征确定所述共视区域。

在一个实施方式中，所述确定所述视觉图像的初始位姿，包括：基于所述图像特征、所述融合特征和所述共视区域确定所述视觉图像的初始位姿。

在一个实施方式中，所述基于所述点云帧、所述共视区域和所述初始位姿确定所述视觉图像的精确位姿，包括：

基于所述共视区域从所述点云帧中确定第一点云和第二点云；

根据所述初始位姿和图像采集设备的内参分别将所述第一点云和所述第二点云投影至图像采集设备的成像平面，获得第一投影点和第二投影点；

基于所述第一投影点和所述第二投影点确定第一损失；

基于所述第一损失和所述初始位姿确定所述视觉图像的精确位姿。

在一个实施方式中，所述基于所述基于第一投影点和第二投影点确定第一损失，包括：

判断所述第一投影点是否位于所述成像平面外，和/或所述第二投影点是否位于所述成像平面内；

若是，确定所述第一投影点和/或所述第二投影点与所述成像平面的边界距离；

基于所述边界距离确定所述第一损失。

在一个实施方式中，在所述第一投影点位于所述成像平面外且所述第二投影点位于所述成像平面内时，所述基于所述边界距离确定所述第一损失，包括：基于第一边界距离和第二边界距离之和确定所述第一损失，其中所述第一边界距离为所述第一投影点距离所述成像平面的最小边界距离，所述第二边界距离为所述第二投影点距离所述成像平面的最小边界距离。

在一个实施方式中，所述基于所述第一损失和所述初始位姿确定所述视觉图像的精确位姿，包括：

判断所述第一损失的梯度是否小于预设阈值；

若否，调节所述初始位姿直至所述第一损失的梯度小于预设阈值，获得所述视觉图像的精确位姿。

在一个实施方式中，所述基于所述图像特征、所述融合特征和所述共视区域确定所述视觉图像的初始位姿，包括：

对所述融合特征解码以获得高维融合特征；

分别对所述高维融合特征、所述图像特征和所述共视区域进行池化；

对池化后的高维融合特征、图像特征和共视区域进行回归操作，获得所述视觉图像的初始位姿。

在第二方面，提供一种智能设备，包括：

至少一个处理器；

以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器中存储有计算机程序，所述计算机程序被所述至少一个处理器执行时实现前述的跨模态定位方法。

在第三方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行前述任一项所述的跨模态定位方法。

本申请上述一个或多个技术方案，至少具有如下一种或多种有益效果：

本申请提供一种跨模态定位方法，该方法具体包括：获取点云采集设备采集的点云帧和图像采集设备采集的视觉图像；基于点云帧和视觉图像确定共视区域和视觉图像的初始位姿，共视区域为点云帧与视觉图像的重叠区域；基于点云帧、共视区域和视觉图像的初始位姿确定视觉图像的精确位姿。如此，获得了精度较高的初始位姿，进一步根据高精度的视觉图像的初始位姿和共视区域、点云帧确定精确位姿，解决了现有方法的定位精度不高且容易受初始位姿影响的问题，提高了定位精度。

附图说明

参照附图，本申请的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本申请的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：

图1是根据本申请的一个实施例的跨模态定位方法的主要步骤流程示意图；

图2是本申请一个实施例中跨模态定位方法的完整流程示意图；

图3是根据本申请的一个实施例的跨模态定位装置的主要结构框图示意图；

图4是本申请一个实施例中智能设备的结构示意图。

具体实施方式

下面参照附图来描述本申请的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本申请的技术原理，并非旨在限制本申请的保护范围。

在本申请的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

目前传统的方法会显著降低定位精度，从而影响车辆的安全行驶。

为此，本申请提出了一种跨模态定位方法、智能设备及存储介质，方法具体包括：获取点云采集设备采集的点云帧和图像采集设备采集的视觉图像；基于点云帧和视觉图像确定共视区域和视觉图像的初始位姿，共视区域为点云帧与视觉图像的重叠区域；基于点云帧、共视区域和视觉图像的初始位姿确定视觉图像的精确位姿。如此，获得了精度较高的初始位姿，进一步根据高精度的初始位姿和共视区域、点云帧确定精确位姿，解决了现有方法的定位精度不高且容易受初始位姿影响的问题，提高了定位精度，有利于车辆安全行驶。

参阅附图1，图1是根据本申请的一个实施例的跨模态定位方法的主要步骤流程示意图。

如图1所示，本申请实施例中的跨模态定位方法主要包括下列步骤S101-步骤S103。

步骤S101：获取点云采集设备采集的点云帧和图像采集设备采集的视觉图像。

点云采集设备是用于获取三维空间中物体表面形态和结构数据的仪器。这类设备主要通过发射激光、红外线或其他电磁波，并接收反射回来的信号，来测量物体各点的距离和位置信息。示例性地，雷达可以作为点云采集设备的一个示例，其中雷达包括但不限于激光雷达(LiDAR)。

点云帧是在三维空间中表示物体或环境表面特征的一组点的集合，通常由点云采集设备在某一时刻或某一扫描周期内获取的数据构成。示例性地，当前点云帧或者历史点云帧均可以作为该实施例中点云帧的示例。

图像采集设备是指能够获取图像信息并将其转换为数字信号输出的设备。示例性地，相机可以作为本申请实施例中图像采集设备的一个示例，其中相机包括但不限于RGB相机。

需要注意的是，本申请实施例中获取的是同一场景下的点云帧和视觉图像。

步骤S102：基于所述点云帧和所述视觉图像确定共视区域和所述视觉图像的初始位姿，所述共视区域为所述点云帧与所述视觉图像的重叠区域。

共视区域是指在同一个空间内，既被点云采集设备捕获又被图像采集设备拍摄到的共同区域。具体来说，共视区域可以是在点云帧中表示出点云采集设备捕获与图像采集设备拍摄到的共同区域。

步骤S103：基于所述点云帧、所述共视区域和所述视觉图像的初始位姿确定所述视觉图像的精确位姿。

基于上述步骤S101-步骤S103，首先获取点云采集设备采集的点云帧和图像采集设备采集的视觉图像；基于点云帧和视觉图像确定共视区域和视觉图像的初始位姿，共视区域为点云帧与视觉图像的重叠区域；基于点云帧、共视区域和视觉图像的初始位姿确定视觉图像的精确位姿。如此，获得了精度较高的初始位姿，进一步根据高精度的初始位姿和共视区域、点云帧确定精确位姿，解决了现有方法的定位精度不高且容易受初始位姿影响的问题，提高了定位精度，有利于车辆安全行驶。

在根据本申请实施例的一个应用场景中，车辆上设置有激光雷达、相机以及能够执行本申请实施例所述方法的设备。在控制车辆自动行驶的过程中，车辆会预先通过激光雷达采集车辆周围环境的先验点云帧，以及通过相机采集车辆周围的视觉图像，将点云帧和视觉图像输入至上述设备中。该设备可以根据每一点云帧和图像，准确得到视觉图像的精确位姿，进而通过坐标系转换，可以得到车辆在视觉图像所在时刻的车辆位姿。基于此，就可以根据每一时刻的车辆位姿，规划车辆的行驶轨迹，控制车辆按照行驶轨迹安全、可靠地自动驾驶。

下面分别对上述步骤S102至步骤S103作进一步说明。

针对步骤S102，通过下述步骤说明如何确定共视区域和视觉图像的初始位姿。

在一个具体实施方式中，所述基于所述点云帧和所述视觉图像确定共视区域，包括：分别获取所述点云帧的点云特征和所述视觉图像的图像特征；对所述点云特征和所述图像特征进行特征融合，获得融合特征；基于所述融合特征确定所述共视区域。

点云特征是从每个点云的局部邻域中提取几何特征，包括点的密度、曲率、方向、法向量等，从而获得丰富的几何、语义和上下文特征。

点云特征具体可以通过点云特征提取网络获取。点云特征提取网络具体可以由多个依次连接的编码器组成，每个编码器可以由多个依次连接的卷积层构成。示例性地，KPConv算子可以作为所述卷积层的一个示例。

图像特征包括图像的低级特征、中级特征、高级语义特征、上下文信息等，其中低级特征如边缘、颜色、纹理和基本形状；中级特征可以是局部物体的部分结构和轮廓；高级语义特征与具体的物体类别或场景布局相关。

图像特征具体可以通过图像特征提取网络获取。图像特征提取网络具体可以由多个依次连接的编码器组成，每个编码器可以由多个依次连接的卷积层构成。示例性地，RepVGG模块可以作为所述卷积层的一个示例。

融合特征是对点云特征和图像特征进行融合后获得的特征。

示例性地，对点云特征和图像特征的融合具体可以基于Transformer网络实现。

Transformer网络是一种深度学习模型，其主要结构包括以下几个部分：输入嵌入层、多头注意力机制(Multi-Head Attention)、前馈神经网络(Feed-Forward NeuralNetwork，FFN)、残差连接(Residual Connections)、归一化层(LayerNorm)等。

基于Transformer网络对点云特征和图像特征进行融合的步骤具体包括：首先将点云特征和图像特征进行词嵌入为词向量(token)，接着对点云token逐元素进行位置嵌入，以获得带有绝对位置信息的点云token，以及对图像token逐元素进行位置嵌入，以获得带有绝对位置信息的图像token。接着以点云token作为查询向量，以图像token作为键矩阵和值矩阵进行注意力计算，以获得注意力向量。此处，根据查询向量、键矩阵和值矩阵计算注意力向量为Transformer网络的常用计算方式，此处不赘述。接着利用编码器(如以KPConv算子作为卷积层的编码器)对注意力向量和点云特征进行卷积操作，获得点云特征和注意力向量之间的关联特征或者相似特征，即为融合特征。

进一步将融合特征输入共视区域解码器即可获得共视区域。

共视区域解码器可以包括解码器、全连接层和激活函数，其中解码器可以由多个依次连接的Unary层组成，用于对输入共视区域解码器的特征进行解码，以获得高维度特征。其中Unary层通常会应用一个固定的非线性函数或者进行简单的数学运算。全连接层用于对高维度特征进行线性变换、特征组合以及线性回归，从而生成共视区域。

通过预先训练好的学习网络分别提取点云特征和图像特征，进一步采用深度学习网络对点云特征和图像特征进行融合，获得了融合特征，进一步基于融合特征获得了精度较高的共视区域，有利于较小共视区域对定位的影响。

在一个具体实施方式中，所述确定所述视觉图像的初始位姿，包括：基于所述图像特征、所述融合特征和所述共视区域确定所述视觉图像的初始位姿。

具体来说，将融合特征、图像特征和共视区域输入粗位姿解码器，以获得视觉图像的初始位姿。

在一个具体实施方式中，所述基于所述图像特征、所述融合特征和所述共视区域确定所述视觉图像的初始位姿，包括：对所述融合特征解码以获得高维融合特征；分别对所述高维融合特征、所述图像特征和所述共视区域进行池化；对池化后的高维融合特征、图像特征和共视区域进行回归操作，获得所述视觉图像的初始位姿。

粗位姿解码器包括解码器、池化层和全连接层，其中解码器可以由多个依次连接的Unary层组成，用于对输入粗位姿解码器的融合特征进行解码，以获得高维度的融合特征。池化层用于对高维融合特征、图像特征和共视区域进行池化，以提取更有用和稳定的特征，降低计算负担，提高模型的性能和泛化能力。全连接层用于对池化后的特征进行回归操作，以获得视觉图像的初始位姿。

如此，通过预先训练的模型获得了精度较高的初始位姿，降低了初始位姿对定位的影响，有利于提高定位精度。

以上是对步骤S102的进一步说明，下面继续对步骤S103作进一步说明。

具体地，步骤S103可以通过下述步骤S1031-步骤S1034实现，通过采用基于视锥模型的启发式迭代优化方法对初始位姿进行优化，以获得精确位姿。其中本申请实施例中的视锥是指图像采集设备在三维空间中能够观察到的区域的几何形状。

步骤S1031：基于所述共视区域从所述点云帧中确定第一点云和第二点云。

第一点云为点云帧中与视觉图像采集区域重叠的点云。

第一点云为点云帧中与视觉图像采集区域没有重叠的点云。

该步骤中，由于共视区域是点云帧与视觉图像的重叠区域，据此可以确定第一点云和第二点云。

步骤S1032：根据所述初始位姿和图像采集设备的内参分别将所述第一点云和所述第二点云投影至图像采集设备的成像平面，获得第一投影点和第二投影点；

图像采集设备的成像平面，也称为图像传感器平面或者像素阵列平面，是设备内部用于捕捉和记录光线信息的关键部分。

图像采集设备的内参是指描述图像采集设备的光学系统固有特性的参数，这些参数与图像采集设备的物理结构和成像过程有关。以相机作为图像采集设备的示例，相机内参包括焦距、主点、光心、畸变参数和相机矩阵等。

该步骤中，根据初始位姿和图像采集设备将第一点云和第二点云投影至成像平面，获得第一点云对应的第一投影点和第二点云对应的第二投影点。

步骤S1033：基于所述第一投影点和所述第二投影点确定第一损失；

第一损失是三维点云从世界坐标系投射到图像平面(二维像素坐标)过程中的误差。

在一个具体实施方式中，所述基于所述基于第一投影点和第二投影点确定第一损失，包括：判断所述第一投影点是否位于所述成像平面外，和/或所述第二投影点是否位于所述成像平面内；若是，确定所述第一投影点和/或所述第二投影点与所述成像平面的边界距离；基于所述边界距离确定所述第一损失。

由于第一点云是视锥内的点，当第一点云投影当成像平面外时，说明第一点云存在重投影误差。由于第二点云是视锥外的点，当第一点云投影当成像平面内时，说明第二点云存在重投影误差。因此可以根据第一点云和第二点云的投影情况构建损失函数，以获得第一损失。

具体来说，首先判断第一点云的投影点、第二点云的投影点与成像平面的关系，当第一投影点位于成像平面外，和/或第二投影点位于成像平面内时，根据第一投影点和/或第二投影点与成像平面的边界距离确定第一损失。

边界距离是点云投影点与成像平面的边界之间的距离。具体来说，边界距离可以包括投影点与成像平面的横向边界(成像平面的宽)、纵向边界(成像平面的高)之间的距离。

在一个具体实施方式中，在所述第一投影点位于所述成像平面外且所述第二投影点位于所述成像平面内时，所述基于所述边界距离确定所述第一损失，包括：基于第一边界距离和第二边界距离之和确定所述第一损失，其中所述第一边界距离为所述第一投影点距离所述成像平面的最小边界距离，所述第二边界距离为所述第二投影点距离所述成像平面的最小边界距离。

具体来说，当第一投影点位于成像平面外且第二投影点位于成像平面内时，说明第一投影点和第二投影点均存在重投影误差，此时先分别计算第一投影点和第二投影点分别距离成像平面的最小横向边界距离和最小纵向边界距离，最后确定所有投影点的最小横向边界距离和最小纵向边界距离之和，将其作为第一损失。

步骤S1034：基于所述第一损失和所述视觉图像的初始位姿确定所述视觉图像的精确位姿。

初始位姿是未能满足精度的位姿。在本申请中，可以根据第一损失对初始位姿进行迭代优化，从而获得精确位姿。

在一个具体实施方式中，所述基于所述第一损失和所述视觉图像的初始位姿确定所述视觉图像的精确位姿，包括：判断所述第一损失的梯度是否小于预设阈值；若否，调节所述视觉图像的初始位姿直至所述第一损失的梯度小于预设阈值，获得所述视觉图像的精确位姿。

预设阈值可以是预先经过实验获得的数值，具体可以根据实际场景进行适应性调整。

具体来说，首先判断第一损失的梯度是否小于预设阈值，若否，采用梯度下降法对初始位姿进行调节，直至第一损失的梯度小于预设阈值，获得精确位姿。

如此，通过初始位姿和共视区域联合优化，获得了精度较高的精确位姿，提高了定位精度，有利于安全驾驶。

图2是本申请一个实施例中跨模态定位方法的整体流程示意图。如图2所示，利用点云特征提取网络提取点云帧对应的点云特征，利用图像特征提取网络提取视觉图像对应的图像特征。利用特征融合网络对点云特征和图像特征进行注意力计算，并将特征融合网络的输出结果进一步输入编码器，获得融合特征。将融合特征输入共视区域解码器，获得共视区域。将融合特征、图像特征和共视区域输入粗位姿解码器，获得视觉图像的初始位姿。进而根据初始位姿和精确位姿进行基于视锥模型的迭代优化，获得最终的精确位姿。如此，提高了定位精度，有利于提高自动驾驶的可靠性。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本申请的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本申请的保护范围之内。

进一步，本申请还提供了一种跨模态定位装置。

参阅附图3，图3是根据本申请的一个实施例的跨模态定位装置的主要结构框图。

如图3所示，本申请实施例中的跨模态定位装置主要包括获取模块11、第一确定模块12和第二确定模块13。在一些实施例中获取模块11、第一确定模块12和第二确定模块13中的一个或多个可以合并在一起成为一个模块。

在一些实施例中，获取模块11可以被配置为获取点云采集设备采集的点云帧和图像采集设备采集的视觉图像。

第一确定模块12可以被配置为基于所述点云帧和所述视觉图像确定共视区域和所述视觉图像的初始位姿，所述共视区域为所述点云帧与所述视觉图像的重叠区域。

第二确定模块13可以被配置为基于所述点云帧、所述共视区域和所述视觉图像的初始位姿确定所述视觉图像的精确位姿。

一个实施方式中，具体实现功能的描述可以参见步骤S101-步骤S103所述。

上述跨模态定位装置以用于执行图1所示的跨模态定位方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，跨模态定位装置的具体工作过程及有关说明，可以参考跨模态定位方法的实施例所描述的内容，此处不再赘述。

本领域技术人员能够理解的是，本申请实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本申请还提供了一种智能设备，所述智能设备可以包括至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器中存储有计算机程序，计算机程序被至少一个处理器执行时实现上述任一实施例所述的方法。参见图4所示，图4中示例性的示出了智能设备的结构，其包括处理器100和存储器200。

在本申请的一些实施例中，智能设备还包括至少一个传感器，所述传感器用于感知信息。所述传感器与本申请提到的任何一种类型的处理器通信连接。可选地，所述智能设备还包括自动驾驶系统，自动驾驶系统用于引导智能设备自行行驶或辅助驾驶。所述处理器与所述传感器和/或自动驾驶系统通信，用于完成上述任一实施例所述的跨模态定位方法。

进一步，本申请还提供了一种计算机可读存储介质。在根据本申请的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的跨模态定位方法的程序，该程序可以由处理器加载并运行以实现上述跨模态定位方法。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储器设备，可选的，本申请实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

本申请各实施例中可能涉及的相关用户个人信息，均为严格按照法律法规的要求，遵循合法、正当、必要的原则，基于业务场景的合理目的，处理用户在使用产品/服务过程中主动提供或因使用产品/服务而产生的，以及经用户授权获取的个人信息。

本申请处理的用户个人信息会因具体产品/服务场景而有所不同，需以用户使用产品/服务的具体场景为准，可能会涉及用户的账号信息、设备信息、驾驶信息、车辆信息或其他相关信息。申请人会以高度的勤勉义务对待用户的个人信息及其处理。

本申请非常重视用户个人信息的安全，已采取符合业界标准、合理可行的安全防护措施保护用户的信息，防止个人信息遭到未经授权访问、公开披露、使用、修改、损坏或丢失。

至此，已经结合附图所示的优选实施方式描述了本申请的技术方案，但是，本领域技术人员容易理解的是，本申请的保护范围显然不局限于这些具体实施方式。在不偏离本申请的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本申请的保护范围之内。

Claims

1.一种跨模态定位方法，其特征在于，所述方法包括：

2.根据权利要求1所述的跨模态定位方法，其特征在于，所述基于所述点云帧和所述视觉图像确定共视区域，包括：

基于所述融合特征确定所述共视区域。

3.根据权利要求2所述的跨模态定位方法，其特征在于，所述确定所述视觉图像的初始位姿，包括：基于所述图像特征、所述融合特征和所述共视区域确定所述视觉图像的初始位姿。

4.根据权利要求1所述的跨模态定位方法，其特征在于，所述基于所述点云帧、所述共视区域和所述初始位姿确定所述视觉图像的精确位姿，包括：

根据所述初始位姿和所述图像采集设备的内参分别将所述第一点云和所述第二点云投影至所述图像采集设备的成像平面，获得第一投影点和第二投影点；

基于所述第一投影点和所述第二投影点确定第一损失；

5.根据权利要求4所述的跨模态定位方法，其特征在于，所述基于所述基于第一投影点和第二投影点确定第一损失，包括：

基于所述边界距离确定所述第一损失。

6.根据权利要求5所述的跨模态定位方法，其特征在于，在所述第一投影点位于所述成像平面外且所述第二投影点位于所述成像平面内时，所述基于所述边界距离确定所述第一损失，包括：基于第一边界距离和第二边界距离之和确定所述第一损失，其中所述第一边界距离为所述第一投影点距离所述成像平面的最小边界距离，所述第二边界距离为所述第二投影点距离所述成像平面的最小边界距离。

7.根据权利要求4所述的跨模态定位方法，其特征在于，所述基于所述第一损失和所述初始位姿确定所述视觉图像的精确位姿，包括：

判断所述第一损失的梯度是否小于预设阈值；

8.根据权利要求3所述的跨模态定位方法，其特征在于，所述基于所述图像特征、所述融合特征和所述共视区域确定所述视觉图像的初始位姿，包括：

对所述融合特征解码以获得高维融合特征；

9.一种智能设备，其特征在于，包括：

至少一个处理器；

以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器中存储有计算机程序，所述计算机程序被所述至少一个处理器执行时实现权利要求1至8中任一项所述的跨模态定位方法。

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至8中任一项所述的跨模态定位方法。