CN116704026A

CN116704026A - 一种定位方法、装置、电子设备和存储介质

Info

Publication number: CN116704026A
Application number: CN202310596957.6A
Authority: CN
Inventors: 吕立翔; 杨卓然; 朱炫培; 邓敬方; 刘霆; 王晗; 姚天翼; 饶环宇; 张四维; 陈泓宇
Original assignee: Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-09-05

Abstract

本发明公开了一种定位方法、装置、电子设备和存储介质。其中，该方法包括：获取目标机器人的待定位图像，其中，所述待定位图像为相邻两帧的三维图像，根据视觉定位网络模型确定所述待定位图像的融合特征，所述视觉定位网络模型基于三维图像帧集训练生成，基于预设长短期记忆网络模型和所述融合特征确定所述目标机器人的位姿。本发明实施例通过根据视觉定位网络模型确定目标机器人的待定位图像的融合特征，再基于该融合特征和预设长短期记忆网络模型确定目标机器人的位姿，解决了现有定位方法中存在复杂光线变化环境下定位精度较低的问题，提高了目标机器人在复杂光线变化环境下的视觉定位精度。

Description

一种定位方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种定位方法、装置、电子设备和存储介质。

背景技术

随着智能电网系统的发展，变电站、电力线的覆盖范围越来越广，在给人们带来便利的同时，也为电力设备的管理带来了新的问题。机器人巡检技术可以提高巡检的效率，降低人工巡检费用，实现智能异常检测处理，逐渐成为代替人工巡检的一种趋势。

对于巡检机器人而言，其首要任务是解决自身定位的问题。现有的定位方法例如基于同步定位与建图(Simultaneous Localization and Mapping，SLAM)的定位方法，或者基于红外技术的定位方法等，容易受到光线变化的干扰，进而对巡检机器人的工作造成影响，即现有定位方法存在复杂光线变化环境下定位精度较低的问题。

发明内容

本发明提供了一种定位方法、装置、电子设备和存储介质，以通过视觉定位网络模型确定目标机器人的待定位图像的融合特征，再基于该融合特征和预设长短期记忆网络模型确定目标机器人的位姿，解决现有定位方法中存在复杂光线变化环境下定位精度较低的问题，提高目标机器人的视觉定位精度。

根据本发明的一方面，提供了一种定位方法，该方法包括：

获取目标机器人的待定位图像，其中，待定位图像为相邻两帧的三维图像；

根据视觉定位网络模型确定待定位图像的融合特征，视觉定位网络模型基于三维图像帧集训练生成；

基于预设长短期记忆网络模型和融合特征确定目标机器人的位姿。

根据本发明的另一方面，提供了一种定位装置，该装置包括：

图像获取模块，用于获取目标机器人的待定位图像，其中，待定位图像为相邻两帧的三维图像；

特征确定模块，用于根据视觉定位网络模型确定待定位图像的融合特征，视觉定位网络模型基于三维图像帧集训练生成；

位姿确定模块，用于基于预设长短期记忆网络模型和融合特征确定目标机器人的位姿。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的定位方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的定位方法。

本发明实施例的技术方案，通过获取目标机器人的待定位图像，其中，待定位图像为相邻两帧的三维图像，根据视觉定位网络模型确定待定位图像的融合特征，视觉定位网络模型基于三维图像帧集训练生成，基于预设长短期记忆网络模型和融合特征确定目标机器人的位姿。本发明实施例通过根据视觉定位网络模型确定目标机器人的待定位图像的融合特征，再基于该融合特征和预设长短期记忆网络模型确定目标机器人的位姿，解决了现有定位方法中存在复杂光线变化环境下定位精度较低的问题，提高了目标机器人在复杂光线变化环境下的视觉定位精度。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种定位方法的流程图；

图2是根据本发明实施例二提供的一种定位方法的流程图；

图3是根据本发明实施例二提供的一种待定位图像的融合特征获取方法的流程图；

图4是根据本发明实施例三提供的一种定位网络模型的结构示意图；

图5是根据本发明实施例三提供的一种定位方法的流程图；

图6是根据本发明实施例三提供的一种定位网络模型的结构示意图；

图7是根据本发明实施例三提供的测试场景一对应的测试场景图像；

图8是根据本发明实施例三提供的测试场景一对应的二维路径图；

图9是根据本发明实施例三提供的测试场景一对应的速度热图；

图10是根据本发明实施例三提供的测试场景二对应的测试场景图像；

图11是根据本发明实施例三提供的测试场景二对应的二维路径图；

图12是根据本发明实施例三提供的测试场景二对应的速度热图；

图13是根据本发明实施例三提供的测试场景三对应的测试场景图像；

图14是根据本发明实施例三提供的测试场景三对应的二维路径图；

图15是根据本发明实施例三提供的测试场景三对应的速度热图；

图16是根据本发明实施例四提供的一种定位装置的结构示意图；

图17是实现本发明实施例的定位方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供了一种定位方法的流程图，本实施例可适用于对目标机器人进行定位的情况，该方法可以由定位装置来执行，该定位装置可以采用硬件和/或软件的形式实现，该定位装置可配置于电子设备中，该电子设备可以包括但不限于目标机器人或智能终端设备等。如图1所示，本实施例一提供的一种定位方法，具体包括如下步骤：

S110、获取目标机器人的待定位图像，其中，待定位图像为相邻两帧的三维图像。

其中，目标机器人可以是指待确定定位位姿信息的机器人设备，目标机器人可以为巡检机器人或者其他类型的机器人设备等，本发明实施例对此不进行限制。待定位图像可以是指用于确定目标机器人定位位姿信息的图像，待定位图像可以是相邻两帧的三维图像，待定位图像可以来源于目标机器人实际采集的图像数据，也可以来源于公开的数据集例如KITTI数据集等。

在本发明实施例中，首先需要获取目标机器人的待定位图像，以便后面利用获取的待定位图像进行目标机器人的视觉定位，其中，待定位图像可以是相邻两帧的三维图像，获取目标机器人的待定位图像的方式可以包括但不限于以下几种：可以利用目标机器人自身配置的惯性导航系统、激光雷达以及高精度摄像机等定位设备采集自身周围的环境数据，并将相邻两帧的环境数据作为目标机器人的待定位图像；也可以使用一些公开的数据集，例如可以是在自动驾驶领域中常用的KITTI数据集，可以从KITTI数据集中提取相邻两帧的图像作为目标机器人的待定位图像，本发明实施例对此不进行限制。可以理解的是，目标机器人的待定位图像可以预先存储在本地或者云端的数据库中，在需要对目标机器人进行视觉定位时，可以从上述数据库中获取所需的待定位图像。

S120、根据视觉定位网络模型确定待定位图像的融合特征，视觉定位网络模型基于三维图像帧集训练生成。

其中，视觉定位网络模型可以是预先训练好的用于提取待定位图像的融合特征的深度神经网络模型，视觉定位网络模型可以融合多个卷积层和注意力机制变换等，视觉定位网络模型可以基于三维图像帧集训练生成。三维图像帧集可以是指包含若干三维图像帧的数据集，三维图像帧集可以用于训练视觉定位网络模型，三维图像帧集可以来源于目标机器人实际采集的图像数据，也可以来源于公开的数据集例如KITTI数据集等。融合特征可以是指待定位图像经过视觉定位网络模型提取的特征，融合特征中可以保留相邻两帧的待定位图像中的共同特征以及差异特征等信息。

在本发明实施例中，可以在电子设备上预先配置训练好的视觉定位网络模型，在获取到目标机器人的待定位图像后，可以将待定位图像输入至已经训练好的视觉定位网络模型中进行特征提取，并将提取到的特征作为待定位图像的融合特征，融合特征的获取方式可以为：将相邻两帧的待定位图像依次通过若干个卷积层、池化层以及全连接层，将最后的输出结果作为待定位图像的融合特征；融合特征的获取方式还可以为：先对相邻两帧的待定位图像进行视觉特征编码，再对编码后的视觉特征进行注意力机制变换，并将处理后的结果作为待定位图像的融合特征，本发明实施例对此不进行限制。

S130、基于预设长短期记忆网络模型和融合特征确定目标机器人的位姿。

其中，预设长短期记忆(Long Short-Term Memory，LSTM)网络模型可以是指预先配置的LSTM网络，预设LSTM网络模型是一种时间循环神经网络，是为了解决一般的循环神经网络存在的长期依赖问题而专门设计出来的。位姿可以是指对目标机器人进行视觉定位后得到的位姿信息，位姿包括目标机器人的位置和朝向等信息。

在本发明实施例中，可以在电子设备上预先配置训练好的预设长短期记忆网络模型，在提取出待定位图像的融合特征后，可以将该融合特征输入至预设长短期记忆网络模型中，并将模型的输出结果作为目标机器人的位姿，其中，位姿可以包括目标机器人的位置和朝向等信息，利用预设长短期记忆网络模型对融合特征进行处理，可以解决融合特征在训练过程中可能存在的梯度消失和梯度爆炸的问题，并且可以保留融合特征中的重要信息。

实施例二

图2为本发明实施例二提供的一种定位方法的流程图，基于上述实施方式进一步进行优化与扩展，并可以与上述实施方式中各个可选技术方案结合。如图2所示，本实施例二提供的一种定位方法，具体包括如下步骤：

S210、获取目标机器人的待定位图像，其中，待定位图像为相邻两帧的三维图像。

S220、将待定位图像输入至视觉定位网络模型的三层卷积层进行特征提取，得到待定位图像对应的第一视觉特征和第二视觉特征。

其中，第一视觉特征和第二视觉特征可以是指相邻两帧待定位图像在经过卷积层处理后提取到的对应视觉特征，第一视觉特征和第二视觉特征可以反映待定位图像的视觉特征信息，示例性的，第一视觉特征可以是t时刻的待定位图像经过卷积处理得到的视觉特征，第二视觉特征可以是t+1时刻的待定位图像经过卷积处理得到的视觉特征。

在本发明实施例中，在获取到目标机器人的待定位图像后，可以将待定位图像输入至视觉定位网络模型的三层卷积层中，对待定位图像进行特征提取即视觉特征编码，以提取出待定位图像对应的第一视觉特征和第二视觉特征，其中，三层卷积操作中涉及的卷积核以及池化层等相关参数可以根据实际需要进行相应设置，能够实现提取待定位图像对应的第一视觉特征和第二视觉特征即可，本发明实施例对此不进行限制。

S230、将第一视觉特征和第二视觉特征进行堆叠得到堆叠视觉特征。

其中，堆叠视觉特征可以是指将第一视觉特征和第二视觉特征进行堆叠操作后得到的融合视觉特征，若第一视觉特征和第二视觉特征的维度为C×H×W(通道数×高度×宽度)，则对应的堆叠视觉特征的维度为2C×H×W。

在本发明实施例中，可以对提取到的第一视觉特征和第二视觉特征执行堆叠操作，将堆叠后的结果作为堆叠视觉特征。

S240、对第一视觉特征、第二视觉特征以及堆叠视觉特征进行注意力机制变换，以得到待定位图像的融合特征。

其中，注意力机制变换可以理解为基于注意力机制的数据处理方式，注意力机制源于对人类视觉的研究，是利用人类有限的注意力资源来关注更加重要的信息，以提高获取信息的效率和精准度，从数学公式和代码实现上注意力机制可以理解为加权求和。

在本发明实施例中，可以将第一视觉特征、第二视觉特征以及堆叠视觉特征输入视觉定位网络模型中进行注意力机制变换，并将对应的输出结果作为待定位图像的融合特征，示例性的，可以在注意力机制变换中设计三个分支，三个分支分别使用注意力机制变换对第一视觉特征、第二视觉特征以及堆叠视觉特征进行处理，可以将三个分支处理后的特征进行融合后作为待定位图像的融合特征。

进一步地，在上述发明实施例的基础上，图3为本发明实施例二提供的一种待定位图像的融合特征获取方法的流程图，基于上述S240的进一步进行优化与扩展，并可以与上述实施方式中各个可选技术方案结合。如图3所示，本实施例二提供的一种待定位图像的融合特征获取方法，具体包括如下步骤：

S2401、对第一视觉特征进行通道C和宽度W的通道交换，并对通道交换后的视觉特征依次执行Z-Pool池化、卷积操作、批归一化操作以及激活函数操作处理，对处理后的视觉特征进行宽度W和通道C的通道交换以得到第一分支特征。

S2402、对第二视觉特征进行通道C和高度H的通道交换，并对通道交换后的视觉特征依次执行Z-Pool池化、卷积操作、批归一化操作以及激活函数操作处理，对处理后的视觉特征进行高度H和通道C的通道交换以得到第二分支特征。

S2403、对堆叠视觉特征依次执行DZ-Pool池化、卷积操作、批归一化操作以及激活函数操作处理，将处理后的堆叠视觉特征与输入的堆叠视觉特征进行点积操作以得到第三分支特征。

S2404、将第一分支特征和第二分支特征堆叠后与第三分支特征相加取平均，以得到待定位图像的融合特征。

其中，Z-Pool池化操作可以理解为对通道交换后的第一视觉特征或第二视觉特征分别执行最大池化操作和平均池化操作之后再进行堆叠的操作，利用Z-Pool池化操作能够保留第一视觉特征或第二视觉特征的丰富表示，同时缩小其深度以使进一步的计算量更轻。DZ-Pool池化操作可以理解为堆叠视觉特征分别执行最大池化操作和平均池化操作之后再进行堆叠的操作。第一分支特征、第二分支特征和第三分支特征可以是指分别对第一视觉特征、第二视觉特征和堆叠视觉特征进行注意力机制变换后得到的特征。

在本发明实施例中，可以分别设置三个分支，三个分支分别对应第一视觉特征、第二视觉特征以及堆叠视觉特征的数据处理操作，即对第一视觉特征、第二视觉特征以及堆叠视觉特征分别对应执行S2401、S2402以及S2403的操作，以得到分别对应的第一分支特征、第二分支特征以及第三分支特征，然后对第一分支特征和第二分支特征执行堆叠操作后与第三分支特征相加取平均，即可得到待定位图像的融合特征。第一分支和第二分支对应的两帧第一视觉特征和第二视觉特征分别进行通道C与宽度W以及通道C和高度H的通道交换操作，相当于分别进行了一次正交投影，即两个分支的视觉特征分别进行了向宽度方向和向高度方向的正交投影，投影后经过堆叠，放大了两个分支的视觉特征之间的差异。而第三分支对应的是堆叠视觉特征的处理操作，能够展示两个视觉特征(第一视觉特征和第二视觉特征)融合后的效果，便于寻找第一视觉特征和第二视觉特征中的共同特征。最后，对第一分支特征和第二分支特征执行堆叠操作后与第三分支特征相加取平均，得到的融合特征中相同特征产生的值会明显大于不同的特征产生的值，有利于计算相邻两帧待定位图像中重叠区域的配准，为后续回归出相机位姿提供了良好的特征。

S250、将融合特征输入至预设长短期记忆网络模型进行特征提取，得到目标机器人的位姿特征。

其中，预设长短期记忆网络模型可以包括输入层、隐藏层和输出层，预设长短期记忆网络模型中每个记忆细胞的输入为当前时刻网络的输入值、上一时刻的输出值和上一时刻的细胞状态，记忆细胞的输出为当前时刻的输出值和当前时刻的细胞状态；隐藏层可以至少包括：输入门、遗忘门和输出门，输入门、遗忘门和输出门均包含激活函数和按位乘操作，通过输入门、遗忘门和输出门之间的相互协作，可以使隐藏层尽可能保留有用的信息，丢弃无用的信息。位姿特征可以是指经过预设长短期记忆网络模型输出的、用于对目标机器人进行视觉定位特征信息。

在本发明实施例中，可以预先配置好预设长短期记忆网络模型，再将获取的融合特征输入至该预设长短期记忆网络模型中进行特征提取，并将提取出的特征作为目标机器人的位姿特征。利用预设长短期记忆网络模型对融合特征进行处理，可以解决融合特征在训练过程中可能存在的梯度消失和梯度爆炸的问题，并且可以保留融合特征中的重要信息。

S260、在全连接层侧获取位姿特征的输出结果，并将输出结果作为目标机器人的位姿。

在本发明实施例中，可以将经过预设长短期记忆网络模型输出的位姿特征最后输入至全连接层中，经全连接层处理后即可得到目标机器人进行视觉定位后的位姿。

进一步地，在上述发明实施例的基础上，本发明实施例中的视觉定位网络模型在训练阶段的损失函数可以定义如下；

其中，L_se(3)表示相对于序列开始的SE(3)完整连接位姿损失；α和β分别表示加权参数，α和β在实际应用中可以取1；q和分别表示四元数旋转矩阵的真值和估计值，/>表示四元数旋转矩阵的损失；T和/>分别表示位置变换矩阵的真值和估计值，/>表示位置变换矩阵的损失。

进一步地，在上述发明实施例的基础上，本发明实施例中使用的激活函数可以包括以下至少之一：Sigmod激活函数、双曲正切激活函数。

本发明实施例的技术方案，通过获取目标机器人的待定位图像，其中，待定位图像为相邻两帧的三维图像，将待定位图像输入至视觉定位网络模型的三层卷积层进行特征提取，得到待定位图像对应的第一视觉特征和第二视觉特征，将第一视觉特征和第二视觉特征进行堆叠得到堆叠视觉特征，对第一视觉特征、第二视觉特征以及堆叠视觉特征进行注意力机制变换，以得到待定位图像的融合特征，将融合特征输入至预设长短期记忆网络模型进行特征提取，得到目标机器人的位姿特征，在全连接层侧获取位姿特征的输出结果，并将输出结果作为目标机器人的位姿。本发明实施例通过视觉定位网络模型的三层卷积层提出待定位图像对应的第一视觉特征和第二视觉特征，将第一视觉特征和第二视觉特征进行堆叠得到堆叠视觉特征，并对第一视觉特征、第二视觉特征以及堆叠视觉特征进行注意力机制变换，以得到待定位图像的融合特征，最后根据该融合特征和视觉定位网络模型确定目标机器人的位姿，解决了现有定位方法中存在复杂光线变化环境下定位精度较低的问题，采用带有注意力机制的视觉定位网络模型显著提高了目标机器人在复杂光线变化环境下的视觉定位精度。

实施例三

图4为本发明实施例三提供的一种定位网络模型的结构示意图。如图4所示，可以将相邻两帧的待定位图像同时输入至视觉定位网络模型，视觉定位网络模型利用三层卷积层分别对两帧待定位图像进行视觉特征编码，输出两帧待定位图像对应的第一视觉特征和第二视觉特征；将第一视觉特征和第二视觉特征进行堆叠得到堆叠视觉特征，再通过视觉定位网络模型的注意力机制变换融合第一视觉特征、第二视觉特征以及堆叠视觉特征的特征信息，输出待定位图像对应的融合特征；最后对融合特征依次经过预设长短期记忆网络模型和全连接层处理，进而得到目标机器人进行视觉定位后的位姿。

基于上述定位网络模型，图5为本发明实施例三提供的一种定位方法的流程图。本实施例在上述实施例的基础上，提供了一种定位方法的一个实施方式，能够实现目标机器人的精准视觉定位。如图5所示，本发明实施例三提供的一种定位方法，具体包括如下步骤：

S310、获取目标机器人的待定位图像，其中，待定位图像为相邻两帧的三维图像。

在本发明实施例中，所使用的待定位图像来源于自动驾驶领域中常用的KITTI数据集。

S320、将待定位图像输入至视觉定位网络模型的三层卷积层进行视觉特征编码，得到待定位图像对应的第一视觉特征和第二视觉特征。

在本发明实施例中，可以将t时刻的待定位图像经过三层卷积处理得到的视觉特征作为第一视觉特征，可以将t+1时刻的待定位图像经过三层卷积处理得到的视觉特征作为第二视觉特征。所采用的三层卷积层的层结构可以设置如下：

如上表所示，第一卷积层Cov1中采用64个7×7大小的卷积核进行处理，最后Cov1输出结果的尺寸为112×112；第二卷积层Cov2中先对Cov1输出的结果采用3×3大小的最大池化Maxpool进行处理，再依次采用64个1×1大小的卷积核、64个3×3大小的卷积核以及256个1×1大小的卷积核进行处理，其中上述卷积操作共执行3次，最后Cov2输出结果的尺寸为56×56；第三卷积层Cov3中先对Cov2输出的结果采用3×3大小的最大池化Maxpool进行处理，再依次采用128个1×1大小的卷积核、128个3×3大小的卷积核以及512个1×1大小的卷积核进行处理，其中上述卷积操作共执行4次，最后Cov3输出结果的尺寸为28×28。对相邻两帧的待定位图像分别经过三层卷积处理后，即可提取出对应的第一视觉特征和第二视觉特征。

S330、将第一视觉特征和第二视觉特征进行堆叠得到堆叠视觉特征。

S340、通过视觉定位网络模型的注意力机制变换融合第一视觉特征、第二视觉特征以及堆叠视觉特征，输出待定位图像对应的融合特征。

图6为本发明实施例三提供的一种注意力机制变换的结构示意图。如图6所示，三个分支分别对应第一视觉特征、第二视觉特征以及堆叠视觉特征的注意力机制变换操作。具体的，第一分支对应t时刻的第一视觉特征F_t，假设其维度为C×H×W，首先对第一视觉特征F_t进行通道C和宽度W的通道交换T_1,2,0，维度变为W×H×C，然后对通道交换后的结果执行Z-Pool池化操作。其中，以任一特征A为例，对其进行Z-Pool池化操作可用公式表示如下：

Z-pool(A)＝[Maxpool(A),Avgpool(A)]

该公式表示对特征A分别执行最大池化操作和平均池化操作之后再进行堆叠的操作，利用Z-Pool池化操作能够保留特征A的丰富表示，同时缩小其深度以使进一步的计算量更轻。接下来，对Z-Pool池化操作后的结果依次执行7×7卷积操作、批归一化操作以及Sigmod激活操作处理，最后对处理后的结果进行宽度W和通道C的通道交换T_0,1,2，将特征的维度变换为C×H×W，进而得到第一视觉特征对应的第一分支特征。第一分支对应的特征处理操作M¹(F_t)可以用公式表示如下：

M¹(F_t)＝T_0,1,2(σ(Cov^7×7(Z-pool(T_1,2,0(F_t)))))

其中，σ表示Sigmod激活函数。

第二分支对应t+1时刻的第二视觉特征F_t+1，假设其维度为C×H×W，首先对第二视觉特征F_t+1进行通道C和高度H的通道交换T_1,0,2，维度变为H×W×C，然后对通道交换后的结果执行Z-Pool池化操作。接下来，对Z-Pool池化操作后的结果依次执行7×7卷积操作、批归一化操作以及Sigmod激活操作处理，最后对处理后的结果进行高度H和通道C的通道交换T_0,1,2，将特征的维度变换为C×H×W，进而得到第二视觉特征对应的第二分支特征。第二分支对应的特征处理操作M²(F_t+1)可以用公式表示如下：

M²(F_t+1)＝T_0,1,2(σ(Cov^7×7(Z-pool(T_1,0,2(F_t+1)))))

第三分支对应堆叠视觉特征(F_t,F_t+1)，假设其维度为2C×H×W，首先对堆叠视觉特征(F_t,F_t+1)执行DZ-Pool池化操作，其中，DZ-Pool池化操作可用公式表示如下：

DZ-pool(F_t,F_t+1)＝[Maxpool(F_t,F_t+1),Avgpool(F_t,F_t+1)]

该公式表示对堆叠视觉特征(F_t,F_t+1)分别执行最大池化操作和平均池化操作之后再进行堆叠的操作。接下来，对DZ-Pool池化操作后的结果依次执行7×7卷积操作、批归一化操作以及Sigmod激活操作处理，最后对处理后的结果与输入的堆叠视觉特征(F_t,F_t+1)进行点积操作，进而得到堆叠视觉特征对应的第三分支特征。第三分支对应的特征处理操作M³(F_t,F_t+1)可以用公式表示如下：

M³(F_t，F_t+1)＝σ(Cov^7×7(DZ-pool(F_t，F_t+1))))·(F_t，F_t+1)

最后，对将第一分支特征和第二分支特征堆叠后与第三分支特征相加后取平均，即可得到待定位图像的融合特征

在本发明实施例中，第一分支和第二分支对应的两帧第一视觉特征和第二视觉特征分别进行通道C与宽度W以及通道C和高度H的通道交换操作，相当于分别进行了一次正交投影，即两个分支的视觉特征分别进行了向宽度方向和向高度方向的正交投影，投影后经过堆叠，放大了两个分支的视觉特征之间的差异。而第三分支对应的是堆叠视觉特征的处理操作，能够展示两个视觉特征(第一视觉特征和第二视觉特征)融合后的效果，便于寻找第一视觉特征和第二视觉特征中的共同特征。最后，对第一分支特征和第二分支特征执行堆叠操作后与第三分支特征相加取平均，得到的融合特征中相同特征产生的值会明显大于不同的特征产生的值，有利于计算相邻两帧待定位图像中重叠区域的配准，为后续回归出相机位姿提供了良好的特征。

S350、将融合特征输入至预设长短期记忆网络模型进行特征提取，并将提取的特征经过全连接层即可得到目标机器人的位姿。

在本发明实施例中，视觉定位网络模型在训练阶段的损失函数可以定义如下；

下面基于KITTI数据集分别采用3个不同测试场景对本发明实施例的技术方案进行定位精度对比验证。其中，测试场景一对应的是形成多次闭环的场景，图7是测试场景一对应的测试场景图像，图8和图9是在测试场景一下测试得到的二维路径图和速度热图(speed heatmap)；测试场景二对应的是形成一次闭环的场景，图10是测试场景二对应的测试场景图像，图11和图12是在测试场景二下测试得到的二维路径图和速度热图；测试场景三对应的是没有闭环的场景，图13是测试场景三对应的测试场景图像，图14和图15是在测试场景三下测试得到的二维路径图和速度热图。由三组不同测试场景图像可以看出，本发明实施例中的目标机器人是在复杂光线变化环境(例如各种阴影)下测试的。同时，通过图9、图12和图15可以看出目标机器人运行在不同的速度下。而由图8、图11和图14中的3张二维路径图不难看出，本发明实施例提出的定位方法与真实的目标轨迹十分吻合，表明本发明实施例提出的定位方法具有较高的定位精度，可以顺利完成巡检的相应任务。

本发明实施例的技术方案，通过获取目标机器人的待定位图像，其中，待定位图像为相邻两帧的三维图像，将待定位图像输入至视觉定位网络模型的三层卷积层进行视觉特征编码，得到待定位图像对应的第一视觉特征和第二视觉特征，将第一视觉特征和第二视觉特征进行堆叠得到堆叠视觉特征，通过视觉定位网络模型的注意力机制变换融合第一视觉特征、第二视觉特征以及堆叠视觉特征，输出待定位图像对应的融合特征，将融合特征输入至预设长短期记忆网络模型进行特征提取，并将提取的特征经过全连接层即可得到目标机器人的位姿。本发明实施例通过对相邻两帧的待定位图像分别经过三层卷积处理提取出对应的第一视觉特征和第二视觉特征，将第一视觉特征和第二视觉特征进行堆叠得到堆叠视觉特征，并利用视觉定位网络模型的注意力机制变换融合第一视觉特征、第二视觉特征以及堆叠视觉特征，进而输出待定位图像对应的融合特征，最后基于该融合特征和预设长短期记忆网络模型确定目标机器人的位姿，解决了现有定位方法中存在复杂光线变化环境下定位精度较低的问题，采用带有注意力机制的视觉定位网络模型显著提高了目标机器人在复杂光线变化环境下的视觉定位精度，使得目标机器人可以顺利完成巡检的相应任务。

实施例四

图16为本发明实施例四提供的一种定位装置的结构示意图。如图16所示，该装置包括：

图像获取模块41，用于获取目标机器人的待定位图像，其中，待定位图像为相邻两帧的三维图像。

特征确定模块42，用于根据视觉定位网络模型确定待定位图像的融合特征，视觉定位网络模型基于三维图像帧集训练生成。

位姿确定模块43，用于基于预设长短期记忆网络模型和融合特征确定目标机器人的位姿。

本发明实施例的技术方案，通过图像获取模块获取目标机器人的待定位图像，其中，待定位图像为相邻两帧的三维图像，特征确定模块根据视觉定位网络模型确定待定位图像的融合特征，视觉定位网络模型基于三维图像帧集训练生成，位姿确定模块基于预设长短期记忆网络模型和融合特征确定目标机器人的位姿。本发明实施例通过根据视觉定位网络模型确定目标机器人的待定位图像的融合特征，再基于该融合特征和预设长短期记忆网络模型确定目标机器人的位姿，解决了现有定位方法中存在复杂光线变化环境下定位精度较低的问题，提高了目标机器人在复杂光线变化环境下的视觉定位精度。

进一步地，在上述发明实施例的基础上，特征确定模块42包括：

视觉特征提取单元，用于将待定位图像输入至视觉定位网络模型的三层卷积层进行特征提取，得到待定位图像对应的第一视觉特征和第二视觉特征。

堆叠视觉特征获取单元，用于将第一视觉特征和第二视觉特征进行堆叠得到堆叠视觉特征。

融合特征获取单元，用于对第一视觉特征、第二视觉特征以及堆叠视觉特征进行注意力机制变换，以得到待定位图像的融合特征。

进一步地，在上述发明实施例的基础上，融合特征获取单元具体用于：

对第一视觉特征进行通道C和宽度W的通道交换，并对通道交换后的视觉特征依次执行Z-Pool池化、卷积操作、批归一化操作以及激活函数操作处理，对处理后的视觉特征进行宽度W和通道C的通道交换以得到第一分支特征；

对第二视觉特征进行通道C和高度H的通道交换，并对通道交换后的视觉特征依次执行Z-Pool池化、卷积操作、批归一化操作以及激活函数操作处理，对处理后的视觉特征进行高度H和通道C的通道交换以得到第二分支特征；

对堆叠视觉特征依次执行DZ-Pool池化、卷积操作、批归一化操作以及激活函数操作处理，将处理后的堆叠视觉特征与输入的堆叠视觉特征进行点积操作以得到第三分支特征；

将第一分支特征和第二分支特征堆叠后与第三分支特征相加取平均，以得到待定位图像的融合特征。

进一步地，在上述发明实施例的基础上，位姿确定模块43包括：

位姿特征提取单元，用于将融合特征输入至预设长短期记忆网络模型进行特征提取，得到目标机器人的位姿特征。

位姿确定单元，用于在全连接层侧获取位姿特征的输出结果，并将输出结果作为目标机器人的位姿。

进一步地，在上述发明实施例的基础上，预设长短期记忆网络模型包括输入层、隐藏层和输出层，预设长短期记忆网络模型中每个记忆细胞的输入为当前时刻网络的输入值、上一时刻的输出值和上一时刻的细胞状态，记忆细胞的输出为当前时刻的输出值和当前时刻的细胞状态；其中，隐藏层至少包括：输入门、遗忘门和输出门，输入门、遗忘门和输出门均包含激活函数和按位乘操作。

进一步地，在上述发明实施例的基础上，视觉定位网络模型在训练阶段的损失函数定义如下：

其中，L_se(3)表示相对于序列开始的SE(3)完整连接位姿损失；α和β分别表示加权参数；q和分别表示四元数旋转矩阵的真值和估计值，/>表示四元数旋转矩阵的损失；T和/>分别表示位置变换矩阵的真值和估计值，/>表示位置变换矩阵的损失。

进一步地，在上述发明实施例的基础上，激活函数包括以下至少之一：Sigmod激活函数、双曲正切激活函数。

本发明实施例所提供的定位装置可执行本发明任意实施例所提供的定位方法，具备执行方法相应的功能模块和有益效果。

实施例五

图17示出了可以用来实施本发明的实施例的电子设备50的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图17所示，电子设备50包括至少一个处理器51，以及与至少一个处理器51通信连接的存储器，如只读存储器(ROM)52、随机访问存储器(RAM)53等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器51可以根据存储在只读存储器(ROM)52中的计算机程序或者从存储单元58加载到随机访问存储器(RAM)53中的计算机程序，来执行各种适当的动作和处理。在RAM 53中，还可存储电子设备50操作所需的各种程序和数据。处理器51、ROM 52以及RAM 53通过总线54彼此相连。输入/输出(I/O)接口55也连接至总线54。

电子设备50中的多个部件连接至I/O接口55，包括：输入单元56，例如键盘、鼠标等；输出单元57，例如各种类型的显示器、扬声器等；存储单元58，例如磁盘、光盘等；以及通信单元59，例如网卡、调制解调器、无线通信收发机等。通信单元59允许电子设备50通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器51可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器51的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器51执行上文所描述的各个方法和处理，例如定位方法。

在一些实施例中，定位方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元58。在一些实施例中，计算机程序的部分或者全部可以经由ROM52和/或通信单元59而被载入和/或安装到电子设备50上。当计算机程序加载到RAM 53并由处理器51执行时，可以执行上文描述的定位方法的一个或多个步骤。备选地，在其他实施例中，处理器51可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行定位方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种定位方法，其特征在于，所述方法包括：

获取目标机器人的待定位图像，其中，所述待定位图像为相邻两帧的三维图像；

根据视觉定位网络模型确定所述待定位图像的融合特征，所述视觉定位网络模型基于三维图像帧集训练生成；

基于预设长短期记忆网络模型和所述融合特征确定所述目标机器人的位姿。

2.根据权利要求1所述的方法，其特征在于，所述根据视觉定位网络模型确定所述待定位图像的融合特征，包括：

将所述待定位图像输入至所述视觉定位网络模型的三层卷积层进行特征提取，得到所述待定位图像对应的第一视觉特征和第二视觉特征；

将所述第一视觉特征和所述第二视觉特征进行堆叠得到堆叠视觉特征；

对所述第一视觉特征、所述第二视觉特征以及所述堆叠视觉特征进行注意力机制变换，以得到所述待定位图像的融合特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一视觉特征、所述第二视觉特征以及所述堆叠视觉特征进行注意力机制变换，以得到所述待定位图像的融合特征，包括：

对所述第一视觉特征进行通道C和宽度W的通道交换，并对所述通道交换后的视觉特征依次执行Z-Pool池化、卷积操作、批归一化操作以及激活函数操作处理，对所述处理后的所述视觉特征进行宽度W和通道C的通道交换以得到第一分支特征；

对所述第二视觉特征进行通道C和高度H的通道交换，并对所述通道交换后的视觉特征依次执行Z-Pool池化、卷积操作、批归一化操作以及激活函数操作处理，对所述处理后的所述视觉特征进行高度H和通道C的通道交换以得到第二分支特征；

对所述堆叠视觉特征依次执行DZ-Pool池化、卷积操作、批归一化操作以及激活函数操作处理，将所述处理后的所述堆叠视觉特征与输入的所述堆叠视觉特征进行点积操作以得到第三分支特征；

将所述第一分支特征和所述第二分支特征堆叠后与所述第三分支特征相加取平均，以得到所述待定位图像的融合特征。

4.根据权利要求1所述的方法，其特征在于，所述基于预设长短期记忆网络模型和所述融合特征确定所述目标机器人的位姿，包括：

将所述融合特征输入至所述预设长短期记忆网络模型进行特征提取，得到所述目标机器人的位姿特征；

在全连接层侧获取所述位姿特征的输出结果，并将所述输出结果作为所述目标机器人的位姿。

5.根据权利要求4所述的方法，其特征在于，所述预设长短期记忆网络模型包括输入层、隐藏层和输出层，所述预设长短期记忆网络模型中每个记忆细胞的输入为当前时刻网络的输入值、上一时刻的输出值和上一时刻的细胞状态，记忆细胞的输出为当前时刻的输出值和当前时刻的细胞状态；

其中，所述隐藏层至少包括：输入门、遗忘门和输出门，所述输入门、所述遗忘门和所述输出门均包含激活函数和按位乘操作。

6.根据权利要求1所述的方法，其特征在于，所述视觉定位网络模型在训练阶段的损失函数定义如下：

其中，L_se(3)表示相对于序列开始的SE(3)完整连接位姿损失；α和β分别表示加权参数；q和分别表示四元数旋转矩阵的真值和估计值，/>表示所述四元数旋转矩阵的损失；T和/>分别表示位置变换矩阵的真值和估计值，/>表示所述位置变换矩阵的损失。

7.根据权利要求3或5所述的方法，其特征在于，所述激活函数包括以下至少之一：Sigmod激活函数、双曲正切激活函数。

8.一种定位装置，其特征在于，所述装置包括：

图像获取模块，用于获取目标机器人的待定位图像，其中，所述待定位图像为相邻两帧的三维图像；

特征确定模块，用于根据视觉定位网络模型确定所述待定位图像的融合特征，所述视觉定位网络模型基于三维图像帧集训练生成；

位姿确定模块，用于基于预设长短期记忆网络模型和所述融合特征确定所述目标机器人的位姿。

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的定位方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的定位方法。