CN113628334A

CN113628334A - 视觉slam方法、装置、终端设备及存储介质

Info

Publication number: CN113628334A
Application number: CN202110805748.9A
Authority: CN
Inventors: 曾驳; 宋呈群; 程俊
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-11-09

Abstract

本申请适用于图像处理技术领域，提供了一种视觉SLAM方法、装置、终端设备及存储介质。所述视觉SLAM方法包括：获取当前图像帧，所述当前图像帧包括RGB图像和深度图像；基于所述RGB图像和所述深度图像，通过Transformer模型对所述当前图像帧进行语义分割，得到所述当前图像帧中的动态区域，所述动态区域是指所述当前图像帧中的动态物体所在区域；从所述当前图像帧中剔除所述动态区域，得到目标图像；基于所述目标图像进行建图和回环检测。通过本申请可解决现有技术在动态环境下进行视觉SLAM时，动态物体影响建图的准确性的问题。

Description

视觉SLAM方法、装置、终端设备及存储介质

技术领域

本申请属于图像处理技术领域，尤其涉及一种视觉SLAM方法、装置、终端设备及存储介质。

背景技术

视觉同步定位与建图(Simultaneous Localization and Mapping，SLAM)是指在没有先验信息的情况下，利用搭载在机器人上的视觉传感器感知周围环境，在运动过程中建立环境模型，同时估计自身定位的技术。

目前的视觉SLAM方法通常是基于静态假设，即在整个视觉SLAM过程中，默认环境中的物体处于静止状态。但实际应用环境大多数为动态环境，存在动态物体，例如行走的人、行驶的汽车等，这些动态物体影响建图的准确性。

发明内容

本申请实施例提供了一种视觉SLAM方法、装置、终端设备及存储介质，以解决现有技术在动态环境下进行视觉SLAM时，动态物体影响建图的准确性的问题。

第一方面，本申请实施例提供了一种视觉SLAM方法，所述视觉SLAM方法包括：

获取当前图像帧，所述当前图像帧包括RGB图像和深度图像；

基于所述RGB图像和所述深度图像，通过Transformer模型对所述当前图像帧进行语义分割，得到所述当前图像帧中的动态区域，所述动态区域是指所述当前图像帧中的动态物体所在区域；

从所述当前图像帧中剔除所述动态区域，得到目标图像；

基于所述目标图像进行建图和回环检测。

第二方面，本申请实施例提供了一种视觉SLAM装置，所述视觉SLAM装置包括：

图像获取模块，用于获取当前图像帧，所述当前图像帧包括RGB图像和深度图像；

区域分割模块，用于基于所述RGB图像和所述深度图像，通过Transformer模型对所述当前图像帧进行语义分割，得到所述当前图像帧中的动态区域，所述动态区域是指所述当前图像帧中的动态物体所在区域；

区域剔除模块，用于从所述当前图像帧中剔除所述动态区域，得到目标图像；

建图回环模块，用于基于所述目标图像进行建图和回环检测。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述视觉SLAM方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述视觉SLAM方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行如上述第一方面所述视觉SLAM方法的步骤。

由上可见，本申请基于当前图像帧中的RGB图像和深度图像，可以通过Transformer模型对当前图像帧进行语义分割，得到当前图像帧中的动态区域(即动态物体所在区域)，基于剔除动态区域后的图像进行建图和回环检测，可以减少动态环境中动态物体对建图的影响，提高建图的准确性。且本申请在通过Transformer模型对当前图像帧进行语义分割时，充分利用了RGB图像和深度图像中的各种信息，能够较为准确地识别出当前图像帧中的动态物体，得到较为准确的动态区域。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的视觉SLAM方法的实现流程示意图；

图2是Transformer编码器的结构示例图；

图3是本申请实施例二提供的视觉SLAM方法的实现流程示意图；

图4是本申请实施例三提供的视觉SLAM装置的结构示意图；

图5是本申请实施例四提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在说明本申请方案之前，为了便于读者理解，先对本方案中的视觉SLAM的系统架构进行解释说明。

视觉SLAM的系统架构主要包括五部分，分别为图像帧采集、视觉里程计、后端优化、建图及回环检测。

图像帧采集：通过相机采集周围环境的图像帧。

视觉里程计：估算相邻图像帧间的相机位姿，包括特征点匹配等算法的应用。

后端优化：优化视觉里程计产生的累积误差，包括滤波器、图优化等算法应用。

建图：三维地图构建。

回环检测：检测终端设备是否到达过先前的位置，减小累积误差。

在本申请实施例中，为了解决现有技术在动态环境下进行视觉SLAM时，动态物体影响建图的准确性的这一问题，提出了基于当前图像帧中的RGB图像和深度图像，通过Transformer模型对当前图像帧进行语义分割，可以得到当前图像帧中的动态区域(即动态物体所在区域)，基于剔除动态区域后的图像进行建图和回环检测，可以减少动态环境中动态物体对建图的影响，提高建图的准确性。且本申请在通过Transformer模型对当前图像帧进行语义分割时，充分利用了RGB图像和深度图像中的各种信息，能够较为准确地识别出当前图像帧中的动态物体，得到较为准确的动态区域。

本申请实施例提供的视觉SLAM方法可以应用于无人车、增强现实(augmentedreality，AR)/虚拟现实(virtual reality，VR)设备、无人机、扫地机器人等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

应理解，本实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

参见图1，是本申请实施例一提供的视觉SLAM方法的实现流程示意图，该视觉SLAM方法应用于终端设备。如图1所示，该视觉SLAM方法可以包括以下步骤：

步骤101，获取当前图像帧，当前图像帧包括RGB图像和深度图像。

终端设备上可以搭载相机，通过相机采集周围环境的图像帧。相机将采集的图像帧发送给终端设备。当前图像帧是指相机在当前时刻采集的图像帧。

相机结构简单，安装方式多元化，且无传感器探测距离的限制，应用范围广、成本低，且基于相机采集的图像帧可以提取较为丰富的语义信息、地图信息等。

可选地，上述相机可以为RGBD相机。RGBD相机能够检测出拍摄空间的景深距离，采用RGBD相机拍摄的图像帧包括RGB图像和深度图像。其中，RGBD相机也可以称之为深度相机。

RGB图像可以理解为彩色图像。深度图像是包括深度信息的图像。同一图像帧包括的RGB图像和深度图像是配准的，即同一图像帧包括的RGB图像和深度图像的像素点之间具有一对一的对应关系。

目前的RGBD相机主要由三种形式：基于双目视觉的RGBD相机、基于结构光的RGBD相机以及基于飞行时间法的RGBD相机。这三种形式均可用在本申请实施例中。

基于双目视觉的RGBD相机是利用处在不同视角的两个相机对同一空间进行拍照，两个相机拍摄出的图像中相同物体所在像素的差异与该物体所在的深度直接相关，因而通过计算像素偏差可以获得深度信息。

基于结构光的RGBD相机是通过向目标空间投射编码结构光图案，再通过相机采集目标空间含有结构光图案的图像，将该图像进行处理(例如与参考结构光图像进行匹配计算)得到深度信息。

基于飞行时间法的RGBD相机是通过向目标空间发射激光脉冲，激光脉冲经目标反射后被接收单元接收后并记录下激光脉冲的来回时间，通过该时间计算深度信息。

步骤102，基于RGB图像和深度图像，通过Transformer模型对当前图像帧进行语义分割，得到当前图像帧中的动态区域。

终端设备可以将当前图像帧输入Transformer模型，Transformer模型基于当前图像帧的RGB图像和深度图像，对当前图像帧进行语义分割，可以得到当前图像帧中的动态区域。其中，当前图像帧中的动态区域是指当前图像帧中的动态物体所在区域或者所覆盖的区域。

RGB图像具有丰富的表面纹理与外观信息，深度图像具有丰富的三维结构信息且对光照变化不敏感，故Transformer模型基于当前图像帧的RGB图像和深度图像，对当前图像帧进行语义分割时，可以充分利用当前图像帧中的RGB图像和深度图像的各种信息，能够较为准确地识别出当前图像帧中的动态物体，得到较为准确的动态区域，进一步提高建图的准确性。

在一个实施例中，Transformer模型包括转换器、第一Transformer编码器、第二Transformer编码器和Transformer解码器；基于RGB图像和深度图像，通过Transformer模型对当前图像帧进行语义分割，得到当前图像帧中的动态区域包括：

通过转换器分别对RGB图像和深度图像进行转换，得到RGB信息序列和深度信息序列，RGB信息序列包括两个以上的RGB子图像的图像信息和位置信息，深度信息序列包括两个以上的深度子图像的图像信息和位置信息；

将深度信息序列输入第一Transformer编码器，得到深度信息序列对应的编码后数据；

将深度信息序列对应的编码后数据和RGB信息序列依次输入第二Transformer编码器和Transformer解码器，得到当前图像帧中的动态区域。

其中，通过转换器对RGB图像进行转换，可以理解为对RGB图像进行位置编码。通过转换器对深度图像进行转换，可以理解为对深度图像进行位置编码。

通过转换器对RGB图像进行转换的过程可以包括：将RGB图像x∈R^H×W×C均匀地划分为尺寸为

的网格，每个网格中的图像大小为

形成矢量化的包p；使用线性投影函数f:p→e∈R^C，将每个矢量化的包p映射到一个潜在的C维嵌入空间中，即可得到RGB图像的一维的嵌入信息包的序列，其中p_i的线性映射为e_i；再对每个嵌入信息包的空间信息进行编码，对于每个位置i学习一个特定的位置嵌入信息pos_i，将其嵌入到图像包的线性映射e_i中，形成序列E＝{e₁+pos₁,e₂+pos₂,…,e_L+pos_L}，该序列即为RGB信息序列。其中，H和W分别表示RGB图像的长和宽；C表示RGB图像的通道数；L表示RGB子图像的总数量，可以理解为RGB信息序列的长度；e可以理解为RGB子图像的图像信息；pos可以理解为RGB子图像的位置信息。

需要说明的是，通过转换器对深度图像进行转换的过程可参见上述通过转换器对RGB图像进行转换的过程，在此不再赘述。

终端设备将深度信息序列输入第一Transformer编码器，可以通过第一Transformer编码器对深度信息序列进行编码，得到深度信息序列对应的编码后数据。

终端设备将深度信息序列对应的编码后数据和RGB信息序列依次输入第二Transformer编码器和Transformer解码器，可以先通过第二Transformer编码器对深度信息序列对应的编码后数据和RGB信息序列进行编码，得到目标编码数据，再将该目标编码数据输入Transformer解码器，可以通过Transformer解码器对该目标编码数据进行解码，得到当前图像帧中的动态区域。

其中，第一Transformer编码器和第二Transformer编码器的结构相同，均包括12层网络，每层网络包括层归一化(Layer Normalization，LN)、多头自我注意力(Multi-headSelf-Attention，MSA)和多层感知器(Multi-Layer Perceptron，MLP)，在MSA之前以及MSA和MLP之间分别进行LN。

需要说明的是，本申请中的Transformer编码器(即第一Transformer编码器和第二Transformer编码器)使用12层网络替代现有Transformer编码器的24层网络，提高了动态区域的识别速度。

LN是对每一层的净输入s∈R^d进行如下处理：

其中，μ∈R^d，δ∈R^d，μ和δ分别是净输入的均值和标准差；Υ和β分别是学习的参数；d表示维度。

在第j层网络中，SA的输入是根据第j-1层的输出

计算得到的(query，key，value)三元组，其中：

其中，W_Q∈R^C×d，W_K∈R^C×d，W_V∈R^C×d，W_Q、W_K和W_V是三个线性投影层的可学习参数，d表示(query，key，value)的维度。

自我注意力可以表示为：

其中，softmax表示softmax函数，又称归一化指数函数；T是转置符号。

多层感知器是一种m个独立SA操作的联合，输出为m个SA的联合输出：

其中，W_o∈R^md×C，d设置为C/m。

通过MLP对MSA的输出通过残差连接进行转换作为第j层网络的输出，第j层网络的输出可以表示如下：

其中，

Transformer解码器可以对输入的目标编码数据进行四次解码操作，每次操作交替使用卷积层和2倍升采样，将目标编码数据从

的尺寸转换到H×W。

在一个实施例中，在将深度信息序列对应的编码后数据和RGB信息序列依次输入第二Transformer编码器和Transformer解码器之前，还包括：

将深度信息序列对应的编码后数据映射到RGB信息序列的向量空间，得到映射后数据；

将深度信息序列对应的编码后数据和RGB信息序列依次输入第二Transformer编码器和Transformer解码器包括：

将映射后数据和RGB信息序列依次输入第二Transformer编码器和Transformer解码器。

终端设备可以通过线性映射将深度信息序列对应的编码后数据映射到RGB信息序列的向量空间，便于第二Transformer编码器和Transformer解码器对其进行编解码操作。

如图2所示是Transformer编码器的结构示例图。图2中的输入数据是指映射后数据和RGB信息序列。

步骤103，从当前图像帧中剔除动态区域，得到目标图像。

目标图像是指当前图像帧剔除动态区域后的图像。

其中，从当前图像帧中剔除动态区域可以是指将当前图像帧中动态区域的像素点的RGBD值设置为预设值，例如预设值为0。

步骤104，基于目标图像进行建图和回环检测。

终端设备可以基于目标图像的特征点进行建图和回环检测，实现动态环境下的视觉SLAM。其中，特征点可以理解为图像灰度值发生剧烈变化的点或者在图像边缘上曲率较大的点。

在一个实施例中，基于目标图像进行建图和回环检测包括：

根据目标图像中各个特征点的图像坐标和关键帧中与其匹配的特征点的图像坐标，确定相机位姿，相机是指采集当前图像帧和关键帧的设备；

根据相机位姿和目标图像进行建图和回环检测。

终端设备可以提取目标图像中的各个特征点和关键帧中的各个特征点，并将目标图像中的各个特征点与关键帧中的各个特征点进行匹配，使用匹配的特征点计算目标图像与关键帧的转换矩阵，该转换矩阵即为相机位姿。其中，图像中特征点可以采用ORB(Oriented FAST and Rotated BRIEF)特征提取算法，也可以采用其他特征提取算法，在此不作限定。

终端设备可以根据相机位姿和目标图像，更新关键帧，根据更新后的关键帧进行建图和回环检测。

本申请实施例基于当前图像帧中的RGB图像和深度图像，可以通过Transformer模型对当前图像帧进行语义分割，得到当前图像帧中的动态区域(即动态物体所在区域)，基于剔除动态区域后的图像进行建图和回环检测，可以减少动态环境中动态物体对建图的影响，提高建图的准确性。且本申请在通过Transformer模型对当前图像帧进行语义分割时，充分利用了RGB图像和深度图像中的各种信息，能够较为准确地识别出当前图像帧中的动态物体，得到较为准确的动态区域，对于动态环境下的视觉SLAM中的动态物体识别任务具有更好的适应性。

参见图3，是本申请实施例二提供的视觉SLAM方法的实现流程示意图，该视觉SLAM方法应用于终端设备。如图2所示，该视觉SLAM方法可以包括以下步骤：

步骤301，获取当前图像帧，当前图像帧包括RGB图像和深度图像。

该步骤与步骤101相同，具体可参见步骤101的相关描述，在此不再赘述。

步骤302，基于RGB图像和深度图像，通过Transformer模型对当前图像帧进行语义分割，得到当前图像帧中的动态区域。

该步骤与步骤102相同，具体可参见步骤102的相关描述，在此不再赘述。

步骤303，根据当前图像帧的其他区域中各个特征点的图像坐标和关键帧中与其匹配的特征点的图像坐标，确定其他区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离。

其中，其他区域是指当前图像帧中除动态区域之外的区域。

在一个实施例中，根据当前图像帧的其他区域中各个特征点的图像坐标和关键帧中与其匹配的特征点的图像坐标，确定其他区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离包括：

分别根据其他区域中各个特征点的图像坐标和关键帧中与其匹配的特征点的图像坐标，确定其他区域中各个特征点的齐次坐标和关键帧中与其匹配的特征点的齐次坐标；

根据其他区域中各个特征点的齐次坐标和关键帧中与其匹配的特征点的齐次坐标，确定其他区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离。

对于分别从当前图像帧的其他区域和关键帧得到的两个匹配特征点P₁和P₂，特征点P₁和P₂的图像坐标可以分别表示为：

P₁'＝[u₁,v₁]^T P₂'＝[u₂,v₂]^T

特征点P₁和P₂的齐次坐标可以分别表示为：

P₁”＝[u₁,v₁,1]^T P₂”＝[u₂,v₂,1]^T

其中，u₁和v₁表示特征点P₁的图像坐标的值，u₂和v₂表示特征点P₂的图像坐标的值。

特征点P₁的极线可以表示为：

E₁＝[X₁,Y₁,Z₁]^T＝FP₁”

其中，F表示对极约束中的基础矩阵。

特征点P₁的极线与特征点P₂的极线之间的距离可以表示为：

其中，P₂”^T表示P₂”的转置矩阵。

遍历完当前图像帧的其他区域中各个特征点及关键帧中与其匹配的特征点之后，可以得到其他区域中各个特征点的极线与关键帧中对应特征点的极线之间的距离。

步骤304，将其他区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离进行加权平均，得到第一极线距离。

例如，可以将其他区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离进行累加，再除以其他区域中特征点总数量，可以得到其他区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离的平均值，该平均值即为第一极线距离。

步骤305，根据动态区域中各个特征点的图像坐标和关键帧中与其匹配的特征点的图像坐标，确定动态区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离。

在一个实施例中，根据动态区域中各个特征点的图像坐标和关键帧中与其匹配的特征点的图像坐标，确定动态区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离包括：

分别根据动态区域中各个特征点的图像坐标和关键帧中与其匹配的特征点的图像坐标，确定动态区域中各个特征点的齐次坐标和关键帧中与其匹配的特征点的齐次坐标；

根据动态区域中各个特征点的齐次坐标和关键帧中与其匹配的特征点的齐次坐标，确定动态区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离。

需要说明的是，动态区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离的计算过程，可以参见上述其他区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离的计算过程，在此不再赘述。

步骤306，将动态区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离进行加权平均，得到第二极线距离；

例如，可以将动态区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离进行累加，再除以动态区域中特征点总数量，可以得到动态区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离的平均值，该平均值即为第二极线距离。

步骤307，计算第一极线距离与第二极线距离的差值的绝对值。

步骤308，若差值的绝对值大于预设阈值，则从当前图像帧中剔除动态区域，得到目标图像。

若第一极线距离与第二极线距离的差值的绝对值大于预设阈值，则确定通过Transformer模型语义分割出的动态区域中的物体为动态物体，此时可以从当前图像帧中剔除动态区域，以减少动态物体对建图的影响；若第一极线距离与第二极线距离的差值的绝对值小于或者等于预设阈值，则确定通过Transformer模型语义分割出的动态区域中的物体可能不是动态物体(即通过Transformer模型语义分割出的动态区域有误)，此时可以将当前图像帧重新输入Transformer模型，重新对其进行语义分割，也可以不用对其进行剔除操作，直接用于建图和回环检测。

其中，上述确定第一极线距离和第二极线距离、计算第一极线距离与第二极线距离的差值的绝对值，以及将差值的绝对值与预设阈值进行比较的方法可以称之为极线距离匹配方法。

步骤309，基于目标图像进行建图和回环检测。

该步骤与步骤104相同，具体可参见步骤104的相关描述，在此不再赘述。

在实际应用场景中，可以将每一帧图像同时传输到跟踪线程和语义分割线程。跟踪线程从图像中提取ORB特征点，同时语义分割线程使用基于Transformer的图像语义分割算法(即T ransformer模型)对图像进行语义分割，得到动态区域，然后将语义分割线程的结果传输到跟踪线程中。

跟踪线程得到语义分割线程的结果后，对动态区域进一步优化，通过优化后的数据，计算当前图像帧与关键帧之间的转换矩阵，从而得到相机位姿，并通过局部地图跟踪进行进一步优化。跟踪线程选择关键帧，将关键帧传输到语义分割线程和局部建图线程之中。同时将关键帧和相机位姿传输到点云绘图线程中，点云绘图线程根据关键数据进行绘图。

局部地图线程根据插入的关键帧移除低质量的地图点。然后通过局部光束平差法优化剔除多余或者错误的关键帧。

最后，回环检测线程通过关键帧和地图点进行回环检测。一旦检测到回环，环路校正将执行全局光束平差法优化，以确保全局一致性并补充SLAM过程中累积的漂移。

本实施例在实施例一的基础上，通过极线距离匹配方法，可以对通过Transformer模型语义分割出的动态区域进一步进行检测，以判断该动态区域是否为真实的动态区域，从而得到较为准确的动态区域。

本申请实施例基于当前图像帧中的RGB图像和深度图像，可以通过Transformer模型对当前图像帧进行语义分割，得到当前图像帧中的动态区域(即动态物体所在区域)，基于剔除动态区域后的图像进行建图和回环检测，可以减少动态环境中动态物体对建图的影响，提高建图的准确性。且本申请在通过Transformer模型对当前图像帧进行语义分割时，充分利用了RGB图像和深度图像中的各种信息，能够较为准确地识别出当前图像帧中的动态物体，得到较为准确的动态区域，通过极线距离匹配方法对Transformer模型语义分割出的动态区域进行检测，能够进一步提高动态区域的准确性，对于动态环境下的视觉SLAM中的动态物体识别任务具有更好的适应性。

对应于上文实施例所述的视觉SLAM方法，图4示出了本申请实施例提供的视觉SLAM装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图4，该视觉SLAM装置包括：

图像获取模块41，用于获取当前图像帧，当前图像帧包括RGB图像和深度图像；

区域分割模块42，用于基于RGB图像和深度图像，通过Transformer模型对当前图像帧进行语义分割，得到当前图像帧中的动态区域，动态区域是指当前图像帧中的动态物体所在区域；

区域剔除模块43，用于从当前图像帧中剔除动态区域，得到目标图像；

建图回环模块44，用于基于目标图像进行建图和回环检测。

可选地，Transformer模型包括转换器、第一Transformer编码器、第二Transformer编码器和Transformer解码器；上述区域分割模块42包括：

图像转换单元，用于通过转换器分别对RGB图像和深度图像进行转换，得到RGB信息序列和深度信息序列，RGB信息序列包括两个以上的RGB子图像的图像信息和位置信息，深度信息序列包括两个以上的深度子图像的图像信息和位置信息；

信息编码单元，用于将深度信息序列输入第一Transformer编码器，得到深度信息序列对应的编码后数据；

信息处理单元，用于将深度信息序列对应的编码后数据和RGB信息序列依次输入第二Transformer编码器和Transformer解码器，得到当前图像帧中的动态区域。

可选地，上述区域分割模块42还包括：

信息映射单元，用于将深度信息序列对应的编码后数据映射到RGB信息序列的向量空间，得到映射后数据；

上述信息处理单元具体用于：

可选地，上述视觉SLAM装置还包括：

第一确定模块，用于根据当前图像帧的其他区域中各个特征点的图像坐标和关键帧中与其匹配的特征点的图像坐标，确定其他区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离，其他区域是指当前图像帧中除动态区域之外的区域；

第一加权模块，用于将其他区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离进行加权平均，得到第一极线距离；

第二确定模块，用于根据动态区域中各个特征点的图像坐标和关键帧中与其匹配的特征点的图像坐标，确定动态区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离；

第二加权模块，用于将动态区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离进行加权平均，得到第二极线距离；

差值计算模块，用于计算第一极线距离与第二极线距离的差值的绝对值；

上述区域剔除模块43具体用于：

若差值的绝对值大于预设阈值，则从当前图像帧中剔除动态区域，得到目标图像。

可选地，上述第一确定模块具体用于：

根据其他区域中各个特征点的齐次坐标和关键帧中与其匹配的特征点的齐次坐标，确定其他区域中各个特征点的极线与关键帧中与其匹配的特征点的极线之间的距离；

上述第二确定模块具体用于：

可选地，上述建图回环模块44具体用于：

根据相机位姿和目标图像进行建图和回环检测。

可选地，相机为RGBD相机。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

本申请实施例提供的装置可以应用在前述方法实施例一和实施例二中，详情参见上述方法实施例一和实施例二的描述，在此不再赘述。

图5是本申请实施例四提供的终端设备的结构示意图。如图5所示，该实施例的终端设备5包括：一个或多个处理器50(图中仅示出一个)、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个视觉SLAM方法实施例中的步骤

所述终端设备5可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是终端设备5的示例，并不构成对终端设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备，例如所述终端设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例还提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视觉SLAM方法，其特征在于，所述视觉SLAM方法包括：

获取当前图像帧，所述当前图像帧包括RGB图像和深度图像；

从所述当前图像帧中剔除所述动态区域，得到目标图像；

基于所述目标图像进行建图和回环检测。

2.如权利要求1所述的视觉SLAM方法，其特征在于，所述Transformer模型包括转换器、第一Transformer编码器、第二Transformer编码器和Transformer解码器；所述基于所述RGB图像和所述深度图像，通过Transformer模型对所述当前图像帧进行语义分割，得到所述当前图像帧中的动态区域包括：

通过所述转换器分别对所述RGB图像和深度图像进行转换，得到RGB信息序列和深度信息序列，所述RGB信息序列包括两个以上的RGB子图像的图像信息和位置信息，所述深度信息序列包括两个以上的深度子图像的图像信息和位置信息；

将所述深度信息序列输入所述第一Transformer编码器，得到所述深度信息序列对应的编码后数据；

将所述深度信息序列对应的编码后数据和所述RGB信息序列依次输入所述第二Transformer编码器和所述Transformer解码器，得到所述当前图像帧中的动态区域。

3.如权利要求2所述的视觉SLAM方法，其特征在于，在将所述深度信息序列对应的编码后数据和所述RGB信息序列依次输入所述第二Transformer编码器和所述Transformer解码器之前，还包括：

将所述深度信息序列对应的编码后数据映射到所述RGB信息序列的向量空间，得到映射后数据；

所述将所述深度信息序列对应的编码后数据和所述RGB信息序列依次输入所述第二Transformer编码器和所述Transformer解码器包括：

将所述映射后数据和所述RGB信息序列依次输入所述第二Transformer编码器和所述Transformer解码器。

4.如权利要求1至3任一项所述的视觉SLAM方法，其特征在于，在从所述当前图像帧中剔除所述动态区域之前，还包括：

根据所述当前图像帧的其他区域中各个特征点的图像坐标和关键帧中与其匹配的特征点的图像坐标，确定所述其他区域中各个特征点的极线与所述关键帧中与其匹配的特征点的极线之间的距离，所述其他区域是指所述当前图像帧中除所述动态区域之外的区域；

将所述其他区域中各个特征点的极线与所述关键帧中与其匹配的特征点的极线之间的距离进行加权平均，得到第一极线距离；

根据所述动态区域中各个特征点的图像坐标和所述关键帧中与其匹配的特征点的图像坐标，确定所述动态区域中各个特征点的极线与所述关键帧中与其匹配的特征点的极线之间的距离；

将所述动态区域中各个特征点的极线与所述关键帧中与其匹配的特征点的极线之间的距离进行加权平均，得到第二极线距离；

计算所述第一极线距离与所述第二极线距离的差值的绝对值；

所述从所述当前图像帧中剔除所述动态区域，得到目标图像包括：

若所述差值的绝对值大于预设阈值，则从所述当前图像帧中剔除所述动态区域，得到所述目标图像。

5.如权利要求4所述的视觉SLAM方法，其特征在于，所述根据所述当前图像帧的其他区域中各个特征点的图像坐标和所述关键帧中与其匹配的特征点的图像坐标，确定所述其他区域中各个特征点的极线与所述关键帧中与其匹配的特征点的极线之间的距离包括：

分别根据所述其他区域中各个特征点的图像坐标和所述关键帧中与其匹配的特征点的图像坐标，确定所述其他区域中各个特征点的齐次坐标和所述关键帧中与其匹配的特征点的齐次坐标；

根据所述其他区域中各个特征点的齐次坐标和所述关键帧中与其匹配的特征点的齐次坐标，确定所述其他区域中各个特征点的极线与所述关键帧中与其匹配的特征点的极线之间的距离；

所述根据所述动态区域中各个特征点的图像坐标和所述关键帧中与其匹配的特征点的图像坐标，确定所述动态区域中各个特征点的极线与所述关键帧中与其匹配的特征点的极线之间的距离包括：

分别根据所述动态区域中各个特征点的图像坐标和所述关键帧中与其匹配的特征点的图像坐标，确定所述动态区域中各个特征点的齐次坐标和所述关键帧中与其匹配的特征点的齐次坐标；

根据所述动态区域中各个特征点的齐次坐标和所述关键帧中与其匹配的特征点的齐次坐标，确定所述动态区域中各个特征点的极线与所述关键帧中与其匹配的特征点的极线之间的距离。

6.如权利要求1至3任一项所述的视觉SLAM方法，其特征在于，所述基于所述目标图像进行建图和回环检测包括：

根据所述目标图像中各个特征点的图像坐标和关键帧中与其匹配的特征点的图像坐标，确定相机位姿，所述相机是指采集所述当前图像帧和所述关键帧的设备；

根据所述相机位姿和所述目标图像进行建图和回环检测。

7.如权利要求6所述的视觉SLAM方法，其特征在于，所述相机为RGBD相机。

8.一种视觉SLAM装置，其特征在于，所述视觉SLAM装置包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述视觉SLAM方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述视觉SLAM方法的步骤。