CN113705431B

CN113705431B - 轨迹实例级分割和多运动视觉里程测量方法及系统

Info

Publication number: CN113705431B
Application number: CN202110990115.XA
Authority: CN
Inventors: 周风余; 顾潘龙; 延晓辉; 尹磊; 万方; 夏英翔
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-08-08
Anticipated expiration: 2041-08-26
Also published as: CN113705431A

Abstract

本发明属于机器人领域，提供了一种轨迹实例级分割和多运动视觉里程测量方法及系统。其中，该方法包括获取机器人周围环境图像序列及每帧图像的特征点；基于图像特征点的位置变化构建出特征点轨迹特征；基于特征点轨迹特征对轨迹进行动静态分割，为每个动态轨迹额外输出一个实例编码，进而在动态轨迹中对不同运动物体进行分离；将实例分割结果与动态实例地图进行匹配，并剔除实例分割结果中的异常值，进而计算出运动实例的姿态及相机里程计。

Description

轨迹实例级分割和多运动视觉里程测量方法及系统

技术领域

本发明属于机器人领域，尤其涉及一种轨迹实例级分割和多运动视觉里程测量方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

SLAM(simultaneous localization and mapping)是机器人在未知环境感知自身运动、建立环境模型的关键技术。为应对环境的动态变化，研究者在传统SLAM前端视觉里程计(Visual Odometry,VO)中加入了运动分割模块，对SLAM过程产生的特征点轨迹进行运动一致性聚类，分类属于不同运动刚体的特征点。并基于此提出了多运动视觉里程计(multi-motion visual odometry，MVO)，用于在完成SLAM任务的同时，对环境中存在的多个刚体实例进行运动估计。

为解决环境中刚体的运动分割问题，当前state-of-art的MVO方法通常有两种：基于图像语义的检测和分割方法和基于特征点几何特征的运动一致性聚类方法。前者借助深度学习检测图像中的运动刚体，为SLAM过程的特征点赋予相应的标签，这种方案不能对训练集中没有出现过的物体进行运动估计，无法适用环境复杂的商超、家庭等场景。后者利用特征点的几何特征在历史上的变化构建特征轨迹，并依赖轨迹间的运动一致性进行聚类，不使用语义信息，泛化性更强，对于绝大部分场景都有较好的适应能力。

这类依赖几何特征分割动态轨迹的方法，无论当前图像中存在多少运动实例，都需要在所有特征轨迹之间重复分析运动关联，完成轨迹的分割，计算效率低。再者，算法采用无监督方案进行分割，精度提升困难。而且MVO(Multimotion Visual Odometry)是应用在动态场景中，通过视觉landmark恢复相机运动，并追踪动态目标的算法。其中基于几何特征的MVO，不需要语义先验，适用于更多场景。但在当前研究中，这类方法需要在大量landmark形成的轨迹之间进行多次迭代优化，分离运动不一致的landmark，不利于算法精度及总体效率的提升。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种轨迹实例级分割和多运动视觉里程测量方法及系统，其能够提高分割效果及相机里程计算的准确性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种轨迹实例级分割和多运动视觉里程测量方法。

在一个或多个实施例中，一种轨迹实例级分割和多运动视觉里程测量方法，其包括：

获取机器人周围环境图像序列及每帧图像的特征点；

基于图像特征点的位置变化构建出特征点轨迹特征；

基于特征点轨迹特征对轨迹进行动静态分割，为每个动态轨迹额外输出一个实例编码，进而在动态轨迹中对不同运动物体进行分离；

将实例分割结果与动态实例地图进行匹配，并剔除实例分割结果中的异常值，进而计算出运动实例的姿态及相机里程计。

本发明的第二个方面提供一种轨迹实例级分割和多运动视觉里程测量系统。

在一个或多个实施例中，一种轨迹实例级分割和多运动视觉里程测量系统，其包括：

特征点获取模块，其用于获取机器人周围环境图像序列及每帧图像的特征点；

特征点轨迹特征构建模块，其用于基于图像特征点的位置变化构建出特征点轨迹特征；

实例分割模块，其用于基于特征点轨迹特征对轨迹进行动静态分割，为每个动态轨迹额外输出一个实例编码，进而在动态轨迹中对不同运动物体进行分离；

相机里程计算模块，其用于将实例分割结果与动态实例地图进行匹配，并剔除实例分割结果中的异常值，进而计算出运动实例的姿态及相机里程计。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的轨迹实例级分割和多运动视觉里程测量方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的轨迹实例级分割和多运动视觉里程测量方法中的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明没有直接对所有特征轨迹间进行运动一致性分析，而是设计了一种二阶段式图注意力网络：首先在轨迹之间进行动态检测，筛选出相对背景运动不一致的轨迹，然后分析动态轨迹之间的运动性质。对于不存在动态物体的图像帧，本发明避免了额外的运动分析。同时，作为一种二阶段式的多运动视觉里程计方法，本发明前端可以直接用作动态视觉里程计，以增强视觉里程计在动态场景的适应能力。

(2)对于存在动态物体的图像帧，本发明应用Discriminative Loss惩罚前序网路的特征编码，完成动态轨迹之间的实例分割。相比当前方案，本发明的文算法将运动一致性分析限制在动态轨迹中，获得了大幅实时性的提升。

(3)本发明基于OMD和KITTI数据集建立了用于实例级运动分割的数据集，通过有监督的方式进行轨迹的动静态分类，提升了轨迹分割的精度。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的轨迹实例级分割和多运动视觉里程测量方法流程图；

图2是本发明实施例的动态轨迹的特征连接情况，中心节点分布在室内的右下角；

图3是本发明实施例的静态轨迹的特征连接情况，中心节点分布在墙面上方；

图4是本发明实施例的动态轨迹的特征连接情况，中心节点分布在左车道运动车辆上；

图5是本发明实施例的静态轨迹的特征连接情况，中心节点分布在左侧的树上；

图6是本发明实施例的注意力机制在OMD数据集和KITTI数据集的可视化结果比较。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

参照图1，本实施例提供了一种轨迹实例级分割和多运动视觉里程测量方法，其包括：

步骤1：获取机器人周围环境图像序列及每帧图像的特征点。

在具体实施中，可采用RGBD相机和Stereo相机来获取机器人周围环境图像序列，直接获取特征点三维坐标的变化。

步骤2：基于图像特征点的位置变化构建出特征点轨迹特征。

为了使用神经网络对轨迹进行分割，需要为轨迹构建相应的特征。

具体地，所述特征点轨迹特征包括基础特征、归一化特征、一阶差分特征和二阶差分特征。

其中，所述基础特征包括特征点的像素坐标、空间坐标和RGB色彩；

使用最新一帧中的特征点特征与特征轨迹中的所有的特征点特征做差，构建轨迹在时间维度上的归一化特征；

使用轨迹特征在时间维度上紧临的前后两个特征点特征之差构建特征轨迹的一阶差分特征。

首先使用特征点的像素坐标、空间坐标、RGB色彩构建特征点t特征

cols_t,rows_t表示特征点t的像素坐标；

x_t,y_t,z_t表示特征点t的空间坐标；

r_t,g_t,b_t表示特征点t的RGB色彩。

通过对特征点的追踪，可以获取该特征点在历史上的变化，生成特征点轨迹。其中第i条轨迹的特征可以用Trajectory_Featuresⁱ表示，轨迹中至少包含了特征点的三次变化：

式中，T为算法设定的最大追踪长度，t＝1表示最新一帧中的特征点特征。接着，为了表征轨迹中特征点特征的变化率，使用轨迹特征在时间维度上紧临的前后两个特征点特征之差构建特征轨迹的一阶差分特征。与之类似，可以构建轨迹的二阶差分特征。然后，使用最新一帧中的特征点特征与特征轨迹中的所有的特征点特征做差，构建轨迹在时间维度上的归一化特征。

最后，将特征轨迹的基础特征、归一化特征、一阶差分特征、二阶差分特征，在特征维度上连接。生成完整的轨迹特征，特征维度为{轨迹数量，特征点最大历史长度，8*4}。

步骤3：基于特征点轨迹特征对轨迹进行动静态分割，为每个动态轨迹额外输出一个实例编码，进而在动态轨迹中对不同运动物体进行分离。

在具体实施中，基于特征点轨迹特征及有监督动态轨迹分割模型对轨迹进行动静态分割及实例编码。

其中，所述有监督动态轨迹分割模型包括主干网络、第一子网络和第二子网络，所述主干网络用于聚合轨迹的特征，第一子网络用于轨迹的动静态分类，第二子网络用于为每条特征轨迹额外回归用于实例分割的特征编码，并使用语义分割对实例分割编码进行优化。

有监督动态轨迹分割模型ADGCNN(Attention based Dynamic Graph CNN forTrajectories Instances Segmentation)是一个二阶段的轨迹分割网络，由主干网络(BackBone)和两个用于特定任务的子网络组成。

例如：ADGCNN的主网络用于聚合轨迹的特征，由两层LSTM和三层AttentionEdgeConv组成。算法先使用LSTM提取输入轨迹的时域特征，然后在后续动态图卷积网络的逐层聚合过程中，令具有运动一致性的轨迹相互连接形成图结构，最后将每层的输出concat，完成轨迹的特征聚合。此处，本实施例LSTM网络输出设置为32维，第一层AttentionEdgeConv{32,64}向后输出64维特征，用于时域特征聚合。后两层Attention EdgeConv{64,64}向后输出64维特征，用于轨迹特征的进一步聚合。

ADGCNN第一个子网络由Max Pool和MLP组成，用于进行轨迹的动静态分类。算法首先通过一个MLP层将主干网络的输出整合到1024维，在特征维度应用MaxPool提取轨迹的全局特征，repeat后与轨迹原始特征concat获得每条轨迹的独立特征。然后使用几个MLP将轨迹特征整合为2维向量F_seg，最后使用SoftMax获取轨迹的动静态分类概率，完成轨迹第一步的分割。

ADGCNN第二个子网络紧跟前序网络的输出，为每条特征轨迹额外回归用于实例分割的特征编码，并使用语义分割对实例分割编码进行优化。该层网络首先将DP层前的256维轨迹特征与语义分割编码F_segconcat，经过MLP层后形成的实例分割编码F_Ins。然后将F_Ins加到送入MLP层后的F_Ins上，生成实例分割矩阵F_SINS：

F_SINS＝F_Ins+MLP(F_seg) (3)

对于动静态分割所使用的Segmentation Embedding F_seg，本实施例采用FocalLoss对其进行惩罚：

式中，y_i表示样本i的标签，动态类为1，静态类为0。p_i为样本i预测为动态类的概率,α是用来平衡样本各类别数量大小的加权因子，本实施例设置为0.25。γ为用来惩罚复杂样本的超参数，本实施例设置为2。

为了分离动态轨迹中运动不一致的轨迹，本实施例为每个轨迹额外回归了特征编码，令具有运动一致性的轨迹的特征编码之间尽可能相近，令具有运动不一致性的轨迹的特征编码之间的尽可能远。本实施例采用Discriminative Loss(判别损失函数)对ADGCNN输出的F_SINS进行惩罚。针对本实施例，Discriminative Loss表示为：

L_{Discriminative}＝L_Var+L_Dist+λ·L_Reg (5)

(5)式中，λ为超参数权重，用来平衡正则项给Discriminative loss带来的应用，本实施例设定为0.001。公式(6)中，C为当前图像的Ground Truth中动态类簇的数量，N_C为类簇C中轨迹的数量。μ_C为类簇维度的均值，用于表示类簇的中心。δ_v为超参数，表示类簇散度，用来控制某一类簇中所有轨迹距离类簇中心的距离，本实施例设定为0.5。公式(7)中，μ_CA为A类簇的中心，μ_CB为类簇B的中心，δd为超参数，用来控制真值中每个类簇之间的距离，本实施例设定为3。公式(8)为Discriminative Loss中的正则项，用于控制编码F_SINS的大小。

因此，可以定义本实施例的总Loss为：

L＝α·L_Focal+L_{Discriminative} (10)

α用于平衡交叉熵和Discriminative Loss之间的作用关系，本实施例中设定为0.9。

分布在动态目标上的特征点数量取决于目标尺寸、及相机成像质量。本实施例使用图卷积方法聚合轨迹特征，需要计算空间中每条轨迹的K近邻来构建图结构。当包含特征点数量小于K的，轨迹会聚合到错误的特征从而影响到轨迹的分类结果。因此，本实施例在EdgeConv的基础上开发了Attention EdgeConv。

对于输入特征X＝x₁，x₂，…，x_n∈R^FeatureSize，首先计算特征间的余弦距离并取距离中心节点最近的K个轨迹构建邻接矩阵E，设定当前图结构为G＝(X,E)。

在图(graph)中为每个节点x_i的K个邻域x_ij＝[x_i1，x_i2，…x_ik]，j∈{1，2，…，K}，计算相应权值α_i＝[α_i1，α_i2，…α_ik]，以表示相应邻域对于中心节点的重要程度：

α′_i＝softmax(α_i) (13)

式中分别表示邻域和中心节点的MLP，MLP中包含归一化层、ReLU层。θ^FC是一维卷积MLP，带有归一化层、ReLU层，用于将邻域特征聚合为1维权值。

然后，算法利用该权值对邻域加权，构建新的邻域特征：

最后，使用两层带有归一化层和ReLU层的MLP整合节点x_i的第j个邻域x′_ij，生成a₂长度的特征x″_ij。并对邻域的特征维度应用最大池化，获取节点x_i聚合得到的新特征x″_i。

步骤4：将实例分割结果与动态实例地图进行匹配，并剔除实例分割结果中的异常值，进而计算出运动实例的姿态及相机里程计。

在具体实施中，通过光束法平差算法对相机自身运动以及空间中实例的运动进行开窗优化。使用静态轨迹计算相机里程计。

完成单帧分割后需要对目标物体进行追踪，以实现动态追踪和相机里程计的计算。借由本实施例轨迹特征的构建方法，单帧轨迹记录了三帧以上的特征点变化，并且至少被分配过两次地图标签。记录第t帧中第i个地图所包含的轨迹集合为：

t＝2，3表示当前帧的前两帧，M_r为第t帧中成功匹配的地图数量。在当前帧中，实例分割会将当前图像中的轨迹分割成N个实例，并记录实例中对应当前轨迹的轨迹集合为：

I_i，i＝1，2，…，M (16)

计算当前帧中第i实例分割类簇I_i和第t次分配中第j个地图之间的/>

分母上端表示两集合中重复轨迹的数量，分母下端表示两集合并集的数量。并以此构建第t帧的IOU矩阵：

取每行最大值对应的地图标签，表示相应实例成功分配的地图簇。如果IOU小于设定阈值，则认定为本次分配失败。对于t＝2，3，如果分配结果一致，认定为该类簇追踪成功。如果分配结果不一致，则认定为追踪失败。

对于追踪失败的分割类簇，本实施例计算该分割类簇的中心与当前所有地图类簇的中心距离。并选取距离最近的N个地图簇中的特征点，与分割类簇中的特征点进行匹配，并将当前实例类簇分配给该地图簇。

在本实施例中，以关键帧的形式构建背景和实例对应的地图簇，并在各类簇的运动超过一定距离，相比上一次插入关键帧时间超过一定阈值时，将新的分割结果插入相应地图簇中。

根据算法特性，本实施例选取两种异常值检测策略剔除错误分类轨迹：

1)在运动分割阶段设定阈值，剔除分类概率较低的轨迹，本实施例设定为0.85。

2)在轨迹的生成过程中，每次为轨迹添加新的特征点都会额外为轨迹分配一个地图标签。算法选取轨迹分配历史中标签的众数作为该轨迹的地图标签，如果该标签在该轨迹记录的类别总数中占比小于设定阈值，则认为该轨迹为异常值，不能参与后续运算，该阈值在本实施例设定为0.7。

完成前端轨迹分割后，本实施例通过Bundle Adjustment(光束法平差)对相机自身运动以及空间中实例的运动进行开窗优化。

本实施例使用静态轨迹计算相机里程计。定义当前帧，分类为静态的特征点i在空间中的位置为P_i＝[X_i,Y_i,Z_i]^T，对应的投影坐标为μ_i＝[u_i,v_i]^T。则相机在第k帧，位姿为T_k时对特征点i的观测可以撰写为：

y_i,k＝s(T_kP_i)+n_i,k (19)

该观测模型服从均值为0，协方差矩阵为R_i,k的高斯分布n_i,k，s(·)为相机的小孔成像模型。

据前文所述，前一帧中特征点P_i-1在相机移动T_Δ后，在当前帧图像中的观测可以表示为y_i-1,Δ。因此可以构建最小二乘问题对相机的运动T_Δ进行求解：

e_i，Δ＝μ_i-y_i，Δ (21)

Huber(·)为Huber核函数。之后再将上式带入列文伯格-马夸尔特方法即可求得相机位姿从T_k-1到T_k的中间变量T_Δ。然后通过使用24式计算得到的相机位姿初始化开窗优化变量，重新构建视觉里程计的开窗优化问题为：

e_i，k＝μ_i-y_i，k，k＝1，2，…，H (23)

T_k＝T_ΔT_k-1 (24)

H为开窗历史长度，对待优化变量T^*左乘扰动量δξ，列写待优化问题相对相机和相对特征点空间位置的雅可比矩阵J_2×6和J_2×3：

式中P′＝[X′，Y′，Z′]＝T_K·P，R为k帧时相机相对世界坐标系的旋转矩阵，f_x f_y为相机焦距。因此，相机在第k个位姿观测到了第i个特征点的雅可比矩阵和对应开窗优化使用的海森矩阵可表示为：

J_ij(T^*)＝(0_2×6，…，0_2×6，J_2×6(T^*)，0_2×6，…，0_2×3…，0_2×3，J_2×3(T^*)，0_2×3…，0_2×3)(27)

应用列文伯格-马夸尔特方法即可完成对开窗内相机位姿的求解。为了在保留变量的历史优化信息的同时，不增加窗口内变量的数量。在新变量插入海森矩阵前，本实施例对窗口内最早的相机位姿变量及特征点变量进行边缘化，生成新的海森矩阵，并插入新的相机位姿及特征点变量，完成相关变量的优化。

完成上述求解后，可以获得相机在K时刻的位姿T_k，k＝1，2，…，H。

对于空间中存在的动态实例，应用和里程计计算相同的方法。首先求解实例l在前后两帧的运动，并通过最小二乘对其进行求解：

e_i,l,Δ＝μ_i,l-y_i,l,Δ (31)

T_Δ表示相机在前后两帧中位姿变化，表示前后两帧实例l相对世界坐标系的位姿变化。同理，构建最小二乘问题，应用列文伯格-马夸尔特方法对实例在第k帧的位姿/>进行优化：

e_i，l，k＝μ_i，l-y_i，l，k，k＝1，2，…，H (31)

本实施例基于OMD和KITTI数据集建立了用于实例级运动分割的数据。

OMD数据集由牛津大学建立，用于在刚体不规则运动环境下，评估多运动视觉里程计精度。数据集中包含环境中所有运动刚体和相机里程计的运动真值，同时OMD数据集为研究者提供了，用于对比算法性能的Baseline，即MVO在OMD数据集上的评测结果。为了将OMD数据集改造能用于本实施例的训练，本实施例使用VIA工具采用标注图像实例分割数据集的形式对OMD数据集进行标注。并使用标注得到的刚体真值MASK对SLAM过程产生的轨迹进行标注，赋予对应的实例标签。

Zhang Y.等人在KITTI中标注了目标追踪数据集FairMOT。为了验证算法对刚体运动追踪的可行性，本实施例挑选KITTI-MOT数据集中标注为车，且正在处于运动状态的实例认定为本实施例所需要的动态实例，并对轨迹的标签进行赋值。

为了扩充数据集，本实施例选择ORB、SIFT、SURF特征点计算两数据集中的轨迹，通过改变参数，对于每种特征在每个数据集中进行了5次重复轨迹提取，并以此构建了本实施例的训练和测试集。

本实施例在OMD和KITTI数据集上进行测试。因采用动态图卷积方案，中心节点相对其他节点的距离会不断向真值所期望的方向收敛。

因此，为了验证本实施例算法可行性，对模型中各层的特征进行可视化。本实施例通过表征中心节点与其他节点的距离，来展示本实施例所述算法每个部分所展示的作用。下图圆点表示当前进行测试的中心轨迹，其他轨迹相对该中心节点的cos距离大小通过颜色表示，颜色越浅则表示离该中心节点越近，即两轨迹相似度更高，颜色越深则表示离该中心节点越远，及轨迹相似度越低。

首先是算法在OMD数据集中的测试，如图2-如图3所示。图2中的(a)和图3中的(a)均为真实空间。

本实施例选择轨迹在图像中的像素坐标，在真实空间的空间坐标，所处位置的颜色的变化动态，及该动态数据的1阶差分，2阶差分，该动态数据的归一化数据作为轨迹的原始特征，原始数据更多的表征了轨迹的欧式距离，如图2中的(b)和图3中的(b)所示，外围轨迹与中心节点的特征距离由中心节点向外发散逐级变小。

经过一个LSTM后，轨迹特征之间的距离，能够初步表征轨迹的运动一致性。如图3中的(b)所示，静态中心轨迹可以基本避开处于运动状态下的Swing Box而连接到其他同样属于静态的轨迹，其他轨迹相对静态中心轨迹的LSTM距离依旧呈现欧式距离上的线形分布。对于动态分割，算法初具成效，如图2中的(b)所示，LSTM构建的特征可以将具有相似运动的目标轨迹与中心节点相连接，但其特征所提取到的特征在动态轨迹上的分类精度较低，出现部分错误连接的情况。

之后，网络经过三个Attention EdgeConv(注意力机制的边卷积网络)对算法提取到的动态特征逐步优化。如图2中的(d)、图3中的(d)所示，在第一次迭代所产生的特征中，相对背景静态轨迹，动态轨迹之间有更高的相似性。而经过之后的两次迭代后，此相似性则更多的能够表征运动一致性，与中心节点距离较低的轨迹更多的分布在中心轨迹的周围，且同属于同一刚体，如图2中的(f)所示。

经过后续几个MLP层的处理后，由Segmentation Emb.层(实体图分割层)所表征的特征距离可以看到，与动态节点特征相似的节点更多的是动态轨迹，如图2中的(g)所示。与静态节点特征距离较近的节点分布较为分散，更多的从全局角度关注轨迹的运动特性，如图3中的(g)所示。

最后，经过聚类MLP编码后，输出的特征用来进行MeanShift聚类，以此达到实例分割的目的。此处的轨迹特征基本能表示物体的运动一致性，中心轨迹与具有相同刚体运动一致性轨迹的特征距离较小。通过该特征聚类得到的轨迹属于同一运动物体，如图2中的(h)所示。

相比OMD数据集，KITTI数据集中运动实例相比更小。位于相机远处的运动实例中所包含的轨迹甚至只有个位数，应用网络在KITTI数据集中进行运动分割更有挑战性。

借助和OMD数据集中相同的方法对KITTI数据集中的特征进行可视化，如图4和图5所示。在图4中可以看到，图4中的(a)为实际空间，图4中的(b)为原始特征，类似于OMD数据集中的结果，经过如图4中的(c)的LSTM和如图4中的(d)-(f)这3层Attention EdgeConv的迭代，在最后生成的Segmentation Emb.中可以得到如图4中的(g)，与中心节点相连接的特征更多的属于动态目标，动态轨迹之间的特征更为相似。在图4中的(h)中可以看到，在用于实例分割的Cluster Emb.中，分布在同一运动物体上的轨迹相似度更高，而这些轨迹的特征与背景特征，和分布在其他物体上的特征差异性更大，因此可以直接将次特征用于聚类。

对背景特征来说，如图5所示，经过数层网络迭代后，位于背景上的轨迹特征，在分布上与前景的动态目标都有较高的不一致性，能够用来完成轨迹的动静态分割。其中，在图5中可以看到，图5中的(a)为实际空间，图5中的(b)为原始特征，类似于OMD数据集中的结果，经过如图5中的(c)的LSTM和如图5中的(d)-(f)这3层Attention EdgeConv的迭代，在最后生成的Segmentation Emb.中可以得到如图5中的(g)，在图5中的(h)中可以看到静态轨迹的特征连接情况。

本实施例利用注意力机制减弱错误连接到中心节点的邻域所产生的影响。采用和上文一致的方法，对算法中的注意力机制给算法带来的影响进行可视化。本实施例邻域数量设置为30，轨迹表示中心节点，颜色的深浅表示邻域相对中心节点的重要性(权值)：

在OMD数据集中的第一次迭代中，如图6中的(a)所示。此时网络使用原始数据作为轨迹特征，轨迹之间的距离更多反应了欧式距离，与中心节点相连接的邻域分布在其周围。借助注意力机制的影响，Swing Box上的轨迹权值更高，与中心节点运动不一致的轨迹权值较低。在KITTI数据集中，如图6中的(d)所示。中心节点聚合了欧式距离上更近的邻域，为了减弱这部分邻域对特征聚合带来的影响，同样分布在车上的轨迹所被分配的权值更高，分布在其他位置的轨迹所述的权值更低。

在第二次迭代中，如图6中的(b)和(e)所示，经过第一次Attention EdgeConv，算法所聚拢的特征初步表现出轨迹的运动特性，中心节点能够聚拢更多和自己具有同样运动特性的轨迹。而对被错误连接到的轨迹，借由注意力机制，这部分所述的权值非常低，在图像中绘制接近白色。

在第三次迭代中，如图6中的(c)和(f)所示，借由前两次Attention EdgeConv，网络可以初步聚和到有效的轨迹。并使用计算出的轨迹，降低错误聚合到的轨迹所对中心轨迹特征的影响。

本实施例选取前景(FG)和背景(BG)的轨迹分类IOU，以及运动轨迹分类的AP和AR评估本实施例算法的实例分割能力。AP为查准率，用来指明算法预测的轨迹有多少分类正确。AR为查全率，用来指明网络预测的数据之中有多少属于正样本。

本实施例选用OMD中的swing_4_translational和swing_4_unconstrained数据集对算法进行较差验证，结果取两数据均值。在该数据集中，环境中始终存在四个来回摇摆的Box，左上，右上，左下，右下的Box分别被命名为SB1,SB2,SB3,SB4。在Box运动过程中，相机也在不断的运动。本实施例目的是在计算出相机视觉里程计的同时，求得Swing Box的运动轨迹。

为了确保网络获得最优性能，我们对各层网络对最后分割结果产生的影响开展了实验，并将使用不同特征提取器分割对OMD数据集中轨迹进行运动一致性分割的结果记录如表1所示。可知在仅包含有LSTM网络时，网络无法得到准确的分割结果，此时仅保有0.38的AP和0.49的AR。而在加入了Attention EdgeConv层后，网络初步具备动态轨迹的分割能力。由LSTM和四层Attention EdgeConv组成的网络分类性能最高，但较三层AttentionEdgeConv，没有较大幅度的性能提升，额外增加了计算复杂度，降低算法实时性。因此，本实施例选择由LSTM和三层Attention EdgeConv组成BackBone。

表1 不同特征提取器对运动一致性分割结果产生的影响

进一步的，为探究不同聚类方法对目标实例分割产生的影响，我们选择不同的聚类算法对网络输出的编码进行聚类，并记录此过程对每个Swing Box分类的IOU、AP和AR，如表2所示。

表2 本实施例算法分类独立Swing Box的性能

对于固定类别的聚类算法，如K-means，我们给定一个超参数用来表示场景内可能存在目标的数量。并在分类过程中通过将类簇数量过低的轨迹分类为异常值来完成分类。K-means虽然有较高的运算速度，但受限与分割原理。在对网络编码进行聚类的过程中会对相同实例造成撕裂现象，从而导致使用K-means算法进行实例分割指标相对较低。同时，如果要使用K-means，还需预设环境中最大运动目标数目，额外增加超参数。

因此，本实施例选择不限定类簇数量的聚类算法对目标进行实例分割。对于这类算法，如DBSCAN和MeanShift，两者分类能力接近，应用MeanShift进行聚类的方法分类效果优于DBSCAN，DBSCAN中eps＝0.1，min_samples＝6，MeanShift的banwidth设定为0.35。

受限于本实施例获取特征点轨迹的方法，分布在目标上的轨迹数量与相机视野、相机与目标的距离以及目标大小有关，各实例的轨迹数量差异较大，分布在同一实例上的轨迹数量在时间上变化较大。相比MeanShift，DBSCAN受类簇稀疏程度影响较大，对于本实施例而言适应能力较差。因此，本实施例选择MeanShift算法作为实例分割中的聚类方案。

与OMD数据集相比，KITTI数据集的环境更大，目标尺寸更小，能够追踪到的特征点更少，更具有挑战性。本实施例选择MOT数据集中有完整标注，并属于刚性物体的车辆类别作为本实施例的验证目标。本实施例选取KITTI中的几个序列构建训练测试集，并在各数据集之间进行交叉验证，记录数据如表3所示。

表3 本实施例算法在KITTI数据集的各序列中的动静态分割结果

背景类的分割IOU均在0.9以上，分类结果可以用作视觉里程计的计算。前景类在动态分割过程中属于小样本数据，与背景类轨迹数量的比值较小，所有数据集中的前景IOU的测试也均在0.6以上，本实施例算法的动态分割结果具有一定的有效性。

算法在0926-0018,0926-0059,0926-0011数据集中表现较好。在这些数据集中，0926-0018、0926-0011序列中均存在行驶车辆静止，同向侧向车流运动的片段，0926-0059为城市跟车序列，视频车辆行驶速度较为稳定，在这类KITTI序列中，轨迹运动特性差异较大，更容易进行分类。算法在0926-0014,0926-0004,1003-0047中表现稍差。对于这类序列，视频中出现压车现象，视频车辆与运动目标之间的速度差距较低，轨迹之间的运动特性差别较小。

通过计算相机运动以及所有运动实例的轨迹的平移和旋转(roll,pitch,yaw)在整个序列中与Ground Truth的最大偏差来评估OMD数据集，此时本实施例视觉里程计滑窗大小设置为15。由于本实施例中的世界坐标系不同与OMD数据集中Ground Truth的世界坐标系，在进行评估前，本实施例首先在相机实例生成的五个轨迹和Ground Truth之间进行配准，令两者之间的偏差最小化。

表4和表5分别展示相机和环境中4个Swing Box之间的运动精度，三个算法中误差最小的数值通过加粗字体显示。相比MVO算法，本实施例算法误差较低的通过字体加背景阴影表示。

表4 OMD数据集中相机里程计评估结果

表5 OMD数据集中实例轨迹的评估结果

对于同样仅使用几何信息完成多运动视觉里程计分割的MVO算法，本实施例在各个75％的指标上有一定程度的提升，并在一定程度上逼近使用先验语义信息优化分割结果的Cluster VO。相比于MVO算法，本实施例不要求对特征点连续跟踪50帧，有更多的特征点用于运动恢复。同时，本实施例通过有监督实例分割的方式对环境中存在的动态轨迹进行分割，相比依赖无监督聚类的MVO方法，本实施例有更高的运动分割性能，且本实施例通过滑窗和变量的边缘化对相机位姿以及特征点的三维坐标进行优化，能够利用动态实例从出现到消失在视野内的所有历史特征对里程计进行优化。因此，本实施例算法能够在里程计估算上获取更高的里程计及动态轨迹的计算精度

与文献[5][6]类似，我们选择两文献与本实施例共有的KITTI数据集中的序列，使用TUM度量对本实施例算法在KITTI数据集中的性能进行评估，对于KITTI数据集设定里程计滑窗大小为10。这些指标评估ATE、R.RPE和T.RPE，它们分别是Root Mean Square Error(RMSE)of the Absolute Trajectory Error,the Rotational and TranslationalRelative Pose Error,的缩写。

本实施例在大多数场景的ATE指标上取得了不错的结果，其中在0929-0004序列中具有最高的里程计估算精度，序列位于森林场景，数据集开始时场景内运动车辆较少，随后同向车道出现塞车，视频车辆跟随前行车辆前行，后续车辆占据了图像一定程度的比例。在ORBSLAM2进行运动估算时，部分分布在前行车辆上的特征点被用作里程计计算，造成了一定程度上的误差。而多运动视觉里程计在计算相机运动时，剔除了这部分特征点，因此具有更高的里程计精度。对于误差较大的1003-0047序列，视频车辆在塞车的高架上运行，有较多运动车辆，与上文同理，会给ORBSLAM造成较大的误差。受限于本实施例在该序列的轨迹分割精度，分割的背景IOU仅有0.90，本实施例在此序列对里程计算法改进程度提升较小。

相比同样使用几何特征进行运动分割的Cluster SLAM，本实施例算法在几乎所有指标均有一定程度的提升，并在一定程度上逼近依靠语义检测通过开窗优化计算里程计的Cluster VO方法。Cluster SLAM是一种依赖特征点提取和关联质量的后端算法，如果前端对特征点的跟踪不准确，会严重影响其后端性能。与之相比，通过有监督方式进行轨迹实例分割的本实施例算法，有更高的分类精度。同时，借由本实施例算法的滑窗姿态估计，本实施例有更高的里程计性能。

本实施例是一种视觉里程计前端，通过图神经网络分离环境中的动态实例，并对其进行运动估算。相比当前其他几种方案，本实施例免去了在轨迹之间进行动态迭代，实时性上有了较大程度的提升。通过在KITTI数据集上的测试，本实施例算法平均运算速度为12.35HZ，每帧81ms。当环境中动态目标较多时，如1003-0047序列，本实施例算法运算速度平均为9.11HZ。

表7 本实施例算法实时性对比

实施例二

本实施例提供了一种轨迹实例级分割和多运动视觉里程测量系统，其具体包括如下模块：

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的轨迹实例级分割和多运动视觉里程测量方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的轨迹实例级分割和多运动视觉里程测量方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种轨迹实例级分割和多运动视觉里程测量方法，其特征在于，包括：

获取机器人周围环境图像序列及每帧图像的特征点；

基于图像特征点的位置变化构建出特征点轨迹特征；

将实例分割结果与动态实例地图进行匹配，并剔除实例分割结果中的异常值，进而计算出运动实例的姿态及相机里程计；

基于特征点轨迹特征及有监督动态轨迹分割模型对轨迹进行动静态分割及实例编码；

所述有监督动态轨迹分割模型包括主干网络、第一子网络和第二子网络，所述主干网络用于聚合轨迹的特征，第一子网络用于轨迹的动静态分类，第二子网络用于为每条特征轨迹额外回归用于实例分割的特征编码，并使用语义分割对实例分割编码进行优化。

2.如权利要求1所述的轨迹实例级分割和多运动视觉里程测量方法，其特征在于，所述特征点轨迹特征包括基础特征、归一化特征、一阶差分特征和二阶差分特征。

3.如权利要求2所述的轨迹实例级分割和多运动视觉里程测量方法，其特征在于，所述基础特征包括特征点的像素坐标、空间坐标和RGB色彩；

或使用最新一帧中的特征点特征与特征轨迹中的所有的特征点特征做差，构建轨迹在时间维度上的归一化特征；

或使用轨迹特征在时间维度上紧临的前后两个特征点特征之差构建特征轨迹的一阶差分特征。

4.如权利要求1所述的轨迹实例级分割和多运动视觉里程测量方法，其特征在于，通过光束法平差算法对相机自身运动以及空间中实例的运动进行开窗优化。

5.如权利要求1所述的轨迹实例级分割和多运动视觉里程测量方法，其特征在于，使用静态轨迹计算相机里程计。

6.一种轨迹实例级分割和多运动视觉里程测量系统，其特征在于，包括：

相机里程计算模块，其用于将实例分割结果与动态实例地图进行匹配，并剔除实例分割结果中的异常值，进而计算出运动实例的姿态及相机里程计；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的轨迹实例级分割和多运动视觉里程测量方法中的步骤。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的轨迹实例级分割和多运动视觉里程测量方法中的步骤。