CN111539983A

CN111539983A - 基于深度图像的运动物体分割方法及系统

Info

Publication number: CN111539983A
Application number: CN202010297075.6A
Authority: CN
Inventors: 王贺升; 刘怡伶
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-14
Anticipated expiration: 2040-04-15
Also published as: CN111539983B

Abstract

本发明提供了一种基于深度图像的运动物体分割方法及系统，包括:步骤M1：接收传感器数据获得初始深度图，对初始深度图进行预处理获得深度图像；步骤M2：接收连续两帧深度图像并分别利用卷积神经网络进行特征提取，得到连续两帧深度图各自的空间特征；步骤M3：接收连续两帧的空间特征，并利用循环神经网络进行特征提取，得到时序空间特征；步骤M4：接收时序空间特征，通过上采样分割出当前时刻深度图像里的运动物体，得到初始分割结果；本发明基于具有多种复杂场景的公开数据集KITTI训练，提高了对复杂场景和环境变化的适应能力，且训练得到的模型不受传感器平台型号参数等限制，提高了算法应用的便捷性。

Description

基于深度图像的运动物体分割方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体地，涉及一种基于深度图像的运动物体分割方法及系统。

背景技术

场景理解是计算机视觉领域的一个重要研究内容，而对动态场景的理解对于移动机器人、无人驾驶等应用更是至关重要，有效地检测或分割出场景中的移动物体(例如汽车和行人)可以显著增强对环境的感知能力，使得自主移动机器人或无人车能够在动态环境下实现避障、导航。因此，运动物体分割是一项重要的技术。

实际应用场景下的运动物体分割有其特殊的技术难点：传感器数据中前景物体的运动以及由于传感器平台运动而导致的背景运动混杂，使得算法很难分割出前景运动物体。现有的运动物体分割方案多是针对静止的传感器获取的场景数据，无法解决上述问题。而现有的针对传感器平台运动情况下的运动物体分割方案，可分为三大类。

一是从光流图像中提取运动信息。然而，光流易受环境中遮挡、光照变化、颜色变化的影响；相机的畸变会产生错误的光流值，而运动状态相同的物体由于景深的不同也会产生不同的光流值。最后，光流的计算繁琐复杂。二是对背景运动建模以分割出前景运动物体，这种方法无法解决图像的运动退化问题。三是通过跟踪来定位图像序列中的运动物体。这种方法流程繁琐，非常耗时。

因此找到一种能有效应用于实际场景的，适用于更多种传感器平台的，对环境变化有一定鲁棒性的算法是运动物体分割的关键。

专利文献CN103514609B(申请号：201310283658.3)公开了一种基于反馈的运动物体分割的图像处理方法，对背景建模，采用两层次的背景更新模型；第一层采用较低的更新率对背景进行更新，以适应背景的缓慢变化；第二层根据高层信息的反馈，对背景进行加速、补偿等操作，以适应场景内物体运动的突变；对前景分割，根据高层信息的反馈，合并预测的运动物体块，在预测的物体区域内，自适应地调整分割阈值，以达到抑制噪声的同时，防止分割的前景物体出现空洞和割裂情况的发生。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于深度图像的运动物体分割方法及系统。

根据本发明提供的一种基于深度图像的运动物体分割方法，包括:

步骤M1：接收传感器数据获得初始深度图，对初始深度图进行预处理获得深度图像；

步骤M2：接收连续两帧深度图像并分别利用卷积神经网络进行特征提取，得到连续两帧深度图各自的空间特征；

步骤M3：接收连续两帧的空间特征，并利用循环神经网络进行特征提取，得到时序空间特征；

步骤M4：接收时序空间特征，通过上采样分割出当前时刻深度图像里的运动物体，得到初始分割结果；

步骤M5：接收初始分割结果，采用条件随机场算法优化初始分割结果。

优选地，所述步骤M1包括：

步骤M1.1：通过包括双目相机、PGBD相机和/或激光雷达数据的处理获得初始深度图；

步骤M1.2：计算初始深度图的积分图，并保存积分图中每个值所累加的像素点个数；

步骤M1.3：利用积分图对初始深度图进行多层均值滤波，首先用预设的初始窗口进行均值滤波，给大的无值空洞区域赋值，之后每次滤波时，窗口大小减小预设倍数，直至窗口大小变为预设值，停止滤波，获得平滑后的深度图像；

所述通过双目相机获得初始深度图包括：利用双目立体视觉从双目相机图像中计算出深度图像；

所述通过RGBD相机获得初始深度图包括：从RGBD相机直接获取初始深度图像；

所述通过激光雷达数据的处理获得初始深度图包括：将激光雷达获取的三维点云投影到二维平面获取深度图像。

优选地，所述步骤M2包括：

步骤M2.1：接收连续两帧深度图像d_t,d_t-1，通过卷积层和激活函数层实现深度图d_t,d_t-1到深度图d′_t,d′_t-1的非线性映射；

步骤M2.2：将深度图d′_t,d′_t-1分别通过预设个卷积块，每个卷积块由预设层卷积层及相应的最大池化层和激活函数层堆叠而成，并将指定的卷积层的输出作为所提取的多尺度的空间特征。

优选地，所述步骤M3包括：将指定的卷积层的输出分别作为不同尺度下两个级联的卷积门控循环单元的输入，进行多尺度的时序空间特征的提取，卷积门控循环单元的计算公式如下：

z_t＝σ(W_hz*h_t-1+b_hz+W_xz*x_t+b_xz)

r_t＝σ(W_hr*h_t-1+b_hr+W_xr*x_t+b_xr)

其中，下标t表示时刻t，下标hz表示先前时刻状态的记忆系数，下标t-1表示时刻t-1，下标xz表示输入信息的记忆系数，下标hr表示先前时刻状态的遗忘系数，下标xr表示输入信息的遗忘系数，下标h表示先前时刻状态的更新系数，下标x表示输入信息的更新系数，*代表卷积操作，⊙代表哈达玛积，σ代表sigmoid函数，tanh代表双曲正切函数，z_t代表更新门矩阵，r_t代表重置门矩阵，h_t代表输出，x_t代表输入，W代表参数矩阵，b代表偏置向量；对于不存在前一帧的深度图d_t-1而言，用零矩阵代表初始状态；

所述步骤M4包括：

步骤M4.1：对于不同尺度的的时序空间特征，利用上采样，从低尺度到高尺度进行相邻尺度时序空间特征间两两融合，最终得到融合了不同尺度信息的时序空间特征S′_t；

步骤M4.2：对时序空间特征S′_t进行上采样得到与深度图像尺寸一致的概率矩阵S_t，表征了每个像素位置的运动概率和静止概率；

步骤M4.3：比较S_t中静止概率和运动概率大小，当一个像素位置处的运动概率大于静止概率时，判定当前像素为运动，得到最终的运动物体分割结果

优选地，所述步骤M5包括：

步骤M5.1：以深度图像d_t的每个像素作节点，像素间的关系作边，构建一个条件随机场，通过最终的运动物体分割结果

来推测像素的对应标签y_t；

步骤M5.2：根据条件随机场符合吉布斯分布的原理，构建能量函数，采用平均场近似条件随机场；

步骤M5.3：采用循环神经网络实现平均场近似条件随机场进行分割结果的迭代优化。

根据本发明提供的一种基于深度图像的运动物体分割系统，包括:

模块M1：接收传感器数据获得初始深度图，对初始深度图进行预处理获得深度图像；

模块M2：接收连续两帧深度图像并分别利用卷积神经网络进行特征提取，得到连续两帧深度图各自的空间特征；

模块M3：接收连续两帧的空间特征，并利用循环神经网络进行特征提取，得到时序空间特征；

模块M4：接收时序空间特征，通过上采样分割出当前时刻深度图像里的运动物体，得到初始分割结果；

模块M5：接收初始分割结果，采用条件随机场算法优化初始分割结果。

优选地，所述模块M1包括：

模块M1.1：通过包括双目相机、PGBD相机和/或激光雷达数据的处理获得初始深度图；

模块M1.2：计算初始深度图的积分图，并保存积分图中每个值所累加的像素点个数；

模块M1.3：利用积分图对初始深度图进行多层均值滤波，首先用预设的初始窗口进行均值滤波，给大的无值空洞区域赋值，之后每次滤波时，窗口大小减小预设倍数，直至窗口大小变为预设值，停止滤波，获得平滑后的深度图像；

优选地，所述模块M2包括：

模块M2.1：接收连续两帧深度图像d_t,d_t-1，通过卷积层和激活函数层实现深度图d_t,d_t-1到深度图d′_t,d′_t-1的非线性映射；

模块M2.2：将深度图d′_t,d′_t-1分别通过预设个卷积块，每个卷积块由预设层卷积层及相应的最大池化层和激活函数层堆叠而成，并将指定的卷积层的输出作为所提取的多尺度的空间特征。

优选地，所述模块M3包括：将指定的卷积层的输出分别作为不同尺度下两个级联的卷积门控循环单元的输入，进行多尺度的时序空间特征的提取，卷积门控循环单元的计算公式如下：

z_t＝σ(W_hz*h_t-1+b_hz+W_xz*x_t+b_xz)

r_t＝σ(W_hr*h_t-1+b_hr+W_xr*x_t+b_xr)

所述模块M4包括：

模块M4.1：对于不同尺度的的时序空间特征，利用上采样，从低尺度到高尺度进行相邻尺度时序空间特征间两两融合，最终得到融合了不同尺度信息的时序空间特征S′_t；

模块M4.2：对时序空间特征S′_t进行上采样得到与深度图像尺寸一致的概率矩阵S_t，表征了每个像素位置的运动概率和静止概率；

模块M4.3：步骤M4.3：比较S_t中静止概率和运动概率大小，当一个像素位置处的运动概率大于静止概率时，判定当前像素为运动，得到最终的运动物体分割结果

优选地，所述模块M5包括：

模块M5.1：以深度图像d_t的每个像素作节点，像素间的关系作边，构建一个条件随机场，通过最终的运动物体分割结果

来推测像素的对应标签y_t；

模块M5.2：根据条件随机场符合吉布斯分布的原理，构建能量函数，采用平均场近似条件随机场；

模块M5.3：采用循环神经网络实现平均场近似条件随机场进行分割结果的迭代优化。

与现有技术相比，本发明具有如下的有益效果：

1、本发明充分考虑了移动机器人或无人车常用的传感器，实现了适用于多种传感器的运动物体分割方法；

2、本发明充分利用了深度学习技术，提高了对传感器数据高层时空特征的提取描述能力；

3、本发明基于具有多种复杂场景的公开数据集KITTI训练，提高了对复杂场景和环境变化的适应能力，且训练得到的模型不受传感器平台型号参数等限制，提高了算法应用的便捷性；

4、本发明对深度图像进行处理，而运动物体的深度变化(即速度)在方向和大小上与其周围背景的深度变化不一致。因此，利用深度图像进行运动分割更复合逻辑，且同时适用于传感器平台静止或运动的情况，拓宽了运动物体分割算法的应用范围。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明基于深度图像的运动物体分割算法的流程图；

图2为本发明基于深度图像的运动物体分割算法的详细网络结构图；

图3为本发明基于深度图像的运动物体分割算法所使用的卷积门控循环单元的示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

针对现有技术中存在的上述不足，本发明的目的是提供一种基于深度图像的运动物体跟踪方法，适用于多种传感器平台：双目相机、RGBD相机和激光雷达。且使用了深度学习技术，对环境变化和复杂场景都可以取得较为稳健的分割结果。

根据本发明提供的一种基于深度图像的运动物体分割方法，包括:如图1所示，

具体地，所述步骤M1包括：

步骤M1.2：计算初始深度图的积分图，并保存积分图中每个值所累加的像素点个数；(深度图中无意义的像素点，即值为0处，不计入积分图中)；

积分图可用于进行快速的均值滤波，只需遍历一次即可得到均值滤波结果。积分图任意一个像素的值等于原图中该像素左上角所有值的和。

步骤M1.3：利用积分图对初始深度图进行多层均值滤波，首先用较大的初始窗口进行均值滤波，给大的无值空洞区域赋值，之后每次滤波时窗口大小减小为原来的一半，直到窗口大小变为3*3，停止滤波；获得平滑后的深度图像；

所述通过双目相机获得初始深度图包括：利用双目立体视觉从双目相机图像中计算出深度图像；具体计算过程包括：摄像机标定、双目图像校正、图像匹配获取视差图和计算深度图；

具体地，所述步骤M2包括：如图2所示，

步骤M2.1：接收连续两帧深度图像d_t,d_t-1，通过一个卷积层和一个激活函数层实现从1通道深度图d_t,d_t-1到3通道深度图d′_t,d′_t-1的非线性映射，为后续的空间特征提取做准备；

步骤M2.2：将深度图d′_t,d′_t-1分别通过5个卷积块，每个卷积块由2或3层卷积层及相应的最大池化层和激活函数层堆叠而成，并将第3、4、5个卷积层的输出作为所提取的多尺度的空间特征。

具体地，所述步骤M3包括：如图3所示，将第3个卷积块的输出x_t,x_t-1，第4个卷积块的输出x′_t,x′_t-1，第5个卷积块的输出x″_t,x″_t-1，分别作为不同尺度下两个级联的卷积门控循环单元的输入，进行多尺度的时序空间特征的提取，卷积门控循环单元的计算公式如下：

z_t＝σ(W_hz*h_t-1+b_hz+W_xz*x_t+b_xz)

r_t＝σ(W_hr*h_t-1+b_hr+W_xr*x_t+b_xr)

所述步骤M4包括：如图2所示，

步骤M4.1：对于不同尺度的的时序空间特征h_t,h′_t,h″_t，利用上采样，从低尺度到高尺度进行相邻尺度时序空间特征间两两融合，最终得到融合了不同尺度信息的时序空间特征S′_t；

此处是一级一级进行的，比如：假设有从低到高(1～4)4个尺度，则先将1上采样得到与2同样尺寸的1’,再与2相加。得到的结果再上采样得到与3同样尺寸的2’，再与3相加，依此类推，最终与最高尺度4进行融合，即相加。

步骤M4.2：对时序空间特征S′_t进行上采样得到与深度图像尺寸一致的概率矩阵S_t，表征了每个像素位置的运动概率和静止概率；S_t是一个2xWxH的矩阵，其中W、H表示深度图像的长、宽；

步骤M4.3：比较S_t中静止概率和运动概率大小，当一个像素位置处的运动概率值大于静止概率值，则该像素判定为运动，得到最终的运动物体分割结果

具体地，所述步骤M5包括：

来推测像素的对应标签y_t；

y_t指运动物体分割的真值(GroundTruth)；

能量函数指当前预测结果

对应的代价函数，是条件随机场下算法下的理论建模，在用平均场近似条件随机场时可提供相关的计算依据。

对非线性映射、空间特征提取网络、时序特征提取网络以及上采样网络进行训练包括：

利用公开数据集KITTI作为训练数据集，使用人工标注的运动掩膜作为训练标签，对训练数据集中的训练样本图像进行随机水平翻转和旋转来进行数据增强，使用随机梯度下降算法对网络的参数进行优化，使用每个像素的交叉熵损失的和作为整个网络的损失函数，在训练数据集上进行训练直至网络收敛。

所述训练标签就是人工标注得到的一张与d_t同尺寸的二值图像，像素值1表示该像素运动，0表示静止，作用是训练时用于计算损失函数；

训练样本图像就是将数据集中的图像根据步骤M1中对应的方式处理成适用本算法的深度图像。

优化步骤是对初始运动物体分割结果进行优化，用平均场近似条件随机场时，一次迭代可以通过一系列CNN层实现，因此多次迭代可通过循环神经网络(RNN)实现。

具体地，所述模块M1包括：

模块M1.2：计算初始深度图的积分图，并保存积分图中每个值所累加的像素点个数；(深度图中无意义的像素点，即值为0处，不计入积分图中)；

模块M1.3：利用积分图对初始深度图进行多层的均值滤波，首先用较大的初始窗口进行均值滤波，给大的无值空洞区域赋值，之后每次滤波时窗口大小减小为原来的一半，直到窗口大小变为3*3，停止滤波；获得平滑后的深度图像；

具体地，所述模块M2包括：

模块M2.1：接收连续两帧深度图像d_t,d_t-1，通过一个卷积层和一个激活函数层实现从1通道深度图d_t,d_t-1到3通道深度图d′_t,d′_t-1的非线性映射，为后续的空间特征提取做准备；

模块M2.2：将深度图d′_t,d′_t-1分别通过5个卷积块，每个卷积块由2或3层卷积层及相应的最大池化层和激活函数层堆叠而成，并将第3、4、5个卷积层的输出作为所提取的多尺度的空间特征。

具体地，所述模块M3包括：将第3个卷积块的输出x_t,x_t-1，第4个卷积块的输出x′_t,x′_t-1，第5个卷积块的输出x″_t,x″_-1，分别作为不同尺度下两个级联的卷积门控循环单元的输入，进行多尺度的时序空间特征的提取，卷积门控循环单元的计算公式如下：

z_t＝σ(W_hz*h_t-1+b_hz+W_xz*x_t+b_xz)

r_t＝σ(W_hr*h_t-1+b_hr+W_xr*x_t+b_xr)

所述模块M4包括：

模块M4.1：对于不同尺度的的时序空间特征h_t,h′_t,h″_t，利用上采样，从低尺度到高尺度进行相邻尺度时序空间特征间两两融合，最终得到融合了不同尺度信息的时序空间特征S′_t；

模块M4.2：对时序空间特征S′_t进行上采样得到与深度图像尺寸一致的概率矩阵S_t，表征了每个像素位置的运动概率和静止概率S_t；S_t是一个2xWxH的矩阵，其中W、H表示深度图像的长、宽；

模块M4.3：比较S_t中静止概率和运动概率大小，当一个像素位置处的运动概率值大于静止概率值，则该像素判定为运动，得到最终的运动物体分割结果

具体地，所述模块M5包括：

来推测像素的对应标签y_t；

y_t指运动物体分割的真值(GroundTruth)；

能量函数指当前预测结果

所述训练标签就是人工标注得到的一张与与d_t同尺寸的二值图像，像素值1表示该像素运动，0表示静止，作用是训练时用于计算损失函数；

以下优选例对本发明做更为详细的说明：

本发明公开了一种基于深度图像的运动物体分割算法，包括如下步骤：

预处理步骤，记为步骤S1，具体地：接收传感器数据并处理为深度图像，包括对双目相机，RGBD相机和激光雷达数据的处理；

空间特征提取步骤，记为步骤S2，具体地：接收连续两帧深度图像并分别利用卷积神经网络进行特征提取，得到连续两帧深度图各自的空间特征；

时序特征提取步骤，记为步骤S3,具体地：接受连续两帧的空间特征，并利用循环神经网络进行特征提取，得到时序空间特征；

分割步骤，记为步骤S4，具体地：接收连续两帧地时序空间特征，通过上采样分割出当前时刻深度图像里的运动物体。

优化步骤，记为步骤S5，接收初始分割结果，采用条件随机场算法优化初始分割结果。

进一步地，所述步骤S1包括如下步骤：

步骤S1.1、从多种传感器数据中获取初始深度图，具体地：

步骤S1.1.1、利用双目立体视觉从双目相机图像中计算出深度图像，包括：摄像机标定，双目图像校正，图像匹配获取视差图，计算深度图；

步骤S1.1.2、从RGBD相机直接获取初始深度图像；

步骤S1.1.3、将激光雷达获取的三维点云投影到二维平面获取深度图像；

步骤S1.2、初始深度图的填充，包括步骤：

步骤S1.2.1、计算初始深度图像的积分图，并保存积分图中每个值所累加的像素点个数(深度图中无意义的像素点，即值为0处，不计入积分图中)；

步骤S1.2.2、进行多层均值滤波，首先用较大的初始窗口进行均值滤波，给大的无值空洞区域赋值，之后每次滤波时窗口大小减小为原来的一半，直到窗口大小变为3×3，停止滤波；

所述步骤S2包括如下步骤：

步骤S2.1、对于步骤S1得到的相邻两帧深度图像d_t,d_t-1，通过一个卷积层和一个激活函数层实现从1通道深度图d_t,d_t-1到3通道深度图d′_t,d′_t-1的非线性映射，为后续的空间特征提取做准备；

步骤S2.2、对于步骤S2.1得到的d′_t,d′_t-1，分别将其通过5个卷积块，每个卷积块由2或3层卷积层及相应的最大池化层和激活函数层堆叠而成，并将第3、4、5个卷积块的输出作为所提取的多尺度的空间特征。

所述步骤S3将步骤S2.2中得到的第3个卷积块的输出x_t,x_t-1，第4个卷积块的输出x′_t,x′_t-1，第5个卷积块的输出x″_t,x″_t-1，分别作为不同尺度下两个级联的卷积门控循环单元的输入，进行多尺度的时序空间特征的提取，卷积门控循环单元的计算公式如下式所示：

z_t＝σ(W_hz*h_t-1+b_hz+W_xz*x_t+b_xz)

r_t＝σ(W_hr*h_t-1+b_hr+W_xr*x_t+b_xr)

其中，*代表卷积操作，⊙代表哈达玛积，σ代表sigmoid函数，tanh代表双曲正切函数，z_t代表更新门矩阵，r_t代表重置门矩阵，h_t代表输出，x_t代表输入，W代表参数矩阵，b代表偏置向量。对于不存在前一帧的深度图d_t-1而言，用零矩阵代表初始状态。

所述步骤S4包括如下步骤：

步骤S4.1、对于步骤S3得到的不同尺度的时空特征h_t,h′_t,h″_t，将低尺度的特征进行上采样与高尺度的特征进行融合，得到融合了不同尺度信息的时空特征S′_t；

步骤S4.2、对S′_t进行上采样得到与原始深度图尺寸一致的S_t；

步骤S4.3、比较S_t静止和运动状态的概率大小，得到最终的运动物体分割结果

所述步骤S5包括如下步骤：

步骤S5.1、以深度图的每个像素作节点，像素间的关系作边，构建一个条件随机场，通过推测像素的初始预测值

来推测像素的对应标签y_t。

步骤S5.2、根据条件随机场复合吉布斯分布的原理，构建能量函数。

步骤S5.3、为了实现全连接条件随机场的快速推理，采用RNN实现平均场近似条件随机场进行分割结果的迭代优化。

在优选例中，所述步骤S1.1.1包括如下步骤：

利用张正友标定法和标定板得到摄像机的内参f_x,f_y,c_x,c_y以及畸变系数[k₁,k₂,p₁,p₂,k₃]、摄像机外参R，T。利用畸变系数对图像进行畸变矫正，利用R,T对左右目图像进行立体对极线校正。再利用全局匹配算法SGBM计算视差图(这里，默认计算左视差图)，根据如下视差于深度的转换公式，计算出初始深度图像。

d＝(f_x×baseline)/disp

其中，d表示深度，f_x表示归一化的焦距，baseline表示两个相机光心之间的距离，称作基线距离，disp是视差值。

在优选例中，所述步骤S1.2.2中先使用较大窗口给所有无值空洞区域赋值，再逐渐变成小窗口覆盖初始值，既能使深度图稠密化，也避免了图像的过度平滑。

在优选例中，所述步骤S2,S3,S4因为采用的是全卷积的网络结构，因此，网络的输入可以是任意尺寸大小的连续帧深度图，依计算资源而定，在资源允许的情况下，推荐采用分辨率更高的深度图，所得到的运动物体分割结果会更好。网络中所有的激活函数层均采用ReLU激活函数。上采样步骤中，选择普通的上采样方式或反卷积的方式也依计算资源而定，在资源和时间允许的情况下，推荐采用反卷积的上采样方式，可得到效果更好的运动物体分割结果；在资源和时间紧张的情况下，也可采用双线性插值的上采样方式；

在优选例中，所述步骤S5定义的能量函数如下式：

其中i代表像素位置，x_i代表初始分割结果，

代表初始分割结果的代价，即经过归一化的S_t中的运动概率。而第二项二元势函数描述的是像素点之间的关系，其定义如下式：

二元势函数用于促使相似像素预测出相同的标签而不同像素预测出不同标签。其中，f_i,f_j代表x_i,x_j对应的特征，由一个由RGB值，位置，时间组成的六维向量表示；u(x_i,x_j)代表兼容性系数；ω^(m)代表权重；

代表如下所示高斯核：

在训练时，使用公开数据集KITTI作为训练数据集，使用人工标注的运动掩膜作为训练标签，在训练数据集中随机选取连续两帧深度图与相应的训练标签作为训练样本对，此外还对训练样本图像进行随机水平翻转和旋转来进行数据增强。其中，

是可通过学习得到的参数，用于控制高斯核函数的作用范围，下标m用于索引特征对f_i,f_j。

训练时，使用随机梯度下降算法对网络的参数进行优化，采用的优化方法为Adam优化方法，其中参数设为β₁＝0.9，β₂＝0.999。学习率设为5×10^-4。空间特征提取网络采用在ImageNet上预训练的VGG16权重作为初始权重，反卷积层采用双线性分布的方式初始化，其余层采用Xavier的方式初始化。网络使用每个像素的交叉熵损失的和作为损失函数，在训练数据集上进行多轮学习直至模型收敛。

本发明上述实施例提供的基于深度图像的运动物体分割方法利用大量数据进行训练得到最优模型参数，在实际应用中可自动进行运动物体检测；实验结果表明该算法能够较为高效地得出高准确率的检测结果。本发明上述实施例中的具体参数仅为说明本发明技术方案的实施而举例，本发明在另外的实施例中也可以采用其他的具体参数，这对于本发明实现没有本质性的影响。要说明的是，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不再赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。