CN111539983A - 基于深度图像的运动物体分割方法及系统 - Google Patents

基于深度图像的运动物体分割方法及系统 Download PDF

Info

Publication number
CN111539983A
CN111539983A CN202010297075.6A CN202010297075A CN111539983A CN 111539983 A CN111539983 A CN 111539983A CN 202010297075 A CN202010297075 A CN 202010297075A CN 111539983 A CN111539983 A CN 111539983A
Authority
CN
China
Prior art keywords
initial
depth
depth image
moving object
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010297075.6A
Other languages
English (en)
Other versions
CN111539983B (zh
Inventor
王贺升
刘怡伶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010297075.6A priority Critical patent/CN111539983B/zh
Publication of CN111539983A publication Critical patent/CN111539983A/zh
Application granted granted Critical
Publication of CN111539983B publication Critical patent/CN111539983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Optics & Photonics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度图像的运动物体分割方法及系统,包括:步骤M1:接收传感器数据获得初始深度图,对初始深度图进行预处理获得深度图像;步骤M2:接收连续两帧深度图像并分别利用卷积神经网络进行特征提取,得到连续两帧深度图各自的空间特征;步骤M3:接收连续两帧的空间特征,并利用循环神经网络进行特征提取,得到时序空间特征;步骤M4:接收时序空间特征,通过上采样分割出当前时刻深度图像里的运动物体,得到初始分割结果;本发明基于具有多种复杂场景的公开数据集KITTI训练,提高了对复杂场景和环境变化的适应能力,且训练得到的模型不受传感器平台型号参数等限制,提高了算法应用的便捷性。

Description

基于深度图像的运动物体分割方法及系统
技术领域
本发明涉及计算机视觉技术领域,具体地,涉及一种基于深度图像的运动物体分割方法及系统。
背景技术
场景理解是计算机视觉领域的一个重要研究内容,而对动态场景的理解对于移动机器人、无人驾驶等应用更是至关重要,有效地检测或分割出场景中的移动物体(例如汽车和行人)可以显著增强对环境的感知能力,使得自主移动机器人或无人车能够在动态环境下实现避障、导航。因此,运动物体分割是一项重要的技术。
实际应用场景下的运动物体分割有其特殊的技术难点:传感器数据中前景物体的运动以及由于传感器平台运动而导致的背景运动混杂,使得算法很难分割出前景运动物体。现有的运动物体分割方案多是针对静止的传感器获取的场景数据,无法解决上述问题。而现有的针对传感器平台运动情况下的运动物体分割方案,可分为三大类。
一是从光流图像中提取运动信息。然而,光流易受环境中遮挡、光照变化、颜色变化的影响;相机的畸变会产生错误的光流值,而运动状态相同的物体由于景深的不同也会产生不同的光流值。最后,光流的计算繁琐复杂。二是对背景运动建模以分割出前景运动物体,这种方法无法解决图像的运动退化问题。三是通过跟踪来定位图像序列中的运动物体。这种方法流程繁琐,非常耗时。
因此找到一种能有效应用于实际场景的,适用于更多种传感器平台的,对环境变化有一定鲁棒性的算法是运动物体分割的关键。
专利文献CN103514609B(申请号:201310283658.3)公开了一种基于反馈的运动物体分割的图像处理方法,对背景建模,采用两层次的背景更新模型;第一层采用较低的更新率对背景进行更新,以适应背景的缓慢变化;第二层根据高层信息的反馈,对背景进行加速、补偿等操作,以适应场景内物体运动的突变;对前景分割,根据高层信息的反馈,合并预测的运动物体块,在预测的物体区域内,自适应地调整分割阈值,以达到抑制噪声的同时,防止分割的前景物体出现空洞和割裂情况的发生。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于深度图像的运动物体分割方法及系统。
根据本发明提供的一种基于深度图像的运动物体分割方法,包括:
步骤M1:接收传感器数据获得初始深度图,对初始深度图进行预处理获得深度图像;
步骤M2:接收连续两帧深度图像并分别利用卷积神经网络进行特征提取,得到连续两帧深度图各自的空间特征;
步骤M3:接收连续两帧的空间特征,并利用循环神经网络进行特征提取,得到时序空间特征;
步骤M4:接收时序空间特征,通过上采样分割出当前时刻深度图像里的运动物体,得到初始分割结果;
步骤M5:接收初始分割结果,采用条件随机场算法优化初始分割结果。
优选地,所述步骤M1包括:
步骤M1.1:通过包括双目相机、PGBD相机和/或激光雷达数据的处理获得初始深度图;
步骤M1.2:计算初始深度图的积分图,并保存积分图中每个值所累加的像素点个数;
步骤M1.3:利用积分图对初始深度图进行多层均值滤波,首先用预设的初始窗口进行均值滤波,给大的无值空洞区域赋值,之后每次滤波时,窗口大小减小预设倍数,直至窗口大小变为预设值,停止滤波,获得平滑后的深度图像;
所述通过双目相机获得初始深度图包括:利用双目立体视觉从双目相机图像中计算出深度图像;
所述通过RGBD相机获得初始深度图包括:从RGBD相机直接获取初始深度图像;
所述通过激光雷达数据的处理获得初始深度图包括:将激光雷达获取的三维点云投影到二维平面获取深度图像。
优选地,所述步骤M2包括:
步骤M2.1:接收连续两帧深度图像dt,dt-1,通过卷积层和激活函数层实现深度图dt,dt-1到深度图d′t,d′t-1的非线性映射;
步骤M2.2:将深度图d′t,d′t-1分别通过预设个卷积块,每个卷积块由预设层卷积层及相应的最大池化层和激活函数层堆叠而成,并将指定的卷积层的输出作为所提取的多尺度的空间特征。
优选地,所述步骤M3包括:将指定的卷积层的输出分别作为不同尺度下两个级联的卷积门控循环单元的输入,进行多尺度的时序空间特征的提取,卷积门控循环单元的计算公式如下:
zt=σ(Whz*ht-1+bhz+Wxz*xt+bxz)
rt=σ(Whr*ht-1+bhr+Wxr*xt+bxr)
Figure BDA0002452592690000031
Figure BDA0002452592690000032
其中,下标t表示时刻t,下标hz表示先前时刻状态的记忆系数,下标t-1表示时刻t-1,下标xz表示输入信息的记忆系数,下标hr表示先前时刻状态的遗忘系数,下标xr表示输入信息的遗忘系数,下标h表示先前时刻状态的更新系数,下标x表示输入信息的更新系数,*代表卷积操作,⊙代表哈达玛积,σ代表sigmoid函数,tanh代表双曲正切函数,zt代表更新门矩阵,rt代表重置门矩阵,ht代表输出,xt代表输入,W代表参数矩阵,b代表偏置向量;对于不存在前一帧的深度图dt-1而言,用零矩阵代表初始状态;
所述步骤M4包括:
步骤M4.1:对于不同尺度的的时序空间特征,利用上采样,从低尺度到高尺度进行相邻尺度时序空间特征间两两融合,最终得到融合了不同尺度信息的时序空间特征S′t
步骤M4.2:对时序空间特征S′t进行上采样得到与深度图像尺寸一致的概率矩阵St,表征了每个像素位置的运动概率和静止概率;
步骤M4.3:比较St中静止概率和运动概率大小,当一个像素位置处的运动概率大于静止概率时,判定当前像素为运动,得到最终的运动物体分割结果
Figure BDA0002452592690000034
优选地,所述步骤M5包括:
步骤M5.1:以深度图像dt的每个像素作节点,像素间的关系作边,构建一个条件随机场,通过最终的运动物体分割结果
Figure BDA0002452592690000033
来推测像素的对应标签yt
步骤M5.2:根据条件随机场符合吉布斯分布的原理,构建能量函数,采用平均场近似条件随机场;
步骤M5.3:采用循环神经网络实现平均场近似条件随机场进行分割结果的迭代优化。
根据本发明提供的一种基于深度图像的运动物体分割系统,包括:
模块M1:接收传感器数据获得初始深度图,对初始深度图进行预处理获得深度图像;
模块M2:接收连续两帧深度图像并分别利用卷积神经网络进行特征提取,得到连续两帧深度图各自的空间特征;
模块M3:接收连续两帧的空间特征,并利用循环神经网络进行特征提取,得到时序空间特征;
模块M4:接收时序空间特征,通过上采样分割出当前时刻深度图像里的运动物体,得到初始分割结果;
模块M5:接收初始分割结果,采用条件随机场算法优化初始分割结果。
优选地,所述模块M1包括:
模块M1.1:通过包括双目相机、PGBD相机和/或激光雷达数据的处理获得初始深度图;
模块M1.2:计算初始深度图的积分图,并保存积分图中每个值所累加的像素点个数;
模块M1.3:利用积分图对初始深度图进行多层均值滤波,首先用预设的初始窗口进行均值滤波,给大的无值空洞区域赋值,之后每次滤波时,窗口大小减小预设倍数,直至窗口大小变为预设值,停止滤波,获得平滑后的深度图像;
所述通过双目相机获得初始深度图包括:利用双目立体视觉从双目相机图像中计算出深度图像;
所述通过RGBD相机获得初始深度图包括:从RGBD相机直接获取初始深度图像;
所述通过激光雷达数据的处理获得初始深度图包括:将激光雷达获取的三维点云投影到二维平面获取深度图像。
优选地,所述模块M2包括:
模块M2.1:接收连续两帧深度图像dt,dt-1,通过卷积层和激活函数层实现深度图dt,dt-1到深度图d′t,d′t-1的非线性映射;
模块M2.2:将深度图d′t,d′t-1分别通过预设个卷积块,每个卷积块由预设层卷积层及相应的最大池化层和激活函数层堆叠而成,并将指定的卷积层的输出作为所提取的多尺度的空间特征。
优选地,所述模块M3包括:将指定的卷积层的输出分别作为不同尺度下两个级联的卷积门控循环单元的输入,进行多尺度的时序空间特征的提取,卷积门控循环单元的计算公式如下:
zt=σ(Whz*ht-1+bhz+Wxz*xt+bxz)
rt=σ(Whr*ht-1+bhr+Wxr*xt+bxr)
Figure BDA0002452592690000051
Figure BDA0002452592690000052
其中,下标t表示时刻t,下标hz表示先前时刻状态的记忆系数,下标t-1表示时刻t-1,下标xz表示输入信息的记忆系数,下标hr表示先前时刻状态的遗忘系数,下标xr表示输入信息的遗忘系数,下标h表示先前时刻状态的更新系数,下标x表示输入信息的更新系数,*代表卷积操作,⊙代表哈达玛积,σ代表sigmoid函数,tanh代表双曲正切函数,zt代表更新门矩阵,rt代表重置门矩阵,ht代表输出,xt代表输入,W代表参数矩阵,b代表偏置向量;对于不存在前一帧的深度图dt-1而言,用零矩阵代表初始状态;
所述模块M4包括:
模块M4.1:对于不同尺度的的时序空间特征,利用上采样,从低尺度到高尺度进行相邻尺度时序空间特征间两两融合,最终得到融合了不同尺度信息的时序空间特征S′t
模块M4.2:对时序空间特征S′t进行上采样得到与深度图像尺寸一致的概率矩阵St,表征了每个像素位置的运动概率和静止概率;
模块M4.3:步骤M4.3:比较St中静止概率和运动概率大小,当一个像素位置处的运动概率大于静止概率时,判定当前像素为运动,得到最终的运动物体分割结果
Figure BDA0002452592690000053
优选地,所述模块M5包括:
模块M5.1:以深度图像dt的每个像素作节点,像素间的关系作边,构建一个条件随机场,通过最终的运动物体分割结果
Figure BDA0002452592690000054
来推测像素的对应标签yt
模块M5.2:根据条件随机场符合吉布斯分布的原理,构建能量函数,采用平均场近似条件随机场;
模块M5.3:采用循环神经网络实现平均场近似条件随机场进行分割结果的迭代优化。
与现有技术相比,本发明具有如下的有益效果:
1、本发明充分考虑了移动机器人或无人车常用的传感器,实现了适用于多种传感器的运动物体分割方法;
2、本发明充分利用了深度学习技术,提高了对传感器数据高层时空特征的提取描述能力;
3、本发明基于具有多种复杂场景的公开数据集KITTI训练,提高了对复杂场景和环境变化的适应能力,且训练得到的模型不受传感器平台型号参数等限制,提高了算法应用的便捷性;
4、本发明对深度图像进行处理,而运动物体的深度变化(即速度)在方向和大小上与其周围背景的深度变化不一致。因此,利用深度图像进行运动分割更复合逻辑,且同时适用于传感器平台静止或运动的情况,拓宽了运动物体分割算法的应用范围。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明基于深度图像的运动物体分割算法的流程图;
图2为本发明基于深度图像的运动物体分割算法的详细网络结构图;
图3为本发明基于深度图像的运动物体分割算法所使用的卷积门控循环单元的示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
针对现有技术中存在的上述不足,本发明的目的是提供一种基于深度图像的运动物体跟踪方法,适用于多种传感器平台:双目相机、RGBD相机和激光雷达。且使用了深度学习技术,对环境变化和复杂场景都可以取得较为稳健的分割结果。
根据本发明提供的一种基于深度图像的运动物体分割方法,包括:如图1所示,
步骤M1:接收传感器数据获得初始深度图,对初始深度图进行预处理获得深度图像;
步骤M2:接收连续两帧深度图像并分别利用卷积神经网络进行特征提取,得到连续两帧深度图各自的空间特征;
步骤M3:接收连续两帧的空间特征,并利用循环神经网络进行特征提取,得到时序空间特征;
步骤M4:接收时序空间特征,通过上采样分割出当前时刻深度图像里的运动物体,得到初始分割结果;
步骤M5:接收初始分割结果,采用条件随机场算法优化初始分割结果。
具体地,所述步骤M1包括:
步骤M1.1:通过包括双目相机、PGBD相机和/或激光雷达数据的处理获得初始深度图;
步骤M1.2:计算初始深度图的积分图,并保存积分图中每个值所累加的像素点个数;(深度图中无意义的像素点,即值为0处,不计入积分图中);
积分图可用于进行快速的均值滤波,只需遍历一次即可得到均值滤波结果。积分图任意一个像素的值等于原图中该像素左上角所有值的和。
步骤M1.3:利用积分图对初始深度图进行多层均值滤波,首先用较大的初始窗口进行均值滤波,给大的无值空洞区域赋值,之后每次滤波时窗口大小减小为原来的一半,直到窗口大小变为3*3,停止滤波;获得平滑后的深度图像;
所述通过双目相机获得初始深度图包括:利用双目立体视觉从双目相机图像中计算出深度图像;具体计算过程包括:摄像机标定、双目图像校正、图像匹配获取视差图和计算深度图;
所述通过RGBD相机获得初始深度图包括:从RGBD相机直接获取初始深度图像;
所述通过激光雷达数据的处理获得初始深度图包括:将激光雷达获取的三维点云投影到二维平面获取深度图像。
具体地,所述步骤M2包括:如图2所示,
步骤M2.1:接收连续两帧深度图像dt,dt-1,通过一个卷积层和一个激活函数层实现从1通道深度图dt,dt-1到3通道深度图d′t,d′t-1的非线性映射,为后续的空间特征提取做准备;
步骤M2.2:将深度图d′t,d′t-1分别通过5个卷积块,每个卷积块由2或3层卷积层及相应的最大池化层和激活函数层堆叠而成,并将第3、4、5个卷积层的输出作为所提取的多尺度的空间特征。
具体地,所述步骤M3包括:如图3所示,将第3个卷积块的输出xt,xt-1,第4个卷积块的输出x′t,x′t-1,第5个卷积块的输出x″t,x″t-1,分别作为不同尺度下两个级联的卷积门控循环单元的输入,进行多尺度的时序空间特征的提取,卷积门控循环单元的计算公式如下:
zt=σ(Whz*ht-1+bhz+Wxz*xt+bxz)
rt=σ(Whr*ht-1+bhr+Wxr*xt+bxr)
Figure BDA0002452592690000081
Figure BDA0002452592690000082
其中,下标t表示时刻t,下标hz表示先前时刻状态的记忆系数,下标t-1表示时刻t-1,下标xz表示输入信息的记忆系数,下标hr表示先前时刻状态的遗忘系数,下标xr表示输入信息的遗忘系数,下标h表示先前时刻状态的更新系数,下标x表示输入信息的更新系数,*代表卷积操作,⊙代表哈达玛积,σ代表sigmoid函数,tanh代表双曲正切函数,zt代表更新门矩阵,rt代表重置门矩阵,ht代表输出,xt代表输入,W代表参数矩阵,b代表偏置向量;对于不存在前一帧的深度图dt-1而言,用零矩阵代表初始状态;
所述步骤M4包括:如图2所示,
步骤M4.1:对于不同尺度的的时序空间特征ht,h′t,h″t,利用上采样,从低尺度到高尺度进行相邻尺度时序空间特征间两两融合,最终得到融合了不同尺度信息的时序空间特征S′t
此处是一级一级进行的,比如:假设有从低到高(1~4)4个尺度,则先将1上采样得到与2同样尺寸的1’,再与2相加。得到的结果再上采样得到与3同样尺寸的2’,再与3相加,依此类推,最终与最高尺度4进行融合,即相加。
步骤M4.2:对时序空间特征S′t进行上采样得到与深度图像尺寸一致的概率矩阵St,表征了每个像素位置的运动概率和静止概率;St是一个2xWxH的矩阵,其中W、H表示深度图像的长、宽;
步骤M4.3:比较St中静止概率和运动概率大小,当一个像素位置处的运动概率值大于静止概率值,则该像素判定为运动,得到最终的运动物体分割结果
Figure BDA0002452592690000083
具体地,所述步骤M5包括:
步骤M5.1:以深度图像dt的每个像素作节点,像素间的关系作边,构建一个条件随机场,通过最终的运动物体分割结果
Figure BDA0002452592690000091
来推测像素的对应标签yt
yt指运动物体分割的真值(GroundTruth);
步骤M5.2:根据条件随机场符合吉布斯分布的原理,构建能量函数,采用平均场近似条件随机场;
能量函数指当前预测结果
Figure BDA0002452592690000092
对应的代价函数,是条件随机场下算法下的理论建模,在用平均场近似条件随机场时可提供相关的计算依据。
步骤M5.3:采用循环神经网络实现平均场近似条件随机场进行分割结果的迭代优化。
对非线性映射、空间特征提取网络、时序特征提取网络以及上采样网络进行训练包括:
利用公开数据集KITTI作为训练数据集,使用人工标注的运动掩膜作为训练标签,对训练数据集中的训练样本图像进行随机水平翻转和旋转来进行数据增强,使用随机梯度下降算法对网络的参数进行优化,使用每个像素的交叉熵损失的和作为整个网络的损失函数,在训练数据集上进行训练直至网络收敛。
所述训练标签就是人工标注得到的一张与dt同尺寸的二值图像,像素值1表示该像素运动,0表示静止,作用是训练时用于计算损失函数;
训练样本图像就是将数据集中的图像根据步骤M1中对应的方式处理成适用本算法的深度图像。
优化步骤是对初始运动物体分割结果进行优化,用平均场近似条件随机场时,一次迭代可以通过一系列CNN层实现,因此多次迭代可通过循环神经网络(RNN)实现。
根据本发明提供的一种基于深度图像的运动物体分割系统,包括:
模块M1:接收传感器数据获得初始深度图,对初始深度图进行预处理获得深度图像;
模块M2:接收连续两帧深度图像并分别利用卷积神经网络进行特征提取,得到连续两帧深度图各自的空间特征;
模块M3:接收连续两帧的空间特征,并利用循环神经网络进行特征提取,得到时序空间特征;
模块M4:接收时序空间特征,通过上采样分割出当前时刻深度图像里的运动物体,得到初始分割结果;
模块M5:接收初始分割结果,采用条件随机场算法优化初始分割结果。
具体地,所述模块M1包括:
模块M1.1:通过包括双目相机、PGBD相机和/或激光雷达数据的处理获得初始深度图;
模块M1.2:计算初始深度图的积分图,并保存积分图中每个值所累加的像素点个数;(深度图中无意义的像素点,即值为0处,不计入积分图中);
积分图可用于进行快速的均值滤波,只需遍历一次即可得到均值滤波结果。积分图任意一个像素的值等于原图中该像素左上角所有值的和。
模块M1.3:利用积分图对初始深度图进行多层的均值滤波,首先用较大的初始窗口进行均值滤波,给大的无值空洞区域赋值,之后每次滤波时窗口大小减小为原来的一半,直到窗口大小变为3*3,停止滤波;获得平滑后的深度图像;
所述通过双目相机获得初始深度图包括:利用双目立体视觉从双目相机图像中计算出深度图像;具体计算过程包括:摄像机标定、双目图像校正、图像匹配获取视差图和计算深度图;
所述通过RGBD相机获得初始深度图包括:从RGBD相机直接获取初始深度图像;
所述通过激光雷达数据的处理获得初始深度图包括:将激光雷达获取的三维点云投影到二维平面获取深度图像。
具体地,所述模块M2包括:
模块M2.1:接收连续两帧深度图像dt,dt-1,通过一个卷积层和一个激活函数层实现从1通道深度图dt,dt-1到3通道深度图d′t,d′t-1的非线性映射,为后续的空间特征提取做准备;
模块M2.2:将深度图d′t,d′t-1分别通过5个卷积块,每个卷积块由2或3层卷积层及相应的最大池化层和激活函数层堆叠而成,并将第3、4、5个卷积层的输出作为所提取的多尺度的空间特征。
具体地,所述模块M3包括:将第3个卷积块的输出xt,xt-1,第4个卷积块的输出x′t,x′t-1,第5个卷积块的输出x″t,x″-1,分别作为不同尺度下两个级联的卷积门控循环单元的输入,进行多尺度的时序空间特征的提取,卷积门控循环单元的计算公式如下:
zt=σ(Whz*ht-1+bhz+Wxz*xt+bxz)
rt=σ(Whr*ht-1+bhr+Wxr*xt+bxr)
Figure BDA0002452592690000111
Figure BDA0002452592690000112
其中,下标t表示时刻t,下标hz表示先前时刻状态的记忆系数,下标t-1表示时刻t-1,下标xz表示输入信息的记忆系数,下标hr表示先前时刻状态的遗忘系数,下标xr表示输入信息的遗忘系数,下标h表示先前时刻状态的更新系数,下标x表示输入信息的更新系数,*代表卷积操作,⊙代表哈达玛积,σ代表sigmoid函数,tanh代表双曲正切函数,zt代表更新门矩阵,rt代表重置门矩阵,ht代表输出,xt代表输入,W代表参数矩阵,b代表偏置向量;对于不存在前一帧的深度图dt-1而言,用零矩阵代表初始状态;
所述模块M4包括:
模块M4.1:对于不同尺度的的时序空间特征ht,h′t,h″t,利用上采样,从低尺度到高尺度进行相邻尺度时序空间特征间两两融合,最终得到融合了不同尺度信息的时序空间特征S′t
此处是一级一级进行的,比如:假设有从低到高(1~4)4个尺度,则先将1上采样得到与2同样尺寸的1’,再与2相加。得到的结果再上采样得到与3同样尺寸的2’,再与3相加,依此类推,最终与最高尺度4进行融合,即相加。
模块M4.2:对时序空间特征S′t进行上采样得到与深度图像尺寸一致的概率矩阵St,表征了每个像素位置的运动概率和静止概率St;St是一个2xWxH的矩阵,其中W、H表示深度图像的长、宽;
模块M4.3:比较St中静止概率和运动概率大小,当一个像素位置处的运动概率值大于静止概率值,则该像素判定为运动,得到最终的运动物体分割结果
Figure BDA0002452592690000113
具体地,所述模块M5包括:
模块M5.1:以深度图像dt的每个像素作节点,像素间的关系作边,构建一个条件随机场,通过最终的运动物体分割结果
Figure BDA0002452592690000114
来推测像素的对应标签yt
yt指运动物体分割的真值(GroundTruth);
模块M5.2:根据条件随机场符合吉布斯分布的原理,构建能量函数,采用平均场近似条件随机场;
能量函数指当前预测结果
Figure BDA0002452592690000121
对应的代价函数,是条件随机场下算法下的理论建模,在用平均场近似条件随机场时可提供相关的计算依据。
模块M5.3:采用循环神经网络实现平均场近似条件随机场进行分割结果的迭代优化。
对非线性映射、空间特征提取网络、时序特征提取网络以及上采样网络进行训练包括:
利用公开数据集KITTI作为训练数据集,使用人工标注的运动掩膜作为训练标签,对训练数据集中的训练样本图像进行随机水平翻转和旋转来进行数据增强,使用随机梯度下降算法对网络的参数进行优化,使用每个像素的交叉熵损失的和作为整个网络的损失函数,在训练数据集上进行训练直至网络收敛。
所述训练标签就是人工标注得到的一张与与dt同尺寸的二值图像,像素值1表示该像素运动,0表示静止,作用是训练时用于计算损失函数;
训练样本图像就是将数据集中的图像根据步骤M1中对应的方式处理成适用本算法的深度图像。
优化步骤是对初始运动物体分割结果进行优化,用平均场近似条件随机场时,一次迭代可以通过一系列CNN层实现,因此多次迭代可通过循环神经网络(RNN)实现。
以下优选例对本发明做更为详细的说明:
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明公开了一种基于深度图像的运动物体分割算法,包括如下步骤:
预处理步骤,记为步骤S1,具体地:接收传感器数据并处理为深度图像,包括对双目相机,RGBD相机和激光雷达数据的处理;
空间特征提取步骤,记为步骤S2,具体地:接收连续两帧深度图像并分别利用卷积神经网络进行特征提取,得到连续两帧深度图各自的空间特征;
时序特征提取步骤,记为步骤S3,具体地:接受连续两帧的空间特征,并利用循环神经网络进行特征提取,得到时序空间特征;
分割步骤,记为步骤S4,具体地:接收连续两帧地时序空间特征,通过上采样分割出当前时刻深度图像里的运动物体。
优化步骤,记为步骤S5,接收初始分割结果,采用条件随机场算法优化初始分割结果。
进一步地,所述步骤S1包括如下步骤:
步骤S1.1、从多种传感器数据中获取初始深度图,具体地:
步骤S1.1.1、利用双目立体视觉从双目相机图像中计算出深度图像,包括:摄像机标定,双目图像校正,图像匹配获取视差图,计算深度图;
步骤S1.1.2、从RGBD相机直接获取初始深度图像;
步骤S1.1.3、将激光雷达获取的三维点云投影到二维平面获取深度图像;
步骤S1.2、初始深度图的填充,包括步骤:
步骤S1.2.1、计算初始深度图像的积分图,并保存积分图中每个值所累加的像素点个数(深度图中无意义的像素点,即值为0处,不计入积分图中);
步骤S1.2.2、进行多层均值滤波,首先用较大的初始窗口进行均值滤波,给大的无值空洞区域赋值,之后每次滤波时窗口大小减小为原来的一半,直到窗口大小变为3×3,停止滤波;
所述步骤S2包括如下步骤:
步骤S2.1、对于步骤S1得到的相邻两帧深度图像dt,dt-1,通过一个卷积层和一个激活函数层实现从1通道深度图dt,dt-1到3通道深度图d′t,d′t-1的非线性映射,为后续的空间特征提取做准备;
步骤S2.2、对于步骤S2.1得到的d′t,d′t-1,分别将其通过5个卷积块,每个卷积块由2或3层卷积层及相应的最大池化层和激活函数层堆叠而成,并将第3、4、5个卷积块的输出作为所提取的多尺度的空间特征。
所述步骤S3将步骤S2.2中得到的第3个卷积块的输出xt,xt-1,第4个卷积块的输出x′t,x′t-1,第5个卷积块的输出x″t,x″t-1,分别作为不同尺度下两个级联的卷积门控循环单元的输入,进行多尺度的时序空间特征的提取,卷积门控循环单元的计算公式如下式所示:
zt=σ(Whz*ht-1+bhz+Wxz*xt+bxz)
rt=σ(Whr*ht-1+bhr+Wxr*xt+bxr)
Figure BDA0002452592690000131
Figure BDA0002452592690000132
其中,*代表卷积操作,⊙代表哈达玛积,σ代表sigmoid函数,tanh代表双曲正切函数,zt代表更新门矩阵,rt代表重置门矩阵,ht代表输出,xt代表输入,W代表参数矩阵,b代表偏置向量。对于不存在前一帧的深度图dt-1而言,用零矩阵代表初始状态。
所述步骤S4包括如下步骤:
步骤S4.1、对于步骤S3得到的不同尺度的时空特征ht,h′t,h″t,将低尺度的特征进行上采样与高尺度的特征进行融合,得到融合了不同尺度信息的时空特征S′t
步骤S4.2、对S′t进行上采样得到与原始深度图尺寸一致的St
步骤S4.3、比较St静止和运动状态的概率大小,得到最终的运动物体分割结果
Figure BDA0002452592690000141
所述步骤S5包括如下步骤:
步骤S5.1、以深度图的每个像素作节点,像素间的关系作边,构建一个条件随机场,通过推测像素的初始预测值
Figure BDA0002452592690000142
来推测像素的对应标签yt
步骤S5.2、根据条件随机场复合吉布斯分布的原理,构建能量函数。
步骤S5.3、为了实现全连接条件随机场的快速推理,采用RNN实现平均场近似条件随机场进行分割结果的迭代优化。
在优选例中,所述步骤S1.1.1包括如下步骤:
利用张正友标定法和标定板得到摄像机的内参fx,fy,cx,cy以及畸变系数[k1,k2,p1,p2,k3]、摄像机外参R,T。利用畸变系数对图像进行畸变矫正,利用R,T对左右目图像进行立体对极线校正。再利用全局匹配算法SGBM计算视差图(这里,默认计算左视差图),根据如下视差于深度的转换公式,计算出初始深度图像。
d=(fx×baseline)/disp
其中,d表示深度,fx表示归一化的焦距,baseline表示两个相机光心之间的距离,称作基线距离,disp是视差值。
在优选例中,所述步骤S1.2.2中先使用较大窗口给所有无值空洞区域赋值,再逐渐变成小窗口覆盖初始值,既能使深度图稠密化,也避免了图像的过度平滑。
在优选例中,所述步骤S2,S3,S4因为采用的是全卷积的网络结构,因此,网络的输入可以是任意尺寸大小的连续帧深度图,依计算资源而定,在资源允许的情况下,推荐采用分辨率更高的深度图,所得到的运动物体分割结果会更好。网络中所有的激活函数层均采用ReLU激活函数。上采样步骤中,选择普通的上采样方式或反卷积的方式也依计算资源而定,在资源和时间允许的情况下,推荐采用反卷积的上采样方式,可得到效果更好的运动物体分割结果;在资源和时间紧张的情况下,也可采用双线性插值的上采样方式;
在优选例中,所述步骤S5定义的能量函数如下式:
Figure BDA0002452592690000151
其中i代表像素位置,xi代表初始分割结果,
Figure BDA0002452592690000152
代表初始分割结果的代价,即经过归一化的St中的运动概率。而第二项二元势函数描述的是像素点之间的关系,其定义如下式:
Figure BDA0002452592690000153
二元势函数用于促使相似像素预测出相同的标签而不同像素预测出不同标签。其中,fi,fj代表xi,xj对应的特征,由一个由RGB值,位置,时间组成的六维向量表示;u(xi,xj)代表兼容性系数;ω(m)代表权重;
Figure BDA0002452592690000154
代表如下所示高斯核:
Figure BDA0002452592690000155
在训练时,使用公开数据集KITTI作为训练数据集,使用人工标注的运动掩膜作为训练标签,在训练数据集中随机选取连续两帧深度图与相应的训练标签作为训练样本对,此外还对训练样本图像进行随机水平翻转和旋转来进行数据增强。其中,
Figure BDA0002452592690000156
是可通过学习得到的参数,用于控制高斯核函数的作用范围,下标m用于索引特征对fi,fj
训练时,使用随机梯度下降算法对网络的参数进行优化,采用的优化方法为Adam优化方法,其中参数设为β1=0.9,β2=0.999。学习率设为5×10-4。空间特征提取网络采用在ImageNet上预训练的VGG16权重作为初始权重,反卷积层采用双线性分布的方式初始化,其余层采用Xavier的方式初始化。网络使用每个像素的交叉熵损失的和作为损失函数,在训练数据集上进行多轮学习直至模型收敛。
本发明上述实施例提供的基于深度图像的运动物体分割方法利用大量数据进行训练得到最优模型参数,在实际应用中可自动进行运动物体检测;实验结果表明该算法能够较为高效地得出高准确率的检测结果。本发明上述实施例中的具体参数仅为说明本发明技术方案的实施而举例,本发明在另外的实施例中也可以采用其他的具体参数,这对于本发明实现没有本质性的影响。要说明的是,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不再赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于深度图像的运动物体分割方法,其特征在于,包括:
步骤M1:接收传感器数据获得初始深度图,对初始深度图进行预处理获得深度图像;
步骤M2:接收连续两帧深度图像并分别利用卷积神经网络进行特征提取,得到连续两帧深度图各自的空间特征;
步骤M3:接收连续两帧的空间特征,并利用循环神经网络进行特征提取,得到时序空间特征;
步骤M4:接收时序空间特征,通过上采样分割出当前时刻深度图像里的运动物体,得到初始分割结果;
步骤M5:接收初始分割结果,采用条件随机场算法优化初始分割结果。
2.根据权利要求1所述的基于深度图像的运动物体分割方法,其特征在于,所述步骤M1包括:
步骤M1.1:通过包括双目相机、PGBD相机和/或激光雷达数据的处理获得初始深度图;
步骤M1.2:计算初始深度图的积分图,并保存积分图中每个值所累加的像素点个数;
步骤M1.3:利用积分图对初始深度图进行多层均值滤波,首先用预设的初始窗口进行均值滤波,给大的无值空洞区域赋值,之后每次滤波时,窗口大小减小预设倍数,直至窗口大小变为预设值,停止滤波,获得平滑后的深度图像;
所述通过双目相机获得初始深度图包括:利用双目立体视觉从双目相机图像中计算出深度图像;
所述通过RGBD相机获得初始深度图包括:从RGBD相机直接获取初始深度图像;
所述通过激光雷达数据的处理获得初始深度图包括:将激光雷达获取的三维点云投影到二维平面获取深度图像。
3.根据权利要求1所述的基于深度图像的运动物体分割方法,其特征在于,所述步骤M2包括:
步骤M2.1:接收连续两帧深度图像dt,dt-1,通过卷积层和激活函数层实现深度图dt,dt-1到d′t,d′t-1的非线性映射;
步骤M2.2:将深度图d′t,d′t-1分别通过预设个卷积块,每个卷积块由预设层卷积层及相应的最大池化层和激活函数层堆叠而成,并将指定的卷积层的输出作为所提取的多尺度的空间特征。
4.根据权利要求1所述的基于深度图像的运动物体分割方法,其特征在于,所述步骤M3包括:将指定的卷积层的输出分别作为不同尺度下两个级联的卷积门控循环单元的输入,进行多尺度的时序空间特征的提取,卷积门控循环单元的计算公式如下:
zt=σ(Whz*ht-1+bhz+Wxz*xt+bxz)
rt=σ(Whr*ht-1+bhr+Wxr*xt+bxr)
Figure FDA0002452592680000021
Figure FDA0002452592680000022
其中,下标t表示时刻t,下标hz表示先前时刻状态的记忆系数,下标t-1表示时刻t-1,下标xz表示输入信息的记忆系数,下标hr表示先前时刻状态的遗忘系数,下标xr表示输入信息的遗忘系数,下标h表示先前时刻状态的更新系数,下标x表示输入信息的更新系数,*代表卷积操作,⊙代表哈达玛积,σ代表sigmoid函数,tanh代表双曲正切函数,zt代表更新门矩阵,rt代表重置门矩阵,ht代表输出,xt代表输入,W代表参数矩阵,b代表偏置向量;对于不存在前一帧的深度图dt-1而言,用零矩阵代表初始状态;
所述步骤M4包括:
步骤M4.1:对于不同尺度的的时序空间特征,利用上采样,从低尺度到高尺度进行相邻尺度时序空间特征间两两融合,最终得到融合了不同尺度信息的时序空间特征S′t
步骤M4.2:对时序空间特征S′t进行上采样得到与深度图像尺寸一致的概率矩阵St,表征了每个像素位置的运动概率和静止概率;
步骤M4.3:比较St中静止概率和运动概率大小,当一个像素位置处的运动概率大于静止概率时,判定当前像素为运动,得到最终的运动物体分割结果
Figure FDA0002452592680000023
5.根据权利要求1所述的基于深度图像的运动物体分割方法,其特征在于,所述步骤M5包括:
步骤M5.1:以深度图像dt的每个像素作节点,像素间的关系作边,构建一个条件随机场,通过最终的运动物体分割结果
Figure FDA0002452592680000024
来推测像素的对应标签yt
步骤M5.2:根据条件随机场符合吉布斯分布的原理,构建能量函数,采用平均场近似条件随机场;
步骤M5.3:采用循环神经网络实现平均场近似条件随机场进行分割结果的迭代优化。
6.一种基于深度图像的运动物体分割系统,其特征在于,包括:
模块M1:接收传感器数据获得初始深度图,对初始深度图进行预处理获得深度图像;
模块M2:接收连续两帧深度图像并分别利用卷积神经网络进行特征提取,得到连续两帧深度图各自的空间特征;
模块M3:接收连续两帧的空间特征,并利用循环神经网络进行特征提取,得到时序空间特征;
模块M4:接收时序空间特征,通过上采样分割出当前时刻深度图像里的运动物体,得到初始分割结果;
模块M5:接收初始分割结果,采用条件随机场算法优化初始分割结果。
7.根据权利要求6所述的基于深度图像的运动物体分割系统,其特征在于,所述模块M1包括:
模块M1.1:通过包括双目相机、PGBD相机和/或激光雷达数据的处理获得初始深度图;
模块M1.2:计算初始深度图的积分图,并保存积分图中每个值所累加的像素点个数;
模块M1.3:利用积分图对初始深度图进行多层均值滤波,首先用预设的初始窗口进行均值滤波,给大的无值空洞区域赋值,之后每次滤波时,窗口大小减小预设倍数,直至窗口大小变为预设值,停止滤波,获得平滑后的深度图像;
所述通过双目相机获得初始深度图包括:利用双目立体视觉从双目相机图像中计算出深度图像;
所述通过RGBD相机获得初始深度图包括:从RGBD相机直接获取初始深度图像;
所述通过激光雷达数据的处理获得初始深度图包括:将激光雷达获取的三维点云投影到二维平面获取深度图像。
8.根据权利要求6所述的基于深度图像的运动物体分割系统,其特征在于,所述模块M2包括:
模块M2.1:接收连续两帧深度图像dt,dt-1,通过卷积层和激活函数层实现深度图dt,dt-1到深度图d′t,d′t-1的非线性映射;
模块M2.2:将深度图d′t,d′t-1分别通过预设个卷积块,每个卷积块由预设层卷积层及相应的最大池化层和激活函数层堆叠而成,并将指定的卷积层的输出作为所提取的多尺度的空间特征。
9.根据权利要求6所述的基于深度图像的运动物体分割系统,其特征在于,所述模块M3包括:将指定的卷积层的输出分别作为不同尺度下两个级联的卷积门控循环单元的输入,进行多尺度的时序空间特征的提取,卷积门控循环单元的计算公式如下:
zt=σ(Whz*ht-1+bhz+Wxz*xt+bxz)
rt=σ(Whr*ht-1+bhr+Wxr*xt+bxr)
Figure FDA0002452592680000041
Figure FDA0002452592680000042
其中,下标t表示时刻t,下标hz表示先前时刻状态的记忆系数,下标t-1表示时刻t-1,下标xz表示输入信息的记忆系数,下标hr表示先前时刻状态的遗忘系数,下标xr表示输入信息的遗忘系数,下标h表示先前时刻状态的更新系数,下标x表示输入信息的更新系数,*代表卷积操作,⊙代表哈达玛积,σ代表sigmoid函数,tanh代表双曲正切函数,zt代表更新门矩阵,rt代表重置门矩阵,ht代表输出,xt代表输入,W代表参数矩阵,b代表偏置向量;对于不存在前一帧的深度图dt-1而言,用零矩阵代表初始状态;
所述模块M4包括:
模块M4.1:对于不同尺度的的时序空间特征,利用上采样,从低尺度到高尺度进行相邻尺度时序空间特征间两两融合,最终得到融合了不同尺度信息的时序空间特征S′t
模块M4.2:对时序空间特征S′t进行上采样得到与深度图像尺寸一致的概率矩阵St,表征了每个像素位置的运动概率和静止概率;
模块M4.3:比较St中静止概率和运动概率大小,当一个像素位置处的运动概率大于静止概率时,判定当前像素为运动,得到最终的运动物体分割结果
Figure FDA0002452592680000044
10.根据权利要求6所述的基于深度图像的运动物体分割系统,其特征在于,所述模块M5包括:
模块M5.1:以深度图像dt的每个像素作节点,像素间的关系作边,构建一个条件随机场,通过最终的运动物体分割结果
Figure FDA0002452592680000043
来推测像素的对应标签yt
模块M5.2:根据条件随机场符合吉布斯分布的原理,构建能量函数,采用平均场近似条件随机场;
模块M5.3:采用循环神经网络实现平均场近似条件随机场进行分割结果的迭代优化。
CN202010297075.6A 2020-04-15 2020-04-15 基于深度图像的运动物体分割方法及系统 Active CN111539983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010297075.6A CN111539983B (zh) 2020-04-15 2020-04-15 基于深度图像的运动物体分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010297075.6A CN111539983B (zh) 2020-04-15 2020-04-15 基于深度图像的运动物体分割方法及系统

Publications (2)

Publication Number Publication Date
CN111539983A true CN111539983A (zh) 2020-08-14
CN111539983B CN111539983B (zh) 2023-10-20

Family

ID=71976883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010297075.6A Active CN111539983B (zh) 2020-04-15 2020-04-15 基于深度图像的运动物体分割方法及系统

Country Status (1)

Country Link
CN (1) CN111539983B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967332A (zh) * 2021-03-16 2021-06-15 清华大学 基于门控成像的双目深度估计方法、装置及计算机设备
WO2022178781A1 (en) * 2021-02-25 2022-09-01 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Electric device, method of controlling electric device, and computer readable storage medium
TWI797923B (zh) * 2021-12-28 2023-04-01 國家中山科學研究院 遮罩係數空間之線上多物件分割與追蹤系統
CN117455935A (zh) * 2023-12-22 2024-01-26 中国人民解放军总医院第一医学中心 基于腹部ct医学图像融合及器官分割方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
US20180231871A1 (en) * 2016-06-27 2018-08-16 Zhejiang Gongshang University Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN108876796A (zh) * 2018-06-08 2018-11-23 长安大学 一种基于全卷积神经网络和条件随机场的道路分割系统及方法
CN109636905A (zh) * 2018-12-07 2019-04-16 东北大学 基于深度卷积神经网络的环境语义建图方法
CN109685762A (zh) * 2018-11-09 2019-04-26 五邑大学 一种基于多尺度深度语义分割网络的天线下倾角测量方法
CN109872374A (zh) * 2019-02-19 2019-06-11 江苏通佑视觉科技有限公司 一种图像语义分割的优化方法、装置、存储介质及终端
US20190332942A1 (en) * 2016-12-29 2019-10-31 Zhejiang Gongshang University Method for generating spatial-temporally consistent depth map sequences based on convolution neural networks
CN110909594A (zh) * 2019-10-12 2020-03-24 杭州电子科技大学 一种基于深度融合的视频显著性检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180231871A1 (en) * 2016-06-27 2018-08-16 Zhejiang Gongshang University Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
US20190332942A1 (en) * 2016-12-29 2019-10-31 Zhejiang Gongshang University Method for generating spatial-temporally consistent depth map sequences based on convolution neural networks
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN108876796A (zh) * 2018-06-08 2018-11-23 长安大学 一种基于全卷积神经网络和条件随机场的道路分割系统及方法
CN109685762A (zh) * 2018-11-09 2019-04-26 五邑大学 一种基于多尺度深度语义分割网络的天线下倾角测量方法
CN109636905A (zh) * 2018-12-07 2019-04-16 东北大学 基于深度卷积神经网络的环境语义建图方法
CN109872374A (zh) * 2019-02-19 2019-06-11 江苏通佑视觉科技有限公司 一种图像语义分割的优化方法、装置、存储介质及终端
CN110909594A (zh) * 2019-10-12 2020-03-24 杭州电子科技大学 一种基于深度融合的视频显著性检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YILING LIU等: "MotionRFCN: Motion SegmentationUsing Consecutive Dense Depth Maps" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022178781A1 (en) * 2021-02-25 2022-09-01 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Electric device, method of controlling electric device, and computer readable storage medium
CN112967332A (zh) * 2021-03-16 2021-06-15 清华大学 基于门控成像的双目深度估计方法、装置及计算机设备
TWI797923B (zh) * 2021-12-28 2023-04-01 國家中山科學研究院 遮罩係數空間之線上多物件分割與追蹤系統
CN117455935A (zh) * 2023-12-22 2024-01-26 中国人民解放军总医院第一医学中心 基于腹部ct医学图像融合及器官分割方法及系统
CN117455935B (zh) * 2023-12-22 2024-03-19 中国人民解放军总医院第一医学中心 基于腹部ct医学图像融合及器官分割方法及系统

Also Published As

Publication number Publication date
CN111539983B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Casser et al. Depth prediction without the sensors: Leveraging structure for unsupervised learning from monocular videos
Behl et al. Pointflownet: Learning representations for rigid motion estimation from point clouds
CN111539983B (zh) 基于深度图像的运动物体分割方法及系统
EP3510561B1 (en) Predicting depth from image data using a statistical model
CN112991413A (zh) 自监督深度估测方法和系统
WO2020182117A1 (zh) 视差图获取方法、装置和设备及控制系统和存储介质
Dimitrievski et al. Learning morphological operators for depth completion
CN111797983A (zh) 一种神经网络构建方法以及装置
CN107545263B (zh) 一种物体检测方法及装置
CN108764244B (zh) 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN116229461A (zh) 一种基于多尺度细化的室内场景图像实时语义分割方法
Laskowski A novel hybrid-maximum neural network in stereo-matching process
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN113160278A (zh) 一种场景流估计、场景流估计模型的训练方法和装置
CN113553943B (zh) 目标实时检测方法以及装置、存储介质、电子装置
CN115115917A (zh) 基于注意力机制和图像特征融合的3d点云目标检测方法
CN113012191B (zh) 一种基于点云多视角投影图的激光里程计算法
CN112258565A (zh) 图像处理方法以及装置
CN114445479A (zh) 等矩形投影立体匹配的两阶段深度估计机器学习算法和球面扭曲层
Zhang et al. Video extrapolation in space and time
Richter et al. Semantic evidential grid mapping based on stereo vision
US11756219B2 (en) Multi-scale recurrent decoder for monocular depth estimation
Wirges et al. Self-supervised flow estimation using geometric regularization with applications to camera image and grid map sequences
CN115249269A (zh) 目标检测方法、计算机程序产品、存储介质及电子设备
JP4201958B2 (ja) 動画像のオブジェクト抽出装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant