CN112802053B

CN112802053B - 一种面向动态环境稠密建图的动态物体检测方法

Info

Publication number: CN112802053B
Application number: CN202110111511.0A
Authority: CN
Inventors: 何力; 何剑涛; 林旭滨; 陈创斌; 管贻生
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2023-04-11
Anticipated expiration: 2041-01-27
Also published as: CN112802053A

Abstract

本发明公开了一种面向动态环境稠密建图的动态物体检测方法，在面向动态环境的稠密建图系统中，根据通过xtion pro live相机输入的RGBD视频流获得的RGB图和深度图进行动态场景的前后景分割，然后根据后景像素初步计算出相机运动模型，最后根据得到的相机位姿来判断场景中的动态物体。本发明基于前后景分割结合相机运动模型来判断动态背景中的动态物体，区别于在现有的Dense Visual SLAM中利用深度学习模型判断动态物体的策略，克服了基于深度学习的策略的实时性差、精度低和普适性低的缺点。

Description

一种面向动态环境稠密建图的动态物体检测方法

技术领域

本发明涉及动态物体检测的技术领域，尤其涉及到一种面向动态环境稠密建图的动态物体检测方法。

背景技术

动态物体检测问题是计算机视觉领域里对视频处理的基本且重要的问题之一，是识别、跟踪、行为分析等高级处理的的前提和关键，因此对视频中运动中的物体进行检测具有很强的应用和研究价值。

目前，针对视频中的动态物体检测的方法几乎是基于相机是静止的条件下提出，而不适用于相机运动的情况。在相机静止条件下的动态物体检测的技术已发展的很成熟，常用的算法有背景减去法、帧间差分法、光流法以及基于以上方法改进的三帧差分法等。而在相机运动的条件下，由于相机会发生平移、旋转、缩放的运动，导致目标和背景都会发生运动，使得基于相机静止提出的动态物体检测方法不再适用。而在当今生活中，视频处理技术已被各个领域所应用，比如在自动驾驶、机器人导航和Visual SLAM领域，如何在一个自身运动情况下面对复杂的动态环境进行动态物体检测是一个值得研究的问题。

虽然已有基于深度学习训练的目标检测模型和语义分割模型来对图像进行语义分析，通过模型得出的标签如人、椅子等来判断场景中的动态物体的方法，但这类方法由于需要大量的计算资源而无法实时运行。

发明内容

本发明的目的在于克服现有技术的不足，提供一种实时性好、精度高和普适性高的面向动态环境稠密建图的动态物体检测方法。

为实现上述目的，本发明所提供的技术方案为：

一种面向动态环境稠密建图的动态物体检测方法，在面向动态环境的稠密建图系统中，根据通过xtion pro live相机输入的RGBD视频流获得的RGB图和深度图进行动态场景的前后景分割，然后根据后景像素初步计算出相机运动模型，最后根据得到的相机位姿来判断场景中的动态物体。

进一步地，包括以下步骤：

S1、构建固定大小的滑动窗口，对输入的RGBD视频流和对应的相机位姿存储在滑动窗口中，用于构建帧与帧之间的运动约束；

S2、根据相机恒速模型，利用上一帧得到的相机位姿对上一帧的深度图做仿射变换，得到估计的当前帧深度图的值；

S3、计算当前帧深度值的中位数，结合步骤S2中得到的估计的当前帧深度图的值，以深度中位数值作为分界线，对当前帧进行前后景分割；

S4、根据得到后景像素点计算出当前相机运动的位姿，作为相机位姿的粗估计；

S5、根据空间点的空间距离一致性，利用当前帧深度图的数值做Kmeans聚类，得到在空间中x，y，z距离相近的多个聚类像素块，把当前动态场景分成固定大小个空间聚类，并认为属于一个类别的空间点具有相同的运动状态；

S6、根据后景像素点求出的相机位姿，对上一帧深度图做图像仿射变换得到估计的当前帧深度图，与当前帧输入的深度图的数值相比较，当两者差值相差超过阈值τ，则认为对应像素点为动态像素点，从而得到当前帧所有动态像素点、静态像素点和无效像素点；

S7、利用步骤S5中得到的空间聚类结果，检测每一个空间聚类块中被判断为动态像素点的比例，若比例高于阈值λ则认为该空间聚类块为动态聚类块，从而实现对动态区域的正确区分。

进一步地，所述步骤S1中，获得动态场景的RGB图和深度图后，需要去除RGB图和深度图中的无效深度点。

进一步地，所述步骤S2中，采用的仿射变换公式如下：

W(x^p，ξ)＝π(T(ξ)π^-1(x^p，Z(x^p)))

上式中，x^p为点p的图像坐标，ξ为相机位姿，π为图像坐标转化成三维世界坐标的变换函数，T为变换矩阵函数，Z(x^p)为点p的深度值，W(x^p，ξ)为估计的点p坐标对应的深度值。

进一步地，所述步骤S3中，采用如下公式进行分割：

上式中，mid为当前帧像素值的中位数，f为分割前后景像素的策略，无效像素点为传感器无法确定其深度值的像素点。

进一步地，所述步骤S5中，Kmeans聚类的公式如下：

上式中，x₀、y₀、z₀为其中一个聚类点中心坐标，dist为Kmeans聚类算法的度量距离函数。

进一步地，所述步骤S7中，为了使动态区域之间具有连通性，还需以各个空间聚类块构建相应邻接矩阵G(i，j)，大小为m*m，m为聚类块的个数，如果某一聚类块属于动态区域，则根据邻接矩阵中与其相邻的聚类块也属于动态区域。

与现有技术相比，本方案原理及优点如下：

1)在面向动态环境的稠密建图系统中利用深度图数值的中位数进行前后景分割，对后景像素进行稠密光流的位姿估计，从而得到当前帧的相机运动模型。

2)利用当前帧计算出的相机位姿对上一帧的深度图进行图像的仿射变换，计算两帧间的深度值残差，结合空间点之间的空间一致性，完成对当前场景的动态物体检测。

本方案基于前后景分割结合相机运动模型来判断动态背景中的动态物体，区别于在现有的Dense Visual SLAM中利用深度学习模型判断动态物体的策略，克服了基于深度学习的策略的实时性差、精度低和普适性低的缺点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为实施方式中一种面向动态环境稠密建图的动态物体检测方法的原理流程图；

图2为具体实施方式中提及到的RGB图；

图3为具体实施方式中提及到的深度图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

本发明实施例所述的一种面向动态环境稠密建图的动态物体检测方法，在面向动态环境的稠密建图系统中，根据通过xtion pro live相机输入的RGBD视频流获得的如图2所示的RGB图和图3所示的深度图进行动态场景的前后景分割，然后根据后景像素初步计算出相机运动模型，最后根据得到的相机位姿来判断场景中的动态物体。

如图1所示，具体步骤如下：

S1、构建固定大小的滑动窗口，对输入的RGBD视频流和对应的相机位姿存储在滑动窗口中，用于构建帧与帧之间的运动约束；本步骤中，获得动态场景的RGB图和深度图后，需要去除RGB图和深度图中的无效深度点。

采用的仿射变换公式如下：

W(x^p，ξ)＝π(T(ξ)π^-1(x^p，Z(x^p)))

S3、计算当前帧深度值的中位数，结合步骤S2中得到的估计的当前帧深度图的值，以深度中位数值作为分界线，对当前帧采用如下公式进行前后景分割：

Kmeans聚类的公式如下：

S6、根据后景像素点求出的相机位姿，对上一帧深度图做图像仿射变换得到估计的当前帧深度图，与当前帧输入的深度图的数值相比较，当两者差值相差超过阈值τ，则认为对应像素点为动态像素点，从而得到当前帧所有动态像素点、静态像素点和无效像素点，具体如下式所示：

S7、由于动态区域的大小不一，因此只是像素级别的动静态判别无法把动态区域完整判断出来。最后利用步骤S5中得到的空间聚类结果，检测每一个空间聚类块中被判断为动态像素点的比例，若比例高于阈值λ则认为该空间聚类块为动态聚类块，从而实现对动态区域的正确区分。

为了使动态区域之间具有连通性，还需以各个空间聚类块构建相应邻接矩阵G(i,j),大小为m*m，m为聚类块的个数，如果某一聚类块属于动态区域，则根据邻接矩阵中与其相邻的聚类块也属于动态区域。

以此解决在动态背景情况下动态物体的检测，摒弃现有的基于深度学习检测动态区域的方法，同时具备精确性和算法运行的实时性，在机器人稠密建图和导航的应用中具有很大的实用意义。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种面向动态环境稠密建图的动态物体检测方法，其特征在于，在面向动态环境的稠密建图系统中，根据通过xtion pro live相机输入的RGBD视频流获得的RGB图和深度图进行动态场景的前后景分割，然后根据后景像素初步计算出相机运动模型，最后根据得到的相机位姿来判断场景中的动态物体；

包括以下步骤：

S1、构建固定大小的滑动窗口，将输入的RGBD视频流和对应的相机位姿存储在滑动窗口中，用于构建帧与帧之间的运动约束；

S4、根据得到的后景像素点计算出当前相机运动的位姿，作为相机位姿的粗估计；

S5、根据空间点的空间距离一致性，利用当前帧深度图的数值做Kmeans聚类，得到在空间中x,y,z距离相近的多个聚类像素块，把当前动态场景分成固定大小个空间聚类，并认为属于一个类别的空间点具有相同的运动状态；

S6、根据后景像素点求出的相机位姿，对上一帧深度图做图像仿射变换得到估计的当前帧深度图，与当前帧输入的深度图的数值相比较，当两者的差值超过阈值τ，则认为对应像素点为动态像素点，从而得到当前帧所有动态像素点、静态像素点和无效像素点；

2.根据权利要求1所述的一种面向动态环境稠密建图的动态物体检测方法，其特征在于，所述步骤S1中，获得动态场景的RGB图和深度图后，需要去除RGB图和深度图中的无效深度点。

3.根据权利要求1所述的一种面向动态环境稠密建图的动态物体检测方法，其特征在于，所述步骤S2中，采用的仿射变换公式如下：

W(x^p,ξ)＝π(T(ξ)π^-1(x^p,Z(x^p)))

上式中，x^p为点p的图像坐标，ξ为相机位姿，π为图像坐标转化成三维世界坐标的变换函数，T为变换矩阵函数，Z(x^p)为点p的深度值，W(x^p,ξ)为估计的点p坐标对应的深度值。

4.根据权利要求3所述的一种面向动态环境稠密建图的动态物体检测方法，其特征在于，所述步骤S3中，采用如下公式进行分割：

5.根据权利要求4所述的一种面向动态环境稠密建图的动态物体检测方法，其特征在于，所述步骤S5中，Kmeans聚类的公式如下：

6.根据权利要求1所述的一种面向动态环境稠密建图的动态物体检测方法，其特征在于，所述步骤S7中，为了使动态区域之间具有连通性，还需以各个空间聚类块构建相应邻接矩阵G(i,j),大小为m*m，m为聚类块的个数，如果某一聚类块属于动态区域，则根据邻接矩阵中与其相邻的聚类块也属于动态区域。