CN112802053B - 一种面向动态环境稠密建图的动态物体检测方法 - Google Patents

一种面向动态环境稠密建图的动态物体检测方法 Download PDF

Info

Publication number
CN112802053B
CN112802053B CN202110111511.0A CN202110111511A CN112802053B CN 112802053 B CN112802053 B CN 112802053B CN 202110111511 A CN202110111511 A CN 202110111511A CN 112802053 B CN112802053 B CN 112802053B
Authority
CN
China
Prior art keywords
dynamic
current frame
depth map
camera
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110111511.0A
Other languages
English (en)
Other versions
CN112802053A (zh
Inventor
何力
何剑涛
林旭滨
陈创斌
管贻生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110111511.0A priority Critical patent/CN112802053B/zh
Publication of CN112802053A publication Critical patent/CN112802053A/zh
Application granted granted Critical
Publication of CN112802053B publication Critical patent/CN112802053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向动态环境稠密建图的动态物体检测方法,在面向动态环境的稠密建图系统中,根据通过xtion pro live相机输入的RGBD视频流获得的RGB图和深度图进行动态场景的前后景分割,然后根据后景像素初步计算出相机运动模型,最后根据得到的相机位姿来判断场景中的动态物体。本发明基于前后景分割结合相机运动模型来判断动态背景中的动态物体,区别于在现有的Dense Visual SLAM中利用深度学习模型判断动态物体的策略,克服了基于深度学习的策略的实时性差、精度低和普适性低的缺点。

Description

一种面向动态环境稠密建图的动态物体检测方法
技术领域
本发明涉及动态物体检测的技术领域,尤其涉及到一种面向动态环境稠密建图的动态物体检测方法。
背景技术
动态物体检测问题是计算机视觉领域里对视频处理的基本且重要的问题之一,是识别、跟踪、行为分析等高级处理的的前提和关键,因此对视频中运动中的物体进行检测具有很强的应用和研究价值。
目前,针对视频中的动态物体检测的方法几乎是基于相机是静止的条件下提出,而不适用于相机运动的情况。在相机静止条件下的动态物体检测的技术已发展的很成熟,常用的算法有背景减去法、帧间差分法、光流法以及基于以上方法改进的三帧差分法等。而在相机运动的条件下,由于相机会发生平移、旋转、缩放的运动,导致目标和背景都会发生运动,使得基于相机静止提出的动态物体检测方法不再适用。而在当今生活中,视频处理技术已被各个领域所应用,比如在自动驾驶、机器人导航和Visual SLAM领域,如何在一个自身运动情况下面对复杂的动态环境进行动态物体检测是一个值得研究的问题。
虽然已有基于深度学习训练的目标检测模型和语义分割模型来对图像进行语义分析,通过模型得出的标签如人、椅子等来判断场景中的动态物体的方法,但这类方法由于需要大量的计算资源而无法实时运行。
发明内容
本发明的目的在于克服现有技术的不足,提供一种实时性好、精度高和普适性高的面向动态环境稠密建图的动态物体检测方法。
为实现上述目的,本发明所提供的技术方案为:
一种面向动态环境稠密建图的动态物体检测方法,在面向动态环境的稠密建图系统中,根据通过xtion pro live相机输入的RGBD视频流获得的RGB图和深度图进行动态场景的前后景分割,然后根据后景像素初步计算出相机运动模型,最后根据得到的相机位姿来判断场景中的动态物体。
进一步地,包括以下步骤:
S1、构建固定大小的滑动窗口,对输入的RGBD视频流和对应的相机位姿存储在滑动窗口中,用于构建帧与帧之间的运动约束;
S2、根据相机恒速模型,利用上一帧得到的相机位姿对上一帧的深度图做仿射变换,得到估计的当前帧深度图的值;
S3、计算当前帧深度值的中位数,结合步骤S2中得到的估计的当前帧深度图的值,以深度中位数值作为分界线,对当前帧进行前后景分割;
S4、根据得到后景像素点计算出当前相机运动的位姿,作为相机位姿的粗估计;
S5、根据空间点的空间距离一致性,利用当前帧深度图的数值做Kmeans聚类,得到在空间中x,y,z距离相近的多个聚类像素块,把当前动态场景分成固定大小个空间聚类,并认为属于一个类别的空间点具有相同的运动状态;
S6、根据后景像素点求出的相机位姿,对上一帧深度图做图像仿射变换得到估计的当前帧深度图,与当前帧输入的深度图的数值相比较,当两者差值相差超过阈值τ,则认为对应像素点为动态像素点,从而得到当前帧所有动态像素点、静态像素点和无效像素点;
S7、利用步骤S5中得到的空间聚类结果,检测每一个空间聚类块中被判断为动态像素点的比例,若比例高于阈值λ则认为该空间聚类块为动态聚类块,从而实现对动态区域的正确区分。
进一步地,所述步骤S1中,获得动态场景的RGB图和深度图后,需要去除RGB图和深度图中的无效深度点。
进一步地,所述步骤S2中,采用的仿射变换公式如下:
W(xp,ξ)=π(T(ξ)π-1(xp,Z(xp)))
上式中,xp为点p的图像坐标,ξ为相机位姿,π为图像坐标转化成三维世界坐标的变换函数,T为变换矩阵函数,Z(xp)为点p的深度值,W(xp,ξ)为估计的点p坐标对应的深度值。
进一步地,所述步骤S3中,采用如下公式进行分割:
Figure BDA0002919332940000031
上式中,mid为当前帧像素值的中位数,f为分割前后景像素的策略,无效像素点为传感器无法确定其深度值的像素点。
进一步地,所述步骤S5中,Kmeans聚类的公式如下:
Figure BDA0002919332940000032
上式中,x0、y0、z0为其中一个聚类点中心坐标,dist为Kmeans聚类算法的度量距离函数。
进一步地,所述步骤S7中,为了使动态区域之间具有连通性,还需以各个空间聚类块构建相应邻接矩阵G(i,j),大小为m*m,m为聚类块的个数,如果某一聚类块属于动态区域,则根据邻接矩阵中与其相邻的聚类块也属于动态区域。
与现有技术相比,本方案原理及优点如下:
1)在面向动态环境的稠密建图系统中利用深度图数值的中位数进行前后景分割,对后景像素进行稠密光流的位姿估计,从而得到当前帧的相机运动模型。
2)利用当前帧计算出的相机位姿对上一帧的深度图进行图像的仿射变换,计算两帧间的深度值残差,结合空间点之间的空间一致性,完成对当前场景的动态物体检测。
本方案基于前后景分割结合相机运动模型来判断动态背景中的动态物体,区别于在现有的Dense Visual SLAM中利用深度学习模型判断动态物体的策略,克服了基于深度学习的策略的实时性差、精度低和普适性低的缺点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施方式中一种面向动态环境稠密建图的动态物体检测方法的原理流程图;
图2为具体实施方式中提及到的RGB图;
图3为具体实施方式中提及到的深度图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
本发明实施例所述的一种面向动态环境稠密建图的动态物体检测方法,在面向动态环境的稠密建图系统中,根据通过xtion pro live相机输入的RGBD视频流获得的如图2所示的RGB图和图3所示的深度图进行动态场景的前后景分割,然后根据后景像素初步计算出相机运动模型,最后根据得到的相机位姿来判断场景中的动态物体。
如图1所示,具体步骤如下:
S1、构建固定大小的滑动窗口,对输入的RGBD视频流和对应的相机位姿存储在滑动窗口中,用于构建帧与帧之间的运动约束;本步骤中,获得动态场景的RGB图和深度图后,需要去除RGB图和深度图中的无效深度点。
S2、根据相机恒速模型,利用上一帧得到的相机位姿对上一帧的深度图做仿射变换,得到估计的当前帧深度图的值;
采用的仿射变换公式如下:
W(xp,ξ)=π(T(ξ)π-1(xp,Z(xp)))
上式中,xp为点p的图像坐标,ξ为相机位姿,π为图像坐标转化成三维世界坐标的变换函数,T为变换矩阵函数,Z(xp)为点p的深度值,W(xp,ξ)为估计的点p坐标对应的深度值。
S3、计算当前帧深度值的中位数,结合步骤S2中得到的估计的当前帧深度图的值,以深度中位数值作为分界线,对当前帧采用如下公式进行前后景分割:
Figure BDA0002919332940000051
上式中,mid为当前帧像素值的中位数,f为分割前后景像素的策略,无效像素点为传感器无法确定其深度值的像素点。
S4、根据得到后景像素点计算出当前相机运动的位姿,作为相机位姿的粗估计;
S5、根据空间点的空间距离一致性,利用当前帧深度图的数值做Kmeans聚类,得到在空间中x,y,z距离相近的多个聚类像素块,把当前动态场景分成固定大小个空间聚类,并认为属于一个类别的空间点具有相同的运动状态;
Kmeans聚类的公式如下:
Figure BDA0002919332940000052
上式中,x0、y0、z0为其中一个聚类点中心坐标,dist为Kmeans聚类算法的度量距离函数。
S6、根据后景像素点求出的相机位姿,对上一帧深度图做图像仿射变换得到估计的当前帧深度图,与当前帧输入的深度图的数值相比较,当两者差值相差超过阈值τ,则认为对应像素点为动态像素点,从而得到当前帧所有动态像素点、静态像素点和无效像素点,具体如下式所示:
Figure BDA0002919332940000061
S7、由于动态区域的大小不一,因此只是像素级别的动静态判别无法把动态区域完整判断出来。最后利用步骤S5中得到的空间聚类结果,检测每一个空间聚类块中被判断为动态像素点的比例,若比例高于阈值λ则认为该空间聚类块为动态聚类块,从而实现对动态区域的正确区分。
为了使动态区域之间具有连通性,还需以各个空间聚类块构建相应邻接矩阵G(i,j),大小为m*m,m为聚类块的个数,如果某一聚类块属于动态区域,则根据邻接矩阵中与其相邻的聚类块也属于动态区域。
以此解决在动态背景情况下动态物体的检测,摒弃现有的基于深度学习检测动态区域的方法,同时具备精确性和算法运行的实时性,在机器人稠密建图和导航的应用中具有很大的实用意义。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (6)

1.一种面向动态环境稠密建图的动态物体检测方法,其特征在于,在面向动态环境的稠密建图系统中,根据通过xtion pro live相机输入的RGBD视频流获得的RGB图和深度图进行动态场景的前后景分割,然后根据后景像素初步计算出相机运动模型,最后根据得到的相机位姿来判断场景中的动态物体;
包括以下步骤:
S1、构建固定大小的滑动窗口,将输入的RGBD视频流和对应的相机位姿存储在滑动窗口中,用于构建帧与帧之间的运动约束;
S2、根据相机恒速模型,利用上一帧得到的相机位姿对上一帧的深度图做仿射变换,得到估计的当前帧深度图的值;
S3、计算当前帧深度值的中位数,结合步骤S2中得到的估计的当前帧深度图的值,以深度中位数值作为分界线,对当前帧进行前后景分割;
S4、根据得到的后景像素点计算出当前相机运动的位姿,作为相机位姿的粗估计;
S5、根据空间点的空间距离一致性,利用当前帧深度图的数值做Kmeans聚类,得到在空间中x,y,z距离相近的多个聚类像素块,把当前动态场景分成固定大小个空间聚类,并认为属于一个类别的空间点具有相同的运动状态;
S6、根据后景像素点求出的相机位姿,对上一帧深度图做图像仿射变换得到估计的当前帧深度图,与当前帧输入的深度图的数值相比较,当两者的差值超过阈值τ,则认为对应像素点为动态像素点,从而得到当前帧所有动态像素点、静态像素点和无效像素点;
S7、利用步骤S5中得到的空间聚类结果,检测每一个空间聚类块中被判断为动态像素点的比例,若比例高于阈值λ则认为该空间聚类块为动态聚类块,从而实现对动态区域的正确区分。
2.根据权利要求1所述的一种面向动态环境稠密建图的动态物体检测方法,其特征在于,所述步骤S1中,获得动态场景的RGB图和深度图后,需要去除RGB图和深度图中的无效深度点。
3.根据权利要求1所述的一种面向动态环境稠密建图的动态物体检测方法,其特征在于,所述步骤S2中,采用的仿射变换公式如下:
W(xp,ξ)=π(T(ξ)π-1(xp,Z(xp)))
上式中,xp为点p的图像坐标,ξ为相机位姿,π为图像坐标转化成三维世界坐标的变换函数,T为变换矩阵函数,Z(xp)为点p的深度值,W(xp,ξ)为估计的点p坐标对应的深度值。
4.根据权利要求3所述的一种面向动态环境稠密建图的动态物体检测方法,其特征在于,所述步骤S3中,采用如下公式进行分割:
Figure FDA0004003011610000021
上式中,mid为当前帧像素值的中位数,f为分割前后景像素的策略,无效像素点为传感器无法确定其深度值的像素点。
5.根据权利要求4所述的一种面向动态环境稠密建图的动态物体检测方法,其特征在于,所述步骤S5中,Kmeans聚类的公式如下:
Figure FDA0004003011610000022
上式中,x0、y0、z0为其中一个聚类点中心坐标,dist为Kmeans聚类算法的度量距离函数。
6.根据权利要求1所述的一种面向动态环境稠密建图的动态物体检测方法,其特征在于,所述步骤S7中,为了使动态区域之间具有连通性,还需以各个空间聚类块构建相应邻接矩阵G(i,j),大小为m*m,m为聚类块的个数,如果某一聚类块属于动态区域,则根据邻接矩阵中与其相邻的聚类块也属于动态区域。
CN202110111511.0A 2021-01-27 2021-01-27 一种面向动态环境稠密建图的动态物体检测方法 Active CN112802053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110111511.0A CN112802053B (zh) 2021-01-27 2021-01-27 一种面向动态环境稠密建图的动态物体检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110111511.0A CN112802053B (zh) 2021-01-27 2021-01-27 一种面向动态环境稠密建图的动态物体检测方法

Publications (2)

Publication Number Publication Date
CN112802053A CN112802053A (zh) 2021-05-14
CN112802053B true CN112802053B (zh) 2023-04-11

Family

ID=75812136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110111511.0A Active CN112802053B (zh) 2021-01-27 2021-01-27 一种面向动态环境稠密建图的动态物体检测方法

Country Status (1)

Country Link
CN (1) CN112802053B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973175B (zh) * 2022-05-24 2024-06-25 深圳市航盛电子股份有限公司 运动物体检测方法、装置、终端设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706269A (zh) * 2019-08-30 2020-01-17 武汉斌果科技有限公司 一种基于双目视觉slam的动态场景密集建模方法
CN111798475A (zh) * 2020-05-29 2020-10-20 浙江工业大学 一种基于点云深度学习的室内环境3d语义地图构建方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007050707A2 (en) * 2005-10-27 2007-05-03 Nec Laboratories America, Inc. Video foreground segmentation method
CN109387204B (zh) * 2018-09-26 2020-08-28 东北大学 面向室内动态环境的移动机器人同步定位与构图方法
CN110378997B (zh) * 2019-06-04 2023-01-20 广东工业大学 一种基于orb-slam2的动态场景建图与定位方法
CN110378345B (zh) * 2019-06-04 2022-10-04 广东工业大学 基于yolact实例分割模型的动态场景slam方法
CN110349250B (zh) * 2019-06-28 2020-12-22 浙江大学 一种基于rgbd相机的室内动态场景的三维重建方法
CN110910447B (zh) * 2019-10-31 2023-06-06 北京工业大学 一种基于动静态场景分离的视觉里程计方法
CN111402336B (zh) * 2020-03-23 2024-03-12 中国科学院自动化研究所 基于语义slam的动态环境相机位姿估计及语义地图构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706269A (zh) * 2019-08-30 2020-01-17 武汉斌果科技有限公司 一种基于双目视觉slam的动态场景密集建模方法
CN111798475A (zh) * 2020-05-29 2020-10-20 浙江工业大学 一种基于点云深度学习的室内环境3d语义地图构建方法

Also Published As

Publication number Publication date
CN112802053A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Dai et al. Rgb-d slam in dynamic environments using point correlations
CN111724439B (zh) 一种动态场景下的视觉定位方法及装置
CN112132897A (zh) 一种基于深度学习之语义分割的视觉slam方法
CN109974743B (zh) 一种基于gms特征匹配及滑动窗口位姿图优化的视觉里程计
CN111340881B (zh) 一种动态场景下基于语义分割的直接法视觉定位方法
CN111598928B (zh) 一种基于具有语义评估和区域建议的突变运动目标跟踪方法
CN111797688A (zh) 一种基于光流和语义分割的视觉slam方法
CN108447060B (zh) 基于rgb-d图像的前后景分离方法及其前后景分离装置
CN112308921B (zh) 一种基于语义和几何的联合优化动态slam方法
CN115619826A (zh) 一种基于重投影误差和深度估计的动态slam方法
CN109859249B (zh) Rgbd序列中基于自动分层的场景流估计方法
CN114677323A (zh) 一种室内动态场景下基于目标检测的语义视觉slam定位方法
CN111681275B (zh) 一种双特征融合的半全局立体匹配方法
CN115439803A (zh) 一种基于深度学习模型的烟雾光流识别方法
Roy et al. A comprehensive survey on computer vision based approaches for moving object detection
CN112802053B (zh) 一种面向动态环境稠密建图的动态物体检测方法
CN115035172A (zh) 基于置信度分级及级间融合增强的深度估计方法及系统
Singh et al. Fusing semantics and motion state detection for robust visual SLAM
Wen et al. Dynamic slam: A visual slam in outdoor dynamic scenes
CN111950599B (zh) 一种动态环境下融合边缘信息的稠密视觉里程计方法
CN113345020A (zh) 一种动态场景下的即时定位方法、装置、设备和存储介质
CN108764177A (zh) 一种基于低秩分解和表示联合学习的运动目标检测方法
CN114913472B (zh) 一种联合图学习与概率传播的红外视频行人显著性检测方法
CN114707611B (zh) 基于图神经网络特征提取与匹配的移动机器人地图构建方法、存储介质及设备
Li et al. Fast visual tracking using motion saliency in video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant