CN111444858A - 一种移动机器人场景理解方法 - Google Patents

一种移动机器人场景理解方法 Download PDF

Info

Publication number
CN111444858A
CN111444858A CN202010237436.8A CN202010237436A CN111444858A CN 111444858 A CN111444858 A CN 111444858A CN 202010237436 A CN202010237436 A CN 202010237436A CN 111444858 A CN111444858 A CN 111444858A
Authority
CN
China
Prior art keywords
scene
dimensional
image
layout
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010237436.8A
Other languages
English (en)
Inventor
徐立芳
田朋
莫宏伟
姜来浩
许贵亮
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010237436.8A priority Critical patent/CN111444858A/zh
Publication of CN111444858A publication Critical patent/CN111444858A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本发明提供的是一种移动机器人场景理解方法。视觉系统捕获的场景的单个RGB‑D场景图像作为输入,利用基于与或图的随机语法模型对所述的场景图像进行解析和配置、恢复出场景中被遮挡的物体部分,采用贝叶斯概率模型对物体之间的相对关系以及物体与场景之间的相对关系进行推理,结合先验信息对场景图像进行三维重构,使用最大后验概率估计找到解析和重建图像的最优解,在大规模RGB‑D数据集上将重建的三维场景整体布局与场景的真实情况进行比较。本发明使用物体空间位置关系推理和场景整体布局估计方法,提升复杂场景理解相关算法的性能和效率,实现移动机器人对场景环境的准确理解,推动场景理解算法在智能机器人等相关行业的应用。

Description

一种移动机器人场景理解方法
技术领域
本发明涉及的是一种物体检测和识别、物体关系检测和物体三维重建方法,具体地说是一种移动机器人场景理解方法。
背景技术
场景理解是基于图像分析的更深层次的物体检测、识别和推理,在图像理解的基础上,通过处理图像数据来获得对图像所反映的场景内容的理解。场景理解的复杂性不仅体现在识别可见物体的能力上,而且体现在预测和解释潜在的不确定信息上,包括推断潜在的人类语境在场景中的功能、重建三维分层几何结构、遵守物理约束并保证物理上合理的场景配置。现阶段智能机器人的场景理解能力与人类的环境理解能力相比还有很大的差距,还需要对场景理解的相关算法和模型进行更为深入的研究。人类对所处环境的理解是在对所观测的信息进行识别的基础上,并结合已有的先验知识进行推理和理解的过程,从而形成自身对环境场景的认知和理解。因此,场景理解算法从感知的场景环境中提取有用信息并结合已有的先验知识实现对场景环境的认知和推理的能力是实现机器人智能化的重要步骤。
发明内容
本发明的目的在于提供一种能够实现移动机器人对场景环境的准确、快速理解的移动机器人场景理解方法。
本发明的目的是这样实现的:
视觉系统捕获的场景的单个RGB-D场景图像作为输入,利用基于与或图的随机语法模型对所述的场景图像进行解析和配置、恢复出场景中被遮挡的物体部分,采用贝叶斯概率模型对物体之间的相对关系以及物体与场景之间的相对关系进行推理,结合先验信息对场景图像进行三维重构,使用最大后验概率估计找到解析和重建图像的最优解,在大规模RGB-D数据集上将重建的三维场景整体布局与场景的真实情况进行比较。
本发明还可以包括:
1.所述的进行解析是使用语法解析图对场景图像进行解析,将场景分为功能空间和几何空间,功能空间是指场景中物体的空间层次结构,几何空间是指场景中的物体实例。
2.所述的对所述的场景图像进行解析和配置包括:场景图像由一个语法解析图表示,该语法由一个分层结构和一个终端节点上的马尔可夫随机场组成,捕捉目标物体和场景空间布局之间的上下文关系,语法解析图的根节点表示场景图像、终端节点表示场景中的实体。
3.所述的对所述的场景图像进行解析和配置还包括:通过三维边界框对场景的空间布局进行建模,并将物体建模为三维实体,给定一组空间坐标和对象假设,搜索场景配置的三维空间,并选择最符合局部表面几何形状的配置。
4.所述的采用贝叶斯概率模型对物体之间的相对关系以及物体与场景之间的相对关系进行推理包括:提取出对象的三维几何、进行三维空间推理,采用场景中物体的近似三维模型,在三维范围内确定物体的位置和尺寸,从而对物体与物体、物体与场景之间的三维交互进行体积推理。
5.所述的结合先验信息对场景图像进行三维重构包括:使用贝叶斯生成统计模型对场景中的实体进行几何建模,对物体的尺寸和位置进行先验设置,先验信息来自于已提供的图像数据集,将场景建模为一组立方体,并根据中心位置和尺寸对场景和目标物体进行参数化,通过对场景图像进行解析与关系推理并结合空间定位机制以实现对整个三维场景的空间布局重构。
6.所述的使用最大后验概率估计找到解析和重建图像的最优解包括:利用CNN特征对二维空间布局产生相对稳定的预测,使用空间布局类型和关键点位置表示二维布局,利用预估的二维布局和摄像机参数,将二维布局的各个角投影到三维,得到场景环境的三维空间结构。
为了解决基于机器视觉与多传感器结合的场景环境检测和识别方法存在着视觉检测盲区、对被遮挡的物体部分无法进行分类、识别和理解以及物体的检测和识别效果差的问题,本发明提出一种移动机器人场景理解方法。
本发明的移动机器人场景理解方法主要通过图像解析和配置模块、视觉关系推理模块、三维场景重构模块和场景空间解析优化模块来实现,其主要实现步骤包括:
1、使用语法解析图来对采集的场景图像进行解析,按照场景中目标物体的种类、功能和相互关系等信息将场景划分为功能空间和几何空间。功能空间是指场景中物体的空间层次结构,几何空间是指场景中的物体实例。
2、对场景图像进行整体场景分析以找到一个最优的场景解析图,该解析图代表场景中观察到的所有目标物体和关系。将场景图像作为输入,通过最大后验概率估计得到最优的解析图。
3、通过三维边界框对场景的空间布局进行建模,并将物体建模为三维实体,给定一组空间坐标和对象假设,搜索场景配置的三维空间,并选择最符合局部表面几何形状的配置以满足实际的体积约束。
4、评估由场景假设和物体假设组合而成的场景配置,找到最匹配图像的场景配置。提取出物体的三维几何以进行三维空间推理,采用场景中物体的近似三维模型,并将物体体积建模为长方体,通过长方体的参数模型对物体进行建模,在三维范围内确定物体的位置和尺寸,从而对物体与物体、物体与场景之间的三维交互进行体积推理。
5、使用贝叶斯统计模型对场景中的实体进行几何建模,对物体的尺寸和位置进行粗略的先验设置,这些先验信息来自于已提供的图像数据集,将场景建模为一组立方体,并根据中心位置和尺寸对场景和目标物体进行参数化。
6、将先验信息和图像数据信息进行整合,引入后验分布以确定特定类别中物体的位置,并对场景空间和物体进行建模,引入先验信息对空间建模进行约束。
7、对场景图像进行解析与关系推理,并结合空间定位机制以实现对整个三维场景的空间布局重构。使用空间布局类型和关键点位置表示二维布局,利用预估的二维布局和摄像机参数将二维布局的各个角投影到三维,得到场景环境的三维空间结构。
8、将场景图像中目标物体的二维平面关键点投影到三维空间,初始化场景空间目标物体的三维位置和尺寸。计算目标物体检测边界框和分割图像中像素的平均深度值来估计每个物体的深度,用该深度值估计物体在三维场景空间中的位置。利用预估的二维场景布局和摄像机参数,将二维场景布局的各个关键点投影到三维空间,得到场景空间的三维场景布局。
上述移动机器人场景理解方法的有益效果包括:
1、本发明提出一种新的场景理解联合框架和理论方法,该联合框架能够使用结合先验知识的目标识别方法对场景中的物体进行高精度的检测和识别,采用空间关系假设和推理对场景空间中存在的被遮挡物体和摄像机无法捕获的物体部分或者空间角落进行空间推理,以恢复出空间场景的整体空间结构;
2、使用随机与或算法对整体场景空间结构进行解析,并对空间结构进行配置,结合相关优化算法对所配置的空间结构进行优化,从而实现整体场景的三维布局估计,提高物体检测准确率并实现整体场景理解。
附图说明
图1是本发明的机器人场景理解方法的整体示意图。
图2是本发明场景理解方法的场景图像解析示意图。
图3是本发明场景理解方法的场景图像配置示意图。
图4是本发明场景理解方法的贝叶斯框架示意图。
图5是本发明场景理解方法的场景图物体关系推理示意图。
具体实施方式
下面结合附图对本发明具体实施方式作进一步详细描述。
参照图1,本实施方式所述的复杂环境下移动机器人场景理解方法,主要包括图像解析和配置模块、视觉关系推理模块、三维场景重构模块和场景空间解析优化模块。
步骤1.使用语法解析图来对场景的观测图像进行解析,按照场景中目标物体的种类、功能和相互关系等信息将场景划分为功能空间和几何空间。功能空间是指场景中物体的空间层次结构,几何空间是指场景中的物体实例。
步骤2.对场景图像进行整体场景分析以找到一个最优的场景解析图,该解析图代表场景中观察到的所有目标物体和关系。将场景图像作为输入,通过最大后验概率估计得到最优的解析图。
步骤3.通过三维边界框对场景的空间布局进行建模,并将物体建模为三维实体,给定一组空间坐标和对象假设,搜索场景配置的三维空间,并选择最符合局部表面几何形状的配置以满足实际的体积约束。
步骤4.评估由场景假设和物体假设组合而成的场景配置,找到最匹配图像的场景配置。提取出物体的三维几何以进行三维空间推理,采用场景中物体的近似三维模型,并将物体体积建模为长方体,通过长方体的参数模型对物体进行建模,在三维范围内确定物体的位置和尺寸,从而对物体与物体、物体与场景之间的三维交互进行体积推理。
步骤5.使用贝叶斯统计模型对场景中的实体进行几何建模,对物体的尺寸和位置进行了粗略的先验设置,这些先验信息来自于已提供的图像数据集,将场景建模为一组立方体,并根据中心位置和尺寸对场景和目标物体进行参数化。
步骤6.将先验信息与来自图像数据的信息进行整合起来,然后引入后验分布以确定特定类别中物体的位置,并对场景空间和物体进行建模,引入先验信息对空间建模进行约束。
步骤7.对场景图像进行解析与关系推理,并结合空间定位机制以实现对整个三维场景的空间布局重构。使用空间布局类型和关键点位置表示二维布局,利用预估的二维布局和摄像机参数,将二维布局的各个角投影到三维,得到场景环境的三维空间结构。
步骤8.将场景图像中目标物体的二维平面关键点投影到三维空间,初始化场景空间目标物体的三维位置和尺寸。计算目标物体检测边界框和分割图像中像素的平均深度值来估计每个物体的深度,用该深度值估计物体在三维场景空间中的位置。利用预估的二维场景布局和摄像机参数,将二维场景布局的各个关键点投影到三维空间,得到场景空间的三维场景布局。
本发明涉及物体检测和识别、物体关系检测和物体三维重建领域,属于物体检测和识别、物体关系推理和三维重建领域。传统的场景理解方法难以应用于物体种类繁多且空间结构复杂的场景环境,基于机器视觉与多传感器结合的场景环境检测和识别方法效果有限,存在着视觉检测盲区、对被遮挡的物体部分无法进行分类、识别和理解以及物体的检测和识别效果差等问题。本发明提出一种机器人场景理解方法,使用物体空间位置关系推理和场景整体布局估计方法,提升复杂场景理解相关算法的性能和效率,实现移动机器人对场景环境的准确理解,推动场景理解算法在智能机器人等相关行业的应用,对促进智能机器人研究方向的快速发展具有重要的意义。
本发明不局限于上述最佳实施方式,任何人应该得知在本发明的启示下做出的结构变化或方法改进,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。

Claims (7)

1.一种移动机器人场景理解方法,其特征是:视觉系统捕获的场景的单个RGB-D场景图像作为输入,利用基于与或图的随机语法模型对所述的场景图像进行解析和配置、恢复出场景中被遮挡的物体部分,采用贝叶斯概率模型对物体之间的相对关系以及物体与场景之间的相对关系进行推理,结合先验信息对场景图像进行三维重构,使用最大后验概率估计找到解析和重建图像的最优解,在大规模RGB-D数据集上将重建的三维场景整体布局与场景的真实情况进行比较。
2.根据权利要求1所述的移动机器人场景理解方法,其特征是所述的进行解析是使用语法解析图对场景图像进行解析,将场景分为功能空间和几何空间,功能空间是指场景中物体的空间层次结构,几何空间是指场景中的物体实例。
3.根据权利要求1所述的移动机器人场景理解方法,其特征是所述的对所述的场景图像进行解析和配置包括:场景图像由一个语法解析图表示,该语法由一个分层结构和一个终端节点上的马尔可夫随机场组成,捕捉目标物体和场景空间布局之间的上下文关系,语法解析图的根节点表示场景图像、终端节点表示场景中的实体。
4.根据权利要求3所述的移动机器人场景理解方法,其特征是所述的对所述的场景图像进行解析和配置还包括:通过三维边界框对场景的空间布局进行建模,并将物体建模为三维实体,给定一组空间坐标和对象假设,搜索场景配置的三维空间,并选择最符合局部表面几何形状的配置。
5.根据权利要求1所述的移动机器人场景理解方法,其特征是所述的采用贝叶斯概率模型对物体之间的相对关系以及物体与场景之间的相对关系进行推理包括:提取出对象的三维几何、进行三维空间推理,采用场景中物体的近似三维模型,在三维范围内确定物体的位置和尺寸,从而对物体与物体、物体与场景之间的三维交互进行体积推理。
6.根据权利要求1所述的移动机器人场景理解方法,其特征是所述的结合先验信息对场景图像进行三维重构包括:使用贝叶斯生成统计模型对场景中的实体进行几何建模,对物体的尺寸和位置进行先验设置,先验信息来自于已提供的图像数据集,将场景建模为一组立方体,并根据中心位置和尺寸对场景和目标物体进行参数化,通过对场景图像进行解析与关系推理并结合空间定位机制以实现对整个三维场景的空间布局重构。
7.根据权利要求1所述的移动机器人场景理解方法,其特征是所述的使用最大后验概率估计找到解析和重建图像的最优解包括:利用CNN特征对二维空间布局产生相对稳定的预测,使用空间布局类型和关键点位置表示二维布局,利用预估的二维布局和摄像机参数,将二维布局的各个角投影到三维,得到场景环境的三维空间结构。
CN202010237436.8A 2020-03-30 2020-03-30 一种移动机器人场景理解方法 Pending CN111444858A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010237436.8A CN111444858A (zh) 2020-03-30 2020-03-30 一种移动机器人场景理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010237436.8A CN111444858A (zh) 2020-03-30 2020-03-30 一种移动机器人场景理解方法

Publications (1)

Publication Number Publication Date
CN111444858A true CN111444858A (zh) 2020-07-24

Family

ID=71651123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010237436.8A Pending CN111444858A (zh) 2020-03-30 2020-03-30 一种移动机器人场景理解方法

Country Status (1)

Country Link
CN (1) CN111444858A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241290A (zh) * 2021-12-20 2022-03-25 嘉兴市第一医院 用于边缘计算的室内场景理解方法、设备、介质及机器人

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101714262A (zh) * 2009-12-10 2010-05-26 北京大学 单幅图像的三维场景重建方法
CN104599275A (zh) * 2015-01-27 2015-05-06 浙江大学 基于概率图模型的非参数化的rgb-d场景理解方法
CN108549891A (zh) * 2018-03-23 2018-09-18 河海大学 基于背景与目标先验的多尺度扩散显著目标检测方法
US20190122073A1 (en) * 2017-10-23 2019-04-25 The Charles Stark Draper Laboratory, Inc. System and method for quantifying uncertainty in reasoning about 2d and 3d spatial features with a computer machine learning architecture
CN110852939A (zh) * 2019-10-28 2020-02-28 北京影谱科技股份有限公司 一种基于二维对象和相关关系的三维布局预测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101714262A (zh) * 2009-12-10 2010-05-26 北京大学 单幅图像的三维场景重建方法
CN104599275A (zh) * 2015-01-27 2015-05-06 浙江大学 基于概率图模型的非参数化的rgb-d场景理解方法
US20190122073A1 (en) * 2017-10-23 2019-04-25 The Charles Stark Draper Laboratory, Inc. System and method for quantifying uncertainty in reasoning about 2d and 3d spatial features with a computer machine learning architecture
CN108549891A (zh) * 2018-03-23 2018-09-18 河海大学 基于背景与目标先验的多尺度扩散显著目标检测方法
CN110852939A (zh) * 2019-10-28 2020-02-28 北京影谱科技股份有限公司 一种基于二维对象和相关关系的三维布局预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SIYUAN HUANG等: "Holistic 3D Scene Parsing and Reconstruction from a Single RGB Image", 《ECCV 2018:COMPUTER VISION-ECCV 2018》 *
张晓明: "基于卷积神经网络与3D几何语义的室内场景理解研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241290A (zh) * 2021-12-20 2022-03-25 嘉兴市第一医院 用于边缘计算的室内场景理解方法、设备、介质及机器人

Similar Documents

Publication Publication Date Title
Xia et al. Geometric primitives in LiDAR point clouds: A review
Ochmann et al. Automatic reconstruction of fully volumetric 3D building models from oriented point clouds
CN111563442B (zh) 基于激光雷达的点云和相机图像数据融合的slam方法及系统
Xu et al. Toward building and civil infrastructure reconstruction from point clouds: A review on data and key techniques
Dimitrov et al. Segmentation of building point cloud models including detailed architectural/structural features and MEP systems
Xu et al. Voxel-based segmentation of 3D point clouds from construction sites using a probabilistic connectivity model
Ulusoy et al. Semantic multi-view stereo: Jointly estimating objects and voxels
Rusu Semantic 3D object maps for everyday robot manipulation
Tang et al. BIM generation from 3D point clouds by combining 3D deep learning and improved morphological approach
Xu et al. Robust segmentation and localization of structural planes from photogrammetric point clouds in construction sites
Liu et al. 3D Point cloud analysis
Li et al. Hierarchical semantic parsing for object pose estimation in densely cluttered scenes
Khurana et al. Point cloud forecasting as a proxy for 4d occupancy forecasting
Marton et al. Probabilistic categorization of kitchen objects in table settings with a composite sensor
Zhang et al. Large-scale point cloud contour extraction via 3D guided multi-conditional generative adversarial network
CA2643865A1 (en) Method and system for locating landmarks on 3d models
Brightman et al. Point cloud registration: A mini-review of current state, challenging issues and future directions
Stjepandić et al. Object recognition methods in a built environment
Hou et al. Multi-modal feature fusion for 3D object detection in the production workshop
CN113536959A (zh) 一种基于立体视觉的动态障碍物检测方法
Drews et al. Fast and adaptive 3d change detection algorithm for autonomous robots based on gaussian mixture models
CN111444858A (zh) 一种移动机器人场景理解方法
Shang et al. Model-based tracking by classification in a tiny discrete pose space
Lumban-Gaol et al. A comparative study of point clouds semantic segmentation using three different neural networks on the railway station dataset
Mahmoud et al. Automated BIM generation for large-scale indoor complex environments based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200724

WD01 Invention patent application deemed withdrawn after publication