CN111444858A

CN111444858A - 一种移动机器人场景理解方法

Info

Publication number: CN111444858A
Application number: CN202010237436.8A
Authority: CN
Inventors: 徐立芳; 田朋; 莫宏伟; 姜来浩; 许贵亮; 杨帆
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-24

Abstract

本发明提供的是一种移动机器人场景理解方法。视觉系统捕获的场景的单个RGB‑D场景图像作为输入，利用基于与或图的随机语法模型对所述的场景图像进行解析和配置、恢复出场景中被遮挡的物体部分，采用贝叶斯概率模型对物体之间的相对关系以及物体与场景之间的相对关系进行推理，结合先验信息对场景图像进行三维重构，使用最大后验概率估计找到解析和重建图像的最优解，在大规模RGB‑D数据集上将重建的三维场景整体布局与场景的真实情况进行比较。本发明使用物体空间位置关系推理和场景整体布局估计方法，提升复杂场景理解相关算法的性能和效率，实现移动机器人对场景环境的准确理解，推动场景理解算法在智能机器人等相关行业的应用。

Description

一种移动机器人场景理解方法

技术领域

本发明涉及的是一种物体检测和识别、物体关系检测和物体三维重建方法，具体地说是一种移动机器人场景理解方法。

背景技术

场景理解是基于图像分析的更深层次的物体检测、识别和推理，在图像理解的基础上，通过处理图像数据来获得对图像所反映的场景内容的理解。场景理解的复杂性不仅体现在识别可见物体的能力上，而且体现在预测和解释潜在的不确定信息上，包括推断潜在的人类语境在场景中的功能、重建三维分层几何结构、遵守物理约束并保证物理上合理的场景配置。现阶段智能机器人的场景理解能力与人类的环境理解能力相比还有很大的差距，还需要对场景理解的相关算法和模型进行更为深入的研究。人类对所处环境的理解是在对所观测的信息进行识别的基础上，并结合已有的先验知识进行推理和理解的过程，从而形成自身对环境场景的认知和理解。因此，场景理解算法从感知的场景环境中提取有用信息并结合已有的先验知识实现对场景环境的认知和推理的能力是实现机器人智能化的重要步骤。

发明内容

本发明的目的在于提供一种能够实现移动机器人对场景环境的准确、快速理解的移动机器人场景理解方法。

本发明的目的是这样实现的：

视觉系统捕获的场景的单个RGB-D场景图像作为输入，利用基于与或图的随机语法模型对所述的场景图像进行解析和配置、恢复出场景中被遮挡的物体部分，采用贝叶斯概率模型对物体之间的相对关系以及物体与场景之间的相对关系进行推理，结合先验信息对场景图像进行三维重构，使用最大后验概率估计找到解析和重建图像的最优解，在大规模RGB-D数据集上将重建的三维场景整体布局与场景的真实情况进行比较。

本发明还可以包括：

1.所述的进行解析是使用语法解析图对场景图像进行解析，将场景分为功能空间和几何空间，功能空间是指场景中物体的空间层次结构，几何空间是指场景中的物体实例。

2.所述的对所述的场景图像进行解析和配置包括：场景图像由一个语法解析图表示，该语法由一个分层结构和一个终端节点上的马尔可夫随机场组成，捕捉目标物体和场景空间布局之间的上下文关系，语法解析图的根节点表示场景图像、终端节点表示场景中的实体。

3.所述的对所述的场景图像进行解析和配置还包括：通过三维边界框对场景的空间布局进行建模，并将物体建模为三维实体，给定一组空间坐标和对象假设，搜索场景配置的三维空间，并选择最符合局部表面几何形状的配置。

4.所述的采用贝叶斯概率模型对物体之间的相对关系以及物体与场景之间的相对关系进行推理包括：提取出对象的三维几何、进行三维空间推理，采用场景中物体的近似三维模型，在三维范围内确定物体的位置和尺寸，从而对物体与物体、物体与场景之间的三维交互进行体积推理。

5.所述的结合先验信息对场景图像进行三维重构包括：使用贝叶斯生成统计模型对场景中的实体进行几何建模，对物体的尺寸和位置进行先验设置，先验信息来自于已提供的图像数据集，将场景建模为一组立方体，并根据中心位置和尺寸对场景和目标物体进行参数化，通过对场景图像进行解析与关系推理并结合空间定位机制以实现对整个三维场景的空间布局重构。

6.所述的使用最大后验概率估计找到解析和重建图像的最优解包括：利用CNN特征对二维空间布局产生相对稳定的预测，使用空间布局类型和关键点位置表示二维布局，利用预估的二维布局和摄像机参数，将二维布局的各个角投影到三维，得到场景环境的三维空间结构。

为了解决基于机器视觉与多传感器结合的场景环境检测和识别方法存在着视觉检测盲区、对被遮挡的物体部分无法进行分类、识别和理解以及物体的检测和识别效果差的问题，本发明提出一种移动机器人场景理解方法。

本发明的移动机器人场景理解方法主要通过图像解析和配置模块、视觉关系推理模块、三维场景重构模块和场景空间解析优化模块来实现，其主要实现步骤包括：

1、使用语法解析图来对采集的场景图像进行解析，按照场景中目标物体的种类、功能和相互关系等信息将场景划分为功能空间和几何空间。功能空间是指场景中物体的空间层次结构，几何空间是指场景中的物体实例。

2、对场景图像进行整体场景分析以找到一个最优的场景解析图，该解析图代表场景中观察到的所有目标物体和关系。将场景图像作为输入，通过最大后验概率估计得到最优的解析图。

3、通过三维边界框对场景的空间布局进行建模，并将物体建模为三维实体，给定一组空间坐标和对象假设，搜索场景配置的三维空间，并选择最符合局部表面几何形状的配置以满足实际的体积约束。

4、评估由场景假设和物体假设组合而成的场景配置，找到最匹配图像的场景配置。提取出物体的三维几何以进行三维空间推理，采用场景中物体的近似三维模型，并将物体体积建模为长方体，通过长方体的参数模型对物体进行建模，在三维范围内确定物体的位置和尺寸，从而对物体与物体、物体与场景之间的三维交互进行体积推理。

5、使用贝叶斯统计模型对场景中的实体进行几何建模，对物体的尺寸和位置进行粗略的先验设置，这些先验信息来自于已提供的图像数据集，将场景建模为一组立方体，并根据中心位置和尺寸对场景和目标物体进行参数化。

6、将先验信息和图像数据信息进行整合，引入后验分布以确定特定类别中物体的位置，并对场景空间和物体进行建模，引入先验信息对空间建模进行约束。

7、对场景图像进行解析与关系推理，并结合空间定位机制以实现对整个三维场景的空间布局重构。使用空间布局类型和关键点位置表示二维布局，利用预估的二维布局和摄像机参数将二维布局的各个角投影到三维，得到场景环境的三维空间结构。

8、将场景图像中目标物体的二维平面关键点投影到三维空间，初始化场景空间目标物体的三维位置和尺寸。计算目标物体检测边界框和分割图像中像素的平均深度值来估计每个物体的深度，用该深度值估计物体在三维场景空间中的位置。利用预估的二维场景布局和摄像机参数，将二维场景布局的各个关键点投影到三维空间，得到场景空间的三维场景布局。

上述移动机器人场景理解方法的有益效果包括：

1、本发明提出一种新的场景理解联合框架和理论方法，该联合框架能够使用结合先验知识的目标识别方法对场景中的物体进行高精度的检测和识别，采用空间关系假设和推理对场景空间中存在的被遮挡物体和摄像机无法捕获的物体部分或者空间角落进行空间推理，以恢复出空间场景的整体空间结构；

2、使用随机与或算法对整体场景空间结构进行解析，并对空间结构进行配置，结合相关优化算法对所配置的空间结构进行优化，从而实现整体场景的三维布局估计，提高物体检测准确率并实现整体场景理解。

附图说明

图1是本发明的机器人场景理解方法的整体示意图。

图2是本发明场景理解方法的场景图像解析示意图。

图3是本发明场景理解方法的场景图像配置示意图。

图4是本发明场景理解方法的贝叶斯框架示意图。

图5是本发明场景理解方法的场景图物体关系推理示意图。

具体实施方式

下面结合附图对本发明具体实施方式作进一步详细描述。

参照图1，本实施方式所述的复杂环境下移动机器人场景理解方法，主要包括图像解析和配置模块、视觉关系推理模块、三维场景重构模块和场景空间解析优化模块。

步骤1.使用语法解析图来对场景的观测图像进行解析，按照场景中目标物体的种类、功能和相互关系等信息将场景划分为功能空间和几何空间。功能空间是指场景中物体的空间层次结构，几何空间是指场景中的物体实例。

步骤2.对场景图像进行整体场景分析以找到一个最优的场景解析图，该解析图代表场景中观察到的所有目标物体和关系。将场景图像作为输入，通过最大后验概率估计得到最优的解析图。

步骤3.通过三维边界框对场景的空间布局进行建模，并将物体建模为三维实体，给定一组空间坐标和对象假设，搜索场景配置的三维空间，并选择最符合局部表面几何形状的配置以满足实际的体积约束。

步骤4.评估由场景假设和物体假设组合而成的场景配置，找到最匹配图像的场景配置。提取出物体的三维几何以进行三维空间推理，采用场景中物体的近似三维模型，并将物体体积建模为长方体，通过长方体的参数模型对物体进行建模，在三维范围内确定物体的位置和尺寸，从而对物体与物体、物体与场景之间的三维交互进行体积推理。

步骤5.使用贝叶斯统计模型对场景中的实体进行几何建模，对物体的尺寸和位置进行了粗略的先验设置，这些先验信息来自于已提供的图像数据集，将场景建模为一组立方体，并根据中心位置和尺寸对场景和目标物体进行参数化。

步骤6.将先验信息与来自图像数据的信息进行整合起来，然后引入后验分布以确定特定类别中物体的位置，并对场景空间和物体进行建模，引入先验信息对空间建模进行约束。

步骤7.对场景图像进行解析与关系推理，并结合空间定位机制以实现对整个三维场景的空间布局重构。使用空间布局类型和关键点位置表示二维布局，利用预估的二维布局和摄像机参数，将二维布局的各个角投影到三维，得到场景环境的三维空间结构。

步骤8.将场景图像中目标物体的二维平面关键点投影到三维空间，初始化场景空间目标物体的三维位置和尺寸。计算目标物体检测边界框和分割图像中像素的平均深度值来估计每个物体的深度，用该深度值估计物体在三维场景空间中的位置。利用预估的二维场景布局和摄像机参数，将二维场景布局的各个关键点投影到三维空间，得到场景空间的三维场景布局。

本发明涉及物体检测和识别、物体关系检测和物体三维重建领域，属于物体检测和识别、物体关系推理和三维重建领域。传统的场景理解方法难以应用于物体种类繁多且空间结构复杂的场景环境，基于机器视觉与多传感器结合的场景环境检测和识别方法效果有限，存在着视觉检测盲区、对被遮挡的物体部分无法进行分类、识别和理解以及物体的检测和识别效果差等问题。本发明提出一种机器人场景理解方法，使用物体空间位置关系推理和场景整体布局估计方法，提升复杂场景理解相关算法的性能和效率，实现移动机器人对场景环境的准确理解，推动场景理解算法在智能机器人等相关行业的应用，对促进智能机器人研究方向的快速发展具有重要的意义。

本发明不局限于上述最佳实施方式，任何人应该得知在本发明的启示下做出的结构变化或方法改进，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

Claims

1.一种移动机器人场景理解方法，其特征是：视觉系统捕获的场景的单个RGB-D场景图像作为输入，利用基于与或图的随机语法模型对所述的场景图像进行解析和配置、恢复出场景中被遮挡的物体部分，采用贝叶斯概率模型对物体之间的相对关系以及物体与场景之间的相对关系进行推理，结合先验信息对场景图像进行三维重构，使用最大后验概率估计找到解析和重建图像的最优解，在大规模RGB-D数据集上将重建的三维场景整体布局与场景的真实情况进行比较。

2.根据权利要求1所述的移动机器人场景理解方法，其特征是所述的进行解析是使用语法解析图对场景图像进行解析，将场景分为功能空间和几何空间，功能空间是指场景中物体的空间层次结构，几何空间是指场景中的物体实例。

3.根据权利要求1所述的移动机器人场景理解方法，其特征是所述的对所述的场景图像进行解析和配置包括：场景图像由一个语法解析图表示，该语法由一个分层结构和一个终端节点上的马尔可夫随机场组成，捕捉目标物体和场景空间布局之间的上下文关系，语法解析图的根节点表示场景图像、终端节点表示场景中的实体。

4.根据权利要求3所述的移动机器人场景理解方法，其特征是所述的对所述的场景图像进行解析和配置还包括：通过三维边界框对场景的空间布局进行建模，并将物体建模为三维实体，给定一组空间坐标和对象假设，搜索场景配置的三维空间，并选择最符合局部表面几何形状的配置。

5.根据权利要求1所述的移动机器人场景理解方法，其特征是所述的采用贝叶斯概率模型对物体之间的相对关系以及物体与场景之间的相对关系进行推理包括：提取出对象的三维几何、进行三维空间推理，采用场景中物体的近似三维模型，在三维范围内确定物体的位置和尺寸，从而对物体与物体、物体与场景之间的三维交互进行体积推理。

6.根据权利要求1所述的移动机器人场景理解方法，其特征是所述的结合先验信息对场景图像进行三维重构包括：使用贝叶斯生成统计模型对场景中的实体进行几何建模，对物体的尺寸和位置进行先验设置，先验信息来自于已提供的图像数据集，将场景建模为一组立方体，并根据中心位置和尺寸对场景和目标物体进行参数化，通过对场景图像进行解析与关系推理并结合空间定位机制以实现对整个三维场景的空间布局重构。

7.根据权利要求1所述的移动机器人场景理解方法，其特征是所述的使用最大后验概率估计找到解析和重建图像的最优解包括：利用CNN特征对二维空间布局产生相对稳定的预测，使用空间布局类型和关键点位置表示二维布局，利用预估的二维布局和摄像机参数，将二维布局的各个角投影到三维，得到场景环境的三维空间结构。