CN113012227B

CN113012227B - 基于深度估计与类内平均形状的室内物体位姿估计方法

Info

Publication number: CN113012227B
Application number: CN202110306434.4A
Authority: CN
Inventors: 郑柏伦; 冼楚华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-09-20
Anticipated expiration: 2041-03-23
Also published as: CN113012227A

Abstract

本发明公开了一种基于深度估计与类内平均形状的室内物体位姿估计方法，包括步骤：1)获取基础数据，包括室内场景RGB图像数据和室内物体三维模型历史数据；2)利用数据估计室内场景深度及对RGB图像进行物体分割和分类，计算物体对应类别的类内平均形状，结合深度估计结果与类内平均形状重建物体归一化空间坐标；3)根据归一化空间坐标和深度图进行相似性变换，得出室内物体位姿估计结果。本发明克服了当前实例级别物体位姿估计方法的不足，可以对同一类物体的不同实例进行位姿估计，另外，本发明仅需要RGB图像，不需要获取深度图像，克服了深度图像难以获取的问题。

Description

基于深度估计与类内平均形状的室内物体位姿估计方法

技术领域

本发明涉及室内装修设计自动化的技术领域，尤其是指一种基于深度估计与类内平均形状的室内物体位姿估计方法。

背景技术

随着社会经济的发展和人们生活质量的提高，人们开始更多地注重生活的美感与生活品质，而合理而舒适的室内家居物体布局，能够让居住环境更加美观，可以极大地提高人们的生活质量和满足人们对美好生活的追求。在数字化的今天，人们可以利用现有的一些设计软件，对家居场景进行虚拟化的设计并得到相应的可视化结果，并按照生成的设计图来进行最后的装修布置。室内物体摆放是指从物体数据库中挑选出合适的物体并且将其以正确的姿态，大小摆放到三维场景中。由于物体数据的初始姿态和大小并不确定，放置到三维空间后并不一定契合当前的三维空间，需要用户手动调整，这使得室内物体摆放极为耗费用户时间和精力。因此我们要对物体的位姿进行恰当的估计，以便于对物体进行一定的旋转和缩放，与房间的方向进行对齐，适应物体所处的空间大小。

目前有一系列的实例级别的6D位姿估计方法，但是这些方法只能预测已经在训练时输入过的三维模型的平移和空间旋转矩阵，对于未曾见过的模型，这些实例级别的6D位姿估计方法便无能为力。而室内物体模型是比较大的数据集，例如照相机便有着多种模型，普通单反相机，全画幅相机等。因此，实例级别的6D位姿估计方法不能够满足我们的要求。目前已经有一些关于类别级姿态估计的工作，但是它们都做了简化的假设。首先，这些算法将旋转预测限制为仅沿重力方向(仅四个自由度)。其次，他们关注几个大尺度的对象类别，例如椅子、沙发、床或汽车，并且不考虑物体的对称性。相反，在物体位姿估计任务中，我们需要估计各种小比例物体的姿态，由于这些物体具有更大的姿态变化，这通常比大比例的物体更具挑战性。也有一些工作研究了小比例物体的位姿估计方法，但是这些工作都要求事先获取室内场景的深度图，相比于RGB图像，深度图像的获取更为艰难且不精确。如何仅根据RGB图像对物体进行类级别位姿估计是一个极具挑战性的问题。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于深度估计与类内平均形状的室内物体位姿估计方法，克服了当前实例级别物体位姿估计方法的不足，可以对同一类物体的不同实例进行位姿估计，另外，本发明仅需要RGB图像，不需要获取深度图像，克服了深度图像难以获取的问题。

为实现上述目的，本发明所提供的技术方案为：基于深度估计与类内平均形状的室内物体位姿估计方法，包括以下步骤：

1)获取基础数据，包括室内场景RGB图像数据和室内物体三维模型历史数据；

2)利用数据估计室内场景深度及对RGB图像进行室内物体分割和分类，计算物体对应类别的类内平均形状，结合深度估计结果与类内平均形状重建室内物体归一化空间坐标；

3)根据归一化空间坐标和深度图进行相似性变换，得出室内物体位姿估计结果。

进一步，采用可视化的方法将室内物体位姿估计结果显示在设计软件上，其中，所述可视化是指将物体位姿估计结果通过绘制3D包围盒表示出来。

在步骤1)中，所述室内场景RGB图像数据是指通过第三方设计软件加载室内三维场景模型进行渲染后截图获取的图像数据；所述室内物体三维模型历史数据是指通过第三方设计软件数据库获取的各类室内物体三维模型。

在步骤2)中，使用RGB图像对室内场景进行深度估计，对RGB图像进行室内物体分割并预测分类，计算物体所属分类的类内平均形状，结合深度估计结果和类内平均形状，重建室内物体归一化空间坐标，包括以下步骤：

2.1)采用全卷积网络对RGB图像进行深度估计：

D＝Ω (I)

式中，D表示预测的深度图，Ω表示全卷积网络，I表示输入的RGB图像；

2.2)采用Mask-RCNN对RGB图像进行物体分割和分类，计算物体所属类别的类内平均形状：

式中，M_c表示计算得出的类内平均形状，c＝1,2,…,n，c为类别序号，n为类别个数，Ψ表示由三层全连接卷积神经网络组成的嵌入向量解码器，

表示第c类物体第i个实例的编码特征向量，i＝1,2,…,m，i为实例序号，m为实例个数，定义为：

式中，

表示第c类物体第i个实例的三维模型，φ表示PointNet模型编码器；

2.3)结合深度估计结果和类内平均形状获得重建的归一化空间坐标：

P＝Φ(σ(M_c)⊙θ(D))

式中，P为重建得出的归一化空间坐标；Φ表示重建网络，由共享权重的四层感知机构成；σ表示类内平均形状特征提取网络，由PointNet网络构成；⊙表示特征拼接，将类内平均形状特征和深度图像特征进行拼接；θ表示深度图像特征提取网络，由一个四层感知机构成。

在步骤3)中，对步骤2)计算得出的物体归一化空间坐标P，与深度估计结果D进行相似性变换，计算室内物体位姿估计结果，其中采用以下公式：

T＝f(D，P)

式中，T表示计算得出的位姿估计矩阵，包括从归一化空间坐标变换到深度估计结果的3自由度位移和3自由度旋转，f表示相似性变换中使用的Umeyama算法。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明首次仅使用RGB图像对室内物体进行位姿估计，避免了获取深度图像的难题。

2、本发明首次针对室内装修设计软件进行物体位姿估计，以便于实现室内物体自动化摆放。

3、本发明通过对同类物体相似特性进行建模，能够对同类物体的不同实例进行位姿估计。

4、本发明方法在室内装修设计系统中具有广泛的应用空间，操作简单，自动化程度高，可以帮助设计师以及用户大大减少调整物体位姿的时间，更好地实现室内物体自动化布局。

附图说明

图1为本发明方法逻辑流程示意图。

图2为本发明使用的深度估计网络结构图。

图3为本发明类内平均形状估计网络结构图。

图4为物体归一化空间坐标重建网络示意图。

图5为室内场景RGB图像数据示意图。

图6为室内物体三维模型历史数据示意图。

图7为物体归一化空间坐标可视化示意图。

图8为位姿估计结果示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1至图4所示，本实施例所提供的基于深度估计与类内平均形状的室内物体位姿估计方法，使用了室内设计软件和深度学习服务器等辅助设备，其包括以下步骤：

1)获取基础数据，包括室内场景RGB图像数据，室内物体三维模型历史数据，其中，所述室内场景RGB图像数据是指通过第三方设计软件加载室内三维场景模型进行渲染后截图获取的图像数据；所述室内物体三维模型历史数据是指通过第三方设计软件数据库获取的各类室内物体三维模型。

获取的室内场景RGB图像数据如图5所示，室内物体三维模型历史数据如图6所示。

2)使用RGB图像对室内场景进行深度估计，对RGB图像进行室内物体分割并预测分类，计算物体所属分类的类内平均形状，结合深度估计结果和类内平均形状，重建室内物体归一化空间坐标，包括以下步骤：

2.1)采用经典的全卷积网络对RGB图像进行深度估计：

D＝Ω (I)

式中，D表示预测的深度图，Ω表示全卷积网络，I表示输入的RGB图像。

2.2)采用经典的Mask-RCNN对RGB图像进行物体分割和分类，计算物体所属类别的类内平均形状：

式中，M_c(c＝1,2,…,n)表示计算得出的类内平均形状，c为类别序号，n为类别个数，Ψ表示由三层全连接卷积神经网络组成的嵌入向量解码器，

表示第c类物体第i个实例的编码特征向量，i为实例序号，m为实例个数，定义为：

式中，

表示第c类物体第i个实例的三维模型，φ表示PointNet模型编码器。

P＝Φ(σ(M_c)⊙θ(D))

式中，P为重建得出的归一化空间坐标，Φ表示重建网络，由共享权重的四层感知机构成，σ表示类内平均形状特征提取网络，由PointNet网络构成，⊙表示特征拼接，将类内平均形状特征和深度图像特征进行拼接。θ表示深度图像特征提取网络，由一个四层感知机构成。

采用上述步骤计算，得到图5中的笔记本电脑各点的归一化空间坐标。将坐标进行可视化，得到图7所示的归一化空间坐标可视化示意图，图7中笔记本电脑中每一个像素点的RGB值分别对应归一化空间坐标的横轴坐标，纵轴坐标以及竖轴坐标。

3)根据归一化空间坐标和深度图重建坐标结果进行相似性变换，得出位姿估计结果。

对步骤2)中计算得出的物体归一化空间坐标P，与深度估计结果D进行相似性变换，计算室内物体位姿估计结果，其中采用以下公式：

T＝f(D，P)

经过计算，可以得出物体的旋转矩阵和平移矩阵，将其合成为位姿估计矩阵，图5从左数起第一个笔记本电脑位姿估计矩阵为：

图5从左数起第二个笔记本电脑位姿估计矩阵为：

最后，可以采用可视化的方法将室内物体位姿估计结果显示在设计软件上。如图8所示，采用可视化的方法将结果显示在设计软件上，物体位姿估计结果通过绘制3D包围盒表示出来。设计软件可以根据位姿估计结果对物体进行调整，以实现自动化摆放物体的功能。

综上所述，在采用以上方案后，本发明为室内装修设计软件提供了室内物体位姿估计方法，可以准确地估计当前物体的摆放位姿，通过位姿估计结果，设计软件可以评判当前摆放结果的好坏，以便于进一步调整，具有实际推广价值，值得推广。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于深度估计与类内平均形状的室内物体位姿估计方法，其特征在于，包括以下步骤：

2.1)采用全卷积网络对RGB图像进行深度估计：

D＝Ω(I)

式中，

P＝Φ(σ(M_c)⊙θ(D))

式中，P为重建得出的归一化空间坐标；Φ表示重建网络，由共享权重的四层感知机构成；σ表示类内平均形状特征提取网络，由PointNet网络构成；⊙表示特征拼接，将类内平均形状特征和深度图像特征进行拼接；θ表示深度图像特征提取网络，由一个四层感知机构成；

2.根据权利要求1所述的基于深度估计与类内平均形状的室内物体位姿估计方法，其特征在于：采用可视化的方法将室内物体位姿估计结果显示在设计软件上，其中，所述可视化是指将物体位姿估计结果通过绘制3D包围盒表示出来。

3.根据权利要求1所述的基于深度估计与类内平均形状的室内物体位姿估计方法，其特征在于：在步骤1)中，所述室内场景RGB图像数据是指通过第三方设计软件加载室内三维场景模型进行渲染后截图获取的图像数据；所述室内物体三维模型历史数据是指通过第三方设计软件数据库获取的各类室内物体三维模型。

4.根据权利要求1所述的基于深度估计与类内平均形状的室内物体位姿估计方法，其特征在于：在步骤3)中，对步骤2)计算得出的物体归一化空间坐标P，与深度估计结果D进行相似性变换，计算室内物体位姿估计结果，其中采用以下公式：

T＝f(D，P)