CN113012227A - 基于深度估计与类内平均形状的室内物体位姿估计方法 - Google Patents

基于深度估计与类内平均形状的室内物体位姿估计方法 Download PDF

Info

Publication number
CN113012227A
CN113012227A CN202110306434.4A CN202110306434A CN113012227A CN 113012227 A CN113012227 A CN 113012227A CN 202110306434 A CN202110306434 A CN 202110306434A CN 113012227 A CN113012227 A CN 113012227A
Authority
CN
China
Prior art keywords
indoor
class
depth
average shape
pose estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110306434.4A
Other languages
English (en)
Other versions
CN113012227B (zh
Inventor
郑柏伦
冼楚华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110306434.4A priority Critical patent/CN113012227B/zh
Publication of CN113012227A publication Critical patent/CN113012227A/zh
Application granted granted Critical
Publication of CN113012227B publication Critical patent/CN113012227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于深度估计与类内平均形状的室内物体位姿估计方法,包括步骤:1)获取基础数据,包括室内场景RGB图像数据和室内物体三维模型历史数据;2)利用数据估计室内场景深度及对RGB图像进行物体分割和分类,计算物体对应类别的类内平均形状,结合深度估计结果与类内平均形状重建物体归一化空间坐标;3)根据归一化空间坐标和深度图进行相似性变换,得出室内物体位姿估计结果。本发明克服了当前实例级别物体位姿估计方法的不足,可以对同一类物体的不同实例进行位姿估计,另外,本发明仅需要RGB图像,不需要获取深度图像,克服了深度图像难以获取的问题。

Description

基于深度估计与类内平均形状的室内物体位姿估计方法
技术领域
本发明涉及室内装修设计自动化的技术领域,尤其是指一种基于深度估计与类内平均形状的室内物体位姿估计方法。
背景技术
随着社会经济的发展和人们生活质量的提高,人们开始更多地注重生活的美感与生活品质,而合理而舒适的室内家居物体布局,能够让居住环境更加美观,可以极大地提高人们的生活质量和满足人们对美好生活的追求。在数字化的今天,人们可以利用现有的一些设计软件,对家居场景进行虚拟化的设计并得到相应的可视化结果,并按照生成的设计图来进行最后的装修布置。室内物体摆放是指从物体数据库中挑选出合适的物体并且将其以正确的姿态,大小摆放到三维场景中。由于物体数据的初始姿态和大小并不确定,放置到三维空间后并不一定契合当前的三维空间,需要用户手动调整,这使得室内物体摆放极为耗费用户时间和精力。因此我们要对物体的位姿进行恰当的估计,以便于对物体进行一定的旋转和缩放,与房间的方向进行对齐,适应物体所处的空间大小。
目前有一系列的实例级别的6D位姿估计方法,但是这些方法只能预测已经在训练时输入过的三维模型的平移和空间旋转矩阵,对于未曾见过的模型,这些实例级别的6D位姿估计方法便无能为力。而室内物体模型是比较大的数据集,例如照相机便有着多种模型,普通单反相机,全画幅相机等。因此,实例级别的6D位姿估计方法不能够满足我们的要求。目前已经有一些关于类别级姿态估计的工作,但是它们都做了简化的假设。首先,这些算法将旋转预测限制为仅沿重力方向(仅四个自由度)。其次,他们关注几个大尺度的对象类别,例如椅子、沙发、床或汽车,并且不考虑物体的对称性。相反,在物体位姿估计任务中,我们需要估计各种小比例物体的姿态,由于这些物体具有更大的姿态变化,这通常比大比例的物体更具挑战性。也有一些工作研究了小比例物体的位姿估计方法,但是这些工作都要求事先获取室内场景的深度图,相比于RGB图像,深度图像的获取更为艰难且不精确。如何仅根据RGB图像对物体进行类级别位姿估计是一个极具挑战性的问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于深度估计与类内平均形状的室内物体位姿估计方法,克服了当前实例级别物体位姿估计方法的不足,可以对同一类物体的不同实例进行位姿估计,另外,本发明仅需要RGB图像,不需要获取深度图像,克服了深度图像难以获取的问题。
为实现上述目的,本发明所提供的技术方案为:基于深度估计与类内平均形状的室内物体位姿估计方法,包括以下步骤:
1)获取基础数据,包括室内场景RGB图像数据和室内物体三维模型历史数据;
2)利用数据估计室内场景深度及对RGB图像进行室内物体分割和分类,计算物体对应类别的类内平均形状,结合深度估计结果与类内平均形状重建室内物体归一化空间坐标;
3)根据归一化空间坐标和深度图进行相似性变换,得出室内物体位姿估计结果。
进一步,采用可视化的方法将室内物体位姿估计结果显示在设计软件上,其中,所述可视化是指将物体位姿估计结果通过绘制3D包围盒表示出来。
在步骤1)中,所述室内场景RGB图像数据是指通过第三方设计软件加载室内三维场景模型进行渲染后截图获取的图像数据;所述室内物体三维模型历史数据是指通过第三方设计软件数据库获取的各类室内物体三维模型。
在步骤2)中,使用RGB图像对室内场景进行深度估计,对RGB图像进行室内物体分割并预测分类,计算物体所属分类的类内平均形状,结合深度估计结果和类内平均形状,重建室内物体归一化空间坐标,包括以下步骤:
2.1)采用全卷积网络对RGB图像进行深度估计:
D=Ω (I)
式中,D表示预测的深度图,Ω表示全卷积网络,I表示输入的RGB图像;
2.2)采用Mask-RCNN对RGB图像进行物体分割和分类,计算物体所属类别的类内平均形状:
Figure BDA0002987905850000032
式中,Mc表示计算得出的类内平均形状,c=1,2,…,n,c为类别序号,n为类别个数,Ψ表示由三层全连接卷积神经网络组成的嵌入向量解码器,
Figure BDA0002987905850000033
表示第c类物体第i个实例的编码特征向量,i=1,2,…,m,i为实例序号,m为实例个数,定义为:
Figure BDA0002987905850000031
式中,
Figure BDA0002987905850000034
表示第c类物体第i个实例的三维模型,φ表示PointNet模型编码器;
2.3)结合深度估计结果和类内平均形状获得重建的归一化空间坐标:
P=Φ(σ(Mc)⊙θ(D))
式中,P为重建得出的归一化空间坐标;Φ表示重建网络,由共享权重的四层感知机构成;σ表示类内平均形状特征提取网络,由PointNet网络构成;⊙表示特征拼接,将类内平均形状特征和深度图像特征进行拼接;θ表示深度图像特征提取网络,由一个四层感知机构成。
在步骤3)中,对步骤2)计算得出的物体归一化空间坐标P,与深度估计结果D进行相似性变换,计算室内物体位姿估计结果,其中采用以下公式:
T=f(D,P)
式中,T表示计算得出的位姿估计矩阵,包括从归一化空间坐标变换到深度估计结果的3自由度位移和3自由度旋转,f表示相似性变换中使用的Umeyama算法。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次仅使用RGB图像对室内物体进行位姿估计,避免了获取深度图像的难题。
2、本发明首次针对室内装修设计软件进行物体位姿估计,以便于实现室内物体自动化摆放。
3、本发明通过对同类物体相似特性进行建模,能够对同类物体的不同实例进行位姿估计。
4、本发明方法在室内装修设计系统中具有广泛的应用空间,操作简单,自动化程度高,可以帮助设计师以及用户大大减少调整物体位姿的时间,更好地实现室内物体自动化布局。
附图说明
图1为本发明方法逻辑流程示意图。
图2为本发明使用的深度估计网络结构图。
图3为本发明类内平均形状估计网络结构图。
图4为物体归一化空间坐标重建网络示意图。
图5为室内场景RGB图像数据示意图。
图6为室内物体三维模型历史数据示意图。
图7为物体归一化空间坐标可视化示意图。
图8为位姿估计结果示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1至图4所示,本实施例所提供的基于深度估计与类内平均形状的室内物体位姿估计方法,使用了室内设计软件和深度学习服务器等辅助设备,其包括以下步骤:
1)获取基础数据,包括室内场景RGB图像数据,室内物体三维模型历史数据,其中,所述室内场景RGB图像数据是指通过第三方设计软件加载室内三维场景模型进行渲染后截图获取的图像数据;所述室内物体三维模型历史数据是指通过第三方设计软件数据库获取的各类室内物体三维模型。
获取的室内场景RGB图像数据如图5所示,室内物体三维模型历史数据如图6所示。
2)使用RGB图像对室内场景进行深度估计,对RGB图像进行室内物体分割并预测分类,计算物体所属分类的类内平均形状,结合深度估计结果和类内平均形状,重建室内物体归一化空间坐标,包括以下步骤:
2.1)采用经典的全卷积网络对RGB图像进行深度估计:
D=Ω (I)
式中,D表示预测的深度图,Ω表示全卷积网络,I表示输入的RGB图像。
2.2)采用经典的Mask-RCNN对RGB图像进行物体分割和分类,计算物体所属类别的类内平均形状:
Figure BDA0002987905850000061
式中,Mc(c=1,2,…,n)表示计算得出的类内平均形状,c为类别序号,n为类别个数,Ψ表示由三层全连接卷积神经网络组成的嵌入向量解码器,
Figure BDA0002987905850000062
表示第c类物体第i个实例的编码特征向量,i为实例序号,m为实例个数,定义为:
Figure BDA0002987905850000063
式中,
Figure BDA0002987905850000064
表示第c类物体第i个实例的三维模型,φ表示PointNet模型编码器。
2.3)结合深度估计结果和类内平均形状获得重建的归一化空间坐标:
P=Φ(σ(Mc)⊙θ(D))
式中,P为重建得出的归一化空间坐标,Φ表示重建网络,由共享权重的四层感知机构成,σ表示类内平均形状特征提取网络,由PointNet网络构成,⊙表示特征拼接,将类内平均形状特征和深度图像特征进行拼接。θ表示深度图像特征提取网络,由一个四层感知机构成。
采用上述步骤计算,得到图5中的笔记本电脑各点的归一化空间坐标。将坐标进行可视化,得到图7所示的归一化空间坐标可视化示意图,图7中笔记本电脑中每一个像素点的RGB值分别对应归一化空间坐标的横轴坐标,纵轴坐标以及竖轴坐标。
3)根据归一化空间坐标和深度图重建坐标结果进行相似性变换,得出位姿估计结果。
对步骤2)中计算得出的物体归一化空间坐标P,与深度估计结果D进行相似性变换,计算室内物体位姿估计结果,其中采用以下公式:
T=f(D,P)
式中,T表示计算得出的位姿估计矩阵,包括从归一化空间坐标变换到深度估计结果的3自由度位移和3自由度旋转,f表示相似性变换中使用的Umeyama算法。
经过计算,可以得出物体的旋转矩阵和平移矩阵,将其合成为位姿估计矩阵,图5从左数起第一个笔记本电脑位姿估计矩阵为:
Figure BDA0002987905850000071
图5从左数起第二个笔记本电脑位姿估计矩阵为:
Figure BDA0002987905850000072
最后,可以采用可视化的方法将室内物体位姿估计结果显示在设计软件上。如图8所示,采用可视化的方法将结果显示在设计软件上,物体位姿估计结果通过绘制3D包围盒表示出来。设计软件可以根据位姿估计结果对物体进行调整,以实现自动化摆放物体的功能。
综上所述,在采用以上方案后,本发明为室内装修设计软件提供了室内物体位姿估计方法,可以准确地估计当前物体的摆放位姿,通过位姿估计结果,设计软件可以评判当前摆放结果的好坏,以便于进一步调整,具有实际推广价值,值得推广。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.基于深度估计与类内平均形状的室内物体位姿估计方法,其特征在于,包括以下步骤:
1)获取基础数据,包括室内场景RGB图像数据和室内物体三维模型历史数据;
2)利用数据估计室内场景深度及对RGB图像进行室内物体分割和分类,计算物体对应类别的类内平均形状,结合深度估计结果与类内平均形状重建室内物体归一化空间坐标;
3)根据归一化空间坐标和深度图进行相似性变换,得出室内物体位姿估计结果。
2.根据权利要求1所述的基于深度估计与类内平均形状的室内物体位姿估计方法,其特征在于:采用可视化的方法将室内物体位姿估计结果显示在设计软件上,其中,所述可视化是指将物体位姿估计结果通过绘制3D包围盒表示出来。
3.根据权利要求1所述的基于深度估计与类内平均形状的室内物体位姿估计方法,其特征在于:在步骤1)中,所述室内场景RGB图像数据是指通过第三方设计软件加载室内三维场景模型进行渲染后截图获取的图像数据;所述室内物体三维模型历史数据是指通过第三方设计软件数据库获取的各类室内物体三维模型。
4.根据权利要求1所述的基于深度估计与类内平均形状的室内物体位姿估计方法,其特征在于:在步骤2)中,使用RGB图像对室内场景进行深度估计,对RGB图像进行室内物体分割并预测分类,计算物体所属分类的类内平均形状,结合深度估计结果和类内平均形状,重建室内物体归一化空间坐标,包括以下步骤:
2.1)采用全卷积网络对RGB图像进行深度估计:
D=Ω (I)
式中,D表示预测的深度图,Ω表示全卷积网络,I表示输入的RGB图像;
2.2)采用Mask-RCNN对RGB图像进行物体分割和分类,计算物体所属类别的类内平均形状:
Figure FDA0002987905840000021
式中,Mc表示计算得出的类内平均形状,c=1,2,…,n,c为类别序号,n为类别个数,Ψ表示由三层全连接卷积神经网络组成的嵌入向量解码器,
Figure FDA0002987905840000022
表示第c类物体第i个实例的编码特征向量,i=1,2,…,m,i为实例序号,m为实例个数,定义为:
Figure FDA0002987905840000023
式中,
Figure FDA0002987905840000024
表示第c类物体第i个实例的三维模型,φ表示PointNet模型编码器;
2.3)结合深度估计结果和类内平均形状获得重建的归一化空间坐标:
P=Φ(σ(Mc)⊙θ(D))
式中,P为重建得出的归一化空间坐标;Φ表示重建网络,由共享权重的四层感知机构成;σ表示类内平均形状特征提取网络,由PointNet网络构成;⊙表示特征拼接,将类内平均形状特征和深度图像特征进行拼接;θ表示深度图像特征提取网络,由一个四层感知机构成。
5.根据权利要求1所述的基于深度估计与类内平均形状的室内物体位姿估计方法,其特征在于:在步骤3)中,对步骤2)计算得出的物体归一化空间坐标P,与深度估计结果D进行相似性变换,计算室内物体位姿估计结果,其中采用以下公式:
T=f(D,P)
式中,T表示计算得出的位姿估计矩阵,包括从归一化空间坐标变换到深度估计结果的3自由度位移和3自由度旋转,f表示相似性变换中使用的Umeyama算法。
CN202110306434.4A 2021-03-23 2021-03-23 基于深度估计与类内平均形状的室内物体位姿估计方法 Active CN113012227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110306434.4A CN113012227B (zh) 2021-03-23 2021-03-23 基于深度估计与类内平均形状的室内物体位姿估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110306434.4A CN113012227B (zh) 2021-03-23 2021-03-23 基于深度估计与类内平均形状的室内物体位姿估计方法

Publications (2)

Publication Number Publication Date
CN113012227A true CN113012227A (zh) 2021-06-22
CN113012227B CN113012227B (zh) 2022-09-20

Family

ID=76405084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110306434.4A Active CN113012227B (zh) 2021-03-23 2021-03-23 基于深度估计与类内平均形状的室内物体位姿估计方法

Country Status (1)

Country Link
CN (1) CN113012227B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937679A (zh) * 2022-12-09 2023-04-07 上海人工智能创新中心 神经辐射场的物体和布局提取方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147221A1 (en) * 2017-11-15 2019-05-16 Qualcomm Technologies Inc. Pose estimation and model retrieval for objects in images
CN109801337A (zh) * 2019-01-21 2019-05-24 同济大学 一种基于实例分割网络和迭代优化的6d位姿估计方法
CN111627001A (zh) * 2020-05-25 2020-09-04 深圳市商汤科技有限公司 图像检测方法及装置
CN111968129A (zh) * 2020-07-15 2020-11-20 上海交通大学 具有语义感知的即时定位与地图构建系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147221A1 (en) * 2017-11-15 2019-05-16 Qualcomm Technologies Inc. Pose estimation and model retrieval for objects in images
CN109801337A (zh) * 2019-01-21 2019-05-24 同济大学 一种基于实例分割网络和迭代优化的6d位姿估计方法
CN111627001A (zh) * 2020-05-25 2020-09-04 深圳市商汤科技有限公司 图像检测方法及装置
CN111968129A (zh) * 2020-07-15 2020-11-20 上海交通大学 具有语义感知的即时定位与地图构建系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冼楚华 等: "保持区域平滑的 3 维动画形状高效编辑", 《中国图像图形学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937679A (zh) * 2022-12-09 2023-04-07 上海人工智能创新中心 神经辐射场的物体和布局提取方法和装置
CN115937679B (zh) * 2022-12-09 2024-05-28 上海人工智能创新中心 神经辐射场的物体和布局提取方法和装置

Also Published As

Publication number Publication date
CN113012227B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN110910486B (zh) 室内场景光照估计模型、方法、装置、存储介质以及渲染方法
Wang et al. Pixel2Mesh: 3D mesh model generation via image guided deformation
CN110503680B (zh) 一种基于非监督的卷积神经网络单目场景深度估计方法
CN108921926B (zh) 一种基于单张图像的端到端三维人脸重建方法
CN113496507A (zh) 一种人体三维模型重建方法
CN110399809A (zh) 多特征融合的人脸关键点检测方法及装置
CN113421328B (zh) 一种三维人体虚拟化重建方法及装置
CN116310076A (zh) 基于神经辐射场的三维重建方法、装置、设备及存储介质
US20230326173A1 (en) Image processing method and apparatus, and computer-readable storage medium
CN115951784B (zh) 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法
CN114450719A (zh) 人体模型重建方法、重建系统及存储介质
CN111402403B (zh) 高精度三维人脸重建方法
CN111640172A (zh) 一种基于生成对抗网络的姿态迁移方法
CN113012227B (zh) 基于深度估计与类内平均形状的室内物体位姿估计方法
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN113065506B (zh) 一种人体姿态识别方法及系统
CN110717978A (zh) 基于单张图像的三维头部重建方法
CN116152442B (zh) 一种三维点云模型生成方法及装置
CN117115917A (zh) 基于多模态特征融合的教师行为识别方法、设备以及介质
CN113920270B (zh) 一种基于多视角全景的布局重建方法及其系统
US20220301348A1 (en) Face reconstruction using a mesh convolution network
CN115457171A (zh) 一种采用基表情空间变换的高效表情迁移方法
US20220076409A1 (en) Systems and Methods for Building a Skin-to-Muscle Transformation in Computer Animation
Gan et al. Fine-grained multi-view hand reconstruction using inverse rendering
Zhang et al. A portable multiscopic camera for novel view and time synthesis in dynamic scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant