CN116385660A - 室内单视图场景语义重建方法及系统 - Google Patents
室内单视图场景语义重建方法及系统 Download PDFInfo
- Publication number
- CN116385660A CN116385660A CN202310436260.2A CN202310436260A CN116385660A CN 116385660 A CN116385660 A CN 116385660A CN 202310436260 A CN202310436260 A CN 202310436260A CN 116385660 A CN116385660 A CN 116385660A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- indoor
- image
- layout
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims description 75
- 238000009877 rendering Methods 0.000 claims description 74
- 230000000007 visual effect Effects 0.000 claims description 72
- 238000012545 processing Methods 0.000 claims description 27
- 230000007246 mechanism Effects 0.000 claims description 24
- 230000008447 perception Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 11
- 238000004220 aggregation Methods 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 44
- 230000006870 function Effects 0.000 description 17
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 230000004913 activation Effects 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012546 transfer Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/10—Geometric effects
- G06T15/20—Perspective computation
- G06T15/205—Image-based rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
Abstract
本发明公开了一种室内单视图场景语义重建方法及系统,该方法包括:对室内图像进行二维目标检测,得到二维边界框;对室内图像进行布局估计,得到室内布局初步估计参数;基于二维边界框,进行三维模型检索和三维目标检测,得到各个物体的三维模型检索结果和三维边界框初步估计参数;根据室内布局初步估计参数及三维边界框初步估计参数,进行场景图构建和图推理,得到室内布局估计参数和三维边界框估计参数;根据三维模型检索结果、室内布局估计参数和三维边界框估计参数,进行三维语义场景重建,从而得到物体的准确、完整的语义重建场景,实现整体场景语义重建。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种室内单视图场景语义重建方法及系统。
背景技术
单视图室内三维场景语义重建即根据单张室内图像提供一个语义丰富、几何准确和拓扑合理的室内三维场景表示,已成为一项重要且具有挑战性的任务。基于室内场景图像的语义重建在室内设计、房地产、数字孪生、室内装饰、机器人导航和AR/VR内容生成等许多领域中具有广泛的应用前景。然而,深度感知中固有的模糊性、真实环境的混乱和复杂性使得仅从单一图像中完全恢复场景上下文(包括语义和几何学)仍然具有挑战性,由于深度信息的缺失,从二维图像恢复三维空间是一个困难的问题,因为不同的三维场景可能投影产生相同的RGB图像。
Huang等在NeurIPS2018上提出了一个端到端的模型框架,能够从单张RGB图像中实时重建三维室内场景,包括三个子任务:3D房间布局、摄像机姿态和物体边界框。为了使三个子任务协同优化,他们引入了一种新颖的三维边界盒参数化方法和二维投影损失函数,以增强二维和三维之间的对齐。他们还设计了可微分的协同损失函数,有助于有效地联合训练两个主要模块:3D房间布局与物体边界框。但是,室内场景的语义重建既包括场景理解,也包括对象重建,之前的工作不能良好地耦合这两个任务在同一个模型框架下。
Nie等在CVPR2020中提出了一个从单张RGB图像端到端进行室内场景语义重建的方法Total3D,它将场景理解与对象网格重建嵌入融合在一起进行协同联合训练推理,主要包括三个子网络:三维室内布局估计(带有相机位姿);三维目标检测;目标三角形网格(Mesh)生成网络,推理时全自动生成室内房间布局,摄像机姿态,物体三维边界框和网格三维模型,从而整体完备地恢复房间和物体对象的几何形状。Total3D中网格生成重建算法是基于球面模板的网格变形方法,变形过程中会删除边,有时候导致形成镂空,肉眼为观察到出现不少毛刺,对于遮挡和未见过的物体类别,效果更差,重建三维网格模型残缺不完整;而且上述方法没有对物体与物体之间的关系,物体与布局的关系等场景上下文信息综合考虑进去。目前三维目标位姿估计以及室内布局估计误差导致场景重建结果中出现:目标三维模型间彼此碰撞或重叠;目标超出墙体地板布局这两种场景关系混乱的情形。
基于上述问题,Kuo等在ECCV2020中首次提出基于单目图像跨域三维模型检索和二维目标分割实现对单张RGB室内图像包含的多个物体进行三维形状表示和位姿估计对齐的方法架构,被称为Mask2CAD。Kuo等在ICCV2021中进一步改进提出Patch2CAD方案,利用输入图像中目标的感兴趣区域(Region Of Interest,ROI)的补丁切片进行模型检索,相似性度量使用各自补丁块对应法线向量的自相似性直方图之间交并比(Intersection OverUnion,IOU)。Patch2CAD在复杂室内场景的效果更佳,但在计算三维目标中心点时二者都需要深度信息作为输入。Gumeli等在CVPR2022中提出一种新的端到端的框架,它可以稳健地检索三维CAD模型并对齐到单个输入图像,与以前执行直接姿态回归的方法相比,增加了深度图估计分支,为了利用可微的Procrustes优化来求解位姿,通过以深度和归一化对象坐标的一一对应形式去学习预测密集的2D-3D对应;另外,因为检索任务把三维模型用点云表示提取特征,所以预测的三维对应有助于学习几何相似的CAD模型的检索,同时改进对象姿态对齐。这三种方案的不足的是缺少布局估计任务,无法进行整体场景语义重建。
发明内容
本发明实施例提供一种室内单视图场景语义重建方法及系统,其能得到物体的准确、完整的语义,实现整体场景语义重建。
第一方面,本发明实施例提供了一种室内单视图场景语义重建方法,包括:
对待处理的室内图像进行二维目标检测,得到所述室内图像中每个物体的二维边界框;
对所述室内图像进行布局估计,得到室内布局初步估计参数;
根据每个物体的二维边界框,对所述室内图像进行第一尺度裁剪,得到每个物体的第一物体图像,并对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果;
根据每个物体的二维边界框,对所述室内图像进行第二尺度裁剪,得到每个物体的第二物体图像,并对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数;
根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,并对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数;
根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建。
作为上述方案的改进,所述对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果,包括:
对预先构建的三维CAD模型库中各个三维模型进行多视角渲染,得到每个三维模型的多张灰度渲染图;
对所述第一物体图像进行颜色转换和增强;
对颜色转换和增强后的第一物体图像和每个三维模型的多张灰度渲染图分别进行特征提取,得到所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征;
利用通道空间注意力机制分别对所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征进行处理,得到所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征;
分别对所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征进行非线性自适应映射,得到所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的特征向量;
利用自注意力机制将所述三维模型的多张灰度渲染图的特征向量间进行处理,得到相应三维模型的多张灰度渲染图的自注意力特征向量;
将所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的自注意力特征向量之间使用交叉注意力机制计算每张灰度渲染图的自注意力特征向量的加权融合权重,从而对相应三维模型的多张灰度渲染图的自注意力特征向量进行融合,得到相应三维模型的嵌入向量;
计算所述第一物体图像的嵌入向量与各个三维模型的嵌入向量的相似度,并选取相似度最大对应三维模型,作为相应物体的三维模型检索结果。
作为上述方案的改进,所述室内布局初步估计参数包括:相机姿态初步估计参数和室内布局边界框初步估计参数;
则,对所述室内图像进行布局估计,得到室内布局初步估计参数,包括:
对所述室内图像进行视觉特征提取;
采用第一多层感知网络对所述室内图像的视觉特征进行布局估计,得到相机姿态初步估计参数;
采用第二多层感知网络对所述室内图像的视觉特征进行布局估计,得到室内布局边界框初步估计参数。
作为上述方案的改进,所述对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数,包括:
计算任意两个物体的二维边界框之间的几何关系特征,并对所述几何关系特征进行位置编码,得到相应两个物体的编码特征;
对每个物体的第一物体图像进行视觉特征提取;
根据每个物体的视觉特征和相应的编码特征,计算每个物体的关系特征;
对每个物体的关系特征进行级联聚合,得到相应物体的关系视觉特征;
采用第三多层感知网络对相应物体的关系视觉特征进行处理,得到相应物体的三维边界框初步估计参数。
作为上述方案的改进,所述根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,包括:
根据所述室内图像的视觉特征、预先已知的归一化相机内参先验矩阵、所述相机姿态初步估计参数和所述室内布局边界框初步估计参数进行场景布局节点编码,得到场景布局节点;
根据相应物体的关系视觉特征和所述三维边界框初步估计参数进行物体对象编码,得到物体对象节点;
对所述场景布局节点与所述物体对象节点之间添加双向关系节点,对两个所述物体对象节点之间添加双向关系节点;
根据所述场景布局节点、所述物体对象节点、所述场景布局节点与所述物体对象节点之间的双向关系节点以及两个所述物体对象节点之间的双向关系节点,构建场景图。
作为上述方案的改进,所述对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数,包括:
采用图卷积神经网络对所述场景图中的实体节点和关系节点进行消息传递更新,得到更新后的场景图;其中,所述实体节点包括:场景布局节点、物体对象节点;
根据更新后的场景图的实体节点和关系节点,计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差;
根据所述相机姿态初步估计参数、所述室内布局边界框初步估计参数、所述相机姿态初步估计参数的偏差以及所述相机姿态初步估计参数的偏差,得到最终的室内布局估计参数;
根据所述三维边界框初步估计参数和所述三维边界框初步参数的偏差,得到最终的三维边界框估计参数。
作为上述方案的改进,所述根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建,包括:
将各个物体的三维模型检索结果按照所述室内布局估计参数和所述三维边界框估计参数对齐放置到室内布局中,得到语义重建后的三维场景。
作为上述方案的改进,所述根据更新后的场景图的实体节点和关系节点,计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差,包括:
采用第四多层感知网络对更新后的场景图的关系节点进行处理,得到相机姿态初步估计参数的偏差;
采用第五多层感知网络对更新后的场景图的关系节点进行处理,得到室内布局边界框初步估计参数的偏差;
采用第六多层感知网络对更新后的场景图的实体节点进行处理,得到三维边界框初步参数的偏差。
作为上述方案的改进,所述根据每个物体的视觉特征和相应的编码特征,计算每个物体的关系特征,包括:
根据每个物体的视觉特征,计算相应物体的视觉注意力分数;
根据相应的编码特征,计算相应物体的几何注意力分数;
根据所述视觉注意力分数和所述几何注意力分数,计算相应物体的权重;
根据每个物体的视觉特征及其相应的权重,得到相应物体的关系特征。
第二方面,本发明实施例提供了一种室内单视图场景语义重建系统,包括:
二维目标检测模块,用于对待处理的室内图像进行二维目标检测,得到所述室内图像中每个物体的二维边界框;
布局估计模块,用于对所述室内图像进行布局估计,得到室内布局初步估计参数;
三维模型检索模块,用于根据每个物体的二维边界框,对所述室内图像进行第一尺度裁剪,得到每个物体的第一物体图像,并对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果;
三维目标检测模块,用于根据每个物体的二维边界框,对所述室内图像进行第二尺度裁剪,得到每个物体的第二物体图像,并对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数;
图推理模块,用于根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,并对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数;
语义重建模块,用于根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建。
相对于现有技术,本发明实施例的有益效果在于:通过对待处理的室内图像进行二维目标检测,得到所述室内图像中每个物体的二维边界框;对所述室内图像进行布局估计,得到室内布局初步估计参数;根据每个物体的二维边界框,对所述室内图像进行第一尺度裁剪,得到每个物体的第一物体图像,并对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果;根据每个物体的二维边界框,对所述室内图像进行第二尺度裁剪,得到每个物体的第二物体图像,并对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数;根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,并对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数;根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建。通过使用三维模型检索方法替代现有的三维模型生成重建方法,可以从模型库中检索得到干净整洁的模型表示,从而得到物体的准确、完整的语义重建场景,实现整体场景语义重建。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所占据要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种室内单视图场景语义重建方法的流程图;
图2是本发明实施例提供的语义重建整体示意图;
图3是本发明实施例提供的语义重建流程示意图;
图4是本发明实施例提供的一种室内单视图场景语义重建系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参见图1,其是本发明实施例提供的一种室内单视图场景语义重建方法的流程图。所述室内单视图场景语义重建方法,具体包括:
S1:对待处理的室内图像进行二维目标检测,得到所述室内图像中每个物体的二维边界框;
对于一张室内图像,将其输入到预先训练好的二维目标检测网络进行目标检测,可以预测出所述室内处图像中包含物体的N个二维边界框及其语义类别。针对每一个物体的二维边界框n,用二维边界框的中心(xn,yn)与宽高(wn,hn)来表示,则可以表示为用二维边界框的左上角点(xmin,ymin)和右下角点(xmax,ymax)来表示,则可以表示为/>物体的语义类别用独热编码表示为/>
本发明实施例使用相对成熟容易的二维目标检测方法来检测室内图像的物体对象,不使用实例分割,不需要输入或者预测输入图像的深度图,可以有效提高方法的简易性、泛化性、适用性。
S2:对所述室内图像进行布局估计,得到室内布局初步估计参数;
S3:根据每个物体的二维边界框,对所述室内图像进行第一尺度裁剪,得到每个物体的第一物体图像,并对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果;
S4:根据每个物体的二维边界框,对所述室内图像进行第二尺度裁剪,得到每个物体的第二物体图像,并对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数;
S5:根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,并对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数;
S6:根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建。
在本发明实施例中,通过使用三维模型检索方法替代现有的三维模型生成重建方法,可以从模型库中检索得到干净整洁的模型表示,从而得到物体的准确、完整的语义重建场景,实现整体场景语义重建。
在一种可选的实施例中,所述对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果,包括:
对预先构建的三维CAD模型库中各个三维模型进行多视角渲染,得到每个三维模型的多张灰度渲染图;
对所述第一物体图像进行颜色转换和增强;
对颜色转换和增强后的第一物体图像和每个三维模型的多张灰度渲染图分别进行特征提取,得到所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征;
利用通道空间注意力机制分别对所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征进行处理,得到所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征;
分别对所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征进行非线性自适应映射,得到所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的特征向量;
利用自注意力机制将所述三维模型的多张灰度渲染图的特征向量间进行处理,得到相应三维模型的多张灰度渲染图的自注意力特征向量;
将所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的自注意力特征向量之间使用交叉注意力机制计算每张灰度渲染图的自注意力特征向量的加权融合权重,从而对相应三维模型的多张灰度渲染图的自注意力特征向量进行融合,得到相应三维模型的嵌入向量;
计算所述第一物体图像的嵌入向量与各个三维模型的嵌入向量的相似度,并选取相似度最大对应三维模型,作为相应物体的三维模型检索结果。
为了方便理解,下面对上述三维模型检索的整体流程进行说明,具体如下:
针对三维CAD模型库中的每个三维模型进行多视角渲染,视角指向三维模型的中心,分布在俯仰角为30度的水平圆环上,视角之间方位角等间隔分布,例如按照22.5度间隔分布。每个三维模型得到16张灰度渲染图,在检索任务中表征三维模型。
假设三维模型检索任务训练过程中,一个小批量训练数据集合B包含|B|个实例,其中第i个实例bi包括一张第一物体图像qi、对应三维模型的M张灰度渲染图ri以及对应的一个语义标签yi。则有:其中,/>是小批量中第i个实例三维模型的M张灰度渲染图集合。|B|是训练批量大小。
为了使每个输入的第一物体图像qi在每个训练时期中得到不同的源图像颜色进行颜色转换数据增强,在同一训练小批量中的其他查询图像中为每个待输入的第一物体图像随机选取源彩色图像qj进行颜色增强。具体首先将RGB空间中的图像转换为到lαβ空间,然后在lαβ空间中进行颜色转换,具体计算公式:
其中,lαβ和lα′β′分别代表颜色转移前和颜色转移后的颜色。μ和σ分别代表均值和标准差,下标s表示源彩色图像,下标t表示目标图像(即第一物体图像)。最后,将转换后的颜色增强图像转换回RGB颜色空间中。颜色转换后的待输入的第一物体图像qi表示为
针对颜色转换后的第一物体图像用CNN特征提取器fq1(·)提取特征,得到所述第一物体图像/>的图像特征/>θq1为对应网络参数,Fi q1∈R2048×7×7。其中,R2048×7×7表示特征的元素为实数,特征的维度大小为通道维度2048×高度维7×宽度维度7。
针对三维模型的多张灰度渲染图使用CNN特征提取器fr1(·)提取特征,对于三维模型的多张灰度渲染图ri中的每一张灰度渲染图/>得到图像特征θr1为对应网络参数,/>三维模型的多张灰度渲染图共享网络参数提取特征得到图像特征为/>
为了减少背景的干扰,本发明实施例在CNN特征提取的基础上,添加通道空间注意力机制去引导网络注意特定关键空间区域以及通道的几何特征,特别是对于源域输入检索图片,能有效减少背景的干扰,使得网络聚焦学习前景目标区域的特征,而不是复杂背景,具体流程如下:
假设输入的图像特征为F∈RC×H×W,卷积注意力模块首先计算一维通道注意力权重图Mc∈RC×1×1;其次计算空间注意力二维权重图Ms∈R1×H×W,具体计算公式如下:
上述一维通道注意力权重图利用通道之间的关系来生成,首先使用全局平局池化与最大池化来分别压缩聚合输入的图像特征的每个通道特征图的空间信息,得到其中,/>表示对输入的图像特征的每个通道对应的特征图空间上进行全局平均池化后得到的特征,定义为空间域平局聚合特征,/>表示对输入的图像特征的每个通道对应的特征图空间上进行全局最大池化后得到的特征,定义为空间域最大聚合特征。上标c表示对输入的图像特征每个通道的特征图空间维度上进行操作处理,从而得到通道注意力权重,c来自英文channel(通道)的首字母。
其次,将二者送入一个共享参数MLP(多层感知机),MLP包含一个隐藏层,隐藏层的尺寸为RC/a×1×1,a为压缩比率,将二者得到的输出进行元素加法;最后,通过Sigmoid激活函数得到一维通道注意力权重图Mc,具体计算公式如下:
其中σ为Sigmoid激活函数,W0∈RC/a×C和W1∈RC×C/a是MLP的共享参数。
上述空间注意力二维权重图利用中间特征F′的空间关系来得到一个空间注意权重图。具体计算公式如下:
其中σ为Sigmoid激活函数,f7×7为卷积核大小为7×7的卷积操作,[;]为级联操作。首先对中间特征F′沿着通道轴分别进行平均池化和最大池化,得到然后将二者并行级联,进行卷积激活操作得到空间注意力权重图Ms。其中,/>表示对对中间特征F′沿着通道维度轴进行平均池化后得到的特征,定义为通道域平局聚合特征;和/>表示对中间特征F′沿着通道轴分别进行最大池化后得到的特征,定义为通道域最大聚合特征。上标s表示对中间特征F′的空间维度中每个位置对应的多个通道维度进行操作处理,从而得到空间注意力权重,s来自英文Spatial(空间)的首字母。
源域与目标域的CNN后面添加通道空间注意力机制,形成串联卷积注意力模块。
针对上述从所述第一物体图像中提取出的图像特征Fi q1,使用独立的上述通道空间注意力模块,送入其中得到第一物体图像的注意力特征Fi q2;针对上述从三维模型的多张灰度渲染图中提取出的图像特征Fi r1,同样使用独立的上述卷积注意力模块,送入其中得到相应三维模型的多张灰度渲染图的注意力特征Fi r2。
针对所述第一物体图像的注意力特征Fi q2,先扁平化展开一维向量,然后使用一个包含一个隐藏层、ReLU激活函数和批量归一化层的MLP对所述第一物体图像的注意力特征Fi q2进行非线性仿射变换映射,实现特征嵌入自适应,得到所述第一物体图像的嵌入向量输出维度设置为128,具体计算公式如下:
针对三维模型的多张灰度渲染图的注意力特征Fi r2,同样先扁平化展开一维向量,使用一个包含一个隐藏层、ReLU激活函数和批量归一化层的MLP对特征进行非线性映射,以求得能够良好表征单个视图的特征向量,最终得到Fi r3,输出维度设置为128,具体计算公式如下:
Fi r3=Linear(ReLU(BN(Linear(Fi r2))))。
对第一物体图像使用非线性自适应映射实现特征嵌入自适应,进一步消除了背景以及纹理信息,从而得到第一物体图像目标精确几何特征;对三维模型多视角灰度渲染图使用非线性自适应映射能够提取更好表征视图几何的特征向量,同时使得第一物体图像的图像特征与多视角灰度渲染图的图像特征更容易良好地嵌入同一空间中。
QF=WQFi r3
KF=WKFi r3
VF=WVFi r3;
其中,WQ、WK、WV分别代表查询嵌入线性层、键嵌入线性层、值嵌入线性层的可学习参数。通过Scaled Dot-Product Attention获得权重矩阵,对VF进行加权求和,可用如下公式计算:
其中,Attention(QF,KF,VF)为注意力权重加权和函数,dk为键嵌入向量的维度。将注意力结果与输入的灰度渲染图的特征向量Fi r3相加,通过层归一化(LayerNorm)得到相应三维模型的嵌入向量Fi r4,计算公式如下:
Fi r4=LayerNorm(Attention(QF,KF,VF)+Fi r3);
通过上述过程可以实现内部与外部相关性的注意力多视图特征注聚合。
损失函数:假设有z1,z2两个向量,⊙表示点积,则z1,z2之间的相似性可用sim(·)表示,其计算公式如下:
需要说明的是,单目图像跨域三维模型检索的一般性准则是让输入检索图像的特征嵌入与其对应真实三维模型多视角渲染图提取的融合特征嵌入的相似性最大,距离最小,比其他三维模型实例得到多视图融合嵌入特征更加接近。基于这一准则使用实例对比学习损失L1,第一物体图像qi将对应的真实三维模型作为正样本,即第一物体图像的嵌入向量对应正样本为实例/>(即三维模型的嵌入向量),将小批量中剩余|B|-1个实例作为负样本,具体计算公式如下:
其中,τ∈(0,1],为温度参数,该参数正向激励输入第一物体图像检索目标域正样本三维模型。由于在同一个小批次中可能存在与第一物体图像对应三维模型几何上很相似的实例,为了阻止过重的惩罚,采用类似软标签的思想调整τ′(τ,si,sj),使τ′温度尺度缩放因子成为实例si,sj对应三维模型之间的交并比IOU的函数:
τ′(τ,si,sj)=τ+(1-τ)·Sigmoid(a′·IOU(si,sj)+b′);
其中,a′和b′分别常数缩放因子与常数偏置项参数。
为了拉大不同类别间三维模型的多张灰度渲染图的嵌入向量的间隔距离,同时充分利用训练数据中提供的目标域语义标签,受有监督对比学习启发的启发,使用引入类别级对比损失L2,计算公式如下:
其中,P(i)={j|j∈B,j≠i,yj=yi},即将与输入第一物体图像的语义类别相同的实例作为类别正样本。将两种损失通过权重β1结合得到总的损失:L3=L1+β1·L2。
在本发明实施例中,结合实例对比学习损失L1与有监督语义类别对比学习损失L2,从而提高检索结果实例精确度与语义精确度。
单目图像三维模型检索推理的过程中,使用裁剪得到每个物体的第一物体图像通过CNN特征提取器、通道空间注意力模块、MLP输出一个嵌入向量,注意此时不需要对输入图片利用颜色转换模块增强。同时迭代计算三维模型库中每个三维模型多视图聚合特征(即上述三维模型的嵌入向量),然后通过余弦距离sim(·)计算第一物体图像的嵌入向量与三维模型的嵌入向量的相似性,最后将相似性结果从高到底排名,选取相似性最高的三维模型的嵌入向量对应三维模型/>作为检索结果。
在本发明实施例中,使用单目图像三维模型检索方法来等价替换三维模型生成重建,从模型库中检索得到干净整洁的模型表示,从而得到物体语义准确、物体完整的语义重建场景。单目图像三维模型检索步骤中,三维模型使用多视角灰度渲染图来表征,与图像特征映射至同一嵌入空间中进行相似性度量。具体而言,在训练阶段使用颜色变换数据增强,将训练集输入检索图像(即上述第一物体图像)之间的颜色与几何特征直接进行随机重新组合成新的检索图像,从而消除颜色与几何特征的耦合。在CNN特征提取的基础上,添加通道空间注意力机制去引导网络注意特定关键空间区域以及通道的几何特征,特别是对于源域输入检索图像,能有效减少背景的干扰,使得网络聚焦学习前景目标区域的特征,而不是复杂背景;以自注意力机制挖掘了多张视角灰度渲染图之间的信息关联,最后在输入检索图像和多视角灰度渲染图之间使用交叉注意力机制融合多视图特征;同时损失函数使用实例对比损失与语义类别对比损失相结合,提升单目图像三维模型检索的实例与语义精确度。
在一种可选的实施例中,所述室内布局初步估计参数包括:相机姿态初步估计参数和室内布局边界框初步估计参数;
则,对所述室内图像进行布局估计,得到室内布局初步估计参数,包括:
对所述室内图像进行视觉特征提取;
其中,使用CNN特征提取器fl(·)提取视觉特征fl∈R2048。
采用第一多层感知网络对所述室内图像的视觉特征进行布局估计,得到相机姿态初步估计参数;
示例性,所述第一多层感知网络包括两层MLP,隐藏层大小为1024;所述室内图像的视觉特征fl经过两层MLP,隐藏层大小为1024,直接回归得到相机姿态初步估计参数,包括:俯仰角β和翻滚角γ,具体计算公式如下:
β,γ=Linear(Dropout(ReLU(Linear(fl))))。
采用第二多层感知网络对所述室内图像的视觉特征进行布局估计,得到室内布局边界框初步估计参数。
示例性,所述第二多层感知网络包括三层MLP,隐藏层大小依次为2048、1024;所述室内图像的视觉特征fl通过三层MLP,隐藏层大小依次为2048、1024,直接回归得到室内布局边界框初步估计参数,包括:中心点三维坐标Cl,布局方向θl以及布局三维尺寸大小sl,具体计算公式如下:
fl1=Dropout(ReLU(Linear(fl)));
Cl,sl=Linear(Dropout(ReLU(Linear(fl1))));
θl=Linear(Dropout(ReLU(Linear(fl1))))。
在一种可选实施例中,所述对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数,包括:
计算任意两个物体的二维边界框之间的几何关系特征,并对所述几何关系特征进行位置编码,得到相应两个物体的编码特征;
对每个物体的第一物体图像进行视觉特征提取;
根据每个物体的视觉特征和相应的编码特征,计算每个物体的关系特征;
对每个物体的关系特征进行级联聚合,得到相应物体的关系视觉特征;
采用第三多层感知网络对相应物体的关系视觉特征进行处理,得到相应物体的三维边界框初步估计参数。
进一步,所述根据每个物体的视觉特征和相应的编码特征,计算每个物体的关系特征,包括:
根据每个物体的视觉特征,计算相应物体的视觉注意力分数;
根据相应的编码特征,计算相应物体的几何注意力分数;
根据所述视觉注意力分数和所述几何注意力分数,计算相应物体的权重;
根据每个物体的视觉特征及其相应的权重,得到相应物体的关系特征。
为了方便理解,下面对上述三维目标检测的整体流程进行说明,具体如下:
其中i表示从0到dg/4的整数字。
其中Iw为输入的室内图像的宽度,Ih为为输入的室内图像的高度。
然后将提取出的每个物体的第二物体图像的视觉特征视通过线性映射/>分别得到Qi,Ki,Qi表示注意力机制中的查询向量;/>表示查询向量线性映射参数矩阵,Ki表示注意力机制中的键向量,/>表示键向量线性映射参数矩阵,/>
其中,k表示室内图像二维检测物体中的第k个。
在本发明实施例中,第三多层感知网络包括两层MLP,隐藏层大小为128。物体的关系视觉特征通过两层MLP,隐藏层大小为128,直接回归得到物体三维边界框初步估计参数(δ,d,s,θ),具体计算公式如下:
在一种可选的实施例中,所述根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,包括:
根据所述室内图像的视觉特征、所述相机姿态初步估计参数和所述室内布局边界框初步估计参数进行场景布局节点编码,得到场景布局节点;
根据相应物体的关系视觉特征和所述三维边界框初步估计参数进行物体对象编码,得到物体对象节点;
对所述场景布局节点与所述物体对象节点之间添加关系节点,对两个所述物体对象节点之间添加关系节点;
根据所述场景布局节点、所述物体对象节点、所述场景布局节点与所述物体对象节点之间的关系节点以及两个所述物体对象节点之间的关系节点,构建场景图。
在一种可选的实施例中,所述对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数,包括:
采用图卷积神经网络对所述场景图中的实体节点和关系节点进行消息传递更新,得到更新后的场景图;其中,所述实体节点包括:场景布局节点、物体对象节点;
根据更新后的场景图的实体节点和关系节点,计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差;
其中,所述关系节点包括:所述场景布局节点与所述物体对象节点之间的关系节点以及两个所述物体对象节点之间的关系节点;
根据所述相机姿态初步估计参数、所述室内布局边界框初步估计参数、所述相机姿态初步估计参数的偏差以及所述相机姿态初步估计参数的偏差,得到最终的室内布局估计参数;
根据所述三维边界框初步估计参数和所述三维边界框初步参数的偏差,得到最终的三维边界框估计参数。
进一步,所述根据更新后的场景图的实体节点和关系节点,计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差,包括:
采用第四多层感知网络对更新后的场景图的关系节点进行处理,得到相机姿态初步估计参数的偏差;
采用第五多层感知网络对更新后的场景图的关系节点进行处理,得到室内布局边界框初步估计参数的偏差;
采用第六多层感知网络对更新后的场景图的实体节点进行处理,得到三维边界框初步参数的偏差。
为了方便理解,下面对上述场景图构建和图推理的整体流程进行说明,具体如下:
场景图中节点嵌入包括:场景布局节点、物体对象节点以及实体节点之间的关系节点,该关系节点为双向关系节点;则有:
场景布局节点编码:对于所述室内图像的视觉特征fl,所述相机姿态初步参数β,γ,所述室内布局边界框初步参数:中心点三维坐标Cl,布局方向θl以及布局三维尺寸大小sl以及归一化相机内参先验矩阵K,首先统一扁平化展开成一维向量然后顺序连接得初始组合特征,接着对其使用一个2层的MLP非线性变换,得到场景布局节点Zl∈R512,具体计算公式如下:
Zl=Linear(ReLU(Linear(flatten(fl,β,γ,Cl,θl,sl,K))))。
关系节点编码:在场景图节点之间添加关系节点。对于场景布局节点与物体对象节点之间的关系节点设置常量值初始化,后续利用图卷积神经网络推断它们之间合理的关系节点特征。对于连接物体对象节点与物体对象节点之间双向关系节点,使用上述编码后得到的二维边界框的几何关系特征/> 以及所述框角坐标/> 扁平化级联。每对物体对象节点对应两个有向关系节点,按照源节点到目标节点的方向性顺序连接归一化框角坐标。具体关系节点/>计算公式如下:
场景图G包含N个物体对象和1个场景布局,则所有物体对象节点等价于/>以及场景布局节点Zl等价于/>则物体与场景布局等实体节点特征可以用矩阵Zo∈Rd×(N+1)来表示,所有对象-对象关系节点/>和布局-对象节点/>可以用/>表示,其中d为所述场景图中所有节点的编码嵌入向量长度。
采用图卷积神经网络进行图推理的过程如下:
则对于场景图中的实体节点的zo更新一次可以用以下公式计算:
zo1=σ(zo+WsdZo+WrsZrαrs+WrdZrαrd);
其中,WrsZrαrs+WrdZrαrd表示从相邻的关系节点传递消息,WsdZo表示从实体节点传递消息,σ为Sigmoid激活函数。
对于场景图中的关系节点的更新一次可以用如下所示:
zr1=σ(zr+WsrZoαsr+WdrZoαdr);
其中,WsrZoαsr+WdrZoαdr表示从场景布局节点或者相邻节点传递消息。
图卷积神经网络经过四次消息传递更新步骤后停止消息传递,输出更新后的场景图,根据上述实体节点和关系节点的更新操作,得到更新四次后的每个实体节点zo4与每个关系节点zr4,从而得到Zo4∈Rd×(N+1)与
对于场景布局与物体对象之间的空间关系进行显示建模,构建了支撑关系与邻近关系两种空间关系。
如果物体三维边界框的下表面与场景布局边界框的下表面足够接近,距离小于阈值即可判断二者存在支撑关系;对更新四次后的实体节点中的场景布局节点与物体对象间的双向关系节点级联,送入一个独立的两层MLP结合交叉熵损失函数预测是否存在支撑关系。计算公式如下:
例如,y1对应真实标签独热编码(one-hot)中y1=(1,0)表示存在支撑关系,y1=(0,1)表示不存在支撑关系。
物体与场景布局的邻近关系用来衡量物体与场景布局墙面靠近接触的关系,若物体沿水平方向将边界框的尺寸扩大一定阈值,物体边界框与场景布局发生碰撞,则认为二者存在邻近关系。对于更新四次后的实体节点中的场景布局节点与物体对象间的双向关系节点级联,送入一个独立的两层MLP结合交叉熵损失函数预测是否存在邻近关系。计算公式如下:
例如,y2对应真实标签独热编码(one-hot)中y2=(1,0)表示存在邻近关系,y2=(0,1)表示不存在邻近关系。
对于物体对象与物体对象之间的空间关系进行显示建模,构建了支撑关系,邻近关系以及朝向关系三种空间关系。当物体I在物体J的上方顶部很接近,物体I边界框的下表面与物体J的上表面之间的距离小于阈值,并且物体I与物体J在地面上投影的IOU高于阈值时,判定对象I和对象J存在支撑关系。水平邻近关系,用来表示处于同一平面上的物体对象间相互靠近接触的关系,当两个物体分别沿水平方向将边界框的尺寸扩大一定阈值,如果边界框相互碰撞则可判定存在邻近关系。物体之间支撑与邻近关系不会同时发生,因此构造支撑关系,邻近关系,无关系三种关系类别独热编码。
支撑,邻近或者无关系三者之间互斥,y3对应真实标签独热编码(one-hot)中,y3=(1,0,0)表示存在支撑关系,y3=(0,1,0)表示存在邻近关系,y3=(0,0,1)表示无关系。
对场景中物体间朝向关系进行建模,以识别物体的之间相对排列。比如,椅子通常面对桌子等。具体而言,计算物体与物体间三维边界框正面法向量朝向之间的角度差异,将180度区间均匀划分为6个子区间,根据角度差异落在区间对朝向关系进行分类建模。对更新四次后的实体节点中的场景布局节点与物体对象节点之间的双向关系节点与/>级联,送入一个独立的两层MLP结合交叉熵损失函数预测朝向关系。计算公式如下:
将物体与物体间三维边界框正面法向量朝向之间的角度差异按照边界180度均匀划分为6个子区间:y4对应真实标签独热编码(one-hot)中,y4=(1,0,0,0,0,0)表示物体与物体间角度差坐落于区间[0,30);y4=(0,1,0,0,0,0)表示物体与物体间角度差坐落于区间[30,60);y4=(0,0,1,0,0,0)表示物体与物体间角度差坐落于区间[60,90);y4=(0,0,0,1,0,0)表示物体与物体间角度差坐落于区间[90,120);y4=(0,0,0,0,1,0)表示物体与物体间角度差坐落于区间[120,150);y4=(0,0,0,0,0,1)表示物体与物体间角度差坐落于区间[150,180)。
通过添加这些支撑、邻近、朝向关系预测的代理损失,既能够引导网络预测更加准确的场景布局估计与物体三维目标检测,又能预测场景中物体与物体之间的空间关系丰富了场景中的语义信息。
在本发明实施例中,所述第四多层感知网络包括:两层MLP;所述第五多层感知网络包括:三层MLP;所述第六多层感知网络包括:两层MLP。则图解码流程如下:
对于所述相机姿态初步参数β,γ以及所述室内布局边界框参数(Cl,sl,θl),和所述相机姿态初步参数的偏差Δβ,Δγ以及所述室内布局边界框参数的偏差(ΔCl,ΔSl,Δθl),二者对应相加得到最终的精确的室内布局估计(包括相机姿态)参数计算公式如下:
对于所述物体三维边界框初步估计参数(δ,d,s,θ),和所述物体三维边界框初步参数的偏差(Δδ,Δd,Δs,Δθ),二者直接对应相加,具体计算公式如下:
在本发明实施例中,通过构建场景关系图建模场景上下文,对场景中物体对象与物体对象,物体对象与场景布局之间的关系进行隐式建模与显示建模,预测物体对象之间的空间关系来丰富场景中的语义信息。对不同类型的图节点,在图编码阶段,嵌入来自不同来源的组合特征,然后利用图卷积神经网络学习彼此间的关系,引导加强节点之间的信息传递,最后图解码初始估计的偏差与初始估计相加得到最终细化后估计,从而联合优化场景布局和对象的位姿尺寸。
在一种可选的实施例中,所述根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建,包括:
将各个物体的三维模型检索结果按照所述室内布局估计参数和所述三维边界框估计参数对齐放置到室内布局中,得到语义重建后的三维场景。
相对于现有技术,本发明实施例基于CAD模型检索和对齐进行室内三维场景语义重建,如图2和3所示,构建场景关系图建模场景物体与布局上下文,从而得到更加准确合理的室内布局和物体位姿尺寸估计,以及物体之间的空间关系;从CAD模型库中检索室内图像中物体的三维模型,在CNN特征提取器的基础上,添加通道空间注意力机制去引导网络注意特定关键空间区域以及通道的几何特征,特别是对于输入第一物体图像,能有效减少背景的干扰,使得网络聚焦学习前景目标区域的特征,而不是复杂背景;以自注意力机制挖掘了多张视角灰度渲染图之间的信息关联,最后在输入第一物体图像和多视角灰度渲染图之间使用交叉注意力机制融合多视图特征;同时损失函数使用实例对比损失与语义类别对比损失相结合,从而三维模型检索的实例准确率与语义准确率高,且不依赖二位实例分割,泛化性和适应性更好;将检索得到的三维模型根据预测的物体位姿尺寸放置在室内布局中,从而得到简洁、结构紧密和功能等效的语义重建CAD场景表示,它具有物体三维模型语义准确、几何形状完整,物体位姿尺寸和室内布局精准,结合物体之间的空间关系来丰富场景中语义信息的特点。
实施例二
请参阅图4,本发明实施例提供了一种室内单视图场景语义重建系统,包括:
二维目标检测模块1,用于对待处理的室内图像进行二维目标检测,得到所述室内图像中每个物体的二维边界框;
布局估计模块2,用于对所述室内图像进行布局估计,得到室内布局初步估计参数;
三维模型检索模块3,用于根据每个物体的二维边界框,对所述室内图像进行第一尺度裁剪,得到每个物体的第一物体图像,并对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果;
三维目标检测模块4,用于根据每个物体的二维边界框,对所述室内图像进行第二尺度裁剪,得到每个物体的第二物体图像,并对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数;
图推理模块5,用于根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,并对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数;
语义重建模块6,用于根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建。
在一种可选的实施例中,所述三维模型检索模块3包括:
图像渲染单元,用于对预先构建的三维CAD模型库中各个三维模型进行多视角渲染,得到每个三维模型的多张灰度渲染图;
颜色增强单元,用于对所述第一物体图像进行颜色转换和增强;
特征提取单元,用于对颜色转换和增强后的第一物体图像和每个三维模型的多张灰度渲染图分别进行特征提取,得到所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征;
注意力机制处理单元,用于利用通道空间注意力机制分别对所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征进行处理,得到所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征;
非线性映射单元,用于分别对所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征进行非线性自适应映射,得到所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的特征向量;
自注意力机制单元,用于利用自注意力机制将所述三维模型的多张灰度渲染图的特征向量间进行处理,得到相应三维模型的多张灰度渲染图的自注意力特征向量;
特征融合单元,用于将所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的自注意力特征向量之间使用交叉注意力机制计算每张灰度渲染图的自注意力特征向量的加权融合权重,从而对相应三维模型的多张灰度渲染图的自注意力特征向量进行融合,得到相应三维模型的嵌入向量;
相似度计算单元,用于计算所述第一物体图像的嵌入向量与各个三维模型的嵌入向量的相似度,并选取相似度最大对应三维模型,作为相应物体的三维模型检索结果。
在一种可选的实施例中,所述室内布局初步估计参数包括:相机姿态初步估计参数和室内布局边界框初步估计参数;
则,布局估计模块2包括:
第一视觉特征提取单元,用于对所述室内图像进行视觉特征提取;
相机姿态初步估计单元,用于采用第一多层感知网络对所述室内图像的视觉特征进行布局估计,得到相机姿态初步估计参数;
室内布局边界框初步估计单元,用于采用第二多层感知网络对所述室内图像的视觉特征进行布局估计,得到室内布局边界框初步估计参数。
在一种可选的实施例中,所述三维目标检测模块4包括:
特征编码单元,用于计算任意两个物体的二维边界框之间的几何关系特征,并对所述几何关系特征进行位置编码,得到相应两个物体的编码特征;
第二视觉特征提取单元,用于对每个物体的第一物体图像进行视觉特征提取;
关系特征计算单元,用于根据每个物体的视觉特征和相应的编码特征,计算每个物体的关系特征;
关系视觉特征聚合单元,用于对每个物体的关系特征进行级联聚合,得到相应物体的关系视觉特征;
三维边界框初步估计单元,用于采用第三多层感知网络对相应物体的关系视觉特征进行处理,得到相应物体的三维边界框初步估计参数。
在一种可选的实施例中,所述图推理模块5包括:
场景布局节点编码单元,用于根据所述室内图像的视觉特征、预先已知的归一化相机内参先验矩阵、所述相机姿态初步估计参数和所述室内布局边界框初步估计参数进行场景布局节点编码,得到场景布局节点;
物体对象节点编码单元,用于根据相应物体的关系视觉特征和所述三维边界框初步估计参数进行物体对象编码,得到物体对象节点;
关系节点添加单元,用于对所述场景布局节点与所述物体对象节点之间添加双向关系节点,对两个所述物体对象节点之间添加双向关系节点;
场景图构建单元,用于根据所述场景布局节点、所述物体对象节点、所述场景布局节点与所述物体对象节点之间的双向关系节点以及两个所述物体对象节点之间的双向关系节点,构建场景图。
在一种可选的实施例中,所述图推理模块5还包括:
场景图更新单元,用于采用图卷积神经网络对所述场景图中的实体节点和关系节点进行消息传递更新,得到更新后的场景图;其中,所述实体节点包括:场景布局节点、物体对象节点;
偏差计算单元,用于根据更新后的场景图的实体节点和关系节点,计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差;
室内布局估计参数计算单元,用于根据所述相机姿态初步估计参数、所述室内布局边界框初步估计参数、所述相机姿态初步估计参数的偏差以及所述相机姿态初步估计参数的偏差,得到最终的室内布局估计参数;
三维边界框估计参数计算单元,用于根据所述三维边界框初步估计参数和所述三维边界框初步参数的偏差,得到最终的三维边界框估计参数。
在一种可选的实施例中,所述语义重建模块6包括:
三维重建单元,用于将各个物体的三维模型检索结果按照所述室内布局估计参数和所述三维边界框估计参数对齐放置到室内布局中,得到语义重建后的三维场景。
在一种可选的实施例中,所述偏差计算单元包括:
相机姿态初步估计参数的偏差计算单元,用于采用第四多层感知网络对更新后的场景图的关系节点进行处理,得到相机姿态初步估计参数的偏差;
室内布局边界框初步估计参数的偏差计算单元,用于采用第五多层感知网络对更新后的场景图的关系节点进行处理,得到室内布局边界框初步估计参数的偏差;
三维边界框初步参数的偏差计算单元,用于采用第六多层感知网络对更新后的场景图的实体节点进行处理,得到三维边界框初步参数的偏差。
在一种可选的实施例中,所述关系特征计算单元包括:
视觉注意力分数计算单元,用于根据每个物体的视觉特征,计算相应物体的视觉注意力分数;
几何注意力分数计算单元,用于根据相应的编码特征,计算相应物体的几何注意力分数;
物体权重计算单元,用于根据所述视觉注意力分数和所述几何注意力分数,计算相应物体的权重;
物体关系特征计算单元,用于根据每个物体的视觉特征及其相应的权重,得到相应物体的关系特征。
需要说明的是,本发明实施例的技术原理和实现的技术效果与实施例一相同,为避免重复,在这里不再赘述。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出多台改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种室内单视图场景语义重建方法,其特征在于,包括:
对待处理的室内图像进行二维目标检测,得到所述室内图像中每个物体的二维边界框;
对所述室内图像进行布局估计,得到室内布局初步估计参数;
根据每个物体的二维边界框,对所述室内图像进行第一尺度裁剪,得到每个物体的第一物体图像,并对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果;
根据每个物体的二维边界框,对所述室内图像进行第二尺度裁剪,得到每个物体的第二物体图像,并对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数;
根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,并对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数;
根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建。
2.如权利要求1所述的室内单视图场景语义重建方法,其特征在于,所述对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果,包括:
对预先构建的三维CAD模型库中各个三维模型进行多视角渲染,得到每个三维模型的多张灰度渲染图;
对所述第一物体图像进行颜色转换和增强;
对颜色转换和增强后的第一物体图像和每个三维模型的多张灰度渲染图分别进行特征提取,得到所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征;
利用通道空间注意力机制分别对所述第一物体图像的图像特征和相应三维模型的多张灰度渲染图的图像特征进行处理,得到所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征;
分别对所述第一物体图像的注意力特征和相应三维模型的多张灰度渲染图的注意力特征进行非线性自适应映射,得到所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的特征向量;
利用自注意力机制将所述三维模型的多张灰度渲染图的特征向量间进行处理,得到相应三维模型的多张灰度渲染图的自注意力特征向量;
将所述第一物体图像的嵌入向量和相应三维模型的多张灰度渲染图的自注意力特征向量之间使用交叉注意力机制计算每张灰度渲染图的自注意力特征向量的加权融合权重,从而对相应三维模型的多张灰度渲染图的自注意力特征向量进行融合,得到相应三维模型的嵌入向量;
计算所述第一物体图像的嵌入向量与各个三维模型的嵌入向量的相似度,并选取相似度最大对应三维模型,作为相应物体的三维模型检索结果。
3.如权利要求1所述的室内单视图场景语义重建方法,其特征在于,所述室内布局初步估计参数包括:相机姿态初步估计参数和室内布局边界框初步估计参数;
则,对所述室内图像进行布局估计,得到室内布局初步估计参数,包括:
对所述室内图像进行视觉特征提取;
采用第一多层感知网络对所述室内图像的视觉特征进行布局估计,得到相机姿态初步估计参数;
采用第二多层感知网络对所述室内图像的视觉特征进行布局估计,得到室内布局边界框初步估计参数。
4.如权利要求3所述的室内单视图场景语义重建方法,其特征在于,所述对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数,包括:
计算任意两个物体的二维边界框之间的几何关系特征,并对所述几何关系特征进行位置编码,得到相应两个物体的编码特征;
对每个物体的第一物体图像进行视觉特征提取;
根据每个物体的视觉特征和相应的编码特征,计算每个物体的关系特征;
对每个物体的关系特征进行级联聚合,得到相应物体的关系视觉特征;
采用第三多层感知网络对相应物体的关系视觉特征进行处理,得到相应物体的三维边界框初步估计参数。
5.如权利要求4所述的室内单视图场景语义重建方法,其特征在于,所述根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,包括:
根据所述室内图像的视觉特征、预先已知的归一化相机内参先验矩阵、所述相机姿态初步估计参数和所述室内布局边界框初步估计参数进行场景布局节点编码,得到场景布局节点;
根据相应物体的关系视觉特征和所述三维边界框初步估计参数进行物体对象编码,得到物体对象节点;
对所述场景布局节点与所述物体对象节点之间添加双向关系节点,对两个所述物体对象节点之间添加双向关系节点;
根据所述场景布局节点、所述物体对象节点、所述场景布局节点与所述物体对象节点之间的双向关系节点以及两个所述物体对象节点之间的双向关系节点,构建场景图。
6.如权利要求5所述的室内单视图场景语义重建方法,其特征在于,所述对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数,包括:
采用图卷积神经网络对所述场景图中的实体节点和关系节点进行消息传递更新,得到更新后的场景图;其中,所述实体节点包括:场景布局节点、物体对象节点;
根据更新后的场景图的实体节点和关系节点,计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差;
根据所述相机姿态初步估计参数、所述室内布局边界框初步估计参数、所述相机姿态初步估计参数的偏差以及所述相机姿态初步估计参数的偏差,得到最终的室内布局估计参数;
根据所述三维边界框初步估计参数和所述三维边界框初步参数的偏差,得到最终的三维边界框估计参数。
7.如权利要求1所述的室内单视图场景语义重建方法,其特征在于,所述根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建,包括:
将各个物体的三维模型检索结果按照所述室内布局估计参数和所述三维边界框估计参数对齐放置到室内布局中,得到语义重建后的三维场景。
8.如权利要求6所述的室内单视图场景语义重建方法,其特征在于,所述根据更新后的场景图的实体节点和关系节点,计算相机姿态初步估计参数的偏差、室内布局边界框初步估计参数的偏差、三维边界框初步参数的偏差,包括:
采用第四多层感知网络对更新后的场景图的关系节点进行处理,得到相机姿态初步估计参数的偏差;
采用第五多层感知网络对更新后的场景图的关系节点进行处理,得到室内布局边界框初步估计参数的偏差;
采用第六多层感知网络对更新后的场景图的实体节点进行处理,得到三维边界框初步参数的偏差。
9.如权利要求4所述的室内单视图场景语义重建方法,其特征在于,所述根据每个物体的视觉特征和相应的编码特征,计算每个物体的关系特征,包括:
根据每个物体的视觉特征,计算相应物体的视觉注意力分数;
根据相应的编码特征,计算相应物体的几何注意力分数;
根据所述视觉注意力分数和所述几何注意力分数,计算相应物体的权重;
根据每个物体的视觉特征及其相应的权重,得到相应物体的关系特征。
10.一种室内单视图场景语义重建系统,其特征在于,包括:
二维目标检测模块,用于对待处理的室内图像进行二维目标检测,得到所述室内图像中每个物体的二维边界框;
布局估计模块,用于对所述室内图像进行布局估计,得到室内布局初步估计参数;
三维模型检索模块,用于根据每个物体的二维边界框,对所述室内图像进行第一尺度裁剪,得到每个物体的第一物体图像,并对所述第一物体图像进行三维模型检索,得到各个物体的三维模型检索结果;
三维目标检测模块,用于根据每个物体的二维边界框,对所述室内图像进行第二尺度裁剪,得到每个物体的第二物体图像,并对根据所述第二物体图像进行三维目标检测,得到相应物体的三维边界框初步估计参数;
图推理模块,用于根据所述室内布局初步估计参数以及所述三维边界框初步估计参数,构建场景图,并对所述场景图进行图推理,得到最终的室内布局估计参数和三维边界框估计参数;
语义重建模块,用于根据各个物体的三维模型检索结果、所述室内布局估计参数和所述三维边界框估计参数,进行三维语义场景重建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310436260.2A CN116385660A (zh) | 2023-04-21 | 2023-04-21 | 室内单视图场景语义重建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310436260.2A CN116385660A (zh) | 2023-04-21 | 2023-04-21 | 室内单视图场景语义重建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116385660A true CN116385660A (zh) | 2023-07-04 |
Family
ID=86978815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310436260.2A Pending CN116385660A (zh) | 2023-04-21 | 2023-04-21 | 室内单视图场景语义重建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385660A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011466A (zh) * | 2023-08-08 | 2023-11-07 | 苏州三垣航天科技有限公司 | 一种基于分段平面算法的三维重建方法 |
CN117422810A (zh) * | 2023-12-19 | 2024-01-19 | 深圳大学 | 结构与参数引导的室内要素规则化与关系推理方法及终端 |
CN117422810B (zh) * | 2023-12-19 | 2024-05-17 | 深圳大学 | 结构与参数引导的室内要素规则化与关系推理方法及终端 |
-
2023
- 2023-04-21 CN CN202310436260.2A patent/CN116385660A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011466A (zh) * | 2023-08-08 | 2023-11-07 | 苏州三垣航天科技有限公司 | 一种基于分段平面算法的三维重建方法 |
CN117011466B (zh) * | 2023-08-08 | 2024-03-29 | 苏州三垣航天科技有限公司 | 一种基于分段平面算法的三维重建方法 |
CN117422810A (zh) * | 2023-12-19 | 2024-01-19 | 深圳大学 | 结构与参数引导的室内要素规则化与关系推理方法及终端 |
CN117422810B (zh) * | 2023-12-19 | 2024-05-17 | 深圳大学 | 结构与参数引导的室内要素规则化与关系推理方法及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Deep learning approach to point cloud scene understanding for automated scan to 3D reconstruction | |
US10297070B1 (en) | 3D scene synthesis techniques using neural network architectures | |
CN108416840B (zh) | 一种基于单目相机的三维场景稠密重建方法 | |
CN107622244B (zh) | 一种基于深度图的室内场景精细化解析方法 | |
CN109754417A (zh) | 从图像中无监督学习几何结构的系统与方法 | |
Li et al. | Camera localization for augmented reality and indoor positioning: a vision-based 3D feature database approach | |
JP7439153B2 (ja) | 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み | |
KR20190126857A (ko) | 이미지에서 오브젝트 검출 및 표현 | |
CN111881804A (zh) | 基于联合训练的姿态估计模型训练方法、系统、介质及终端 | |
CN115661246A (zh) | 一种基于自监督学习的姿态估计方法 | |
Phalak et al. | Scan2plan: Efficient floorplan generation from 3d scans of indoor scenes | |
US20230351724A1 (en) | Systems and Methods for Object Detection Including Pose and Size Estimation | |
Wen et al. | Cooperative indoor 3D mapping and modeling using LiDAR data | |
CN116385660A (zh) | 室内单视图场景语义重建方法及系统 | |
CN115018999A (zh) | 一种多机器人协作的稠密点云地图构建方法及装置 | |
CN114612612A (zh) | 人体姿态估计方法及装置、计算机可读介质、电子设备 | |
Sun et al. | Sequential fusion of multi-view video frames for 3D scene generation | |
Mohan et al. | Room layout estimation in indoor environment: a review | |
WO2023178951A1 (zh) | 图像分析方法、模型的训练方法、装置、设备、介质及程序 | |
Chang et al. | Multi-view 3d human pose estimation with self-supervised learning | |
CN112802202A (zh) | 图像处理方法、装置、电子设备及计算机存储介质 | |
Pajares et al. | Relaxation labeling in stereo image matching | |
Li et al. | Few-shot meta-learning on point cloud for semantic segmentation | |
CN115359508A (zh) | 通过专家的神经元优化以提高的效率执行复杂优化任务 | |
CN114155406A (zh) | 一种基于区域级特征融合的位姿估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |