CN117409209B - 一种多任务感知的三维场景图要素分割与关系推理方法 - Google Patents
一种多任务感知的三维场景图要素分割与关系推理方法 Download PDFInfo
- Publication number
- CN117409209B CN117409209B CN202311727058.1A CN202311727058A CN117409209B CN 117409209 B CN117409209 B CN 117409209B CN 202311727058 A CN202311727058 A CN 202311727058A CN 117409209 B CN117409209 B CN 117409209B
- Authority
- CN
- China
- Prior art keywords
- super
- voxel
- dimensional
- semantic
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000008447 perception Effects 0.000 title claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 58
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000013507 mapping Methods 0.000 claims abstract description 21
- 238000005096 rolling process Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000007499 fusion processing Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012946 outsourcing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 235000019580 granularity Nutrition 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多任务感知的三维场景图要素分割与关系推理方法,方法包括:获取场景的语义信息,根据所述场景的语义信息进行点云体素化处理以及几何特征融合处理,并通过能量函数获取规则边界的超体素;将所述超体素输入超体素全景分割模型,得到所述超体素中包含的语义与实例编码信息;建立所述超体素与实例的映射关系,根据所述映射关系对图卷积神经网络进行训练,得到训练后的图卷积神经网络;根据所述训练后的图卷积神经网络得到所述场景的三维场景图要素以及各要素对应的关系;本发明提出的三维场景图要素分割与关系推理方法,解决了现有的三维场景图要素分割方法还存在室内三维要素语义分割以及关系推理精度较低的技术问题。
Description
技术领域
本发明涉及三维场景图分割领域,尤其涉及的是一种多任务感知的三维场景图要素分割与关系推理方法。
背景技术
现有的室内三维结构化模型,主要用于室内空间数据管理和交互,可描述室内场景路径拓扑及部分要素信息,并未考虑机器人在复杂任务执行过程中对细粒度要素和深层次语义关系的需求;因此,面向室内机器人精细化、复杂化智能任务需求,急需一个能够完整、准确描述室内要素几何、语义及关系,且具备语义检索和分析推理能力的结构化模型支撑。
因此,现有的三维场景要素分割方法还存在室内三维要素语义分割以及关系推理精度较低的技术问题。
发明内容
本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种多任务感知的三维场景图要素分割与关系推理方法,以解决现有的三维场景图要素分割方法还存在室内三维要素语义分割以及关系推理精度较低的技术问题。
本发明解决技术问题所采用的技术方案如下:
第一方面,本发明提供一种多任务感知的三维场景图要素分割与关系推理方法,包括:
获取场景的语义信息,根据所述场景的语义信息进行点云体素化处理以及几何特征融合处理,并通过能量函数获取规则边界的超体素;
将所述超体素输入超体素全景分割模型,得到所述超体素中包含的语义与实例编码信息;
建立所述超体素与实例的映射关系,根据所述映射关系对图卷积神经网络进行训练,得到训练后的图卷积神经网络;
根据所述训练后的图卷积神经网络得到所述场景的三维场景图要素以及各要素对应的关系。
在一种实现方式中,所述获取场景的语义信息,根据所述场景的语义信息进行点云体素化处理以及几何特征融合处理,并通过能量函数获取规则边界的超体素,包括:
对视角覆盖完整场景的多视图影像进行语义分割,获取所述场景的语义信息;
对所述场景进行点云体素化处理,计算体素的法向量和局部曲率,得到二维语义特征和三维几何特征;
将所述二维语义特征和所述三维几何特征融合,并通过能量函数获取规则边界的超体素。
在一种实现方式中,所述将所述二维语义特征和所述三维几何特征融合,并通过能量函数获取规则边界的超体素,包括:
将所述二维语义特征进行体素投影,实现所述二维语义特征与所述三维几何特征的融合,并构造能量函数;
通过最小二乘法优化所述能量函数,生成初始超体素代表点;
通过交换所述初始超体素的边界体素,优化所述能量函数获取规则边界的超体素。
所述超体素全景分割模型包括:超体素特征提取模块、查询特征学习模块和全景分割模块。
在一种实现方式中,所述将所述超体素输入超体素全景分割模型,得到所述超体素中包含的语义与实例编码信息,包括:
将所述超体素输入超体素全景分割模型;
采用卷积神经网络的点云特征提取方法得到内部体素特征;
对所述内部体素特征进行均值计算,得到超体素质心点,将所述超体素质心点作为全景分割的基本单元;
通过所述超体素的邻接关系,得到所述超体素质心点的相邻超体素质心点;
将所述超体素质心点和所述相邻超体素质心点输入卷积,得到所述超体素的局部特征;
基于掩码交叉注意力对所述局部特征进行解码和自相似计算,得到查询特征;
通过两个前馈神经网络表示所述查询特征中包含的语义与实例编码信息。
在一种实现方式中,所述建立所述超体素与实例的映射关系,根据所述映射关系对图卷积神经网络进行训练,得到训练后的图卷积神经网络,包括:
基于超体素卷积特征、实例编码信息、超体素质心点以及超体素外包盒信息对所述实例的超体素进行特征编码,得到实例掩码;
根据所述实例掩码对超体素特征进行均值计算,并将计算结果作为所述实例的特征描述;
通过网络上采样建立所述超体素与所述实例的映射关系;
将经过特征编码的超体素作为节点,并与所述实例之间的关系作为边,对所述图卷积神经网络进行初始化;
建立损失函数对所述图卷积神经网络进行训练,得到所述训练后的图卷积神经网络。
在一种实现方式中,所述根据所述训练后的图卷积神经网络得到所述场景的三维场景图要素以及各要素对应的关系,包括:
通过所述超体素全景分割模型对所述场景进行全景分割与特征提取,完成语义-实例检测并得到几何特征;
将所述语义-实例和所述几何特征输入所述图卷积神经网络对所述场景内的要素语义关系进行预测,得到所述场景的三维场景图要素以及各要素对应的关系。
在一种实现方式中,所述根据所述训练后的图卷积神经网络得到所述场景的三维场景图要素以及各要素对应的关系,包括:
将所述三维场景图要素作为主体,与所述三维场景图要素发生关系的另一要素作为对象,以及两个要素间的相关关系作为谓词;
由所述主体、所述对象以及所述谓词构成所述各要素对应的关系。
第二方面,本发明还提供一种终端,包括:处理器以及存储器,所述存储器存储有多任务感知的三维场景图要素分割与关系推理程序,所述多任务感知的三维场景图要素分割与关系推理程序被所述处理器执行时用于实现如第一方面所述的多任务感知的三维场景图要素分割与关系推理方法的操作。
第三方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多任务感知的三维场景图要素分割与关系推理程序,所述多任务感知的三维场景图要素分割与关系推理程序被处理器执行时用于实现如第一方面所述的多任务感知的三维场景图要素分割与关系推理方法的操作。
本发明采用上述技术方案具有以下效果:
本发明通过获取场景的语义特征,并将二维语义特征与三维几何特征融合构建超体素代表点生成能量方程,实现多粒度超体素聚类以解决面向不同粒度的室内要素分割过程中的尺度不一致以及局部语义不一致问题;再通过超体素全景分割模型,将超体素全景分割问题视为一个集合预测问题,来同时完成语义-实例的检测,提高室内三维要素语义分割的一致性;最后将实例嵌入图卷积神经网络进行训练,得到训练后的图卷积神经网络,通过训练后的图卷积神经网络对场景内要素语义关系进行预测,实现要素三维场景图的构建;本发明提出的一种多任务感知的三维场景图要素分割与关系推理方法,解决了现有的三维场景图要素分割方法还存在室内三维要素语义分割以及关系推理精度较低的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明的一种实现方式中多任务感知的三维场景图要素分割与关系推理方法的流程图。
图2是本发明的一种实现方式中多任务感知的三维场景图要素分割与关系推理方法流程的示意图。
图3是本发明的一种实现方式中语义约束的多粒度超体素聚类方法的示意图。
图4是本发明的一种实现方式中多模态特征融合的超体素全景分割的示意图。
图5是本发明的一种实现方式中实例嵌入的要素关系预测的示意图。
图6是本发明的一种实现方式中终端的功能原理图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
本发明提供一种多任务感知的三维场景图要素分割与关系推理方法。为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
示例性方法
近年来,场景图已经成为编码图像语义和上下文信息的重要表达方式,场景图通常由相互连接的节点组成的稠密语义网络进行表达;它在图像描述、视觉问答和图像生成或编辑方面具有优越的分析能力。三维场景图作为一种新的三维数据表达方法,可以更好地抽象表达三维场景语义信息,它的“节点”可以表示三维场景中的要素,而“边”则用来表示这些要素之间的相互关系;而现有的室内三维结构化模型,主要用于室内空间数据管理和交互,可描述室内场景路径拓扑及部分要素信息,并未考虑机器人在复杂任务执行过程中对细粒度要素和深层次语义关系的需求,导致室内三维要素语义分割以及关系推理的精度较低。
针对上述技术问题,本发明实施例提供了一种多任务感知的三维场景图要素分割与关系推理方法,通过获取场景的语义特征,并将二维语义特征与三维几何特征融合构建超体素代表点生成能量方程,实现多粒度超体素聚类以解决面向不同粒度的室内要素分割过程中的尺度不一致以及局部语义不一致问题;再通过超体素全景分割模型,将超体素全景分割问题视为一个集合预测问题,来同时完成语义-实例的检测,提高室内三维要素语义分割的一致性;最后将实例嵌入图卷积神经网络进行训练,得到训练后的图卷积神经网络,通过训练后的图卷积神经网络对场景内要素语义关系进行预测,实现要素三维场景图的构建;本发明提出的一种多任务感知的三维场景图要素分割与关系推理方法,解决了现有的三维场景图要素分割方法还存在室内三维要素语义分割以及关系推理精度较低的技术问题。
如图1所示,本发明实施例提供一种多任务感知的三维场景图要素分割与关系推理方法,包括以下步骤:
步骤S100,获取场景的语义信息,根据所述场景的语义信息进行点云体素化处理以及几何特征融合处理,并通过能量函数获取规则边界的超体素。
在本实施例中,所述多任务感知的三维场景图要素分割与关系推理方法应用于终端中,所述终端包括但不限于:计算机以及移动终端等设备;所述终端设置有多任务感知的三维场景图要素分割与关系推理方法的训练平台。
在本实施例中,如图2所示,首先融合要素几何相似性和语义相似性约束的多粒度超体素聚类方法,将超体素全景分割问题视为一个集合预测问题,构建多模态特征融合的超体素全景分割模型;随后基于图卷积神经网络,采用实例嵌入的要素关系推理方法,实现三维场景图“实体要素”信息提取与关系推理。
在本实施例中,所示现有的基于三维点云的语义理解方法主要基于位置、颜色和邻域等信息完成单点特征描述,其特征描述算子缺乏全局视野,在语义分类过程中容易存在特征混淆导致局部语义不一致问题;同时,现有方法在数据预处理阶段,对点云进行统一采样,未考虑不同尺度要素特征保持问题,例如降采样后桌面的杯子可能仅包含少量点,无法准确描述细粒度要素的几何特征;针对以上问题,本实施例采用语义约束的多粒度超体素聚类方法,旨在实现尺度自适应性的超体素分割,以解决面向不同粒度的室内要素分割过程中的尺度不一致以及局部语义不一致问题。
具体地,在本发明实施例的一种实现方式中,所述步骤S100包括以下步骤:
步骤S110,对视角覆盖完整场景的多视图影像进行语义分割,获取所述场景的语义信息;
步骤S120,对所述场景进行点云体素化处理,计算体素的法向量和局部曲率,得到二维语义特征和三维几何特征;
步骤S130,将所述二维语义特征和所述三维几何特征融合,并通过能量函数获取规则边界的超体素;
步骤S140,将所述二维语义特征进行体素投影,实现所述二维语义特征与所述三维几何特征的融合,并构造能量函数;
步骤S150,通过最小二乘法优化所述能量函数,生成初始超体素代表点;
步骤S160,通过交换所述初始超体素的边界体素,优化所述能量函数获取规则边界的超体素。
在本实施例中,如图3所示,先将对视角覆盖完整场景的多视图RGBD(Red GreenBlue Depth 普通RGB色彩模式的基础上添加了一个深度通道)图像进行语义分割,即根据所述多视图RGBD图像类别的异同,分割成多个图像块;获取场景的语义信息,同时将场景点云体素化后,针对每一个体素,基于最邻近算法搜索与体素相邻的其他体素信息,并通过最小二乘优化计算体素的法向量和局部曲率信息,以得到二维语义特征和三维几何特征。
在本实施例中,将所述多视图RGBD图像的语义分割结果进行体素投影,具体为根据二维图像即所述多视图RGBD图像的空间位姿信息以及深度信息,计算二维图像与三维空间的映射关系,进而将二维图像的分割结果映射到三维空间,从而实现二维语义特征与三维几何特征的融合。
在本实施例中,进而基于体素特征描述,将几何相似性和语义相似性融合,具体为每一个体素可以通过最邻近搜索算法获取相邻点云,基于该点云可以计算得到其几何特征,那么不同的体素之间的几何相似性就可以通过几何特征相减得到;同时经过二维图像投影之后,同一个类型的体素需要保证其语义相同;因此可以将几何和语义特征的误差联合,构建能量函数(如式1所示),并通过距离最小化生成初始超体素代表点。
在本实施例中,最后由于初始超体素边界存在一定的误差,在进行超体素优化过程中,可以对超体素中体素的类型标签进行修改,修改后则会属于另一个超体素,通过交换超体素边界体素以此完成超体素边界的优化,从而进一步优化的能量函数以获取规则边界的超体素。
(1),
其中,为体素间几何相似性约束,/>为体素间语义相似性距离约束;/>是根据语义类别计算对应的总超体素数后以松弛项的形式加入能量函数;通过优化该能量函数,能够得出初步的超体素代表点集{zij}并为各代表点分配所属点,得到初步的超体素分割结果,并且考虑到二维语义分割结果存在边缘误差和超体素聚类误差,在生成的超体素边缘容易存在锯齿状;在此基础上本发明将根据体素几何特征对超体素边缘区域持续优化;具体而言,将通过交换边界体素所属,进一步优化基于几何属性构造的能量函数/>,直到能量函数收敛则停止交换,获得超体素最优分割结果。
如图1所示,本发明实施例提供一种多任务感知的三维场景图要素分割与关系推理方法,包括以下步骤:
步骤S200,将所述超体素输入超体素全景分割模型,得到所述超体素中包含的语义与实例编码信息。
在本实施例中,现有的三维场景图重建方法将语义-实例预测视为两个独立任务,导致分类结果存在语义不一致问题;如图4所示,本实施例通过内部体素特征平均得到超体素质心点,将所述超体素质心点作为全景分割的基本单元,将超体素全景分割问题视为一个集合预测问题,同时完成语义-实例检测;并构建了一个多模态特征融合的超体素全景分割模型,所述超体素全景分割模型网络由超体素特征提取模块、查询特征学习模块和全景分割模块组成。
具体地,在本发明实施例的一种实现方式中,所述步骤S200包括以下步骤:
步骤S210,将所述超体素输入超体素全景分割模型;
步骤S220,采用卷积神经网络的点云特征提取方法得到内部体素特征;
步骤S230,对所述内部体素特征进行均值计算,得到超体素质心点,将所述超体素质心点作为全景分割的基本单元;
步骤S240,通过所述超体素的邻接关系,得到所述超体素质心点的相邻超体素质心点;
步骤S250,将所述超体素质心点和所述相邻超体素质心点输入卷积,得到所述超体素的局部特征;
步骤S260,基于掩码交叉注意力对所述局部特征进行解码和自相似计算,得到查询特征;
步骤S270,通过两个前馈神经网络表示所述查询特征中包含的语义与实例编码信息。
在本实施例中,将超体素输入超体素全景分割模型,并基于卷积神经网络的点云特征提取方法计算得到内部体素特征,将内部体素特征平均得到超体素质心点,并将所述超体素质心点作为全景分割的基本单元;在超体素特征提取模块中将超体素卷积作为超体素特征提取算子,算子能够根据超体素邻接关系实现局部特征提取,具体为通过超体素的领域关系计算,得到相邻的超体素信息,将超体素质心点以及相邻超体素质心点作为输入,通过卷积神经网络对超体素进行卷积,从而实现局部特征提取。
在本实施例中,查询特征学习模块中,在多尺度特征与查询特征向量交互过程中采用MTD(Mask Transformer Decoder 自注意力解码)作为基本解码单元,对提取的局部特征进行解码,并将TE(Transformer模型)中的交叉注意力替换为掩码交叉注意力,将使得自相似性计算时,即对超体素的特征进行点积运算,所述点积是一种常见的计算两个向量相似度的方法,当两个向量进行点积操作时,结果的大小可以反映两个向量的相似性;掩码交叉注意力算子可以避免对掩码外的特征进行计算,可降低解码模块的计算量与显存开销。
在本实施例中,在超体素全景分割模块中,利用两个独立的前馈神经网络,显式地表示出查询特征中包含的语义与实例编码信息;语义分割方面,假设待预测超体素包含多个可能类别,通过语义分割头预测每个超体素类别概率。
如图1所示,本发明实施例提供一种多任务感知的三维场景图要素分割与关系推理方法,还包括以下步骤:
步骤S300,建立所述超体素与实例的映射关系,根据所述映射关系对图卷积神经网络进行训练,得到训练后的图卷积神经网络。
在本实施例中,如图5所示,本实施例采用实例嵌入的图卷积神经网络要素关系预测方法实现不同类型要素之间语义关系的推理;在实例特征编码阶段,针对每个实例,拟融合超体素卷积特征、超体素实例编码、超体素质心以及超体素外包盒信息对超体素进行特征编码,并通过网络上采样建立超体素与实例之间的映射关系,同时根据实例掩码对超体素特征进行均值计算并将其作为该实例的特征描述;进而,将经过特征编码的实例作为节点与实例之间的关系作为边对图卷积神经网络进行初始化,并建立损失函数对图卷积神经网络进行训练。
具体地,在本发明实施例的一种实现方式中,所述步骤S300包括以下步骤:
步骤S310,基于超体素卷积特征、实例编码信息、超体素质心点以及超体素外包盒信息对所述实例的超体素进行特征编码,得到实例掩码;
步骤S320,根据所述实例掩码对超体素特征进行均值计算,并将计算结果作为所述实例的特征描述;
步骤S330,通过网络上采样建立所述超体素与所述实例的映射关系;
步骤S340,将经过特征编码的超体素作为节点,并与所述实例之间的关系作为边,对所述图卷积神经网络进行初始化;
步骤S350,建立损失函数对所述图卷积神经网络进行训练,得到所述训练后的图卷积神经网络。
在本实施例中,在实例特征编码阶段,针对每个实例,拟融合超体素卷积特征、超体素实例编码、超体素质心以及超体素外包盒信息对超体素进行特征编码,并通过网络上采样建立超体素与实例之间的映射关系,具体为通过网络上采样,对超体素进行解码,生成特征向量,进而根据特征向量确定实例类型,实现超体素和实例之间的映射,同时根据实例掩码对超体素特征进行均值计算,并将计算结果作为该实例的特征描述。
在本实施例中,将经过特征编码的实例作为节点,将节点与实例之间的关系作为边对图卷积神经网络进行初始化,并建立损失函数对图卷积神经网络进行训练;在对图卷积网络进行训练时,将场景内的全部实例构建全连接图后,输入图卷积神经网络进行训练,得到训练后的图卷积神经网络。
如图1所示,本发明实施例提供一种多任务感知的三维场景图要素分割与关系推理方法,还包括以下步骤:
步骤S400,根据所述训练后的图卷积神经网络得到所述场景的三维场景图要素以及各要素对应的关系。
具体地,在本发明实施例的一种实现方式中,所述步骤S400包括以下步骤:
步骤S410,通过所述超体素全景分割模型对所述场景进行全景分割与特征提取,完成语义-实例检测并得到几何特征;
步骤S420,将所述语义-实例和所述几何特征输入所述图卷积神经网络对所述场景内的要素语义关系进行预测,得到所述场景的三维场景图要素以及各要素对应的关系;
步骤S430,将所述三维场景图要素作为主体,与所述三维场景图要素发生关系的另一要素作为对象,以及两个要素间的相关关系作为谓词;
步骤S440,由所述主体、所述对象以及所述谓词构成所述各要素对应的关系。
在本实施例中,要素间的语义关系可由主体(subject),谓词(predicate),对象(object)构成的三元组进行描述。其中,主体指要素本身,对象指与其发生关系的另一要素,谓词指两个要素间的相关关系;在图卷积网络中,主体和对象可由图中的节点表示,谓词由节点间的边表示。
在本实施例中,得到训练后的图卷积神经网络后,将首先采用上文所述的超体素全景分割网络对场景进行全景分割与特征提取,随后将输出的语义-实例与几何特征输入图卷积网络对场景内要素语义关系进行预测,实现要素三维场景图的构建,得到所述场景的三维场景图要素以及各要素对应的关系。
本实施例通过上述技术方案达到以下技术效果:
本发明通过获取场景的语义特征,并将二维语义特征与三维几何特征融合构建超体素代表点生成能量方程,实现多粒度超体素聚类以解决面向不同粒度的室内要素分割过程中的尺度不一致以及局部语义不一致问题;再通过超体素全景分割模型,将超体素全景分割问题视为一个集合预测问题,来同时完成语义-实例的检测,提高室内三维要素语义分割的一致性;最后将实例嵌入图卷积神经网络进行训练,得到训练后的图卷积神经网络,通过训练后的图卷积神经网络对场景内要素语义关系进行预测,实现要素三维场景图的构建;本发明提出的一种多任务感知的三维场景图要素分割与关系推理方法,解决了现有的三维场景图要素分割方法还存在室内三维要素语义分割以及关系推理精度较低的技术问题。
示例性设备
基于上述实施例,本发明还提供一种终端,包括:通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块;其中,所述处理器用于提供计算和控制能力;所述存储器包括存储介质以及内存储器;所述存储介质存储有操作系统和计算机程序;所述内存储器为所述存储介质中的操作系统和计算机程序的运行提供环境;所述接口用于连接外部设备,例如,移动终端以及计算机等设备;所述显示屏用于显示相应的信息;所述通讯模块用于与云端服务器或移动终端进行通讯。
所述计算机程序被所述处理器执行时用以实现一种多任务感知的三维场景图要素分割与关系推理方法的操作。
本领域技术人员可以理解的是,图6中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种终端,其中,包括:处理器和存储器,所述存储器存储有多任务感知的三维场景图要素分割与关系推理程序,所述多任务感知的三维场景图要素分割与关系推理程序被所述处理器执行时用于实现如上所述的多任务感知的三维场景图要素分割与关系推理方法的操作。
在一个实施例中,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储有多任务感知的三维场景图要素分割与关系推理程序,所述多任务感知的三维场景图要素分割与关系推理程序被所述处理器执行时用于实现如上所述的多任务感知的三维场景图要素分割与关系推理方法的操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
综上,本发明提供了一种多任务感知的三维场景图要素分割与关系推理方法,方法包括:获取场景的语义信息,根据所述场景的语义信息进行点云体素化处理以及几何特征融合处理,并通过能量函数获取规则边界的超体素;将所述超体素输入超体素全景分割模型,得到所述超体素中包含的语义与实例编码信息;建立所述超体素与实例的映射关系,根据所述映射关系对图卷积神经网络进行训练,得到训练后的图卷积神经网络;根据所述训练后的图卷积神经网络得到所述场景的三维场景图要素以及各要素对应的关系;本发明提出的三维场景图要素分割与关系推理方法,解决了现有的三维场景图要素分割方法还存在室内三维要素语义分割以及关系推理精度较低的技术问题。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种多任务感知的三维场景图要素分割与关系推理方法,其特征在于,所述多任务感知的三维场景图要素分割与关系推理方法包括以下步骤:
获取场景的语义信息,根据所述场景的语义信息进行点云体素化处理以及几何特征融合处理,并通过能量函数获取规则边界的超体素;
将所述超体素输入超体素全景分割模型,得到所述超体素中包含的语义与实例编码信息;
建立所述超体素与实例的映射关系,根据所述映射关系对图卷积神经网络进行训练,得到训练后的图卷积神经网络;
根据所述训练后的图卷积神经网络得到所述场景的三维场景图要素以及各要素对应的关系。
2.根据权利要求1所述的多任务感知的三维场景图要素分割与关系推理方法,其特征在于,所述获取场景的语义信息,根据所述场景的语义信息进行点云体素化处理以及几何特征融合处理,并通过能量函数获取规则边界的超体素,包括:
对视角覆盖完整场景的多视图影像进行语义分割,获取所述场景的语义信息;
对所述场景进行点云体素化处理,计算体素的法向量和局部曲率,得到二维语义特征和三维几何特征;
将所述二维语义特征和所述三维几何特征融合,并通过能量函数获取规则边界的超体素。
3.根据权利要求2所述的多任务感知的三维场景图要素分割与关系推理方法,其特征在于,所述将所述二维语义特征和所述三维几何特征融合,并通过能量函数获取规则边界的超体素,包括:
将所述二维语义特征进行体素投影,实现所述二维语义特征与所述三维几何特征的融合,并构造能量函数;
通过最小二乘法优化所述能量函数,生成初始超体素代表点;
通过交换所述初始超体素的边界体素,优化所述能量函数获取规则边界的超体素。
4.根据权利要求1所述的多任务感知的三维场景图要素分割与关系推理方法,其特征在于,所述超体素全景分割模型包括:超体素特征提取模块、查询特征学习模块和全景分割模块。
5.根据权利要求4所述的多任务感知的三维场景图要素分割与关系推理方法,其特征在于,所述将所述超体素输入超体素全景分割模型,得到所述超体素中包含的语义与实例编码信息,包括:
将所述超体素输入超体素全景分割模型;
采用卷积神经网络的点云特征提取方法得到内部体素特征;
对所述内部体素特征进行均值计算,得到超体素质心点,将所述超体素质心点作为全景分割的基本单元;
通过所述超体素的邻接关系,得到所述超体素质心点的相邻超体素质心点;
将所述超体素质心点和所述相邻超体素质心点输入卷积,得到所述超体素的局部特征;
基于掩码交叉注意力对所述局部特征进行解码和自相似计算,得到查询特征;
通过两个前馈神经网络表示所述查询特征中包含的语义与实例编码信息。
6.根据权利要求1所述的多任务感知的三维场景图要素分割与关系推理方法,其特征在于,所述建立所述超体素与实例的映射关系,根据所述映射关系对图卷积神经网络进行训练,得到训练后的图卷积神经网络,包括:
基于超体素卷积特征、实例编码信息、超体素质心点以及超体素外包盒信息对所述实例的超体素进行特征编码,得到实例掩码;
根据所述实例掩码对超体素特征进行均值计算,并将计算结果作为所述实例的特征描述;
通过网络上采样建立所述超体素与所述实例的映射关系;
将经过特征编码的超体素作为节点,并与所述实例之间的关系作为边,对所述图卷积神经网络进行初始化;
建立损失函数对所述图卷积神经网络进行训练,得到所述训练后的图卷积神经网络。
7.根据权利要求1所述的多任务感知的三维场景图要素分割与关系推理方法,其特征在于,所述根据所述训练后的图卷积神经网络得到所述场景的三维场景图要素以及各要素对应的关系,包括:
通过所述超体素全景分割模型对所述场景进行全景分割与特征提取,完成语义-实例检测并得到几何特征;
将所述语义-实例和所述几何特征输入所述图卷积神经网络对所述场景内的要素语义关系进行预测,得到所述场景的三维场景图要素以及各要素对应的关系。
8.根据权利要求7所述的多任务感知的三维场景图要素分割与关系推理方法,其特征在于,所述根据所述训练后的图卷积神经网络得到所述场景的三维场景图要素以及各要素对应的关系,还包括:
将所述三维场景图要素作为主体,与所述三维场景图要素发生关系的另一要素作为对象,以及两个要素间的相关关系作为谓词;
由所述主体、所述对象以及所述谓词构成所述各要素对应的关系。
9.一种终端,其特征在于,包括:处理器以及存储器,所述存储器存储有多任务感知的三维场景图要素分割与关系推理程序,所述多任务感知的三维场景图要素分割与关系推理程序被所述处理器执行时用于实现如权利要求1-8中任意一项所述的多任务感知的三维场景图要素分割与关系推理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多任务感知的三维场景图要素分割与关系推理程序,所述多任务感知的三维场景图要素分割与关系推理程序被处理器执行时用于实现如权利要求1-8中任意一项所述的多任务感知的三维场景图要素分割与关系推理方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311727058.1A CN117409209B (zh) | 2023-12-15 | 2023-12-15 | 一种多任务感知的三维场景图要素分割与关系推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311727058.1A CN117409209B (zh) | 2023-12-15 | 2023-12-15 | 一种多任务感知的三维场景图要素分割与关系推理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117409209A CN117409209A (zh) | 2024-01-16 |
CN117409209B true CN117409209B (zh) | 2024-04-16 |
Family
ID=89500429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311727058.1A Active CN117409209B (zh) | 2023-12-15 | 2023-12-15 | 一种多任务感知的三维场景图要素分割与关系推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409209B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111615706A (zh) * | 2017-11-17 | 2020-09-01 | 脸谱公司 | 基于子流形稀疏卷积神经网络分析空间稀疏数据 |
CN112085066A (zh) * | 2020-08-13 | 2020-12-15 | 南京邮电大学 | 基于图卷积神经网络的体素化三维点云场景分类方法 |
CN114255238A (zh) * | 2021-11-26 | 2022-03-29 | 电子科技大学长三角研究院(湖州) | 一种融合图像特征的三维点云场景分割方法及系统 |
CN115830266A (zh) * | 2022-11-07 | 2023-03-21 | 珠海金山数字网络科技有限公司 | 游戏三维场景图处理方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11189078B2 (en) * | 2018-06-20 | 2021-11-30 | Google Llc | Automated understanding of three dimensional (3D) scenes for augmented reality applications |
-
2023
- 2023-12-15 CN CN202311727058.1A patent/CN117409209B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111615706A (zh) * | 2017-11-17 | 2020-09-01 | 脸谱公司 | 基于子流形稀疏卷积神经网络分析空间稀疏数据 |
CN112085066A (zh) * | 2020-08-13 | 2020-12-15 | 南京邮电大学 | 基于图卷积神经网络的体素化三维点云场景分类方法 |
CN114255238A (zh) * | 2021-11-26 | 2022-03-29 | 电子科技大学长三角研究院(湖州) | 一种融合图像特征的三维点云场景分割方法及系统 |
CN115830266A (zh) * | 2022-11-07 | 2023-03-21 | 珠海金山数字网络科技有限公司 | 游戏三维场景图处理方法及装置 |
Non-Patent Citations (3)
Title |
---|
3D Dynamic Scene Graphs: Actionable Spatial Perception with Places, Objects, and Humans;Antoni Rosinol等;arXiv;20200616;第1-11页 * |
平面特征保持的城市三维点云高精度分类方法;黄俊杰 等;测绘科学;20230331;第48卷(第3期);第6-15页 * |
超体素随机森林与LSTM神经网络联合优化的室内点云高精度分类方法;汤圣君 等;武汉大学学报;20230430;第48卷(第4期);第525-533页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117409209A (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109559320B (zh) | 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统 | |
JP7376233B2 (ja) | ピクセルワイズ分類器による2dフロアプランのセマンティックセグメンテーション | |
CN106204522B (zh) | 对单个图像的联合深度估计和语义标注 | |
US20160019711A1 (en) | Contour completion for augmenting surface reconstructions | |
US20220222824A1 (en) | Fully automated multimodal system architecture for semantic segmentation of large-scale 3d outdoor point cloud data | |
KR102305230B1 (ko) | 객체 경계정보의 정확도 개선방법 및 장치 | |
CN108985298B (zh) | 一种基于语义一致性的人体衣物分割方法 | |
KR102305229B1 (ko) | 객체 경계정보의 추출에 사용되는 피쳐맵 정보를 생성하는 방법 및 장치 | |
US11893687B2 (en) | Segmenting a 3D modeled object representing a mechanical assembly | |
US20230326173A1 (en) | Image processing method and apparatus, and computer-readable storage medium | |
CN115983148B (zh) | 一种cfd仿真云图预测方法、系统、电子设备及介质 | |
Pintore et al. | Deep3dlayout: 3d reconstruction of an indoor layout from a spherical panoramic image | |
US20220270341A1 (en) | Method and device of inputting annotation of object boundary information | |
Wang et al. | Window normalization: enhancing point cloud understanding by unifying inconsistent point densities | |
CN117409209B (zh) | 一种多任务感知的三维场景图要素分割与关系推理方法 | |
CN112446385B (zh) | 一种场景语义分割方法、装置、电子设备 | |
CN114743123A (zh) | 一种基于隐函数三维表示和图神经网络的场景理解方法 | |
Chen et al. | Polyline generative navigable space segmentation for autonomous visual navigation | |
Wu et al. | So (3) rotation equivariant point cloud completion using attention-based vector neurons | |
US20220292352A1 (en) | Machine-learning for 3d segmentation | |
KR102305228B1 (ko) | 객체 경계정보의 추출방법 및 장치 | |
Cuzzocrea et al. | Advanced pattern recognition from complex environments: a classification-based approach | |
CN117422879B (zh) | 原型演化的小样本语义分割方法及系统 | |
Yin et al. | Incremental construction of generalized Voronoi diagrams on pointerless quadtrees | |
CN117152765A (zh) | 模型训练的方法、装置、设备和可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |