CN115953780A - 一种基于多视角信息融合的多维光场复杂场景图构建方法 - Google Patents

一种基于多视角信息融合的多维光场复杂场景图构建方法 Download PDF

Info

Publication number
CN115953780A
CN115953780A CN202310227248.0A CN202310227248A CN115953780A CN 115953780 A CN115953780 A CN 115953780A CN 202310227248 A CN202310227248 A CN 202310227248A CN 115953780 A CN115953780 A CN 115953780A
Authority
CN
China
Prior art keywords
view
dimensional
entity
scene graph
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310227248.0A
Other languages
English (en)
Other versions
CN115953780B (zh
Inventor
方璐
陈泽群
林浩哲
张晋之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202310227248.0A priority Critical patent/CN115953780B/zh
Publication of CN115953780A publication Critical patent/CN115953780A/zh
Application granted granted Critical
Publication of CN115953780B publication Critical patent/CN115953780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多视角信息融合的多维光场复杂场景图构建方法,该方法包括:通过布设多视角相机,对多视角图像信息进行采集,通过深度神经网络进行处理,实现多视角二维对象检测和语义特征提取,利用相机的内外参数进行多视角一致性约束,并进行同一对象的多维特征融合,编码多维语义特征,最终得到全局场景的多维语义场景图。本发明首次实现多维光场复杂场景图生成,且所需硬件系统成本低,算法鲁棒易实施。

Description

一种基于多视角信息融合的多维光场复杂场景图构建方法
技术领域
本发明涉及多视角图像技术领域,特别是涉及一种基于多视角信息融合的多维光场复杂场景图构建方法。
背景技术
多维光场理解是计算机视觉的一个基本任务,在机器人技术和增强现实或混合现实等领域的许多应用都需要它。3DSG(3-DimensionalSceneGraph,多维场景图)旨在从给定形式的多维信息(点云、RGBD图像、全景图像、多视角图像等),构建了一个包括对象(如3Dboundingbox、颜色、形状和其他属性),以及这些对象实体之间的语义关系。这种形式的表达简洁明了,有利于完成更复杂的视觉任务,如图像生成、场景操作或视觉提问和回答。
3D Scene Graph 首先提出了带有多维语义场景图注释的数据集,从室内场景的完整扫描和全景图像出发,将多维场景图视为一个分层的图结构,每个层次代表一个不同的实体:建筑、房间、对象和摄像机。可以添加更多的层来表示其他语义信息源。与二维场景图类似,每个实体都被添加了一些属性,并与其他实体连接起来,形成不同类型的关系。从2D开始,利用框架和多视角一致性这两个约束在3D中逐渐聚合信息。每个约束都提供更健壮的最终结果和一致的语义输出。
SceneGraphFusion提出了一种实时增量构建全局一致语义场景图的方法,依赖于几何分割和一种新型的归纳图网络,该网络可以处理部分多维点云中缺失的边缘和节点。场景节点是原始形状的几何片段。它们的多维特征在聚集邻域分段特征的图网络中传播。该方法预测场景语义,并通过学习过度分割区域集群之间的关系来识别对象实例。提出了第一个在线多维场景图预测,即将当前观测子图的预测逐步融合到一个全局一致的语义图模型中。同时引入了一种新的注意力方法,可以处理部分和不完整的多维数据,以及增量场景图预测所需的高度动态的关系。
尽管利用了增量信息的多维场景图算法已经可以实时构建多维场景图,受制于多维信息采集地困难,仍然难以实现对整个场景宏观地实时更新场景语义信息,在时效上具有一定的滞后性。另一方面,对于精细的多维场景的处理过程会造成较大的计算开销,进一步限制了该算法实现实时全场景表征的潜力。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
针对上述问题,本发明提出了一种基于多视角信息融合的多维光场复杂场景图构建方法,仅需一系列二维的视图和相机标注对即可对待整个光场进行多维语义图构建,大大降低了计算复杂度。
本发明的另一个目的在于提出一种基于多视角信息融合的多维光场复杂场景图构建。
为达上述目的,本发明一方面提出一种基于多视角信息融合的多维光场复杂场景图构建方法,包括:
将多视角的二维图像输入至目标检测模型上进行目标检测得到实体特征,并通过目标关系预测模型预测二维图像中实体之间的语义关系得到单视角的场景图特征;
根据多视图一致性和所述实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果;
根据所述实体再识别结果和相机参数的几何约束构建实体的多维边界框;
利用多视角信息融合算法融合各个视角的所述场景图特征,以根据特征融合结果和推断的基于多维边界框的多维实体间语义关系构建多维光场复杂场景图。
进一步的本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法还可以具有以下附加技术特征:
进一步地,所述目标检测模型为Faster RCNN模型:
将第一场景图输入区域建议网络以输出矩形对象建议,每个矩形对象建议有一个对象得分,通过一个完全卷积网络进行建模,则损失函数为:
Figure SMS_1
其中,i是锚点的索引,
Figure SMS_4
是锚点i成为对象的预测概率,若锚定是正的,基础真实值标签
Figure SMS_7
为1,若锚定是负的,则为0,
Figure SMS_9
是一个向量,表示预测边界框的4个参数化坐标,
Figure SMS_3
是与一个正锚相关联的地面真值边界框,
Figure SMS_5
是分类损失,对于回归损失,使用
Figure SMS_8
定义,其中R是预定义的平滑L1损失函数,这两项损失用
Figure SMS_10
Figure SMS_2
归一化,并用
Figure SMS_6
进行平衡。
进一步地,所述根据多视图一致性和所述实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果,包括:
获取第一相机和第二相机的内参矩阵分别为
Figure SMS_11
Figure SMS_12
,第一坐标系与第二坐标系的外参分别为 R、t,以及世界点P的第一像点为
Figure SMS_13
,世界点P的第二像点为
Figure SMS_14
将第一相机的目标边界框上下中点变换到第二相机的坐标系中得到极线锥:
Figure SMS_15
获取与极线与第二相机中目标边界框相交的目标边界框进行特征对比,以得到最终的实体再识别结果。
进一步地,所述多视角信息融合算法,包括:
两组独立输入信号的概率分布为
Figure SMS_16
Figure SMS_17
的Dempster组合规则
Figure SMS_18
是通过下面公式计算得到的:
Figure SMS_19
其中
Figure SMS_20
是两个质量集之间冲突量的度量,并用
Figure SMS_21
的比例因子进行归一化,得到相应的联合证据和Dirichlet分布参数为:
Figure SMS_22
基于上述组合规则,得到估计的多视图联合证据e和对应的联合Dirichlet分布参数
Figure SMS_23
进一步地,根据所述多视图联合证据e和对应的联合Dirichlet分布参数
Figure SMS_24
推断基于多维边界框的多维实体间语义关系。
为达上述目的,本发明另一方面提出一种基于多视角信息融合的多维光场复杂场景图构建系统,包括:
提取预测模块,用于将多视角的二维图像输入至目标检测模型上进行目标检测得到实体特征,并通过目标关系预测模型预测二维图像中实体之间的语义关系得到单视角的场景图特征;
实体再识别模块,用于根据多视图一致性和所述实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果;
边界框构建模块,用于根据所述实体再识别结果和相机参数的几何约束构建实体的多维边界框;
融合生成模块,用于利用多视角信息融合算法融合各个视角的所述场景图特征,以根据特征融合结果和推断的基于多维边界框的多维实体间语义关系构建多维光场复杂场景图。
本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法和系统,实现多维光场复杂场景图生成,大大提升多维场景图的使用场景和价值,且算法通过端到端训练,简单易实现,可以部署在任何有多个有标注视图的室内/室外场景。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法的流程图;
图2为根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法的算法管道示意图;
图3为根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法的一个场景中的语义关系示意图;
图4为根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法的一个复杂场景中的相机布局示意图;
图5是根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建系统的结构图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面参照附图描述根据本发明实施例提出的基于多视角信息融合的多维光场复杂场景图构建方法和系统。
图1是本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法的流程图。
如图1所示,该方法包括但不限于以下步骤:
步骤S1,将多视角的二维图像输入至目标检测模型上进行目标检测得到实体特征,并通过目标关系预测模型预测二维图像中实体之间的语义关系得到单视角的场景图特征;
步骤S2,根据多视图一致性和实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果;
步骤S3,根据实体再识别结果和相机参数的几何约束构建实体的多维边界框;
步骤S4,利用多视角信息融合算法融合各个视角的场景图特征,以根据特征融合结果和推断的基于多维边界框的多维实体间语义关系构建多维光场复杂场景图。
可以理解的是,本发明通过多视角高清相机进行多维光场数据采集;通过对各个视角进行目标检测以及二维场景图生成;通过相机参数以及多视角几何约束,确定目标的身份以及多维边界框;以及根据每个视角生成的场景图时得到的特征,通过身份识别、一致性约束以及信息融合算法对多维的真实的语义关系进行预测,以得到该场景下多维实例之间准确的语义关系,从而实现实时的动态场景理解。
具体地,本发明将各视角图像通过 Faster RCNN 算法在采集的多视角二维图像上进行目标检测,得到目标实体的边界框、类别和视觉特征,并通过 Neural-Motifs 算法预测二维图像中实体之间的语义关系,得到单一视角下的场景图和场景图特征;通过多视图一致性和第一阶段得到的各实体的特征对比,确定各视角之间实体的关联,即目标再识别,各视角经过再识别后的实体通过相机参数的几何约束构建实体的多维边界框;通过多视角信息融合算法融合第一阶段得到的各个视图的场景图特征,推断多维实体间准确的语义关系,构建完整的多维光场复杂场景图。
作为本发明的一个实施例,如图2所示,通过对多视角图像输入进行特征提取,将各视角图像通过 FasterRCNN算法在二维图像上进行目标检测,并通过 Neural-Motifs算法预测二维图像中实体之间的语义关系;通过多视角一致性约束和特征对比进行目标再识别,并通过几何投影获得目标的多维边界框;使用联合证据和Dirichlet分布参数的结果最终用来推断融合各视角信息的多维场景图中各实体间的语义关系。
下面结合图3和图4对基于多视角信息融合的多维光场复杂场景图构建方法的算法流程图进行进一步阐述,具体如下:
针对目标检测模型为Faster RCNN模型:首先一个区域建议网络 (RPN, RegionProposal Network) 以一幅图像作为输入,并输出一组矩形对象建议,每个建议有一个对象得分。这个过程通过一个完全卷积网络进行建模,损失函数定义如下:
Figure SMS_25
其中,i是锚点的索引,
Figure SMS_27
是锚点i成为对象的预测概率。如果锚定是正的,基础真实值标签
Figure SMS_29
为1,如果锚定是负的,则为0。
Figure SMS_32
是一个向量,表示预测边界框的4个参数化坐标,
Figure SMS_28
是与一个正锚相关联的地面真值边界框。分类损失
Figure SMS_31
是定义在两个类别 (对象或不是对象) 上的损失。对于回归损失,使用
Figure SMS_33
定义,其中R是预定义的平滑L1损失函数。这两项损失用
Figure SMS_34
Figure SMS_26
归一化,并用
Figure SMS_30
进行平衡。
进一步地,针对目标关系预测的Stacked Motifs 模型将一个图G(由一组边界区域B,对象标签O和标记关系R组成)的概率分解为三个因素:
Figure SMS_35
其中边界盒模型
Figure SMS_36
是一个标准的目标检测模型,对象模型
Figure SMS_37
通过将B线性化成一个序列,然后LSTM处理这个序列来创建每个框的上下文表示。同样地,当建模关系
Figure SMS_38
时将预测的标记对象集合O线性化,并使用另一个LSTM处理它们,以创建上下文中每个对象的表示。
进一步地,多视角一致性约束和特征对比进行目标再识别,包括:
已知相机1和相机2的内参矩阵分别为
Figure SMS_39
Figure SMS_40
,坐标系1与坐标系2的外参为 R、t (空间点从坐标系1映射到坐标系2),世界点P(未知)在image1上的像点为
Figure SMS_41
(齐次化),世界点P(未知)在image2上的像点为
Figure SMS_42
(未知、齐次化)。 首先将相机1目标边界框上下中点变换到相机2坐标系中形成极线锥:
Figure SMS_43
再取与极线与相机2中目标边界框相交得目标框中进行特征对比,推断最终的再识别结果,并通过几何投影获得目标的三位边界框。
进一步地,多视图特征融合算法依据Dempster Shafer证据理论允许将来自不同来源的证据组合在一起,得出一个相信程度(由一个称为相信函数的数学对象表示),该对象考虑到所有可用的证据。两组独立输入信号的概率分布为
Figure SMS_44
Figure SMS_45
的Dempster组合规则
Figure SMS_46
是由如下公式计算得到:
Figure SMS_47
其中
Figure SMS_48
是两个质量集之间冲突量的度量,并用
Figure SMS_49
的比例因子进行归一化。然后,从多个角度归纳出相应的联合证据和Dirichlet分布参数为:
Figure SMS_50
基于上述组合规则,可以得到估计的多视图联合证据e和对应的联合Dirichlet分布α参数,从而产生每类的最终概率和总体不确定性。
进一步地,通过一个双向LSTM计算对象上下文C的模型:
Figure SMS_51
Figure SMS_52
包含了线性化B中每个元素的最终LSTM层的隐藏状态,
Figure SMS_53
是一个参数矩阵,将预测类的分布
Figure SMS_54
映射到
Figure SMS_55
。biLSTM使得B的所有元素提供关于潜在对象标识的信息。另有额外的双向LSTM层,构造一个上下文化的边界区域B和对象O的表示模型:
Figure SMS_56
其中边上下文
Figure SMS_57
,包含了 biLSTM 最后一层每个边界区域的状态,
Figure SMS_58
是将
Figure SMS_59
映射到
Figure SMS_60
的参数矩阵。
进一步地,联合证据和Dirichlet分布参数的结果最终用来推断融合各视角信息的多维场景图中各实体间的语义关系,其损失函数定义如下:
Figure SMS_61
其中
Figure SMS_62
是交叉熵函数,
Figure SMS_63
是平衡因子。在实际应用中,可以逐渐增加λt的值,以避免网络在训练的初始阶段过分关注KL散度,导致对参数空间缺乏足够的搜索,进一步导致网络输出的是一个平坦的均匀分布。
根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建方法,对多视角图像信息进行采集,通过深度神经网络进行处理,获取二维的语义特征,利用相机的内外参数进行多视角一致性约束以实现有效的特征融合,构建多维语义特征,得到整个场景的多维语义场景图。该方法有效重建得到多维场景的语义信息,所需硬件系统成本较低,且算法简单易实现。
为了实现上述实施例,如图5所示,本实施例中还提供了基于多视角信息融合的多维光场复杂场景图构建系统10,该系统10包括,提取预测模块100、表实体再识别模块200、边界框构建模块300和融合生成模块400。
提取预测模块100,用于将多视角的二维图像输入至目标检测模型上进行目标检测得到实体特征,并通过目标关系预测模型预测二维图像中实体之间的语义关系得到单视角的场景图特征;
实体再识别模块200,用于根据多视图一致性和实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果;
边界框构建模块300,用于根据实体再识别结果和相机参数的几何约束构建实体的多维边界框;
融合生成模块400,用于利用多视角信息融合算法融合各个视角的场景图特征,以根据特征融合结果和推断的基于多维边界框的多维实体间语义关系构建多维光场复杂场景图。
进一步地,上述目标检测模型为Faster RCNN模型:
将预设的场景图输入区域建议网络以输出矩形对象建议,每个矩形对象建议有一个对象得分,通过一个完全卷积网络进行建模,则损失函数为:
Figure SMS_64
其中,i是锚点的索引,
Figure SMS_66
是锚点i成为对象的预测概率,若锚定是正的,基础真实值标签
Figure SMS_70
为1,若锚定是负的,则为0,
Figure SMS_72
是一个向量,表示预测边界框的4个参数化坐标,
Figure SMS_67
是与一个正锚相关联的地面真值边界框,
Figure SMS_69
是分类损失,对于回归损失,使用
Figure SMS_71
定义,其中R是预定义的平滑L1损失函数,这两项损失用
Figure SMS_73
Figure SMS_65
归一化,并用
Figure SMS_68
进行平衡。
进一步地,上述实体再识别模块200,还用于:
获取第一相机和第二相机的内参矩阵分别为
Figure SMS_74
Figure SMS_75
,第一坐标系与第二坐标系的外参分别为 R、t,以及世界点P的第一像点为
Figure SMS_76
,世界点P的第二像点为
Figure SMS_77
将第一相机的目标边界框上下中点变换到第二相机的坐标系中得到极线锥:
Figure SMS_78
获取与极线与第二相机中目标边界框相交的目标边界框进行特征对比,以得到最终的实体再识别结果。
进一步地,上述融合生成模块400中的多视角信息融合算法,包括:
两组独立输入信号的概率分布为
Figure SMS_79
Figure SMS_80
的Dempster组合规则
Figure SMS_81
是通过下面公式计算得到的:
Figure SMS_82
其中
Figure SMS_83
是两个质量集之间冲突量的度量,并用
Figure SMS_84
的比例因子进行归一化,得到相应的联合证据和Dirichlet分布参数为:
Figure SMS_85
基于上述组合规则,得到估计的多视图联合证据e和对应的联合Dirichlet分布参数
Figure SMS_86
进一步地,上述融合生成模块400,还用于根据所述多视图联合证据e和对应的联合Dirichlet分布参数
Figure SMS_87
推断基于多维边界框的多维实体间语义关系。
根据本发明实施例的基于多视角信息融合的多维光场复杂场景图构建系统,对多视角图像信息进行采集,通过深度神经网络进行处理,获取二维的语义特征,利用相机的内外参数进行多视角一致性约束以实现有效的特征融合,构建多维语义特征,得到整个场景的多维语义场景图。该方法有效重建得到多维场景的语义信息,所需硬件系统成本较低,且算法简单易实现。
根据本发明实施例的大场景稀疏光场十亿像素级智能重建系统,使得渲染结果具有更丰富的细节与高保真的颜色。定义在局部的元形变表征能够对复杂大场景的光场信息进行有效地表示与压缩存储。基于该表征的渲染与优化效率较高。基于十亿像素级超高分辨率的稀疏视角观测,利用感知分辨率弥补视角分辨率,针对复杂大场景实现超高分辨率的新视角光场渲染。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

Claims (10)

1.一种基于多视角信息融合的多维光场复杂场景图构建方法,包括:
将多视角的二维图像输入至目标检测模型上进行目标检测得到实体特征,并通过目标关系预测模型预测二维图像中实体之间的语义关系得到单视角的场景图特征;
根据多视图一致性和所述实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果;
根据所述实体再识别结果和相机参数的几何约束构建实体的多维边界框;
利用多视角信息融合算法融合各个视角的所述场景图特征,以根据特征融合结果和推断的基于多维边界框的多维实体间语义关系构建多维光场复杂场景图。
2.根据权利要求1所述的方法,其特征在于,所述目标检测模型为Faster RCNN模型:
将第一场景图输入区域建议网络以输出矩形对象建议,每个矩形对象建议有一个对象得分,通过一个完全卷积网络进行建模,则损失函数为:
Figure QLYQS_1
其中,i是锚点的索引,
Figure QLYQS_3
是锚点i成为对象的预测概率,若锚定是正的,基础真实值标签
Figure QLYQS_6
 为1,若锚定是负的,则为0,
Figure QLYQS_9
是一个向量,表示预测边界框的4个参数化坐标,
Figure QLYQS_4
是与一个正锚相关联的地面真值边界框, 
Figure QLYQS_7
是分类损失,对于回归损失,使用
Figure QLYQS_8
定义,其中R是预定义的平滑L1损失函数,这两项损失用 
Figure QLYQS_10
Figure QLYQS_2
归一化,并用 
Figure QLYQS_5
 进行平衡。
3.根据权利要求1所述的方法,其特征在于,所述根据多视图一致性和所述实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果,包括:
获取第一相机和第二相机的内参矩阵分别为 
Figure QLYQS_11
Figure QLYQS_12
,第一坐标系与第二坐标系的外参分别为 R、t,以及世界点P的第一像点为
Figure QLYQS_13
,世界点P的第二像点为 
Figure QLYQS_14
将第一相机的目标边界框上下中点变换到第二相机的坐标系中得到极线锥:
Figure QLYQS_15
获取与极线与第二相机中目标边界框相交的目标边界框进行特征对比,以得到最终的实体再识别结果。
4.根据权利要求1所述的方法,其特征在于,所述多视角信息融合算法,包括:
两组独立输入信号的概率分布为 
Figure QLYQS_16
, 
Figure QLYQS_17
的Dempster组合规则 
Figure QLYQS_18
 是通过下面公式计算得到的:
Figure QLYQS_19
其中 
Figure QLYQS_20
是两个质量集之间冲突量的度量,并用 
Figure QLYQS_21
 的比例因子进行归一化,得到相应的联合证据和Dirichlet分布参数为:
Figure QLYQS_22
基于上述组合规则,得到估计的多视图联合证据e和对应的联合Dirichlet分布参数
Figure QLYQS_23
5.根据权利要求4所述的方法,其特征在于,根据所述多视图联合证据e和对应的联合Dirichlet分布参数
Figure QLYQS_24
推断基于多维边界框的多维实体间语义关系。
6.一种基于多视角信息融合的多维光场复杂场景图构建系统,包括:
提取预测模块,用于将多视角的二维图像输入至目标检测模型上进行目标检测得到实体特征,并通过目标关系预测模型预测二维图像中实体之间的语义关系得到单视角的场景图特征;
实体再识别模块,用于根据多视图一致性和所述实体特征的特征对比结果确定各视角之间实体的关联性得到实体再识别结果;
边界框构建模块,用于根据所述实体再识别结果和相机参数的几何约束构建实体的多维边界框;
融合生成模块,用于利用多视角信息融合算法融合各个视角的所述场景图特征,以根据特征融合结果和推断的基于多维边界框的多维实体间语义关系构建多维光场复杂场景图。
7.根据权利要求6所述的系统,其特征在于,所述目标检测模型为Faster RCNN模型:
将预设的场景图输入区域建议网络以输出矩形对象建议,每个矩形对象建议有一个对象得分,通过一个完全卷积网络进行建模,则损失函数为:
Figure QLYQS_25
其中,i是锚点的索引,
Figure QLYQS_27
是锚点i成为对象的预测概率,若锚定是正的,基础真实值标签
Figure QLYQS_31
 为1,若锚定是负的,则为0,
Figure QLYQS_33
是一个向量,表示预测边界框的4个参数化坐标,
Figure QLYQS_28
是与一个正锚相关联的地面真值边界框, 
Figure QLYQS_30
是分类损失,对于回归损失,使用
Figure QLYQS_32
定义,其中R是预定义的平滑L1损失函数,这两项损失用 
Figure QLYQS_34
Figure QLYQS_26
归一化,并用 
Figure QLYQS_29
 进行平衡。
8.根据权利要求6所述的系统,其特征在于,所述实体再识别模块,还用于:
获取第一相机和第二相机的内参矩阵分别为 
Figure QLYQS_35
Figure QLYQS_36
,第一坐标系与第二坐标系的外参分别为 R、t,以及世界点P的第一像点为
Figure QLYQS_37
,世界点P的第二像点为 
Figure QLYQS_38
将第一相机的目标边界框上下中点变换到第二相机的坐标系中得到极线锥:
Figure QLYQS_39
获取与极线与第二相机中目标边界框相交的目标边界框进行特征对比,以得到最终的实体再识别结果。
9.根据权利要求6所述的系统,其特征在于,所述融合生成模块中的多视角信息融合算法,包括:
两组独立输入信号的概率分布为 
Figure QLYQS_40
, 
Figure QLYQS_41
的Dempster组合规则 
Figure QLYQS_42
 是通过下面公式计算得到的:
Figure QLYQS_43
其中 
Figure QLYQS_44
是两个质量集之间冲突量的度量,并用 
Figure QLYQS_45
 的比例因子进行归一化,得到相应的联合证据和Dirichlet分布参数为:
Figure QLYQS_46
基于上述组合规则,得到估计的多视图联合证据e和对应的联合Dirichlet分布参数
Figure QLYQS_47
10.根据权利要求9所述的系统,其特征在于,所述融合生成模块,还用于根据所述多视图联合证据e和对应的联合Dirichlet分布参数
Figure QLYQS_48
推断基于多维边界框的多维实体间语义关系。
CN202310227248.0A 2023-03-10 2023-03-10 多维光场复杂场景图智能生成方法与系统 Active CN115953780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310227248.0A CN115953780B (zh) 2023-03-10 2023-03-10 多维光场复杂场景图智能生成方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310227248.0A CN115953780B (zh) 2023-03-10 2023-03-10 多维光场复杂场景图智能生成方法与系统

Publications (2)

Publication Number Publication Date
CN115953780A true CN115953780A (zh) 2023-04-11
CN115953780B CN115953780B (zh) 2023-06-20

Family

ID=85906940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310227248.0A Active CN115953780B (zh) 2023-03-10 2023-03-10 多维光场复杂场景图智能生成方法与系统

Country Status (1)

Country Link
CN (1) CN115953780B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246122A (zh) * 2023-05-12 2023-06-09 中国电子科技集团公司第五十四研究所 一种基于神经网络的高效置信自适应数据融合方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090485A (zh) * 2017-11-28 2018-05-29 西安电子科技大学昆山创新研究院 基于多视角融合的图像前景自动提取方法
CN108470324A (zh) * 2018-03-21 2018-08-31 深圳市未来媒体技术研究院 一种鲁棒的双目立体图像拼接方法
US20200175290A1 (en) * 2017-06-30 2020-06-04 Norwegian University Of Science And Technology Detection of manipulated images
CN111260775A (zh) * 2020-01-23 2020-06-09 清华大学 基于遮挡信息多尺度感知的三维重建方法及装置
CN114821116A (zh) * 2022-04-24 2022-07-29 中国人民解放军火箭军工程大学 图像的显著性区域提取方法、装置、设备以及存储介质
CN114913290A (zh) * 2022-05-24 2022-08-16 北京地平线信息技术有限公司 多视角融合的场景重建方法、感知网络训练方法及装置
CN115115797A (zh) * 2022-08-25 2022-09-27 清华大学 大场景稀疏光场语义驱动智能重建方法、系统与装置
CN115170449A (zh) * 2022-06-30 2022-10-11 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质
CN115640418A (zh) * 2022-12-26 2023-01-24 天津师范大学 基于残差语义一致性跨域多视角目标网站检索方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200175290A1 (en) * 2017-06-30 2020-06-04 Norwegian University Of Science And Technology Detection of manipulated images
CN108090485A (zh) * 2017-11-28 2018-05-29 西安电子科技大学昆山创新研究院 基于多视角融合的图像前景自动提取方法
CN108470324A (zh) * 2018-03-21 2018-08-31 深圳市未来媒体技术研究院 一种鲁棒的双目立体图像拼接方法
CN111260775A (zh) * 2020-01-23 2020-06-09 清华大学 基于遮挡信息多尺度感知的三维重建方法及装置
CN114821116A (zh) * 2022-04-24 2022-07-29 中国人民解放军火箭军工程大学 图像的显著性区域提取方法、装置、设备以及存储介质
CN114913290A (zh) * 2022-05-24 2022-08-16 北京地平线信息技术有限公司 多视角融合的场景重建方法、感知网络训练方法及装置
CN115170449A (zh) * 2022-06-30 2022-10-11 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质
CN115115797A (zh) * 2022-08-25 2022-09-27 清华大学 大场景稀疏光场语义驱动智能重建方法、系统与装置
CN115640418A (zh) * 2022-12-26 2023-01-24 天津师范大学 基于残差语义一致性跨域多视角目标网站检索方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246122A (zh) * 2023-05-12 2023-06-09 中国电子科技集团公司第五十四研究所 一种基于神经网络的高效置信自适应数据融合方法

Also Published As

Publication number Publication date
CN115953780B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
Armeni et al. 3d scene graph: A structure for unified semantics, 3d space, and camera
Zhang et al. A review of deep learning-based semantic segmentation for point cloud
Wu et al. Pointpwc-net: Cost volume on point clouds for (self-) supervised scene flow estimation
Zhang et al. Image engineering
Lu et al. Image-driven fuzzy-based system to construct as-is IFC BIM objects
Li et al. Multi-scale neighborhood feature extraction and aggregation for point cloud segmentation
CN111753698A (zh) 一种多模态三维点云分割系统和方法
Pantoja-Rosero et al. Generating LOD3 building models from structure-from-motion and semantic segmentation
Wang et al. Transformer for 3D point clouds
CN109544672A (zh) 一种三维建筑模型纹理映射方法及装置
CN115953780B (zh) 多维光场复杂场景图智能生成方法与系统
CN116385660A (zh) 室内单视图场景语义重建方法及系统
Hu et al. Geometric feature enhanced line segment extraction from large-scale point clouds with hierarchical topological optimization
Park et al. Point cloud information modeling (PCIM): An innovative framework for as-is information modeling of construction sites
Shen et al. SGAM: Building a virtual 3d world through simultaneous generation and mapping
CN108898679A (zh) 一种零部件序号自动标注的方法
Mohan et al. Room layout estimation in indoor environment: a review
Zhang et al. Exploring Semantic Information Extraction from Different Data Forms in 3D Point Cloud Semantic Segmentation
Chen et al. PointFormer: a dual perception attention-based network for point cloud classification
Rampini et al. Synthetic images generation for semantic understanding in facility management
Zhu et al. Multiview based 3d scene understanding on partial point sets
Kurup et al. A systematic review of automated reconstruction of indoor scenes using Point Clouds
Miao et al. SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs
Jensen et al. Deep Active Latent Surfaces for Medical Geometries
CN111309917A (zh) 基于会议期刊星系图的超大规模学术网络可视化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant