CN115965758B

CN115965758B - 一种图协同单目实例三维重建方法

Info

Publication number: CN115965758B
Application number: CN202211697417.9A
Authority: CN
Inventors: 曹东
Original assignee: Wuxi Dongru Technology Co ltd
Current assignee: Wuxi Dongru Technology Co ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-07-28
Anticipated expiration: 2042-12-28
Also published as: CN115965758A

Abstract

本发明提出一种图协同单目实例三维重建方法，首先构建一个由多个二维图像序列组成的图像数据集作为训练集，然后从单个图像推断场景几何，以递归学习方式使用图像条件神经辐射场进行模型训练；接着构建神经表征映射场进行序列间映射场泛化，提取给定序列第一帧目标物体实例的像素语义特征量，预测像素点密度和颜色；之后根据序列间泛化映射场预测的像素点密度和颜色，计算像素的图协同因子，合成和更新深度视图，根据像素的图协同因子构建图协同群组；最后采用图协同群组方法实现单目二维图像到三维的重建。本发明实现实时在线三维模型重建，使得在智能制造生产场景中，加工件的三维重建与操控实时性需求的问题得到有效解决。

Description

一种图协同单目实例三维重建方法

技术领域

本发明涉及一种基于图组合的单目实例三维重建方法，属于计算机视觉的实例物体三维重建技术领域。

背景技术

在智能制造领域，有大量生产场景需要对目标对象的加工件进行三维模型重建，以用于机器人后续的智能操控和生产，比如智能抓取、路径规划、智能打磨和安装等等。

基于扫描的三维重建设备精度高，但是价格却非常昂贵。同时现有三维模型重建方法存在诸多难点，比如：双目多线激光的误匹配点难以剔除，双目视差受到环境光的干扰影响比较大。空间编码的结构光方法只需一对图像就可以三维重建，但是易受光照等因素导致编码信息缺失且精度较低。基于单目加工件二维图像的三维重建通常仍需要几何监督。最新神经辐射场单视图方法输入时通常需要加工件额外的几何结构信息，且对复杂场景的监督学习代价昂贵。

发明内容

本发明所要解决的技术问题是：在智能制造生产场景加工件的三维模型重建过程中，解决单目单视图二维图像输入产生的新视图与深度合成中的遮挡问题、对于加工件额外的几何结构信息的依赖问题，以及其他算法对算力的巨大需求而导致的建模时延的问题。

本发明为解决上述技术问题采用以下技术方案：

本发明提出一种图协同单目实例三维重建方法，包括如下步骤：

S1、构建一个由多个二维图像序列组成的图像数据集，作为训练集；

S2、以图像序列中的每个序列第一帧作为输入条件，计算图像中目标物体实例的神经表征，神经表征在所有序列之间共享，并由其他帧进行递归学习优化；

S3、在神经表征基础上，构建神经表征映射场进行序列间映射场泛化；

S4、提取给定序列第一帧目标物体实例的像素语义特征量，预测输入帧中的像素点密度和颜色；

S5、根据序列间泛化映射场预测的像素点密度和颜色，计算像素的图协同因子，合成和更新深度视图；

S6、根据像素的图协同因子构建图协同群组；

S7、在更新的深度视图基础上，采用图协同群组方法实现单目二维图像到三维的重建。

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S1中，该训练集由个二维图像序列组成的，每个图像序列包含m幅RGB图像及其对应的相机位姿，表示为：

其中，代表第u个图像序列的第v帧图像，/>表示该图像摄制过程中对应的相机位姿。

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S2中，训练集个图像序列中的每个序列第一帧/>作为输入条件，计算图像中目标物体实例的神经表征，神经表征在/>个序列之间共享，并由其他帧进行递归学习优化，其他帧表示形式为：

其中，

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S3中，构建神经表征映射场其中ξ表示像素点密度，Hue代表RGB颜色。

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S4具体包括：

S401、在序列间映射场泛化基础上，给定序列的第一帧使用残差网络ResNeXt提取目标物体实例的像素语义特征量/>

S402、接着选择其他帧中的每行抽取一帧

其中共抽取/>帧，对抽取的每帧均匀选择/>个像素，结合相机位姿/>沿着穿过这些像素的视野可达区域进行视线采样个点；

S403、将每个采样三维点投影到的图像条件神经辐射场球体上，形成图像特征向量/>其中，/> 代表特征向量提取器，输入到神经表征映射场/>得到形式为其中/>代表辐射场观察方向；

S404、预测输入帧中的像素点密度ξ和RGB颜色Hue。

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S5具体包括：

S501、根据序列间泛化映射场预测的像素点密度和颜色，计算像素的图协同因子

其中对应/>个采样点，α_t∈(0,1)是对应采样点的超参数，ξ_t表示第i个采样点像素点密度，函数sigmod(x)＝1/(1+exp(-x))，d_t是上述/>个采样点的第t个点到采样位置的距离，/>

S502、在源图像和它的前一帧/>之间选择连续帧以最优联合信息熵，构建重建投影损失函数/>表示为：

其中表示每帧中均匀选择的/>个像素，/>表示其中第/>个像素在该帧色彩度量上的分布概率，||·||表示2-范数，/>表示根据相机位姿信息进行2d投影算子；

S503、将步骤S502中所述损失函数用于训练并计算得到图协同因子，进而合成和更新深度视图。

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S6具体包括：

步骤S601、根据图协同因子构建图协同群组：由于一个三维点与图协同因子中的多个二维像素特征点/>相关联，进行聚合操作来更新三维特征描述算子/>通过对相应的二维描述算子进行平均初始化；图协同映射操作时，保留/>中最大信息量的二维特征，以便根据当前帧/>实现下一帧/>的二维到三维映射；

步骤S602、构造图协同单目架构实现实例的三维重建，对每个单独的进行操作，对于每个/>权重矩阵表示为/>图协同算子定义为：

其中计算注意力系数，用于计量描述算子在聚合操作中的重要性；

步骤603、使用注意协同算子和交叉协同算子来处理和转换聚合的三维描述算子和查询的二维描述算子；一组由图协同算子、注意协同算子和交叉协同算子构成了一个图协同群组表示为：

表示图协同算子、/>表示注意协同算子，/>表示交叉协同算子。

进一步的，本发明所提出的一种图协同单目实例三维重建方法，步骤S7具体包括：

步骤701、设图协同网络架构是由N个堆叠的图协同群组组成，根据和的相关性，图协同网络会自适应地关注图协同因子/>中不同的二维像素特征点/>从而为二维到三维映射保留更多的区分性信息，通过将聚合注意力层与自我注意力层和交叉注意力层交织在一起，使得/>互相交换信息；

步骤702、匹配选择和位姿计算，计算相机位姿匹配置信度得分如下：

代表了二维到三维映射的预测，其中函数sigmod(x)＝1/(1+exp(-x))，物体在相机坐标中的姿态通过透视点算法计算得到；

步骤703、在相机位姿匹配置信度得分基础上合成和更新的深度视图，结合图协同群组/>表构建：

其中表示叉积运算，实现基于位姿匹配置信度的自动匹配图协同群组因子。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明基于图协同群组算法显著节约了算力消耗，实现实时在线三维模型重建。使得在智能制造生产场景中，加工件的三维重建与操控实时性需求的问题得到有效解决。

附图说明

图1是本发明的方法总体步骤示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明提出一种图协同单目实例三维重建方法，构建一个由多个二维图像序列组成的图像数据集作为训练集，图协同单目方法学习从单个单目RGB图像推断场景几何，以递归学习方式使用图像条件神经辐射场进行模型训练。在神经表征基础上，构建神经表征映射场进行序列间映射场泛化。提取给定序列第一帧目标物体实例的像素语义特征量，预测像素点密度和颜色。根据序列间泛化映射场预测的像素点密度和颜色，计算像素的图协同因子，合成和更新深度视图。根据像素的图协同因子构建图协同群组。在更新的深度视图基础上，采用图协同群组方法实现单目二维图像到三维的重建。

如图1所示，本发明所提出的方法实施步骤如下：

步骤1:构建一个图像数据集作为训练集，该训练集由个二维图像序列组成的，每个图像序列包含m幅RGB图像及其对应的相机位姿(三维空间自由度和三个转动自由度)，表示为

其中表示RGB二维图像，/>表示该图像摄制过程中对应的相机位姿。

步骤2:从单个单目RGB图像推断场景几何，以递归学习方式使用图像条件神经辐射场进行模型训练。训练集/>个图像序列中的每个序列第一帧作为输入条件，计算图像中目标物体实例的神经表征。神经表征在/>个序列之间共享，并由其他帧进行递归学习优化，其他帧表示形式为：

步骤3:在神经表征基础上，构建神经表征映射场其中ξ表示像素点密度，Hue代表RGB颜色，进行序列间映射场泛化。

步骤4:在序列间映射场泛化基础上，给定序列的第一帧我们使用ResNeXt提取目标物体实例的像素语义特征量其中ResNeXt是残差网络的增强版，其网络结构通过多层具有相同拓扑结构的模块叠加构成。接着选择

中的每行抽取一帧(共计帧)，并且对抽取的每帧均匀选择/>个像素，结合相机位姿/>沿着穿过这些像素的视野可达区域进行视线采样/>个点。然后将每个采样三维点投影到的图像条件神经辐射场球体上，形成图像特征向量/> 其中/>代表特征向量提取器，输入到神经表征映射场/>得到形式为/>其中/>代表辐射场观察方向。预测输入帧中的像素点密度ξ和RGB颜色Hue。

步骤5:根据序列间泛化映射场预测的像素点密度和颜色，计算像素的图协同因子

其中对应/>个采样点，α_t∈(0,1)是对应采样点的超参数，ξ_t表示第i个采样点像素点密度，函数sigmod(x)＝1/(1+exp(-x))，d_t是上述/>个采样点的第t个点到采样位置(即/>)的距离。在源图像/>和它的前一帧/>(称为目标)之间选择连续帧以最优联合信息熵，构建重建投影损失函数/>表示为：

其中表示每帧中均匀选择的/>个像素，/>表示其中第个/>像素在该帧色彩度量上的分布概率，||·||表示2-范数，/>表示根据相机位姿信息进行2d投影算子。上述损失函数用于训练并计算得到图协同因子，进而合成和更新深度视图。

步骤6:根据上述步骤获得的图协同因子构建图协同群组。

步骤7:在合成和更新的深度视图基础上，采用上述步骤构建的图协同群组方法实现单目二维图像到三维的重建。

作为本发明的一个具体实施例，上述总体步骤6具体如下：

步骤一、根据图协同因子构建图协同群组。直接的二维到三维映射需要三维特征描述算子，由于一个三维点与/>中的多个二维像素特征点/>相关联(其中/>是图协同因子，/>是指第u个图像序列，第v帧图像)，因此需要进行聚合操作来更新三维特征描述算子，定义为/>它是通过对相应的二维描述算子进行平均初始化。由于是多对一映射，图协同映射操作会造成信息损失。算法保留/>中最大信息量的二维特征，以便根据当前帧/>实现下一帧/>的二维到三维映射。

步骤二、构造图协同单目架构实现实例的三维重建，对每个单独的进行操作。对于每个/>权重矩阵表示为/>图协同算子定义为：

其中计算注意力系数，计量描述算子在聚合操作中的重要性。

步骤三、在图协同算子之后进一步使用注意协同算子和交叉协同算子来处理和转换聚合的三维描述算子和查询的二维描述算子。一组图协同算子、注意协同算子和交叉协同算子构成了一个图协同群组表示为：/>

作为本发明的一个具体实施例，上述总体步骤7具体如下：

步骤一、所提出的图协同网络架构是由N个堆叠的图协同群组组成。根据和的相关性，图协同网络会自适应地关注/>中不同的/>从而为二维到三维映射保留更多的区分性信息。通过将聚合注意力层与自我注意力层和交叉注意力层交织在一起，/>可以互相交换信息，从而使匹配算法具有全局性和上下文依耐性。

步骤二、匹配选择和位姿计算，计算相机位姿匹配置信度得分如下：

代表了二维到三维映射的预测，其中函数sigmod(x)＝1/(1+exp(-x))，物体在相机坐标中的姿态通过透视点算法计算得到。

步骤三、在相机位姿匹配置信度得分基础上合成和更新的深度视图，结合图协同群组/>表构建

(其中表示叉积运算，实现基于位姿匹配置信度的自动匹配图协同群组因子)，实现了单目二维图像到三维的重建。

本发明提出的创新算法，除了不使用CAD模型或额外的网络训练外，OnePose的单次拍摄设置与现有的实例或类别级姿态估计方法相比有很多优势。

在映射阶段，OnePose将物体的简单视频扫描作为输入，并建立物体几何形状的特定实例三维表示。与CAD模型在实例级方法中的作用类似，物体的三维几何形状对于恢复具有度量尺度的物体姿势至关重要。

在定位阶段，OnePose中学习到的局部特征匹配可以处理视角、光照和尺度的巨大变化，使该系统与类别级方法相比更加稳定和稳健。基于局部特征的管道还允许姿势估计模块与基于特征的跟踪模块自然耦合，以实现高效和稳定的姿势跟踪。

本发明所提出的基于图协同单目架构实现的实例三维重建，相比于现有其他同类方法，显著节约了算力消耗，实现了在线实时的三维重建。

图协同单目模块只接受稀疏的关键帧图像作为输入。为了智能制造生产场景中获得稳定的物体三维模型，本发明为图协同单目架构配备了基于特征的图协同群组，该群组处理测试序列中的每一帧，在线重建三维模型并维护其自身的关键帧池。在每个时间点，跟踪采用紧密耦合的方法，依靠预先建立的图协同因子和在线建立的三维映射来寻找二维三维对应关系并解决六维位姿估计问题。

由于图协同模块在线构建的三维映射中保留了测试序列的二维和三维信息，本发明比现有其他SOTA方法更加稳定(见下表，基于我们构建的智能制造生产场景加工件三维模型重建数据集)。图协同模块有助于在线三维重建失效时进行重载初始化，显著提升了算法鲁棒性。

	交并比	准确率	召回率
				LMSCNet	17.29	18.28	68.21
3DSketch	17.32	17.75	66.93
				AICNet	16.87	16.82	75.29
MonoScene	18.12	21.91	46.12
				本发明的方法	18.96	22.63	47.19

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图协同单目实例三维重建方法，其特征在于，包括步骤：

S6、根据像素的图协同因子构建图协同群组；

S7、在更新的深度视图基础上，采用图协同群组方法实现单目二维图像到三维的重建；

其中，步骤S6具体包括：

步骤S601、根据图协同因子构建图协同群组：由于一个三维点与图协同因子/>中的多个二维像素特征点/>相关联，进行聚合操作来更新三维特征描述算子通过对相应的二维描述算子进行平均初始化；图协同映射操作时，保留中最大信息量的二维特征，以便根据当前帧/>实现下一帧/>的二维到三维映射；

表示图协同算子、/>表示注意协同算子，/>表示交叉协同算子；

步骤S7具体包括：

步骤701、设图协同网络架构是由N个堆叠的图协同群组组成，根据和/>的相关性，图协同网络会自适应地关注图协同因子/>中不同的二维像素特征点从而为二维到三维映射保留更多的区分性信息，通过将聚合注意力层与自我注意力层和交叉注意力层交织在一起，使得/>互相交换信息；

2.根据权利要求1所述的一种图协同单目实例三维重建方法，其特征在于，步骤S1中，该训练集由个二维图像序列组成的，每个图像序列包含m幅RGB图像及其对应的相机位姿，表示为：

其中，v＝1,2,…,m，/>代表第u个图像序列的第v帧图像，/>表示该图像摄制过程中对应的相机位姿。

3.根据权利要求2所述的一种图协同单目实例三维重建方法，其特征在于，步骤S2中，训练集个图像序列中的每个序列第一帧/>作为输入条件，计算图像中目标物体实例的神经表征，神经表征在/>个序列之间共享，并由其他帧进行递归学习优化，其他帧表示形式为：

其中，v'＝2,3,…,m。

4.根据权利要求1所述的一种图协同单目实例三维重建方法，其特征在于，步骤S3中，构建神经表征映射场其中ξ表示像素点密度，Hue代表RGB颜色。

5.根据权利要求1所述的一种图协同单目实例三维重建方法，其特征在于，步骤S4具体包括：

S402、接着选择其他帧中的每行抽取一帧

其中v'＝2,3,…,m，共抽取/>帧，对抽取的每帧均匀选择/>个像素，结合相机位姿/>沿着穿过这些像素的视野可达区域进行视线采样/>个点；

S404、预测输入帧中的像素点密度ξ和RGB颜色Hue。

6.根据权利要求1所述的一种图协同单目实例三维重建方法，其特征在于，步骤S5具体包括：