CN117011466A

CN117011466A - 一种基于分段平面算法的三维重建方法

Info

Publication number: CN117011466A
Application number: CN202310993614.3A
Authority: CN
Inventors: 袁建平; 于洋; 申基; 贺亮; 袁静; 马川; 赵磊; 杨栋
Original assignee: Suzhou Sanyuan Aerospace Technology Co ltd
Current assignee: Suzhou Sanyuan Aerospace Technology Co ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-11-07
Anticipated expiration: 2043-08-08
Also published as: CN117011466B

Abstract

本发明涉及计算机视觉中目标及场景三维重建领域，具体涉及一种基于分段平面算法的三维重建方法。用于对采集到的单幅原始图像重建，包括如下步骤：S1、构建带有自注意力机制的多尺度特征融合模块；S2、基于高效均值偏移聚类算法对平面像素分类；S3、通过双约束损失函数L_ED对网络进行训练；S4、将像素聚类成平面，生成深度图；S5、根据生成的深度图进行可视化三维模型重建。为克服现有技术在进行三维重建过程中出现的局部信息丢失的问题，根据分段平面算法对现有三维重建过程进行变换，同时考虑在重建过程中出现的类不平衡问题，采用双损失约束算法对小目标进行精准重建。

Description

一种基于分段平面算法的三维重建方法

技术领域

本发明涉及计算机视觉中目标及场景三维重建领域，具体涉及一种基于分段平面算法的三维重建方法。

背景技术

场景的三维重建任务是计算机视觉领域研究的重要组成部分。在对场景进行观测时，通过对多平面区域的参数进行提取可以准确地预测出场景布局及目标的位姿。但是由于场景的复杂性，同一个空间中有大量的物体存在，会出现局部信息丢失的问题，同时纹理相似的区域会导致算法难以区分出物体或场景的边界，容易出现深度信息预测精度降低的情况；同时基于传统方法的深度预测算法在进行深度图和法向图的预测时存在计算速度过慢的问题。因此，需要研究一种预测方法在保证深度预测精度同时提高计算的速度。

随着2014年Eigen等人第一次使用卷积神经网络对图像进行三维重建开始，基于深度学习的三维重建研究有了巨大的突破，该算法通过学习二维图像和深度信息之间的映射来生成各位置的深度图，再使用预测的深度图还原三维重建过程中所需要的原始图像信息，使深度预测的速度和精度有了很大的提高。为了更好地从单幅图像中获取场景的三维模型，Liu等人于2018年提出了分段平面重建算法，该算法使用了深度学习的方法，通过使用一个端到端的深度神经网络从单幅图像中学习深度信息、平面参数和其对应的平面参数掩码。随着相关研究的发展，分段平面重建技术已经被广泛应用于各类三维重建方法中。

目前常见的分段平面算法均会因为环境中不同目标及场景的尺度不同而产生较小物体在下采样的过程中像素消失的问题，即类不平衡问题。特征提取网络会更关注较大的目标而忽略小目标，这将直接导致最后的三维重建结果效果变差。为了避免类不平衡问题，当前常用的方法是使用注意力机制，通过对图像的通道施加不同的权重从而获取到需要的图像信息，但这种方法对较小目标的特征提取能力有限。

发明内容

为克服上述现有技术的不足，本发明提供一种基于分段平面算法的三维重建方法，能够提高算法的特征提取能力，能够有效避免在重建过程中出现的类不平衡问题，并且对小目标能够实现精准重建。

为了实现上述目的，本发明是通过如下的技术方案来实现：

一种基于分段平面算法的三维重建方法，用于对采集到的对应目标或场景的单幅原始图像重建，包括如下步骤：

S1、构建带有自注意力机制的多尺度特征融合模块；

S2、基于高效均值偏移聚类算法对平面像素分类；

S3、通过双约束损失函数L_ED对网络进行训练，

L_ED＝(1-ε)L_E-εlog(L_D)

式中，L_E为平衡交叉熵损失函数；ε为权重，用于平衡这两种损失；L_D为骰子损失函数，取值范围为(0,1)；

S4、将像素聚类成平面，生成深度图；

S5、根据生成的深度图进行可视化三维模型重建。

步骤S3中，由于网络在提取场景像素的过程中，非平面区域会对特征获取过程产生干扰，所以使用平衡交叉熵损失函数来进行像素的分类：

式中，α和β分别是平面区域像素和非平面区域像素的集合，p_i是第i个像素属于平面区域的概率，ω是平面区域与非平面区域的像素数量之比。

同时，因为实际场景中小平面只占整幅图像很小的一部分，导致其不容易被区分，所以使用骰子损失函数来解决该问题：

式中，w和h分别表示预测的宽和高，p表示预测结果，g表示地面真实值。该损失函数评估预测值和真实值之间的相似性，同时这种相似性不受前景像素和背景像素比例的影响，可以在最大程度上减轻类不平衡问题给算法造成的影响。

本申请所述的一种基于分段平面算法的三维重建方法，将交叉熵损失函数和骰子损失函数相结合，形成双约束损失函数，同时利用两种损失函数的特性训练网络。

进一步的，步骤S1包括如下步骤S101至S109：

S101、使用全局平均池化来提取全局的位置信息和局部的语义信息，并且将全局的位置信息压缩成一个编码了不同区域之间语义关系的注意力向量：

F_a(x,y)＝δ₁[g(x)+bias_α]+δ₁[g(y)+bias_β]

式中，x和y分别是高层和低层的特征映射；δ₁表示ReLU激活函数；g(·)是全局平均池化操作；bias_α，bias_β表示两个偏置量。

S102、在经过上步操作强化关键特征并过滤背景像素后，将高尺度和低尺度的注意力向量进行卷积后相加，进一步获取语义相关信息；使用Softmax函数作为激活函数对注意力向量进行归一化，随后将低层特征映射与注意力向量相乘，生成注意力特征映射：

A＝δ₂[F_α(x,y)+bias_γ]

式中，A表示注意力向量；δ₂表示Softmax激活函数；bias_γ表示偏置。

S103、在得到融合的注意力特征映射后，将该特征映射分别经过一次1x1卷积、归一化和插值操作，改变特征映射的维度，将注意力特征映射的通道数降低至与高尺度特征y的通道数相同，最后再进行一次归一化得到A′。此时的A′包含了丰富的语义信息，y包含了丰富的场景细节信息，

S104、通过自注意力机制将A′和y两者融合，

对于y，先使用一个1x1卷积进行线性映射，使用两个线性映射函数W_q和W_k来减少y的维度，并获得特征映射Q和K：

Q＝W_q(y)

K＝W_k(y)

对于A′，先使用一个1x1卷积然后在通道维度上使用一个Softmax函数并选择第二个通道作为特征映射；计算K和A′的哈达玛积，给每个像素分配不同的权重，增加边缘像素的权重值；

S105、使用自适应池化操作减少特征的位移并对其中心进行裁剪；使用线性映射函数W_v得到特征映射V：

V＝W_v(AP(K☉A'))

式中，AP(·)表示自适应池化和裁剪操作，☉表示求哈达玛积。

S106、通过内积操作建立V和K之间每个像素的语义相关性f：

式中，表示内积操作，K^T表示将特征映射K进行一次转置。

S107、将f与Q的内积输入进行一次图卷积操作进一步获得特征映射之间的关系f′：

式中，GCN(·)表示进行一次轻量级的图卷积操作；

S108、通过1x1卷积将重构后特征映射的通道数调整为和y相同；

S109、合并所有特征得到最终的输出特征：

F_out＝W(f')+y

上述技术方案可以看出，本发明具有如下有益效果：

(1)利用深度学习的方法对传统三维重建过程进行优化，提高了深度预测过程的计算速度；

(2)通过多尺度融合的方法将不同尺度下的全局信息和语义信息进行融合，有效克服了特征提取过程中信息丢失的问题；

(3)针对场景中尺度相差过大导致的小目标丢失问题，提出了一种双约束损失函数，有效解决神经网络在进行三维重建时出现的类不平衡问题。

附图说明

图1为本发明实施例中采集到的目标场景原始图像；

图2为本发明实施例中经过步骤S4生成的深度图；

图3为本发明中实施例中经过步骤S5生成的可视化三维模型。

具体实施方式

一种基于分段平面算法的三维重建方法，用于对采集到的如图1所示的单幅原始图像重建，其实现步骤如下：

S1、构建带有自注意力机制的多尺度特征融合模块；

S2、基于高效均值偏移聚类算法对平面像素分类；

S3、通过双约束损失函数L_ED对网络进行训练，

S4、将像素聚类成平面，生成如图2所示的深度图；

S5、根据生成的深度图进行可视化三维模型重建，生成生成如图3所示的可视化三维模型。

所述步骤S3中：

L_ED＝(1-ε)L_E-εlog(L_D)

由于网络在提取场景像素的过程中，非平面区域会对特征获取过程产生干扰，所以使用平衡交叉熵损失函数来进行像素的分类：

本实施例所述的一种基于分段平面算法的三维重建方法，将交叉熵损失函数和骰子损失函数相结合，形成双约束损失函数，同时利用两种损失函数的特性训练网络。

本实施例中，步骤S1包括如下步骤：S101至S109：

F_a(x，y)＝δ₁[g(x)+bias_α]+δ₁[g(y)+bias_β]

A＝δ₂[F_α(x，y)+bias_γ]

S104、通过自注意力机制将A′和y两者融合，

Q＝W_q(y)

K＝W_k(y)

V＝W_v(AP(K☉A′))

S106、通过内积操作建立V和K之间每个像素的语义相关性f：

式中，◎表示内积操作，K^T表示将特征映射K进行一次转置。

式中，GCN(·)表示进行一次轻量级的图卷积操作；

S109、合并所有特征得到最终的输出特征：

F_out＝W(f')+y

本实施例中，步骤S2，包括如下步骤S201至S205：

S201、使用平面嵌入模块，将所述输出特征映射到更高维的嵌入空间中；

S202、使用聚类算法将每个像素的嵌入向量分组以生成平面实例；

S203、移动嵌入空间中预设数量的锚点，并将每个像素分配给最近的锚点；

设k表示锚点的数量，d表示嵌入的维数，在嵌入空间中可以生成k^d个锚点，计算锚点a_i和嵌入向量x_j成对出现的概率：

式中，b是均值偏移聚类算法的带宽，m_ij是a_i和x_j之间的距离；

在一次迭代的过程中，每个锚点位移的步长表示为：

式中，是一个归一化常量；

为了在步骤S203中加速迭代过程，在聚类开始的时候过滤掉局部密度低于预设值的锚点。

S204、当网络收敛后，合并锚点间距小于预设值的锚点形成聚类每个聚类/>都对应一个平面实例；

具体的，所述预设值为均值偏移聚类算法的带宽。

本实施例中，所述聚类的中心是该聚类中所有锚点的平均值。

S205、使用软分配算法将像素嵌入到关联的聚类中，得到像素级平面参数，聚类表达式如下：

本实施例中，所述步骤S4包括如下步骤S401至S404：

S401、使用判别损失函数来将相似的像素聚类成平面：

将两个损失结合生成聚类平面：

L_C＝L_pull+L_push

式中，C是实际的平面数量，N_C是某个平面内的像素个数，x_i是平面中第i个像素产生的嵌入向量，μ_c是真实平面中所有像素对应的嵌入向量在嵌入空间中的中心点。

该判别损失的两个函数用于将平面实例中的像素进行分类，对于属于同一平面的像素，L_pull函数用于将每个平面嵌入向量拉入到该聚类中，对于不同平面的像素，L_push函数则施加损失将他们相互推开。如果嵌入的像素之间很容易分开，即实例之间的间距大于δ_d，或者嵌入向量与中心之间的距离小于δ_v，惩罚为0，反之，则加大惩罚。

S402、将每个像素的平面参数和分割掩膜结合形成实例级参数，使用L₁损失函数L_PP来监督每个像素的平面参数的学习：

式中，n_i是预测的平面参数，是第i个像素的真实平面参数。

因为在训练网络时使用像素级的参数进行监督不能在整个平面实例中产生一致的输出，S403、将像素级平面参数聚合成实例级的平面参数：

其中，像素级平面参数为步骤S2中对应步骤S205的输出结果。

S404、根据如下表达式，将平面参数预测的深度图与真实深度图进行比较，将步骤S401中获得的实例级平面参数与场景几何保持一致：

式中，Q_i是从地面真实中推断出的像素点i的三维点，当三维点Q在这个平面上时

所述步骤S5包括如下步骤S501至S504：

S501、使用Pillow库的Image工具，改变原图和生成的深度图的位深及尺度信息，将其调整为Open3D库能够处理的尺寸；

S502、然后将原图和深度图导入Open3D库；

S503、使用pcd工具生成对应的三维点云模型；

S504、使用Open3D呈现最终的可视化模型。

因此，本实施例所述的一种基于分段平面算法的三维重建方法，设计了融合特征编解码架构和双约束损失函数。为克服现有技术在进行三维重建过程中出现的局部信息丢失的问题，根据分段平面算法对现有三维重建过程进行变换，通过将高层的位置信息和低层的语义信息进行融合，提高算法的特征提取能力，同时考虑在重建过程中出现的类不平衡问题，采用双损失约束算法对小目标进行精准重建。

以上结合具体实施例描述了本发明的技术原理，这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种基于分段平面算法的三维重建方法，用于对采集到的单幅原始图像重建，其特征在于：包括如下步骤：

S1、构建带有自注意力机制的多尺度特征融合模块；

S2、基于高效均值偏移聚类算法对平面像素分类；

S3、通过双约束损失函数L_ED对网络进行训练，

L_ED＝(1-ε)L_E-εlog(L_D)

S4、将像素聚类成平面，生成深度图；

S5、根据生成的深度图进行可视化三维模型重建。

2.根据权利要求1所述的一种基于分段平面算法的三维重建方法，其特征在于：所述步骤S1，包括如下步骤S101至S109：

F_a(x，y)＝δ₁[g(x)+bias_α]+δ₁[g(y)+bias_β]

式中，x和y分别是高层和低层的特征映射；δ₁表示ReLU激活函数；g(·)是全局平均池化操作；bias_α，bias_β表示两个偏置量；

S102、将高尺度和低尺度的注意力向量进行卷积后相加，进一步获取语义相关信息；使用Softmax函数作为激活函数对注意力向量进行归一化，随后将低层特征映射与注意力向量相乘，生成注意力特征映射：

A＝δ₂[F_a(x，y)+bias_r]

式中，A表示注意力向量；δ₂表示Softmax激活函数；bias_γ表示偏置；

S103、在得到融合的注意力特征映射后，将该特征映射分别经过一次1x1卷积、归一化和插值操作，改变特征映射的维度，将注意力特征映射的通道数降低至与高尺度特征y的通道数相同，最后再进行一次归一化得到A’；

S104、通过自注意力机制将A’和y两者融合，

S105、使用自适应池化操作减少特征的位移并对其中心进行裁剪，使用线性映射函数W_v得到特征映射V：

V＝W_v(AP(KOA′))

式中，AP(·)表示自适应池化和裁剪操作，⊙表示求哈达玛积；

S106、通过内积操作建立V和K之间每个像素的语义相关性f：

式中，表示内积操作，K^T表示将特征映射K进行一次转置；

式中，GCN(·)表示进行一次轻量级的图卷积操作；

S109、合并所有特征得到最终的输出特征：

F_out＝W(f′)+y

3.根据权利要求1所述的一种基于分段平面算法的三维重建方法，其特征在于：所述步骤S2，包括如下步骤S201至S205：

设k表示锚点的数量，d表示嵌入的维数，在嵌入空间中可以生成k^d个锚点，

计算锚点a_i和嵌入向量x_j成对出现的概率：

在一次迭代的过程中，每个锚点位移的步长表示为：

式中，是一个归一化常量；

S205、使用软分配算法将像素嵌入到关联的聚类中，得到像素级平面参数，聚类的表达式如下：

4.根据权利要求1所述的一种基于分段平面算法的三维重建方法，其特征在于：所述步骤S4包括如下步骤S401至S404：

S401、使用判别损失函数来将相似的像素聚类成平面：

将两个损失结合生成聚类平面：

L_C＝L_pull+L_push

式中，n_i是预测的平面参数，是第i个像素的真实平面参数。

S403、将像素级平面参数聚合成实例级的平面参数：

5.根据权利要求1所述的一种基于分段平面算法的三维重建方法，其特征在于：所述步骤S5包括如下步骤S501至S504：

S502、然后将原图和深度图导入Open3D库；

S503、使用pcd工具生成对应的三维点云模型；

S504、使用Open3D呈现最终的可视化模型。

6.根据权利要求3所述的一种基于分段平面算法的三维重建方法，其特征在于：在所述步骤S2中，为了在步骤S203中加速迭代过程，在聚类开始的时候过滤掉局部密度低于预设值的锚点。

7.根据权利要求3所述的一种基于分段平面算法的三维重建方法，其特征在于：所述步骤S204中的所述预设值为均值偏移聚类算法的带宽。

8.根据权利要求3所述的一种基于分段平面算法的三维重建方法，其特征在于：所述步骤S204中所述聚类的中心是该聚类中所有锚点的平均值。