CN117315152B

CN117315152B - 双目立体成像方法及其系统

Info

Publication number: CN117315152B
Application number: CN202311265458.5A
Authority: CN
Inventors: 马贝; 魏娉婷
Original assignee: Hangzhou Yiyuqianxiang Technology Co ltd
Current assignee: Hangzhou Yiyuqianxiang Technology Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-03-29
Anticipated expiration: 2043-09-27
Also published as: CN117315152A

Abstract

本发明公开了一种双目立体成像方法及其系统，其获取由第一摄像模组和第二摄像模组采集的被摄目标的第一视角图像和第二视角图像；对所述第一视角图像和所述第二视角图像进行图像特征提取以得到被摄目标第一视角图像特征矩阵和被摄目标第二视角图像特征矩阵；从所述第一视角图像和所述第二视角图像中提取全局视角特征以得到被摄目标全局视角图像特征矩阵；以及，基于所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵，生成被摄目标3D模型。这样，可以从不同的视角捕捉图像，从而反映出物体的深度信息，为重建被摄目标3D模型提供重要的信息来源。

Description

双目立体成像方法及其系统

技术领域

本发明涉及智能化成像技术领域，尤其涉及一种双目立体成像方法及其系统。

背景技术

在计算机视觉和图像处理领域，三维模型重建是一个重要的研究方向。传统的三维模型重建方法通常需要大量的人工操作，并需要操作人员具备足够的专业知识。

例如，需要操作人员手动标记特征点、进行相机标定和对齐等步骤。这使得三维模型重建方法在时间和劳动力上成本较高，并且对操作者的技能要求较高。

双目立体成像模拟人类双眼的视觉系统，可以为目标物体提供立体的感知。这为三维模型重建问题提供了一种新的解决思路。

发明内容

本发明实施例提供一种双目立体成像方法及其系统，其获取由第一摄像模组和第二摄像模组采集的被摄目标的第一视角图像和第二视角图像；对所述第一视角图像和所述第二视角图像进行图像特征提取以得到被摄目标第一视角图像特征矩阵和被摄目标第二视角图像特征矩阵；从所述第一视角图像和所述第二视角图像中提取全局视角特征以得到被摄目标全局视角图像特征矩阵；以及，基于所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵，生成被摄目标3D模型。这样，可以从不同的视角捕捉图像，从而反映出物体的深度信息，为重建被摄目标3D模型提供重要的信息来源。

本发明实施例还提供了一种双目立体成像方法，其包括：

获取由第一摄像模组和第二摄像模组采集的被摄目标的第一视角图像和第二视角图像，其中，所述第一摄像模组和所述第二摄像模组之间具有预定位置关系；

对所述第一视角图像和所述第二视角图像进行图像特征提取以得到被摄目标第一视角图像特征矩阵和被摄目标第二视角图像特征矩阵；

从所述第一视角图像和所述第二视角图像中提取全局视角特征以得到被摄目标全局视角图像特征矩阵；以及

基于所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵，生成被摄目标3D模型。

本发明实施例还提供了一种双目立体成像系统，其包括：

图像获取模块，用于获取由第一摄像模组和第二摄像模组采集的被摄目标的第一视角图像和第二视角图像，其中，所述第一摄像模组和所述第二摄像模组之间具有预定位置关系；

图像特征提取模块，用于对所述第一视角图像和所述第二视角图像进行图像特征提取以得到被摄目标第一视角图像特征矩阵和被摄目标第二视角图像特征矩阵；

全局视角特征提取模块，用于从所述第一视角图像和所述第二视角图像中提取全局视角特征以得到被摄目标全局视角图像特征矩阵；以及

被摄目标3D模型生成模块，用于基于所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵，生成被摄目标3D模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种双目立体成像方法的流程图。

图2为本发明实施例中提供的一种双目立体成像方法的系统架构的示意图。

图3为本发明实施例中提供的一种双目立体成像系统的框图。

图4为本发明实施例中提供的一种双目立体成像方法的应用场景图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

如本发明和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

本发明中使用了流程图用来说明根据本发明的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

三维模型重建是指从二维图像或点云数据中恢复出三维物体的几何形状和表面属性的过程，在计算机视觉、图像处理和计算机图形学等领域具有广泛的应用。传统的三维模型重建方法通常需要进行多个步骤，包括图像采集、相机标定、特征点提取、深度估计、点云生成等。这些步骤需要大量的人工操作和专业知识，时间和劳动力成本较高。

近年来，深度学习技术的发展为三维模型重建带来了新的突破，深度学习算法可以通过大规模数据的学习，自动从图像或点云数据中学习到物体的几何形状和表面属性。它能够直接从输入的图像或点云数据中预测出三维模型，减少了繁琐的人工操作。

在三维模型重建中，常用的深度学习方法包括基于卷积神经网络(CNN)的方法和基于生成对抗网络(GAN)的方法，CNN方法可以通过学习从图像到深度图或点云的映射关系，实现从图像到三维模型的重建。GAN方法则可以通过生成器网络生成逼真的三维模型，同时通过判别器网络对生成的模型进行评估和优化。

除了深度学习方法，还有其他的三维模型重建技术，如结构光、立体视觉和多视图几何等。这些方法利用不同的传感器和算法，从不同的角度获取物体的深度和形状信息，进而重建出三维模型。

三维模型重建是计算机视觉和图像处理领域的重要研究方向，它通过从图像或点云数据中恢复出物体的三维几何形状和表面属性，为虚拟现实、增强现实、计算机辅助设计等应用提供了基础和支持。深度学习和其他传统方法的结合将进一步推动三维模型重建技术的发展和应用。

双目立体成像是一种模拟人类双眼视觉系统的技术，通过使用两个摄像机模组同时捕捉目标物体的不同视角图像，以实现对目标物体的立体感知。人类的双眼视觉系统能够感知和理解三维空间中的物体和场景。通过两只眼睛的视差(即左右眼图像之间的差异)，能够获取深度信息，并将物体在三维空间中准确地定位和感知其形状。

双目立体成像技术模仿了这种人类视觉系统，使用两个摄像机模组，分别模拟人眼的左眼和右眼。这两个摄像机模组被放置在预定的位置关系上，通常是左右对称排列，以保持与人眼的间距相似。当双目摄像机同时捕捉目标物体的图像时，每个摄像机模组会获得不同的视角图像。这些图像之间的视差可以用来计算目标物体的深度信息，通过比较两个图像中对应像素的位置差异，可以推断出目标物体在三维空间中的位置和形状。

双目立体成像技术在三维模型重建中具有重要的应用，通过从不同视角捕获图像，可以观察到目标物体在不同视角下的位置差异，从而反映出物体的深度信息，这为重建目标物体的三维模型提供了重要的信息来源。在双目立体成像中，进行相机标定和图像对齐的步骤，相机标定是确定每个摄像机的内外参数，以便准确地估计深度信息。图像对齐是将两个图像对齐到同一个坐标系中，以便进行深度信息的计算和三维模型的重建。

本发明提供了一种新的双目立体成像方法的技术方案，该方案利用两个相机分别拍摄同一场景的左右视图，然后通过特征匹配和视差计算，重建出场景的三维结构。与传统的双目立体成像方法相比，该方案具有以下优点：(1)不需要对相机进行校准，因为可以根据特征点的位置自动估计相机的内外参数；(2)不需要对图像进行矫正，因为可以通过视差变换将左右视图对齐；(3)不需要对视差图进行后处理，因为可以通过深度学习的方法直接生成高质量的三维点云。该方案在多个数据集上进行了实验，结果表明，该方案可以有效地提高双目立体成像的精度和效率。

在本发明的一个实施例中，图1为本发明实施例中提供的一种双目立体成像方法的流程图。图2为本发明实施例中提供的一种双目立体成像方法的系统架构的示意图。如图1和图2所示，根据本发明实施例的双目立体成像方法，包括：110，获取由第一摄像模组和第二摄像模组采集的被摄目标的第一视角图像和第二视角图像，其中，所述第一摄像模组和所述第二摄像模组之间具有预定位置关系；120，对所述第一视角图像和所述第二视角图像进行图像特征提取以得到被摄目标第一视角图像特征矩阵和被摄目标第二视角图像特征矩阵；130，从所述第一视角图像和所述第二视角图像中提取全局视角特征以得到被摄目标全局视角图像特征矩阵；以及，140，基于所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵，生成被摄目标3D模型。

在所述步骤110中，确保第一摄像模组和第二摄像模组之间的位置关系是预定的。这可以通过确保摄像模组的安装位置和朝向是准确的来实现。摄像模组应该放置在预定的位置，并且它们的朝向应该对准被摄目标。其中，通过使用两个摄像模组采集不同视角的图像，可以获取更多的深度信息，从而提供更准确的三维重建结果。双目立体成像可以提供更多的视角信息，使得重建的三维模型更加真实和立体感。

在所述步骤120中，使用图像处理和深度学习算法对第一视角图像和第二视角图像进行特征提取，这些特征可以包括边缘特征、纹理特征、颜色特征等，特征提取方法包括卷积神经网络(CNN)和特征描述子(如SIFT、SURF等)。其中，图像特征提取可以提取出对于三维重建有用的特征信息，如物体的轮廓、纹理等。特征矩阵可以作为后续步骤的输入，用于生成三维模型。

在所述步骤130中，从第一视角图像和第二视角图像中提取全局视角特征，全局视角特征可以包括物体的整体形状、姿态等信息。使用的方法包括基于深度学习的全局特征提取网络，如ResNet、VGG等。其中，全局视角特征可以提供更全面的物体信息，有助于生成更准确的三维模型。全局特征矩阵可以与局部特征矩阵结合使用，提高三维重建的准确性。

在所述步骤140中，使用被摄目标的第一视角图像特征矩阵、第二视角图像特征矩阵和全局视角图像特征矩阵来生成被摄目标的三维模型，这可以通过三维重建算法，如结构光、立体匹配等方法来实现。其中，通过结合多个视角的信息，可以提高三维模型的准确性和完整性。生成的三维模型可以用于虚拟现实、增强现实、计算机视觉等领域的应用，如虚拟场景渲染、物体识别与跟踪等。

双目立体成像模拟人类双眼的视觉系统，通过采集不同视角的图像并进行图像处理和分析，可以实现目标物体的三维模型重建，这种方法可以提供更真实、立体的感知，有助于许多应用领域的发展和创新。

针对上述技术问题，本发明的技术构思是通过结合深度学习算法和双目立体成像思想，对由两个具有预定位置关系的摄像模组采集被摄目标的不同视角图像进行图像处理与分析，并以此来实现被摄目标的三维模型重建。

深度学习算法可以通过对第一视角图像和第二视角图像进行分析，准确地估计每个像素点的深度信息。与传统的立体匹配方法相比，深度学习算法可以更好地处理纹理缺失、低纹理区域和遮挡等问题，从而获得更准确的深度估计结果。深度学习算法可以提取图像中的高级特征，例如边缘、纹理和语义信息，通过将这些特征应用于第一视角图像和第二视角图像的匹配过程中，可以实现更鲁棒的特征匹配，提高对应关系的准确性和鲁棒性。

深度学习算法可以学习到更复杂的特征表示，从而改善立体匹配的精度，通过对第一视角图像和第二视角图像进行比较，深度学习算法可以找到更准确的像素点对应关系，提高三维模型中点云数据的准确性和完整性。通过将第一视角图像和第二视角图像的纹理信息映射到三维模型上，可以增强模型的真实感，深度学习算法可以学习到图像的语义信息和纹理特征，从而实现更准确的纹理映射，使生成的三维模型更加逼真。

结合深度学习算法和双目立体成像思想，对由两个具有预定位置关系的摄像模组采集的被摄目标的不同视角图像进行图像处理与分析，可以实现更准确的深度估计、鲁棒的特征匹配、精确的立体匹配和真实感增强的纹理映射，从而实现高质量的三维模型重建，这种方法在计算机视觉、虚拟现实、增强现实等领域具有广泛的应用前景。

应可以理解，通过使用两个摄像机模组同时捕捉被摄目标的不同视角图像，可以获取被摄目标的深度和形状信息。具体来说，双目立体成像模拟人类双眼的视觉系统，可以为目标物体提供立体感的感知。通过从不同的视角捕捉图像，可以观察到目标物体在不同视角下的位置差异，从而反映出物体的深度信息，为重建被摄目标3D模型提供重要的信息来源。

基于此，在本发明的技术方案中，首先，获取由第一摄像模组和第二摄像模组采集的被摄目标的第一视角图像和第二视角图像，其中，所述第一摄像模组和所述第二摄像模组之间具有预定位置关系。通过获取不同摄像模组的视角图像，可以获得对同一目标的多个视角信息，这些不同视角的图像可以提供更全面的目标表面纹理、形状和深度信息，有助于生成更准确的3D模型。

双目立体成像可以通过视差(视角之间的差异)来估计目标物体的深度信息，第一视角图像和第二视角图像之间的视差可以用于三角测量或其他深度估计算法，从而为生成的3D模型提供更准确的深度信息。通过将第一视角图像和第二视角图像合成为一个立体图像，可以为生成的3D模型增加立体感，这对于虚拟现实、增强现实等应用场景非常重要，能够提供更加逼真和沉浸的视觉体验。基于第一视角图像和第二视角图像，可以使用三维重建算法对被摄目标进行三维结构重建，通过从多个视角获取的图像信息，可以更准确地还原目标物体的形状、纹理和空间位置，生成高质量的3D模型。

获取由第一摄像模组和第二摄像模组采集的被摄目标的第一视角图像和第二视角图像对于最终生成被摄目标的3D模型具有关键的作用，提供了多个视角的信息、增强了深度信息、增加了立体感，并为三维结构重建提供了重要的输入数据，从而实现了更准确、更真实的3D模型重建结果。

然后，对所述第一视角图像和所述第二视角图像进行图像特征提取以得到被摄目标第一视角图像特征矩阵和被摄目标第二视角图像特征矩阵。应可以理解，第一视角图像和第二视角图像分别对应着不同的观察角度。通过对这两个视角的图像进行特征提取，可以获取到它们各自的图像隐含特征信息。这些特征信息可以包含被摄目标的形状、纹理、边缘等信息。

在本发明的一个具体示例中，对所述第一视角图像和所述第二视角图像进行图像特征提取以得到被摄目标第一视角图像特征矩阵和被摄目标第二视角图像特征矩阵的编码过程，包括：将所述第一视角图像和所述第二视角图像分别通过基于使用空间注意力机制的卷积神经模型的图像特征提取器以得到被摄目标第一视角图像特征矩阵和被摄目标第二视角图像特征矩阵。

卷积神经网络(CNN)模型可以学习到图像的高级特征表示，例如边缘、纹理和语义信息，通过使用CNN模型提取图像特征，可以获得更具有语义信息的特征表示，有助于后续的图像处理和分析任务。使用空间注意力机制的卷积神经网络模型可以对图像中的不同区域进行加权处理，使得模型能够更加关注重要的图像区域，有助于提取与被摄目标相关的关键特征，减少无关信息的干扰，提高特征表示的质量和准确性。通过将第一视角图像和第二视角图像分别输入CNN模型，可以得到相应的特征矩阵，这些特征矩阵可以在后续的处理中用于特征匹配、深度估计和三维重建等任务。通过使用CNN模型提取的特征矩阵，可以捕捉到图像中的重要信息，提高后续任务的准确性和鲁棒性。卷积神经网络具有强大的学习能力和泛化能力，可以通过大规模的训练数据进行端到端的训练，从而学习到有效的特征表示，这使得模型能够适应不同场景和目标的特征提取需求，并具备一定的泛化能力，提高了被摄目标的三维模型重建的准确性和稳定性。

通过基于使用空间注意力机制的卷积神经网络模型提取第一视角图像和第二视角图像的特征矩阵，可以获得更具有语义信息和准确性的特征表示，提高图像处理和分析任务的效果，这种方法在深度学习和计算机视觉领域得到广泛应用，并在被摄目标的三维模型重建中具有重要的益处。

其中，应可以理解，空间注意力机制是一种用于图像处理和计算机视觉任务的技术，可以帮助模型在处理图像时更加关注重要的空间位置或区域。基于使用空间注意力机制的卷积神经网络(CNN)模型的图像特征提取器可以通过以下方式获得被摄目标的第一视角图像特征矩阵和第二视角图像特征矩阵：

卷积神经网络通过一系列的卷积层和池化层来提取图像的特征，这些层可以捕捉到图像中的不同层次的特征，从低级的边缘和纹理到高级的语义信息。在特征提取的过程中，空间注意力机制可以帮助模型选择性地关注图像中的不同空间位置或区域，可以通过学习权重或概率分布来调整特征的重要性，使模型能够更加关注对于当前任务来说最相关的区域。通过使用空间注意力机制，卷积神经网络可以生成被摄目标的第一视角图像特征矩阵和第二视角图像特征矩阵，这些特征矩阵包含了经过空间注意力调整的图像特征，可以用于后续的处理和分析，例如深度估计、特征匹配和立体匹配等。

空间注意力机制的引入可以帮助模型在处理图像时更加准确地捕捉到关键的空间信息，提高模型的性能和鲁棒性，在图像识别、目标检测、图像分割等任务中都有广泛的应用，并且可以与深度学习算法相结合，进一步提升模型的表现。

接着，从所述第一视角图像和所述第二视角图像中提取全局视角特征以得到被摄目标全局视角图像特征矩阵。应可以理解，如果只分别提取第一视角图像和第二视角图像中的图像隐含特征，可能会忽略掉图像的全局信息。这可能导致对目标的理解不完整，难以捕捉到目标的整体形状、结构和上下文关系。因此，在本发明的技术方案中，期待提取全局视角特征，以弥补局部信息的不足，提供更全面和准确的目标描述。

在本发明的一个具体示例中，从所述第一视角图像和所述第二视角图像中提取全局视角特征以得到被摄目标全局视角图像特征矩阵的编码过程，包括：先将所述第一视角图像和所述第二视角图像进行图像拼接以得到全局视角图像；再将所述全局视角图像通过基于卷积神经网络模型的全局视角图像特征提取器以得到被摄目标全局视角图像特征矩阵。

这里，通过将第一视角图像和第二视角图像进行拼接，可以得到全局视角图像，它涵盖了更广阔的视野和更丰富的目标信息。也就是说，全局视角图像提供了更多的上下文信息，有助于更好地理解目标的结构、关系和环境背景。而后，通过基于卷积神经网络的全局视角图像特征提取器，可以捕捉到目标的整体形状、结构、上下文关系和语义信息。

在本发明的一个实施例中，基于所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵，生成被摄目标3D模型，包括：融合所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵以得到被摄目标多视角图像特征图；以及，将所述被摄目标多视角图像特征图通过基于AIGC模型的立体模型生成器以得到被摄目标3D模型。

进一步地，融合所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵以得到被摄目标多视角图像特征图。继而，将所述被摄目标多视角图像特征图通过基于AIGC模型的立体模型生成器以得到被摄目标3D模型。

在本发明的一个实施例中，所述双目立体成像方法，还包括训练步骤：对所述基于使用空间注意力机制的卷积神经模型的图像特征提取器、所述基于卷积神经网络模型的全局视角图像特征提取器和所述基于AIGC模型的立体模型生成器进行训练；其中，所述训练步骤，包括：获取训练数据，所述训练数据包括由第一摄像模组和第二摄像模组采集的被摄目标的训练第一视角图像和训练第二视角图像，以及，被摄目标3D模型的真实值；将所述训练第一视角图像和所述训练第二视角图像分别通过所述基于使用空间注意力机制的卷积神经模型的图像特征提取器以得到训练被摄目标第一视角图像特征矩阵和训练被摄目标第二视角图像特征矩阵；将所述训练第一视角图像和所述训练第二视角图像进行图像拼接以得到训练全局视角图像；将所述训练全局视角图像通过所述基于卷积神经网络模型的全局视角图像特征提取器以得到训练被摄目标全局视角图像特征矩阵；融合所述训练被摄目标第一视角图像特征矩阵、所述训练被摄目标第二视角图像特征矩阵和所述训练被摄目标全局视角图像特征矩阵以得到训练被摄目标多视角图像特征图；对所述训练被摄目标多视角图像特征图进行特征分布优化以得到优化训练被摄目标多视角图像特征图；将所述优化训练被摄目标多视角图像特征图通过所述基于AIGC模型的立体模型生成器以得到训练被摄目标3D模型；以及，计算所述训练被摄目标3D模型与所述被摄目标3D模型的真实值之间交叉熵函数值作为损失函数值，来对所述基于使用空间注意力机制的卷积神经模型的图像特征提取器、所述基于卷积神经网络模型的全局视角图像特征提取器和所述基于AIGC模型的立体模型生成器进行训练。

在本发明的技术方案中，所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵分别表达所述第一视角图像和所述第二视角图像的局部视角的空间局部分布强化的图像语义特征和所述第一视角图像和所述第二视角图像的拼接图像的全局视角的图像语义特征，由此，融合所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵得到的所述被摄目标多视角图像特征图通过基于AIGC模型的立体模型生成器时，也会基于各个特征矩阵的局部图像语义特征分布尺度来进行尺度启发式的分布概率密度映射，从而得到所述被摄目标3D模型，但是，考虑到在所述被摄目标多视角图像特征图在全局特征分布尺度下包含图像语义特征的混合空间局部特征分布，这会降低所述基于AIGC模型的立体模型生成器的训练效率。

基于此，本发明的申请人在训练过程中，将所述被摄目标多视角图像特征图通过基于AIGC模型的立体模型生成器进行被摄目标3D模型的生成时，对所述被摄目标多视角图像特征图进行特征秩表达的语义信息均一化激活，具体表示为：以如下优化公式对所述训练被摄目标多视角图像特征图进行特征分布优化以得到优化训练被摄目标多视角图像特征图；其中，所述优化公式为：

其中，f_i是所述被摄目标多视角图像特征图F的第i个特征值，log是以2为底的对数函数，且α是权重超参数，f_i ^′是所述优化训练被摄目标多视角图像特征图的第i个特征值。

这里，考虑到所述被摄目标多视角图像特征图F的特征分布在高维特征空间到生成概率密度映射空间时的特征分布映射，在基于混合空间局部特征的不同的特征分布级别上会呈现不同的映射模式，导致基于尺度启发式的映射策略无法获得最优效率，因而基于特征秩表达语义信息均一化而不是尺度进行特征匹配，可以将相似特征秩表达以类似方式激活，并降低差异较大的特征秩表达之间的相关性，从而解决所述被摄目标多视角图像特征图F的特征分布在不同空间秩表达下的概率表达映射效率低下的问题，提升所述基于AIGC模型的立体模型生成器的训练效率。

综上，基于本发明实施例的双目立体成像方法被阐明，其通过结合深度学习算法和双目立体成像思想，对由两个具有预定位置关系的摄像模组采集被摄目标的不同视角图像进行图像处理与分析，并以此来实现被摄目标的三维模型重建。

在本发明的一个实施例中，图3为本发明实施例中提供的一种双目立体成像系统的框图。如图3所示，根据本发明实施例的双目立体成像系统200，包括：图像获取模块210，用于获取由第一摄像模组和第二摄像模组采集的被摄目标的第一视角图像和第二视角图像，其中，所述第一摄像模组和所述第二摄像模组之间具有预定位置关系；图像特征提取模块220，用于对所述第一视角图像和所述第二视角图像进行图像特征提取以得到被摄目标第一视角图像特征矩阵和被摄目标第二视角图像特征矩阵；全局视角特征提取模块230，用于从所述第一视角图像和所述第二视角图像中提取全局视角特征以得到被摄目标全局视角图像特征矩阵；以及，被摄目标3D模型生成模块240，用于基于所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵，生成被摄目标3D模型。

在所述双目立体成像系统中，所述图像特征提取模块，用于：将所述第一视角图像和所述第二视角图像分别通过基于使用空间注意力机制的卷积神经模型的图像特征提取器以得到所述被摄目标第一视角图像特征矩阵和所述被摄目标第二视角图像特征矩阵。

在所述双目立体成像系统中，所述全局视角特征提取模块，包括：图像拼接单元，用于将所述第一视角图像和所述第二视角图像进行图像拼接以得到全局视角图像；以及，全局视角图像特征提取单元，用于将所述全局视角图像通过基于卷积神经网络模型的全局视角图像特征提取器以得到所述被摄目标全局视角图像特征矩阵。

在所述双目立体成像系统中，所述被摄目标3D模型生成模块，包括：融合单元，用于融合所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵以得到被摄目标多视角图像特征图；以及，立体模型生成单元，用于将所述被摄目标多视角图像特征图通过基于AIGC模型的立体模型生成器以得到被摄目标3D模型。

这里，本领域技术人员可以理解，上述双目立体成像系统中的各个单元和模块的具体功能和操作已经在上面参考图1到图2的双目立体成像方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本发明实施例的双目立体成像系统200可以实现在各种终端设备中，例如用于双目立体成像的服务器等。在一个示例中，根据本发明实施例的双目立体成像系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该双目立体成像系统200可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该双目立体成像系统200同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该双目立体成像系统200与该终端设备也可以是分立的设备，并且双目立体成像系统200可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

图4为本发明实施例中提供的一种双目立体成像方法的应用场景图。如图4所示，在该应用场景中，首先，获取由第一摄像模组(例如，如图4中所示意的M1)和第二摄像模组(例如，如图4中所示意的M2)采集的被摄目标的第一视角图像(例如，如图4中所示意的C1)和第二视角图像(例如，如图4中所示意的C2)；然后，将获取的第一视角图像和第二视角图像输入至部署有双目立体成像算法的服务器(例如，如图4中所示意的S)中，其中所述服务器能够基于双目立体成像算法对所述第一视角图像和所述第二视角图像进行处理，以生成被摄目标3D模型。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种双目立体成像方法，其特征在于，包括：

基于所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵，生成被摄目标3D模型；

其中，基于所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵，生成被摄目标3D模型，包括：

融合所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵以得到被摄目标多视角图像特征图；以及

将所述被摄目标多视角图像特征图通过基于AIGC模型的立体模型生成器以得到被摄目标3D模型。

2.根据权利要求1所述的双目立体成像方法，其特征在于，对所述第一视角图像和所述第二视角图像进行图像特征提取以得到被摄目标第一视角图像特征矩阵和被摄目标第二视角图像特征矩阵，包括：

将所述第一视角图像和所述第二视角图像分别通过基于使用空间注意力机制的卷积神经模型的图像特征提取器以得到所述被摄目标第一视角图像特征矩阵和所述被摄目标第二视角图像特征矩阵。

3.根据权利要求2所述的双目立体成像方法，其特征在于，从所述第一视角图像和所述第二视角图像中提取全局视角特征以得到被摄目标全局视角图像特征矩阵，包括：

将所述第一视角图像和所述第二视角图像进行图像拼接以得到全局视角图像；以及

将所述全局视角图像通过基于卷积神经网络模型的全局视角图像特征提取器以得到所述被摄目标全局视角图像特征矩阵。

4.根据权利要求3所述的双目立体成像方法，其特征在于，还包括训练步骤：对所述基于使用空间注意力机制的卷积神经模型的图像特征提取器、所述基于卷积神经网络模型的全局视角图像特征提取器和所述基于AIGC模型的立体模型生成器进行训练；

其中，所述训练步骤，包括：

获取训练数据，所述训练数据包括由第一摄像模组和第二摄像模组采集的被摄目标的训练第一视角图像和训练第二视角图像，以及，被摄目标3D模型的真实值；

将所述训练第一视角图像和所述训练第二视角图像分别通过所述基于使用空间注意力机制的卷积神经模型的图像特征提取器以得到训练被摄目标第一视角图像特征矩阵和训练被摄目标第二视角图像特征矩阵；

将所述训练第一视角图像和所述训练第二视角图像进行图像拼接以得到训练全局视角图像；

将所述训练全局视角图像通过所述基于卷积神经网络模型的全局视角图像特征提取器以得到训练被摄目标全局视角图像特征矩阵；

融合所述训练被摄目标第一视角图像特征矩阵、所述训练被摄目标第二视角图像特征矩阵和所述训练被摄目标全局视角图像特征矩阵以得到训练被摄目标多视角图像特征图；

对所述训练被摄目标多视角图像特征图进行特征分布优化以得到优化训练被摄目标多视角图像特征图；

将所述优化训练被摄目标多视角图像特征图通过所述基于AIGC模型的立体模型生成器以得到训练被摄目标3D模型；以及

计算所述训练被摄目标3D模型与所述被摄目标3D模型的真实值之间交叉熵函数值作为损失函数值，来对所述基于使用空间注意力机制的卷积神经模型的图像特征提取器、所述基于卷积神经网络模型的全局视角图像特征提取器和所述基于AIGC模型的立体模型生成器进行训练。

5.根据权利要求4所述的双目立体成像方法，其特征在于，对所述训练被摄目标多视角图像特征图进行特征分布优化以得到优化训练被摄目标多视角图像特征图，包括：以如下优化公式对所述训练被摄目标多视角图像特征图进行特征分布优化以得到优化训练被摄目标多视角图像特征图；

其中，所述优化公式为：

其中，f_i是所述被摄目标多视角图像特征图F的第i个特征值，log是以2为底的对数函数，且α是权重超参数，f_i′是所述优化训练被摄目标多视角图像特征图的第i个特征值。

6.一种双目立体成像系统，其特征在于，包括：

被摄目标3D模型生成模块，用于基于所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵，生成被摄目标3D模型；

其中，所述被摄目标3D模型生成模块，包括：

融合单元，用于融合所述被摄目标第一视角图像特征矩阵、所述被摄目标第二视角图像特征矩阵和所述被摄目标全局视角图像特征矩阵以得到被摄目标多视角图像特征图；以及

立体模型生成单元，用于将所述被摄目标多视角图像特征图通过基于AIGC模型的立体模型生成器以得到被摄目标3D模型。

7.根据权利要求6所述的双目立体成像系统，其特征在于，所述图像特征提取模块，用于：

8.根据权利要求7所述的双目立体成像系统，其特征在于，所述全局视角特征提取模块，包括：

图像拼接单元，用于将所述第一视角图像和所述第二视角图像进行图像拼接以得到全局视角图像；以及

全局视角图像特征提取单元，用于将所述全局视角图像通过基于卷积神经网络模型的全局视角图像特征提取器以得到所述被摄目标全局视角图像特征矩阵。