CN117540043B

CN117540043B - 基于跨实例和类别对比的三维模型检索方法及系统

Info

Publication number: CN117540043B
Application number: CN202311705268.0A
Authority: CN
Inventors: 牛冬梅; 韩小凡; 刁振宇; 窦文涛
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-04-12
Anticipated expiration: 2043-12-11
Also published as: CN117540043A

Abstract

本发明公开了基于跨实例和类别对比的三维模型检索方法及系统；获取查询图像、查询图像的掩码图以及三维模型集合，对查询图像进行图像增强得到若干个增强后的查询图像；将增强后的查询图像、查询图像的掩码图、三维模型的多视图均输入到训练后的三维模型检索网络中，输出三维模型检索结果；三维模型检索网络将增强后的查询图像和查询图像的掩码图，均输入到第一卷积神经网络中，输出查询图像的特征表示；将三维模型的多视图输入到第二卷积神经网络中，输出三维模型每个视图的特征表示，将三维模型所有视图的特征表示进行加权求和，得到三维模型的特征表示；将所获得的特征表示均输入到分类器中，输出查询图像所对应的三维模型。

Description

基于跨实例和类别对比的三维模型检索方法及系统

技术领域

本发明涉及三维模型检索技术领域，特别是涉及基于跨实例和类别对比的三维模型检索方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

三维模型检索在计算机视觉和图形学领域受到广泛的关注，其应用范围十分广泛，常应用于场景重建、3D打印、虚拟现实和电子商务平台。在三维模型检索中，分别用相应的特征提取器提取到检索对象和三维模型的特征表示由此来衡量两者特征表示的相似度。给定需要检索对象，三维模型检索旨在找到其对应的三维模型，从而达到检索的目的。

现有的三维模型检索可以分为基于模型的三维模型检索和基于图像的三维模型检索。基于模型的三维模型检索指通过一些方法提取具有代表性的三维模型特征，并测量这些特征的相似度，从而在三维模型检索中获得较高的性能。与基于模型的三维模型检索相比，基于图像的三维模型检索通常应用范围较广同时图像也相较于三维模型容易获取。三维模型检索的方法一般是将检索问题视为目标函数不断优化的过程，通过不断优化目标函数来达到检索准确度不断上升的目的。在实际的研究中，由于三维模型获取成本高，所以基于模型的三维模型检索局限型较大。基于图像的三维模型检索可以很好的解决这个问题，所以本发明选定基于图像的三维模型检索作为本发明的研究方向。

如何进一步提高检索精度，一直是三维模型检索研究领域的主题，在过去的几十年中，已经出现了许多关于基于图像的三维模型检索的工作，人们致力于找到更加合理准确的方法去不断地拉近图像和模型之间的距离，从而实现检索精度的提高。

在实际的应用中，二维图像和三维模型之间巨大的域差距以及二维图像的背景通常比较复杂是不可避免的。同时在现实世界中可能不会存在足够数量的二维图像与三维模型进行训练从而会导致其泛化能力不够高。这些都将可能导致错误的图像和三维模型之间具有较高的相似度，使得最终的检索结果的精度降低。

发明内容

为了解决现有技术的不足，本发明提供了基于跨实例和类别对比的三维模型检索方法及系统；增加更多合理有效的约束条件和图像信息来进行三维模型的检索，以此来减小二维图像和三维模型之间巨大的域差距，使得结果更准确可靠。

一方面，提供了基于跨实例和类别对比的三维模型检索方法；

基于跨实例和类别对比的三维模型检索方法，包括：

获取查询图像、查询图像的掩码图以及三维模型集合，每个三维模型均设有三维模型的多视图；

对查询图像进行图像增强得到若干个增强后的查询图像；

将增强后的查询图像、查询图像的掩码图、三维模型的多视图均输入到训练后的三维模型检索网络中，输出三维模型检索结果；

其中，训练后的三维模型检索网络，用于：将增强后的查询图像和查询图像的掩码图，均输入到第一卷积神经网络中，输出查询图像的特征表示；将三维模型的多视图输入到第二卷积神经网络中，输出三维模型每个视图的特征表示，将三维模型所有视图的特征表示进行加权求和，得到三维模型的特征表示；将查询图像的特征表示和三维模型的特征表示，均输入到分类器中，训练后的分类器输出查询图像所对应的三维模型；

其中，训练后的三维模型检索网络，总损失函数为第一、第二和第三损失函数的求和结果；第一损失函数用于缩小查询图像与三维模型之间的距离；第二损失函数用于缩小增强后的查询图像与其他增强后的查询图像之间的距离；第三损失函数用于增大不同实例三维模型之间的距离。

另一方面，提供了基于跨实例和类别对比的三维模型检索系统；

基于跨实例和类别对比的三维模型检索系统，包括：

获取模块，其被配置为：获取查询图像、查询图像的掩码图以及三维模型集合，每个三维模型均设有三维模型的多视图；

增强模块，其被配置为：对查询图像进行图像增强得到若干个增强后的查询图像；

输出模块，其被配置为：将增强后的查询图像、查询图像的掩码图、三维模型的多视图均输入到训练后的三维模型检索网络中，输出三维模型检索结果；

再一方面，还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

再一方面，还提供了一种存储介质，非暂时性存储计算机可读指令，其中，当非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

再一方面，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

上述技术方案具有如下优点或有益效果：

为了解决上述方法的不足，即缩小图像和三维模型之间的域差距，解决图像背景复杂以及训练数据不够的问题，提高检索精度，本发明提出了一种通过图像增强和拉近图像和型之间的距离来提高精度的方法，该方法通过将原始图像经过图像增强的一些方法增加更多的图像信息，随后不断拉近图像和模型之间的距离，并且对每张查询图像进行颜色转换同时提取对应的mask来减轻复杂背景的影响从而使得基于图像的三维模型检索精度提升。同时本发明使用渲染好的多视图来表示三维模型，可以更好的表示三维模型的信息，该方法可以更好的使得图像检索到正确的三维模型，解决了目前检索精度低的问题。同时图像增强可以进一步提高模型的泛化能力。本发明所提方法用于拉近查询图像和其对应的三维模型之间的距离，解决查询图像背景复杂的问题，有助于克服之前方法的不足，缩小图像域和模型域之间的距离，提高检索精度。此外，此方法设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一的方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

实施例一

本实施例提供了基于跨实例和类别对比的三维模型检索方法；

如图1所示，基于跨实例和类别对比的三维模型检索方法，包括：

S101：获取查询图像、查询图像的掩码图以及三维模型集合，每个三维模型均设有三维模型的多视图；

S102：对查询图像进行图像增强得到若干个增强后的查询图像；

S103：将增强后的查询图像、查询图像的掩码图、三维模型的多视图均输入到训练后的三维模型检索网络中，输出三维模型检索结果；

其中，训练后的三维模型检索网络，用于：

将增强后的查询图像和查询图像的掩码图，均输入到第一卷积神经网络中，输出查询图像的特征表示；

将三维模型的多视图输入到第二卷积神经网络中，输出三维模型每个视图的特征表示，将三维模型所有视图的特征表示进行加权求和，得到三维模型的特征表示；

将查询图像的特征表示和三维模型的特征表示，均输入到分类器中，训练后的分类器输出查询图像所对应的三维模型；

进一步地，所述S101：获取查询图像、查询图像的掩码图以及三维模型集合，每个三维模型均设有三维模型的多视图；其中，查询图像的掩码图通过MaskRCNN实例分割算法计算得到查询图像的掩码图，先通过实例分割算法获得图像的主体部分，之后将其图像处理成二值图。

示例性地，获取查询图像qⁱ、查询图像qⁱ的mask图kⁱ、三维模型tⁱ的多视图

进一步地，所述S102：对查询图像进行图像增强得到若干个增强后的查询图像，其中图像增强采用颜色转换的方式进行增强。

示例性地，对查询图像qⁱ通过图像增强得到更多的查询图像q^j等，从而增加查询图像的多样性，对获得的查询图像qⁱ进行颜色转换。

进一步地，所述图像增强采用颜色转换的方式进行增强，具体包括：

首先，给定查询图像作为目标q^t，同时随机选取另外一张查询图像作为源彩色图像q^s；

其次，将RGB空间的两种图像q^t和q^s转换到lαβ空间。

再次，在lαβ空间中将对图像q^t进行颜色转换；将该图像q^s的颜色转换到目标图像q^t上；

然后，将转换后的lαβ空间里的目标图像q^t，转换到RGB空间。

进一步地，所述在lαβ空间中将对图像q^t进行颜色转换，具体包括：

在lαβ空间中，首先计算源彩色图像q^s的l,α,β三个通道分量平均值和标准差，对目标图像q^t的l,α,β三个通道分量分别减去源彩色图像q^s三个通道分量的平均值；

计算目标图像的三个通道分量的标准差，与源彩色图三个通道分量的标准差的占比，得到比率，将比率与目标图像的三个通道分量分别相乘，以实现通道缩放；

再次将目标图像q^t的三个通道分量，分别加上源彩色图像q^s的均值作为目标图像最终的l,α,β通道分量；

最后，合并l,α,β三个通道分量完成将源彩色图像q^s的颜色转换到目标图像q^t上。

应理解地，lαβ是一种色彩空间，各个通道间几乎完全独立，满足了分通道处理的独立性要求，从而不会改变原图像的自然效果。l是亮度分量，α是黄蓝相关颜色通道，β是红绿相关颜色通道。

示例性地，将查询图像qⁱ和mask图kⁱ共同通过卷积神经网络fr₁获得关于查询图像的特征表示

进一步地，所述S103：将增强后的查询图像、查询图像的掩码图、三维模型的多视图均输入到训练后的三维模型检索网络中，输出三维模型检索结果，其中，训练后的三维模型检索网络，包括：

第一卷积神经网络、第二卷积神经网络和分类器；

所述第一卷积神经网络的输入端用于输入增强后的查询图像和查询图像的掩码图，所述第一卷积神经网络的输出端与分类器的输入端连接；

所述第二卷积神经网络的输入端用于输入三维模型的多视图；所述第二卷积神经网络的输出端与分类器的输入端连接；

分类器的输出端用于输出三维模型检索结果。

进一步地，所述将增强后的查询图像和查询图像的掩码图，均输入到第一卷积神经网络中，输出查询图像的特征表示，具体包括：

将增强后的查询图像q^j和查询图像的掩码图kⁱ共同通过卷积神经网络fr₁获得关于查询图像的特征表示

进一步地，所述将三维模型的多视图输入到第二卷积神经网络中，输出三维模型每个视图的特征表示，将三维模型所有视图的特征表示进行加权求和，得到三维模型的特征表示，具体包括：

通过卷积神经网络fr₂提取三维模型多视图的特征表示将三维模型视图特征表示/>进行加权求和获得最终的三维模型的特征表示/>

进一步地，训练后的三维模型检索网络，总损失函数为第一、第二和第三损失函数的求和结果，其中总损失函数L_total的具体表达式为：

第一损失函数L₁为：

其中，d_i指的是特征表示之间的距离，k指的是与查询图像属于同类别的三维模型的数量，n指的是三维模型的总数量。

第二损失函数L₂为：

其中，指的是增强后的查询图像特征表示与其他增强后的查询图像特征表示之间的距离，/>指的是增强后的查询图像特征表示与所有查询图像特征表示之间的距离，s指的是查询图像的个数。

示例性地，假设查询图像Z的增强图像为增强图像Z1、增强图像Z2和增强图像Z3；查询图像Y的增强图像为增强图像Y1、增强图像Y2和增强图像Y3；查询图像Z的主体对象与查询图像Y的主体对象为同一对象(例如同一只猫)；第二损失函数是缩小增强图像Z1与增强图像Z2、增强图像Z3、增强图像Y1、增强图像Y2或增强图像Y3之间的距离；且，

缩小增强图像Z2与增强图像Z1、增强图像Z3、增强图像Y1、增强图像Y2或增强图像Y3之间的距离；且，

缩小增强图像Z3与增强图像Z1、增强图像Z2、增强图像Y1、增强图像Y2或增强图像Y3之间的距离；且，

缩小增强图像Y1与增强图像Z1、增强图像Z2、增强图像Z3、增强图像Y2或增强图像Y3之间的距离；且，

缩小增强图像Y2与增强图像Z1、增强图像Z2、增强图像Z3、增强图像Y1或增强图像Y3之间的距离；且，

缩小增强图像Y3与增强图像Z1、增强图像Z2、增强图像Z3、增强图像Y1或增强图像Y2之间的距离。

第三损失函数L₃为：

其中，指的是模型特征表示之间的距离。

进一步地，第一损失函数用于缩小查询图像与三维模型之间的距离；根据查询图像和三维模型的特征表示/>通过损失函数拉近每张查询图像qⁱ和对应的三维模型tⁱ之间的距离。

应理解地，第一损失函数：给定查询图像三维模型特征表示/>

首先根据给定的查询图像和三维模型/>特征表示，找到查询图像对应的三维模型，通过不断优化损失函数，不断地拉近查询图像和对应三维模型之间的距离，同时不断地拉远查询图像和其他三维模型之间的距离。

其次，为了使得相同类别地查询图像和三维模型/>能够进一步地拉近，本发明根据给定的查询图像/>和三维模型/>特征表示，找到相同类别的查询图像和三维模型，通过不断优化损失函数，不断地拉近它们之间的距离，同时不断地拉远不同类别的查询图像和三维模型之间的距离。

进一步地，第二损失函数用于缩小增强后的查询图像与其他增强后的查询图像之间的距离；根据查询图像特征表示通过损失函数拉近查询图像/>之间的距离。

应理解地，第二损失函数：给定查询图像的特征表示找到其对应的查询图像，同时本发明经过图像增强得到了更多的关于查询图像的图像信息，可以表达更多的关于查询图像的图像信息，本发明不断地拉近这些查询图像之间的距离，不断地拉远其与其他查询图像之间的距离。

进一步地，第三损失函数用于增大不同实例三维模型之间的距离，根据三维模型的特征表示通过损失函数使得不同实例的三维模型tⁱ之间的差异性越来越大。

应理解地，第三损失函数，根据三维模型的特征表示使得每个三维模型tⁱ之间的差异性越来越大的方法，包括以下步骤：

首先，根据给定三维模型特征表示计算得到每个三维模型特征的均值作为进行计算的三维模型特征表示。

其次，根据三维模型特征表示，本发明不断地拉远三维模型tⁱ之间的距离来使得模型之间的差异越来越大。

本发明提供了一种基于图像增强、跨实例和类别对比的基于图像的三维模型检索方法，该方法可以进一步拉近图像和对应三维模型之间的距离，同时也可以进一步提升模型的泛化能力，解决了目前检索精度低的问题。

本发明聚焦于图像增强以及缩小图像和三维模型之间的距离，对其不断地调整以提高检索三维模型的准确度。直接对查询图像进行特征提取往往会受到复杂背景的影响，然而通过引入mask图以及对查询图像进行颜色转换可以在一定程度上减轻复杂背景的影响。此外，对原始查询图像进行图像增强可以很好的去弥补训练数据不够的问题，提高模型的泛化能力。考虑通过不同的方式不断地拉近图像和模型之间的距离将使得结果更准确更可靠，提高模型的鲁棒性。

实施例二

本实施例提供了基于跨实例和类别对比的三维模型检索系统；

基于跨实例和类别对比的三维模型检索系统，包括：

此处需要说明的是，上述获取模块、增强模块和输出模块对应于实施例一中的步骤S101至S103，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于跨实例和类别对比的三维模型检索方法，其特征是，包括：

对查询图像进行图像增强得到若干个增强后的查询图像；

2.如权利要求1所述的基于跨实例和类别对比的三维模型检索方法，其特征是，获取查询图像、查询图像的掩码图以及三维模型集合，每个三维模型均设有三维模型的多视图；其中，查询图像的掩码图通过MaskRCNN实例分割算法计算得到查询图像的掩码图，先通过实例分割算法获得图像的主体部分，之后将其图像处理成二值图。

3.如权利要求1所述的基于跨实例和类别对比的三维模型检索方法，其特征是，对查询图像进行图像增强得到若干个增强后的查询图像，其中图像增强采用颜色转换的方式进行增强；

所述图像增强采用颜色转换的方式进行增强，具体包括：

其次，将RGB空间的两种图像q^t和q^s转换到lαβ空间；

4.如权利要求3所述的基于跨实例和类别对比的三维模型检索方法，其特征是，所述在lαβ空间中将对图像q^t进行颜色转换，具体包括：

5.如权利要求1所述的基于跨实例和类别对比的三维模型检索方法，其特征是，将增强后的查询图像、查询图像的掩码图、三维模型的多视图均输入到训练后的三维模型检索网络中，输出三维模型检索结果，其中，训练后的三维模型检索网络，包括：

第一卷积神经网络、第二卷积神经网络和分类器；

分类器的输出端用于输出三维模型检索结果。

6.如权利要求1所述的基于跨实例和类别对比的三维模型检索方法，其特征是，所述将增强后的查询图像和查询图像的掩码图，均输入到第一卷积神经网络中，输出查询图像的特征表示，具体包括：

所述将三维模型的多视图输入到第二卷积神经网络中，输出三维模型每个视图的特征表示，将三维模型所有视图的特征表示进行加权求和，得到三维模型的特征表示，具体包括：

通过卷积神经网络fr₂提取三维模型多视图的特征表示将三维模型视图特征表示进行加权求和获得最终的三维模型的特征表示/>

7.如权利要求1所述的基于跨实例和类别对比的三维模型检索方法，其特征是，训练后的三维模型检索网络，总损失函数为第一、第二和第三损失函数的求和结果，其中总损失函数L_total的具体表达式为：

第一损失函数L₁为：

其中，d_i指的是特征表示之间的距离，k指的是与查询图像属于同类别的三维模型的数量，n指的是三维模型的总数量；

第二损失函数L₂为：

其中，指的是增强后的查询图像特征表示与其他增强后的查询图像特征表示之间的距离，/>指的是增强后的查询图像特征表示与所有查询图像特征表示之间的距离，s指的是查询图像的个数；

第三损失函数L₃为：

其中，指的是模型特征表示之间的距离。

8.基于跨实例和类别对比的三维模型检索系统，其特征是，包括：

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性存储计算机可读指令，其中，当非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。