CN111310821B

CN111310821B - 多视图特征融合方法、系统、计算机设备及存储介质

Info

Publication number: CN111310821B
Application number: CN202010087614.3A
Authority: CN
Inventors: 周燕; 余家豪; 曾凡智; 周月霞
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2023-11-21
Anticipated expiration: 2040-02-11
Also published as: CN111310821A

Abstract

本发明公开了一种多视图特征融合方法、系统、计算机设备及存储介质，所述方法包括：构建深度特征提取模块以及基于度量学习的对比损失分类模块；获取三维模型在不同视角下的多个视图；将多个视图输入多视图卷积神经网络，利用深度特征提取模块提取每个视图的深度特征向量；利用基于度量学习的对比损失分类模块对多个视图的深度特征向量进行分类，得到每个视图的分类组别；根据每个视图的分类组别，利用基于注意力机制的融合权值计算模块计算融合权值，将融合权值作为视图特征融合的比重，实现多个视图的特征加权融合。本发明提高了分类效果，对于相同分类组别更多的输入分配更大的融合权值，对三维模型的特征描绘更精确。

Description

多视图特征融合方法、系统、计算机设备及存储介质

技术领域

本发明涉及一种多视图特征融合方法、系统、计算机设备及存储介质，属于三维模型检索领域。

背景技术

随着深度学习的发展,很多经典的卷积神经网络在二维图像的分类与检索任务中得到很好的应用。如AlexNet、GoogLeNet、VGGNet、ResNet等模型，它们被广泛用于提取目标的深度学习特征。在近几年的研究中，卷积神经网络被尝试用来解决相对单一的图片分类检索任务更加复杂的应用中，如对三维模型的分类与检索。由于三维物体相比二维图片有更高维度数据，无法简单的复用现有的传统网络来对其进行特征提取。因此，一般需要对三维模型进行降维处理，然后再借用成熟的二维卷积神经网络模型来进行特征提取。如2015年的多视图卷积神经网络(Multi-view Convolutional Neural Networks，简称MVCNN)框架，该方法是通过构造平面上的多个视角对三维模型进行投影，得到多张投影视图，并将其放入由多个卷积神经网络构成的多视图卷积神经网络框架来进行视图特征的提取和融合。在进行融合时，由于从不同角度来对三维物体进行采集而产生的视图之间所包含的信息量不对等，使得不同输入通道的卷积网络提取的特征对最终的融合特征的贡献程度不同，如果对不同通道提取特征采用相同的权重，则会损失一定的有效信息。因此有必要寻找一种有效的计算多视图卷积网络融合权重的方法来实现更好的特征融合，从而提取出更加有效的三维模型的融合视图特征。

相比对多视图卷积神经网络，在其基础上分组视图卷积神经网络(Group-ViewConvolutional Neural Networks，GVCNN)框架引入视图分组模块，通过不同视图之间的差异性来给出视图融合的权重，替换了原先的取均值池化。该视图模块通过全连接层来进行特征映射，并通过取绝对值、对数、激活函数等操作，将特征映射到0到1的区间内，并将该区间进行N等分，再根据不同视图的特征映射在区间的分布来取不同的融合权重。

然而，分组视图卷积神经网络采用的分组模块是通过全卷积网络来提取图片的特征并利用全连接层、求绝对值、对数及激活函数将输出映射到0到1的区间内，并将区间划分为N个子区间，从而将输入的视图划分为不同的分类组别。该方法存在的不足之处在于基于无监督学习的分类效果有限，且不同类别的特征不存在类间距，分类器的鲁棒性不强，因此不能很好的找出不同角度视图间的差异性。

发明内容

有鉴于此，本发明提供了一种多视图特征融合方法、系统、计算机设备及存储介质，其解决了分组视图卷积神经网络不能很好的找出不同角度视图间的差异性的问题，在多视图卷积神经网络的基础上，引入了基于度量学习的对比损失分类模块，通过卷积神经网络来做特征映射并引入了度量学习的方法来增大不同分类组别的列间距，从而提高了分类效果，对于相同分类组别更多的输入分配更大的融合权值，对三维模型的特征描绘更精确。

本发明的第一个目的在于提供一种多视图特征融合方法。

本发明的第二个目的在于提供一种多视图特征融合系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种多视图特征融合方法，所述方法包括：

获取三维模型在不同视角下的多个视图；

将多个视图输入多视图卷积神经网络，利用深度特征提取模块提取每个视图的深度特征向量；

利用基于度量学习的对比损失分类模块对多个视图的深度特征向量进行分类，得到每个视图的分类组别；

根据每个视图的分类组别，利用基于注意力机制的融合权值计算模块计算融合权值，将融合权值作为视图特征融合的比重，实现多个视图的特征加权融合。

进一步的，所述获取三维模型在不同视角下的多个视图之前，还包括：

构建深度特征提取模块以及基于度量学习的对比损失分类模块。

进一步的，构建深度特征提取模块，具体包括：

使用imageNet数据集对VGG19网络进行预训练，得到VGG19预训练模型，将VGG19预训练模型作为深度特征提取模块；其中，所述VGG19网络包括十六个卷积层和三个全连接层。

进一步的，构建基于度量学习的对比损失分类模块，具体包括：

获取三维模型的视图样本；

从视图样本中选取成对的正负样本数据输入VGG19预训练模型，采用基于度量学习的对比损失函数对VGG19预训练模型进行微调，得到基于度量学习的对比损失分类模块。

进一步的，所述基于度量学习的对比损失函数，如下式：

其中，y为成对正负样本数据是否为同类的标记，若为同类则y＝1，margin为异类之间的距离，d为成对数据之间的欧式距离。

进一步的，所述利用基于注意力机制的融合权值计算模块计算融合权值，如下式：

其中，k＝1,2,...,n，n为输入视图个数，S_k为与第k个输入相同分类组别的输入个数。

本发明的第二个目的可以通过采取如下技术方案达到：

一种多视图特征融合系统，所述系统包括：

获取单元，用于获取三维模型在不同视角下的多个视图；

提取单元，用于将多个视图输入多视图卷积神经网络，利用深度特征提取模块提取每个视图的深度特征向量；

分类单元，用于利用基于度量学习的对比损失分类模块对多个视图的深度特征向量进行分类，得到每个视图的分类组别；

计算单元，用于根据每个视图的分类组别，利用基于注意力机制的融合权值计算模块计算融合权值，将融合权值作为视图特征融合的比重，实现多个视图的特征加权融合。

进一步的，所述获取单元之前，还包括：

构建单元，用于构建深度特征提取模块以及基于度量学习的对比损失分类模块。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的多视图特征融合方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的多视图特征融合方法。

本发明相对于现有技术具有如下的有益效果：

1、本发明将多个视图输入多视图卷积神经网络，利用深度特征提取模块提取每个视图的深度特征向量，利用基于度量学习的对比损失分类模块对多个视图的深度特征向量进行分类，根据不同视图的分类情况，结合注意力机制，计算融合的权值，对于相同分类组别更多的输入分配更大的权值，相比均值池化的方法获得的融合特征的鲁棒性更强，对三维模型的特征描绘更精确。

2、本发明使用imageNet数据集对VGG19网络进行预训练，得到VGG19预训练模型，将VGG19预训练模型作为深度特征提取模块，利用VGG19预训练模型提取多视图卷积神经网络每个通道输入的特征，基于深度学习网络的拟合效果相比分组视图卷积神经网络中采用的基于无监督学习的全卷积网络更优。

3、本发明选取成对的正负样本数据输入VGG19预训练模型，采用基于度量学习的对比损失函数对VGG19预训练模型进行微调，以增大不同分类组别的列间距(即类间距离)，可以提高分类效果的基于度量学习的对比损失，从而提升了多视图卷积神经网络的特征映射能力，弥补了分组视图卷积神经网络中采用的划分区间的方法的分类间距模糊的不足之处。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的多视图特征融合方法的流程图。

图2为本发明实施例1的多视图特征融合方法的框架图。

图3为本发明实施例1的VGG19网络的结构图。

图4为本发明实施例1的基于度量学习的对比损失分类模块的构建流程图。

图5为本发明实施例2的多视图特征融合系统的结构框图。

图6为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1和图2所示，本实施例提供了一种多视图特征融合方法，该方法包括以下步骤：

S101、构建深度特征提取模块以及基于度量学习的对比损失分类模块。

本实施例通过Keras构建深度特征提取模块，Keras是一个高层神经网络API，Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端，构建深度特征提取模块，具体包括：

使用imageNet数据集对VGG19网络进行预训练，得到VGG19预训练模型，将VGG19预训练模型作为深度特征提取模块，VGG19网络的结构如图3所示，其包括十六个卷积层和三个全连接层。

本实施例中，构建基于度量学习的对比损失分类模块如图4所示，具体包括：

S401、获取三维模型的视图样本。

参见文献《Multi-view Convolutional Neural Networks for 3D ShapeRecognition》，可以通过构造平面上的多个视角对三维模型进行投影，得到多张投影视图，选取部分视图作为视图样本。

S402、从视图样本中选取成对的正负样本数据输入VGG19预训练模型，采用基于度量学习的对比损失函数对VGG19预训练模型进行微调，得到基于度量学习的对比损失分类模块。

本实施例从视图样本中选取成对的正负样本数据，具体为：将VGG19预训练模型作为分类器，将视图样本作为分类器的输入，得到它们的分类类别，统计落在不同类别的视图数量，将正确分类概率最大的K个视图样本作为正样本数据，其余视图样本作为负样本数据，得到成对的正负样本数据。

将成对的正负样本数据作为VGG19预训练模型的输入，采用基于度量学习的对比损失函数对VGG19预训练模型进行微调，即对分类器进行优化，以增大不同分类组别的列间距(即类间距离)，可以提高分类效果；基于度量学习的对比损失函数，如下式：

其中，y为成对正负样本数据是否为同类的标记，若为同类则y＝1，margin为异类之间的距离，d为成对数据之间的欧式距离；当输入的正负样本数据为同类时，距离越大，损失函数L越大，当成对数据为异类时，若两者之间的距离小于事先给定的margin，距离越小则损失函数L越大，若两者之间的距离大于事先给定的margin，则此时的损失函数L的值为0，模型的输出层的维度取决于训练数据(正负样本数据)的种类，采用独热编码的方式来实现分类。

上述步骤S101为离线阶段，即训练阶段，而步骤S102～S105为在线阶段，即应用阶段。可以理解，上述步骤S101在一台计算机设备(如计算机等)完成，可以在该计算机设备上进入步骤S102～S105的应用阶段，也可以将该台计算机设备训练后的模型植入其他的计算机设备，在其他的计算机设备上进入步骤S102～S105的应用阶段。

S102、获取三维模型在不同视角下的多个视图。

与步骤S401的获取方法类似，可以通过构造平面上的多个视角对三维模型进行投影，得到多张投影视图，这些视图即为三维模型在不同视角下的多个视图。

S103、将多个视图输入多视图卷积神经网络，利用深度特征提取模块提取每个视图的深度特征向量。

其中，深度特征提取模块可以将输入多视图卷积神经网络的多个视图映射为深度特征向量。

S104、利用基于度量学习的对比损失分类模块对多个视图的深度特征向量进行分类，得到每个视图的分类组别。

S105、根据每个视图的分类组别，利用基于注意力机制的融合权值计算模块计算融合权值，将融合权值作为视图特征融合的比重，实现多个视图的特征加权融合。

通过上述的深度特征提取模块以及基于度量学习的对比损失分类模块，可以将多视图卷积神经网络不同通道的输入分别映射到不同的分类组别中，接下来通过借用注意力机制的思想来计算融合的权值，注意力机制通俗的讲就是把注意力集中放在重要的点上，而忽略其他不重要的因素；当从同一个三维模型提取的多个视图都分为某一分类组别时，说明视图之间相关性更强，而且这一分类组别的视图对三维模型描述更加具有泛化性，能够更全面地描绘三维模型的特征，因此这一分类组别视图对融合特征的贡献应该给予更大的比重；基于这一原理，统计落在相同分类组别的输入个数，对于相同分类组别的输入给出相同的融合权值，融合权值由下面公式计算：

其中，k＝1,2,...,n，n为输入视图个数，S_k为与第k个输入相同分类组别的输入个数，即当输入被分为某个分类组别的个数越多时，属于该分类组别的输入所占比重(融合权值)越大，在计算多个视图的融合特征时，即可以将该视图的深度特征乘以相应的融合权值，再进行多个视图的特征加权融合。

本领域技术人员可以理解，实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图5所示，本实施例提供了一种多视图特征融合系统，该系统包括构建单元501、获取单元502、提取单元503、分类单元504和计算单元505，各个单元的具体功能如下：

所述构建单元501，用于构建深度特征提取模块以及基于度量学习的对比损失分类模块；其中，

构建深度特征提取模块，具体包括：使用imageNet数据集对VGG19网络进行预训练，得到VGG19预训练模型，将VGG19预训练模型作为深度特征提取模块；其中，所述VGG19网络包括十六个卷积层和三个全连接层。

构建基于度量学习的对比损失分类模块，具体包括：获取三维模型的视图样本；从视图样本中选取成对的正负样本数据输入VGG19预训练模型，采用基于度量学习的对比损失函数对VGG19预训练模型进行微调，得到基于度量学习的对比损失分类模块。

所述获取单元502，用于获取三维模型在不同视角下的多个视图。

所述提取单元503，用于将多个视图输入多视图卷积神经网络，利用深度特征提取模块提取每个视图的深度特征向量。

所述分类单元504，用于利用基于度量学习的对比损失分类模块对多个视图的深度特征向量进行分类，得到每个视图的分类组别。

所述计算单元505，用于根据每个视图的分类组别，利用基于注意力机制的融合权值计算模块计算融合权值，将融合权值作为视图特征融合的比重，实现多个视图的特征加权融合。

本实施例中各个单元的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的系统仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。

实施例3：

本实施例提供了一种计算机设备，该计算机设备可以为计算机，如图6所示，其通过系统总线601连接的处理器602、存储器、输入装置1003、显示器1004和网络接口1005，该处理器用于提供计算和控制能力，该存储器包括非易失性存储介质1006和内存储器1007，该非易失性存储介质1006存储有操作系统、计算机程序和数据库，该内存储器1007为非易失性存储介质中的操作系统和计算机程序的运行提供环境，处理器1002执行存储器存储的计算机程序时，实现上述实施例1的多视图特征融合方法，如下：

获取三维模型在不同视角下的多个视图；

进一步地，所述获取三维模型在不同视角下的多个视图之前，还包括：

进一步地，构建深度特征提取模块，具体包括：

进一步地，构建基于度量学习的对比损失分类模块，具体包括：

获取三维模型的视图样本；

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例1的多视图特征融合方法，如下：

获取三维模型在不同视角下的多个视图；

进一步地，构建深度特征提取模块，具体包括：

获取三维模型的视图样本；

本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

综上所述，本发明将多个视图输入多视图卷积神经网络，利用深度特征提取模块提取每个视图的深度特征向量，利用基于度量学习的对比损失分类模块对多个视图的深度特征向量进行分类，根据不同视图的分类情况，结合注意力机制，计算融合的权值，对于相同分类组别更多的输入分配更大的权值，相比均值池化的方法获得的融合特征的鲁棒性更强，对三维模型的特征描绘更精确。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种多视图特征融合方法，其特征在于，所述方法包括：

构建深度特征提取模块以及基于度量学习的对比损失分类模块；

获取三维模型在不同视角下的多个视图；

根据每个视图的分类组别，利用基于注意力机制的融合权值计算模块计算融合权值，将融合权值作为视图特征融合的比重，实现多个视图的特征加权融合；

构建深度特征提取模块，具体包括：

使用imageNet数据集对VGG19网络进行预训练，得到VGG19预训练模型，将VGG19预训练模型作为深度特征提取模块；其中，所述VGG19网络包括十六个卷积层和三个全连接层；

构建基于度量学习的对比损失分类模块，具体包括：

获取三维模型的视图样本；

从视图样本中选取成对的正负样本数据输入VGG19预训练模型，采用基于度量学习的对比损失函数对VGG19预训练模型进行微调，得到基于度量学习的对比损失分类模块；其中，从视图样本中选取成对的正负样本数据，具体为：将VGG19预训练模型作为分类器，将视图样本作为分类器的输入，得到它们的分类类别，统计落在不同类别的视图数量，将正确分类概率最大的K个视图样本作为正样本数据，其余视图样本作为负样本数据，得到成对的正负样本数据；

所述利用基于注意力机制的融合权值计算模块计算融合权值，如下式：

2.根据权利要求1所述的多视图特征融合方法，其特征在于，所述基于度量学习的对比损失函数，如下式：

3.一种多视图特征融合系统，其特征在于，所述系统包括：

构建单元，构建深度特征提取模块以及基于度量学习的对比损失分类模块；

获取单元，用于获取三维模型在不同视角下的多个视图；

计算单元，用于根据每个视图的分类组别，利用基于注意力机制的融合权值计算模块计算融合权值，将融合权值作为视图特征融合的比重，实现多个视图的特征加权融合；

构建深度特征提取模块，具体包括：

构建基于度量学习的对比损失分类模块，具体包括：

获取三维模型的视图样本；

4.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-2任一项所述的多视图特征融合方法。

5.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-2任一项所述的多视图特征融合方法。