CN114943961A

CN114943961A - 一种面向三维模型的零样本分类方法

Info

Publication number: CN114943961A
Application number: CN202210703384.8A
Authority: CN
Inventors: 白静; 袁涛; 范有福
Original assignee: North Minzu University
Current assignee: North Minzu University
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-08-26

Abstract

本发明公开了一种面向三维模型的零样本分类方法，包括：S1、构建零样本三维模型数据集；S2、以零样本三维模型数据集中三维模型的多视图表征为输入，利用深度集成学习子网络提取复杂三维模型的视觉特征；S3、将三维模型的视觉特征输入语义流形嵌入子网络中，有效捕捉已知类别与未知类别之间的视觉关联和语义关联；S4、输入零样本三维模型数据集中未知类别的三维模型，通过深度集成学习子网络和语义流形嵌入子网络提取其视觉及语义特征信息，使用余弦距离度量函数为未知类找到最佳语义标签，完成对未知类别的分类识别。本发明可实现对未知类别的有效识别，取得了较好的分类精度。

Description

一种面向三维模型的零样本分类方法

技术领域

本发明涉及计算机图形学、计算机视觉与智能识别的技术领域，尤其是指一种面向三维模型的零样本分类方法。

背景技术

零样本三维模型分类对于三维形状的理解和分析非常重要。当前，随着深度学习的不断发展，基于封闭集合的传统三维模型分类识别取得了较高水平。与此同时，快速发展的计算机图形学和计算机辅助设计技术使得三维模型的数量成指数级增长。收集并用作训练的三维模型不可能包含所有类别。为了令深度学习网络有效识别未知类中的三维模型，有必要研究面向零样本学习的三维模型分类方法。

发明内容

本发明的目的在于克服现有技术的缺点与不足，针对目前零样本分类方法应用于三维模型领域能力较差的问题，提出了一种面向三维模型的零样本分类方法，可有效识别在训练过程中未见过的新类别，完成对未知类别的分类识别。

为实现上述目的，本发明所提供的技术方案为：一种面向三维模型的零样本分类方法，该方法为识别在训练过程中未见过的新类，构建了零样本三维模型数据集，并提出面向零样本三维模型分类的深度学习网络，该深度学习网络使用两个结构不一致的卷积神经网络，其中一个卷积神经网络结合集成学习的方法有效提取三维模型的视觉特征信息，将其称为深度集成学习子网络，另一个卷积神经网络结合流形学习方法捕捉未见过的未知类别和训练过的已知类别视觉特征与语义特征之间的关联性，将其称为语义流形嵌入子网络，通过该深度学习网络，完成对未知类别的分类识别；其包括以下步骤：

S1、研究现有三维模型数据之间的语义相关性，构建零样本三维模型数据集，为零样本三维模型分类任务提供了数据基准；

S2、以零样本三维模型数据集中三维模型的多视图表征为输入，利用深度集成学习子网络提取复杂三维模型的视觉特征；

S3、将三维模型的视觉特征输入语义流形嵌入子网络中，以零样本三维模型数据集中包含丰富语义信息的标签向量为指引，有效捕捉已知类别与未知类别之间的视觉关联和语义关联，完成对深度学习网络的训练；

S4、将零样本三维模型数据集中未知类别的三维模型输入训练好的深度学习网络，通过深度集成学习子网络和语义流形嵌入子网络提取其视觉及语义特征信息，使用余弦距离度量函数为未知类找到最佳语义标签，完成对未知类别的分类识别。

进一步，在步骤S1中，零样本三维模型分类任务旨在实现对未知类别的分类识别，构建的零样本三维模型数据集包含数据集合、标签集合及属性集合；

所述数据集合及标签集合指的是以紧密相关的非刚性三维数据集Shrec2014和Shrec2015为数据源，挑选了41个类共1677个形状纹理清晰的非刚性三维模型，根据零样本数据集构建原则，将其分为互不相交的训练集和测试集，其中，训练集共包含33个类，1493个三维模型；测试集共包含8个类，184个三维模型；

所述属性集合指的是以标签集合为基础，使用300维的Word2Vec词向量作为三维模型的属性，即语义标签向量，完成属性集合的构建。

进一步，在步骤S2中，以三维模型的多视图为输入构建其视觉表征，所述深度集成学习子网络包含一组基学习器和一个集成学习器，基学习器由一个卷积神经网络构成，其主要目的是对三维模型的多视图表征中的每一个视图完成初始决策，形成初始视图表征；集成学习器包括一个集成层和一个全连接层，通过集成由基学习器获得的初始视图表征形成对三维模型的整体表征；为确保数据的完整性，采用拼接操作完成视图特征集成，并利用全连接层将其映射为300维的整体特征；

为有效训练深度集成子网络，构建了基学习器的损失函数L_i和集成学习器的损失函数L_e，分别通过如下公式求解：

式中，N为视图数目，K为分类数目，p{l_i＝j}函数表示当第i个样本真实标签为j时取值1，否则为0；函数λ{l_i＝j}表示当第i个样本真实标签为j时取值为1，否则为-1；b_ij表示第i个视图在第j维的分类预测值；

深度集成学习子网络的整体分类损失L通过如下公式求解：

式中，L_i为第i个基学习器的损失，L_e为集成学习器的损失，α和β表示在整个损失函数中基学习器损失和集成学习器损失所占的比重。

进一步，在步骤S3中，以三维模型数据的语义标签向量为指引，构建语义流形嵌入子网络，首先以零样本三维模型数据集中的语义标签向量为输入，利用全连接层构造该类标签的300维语义特征，然后以语义特征为基准，构建视觉特征和语义特征之间的对抗损失L_D，完成视觉特征到语义特征的对齐，对抗损失L_D通过如下公式求解：

式中，N′为样本数目，其数量与三维模型类别数目一致，a_i为第i个语义特征，p_i为第i个视觉特征，l₀()和l₁()通过如下公式求解：

l_t(e)＝tlog(f(R_λ(e)))+1-t)log(1-f(R_λ(e)))

式中，f()为一组多层感知机，旨在实现特征空间到二值分类的映射；e为视觉特征或语义特征；t为0或1，当输入为视觉特征时记为0，输入为语义特征记为1，为了使得嵌入同一空间的视觉特征域和语义特征域的特征分布尽可能接近，在语义流形嵌入子网络中加入梯度反转层，将其定义为R_λ()，该函数在前向传播时为恒等变换R_λ(x)＝x，反向传播时会乘以-λ，λ为超参数，在训练过程中由0变为1，起到逆向学习的作用，则当l_t(e)取极小值时，语义流形嵌入子网络便无法区分数据来自于视觉特征域还是语义特征域，从而使得两个域的分布更为接近；

通过语义流形嵌入子网络，将类间彼此独立的视觉特征嵌入到类间相互关联的语义特征空间，间接捕捉到未知类别和已知类别间的关联关系。

进一步，在步骤S4中，输入零样本三维模型数据集中未知类三维模型，能够基于深度集成学习子网络获得其视觉特征，进而利用语义流形嵌入子网络将其嵌入至语义特征空间中，并利用余弦距离寻找与其最为接近的语义标签，完成对未知类别的分类识别。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明提出一种零样本三维模型数据集，为零样本三维模型分类任务提供数据基准。

2、本发明提出一种面向零样本三维模型分类的深度学习网络，利用深度集成学习子网络提取复杂三维模型的视觉特征，并以包含丰富语义信息的标签向量为指引构建语义流形嵌入子网络，有效捕捉不同类之间的视觉关联和语义关联，完成零样本分类。

3、在零样本三维模型数据集上的相关性及可视化分析验证了数据集的合理性；在零样本三维模型数据集上的对比实验验证了本发明的有效性；在其它数据集上的对比实验进一步表明了本发明的普适性。

附图说明

图1为本发明提出的零样本三维模型数据集词云可视化及部分三维模型实例图，词云可视化共41个类别的单词，其中ant、bear、bee、bird、bull、butterfly、camel、cat、centaur、chick、cow、crab、crocodile、deer、dinosaur、dog、dolphin、duck、elephant、fish、frog、giraffe、gorilla、horse、kangaroo、man、mantaRay、mermaid、monkey、mouse、octopus、pig、rabbit、robot、santa、shark、sheep、snake、spider、tortoise、woman分别表示蚂蚁、熊、蜜蜂、鸟、公牛、蝴蝶、骆驼、猫、人马、鸡、奶牛、螃蟹、鳄鱼、鹿、恐龙、狗、企鹅、鸭子、大象、鱼、青蛙、长颈鹿、大猩猩、马、袋鼠、男人、蝠鲼、美人鱼、猴子、老鼠、章鱼、猪、兔子、机器人、圣诞老人、鲨鱼、羊、蛇、蜘蛛、乌龟、女人，后续出现该类单词与之含义相同。

图2为本发明提出的零样本三维模型数据集词向量可视化图。

图3为本发明提出的零样本分类方法整体框架图，其中Word2vec为词向量嵌入。

图4为本发明提出的面向零样本三维模型分类的深度学习网络深度学习网络整体结构图，其中CNN为卷积神经网络。

图5为单类别预测标签概率图。

图6为未知类语义相关性可视化图。

图7为未知类特征可视化图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例提供了一种面向三维模型的零样本分类方法，构建了零样本三维模型数据集，提出面向零样本三维模型分类的深度学习网络，实现了多视图三维模型的零样本分类。首先，研究传统三维模型数据之间的语义相关性，构建零样本三维模型数据集，该数据集包含41个相关类的1677个非刚性三维模型，为零样本三维模型分类任务提供了数据基准。图1展示了零样本三维模型数据集词云可视化及部分三维模型实例，词云可视化中，单词的大小表示该类别模型数量的多少，图2展示了该数据集词向量的可视化图。

针对零样本三维模型分类任务，提出的面向零样本三维模型分类的深度学习网络，如图3所示，该网络以零样本三维模型数据集中数据的多视图表征为输入，利用端到端的深度学习网络提取其视觉特征，基于语义流形嵌入建立未知类和已知类的关联，实现零样本分类。具体的，如图4所示，该深度学习网络使用两个结构不一致的卷积神经网络，其中一个卷积神经网络结合集成学习的方法有效提取三维模型的视觉特征信息，将其称为深度集成学习子网络，另一个卷积神经网络结合流形学习方法捕捉未见过的未知类别和训练过的已知类别视觉特征与语义特征之间的关联性，将其称为语义流形嵌入子网络。其中，深度集成学习子网络包括一组基学习器和一个集成学习器，两者结合获得三维模型的视觉表征；语义流形嵌入子网络以语义标签向量为指引，完成视觉表征到语义流形空间的映射，捕捉类间语义相关性，支持对未知类的分类。其包括以下步骤：

1)三维模型不同视角的视图，对其整体信息的表征程度不同，因此三维模型的多视图应具有不同的权重，不应对所有角度的视图一概而论地提取特征。为充分考量各个视图对分类结果的影响，模拟集成学习方法，构建了一个包含一组基学习器和一个集成学习器的深度集成学习子网络，对每个视图做出初始分类决策，并结合多个初始决策形成最终决策表征三维模型的复合特征，同时设计了相应的损失函数，以更好的提取复杂三维模型的视觉特征。

基学习器由一个卷积神经网络构成，主要目的是对三维模型多视图表征中的每一个视图完成初始决策。在卷积神经网络选取方面，考虑到视图数据既包含三维模型的整体轮廓信息，也包含局部的几何细节信息，且与二维图像不同的是，视图并无丰富的颜色信息，需构建较深层次的深度学习网络。因此，为有效捕捉以上特征信息，且不会因网络层数过深导致梯度爆炸和梯度消失等问题，基学习器采用残差神经网络，引入残差模块，在网络中加入跨层连接，使得网络层数加深时不会出现网络退化的问题。集成学习器包括一个集成层和全连接层，主要目的是集成基学习器获得视图的初始决策，形成对三维模型的最终决策，表征三维模型的复合特征。一般的，集成方式主要有池化和拼接两种操作。相比于池化，拼接操作的优点在于无需降维，所以能在最大程度上保留完整的初始决策信息，因此本发明采用拼接操作完成视图特征的集成，并通过全连接层将其映射为300维的整体特征。

式中，N为视图数目，K为分类数目，p{l_i＝j}函数表示当第i个样本真实标签为j时取值1，否则为0；函数λ{l_i＝j}表示当第i个样本真实标签为j时取值为1，否则为-1；b_ij表示第i个视图在第j维的分类预测值。

则深度集成学习子网络的整体分类损失L可通过如下公式求解：

2)以数据的语义标签向量为指引，构建语义流形嵌入子网络，学习视觉域特征到属性域特征的映射，捕捉类间语义关联性。

首先以零样本三维模型数据集中的语义标签向量为输入，利用全连接层构造该类标签的300维语义特征，然后以语义特征为基准，构建视觉特征域和语义特征域的对抗损失L_D，完成视觉特征到语义特征的对齐，对抗损失L_D可通过如下公式求解：

式中，N′为样本数目，其数量与三维模型类别数目一致，a_i为第i个语义特征，p_i为第i个视觉特征，l₀()和l₁()可通过如下公式求解：

l_t(e)＝tlog(f(R_λ(e)))+(1-t)log(1-f(R_λ(e)))

式中，f()为一组多层感知机，旨在实现特征空间到二值分类的映射；e为视觉特征或语义特征；t为0或1，当输入为视觉特征时记为0，输入为语义特征记为1。为了使得嵌入同一空间的视觉特征域和语义特征域的特征分布尽可能接近，在语义流形嵌入子网络中加入梯度反转层，将其定义为R_λ()。该函数在前向传播时为恒等变换R_λ(x)＝x，反向传播时会乘以-λ，λ为超参数，在训练过程中由0变为1，起到逆向学习的作用，则l_t(e)取极小值时，该网络便无法区分数据来自于视觉特征域还是语义特征域，从而使得两个域的分布更为接近。

通过语义流形嵌入子网络，将类间彼此独立的视觉特征嵌入到类间相互关联的语义特征空间，间接捕捉到未知类别和已知类别间的关联。

3)输入构建的零样本三维模型数据集中未知类三维模型，可基于深度集成学习子网络获得其视觉特征，进而利用语义流形嵌入子网络将其嵌入至语义特征空间中，并利用余弦距离寻找与其最为接近的语义标签，完成对未知类别的识别。

实验配置：本实验的硬件环境为Intel Core i7 2600k+Tesla V100 32GB+16GBRAM，软件环境为Windows 10x64+CUDA 10.0+CuDNN 7.1+Pytorch 1.1.0+Python3.6+Matlab。

数据集：实验中选用零样本三维模型数据集为基准，验证算法的有效性，表1给出了该数据集的基本信息。同时选用Ali数据集，验证算法的普适性。Ali数据集中利用ModelNet40中的30个类作为训练集，分别以ModelNet10中10个类、McGill中的14个类以及Shrec2015中的30个类作为测试集，表2给出了该数据集的基本信息。

表3展示了在零样本三维模型数据集上的实验结果，ZS3D-Net代表提出的零样本分类方法。表4展示了构建的零样本三维模型数据集上用作测试的未知类别的单类别模型数、相关系数及分类精度。表5展示了在Ali数据集上的对比实验。

表1零样本三维模型数据集基本信息

表2 Ali数据集基本信息

表3在零样本三维模型数据集上实验结果

方法	准确率
		ALE	36.7
DeViSE	38.1
		ESZSL	29.3
SAE	18.8
		SJE	32.2
ZS3D-Net(MVCNN)	47.8
		ZS3D-Net	58.6

表4单类别模型数、相关系数及分类精度

类别	模型数量	相关系数	准确率
				shark	58	0.358	84.6
robot	24	0.223	81.5
				woman	24	0.216	75.4
centaur	24	0.193	17.3
				cow	22	0.341	7.0
giraffe	25	0.392	0.4
				monkey	4	0.412	1.1
sheep	3	0.315	0.1

表5在Ali数据集上的对比实验结果

方法	ModelNet10	McGill	Shrec2015
				ZSLPC	28.0	10.7	5.2
MHPC	33.9	12.5	<u>6.2</u>
				f-CLSWGAN	20.7	10.2	5.2
CADA-VAE	23.0	10.7	6.2
				ZS3D-Net(MVCNN)	22.7	<u>13.3</u>	5.9
ZS3D-Net	<u>30.0</u>	15.1	6.7

由表3可知，提出的ZS3D-Net取得了58.6％的分类精度，明显优于现有开源零样本分类模型，充分体现了该方法的有效性。综合表4、图5、图6及图7，可知：(1)模型数量对未知类别的分类精度有较大影响。整体上，模型数目最多的shark分类准确率最高，达到84.6％；而模型数目最少的monkey和sheep其分类准确率低于1.5％。这是因为深度学习网络在错分小类样本时造成的损失较小，因此其学习结果会倾向于保证大类样本的分类准确性。图5中类cow和giraffe中被错分在shark类的情况最多也说明了这一点。(2)本发明构建的零样本三维模型数据集中未知类别和已知类别的语义相关性较为均衡，因此其对分类准确性影响较小。(3)对比未知类别之间的如图6所示的语义相关性和如图7所示的特征相关性可发现，后者对未知类别分类结果影响更大。如centaur和woman在视觉分布上较为接近，语义关联上相差较远，在分类时centaur被错分在woman中的情况最多。同时，由表5所示，本发明所提零样本分类方法在数据集McGill和Shrec2015上取得了最高的分类准确率；在ModelNet10上取得了次优的分类准确率。这一定程度的说明了本发明的普适性。

现有的零样本分类方法在三维模型分类领域效果较差。本发明针对零样本三维模型分类任务设计并构建了零样本三维模型数据集，具有良好的解释性及泛化性，为零样本三维分类工作的展开提供了基准。同时，提出了一种面向零样本三维模型分类的深度学习网络，通过深度集成学习子网络和语义流形嵌入子网络充分捕捉未知类和已知类视觉特征及语义特征间的关联性，实现对未知类别的有效识别，取得了较好的分类精度，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种面向三维模型的零样本分类方法，其特征在于，该方法为识别在训练过程中未见过的新类，构建了零样本三维模型数据集，并提出面向零样本三维模型分类的深度学习网络，该深度学习网络使用两个结构不一致的卷积神经网络，其中一个卷积神经网络结合集成学习的方法有效提取三维模型的视觉特征信息，将其称为深度集成学习子网络，另一个卷积神经网络结合流形学习方法捕捉未见过的未知类别和训练过的已知类别视觉特征与语义特征之间的关联性，将其称为语义流形嵌入子网络，通过该深度学习网络，完成对未知类别的分类识别；其包括以下步骤：

2.根据权利要求1所述的一种面向三维模型的零样本分类方法，其特征在于：在步骤S1中，零样本三维模型分类任务旨在实现对未知类别的分类识别，构建的零样本三维模型数据集包含数据集合、标签集合及属性集合；

3.根据权利要求1所述的一种面向三维模型的零样本分类方法，其特征在于：在步骤S2中，以三维模型的多视图为输入构建其视觉表征，所述深度集成学习子网络包含一组基学习器和一个集成学习器，基学习器由一个卷积神经网络构成，其主要目的是对三维模型的多视图表征中的每一个视图完成初始决策，形成初始视图表征；集成学习器包括一个集成层和一个全连接层，通过集成由基学习器获得的初始视图表征形成对三维模型的整体表征；为确保数据的完整性，采用拼接操作完成视图特征集成，并利用全连接层将其映射为300维的整体特征；

深度集成学习子网络的整体分类损失L通过如下公式求解：

4.根据权利要求1所述的一种面向三维模型的零样本分类方法，其特征在于：在步骤S3中，以三维模型数据的语义标签向量为指引，构建语义流形嵌入子网络，首先以零样本三维模型数据集中的语义标签向量为输入，利用全连接层构造该类标签的300维语义特征，然后以语义特征为基准，构建视觉特征和语义特征之间的对抗损失L_D，完成视觉特征到语义特征的对齐，对抗损失L_D通过如下公式求解：

式中，N′为样本数目，其数量与三维模型类别数目一致，a_i为第i个语义特征，p_i为第i个视觉特征，l₀( )和l₁( )通过如下公式求解：

l_t(e)＝tlog(f(R_λ(e)))+(1-t)log(1-f(R_λ(e)))

5.根据权利要求1所述的一种面向三维模型的零样本分类方法，其特征在于：在步骤S4中，输入零样本三维模型数据集中未知类三维模型，能够基于深度集成学习子网络获得其视觉特征，进而利用语义流形嵌入子网络将其嵌入至语义特征空间中，并利用余弦距离寻找与其最为接近的语义标签，完成对未知类别的分类识别。