CN115131781A

CN115131781A - 基于判别性特征引导的零样本三维模型分类方法

Info

Publication number: CN115131781A
Application number: CN202210716713.2A
Authority: CN
Inventors: 白静; 范有福; 邵会会; 彭斌
Original assignee: North Minzu University
Current assignee: North Minzu University
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-09-30

Abstract

本发明公开了一种基于判别性特征引导的零样本三维模型分类方法，包括：1)数据输入及初始特征提取，一部分以三维模型数据集的多视图表征为输入，再经过初始视觉特征提取网络得到多视图特征图；另一部分以三维模型的类标签为输入，经过初始语义特征提取网络得到其词向量；2)将多视图特征图输入到判别性视觉特征提取模块中，得到三维模型最终的判别性视觉特征；3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征；4)将判别性视觉特征和伪视觉特征经联合损失模块对两者联合约束，实现语义‑视觉特征的良好对齐，进而缩小语义‑视觉域间差异性。本发明针对零样本三维模型分类任务，分析并论证了局部判别性特征对其的重要作用，实现了更好的性能。

Description

基于判别性特征引导的零样本三维模型分类方法

技术领域

本发明涉及计算机图形学、计算机视觉与智能识别的技术领域，尤其是指一种基于判别性特征引导的零样本三维模型分类方法。

背景技术

相比于二维图像，三维模型具有更丰富的几何信息和空间结构特征，更贴近与人类生活的显示场景，在医疗建模、电影娱乐、智能导航等领域都有广泛的应用。得益于人工智能技术的快速发展，基于深度学习的三维模型分类方法已经取得了显著的成果。以视图和点云为输入的三维模型分类算法在数据集ModelNet10/ModelNet40上取得了超越90％的分类准确率。然而这些方法都基于监督学习，要求训练集是包含所有待识别类的大规模、详细标注的数据集。事实上，随着三维模型种类的不断增长，用于训练的三维模型不可能包含所有的类别；且训练标注需要极大的人力和物力成本。因此，如何在样本标签数据不足甚至完全缺失的情况下利用已有知识对未知类别进行识别，已成为当前研究中亟需解决的问题。为此，学者们提出了零样本学习，以模仿人类仅根据概念描述完成对未曾见过对象的准确识别。基于零样本学习的三维模型分类是3D视觉领域的一个新兴话题，旨在对未经训练的三维模型进行正确分类。对于输入三维模型及其类标签，现有方法主要是通过视觉提取网络提取三维模型的全局特征描述符，通过语义特征学习网络提取类标签的语义特征向量，然后基于一致性约束将两者映射到同一特征空间以捕捉语义-视觉跨域联系，进而完成对未知类的识别。这类方法取得了一定的成效，但是存在重视全局而忽略局部，强制约束而无视语义-视觉跨域差异性的问题，导致整体性能较低。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于判别性特征引导的零样本三维模型分类方法，针对于零样本三维模型分类任务，分析并论证了局部判别性特征对其的重要作用，实现了更好的性能，完成零样本三维模型的准确分类。

为实现上述目的，本发明所提供的技术方案为：基于判别性特征引导的零样本三维模型分类方法，包括以下步骤：

1)数据输入及初始特征提取，输入分为两部分，一部分以三维模型数据集的多视图表征为输入，然后经过初始视觉特征提取网络得到多视图特征图；另一部分以三维模型的类标签为输入，经过初始语义特征提取网络得到其词向量；

2)将多视图特征图输入到判别性视觉特征提取模块中，得到三维模型最终的判别性视觉特征，即真实视觉特征；

3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征；

4)将得到的三维模型的判别性视觉特征和伪视觉特征经联合损失模块对两者进行联合约束，实现语义-视觉特征的良好对齐，进而缩小语义-视觉域间差异性。

进一步，在步骤1)中，三维模型数据集

其中：Γ_tr为训练集，Γ_te为测试集，N＝N_tr+N_te为三维模型的总数，N_tr为训练集中三维模型数量，N_te为测试集中三维模型数量；xⁱ表示第i个三维模型，yⁱ∈{1,2,…,C}为三维模型xⁱ对应的类标签；C＝C_tr+C_te为总体的类别数，C_tr为训练集类别数，C_te为测试集类别数；将三维模型表征为多视图形式，有

I^v,i表示三维模型xⁱ的第v个视图，N_v指的是三维模型的多视图的数量；

输入训练集中三维模型以及类标签，表示

为训练集中第i个三维模型，

为三维模型

对应的类标签；首先将三维模型

输入初始视觉特征提取网络，提取每一个视图I^v,i的初始视觉特征图

为特征图的矩阵表示，h、w和d分别表示特征图的高、宽和通道数；其中，所述初始视觉特征提取网络采用的是Resnet50；

将类标签

输入通过初始语义特征提取网络得到其词向量表示

n为词向量的维度；其中，所述初始语义特征提取网络采用的是Word2Vec。

进一步，在步骤2)中，所述判别性视觉特征提取模块的具体情况如下：

a、多视图特征融合：将三维模型N_v张视图的特征图进行通道维度的拼接，得到融合后的特征

其过程如下公式(1)：

式中，

为第i个三维模型经过多视图特征融合后的特征，concat为拼接操作，

为第i个三维模型多视图的初始视觉特征图，v为视图数量的取值，d为特征图的通道维度；

b、跨视图注意力生成：输入融合后的特征

经过M个1×1的卷积，完成通道间的信息交互，得到M个跨视图的判别性注意力图，其过程如下公式(2)：

式中，

表示第i个三维模型的第k个判别性注意力图，

为1×1的卷积操作，k为注意力图个数的取值。

c、单视图判别性特征生成：为了将得到的M个判别性特征同步到每张视图上，通过引入双线性注意力池化操作，增强对局部特征的信息交互，以三维模型多视图的初始视觉特征图

和三维模型的判别性注意力图

进行点乘操作，得到M个判别性特征在N_v张视图上的响应区域

其过程如下公式(3)：

式中，⊙为点乘操作，

为第i个三维模型k个判别性特征在v个视图上的响应区域；

d、跨视图判别性特征合成：针对每个判别性特征，进一步综合各视图信息，得到跨视图的判别性特征，首先采用全局平均池化合并空间信息，然后采用最大池化合并通道信息，最后通过拼接得到三维模型第k个跨视图判别性视觉特征

其过程如下公式(4)：

式中，

为第i个三维模型第k个跨视图判别性视觉特征，

为拼接操作，

为在通道维度上进行最大池化操作，

为在空间维度上进行全局平均池化操作，h为特征图空间维度的高，w为特征图空间维度的宽；

e、判别性特征生成：将M个独立的判别性视觉特征进行拼接得到三维模型最终的判别性视觉特征，其过程如下公式(5)：

式中，Fⁱ为第i个三维模型最终的判别性视觉特征，即真实视觉特征，

为对k维度上的拼接操作。

进一步，在步骤3)中，所述伪视觉生成模块的具体情况如下：

a、关联语义提取：为了支持语义-视觉特征的平滑映射，更好地捕捉对象间的关联语义特征，首先经过由全连接构成的语义描述筛选子模块，获取到与视觉判别性特征对应的关联语义特征F_r ⁱ，其过程如下公式(6)：

F_r ⁱ＝f₁(Wⁱ)＝δ(ω₀Wⁱ+b₀) (6)

式中，F_r ⁱ为第i个三维模型对应的关联语义特征，Wⁱ为第i个三维模型的词向量表示，f₁为单层全连接层构成的语义描述筛选子模块，δ为ReLU激活函数，ω₀为网络权重，b₀为偏置；

b、伪视觉特征生成：将得到的关联语义特征F_r ⁱ输入到生成器中生成伪视觉特征分布

该生成器为由三层的全连接网络构成，其过程如下公式(7)：

式中，

为第i个三维模型的伪视觉特征，f₂为由三层的全连接网络构成的伪视觉生成器，ω₁、ω₂、ω₃分别为每一层的网络权重，b₁、b₂、b₃分别为每一层的偏置。

进一步，在步骤4)中，所述联合损失模块包含语义判别损失和内容感知损失，其具体情况如下：

a、语义判别损失：语义判别损失旨在推进三维模型伪视觉特征和真实视觉特征在全局认知上的一致性，将生成的伪视觉特征

和真实视觉特征Fⁱ输入判别器进行0/1判别，使得

不断地逼近真实视觉特征分布，从而在语义层面上鼓励伪视觉特征能贴近真实视觉特征，其过程如下公式(8)：

式中，L_sd为语义判别损失，yⁱ为真实标签，

是预测标签；当真实标签yⁱ与预测标签

相等时为1，不相等时为0；

b、内容感知损失：内容感知损失旨在实现伪视觉特征和真实视觉特征局部特征上的细粒度对齐，该损失通过按位计算特征向量间的差异，对特征的局部细节信息进行约束，要求对应位置的局部特征具有高相似性，其过程如下公式(9)：

式中，l指的是伪视觉特征和真实特征的特征维度，L_cp为内容感知损失，

为Fⁱ在第j维的值，

表示

在第j维的值。

本发明与现有技术相比，具有如下优点与有益效果：

1、零样本学习是通过已知类泛化到未知类的过程，要求已知类和未知类具有一定的相关性，且这种相关性更多的体现在于局部细粒度上。现有方法往往利用各种特征提取网络捕获三维模型的全局描述符，难以刻画其局部判别性属性特征，存在视觉特征提取不充分的问题。针对此问题，本发明提出了判别性视觉特征提取模块，首先学习并生成跨视图的注意力图，然后利用双线性池化同步到每个视图，最后将多个视图的判别性特征进行融合，以此增强对三维模型的局部判别性视觉特征的获取，生成三维模型的真实视觉特征。

2、在视觉-语义特征映射方面，现有方法简单地利用一致性损失实现语义特征与视觉特征的强制对齐，忽略了语义特征-视觉特征间的巨大的域间差异性(信息冗余和特征对齐)，导致映射效果不佳，识别性能较差的问题。针对此问题，本发明设计了伪视觉生成模块，类比人类认知原理，建立语义描述筛选子模块，自动捕捉对象间的关联语义特征；建立语义特征-视觉图像的伪视觉生成器，根据关联语义特征生成描述对象的伪视觉特征，支持语义-视觉特征的平滑映射。

3、本发明构建了语义-内容双层感知的联合损失模块，包含语义判别损失和内容感知损失；其中，语义判别损失确保了伪视觉特征和真实视觉特征在全局认识上的一致性；内容感知损失则进一步实现伪视觉特征和真实视觉特征局部特征上的细粒度对齐；两者共同作用，实现语义-视觉特征的良好对齐，进而缩小语义-视觉域间差异性。

附图说明

图1为本发明方法(称为DFG-ZS3D)的架构图。

图2为判别性视觉特征提取模块示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1和图2所示，本实施例提供了基于判别性特征引导的零样本三维模型分类方法，其具体情况如下：

1)数据输入及初始特征提取，输入分为两部分，一部分以三维模型数据集的多视图表征为输入，然后经过初始视觉特征提取网络得到多视图特征图；另一部分以三维模型的类标签为输入，经过初始语义特征提取网络得到其词向量；具体如下：

三维模型数据集

I^v,i表示三维模型xⁱ的第v个视图，N_v指的是三维模型的多视图的数量，一般都是选择12张视图代表一个三维模型；

输入训练集中三维模型以及类标签，表示

为训练集中第i个三维模型，

为三维模型

对应的类标签；首先将三维模型

将类标签

输入通过初始语义特征提取网络得到其词向量表示

2)将多视图特征图输入到判别性视觉特征提取模块中，得到三维模型最终的判别性视觉特征，即真实视觉特征；其中，所述判别性视觉特征提取模块的具体情况如下：

其过程如下公式(1)：

式中，

为第i个三维模型多视图的初始视觉特征图，v为视图个数的取值，d为特征图的通道维度；

b、跨视图注意力生成：输入融合后的特征

式中，

表示第i个三维模型的第k个判别性注意力图，

为1×1的卷积操作，k为注意力图个数的取值。

和三维模型的判别性注意力图

进行点乘操作，得到M个判别性特征在N_v张视图上的响应区域

其过程如下公式(3)：

式中，⊙为点乘操作，

为第i个三维模型k个判别性特征在v个视图上的响应区域；

其过程如下公式(4)：

式中，

为第i个三维模型第k个跨视图判别性视觉特征，

为拼接操作，

为在通道维度上进行最大池化操作，

为对k维度上的拼接操作。

3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征；其中，所述伪视觉生成模块的具体情况如下：

a、关联语义提取：经初始语义特征提取网络构建的词向量Wⁱ包含一些非判别性特征，存在信息冗余，直接以此为输入会给模型学习引入过多的噪声；为了支持语义-视觉特征的平滑映射，更好地捕捉对象间的关联语义特征，首先经过由全连接构成的语义描述筛选子模块，获取到与视觉判别性特征对应的关联语义特征F_r ⁱ，其过程如下公式(6)：

F_r ⁱ＝f₁(Wⁱ)＝δ(ω₀Wⁱ+b₀) (6)

该生成器为由三层的全连接网络构成，其过程如下公式(7)：

式中，

4)将得到的三维模型的判别性视觉特征和伪视觉特征经联合损失模块对两者进行联合约束，实现语义-视觉特征的良好对齐，进而缩小语义-视觉域间差异性；其中，所述联合损失模块包含语义判别损失和内容感知损失，其具体情况如下：

和真实视觉特征Fⁱ输入判别器(discriminator)进行0/1判别，使得

式中，L_sd为语义判别损失，yⁱ为真实标签，

是预测标签；当真实标签yⁱ与预测标签

相等时为1，不相等时为0；

为Fⁱ在第j维的值，

表示

在第j维的值。

实验配置：本文实验的硬件环境为Intel Core i7 2600k+Tesla V100 32GB+16GBRAM，软件环境为Windows10 x64+CUDA 10.0+CuDNN 7.1+Pytorch 1.4.0+python 3.6+Matlab。

数据集：

三维数据集，当前公开的零样本三维模型数据集有ZS3D和Ali。为充分测试算法的有效性和普适性，实验中同时选取以上数据集。

ZS3D数据集，ZS3D是一个以Shrec2014和Shrec2015为数据源构建的零样本三维模型数据集，共包含来自41个类的1677个分刚性三维模型，其中隶属与33个类的1493个模型用作训练，隶属于另外8个类的184个模型用作测试。

Ali数据集，Ali包含了三个子数据集，均利用ModelNet40中的30个类5976个三维模型作为训练集，分别以ModelNet10中的10个类908个三维模型，McGill中的14个类301个三维模型以及Shrec2015中的30个类720个三维模型作为测试集。

语义数据集，GooleNews语料库覆盖了大约300万的词汇和短语，为零样本学习提供了充足的语义数据源。实验中，首先将GoogleNews语料库作为基准训练得到Word2Vec模型，然后将对应三维模型数据集中所有类的表爱你输入Word2vec模型得到类的词向量表示，捕捉词向量之间的而予以相关性，建立已知类和未知类的语义关联。

通过在ZS3D和Ali数据集上进行对比实验充分证明了该方法的有效性和普适性，实验结果如表1、表2所示。

表1在ZS3D数据集上对比实验

表2在Ali数据集上对比实验(以ModelNet40为训练集)

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于判别性特征引导的零样本三维模型分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法，其特征在于，在步骤1)中，三维模型数据集

其中：Γ_tr为训练集，Γ_te为测试集，N＝N_tr+N_te为三维模型的总数，N_tr为训练集中三维模型数量，N_te为测试集中三维模型数量；xⁱ表示第i个三维模型，yⁱ∈{1，2，…，C}为三维模型xⁱ对应的类标签；C＝C_tr+C_te为总体的类别数，C_tr为训练集类别数，C_te为测试集类别数；将三维模型表征为多视图形式，有