CN114943961A - 一种面向三维模型的零样本分类方法 - Google Patents

一种面向三维模型的零样本分类方法 Download PDF

Info

Publication number
CN114943961A
CN114943961A CN202210703384.8A CN202210703384A CN114943961A CN 114943961 A CN114943961 A CN 114943961A CN 202210703384 A CN202210703384 A CN 202210703384A CN 114943961 A CN114943961 A CN 114943961A
Authority
CN
China
Prior art keywords
dimensional model
semantic
sample
zero
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210703384.8A
Other languages
English (en)
Inventor
白静
袁涛
范有福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North Minzu University
Original Assignee
North Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North Minzu University filed Critical North Minzu University
Priority to CN202210703384.8A priority Critical patent/CN114943961A/zh
Publication of CN114943961A publication Critical patent/CN114943961A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向三维模型的零样本分类方法,包括:S1、构建零样本三维模型数据集;S2、以零样本三维模型数据集中三维模型的多视图表征为输入,利用深度集成学习子网络提取复杂三维模型的视觉特征;S3、将三维模型的视觉特征输入语义流形嵌入子网络中,有效捕捉已知类别与未知类别之间的视觉关联和语义关联;S4、输入零样本三维模型数据集中未知类别的三维模型,通过深度集成学习子网络和语义流形嵌入子网络提取其视觉及语义特征信息,使用余弦距离度量函数为未知类找到最佳语义标签,完成对未知类别的分类识别。本发明可实现对未知类别的有效识别,取得了较好的分类精度。

Description

一种面向三维模型的零样本分类方法
技术领域
本发明涉及计算机图形学、计算机视觉与智能识别的技术领域,尤其是指一种面向三维模型的零样本分类方法。
背景技术
零样本三维模型分类对于三维形状的理解和分析非常重要。当前,随着深度学习的不断发展,基于封闭集合的传统三维模型分类识别取得了较高水平。与此同时,快速发展的计算机图形学和计算机辅助设计技术使得三维模型的数量成指数级增长。收集并用作训练的三维模型不可能包含所有类别。为了令深度学习网络有效识别未知类中的三维模型,有必要研究面向零样本学习的三维模型分类方法。
发明内容
本发明的目的在于克服现有技术的缺点与不足,针对目前零样本分类方法应用于三维模型领域能力较差的问题,提出了一种面向三维模型的零样本分类方法,可有效识别在训练过程中未见过的新类别,完成对未知类别的分类识别。
为实现上述目的,本发明所提供的技术方案为:一种面向三维模型的零样本分类方法,该方法为识别在训练过程中未见过的新类,构建了零样本三维模型数据集,并提出面向零样本三维模型分类的深度学习网络,该深度学习网络使用两个结构不一致的卷积神经网络,其中一个卷积神经网络结合集成学习的方法有效提取三维模型的视觉特征信息,将其称为深度集成学习子网络,另一个卷积神经网络结合流形学习方法捕捉未见过的未知类别和训练过的已知类别视觉特征与语义特征之间的关联性,将其称为语义流形嵌入子网络,通过该深度学习网络,完成对未知类别的分类识别;其包括以下步骤:
S1、研究现有三维模型数据之间的语义相关性,构建零样本三维模型数据集,为零样本三维模型分类任务提供了数据基准;
S2、以零样本三维模型数据集中三维模型的多视图表征为输入,利用深度集成学习子网络提取复杂三维模型的视觉特征;
S3、将三维模型的视觉特征输入语义流形嵌入子网络中,以零样本三维模型数据集中包含丰富语义信息的标签向量为指引,有效捕捉已知类别与未知类别之间的视觉关联和语义关联,完成对深度学习网络的训练;
S4、将零样本三维模型数据集中未知类别的三维模型输入训练好的深度学习网络,通过深度集成学习子网络和语义流形嵌入子网络提取其视觉及语义特征信息,使用余弦距离度量函数为未知类找到最佳语义标签,完成对未知类别的分类识别。
进一步,在步骤S1中,零样本三维模型分类任务旨在实现对未知类别的分类识别,构建的零样本三维模型数据集包含数据集合、标签集合及属性集合;
所述数据集合及标签集合指的是以紧密相关的非刚性三维数据集Shrec2014和Shrec2015为数据源,挑选了41个类共1677个形状纹理清晰的非刚性三维模型,根据零样本数据集构建原则,将其分为互不相交的训练集和测试集,其中,训练集共包含33个类,1493个三维模型;测试集共包含8个类,184个三维模型;
所述属性集合指的是以标签集合为基础,使用300维的Word2Vec词向量作为三维模型的属性,即语义标签向量,完成属性集合的构建。
进一步,在步骤S2中,以三维模型的多视图为输入构建其视觉表征,所述深度集成学习子网络包含一组基学习器和一个集成学习器,基学习器由一个卷积神经网络构成,其主要目的是对三维模型的多视图表征中的每一个视图完成初始决策,形成初始视图表征;集成学习器包括一个集成层和一个全连接层,通过集成由基学习器获得的初始视图表征形成对三维模型的整体表征;为确保数据的完整性,采用拼接操作完成视图特征集成,并利用全连接层将其映射为300维的整体特征;
为有效训练深度集成子网络,构建了基学习器的损失函数Li和集成学习器的损失函数Le,分别通过如下公式求解:
Figure BDA0003705221020000031
Figure BDA0003705221020000032
式中,N为视图数目,K为分类数目,p{li=j}函数表示当第i个样本真实标签为j时取值1,否则为0;函数λ{li=j}表示当第i个样本真实标签为j时取值为1,否则为-1;bij表示第i个视图在第j维的分类预测值;
深度集成学习子网络的整体分类损失L通过如下公式求解:
Figure BDA0003705221020000033
式中,Li为第i个基学习器的损失,Le为集成学习器的损失,α和β表示在整个损失函数中基学习器损失和集成学习器损失所占的比重。
进一步,在步骤S3中,以三维模型数据的语义标签向量为指引,构建语义流形嵌入子网络,首先以零样本三维模型数据集中的语义标签向量为输入,利用全连接层构造该类标签的300维语义特征,然后以语义特征为基准,构建视觉特征和语义特征之间的对抗损失LD,完成视觉特征到语义特征的对齐,对抗损失LD通过如下公式求解:
Figure BDA0003705221020000041
式中,N′为样本数目,其数量与三维模型类别数目一致,ai为第i个语义特征,pi为第i个视觉特征,l0()和l1()通过如下公式求解:
lt(e)=tlog(f(Rλ(e)))+1-t)log(1-f(Rλ(e)))
式中,f()为一组多层感知机,旨在实现特征空间到二值分类的映射;e为视觉特征或语义特征;t为0或1,当输入为视觉特征时记为0,输入为语义特征记为1,为了使得嵌入同一空间的视觉特征域和语义特征域的特征分布尽可能接近,在语义流形嵌入子网络中加入梯度反转层,将其定义为Rλ(),该函数在前向传播时为恒等变换Rλ(x)=x,反向传播时会乘以-λ,λ为超参数,在训练过程中由0变为1,起到逆向学习的作用,则当lt(e)取极小值时,语义流形嵌入子网络便无法区分数据来自于视觉特征域还是语义特征域,从而使得两个域的分布更为接近;
通过语义流形嵌入子网络,将类间彼此独立的视觉特征嵌入到类间相互关联的语义特征空间,间接捕捉到未知类别和已知类别间的关联关系。
进一步,在步骤S4中,输入零样本三维模型数据集中未知类三维模型,能够基于深度集成学习子网络获得其视觉特征,进而利用语义流形嵌入子网络将其嵌入至语义特征空间中,并利用余弦距离寻找与其最为接近的语义标签,完成对未知类别的分类识别。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明提出一种零样本三维模型数据集,为零样本三维模型分类任务提供数据基准。
2、本发明提出一种面向零样本三维模型分类的深度学习网络,利用深度集成学习子网络提取复杂三维模型的视觉特征,并以包含丰富语义信息的标签向量为指引构建语义流形嵌入子网络,有效捕捉不同类之间的视觉关联和语义关联,完成零样本分类。
3、在零样本三维模型数据集上的相关性及可视化分析验证了数据集的合理性;在零样本三维模型数据集上的对比实验验证了本发明的有效性;在其它数据集上的对比实验进一步表明了本发明的普适性。
附图说明
图1为本发明提出的零样本三维模型数据集词云可视化及部分三维模型实例图,词云可视化共41个类别的单词,其中ant、bear、bee、bird、bull、butterfly、camel、cat、centaur、chick、cow、crab、crocodile、deer、dinosaur、dog、dolphin、duck、elephant、fish、frog、giraffe、gorilla、horse、kangaroo、man、mantaRay、mermaid、monkey、mouse、octopus、pig、rabbit、robot、santa、shark、sheep、snake、spider、tortoise、woman分别表示蚂蚁、熊、蜜蜂、鸟、公牛、蝴蝶、骆驼、猫、人马、鸡、奶牛、螃蟹、鳄鱼、鹿、恐龙、狗、企鹅、鸭子、大象、鱼、青蛙、长颈鹿、大猩猩、马、袋鼠、男人、蝠鲼、美人鱼、猴子、老鼠、章鱼、猪、兔子、机器人、圣诞老人、鲨鱼、羊、蛇、蜘蛛、乌龟、女人,后续出现该类单词与之含义相同。
图2为本发明提出的零样本三维模型数据集词向量可视化图。
图3为本发明提出的零样本分类方法整体框架图,其中Word2vec为词向量嵌入。
图4为本发明提出的面向零样本三维模型分类的深度学习网络深度学习网络整体结构图,其中CNN为卷积神经网络。
图5为单类别预测标签概率图。
图6为未知类语义相关性可视化图。
图7为未知类特征可视化图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例提供了一种面向三维模型的零样本分类方法,构建了零样本三维模型数据集,提出面向零样本三维模型分类的深度学习网络,实现了多视图三维模型的零样本分类。首先,研究传统三维模型数据之间的语义相关性,构建零样本三维模型数据集,该数据集包含41个相关类的1677个非刚性三维模型,为零样本三维模型分类任务提供了数据基准。图1展示了零样本三维模型数据集词云可视化及部分三维模型实例,词云可视化中,单词的大小表示该类别模型数量的多少,图2展示了该数据集词向量的可视化图。
针对零样本三维模型分类任务,提出的面向零样本三维模型分类的深度学习网络,如图3所示,该网络以零样本三维模型数据集中数据的多视图表征为输入,利用端到端的深度学习网络提取其视觉特征,基于语义流形嵌入建立未知类和已知类的关联,实现零样本分类。具体的,如图4所示,该深度学习网络使用两个结构不一致的卷积神经网络,其中一个卷积神经网络结合集成学习的方法有效提取三维模型的视觉特征信息,将其称为深度集成学习子网络,另一个卷积神经网络结合流形学习方法捕捉未见过的未知类别和训练过的已知类别视觉特征与语义特征之间的关联性,将其称为语义流形嵌入子网络。其中,深度集成学习子网络包括一组基学习器和一个集成学习器,两者结合获得三维模型的视觉表征;语义流形嵌入子网络以语义标签向量为指引,完成视觉表征到语义流形空间的映射,捕捉类间语义相关性,支持对未知类的分类。其包括以下步骤:
1)三维模型不同视角的视图,对其整体信息的表征程度不同,因此三维模型的多视图应具有不同的权重,不应对所有角度的视图一概而论地提取特征。为充分考量各个视图对分类结果的影响,模拟集成学习方法,构建了一个包含一组基学习器和一个集成学习器的深度集成学习子网络,对每个视图做出初始分类决策,并结合多个初始决策形成最终决策表征三维模型的复合特征,同时设计了相应的损失函数,以更好的提取复杂三维模型的视觉特征。
基学习器由一个卷积神经网络构成,主要目的是对三维模型多视图表征中的每一个视图完成初始决策。在卷积神经网络选取方面,考虑到视图数据既包含三维模型的整体轮廓信息,也包含局部的几何细节信息,且与二维图像不同的是,视图并无丰富的颜色信息,需构建较深层次的深度学习网络。因此,为有效捕捉以上特征信息,且不会因网络层数过深导致梯度爆炸和梯度消失等问题,基学习器采用残差神经网络,引入残差模块,在网络中加入跨层连接,使得网络层数加深时不会出现网络退化的问题。集成学习器包括一个集成层和全连接层,主要目的是集成基学习器获得视图的初始决策,形成对三维模型的最终决策,表征三维模型的复合特征。一般的,集成方式主要有池化和拼接两种操作。相比于池化,拼接操作的优点在于无需降维,所以能在最大程度上保留完整的初始决策信息,因此本发明采用拼接操作完成视图特征的集成,并通过全连接层将其映射为300维的整体特征。
为有效训练深度集成子网络,构建了基学习器的损失函数Li和集成学习器的损失函数Le,分别通过如下公式求解:
Figure BDA0003705221020000071
Figure BDA0003705221020000072
式中,N为视图数目,K为分类数目,p{li=j}函数表示当第i个样本真实标签为j时取值1,否则为0;函数λ{li=j}表示当第i个样本真实标签为j时取值为1,否则为-1;bij表示第i个视图在第j维的分类预测值。
则深度集成学习子网络的整体分类损失L可通过如下公式求解:
Figure BDA0003705221020000081
式中,Li为第i个基学习器的损失,Le为集成学习器的损失,α和β表示在整个损失函数中基学习器损失和集成学习器损失所占的比重。
2)以数据的语义标签向量为指引,构建语义流形嵌入子网络,学习视觉域特征到属性域特征的映射,捕捉类间语义关联性。
首先以零样本三维模型数据集中的语义标签向量为输入,利用全连接层构造该类标签的300维语义特征,然后以语义特征为基准,构建视觉特征域和语义特征域的对抗损失LD,完成视觉特征到语义特征的对齐,对抗损失LD可通过如下公式求解:
Figure BDA0003705221020000082
式中,N′为样本数目,其数量与三维模型类别数目一致,ai为第i个语义特征,pi为第i个视觉特征,l0()和l1()可通过如下公式求解:
lt(e)=tlog(f(Rλ(e)))+(1-t)log(1-f(Rλ(e)))
式中,f()为一组多层感知机,旨在实现特征空间到二值分类的映射;e为视觉特征或语义特征;t为0或1,当输入为视觉特征时记为0,输入为语义特征记为1。为了使得嵌入同一空间的视觉特征域和语义特征域的特征分布尽可能接近,在语义流形嵌入子网络中加入梯度反转层,将其定义为Rλ()。该函数在前向传播时为恒等变换Rλ(x)=x,反向传播时会乘以-λ,λ为超参数,在训练过程中由0变为1,起到逆向学习的作用,则lt(e)取极小值时,该网络便无法区分数据来自于视觉特征域还是语义特征域,从而使得两个域的分布更为接近。
通过语义流形嵌入子网络,将类间彼此独立的视觉特征嵌入到类间相互关联的语义特征空间,间接捕捉到未知类别和已知类别间的关联。
3)输入构建的零样本三维模型数据集中未知类三维模型,可基于深度集成学习子网络获得其视觉特征,进而利用语义流形嵌入子网络将其嵌入至语义特征空间中,并利用余弦距离寻找与其最为接近的语义标签,完成对未知类别的识别。
实验配置:本实验的硬件环境为Intel Core i7 2600k+Tesla V100 32GB+16GBRAM,软件环境为Windows 10x64+CUDA 10.0+CuDNN 7.1+Pytorch 1.1.0+Python3.6+Matlab。
数据集:实验中选用零样本三维模型数据集为基准,验证算法的有效性,表1给出了该数据集的基本信息。同时选用Ali数据集,验证算法的普适性。Ali数据集中利用ModelNet40中的30个类作为训练集,分别以ModelNet10中10个类、McGill中的14个类以及Shrec2015中的30个类作为测试集,表2给出了该数据集的基本信息。
表3展示了在零样本三维模型数据集上的实验结果,ZS3D-Net代表提出的零样本分类方法。表4展示了构建的零样本三维模型数据集上用作测试的未知类别的单类别模型数、相关系数及分类精度。表5展示了在Ali数据集上的对比实验。
表1零样本三维模型数据集基本信息
Figure BDA0003705221020000091
Figure BDA0003705221020000101
表2 Ali数据集基本信息
Figure BDA0003705221020000102
表3在零样本三维模型数据集上实验结果
方法 准确率
ALE 36.7
DeViSE 38.1
ESZSL 29.3
SAE 18.8
SJE 32.2
ZS3D-Net(MVCNN) 47.8
ZS3D-Net 58.6
表4单类别模型数、相关系数及分类精度
类别 模型数量 相关系数 准确率
shark 58 0.358 84.6
robot 24 0.223 81.5
woman 24 0.216 75.4
centaur 24 0.193 17.3
cow 22 0.341 7.0
giraffe 25 0.392 0.4
monkey 4 0.412 1.1
sheep 3 0.315 0.1
表5在Ali数据集上的对比实验结果
方法 ModelNet10 McGill Shrec2015
ZSLPC 28.0 10.7 5.2
MHPC 33.9 12.5 <u>6.2</u>
f-CLSWGAN 20.7 10.2 5.2
CADA-VAE 23.0 10.7 6.2
ZS3D-Net(MVCNN) 22.7 <u>13.3</u> 5.9
ZS3D-Net <u>30.0</u> 15.1 6.7
由表3可知,提出的ZS3D-Net取得了58.6%的分类精度,明显优于现有开源零样本分类模型,充分体现了该方法的有效性。综合表4、图5、图6及图7,可知:(1)模型数量对未知类别的分类精度有较大影响。整体上,模型数目最多的shark分类准确率最高,达到84.6%;而模型数目最少的monkey和sheep其分类准确率低于1.5%。这是因为深度学习网络在错分小类样本时造成的损失较小,因此其学习结果会倾向于保证大类样本的分类准确性。图5中类cow和giraffe中被错分在shark类的情况最多也说明了这一点。(2)本发明构建的零样本三维模型数据集中未知类别和已知类别的语义相关性较为均衡,因此其对分类准确性影响较小。(3)对比未知类别之间的如图6所示的语义相关性和如图7所示的特征相关性可发现,后者对未知类别分类结果影响更大。如centaur和woman在视觉分布上较为接近,语义关联上相差较远,在分类时centaur被错分在woman中的情况最多。同时,由表5所示,本发明所提零样本分类方法在数据集McGill和Shrec2015上取得了最高的分类准确率;在ModelNet10上取得了次优的分类准确率。这一定程度的说明了本发明的普适性。
现有的零样本分类方法在三维模型分类领域效果较差。本发明针对零样本三维模型分类任务设计并构建了零样本三维模型数据集,具有良好的解释性及泛化性,为零样本三维分类工作的展开提供了基准。同时,提出了一种面向零样本三维模型分类的深度学习网络,通过深度集成学习子网络和语义流形嵌入子网络充分捕捉未知类和已知类视觉特征及语义特征间的关联性,实现对未知类别的有效识别,取得了较好的分类精度,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (5)

1.一种面向三维模型的零样本分类方法,其特征在于,该方法为识别在训练过程中未见过的新类,构建了零样本三维模型数据集,并提出面向零样本三维模型分类的深度学习网络,该深度学习网络使用两个结构不一致的卷积神经网络,其中一个卷积神经网络结合集成学习的方法有效提取三维模型的视觉特征信息,将其称为深度集成学习子网络,另一个卷积神经网络结合流形学习方法捕捉未见过的未知类别和训练过的已知类别视觉特征与语义特征之间的关联性,将其称为语义流形嵌入子网络,通过该深度学习网络,完成对未知类别的分类识别;其包括以下步骤:
S1、研究现有三维模型数据之间的语义相关性,构建零样本三维模型数据集,为零样本三维模型分类任务提供了数据基准;
S2、以零样本三维模型数据集中三维模型的多视图表征为输入,利用深度集成学习子网络提取复杂三维模型的视觉特征;
S3、将三维模型的视觉特征输入语义流形嵌入子网络中,以零样本三维模型数据集中包含丰富语义信息的标签向量为指引,有效捕捉已知类别与未知类别之间的视觉关联和语义关联,完成对深度学习网络的训练;
S4、将零样本三维模型数据集中未知类别的三维模型输入训练好的深度学习网络,通过深度集成学习子网络和语义流形嵌入子网络提取其视觉及语义特征信息,使用余弦距离度量函数为未知类找到最佳语义标签,完成对未知类别的分类识别。
2.根据权利要求1所述的一种面向三维模型的零样本分类方法,其特征在于:在步骤S1中,零样本三维模型分类任务旨在实现对未知类别的分类识别,构建的零样本三维模型数据集包含数据集合、标签集合及属性集合;
所述数据集合及标签集合指的是以紧密相关的非刚性三维数据集Shrec2014和Shrec2015为数据源,挑选了41个类共1677个形状纹理清晰的非刚性三维模型,根据零样本数据集构建原则,将其分为互不相交的训练集和测试集,其中,训练集共包含33个类,1493个三维模型;测试集共包含8个类,184个三维模型;
所述属性集合指的是以标签集合为基础,使用300维的Word2Vec词向量作为三维模型的属性,即语义标签向量,完成属性集合的构建。
3.根据权利要求1所述的一种面向三维模型的零样本分类方法,其特征在于:在步骤S2中,以三维模型的多视图为输入构建其视觉表征,所述深度集成学习子网络包含一组基学习器和一个集成学习器,基学习器由一个卷积神经网络构成,其主要目的是对三维模型的多视图表征中的每一个视图完成初始决策,形成初始视图表征;集成学习器包括一个集成层和一个全连接层,通过集成由基学习器获得的初始视图表征形成对三维模型的整体表征;为确保数据的完整性,采用拼接操作完成视图特征集成,并利用全连接层将其映射为300维的整体特征;
为有效训练深度集成子网络,构建了基学习器的损失函数Li和集成学习器的损失函数Le,分别通过如下公式求解:
Figure FDA0003705221010000021
Figure FDA0003705221010000022
式中,N为视图数目,K为分类数目,p{li=j}函数表示当第i个样本真实标签为j时取值1,否则为0;函数λ{li=j}表示当第i个样本真实标签为j时取值为1,否则为-1;bij表示第i个视图在第j维的分类预测值;
深度集成学习子网络的整体分类损失L通过如下公式求解:
Figure FDA0003705221010000031
式中,Li为第i个基学习器的损失,Le为集成学习器的损失,α和β表示在整个损失函数中基学习器损失和集成学习器损失所占的比重。
4.根据权利要求1所述的一种面向三维模型的零样本分类方法,其特征在于:在步骤S3中,以三维模型数据的语义标签向量为指引,构建语义流形嵌入子网络,首先以零样本三维模型数据集中的语义标签向量为输入,利用全连接层构造该类标签的300维语义特征,然后以语义特征为基准,构建视觉特征和语义特征之间的对抗损失LD,完成视觉特征到语义特征的对齐,对抗损失LD通过如下公式求解:
Figure FDA0003705221010000032
式中,N′为样本数目,其数量与三维模型类别数目一致,ai为第i个语义特征,pi为第i个视觉特征,l0( )和l1( )通过如下公式求解:
lt(e)=tlog(f(Rλ(e)))+(1-t)log(1-f(Rλ(e)))
式中,f()为一组多层感知机,旨在实现特征空间到二值分类的映射;e为视觉特征或语义特征;t为0或1,当输入为视觉特征时记为0,输入为语义特征记为1,为了使得嵌入同一空间的视觉特征域和语义特征域的特征分布尽可能接近,在语义流形嵌入子网络中加入梯度反转层,将其定义为Rλ(),该函数在前向传播时为恒等变换Rλ(x)=x,反向传播时会乘以-λ,λ为超参数,在训练过程中由0变为1,起到逆向学习的作用,则当lt(e)取极小值时,语义流形嵌入子网络便无法区分数据来自于视觉特征域还是语义特征域,从而使得两个域的分布更为接近;
通过语义流形嵌入子网络,将类间彼此独立的视觉特征嵌入到类间相互关联的语义特征空间,间接捕捉到未知类别和已知类别间的关联关系。
5.根据权利要求1所述的一种面向三维模型的零样本分类方法,其特征在于:在步骤S4中,输入零样本三维模型数据集中未知类三维模型,能够基于深度集成学习子网络获得其视觉特征,进而利用语义流形嵌入子网络将其嵌入至语义特征空间中,并利用余弦距离寻找与其最为接近的语义标签,完成对未知类别的分类识别。
CN202210703384.8A 2022-06-21 2022-06-21 一种面向三维模型的零样本分类方法 Pending CN114943961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210703384.8A CN114943961A (zh) 2022-06-21 2022-06-21 一种面向三维模型的零样本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210703384.8A CN114943961A (zh) 2022-06-21 2022-06-21 一种面向三维模型的零样本分类方法

Publications (1)

Publication Number Publication Date
CN114943961A true CN114943961A (zh) 2022-08-26

Family

ID=82910401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210703384.8A Pending CN114943961A (zh) 2022-06-21 2022-06-21 一种面向三维模型的零样本分类方法

Country Status (1)

Country Link
CN (1) CN114943961A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109877A (zh) * 2023-04-07 2023-05-12 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109877A (zh) * 2023-04-07 2023-05-12 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质
CN116109877B (zh) * 2023-04-07 2023-06-20 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111967294B (zh) 一种无监督域自适应的行人重识别方法
CN110046671A (zh) 一种基于胶囊网络的文本分类方法
Selvaraju et al. Choose your neuron: Incorporating domain knowledge through neuron-importance
CN104915643A (zh) 一种基于深度学习的行人再标识方法
Wang et al. Describe and attend to track: Learning natural language guided structural representation and visual attention for object tracking
CN105138977A (zh) 一种大数据环境下的人脸识别方法
CN108052959A (zh) 一种提高深度学习图片识别算法鲁棒性的方法
CN106228027A (zh) 一种多视角数据的半监督特征选择方法
CN109325407A (zh) 基于f-ssd网络滤波的光学遥感视频目标检测方法
CN116089645A (zh) 一种基于层次化风格的条件文本-电商图片检索方法和系统
CN114943961A (zh) 一种面向三维模型的零样本分类方法
CN115309860A (zh) 基于伪孪生网络的虚假新闻检测方法
CN107392249A (zh) 一种k近邻相似度优化的密度峰聚类方法
CN117390411B (zh) 基于元迁移学习的变工况轴承故障诊断方法
CN113269274A (zh) 一种基于循环一致性的零样本识别方法及系统
CN105069136A (zh) 一种大数据环境下的图像识别方法
CN117011714A (zh) 基于伪标签辅助的高光谱图像分类方法
CN116580243A (zh) 一种掩码图像建模引导域适应的跨域遥感场景分类方法
Liu et al. The application of graph neural network in natural language processing and computer vision
Zheng et al. Modular graph attention network for complex visual relational reasoning
Hu et al. Data-free dense depth distillation
CN113409351B (zh) 基于最优传输的无监督领域自适应遥感图像分割方法
CN115392434A (zh) 一种基于图结构变异测试的深度模型加固方法
CN113158878A (zh) 一种基于子空间的异构迁移故障诊断方法、系统和模型
Kong et al. A method of data analysis based on division-mining-fusion strategy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination