CN115131781A - 基于判别性特征引导的零样本三维模型分类方法 - Google Patents

基于判别性特征引导的零样本三维模型分类方法 Download PDF

Info

Publication number
CN115131781A
CN115131781A CN202210716713.2A CN202210716713A CN115131781A CN 115131781 A CN115131781 A CN 115131781A CN 202210716713 A CN202210716713 A CN 202210716713A CN 115131781 A CN115131781 A CN 115131781A
Authority
CN
China
Prior art keywords
dimensional model
visual
feature
discriminant
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210716713.2A
Other languages
English (en)
Inventor
白静
范有福
邵会会
彭斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North Minzu University
Original Assignee
North Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North Minzu University filed Critical North Minzu University
Priority to CN202210716713.2A priority Critical patent/CN115131781A/zh
Publication of CN115131781A publication Critical patent/CN115131781A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于判别性特征引导的零样本三维模型分类方法,包括:1)数据输入及初始特征提取,一部分以三维模型数据集的多视图表征为输入,再经过初始视觉特征提取网络得到多视图特征图;另一部分以三维模型的类标签为输入,经过初始语义特征提取网络得到其词向量;2)将多视图特征图输入到判别性视觉特征提取模块中,得到三维模型最终的判别性视觉特征;3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征;4)将判别性视觉特征和伪视觉特征经联合损失模块对两者联合约束,实现语义‑视觉特征的良好对齐,进而缩小语义‑视觉域间差异性。本发明针对零样本三维模型分类任务,分析并论证了局部判别性特征对其的重要作用,实现了更好的性能。

Description

基于判别性特征引导的零样本三维模型分类方法
技术领域
本发明涉及计算机图形学、计算机视觉与智能识别的技术领域,尤其是指一种基于判别性特征引导的零样本三维模型分类方法。
背景技术
相比于二维图像,三维模型具有更丰富的几何信息和空间结构特征,更贴近与人类生活的显示场景,在医疗建模、电影娱乐、智能导航等领域都有广泛的应用。得益于人工智能技术的快速发展,基于深度学习的三维模型分类方法已经取得了显著的成果。以视图和点云为输入的三维模型分类算法在数据集ModelNet10/ModelNet40上取得了超越90%的分类准确率。然而这些方法都基于监督学习,要求训练集是包含所有待识别类的大规模、详细标注的数据集。事实上,随着三维模型种类的不断增长,用于训练的三维模型不可能包含所有的类别;且训练标注需要极大的人力和物力成本。因此,如何在样本标签数据不足甚至完全缺失的情况下利用已有知识对未知类别进行识别,已成为当前研究中亟需解决的问题。为此,学者们提出了零样本学习,以模仿人类仅根据概念描述完成对未曾见过对象的准确识别。基于零样本学习的三维模型分类是3D视觉领域的一个新兴话题,旨在对未经训练的三维模型进行正确分类。对于输入三维模型及其类标签,现有方法主要是通过视觉提取网络提取三维模型的全局特征描述符,通过语义特征学习网络提取类标签的语义特征向量,然后基于一致性约束将两者映射到同一特征空间以捕捉语义-视觉跨域联系,进而完成对未知类的识别。这类方法取得了一定的成效,但是存在重视全局而忽略局部,强制约束而无视语义-视觉跨域差异性的问题,导致整体性能较低。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于判别性特征引导的零样本三维模型分类方法,针对于零样本三维模型分类任务,分析并论证了局部判别性特征对其的重要作用,实现了更好的性能,完成零样本三维模型的准确分类。
为实现上述目的,本发明所提供的技术方案为:基于判别性特征引导的零样本三维模型分类方法,包括以下步骤:
1)数据输入及初始特征提取,输入分为两部分,一部分以三维模型数据集的多视图表征为输入,然后经过初始视觉特征提取网络得到多视图特征图;另一部分以三维模型的类标签为输入,经过初始语义特征提取网络得到其词向量;
2)将多视图特征图输入到判别性视觉特征提取模块中,得到三维模型最终的判别性视觉特征,即真实视觉特征;
3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征;
4)将得到的三维模型的判别性视觉特征和伪视觉特征经联合损失模块对两者进行联合约束,实现语义-视觉特征的良好对齐,进而缩小语义-视觉域间差异性。
进一步,在步骤1)中,三维模型数据集
Figure BDA0003709827870000021
其中:Γtr为训练集,Γte为测试集,N=Ntr+Nte为三维模型的总数,Ntr为训练集中三维模型数量,Nte为测试集中三维模型数量;xi表示第i个三维模型,yi∈{1,2,…,C}为三维模型xi对应的类标签;C=Ctr+Cte为总体的类别数,Ctr为训练集类别数,Cte为测试集类别数;将三维模型表征为多视图形式,有
Figure BDA0003709827870000022
Iv,i表示三维模型xi的第v个视图,Nv指的是三维模型的多视图的数量;
输入训练集中三维模型以及类标签,表示
Figure BDA0003709827870000023
Figure BDA0003709827870000024
为训练集中第i个三维模型,
Figure BDA0003709827870000025
为三维模型
Figure BDA0003709827870000026
对应的类标签;首先将三维模型
Figure BDA0003709827870000027
输入初始视觉特征提取网络,提取每一个视图Iv,i的初始视觉特征图
Figure BDA0003709827870000028
Figure BDA0003709827870000029
为特征图的矩阵表示,h、w和d分别表示特征图的高、宽和通道数;其中,所述初始视觉特征提取网络采用的是Resnet50;
将类标签
Figure BDA0003709827870000031
输入通过初始语义特征提取网络得到其词向量表示
Figure BDA0003709827870000032
n为词向量的维度;其中,所述初始语义特征提取网络采用的是Word2Vec。
进一步,在步骤2)中,所述判别性视觉特征提取模块的具体情况如下:
a、多视图特征融合:将三维模型Nv张视图的特征图进行通道维度的拼接,得到融合后的特征
Figure BDA0003709827870000033
其过程如下公式(1):
Figure BDA0003709827870000034
式中,
Figure BDA0003709827870000035
为第i个三维模型经过多视图特征融合后的特征,concat为拼接操作,
Figure BDA0003709827870000036
为第i个三维模型多视图的初始视觉特征图,v为视图数量的取值,d为特征图的通道维度;
b、跨视图注意力生成:输入融合后的特征
Figure BDA0003709827870000037
经过M个1×1的卷积,完成通道间的信息交互,得到M个跨视图的判别性注意力图,其过程如下公式(2):
Figure BDA0003709827870000038
式中,
Figure BDA0003709827870000039
表示第i个三维模型的第k个判别性注意力图,
Figure BDA00037098278700000310
为1×1的卷积操作,k为注意力图个数的取值。
c、单视图判别性特征生成:为了将得到的M个判别性特征同步到每张视图上,通过引入双线性注意力池化操作,增强对局部特征的信息交互,以三维模型多视图的初始视觉特征图
Figure BDA00037098278700000311
和三维模型的判别性注意力图
Figure BDA00037098278700000312
进行点乘操作,得到M个判别性特征在Nv张视图上的响应区域
Figure BDA00037098278700000313
其过程如下公式(3):
Figure BDA00037098278700000314
式中,⊙为点乘操作,
Figure BDA00037098278700000315
为第i个三维模型k个判别性特征在v个视图上的响应区域;
d、跨视图判别性特征合成:针对每个判别性特征,进一步综合各视图信息,得到跨视图的判别性特征,首先采用全局平均池化合并空间信息,然后采用最大池化合并通道信息,最后通过拼接得到三维模型第k个跨视图判别性视觉特征
Figure BDA0003709827870000041
其过程如下公式(4):
Figure BDA0003709827870000042
式中,
Figure BDA0003709827870000043
为第i个三维模型第k个跨视图判别性视觉特征,
Figure BDA0003709827870000044
为拼接操作,
Figure BDA0003709827870000045
为在通道维度上进行最大池化操作,
Figure BDA0003709827870000046
为在空间维度上进行全局平均池化操作,h为特征图空间维度的高,w为特征图空间维度的宽;
e、判别性特征生成:将M个独立的判别性视觉特征进行拼接得到三维模型最终的判别性视觉特征,其过程如下公式(5):
Figure BDA0003709827870000047
式中,Fi为第i个三维模型最终的判别性视觉特征,即真实视觉特征,
Figure BDA0003709827870000048
为对k维度上的拼接操作。
进一步,在步骤3)中,所述伪视觉生成模块的具体情况如下:
a、关联语义提取:为了支持语义-视觉特征的平滑映射,更好地捕捉对象间的关联语义特征,首先经过由全连接构成的语义描述筛选子模块,获取到与视觉判别性特征对应的关联语义特征Fr i,其过程如下公式(6):
Fr i=f1(Wi)=δ(ω0Wi+b0) (6)
式中,Fr i为第i个三维模型对应的关联语义特征,Wi为第i个三维模型的词向量表示,f1为单层全连接层构成的语义描述筛选子模块,δ为ReLU激活函数,ω0为网络权重,b0为偏置;
b、伪视觉特征生成:将得到的关联语义特征Fr i输入到生成器中生成伪视觉特征分布
Figure BDA0003709827870000051
该生成器为由三层的全连接网络构成,其过程如下公式(7):
Figure BDA0003709827870000052
式中,
Figure BDA0003709827870000053
为第i个三维模型的伪视觉特征,f2为由三层的全连接网络构成的伪视觉生成器,ω1、ω2、ω3分别为每一层的网络权重,b1、b2、b3分别为每一层的偏置。
进一步,在步骤4)中,所述联合损失模块包含语义判别损失和内容感知损失,其具体情况如下:
a、语义判别损失:语义判别损失旨在推进三维模型伪视觉特征和真实视觉特征在全局认知上的一致性,将生成的伪视觉特征
Figure BDA0003709827870000054
和真实视觉特征Fi输入判别器进行0/1判别,使得
Figure BDA0003709827870000055
不断地逼近真实视觉特征分布,从而在语义层面上鼓励伪视觉特征能贴近真实视觉特征,其过程如下公式(8):
Figure BDA0003709827870000056
式中,Lsd为语义判别损失,yi为真实标签,
Figure BDA0003709827870000057
是预测标签;当真实标签yi与预测标签
Figure BDA0003709827870000058
相等时为1,不相等时为0;
b、内容感知损失:内容感知损失旨在实现伪视觉特征和真实视觉特征局部特征上的细粒度对齐,该损失通过按位计算特征向量间的差异,对特征的局部细节信息进行约束,要求对应位置的局部特征具有高相似性,其过程如下公式(9):
Figure BDA0003709827870000059
式中,l指的是伪视觉特征和真实特征的特征维度,Lcp为内容感知损失,
Figure BDA00037098278700000510
为Fi在第j维的值,
Figure BDA00037098278700000511
表示
Figure BDA00037098278700000512
在第j维的值。
本发明与现有技术相比,具有如下优点与有益效果:
1、零样本学习是通过已知类泛化到未知类的过程,要求已知类和未知类具有一定的相关性,且这种相关性更多的体现在于局部细粒度上。现有方法往往利用各种特征提取网络捕获三维模型的全局描述符,难以刻画其局部判别性属性特征,存在视觉特征提取不充分的问题。针对此问题,本发明提出了判别性视觉特征提取模块,首先学习并生成跨视图的注意力图,然后利用双线性池化同步到每个视图,最后将多个视图的判别性特征进行融合,以此增强对三维模型的局部判别性视觉特征的获取,生成三维模型的真实视觉特征。
2、在视觉-语义特征映射方面,现有方法简单地利用一致性损失实现语义特征与视觉特征的强制对齐,忽略了语义特征-视觉特征间的巨大的域间差异性(信息冗余和特征对齐),导致映射效果不佳,识别性能较差的问题。针对此问题,本发明设计了伪视觉生成模块,类比人类认知原理,建立语义描述筛选子模块,自动捕捉对象间的关联语义特征;建立语义特征-视觉图像的伪视觉生成器,根据关联语义特征生成描述对象的伪视觉特征,支持语义-视觉特征的平滑映射。
3、本发明构建了语义-内容双层感知的联合损失模块,包含语义判别损失和内容感知损失;其中,语义判别损失确保了伪视觉特征和真实视觉特征在全局认识上的一致性;内容感知损失则进一步实现伪视觉特征和真实视觉特征局部特征上的细粒度对齐;两者共同作用,实现语义-视觉特征的良好对齐,进而缩小语义-视觉域间差异性。
附图说明
图1为本发明方法(称为DFG-ZS3D)的架构图。
图2为判别性视觉特征提取模块示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1和图2所示,本实施例提供了基于判别性特征引导的零样本三维模型分类方法,其具体情况如下:
1)数据输入及初始特征提取,输入分为两部分,一部分以三维模型数据集的多视图表征为输入,然后经过初始视觉特征提取网络得到多视图特征图;另一部分以三维模型的类标签为输入,经过初始语义特征提取网络得到其词向量;具体如下:
三维模型数据集
Figure BDA0003709827870000071
其中:Γtr为训练集,Γte为测试集,N=Ntr+Nte为三维模型的总数,Ntr为训练集中三维模型数量,Nte为测试集中三维模型数量;xi表示第i个三维模型,yi∈{1,2,…,C}为三维模型xi对应的类标签;C=Ctr+Cte为总体的类别数,Ctr为训练集类别数,Cte为测试集类别数;将三维模型表征为多视图形式,有
Figure BDA0003709827870000072
Iv,i表示三维模型xi的第v个视图,Nv指的是三维模型的多视图的数量,一般都是选择12张视图代表一个三维模型;
输入训练集中三维模型以及类标签,表示
Figure BDA0003709827870000073
Figure BDA0003709827870000074
为训练集中第i个三维模型,
Figure BDA0003709827870000075
为三维模型
Figure BDA0003709827870000076
对应的类标签;首先将三维模型
Figure BDA0003709827870000077
输入初始视觉特征提取网络,提取每一个视图Iv,i的初始视觉特征图
Figure BDA0003709827870000078
Figure BDA0003709827870000079
为特征图的矩阵表示,h、w和d分别表示特征图的高、宽和通道数;其中,所述初始视觉特征提取网络采用的是Resnet50;
将类标签
Figure BDA00037098278700000710
输入通过初始语义特征提取网络得到其词向量表示
Figure BDA00037098278700000711
n为词向量的维度;其中,所述初始语义特征提取网络采用的是Word2Vec。
2)将多视图特征图输入到判别性视觉特征提取模块中,得到三维模型最终的判别性视觉特征,即真实视觉特征;其中,所述判别性视觉特征提取模块的具体情况如下:
a、多视图特征融合:将三维模型Nv张视图的特征图进行通道维度的拼接,得到融合后的特征
Figure BDA0003709827870000081
其过程如下公式(1):
Figure BDA0003709827870000082
式中,
Figure BDA0003709827870000083
为第i个三维模型经过多视图特征融合后的特征,concat为拼接操作,
Figure BDA0003709827870000084
为第i个三维模型多视图的初始视觉特征图,v为视图个数的取值,d为特征图的通道维度;
b、跨视图注意力生成:输入融合后的特征
Figure BDA0003709827870000085
经过M个1×1的卷积,完成通道间的信息交互,得到M个跨视图的判别性注意力图,其过程如下公式(2):
Figure BDA0003709827870000086
式中,
Figure BDA0003709827870000087
表示第i个三维模型的第k个判别性注意力图,
Figure BDA0003709827870000088
为1×1的卷积操作,k为注意力图个数的取值。
c、单视图判别性特征生成:为了将得到的M个判别性特征同步到每张视图上,通过引入双线性注意力池化操作,增强对局部特征的信息交互,以三维模型多视图的初始视觉特征图
Figure BDA0003709827870000089
和三维模型的判别性注意力图
Figure BDA00037098278700000810
进行点乘操作,得到M个判别性特征在Nv张视图上的响应区域
Figure BDA00037098278700000811
其过程如下公式(3):
Figure BDA00037098278700000812
式中,⊙为点乘操作,
Figure BDA00037098278700000813
为第i个三维模型k个判别性特征在v个视图上的响应区域;
d、跨视图判别性特征合成:针对每个判别性特征,进一步综合各视图信息,得到跨视图的判别性特征,首先采用全局平均池化合并空间信息,然后采用最大池化合并通道信息,最后通过拼接得到三维模型第k个跨视图判别性视觉特征
Figure BDA00037098278700000814
其过程如下公式(4):
Figure BDA00037098278700000815
式中,
Figure BDA0003709827870000091
为第i个三维模型第k个跨视图判别性视觉特征,
Figure BDA0003709827870000092
为拼接操作,
Figure BDA0003709827870000093
为在通道维度上进行最大池化操作,
Figure BDA0003709827870000094
为在空间维度上进行全局平均池化操作,h为特征图空间维度的高,w为特征图空间维度的宽;
e、判别性特征生成:将M个独立的判别性视觉特征进行拼接得到三维模型最终的判别性视觉特征,其过程如下公式(5):
Figure BDA0003709827870000095
式中,Fi为第i个三维模型最终的判别性视觉特征,即真实视觉特征,
Figure BDA0003709827870000096
为对k维度上的拼接操作。
3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征;其中,所述伪视觉生成模块的具体情况如下:
a、关联语义提取:经初始语义特征提取网络构建的词向量Wi包含一些非判别性特征,存在信息冗余,直接以此为输入会给模型学习引入过多的噪声;为了支持语义-视觉特征的平滑映射,更好地捕捉对象间的关联语义特征,首先经过由全连接构成的语义描述筛选子模块,获取到与视觉判别性特征对应的关联语义特征Fr i,其过程如下公式(6):
Fr i=f1(Wi)=δ(ω0Wi+b0) (6)
式中,Fr i为第i个三维模型对应的关联语义特征,Wi为第i个三维模型的词向量表示,f1为单层全连接层构成的语义描述筛选子模块,δ为ReLU激活函数,ω0为网络权重,b0为偏置;
b、伪视觉特征生成:将得到的关联语义特征Fr i输入到生成器中生成伪视觉特征分布
Figure BDA0003709827870000097
该生成器为由三层的全连接网络构成,其过程如下公式(7):
Figure BDA0003709827870000098
式中,
Figure BDA0003709827870000101
为第i个三维模型的伪视觉特征,f2为由三层的全连接网络构成的伪视觉生成器,ω1、ω2、ω3分别为每一层的网络权重,b1、b2、b3分别为每一层的偏置。
4)将得到的三维模型的判别性视觉特征和伪视觉特征经联合损失模块对两者进行联合约束,实现语义-视觉特征的良好对齐,进而缩小语义-视觉域间差异性;其中,所述联合损失模块包含语义判别损失和内容感知损失,其具体情况如下:
a、语义判别损失:语义判别损失旨在推进三维模型伪视觉特征和真实视觉特征在全局认知上的一致性,将生成的伪视觉特征
Figure BDA0003709827870000102
和真实视觉特征Fi输入判别器(discriminator)进行0/1判别,使得
Figure BDA0003709827870000103
不断地逼近真实视觉特征分布,从而在语义层面上鼓励伪视觉特征能贴近真实视觉特征,其过程如下公式(8):
Figure BDA0003709827870000104
式中,Lsd为语义判别损失,yi为真实标签,
Figure BDA0003709827870000105
是预测标签;当真实标签yi与预测标签
Figure BDA0003709827870000106
相等时为1,不相等时为0;
b、内容感知损失:内容感知损失旨在实现伪视觉特征和真实视觉特征局部特征上的细粒度对齐,该损失通过按位计算特征向量间的差异,对特征的局部细节信息进行约束,要求对应位置的局部特征具有高相似性,其过程如下公式(9):
Figure BDA0003709827870000107
式中,l指的是伪视觉特征和真实特征的特征维度,Lcp为内容感知损失,
Figure BDA0003709827870000108
为Fi在第j维的值,
Figure BDA0003709827870000109
表示
Figure BDA00037098278700001010
在第j维的值。
实验配置:本文实验的硬件环境为Intel Core i7 2600k+Tesla V100 32GB+16GBRAM,软件环境为Windows10 x64+CUDA 10.0+CuDNN 7.1+Pytorch 1.4.0+python 3.6+Matlab。
数据集:
三维数据集,当前公开的零样本三维模型数据集有ZS3D和Ali。为充分测试算法的有效性和普适性,实验中同时选取以上数据集。
ZS3D数据集,ZS3D是一个以Shrec2014和Shrec2015为数据源构建的零样本三维模型数据集,共包含来自41个类的1677个分刚性三维模型,其中隶属与33个类的1493个模型用作训练,隶属于另外8个类的184个模型用作测试。
Ali数据集,Ali包含了三个子数据集,均利用ModelNet40中的30个类5976个三维模型作为训练集,分别以ModelNet10中的10个类908个三维模型,McGill中的14个类301个三维模型以及Shrec2015中的30个类720个三维模型作为测试集。
语义数据集,GooleNews语料库覆盖了大约300万的词汇和短语,为零样本学习提供了充足的语义数据源。实验中,首先将GoogleNews语料库作为基准训练得到Word2Vec模型,然后将对应三维模型数据集中所有类的表爱你输入Word2vec模型得到类的词向量表示,捕捉词向量之间的而予以相关性,建立已知类和未知类的语义关联。
通过在ZS3D和Ali数据集上进行对比实验充分证明了该方法的有效性和普适性,实验结果如表1、表2所示。
表1在ZS3D数据集上对比实验
Figure BDA0003709827870000111
Figure BDA0003709827870000121
表2在Ali数据集上对比实验(以ModelNet40为训练集)
Figure BDA0003709827870000122
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.基于判别性特征引导的零样本三维模型分类方法,其特征在于,包括以下步骤:
1)数据输入及初始特征提取,输入分为两部分,一部分以三维模型数据集的多视图表征为输入,然后经过初始视觉特征提取网络得到多视图特征图;另一部分以三维模型的类标签为输入,经过初始语义特征提取网络得到其词向量;
2)将多视图特征图输入到判别性视觉特征提取模块中,得到三维模型最终的判别性视觉特征,即真实视觉特征;
3)将词向量输入到伪视觉生成模块得到三维模型的伪视觉特征;
4)将得到的三维模型的判别性视觉特征和伪视觉特征经联合损失模块对两者进行联合约束,实现语义-视觉特征的良好对齐,进而缩小语义-视觉域间差异性。
2.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法,其特征在于,在步骤1)中,三维模型数据集
Figure FDA0003709827860000011
其中:Γtr为训练集,Γte为测试集,N=Ntr+Nte为三维模型的总数,Ntr为训练集中三维模型数量,Nte为测试集中三维模型数量;xi表示第i个三维模型,yi∈{1,2,…,C}为三维模型xi对应的类标签;C=Ctr+Cte为总体的类别数,Ctr为训练集类别数,Cte为测试集类别数;将三维模型表征为多视图形式,有
Figure FDA0003709827860000012
Iv,i表示三维模型xi的第v个视图,Nv指的是三维模型的多视图的数量;
输入训练集中三维模型以及类标签,表示
Figure FDA0003709827860000013
Figure FDA0003709827860000014
为训练集中第i个三维模型,
Figure FDA0003709827860000015
为三维模型
Figure FDA0003709827860000016
对应的类标签;首先将三维模型
Figure FDA0003709827860000017
输入初始视觉特征提取网络,提取每一个视图Iv,i的初始视觉特征图
Figure FDA0003709827860000018
Figure FDA0003709827860000019
为特征图的矩阵表示,h、w和d分别表示特征图的高、宽和通道数;其中,所述初始视觉特征提取网络采用的是Resnet50;
将类标签
Figure FDA00037098278600000110
输入通过初始语义特征提取网络得到其词向量表示
Figure FDA00037098278600000111
n为词向量的维度;其中,所述初始语义特征提取网络采用的是Word2Vec。
3.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法,其特征在于,在步骤2)中,所述判别性视觉特征提取模块的具体情况如下:
a、多视图特征融合:将三维模型Nv张视图的特征图进行通道维度的拼接,得到融合后的特征
Figure FDA0003709827860000021
其过程如下公式(1):
Figure FDA0003709827860000022
式中,
Figure FDA0003709827860000023
为第i个三维模型经过多视图特征融合后的特征,concat为拼接操作,
Figure FDA0003709827860000024
为第i个三维模型多视图的初始视觉特征图,v为视图数量的取值,d为特征图的通道维度;
b、跨视图注意力生成:输入融合后的特征
Figure FDA0003709827860000025
经过M个1×1的卷积,完成通道间的信息交互,得到M个跨视图的判别性注意力图,其过程如下公式(2):
Figure FDA0003709827860000026
式中,
Figure FDA0003709827860000027
表示第i个三维模型的第k个判别性注意力图,
Figure FDA0003709827860000028
为1×1的卷积操作,k为注意力图个数的取值;
c、单视图判别性特征生成:为了将得到的M个判别性特征同步到每张视图上,通过引入双线性注意力池化操作,增强对局部特征的信息交互,以三维模型多视图的初始视觉特征图
Figure FDA0003709827860000029
和三维模型的判别性注意力图
Figure FDA00037098278600000210
进行点乘操作,得到M个判别性特征在Nv张视图上的响应区域
Figure FDA00037098278600000211
其过程如下公式(3):
Figure FDA00037098278600000212
式中,⊙为点乘操作,
Figure FDA00037098278600000213
为第i个三维模型k个判别性特征在v个视图上的响应区域;
d、跨视图判别性特征合成:针对每个判别性特征,进一步综合各视图信息,得到跨视图的判别性特征,首先采用全局平均池化合并空间信息,然后采用最大池化合并通道信息,最后通过拼接得到三维模型第k个跨视图判别性视觉特征
Figure FDA0003709827860000031
其过程如下公式(4):
Figure FDA0003709827860000032
式中,
Figure FDA0003709827860000033
为第i个三维模型第k个跨视图判别性视觉特征,
Figure FDA0003709827860000034
为拼接操作,
Figure FDA0003709827860000035
为在通道维度上进行最大池化操作,
Figure FDA0003709827860000036
为在空间维度上进行全局平均池化操作,h为特征图空间维度的高,w为特征图空间维度的宽;
e、判别性特征生成:将M个独立的判别性视觉特征进行拼接得到三维模型最终的判别性视觉特征,其过程如下公式(5):
Figure FDA0003709827860000037
式中,Fi为第i个三维模型最终的判别性视觉特征,即真实视觉特征,
Figure FDA0003709827860000038
为对k维度上的拼接操作。
4.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法,其特征在于,在步骤3)中,所述伪视觉生成模块的具体情况如下:
a、关联语义提取:为了支持语义-视觉特征的平滑映射,更好地捕捉对象间的关联语义特征,首先经过由全连接构成的语义描述筛选子模块,获取到与视觉判别性特征对应的关联语义特征Fr i,其过程如下公式(6):
Fr i=f1(Wi)=δ(ω0Wi+b0) (6)
式中,Fr i为第i个三维模型对应的关联语义特征,Wi为第i个三维模型的词向量表示,f1为单层全连接层构成的语义描述筛选子模块,δ为ReLU激活函数,ω0为网络权重,b0为偏置;
b、伪视觉特征生成:将得到的关联语义特征Fr i输入到生成器中生成伪视觉特征分布
Figure FDA0003709827860000039
该生成器为由三层的全连接网络构成,其过程如下公式(7):
Figure FDA0003709827860000041
式中,
Figure FDA0003709827860000042
为第i个三维模型的伪视觉特征,f2为由三层的全连接网络构成的伪视觉生成器,ω1、ω2、ω3分别为每一层的网络权重,b1、b2、b3分别为每一层的偏置。
5.根据权利要求1所述的基于判别性特征引导的零样本三维模型分类方法,其特征在于,在步骤4)中,所述联合损失模块包含语义判别损失和内容感知损失,其具体情况如下:
a、语义判别损失:语义判别损失旨在推进三维模型伪视觉特征和真实视觉特征在全局认知上的一致性,将生成的伪视觉特征
Figure FDA0003709827860000043
和真实视觉特征Fi输入判别器进行0/1判别,使得
Figure FDA0003709827860000044
不断地逼近真实视觉特征分布,从而在语义层面上鼓励伪视觉特征能贴近真实视觉特征,其过程如下公式(8):
Figure FDA0003709827860000045
式中,Lsd为语义判别损失,yi为真实标签,
Figure FDA0003709827860000046
是预测标签;当真实标签yi与预测标签
Figure FDA0003709827860000047
相等时为1,不相等时为0;
b、内容感知损失:内容感知损失旨在实现伪视觉特征和真实视觉特征局部特征上的细粒度对齐,该损失通过按位计算特征向量间的差异,对特征的局部细节信息进行约束,要求对应位置的局部特征具有高相似性,其过程如下公式(9):
Figure FDA0003709827860000048
式中,l指的是伪视觉特征和真实特征的特征维度,Lcp为内容感知损失,
Figure FDA0003709827860000049
为Fi在第j维的值,
Figure FDA00037098278600000410
表示
Figure FDA00037098278600000411
在第j维的值。
CN202210716713.2A 2022-06-23 2022-06-23 基于判别性特征引导的零样本三维模型分类方法 Pending CN115131781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210716713.2A CN115131781A (zh) 2022-06-23 2022-06-23 基于判别性特征引导的零样本三维模型分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210716713.2A CN115131781A (zh) 2022-06-23 2022-06-23 基于判别性特征引导的零样本三维模型分类方法

Publications (1)

Publication Number Publication Date
CN115131781A true CN115131781A (zh) 2022-09-30

Family

ID=83380551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210716713.2A Pending CN115131781A (zh) 2022-06-23 2022-06-23 基于判别性特征引导的零样本三维模型分类方法

Country Status (1)

Country Link
CN (1) CN115131781A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424096A (zh) * 2022-11-08 2022-12-02 南京信息工程大学 一种多视角零样本图像识别方法
CN115424096B (zh) * 2022-11-08 2023-01-31 南京信息工程大学 一种多视角零样本图像识别方法

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN112200317B (zh) 多模态知识图谱构建方法
Senocak et al. Learning to localize sound source in visual scenes
Sah et al. Semantic text summarization of long videos
Peng et al. Learning multi-region features for vehicle re-identification with context-based ranking method
CN112085120B (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN111428650B (zh) 一种基于sp-pggan风格迁移的行人重识别方法
Fu et al. Learning semantic-aware spatial-temporal attention for interpretable action recognition
CN115131781A (zh) 基于判别性特征引导的零样本三维模型分类方法
Chen et al. Unsupervised learning of probabilistic object models (POMs) for object classification, segmentation, and recognition using knowledge propagation
CN117392289A (zh) 基于ai语音自动生成案发现场视频的方法和系统
Li et al. Caption generation from road images for traffic scene modeling
Shi et al. Unsupervised sounding object localization with bottom-up and top-down attention
CN118051630A (zh) 一种基于多模态共识感知和动量对比的图文检索系统及其方法
Qian et al. URRNet: A Unified Relational Reasoning Network for Vehicle Re-Identification
Khorrami et al. Evaluation of audio-visual alignments in visually grounded speech models
CN111523430B (zh) 基于ucl的可定制交互式视频制作方法与装置
Li et al. Viewpoint recommendation based on object-oriented 3D scene reconstruction
Tilak et al. Visual entity linking
Wang et al. Listen, look, and find the one: Robust person search with multimodality index
Chum et al. Web scale image clustering
Wu et al. DOrA: 3D Visual Grounding with Order-Aware Referring
Hou et al. Unlocking a multimodal archive of Southern Chinese martial arts through embodied cues
Raboh et al. Learning latent scene-graph representations for referring relationships
Zhuang et al. A Survey of Point Cloud Completion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination