CN116883723A - 一种基于并联语义嵌入的组成式零样本图像分类方法 - Google Patents
一种基于并联语义嵌入的组成式零样本图像分类方法 Download PDFInfo
- Publication number
- CN116883723A CN116883723A CN202310721175.0A CN202310721175A CN116883723A CN 116883723 A CN116883723 A CN 116883723A CN 202310721175 A CN202310721175 A CN 202310721175A CN 116883723 A CN116883723 A CN 116883723A
- Authority
- CN
- China
- Prior art keywords
- image
- sample image
- combined
- zero sample
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000013145 classification model Methods 0.000 claims description 51
- 239000011159 matrix material Substances 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 33
- 230000007246 mechanism Effects 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 13
- 238000013508 migration Methods 0.000 abstract description 3
- 230000005012 migration Effects 0.000 abstract description 3
- 230000004931 aggregating effect Effects 0.000 abstract 1
- 238000005457 optimization Methods 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于并联语义嵌入的组成式零样本图像分类方法,该方法首先根据属性、对象及其组合间的多元依赖结构构建组合图,并对组合图内节点进行语义嵌入。随后,将得到的组合图输入到并联语义嵌入网络中,通过聚合邻域节点来实现可见类和不可见类间的特征迁移。最后,联合由并联语义嵌入网络得到的嵌入表示,通过联合嵌入表示进行训练图像的分类预测,将其与独热编码求分类损失,根据分类损失更新优化模型参数,得到最优模型用于测试。测试阶段将测试图像输入模型,根据兼容性分数预测图像类别。本发明采用并联语义嵌入的方式,提高模型泛化性,得到更优的组成式零样本图像分类性能。
Description
技术领域
本发明涉及图像分类领域,具体涉及一种基于并联语义嵌入的组成式零样本图像分类方法。
背景技术
深度学习是近年来机器学习领域的研究热点,在图片识别、视频动作识别和文本翻译等任务中取得了重要进展,许多基于深度学习的监督学习模型被提出,如DenseNet、ArcFace等。然而,深度学习在有监督学习上能够产生作用的重要原因之一在于其需要海量的训练标注数据,这些标注往往需要耗费人工巨大的时间和精力。同时,测试数据集标签必须和训练数据集完全一致,即有监督学习所产生的映射只能处理同类别对象的数据,而无法迁移到其他类别的判定上。无监督学习虽然不需要标签监督过程,避免了标注的复杂性和专业性的限制,但却并不能够提供实例的类别,这和实践中的期望是相违背的。更重要的是,由于自然界中的数据往往是长尾分布的,即大多数类别都不具备足够且合适的训练实例,因此常常会出现训练实例的类别未能覆盖测试类别的情况。尽管存在一些减少训练样本和提高训练效率的算法,但是,这些算法仍然需要一定数量的训练样本对模型中的特定类进行训练,才能实现对测试样本中的测试样例的分类和预测。
研究发现人类可以辨识大概30000个对象类别的信息,还可以对这些类中所包含的子类进行辨别,例如不同款式的汽车,或者不同品种的狗。同时人类拥有知识迁移能力,在学习新事物时可以将过去学习存储的知识迁移到新事物。因此,人们提出了零样本学习概念。零样本,即无训练样本,零样本学习旨在让深度学习模型能够识别没有训练过的新类别。在零样本学习技术提出之初,主要的研究方法是使用浅层视觉特征,如尺度不变特征变换(scale invariant feature transform,SIFT)、图像灰度直方图等,将事物属性作为语义空间特征,利用传统的机器学习方法进行判别。
近年来出现一种新兴的学习范式,称为组成式零样本学习。在组成式零样本学习的场景中,训练实例和测试实例均由“属性-对象”组成,测试实例所属的组合并没有在训练实例中出现过,而学习的目的正是对这些“属性-对象”视觉单元的重组后的新组合进行分类,因此,可将组成式零样本学习视为零样本的特例。由于在组成式零样本学习中,训练样本和测试样本对应的标注空间是不同的,也可将组成式零样本学习视为迁移学习的特例。
组成式零样本学习的提出,为目前分类任务中广泛存在的训练类别不能覆盖测试类别的实际问题提供了一种解决方案,也为识别从未见过的数据类别提供了可能。在组成式零样本学习下训练的分类器,不仅能够识别出训练集中已有的数据类别,还可以对来自未见过的类别的数据进行推理判断。这使得计算机具有知识迁移的能力,避免了训练数据类别需要覆盖所有测试类别的限制,更加符合人们生产实际的需要。
发明内容
本发明目的:在于提供一种基于并联语义嵌入的组成式零样本图像分类方法,利用属性、对象及其组合间多元依赖结构,并结合多个网络,获得性能更优的组成式零样本图像分类模型。
为实现以上功能,本发明设计一种基于并联语义嵌入的组成式零样本图像分类方法,通过步骤S1至步骤S4,构建并训练组成式零样本图像分类模型,并按步骤i至步骤j,应用训练好的组成式零样本图像分类模型,针对待分类图像进行分类:
步骤S1、构建预设数据集,预设数据集包括图像,基于预设数据集获得所有类别标签,预设数据集中的各图像分别与其所属的类别标签相对应,同时将各类别标签转化为独热编码;
步骤S2、基于预设数据集的属性、对象及其组合间多元依赖关系构建组成式零样本图像分类模型;组成式零样本图像分类模型以图像为输入,输出用于表示图像分类概率的兼容性分数;所述组成式零样本图像分类模型包括组合图构建模块、并联语义嵌入模块和分类器学习模块;所述组合图构建模块根据预设数据集中属性、对象及其组合间多元依赖关系构建组合图;所述并联语义嵌入模块利用并联语义嵌入网络,分别获得预设数据集中可见类和不可见类的特征嵌入表示;所述分类器学习模块联合上述两种嵌入表示,获得联合嵌入表示,同时采用特征提取器提取图像特征,结合联合嵌入表示及图像特征得到兼容函数,计算并输出兼容性分数;
步骤S3、基于预设数据集构建训练集,训练集中的各训练样本包含图像、图像所属的类别标签以及对应的独热编码;
步骤S4、利用上述训练集对组成式零样本图像分类模型进行训练,学习图像特征与联合嵌入表示间的兼容函数,直至达到预设收敛条件,获得训练好的组成式零样本图像分类模型;
步骤i、将待分类图像输入训练好的组成式零样本图像分类模型,获得兼容函数;
步骤j、根据兼容函数计算待分类图像相对各类别标签的兼容性分数,将兼容性分数最高的类别标签作为待分类图像的所属类别,完成组成式零样本图像分类任务。
作为本发明的一种优选技术方案:步骤S2中,组合图构建模块构建过程包括:
步骤S201、根据预设数据集的属性、对象及其组合间多元依赖关系构建组合图,以及对称邻接矩阵;
步骤S202、对步骤S201得到的组合图进行节点特征嵌入,获得节点特征矩阵。
作为本发明的一种优选技术方案:步骤S201中组合图由N个节点构成,N=|A|+|O|+|Y|,A、O、Y分别为属性集、对象集与概念集,属性集、对象集与概念集分别由属性a、对象o、属性y构成;其中,概念y=(a,o),用于描述属性a∈A、对象o∈O及其组合间的依赖关系;通过y=(a,o)对每一个(a,o)、(a,y)和(o,y)连接来构建组合图的边,此外,每个节点也与自身相连,得到对称邻接矩阵M=RN×N。
作为本发明的一种优选技术方案:所述步骤S202中选择使用在大型文本语料Wikipedia上预先训练过的单词进行节点特征嵌入,获得节点特征矩阵E∈RN×P,其中N为节点总数,P表示组合图节点的特征维数。
作为本发明的一种优选技术方案:步骤S2中,并联语义嵌入模块由并联语义嵌入网络组成;并联语义嵌入网络包括图卷积网络和图注意力网络;
图卷积网络根据对称邻接矩阵M=RN×N及节点特征矩阵E∈RN×P,计算每个节点的隐藏表示如下式:
Hc (l)=σ(D-1MHc (l-1)Θ(l-1))
其中,σ表示非线性激活函数ReLU,Hc (l)∈RN×U表示第l层的隐藏表示,Hc (0)=E,Θ∈RU×V是可训练的权重矩阵,其中U是上层网络的输出维度,V是本层网络的输出维度;D∈RN ×N为对角节点度矩阵,对M中的行进行归一化,以保持特征向量的尺度,图卷积网络输出层的输出为Hc (l),获得可见类和不可见类的特征嵌入表示:Hc=Hc (l);
图注意力网络根据对称邻接矩阵M=RN×N及节点特征矩阵E∈RN×P,首先计算注意力互相关系数αij如下式:
其中,Ni为节点i的所有相邻节点,φ表示非线性激活函数LeakyReLU,c∈R2V为模型权重的转置,W∈RZ×P表示可训练的权重矩阵,其中Z是输出特征维数,P表示组合图节点的特征维数;使用多头注意力机制进行扩展,每个节点的最终输出特征如下:
其中,g表示注意力机制重数,G为注意力机制重数的总数,αg ij为第g重注意力机制产生的注意力互相关系数,Wg为第g重注意力机制的权值矩阵;节点嵌入表示Ha (0)=E={h1,h2,...,hN},h1∈RP为网络输入,其中N为节点数量;图注意力网络的输出为Ha′={h′1,h′2,...,h′N},h′1∈RZ,获得可见类和不可见类的特征嵌入表示:Ha=Ha′。
作为本发明的一种优选技术方案:步骤S2中,分类器学习模块通过特征提取器得到图像特征F,联合可见类和不可见类的特征嵌入表示,得到联合嵌入表示G=(1-α)Hc+αHa,α为联合权重;根据联合嵌入表示G和图像特征F,计算兼容性函数P如下式:
P=F·G
其中,(·)是点积,根据兼容性函数P计算图像相对各类别标签的兼容性分数。
作为本发明的一种优选技术方案:步骤S4中,对组成式零样本图像分类模型进行训练的步骤包括:
步骤S401、通过组成式零样本图像分类模型得到可见类和不可见类的特征嵌入表示,进一步得到联合嵌入表示,同时通过特征提取器得到图像特征;
步骤S402、通过联合嵌入表示与图像特征得到兼容性分数;
步骤S403、分别计算兼容性分数与各类别标签间的交叉熵损失,根据交叉熵损失计算组成式零样本图像分类模型的整体损失,并根据整体损失值对组成式零样本图像分类模型的参数进行优化;
步骤S404、利用训练集中的图像迭代更新组成式零样本图像分类模型的参数,直至参数收敛,得到训练好的组成式零样本图像分类模型。
作为本发明的一种优选技术方案:步骤S403中,计算组成式零样本图像分类模型的整体损失方法如下:
基于图像的预测分类概率、对应类别标签的独热编码,计算分类交叉熵损失Lclassifier,计算公式如下:
式中,n是图像数量,k是分类概率维数,yi是独热编码后的第i维的值,pi分类概率的第i维的值。
作为本发明的一种优选技术方案:步骤j中,计算兼容性函数中数值最大的维数,并查看相应维数数值为1的类别标签对应的独热编码,该独热编码对应的类别标签即为图像所属的类别。
有益效果:相对于现有技术,本发明的优点包括:
1、本发明方法利用属性、对象及其组合间的多元依赖结构,通过并联图网络探索组合嵌入表示,实现可见类到不可见类的迁移;
2、本发明所提方法通过联合两种嵌入表示,提升模型泛化性能。
附图说明
图1是根据本发明实施例提供的基于并联语义嵌入的组成式零样本图像分类方法的步骤流程图;
图2是根据本发明实施例提供的组成式零样本图像分类模型的框架示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
参照图1,本发明实施例提供的一种基于并联语义嵌入的组成式零样本图像分类方法,通过步骤S1至步骤S4,构建并训练组成式零样本图像分类模型,并按步骤i至步骤j,应用训练好的组成式零样本图像分类模型,针对待分类图像进行分类:
步骤S1、构建预设数据集,预设数据集包括图像,基于预设数据集获得所有类别标签,预设数据集中的各图像分别与其所属的类别标签相对应,同时将各类别标签转化为独热编码;
步骤S2、基于预设数据集的属性、对象及其组合间多元依赖关系构建组成式零样本图像分类模型;组成式零样本图像分类模型以图像为输入,输出用于表示图像分类概率的兼容性分数;所述组成式零样本图像分类模型包括组合图构建模块、并联语义嵌入模块和分类器学习模块;所述组合图构建模块根据预设数据集中属性、对象及其组合间多元依赖关系构建组合图;所述并联语义嵌入模块利用并联语义嵌入网络,分别获得预设数据集中可见类和不可见类的特征嵌入表示;所述分类器学习模块联合上述两种嵌入表示,获得联合嵌入表示,同时采用特征提取器提取图像特征,结合联合嵌入表示及图像特征得到兼容函数,计算并输出兼容性分数;
组合图构建模块构建过程包括:
步骤S201、根据预设数据集的属性、对象及其组合间多元依赖关系构建组合图,以及对称邻接矩阵;
步骤S201中组合图由N个节点构成,N=|A|+|O|+|Y|,A、O、Y分别为属性集、对象集与概念集,属性集、对象集与概念集分别由属性a、对象o、属性y构成;其中,概念y=(a,o),用于描述属性a∈A、对象o∈O及其组合间的依赖关系;通过y=(a,o)对每一个(a,o)、(a,y)和(o,y)连接来构建组合图的边,此外,每个节点也与自身相连,得到对称邻接矩阵M=RN×N。
步骤S202、对步骤S201得到的组合图进行节点特征嵌入,获得节点特征矩阵。
步骤S202中选择使用在大型文本语料Wikipedia上预先训练过的单词进行节点特征嵌入,不仅能节省特征的储存空间,也能捕捉单词之间丰富的语义相似性。通过添加词嵌入,在语义空间中实现了组合性。通过节点特征嵌入获得节点特征矩阵E∈RN×P,其中N为节点总数,P表示组合图节点的特征维数。
并联语义嵌入模块由并联语义嵌入网络组成;并联语义嵌入网络包括图卷积网络和图注意力网络;
图卷积网络根据对称邻接矩阵M=RN×N及节点特征矩阵E∈RN×P,计算每个节点的隐藏表示如下式:
Hc (l)=σ(D-1MHc (l-1)Θ(l-1))
其中,σ表示非线性激活函数ReLU,Hc (l)∈RN×U表示第l层的隐藏表示,Hc (0)=E,Θ∈RU×V是可训练的权重矩阵,其中U是上层网络的输出维度,V是本层网络的输出维度;D∈RN ×N为对角节点度矩阵,对M中的行进行归一化,以保持特征向量的尺度,图卷积网络输出层的输出为Hc (l),获得可见类和不可见类的特征嵌入表示:Hc=Hc (l);
图注意力网络根据对称邻接矩阵M=RN×N及节点特征矩阵E∈RN×P,首先计算注意力互相关系数αij如下式:
其中,Ni为节点i的所有相邻节点,φ表示非线性激活函数LeakyReLU,c∈R2V为模型权重的转置,W∈RZ×P表示可训练的权重矩阵,其中Z是输出特征维数,P表示组合图节点的特征维数;使用多头注意力机制进行扩展,每个节点的最终输出特征如下:
其中,g表示注意力机制重数,G为注意力机制重数的总数,αg ij为第g重注意力机制产生的注意力互相关系数,Wg为第g重注意力机制的权值矩阵;节点嵌入表示Ha (0)=E={h1,h2,...,hN},h1∈RP为网络输入,其中N为节点数量;图注意力网络的输出为Ha′={h′1,h′2,...,h′N},h′1∈RZ,获得可见类和不可见类的特征嵌入表示:Ha=Ha′。
分类器学习模块通过特征提取器得到图像特征F,联合可见类和不可见类的特征嵌入表示,得到联合嵌入表示G=(1-α)Hc+αHa,α为联合权重;根据联合嵌入表示G和图像特征F,计算兼容性函数P如下式:
P=F·G
其中,(·)是点积,根据兼容性函数P计算图像相对各类别标签的兼容性分数。兼容性函数P将预设的高分分配给正确匹配的图像与类别标签,反之则分配预设的低分;兼容性函数P中包含了每个类别标签与图像的兼容性分数,因此兼容性函数也是图像的分类概率。
步骤S3、基于预设数据集构建训练集,训练集中的各训练样本包含图像、图像所属的类别标签以及对应的独热编码;
步骤S4、利用上述训练集对组成式零样本图像分类模型进行训练,学习图像特征与联合嵌入表示间的兼容函数,直至达到预设收敛条件,获得训练好的组成式零样本图像分类模型;
对组成式零样本图像分类模型进行训练的步骤包括:
步骤S401、通过组成式零样本图像分类模型得到可见类和不可见类的特征嵌入表示,进一步得到联合嵌入表示,同时通过特征提取器得到图像特征;
步骤S402、通过联合嵌入表示与图像特征得到兼容性分数;
步骤S403、分别计算兼容性分数与各类别标签间的交叉熵损失,根据交叉熵损失计算组成式零样本图像分类模型的整体损失,并根据整体损失值对组成式零样本图像分类模型的参数进行优化;
计算组成式零样本图像分类模型的整体损失方法如下:
基于图像的预测分类概率、对应类别标签的独热编码,计算分类交叉熵损失Lclassifier,计算公式如下:
式中,n是图像数量,k是分类概率维数,yi是独热编码后的第i维的值,pi分类概率的第i维的值。
步骤S404、利用训练集中的图像迭代更新组成式零样本图像分类模型的参数,直至参数收敛,得到训练好的组成式零样本图像分类模型。
步骤i、将待分类图像输入训练好的组成式零样本图像分类模型,获得兼容函数;
步骤j、根据兼容函数计算待分类图像相对各类别标签的兼容性分数,将兼容性分数最高的类别标签作为待分类图像的所属类别,完成组成式零样本图像分类任务。
计算兼容性函数中数值最大的维数,并查看相应维数数值为1的类别标签对应的独热编码,该独热编码对应的类别标签即为图像所属的类别。
以下为本发明的一个实施例:
本实施例中,分别采用两个组成式零样本图像分类通用数据集:MIT-States和C-GQA。其中,MIT-States包含了53753张日常生活中图像,比如young cat和rusty bike,总共有115个属性和245个对象。MIT-States有1962个可用组合,其中1262对属性对象在训练阶段可见,剩下700对不可见。C-GQA数据集,它拥有超过9500个标签,包含457个属性和893个对象,使其成为CZSL最广泛的数据集。数据集的具体信息如表1:
表1
组成式零样本图像分类模型以图像为输入,输出图像的兼容性函数,由组合图构建模块、并联语义嵌入模块和分类器学习模块构成。本实施例中,组成式零样本图像分类模型使用pytorch作为深度学习框架,使用Adam optmizer,特征提取器的学习率为5e-6,GCN和GAT的学习率为5e-5,batch size设置为128,使用NVIDIA RTX 3090GPU 24GB进行实验,迭代轮次设置为400个epoch。
如图2所示,使用训练样本集训练组成式零样本图像分类模型的过程包括以下步骤:组成式零样本图像分类模型包括组合图构建模块、并联语义嵌入模块和嵌入表示联合模块;组合图构建模块根据预设数据集中属性、对象及其组合间多元依赖关系构建组合图,对并图中节点进行语义特征嵌入;所述并联语义嵌入模块根据组合图,迁移可见类和不可见类间的特征,获得两种组合嵌入表示;分类器学习模块联合上述两种嵌入表示,并利用在ImageNet数据集上预训练得到的卷积神经网络作为特征提取器对输入的图像进行视觉特征提取,获得图像的视觉特征,通过图像特征与联合嵌入表示得到兼容函数,即分类概率。将分类概率与标签独热编码求交叉熵损失得到分类损失。
在本实施例中,在GZSL设置下进行实验,测试阶段同时对可见类和不可见类样本进行分类,并在各数据集中与近期主流的三种分类方法进行了精度对比,三种分类方法分别为TMN,SymNet,CGE;对比结果详见表2,在不同指标中,最高精度以加粗表示,其中1)Seen,可见类精度;2)Unseen,不可见类精度;3)HM,可见类和不可见类的调和精度;4)AUC,精度曲线下包围面积,以量化在不同补偿偏差下可见类和不可见类精度的总体表现;5)Atr.、Obj.,无偏差补偿下属性和对象精度。由于最优的不可见类精度是在较大补偿偏差下计算的,此时对可见类的预测精度为0,只预测不可见类,也被称为零样本性能。当补偿偏差为负;将只预测可见类,可计算最优可见类性能。而最优HM则是不同补偿偏差下可见类和不可见类的最高调和精度。从表2中可以看出,本发明方法在三个组成式零样本学习常用数据集上的均为最优,证明了本发明方法采用并联网络的有效性。
表2
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (9)
1.一种基于并联语义嵌入的组成式零样本图像分类方法,其特征在于,通过步骤S1至步骤S4,构建并训练组成式零样本图像分类模型,并按步骤i至步骤j,应用训练好的组成式零样本图像分类模型,针对待分类图像进行分类:
步骤S1、构建预设数据集,预设数据集包括图像,基于预设数据集获得所有类别标签,预设数据集中的各图像分别与其所属的类别标签相对应,同时将各类别标签转化为独热编码;
步骤S2、基于预设数据集的属性、对象及其组合间多元依赖关系构建组成式零样本图像分类模型;组成式零样本图像分类模型以图像为输入,输出用于表示图像分类概率的兼容性分数;所述组成式零样本图像分类模型包括组合图构建模块、并联语义嵌入模块和分类器学习模块;所述组合图构建模块根据预设数据集中属性、对象及其组合间多元依赖关系构建组合图;所述并联语义嵌入模块利用并联语义嵌入网络,分别获得预设数据集中可见类和不可见类的特征嵌入表示;所述分类器学习模块联合上述两种嵌入表示,获得联合嵌入表示,同时采用特征提取器提取图像特征,结合联合嵌入表示及图像特征得到兼容函数,计算并输出兼容性分数;
步骤S3、基于预设数据集构建训练集,训练集中的各训练样本包含图像、图像所属的类别标签以及对应的独热编码;
步骤S4、利用上述训练集对组成式零样本图像分类模型进行训练,学习图像特征与联合嵌入表示间的兼容函数,直至达到预设收敛条件,获得训练好的组成式零样本图像分类模型;
步骤i、将待分类图像输入训练好的组成式零样本图像分类模型,获得兼容函数;
步骤j、根据兼容函数计算待分类图像相对各类别标签的兼容性分数,将兼容性分数最高的类别标签作为待分类图像的所属类别,完成组成式零样本图像分类任务。
2.根据权利要求1所述的一种基于并联语义嵌入的组成式零样本图像分类方法,其特征在于,步骤S2中,组合图构建模块构建过程包括:
步骤S201、根据预设数据集的属性、对象及其组合间多元依赖关系构建组合图,以及对称邻接矩阵;
步骤S202、对步骤S201得到的组合图进行节点特征嵌入,获得节点特征矩阵。
3.根据权利要求2所述的一种基于并联语义嵌入的组成式零样本图像分类方法,其特征在于,步骤S201中组合图由N个节点构成,N=|A|+|O|+|Y|,A、O、Y分别为属性集、对象集与概念集,属性集、对象集与概念集分别由属性a、对象o、属性y构成;其中,概念y=(a,o),用于描述属性a∈A、对象o∈O及其组合间的依赖关系;通过y=(a,o)对每一个(a,o)、(a,y)和(o,y)连接来构建组合图的边,此外,每个节点也与自身相连,得到对称邻接矩阵M=RN×N。
4.根据权利要求2所述的一种基于并联语义嵌入对比的组成式零样本图像分类方法,其特征在于,所述步骤S202中选择使用在大型文本语料Wikipedia上预先训练过的单词进行节点特征嵌入,获得节点特征矩阵E∈RN×P,其中N为节点总数,P表示组合图节点的特征维数。
5.根据权利要求2所述的一种基于并联语义嵌入对比的组成式零样本图像分类方法,其特征在于,步骤S2中,并联语义嵌入模块由并联语义嵌入网络组成;并联语义嵌入网络包括图卷积网络和图注意力网络;
图卷积网络根据对称邻接矩阵M=RN×N及节点特征矩阵E∈RN×P,计算每个节点的隐藏表示如下式:
Hc (l)=σ(D-1MHc (l-1)Θ(l-1))
其中,σ表示非线性激活函数ReLU,Hc (l)∈RN×U表示第l层的隐藏表示,Hc (0)=E,Θ∈RU×V是可训练的权重矩阵,其中U是上层网络的输出维度,V是本层网络的输出维度;D∈RN×N为对角节点度矩阵,对M中的行进行归一化,以保持特征向量的尺度,图卷积网络输出层的输出为Hc (l),获得可见类和不可见类的特征嵌入表示:Hc=Hc (l);
图注意力网络根据对称邻接矩阵M=RN×N及节点特征矩阵E∈RN×P,首先计算注意力互相关系数αij如下式:
其中,Ni为节点i的所有相邻节点,φ表示非线性激活函数LeakyReLU,c∈R2V为模型权重的转置,W∈RZ×P表示可训练的权重矩阵,其中Z是输出特征维数,P表示组合图节点的特征维数;使用多头注意力机制进行扩展,每个节点的最终输出特征如下:
其中,g表示注意力机制重数,G为注意力机制重数的总数,αg ij为第g重注意力机制产生的注意力互相关系数,Wg为第g重注意力机制的权值矩阵;节点嵌入表示Ha (0)=E={h1,h2,...,hN},h1∈RP为网络输入,其中N为节点数量;图注意力网络的输出为Ha′={h′1,h′2,...,h′N},h′1∈RZ,获得可见类和不可见类的特征嵌入表示:Ha=Ha′。
6.根据权利要求2所述的一种基于并联语义嵌入对比的组成式零样本图像分类方法,其特征在于,步骤S2中,分类器学习模块通过特征提取器得到图像特征F,联合可见类和不可见类的特征嵌入表示,得到联合嵌入表示G=(1-α)Hc+αHa,α为联合权重;根据联合嵌入表示G和图像特征F,计算兼容性函数P如下式:
P=F·G
其中,(·)是点积,根据兼容性函数P计算图像相对各类别标签的兼容性分数。
7.根据权利要求1所述的一种基于并联语义嵌入对比的组成式零样本图像分类方法,其特征在于,步骤S4中,对组成式零样本图像分类模型进行训练的步骤包括:
步骤S401、通过组成式零样本图像分类模型得到可见类和不可见类的特征嵌入表示,进一步得到联合嵌入表示,同时通过特征提取器得到图像特征;
步骤S402、通过联合嵌入表示与图像特征得到兼容性分数;
步骤S403、分别计算兼容性分数与各类别标签间的交叉熵损失,根据交叉熵损失计算组成式零样本图像分类模型的整体损失,并根据整体损失值对组成式零样本图像分类模型的参数进行优化;
步骤S404、利用训练集中的图像迭代更新组成式零样本图像分类模型的参数,直至参数收敛,得到训练好的组成式零样本图像分类模型。
8.根据权利要求7所述的一种基于并联语义嵌入对比的组成式零样本图像分类方法,其特征在于,步骤S403中,计算组成式零样本图像分类模型的整体损失方法如下:
基于图像的预测分类概率、对应类别标签的独热编码,计算分类交叉熵损失Lclassifier,计算公式如下:
式中,n是图像数量,k是分类概率维数,yi是独热编码后的第i维的值,pi分类概率的第i维的值。
9.根据权利要求7所述的一种基于并联语义嵌入对比的组成式零样本图像分类方法,其特征在于,步骤j中,计算兼容性函数中数值最大的维数,并查看相应维数数值为1的类别标签对应的独热编码,该独热编码对应的类别标签即为图像所属的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310721175.0A CN116883723A (zh) | 2023-06-19 | 2023-06-19 | 一种基于并联语义嵌入的组成式零样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310721175.0A CN116883723A (zh) | 2023-06-19 | 2023-06-19 | 一种基于并联语义嵌入的组成式零样本图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116883723A true CN116883723A (zh) | 2023-10-13 |
Family
ID=88265211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310721175.0A Pending CN116883723A (zh) | 2023-06-19 | 2023-06-19 | 一种基于并联语义嵌入的组成式零样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883723A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271831A (zh) * | 2023-11-17 | 2023-12-22 | 深圳市致尚信息技术有限公司 | 一种基于多属性学习的体育视频智能分类方法及系统 |
CN117710199A (zh) * | 2023-12-26 | 2024-03-15 | 中国矿业大学 | 三维成像方法及其相关设备 |
-
2023
- 2023-06-19 CN CN202310721175.0A patent/CN116883723A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271831A (zh) * | 2023-11-17 | 2023-12-22 | 深圳市致尚信息技术有限公司 | 一种基于多属性学习的体育视频智能分类方法及系统 |
CN117271831B (zh) * | 2023-11-17 | 2024-03-29 | 深圳市致尚信息技术有限公司 | 一种基于多属性学习的体育视频智能分类方法及系统 |
CN117710199A (zh) * | 2023-12-26 | 2024-03-15 | 中国矿业大学 | 三维成像方法及其相关设备 |
CN117710199B (zh) * | 2023-12-26 | 2024-05-28 | 中国矿业大学 | 三维成像方法及其相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165306B (zh) | 基于多任务哈希学习的图像检索方法 | |
Chen et al. | Shallowing deep networks: Layer-wise pruning based on feature representations | |
CN108334574B (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
Ji et al. | Cross-modality microblog sentiment prediction via bi-layer multimodal hypergraph learning | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN116883723A (zh) | 一种基于并联语义嵌入的组成式零样本图像分类方法 | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN112861976B (zh) | 一种基于孪生图卷积哈希网络的敏感图像识别方法 | |
CN111274424B (zh) | 一种零样本图像检索的语义增强哈希方法 | |
CN110188827A (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
Wang et al. | Graph neural networks: Self-supervised learning | |
CN109960732B (zh) | 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN111026887B (zh) | 一种跨媒体检索的方法及系统 | |
CN114780767B (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN113094534B (zh) | 一种基于深度学习的多模态图文推荐方法及设备 | |
CN114201605B (zh) | 一种基于联合属性建模的图像情感分析方法 | |
US20230186600A1 (en) | Method of clustering using encoder-decoder model based on attention mechanism and storage medium for image recognition | |
CN112035689A (zh) | 一种基于视觉转语义网络的零样本图像哈希检索方法 | |
Xu et al. | Idhashgan: deep hashing with generative adversarial nets for incomplete data retrieval | |
Sun et al. | Network structure and transfer behaviors embedding via deep prediction model | |
CN114357307A (zh) | 一种基于多维度特征的新闻推荐方法 | |
Kaleem et al. | A Comprehensive Review of Knowledge Distillation in Computer Vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |