CN115471712A - 一种基于视觉语义约束的生成零样本学习方法 - Google Patents
一种基于视觉语义约束的生成零样本学习方法 Download PDFInfo
- Publication number
- CN115471712A CN115471712A CN202211273301.2A CN202211273301A CN115471712A CN 115471712 A CN115471712 A CN 115471712A CN 202211273301 A CN202211273301 A CN 202211273301A CN 115471712 A CN115471712 A CN 115471712A
- Authority
- CN
- China
- Prior art keywords
- visual
- features
- class
- semantic
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
本发明涉及计算机视觉中的图像分类领域,其公开了一种基于视觉语义约束的生成零样本学习方法,其首先提取已知类的图像视觉特征和属性语义特征以及未知类属性的语义特征,建立生成器基于已知类语义特征生成的生成特征同已知类和未知类之间的视觉语义约束,构建基于视觉语义约束的生成对抗网络,训练获得生成器;然后,利用训练好的生成器,获得未知类生成特征;最后,将未知类生成特征融入已知类特征集中,对零样本分类器进行训练,其通过提高未知类生成特征的质量,提升模型对未知样本的识别准确率。适用于濒危动物识别、安检预测、人脸验证和故障诊断等领域的零样本学习。
Description
技术领域
本发明涉及计算机视觉中的图像分类领域,具体涉及一种基于视觉语义约束的生成零样本学习方法。
背景技术
零样本学习(Zero-shot Learning)即是利用已知类别的视觉特征和辅助信息(类别描述)来训练一个分类模型,在测试过程中能够对未参与训练的未知类样本进行正确预测。零样本学习在濒危动物识别、安检预测、人脸验证和故障诊断领域发挥着重要作用。
目前,零样本学习主要分为属性预测、特征映射和特征生成方法。其中,基于属性预测方法主要是计算图像的属性概率来推算最大概率的未知类的标签。对每个类别标注的属性作为类别的辅助信息。IAP首先学习一个属性分类器来计算输入图像到每个属性的概率,然后计算每个属性到类别标签的概率并将概率最大的标签作为图像的预测标签。
基于特征映射方法主要是将视觉特征和语义特征映射到同一个空间,然后在该空间判断语义特征和视觉特征之间的相似度。DeVISE学习图像特征到语义空间的映射函数,使用SVM双排序损失进行相似性度量学习。ConSE首先对输入图像进行分类,将概率前k的已知类别语义特征同图像映射特征进行叠加作为最终映射向量,然后再语义空间进行特征度量。
相比上述方法,基于特征生成方法能够生成未知类的视觉特征,降低样本不平衡导致模型对已知类样本的偏见问题。基于特征生成的方法主要是利用已知类训练生成模型(GAN、VAE等)然后生成未知类的视觉特征来学习零样本分类器,从而对未知类进行预测。f-CLSWGAN采用未知类的语义特征来生成未知类的视觉特征,并通过生成的视觉特征学习零样本分类器对未知类进行预测。CVAE构建两个自编码机分别从视觉和语义两个模态进行特征编码和解码,并结合视觉和特征两类特征的共同信息,提高生成特征的表征能力。
现有的零样本学习方法能够取得不错的预测效果,但是使用已知类数据训练模型来测试未知类易出现过拟合,难以生成高质量未知类特征,导致零样本分类器的预测性能不佳。
发明内容
本发明所要解决的技术问题是:提出一种基于视觉语义约束的生成零样本学习方法,提高未知类生成特征的质量,从而提升模型对未知样本的识别准确率。
本发明解决上述技术问题采用的技术方案是:
一种基于视觉语义约束的生成零样本学习方法,包括以下步骤:
A、训练零样本分类器模型;
A1、数据准备
构建训练数据集,所述训练数据集的样本包括已知类样本和未知类样本,所述已知类样本包括图像及其类别的属性和标签,所述未知类样本包括类别的属性和标签;
A2、构建生成对抗网络,基于已知类样本对生成对抗网络进行训练,获得完成训练的生成器;且,构建生成器所生成的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束,对生成器的训练过程进行约束;
A3、基于未知类样本的语义特征输入到完成训练的生成器G中,生成未知类的视觉特征然后,将生成的未知类的视觉特征与提取的已知类的视觉特征xi进行合并,获得训练数据集的完整的视觉特征集V;或者,基于已知类样本的语义特征yi和未知类样本的语义特征输入到完成训练的生成器G中,生成视觉特征vn,获得训练数据集的完整的视觉特征集V;
A4、利用训练数据集样本的视觉特征及其标签,对分类器进行训练,获得完成训练的分类器;
B、基于完成训练的分类器,执行检测任务:
提取待检测图像的视觉特征,输入至完成训练的分类器进行图像分类,输出该图像的类别标签。
进一步的,步骤A2中,对生成对抗网络的训练,包括:
A23、重复步骤A21-A22,直至生成对抗网络收敛或达到预设的训练轮次,得到完成训练的生成器。
具体的,步骤A21中,鉴别器D的损失函数为:
其中,表示最大化鉴别器D的训练损失,E表示数学期望,λ为权重系数,xi为根据第i个已知类图像提取的视觉特征xi,yi为根据第i个已知类图像的类别属性提取的语义特征,为由生成器根据语义特征yi所获得的生成特征,为鉴别器D期望的二范数,为视觉特征xi和生成特征之间的插值。
具体的,步骤A22中,生成器G的损失函数为:
其中,表示最小化生成器G的训练损失,E表示数学期望,yi为根据第i个已知类图像的类别属性提取的语义特征,为由生成器根据语义特征yi所获得的生成特征,Lvs为生成器的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束,γ为超参数。
进一步的,步骤A2中,生成器所生成的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束为:
Lvs=Ls+Lu
上述Ls为生成特征与已知类样本之间的视觉语义约束,计算公式如下:
其中,δ为超参数,为由生成器根据第i个已知类类别属性的语义特征yi所获得的生成特征,为第i个已知类类别的视觉特征中心,为从以外的其他已知类类别的视觉特征中心中随机选取的一个视觉特征中心,||·||2表示二范数;
上述Lu为生成特征与未知类样本之间的视觉语义约束,并按如下公式获得
其中,δ为超参数,为由生成器根据第i个已知类类别属性的语义特征yi所获得的生成特征,为第i个已知类类别的视觉特征中心,为由生成器根据随机选取的一个未知类类别属性的语义特征所获得的生成特征,||·||2表示二范数。
其中,p为已知类中第i个类别的样本数,xj为该类别中第j个图像的视觉特征。
进一步的,步骤A3中,遍历各个未知类样本的语义特征分别输入到完成训练的生成器G中,生成未知类的视觉特征然后,将生成的未知类的视觉特征与提取的已知类的视觉特征xi进行合并,获得训练数据集的完整的视觉特征集V。
具体的,步骤A4,分类器为Softmax分类器,对分类器进行训练,其损失函数为:
其中,Pn表示视觉特征集的第n个视觉特征对应的真实类别标签,Q(cl|vn)表示分类器根据视觉特征集的第n个视觉特征vn预测其为类别标签为cl的概率,m为批次训练的样本数。
本发明的有益效果是:
本发明以生成对抗网络(GAN)为基干,设计了视觉语义约束损失,通过计算生成的视觉特征,同已知类真实的视觉特征和未知类的生成特征的类间差异性,优化特征的类间分布,提高了生成特征的类间区分性,从而显著提升对未知类样本的识别准确率,进而提升了零样本分类器的预测效果。
附图说明
图1为本发明基于视觉语义约束的生成零样本学习方法的模型框架图。
具体实施方式
本发明旨在提出一种基于视觉语义约束的生成零样本学习方法,提高未知类生成特征的质量,从而提升模型对未知样本的识别准确率。
其核心思想在于:首先,训练一个生成器,生成用于分类器识别的未知类样本的视觉特征,然后,将未知类样本的生成特征和已知类样本的视觉特征合并,作为分类器的训练样本集;且,在生成器的训练过程中,分别构建生成特征同已知类视觉特征和未知类生成特征的视觉语义约束来训练生成模型,增强未知类生成特征的质量,因此,基于本发明获得的零样本分类器,能提升其对未知类样本的识别准确率。
实施例:
如图1所示,本实施例中的基于视觉语义约束的生成零样本学习方法,主要包括数据预处理、基于视觉语义约束训练生成器、生成未知类的视觉特征并训练零样本分类器、基于零样本分类器模型执行检测任务。下面对各个步骤的具体实施过程进行详细阐述:
步骤1、数据预处理:
本步骤主要涉及到训练集的构建和特征提取。首先,构建训练数据集,所述训练数据集的样本包括已知类样本和未知类样本,所述已知类样本包括图像及其类别的属性和标签,所述未知类样本包括类别的属性和标签;然后,基于已知类样本,根据图像提取视觉特征xi,根据类别属性提取语义特征yi;基于未知类样本,根据类别属性提取语义特征
本发明的零样本分类器在学习中,已知类直接采用其视觉特征用于模型训练,未知类则采用根据其类别属性的语义特征生成视觉特征用于模型训练,因此,在本发明中,未知类的定义为:图像及其视觉特征没有参与分类器训练所对应的类别称之为未知类。
进一步的讲,在本实施例中,具体包括:
步骤1.1、采用CUB公开数据集作为训练数据集,其拥有11788张鸟类图像,总共200类,其中包含已知类150类,未知类50类。
其中,图像视觉特征的提取,采用在ImageNet数据集上预训练的ResNet-101网络,以池化层pooling输出的2048维特征作为图像的视觉特征;CUB公开数据集,每个类别共有312个属性,类别属性的语义特征,基于连续属性进行标注编码获得。
步骤2、基于视觉语义约束训练生成器
本步骤中,通过构建生成对抗网络,基于已知类样本对生成对抗网络进行训练,获得完成训练的生成器;且,构建生成器所生成的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束,对生成器的训练过程进行约束。
进一步的讲,生成对抗网络的生成器G和鉴别器D采用交替对抗方式进行训练,并通过建立生成器的生成特征同已知类视觉特征和未知类视觉特征之间的视觉语义约束,构建基于视觉语义约束的生成对抗网络,来增强生成特征和非同类视觉特征之间的差异性,提升生成特征间的区分性,具体包括:
步骤2.1、构建视觉语义约束
具体的,生成器所生成的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束为:
Lvs=Ls+Lu
上述Ls为生成特征与已知类样本之间的视觉语义约束,计算公式如下:
其中,δ为超参数,为由生成器根据第i个已知类类别属性的语义特征yi所获得的生成特征,为第i个已知类类别的视觉特征中心,为从以外的其他已知类类别的视觉特征中心中随机选取的一个视觉特征中心,||·||2表示二范数;
上述Lu为生成特征与未知类样本之间的视觉语义约束,并按如下公式获得
其中,δ为超参数,为由生成器根据第i个已知类类别属性的语义特征yi所获得的生成特征,为第i个已知类类别的视觉特征中心,为由生成器根据随机选取的一个未知类类别属性的语义特征所获得的生成特征,||·||2表示二范数。
其中,p为已知类中第i个类别的样本数,xj为该类别中第j个图像的视觉特征。
步骤2.2、基于视觉语义约束训练生成器,具体包括:
鉴别器D的损失函数为:
其中,表示最大化鉴别器D的训练损失,E表示数学期望,λ为权重系数,xi为根据第i个已知类图像提取的视觉特征xi,yi为根据第i个已知类图像的类别属性提取的语义特征,为由生成器根据语义特征yi所获得的生成特征,为鉴别器D期望的二范数,为视觉特征xi和生成特征之间的插值。
生成器G的损失函数为:
其中,表示最小化生成器G的训练损失,E表示数学期望,yi为根据第i个已知类图像的类别属性提取的语义特征,为由生成器根据语义特征yi所获得的生成特征,Lvs为生成器的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束,γ为超参数。
2.23、重复步骤2.21-2.22,直至生成对抗网络收敛或达到预设的训练轮次,得到完成训练的生成器。
步骤3、生成未知类的视觉特征并训练零样本分类器
本步骤中,首先,基于未知类样本的语义特征输入到完成训练的生成器G中,生成未知类的视觉特征然后,将生成的未知类的视觉特征与提取的已知类的视觉特征xi进行合并,获得训练数据集的完整的视觉特征集V;或者,基于已知类样本的语义特征yi和未知类样本的语义特征输入到完成训练的生成器G中,生成视觉特征vn,获得训练数据集的完整的视觉特征集V。
在本实施例中,遍历各个未知类样本的语义特征分别输入到完成训练的生成器G中,生成未知类的视觉特征然后,将生成的未知类的视觉特征与提取的已知类的视觉特征xi进行合并,获得训练数据集的完整的视觉特征集V。并根据分类器的训练需求,设定由生成器生成的未知类的视觉特征的数量。
然后,利用训练数据集样本的视觉特征及其标签,对分类器进行训练,获得完成训练的分类器。
针对类别标签,CUB公开数据集中,已知类具备类别标签;而本发明中的未知类,则可以采用CUB公开数据集中已知类的样本屏蔽其图像,从而构成本发明训练时的未知类;其次,CUB公开数据集中,未知类的类别属性,根据已知类的属性组合生成,因此,也可以在生成其类别属性的同时生成其类别标签;当然,也可以采用人工标引的方式获得未知类的类别标签。由于CUB公开数据集的未知类仅50类,因此,在本实施例中,采用人工标引的方式获得未知类的类别标签。
在本实施例中,分类器为Softmax分类器,对分类器进行训练,其损失函数为:
其中,Pn表示视觉特征集的第n个视觉特征对应的真实类别标签,Q(cl|vn)表示分类器根据视觉特征集的第n个视觉特征vn预测其为类别标签为cl的概率,m为批次训练的样本数。
步骤4、基于零样本分类器模型执行检测任务
本步骤中,通过提取待检测图像的视觉特征,输入至完成训练的分类器进行图像分类,输出该图像的类别标签。
尽管这里参照本发明的实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (8)
1.一种基于视觉语义约束的生成零样本学习方法,其特征在于,包括以下步骤:
A、训练零样本分类器模型;
A1、数据准备
构建训练数据集,所述训练数据集的样本包括已知类样本和未知类样本,所述已知类样本包括图像及其类别的属性和标签,所述未知类样本包括类别的属性和标签;
A2、构建生成对抗网络,基于已知类样本对生成对抗网络进行训练,获得完成训练的生成器;且,构建生成器所生成的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束,对生成器的训练过程进行约束;
A3、基于未知类样本的语义特征输入到完成训练的生成器G中,生成未知类的视觉特征然后,将生成的未知类的视觉特征与提取的已知类的视觉特征xi进行合并,获得训练数据集的完整的视觉特征集V;或者,基于已知类样本的语义特征yi和未知类样本的语义特征输入到完成训练的生成器G中,生成视觉特征vn,获得训练数据集的完整的视觉特征集V;
A4、利用训练数据集样本的视觉特征及其标签,对分类器进行训练,获得完成训练的分类器;
B、基于完成训练的分类器,执行检测任务:
提取待检测图像的视觉特征,输入至完成训练的分类器进行图像分类,输出该图像的类别标签。
5.如权利要求1~4任一项所述的一种基于视觉语义约束的生成零样本学习方法,其特征在于,步骤A2中,生成器所生成的生成特征同已知类样本之间以及未知类样本之间的视觉语义约束为:
Lvs=Ls+Lu
上述Ls为生成特征与已知类样本之间的视觉语义约束,计算公式如下:
其中,δ为超参数,为由生成器根据第i个已知类类别属性的语义特征yi所获得的生成特征,为第i个已知类类别的视觉特征中心,为从以外的其他已知类类别的视觉特征中心中随机选取的一个视觉特征中心,‖·‖2表示二范数;
上述Lu为生成特征与未知类样本之间的视觉语义约束,并按如下公式获得
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211273301.2A CN115471712A (zh) | 2022-10-18 | 2022-10-18 | 一种基于视觉语义约束的生成零样本学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211273301.2A CN115471712A (zh) | 2022-10-18 | 2022-10-18 | 一种基于视觉语义约束的生成零样本学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115471712A true CN115471712A (zh) | 2022-12-13 |
Family
ID=84337596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211273301.2A Pending CN115471712A (zh) | 2022-10-18 | 2022-10-18 | 一种基于视觉语义约束的生成零样本学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115471712A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129333A (zh) * | 2023-04-14 | 2023-05-16 | 北京科技大学 | 一种基于语义探索的开集动作识别方法 |
CN117034020A (zh) * | 2023-10-09 | 2023-11-10 | 贵州大学 | 一种基于cvae-gan模型的无人机传感器零样本故障检测方法 |
-
2022
- 2022-10-18 CN CN202211273301.2A patent/CN115471712A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129333A (zh) * | 2023-04-14 | 2023-05-16 | 北京科技大学 | 一种基于语义探索的开集动作识别方法 |
CN117034020A (zh) * | 2023-10-09 | 2023-11-10 | 贵州大学 | 一种基于cvae-gan模型的无人机传感器零样本故障检测方法 |
CN117034020B (zh) * | 2023-10-09 | 2024-01-09 | 贵州大学 | 一种基于cvae-gan模型的无人机传感器零样本故障检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428071B (zh) | 一种基于多模态特征合成的零样本跨模态检索方法 | |
CN110826638B (zh) | 基于重复注意力网络的零样本图像分类模型及其方法 | |
CN115471712A (zh) | 一种基于视觉语义约束的生成零样本学习方法 | |
CN109993072B (zh) | 基于超分辨图像生成的低分辨率行人重识别系统和方法 | |
CN110135459B (zh) | 一种基于双三元组深度度量学习网络的零样本分类方法 | |
CN108960142B (zh) | 基于全局特征损失函数的行人再识别方法 | |
CN110969073B (zh) | 一种基于特征融合与bp神经网络的人脸表情识别方法 | |
CN104933428A (zh) | 一种基于张量描述的人脸识别方法及装置 | |
CN113096169B (zh) | 一种非刚性多模医学图像的配准模型建立方法及其应用 | |
CN112818850B (zh) | 基于渐进式神经网络和注意力机制的跨姿态人脸识别方法和系统 | |
CN111476307A (zh) | 一种基于深度领域适应的锂电池表面缺陷检测方法 | |
CN104616005A (zh) | 一种领域自适应的人脸表情分析方法 | |
CN114283285A (zh) | 交叉一致性自训练遥感图像语义分割网络训练方法及装置 | |
CN111144462B (zh) | 一种雷达信号的未知个体识别方法及装置 | |
CN115496720A (zh) | 基于ViT机制模型的胃肠癌病理图像分割方法及相关设备 | |
CN115131560A (zh) | 基于全局特征学习和局部特征判别聚合的点云分割方法 | |
CN114565594A (zh) | 基于软掩膜对比损失的图像异常检测方法 | |
CN113706547A (zh) | 一种基于类别同异性引导的无监督域适应语义分割方法 | |
CN110197213B (zh) | 基于神经网络的图像匹配方法、装置和设备 | |
CN114037001A (zh) | 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法 | |
CN117516937A (zh) | 基于多模态特征融合增强的滚动轴承未知故障检测方法 | |
CN115511012B (zh) | 一种最大熵约束的类别软标签识别训练方法 | |
CN114387524B (zh) | 基于多层级二阶表征的小样本学习的图像识别方法和系统 | |
CN113792541B (zh) | 一种引入互信息正则化器的方面级情感分析方法 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |