CN116433977A - 未知类别图像分类方法、装置、计算机设备及存储介质 - Google Patents
未知类别图像分类方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN116433977A CN116433977A CN202310414455.7A CN202310414455A CN116433977A CN 116433977 A CN116433977 A CN 116433977A CN 202310414455 A CN202310414455 A CN 202310414455A CN 116433977 A CN116433977 A CN 116433977A
- Authority
- CN
- China
- Prior art keywords
- image
- class
- category
- extraction model
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 90
- 238000012549 training Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 40
- 230000015654 memory Effects 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000002372 labelling Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例涉及一种未知类别图像分类方法、装置、计算机设备及存储介质,包括:基于已知类别的第一图像训练初始类别标签嵌入提取模型;基于未知类别的第二图像对初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型;获取待分类的第三图像,基于第二类别标签嵌入提取模型对第三图像进行分类,得到第三图像对应的图像类别。由此,可以实现零样本学习,提升未知类别的图像分类准确率,降低人工成本。
Description
技术领域
本发明实施例涉及图像识别领域,尤其涉及一种未知类别图像分类方法、装置、计算机设备及存储介质。
背景技术
目前,基于监督学习的电力图像缺陷分类模型已经得到了广泛应用,然而,这类模型需要大规模有标签图像进行模型训练来学习特征提取能力,在电力设备缺陷识别场景中,为每一个缺陷类别采集足够的图像往往是不现实的,此外还需要投入大量的人力对采集的原始图像进行标注,训练好的模型在没有图像参与训练的类别上表现效果下滑,新的缺陷类别需要重新训练,不利于电力设备缺陷的及时识别,因此需要引入零样本学习实现对未知类别的准确快速识别。
零样本学习的任务是为未知类别(训练集中不包含该类别的样本)进行图像分类,这就需要中间特征在类别标签与图像之间建立联系,目前零样本学习领域常用的中间特征有属性向量、词向量等,属性向量是人类对类别图像的直观感受,效果往往比依赖于上下文信息得到的词向量好,然而属性标注过程需要大量人力投入和专家知识,限制了零样本学习在新数据集上的拓展。此外,受限于人类的认知局限,其标注的属性无法遍历视觉空间,因而图像中一些具有辨别性的特征无法被属性捕捉,导致零样本学习效果不佳。
发明内容
鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种未知类别图像分类方法、装置、计算机设备及存储介质。
第一方面,本发明实施例提供一种未知类别图像分类方法,包括:
基于已知类别的第一图像训练初始类别标签嵌入提取模型;
基于未知类别的第二图像对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型;
获取待分类的第三图像,基于所述第二类别标签嵌入提取模型对所述第三图像进行分类,得到所述第三图像对应的图像类别。
在一个可能的实施方式中,所述方法还包括:
将所述第一图像分割成多个第一图像块;
将所述多个第一图像块输入至初始模型中,得到所述第一图像对应的第一已知类别标签嵌入;
基于所述第一已知类别标签嵌入对所述第一图像进行还原,得到还原后的第一图像。
在一个可能的实施方式中,所述方法还包括:
通过第一公式计算所述第一图像和所述还原后的第一图像的重构损失,所述重构损失采用均方误差计算,所述第一公式为:
其中,Lres表示均方误差,N表示图像中像素点个数,i表示其中一个像素点,xi表示第一图像的一个像素点,xi′表示还原后的第一图像的一个像素点;
基于所述均方误差通过第二公式计算训练所述初始模型的损失函数,所述第二公式为:
Lc=αLcls+βLres+γLs
其中,α、β、γ分别表示各部分的重要程度,为超参数,Lcls表示类别标签嵌入分类损失,Lcls=CE(y′x,yx),yx为图像x的真实标签,分类标签y′x为函数fcls输出并使用交叉熵计算分类损失,Ls表示将已知类别标签嵌入/>映射到语义空间的映射函数fs的目标函数,通过第三公式计算得到,所述第三公式为:
其中,wvc表示类别c的词向量;
在所述损失函数Lc符合预设条件时,将所述初始模型作为所述初始类别标签嵌入提取模型。
在一个可能的实施方式中,所述方法还包括:
将所述未知类别的第二图像分割成多个第二图像块;
将所述多个第二图像块和多个随机初始化可学习的提示向量输入到所述初始类别标签嵌入提取模型,得到所述第二图像对应的类别标签嵌入;
计算所述第二图像对应的类别标签嵌入与所述第一已知类别标签嵌入的第一相似度;
计算所述第二图像对应的类别标签嵌入对应的类别词向量与所述第一已知类别标签嵌入对应的词向量的第二相似度;
基于所述第一相似度和所述第二相似度以及第二图像与还原的第二图像的重构损失对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型和更新后的提示向量。
在一个可能的实施方式中,所述方法还包括:
基于第四公式计算所述第一相似度和所述第二相似度之间的距离,所述第四公式为:
其中,p为第一相似度,q为第二相似度,i表示一个像素点;
将Lpt最小值作为损失值对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型。
在一个可能的实施方式中,所述方法还包括:
将所述已知类别的第一图像重新输入至所述第二类别标签嵌入提取模型,得到每个已知类别对应的第二已知类别标签嵌入;
基于所述第二已知类别标签嵌入更新所述未知类别的第二图像对应的类别标签嵌入;
基于所述第二已知类别标签嵌入和更新后的未知类别的第二图像对应的类别标签嵌入更新原始类别标签嵌入数据库。
在一个可能的实施方式中,所述方法还包括:
将所述待分类的第三图像分割成多个第三图像块;
将所述多个第三图像块以及更新后的提示向量输入至所述第二类别标签嵌入提取模型,得到所述第三图像对应的第三类别标签嵌入;
将原始类别标签嵌入数据库中与所述第三类别标签嵌入的相似度最高的类别标签嵌入对应的图像类别作为所述第三图像对应的图像类别。
第二方面,本发明实施例提供一种未知类别图像分类装置,包括:
训练模块,用于基于已知类别的第一图像训练初始类别标签嵌入提取模型;
微调模块,用于基于未知类别的第二图像对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型;
分类模块,用于获取待分类的第三图像,基于所述第二类别标签嵌入提取模型对所述第三图像进行分类,得到所述第三图像对应的图像类别。
第三方面,本发明实施例提供一种计算机设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的未知类别图像分类程序,以实现上述第一方面中所述的未知类别图像分类方法。
第四方面,本发明实施例提供一种存储介质,包括:所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面中所述的未知类别图像分类方法。
本发明实施例提供的未知类别图像分类方案,通过基于已知类别的第一图像训练初始类别标签嵌入提取模型;基于未知类别的第二图像对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型;获取待分类的第三图像,基于所述第二类别标签嵌入提取模型对所述第三图像进行分类,得到所述第三图像对应的图像类别。相比于现有的零样本学习方法的图像属性标注需要人工标注和专家知识,限制了零样本学习在新数据集上的拓展,且标注的属性无法遍历视觉空间,图像中一些具有辨别性的特征无法被属性捕捉,导致零样本学习效果不佳的问题,由本方案,利用自监督的类别标签嵌入学习模型为已知类别标签学习类别嵌入,在该模型的基础上,利用未知类别图像进行微调后对未知类别标签嵌入进行聚类,然后计算已知类别标签与未知类别标签的语义相似度、已知类别标签嵌入与未知类别标签嵌入的相似度,从而确定聚类后未知类别表征与标签的对应关系,完成零样本学习任务,提升了未知类别的图像分类准确率,降低人工成本。
附图说明
图1为本发明实施例提供的一种未知类别图像分类方法的流程示意图;
图2为本发明实施例提供的一种已知类别标签嵌入提取模型结构图;
图3为本发明实施例提供的一种未知类别标签嵌入微调方法结构图;
图4为本发明实施例提供的一种未知类别图像分类装置的结构示意图;
图5为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
图1为本发明实施例提供的一种未知类别图像分类方法的流程示意图,如图1所示,该方法具体包括:
S11、基于已知类别的第一图像训练初始类别标签嵌入提取模型。
本发明实施例中,首先利用自监督的类别标签嵌入学习模型为已知类别标签学习类别嵌入,在该模型的基础上,利用未知类别图像进行微调后对未知类别标签嵌入进行聚类,然后计算已知类别标签与未知类别标签的语义相似度、已知类别标签嵌入与未知类别标签嵌入的相似度,从而确定聚类后未知类别表征与标签的对应关系。
具体的,利用已知类别训练自监督类别标签嵌入提取模型,该模型总体架构如图2所示,对于一张输入电力场景图像x(第一图像),其分类标签为c,将图片分割成N个第一图像块(patch);输入到初始模型(例如,ViT模型)的编码器中,得到映射后的第一已知类别标签嵌入然后将第一已知类别标签嵌入/>输入到初始模型的解码器中还原第一图像,得到′
x。
进一步的,本发明实施例计算重构图像x′与x的均方误差训练本模型,使其编码后的类别标签嵌入能够体现图片信息,例如颜色、形状等,通过第一公式计算第一图像和还原后的第一图像的重构损失,重构损失采用均方误差计算,第一公式为:
其中,Lres表示均方误差,N表示图像中像素点个数,i表示其中一个像素点,xi表示第一图像的一个像素点,x′i表示还原后的第一图像的一个像素点。
进一步的,基于均方误差通过第二公式计算训练初始模型的损失函数,所述第二公式为:
Lc=αLcls+βLres+γLs
其中,α、β、γ分别表示各部分的重要程度,为超参数,Lcls表示类别标签嵌入分类损失,Lcls=CE(y′x,yx),yx为图像x的真实标签,分类标签y′x为函数fcls输出并使用交叉熵计算分类损失,Ls表示将已知类别标签嵌入/>映射到语义空间的映射函数fs的目标函数,通过第三公式计算得到,所述第三公式为:
其中,wvc表示类别c的词向量;本发明实施例可以采取预训练的bert模型获取词向量。
进一步的,在损失函数Lc符合预设条件时,将初始模型作为初始类别标签嵌入提取模型,其中,预设条件可以是表征模型训练成功的损失函数阈值;训练完成后,类别c的类别标签嵌入为其对应的所有图像样本的标签嵌入的均值。
S12、基于未知类别的第二图像对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型。
由于未知类别标签没有相应的图像训练样本,其标签嵌入无法通过上述步骤获取,而已知类别与未知类别的图像之间往往存在相似性,例如,已知类别“斑马”和未知类别“老虎”的图像中都有“条纹”这一视觉特征。因此,本发明实施例提出一种可解释的微调方法,微调上述得到的初始类别标签嵌入提取模型,架构图如图2所示。
具体的,模型输入分为两部分,输入未知类别的第二图像的N个第二图像块(patch)以及M个随机初始化可学习的提示学习方法(prompt),在初始类别标签嵌入提取模型的每一层同样添加M个可学习的prompt,其余的模型参数均被固定,不可学习。未知类别的某个图像k与M个可学习的prompt输入到初始类别标签嵌入提取模型的编码器后,得到第二图像的类别嵌入然后分别计算第二图像的类别嵌入与第一已知类别嵌入的第一相似度p,未知类别词向量与已知类别词向量的第二相似度Q,设q为Q中一列,即某个未知类别词向量与已知类别词向量的相似度,利用KL散度,基于第四公式计算所述第一相似度和所述第二相似度之间的距离,所述第四公式为:
其中,p为第一相似度,q为第二相似度,i表示一个像素点;
将Lpt最小值作为损失值对初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型以及更新后的提示向量。具体的,选取最相似的p与q,即Lpt最小的值作为损失值微调模型,使得未知类别的语义空间与视觉空间保持一致。同时,将输入到微调后的第二类别标签嵌入提取模型的解码器,得到重构图像,计算其与原图像的距离,提升标签嵌入的图像表示能力。
进一步的,将已知类别的第一图像重新输入至第二类别标签嵌入提取模型,得到每个已知类别对应的第二已知类别标签嵌入;未知类别标签嵌入为已知类别标签嵌入的加权求和,权重为未知类别词向量与已知类别词向量的相似度。
最后,基于第二已知类别标签嵌入和更新后的未知类别的第二图像对应的类别标签嵌入更新原始类别标签嵌入数据库,该原始类别标签嵌入数据库在每次对未知类别图像进行识别后都可以进行更新,丰富该数据库中的图像类别。
S13、获取待分类的第三图像,基于所述第二类别标签嵌入提取模型对所述第三图像进行分类,得到所述第三图像对应的图像类别。
将待分类的第三图像分割成多个第三图像块;多个第三图像块和微调后的prompt一起输入到第二类别标签嵌入提取模型中,得到第三图像对应的类别嵌入,然后计算与所有类别嵌入a的相似度,选择相似度最高的类别标签嵌入对应的图像类别作为第三图像对应的图像类别。
本发明实施例为零样本学习任务从图像中提取类别嵌入信息,取代目前流行的人工标注属性特征和标签词向量,在提升零样本学习分类准确率的同时减少人工消耗;将prompt微调引入零样本图像分类任务中,只更新少量参数,提升微调速度以及模型在未知类别领域的分类准确率;最小化类别词向量相似度分布与类别嵌入相似度之间的距离,对齐类别语义空间与视觉空间,提升未知类别分类准确率。
本发明实施例提供的未知类别图像分类方法,通过基于已知类别的第一图像训练初始类别标签嵌入提取模型;基于未知类别的第二图像对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型;获取待分类的第三图像,基于所述第二类别标签嵌入提取模型对所述第三图像进行分类,得到所述第三图像对应的图像类别。相比于现有的零样本学习方法的图像属性标注需要人工标注和专家知识,限制了零样本学习在新数据集上的拓展,且标注的属性无法遍历视觉空间,图像中一些具有辨别性的特征无法被属性捕捉,导致零样本学习效果不佳的问题,由本方法,利用自监督的类别标签嵌入学习模型为已知类别标签学习类别嵌入,在该模型的基础上,利用未知类别图像进行微调后对未知类别标签嵌入进行聚类,然后计算已知类别标签与未知类别标签的语义相似度、已知类别标签嵌入与未知类别标签嵌入的相似度,从而确定聚类后未知类别表征与标签的对应关系,完成零样本学习任务,提升了未知类别的图像分类准确率,降低人工成本。
图4为本发明实施例提供的一种未知类别图像分类装置的结构示意图,如图4所示,具体包括:
训练模块401,用于基于已知类别的第一图像训练初始类别标签嵌入提取模型。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
微调模块402,用于基于未知类别的第二图像对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
分类模块403,用于获取待分类的第三图像,基于所述第二类别标签嵌入提取模型对所述第三图像进行分类,得到所述第三图像对应的图像类别。详细说明参见上述方法实施例对应的相关描述,此处不再赘述。
本实施例提供的未知类别图像分类装置可以是如图4中所示的未知类别图像分类装置,可执行如图1中未知类别图像分类方法的所有步骤,进而实现图1所示未知类别图像分类方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
图5为本发明实施例提供的一种计算机设备的结构示意图,图5所示的计算机设备500包括:至少一个处理器501、存储器502、至少一个网络接口504和其他用户接口503。计算机设备500中的各个组件通过总线系统505耦合在一起。可理解,总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统505。
其中,用户接口503可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统5021和应用程序5022。
其中,操作系统5021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。
在本发明实施例中,通过调用存储器502存储的程序或指令,具体的,可以是应用程序5022中存储的程序或指令,处理器501用于执行各方法实施例所提供的方法步骤,例如包括:
基于已知类别的第一图像训练初始类别标签嵌入提取模型;基于未知类别的第二图像对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型;获取待分类的第三图像,基于所述第二类别标签嵌入提取模型对所述第三图像进行分类,得到所述第三图像对应的图像类别。
在一个可能的实施方式中,将所述第一图像分割成多个第一图像块;将所述多个第一图像块输入至初始模型中,得到所述第一图像对应的第一已知类别标签嵌入;基于所述第一已知类别标签嵌入对所述第一图像进行还原,得到还原后的第一图像。
在一个可能的实施方式中,通过第一公式计算所述第一图像和所述还原后的第一图像的重构损失,所述重构损失采用均方误差计算,所述第一公式为:
其中,Lres表示均方误差,N表示图像中像素点个数,i表示其中一个像素点,xi表示第一图像的一个像素点,x′i表示还原后的第一图像的一个像素点;基于所述均方误差通过第二公式计算训练所述初始模型的损失函数,所述第二公式为:
Lc=αLcls+βLres+γLs
其中,α、β、γ分别表示各部分的重要程度,为超参数,Lcls表示类别标签嵌入分类损失,Lcls=CE(y′x,yx),yx为图像x的真实标签,分类标签y′x为函数fcls输出并使用交叉熵计算分类损失,Ls表示将已知类别标签嵌入/>映射到语义空间的映射函数fs的目标函数,通过第三公式计算得到,所述第三公式为:
其中,wvc表示类别c的词向量;在所述损失函数Lc符合预设条件时,将所述初始模型作为所述初始类别标签嵌入提取模型。
在一个可能的实施方式中,将所述未知类别的第二图像分割成多个第二图像块;将所述多个第二图像块和多个随机初始化可学习的提示向量输入到所述初始类别标签嵌入提取模型,得到所述第二图像对应的类别标签嵌入;计算所述第二图像对应的类别标签嵌入与所述第一已知类别标签嵌入的第一相似度;计算所述第二图像对应的类别标签嵌入对应的类别词向量与所述第一已知类别标签嵌入对应的词向量的第二相似度;基于所述第一相似度和所述第二相似度以及第二图像与还原的第二图像的重构损失对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型和更新后的提示向量。
在一个可能的实施方式中,基于第四公式计算所述第一相似度和所述第二相似度之间的距离,所述第四公式为:
其中,p为第一相似度,q为第二相似度,i表示一个像素点;将Lpt最小值作为损失值对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型。
在一个可能的实施方式中,将所述已知类别的第一图像重新输入至所述第二类别标签嵌入提取模型,得到每个已知类别对应的第二已知类别标签嵌入;基于所述第二已知类别标签嵌入更新所述未知类别的第二图像对应的类别标签嵌入;基于所述第二已知类别标签嵌入和更新后的未知类别的第二图像对应的类别标签嵌入更新原始类别标签嵌入数据库。
在一个可能的实施方式中,将所述待分类的第三图像分割成多个第三图像块;将所述多个第三图像块以及更新后的提示向量输入至所述第二类别标签嵌入提取模型,得到所述第三图像对应的第三类别标签嵌入;将原始类别标签嵌入数据库中与所述第三类别标签嵌入的相似度最高的类别标签嵌入对应的图像类别作为所述第三图像对应的图像类别。
上述本发明实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的计算机设备可以是如图5中所示的计算机设备,可执行如图1中未知类别图像分类方法的所有步骤,进而实现图1所示未知类别图像分类方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在计算机设备侧执行的未知类别图像分类方法。
所述处理器用于执行存储器中存储的未知类别图像分类程序,以实现以下在计算机设备侧执行的未知类别图像分类方法的步骤:
基于已知类别的第一图像训练初始类别标签嵌入提取模型;基于未知类别的第二图像对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型;获取待分类的第三图像,基于所述第二类别标签嵌入提取模型对所述第三图像进行分类,得到所述第三图像对应的图像类别。
在一个可能的实施方式中,将所述第一图像分割成多个第一图像块;将所述多个第一图像块输入至初始模型中,得到所述第一图像对应的第一已知类别标签嵌入;基于所述第一已知类别标签嵌入对所述第一图像进行还原,得到还原后的第一图像。
在一个可能的实施方式中,通过第一公式计算所述第一图像和所述还原后的第一图像的重构损失,所述重构损失采用均方误差计算,所述第一公式为:
其中,Lres表示均方误差,N表示图像中像素点个数,i表示其中一个像素点,xi表示第一图像的一个像素点,x′i表示还原后的第一图像的一个像素点;基于所述均方误差通过第二公式计算训练所述初始模型的损失函数,所述第二公式为:
Lc=αLcls+βLres+γLs
其中,α、β、γ分别表示各部分的重要程度,为超参数,Lcls表示类别标签嵌入分类损失,Lcls=CE(y′x,yx),yx为图像x的真实标签,分类标签y′x为函数fcls输出并使用交叉熵计算分类损失,Ls表示将已知类别标签嵌入/>映射到语义空间的映射函数fs的目标函数,通过第三公式计算得到,所述第三公式为:
其中,wvc表示类别c的词向量;在所述损失函数Lc符合预设条件时,将所述初始模型作为所述初始类别标签嵌入提取模型。
在一个可能的实施方式中,将所述未知类别的第二图像分割成多个第二图像块;将所述多个第二图像块和多个随机初始化可学习的提示向量输入到所述初始类别标签嵌入提取模型,得到所述第二图像对应的类别标签嵌入;计算所述第二图像对应的类别标签嵌入与所述第一已知类别标签嵌入的第一相似度;计算所述第二图像对应的类别标签嵌入对应的类别词向量与所述第一已知类别标签嵌入对应的词向量的第二相似度;基于所述第一相似度和所述第二相似度以及第二图像与还原的第二图像的重构损失对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型和更新后的提示向量。
在一个可能的实施方式中,基于第四公式计算所述第一相似度和所述第二相似度之间的距离,所述第四公式为:
其中,p为第一相似度,q为第二相似度,i表示一个像素点;将Lpt最小值作为损失值对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型。
在一个可能的实施方式中,将所述已知类别的第一图像重新输入至所述第二类别标签嵌入提取模型,得到每个已知类别对应的第二已知类别标签嵌入;基于所述第二已知类别标签嵌入更新所述未知类别的第二图像对应的类别标签嵌入;基于所述第二已知类别标签嵌入和更新后的未知类别的第二图像对应的类别标签嵌入更新原始类别标签嵌入数据库。
在一个可能的实施方式中,将所述待分类的第三图像分割成多个第三图像块;将所述多个第三图像块以及更新后的提示向量输入至所述第二类别标签嵌入提取模型,得到所述第三图像对应的第三类别标签嵌入;将原始类别标签嵌入数据库中与所述第三类别标签嵌入的相似度最高的类别标签嵌入对应的图像类别作为所述第三图像对应的图像类别。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种未知类别图像分类方法,其特征在于,包括:
基于已知类别的第一图像训练初始类别标签嵌入提取模型;
基于未知类别的第二图像对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型;
获取待分类的第三图像,基于所述第二类别标签嵌入提取模型对所述第三图像进行分类,得到所述第三图像对应的图像类别。
2.根据权利要求1所述的方法,其特征在于,所述基于已知类别的第一图像训练初始类别标签嵌入提取模型,包括:
将所述第一图像分割成多个第一图像块;
将所述多个第一图像块输入至初始模型中,得到所述第一图像对应的第一已知类别标签嵌入;
基于所述第一已知类别标签嵌入对所述第一图像进行还原,得到还原后的第一图像。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
通过第一公式计算所述第一图像和所述还原后的第一图像的重构损失,所述重构损失采用均方误差计算,所述第一公式为:
其中,Lres表示均方误差,N表示图像中像素点个数,i表示其中一个像素点,xi表示第一图像的一个像素点,x′i表示还原后的第一图像的一个像素点;
基于所述均方误差通过第二公式计算训练所述初始模型的损失函数,所述第二公式为:
Lc=αLcls+βLres+γLs
其中,α、β、γ分别表示各部分的重要程度,为超参数,Lcls表示类别标签嵌入分类损失,Lcls=CE(y′x,yx),yx为图像x的真实标签,分类标签y′x为函数fcls输出并使用交叉熵计算分类损失,Ls表示将已知类别标签嵌入/>映射到语义空间的映射函数fs的目标函数,通过第三公式计算得到,所述第三公式为:
其中,wvc表示类别c的词向量;
在所述损失函数Lc符合预设条件时,将所述初始模型作为所述初始类别标签嵌入提取模型。
4.根据权利要求2所述的方法,其特征在于,所述基于未知类别的第二图像对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型,包括:
将所述未知类别的第二图像分割成多个第二图像块;
将所述多个第二图像块和多个随机初始化可学习的提示向量输入到所述初始类别标签嵌入提取模型,得到所述第二图像对应的类别标签嵌入;
计算所述第二图像对应的类别标签嵌入与所述第一已知类别标签嵌入的第一相似度;
计算所述第二图像对应的类别标签嵌入对应的类别词向量与所述第一已知类别标签嵌入对应的词向量的第二相似度;
基于所述第一相似度和所述第二相似度以及第二图像与还原的第二图像的重构损失对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型和更新后的提示向量。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将所述已知类别的第一图像重新输入至所述第二类别标签嵌入提取模型,得到每个已知类别对应的第二已知类别标签嵌入;
基于所述第二已知类别标签嵌入更新所述未知类别的第二图像对应的类别标签嵌入;
基于所述第二已知类别标签嵌入和更新后的未知类别的第二图像对应的类别标签嵌入更新原始类别标签嵌入数据库。
7.根据权利要求1所述的方法,其特征在于,所述获取待分类的第三图像,基于所述第二类别标签嵌入提取模型对所述第三图像进行分类,得到所述第三图像对应的图像类别,包括:
将所述待分类的第三图像分割成多个第三图像块;
将所述多个第三图像块以及更新后的提示向量输入至所述第二类别标签嵌入提取模型,得到所述第三图像对应的第三类别标签嵌入;
将原始类别标签嵌入数据库中与所述第三类别标签嵌入的相似度最高的类别标签嵌入对应的图像类别作为所述第三图像对应的图像类别。
8.一种未知类别图像分类装置,其特征在于,包括:
训练模块,用于基于已知类别的第一图像训练初始类别标签嵌入提取模型;
微调模块,用于基于未知类别的第二图像对所述初始类别标签嵌入提取模型进行微调,得到微调后的第二类别标签嵌入提取模型;
分类模块,用于获取待分类的第三图像,基于所述第二类别标签嵌入提取模型对所述第三图像进行分类,得到所述第三图像对应的图像类别。
9.一种计算机设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的未知类别图像分类程序,以实现权利要求1~7中任一项所述的未知类别图像分类方法。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~7中任一项所述的未知类别图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310414455.7A CN116433977B (zh) | 2023-04-18 | 2023-04-18 | 未知类别图像分类方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310414455.7A CN116433977B (zh) | 2023-04-18 | 2023-04-18 | 未知类别图像分类方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116433977A true CN116433977A (zh) | 2023-07-14 |
CN116433977B CN116433977B (zh) | 2023-12-05 |
Family
ID=87079448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310414455.7A Active CN116433977B (zh) | 2023-04-18 | 2023-04-18 | 未知类别图像分类方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116433977B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541882A (zh) * | 2024-01-05 | 2024-02-09 | 南京信息工程大学 | 一种基于实例的多视角视觉融合转导式零样本分类方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10127475B1 (en) * | 2013-05-31 | 2018-11-13 | Google Llc | Classifying images |
CN109816032A (zh) * | 2019-01-30 | 2019-05-28 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于生成式对抗网络的无偏映射零样本分类方法和装置 |
CN110516718A (zh) * | 2019-08-12 | 2019-11-29 | 西北工业大学 | 基于深度嵌入空间的零样本学习方法 |
CN113111917A (zh) * | 2021-03-16 | 2021-07-13 | 重庆邮电大学 | 一种基于双重自编码器的零样本图像分类方法及装置 |
CN113780345A (zh) * | 2021-08-06 | 2021-12-10 | 华中科技大学 | 面向中小企业的基于张量注意力的小样本分类方法和系统 |
CN113919418A (zh) * | 2021-09-17 | 2022-01-11 | 中国电子科技集团公司第三十六研究所 | 基于小样本的分类模型训练方法、装置及电子设备 |
CN114861670A (zh) * | 2022-07-07 | 2022-08-05 | 浙江一山智慧医疗研究有限公司 | 基于已知标签学习未知标签的实体识别方法、装置及应用 |
-
2023
- 2023-04-18 CN CN202310414455.7A patent/CN116433977B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10127475B1 (en) * | 2013-05-31 | 2018-11-13 | Google Llc | Classifying images |
CN109816032A (zh) * | 2019-01-30 | 2019-05-28 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于生成式对抗网络的无偏映射零样本分类方法和装置 |
CN110516718A (zh) * | 2019-08-12 | 2019-11-29 | 西北工业大学 | 基于深度嵌入空间的零样本学习方法 |
CN113111917A (zh) * | 2021-03-16 | 2021-07-13 | 重庆邮电大学 | 一种基于双重自编码器的零样本图像分类方法及装置 |
CN113780345A (zh) * | 2021-08-06 | 2021-12-10 | 华中科技大学 | 面向中小企业的基于张量注意力的小样本分类方法和系统 |
CN113919418A (zh) * | 2021-09-17 | 2022-01-11 | 中国电子科技集团公司第三十六研究所 | 基于小样本的分类模型训练方法、装置及电子设备 |
CN114861670A (zh) * | 2022-07-07 | 2022-08-05 | 浙江一山智慧医疗研究有限公司 | 基于已知标签学习未知标签的实体识别方法、装置及应用 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541882A (zh) * | 2024-01-05 | 2024-02-09 | 南京信息工程大学 | 一种基于实例的多视角视觉融合转导式零样本分类方法 |
CN117541882B (zh) * | 2024-01-05 | 2024-04-19 | 南京信息工程大学 | 一种基于实例的多视角视觉融合转导式零样本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116433977B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111334B (zh) | 一种裂缝分割方法、装置、电子设备及存储介质 | |
CN113011202B (zh) | 基于多任务训练的端到端图像文本翻译方法、系统、装置 | |
CN114120102A (zh) | 边界优化的遥感图像语义分割方法、装置、设备及介质 | |
CN111275175B (zh) | 神经网络训练方法、装置、图像分类方法、设备和介质 | |
CN114283350B (zh) | 视觉模型训练和视频处理方法、装置、设备及存储介质 | |
CN110084172B (zh) | 文字识别方法、装置和电子设备 | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
CN116433977B (zh) | 未知类别图像分类方法、装置、计算机设备及存储介质 | |
CN112232371A (zh) | 一种基于YOLOv3与文本识别的美式车牌识别方法 | |
CN114067119B (zh) | 全景分割模型的训练方法、全景分割方法及装置 | |
CN111680753A (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
CN111898704B (zh) | 对内容样本进行聚类的方法和装置 | |
CN114330588A (zh) | 一种图片分类方法、图片分类模型训练方法及相关装置 | |
CN114676777A (zh) | 一种基于孪生网络的自监督学习细粒度图像分类方法 | |
CN111401309A (zh) | 基于小波变换的cnn训练和遥感图像目标识别方法 | |
CN114612501B (zh) | 神经网络模型训练方法和冷冻电镜密度图分辨率估计方法 | |
CN116778137A (zh) | 一种基于深度学习的字轮式水表读数的识别方法及装置 | |
CN113076823A (zh) | 一种年龄预测模型的训练方法、年龄预测方法及相关装置 | |
CN116957024A (zh) | 利用神经网络模型进行推理的方法和装置 | |
US20230281969A1 (en) | Method and device of training a model and information processing method | |
García-González et al. | Background modeling by shifted tilings of stacked denoising autoencoders | |
CN116091862A (zh) | 一种画质识别方法、装置、设备、存储介质及产品 | |
CN114913382A (zh) | 一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法 | |
CN115393914A (zh) | 多任务模型训练方法、装置、设备及存储介质 | |
CN104778479A (zh) | 一种基于稀疏编码提取子的图像分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231208 Address after: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing Patentee after: State Grid Smart Grid Research Institute Co.,Ltd. Patentee after: BEIJING BRANCH OF STATE GRID INFORMATION AND COMMUNICATION INDUSTRY GROUP Co.,Ltd. Address before: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing Patentee before: State Grid Smart Grid Research Institute Co.,Ltd. |