CN117372775A - 一种基于视觉的动态选择的零样本学习分类方法 - Google Patents
一种基于视觉的动态选择的零样本学习分类方法 Download PDFInfo
- Publication number
- CN117372775A CN117372775A CN202311418537.5A CN202311418537A CN117372775A CN 117372775 A CN117372775 A CN 117372775A CN 202311418537 A CN202311418537 A CN 202311418537A CN 117372775 A CN117372775 A CN 117372775A
- Authority
- CN
- China
- Prior art keywords
- training
- visual
- attribute
- representing
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000000007 visual effect Effects 0.000 claims abstract description 207
- 230000014509 gene expression Effects 0.000 claims abstract description 35
- 238000013145 classification model Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 269
- 230000006870 function Effects 0.000 claims description 35
- 230000004913 activation Effects 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000007670 refining Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 238000011282 treatment Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于视觉的动态选择的零样本学习分类方法,包括如下步骤:获取待分类的图片;将图片输入至训练好的零样本学习分类模型中,得到图片对应的类别标签;其中,零样本学习分类模型包括视觉编码器、动态区域选择模块、属性分类器、动态属性选择模块和分类模块,其中,基于动态区域选择模块,能够得到精炼后的区域视觉特征,从而更好的捕捉到图片中的属性;基于动态属性选择模块,得到精炼后的类别原型,学习针对每个样本的类别原型,从而减少了同类图片中属性表现的差异性,提高了对图片的识别准确率。
Description
技术领域
本发明涉及一种基于视觉的动态选择的零样本学习分类方法,属于图片分类技术领域。
背景技术
零样本学习(Zero-shot Learning,简称ZSL)是一种机器学习范式,旨在通过将从已见类中获取的语义知识迁移到未见类中,从而实现对未见类的识别。这种知识迁移基于一个假设,即已见类和未见类之间存在共同的语义描述,这些描述可以通过手动注释的属性、词向量或句子特征来表示。根据测试方法的不同,ZSL可以分为两类:常规ZSL(Conventional ZSL,简称CZSL)和广义ZSL(Generalized ZSL,简称GZSL)。尽管它们之间存在一些差异,CZSL和GZSL的基本学习框架是相同的,即将类别划分为已见类和未见类,只有已见类可用于训练。尽管CZSL仅预测未见类的标签,但GZSL通过在测试过程中同时识别已见类和未见类来扩展CZSL,从而更符合实际生活中的任务要求。
零样本学习技术已经在医疗领域展现出惊人的潜力,为医疗诊断和治疗提供了全新的可能性。一项典型的应用是基于零样本学习的疾病识别系统。传统的医疗诊断需要大量的样本数据来训练模型,但在新兴疾病或稀有病例的情况下,数据可能有限。零样本学习通过使用模型的泛化能力,可以在没有先验数据的情况下进行疾病识别。它通过学习将已知疾病的特征与其他疾病的可能特征区分开来的能力来实现。
这种技术不仅可以用于早期疾病诊断,还可以帮助医生识别新的疾病变种或疫情爆发。此外,零样本学习还能够为个性化医疗提供支持,根据患者的遗传信息和临床表现来制定最佳治疗方案。
现在工作虽然取得了显著成果,但是这些工作通常使用全局特征来和属性对应,与图片中的属性相比,这些全局特征包含除属性之外的噪声。因此,使用全局特征来进行预测并不是最佳选择。此外,这些并没有考虑同一类别的图片在属性上的差异。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于视觉的动态选择的零样本学习分类方法,基于训练好的零样本学习分类模型,通过动态区域选择模块和动态属性选择模块,采用区域视觉特征进行属性捕捉,同时考虑了同类图片中属性在表现的差异,提高了对图片的识别准确率。
为达到上述目的,本发明是采用下述技术方案实现的:
本发明公开了一种基于视觉的动态选择的零样本学习分类方法,包括如下步骤:
获取待分类的图片;
将所述图片输入至训练好的零样本学习分类模型中,得到所述图片对应的类别标签;
其中,所述零样本学习分类模型包括:
视觉编码器,用于根据所述图片,进行编码处理,生成全局视觉特征和区域视觉特征;
动态区域选择模块,用于对所述全局视觉特征进行映射,得到区域权重;将所述区域权重和区域视觉特征进行相乘,得到精炼后的区域视觉特征;
属性分类器,用于根据所述全局视觉特征,得到全局视觉特征的预测结果;根据所述精炼后的区域视觉特征,得到区域视觉特征的预测结果;
动态属性选择模块,用于将所述全局视觉特征和精炼后的区域视觉特征融合后进行映射,得到属性权重;将所述属性权重与预设的所有的类别原型相乘后,得到精炼后的类别原型;
分类模块,用于将全局视觉特征的预测结果和区域视觉特征的预测结果,分别与所述精炼后的类别原型进行相似度计算,取相似度值最高的预测结果作为所述图片对应的类别标签。
进一步的,所述零样本学习分类模型的训练方法如下:
获取训练集,所述训练集包括多个训练图片及所述训练图片对应的训练类别标签和训练类别原型;
根据所述训练图片和训练类别原型,通过区域交叉熵损失和全局交叉熵损失的计算,完成对视觉编码器、动态区域选择模块和属性分类器的训练;
基于训练好的视觉编码器、动态区域选择模块和属性分类器,根据所述训练图片、训练类别标签和训练类别原型,通过属性交叉熵损失的计算,完成对动态属性选择模块的训练。
进一步的,所述视觉编码器、动态区域选择模块和属性分类器的训练步骤如下:
将所述训练图片输入至视觉编码器,得到训练全局视觉特征和训练区域视觉特征;
将所述训练全局视觉特征和训练区域视觉特征输入至动态区域选择模块,得到精炼后的训练区域视觉特征;
将所述训练全局视觉特征和精炼后的训练区域视觉特征输入至属性分类器,得到训练全局视觉特征的预测结果和训练区域视觉特征的预测结果;
计算所述训练全局视觉特征的预测结果与训练类别原型的全局交叉熵损失,以及所述训练区域视觉特征的预测结果与训练类别标签的区域交叉熵损失;
通过最小化所述全局交叉熵损失和区域交叉熵损失,同时优化视觉编码器、动态区域选择模块和属性分类器的参数数据;
重复回到依次通过视觉编码器、动态区域选择模块和属性分类器处理所述训练图片的步骤,迭代优化参数数据,直至满足预设的第一迭代结束条件,完成视觉编码器、动态区域选择模块和属性分类器的训练。
进一步的,所述训练全局视觉特征和训练区域视觉特征的表达式如下:
(zcls,Zregion)=E(x)
式中,zcls表示训练全局视觉特征;Zregion表示训练区域视觉特征;E表示视觉编码器;x表示训练图片。
进一步的,所述动态区域选择模块包括第一线形层和第一激活函数;
得到精炼后的训练区域视觉特征,包括如下步骤:
通过第一线形层和第一激活函数,将所述训练全局视觉特征映射成每个区域的权重,得到训练区域权重;将所述训练区域权重与训练区域视觉特征依次相乘后得到精炼后的训练区域视觉特征;
其中,所述训练区域权重的表达式如下:
wregion=σ1(ψ1(zcls))
式中,wregion表示训练区域权重,wregion∈RN,N为区域的数量;σ1表示第一激活函数;ψ1表示第一线形层;zcls表示训练全局视觉特征;
所述精炼后的训练区域视觉特征的表达式如下:
式中,表示第k个区域的精炼后的训练区域视觉特征;/>表示第k个区域的训练区域权重;/>表示第k个区域的训练区域视觉特征。
进一步的,所述训练全局视觉特征的预测结果的表达式如下:
式中,表示训练全局视觉特征的预测结果;f表示属性分类器;zcls表示训练全局视觉特征;
所述训练区域视觉特征的预测结果的表达式如下:
式中,表示第k个区域的训练区域视觉特征的预测结果;/>表示第k个区域的精炼后的训练区域视觉特征。
进一步的,所述全局交叉熵损失的表达式如下:
式中,Lcls表示全局交叉熵损失;log表示对数函数;exp表示以自然常数e为底的指数函数;ay表示训练图片对应的训练类别原型;aj表示第j个可见类的类别原型;Cs为可见类的个数,<·,·>为内积操作;表示训练全局视觉特征的预测结果;
所述区域交叉熵损失的表达式如下:
式中,Lregion表示区域交叉熵损失;k表示区域的序号;N表示区域的数量;表示第k个区域的训练区域视觉特征的预测结果。
进一步的,所述动态属性选择模块的训练步骤如下:
基于训练好的视觉编码器、动态区域选择模块和属性分类器,得到训练全局视觉特征和精炼后的训练区域视觉特征;
将所述训练全局视觉特征和精炼后的训练区域视觉特征输入到动态属性选择模块中,得到精炼后的训练类别原型;计算所述精炼后的训练区域视觉特征与精炼后的训练类别原型的属性交叉熵损失;
通过最小化所述属性交叉熵损失,优化动态属性选择模块的的参数数据;
重复回到将所述训练全局视觉特征和精炼后的训练区域视觉特征输入到动态属性选择模块中的步骤,迭代优化参数数据,直至满足预设的第二迭代结束条件,完成动态属性选择模块的训练。
进一步的,所述动态属性选择模块包括第二线形层和第二激活函数;
得到精炼后的训练类别原型,包括如下步骤:
通过第二线形层和第二激活函数,将训练全局视觉特征和精炼后的训练区域视觉特征之和映射成每个属性的权重,得到训练属性权重;
将所述训练属性权重与训练类别原型相乘后,得到精炼后的训练类别原型;
其中,所述训练属性权重的表达式如下:
式中,wattr表示初始训练属性权重;σ2表示第二激活函数;表示第二线形层;zcls表示训练全局视觉特征;/>表示第k个区域的精炼后的训练区域视觉特征;N表示区域的数量;
所述训练的精炼后的类别原型的表达式如下:
式中,Anew表示精炼后的训练类别原型;A表示训练类别原型;表示哈达玛积运算;Wattr表示训练属性权重,由初始训练属性权重wattr利用广播机制扩展得到。
进一步的,所述属性交叉熵损失的表达式如下:
式中,Lattr表示属性交叉熵损失;表示第k个区域的训练区域视觉特征的预测结果;N表示区域的数量;/>表示精炼后的训练类别原型中训练图片对应的类别原型标签;/>表示精炼后的第j个可见类的类别原型;Cs为可见类的个数,<•,•>为内积操作;表示;表示。
与现有技术相比,本发明所达到的有益效果:
本发明的基于视觉的动态选择的零样本学习分类方法,基于预设的训练好的零样本学习分类模型,一方面通过动态区域选择模块来学习细粒度的视觉特征,从而更好的捕捉到图片中的属性;另一方面,通过动态属性选择模块来学习针对每个样本的类别原型,从而减少了同类图片中属性表现的差异性;综合考虑了图片中的属性以及同类图片中属性在表现的差异,提高了对图片的识别准确率。
附图说明
图1是零样本学习分类模型的结构示意图。
图2是零样本学习分类模型的训练流程图;
图3是零样本学习分类模型的框架示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本实施例公开了一种基于视觉的动态选择的零样本学习分类方法,包括如下步骤:
获取待分类的图片;
将图片输入至训练好的零样本学习分类模型中,得到图片对应的类别标签;
其中,零样本学习分类模型包括:
视觉编码器,用于根据图片,进行编码处理,生成全局视觉特征和区域视觉特征;
动态区域选择模块,用于对全局视觉特征进行映射,得到区域权重;将区域权重和区域视觉特征进行相乘,得到精炼后的区域视觉特征;
属性分类器,用于根据全局视觉特征,得到全局视觉特征的预测结果;根据精炼后的区域视觉特征,得到区域视觉特征的预测结果;
动态属性选择模块,用于将全局视觉特征和精炼后的区域视觉特征融合后进行映射,得到属性权重;将属性权重与预设的所有的类别原型相乘后,得到精炼后的类别原型;
分类模块,用于将全局视觉特征的预测结果和区域视觉特征的预测结果,分别与精炼后的类别原型进行相似度计算,取相似度值最高的预测结果作为图片对应的类别标签。
本发明的技术构思为:基于预设的训练好的零样本学习分类模型,通过动态区域选择模块来学习细粒度的视觉特征,从而更好的捕捉到图片中的属性;通过动态属性选择模块来学习针对每个样本的类别原型,从而减少了同类图片中属性表现的差异性;综合考虑了图片中的属性以及同类图片中属性在表现的差异,提高了对图片的识别准确率。
如图2所示,零样本学习分类模型的训练方法如下:
步骤1:预构建零样本学习分类模型。
预构建的零样本学习分类模型中包括视觉编码器、动态区域选择模块、属性分类器和动态属性选择模块,如图1和图3所示。
步骤2:获取训练集,训练集包括多个训练图片及训练图片对应的训练类别标签和训练类别原型。
步骤3:根据训练图片和训练类别原型,通过区域交叉熵损失和全局交叉熵损失的计算,完成对视觉编码器、动态区域选择模块和属性分类器的训练。
3.1将训练图片输入至视觉编码器,得到训练全局视觉特征和训练区域视觉特征。
训练全局视觉特征和训练区域视觉特征的表达式如下:
(zcls,Zregion)=E(x)
式中,zcls表示训练全局视觉特征;Zregion表示训练区域视觉特征;E表示视觉编码器;x表示训练图片。
其中,训练全局视觉特征zcls∈R1024,R1024为1024大小的实数向量;训练区域视觉特征,Zregion∈RN×1024,RN×1024为N×1024大小的实数矩阵,N为区域的数量;视觉编码器E为预训练的ViT-L模型。
3.2将训练全局视觉特征和训练区域视觉特征输入至动态区域选择模块,得到精炼后的训练区域视觉特征。
3.2.1获取训练区域权重。
本实施例中的动态区域选择模块包括第一线形层和第一激活函数。第一线形层的数量有多个,第一激活函数采用softmax激活函数。
通过第一线形层和第一激活函数,将训练全局视觉特征映射成每个区域的权重,得到训练区域权重。
其中,训练区域权重的表达式如下:
wregion=σ1(ψ1(zcls))
式中,wregion表示训练区域权重,wregion∈RN,N为区域的数量;σ1表示第一激活函数;ψ1表示第一线形层;zcls表示训练全局视觉特征。
3.2.2将训练区域权重与训练区域视觉特征依次相乘后得到精炼后的训练区域视觉特征。
精炼后的训练区域视觉特征的表达式如下:
式中,表示第k个区域的精炼后的训练区域视觉特征;/>表示第k个区域的训练区域权重;/>表示第k个区域的训练区域视觉特征。
3.3将训练全局视觉特征和精炼后的训练区域视觉特征输入至属性分类器,得到训练全局视觉特征的预测结果和训练区域视觉特征的预测结果。
本实施例中的属性分类器采用单个不带偏差项的线形层,将全局视觉特征和精炼后的区域视觉特征映射成每个属性出现的概率,进而得到训练全局视觉特征的预测结果和训练区域视觉特征的预测结果。
训练全局视觉特征的预测结果的表达式如下:
式中,表示训练全局视觉特征的预测结果;f表示属性分类器;zcls表示训练全局视觉特征;
训练区域视觉特征的预测结果的表达式如下:
式中,表示第k个区域的训练区域视觉特征的预测结果;/>表示第l个区域的精炼后的训练区域视觉特征。
3.4计算训练全局视觉特征的预测结果与训练类别原型的全局交叉熵损失,以及训练区域视觉特征的预测结果与训练类别标签的区域交叉熵损失。
其中,全局交叉熵损失的表达式如下:
式中,Lcls表示全局交叉熵损失;log表示对数函数;exp表示以自然常数e为底的指数函数;ay表示训练图片对应的训练类别原型;aj表示第j个可见类的类别原型;Cs为可见类的个数,<·,·>为内积操作;表示训练全局视觉特征的预测结果;
区域交叉熵损失的表达式如下:
式中,Lregion表示区域交叉熵损失;k表示区域的序号;N表示区域的数量;表示第k个区域的训练区域视觉特征的预测结果。
通过最小化全局交叉熵损失和区域交叉熵损失,同时优化视觉编码器、动态区域选择模块和属性分类器的参数数据。
3.5重复回到3.1依次通过视觉编码器、动态区域选择模块和属性分类器处理训练图片的步骤,迭代优化参数数据,直至满足预设的第一迭代结束条件,完成视觉编码器、动态区域选择模块和属性分类器的训练。
第一迭代结束条件可以根据实际需求进行设定,例如到达预设的最大迭代次数,或损失到达预设阈值。
步骤4:基于训练好的视觉编码器、动态区域选择模块和属性分类器,根据训练图片、训练类别标签和训练类别原型,通过属性交叉熵损失的计算,完成对动态属性选择模块的训练。
4.1将训练好的视觉编码器、动态区域选择模块和属性分类器的参数全部冻结;
基于训练好的视觉编码器、动态区域选择模块和属性分类器对训练图片进行处理,得到训练全局视觉特征和精炼后的训练区域视觉特征。
4.2将训练全局视觉特征和精炼后的训练区域视觉特征输入到动态属性选择模块中,得到精炼后的训练类别原型;
本实施例中的动态属性选择模块包括第二线形层和第二激活函数;其中,第二线形层的数量为2个,分别为第二线形层1和第二线形层2;第二激活函数的数量为2个,分别为ReLU激活函数和Softmax激活函数。处理的顺序依次为:第二线性层1、ReLU激活函数、第二线性层2、Softmax激活函数。
通过第二线形层和第二激活函数,将训练全局视觉特征和精炼后的训练区域视觉特征之和映射成每个属性的权重,得到训练属性权重;
将训练属性权重与训练类别原型相乘后,得到精炼后的训练类别原型;
其中,训练属性权重的表达式如下:
式中,wattr表示初始训练属性权重,wattr∈RM,M为训练集给定属性的个数;σ2表示第二激活函数;表示第二线形层;zcls表示训练全局视觉特征;/>表示第k个区域的精炼后的训练区域视觉特征;N表示区域的数量;
训练的精炼后的类别原型的表达式如下:
式中,Amew表示精炼后的训练类别原型,Anew∈RC×M;A表示训练类别原型;表示哈达玛积运算;Wattr表示训练属性权重,wattr∈RC×M,由初始训练属性权重wattr利用广播机制扩展到C维得到,C为训练集中类别的个数。
4.3计算精炼后的训练区域视觉特征与精炼后的训练类别原型的属性交叉熵损失,属性交叉熵损失的表达式如下:
式中,Lattr表示属性交叉熵损失;表示第k个区域的训练区域视觉特征的预测结果;N表示区域的数量;/>表示精炼后的训练类别原型中训练图片对应的类别原型标签;/>表示精炼后的第j个可见类的类别原型;Cs为可见类的个数,<·,·>为内积操作。
通过最小化属性交叉熵损失,优化动态属性选择模块的的参数数据;
4.4重复回到4.1将训练全局视觉特征和精炼后的训练区域视觉特征输入到动态属性选择模块中的步骤,迭代优化参数数据,直至满足预设的第二迭代结束条件,完成动态属性选择模块的训练。
第二迭代结束条件可以根据实际需求进行设定,例如到达预设的最大迭代次数,或损失到达预设阈值。
至此,本模型的参数已经全部训练完成,得到了训练好的零样本学习分类模型,需要说明的是,在分类模块中,将全局视觉特征的预测结果和区域视觉特征的预测结果,分别与所述精炼后的类别原型进行相似度计算,取相似度值最高的预测结果作为所述图片对应的类别标签,具体表达式如下:
式中,表示图片对应的类别标签;argmax表示取较大值。
本实施例将训练好的零样本学习分类模型与其他方法做了对比实验,在CUB、SUN和AWA2数据集上的比较结果,H指标的值分别达到75.2、56.7和75.6,得到了比其他方法更加优异的准确率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于视觉的动态选择的零样本学习分类方法,其特征是,包括如下步骤:
获取待分类的图片;
将所述图片输入至训练好的零样本学习分类模型中,得到所述图片对应的类别标签;
其中,所述零样本学习分类模型包括:
视觉编码器,用于根据所述图片,进行编码处理,生成全局视觉特征和区域视觉特征;
动态区域选择模块,用于对所述全局视觉特征进行映射,得到区域权重;将所述区域权重和区域视觉特征进行相乘,得到精炼后的区域视觉特征;
属性分类器,用于根据所述全局视觉特征,得到全局视觉特征的预测结果;根据所述精炼后的区域视觉特征,得到区域视觉特征的预测结果;
动态属性选择模块,用于将所述全局视觉特征和精炼后的区域视觉特征融合后进行映射,得到属性权重;将所述属性权重与预设的所有的类别原型相乘后,得到精炼后的类别原型;
分类模块,用于将全局视觉特征的预测结果和区域视觉特征的预测结果,分别与所述精炼后的类别原型进行相似度计算,取相似度值最高的预测结果作为所述图片对应的类别标签。
2.根据权利要求1所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述零样本学习分类模型的训练方法如下:
获取训练集,所述训练集包括多个训练图片及所述训练图片对应的训练类别标签和训练类别原型;
根据所述训练图片和训练类别原型,通过区域交叉熵损失和全局交叉熵损失的计算,完成对视觉编码器、动态区域选择模块和属性分类器的训练;
基于训练好的视觉编码器、动态区域选择模块和属性分类器,根据所述训练图片、训练类别标签和训练类别原型,通过属性交叉熵损失的计算,完成对动态属性选择模块的训练。
3.根据权利要求2所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述视觉编码器、动态区域选择模块和属性分类器的训练步骤如下:
将所述训练图片输入至视觉编码器,得到训练全局视觉特征和训练区域视觉特征;
将所述训练全局视觉特征和训练区域视觉特征输入至动态区域选择模块,得到精炼后的训练区域视觉特征;
将所述训练全局视觉特征和精炼后的训练区域视觉特征输入至属性分类器,得到训练全局视觉特征的预测结果和训练区域视觉特征的预测结果;
计算所述训练全局视觉特征的预测结果与训练类别原型的全局交叉熵损失,以及所述训练区域视觉特征的预测结果与训练类别标签的区域交叉熵损失;
通过最小化所述全局交叉熵损失和区域交叉熵损失,同时优化视觉编码器、动态区域选择模块和属性分类器的参数数据;
重复回到依次通过视觉编码器、动态区域选择模块和属性分类器处理所述训练图片的步骤,迭代优化参数数据,直至满足预设的第一迭代结束条件,完成视觉编码器、动态区域选择模块和属性分类器的训练。
4.根据权利要求3所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述训练全局视觉特征和训练区域视觉特征的表达式如下:
(Zcls,Zregion)=E(x)
式中,zcls表示训练全局视觉特征;Zregion表示训练区域视觉特征;E表示视觉编码器;x表示训练图片。
5.根据权利要求3所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述动态区域选择模块包括第一线形层和第一激活函数;
得到精炼后的训练区域视觉特征,包括如下步骤:
通过第一线形层和第一激活函数,将所述训练全局视觉特征映射成每个区域的权重,得到训练区域权重;将所述训练区域权重与训练区域视觉特征依次相乘后得到精炼后的训练区域视觉特征;
其中,所述训练区域权重的表达式如下:
Wregion=σ1(ψ1(Zcls))
式中,wregion表示训练区域权重,wregion∈RN,N为区域的数量;σ1表示第一激活函数;ψ1表示第一线形层;zcls表示训练全局视觉特征;
所述精炼后的训练区域视觉特征的表达式如下:
式中,表示第k个区域的精炼后的训练区域视觉特征;/>表示第k个区域的训练区域权重;/>表示第k个区域的训练区域视觉特征。
6.根据权利要求3所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述训练全局视觉特征的预测结果的表达式如下:
式中,表示训练全局视觉特征的预测结果;f表示属性分类器;zcls表示训练全局视觉特征;
所述训练区域视觉特征的预测结果的表达式如下:
式中,表示第k个区域的训练区域视觉特征的预测结果;/>表示第l个区域的精炼后的训练区域视觉特征。
7.根据权利要求3所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述全局交叉熵损失的表达式如下:
式中,Lcls表示全局交叉熵损失;log表示对数函数;exp表示以自然常数e为底的指数函数;ay表示训练图片对应的训练类别原型;aj表示第j个可见类的类别原型;Cs为可见类的个数,<·,·>为内积操作;表示训练全局视觉特征的预测结果;
所述区域交叉熵损失的表达式如下:
式中,Lregion表示区域交叉熵损失;k表示区域的序号;N表示区域的数量;表示第k个区域的训练区域视觉特征的预测结果。
8.根据权利要求2所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述动态属性选择模块的训练步骤如下:
基于训练好的视觉编码器、动态区域选择模块和属性分类器,得到训练全局视觉特征和精炼后的训练区域视觉特征;
将所述训练全局视觉特征和精炼后的训练区域视觉特征输入到动态属性选择模块中,得到精炼后的训练类别原型;计算所述精炼后的训练区域视觉特征与精炼后的训练类别原型的属性交叉熵损失;
通过最小化所述属性交叉熵损失,优化动态属性选择模块的的参数数据;
重复回到将所述训练全局视觉特征和精炼后的训练区域视觉特征输入到动态属性选择模块中的步骤,迭代优化参数数据,直至满足预设的第二迭代结束条件,完成动态属性选择模块的训练。
9.根据权利要求8所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述动态属性选择模块包括第二线形层和第二激活函数;
得到精炼后的训练类别原型,包括如下步骤:
通过第二线形层和第二激活函数,将训练全局视觉特征和精炼后的训练区域视觉特征之和映射成每个属性的权重,得到训练属性权重;
将所述训练属性权重与训练类别原型相乘后,得到精炼后的训练类别原型;
其中,所述训练属性权重的表达式如下:
式中,wattr表示初始训练属性权重;σ2表示第二激活函数;表示第二线形层;zcls表示训练全局视觉特征;/>表示第k个区域的精炼后的训练区域视觉特征;N表示区域的数量;
所述训练的精炼后的类别原型的表达式如下:
AneW=A☉Wattr
式中,Anew表示精炼后的训练类别原型;A表示训练类别原型;⊙表示哈达玛积运算;Wattr表示训练属性权重,由初始训练属性权重wattr利用广播机制扩展得到。
10.根据权利要求8所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述属性交叉熵损失的表达式如下:
式中,Lattr表示属性交叉熵损失;表示第k个区域的训练区域视觉特征的预测结果;N表示区域的数量;/>表示精炼后的训练类别原型中训练图片对应的类别原型标签;表示精炼后的第j个可见类的类别原型;Cs为可见类的个数,<·,·>为内积操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311418537.5A CN117372775A (zh) | 2023-10-30 | 2023-10-30 | 一种基于视觉的动态选择的零样本学习分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311418537.5A CN117372775A (zh) | 2023-10-30 | 2023-10-30 | 一种基于视觉的动态选择的零样本学习分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117372775A true CN117372775A (zh) | 2024-01-09 |
Family
ID=89392617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311418537.5A Pending CN117372775A (zh) | 2023-10-30 | 2023-10-30 | 一种基于视觉的动态选择的零样本学习分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117372775A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118196428A (zh) * | 2024-05-17 | 2024-06-14 | 贵州大学 | 一种用于组合零次学习的视觉属性表征学习方法 |
-
2023
- 2023-10-30 CN CN202311418537.5A patent/CN117372775A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118196428A (zh) * | 2024-05-17 | 2024-06-14 | 贵州大学 | 一种用于组合零次学习的视觉属性表征学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3779774B1 (en) | Training method for image semantic segmentation model and server | |
CN110021439A (zh) | 基于机器学习的医疗数据分类方法、装置和计算机设备 | |
CN107957993B (zh) | 英文句子相似度的计算方法及装置 | |
CN110738102A (zh) | 一种人脸识别方法及系统 | |
WO2005091207A1 (en) | System and method for patient identification for clinical trials using content-based retrieval and learning | |
CN117372775A (zh) | 一种基于视觉的动态选择的零样本学习分类方法 | |
CN111782826A (zh) | 知识图谱的信息处理方法、装置、设备及存储介质 | |
US11886779B2 (en) | Accelerated simulation setup process using prior knowledge extraction for problem matching | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
Estevez-Velarde et al. | AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text | |
CN112381079A (zh) | 图像处理方法和信息处理设备 | |
CN114913923A (zh) | 针对单细胞染色质开放性测序数据的细胞类型识别方法 | |
WO2023087063A1 (en) | Method and system for analysing medical images to generate a medical report | |
CN114549470A (zh) | 基于卷积神经网络和多粒度注意力的手骨关键性区域获取方法 | |
CN112349409A (zh) | 一种疾病类型预测方法、装置、设备及系统 | |
CN115482418A (zh) | 基于伪负标签的半监督模型训练方法、系统及应用 | |
US11830227B2 (en) | Learning apparatus and learning method for three-dimensional image | |
CN108304915B (zh) | 一种深度学习神经网络的分解与合成方法和系统 | |
Daniels et al. | Exploiting visual and report-based information for chest x-ray analysis by jointly learning visual classifiers and topic models | |
Erickson et al. | Magician’s corner: 4. image Segmentation with U-Net | |
CN113569018A (zh) | 问答对挖掘方法及装置 | |
CN115908923A (zh) | 基于注意力引导3d神经网络的脑部磁共振图像分类系统 | |
CN112686306B (zh) | 基于图神经网络的icd手术分类自动匹配方法及系统 | |
CN115331045A (zh) | 基于神经网络自适应膨胀剪枝的视觉对象分类方法 | |
WO2018139361A1 (ja) | 情報処理システム、情報処理方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |