CN117372775A - 一种基于视觉的动态选择的零样本学习分类方法 - Google Patents

一种基于视觉的动态选择的零样本学习分类方法 Download PDF

Info

Publication number
CN117372775A
CN117372775A CN202311418537.5A CN202311418537A CN117372775A CN 117372775 A CN117372775 A CN 117372775A CN 202311418537 A CN202311418537 A CN 202311418537A CN 117372775 A CN117372775 A CN 117372775A
Authority
CN
China
Prior art keywords
training
visual
attribute
representing
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311418537.5A
Other languages
English (en)
Inventor
周媛
向磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202311418537.5A priority Critical patent/CN117372775A/zh
Publication of CN117372775A publication Critical patent/CN117372775A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉的动态选择的零样本学习分类方法,包括如下步骤:获取待分类的图片;将图片输入至训练好的零样本学习分类模型中,得到图片对应的类别标签;其中,零样本学习分类模型包括视觉编码器、动态区域选择模块、属性分类器、动态属性选择模块和分类模块,其中,基于动态区域选择模块,能够得到精炼后的区域视觉特征,从而更好的捕捉到图片中的属性;基于动态属性选择模块,得到精炼后的类别原型,学习针对每个样本的类别原型,从而减少了同类图片中属性表现的差异性,提高了对图片的识别准确率。

Description

一种基于视觉的动态选择的零样本学习分类方法
技术领域
本发明涉及一种基于视觉的动态选择的零样本学习分类方法,属于图片分类技术领域。
背景技术
零样本学习(Zero-shot Learning,简称ZSL)是一种机器学习范式,旨在通过将从已见类中获取的语义知识迁移到未见类中,从而实现对未见类的识别。这种知识迁移基于一个假设,即已见类和未见类之间存在共同的语义描述,这些描述可以通过手动注释的属性、词向量或句子特征来表示。根据测试方法的不同,ZSL可以分为两类:常规ZSL(Conventional ZSL,简称CZSL)和广义ZSL(Generalized ZSL,简称GZSL)。尽管它们之间存在一些差异,CZSL和GZSL的基本学习框架是相同的,即将类别划分为已见类和未见类,只有已见类可用于训练。尽管CZSL仅预测未见类的标签,但GZSL通过在测试过程中同时识别已见类和未见类来扩展CZSL,从而更符合实际生活中的任务要求。
零样本学习技术已经在医疗领域展现出惊人的潜力,为医疗诊断和治疗提供了全新的可能性。一项典型的应用是基于零样本学习的疾病识别系统。传统的医疗诊断需要大量的样本数据来训练模型,但在新兴疾病或稀有病例的情况下,数据可能有限。零样本学习通过使用模型的泛化能力,可以在没有先验数据的情况下进行疾病识别。它通过学习将已知疾病的特征与其他疾病的可能特征区分开来的能力来实现。
这种技术不仅可以用于早期疾病诊断,还可以帮助医生识别新的疾病变种或疫情爆发。此外,零样本学习还能够为个性化医疗提供支持,根据患者的遗传信息和临床表现来制定最佳治疗方案。
现在工作虽然取得了显著成果,但是这些工作通常使用全局特征来和属性对应,与图片中的属性相比,这些全局特征包含除属性之外的噪声。因此,使用全局特征来进行预测并不是最佳选择。此外,这些并没有考虑同一类别的图片在属性上的差异。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于视觉的动态选择的零样本学习分类方法,基于训练好的零样本学习分类模型,通过动态区域选择模块和动态属性选择模块,采用区域视觉特征进行属性捕捉,同时考虑了同类图片中属性在表现的差异,提高了对图片的识别准确率。
为达到上述目的,本发明是采用下述技术方案实现的:
本发明公开了一种基于视觉的动态选择的零样本学习分类方法,包括如下步骤:
获取待分类的图片;
将所述图片输入至训练好的零样本学习分类模型中,得到所述图片对应的类别标签;
其中,所述零样本学习分类模型包括:
视觉编码器,用于根据所述图片,进行编码处理,生成全局视觉特征和区域视觉特征;
动态区域选择模块,用于对所述全局视觉特征进行映射,得到区域权重;将所述区域权重和区域视觉特征进行相乘,得到精炼后的区域视觉特征;
属性分类器,用于根据所述全局视觉特征,得到全局视觉特征的预测结果;根据所述精炼后的区域视觉特征,得到区域视觉特征的预测结果;
动态属性选择模块,用于将所述全局视觉特征和精炼后的区域视觉特征融合后进行映射,得到属性权重;将所述属性权重与预设的所有的类别原型相乘后,得到精炼后的类别原型;
分类模块,用于将全局视觉特征的预测结果和区域视觉特征的预测结果,分别与所述精炼后的类别原型进行相似度计算,取相似度值最高的预测结果作为所述图片对应的类别标签。
进一步的,所述零样本学习分类模型的训练方法如下:
获取训练集,所述训练集包括多个训练图片及所述训练图片对应的训练类别标签和训练类别原型;
根据所述训练图片和训练类别原型,通过区域交叉熵损失和全局交叉熵损失的计算,完成对视觉编码器、动态区域选择模块和属性分类器的训练;
基于训练好的视觉编码器、动态区域选择模块和属性分类器,根据所述训练图片、训练类别标签和训练类别原型,通过属性交叉熵损失的计算,完成对动态属性选择模块的训练。
进一步的,所述视觉编码器、动态区域选择模块和属性分类器的训练步骤如下:
将所述训练图片输入至视觉编码器,得到训练全局视觉特征和训练区域视觉特征;
将所述训练全局视觉特征和训练区域视觉特征输入至动态区域选择模块,得到精炼后的训练区域视觉特征;
将所述训练全局视觉特征和精炼后的训练区域视觉特征输入至属性分类器,得到训练全局视觉特征的预测结果和训练区域视觉特征的预测结果;
计算所述训练全局视觉特征的预测结果与训练类别原型的全局交叉熵损失,以及所述训练区域视觉特征的预测结果与训练类别标签的区域交叉熵损失;
通过最小化所述全局交叉熵损失和区域交叉熵损失,同时优化视觉编码器、动态区域选择模块和属性分类器的参数数据;
重复回到依次通过视觉编码器、动态区域选择模块和属性分类器处理所述训练图片的步骤,迭代优化参数数据,直至满足预设的第一迭代结束条件,完成视觉编码器、动态区域选择模块和属性分类器的训练。
进一步的,所述训练全局视觉特征和训练区域视觉特征的表达式如下:
(zcls,Zregion)=E(x)
式中,zcls表示训练全局视觉特征;Zregion表示训练区域视觉特征;E表示视觉编码器;x表示训练图片。
进一步的,所述动态区域选择模块包括第一线形层和第一激活函数;
得到精炼后的训练区域视觉特征,包括如下步骤:
通过第一线形层和第一激活函数,将所述训练全局视觉特征映射成每个区域的权重,得到训练区域权重;将所述训练区域权重与训练区域视觉特征依次相乘后得到精炼后的训练区域视觉特征;
其中,所述训练区域权重的表达式如下:
wregion=σ11(zcls))
式中,wregion表示训练区域权重,wregion∈RN,N为区域的数量;σ1表示第一激活函数;ψ1表示第一线形层;zcls表示训练全局视觉特征;
所述精炼后的训练区域视觉特征的表达式如下:
式中,表示第k个区域的精炼后的训练区域视觉特征;/>表示第k个区域的训练区域权重;/>表示第k个区域的训练区域视觉特征。
进一步的,所述训练全局视觉特征的预测结果的表达式如下:
式中,表示训练全局视觉特征的预测结果;f表示属性分类器;zcls表示训练全局视觉特征;
所述训练区域视觉特征的预测结果的表达式如下:
式中,表示第k个区域的训练区域视觉特征的预测结果;/>表示第k个区域的精炼后的训练区域视觉特征。
进一步的,所述全局交叉熵损失的表达式如下:
式中,Lcls表示全局交叉熵损失;log表示对数函数;exp表示以自然常数e为底的指数函数;ay表示训练图片对应的训练类别原型;aj表示第j个可见类的类别原型;Cs为可见类的个数,<·,·>为内积操作;表示训练全局视觉特征的预测结果;
所述区域交叉熵损失的表达式如下:
式中,Lregion表示区域交叉熵损失;k表示区域的序号;N表示区域的数量;表示第k个区域的训练区域视觉特征的预测结果。
进一步的,所述动态属性选择模块的训练步骤如下:
基于训练好的视觉编码器、动态区域选择模块和属性分类器,得到训练全局视觉特征和精炼后的训练区域视觉特征;
将所述训练全局视觉特征和精炼后的训练区域视觉特征输入到动态属性选择模块中,得到精炼后的训练类别原型;计算所述精炼后的训练区域视觉特征与精炼后的训练类别原型的属性交叉熵损失;
通过最小化所述属性交叉熵损失,优化动态属性选择模块的的参数数据;
重复回到将所述训练全局视觉特征和精炼后的训练区域视觉特征输入到动态属性选择模块中的步骤,迭代优化参数数据,直至满足预设的第二迭代结束条件,完成动态属性选择模块的训练。
进一步的,所述动态属性选择模块包括第二线形层和第二激活函数;
得到精炼后的训练类别原型,包括如下步骤:
通过第二线形层和第二激活函数,将训练全局视觉特征和精炼后的训练区域视觉特征之和映射成每个属性的权重,得到训练属性权重;
将所述训练属性权重与训练类别原型相乘后,得到精炼后的训练类别原型;
其中,所述训练属性权重的表达式如下:
式中,wattr表示初始训练属性权重;σ2表示第二激活函数;表示第二线形层;zcls表示训练全局视觉特征;/>表示第k个区域的精炼后的训练区域视觉特征;N表示区域的数量;
所述训练的精炼后的类别原型的表达式如下:
式中,Anew表示精炼后的训练类别原型;A表示训练类别原型;表示哈达玛积运算;Wattr表示训练属性权重,由初始训练属性权重wattr利用广播机制扩展得到。
进一步的,所述属性交叉熵损失的表达式如下:
式中,Lattr表示属性交叉熵损失;表示第k个区域的训练区域视觉特征的预测结果;N表示区域的数量;/>表示精炼后的训练类别原型中训练图片对应的类别原型标签;/>表示精炼后的第j个可见类的类别原型;Cs为可见类的个数,<•,•>为内积操作;表示;表示。
与现有技术相比,本发明所达到的有益效果:
本发明的基于视觉的动态选择的零样本学习分类方法,基于预设的训练好的零样本学习分类模型,一方面通过动态区域选择模块来学习细粒度的视觉特征,从而更好的捕捉到图片中的属性;另一方面,通过动态属性选择模块来学习针对每个样本的类别原型,从而减少了同类图片中属性表现的差异性;综合考虑了图片中的属性以及同类图片中属性在表现的差异,提高了对图片的识别准确率。
附图说明
图1是零样本学习分类模型的结构示意图。
图2是零样本学习分类模型的训练流程图;
图3是零样本学习分类模型的框架示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本实施例公开了一种基于视觉的动态选择的零样本学习分类方法,包括如下步骤:
获取待分类的图片;
将图片输入至训练好的零样本学习分类模型中,得到图片对应的类别标签;
其中,零样本学习分类模型包括:
视觉编码器,用于根据图片,进行编码处理,生成全局视觉特征和区域视觉特征;
动态区域选择模块,用于对全局视觉特征进行映射,得到区域权重;将区域权重和区域视觉特征进行相乘,得到精炼后的区域视觉特征;
属性分类器,用于根据全局视觉特征,得到全局视觉特征的预测结果;根据精炼后的区域视觉特征,得到区域视觉特征的预测结果;
动态属性选择模块,用于将全局视觉特征和精炼后的区域视觉特征融合后进行映射,得到属性权重;将属性权重与预设的所有的类别原型相乘后,得到精炼后的类别原型;
分类模块,用于将全局视觉特征的预测结果和区域视觉特征的预测结果,分别与精炼后的类别原型进行相似度计算,取相似度值最高的预测结果作为图片对应的类别标签。
本发明的技术构思为:基于预设的训练好的零样本学习分类模型,通过动态区域选择模块来学习细粒度的视觉特征,从而更好的捕捉到图片中的属性;通过动态属性选择模块来学习针对每个样本的类别原型,从而减少了同类图片中属性表现的差异性;综合考虑了图片中的属性以及同类图片中属性在表现的差异,提高了对图片的识别准确率。
如图2所示,零样本学习分类模型的训练方法如下:
步骤1:预构建零样本学习分类模型。
预构建的零样本学习分类模型中包括视觉编码器、动态区域选择模块、属性分类器和动态属性选择模块,如图1和图3所示。
步骤2:获取训练集,训练集包括多个训练图片及训练图片对应的训练类别标签和训练类别原型。
步骤3:根据训练图片和训练类别原型,通过区域交叉熵损失和全局交叉熵损失的计算,完成对视觉编码器、动态区域选择模块和属性分类器的训练。
3.1将训练图片输入至视觉编码器,得到训练全局视觉特征和训练区域视觉特征。
训练全局视觉特征和训练区域视觉特征的表达式如下:
(zcls,Zregion)=E(x)
式中,zcls表示训练全局视觉特征;Zregion表示训练区域视觉特征;E表示视觉编码器;x表示训练图片。
其中,训练全局视觉特征zcls∈R1024,R1024为1024大小的实数向量;训练区域视觉特征,Zregion∈RN×1024,RN×1024为N×1024大小的实数矩阵,N为区域的数量;视觉编码器E为预训练的ViT-L模型。
3.2将训练全局视觉特征和训练区域视觉特征输入至动态区域选择模块,得到精炼后的训练区域视觉特征。
3.2.1获取训练区域权重。
本实施例中的动态区域选择模块包括第一线形层和第一激活函数。第一线形层的数量有多个,第一激活函数采用softmax激活函数。
通过第一线形层和第一激活函数,将训练全局视觉特征映射成每个区域的权重,得到训练区域权重。
其中,训练区域权重的表达式如下:
wregion=σ11(zcls))
式中,wregion表示训练区域权重,wregion∈RN,N为区域的数量;σ1表示第一激活函数;ψ1表示第一线形层;zcls表示训练全局视觉特征。
3.2.2将训练区域权重与训练区域视觉特征依次相乘后得到精炼后的训练区域视觉特征。
精炼后的训练区域视觉特征的表达式如下:
式中,表示第k个区域的精炼后的训练区域视觉特征;/>表示第k个区域的训练区域权重;/>表示第k个区域的训练区域视觉特征。
3.3将训练全局视觉特征和精炼后的训练区域视觉特征输入至属性分类器,得到训练全局视觉特征的预测结果和训练区域视觉特征的预测结果。
本实施例中的属性分类器采用单个不带偏差项的线形层,将全局视觉特征和精炼后的区域视觉特征映射成每个属性出现的概率,进而得到训练全局视觉特征的预测结果和训练区域视觉特征的预测结果。
训练全局视觉特征的预测结果的表达式如下:
式中,表示训练全局视觉特征的预测结果;f表示属性分类器;zcls表示训练全局视觉特征;
训练区域视觉特征的预测结果的表达式如下:
式中,表示第k个区域的训练区域视觉特征的预测结果;/>表示第l个区域的精炼后的训练区域视觉特征。
3.4计算训练全局视觉特征的预测结果与训练类别原型的全局交叉熵损失,以及训练区域视觉特征的预测结果与训练类别标签的区域交叉熵损失。
其中,全局交叉熵损失的表达式如下:
式中,Lcls表示全局交叉熵损失;log表示对数函数;exp表示以自然常数e为底的指数函数;ay表示训练图片对应的训练类别原型;aj表示第j个可见类的类别原型;Cs为可见类的个数,<·,·>为内积操作;表示训练全局视觉特征的预测结果;
区域交叉熵损失的表达式如下:
式中,Lregion表示区域交叉熵损失;k表示区域的序号;N表示区域的数量;表示第k个区域的训练区域视觉特征的预测结果。
通过最小化全局交叉熵损失和区域交叉熵损失,同时优化视觉编码器、动态区域选择模块和属性分类器的参数数据。
3.5重复回到3.1依次通过视觉编码器、动态区域选择模块和属性分类器处理训练图片的步骤,迭代优化参数数据,直至满足预设的第一迭代结束条件,完成视觉编码器、动态区域选择模块和属性分类器的训练。
第一迭代结束条件可以根据实际需求进行设定,例如到达预设的最大迭代次数,或损失到达预设阈值。
步骤4:基于训练好的视觉编码器、动态区域选择模块和属性分类器,根据训练图片、训练类别标签和训练类别原型,通过属性交叉熵损失的计算,完成对动态属性选择模块的训练。
4.1将训练好的视觉编码器、动态区域选择模块和属性分类器的参数全部冻结;
基于训练好的视觉编码器、动态区域选择模块和属性分类器对训练图片进行处理,得到训练全局视觉特征和精炼后的训练区域视觉特征。
4.2将训练全局视觉特征和精炼后的训练区域视觉特征输入到动态属性选择模块中,得到精炼后的训练类别原型;
本实施例中的动态属性选择模块包括第二线形层和第二激活函数;其中,第二线形层的数量为2个,分别为第二线形层1和第二线形层2;第二激活函数的数量为2个,分别为ReLU激活函数和Softmax激活函数。处理的顺序依次为:第二线性层1、ReLU激活函数、第二线性层2、Softmax激活函数。
通过第二线形层和第二激活函数,将训练全局视觉特征和精炼后的训练区域视觉特征之和映射成每个属性的权重,得到训练属性权重;
将训练属性权重与训练类别原型相乘后,得到精炼后的训练类别原型;
其中,训练属性权重的表达式如下:
式中,wattr表示初始训练属性权重,wattr∈RM,M为训练集给定属性的个数;σ2表示第二激活函数;表示第二线形层;zcls表示训练全局视觉特征;/>表示第k个区域的精炼后的训练区域视觉特征;N表示区域的数量;
训练的精炼后的类别原型的表达式如下:
式中,Amew表示精炼后的训练类别原型,Anew∈RC×M;A表示训练类别原型;表示哈达玛积运算;Wattr表示训练属性权重,wattr∈RC×M,由初始训练属性权重wattr利用广播机制扩展到C维得到,C为训练集中类别的个数。
4.3计算精炼后的训练区域视觉特征与精炼后的训练类别原型的属性交叉熵损失,属性交叉熵损失的表达式如下:
式中,Lattr表示属性交叉熵损失;表示第k个区域的训练区域视觉特征的预测结果;N表示区域的数量;/>表示精炼后的训练类别原型中训练图片对应的类别原型标签;/>表示精炼后的第j个可见类的类别原型;Cs为可见类的个数,<·,·>为内积操作。
通过最小化属性交叉熵损失,优化动态属性选择模块的的参数数据;
4.4重复回到4.1将训练全局视觉特征和精炼后的训练区域视觉特征输入到动态属性选择模块中的步骤,迭代优化参数数据,直至满足预设的第二迭代结束条件,完成动态属性选择模块的训练。
第二迭代结束条件可以根据实际需求进行设定,例如到达预设的最大迭代次数,或损失到达预设阈值。
至此,本模型的参数已经全部训练完成,得到了训练好的零样本学习分类模型,需要说明的是,在分类模块中,将全局视觉特征的预测结果和区域视觉特征的预测结果,分别与所述精炼后的类别原型进行相似度计算,取相似度值最高的预测结果作为所述图片对应的类别标签,具体表达式如下:
式中,表示图片对应的类别标签;argmax表示取较大值。
本实施例将训练好的零样本学习分类模型与其他方法做了对比实验,在CUB、SUN和AWA2数据集上的比较结果,H指标的值分别达到75.2、56.7和75.6,得到了比其他方法更加优异的准确率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于视觉的动态选择的零样本学习分类方法,其特征是,包括如下步骤:
获取待分类的图片;
将所述图片输入至训练好的零样本学习分类模型中,得到所述图片对应的类别标签;
其中,所述零样本学习分类模型包括:
视觉编码器,用于根据所述图片,进行编码处理,生成全局视觉特征和区域视觉特征;
动态区域选择模块,用于对所述全局视觉特征进行映射,得到区域权重;将所述区域权重和区域视觉特征进行相乘,得到精炼后的区域视觉特征;
属性分类器,用于根据所述全局视觉特征,得到全局视觉特征的预测结果;根据所述精炼后的区域视觉特征,得到区域视觉特征的预测结果;
动态属性选择模块,用于将所述全局视觉特征和精炼后的区域视觉特征融合后进行映射,得到属性权重;将所述属性权重与预设的所有的类别原型相乘后,得到精炼后的类别原型;
分类模块,用于将全局视觉特征的预测结果和区域视觉特征的预测结果,分别与所述精炼后的类别原型进行相似度计算,取相似度值最高的预测结果作为所述图片对应的类别标签。
2.根据权利要求1所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述零样本学习分类模型的训练方法如下:
获取训练集,所述训练集包括多个训练图片及所述训练图片对应的训练类别标签和训练类别原型;
根据所述训练图片和训练类别原型,通过区域交叉熵损失和全局交叉熵损失的计算,完成对视觉编码器、动态区域选择模块和属性分类器的训练;
基于训练好的视觉编码器、动态区域选择模块和属性分类器,根据所述训练图片、训练类别标签和训练类别原型,通过属性交叉熵损失的计算,完成对动态属性选择模块的训练。
3.根据权利要求2所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述视觉编码器、动态区域选择模块和属性分类器的训练步骤如下:
将所述训练图片输入至视觉编码器,得到训练全局视觉特征和训练区域视觉特征;
将所述训练全局视觉特征和训练区域视觉特征输入至动态区域选择模块,得到精炼后的训练区域视觉特征;
将所述训练全局视觉特征和精炼后的训练区域视觉特征输入至属性分类器,得到训练全局视觉特征的预测结果和训练区域视觉特征的预测结果;
计算所述训练全局视觉特征的预测结果与训练类别原型的全局交叉熵损失,以及所述训练区域视觉特征的预测结果与训练类别标签的区域交叉熵损失;
通过最小化所述全局交叉熵损失和区域交叉熵损失,同时优化视觉编码器、动态区域选择模块和属性分类器的参数数据;
重复回到依次通过视觉编码器、动态区域选择模块和属性分类器处理所述训练图片的步骤,迭代优化参数数据,直至满足预设的第一迭代结束条件,完成视觉编码器、动态区域选择模块和属性分类器的训练。
4.根据权利要求3所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述训练全局视觉特征和训练区域视觉特征的表达式如下:
(Zcls,Zregion)=E(x)
式中,zcls表示训练全局视觉特征;Zregion表示训练区域视觉特征;E表示视觉编码器;x表示训练图片。
5.根据权利要求3所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述动态区域选择模块包括第一线形层和第一激活函数;
得到精炼后的训练区域视觉特征,包括如下步骤:
通过第一线形层和第一激活函数,将所述训练全局视觉特征映射成每个区域的权重,得到训练区域权重;将所述训练区域权重与训练区域视觉特征依次相乘后得到精炼后的训练区域视觉特征;
其中,所述训练区域权重的表达式如下:
Wregion=σ11(Zcls))
式中,wregion表示训练区域权重,wregion∈RN,N为区域的数量;σ1表示第一激活函数;ψ1表示第一线形层;zcls表示训练全局视觉特征;
所述精炼后的训练区域视觉特征的表达式如下:
式中,表示第k个区域的精炼后的训练区域视觉特征;/>表示第k个区域的训练区域权重;/>表示第k个区域的训练区域视觉特征。
6.根据权利要求3所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述训练全局视觉特征的预测结果的表达式如下:
式中,表示训练全局视觉特征的预测结果;f表示属性分类器;zcls表示训练全局视觉特征;
所述训练区域视觉特征的预测结果的表达式如下:
式中,表示第k个区域的训练区域视觉特征的预测结果;/>表示第l个区域的精炼后的训练区域视觉特征。
7.根据权利要求3所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述全局交叉熵损失的表达式如下:
式中,Lcls表示全局交叉熵损失;log表示对数函数;exp表示以自然常数e为底的指数函数;ay表示训练图片对应的训练类别原型;aj表示第j个可见类的类别原型;Cs为可见类的个数,<·,·>为内积操作;表示训练全局视觉特征的预测结果;
所述区域交叉熵损失的表达式如下:
式中,Lregion表示区域交叉熵损失;k表示区域的序号;N表示区域的数量;表示第k个区域的训练区域视觉特征的预测结果。
8.根据权利要求2所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述动态属性选择模块的训练步骤如下:
基于训练好的视觉编码器、动态区域选择模块和属性分类器,得到训练全局视觉特征和精炼后的训练区域视觉特征;
将所述训练全局视觉特征和精炼后的训练区域视觉特征输入到动态属性选择模块中,得到精炼后的训练类别原型;计算所述精炼后的训练区域视觉特征与精炼后的训练类别原型的属性交叉熵损失;
通过最小化所述属性交叉熵损失,优化动态属性选择模块的的参数数据;
重复回到将所述训练全局视觉特征和精炼后的训练区域视觉特征输入到动态属性选择模块中的步骤,迭代优化参数数据,直至满足预设的第二迭代结束条件,完成动态属性选择模块的训练。
9.根据权利要求8所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述动态属性选择模块包括第二线形层和第二激活函数;
得到精炼后的训练类别原型,包括如下步骤:
通过第二线形层和第二激活函数,将训练全局视觉特征和精炼后的训练区域视觉特征之和映射成每个属性的权重,得到训练属性权重;
将所述训练属性权重与训练类别原型相乘后,得到精炼后的训练类别原型;
其中,所述训练属性权重的表达式如下:
式中,wattr表示初始训练属性权重;σ2表示第二激活函数;表示第二线形层;zcls表示训练全局视觉特征;/>表示第k个区域的精炼后的训练区域视觉特征;N表示区域的数量;
所述训练的精炼后的类别原型的表达式如下:
AneW=A☉Wattr
式中,Anew表示精炼后的训练类别原型;A表示训练类别原型;⊙表示哈达玛积运算;Wattr表示训练属性权重,由初始训练属性权重wattr利用广播机制扩展得到。
10.根据权利要求8所述的基于视觉的动态选择的零样本学习分类方法,其特征是,所述属性交叉熵损失的表达式如下:
式中,Lattr表示属性交叉熵损失;表示第k个区域的训练区域视觉特征的预测结果;N表示区域的数量;/>表示精炼后的训练类别原型中训练图片对应的类别原型标签;表示精炼后的第j个可见类的类别原型;Cs为可见类的个数,<·,·>为内积操作。
CN202311418537.5A 2023-10-30 2023-10-30 一种基于视觉的动态选择的零样本学习分类方法 Pending CN117372775A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311418537.5A CN117372775A (zh) 2023-10-30 2023-10-30 一种基于视觉的动态选择的零样本学习分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311418537.5A CN117372775A (zh) 2023-10-30 2023-10-30 一种基于视觉的动态选择的零样本学习分类方法

Publications (1)

Publication Number Publication Date
CN117372775A true CN117372775A (zh) 2024-01-09

Family

ID=89392617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311418537.5A Pending CN117372775A (zh) 2023-10-30 2023-10-30 一种基于视觉的动态选择的零样本学习分类方法

Country Status (1)

Country Link
CN (1) CN117372775A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118196428A (zh) * 2024-05-17 2024-06-14 贵州大学 一种用于组合零次学习的视觉属性表征学习方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118196428A (zh) * 2024-05-17 2024-06-14 贵州大学 一种用于组合零次学习的视觉属性表征学习方法

Similar Documents

Publication Publication Date Title
EP3779774B1 (en) Training method for image semantic segmentation model and server
CN110021439A (zh) 基于机器学习的医疗数据分类方法、装置和计算机设备
CN107957993B (zh) 英文句子相似度的计算方法及装置
CN110738102A (zh) 一种人脸识别方法及系统
WO2005091207A1 (en) System and method for patient identification for clinical trials using content-based retrieval and learning
CN117372775A (zh) 一种基于视觉的动态选择的零样本学习分类方法
CN111782826A (zh) 知识图谱的信息处理方法、装置、设备及存储介质
US11886779B2 (en) Accelerated simulation setup process using prior knowledge extraction for problem matching
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
Estevez-Velarde et al. AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text
CN112381079A (zh) 图像处理方法和信息处理设备
CN114913923A (zh) 针对单细胞染色质开放性测序数据的细胞类型识别方法
WO2023087063A1 (en) Method and system for analysing medical images to generate a medical report
CN114549470A (zh) 基于卷积神经网络和多粒度注意力的手骨关键性区域获取方法
CN112349409A (zh) 一种疾病类型预测方法、装置、设备及系统
CN115482418A (zh) 基于伪负标签的半监督模型训练方法、系统及应用
US11830227B2 (en) Learning apparatus and learning method for three-dimensional image
CN108304915B (zh) 一种深度学习神经网络的分解与合成方法和系统
Daniels et al. Exploiting visual and report-based information for chest x-ray analysis by jointly learning visual classifiers and topic models
Erickson et al. Magician’s corner: 4. image Segmentation with U-Net
CN113569018A (zh) 问答对挖掘方法及装置
CN115908923A (zh) 基于注意力引导3d神经网络的脑部磁共振图像分类系统
CN112686306B (zh) 基于图神经网络的icd手术分类自动匹配方法及系统
CN115331045A (zh) 基于神经网络自适应膨胀剪枝的视觉对象分类方法
WO2018139361A1 (ja) 情報処理システム、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination