CN116109877B - 组合式零样本图像分类方法、系统、设备及存储介质 - Google Patents

组合式零样本图像分类方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN116109877B
CN116109877B CN202310364487.0A CN202310364487A CN116109877B CN 116109877 B CN116109877 B CN 116109877B CN 202310364487 A CN202310364487 A CN 202310364487A CN 116109877 B CN116109877 B CN 116109877B
Authority
CN
China
Prior art keywords
feature
attribute
classifier
combined
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310364487.0A
Other languages
English (en)
Other versions
CN116109877A (zh
Inventor
王子磊
胡效鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310364487.0A priority Critical patent/CN116109877B/zh
Publication of CN116109877A publication Critical patent/CN116109877A/zh
Application granted granted Critical
Publication of CN116109877B publication Critical patent/CN116109877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种组合式零样本图像分类方法、系统、设备及存储介质,它们是对应的方案,方案中:构建基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器,基于子类信息感知的特征提取网络能够捕捉表征图像子类信息的视觉特征,基于子类信息调制的动态分类器能够根据图像的属性与物体所属子类的不同,动态调整相应分类器的权重,使得本发明能够对属于不同子类的原始概念进行针对性地识别(即分别对属性和物体的类别进行分类),从而解决传统的解耦式学习与合成式学习方法受到属性与物体的视觉特征耦合而造成的图像分类模型判别性下降的问题,实验结果表明本发明所提出的方法在组合式零样本图像分类任务上能够大幅提升分类准确率。

Description

组合式零样本图像分类方法、系统、设备及存储介质
技术领域
本发明涉及计算机视觉中的组合式零样本分类技术领域,尤其涉及一种组合式零样本图像分类方法、系统、设备及存储介质。
背景技术
计算机视觉中的图像分类方案能够辅助计算机系统自动地判定数字图像所属的语义类别,而目前基于深度学习的计算机视觉模型往往依赖大量由人工进行标注的训练数据。但是在现实应用场景之中,视觉图像的类别通常服从长尾分布,即存在着大量仅存在着少量训练数据的语义类别,因而为所有类别收集大量训练数据十分困难甚至并不可行。为了将计算机视觉系统对于训练阶段见过的类别的识别能力泛化到未知的类别之中,组合式零样本学习任务逐渐成为了计算机视觉领域的研究热点。
目前的组合式零样本学习方法主要的应用场景是用在图像分类任务之中,假定为每张训练图像都打上属性类别和物体类别的标签,而在测试数据中,所有的属性与物体都是属于在训练集中见过的类别,因此可以训练图像识别模型来对属于未见过的属性-物体组合类别的图像进行分类。主流的组合式零样本图像分类方法可以分为基于解耦式学习的方法与基于合成式学习的方法。一方面,基于解耦式学习的方法包含了属性分类分支与物体分类分支,两分支分别对于输入图像所包含的属性和物体类别进行分类,在训练阶段,对于属性和物体分类分支进行联合训练,而在测试阶段,使用直接相乘的方式结合两分支的预测,得到对于组合类别的预测结果。另一方面,基于合成式学习的方法需要预先使用自然语言处理的方法提取属性和物体类别的语义词向量,例如Glove词向量(全局词向量)等,并在训练阶段学习如何使用属性与物体词向量的组合生成对应组合类别的分类器,进而在测试阶段,可以使用相同的方式为训练中不可见的测试类别生成对应的类别分类器。
组合式零样本图像分类的最新进展同时包含了以上两种类型的学习方式。
一方面,对于基于解耦式学习的组合式零样本学习方法,2020年国际计算机视觉与模式识别会议(The Conference on Computer Vision and Pattern Recognition)上的一篇名为《Symmetry and Group in Attribute-Object Compositions》的文章提出了一种通过耦合和解耦等特征转换对概念的组合性质进行建模的方法,该方法提出对于特定属性所代表的特征转换,图像的物体特征应当关于该转换对称的正则化约束,此外该方法还提出了一种基于相对移动距离的识别方法,利用属性变化而非属性模式本身来对属性类别进行识别;2022年国际计算机视觉与模式识别会议(The Conference on Computer Visionand Pattern Recognition)上的一篇名为《Disentangling Visual Embeddings forAttributes and Objects》的文章克服了预训练的骨干特征提取网络无法捕捉到与属性相关的细节视觉特征的问题,该方法提出了用于改进解耦学习的亲和力模块,该模块能够识别具有相同概念的两张图像之间最为相似的特征,此外该方法还展示了如何通过解耦后的视觉特征来生成虚拟的特征表示,从而约束分类模型学习到更为一致的视觉特征。
另一方面,对于基于合成式学习的组合式零样本学习方法,2019年国际计算机视觉大会(IEEE International Conference on Computer Vision)上的一篇名为《Task-Driven Modular Networks for Zero-Shot Compositional Learning》的文章提出了一系列通过门函数进行配置的神经网络模块,该方法所使用的这些模块以输入任务作为门函数的激活条件,使任务能够表示为子任务的组合,并通过在测试阶段根据新类别的输入图像重新加权一组小模块来使模型的识别能力泛化到未见过的类别;2021年国际计算机视觉与模式识别会议(The Conference on Computer Vision and Pattern Recognition)上的一篇名为《Learning Graph Embeddings for Compositional Zero-shot Learning》的文章以端到端的方式学习图像特征、属性与物体分类器以及输入图像的视觉特征,该方法利用图神经网络模型来捕捉编码了各个概念之间的语义的联合兼容性。
尽管这些基于解耦式学习或基于合成式学习的方法能够在组合式零样本图像分类这一任务上取得较好的性能,但是组合式零样本图像任务主要存在着属性和物体的视觉表征之间相互耦合的问题。具体地,在某一属性与不同的物体组合的图像中,该属性的视觉表征会发生变化,类似地,某一图像的物体类别的视觉表征同样受到与其组合的属性类别所影响。一方面,基于解耦式学习的方法将属于同一类别的特征聚在一起,但同一类别中属于不同组合类别的概念所对应的视觉表征不一致,拉近其特征间距离会破坏模型的判别性,影响图像分类性能;另一方面,合成式学习方法通过直接对于组合类别进行分类而部分地解决了这一问题,但这类方法对于在不同组合之中的同一概念使用共享的词向量,而这一作为输入的词向量同样无法根据组合类别的不同而动态调整,此外,基于合成式学习方法的分类性能高度依赖于词向量的初始化方式,但是在现实应用场景中,受到计算资源等条件的限制,往往无法获得最优的词向量表征,进而限制了这类方法的图像分类性能。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种组合式零样本图像分类方法、系统、设备及存储介质,可以在组合式零样本图像分类任务上大幅提升分类准确率。
本发明的目的是通过以下技术方案实现的:
一种组合式零样本图像分类方法,包括:
构建组合式零样本图像分类模型并进行训练,其中,组合式零样本图像分类模型包括:基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器;所述基线分类模型对输入图像进行特征图提取,通过不同编码器对特征图进行编码,获得第一属性特征、第一物体特征与第一组合特征;所述基于子类信息感知的特征提取网络对所述第一组合特征进行解码获得第二属性特征与第二物体特征,以及对所述第一属性特征与第一物体特征进行编码获得第二组合特征;所述基于子类信息调制的动态分类器存储有属性分类器与物体分类器的权重,利用所述第一组合特征对属性分类器与物体分类器的权重分别进行动态更新;所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类,利用属性分类器与物体分类器的分类结果计算相应的分类损失;所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类,利用组合分类器的分类结果计算相应的分类损失;以及利用第一属性特征与第一物体特征分别构造对应的正负样本,计算相应的对比学习损失;结合所有分类损失与对比学习损失构造总损失函数训练所述组合式零样本图像分类模型;
训练完毕后,将待分类图像输入至训练后的组合式零样本图像分类模型,进行特征图提取并编码获得第一属性特征与第一物体特征,再对应的经属性分类器与物体分类器做进行分类,将属性分类结果与物体分类结果组合,作为组合类别的分类结果。
一种组合式零样本图像分类系统,包括:
模型构建与训练单元,用于构建组合式零样本图像分类模型并进行训练,其中,组合式零样本图像分类模型包括:基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器;所述基线分类模型对输入图像进行特征图提取,通过不同编码器对特征图进行编码,获得第一属性特征、第一物体特征与第一组合特征;所述基于子类信息感知的特征提取网络对所述第一组合特征进行解码获得第二属性特征与第二物体特征,以及对所述第一属性特征与第一物体特征进行编码获得第二组合特征;所述基于子类信息调制的动态分类器存储有属性分类器与物体分类器的权重,利用所述第一组合特征对属性分类器与物体分类器的权重分别进行动态更新;所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类,利用属性分类器与物体分类器的分类结果计算相应的分类损失;所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类,利用组合分类器的分类结果计算相应的分类损失;以及利用第一属性特征与第一物体特征分别构造对应的正负样本,计算相应的对比学习损失;结合所有分类损失与对比学习损失构造总损失函数训练所述组合式零样本图像分类模型;
分类单元,用于在训练完毕后,将待分类图像输入至训练后的组合式零样本图像分类模型,进行特征图提取并编码获得第一属性特征与第一物体特征,再对应的经属性分类器与物体分类器做进行分类,将属性分类结果与物体分类结果组合,作为组合类别的分类结果。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,通过构建基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器,基于子类信息感知的特征提取网络能够捕捉表征图像子类信息的视觉特征,而基于子类信息调制的动态分类器能够根据图像的属性与物体所属子类的不同,动态调整相应分类器的权重,使得本发明能够对属于不同子类的原始概念进行针对性地识别(也即通过属性分类器和物体分类器,分别对属性和物体的类别进行分类),从而解决传统的解耦式学习与合成式学习方法受到属性与物体的视觉特征耦合而造成的图像分类模型判别性下降的问题,实验结果表明本发明所提出的方法在组合式零样本图像分类任务上能够大幅提升分类准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种组合式零样本图像分类方法的流程图;
图2为本发明实施例提供的一种组合式零样本图像分类模型的结构示意图;
图3为本发明实施例提供的一种组合式零样本图像分类系统的示意图;
图4为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
下面对本发明所提供的一种组合式零样本图像分类方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
为了更好地解决属性与物体的视觉表征之间的耦合问题,本发明提供一种组合式零样本图像分类方法,为了方便表述,首先定义图像的每个属性类别和物体类别为原始概念,并定义属于不同组合类别的同一原始概念属于不同的子类,具体而言,一个组合类别是由属性与物体组合而成,例如,红色的苹果这一组合类别由红色这一属性类别与苹果这一物体类别组合而成。在本发明中,将不同组合类别中的同一个概念视为不同子类,例如,将红色苹果与黄色苹果这两个组合类别中的苹果这一物体类别,视为属于不同的子类。通过构建基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器,分别在模型的特征提取与特征分类两部分实现对于不同子类概念的精细识别,改善属性与物体的视觉表征高度耦合导致的对不同子类中概念的判别能力下降的问题,从而取得更优的组合式零样本图像分类的性能。
如图1所示,本发明实施例提供一种组合式零样本图像分类方法,主要包括如下步骤:
步骤1、构建组合式零样本图像分类模型并进行训练。
本发明实施例中,组合式零样本图像分类模型包括:基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器;所述基线分类模型对输入图像进行特征图提取,通过不同编码器对特征图进行编码,获得第一属性特征、第一物体特征与第一组合特征;所述基于子类信息感知的特征提取网络对所述第一组合特征进行解码获得第二属性特征与第二物体特征,以及对所述第一属性特征与第一物体特征进行编码获得第二组合特征;所述基于子类信息调制的动态分类器存储有属性分类器与物体分类器的权重,利用所述第一组合特征对属性分类器与物体分类器的权重分别进行动态更新;所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类,利用属性分类器与物体分类器的分类结果计算相应的分类损失;所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类,利用组合分类器的分类结果计算相应的分类损失;以及利用第一属性特征与第一物体特征分别构造对应的正负样本,计算相应的对比学习损失;结合所有分类损失与对比学习损失构造总损失函数训练所述组合式零样本图像分类模型。
步骤2、利用训练后的组合式零样本图像分类模型对待分类图像进行分类预测。
本发明实施例中,训练完毕后,将待分类图像输入至训练后的组合式零样本图像分类模型,进行特征图提取并编码获得第一属性特征与第一物体特征,再对应的经属性分类器与物体分类器做进行分类,将属性分类结果与物体分类结果组合,作为组合类别的分类结果。
本发明实施例提供的上述方案中,基于子类信息感知的特征提取网络能够捕捉表征图像子类信息的视觉特征,而基于子类信息调制的动态分类器能够根据图像的属性与物体所属子类的不同,动态调整相应分类器的权重;本发明通过构建基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器,能够对属于不同子类的原始概念进行针对性地识别(例如,能够针对红色苹果与黄色苹果中苹果这一物体的特征的变化而进行针对性地识别),从而解决传统的解耦式学习与合成式学习方法受到属性与物体的视觉特征耦合而造成的图像分类模型判别性下降的问题,实验结果表明本发明所提出的方法在组合式零样本图像分类任务上能够大幅提升模型分类准确率。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的上述方法进行详细描述。
一、构建组合式零样本图像分类模型。
本发明实施例构建的组合式零样本图像分类模型是一种基于子类信息学习的组合式零样本学习网络,主要包括:基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器三个部分,图2展示了组合式零样本图像分类模型主要结构,下面结合图2对以上三个部分分别进行详细的描述。
1、基线分类模型。
如图2所示,所述基线分类模型包括:特征提取网络与三个分支,三个分支为属性分类分支、物体分类分支与组合分类分支;属性分类分支包括:属性编码器与属性分类器;物体分类分支包括:物体编码器与物体分类器;组合分类分支包括:组合编码器与组合分类器。
所述特征提取网络,用于特征图提取,并将特征图分别输入至三个分支。
属性分类分支中,属性编码器用于对特征图进行编码变换,获得第一属性特征;属性分类器用于利用动态更新的属性分类器权重对第一属性特征进行分类。
物体分类分支中,物体编码器用于对特征图进行编码变换,获得第一物体特征;物体分类器,用于利用动态更新的物体分类器权重对第一物体特征进行分类。
组合分类分支中,组合编码器负责对特征图进行编码变换,获得第一组合特征;组合分类器,用于对第一组合特征与第二组合特征分别进行分类。
本发明实施例中,特征提取网络可以采用基础的深度卷积神经网络模型实现;例如,深度残差网络ResNet18模型中倒数前二层之前的部分,并在ImageNet数据集上进行预训练,之后固定不变,也就是说特征提取网络不参与组合式零样本图像分类模型的训练。
示例性的,对于给定的224*224分辨率的输入图像
Figure SMS_1
,通过特征提取网络输出输出维度为7*7*512的特征图/>
Figure SMS_2
。图2左侧给出了输入图像的示例,其中:旧、多彩的为输入图像的属性类别,汽车、楼房为输入图像的物体类别。
本发明实施例中,属性编码器
Figure SMS_3
、物体编码器/>
Figure SMS_4
与组合编码器/>
Figure SMS_5
可以采用相同的结构,例如,由1*1卷积层、批量归一化层与使用ReLU(线性整流函数)激活函数的全连接层以及全局平均池化层所组成。这三个编码器分别将特征提取网络输出的7*7*512维的特征图/>
Figure SMS_6
变换为512维的特征向量(即第一属性特征、第一物体特征与第一组合特征对应的向量)。
本发明实施例中,属性分类器
Figure SMS_7
、物体分类器/>
Figure SMS_8
与组合分类器/>
Figure SMS_9
分别输出输入图像的属性类别、物体类别以及组合类别的预测,其中组合分类器仅针对训练集中见过的组合类别进行识别。
本发明实施例中,三个分类器也可以采用相同的结构,例如,由包含ReLU激活函数的两层全连接层构成。
2、基于子类信息感知的特征提取网络。
如图2所示,所述基于子类信息感知的特征提取网络包括:属性解码器、物体解码器与虚拟组合编码器。
所述属性解码器,用于将第一组合特征映射至属性域,获得第二属性特征。
所述物体解码器,用于将第一组合特征映射至物体域,获得第二物体特征。
所述虚拟组合编码器,用于对第一属性特征与第一物体特征进行编码变换,获得第二组合特征。
本发明实施例中,一方面,构建额外的属性解码器与物体解码器以分别将第一组合特征解码至属性域与物体域之中,获得第二属性特征与第二物体特征。另一方面,利用额外的虚拟组合编码器根据第一属性特征与第一物体特征生成虚拟的组合特征(即第二组合特征)。
3、基于子类信息调制的动态分类器。
如图2所示,所述基于子类信息调制的动态分类器包括:属性调制器与物体调制器。所述属性调制器中存储有属性分类器的权重,所述属性调制器通过softmax函数对所述第一组合特征进行处理后,与存储的属性分类器的权重Hadamard乘法操作,再与存储的属性分类器的权重逐元素相加,获得动态更新的属性分类器的权重;所述物体调制器中存储有物体分类器的权重,所述物体调制器通过softmax函数对所述第一组合特征进行处理后,与存储的物体分类器的权重Hadamard乘法操作,再与存储的物体分类器的权重逐元素相加,获得动态更新的物体分类器的权重;其中,softmax函数为归一化指数函数,Hadamard为哈达玛乘积。
本发明实施例中,分别建立针对属性分类器的原型调制器和针对物体分类器的原型调制器,每个原型调制器中分别保存了属性或物体分类中的类别权重。此处的原型是指类别原型,也即分类器的权重。通过基于子类信息调制的动态分类器动态更新相应属性分类器与物体分类器的权重,然后使用动态更新的分类器的权重获取相应类别标签对应的权重,再与相应的特征(第一属性特征或第一物体特征)相乘,得到相应分类器的分类结果(即属于各个属性或物体类别的得分)。
二、训练组合式零样本图像分类模型。
本发明实施例中,端到端训练结合了基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器的组合式零样本图像分类模型。利用各分类损失与对比学习损失构成总损失函数对组合式零样本图像分类模型进行端到端地训练,使用自适应矩估计算法优化除特征提取网络外其他部分的模型参数。对于测试阶段的输入图像,使用属性分类分支与物体分类分支的输出相乘作为组合类别的预测结果,进而将测试样本分类至所有可行的组合中得分最高的组合类别。
1、分类损失。
(1)基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类,利用属性分类器与物体分类器的分类结果计算相应的分类损失。
本发明实施例中,基于子类信息调制的动态分类器能够根据输入图像的子类信息,对于基线分类模型中分类器所存储的类别原型进行动态调整。基于子类信息调制的动态分类器包括:属性调制器与物体调制器,它们分别存储有属性分类器与物体分类器的权重,分类器的权重与类别原型是相同的概念。将属性分类器与物体分类器的权重分别记为
Figure SMS_11
与/>
Figure SMS_13
。对表征了子类信息的第一组合特征进行softmax操作后,与分别/>
Figure SMS_16
、/>
Figure SMS_10
进行Hadamard乘法操作,从而学习各类别原型与子类原型之间的残差项。将这一残差项与/>
Figure SMS_14
、/>
Figure SMS_17
分别进行逐元素相加,得到根据子类信息调整后的属性与物体各类别原型(即动态更新的属性分类器与物体分类器的权重)/>
Figure SMS_19
、/>
Figure SMS_12
。使用第一属性特征、第一物体特征对应的与/>
Figure SMS_15
Figure SMS_18
进行相乘,得到属性、物体分类的各类别预测得分(分类结果),并使用交叉熵分类损失对属性与物体类别的分类进行优化。
具体的:将输入图像
Figure SMS_21
的第一属性特征记为/>
Figure SMS_25
,属性分类器利用动态更新的属性分类器的权重/>
Figure SMS_28
对第一属性特征/>
Figure SMS_23
进行分类,再根据属性分类器的分类结果/>
Figure SMS_26
计算相应的分类损失,称为基于调制的属性分类损失/>
Figure SMS_29
;将输入图像/>
Figure SMS_31
的第一物体特征记为/>
Figure SMS_20
,物体分类器利用动态更新的物体分类器的权重/>
Figure SMS_24
对第一物体特征/>
Figure SMS_27
进行分类,再根据物体分类器的分类结果/>
Figure SMS_30
计算相应的分类损失,称为基于调制的物体分类损失
Figure SMS_22
基于调制的属性分类损失
Figure SMS_32
与基于调制的物体分类损失/>
Figure SMS_33
分别表示为:
Figure SMS_34
Figure SMS_35
其中,exp表示以自然常数e为底的指数函数;A表示属性类别标签集合,
Figure SMS_37
为输入图像/>
Figure SMS_41
的属性类别标签,/>
Figure SMS_44
为属性类别标签集合A中的任意属性类别标签,/>
Figure SMS_36
表示从动态更新的属性分类器的权重/>
Figure SMS_40
中获取相应属性类别标签对应的权重;O表示物体类别标签集合,/>
Figure SMS_43
为图像/>
Figure SMS_45
的物体类别标签,/>
Figure SMS_38
为属性标签集合O中的任意物体类别标签,/>
Figure SMS_39
表示从动态更新的物体分类器的权重/>
Figure SMS_42
中获取相应物体类别标签对应的权重。
(2)基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类,利用组合分类器的分类结果计算相应的分类损失。
将输入图像
Figure SMS_48
的第一组合特征记为/>
Figure SMS_51
,第二组合特征记为/>
Figure SMS_53
,组合分类器对所述第一组合特征/>
Figure SMS_47
进行分类,再根据组合分类器的分类结果/>
Figure SMS_50
计算相应的分类损失,称为组合分类损失/>
Figure SMS_52
;以及,组合分类器对所述第二组合特征/>
Figure SMS_54
进行分类,再根据组合分类器的分类结果/>
Figure SMS_46
计算相应的分类损失,称为虚拟组合特征分类损失/>
Figure SMS_49
组合分类损失
Figure SMS_55
与虚拟组合特征分类损失/>
Figure SMS_56
分别表示为:
Figure SMS_57
Figure SMS_58
其中,exp表示以自然常数e为底的指数函数;
Figure SMS_59
为输入图像/>
Figure SMS_60
的组合类别标签,C表示组合类别标签集合,/>
Figure SMS_61
为组合类别标签集合中的任意组合类别标签,/>
Figure SMS_62
表示从组合分类器的权重/>
Figure SMS_63
中获取相应组合类别标签对应的权重。
本发明实施例中,虚拟组合编码器可以使用ReLU作为激活函数的两层全连接层,其输入为属性分类分支与物体分类分支的特征(即第一属性特征与第一物体特征)的拼接。将该虚拟组合编码器输出的第二组合特征输入至组合分类器,为使得第一属性特征与第一物体特征能够学习到概念的子类信息,约束第二组合特征同样能够被组合分类器正确分类,使用交叉熵损失对第二组合特征的分类进行约束,这部分虚拟组合特征分类损失
Figure SMS_64
构成了基于虚拟组合编码器输出的特征对齐损失。
2、对比损失。
本发明实施例中,利用第一属性特征与第一物体特征分别构造对应的正负样本,计算相应的对比学习损失。
本发明实施例中,基于子类信息感知的特征提取网络添加了两个分别将第一组合特征映射至属性域与物体域的解码器,即前文所述的属性解码器与物体解码器,这两个解码器均是由包含了ReLU激活层的两层全连接层所构成的,分别将第一组合特征映射为第二属性特征与第二物体特征。由于第一组合特征受到组合分类器的约束,因而第二属性特征与第二物体特征相比于第一属性特征与第一物体特征,能够包含更多子类判别性信息。将输入图像
Figure SMS_67
的第一属性特征记为/>
Figure SMS_72
,第一物体特征记为/>
Figure SMS_75
,第二属性特征记为/>
Figure SMS_65
,第二物体特征记为/>
Figure SMS_69
;对于输入图像/>
Figure SMS_73
的第一属性特征/>
Figure SMS_76
,将第二属性特征/>
Figure SMS_68
作为正样本,同一批次中属于不同组合类别的输入图像的第二属性特征作为负样本,计算属性对比学习损失/>
Figure SMS_71
;对于输入图像/>
Figure SMS_74
的第一物体特征/>
Figure SMS_77
,将第二物体特征/>
Figure SMS_66
作为正样本,同一批次中属于不同组合类别的输入图像的第二物体特征作为负样本,计算物体对比学习损失/>
Figure SMS_70
;基于这一正样本与负样本采样机制,使用基于特征相似度的对比学习机制进行训练,并引入温度参数控制较为相近的负样本的作用程度。
属性对比学习损失
Figure SMS_78
与物体对比学习损失/>
Figure SMS_79
分别表示为:
Figure SMS_80
Figure SMS_81
其中,exp表示以自然常数e为底的指数函数;
Figure SMS_82
表示同一批次中与输入图像/>
Figure SMS_83
属于不同组合类别的输入图像形成的集合,/>
Figure SMS_84
表示集合/>
Figure SMS_85
中的输入图像j的第二属性特征,/>
Figure SMS_86
表示集合/>
Figure SMS_87
中的输入图像l的第二物体特征;/>
Figure SMS_88
为温度参数,用于控制负样本的作用程度。
在训练阶段,总损失函数包括:组合分类损失
Figure SMS_89
、基于调制的属性分类损失/>
Figure SMS_90
、基于调制的物体分类损失/>
Figure SMS_91
、虚拟组合特征分类损失/>
Figure SMS_92
、以及属性对比学习损失/>
Figure SMS_93
与物体对比学习损失/>
Figure SMS_94
。本发明实施例中,可使用1作为权重分别对于以上6项损失函数进行加权,并使用加权后的各项损失函数之和作为总损失函数,端到端地优化除特征提取网络部分以外的各部分模型参数。
三、组合类别图像分类。
在测试阶段,本发明将基线分类模型中属性分类分支获得的属性预测得分(即属性分类器的分类结果)与物体分类分支获得的与物体预测得分(即物体分类器的分类结果)相乘,作为各个组合类别的得分,从中挑选出可行的组合中得分最高的组合类别,作为最终预测结果,从而完成对于未见过组合类别图像的分类。
本领域技术人员可以理解,两个分类器的输出分类结果是属于各个类别(属性类别或物体类别)的预测得分,通常情况下,将预测得分经过softmax(归一化指数函数)操作进行归一化后得到属于各个类别的概率。但是,由于归一化的过程并不影响最终的分类结果,因此此处直接使用两类预测得分相乘,相比使用概率相乘,减少了softmax操作。
本发明实施例中,可行的组合可以预先定义,假设数据集中包含有P个属性类别,Q个物体类别,这样总共构成P×Q个组合类别。但在实际情况中,部分属性和物体构成的组合不含任何意义。在数据集中已经预先定义好在这P×Q中的可行的组合。在测试阶段,只在这些可行的组合中选择得分最高的组合类别。
为了便于理解本发明并展示本发明的图像分类性能,下面结合具体实施例进行说明,主要包括:数据集构建、模型训练、模型性能比较三部分。
1、数据集构建。
本示例中,使用标准的组合式零样本图像分类数据集以测试本发明的有效性。UT-Zappos是包含50025张鞋类图像的中等规模数据集,其中22998张图像被划分为训练集,3214张图像被划分为验证集,2914张被划分为测试集,该数据集中的属性类别表征了鞋子的材质,物体类别表征了鞋子的型号。C-GQA则是包含了39298张自然图像的数据集,其中26920张图像用于构建训练集,7280张图像用于验证集,5098张图像用于测试集。相比之下,C-GQA包含了远远更多的属性类别与物体类别,因而使得在该数据集上的识别难度也远远更高。这两个数据集的划分方式信息如表1所示。
表1:数据集划分方式统计信息表
Figure SMS_95
2、模型训练。
本示例中,使用ResNet18模型作为特征提取网络,使用224*224作为输入图像的尺寸,并在训练阶段对输入图像使用随机裁剪和随机翻转变换等数据增强方式;本示例使用自适应矩估计算法对除去特征提取网络之外的模型参数进行优化,设置学习率为0.0001,权重参数下降为0.00005,将对比学习函数中的温度参数统一设置为0.05,并将特征对齐损失的权重设置为1。本发明使用英伟达GTX2080Ti GPU进行训练和测试,共训练50个epoch(轮次),并采用在验证集上分类效果最好的模型参数生成测试阶段的最终结果。
3、模型性能比较。
为了使用本发明所提出的方法对属于训练阶段未见过的组合类别的图像进行分类,使用泛化设定对本发明的性能进行评估。在泛化设定下,需要在测试阶段同时对属于见过的组合类别与未见过组合类别的样本进行分类,分别计算见过类别与未见过类别的逐类别准确率,并使用二者的调和平均作为最终的评价指标。注意到,在这一设定下,由于模型对于见过的类别存在一定的偏向,因此对见过的组合类别得分乘以一定的比例系数,以重新调整模型在见过类别和未见过类别的准确率。在此基础上,本发明通过调整该比例系数,可以得到一系列见过类别-未见过类别的准确率,进而计算该曲线与坐标轴所围成的面积。
在UT-Zappos数据集与C-GQA数据集上,本发明所提出方法与其他方法的分类结果如表2所示。
表2:组合式零样本图像分类结果比较结果
Figure SMS_96
其中,AUC 代表见过类别-未见过类别的准确率曲线与坐标轴围成的面积,HM代表最优的见过类别与未见过类别准确率的调和平均,S和U分别代表最优的见过类别准确率与未见过类别准确率。可以看出,与2018年欧洲计算机视觉国际会议上的论文《Attributesas Operators: Factorizing Unseen Attribute-Object Compositions》(Attop),2017年国际计算机视觉与模式识别会议上的论文《From Red Wine to Red Tomato: Compositionwith Context》(LE+),2019年国际计算机视觉大会上的论文《Task-Driven ModularNetworks for Zero-Shot Compositional Learning》(TMN),2020年国际计算机视觉与模式识别会议上的论文《Symmetry and Group in Attribute-Object Compositions》(SymNet),2021年国际计算机视觉与模式识别会议上的论文《Open World CompositionalZero-Shot Learning》(CompCos),2022年IEEE模式分析与机器智能汇刊上的论文《Learning Graph Embeddings for Open World Compositional Zero-Shot Learning》(CGE、Co-CGE),2022年国际计算机视觉与模式识别会议上的论文《Disentangling VisualEmbeddings for Attributes and Objects》(OADis)相比,本发明所提出的方法大幅提升了模型的组合式零样本图像分类性能,在UT-Zappos与C-GQA数据集上,考虑更为综合的AUC与HM两项指标,本发明所提出的方法均超出以上8种方法的最优指标,这验证了本发明所提出方法的有效性。
为了进一步验证本发明所提出方法中各个模块的有效性,在基线分类模型上分别添加基于解码器输出的对比学习损失
Figure SMS_97
(即/>
Figure SMS_98
)、虚拟组合特征分类损失/>
Figure SMS_99
以及原型调制模块M(包含物体调制器与属性调制器),并尝试各项模块之间的不同组合方式。各部分对于最终性能影响的结果比较结果如表3所示。
表3:各部分模块对于最终性能影响的结果比较
Figure SMS_100
其中,在未使用原型调制模块M时,不计算损失
Figure SMS_102
与/>
Figure SMS_107
,而是由基线分类模型中的属性分类器与物体分类器各自利用权重/>
Figure SMS_110
与/>
Figure SMS_103
进行属性分类与物体分类,结合分类结果计算属性分类损失/>
Figure SMS_106
与物体分类损失/>
Figure SMS_109
,计算公式也即将/>
Figure SMS_112
与/>
Figure SMS_101
公式中的/>
Figure SMS_105
、/>
Figure SMS_108
对应的替换为/>
Figure SMS_111
、/>
Figure SMS_104
根据表3可以看出,本发明所提出的各个部分均在一定程度上提升了组合式零样本图像分类模型的性能,说明特征层面以及分类器层面的子类信息识别能力的提升均能够为识别未见过的组合类别带来帮助。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例二
本发明还提供一种组合式零样本图像分类系统,其主要基于前述实施例提供的方法实现,如图3所示,该系统主要包括:
模型构建与训练单元,用于构建组合式零样本图像分类模型并进行训练,其中,组合式零样本图像分类模型包括:基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器;所述基线分类模型对输入图像进行特征图提取,通过不同编码器对特征图进行编码,获得第一属性特征、第一物体特征与第一组合特征;所述基于子类信息感知的特征提取网络对所述第一组合特征进行解码获得第二属性特征与第二物体特征,以及对所述第一属性特征与第一物体特征进行编码获得第二组合特征;所述基于子类信息调制的动态分类器存储有属性分类器与物体分类器的权重,利用所述第一组合特征对属性分类器与物体分类器的权重分别进行动态更新;所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类,利用属性分类器与物体分类器的分类结果计算相应的分类损失;所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类,利用组合分类器的分类结果计算相应的分类损失;以及利用第一属性特征与第一物体特征分别构造对应的正负样本,计算相应的对比学习损失;结合所有分类损失与对比学习损失构造总损失函数训练所述组合式零样本图像分类模型;
分类单元,用于在训练完毕后,将待分类图像输入至训练后的组合式零样本图像分类模型,进行特征图提取并编码获得第一属性特征与第一物体特征,再对应的经属性分类器与物体分类器做进行分类,将属性分类结果与物体分类结果组合,作为组合类别的分类结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图4所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种组合式零样本图像分类方法,其特征在于,包括:
构建组合式零样本图像分类模型并进行训练,其中,组合式零样本图像分类模型包括:基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器;所述基线分类模型对输入图像进行特征图提取,通过不同编码器对特征图进行编码,获得第一属性特征、第一物体特征与第一组合特征;所述基于子类信息感知的特征提取网络对所述第一组合特征进行解码获得第二属性特征与第二物体特征,以及对所述第一属性特征与第一物体特征进行编码获得第二组合特征;所述基于子类信息调制的动态分类器存储有属性分类器与物体分类器的权重,利用所述第一组合特征对属性分类器与物体分类器的权重分别进行动态更新;所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类,利用属性分类器与物体分类器的分类结果计算相应的分类损失;所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类,利用组合分类器的分类结果计算相应的分类损失;以及利用第一属性特征与第一物体特征分别构造对应的正负样本,计算相应的对比学习损失;结合所有分类损失与对比学习损失构造总损失函数训练所述组合式零样本图像分类模型;
训练完毕后,将待分类图像输入至训练后的组合式零样本图像分类模型,进行特征图提取并编码获得第一属性特征与第一物体特征,再对应的经属性分类器与物体分类器做进行分类,将属性分类结果与物体分类结果组合,作为组合类别的分类结果。
2.根据权利要求1所述的一种组合式零样本图像分类方法,其特征在于,所述基线分类模型包括:特征提取网络与三个分支,三个分支为属性分类分支、物体分类分支与组合分类分支;属性分类分支包括:属性编码器与属性分类器;物体分类分支包括:物体编码器与物体分类器;组合分类分支包括:组合编码器与组合分类器;其中:
所述特征提取网络,用于特征图提取,并将特征图分别输入至三个分支;
属性分类分支中,属性编码器用于对特征图进行编码变换,获得第一属性特征;属性分类器用于利用动态更新的属性分类器权重对第一属性特征进行分类;
物体分类分支中,物体编码器用于对特征图进行编码变换,获得第一物体特征;物体分类器,用于利用动态更新的物体分类器权重对第一物体特征进行分类;
组合分类分支中,组合编码器负责对特征图进行编码变换,获得第一组合特征;组合分类器,用于对第一组合特征与第二组合特征分别进行分类。
3.根据权利要求1所述的一种组合式零样本图像分类方法,其特征在于,所述基于子类信息感知的特征提取网络包括:属性解码器、物体解码器与虚拟组合编码器;其中:
所述属性解码器,用于将第一组合特征映射至属性域,获得第二属性特征;
所述物体解码器,用于将第一组合特征映射至物体域,获得第二物体特征;
所述虚拟组合编码器,用于对第一属性特征与第一物体特征进行编码变换,获得第二组合特征。
4.根据权利要求1所述的一种组合式零样本图像分类方法,其特征在于,所述基于子类信息调制的动态分类器包括:属性调制器与物体调制器;其中:
所述属性调制器中存储有属性分类器的权重,所述属性调制器通过softmax函数对所述第一组合特征进行处理后,与存储的属性分类器的权重Hadamard乘法操作,再与存储的属性分类器的权重逐元素相加,获得动态更新的属性分类器的权重;
所述物体调制器中存储有物体分类器的权重,所述物体调制器通过softmax函数对所述第一组合特征进行处理后,与存储的物体分类器的权重Hadamard乘法操作,再与存储的物体分类器的权重逐元素相加,获得动态更新的物体分类器的权重;
其中,softmax函数为归一化指数函数,Hadamard为哈达玛乘积。
5.根据权利要求1~4任一项所述的一种组合式零样本图像分类方法,其特征在于,所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类,利用属性分类器与物体分类器的分类结果计算相应的分类损失包括:
将输入图像
Figure QLYQS_2
的第一属性特征记为/>
Figure QLYQS_7
,属性分类器利用动态更新的属性分类器的权重
Figure QLYQS_10
对第一属性特征/>
Figure QLYQS_1
进行分类,再根据属性分类器的分类结果/>
Figure QLYQS_5
计算相应的分类损失,称为基于调制的属性分类损失/>
Figure QLYQS_8
;将输入图像/>
Figure QLYQS_11
的第一物体特征记为/>
Figure QLYQS_4
,物体分类器利用动态更新的物体分类器的权重/>
Figure QLYQS_6
对第一物体特征/>
Figure QLYQS_9
进行分类,再根据物体分类器的分类结果/>
Figure QLYQS_12
计算相应的分类损失,称为基于调制的物体分类损失/>
Figure QLYQS_3
基于调制的属性分类损失
Figure QLYQS_13
与基于调制的物体分类损失/>
Figure QLYQS_14
分别表示为:
Figure QLYQS_15
Figure QLYQS_16
其中,exp表示以自然常数e为底的指数函数;A表示属性类别标签集合,
Figure QLYQS_18
为输入图像
Figure QLYQS_21
的属性类别标签,/>
Figure QLYQS_24
为属性类别标签集合A中的任意属性类别标签,/>
Figure QLYQS_19
表示从动态更新的属性分类器的权重/>
Figure QLYQS_22
中获取相应属性类别标签对应的权重;O表示物体类别标签集合,
Figure QLYQS_25
为图像/>
Figure QLYQS_26
的物体类别标签,/>
Figure QLYQS_17
为属性标签集合O中的任意物体类别标签,/>
Figure QLYQS_20
表示从动态更新的物体分类器的权重/>
Figure QLYQS_23
中获取相应物体类别标签对应的权重。
6.根据权利要求1~4任一项所述的一种组合式零样本图像分类方法,其特征在于,所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类,利用组合分类器的分类结果计算相应的分类损失包括:
将输入图像
Figure QLYQS_27
的第一组合特征记为/>
Figure QLYQS_32
,第二组合特征记为/>
Figure QLYQS_34
,组合分类器对所述第一组合特征/>
Figure QLYQS_28
进行分类,再根据组合分类器的分类结果/>
Figure QLYQS_31
计算相应的分类损失,称为组合分类损失/>
Figure QLYQS_33
;以及,组合分类器对所述第二组合特征/>
Figure QLYQS_35
进行分类,再根据组合分类器的分类结果/>
Figure QLYQS_29
计算相应的分类损失,称为虚拟组合特征分类损失/>
Figure QLYQS_30
组合分类损失
Figure QLYQS_36
与虚拟组合特征分类损失/>
Figure QLYQS_37
分别表示为:
Figure QLYQS_38
Figure QLYQS_39
其中,exp表示以自然常数e为底的指数函数;
Figure QLYQS_40
为输入图像/>
Figure QLYQS_41
的组合类别标签,C表示组合类别标签集合,/>
Figure QLYQS_42
为组合类别标签集合中的任意组合类别标签,/>
Figure QLYQS_43
表示从组合分类器的权重/>
Figure QLYQS_44
中获取相应组合类别标签对应的权重。
7.根据权利要求1~4任一项所述的一种组合式零样本图像分类方法,其特征在于,所述利用第一属性特征与第一物体特征分别构造对应的正负样本,计算相应的对比学习损失包括:
将输入图像
Figure QLYQS_45
的第一属性特征记为/>
Figure QLYQS_46
,第一物体特征记为/>
Figure QLYQS_47
,第二属性特征记为/>
Figure QLYQS_48
,第二物体特征记为/>
Figure QLYQS_49
对于输入图像
Figure QLYQS_52
的第一属性特征/>
Figure QLYQS_54
,将第二属性特征/>
Figure QLYQS_56
作为正样本,同一批次中属于不同组合类别的输入图像的第二属性特征作为负样本,计算属性对比学习损失/>
Figure QLYQS_51
;对于输入图像/>
Figure QLYQS_53
的第一物体特征/>
Figure QLYQS_55
,将第二物体特征/>
Figure QLYQS_57
作为正样本,同一批次中属于不同组合类别的输入图像的第二物体特征作为负样本,计算物体对比学习损失/>
Figure QLYQS_50
属性对比学习损失
Figure QLYQS_58
与物体对比学习损失/>
Figure QLYQS_59
分别表示为:
Figure QLYQS_60
Figure QLYQS_61
其中,exp表示以自然常数e为底的指数函数;
Figure QLYQS_62
表示同一批次中与输入图像/>
Figure QLYQS_63
属于不同组合类别的输入图像形成的集合,/>
Figure QLYQS_64
表示集合/>
Figure QLYQS_65
中的输入图像j的第二属性特征,/>
Figure QLYQS_66
表示集合/>
Figure QLYQS_67
中的输入图像l的第二物体特征;/>
Figure QLYQS_68
为温度参数,用于控制负样本的作用程度。
8.一种组合式零样本图像分类系统,其特征在于,基于权利要求1~7任一项所述的方法实现,该系统包括:
模型构建与训练单元,用于构建组合式零样本图像分类模型并进行训练,其中,组合式零样本图像分类模型包括:基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器;所述基线分类模型对输入图像进行特征图提取,通过不同编码器对特征图进行编码,获得第一属性特征、第一物体特征与第一组合特征;所述基于子类信息感知的特征提取网络对所述第一组合特征进行解码获得第二属性特征与第二物体特征,以及对所述第一属性特征与第一物体特征进行编码获得第二组合特征;所述基于子类信息调制的动态分类器存储有属性分类器与物体分类器的权重,利用所述第一组合特征对属性分类器与物体分类器的权重分别进行动态更新;所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类,利用属性分类器与物体分类器的分类结果计算相应的分类损失;所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类,利用组合分类器的分类结果计算相应的分类损失;以及利用第一属性特征与第一物体特征分别构造对应的正负样本,计算相应的对比学习损失;结合所有分类损失与对比学习损失构造总损失函数训练所述组合式零样本图像分类模型;
分类单元,用于在训练完毕后,将待分类图像输入至训练后的组合式零样本图像分类模型,进行特征图提取并编码获得第一属性特征与第一物体特征,再对应的经属性分类器与物体分类器做进行分类,将属性分类结果与物体分类结果组合,作为组合类别的分类结果。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
CN202310364487.0A 2023-04-07 2023-04-07 组合式零样本图像分类方法、系统、设备及存储介质 Active CN116109877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310364487.0A CN116109877B (zh) 2023-04-07 2023-04-07 组合式零样本图像分类方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310364487.0A CN116109877B (zh) 2023-04-07 2023-04-07 组合式零样本图像分类方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116109877A CN116109877A (zh) 2023-05-12
CN116109877B true CN116109877B (zh) 2023-06-20

Family

ID=86265818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310364487.0A Active CN116109877B (zh) 2023-04-07 2023-04-07 组合式零样本图像分类方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116109877B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018032354A1 (en) * 2016-08-16 2018-02-22 Nokia Technologies Oy Method and apparatus for zero-shot learning
CN108875818A (zh) * 2018-06-06 2018-11-23 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
WO2019055114A1 (en) * 2017-09-12 2019-03-21 Hrl Laboratories, Llc VIEW-FREE VIEW-SENSITIVE SYSTEM FOR ATTRIBUTES THROUGH SHARED REPRESENTATIONS
CN110826638A (zh) * 2019-11-12 2020-02-21 福州大学 基于重复注意力网络的零样本图像分类模型及其方法
CN111738355A (zh) * 2020-07-22 2020-10-02 中国人民解放军国防科技大学 注意力融合互信息的图像分类方法、装置及存储介质
CN114387444A (zh) * 2021-12-24 2022-04-22 大连理工大学 一种基于负边界三元组损失和数据增强的零样本分类方法
CN114386534A (zh) * 2022-01-29 2022-04-22 安徽农业大学 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法
WO2022110158A1 (en) * 2020-11-30 2022-06-02 Intel Corporation Online learning method and system for action recongition
CN114821196A (zh) * 2022-06-08 2022-07-29 安徽大学 零样本图像识别方法及其识别装置、介质与计算机终端
CN114943961A (zh) * 2022-06-21 2022-08-26 北方民族大学 一种面向三维模型的零样本分类方法
CN114998613A (zh) * 2022-06-24 2022-09-02 安徽工业大学 一种基于深度互学习的多标记零样本学习方法
CN115170888A (zh) * 2022-07-25 2022-10-11 江苏大学 基于视觉信息和语义属性的电子元器件零样本识别模型及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724189A (zh) * 2021-03-17 2021-11-30 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109643384A (zh) * 2016-08-16 2019-04-16 诺基亚技术有限公司 用于零样本学习的方法和装置
WO2018032354A1 (en) * 2016-08-16 2018-02-22 Nokia Technologies Oy Method and apparatus for zero-shot learning
WO2019055114A1 (en) * 2017-09-12 2019-03-21 Hrl Laboratories, Llc VIEW-FREE VIEW-SENSITIVE SYSTEM FOR ATTRIBUTES THROUGH SHARED REPRESENTATIONS
CN108875818A (zh) * 2018-06-06 2018-11-23 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN110826638A (zh) * 2019-11-12 2020-02-21 福州大学 基于重复注意力网络的零样本图像分类模型及其方法
CN111738355A (zh) * 2020-07-22 2020-10-02 中国人民解放军国防科技大学 注意力融合互信息的图像分类方法、装置及存储介质
WO2022110158A1 (en) * 2020-11-30 2022-06-02 Intel Corporation Online learning method and system for action recongition
CN114387444A (zh) * 2021-12-24 2022-04-22 大连理工大学 一种基于负边界三元组损失和数据增强的零样本分类方法
CN114386534A (zh) * 2022-01-29 2022-04-22 安徽农业大学 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法
CN114821196A (zh) * 2022-06-08 2022-07-29 安徽大学 零样本图像识别方法及其识别装置、介质与计算机终端
CN114943961A (zh) * 2022-06-21 2022-08-26 北方民族大学 一种面向三维模型的零样本分类方法
CN114998613A (zh) * 2022-06-24 2022-09-02 安徽工业大学 一种基于深度互学习的多标记零样本学习方法
CN115170888A (zh) * 2022-07-25 2022-10-11 江苏大学 基于视觉信息和语义属性的电子元器件零样本识别模型及方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Zero-Shot Learning via Class-Conditioned Deep Generative Models;Wenlin Wang;《AAAI 2018》;全文 *
一种粒子群优化融合特征的零样本图像分类算法;陈雯柏;陈祥凤;刘琼;韩琥;;西北工业大学学报(06);全文 *
基于视觉误差与语义属性的零样本图像分类;徐戈等;计算机应用;40(04);全文 *
自上而下注意图分割的细粒度图像分类;冯语姗,王子磊;<中国图象图形学报>;第21卷(第9期);全文 *
面向零/少样本场景的弱监督 学习方法、应用与实现;冯良骏;《中国博士学位论文全文数据库(电子期刊)》;全文 *

Also Published As

Publication number Publication date
CN116109877A (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
Agnese et al. A survey and taxonomy of adversarial neural networks for text‐to‐image synthesis
CN110322416B (zh) 图像数据处理方法、装置以及计算机可读存储介质
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN109359559B (zh) 一种基于动态遮挡样本的行人再识别方法
CN112950661B (zh) 一种基于注意力生成对抗网络人脸卡通画生成方法
CN110796199B (zh) 一种图像处理方法、装置以及电子医疗设备
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
Seneviratne et al. DALLE-URBAN: Capturing the urban design expertise of large text to image transformers
CN110555896A (zh) 一种图像生成方法、装置以及存储介质
CN111104852B (zh) 一种基于启发式高斯云变换的人脸识别技术
CN101958000A (zh) 基于稀疏表示的人脸画像-照片生成方法
CN117315070A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN116977457A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN116612542A (zh) 基于多模态生物特征一致性的音视频人物识别方法及系统
CN111967331A (zh) 基于融合特征和字典学习的人脸表示攻击检测方法及系统
CN112580722B (zh) 一种基于条件对抗自动编码机的广义零样本图像识别方法
CN117131923A (zh) 一种针对跨模态学习的后门攻击方法及相关装置
CN111651660A (zh) 一种跨媒体检索困难样本的方法
CN116109877B (zh) 组合式零样本图像分类方法、系统、设备及存储介质
CN116578734A (zh) 一种基于clip的概率嵌入组合检索方法
CN114841887B (zh) 一种基于多层次差异学习的图像恢复质量评价方法
CN115965836A (zh) 一种语义可控的人体行为姿态视频数据扩增系统及方法
CN114937454A (zh) 一种声纹识别防语音合成攻击的方法、装置及存储介质
Jendoubi et al. Evidential two-step tree species recognition approach from leaves and bark

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant