CN117115564A - 基于跨模态概念发现与推理的图像分类方法及智能终端 - Google Patents

基于跨模态概念发现与推理的图像分类方法及智能终端 Download PDF

Info

Publication number
CN117115564A
CN117115564A CN202311352783.5A CN202311352783A CN117115564A CN 117115564 A CN117115564 A CN 117115564A CN 202311352783 A CN202311352783 A CN 202311352783A CN 117115564 A CN117115564 A CN 117115564A
Authority
CN
China
Prior art keywords
concept
text
reasoning
visual
conceptual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311352783.5A
Other languages
English (en)
Other versions
CN117115564B (zh
Inventor
何志海
张毅
张策
欧阳健
吴昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202311352783.5A priority Critical patent/CN117115564B/zh
Publication of CN117115564A publication Critical patent/CN117115564A/zh
Application granted granted Critical
Publication of CN117115564B publication Critical patent/CN117115564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于跨模态概念发现与推理的图像分类方法及智能终端,所述方法包括:预定义语义文本概念,以得到文本概念特征;通过语义文本概念特征和CLIP模型,从训练图像中提取视觉概念特征;根据视觉概念特征,构建概念推理模型,并对概念推理模型进行训练,得到训练过的概念推理模型;根据训练过的概念推理模型对所述待分类图像进行分类,得到分类结果。本发明利用CLIP模型强大的图文匹配能力,提出了一种新型的小样本学习分类模型,解决了现有小样本学习分类方法中类描述文本只匹配整幅图像,却忽略了一幅图像中包含多个语义物体,每个物体又包含多个概念的问题,大大提高了小样本学习分类以及领域适应的准确率与鲁棒性。

Description

基于跨模态概念发现与推理的图像分类方法及智能终端
技术领域
本发明涉及图像识别领域,具体涉及一种基于跨模态概念发现与推理的图像分类方法及智能终端。
背景技术
小样本学习图像分类是在只有少数训练样本和监督数据的情况下对新图像数据进行分类,旨在学习一个分类器,只使用有限数量的标记样本作为监督,对未见过的类进行识别。小样本分类有效的解决了昂贵的标记问题。传统的小样本学习方法通常需要从源域中的基础类别进行训练,这限制了它们的泛化能力。最近视觉-语言模型的进展展示了一种有前景的替代方法,它不依赖于源域训练数据集。通过冻结预训练的权重,并训练用于下游任务的附加可学习模块,这些模型可以在非常有限的训练数据情况下实现卓越的性能。
目前,基于视觉-语言预训练模型的小样本分类方法按照学习方式可分为两类,即基于提示语微调的方法以及基于适配器风格的方法。基于提示语微调的方法是利用视觉-语言大模型强大的图像与文本的匹配能力,设计精准的提示语,并引入可学习的上下文,用以从视觉-语言大模型中编码的丰富知识中提取与任务相关的信息。基于适配器风格的方法是在视觉-语言大模型的编码器之后添加神经网络,对编码器提取到的特征表示进行微调,可以更有效的对图像或者文本进行表示。但现有方法的模型直接用类别描述的文本去匹配整幅图像的特征并计算相似度来分类,没有考虑到一幅图像里包含多个语义对象,一个语义对象又包含多个视觉概念,导致模型非常容易受噪声的影响,鲁棒性较差。
因此,现有技术还有待于改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于跨模态概念发现与推理的图像分类方法及智能终端,旨在解决现有技术中直接用类别描述的文本去匹配整幅图像的特征并计算相似度来分类,没有考虑到一幅图像里包含多个语义对象,一个语义对象又包含多个视觉概念,导致模型非常容易受噪声的影响,鲁棒性较差的问题。
本发明解决技术问题所采用的技术方案如下:
第一方面,本发明提供一种基于跨模态概念发现与推理的图像分类方法,其中,所述方法包括:
获取训练图像和待分类图像;
预定义语义文本概念,并根据所述语义文本概念,得到文本概念特征;
通过所述语义文本概念特征和CLIP模型,从所述训练图像中提取视觉概念特征;
根据所述视觉概念特征,构建概念推理模型,并对所述概念推理模型进行训练,得到训练过的概念推理模型;
根据所述训练过的概念推理模型对所述待分类图像进行分类,得到分类结果。
在一种实现方式中,所述预定义语义文本概念,并根据所述语义文本概念,得到文本概念特征,包括:
构建视觉属性文本字典集,其中所述视觉属性文本字典集包括视觉属性单词,所述视觉属性单词包括颜色、纹理、形状、动作、材料、表情;
为所述视觉属性单词添加提示语,得到若干语义文本概念;
将所述语义文本概念输入文本编码器进行编码,得到若干文本概念特征。
在一种实现方式中,所述通过所述语义文本概念特征和CLIP模型,从所述训练图像中提取视觉概念特征,包括:
根据所述语义文本概念特征和所述训练图像,得到描述视觉概念;
将所述训练图像分类,并根据训练图像的类别,得到类别视觉概念;
结合所述描述视觉概念和类别视觉概念,得到视觉概念特征。
在一种实现方式中,所述根据所述语义文本概念特征和所述训练图像,得到描述视觉概念,包括:
将所述训练图像输入视觉编码器进行编码,得到图像特征;
计算每一个语义文本概念特征与所述图像特征的相似度,得到若干相似度得分;
根据预设的第一数量值选取相似度得分最高的文本概念特征,得到第一数量值个文本概念特征;
计算所述第一数量值个文本概念特征的加权平均值,得到所述描述视觉概念。
在一种实现方式中,所述将所述训练图像分类,并根据训练图像的类别,得到类别视觉概念,包括:
对于每个训练图像的类别,计算类别内所述图像特征的平均值,得到所述类别视觉概念。
在一种实现方式中,所述根据所述视觉概念特征,构建概念推理模型,并对所述概念推理模型进行训练,得到训练过的概念推理模型,包括:
构建概念推理模型,其中所述概念推理模型包括概念描述层和概念推理层,所述概念描述层用于计算训练图像的概念分数,所述概念描述层采用所述视觉概念特征初始化第一层权重,所述概念推理层用于根据所述训练图像的概念分数进行概念推理;
对所述概念推理模型进行训练,得到概念推理模型的logits函数和增强CLIP的logits函数;
根据所述概念推理模型的logits函数和增强CLIP的logits函数,得到总logits函数;
根据所述总logits函数,得到所述训练过的概念推理模型。
在一种实现方式中,所述对所述概念推理模型进行训练,得到概念推理模型的logits函数和增强CLIP的logits函数,包括:
将所述训练图像输入到所述概念推理模型进行概念推理,得到训练图像的归一化特征;
计算所述训练图像的归一化特征的相似度,并根据所述相似度,得到所述概念推理模型的logits函数;
预设可学习矩阵,将所述可学习矩阵附加到所述文本概念特征上,得到文本适配器;
根据所述文本适配器,得到所述增强CLIP的logits函数。
第二方面,本发明实施例还提供一种基于跨模态概念发现与推理的图像分类装置,其中,所述装置包括:
图像获取模块,用于获取训练图像和待分类图像;
文本概念特征获取模块,用于预定义语义文本概念,并根据所述语义文本概念,得到文本概念特征;
视觉概念特征获取模块,用于通过所述语义文本概念特征和CLIP模型,从所述训练图像中提取视觉概念特征;
模型构建模块,用于根据所述视觉概念特征,构建概念推理模型,并对所述概念推理模型进行训练,得到训练过的概念推理模型;
图像分类模块,用于根据所述训练过的概念推理模型对所述待分类图像进行分类,得到分类结果。
第三方面,本发明实施例还提供一种智能终端,其中,所述智能终端包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的基于跨模态概念发现与推理的图像分类程序,所述处理器执行所述基于跨模态概念发现与推理的图像分类程序时,实现如以上任一项所述的基于跨模态概念发现与推理的图像分类方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有基于跨模态概念发现与推理的图像分类程序,所述基于跨模态概念发现与推理的图像分类程序被处理器执行时,实现如以上任一项所述的基于跨模态概念发现与推理的图像分类方法的步骤。
有益效果:与现有技术相比,本发明提供了一种基于跨模态概念发现与推理的图像分类方法和智能终端。首先,获取训练图像和待分类图像,预定义语义文本概念,并根据所述语义文本概念,得到文本概念特征,从而考虑到了同一类别的图像通常包含多个不同的语义对象,这些对象对应不同的文本描述。然后,通过所述语义文本概念特征和CLIP模型,从所述训练图像中提取视觉概念特征,实现了自动从图像中发现了一组独特的视觉概念。接着根据所述视觉概念特征,构建概念推理模型,并对所述概念推理模型进行训练,得到训练过的概念推理模型,该概念推理模型使用视觉概念集合作为参数的初始化,这种概念级别的表示和推理能够提供更好的视觉和语言模态之间一致性。最后,根据所述训练过的概念推理模型对所述待分类图像进行分类,得到分类结果,通过本方法能够显著提高小样本分类以及领域泛化的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于跨模态概念发现与推理的图像分类方法流程示意图。
图2是本发明实施例提供的另一种基于跨模态概念发现与推理的图像分类方法流程示意图。
图3是本发明实施例提供的文本概念的前五个图像。
图4是本发明实施例提供的基于跨模态概念发现与推理的图像分类装置的原理框图。
图5是本发明实施例提供的智能终端的内部结构原理框图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。 应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
在小样本学习图像分类算法中,类别文本匹配的是整幅图像,当前基于视觉-语言大模型CLIP的小样本分类方法,使用的是类别描述的文本与整个图像进行匹配,但这种匹配方法并不有效,因为:
(1)同一类别的图像通常包含多个不同的语义对象,这些对象对应不同的文本描述。
(2)一个对象还由不同的语义部分组成,这些部分也有不同的文本描述。
(3)单独的语义对象和概念,可能出现在不同类别的图像样本中。
例如,“猫”和“汽车”图像都可能包含树对象,“汽车”和“卡车”图像都可能包含车轮的语义部分或相同的颜色概念。这种自然图像中视觉概念的混合将在尝试将特定类别的文本描述与整个图像匹配时出现问题。所以,如果只使用整幅图像匹配文本的方法,小样本学习分类的准确率是有限的。因此,如何利用语义对象及概念,来匹配文本,是提升分类性能的重要方法。
为了解决上述问题,本发明建立并学习了图像文本对的语义概念级别表示和推理。这种方法被称为概念学习和推理,为探索CLIP相关文本和图像的潜力提供了一种新的方法。基于CLIP强大的文本图像相关能力,本发明使用一组预定义的语义文本概念,自动从图像中发现一组独特的视觉概念。基于这些视觉概念,构建了图像的判别性表示,并学习了一个概念推理网络来执行下游图像分类任务。该概念级别的表示和推理能够提供更好的视觉和语言模态之间的一致性,从而导致更好的泛化能力。
示例性方法
本实施例提供一种基于跨模态概念发现与推理的图像分类方法。如图1所示,所述方法包括如下步骤:
步骤S100、获取训练图像和待分类图像;
具体地,小样本学习是机器学习的一个子领域,它涉及到在只有少数训练样本和监督数据的情况下对新数据进行分类。故在本申请中,只需少量的训练图像作为训练样本,模型就可以执行训练过程。
步骤S200、预定义语义文本概念,并根据所述语义文本概念,得到文本概念特征;
具体地,本实施例使用一组预定义的语义文本概念自动从训练图像中发现了一组独特的视觉概念,解决了描述文本只匹配整幅图像,却忽略了一幅图像中包含多个语义物体,每个物体又包含多个概念的问题。
在一种实现方式中,本实施例所述步骤S200具体包括:
步骤S201、构建视觉属性文本字典集,其中所述视觉属性文本字典集包括视觉属性单词,所述视觉属性单词包括颜色、纹理、形状、动作、材料、表情;
具体地,如图2所示,首先,构建一个大小为K的视觉属性文本字典集,用于描述所有图像中的主要视觉概念。该字典包含从现有的视觉属性数据集中收集的K = 1000个常见的视觉属性单词,包括描述颜色、纹理、形状、动作、材料、表情等单词。该词典中的一些示例单词,如图2所示。
步骤S202、为所述视觉属性单词添加提示语,得到若干语义文本概念;
步骤S203、将所述语义文本概念输入文本编码器进行编码,得到若干文本概念特征。
具体地,在本实施例中用表示该词典。在遵循CLIP的零样本设置下,首先将/>附加到人工设定的提示语/>=“This photo is”后面,构成概念文本输入/>。然后,可以用文本编码器/>生成文本概念特征/>,其中/>
步骤S300、通过所述语义文本概念特征和CLIP模型,从所述训练图像中提取视觉概念特征;
具体地,CLIP(Contrastive Language-Image Pre-Training)是一个在图像、文本对上训练的神经网络。它无需直接针对任务进行优化,就可以为给定的图像来预测最相关的文本片段。CLIP 在 ImageNet“零样本”上可以达到原始 ResNet50 的性能,而且需要不使用任何标记示例。在本实施例中,通过CLIP模型,从训练图像中提取视觉概念特征,以实现视觉和语言模态之间的一致。
在一种实现方式中,本实施例所述步骤S300具体包括:
步骤S301、根据所述语义文本概念特征和所述训练图像,得到描述视觉概念;
在一种实现方式中,本实施例所述步骤S301具体包括:
步骤S3011、将所述训练图像输入视觉编码器进行编码,得到图像特征;
具体地,在本实施例中的小样本学习和领域泛化方法中,通过使用文本概念特征T和CLIP模型从训练图像中发现一组视觉概念。例如,对于M-shot N-class小样本学习,在每个N类中有M个带注释的图像。训练集表示为使用CLIP视觉编码器/>,可以生成它们的图像特征/>,其中/>
步骤S3012、计算每一个语义文本概念特征与所述图像特征的相似度,得到若干相似度得分;
步骤S3013、根据预设的第一数量值选取相似度得分最高的文本概念特征,得到第一数量值个文本概念特征;
步骤S3014、计算所述第一数量值个文本概念特征的加权平均值,得到所述描述视觉概念。
具体地,对于T中的每个文本概念特征t,使用公式计算t与V中每个视觉特征之间的相似度得分。因此,对于每个文本概念特征t,有M×N个相似度得分。然后,选择具有最高相似度得分的前I个图像特征,再计算这些前I个图像特征的加权平均值,其中I为第一数量值。通过这种方式,对于所有文本概念,已经获得了它们对应的视觉概念。在本工作中,这组视觉概念被称描述视觉概念。图3显示了由视觉概念发现过程选择的四个不同文本概念的前五个图像,以展示我们方法的有效性。
步骤S302、将所述训练图像分类,并根据训练图像的类别,得到类别视觉概念;
在一种实现方式中,本实施例所述步骤S302具体包括:
步骤S3021、对于每个训练图像的类别,计算类别内所述图像特征的平均值,得到所述类别视觉概念;
具体地,本实施例还构建了类别视觉概念。具体而言,对于每个训练图像的类别,计算视觉编码器生成的M-shot图像的平均特征。然后,即可获得N个类别的平均特征。
步骤S303、结合所述描述视觉概念和类别视觉概念,得到视觉概念特征。
具体地,本实施例通过结合描述和类别的视觉概念来构建视觉概念特征,从而解决了现有的小样本学习图像分类算法中,类别文本匹配的是整幅图像没有考虑到同一类别的图像通常包含多个语义对象,而这些语义对象又可能由多个语义部分或者概念组成。单个语义的部分或者概念可能出现在不同类别的图像样本中的问题。
步骤S400、根据所述视觉概念特征,构建概念推理模型,并对所述概念推理模型进行训练,得到训练过的概念推理模型;
具体地,基于视觉概念特征,我们构建了构建概念推理模型,通过学习了、概念推理网络来执行下游图像分类任务。这种概念级别的表示和推理能够提供更好的视觉和语言模态之间的一致性,从而导致更好的泛化能力。
在一种实现方式中,本实施例所述步骤S400具体包括:
步骤S401、构建概念推理模型,其中所述概念推理模型包括概念描述层和概念推理层,所述概念描述层用于计算训练图像的概念分数,所述概念描述层采用所述视觉概念特征初始化第一层权重,所述概念推理模型用于根据所述训练图像的概念分数进行概念推理;
具体地,在概念推理期间,使用视觉概念来表示输入图像。如图2所示,基于这种视觉概念表示,我们学习了一个推理网络来对图像进行分类。我们的概念推理网络是在CLIP图像编码器之后的两层网络。我们使用来初始化第一层概念描述层的权重/>,这样当输入特征与更兼容的概念特征一致时,就可以得到更高的概念分数。然后,网络的第二层的概念推理模型整合了输入图像的所有概念分数,并进行了有效的概念推理。这个两层网络被称为概念推理模型。该概念推理模型可表示为:
步骤S402、对所述概念推理模型进行训练,得到概念推理模型的logits函数和增强CLIP的logits函数;
具体地,logits函数是一种常用于机器学习中的函数,它将输入的数值转换为一个范围在负无穷到正无穷之间的值。这个函数通常用于将输出层的原始预测转换为概率分布,以便进行分类任务。本实施例中,通过对概念推理模型进行训练,得到概念推理模型的logits函数和增强CLIP的logits函数,从而,将图像特征和文本特征结合,以提高分类的准确性。
在一种实现方式中,本实施例所述步骤S402具体包括:
步骤S4021、将所述训练图像输入到所述概念推理模型进行概念推理,得到训练图像的归一化特征;
步骤S4022、计算所述训练图像的归一化特征的相似度,并根据所述相似度,得到所述概念推理模型的logits函数;
具体地,在训练过程中,权重W1和W2通过梯度下降进行更新。在监督学习后,可以优化概念特征,以学习更具有区分性的概念级表示。在概念推理模型之上,可以进一步计算相似性,如下所示:
其中,δ是一个超参数,用于调整锐度,控制最兼容的概念视觉特征对最终预测的影响。指数函数用于将输出转换为非负值。
给定训练图像的L2归一化特征v,它是由视觉编码器生成的,概念推理模型的logits可以表示为:
步骤S4023、预设可学习矩阵,将所述可学习矩阵附加到所述文本概念特征上,得到文本适配器;
步骤S4024、根据所述文本适配器,得到所述增强CLIP的logits函数。
具体地,通过将可学习矩阵附加到文本编码器生成的文本特征/>来增强原始的CLIP。本实施例中的方法直接对文本编码器生成的文本特征进行操作,因此在训练期间无需每次对文本进行编码。这样保留了CLIP的原始知识,同时也允许以高效的方式获取小样本学习的知识。将文本适配器定义为/>,其中Z是与/>具有相同形状的可学习矩阵,/>是一个超参数,用于控制我们使用Z与/>相结合的程度。增强CLIP的logits为:
其中,v是由生成的图像特征。在训练过程中,Z通过梯度下降进行更新。对于每个任务,我们学习一个特定于该任务的文本适配器Z,文本适配器使得文本特征在经过训练之后,够更加匹配图像特征,以提高分类的准确率以及鲁棒性,通过这种方式,我们可以保留CLIP的先前知识,并获得来自新任务的知识,以使CLIP能够更好地适应下游任务。
步骤S403、根据所述概念推理模型的logits函数和增强CLIP的logits函数,得到总logits函数;
步骤S404、根据所述总logits函数,得到所述训练过的概念推理模型。
具体地,在few-shot学习期间,结合概念推理和文本适配器的输出logits,将用于最终分类的输入图像v的总logits计算为:
其中,是一个超参数,用于控制增强CLIP的概念推理和文本适配器中不同logits的比率。/>表示所有可学习参数。
步骤S500、根据所述训练过的概念推理模型对所述待分类图像进行分类,得到分类结果。
具体地,通过训练过的概念推理模型对所述待分类图像进行分类,实现了利用语义对象及概念,来匹配文本,提升了分类性能。通过利用文本概念与适配器的方法,提出新型的小样本学习图像分类模型大幅提高小样本学习图像分类的准确率与鲁棒性。广泛的实验结果表明,本实施例的方法能够显著提高小样本分类以及领域泛化的性能。
示例性装置
如图4中所示,本实施例还提供一种基于跨模态概念发现与推理的图像分类装置,所述装置包括:
图像获取模块10,用于获取训练图像和待分类图像;
文本概念特征获取模块20,用于预定义语义文本概念,并根据所述语义文本概念,得到文本概念特征;
视觉概念特征获取模块30,用于通过所述语义文本概念特征和CLIP模型,从所述训练图像中提取视觉概念特征;
模型构建模块40,用于根据所述视觉概念特征,构建概念推理模型,并对所述概念推理模型进行训练,得到训练过的概念推理模型;
图像分类模块50,用于根据所述训练过的概念推理模型对所述待分类图像进行分类,得到分类结果
在一种实现方式中,所述文本概念特征获取模块20包括:
字典集构建单元,用于构建视觉属性文本字典集,其中所述视觉属性文本字典集包括视觉属性单词,所述视觉属性单词包括颜色、纹理、形状、动作、材料、表情;
语义文本概念生成单元,用于为所述视觉属性单词添加提示语,得到若干语义文本概念;
文本概念特征获取单元,用于将所述语义文本概念输入文本编码器进行编码,得到若干文本概念特征。
在一种实现方式中,所述视觉概念特征获取模块30包括:
描述视觉概念获取单元,用于根据所述语义文本概念特征和所述训练图像,得到描述视觉概念;
类别视觉概念获取单元,用于将所述训练图像分类,并根据训练图像的类别,得到类别视觉概念;
视觉概念特征获取单元,用于结合所述描述视觉概念和类别视觉概念,得到视觉概念特征。
在一种实现方式中,所述描述视觉概念获取单元包括:
图像特征编码子单元,用于将所述训练图像输入视觉编码器进行编码,得到图像特征;
相似度得分计算子单元,用于计算每一个语义文本概念特征与所述图像特征的相似度,得到若干相似度得分;
文本概念特征获取子单元,用于根据预设的第一数量值选取相似度得分最高的文本概念特征,得到第一数量值个文本概念特征;
加权平均子单元,用于计算所述第一数量值个文本概念特征的加权平均值,得到所述描述视觉概念。
在一种实现方式中,所述类别视觉概念获取单元包括:
类别视觉概念获取子单元,用于对于每个训练图像的类别,计算类别内所述图像特征的平均值,得到所述类别视觉概念;
在一种实现方式中,所述模型构建模块40包括:
模型构建单元,用于构建概念推理模型,其中所述概念推理模型包括概念描述层和概念推理层,所述概念描述层用于计算训练图像的概念分数,所述概念描述层采用所述视觉概念特征初始化第一层权重,所述概念推理层用于根据所述训练图像的概念分数进行概念推理;
函数获取单元,用于对所述概念推理模型进行训练,得到概念推理模型的logits函数和增强CLIP的logits函数;
函数结合单元,用于根据所述概念推理模型的logits函数和增强CLIP的logits函数,得到总logits函数;
概念推理模型获取单元,用于根据所述总logits函数,得到所述训练过的概念推理模型。
在一种实现方式中,本实施例所述函数获取单元包括:
概念推理子单元,用于将所述训练图像输入到所述概念推理模型进行概念推理,得到训练图像的归一化特征;
第一函数获取子单元,用于计算所述训练图像的归一化特征的相似度,并根据所述相似度,得到所述概念推理模型的logits函数;
文本适配器获取子单元,用于预设可学习矩阵,将所述可学习矩阵附加到所述文本概念特征上,得到文本适配器;
第二函数获取子单元,用于根据所述文本适配器,得到所述增强CLIP的logits函数。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图5所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于跨模态概念发现与推理的图像分类方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。
本领域技术人员可以理解,图5中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,智能终端包括存储器、处理器及存储在存储器中并可在处理器上运行的基于跨模态概念发现与推理的图像分类程序,处理器执行基于跨模态概念发现与推理的图像分类程序时,实现如下操作指令:
获取训练图像和待分类图像;
预定义语义文本概念,并根据所述语义文本概念,得到文本概念特征;
通过所述语义文本概念特征和CLIP模型,从所述训练图像中提取视觉概念特征;
根据所述视觉概念特征,构建概念推理模型,并对所述概念推理模型进行训练,得到训练过的概念推理模型;
根据所述训练过的概念推理模型对所述待分类图像进行分类,得到分类结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、运营数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双运营数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上,本发明公开了一种基于跨模态概念发现与推理的图像分类方法,所述方法包括:预定义语义文本概念,以得到文本概念特征;通过语义文本概念特征和CLIP模型,从训练图像中提取视觉概念特征;根据视觉概念特征,构建概念推理模型,并对概念推理模型进行训练,得到训练过的概念推理模型;根据训练过的概念推理模型对所述待分类图像进行分类,得到分类结果。本发明利用CLIP模型强大的图文匹配能力,提出了一种新型的小样本学习分类模型,解决了现有小样本学习分类方法中类描述文本只匹配整幅图像,却忽略了一幅图像中包含多个语义物体,每个物体又包含多个概念的问题,大大提高了小样本学习分类以及领域适应的准确率与鲁棒性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于跨模态概念发现与推理的图像分类方法,其特征在于,所述方法包括:
获取训练图像和待分类图像;
预定义语义文本概念,并根据所述语义文本概念,得到文本概念特征;
通过所述语义文本概念特征和CLIP模型,从所述训练图像中提取视觉概念特征;
根据所述视觉概念特征,构建概念推理模型,并对所述概念推理模型进行训练,得到训练过的概念推理模型;
根据所述训练过的概念推理模型对所述待分类图像进行分类,得到分类结果。
2.根据权利要求1所述的基于跨模态概念发现与推理的图像分类方法,其特征在于,所述预定义语义文本概念,并根据所述语义文本概念,得到文本概念特征,包括:
构建视觉属性文本字典集,其中所述视觉属性文本字典集包括视觉属性单词,所述视觉属性单词包括颜色、纹理、形状、动作、材料、表情;
为所述视觉属性单词添加提示语,得到若干语义文本概念;
将所述语义文本概念输入文本编码器进行编码,得到若干文本概念特征。
3.根据权利要求1所述的基于跨模态概念发现与推理的图像分类方法,其特征在于,所述通过所述语义文本概念特征和CLIP模型,从所述训练图像中提取视觉概念特征,包括:
根据所述语义文本概念特征和所述训练图像,得到描述视觉概念;
将所述训练图像分类,并根据训练图像的类别,得到类别视觉概念;
结合所述描述视觉概念和类别视觉概念,得到视觉概念特征。
4.根据权利要求3所述的基于跨模态概念发现与推理的图像分类方法,其特征在于,所述根据所述语义文本概念特征和所述训练图像,得到描述视觉概念,包括:
将所述训练图像输入视觉编码器进行编码,得到图像特征;
计算每一个语义文本概念特征与所述图像特征的相似度,得到若干相似度得分;
根据预设的第一数量值选取相似度得分最高的文本概念特征,得到第一数量值个文本概念特征;
计算所述第一数量值个文本概念特征的加权平均值,得到所述描述视觉概念。
5.根据权利要求3所述的基于跨模态概念发现与推理的图像分类方法,其特征在于,所述将所述训练图像分类,并根据训练图像的类别,得到类别视觉概念,包括:
对于每个训练图像的类别,计算类别内所述图像特征的平均值,得到所述类别视觉概念。
6.根据权利要求3所述的基于跨模态概念发现与推理的图像分类方法,其特征在于,所述根据所述视觉概念特征,构建概念推理模型,并对所述概念推理模型进行训练,得到训练过的概念推理模型,包括:
构建概念推理模型,其中所述概念推理模型包括概念描述层和概念推理层,所述概念描述层用于计算训练图像的概念分数,所述概念描述层采用所述视觉概念特征初始化第一层权重,所述概念推理层用于根据所述训练图像的概念分数进行概念推理;
对所述概念推理模型进行训练,得到概念推理模型的logits函数和增强CLIP的logits函数;
根据所述概念推理模型的logits函数和增强CLIP的logits函数,得到总logits函数;
根据所述总logits函数,得到所述训练过的概念推理模型。
7.根据权利要求1所述的基于跨模态概念发现与推理的图像分类方法,其特征在于,所述对所述概念推理模型进行训练,得到概念推理模型的logits函数和增强CLIP的logits函数,包括:
将所述训练图像输入到所述概念推理模型进行概念推理,得到训练图像的归一化特征;
计算所述训练图像的归一化特征的相似度,并根据所述相似度,得到所述概念推理模型的logits函数;
预设可学习矩阵,将所述可学习矩阵附加到所述文本概念特征上,得到文本适配器;
根据所述文本适配器,得到所述增强CLIP的logits函数。
8.一种基于跨模态概念发现与推理的图像分类装置,其特征在于,所述装置包括:
图像获取模块,用于获取训练图像和待分类图像;
文本概念特征获取模块,用于预定义语义文本概念,并根据所述语义文本概念,得到文本概念特征;
视觉概念特征获取模块,用于通过所述语义文本概念特征和CLIP模型,从所述训练图像中提取视觉概念特征;
模型构建模块,用于根据所述视觉概念特征,构建概念推理模型,并对所述概念推理模型进行训练,得到训练过的概念推理模型;
图像分类模块,用于根据所述训练过的概念推理模型对所述待分类图像进行分类,得到分类结果。
9.一种智能终端,其特征在于,所述智能终端包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的基于跨模态概念发现与推理的图像分类程序,所述处理器执行所述基于跨模态概念发现与推理的图像分类程序时,实现如权利要求1-7任一项所述的基于跨模态概念发现与推理的图像分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于跨模态概念发现与推理的图像分类程序,所述基于跨模态概念发现与推理的图像分类程序被处理器执行时,实现如权利要求1-7任一项所述的基于跨模态概念发现与推理的图像分类方法的步骤。
CN202311352783.5A 2023-10-19 2023-10-19 基于跨模态概念发现与推理的图像分类方法及智能终端 Active CN117115564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311352783.5A CN117115564B (zh) 2023-10-19 2023-10-19 基于跨模态概念发现与推理的图像分类方法及智能终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311352783.5A CN117115564B (zh) 2023-10-19 2023-10-19 基于跨模态概念发现与推理的图像分类方法及智能终端

Publications (2)

Publication Number Publication Date
CN117115564A true CN117115564A (zh) 2023-11-24
CN117115564B CN117115564B (zh) 2024-03-26

Family

ID=88809381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311352783.5A Active CN117115564B (zh) 2023-10-19 2023-10-19 基于跨模态概念发现与推理的图像分类方法及智能终端

Country Status (1)

Country Link
CN (1) CN117115564B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376610A (zh) * 2018-09-27 2019-02-22 南京邮电大学 视频监控中基于图像概念网络的行人不安全行为检测方法
CN113221882A (zh) * 2021-05-11 2021-08-06 西安交通大学 一种面向课程领域的图像文本聚合方法及系统
US20220284343A1 (en) * 2021-03-05 2022-09-08 International Business Machines Corporation Machine teaching complex concepts assisted by computer vision and knowledge reasoning
CN115797498A (zh) * 2022-11-24 2023-03-14 西安电子科技大学 一种基于视觉概念图表示的人-模型交互解释引导方法、电子设备和存储介质
CN116069905A (zh) * 2023-03-09 2023-05-05 阿里巴巴(中国)有限公司 图像文本模型处理方法及图像文本检索系统
CN116204674A (zh) * 2023-04-28 2023-06-02 中国科学技术大学 一种基于视觉概念词关联结构化建模的图像描述方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376610A (zh) * 2018-09-27 2019-02-22 南京邮电大学 视频监控中基于图像概念网络的行人不安全行为检测方法
US20220284343A1 (en) * 2021-03-05 2022-09-08 International Business Machines Corporation Machine teaching complex concepts assisted by computer vision and knowledge reasoning
CN113221882A (zh) * 2021-05-11 2021-08-06 西安交通大学 一种面向课程领域的图像文本聚合方法及系统
CN115797498A (zh) * 2022-11-24 2023-03-14 西安电子科技大学 一种基于视觉概念图表示的人-模型交互解释引导方法、电子设备和存储介质
CN116069905A (zh) * 2023-03-09 2023-05-05 阿里巴巴(中国)有限公司 图像文本模型处理方法及图像文本检索系统
CN116204674A (zh) * 2023-04-28 2023-06-02 中国科学技术大学 一种基于视觉概念词关联结构化建模的图像描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YI ZHANG ET AL.: "Cross-Modal Concept Learning and Inference for Vision-Language Models", 《ARXIV:2307.15460V1》, pages 1 - 13 *
赵涓涓;陈俊杰;刘嘉琳;许伟忠;: "以本体为核心的图像情感语义检索模型", 计算机应用, no. 05, pages 240 - 242 *

Also Published As

Publication number Publication date
CN117115564B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
WO2022057776A1 (zh) 一种模型压缩方法及装置
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN116415654A (zh) 一种数据处理方法及相关设备
CN112257449B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN111553479A (zh) 一种模型蒸馏方法、文本检索方法及装置
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN112863494B (zh) 基于半监督对抗变分自编码的语音情感识别方法及系统
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN114841151B (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN111985207B (zh) 一种访问控制策略的获取方法、装置及电子设备
CN116775872A (zh) 一种文本处理方法、装置、电子设备及存储介质
CN112000778A (zh) 一种基于语义识别的自然语言处理方法、装置和系统
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
EP4318322A1 (en) Data processing method and related device
CN114492661A (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN113377844A (zh) 面向大型关系型数据库的对话式数据模糊检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant