CN116363446A - 一种零样本图像分类方法、装置、终端及介质 - Google Patents

一种零样本图像分类方法、装置、终端及介质 Download PDF

Info

Publication number
CN116363446A
CN116363446A CN202211640642.9A CN202211640642A CN116363446A CN 116363446 A CN116363446 A CN 116363446A CN 202211640642 A CN202211640642 A CN 202211640642A CN 116363446 A CN116363446 A CN 116363446A
Authority
CN
China
Prior art keywords
semantic
features
low
dimensional
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211640642.9A
Other languages
English (en)
Inventor
孙亚萍
陈昊
许晓东
崔曙光
张平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202211640642.9A priority Critical patent/CN116363446A/zh
Publication of CN116363446A publication Critical patent/CN116363446A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种零样本图像分类方法、装置、终端及介质,包括:根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征;根据潜在低维特征进行监督学习,训练得到将视觉特征投影至低维特征的编码器,以及训练得到将低维特征投影至视觉特征的解码器;根据潜在低维特征进行监督学习,训练得到将语义特征投影至低维特征的编码器,以及训练得到将低维特征投影至语义特征的解码器;根据多层级语义编码的图像分类模型,分别在视觉特征空间、语义特征空间以及潜在公共低维特征空间进行类别判决,输出图像分类结果。本发明提高了对于多层级语义信息的零样本图像分类任务的准确率及效率。

Description

一种零样本图像分类方法、装置、终端及介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及的是一种零样本图像分类方法、装置、终端及介质。
背景技术
自动驾驶、扩展现实(Extended reality,XR)、智慧城市等新型智能场景中零样本图像分类任务给无线通信带来了新的挑战,如何基于智能体本地语义知识库设计轻量且多层级语义信息编解码方法,高效完成零样本图像分类任务,从而支撑智简通信亟待解决。
在自动驾驶、XR、智慧城市等新型智能应用场景中零样本图像分类智能需求中。一方面,以自动驾驶为例,由于车辆的高速移动,周边交通场景也在不断变化。因此,车辆感知到的数据集分布也在不断变化,易遇到零样本分类问题。另一方面,传统基于深度学习的图像分类方法往往需要收集且标注大规模图片数据集,需要消耗大量人力、物力与时间,与未来智简通信低时延、轻量高效需求不符。因此,如何高效实现零样本图片分类对智简通信至关重要。
为了高效解决零样本图片分类问题,提升分类方法的泛化能力,有方案提出在语义信息监督下的语义自编码器设计方法,通过将训练样本中视觉特征信息直接投影至语义特征空间,实现在各类别共享语义空间的类别判决。然而,一方面由于图像特征与语义特征数据结构不一致,直接将视觉特征投影至语义特征的方法无法弥合视觉特征与语义特征之间的语义鸿沟;另一方面,基于该方法得到的潜在语义空间维度取决于人工语义属性描述或者Word2Net,不可弹性调控,当维度较高时不利于智简通信的实现。
另外还有方案提出了基于双重自编码器的零样本图像分类方法,通过将视觉与语义特征投影到一个公共空间中学习潜在语义特征。然而,基于该方法的类别判决通过将类别语义特征投影至潜在语义特征,然后与测试样本的潜在语义特征进行距离判断而得,尚未考虑将潜在特征高效解码至语义与视觉特征空间的能力,导致判决层级单一。在视觉层级或者语义层级的类别判决性能有待验证。另一方面,该方法的训练模型更新时仍需要迭代运算,不利于实现智简通信。
在上述零样本图像分类方法中,还无法准确且高效完成零样本图像分类任务。
因此,现有技术还有待改进。
发明内容
本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种零样本图像分类方法、装置、终端及介质,以解决现有的零样本图像分类方法对于多层级语义信息分类任务准确率及效率低的技术问题。
本发明解决技术问题所采用的技术方案如下:
第一方面,本发明提供一种零样本图像分类方法,包括:
根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征;
根据所述潜在低维特征进行监督学习,训练得到将所述视觉特征投影至低维特征的编码器,以及训练得到将所述低维特征投影至所述视觉特征的解码器;
根据所述潜在低维特征进行监督学习,训练得到将所述语义特征投影至所述低维特征的编码器,以及训练得到将所述低维特征投影至所述语义特征的解码器;
根据多层级语义编码的图像分类模型,分别在视觉特征空间、语义特征空间以及潜在公共低维特征空间进行类别判决,输出图像分类结果。
在一种实现方式中,所述根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征,之前包括:
获取图像样本数据集,利用深度残差网络得到所述样本图像数据集对应的视觉特征向量集合;
标注所述样本图像数据集中各样本图像的所属类别,并构建各所属类别的语义知识库。
在一种实现方式中,所述根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征,包括:
根据所述语义知识库,得到各样本图像的语义特征向量;
根据各样本图像的语义特征和视觉特征,构建低维特征提取器,将各样本图像的视觉特征与语义特征投影到一个公共空间中学习潜在低维特征。
在一种实现方式中,所述根据各样本图像的语义特征和视觉特征,构建低维特征提取器,将各样本图像的视觉特征与语义特征投影到一个公共空间中学习潜在低维特征,包括:
基于条件主标签算法得到低维特征的问题建模,以最小化预测误差和编码误差为联合目标优化视觉映射矩阵和语义映射矩阵:
Figure SMS_1
s.t.WsWs T=I
其中,V表示视觉特征向量矩阵;
S表示语义特征向量矩阵;
I表示k*k维单元矩阵;
基于所述语义映射矩阵,将各样本图像的语义特征向量映射至低维特征空间。
在一种实现方式中,所述根据所述潜在低维特征进行监督学习,训练得到将所述视觉特征投影至低维特征的编码器,以及训练得到将所述低维特征投影至所述视觉特征的解码器,包括:
以提取到的低维潜在特征向量为监督,构建视觉自编码器与视觉自解码器;
在所述视觉自编码器映射下,将视觉特征向量投影到低维潜在特征空间;
在所述视觉自解码器映射下,将所述低维潜在特征空间恢复至所述视觉特征向量。
在一种实现方式中,所述以提取到的低维潜在特征向量为监督,构建视觉自编码器与视觉自解码器,包括:
以所述低维特征空间F为监督,优化以下视觉自编码器问题:
Figure SMS_2
s.t.PvV=F
其中,Pv表示将视觉特征V映射到低维潜在特征空间F的投影矩阵,记为视觉自编码器;
Pv T表示视觉自解码器;
将所述视觉自编码器问题的约束缩放至第一目标函数中,以及将所述第一目标函数的第一阶导数设为0,通过Bartels-Stewart算法求得所述视觉自编码器的最优解。
在一种实现方式中,所述根据所述潜在低维特征进行监督学习,训练得到将所述语义特征投影至所述低维特征的编码器,以及训练得到将所述低维特征投影至所述语义特征的解码器,包括:
以提取到的低维潜在特征向量为监督,构建语义自编码器与语义自解码器;
在所述语义自编码器映射下,将语义特征向量投影到低维潜在特征空间;
在所述语义自解码器映射下,将所述低维潜在特征空间恢复至所述语义特征空间。
在一种实现方式中,所述以提取到的低维潜在特征向量为监督,构建语义自编码器与语义解码器,包括:
以所述低维特征空间为监督,优化以下语义自编码器问题:
Figure SMS_3
s.t.PsS=F
其中,Ps表示将语义特征S映射到低维潜在特征空间F的投影矩阵,记为语义自编码器;
Ps T表示语义自解码器;
将所述语义自编码器问题的约束缩放至第二目标函数中,以及将所述第二目标函数的第一阶导数设为0,通过Bartels-Stewart算法求得所述语义自编码器的最优解。
在一种实现方式中,所述根据多层级语义编码的图像分类模型,分别在视觉特征空间、语义特征空间以及潜在公共低维特征空间进行类别判决,输出图像分类结果,包括:
以视觉自编码器和语义自编码器为基础,构建多层级语义编码器,刻画不同层级的维度大小、分类准确度、以及语义损失量之间的映射关系,得到所述多层级语义编码的图像分类模型;
根据所述多层级语义编码的图像分类模型,分别在所述视觉特征空间、所述语义特征空间以及所述潜在公共低维特征空间进行类别判决,输出所述图像分类结果。
在一种实现方式中,所述以视觉自编码器和语义自编码器为基础,构建多层级语义编码器,刻画不同层级的维度大小、分类准确度、以及语义损失量之间的映射关系,包括:
第一层级类别判决:将各类别语义表征投影到视觉空间,并对测试视觉样本向量进行类别判决;
第二层级类别判决:将所述测试视觉样本向量投影至低维空间,并将各类别语义表征投影到低维空间,进行类别判决;
第三层级类别判决:将所述测试视觉样本向量投影至语义空间,进行类别判决。
第二方面,本发明提供一种零样本图像分类装置,包括:
潜在低维特征模块,用于根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征;
视觉特征编解码模块,用于根据所述潜在低维特征进行监督学习,训练得到将所述视觉特征投影至低维特征的编码器,以及训练得到将所述低维特征投影至所述视觉特征的解码器;
语义特征编解码模块,用于根据所述潜在低维特征进行监督学习,训练得到将所述语义特征投影至所述低维特征的编码器,以及训练得到将所述低维特征投影至所述语义特征的解码器;
类别判决模块,用于根据多层级语义编码的图像分类模型,分别在视觉特征空间、语义特征空间以及潜在公共低维特征空间进行类别判决,输出图像分类结果。
第三方面,本发明提供一种终端,包括:处理器以及存储器,所述存储器存储有零样本图像分类程序,所述零样本图像分类程序被所述处理器执行时用于实现如第一方面所述的零样本图像分类方法的操作。
第四方面,本发明还提供一种介质,所述介质为计算机可读存储介质,所述介质存储有零样本图像分类程序,所述零样本图像分类程序被处理器执行时用于实现如第一方面所述的零样本图像分类方法的操作。
本发明采用上述技术方案具有以下效果:
本发明基于条件主标签空间转换方法,通过将视觉与语义特征投影到一个公共空间中学习潜在低维特征。在提取到的潜在低维特征监督下,设计视觉自编码器,训练得到将视觉特征投影至低维特征的编码器,以及将低维特征投影至视觉特征的解码器。在提取到的潜在低维特征监督下,设计语义自编码器,训练得到将语义特征投影至低维特征的编码器,以及将低维特征投影至语义特征的解码器。最后,设计基于多层级语义编码的图像分类方法,分别在视觉特征空间、语义特征空间、潜在公共低维特征空间进行类别判决。本发明可实现多层级语义类别判决,提高分类准确度,降低计算复杂度和所需处理时延,实现更高效的智简通信。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明的一种实现方式中零样本图像分类方法的流程图。
图2是本发明的一种实现方式中基于多层级语义编码器的零样本图像分类示意图。
图3是本发明的一种实现方式中终端的功能原理图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
示例性方法
为了高效解决零样本图片分类问题,提升分类方法的泛化能力,有方案提出在语义信息监督下的语义自编码器设计方法,通过将训练样本中视觉特征信息直接投影至语义特征空间,实现在各类别共享语义空间的类别判决。然而,一方面由于图像特征与语义特征数据结构不一致,直接将视觉特征投影至语义特征的方法无法弥合视觉特征与语义特征之间的语义鸿沟;另一方面,基于该方法得到的潜在语义空间维度取决于人工语义属性描述或者Word2Net,不可弹性调控,当维度较高时不利于智简通信的实现。
另外还有方案提出了基于双重自编码器的零样本图像分类方法,通过将视觉与语义特征投影到一个公共空间中学习潜在语义特征。然而,基于该方法的类别判决通过将类别语义特征投影至潜在语义特征,然后与测试样本的潜在语义特征进行距离判断而得,尚未考虑将潜在特征高效解码至语义与视觉特征空间的能力,导致判决层级单一。在视觉层级或者语义层级的类别判决性能有待验证。另一方面,该方法的训练模型更新时仍需要迭代运算,不利于实现智简通信。在上述零样本图像分类方法中,还无法准确且高效完成零样本图像分类任务。
针对上述技术问题,本实施例中提供了一种零样本图像分类方法,设计了基于多层级语义编码的图像分类方法,分别在视觉特征空间、语义特征空间、潜在公共低维特征空间进行类别判决。本实施例中可实现多层级实现语义类别判决,提高分类准确度,降低计算复杂度和所需处理时延,实现更高效的智简通信。
如图1所示,本发明实施例提供一种零样本图像分类方法,包括以下步骤:
步骤S100,根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征。
在本实施例中,该零样本图像分类方法应用于终端上,该终端包括但不限于:计算机等设备。
在本实施例中,提供了一种基于多层级语义编解码器的零样本图像分类方法,首先,基于条件主标签空间转换方法,将视觉与语义特征投影到一个公共空间中学习潜在低维特征。在该基于条件主标签空间转换方法下,可直接基于奇异值分解方法一步获得最优投影矩阵。
具体地,在本实施例的一种实现方式中,步骤S100之前包括以下步骤:
步骤S001,获取图像样本数据集,利用深度残差网络得到所述样本图像数据集对应的视觉特征向量集合;
步骤S002,标注所述样本图像数据集中各样本图像的所属类别,并构建各所属类别的语义知识库。
本实施例中,在将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征之前,需要对图像样本数据进行预处理;其中,预处理的过程包括:首先,获取图像样本数据集,利用深度残差网络(例如,ResNet网络,VGG网络等)得到样本图像的视觉特征向量集合V;其次,标注样本图像所属类别C,利用Word2Net网络或者人工标注方法构建所属类别的语义知识库(Sc)c∈C。
具体地,在本实施例的一种实现方式中,步骤S100包括以下步骤:
步骤S101,根据所述语义知识库,得到各样本图像的语义特征向量;
步骤S102,根据各样本图像的语义特征和视觉特征,构建低维特征提取器,将各样本图像的视觉特征与语义特征投影到一个公共空间中学习潜在低维特征。
本实施例中,在对图像样本数据进行预处理后,基于语义知识库,得到各样本图像的语义特征向量S;本实施例中,为了学习潜在特征,基于视觉特征与语义特征,设计低维潜在特征提取器。一方面,该方法帮助获取一个可控低维潜在向量,另一方面,该方法同时考虑了视觉与语义特征,从而弥合了视觉与语义特征统计特性之间的差距。
在本实施例的一种实现方式中,步骤S102包括以下步骤:
步骤S102a,基于条件主标签算法得到低维特征的问题建模,以最小化预测误差和编码误差为联合目标优化视觉映射矩阵和语义映射矩阵;
步骤S102b,基于所述语义映射矩阵,将各样本图像的语义特征向量映射至低维特征空间。
在本实施例中,以最小化预测误差和编码误差为联合目标,优化视觉映射矩阵
Figure SMS_4
和语义映射矩阵/>
Figure SMS_5
相关优化问题建模为:
Figure SMS_6
s.t.WsWs T=I
其中,V表示视觉特征向量矩阵;
S表示语义特征向量矩阵;
I表示k*k维单元矩阵。
在上述建模问题中,视觉特征向量矩阵中的向量为:由大规模预训练模型提取出来的特征向量,例如,ResNet网络、VGG网络等;而语义特征向量矩阵中的向量为:对应样本所属类别的语义描述,例如,属性描述、基于Word2Net网络获取的语义向量等。
为了求解以上问题,首先,给定Ws,可直接得到相应最优Wv的闭式解,即
Figure SMS_7
其中/>
Figure SMS_8
表示V的伪逆矩阵。然后,将Wv *取代原问题的Wv,原问题可等价转化为:
Figure SMS_9
s.t.WsWs T=I
基于Eckart-Young定理,可通过求解矩阵
Figure SMS_10
的特征向量得到最优Ws
得到最优Ws后,基于语义映射矩阵Ws,将语义特征向量S映射至低维特征空间F,即F=WsS。
如图1所示,在本发明实施例的一种实现方式中,零样本图像分类方法还包括以下步骤:
步骤S200,根据所述潜在低维特征进行监督学习,训练得到将所述视觉特征投影至低维特征的编码器,以及训练得到将所述低维特征投影至所述视觉特征的解码器。
在本实施例中,在提取到的潜在低维特征监督下,设计视觉自编码器,训练得到将视觉特征投影至低维特征的编码器,以及训练得到将低维特征投影至视觉特征的解码器。该问题本质可等价为Sylvester方程求解问题,可基于Matlab代码一步求得最优解。
具体地,在本实施例的一种实现方式中,步骤S200包括以下步骤:
步骤S201,以提取到的低维潜在特征向量为监督,构建视觉自编码器与视觉自解码器;
步骤S202,在所述视觉自编码器映射下,将视觉特征向量投影到低维潜在特征空间;
步骤S203,在所述视觉自解码器映射下,将所述低维潜在特征空间恢复至所述视觉特征向量。
在本实施例中,以提取到的低维潜在特征向量为监督,设计视觉自编码器与视觉自解码器,其中在视觉自编码器映射下,将视觉特征向量投影到低维潜在特征空间;在视觉自解码器映射下,将低维潜在特征空间恢复至原始视觉特征向量。
在本实施例的一种实现方式中,步骤S201包括以下步骤:
步骤S201a,以所述低维特征空间F为监督,优化以下视觉自编码器问题:
Figure SMS_11
s.t.PvV=F
其中,Pv表示将视觉特征V映射到低维潜在特征空间F的投影矩阵,记为视觉自编码器;
Pv T表示视觉自解码器。
步骤S201b,将所述视觉自编码器问题的约束缩放至第一目标函数中,以及将所述第一目标函数的第一阶导数设为0,通过Bartels-Stewart算法求得所述视觉自编码器的最优解。
在本实施例中,为了求解以上问题,首先将上述等式约束放缩至目标函数(即第一目标函数)中:
Figure SMS_12
然后,将该函数的第一阶导数设为0,即:
FFTPv+γPvVVT=(1+γ)FVT
最后,由于上述方程属于Sylvester等式,可直接由Bartels-Stewart算法求得最优解,该算法可直接利用Matlab一行代码实现。
如图1所示,在本发明实施例的一种实现方式中,零样本图像分类方法还包括以下步骤:
步骤S300,根据所述潜在低维特征进行监督学习,训练得到将所述语义特征投影至所述低维特征的编码器,以及训练得到将所述低维特征投影至所述语义特征的解码器。
在本实施例中,提取到的潜在低维特征监督下,设计语义自编码器,训练得到将语义特征投影至低维特征的编码器,以及训练得到将低维特征投影至语义特征的解码器。该问题本质可等价为Sylvester方程求解问题,可基于Matlab代码一步求得。
具体地,在本实施例的一种实现方式中,步骤S300包括以下步骤:
步骤S301,以提取到的低维潜在特征向量为监督,构建语义自编码器与语义自解码器;
步骤S302,在所述语义自编码器映射下,将语义特征向量投影到低维潜在特征空间;
步骤S303,在所述语义自解码器映射下,将所述低维潜在特征空间恢复至所述语义特征空间。
在本实施例中,以提取到的低维潜在特征向量为监督,设计语义自编码器与语义自解码器,其中在语义自编码器映射下,将语义特征向量投影到低维潜在特征空间;在语义自解码器映射下,将低维潜在特征空间恢复至语义特征空间。
在本实施例的一种实现方式中,步骤S301包括以下步骤:
步骤S301a,以所述低维特征空间为监督,优化以下语义自编码器问题:
Figure SMS_13
s.t.PS=F
其中,Ps表示将语义特征S映射到低维潜在特征空间F的投影矩阵,记为语义自编码器;
Ps T表示语义自解码器。
步骤S301b,将所述语义自编码器问题的约束缩放至第二目标函数中,以及将所述第二目标函数的第一阶导数设为0,通过Bartels-Stewart算法求得所述语义自编码器的最优解。
在本实施例中,为了求解以上问题,首先将上述等式约束放缩至目标函数(即第二目标函数)中:
Figure SMS_14
然后,将该目标函数的第一阶导数设为0,即:
FFTPs+γPsSST=(1+γ)FST
最后,由于上述方程属于Sylvester等式,可直接由Bartels-Stewart算法求得最优解,该算法可直接利用Matlab一行代码实现。
如图1所示,在本发明实施例的一种实现方式中,零样本图像分类方法还包括以下步骤:
步骤S400,根据多层级语义编码的图像分类模型,分别在视觉特征空间、语义特征空间以及潜在公共低维特征空间进行类别判决,输出图像分类结果。
在本实施例中,设计基于多层级语义编码的图像分类方法,分别在视觉特征空间、语义特征空间、潜在公共低维特征空间进行类别判决。本实施例提出的零样本图像分类方法,可实现多层级语义类别判决。
具体地,在本实施例的一种实现方式中,步骤S400包括以下步骤:
步骤S401,以视觉自编码器和语义自编码器为基础,构建多层级语义编码器,刻画不同层级的维度大小、分类准确度、以及语义损失量之间的映射关系,得到所述多层级语义编码的图像分类模型;
步骤S402,根据所述多层级语义编码的图像分类模型,分别在所述视觉特征空间、所述语义特征空间以及所述潜在公共低维特征空间进行类别判决,输出所述图像分类结果。
在本实施例中,以视觉自编码器和语义自编码器为基础,构建多层级语义编码器,刻画不同层级的维度大小、分类准确度、以及语义损失量之间的映射关系,得到了多层级语义编码的图像分类模型,通过该模型可实现多层级语义类别判决,提高分类准确度。
在本实施例的一种实现方式中,步骤S401包括以下步骤:
步骤S401a,第一层级类别判决:将各类别语义表征投影到视觉空间,并对测试视觉样本向量进行类别判决;
步骤S401b,第二层级类别判决:将所述测试视觉样本向量投影至低维空间,并将各类别语义表征投影到低维空间,进行类别判决;
步骤S401c,第三层级类别判决:将所述测试视觉样本向量投影至语义空间,进行类别判决。
如图2所示,在本实施例中,多层级语义类别判决包括但不限于:
第一层级类别判决:首先将各类别语义表征投影到视觉空间,即vc=Pv TPssc;然后对测试视觉样本向量vt,进行类别判决:
Figure SMS_15
第二层级类别判决:首先将测试视觉样本向量vt投影至低维空间,即ft=Pvvt,以及将各类别语义表征投影到低维空间,即fc=Pssc,然后进行类别判决:
Figure SMS_16
第三层级类别判决:首先将测试视觉样本向量vt投影至语义空间,即st=Ps TPvvt,然后进行类别判决:
Figure SMS_17
以上基于多层级语义编码器的图像分类判决方法如图2所示。
本实施例中联合利用视觉与语义特征信息,基于条件主标签空间转换方法设计潜在公共低维特征编码器;在提取到的潜在低维特征向量监督下,分别设计视觉自编码器与语义自编码器;设计基于多层级语义编码器的分类方法,分别依据视觉层级、低维潜在特征层级、以及语义层级向量表征进行最终类别判决。
本实施例通过上述技术方案达到以下技术效果:
本实施例基于条件主标签空间转换方法,通过将视觉与语义特征投影到一个公共空间中学习潜在低维特征。在提取到的潜在低维特征监督下,设计视觉自编码器,训练得到将视觉特征投影至低维特征的编码器,以及将低维特征投影至视觉特征的解码器。在提取到的潜在低维特征监督下,设计语义自编码器,训练得到将语义特征投影至低维特征的编码器,以及将低维特征投影至语义特征的解码器。最后,设计基于多层级语义编码的图像分类方法,分别在视觉特征空间、语义特征空间、潜在公共低维特征空间进行类别判决。本实施例可实现多层级语义类别判决,提高分类准确度,降低计算复杂度和所需处理时延,实现更高效的智简通信。
示例性设备
基于上述实施例,本发明还提供一种零样本图像分类装置,包括:
潜在低维特征模块,用于根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征;
视觉特征编解码模块,用于根据所述潜在低维特征进行监督学习,训练得到将所述视觉特征投影至低维特征的编码器,以及训练得到将所述低维特征投影至所述视觉特征的解码器;
语义特征编解码模块,用于根据所述潜在低维特征进行监督学习,训练得到将所述语义特征投影至所述低维特征的编码器,以及训练得到将所述低维特征投影至所述语义特征的解码器;
类别判决模块,用于根据多层级语义编码的图像分类模型,分别在视觉特征空间、语义特征空间以及潜在公共低维特征空间进行类别判决,输出图像分类结果。
基于上述实施例,本发明还提供一种终端,其原理框图可以如图3所示。
该终端包括:通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块;其中,该终端的处理器用于提供计算和控制能力;该终端的存储器包括存储介质以及内存储器;该存储介质存储有操作系统和计算机程序;该内存储器为存储介质中的操作系统和计算机程序的运行提供环境;该接口用于连接外部设备,例如,移动终端以及计算机等设备;该显示屏用于显示相应的信息;该通讯模块用于与云端服务器或移动终端进行通讯。
该计算机程序被处理器执行时用以实现零样本图像分类方法的操作。
本领域技术人员可以理解的是,图3中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种终端,其中,包括:处理器和存储器,存储器存储有零样本图像分类程序,零样本图像分类程序被处理器执行时用于实现如上的零样本图像分类方法的操作。
在一个实施例中,提供了一种存储介质,其中,存储介质存储有零样本图像分类程序,零样本图像分类程序被处理器执行时用于实现如上的零样本图像分类方法的操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
综上,本发明提供了一种零样本图像分类方法、装置、终端及介质,方法包括:根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征;根据潜在低维特征进行监督学习,训练得到将视觉特征投影至低维特征的编码器,以及训练得到将低维特征投影至视觉特征的解码器;根据潜在低维特征进行监督学习,训练得到将语义特征投影至低维特征的编码器,以及训练得到将低维特征投影至语义特征的解码器;根据多层级语义编码的图像分类模型,分别在视觉特征空间、语义特征空间以及潜在公共低维特征空间进行类别判决,输出图像分类结果。本发明提高了对于多层级语义信息的零样本图像分类任务的准确率及效率。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (13)

1.一种零样本图像分类方法,其特征在于,包括:
根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征;
根据所述潜在低维特征进行监督学习,训练得到将所述视觉特征投影至低维特征的编码器,以及训练得到将所述低维特征投影至所述视觉特征的解码器;
根据所述潜在低维特征进行监督学习,训练得到将所述语义特征投影至所述低维特征的编码器,以及训练得到将所述低维特征投影至所述语义特征的解码器;
根据多层级语义编码的图像分类模型,分别在视觉特征空间、语义特征空间以及潜在公共低维特征空间进行类别判决,输出图像分类结果。
2.根据权利要求1所述的零样本图像分类方法,其特征在于,所述根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征,之前包括:
获取图像样本数据集,利用深度残差网络得到所述样本图像数据集对应的视觉特征向量集合;
标注所述样本图像数据集中各样本图像的所属类别,并构建各所属类别的语义知识库。
3.根据权利要求2所述的零样本图像分类方法,其特征在于,所述根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征,包括:
根据所述语义知识库,得到各样本图像的语义特征向量;
根据各样本图像的语义特征和视觉特征,构建低维特征提取器,将各样本图像的视觉特征与语义特征投影到一个公共空间中学习潜在低维特征。
4.根据权利要求1所述的零样本图像分类方法,其特征在于,所述根据各样本图像的语义特征和视觉特征,构建低维特征提取器,将各样本图像的视觉特征与语义特征投影到一个公共空间中学习潜在低维特征,包括:
基于条件主标签算法得到低维特征的问题建模,以最小化预测误差和编码误差为联合目标优化视觉映射矩阵和语义映射矩阵:
Figure QLYQS_1
s.t.WsWs T=I
其中,V表示视觉特征向量矩阵;
S表示语义特征向量矩阵;
I表示k*k维单元矩阵;
基于所述语义映射矩阵,将各样本图像的语义特征向量映射至低维特征空间。
5.根据权利要求1所述的零样本图像分类方法,其特征在于,所述根据所述潜在低维特征进行监督学习,训练得到将所述视觉特征投影至低维特征的编码器,以及训练得到将所述低维特征投影至所述视觉特征的解码器,包括:
以提取到的低维潜在特征向量为监督,构建视觉自编码器与视觉自解码器;
在所述视觉自编码器映射下,将视觉特征向量投影到低维潜在特征空间;
在所述视觉自解码器映射下,将所述低维潜在特征空间恢复至所述视觉特征向量。
6.根据权利要求5所述的零样本图像分类方法,其特征在于,所述以提取到的低维潜在特征向量为监督,构建视觉自编码器与视觉自解码器,包括:
以所述低维特征空间F为监督,优化以下视觉自编码器问题:
Figure QLYQS_2
s.t.PvV=F
其中,Pv表示将视觉特征V映射到低维潜在特征空间F的投影矩阵,记为视觉自编码器;
PT v表示视觉自解码器;
将所述视觉自编码器问题的约束缩放至第一目标函数中,以及将所述第一目标函数的第一阶导数设为0,通过Bartels-Stewart算法求得所述视觉自编码器的最优解。
7.根据权利要求1所述的零样本图像分类方法,其特征在于,所述根据所述潜在低维特征进行监督学习,训练得到将所述语义特征投影至所述低维特征的编码器,以及训练得到将所述低维特征投影至所述语义特征的解码器,包括:
以提取到的低维潜在特征向量为监督,构建语义自编码器与语义自解码器;
在所述语义自编码器映射下,将语义特征向量投影到低维潜在特征空间;
在所述语义自解码器映射下,将所述低维潜在特征空间恢复至所述语义特征空间。
8.根据权利要求7所述的零样本图像分类方法,其特征在于,所述以提取到的低维潜在特征向量为监督,构建语义自编码器与语义解码器,包括:
以所述低维特征空间为监督,优化以下语义自编码器问题:
Figure QLYQS_3
s.t.PsS=F
其中,Ps表示将语义特征S映射到低维潜在特征空间F的投影矩阵,记为语义自编码器;
Ps T表示语义自解码器;
将所述语义自编码器问题的约束缩放至第二目标函数中,以及将所述第二目标函数的第一阶导数设为0,通过Bartels-Stewart算法求得所述语义自编码器的最优解。
9.根据权利要求1所述的零样本图像分类方法,其特征在于,所述根据多层级语义编码的图像分类模型,分别在视觉特征空间、语义特征空间以及潜在公共低维特征空间进行类别判决,输出图像分类结果,包括:
以视觉自编码器和语义自编码器为基础,构建多层级语义编码器,刻画不同层级的维度大小、分类准确度、以及语义损失量之间的映射关系,得到所述多层级语义编码的图像分类模型;
根据所述多层级语义编码的图像分类模型,分别在所述视觉特征空间、所述语义特征空间以及所述潜在公共低维特征空间进行类别判决,输出所述图像分类结果。
10.根据权利要求9所述的零样本图像分类方法,其特征在于,所述以视觉自编码器和语义自编码器为基础,构建多层级语义编码器,刻画不同层级的维度大小、分类准确度、以及语义损失量之间的映射关系,包括:
第一层级类别判决:将各类别语义表征投影到视觉空间,并对测试视觉样本向量进行类别判决;
第二层级类别判决:将所述测试视觉样本向量投影至低维空间,并将各类别语义表征投影到低维空间,进行类别判决;
第三层级类别判决:将所述测试视觉样本向量投影至语义空间,进行类别判决。
11.一种零样本图像分类装置,其特征在于,包括:
潜在低维特征模块,用于根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征;
视觉特征编解码模块,用于根据所述潜在低维特征进行监督学习,训练得到将所述视觉特征投影至低维特征的编码器,以及训练得到将所述低维特征投影至所述视觉特征的解码器;
语义特征编解码模块,用于根据所述潜在低维特征进行监督学习,训练得到将所述语义特征投影至所述低维特征的编码器,以及训练得到将所述低维特征投影至所述语义特征的解码器;
类别判决模块,用于根据多层级语义编码的图像分类模型,分别在视觉特征空间、语义特征空间以及潜在公共低维特征空间进行类别判决,输出图像分类结果。
12.一种终端,其特征在于,包括:处理器以及存储器,所述存储器存储有零样本图像分类程序,所述零样本图像分类程序被所述处理器执行时用于实现如权利要求1-10中任意一项所述的零样本图像分类方法的操作。
13.一种介质,其特征在于,所述介质为计算机可读存储介质,所述介质存储有零样本图像分类程序,所述零样本图像分类程序被处理器执行时用于实现如权利要求1-10中任意一项所述的零样本图像分类方法的操作。
CN202211640642.9A 2022-12-20 2022-12-20 一种零样本图像分类方法、装置、终端及介质 Pending CN116363446A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211640642.9A CN116363446A (zh) 2022-12-20 2022-12-20 一种零样本图像分类方法、装置、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211640642.9A CN116363446A (zh) 2022-12-20 2022-12-20 一种零样本图像分类方法、装置、终端及介质

Publications (1)

Publication Number Publication Date
CN116363446A true CN116363446A (zh) 2023-06-30

Family

ID=86927713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211640642.9A Pending CN116363446A (zh) 2022-12-20 2022-12-20 一种零样本图像分类方法、装置、终端及介质

Country Status (1)

Country Link
CN (1) CN116363446A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117333778A (zh) * 2023-12-01 2024-01-02 华南理工大学 用于植物科普教育的基于知识图谱的零样本植物识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117333778A (zh) * 2023-12-01 2024-01-02 华南理工大学 用于植物科普教育的基于知识图谱的零样本植物识别方法
CN117333778B (zh) * 2023-12-01 2024-03-12 华南理工大学 用于植物科普教育的基于知识图谱的零样本植物识别方法

Similar Documents

Publication Publication Date Title
CN110674880B (zh) 用于知识蒸馏的网络训练方法、装置、介质与电子设备
CN114241282B (zh) 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN111696112B (zh) 图像自动裁剪方法、系统、电子设备及存储介质
CN110851760B (zh) 在web3D环境融入视觉问答的人机交互系统
CN112597296B (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
JP2024526065A (ja) テキストを認識するための方法および装置
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN116861995A (zh) 多模态预训练模型的训练及多模态数据处理方法和装置
CN116664719A (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
CN113111917B (zh) 一种基于双重自编码器的零样本图像分类方法及装置
CN113033436A (zh) 障碍物识别模型训练方法及装置、电子设备、存储介质
CN117216544A (zh) 模型训练方法、自然语言处理方法、装置及存储介质
CN116363446A (zh) 一种零样本图像分类方法、装置、终端及介质
CN118229967A (zh) 模型构建方法、图像分割方法、装置、设备、介质
CN117217368A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
CN115829058A (zh) 训练样本处理方法、跨模态匹配方法、装置、设备和介质
CN117710534B (zh) 基于改进教与学优化算法的动画协同制作方法
CN115565177A (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
US11887003B1 (en) Identifying contributing training datasets for outputs of machine learning models
CN118070063A (zh) 模型训练方法、文本分类方法、装置、设备、介质及产品
WO2024001653A1 (zh) 特征提取方法、装置、存储介质及电子设备
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN112750128A (zh) 图像语义分割方法、装置、终端及可读存储介质
CN114254080A (zh) 一种文本匹配方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination