CN113298096B - 训练零样本分类模型的方法、系统、电子设备及存储介质 - Google Patents

训练零样本分类模型的方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN113298096B
CN113298096B CN202110766324.6A CN202110766324A CN113298096B CN 113298096 B CN113298096 B CN 113298096B CN 202110766324 A CN202110766324 A CN 202110766324A CN 113298096 B CN113298096 B CN 113298096B
Authority
CN
China
Prior art keywords
neural network
network layer
image
classification model
unseen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110766324.6A
Other languages
English (en)
Other versions
CN113298096A (zh
Inventor
张维琦
李岩
李硕豪
何华
张军
王风雷
于淼淼
周浩
肖华欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110766324.6A priority Critical patent/CN113298096B/zh
Publication of CN113298096A publication Critical patent/CN113298096A/zh
Application granted granted Critical
Publication of CN113298096B publication Critical patent/CN113298096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种训练零样本分类模型的方法、系统、电子设备及存储介质,该方法包括对每个样本图像进行多次切分重组,并将每次切分重组后的重组图像按照拼图参数从大到小的顺序依次输入所述零样本分类模型中,通过所述基准神经网络层和所述全卷积神经网络层,得到所述重组图像的加权全局特征,并通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,并基于所述相容性得分得到所述样本图像属于该未见类别的预测概率,从而使模型可以从小到大逐渐学习目标的局部特征,提高了零样本分类模型分类的准确性。

Description

训练零样本分类模型的方法、系统、电子设备及存储介质
技术领域
本发明涉及零样本图像分类技术领域,尤其涉及一种训练零样本分类模型的方法、系统、电子设备及存储介质。
背景技术
零样本学习是小样本学习的一种,这些概念的提出是受到人类学习的启发,人类只需要通过少量例子的学习就可以掌握一个新的概念,甚至没有例子也能学习一个新的概念。婴儿可以通过看书本上的苹果,在下次见到真正的苹果就很容易认出来这就是苹果。学生也可以根据老师的描述学习一些新的概念或者事务,例如通过学习斑马就是长着黑白条纹的马这样的描述后,学生在见到斑马后很容易识别出来。
在零样本模型训练时,神经网络结构一旦确定,输入数据的尺度就已经确定,所有输入的图像必须归一化到相同尺度。为了增加训练样本的数量和丰富程度,提高训练特征的泛化能力,需要对数据进行数据增广和变换。现有的数据增广手段包括图像尺度归一化,图像随机裁剪,数值归一化,图像翻转等操作。而采用这些方法只能使模型关注到全局特征,无法关注到每张样本图片各个区域的局部特征。
发明内容
有鉴于此,本发明的目的在于提出一种训练零样本分类模型的方法、系统、电子设备及存储介质。
基于上述目的,本发明提供了一种训练零样本分类模型的方法,所述零样本分类模型包括第一神经网络层、基准神经网络层、全卷积神经网络层和第二神经网络层,该方法包括:
所述零样本分类模型包括第一神经网络层、基准神经网络层、全卷积神经网络层和第二神经网络层,所述方法包括:
通过所述第一神经网络层将多个未见类别的属性向量映射到图像特征空间,以得到所述多个未见类别的语义嵌入向量;
按照预设的拼图参数集中拼图参数m从大到小的顺序,对于每个m执行下列操作以训练所述零样本分类模型:
将样本图像等分成m×m个图像块;
随机打乱所述图像块的排列,以将所述图像块重新拼成重组图像;
通过所述基准神经网络层和所述全卷积神经网络层,得到所述重组图像的加权全局特征;
对于所述多个未见类别中的每个未见类别,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,并基于所述相容性得分得到所述样本图像属于该未见类别的预测概率;
基于所述多个未见类别分别对应的所述预测概率以及预先构建的类别标签的真实概率分布,计算交叉熵损失;
调整所述零样本分类模型的参数,以最小化所述交叉熵损失。
从上面所述可以看出,本发明提供的训练零样本分类模型的方法,对每个样本图像进行多次切分重组,并将每次切分重组后的重组图像按照拼图参数从大到小的顺序依次输入所述零样本分类模型中,通过所述基准神经网络层和所述全卷积神经网络层,得到所述重组图像的加权全局特征,并通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,并基于所述相容性得分得到所述样本图像属于该未见类别的预测概率;从而使模型可以从小到大逐渐学习目标的局部特征,而不是同时学习所有粒度的局部区域,使模型不断学习和聚焦到更具特点的局部特征,提高了模型分类的准确性。
附图说明
为了更清楚地说明本发明或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种训练零样本分类模型的方法的流程示意图;
图2为本发明实施例的一组重组图像的示意图;
图3为本发明实施例的一种每个拼图参数执行训练零样本分类模型的方法的流程示意图;
图4为本发明实施例的另一种训练零样本分类模型的方法的流程示意图;
图5为本发明实施例的一种训练零样本分类模型的系统的结构示意图;
图6为本发明实施例的一种具体的电子设备硬件结构示意。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,在零样本分类问题的情景设定中,测试集中出现的数据类别在训练集不存在,也就是说测试数据的类别集合和训练数据的类别集合不相交。为实现针对零样本目标数据集的分类,需要在两个不相交的类别集合上架起一座桥梁,这个桥梁就是属性或者语义嵌入空间。
在语义嵌入空间中,本发明为每一个类别学习一个语义嵌入或者属性嵌入。我们知道老虎长得和猫很像,而老虎长得和狮子没有那么像,那么在语义空间中,老虎和猫的距离就会比狮子近。然后通过判定图像的语义嵌入与各类别语义嵌入的距离,就可以对其类别进行判定。本发明中嵌入之间的距离是用这两个高维向量之间的相容性来进行度量的。
在零样本分类领域,尤其是细粒度的零样本分类中,一些共同属性表示的外观区别往往非常大,例如虽然马和小鸟都具有尾巴,但是马和小鸟的尾巴视觉差异非常大。利用局部特征进行预测,可以在训练过程中,让网络学会理解一些部位的本质,允许共同概念学习不同的局部特征。常见的局部特征提取方法有基于特征聚类的方法,基于聚类的方法,一般通过对不同通道的特征图进行聚类,聚类的中心认为就是图像局部特征,这种方法不利于网络梯度的后向传播,无法实现网络的端到端训练。本发明采用的基于注意力的方法是一种可学习的方法,注意力权重可以在网络训练的过程中,通过
原始的监督数据训练得到,无须额外添加任何标注数据。基于注意力的方法容易嵌入到神经网络中进行端到端的训练。
为了增加训练样本的数量和丰富程度,提高训练特征的泛化能力,需要
对数据进行数据增广和变换。常用的数据增广手段包括图像尺度归一化,图像随机裁剪,数值归一化,图像翻转等操作。图像的随机裁剪、数值归一化和图像翻转等变化都可以看成神经网络正则化的手段,在增加图像的多样性的同时提升模型训练的稳定性,有效防止网络过拟合。本发明采用了一种切分重组的方式,将所有图像按照相同的尺度分割成小块,然后随机打乱图像块的顺序,重新组成一张新的图像。每个切分的图像块中,最多只能包含目标的局部,通过打乱目标局部的位置,鼓励模型学习到更加强大的局部特征提取器。同时在图像拼图变换过程中,存在一个拼图参数,就是每张图像切分的张数,如果设置的过大,会将目标分的过细,一些完整的局部区域会遭到破坏,导致模型注意力学习到一些细微的特征;如果切分过粗,对图像变换的增强就没有那么强了,模型的注意力只能学习到一些大的区域。为此,采用渐进学习的策略,在训练初期,采用较大的拼图参数,随着迭代次数的增加,不断减少拼图参数,最终在不切分的图像上完成模型的训练。
在本发明的一个应用场景中,可以通过一个终端设备实现本发明的图像分类方法,该终端设备包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、个人数字助理(personal digital assistant,PDA)或其它能够实现上述功能的电子设备等。
同样的,在另外一个应用场景中,本发明的图像分类方法的部分或全部可以作为另一个图像处理方法或其他领域内的处理方法的一部分配合使用。例如,可以先通过本发明的图像分类方法对图像进行分类,然后得到的分类结果作为下一个处理步骤的输入样本。
参考图1,为本发明实施例的一种训练零样本分类模型的方法的流程示意图,所述零样本分类模型包括第一神经网络层、基准神经网络层、全卷积神经网络层和第二神经网络层,该方法包括以下步骤:
S101,通过所述第一神经网络层将多个未见类别的属性向量映射到图像特征空间,以得到所述多个未见类别的语义嵌入向量。
本步骤中,多个未见类别的属性向量包含待分类输入图像的类别属性,可以根据图像分类的应用场景确定获取的多个未见类别的属性向量,每一种未见类别的属性向量中有多个属性元素,基于零样本分类模型的第一神经网络层将这些属性元素映射到图像特征空间,就可以得到所述多个未见类别的语义嵌入向量。如应用场景是对各种马的分类,那么获取的未见类别的属性向量就是各种马类的属性向量,其中,每一种马都有多个属性元素,如毛发颜色、身高、体重等,将这些属性元素映射到图像特征空间就可以得到每一种马的语义嵌入向量。可选的,该属性向量也可以替换为词向量。
需要说明的是,将类别的属性向量投影到属性空间,更容易发生中心度问题(hubness problem)。所谓的中心度问题是指,在高维属性空间中,部分测试类别很容成为其他数据的 k 近邻,但是这些类别之间并不存在相关性。如果将语义空间作为嵌入空间,需要把特征从高维空间映射到语义空间,这样会使空间发生萎缩,点与点之间更加稠密,从而加重了中心度问题。而本发明使用图像特征空间作为嵌入空间,该图像特征空间是在进行所述零样本分类模型训练时,通过将已知类别的图像样本输入所述零样本分类模型中获得,该图像特征空间属于高维空间,然后将类别的属性向量映射到所述图像特征空间获得所述语义嵌入向量。这样避免了加重中心度的问题,同时由于该图像特征空间是在零样本分类模型训练时得到的,参与到后续相容性得分的计算时更容易找到各个类别元素的相关性。
S102,按照预设的拼图参数集中拼图参数m从大到小的顺序,对于每个m执行训练所述零样本分类模型的操作过程。
本步骤中,预设的拼图参数集中有多个拼图参数m,每个拼图参数m表示样本图像被切分的粒度,拼图参数m越大对应样本图像的粒度越细,即图像被切分的块数越多。按照拼图参数m从大到小的顺序,对于每个m执行训练所述零样本分类模型的操作过程,即使零样本分类模型按照从小到大的顺序进行局部特征的学习。
在一些实施例中,为了进一步的控制零样本分类模型渐进学习的节奏,所述预设的拼图参数集中的拼图参数服从等比数列关系,可选的,该等比数列的公比为2。即拼图参数的改变采用限定步长的策略,每隔固定步长,拼图参数降为原来的一半 ,使零样本分类模型学习的特征是连续的。
参考图2,为本发明实施例提出的一组重组图像的示意图,其中,从上到下的拼图参数m依次为1、2、4、8。即此时预设的拼图参数集为:{1 2 4 8},在本发明中利用该组重组图像训练分类模型时,可以针对每一列图像,从下到上依次输入到零样本分类模型中进行训练,即按照拼图参数m从大到小的顺序依次输入到零样本分类模型中进行训练,从而实现渐进学习的目的。
在一些实施例中,按照预设的拼图参数集中拼图参数m从大到小的顺序,参考图3,对于每个m执行下列操作以训练所述零样本分类模型:
S1021,将样本图像等分成m×m个图像块。
本步骤中,根据当前预设的拼图参数集中需要进行拼图的拼图参数m,即拼图参数m从大到小的顺序,将样本图像等分成m×m个图像块。
S1022,随机打乱所述图像块的排列,以将所述图像块重新拼成重组图像。
本步骤中,通过随机打乱图像块,得到重组图像,从而使模型在学习时被迫关注的不是整个样本图像,而是各个随机特征。需要说明的是,若只是将样本图像分成多个图像块,而不进行随机打乱,那么各个图像块还是在原来的位置,这时得到的样本图像与未处理的样本图像对模型来说没有什么区别。
S1023,通过所述基准神经网络层和所述全卷积神经网络层,得到所述重组图像的加权全局特征。
本步骤中,通过零样本分类模型的基准神经网络层和全卷积神经网络层提取重组图像的全局特征。
在一些实施例中,通过所述基准神经网络层和所述全卷积神经网络层,得到所述重组图像的加权全局特征,具体包括:
通过所述基准神经网络层提取所述重组图像的全局特征;
通过所述全卷积神经网络层,基于注意力机制对所述全局特征进行学习,以得到多个特征掩码;
以所述多个特征掩码作为注意力权重对所述全局特征进行加权,以得到所述加权全局特征。
具体的,先通过所述基准神经网络层提取所述重组图像的全局特征,然后基于注意力机制对所述全局特征进行学习,以得到多个特征掩码,每个特征掩码用于提取重组图像的一个局部区域。最后,以得到的多个特征掩码作为注意力权重对所述全局特征进行加权,从而得到加权全局特征。
在一些实施例中,在以所述多个特征掩码作为注意力权重对所述全局特征进行加权之前,所述方法还包括:
从所有所述注意力权重中挑选出最大值;
基于预设自适应因子与所述最大值确定自适应阈值;
响应于确定所述局部特征的权重值小于所述自适应阈值,将所述局部特征的注意力权重清零。
具体的,先从所有的注意力权重中挑选出最大值,然后设置一个预设自适应因子,该预设自适应因子可以根据需要进行设置,然后用该预设自适应因子和上述最大值相乘得到自适应阈值,该自适应阈值用来判断哪些局部特征为无效特征可以被消除,从而保证最终获取得局部特征能更好的反应待分类图像的特点,抑制冗余特征的同时提高了特征的鲁棒性。最后,将权重值小于所述自适应阈值的注意力权重清零。
S1024,对于所述多个未见类别中的每个未见类别,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,并基于所述相容性得分得到所述样本图像属于该未见类别的预测概率。
本步骤中,计算所述加权全局特征与各个未见类别的语义嵌入向量的相容性得分,该相容性得分表示加权全局特征与各个未见类别的语义嵌入向量的距离,然后根据各个相容性得分得到该样本图像属于各个未见类别的预测概率。其中,每一个相容性得分对应一个未见类别的预测概率。一般情况下,相容性得分越大,对应的预设概率越大。可选的,在得到某未见类别对应的相容性得分后,对该相容性得分通过softmax函数进行归一化处理,得到该未见类别对应的预测概率。
在一些实施例中,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,具体包括:
通过所述第二神经网络层,将所述语义嵌入向量的类别元素映射为相容性类别元素,所述相容性类别元素的数量与所述加权全局特征的特征元素的数量相同;
将所有所述相容性类别元素与所述特征元素作为一个元素整体,基于所述预设相容性函数,计算该元素整体的线性组合,以得到所述加权全局特征与该未见类别的语义嵌入向量的相容性得分。
具体的,通过所述第二神经网络层,根据所述加权全局特征的特征元素的数量确定所述相容性类别元素的数量,使二者相同,然后将语义嵌入向量的类别元素映射为相容性类别元素,这样保证加权全局特征的特征元素的数量与映射后的语义嵌入向量的类别元素的数量相同,然后将所有所述相容性类别元素与所述特征元素作为一个元素整体,基于所述预设相容性函数,计算该元素整体的线性组合,以得到所述加权全局特征与该未见类别的语义嵌入向量的相容性得分。
可选的,计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,通过下列公式实现:
F(x, z; w)=w1x1+w2z1+w3x2+ w4z2+…+ wmxn+wm+1zn
其中,F(x, y; w)表示预设相容性函数,x表示加权全局特征,x1、x2、…xn 表示加权全局特征的特征元素,z表示语义嵌入向量,z1 、z2、…zn表示语义嵌入向量的相容性类别元素。W表示预设相容性函数的参数,w1、w2、…wm+1表示与各个元素对应的预设相容性函数的参数。可选的,可以通过训练来获得预设相容性函数,并对各个预设相容性函数的参数进行修订。
可选的,可以通过如下公式替换上述公式:
F(x, z; w)=w1(x1+z1)+w2(x2+z2)+…+ wn(xn+zn) ;
其中,各个字母的含义与上述相同字母的含义一致,在此不再赘述。
S1025,基于所述多个未见类别分别对应的所述预测概率以及预先构建的类别标签的真实概率分布,计算交叉熵损失。
本步骤中,在计算交叉熵损失时,需要预构建类别标签的真实概率分布,可选的,可以通过以下公式来构建类别标签的真实概率分布:
Figure 65226DEST_PATH_IMAGE001
其中,P i 表示类别标签的真实概率分布,y 表示图像的真实类别标签。
采用上述这种方法的来构建类别标签的真实概率分布,使用了孤立的视角来看待每个类别的分类,忽略了类别之间的相关关系,它只关注最大化标记类别,却把所有其他类别都一视同仁,增大了模型过拟合的风险。因此,为了避免这种情况,在一些实施例中,采用平滑标签来构建图像类别标签的真实概率分布,可选的,具体通过以下公式构建类别的真实概率分布:
Figure 716656DEST_PATH_IMAGE002
其中,
Figure 588797DEST_PATH_IMAGE003
是一个很小的常量,N为类别的种类。在通过平滑标签来构建图像类别标签的真实概率分布后,本发明采用最小化交叉熵损失来更新所述渐进学习分类模型的参数,以使预测概率分布接近于所述真实概率分布。此外,本发明还进行了消融实验发现,同时采用平滑标签与渐进学习手段时,提高分类的精确度要高于单独采用上述两种手段提高的精确度的累加,这是因为使用平滑标签的软标签更容易与从拼接特征学习到的真实概率分布进行拟合。
在得到多个未见类别分别对应的所述预测概率以及预先构建的类别标签的真实概率分布后,计算二者的交叉熵损失。可选的,可以通过以下公式计算交叉熵损失:
Figure 785423DEST_PATH_IMAGE004
其中,
Figure 992283DEST_PATH_IMAGE005
表示交叉熵损失,P i 表示类别标签的真实概率分布,q i 表示预测概率,N表示未见类别数。
S1026,调整所述零样本分类模型的参数,以最小化所述交叉熵损失。
本步骤中,调整所述零样本分类模型的参数,以最小化所述交叉熵损失,使得预测概率分布接近于真实概率分布。
在一些实施例中,所述零样本分类模型的参数包括:所述第一神经网络层的第一参数、所述第二神经网络层的第二参数、所述基准神经网络层的第三参数和所述全卷积神经网络层的第四参数。通过调节各个参数来实现调整所述零样本分类模型的参数。
在一些实施例中,在调整所述零样本分类模型的参数之后,所述方法还包括:
将待分类图像输入所述零样本分类模型,以确定所述待分类图像的类别。
具体的,在将所述零样本分类模型的参数调整完后,即所述零样本分类模型完成了训练,可以将待分类图像输入该零样本分类模型,进行待分类图像的分类识别。可选的,也可以用训练中途的零样本分类模型对待分类图像进行识别。
参考图4,为本发明实施例的另一种训练零样本分类模型的方法的流程示意图,该方法包括以下步骤:
S201,通过所述第一神经网络层将多个未见类别的属性向量映射到图像特征空间,以得到所述多个未见类别的语义嵌入向量。
S202,将样本图像等分成m×m个图像块,所述m为预设的拼图参数集中未执行过分图步骤的最大值。
本步骤中,每次执行分图步骤时,先确定当前m为预设的拼图参数集中未执行过分图步骤的最大值,即从拼图参数集中选出未执行过分图步骤的所有拼图参数,再从其中选出最大值。然后,根据当前m,将样本图像等分成m×m个图像块。
S203, 随机打乱所述图像块的排列,以将所述图像块重新拼成重组图像。
S204,通过所述基准神经网络层和所述全卷积神经网络层,得到所述重组图像的加权全局特征。
S205,对于所述多个未见类别中的每个未见类别,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,并基于所述相容性得分得到所述样本图像属于该未见类别的预测概率。
S206,基于所述多个未见类别分别对应的所述预测概率以及预先构建的类别标签的真实概率分布,计算交叉熵损失。
S207,调整所述零样本分类模型的参数,以最小化所述交叉熵损失。
S208,判断m是否等于所述预设的拼图参数集中的最小值。
本步骤中,判断m是否等于所述预设的拼图参数集中的最小值,若是,则执行S209,此时,由于m同时为所述预设的拼图参数集中的最小值和最大值,即预设的拼图参数集中的所有值均执行完分图步骤。若否,则重新开始执行S202。
S209,结束本次模型训练。
本发明提供的训练零样本分类模型的方法,提出了一种渐进学习的模型分类结构,在训练渐进学习分类模型时,通过将样本图像切分重组,并逐渐提高重组图像增广的粒度,使分类模型由细到粗逐渐学习并找到目标的局部区域,不断学习和聚焦到更具特点的局部特征。同时本发明还采用一种阈值自适应的注意力机制,抑制冗余特征的同时提高特征的鲁棒性。最后,本发明还采用平滑类别标签的方式构造真实样本的概率分布,在传递损失的过程中,允许模型学习和利用不同类别之间的相互关系,提高了模型的识别精度。
此外,本发明还进行了相应的分类测试实验,具体结果参考表一。
表一
Figure 198136DEST_PATH_IMAGE006
表一为采用本发明的方法训练完成的零样本分类模型与各个现有技术中的分类模型在公开数据上进行图像分类比较的结果,其中,JPA代表本发明的零样本分类模型,DAP和IAP 是最有代表性的直接语义预测模型;SSE 模型同时利用图像和语义嵌入空间中相似类别之间的关系来实现未见样本的分类;LATEM 模型是一个非线性模型,通过构造一个分段线性相容函数来对未知类别分类。SJE、ESZSL、SAE 模型都采用了线性相容函数进行分类。GSZSL 是一种生成式零样本识别模型。CUB 数据集是一个中等规模的细粒度鸟类数据集,包含来自北美 200 种鸟类的11788 张图像,每个类别含有一个312 维连续语义向量。SUN 是一个中等规模的细粒度场景数据集,包含14340张来自717不同类型场景的图像,每类标注一个102维的连续语义向量。AWA2是一个粗粒度数据集,包含 37322 张来自50个不同类的动物图像,每类包含一个85维的语义向量。
SS (Standard Splits) 是传统的数据集划分方法,SP (Proposed Splits)是Xiang提出的一种新的数据集划分方法,通过表一数据可知采用本发明的方法训练完成的零样本分类模型与各个现有分类模型相比,在 CUB,SUN,AWA2 数据集的两种划分方法下均取得了不错的成绩。
需要说明的是,本发明实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本发明的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本发明还提供了一种训练零样本分类模型的系统。
参考图5,所述训练零样本分类模型的系统,包括:
语义嵌入模块501,通过所述第一神经网络层将多个未见类别的属性向量映射到图像特征空间,以得到所述多个未见类别的语义嵌入向量;
样本图像训练模块502,按照预设的拼图参数集中拼图参数m从大到小的顺序,对于每个m执行下列操作以训练所述零样本分类模型:
将样本图像等分成m×m个图像块;
随机打乱所述图像块的排列,以将所述图像块重新拼成重组图像;
通过所述基准神经网络层和所述全卷积神经网络层,得到所述重组图像的加权全局特征;
对于所述多个未见类别中的每个未见类别,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,并基于所述相容性得分得到所述样本图像属于该未见类别的预测概率;
基于所述多个未见类别分别对应的所述预测概率以及预先构建的类别标签的真实概率分布,计算交叉熵损失;
调整所述零样本分类模型的参数,以最小化所述交叉熵损失。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。可选的,上述任意两个或多个模块可以合并为一个模块,并同时实现两个模块的功能。当然,在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的训练零样本分类模型的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的训练零样本分类模型的方法。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的训练零样本分类模型的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本发明还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的训练零样本分类模型的方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的训练零样本分类模型的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
需要说明的是,本发明的实施例还可以以下方式进一步描述:
一种训练零样本分类模型的方法,所述零样本分类模型包括第一神经网络层、基准神经网络层、全卷积神经网络层和第二神经网络层,所述方法包括:
通过所述第一神经网络层将多个未见类别的属性向量映射到图像特征空间,以得到所述多个未见类别的语义嵌入向量;
按照预设的拼图参数集中拼图参数m从大到小的顺序,对于每个m执行下列操作以训练所述零样本分类模型:
将样本图像等分成m×m个图像块;
随机打乱所述图像块的排列,以将所述图像块重新拼成重组图像;
通过所述基准神经网络层和所述全卷积神经网络层,得到所述重组图像的加权全局特征;
对于所述多个未见类别中的每个未见类别,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,并基于所述相容性得分得到所述样本图像属于该未见类别的预测概率;
基于所述多个未见类别分别对应的所述预测概率以及预先构建的类别标签的真实概率分布,计算交叉熵损失;
调整所述零样本分类模型的参数,以最小化所述交叉熵损失。
可选的,通过所述基准神经网络层和所述全卷积神经网络层,得到所述重组图像的加权全局特征,具体包括:
通过所述基准神经网络层提取所述重组图像的全局特征;
通过所述全卷积神经网络层,基于注意力机制对所述全局特征进行学习,以得到多个特征掩码;
以所述多个特征掩码作为注意力权重对所述全局特征进行加权,以得到所述加权全局特征。
可选的,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,具体包括:
通过所述第二神经网络层,将所述语义嵌入向量的类别元素映射为相容性类别元素,所述相容性类别元素的数量与所述加权全局特征的特征元素的数量相同;
将所有所述相容性类别元素与所述特征元素作为一个元素整体,基于所述预设相容性函数,计算该元素整体的线性组合,以得到所述加权全局特征与该未见类别的语义嵌入向量的相容性得分。
可选的,所述预设的拼图参数集中的拼图参数服从等比数列关系。
可选的,所述预先构建的类别标签的真实概率分布是基于平滑标签构建的。
可选的,所述零样本分类模型的参数包括:
所述第一神经网络层的第一参数、所述第二神经网络层的第二参数、所述基准神经网络层的第三参数和所述全卷积神经网络层的第四参数。
可选的,在调整所述零样本分类模型的参数之后,所述方法还包括:
将待分类图像输入所述零样本分类模型,以确定所述待分类图像的类别。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种训练零样本分类模型的方法,所述零样本分类模型包括第一神经网络层、基准神经网络层、全卷积神经网络层和第二神经网络层,所述方法包括:
通过所述第一神经网络层将多个未见类别的属性向量映射到图像特征空间,以得到所述多个未见类别的语义嵌入向量;
按照预设的拼图参数集中拼图参数m从大到小的顺序,对于每个m执行下列操作以训练所述零样本分类模型:
将样本图像等分成m×m个图像块;
随机打乱所述图像块的排列,以将所述图像块重新拼成重组图像;
通过所述基准神经网络层和所述全卷积神经网络层,得到所述重组图像的加权全局特征;
对于所述多个未见类别中的每个未见类别,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,并基于所述相容性得分得到所述样本图像属于该未见类别的预测概率;
基于所述多个未见类别分别对应的所述预测概率以及预先构建的类别标签的真实概率分布,计算交叉熵损失;
调整所述零样本分类模型的参数,以最小化所述交叉熵损失;
其中,所述零样本分类模型的参数包括:所述第一神经网络层的第一参数、所述第二神经网络层的第二参数、所述基准神经网络层的第三参数和所述全卷积神经网络层的第四参数。
2.根据权利要求1所述的方法,其中,通过所述基准神经网络层和所述全卷积神经网络层,得到所述重组图像的加权全局特征,具体包括:
通过所述基准神经网络层提取所述重组图像的全局特征;
通过所述全卷积神经网络层,基于注意力机制对所述全局特征进行学习,以得到多个特征掩码;
以所述多个特征掩码作为注意力权重对所述全局特征进行加权,以得到所述加权全局特征。
3.根据权利要求1所述的方法,其中,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,具体包括:
通过所述第二神经网络层,将所述语义嵌入向量的类别元素映射为相容性类别元素,所述相容性类别元素的数量与所述加权全局特征的特征元素的数量相同;
将所有所述相容性类别元素与所述特征元素作为一个元素整体,基于预设相容性函数,计算该元素整体的线性组合,以得到所述加权全局特征与该未见类别的语义嵌入向量的相容性得分。
4.根据权利要求1所述的方法,其中,所述预设的拼图参数集中的拼图参数服从等比数列关系。
5.根据权利要求1所述的方法,其中,所述预先构建的类别标签的真实概率分布是基于平滑标签构建的。
6.根据权利要求1所述的方法,其中,所述零样本分类模型的参数包括:
所述第一神经网络层的第一参数、所述第二神经网络层的第二参数、所述基准神经网络层的第三参数和所述全卷积神经网络层的第四参数。
7.根据权利要求1所述的方法,其中,在调整所述零样本分类模型的参数之后,所述方法还包括:
将待分类图像输入所述零样本分类模型,以确定所述待分类图像的类别。
8.一种训练零样本分类模型的系统,所述零样本分类模型包括第一神经网络层、基准神经网络层、全卷积神经网络层和第二神经网络层,所述系统包括:
语义嵌入模块,通过所述第一神经网络层将多个未见类别的属性向量映射到图像特征空间,以得到所述多个未见类别的语义嵌入向量;
样本图像训练模块,按照预设的拼图参数集中拼图参数m从大到小的顺序,对于每个m执行下列操作以训练所述零样本分类模型:
将样本图像等分成m×m个图像块;
随机打乱所述图像块的排列,以将所述图像块重新拼成重组图像;
通过所述基准神经网络层和所述全卷积神经网络层,得到所述重组图像的加权全局特征;
对于所述多个未见类别中的每个未见类别,通过所述第二神经网络层计算所述加权全局特征与该未见类别的语义嵌入向量的相容性得分,并基于所述相容性得分得到所述样本图像属于该未见类别的预测概率;
基于所述多个未见类别分别对应的所述预测概率以及预先构建的类别标签的真实概率分布,计算交叉熵损失;
调整所述零样本分类模型的参数,以最小化所述交叉熵损失;
其中,所述零样本分类模型的参数包括:所述第一神经网络层的第一参数、所述第二神经网络层的第二参数、所述基准神经网络层的第三参数和所述全卷积神经网络层的第四参数。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至7任一所述的方法。
CN202110766324.6A 2021-07-07 2021-07-07 训练零样本分类模型的方法、系统、电子设备及存储介质 Active CN113298096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110766324.6A CN113298096B (zh) 2021-07-07 2021-07-07 训练零样本分类模型的方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110766324.6A CN113298096B (zh) 2021-07-07 2021-07-07 训练零样本分类模型的方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113298096A CN113298096A (zh) 2021-08-24
CN113298096B true CN113298096B (zh) 2021-10-01

Family

ID=77330758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110766324.6A Active CN113298096B (zh) 2021-07-07 2021-07-07 训练零样本分类模型的方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113298096B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673685B (zh) * 2021-08-31 2024-03-15 西湖大学 基于流形学习的数据嵌入方法
CN113837205B (zh) * 2021-09-28 2023-04-28 北京有竹居网络技术有限公司 用于图像特征表示生成的方法、设备、装置和介质
CN114154576B (zh) * 2021-12-03 2024-07-02 北京航空航天大学 一种基于混合监督的特征选择模型训练方法及系统
CN116778211A (zh) * 2022-03-07 2023-09-19 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN116109841B (zh) * 2023-04-11 2023-08-15 之江实验室 一种基于动态语义向量的零样本目标检测方法及装置
CN116994343B (zh) * 2023-09-27 2023-12-15 睿云联(厦门)网络通讯技术有限公司 基于标签平滑的扩散标签深度学习模型训练方法及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135459A (zh) * 2019-04-15 2019-08-16 天津大学 一种基于双三元组深度度量学习网络的零样本分类方法
WO2020008272A1 (en) * 2018-07-02 2020-01-09 Inception Institute of Artificial Intelligence, Ltd. Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN111985538A (zh) * 2020-07-27 2020-11-24 成都考拉悠然科技有限公司 基于语义辅助注意力机制的小样本图片分类模型及方法
CN112884059A (zh) * 2021-03-09 2021-06-01 电子科技大学 一种融合先验知识的小样本雷达工作模式分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3563296A4 (en) * 2016-12-30 2020-08-19 HRL Laboratories, LLC ZERO SHOT LEARNING USING A MULTI-SCALE MANIFOLD ALIGNMENT

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020008272A1 (en) * 2018-07-02 2020-01-09 Inception Institute of Artificial Intelligence, Ltd. Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN110135459A (zh) * 2019-04-15 2019-08-16 天津大学 一种基于双三元组深度度量学习网络的零样本分类方法
CN111985538A (zh) * 2020-07-27 2020-11-24 成都考拉悠然科技有限公司 基于语义辅助注意力机制的小样本图片分类模型及方法
CN112884059A (zh) * 2021-03-09 2021-06-01 电子科技大学 一种融合先验知识的小样本雷达工作模式分类方法

Also Published As

Publication number Publication date
CN113298096A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN113298096B (zh) 训练零样本分类模型的方法、系统、电子设备及存储介质
CN109840531B (zh) 训练多标签分类模型的方法和装置
CN114529825B (zh) 用于消防通道占用目标检测的目标检测模型、方法及应用
CN112329680B (zh) 基于类激活图的半监督遥感影像目标检测和分割方法
CN112949678B (zh) 深度学习模型对抗样本生成方法、系统、设备及存储介质
CN111402143A (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN114155543A (zh) 神经网络训练方法、文档图像理解方法、装置和设备
CN114283350B (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
KR20200144398A (ko) 클래스 증가 학습을 수행하는 장치 및 그의 동작 방법
CN114549913A (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN112446888A (zh) 图像分割模型的处理方法和处理装置
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN116740422A (zh) 基于多模态注意力融合技术的遥感图像分类方法及装置
CN115909445A (zh) 人脸图像伪造检测方法及相关设备
US20240005157A1 (en) Methods and systems for unstructured pruning of a neural network
CN112418256A (zh) 分类、模型训练、信息搜索方法、系统及设备
CN114359592A (zh) 模型训练及图像处理方法、装置、设备、存储介质
CN112183303A (zh) 变电设备图像分类方法、装置、计算机设备和介质
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN113139540B (zh) 背板检测方法及设备
CN115204301A (zh) 视频文本匹配模型训练、视频文本匹配方法和装置
CN113378866A (zh) 图像分类方法、系统、存储介质及电子设备
KR20230013995A (ko) 공정 시뮬레이션 모델 생성 방법 및 장치
CN113822293A (zh) 用于图数据的模型处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant