CN112949693B

CN112949693B - 图像分类模型的训练方法、图像分类方法、装置和设备

Info

Publication number: CN112949693B
Application number: CN202110149690.7A
Authority: CN
Inventors: 姜佳男; 李振鹏; 郭玉红
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2024-04-26
Anticipated expiration: 2041-02-02
Also published as: CN112949693A

Abstract

本发明实施例公开了一种图像分类模型的训练方法、图像分类方法、装置和设备，通过从训练集中抽取至少一个第一支持集和第一查询集形成至少一个样本任务，将该样本任务输入至图像分类模型的编码器模块进行特征提取，获取对应的第一样本特征向量，生成第一支持集和第一查询集中的样本的学习标签，将各第一样本特征向量以及对应的元学习标签输入至图像分类模型的情节学习模块，确定第一损失，将各样本特征向量以及对应的类别标签输入至分类模块，确定第二损失，根据第一损失和第二损失调节编码器模块、情节学习模块和分类模块的参数，以确定图像分类模型，由此，可以提高图像分类模型的鲁棒性和分类准确率。

Description

图像分类模型的训练方法、图像分类方法、装置和设备

技术领域

本发明涉及图像处理技术领域，更具体地，涉及一种图像分类模型的训练方法、图像分类方法、装置和设备。

背景技术

机器学习在大量数据和大规模训练的基础上，通过模拟或实现人类的学习行为来获取新的知识或技能。但在很多应用场景中，可能会存在数据不足的问题，在标注数据较少的情况下，神经网络通常容易过拟合，这使得机器学习的应用和效果受到了限制。为了解决这一问题，近年来提出了FSL(Few Shot Learning，小样本学习)。利用先验知识，FSL可以快速地泛化到只包含少量有监督信息的样本的新任务中。

目前小样本学习研究主要在同一个数据集上进行训练和测试，比如将mini-ImageNet数据集进行划分，分别用来训练、验证和测试，训练集和测试集遵循相同的数据分布。而在实际生活中能获得的有标签的训练集和无标签的测试集通常来自不同的数据分布，因此这极大地限制了小样本学习的应用。

发明内容

有鉴于此，本发明实施例提供了一种图像分类模型的训练方法、装置、电子设备和存储介质，以提高图像分类模型的泛化能力和分类准确率。

第一方面，本发明实施例提供一种图像分类模型的训练方法，所述方法包括：

从训练集中抽取至少一个第一支持集和第一查询集，所述第一支持集和对应的第一查询集形成一个样本任务，所述训练集包括多种类别的图像样本，所述第一支持集和第一查询集中的样本具有类别标签；

将所述样本任务的第一支持集和第一查询集输入至所述图像分类模型的编码器模块进行特征提取，以获取所述样本任务的第一支持集和第一查询集对应的第一样本特征向量；

生成所述样本任务的第一支持集和第一查询集中的样本的学习标签；

将各所述第一样本特征向量以及对应的元学习标签输入至所述图像分类模型的情节学习模块，以确定第一损失；

将各所述第一样本特征向量以及对应的类别标签输入至分类模块，以确定第二损失；

根据第一损失和第二损失调节所述编码器模块、情节学习模块和分类模块的参数，以确定所述图像分类模型。

可选的，所述方法还包括：

从测试集中抽取至少一个第二支持集和第二查询集，所述第二支持集中的样本具有类别标签；

将所述第二支持集输入至所述编码器模块进行特征提取，以获取所述第二支持集对应的第二样本特征向量；

将所述第二支持集对应的各所述第二样本特征向量以及所述第二支持集对应的类别标签输入至所述分类模块中进行处理，以确定第三损失；

根据所述第三损失更新所述编码器模块和所述分类模块的参数，以更新所述图像分类模型。

可选的，所述方法还包括：

将所述第二支持集和第二查询集输入至更新后的编码器模块进行特征提取，以获取所述第二支持集和第二查询集对应的第三样本特征向量；

将所述各第三样本特征向量输入至所述图像分类模型的情节学习模块，以确定第二查询集中的样本的类别预测标签；

根据第二查询集中的样本的类别预测标签确定更新后的所述图像分类模型的准确率。

可选的，根据第一损失和第二损失调节所述编码器模块、情节学习模块和分类模块的参数，以确定所述图像分类模型包括：

对所述第一损失和第二损失进行累加确定损失和；

根据所述损失和对所述编码器模块、情节学习模块和分类模块的参数进行梯度更新。

可选的，所述样本任务的第一支持集和第一查询集的样本类别相同。

可选的，所述第一支持集和所述第二支持集中的图像类别至少部分不同。

第二方面，本发明实施例提供一种图像分类方法，所述方法包括：

获取待分类图像；

将所述待分类图像输入至预先训练的图像分类模型的编码器模块进行特征提取，获取所述待分类图像的特征向量；

将所述待分类图像的特征向量输入至所述图像分类模型的情节学习模块和/或分类模块进行处理，以确定所述待分类图像的类别；

其中，所述图像分类模型通过所述情节学习模块和分类模块监督训练获得，以能够更好地拟合数据。

可选的，将所述待分类图像的特征向量输入至所述图像分类模型的情节学习模块进行处理，以确定所述待分类图像的类别包括：

将所述待分类图像的特征向量输入至所述情节学习模块进行处理，确定待分类图像属于各类别的第一概率集合；

将所述第一概率集合中最大的第一概率对应的类别确定为所述待分类图像的类别。

可选的，将所述待分类图像的特征向量输入至所述图像分类模型的分类模块进行处理，以确定所述待分类图像的类别包括：

将所述待分类图像的特征向量输入至所述分类模块进行处理，确定待分类图像属于各类别的第二概率集合；

将所述第二概率集合中最大的第二概率对应的类别确定为所述待分类图像的类别。

可选的，将所述待分类图像的特征向量输入至所述图像分类模型的情节学习模块和/或分类模块进行处理，以确定所述待分类图像的类别包括：

根据所述第一概率集合和所述第二概率集合确定所述待分类图像的类别。

第三方面，本发明实施例提供一种图像分类模型的训练装置，所述装置包括：

集合抽取单元，被配置为从训练集中抽取至少一个第一支持集和第一查询集，所述第一支持集和对应的第一查询集形成一个样本任务，所述训练集包括多种类别的图像样本，所述第一支持集和第一查询集中的样本具有类别标签；

特征提取单元，被配置为将所述样本任务的第一支持集和第一查询集输入至所述图像分类模型的编码器模块进行特征提取，以获取所述样本任务的第一支持集和第一查询集对应的第一样本特征向量；

标签生成单元，被配置为生成所述样本任务的第一支持集和第一查询集中的样本的学习标签；

第一损失确定单元，被配置为将各所述第一样本特征向量以及对应的元学习标签输入至所述图像分类模型的情节学习模块，以确定第一损失；

第二损失确定单元，被配置为将各所述第一样本特征向量以及对应的类别标签输入至分类模块，以确定第二损失；

训练单元，被配置为根据第一损失和第二损失调节所述编码器模块、情节学习模块和分类模块的参数，以确定所述图像分类模型。

第四方面，本发明实施例提供一种图像分类装置，所述装置包括：

图像获取单元，被配置为获取待分类图像；

特征提取单元，被配置为将所述待分类图像输入至预先训练的图像分类模型的编码器模块进行特征提取，获取所述待分类图像的特征向量；

类别确定单元，被配置为将所述待分类图像的特征向量输入至所述图像分类模型的情节学习模块和/或分类模块进行处理，以确定所述待分类图像的类别；

第五方面，本发明实施例提供一种电子设备，所述电子设备包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如本发明实施例第一方面所述的方法和/或本发明实施例第二方面所述的方法。

第六方面，本发明实施例提供一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时以实现如本发明实施例第一方面所述的方法和/或本发明实施例第二方面所述的方法。

本实施例通过从训练集中抽取至少一个第一支持集和第一查询集形成一个样本任务，将该样本任务的第一支持集和第一查询集输入至图像分类模型的编码器模块进行特征提取，以获取所述样本任务的第一支持集和第一查询集对应的样本特征向量，生成所述样本任务的第一支持集和第一查询集中的样本的学习标签，将各所述样本特征向量以及对应的元学习标签输入至所述图像分类模型的情节学习模块，以确定第一损失，将各所述样本特征向量以及对应的类别标签输入至分类模块，以确定第二损失，根据第一损失和第二损失调节所述编码器模块、情节学习模块和分类模块的参数，以确定所述图像分类模型，由此，本实施例通过情节学习模块和分类模块监督网络训练，使得网络能够更好地拟合数据，从而可以提高图像分类模型的泛化能力及分类准确率等性能。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的图像分类模型的示意图；

图2是本发明实施例的图像分类模型的训练方法的流程图；

图3是本发明实施例的图像分类模型的更新方法的流程图；

图4是本发明实施例的图像分类模型的测试方法的流程图；

图5是本发明实施例的图像分类方法的流程图；

图6是本发明实施例的图像分类模型的训练装置的示意图；

图7是发明实施例的图像分类装置的示意图；

图8是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

元学习(Meta Learning)也称为学会学习，其思想是利用已知的先验知识能够快速适应新的学习任务。在元学习中，将图像分为元训练集(Meta Train Set)和元测试集(Meta Test Set)。其中，元训练集和元测试集中的图像类别不重合。元学习的方法可以分为两种：基于度量的方法和基于梯度的方法。

基于度量的方法旨在最小化类内距离，同时最大化类间距离，经典算法如匹配网络(Matching Network)和关系网络(Relation Network)等。这类方法通常采用Episodic的训练策略，将训练集分为支持集(Support Set)和查询集(Query Set)，对每个类别的图像抽取少量样本，形成一个子任务(episodes)，以模拟训练和测试的过程，在使用子任务来训练模型。基于梯度的方法旨在训练一个仅通过微调便可以更好的泛化到新的任务上，经典算法如模型无关的元学习(Model Agnostic Meta Learning，MAML)。元学习通过对已有任务的学习，来提升对未见的新任务的分类准确率，通过对支持集和查询集的视觉特征进行匹配，完成分类。本实施例基于元学习的思想，提供一种新的图像分类模型及其训练测试方法，以提高图像分类模型的泛化能力和分类准确率。

图1是本发明实施例的图像分类模型的示意图。如图1所示，本实施例的图像分类模型1包括编码器模块11、情节学习模块12和分类模块13。其中，编码器模块11用于获取输入图像的特征向量。可选的，情节学习模块12根据样本之间的相似度来确定样本属于各图像类别的概率，并根据概率预测对应样本的图像类别。分类模块13根据语义信息来确定样本属于各图像类别的概率，根据概率预测对应样本的图像类别。由此，本实施例通过情节学习模块12和分类模块13对模型进行训练，可以在监督模型训练的同时，使得模型能够更好地拟合数据，从而提高模型的泛化能力和分类准确性。

图2是本发明实施例的图像分类模型的训练方法的流程图。如图2所示，本发明实施例的图像分类模型的训练方法包括以下步骤：

步骤S110，从训练集中抽取至少一个第一支持集和第一查询集。其中，第一支持集和对应的第一查询集形成一个样本任务(episodes)。训练集包括多种类别的图像样本。样本任务的第一支持集和第一查询集中的样本具有类别标签。在一种可选的实现方式中，第一支持集中包括C个图像类别，每个类别具有N个图像，其中C大于等于1，N大于等于1。可选的，第一支持集和第一查询集中的图像类别相同，也可以为第一支持集中的部分类别。第一查询集中的每个类别具有M个图像，M大于等于1。例如，C＝5，N＝5，M＝15，且第一支持集和第一查询集中的图像类别相同，则第一支持集包括5个图像类别y1-y5，每个类别具有5张图像，第一查询集也包括5个图像类别c1-c5，每个类别具有15张图像。

步骤S120，将一个样本任务的第一支持集和第一查询集输入至图像分类模型的编码器模块进行特征提取，以获取该样本任务的第一支持集和第一查询集对应的第一样本特征向量。也就是说，将样本任务中的第一支持集中的样本、第一查询集中的样本输入至图像分类模型的编码器模块进行特征提取，获得第一支持集中的各样本对应的第一样本特征向量以及第一查询集中的各样本对应的第一样本特征向量。可选的，编码器模块为卷积神经网络。在一种可选的实现方式中，本实施例的图像分类模型采用ResNet-12为骨干网络，应理解，其他神经网络例如ResNet-50、ResNet-101等均可以作为本实施例的图像分类模型的骨干网络，本实施例并不对此进行限制。

步骤S130，生成该样本任务的第一支持集和第一查询集中的样本的学习标签。在本实施例中，对每个样本任务的第一支持集中的样本和第一查询集中的样本重新划分类别标签。也即，对第一支持集(和第一查询集)中的同类别的图像赋予同一个新的类别标签。例如，对于实际类别标签为c1的图像，将其类别标签确定为学习标签0，对于实际类别标签为c2的图像，将其类别标签确定为学习标签1，本实施例并不对此进行限制。

应理解，在本实施例中，步骤S120和步骤S130并没有前后的执行顺序，也即，步骤S120可以在步骤S130之前执行，也可以在步骤S130之后执行，还可以和步骤S130同时执行，本实施例并不对此进行限制。

步骤S140，将各第一样本特征向量以及对应的学习标签输入至图像分类模型的情节学习模块，以确定第一损失。应理解，在训练过程中，情节学习模块所描述的图像类别的类别标签均为采用步骤S130中重新划分的类别标签，也即学习标签。

在一种可选的实现方式中，情节学习模块(Transductive episode-wiselearning模块)包括MCT网络(Meta-Confidence Transduction，元信心传导网络)和DFMN(Dense Feature–Matching Network，密集型特征匹配网络)。

可选的，MCT网络根据第一查询集对应的第一样本特征向量和原特征向量之间的距离确定对应的样本属于某一图像类别的概率。其中，原特征向量根据第一支持集中的样本和第一查询集中的样本确定。可选的，根据第一支持集初始化原特征向量，根据第一查询集迭代更新原特征向量。其中，迭代次数为T，T大于等于1，迭代次数T可以根据实际情况确定，本实施例并不对此进行限制。

以第一支持集为S＝{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，第一查询集为为例，其中，x为第一支持集中的样本，y为第一支持集中的样本的学习标签，/>为第一查询集中的样本，/>为第一查询集中的样本的学习标签。

其中，为根据第一支持集初始化后的图像类别c对应的原特征向量，/>为第一支持集中的图像类别c的样本数量，S_c为第一支持集中的图像类别c的样本集合。f_θ为编码器模块的网络，θ为编码器模块的网络参数，f_θ(x)为样本x的特征向量。t表征当前迭代，t＝1,…,T。/>为第一查询集中的样本/>的特征向量，/>为第(t-1)次迭代时的原特征向量，/>为距离计算函数(例如欧式距离等)，/>为距离计算函数中的相关长度缩放参数，exp()为指数函数，c′为学习标签，c′＝1,…,C。/>为第t次迭代时的原特征向量，Q_x第一查询集中的图像类别x的样本集合。由此，确定第T次迭代时图像类别c的原特征向量/>并根据第一查询集对应的第一样本特征向量/>和原特征向量/>之间的距离确定对应的样本属于图像类别c的概率：

其中，也即，第一查询集中的样本/>属于图像类别c的概率为

可选的，MCT网络对应的损失函数L_I：

其中，Q^τ为从样本任务分布中抽取的样本任务的第一查询集，τ为抽取的样本任务的标识，|Q^τ|为第一查询集Q^τ中的样本数量，为根据第一查询集Q^τ对应的第一支持集S^τ确定的样本/>为图像类别/>的概率。

可选的，DFMN网络根据第一查询集中的样本在像素点i处的K维特征向量和预设的各图像类别的全局标准向量之间的距离确定对应的样本属于某一图像类别的概率。其中，各图像类别的全局标准向量为：ω＝{w_c∈R^K|c＝1,…,C_g}，R表征度量空间，K表征维度，每个像素点i∈{(1,1),…,(H,W)}。其中，第一查询集中的类别标签c为{1,…,C_g}。

其中，pⁱ()为第一查询集中的样本采用像素点为i处的K维特征向量计算的其类别标签为/>的概率，d()为距离计算函数，/>为样本/>在像素点为i处的K维特征向量，为类别标签为/>时对应的全局标准向量，w_c为类别标签为c时对应的全局标准向量。

可选的，DFMN网络对应的损失函数L_D：

由此，在本实施例中，情节学习模块对应的第一损失L1根据MCT网络对应的损失函数L_I和DFMN网络对应的损失函数L_D确定：

其中，E表征均值，p(τ)为从样本任务分布中抽取的样本任务的第一查询集的概率分布，H×W表征最大像素点。

步骤S150，将各第一样本特征向量以及对应的类别标签输入至分类模块，以确定第二损失。可选的，在本实施例中，分类模块(global classification模块)根据样本的语义信息来确定其图像类别。应理解，在训练过程中，分类模块所描述的图像类别的类别标签均为样本的实际类别标签，也即原始标注的类别标签。

可选的，分类模块确定样本为各图像类别的概率满足以下公式：

其中，f_θ(x)为第一支持集中的样本x的第一样本特征向量，f_θ表示编码器模块的网络，θ为编码器模块的网络参数，f_δ表示分类模块的网络，δ为分类模块的网络参数，p(y_g|x；θ,δ)为第一支持集中的样本x的图像类别为y_g的概率，S为第一支持集，为第一查询集中的样本/>的第一样本特征向量，/>为第一查询集中的样本/>的图像类别为/>的概率，Q为第一查询集。

可选的，分类模块对应的第二损失函数L2为：

步骤S160，根据第一损失和第二损失调节所述编码器模块、情节学习模块和分类模块的参数，以确定图像分类模型。

在一种可选的实现方式中，步骤S160可以为：对第一损失L1和第二损失L2进行累加确定损失和L，根据损失和L对编码器模块、情节学习模块和分类模块的参数，将损失和L收敛到最小值时的图像分类模型确定为训练完成的图像分类模型。

由此，本实施例可以通过本实施例通过情节学习模块和分类模块监督网络训练，使得网络能够更好地拟合数据，从而可以提高图像分类模型的泛化能力及分类准确率等性能。

图3是本发明实施例的图像分类模型的更新方法的流程图。在一种可选的实现方式中，本实施例通过分类模块对图像分类模型的参数进行微调，以更新图像分类模型。如图3所示，本实施例的图像分类模型的更新方法包括以下步骤：

步骤S210，从测试集中抽取至少一个第二支持集和第二查询集。其中，第二支持集中的样本具有类别标签。可选的，第二支持集和第二查询集也形成一样本任务。在一种可选的实现方式中，测试集中的图像类别与训练集中的图像类别完全不同。在另一种可选的实现方式中，测试集中的图像类别与训练集中的图像类别可以部分不同。

步骤S220，将第二支持集输入至编码器模块进行特征提取，以获取该第二支持集对应的第二样本特征向量。

步骤S230，将该第二支持集对应的各第二样本特征向量以及该第二支持集对应的类别标签输入至分类模块中进行处理，以确定第三损失。

在本实施例的测试阶段，在基于上述损失和L调节图像分类模型的参数后，使得分类模块对样本任务的第一支持集对应的第一样本特征向量进行处理，确定第三损失函数L，根据第三损失函数L对编码器模块和分类模块的参数进行微调，以进一步提高图像分类模型的性能。

其中，S为样本任务的第二支持集，|S|是第二支持集S中的样本数量，x为第二支持集S中的样本，y为类别标签，p(y|x；θ,δ)为分类模块对样本x进行处理，确定的样本x的类别标签为y的概率。

步骤S240，根据第三损失更新编码器模块和分类模块的参数，以更新图像分类模型。也即，迭代执行步骤S210-S240预定次数或者使得第三损失L3达到预定的收敛范围，确定更新后的图像分类模型。

本实施例通过从测试集中抽取至少一个第二支持集和第二查询集，将所述第二支持集输入至所述编码器模块进行特征提取，以获取所述第二支持集对应的第二样本特征向量，将所述第二支持集对应的各所述第二样本特征向量以及所述第二支持集对应的类别标签输入至所述分类模块中进行处理，以确定第三损失，根据所述第三损失更新所述编码器模块和所述分类模块的参数，以更新所述图像分类模型，由此，本实施例通过在测试过程中进一步调节编码器模块和分类模块的参数，以进一步微调图像分类模型，从而进一步提高图像分类模型的泛化能力及分类准确率等性能。

在一种可选的实现方式中，本实施例还包括：对步骤S110-S160训练获取的图像分类模型进行测试，并在测试过程中进一步调节编码器模块和分类模块的参数，以进一步微调图像分类模型，从而进一步提高图像分类模型的泛化能力及分类准确率等性能。

图4是本发明实施例的图像分类模型的测试方法的流程图。如图4所示，本发明实施例的图像分类模型的测试方法包括以下步骤：

步骤S310，从测试集中抽取至少一个第二支持集和第二查询集。其中，第二支持集中的样本具有类别标签。可选的，第二支持集和第二查询集也形成一样本任务。在一种可选的实现方式中，测试集中的图像类别与训练集中的图像类别完全不同。在另一种可选的实现方式中，测试集中的图像类别与训练集中的图像类别可以部分不同。

步骤S320，将第二支持集输入至编码器模块进行特征提取，以获取该第二支持集对应的第二样本特征向量。

步骤S330，将该第二支持集对应的各第二样本特征向量以及该第二支持集对应的类别标签输入至分类模块中进行处理，以确定第三损失。

步骤S340，根据第三损失更新编码器模块和分类模块的参数，以更新图像分类模型。也即，迭代执行步骤S310-S340预定次数或者使得第三损失L3达到预定的收敛范围，确定更新后的图像分类模型。

步骤S350，将第二支持集和第二查询集输入至更新后的编码器模块进行特征提取，以获取第二支持集和第二查询集对应的第三样本特征向量。

步骤S360，将各第三样本特征向量输入至图像分类模型的情节学习模块，以确定第二查询集中的样本的类别预测标签。在一种可选的实现方式中，可以采用MCT网络确定第二查询集中的样本的类别预测标签，也即根据公式(1)-(4)确定第二查询集中的样本属于各图像类别的概率，将最大概率对应的图像类别的类别表现确定为该样本的类别预测标签。在其他可选的实现方式中，也可以采用DFMN网络确定第二查询集中的样本的类别预测标签，也即公式(6)确定第二查询集中的样本属于各图像类别的概率，将最大概率对应的图像类别的类别表现确定为该样本的类别预测标签。或者，本实施例还可以采用MCT网络和DFMN网络相结合的方式确定第二查询集中的样本的类别预测标签，本实施例并不对此进行限制。

步骤S370，根据第二查询集中的样本的类别预测标签确定更新后的图像分类模型的准确率。

本实施例通过在模型测试过程中，根据从测试集抽取的支持集通过分类模块进一步调节图像分类模型，使得图像分类模型能够进一步拟合训练集数据，然后根据训练集和情节学习模型对图像分类模型进行测试，由此，本实施例提高进一步提高图像分类模型的鲁棒性，并提高了模型测试的准确性。

在一种可选的实现方式中，为了缓解数据集中标记数据的不足，并进一步提高类别预测的鲁棒性，本实施例对数据集中的数据进行数据增强操作，例如，将图像进行缩放、剪裁调整、水平翻转、旋转或图像抖动等操作，获取新的标记数据，可选的，本实施例对样本任务中的支持集和查询集的每幅图像采用不同的数据增强方式或数据增强方式组合，以进一步提高训练获取的图像分类模型的鲁棒性。

图5是本发明实施例的图像分类方法的流程图。如图5所示，本实施例的图像分类方法包括以下步骤：

步骤S410，获取待分类图像。

步骤S420，将待分类图像输入至预先训练的图像分类模型的编码器模块进行特征提取，获取待分类图像的特征向量。其中，本实施例的图像分类模型为通过上述步骤S110-S160训练、步骤S310-S370测试获取的图像分类模型。

步骤S430，将待分类图像的特征向量输入至图像分类模型的情节学习模块和/或分类模块进行处理，以确定待分类图像的类别。

在一种可选的实现方式中，步骤S430可以包括：将待分类图像的特征向量输入至情节学习模块进行处理，确定待分类图像属于各类别的第一概率集合，将第一概率集合中最大的第一概率对应的类别确定为待分类图像的类别。

在另一种可选的实现方式中，步骤S430可以包括：将待分类图像的特征向量输入至分类模块进行处理，确定待分类图像属于各类别的第二概率集合，将第二概率集合中最大的第二概率对应的类别确定为待分类图像的类别。

在又一种可选的实现方式中，步骤S430可以包括：将待分类图像的特征向量输入至情节学习模块进行处理，确定待分类图像属于各类别的第一概率集合，将待分类图像的特征向量输入至分类模块进行处理，确定待分类图像属于各类别的第二概率集合，根据第一概率集合和所述第二概率集合确定待分类图像的类别。可选的，根据第一概率集合和第二概率集合确定待分类图像属于各类别的概率和集合、或概率加权和集合、或平均概率集合，将概率和集合、或概率加权和集合、或平均概率集合中的最大概率对应的类别确定为待分类图像的类别。例如，待处理图像根据情节学习模块确定的属于类别c1的第一概率为p1，根据分类模块确定的属于类别c1的第二概率为p2，则该待分类图像属于类别c1的概率和为(p1+p2)、概率加权和为(w1*p1+w2*p2)、平均概率为(p1+p2)/2。由此，可以根据情节学习模块和分类模块的预测结果综合判断待分类图像的类别，进一步提高图像分类的准确率。

本实施例通获取待分类图像，将所述待分类图像输入至预先训练的图像分类模型的编码器模块进行特征提取，获取所述待分类图像的特征向量，将所述待分类图像的特征向量输入至所述图像分类模型的情节学习模块和/或分类模块进行处理，以确定所述待分类图像的类别，其中，本实施例的图像分类模型通过情节学习模块和分类模块监督网络训练，使得网络能够更好地拟合数据，由此，本实施例可以更准确地获取待分类图像的类别。

图6是本发明实施例的图像分类模型的训练装置的示意图。如图6所示，本发明实施例的图像分类模型的训练装置6包括集合抽取单元61、特征提取单元62、标签生成单元63、第一损失确定单元64、第二损失确定单元65以及训练单元66。

集合抽取单元61被配置为从训练集中抽取至少一个第一支持集和第一查询集，所述第一支持集和对应的第一查询集形成一个样本任务，所述训练集包括多种类别的图像样本，所述第一支持集和第一查询集中的样本具有类别标签。可选的，所述样本任务的第一支持集和第一查询集的样本类别相同。

特征提取单元62被配置为将所述样本任务的第一支持集和第一查询集输入至所述图像分类模型的编码器模块进行特征提取，以获取所述样本任务的第一支持集和第一查询集对应的第一样本特征向量。标签生成单元63被配置为生成所述样本任务的第一支持集和第一查询集中的样本的学习标签。第一损失确定单元64被配置为将各所述第一样本特征向量以及对应的元学习标签输入至所述图像分类模型的情节学习模块，以确定第一损失。第二损失确定单元65被配置为将各所述第一样本特征向量以及对应的类别标签输入至分类模块，以确定第二损失。训练单元66被配置为根据第一损失和第二损失调节所述编码器模块、情节学习模块和分类模块的参数，以确定所述图像分类模型。

在一种可选的实现方式中，训练单元66包括损失和计算子单元和训练子单元。损失和计算子单元被配置为对所述第一损失和第二损失进行累加确定损失和。训练子单元被配置为根据所述损失和对所述编码器模块、情节学习模块和分类模块的参数进行梯度更新。

在一种可选的实现方式中，本发明实施例的图像分类模型的训练装置6还包括测试单元。可选的，测试单元包括集合抽取子单元、第一特征提取子单元、第三损失确定子单元以及模型更新子单元。

集合抽取子单元被配置为从测试集中抽取至少一个第二支持集和第二查询集，所述第二支持集中的样本具有类别标签。第一特征提取子单元被配置为将所述第二支持集输入至所述编码器模块进行特征提取，以获取所述第二支持集对应的第二样本特征向量。第三损失确定子单元被配置为将所述第二支持集对应的各所述第二样本特征向量以及所述第二支持集对应的类别标签输入至所述分类模块中进行处理，以确定第三损失。模型更新子单元被配置为根据所述第三损失更新所述编码器模块和所述分类模块的参数，以更新所述图像分类模型。

在一种可选的实现方式中，测试单元还包括第二特征向量提取子单元、类别预测标签预测子单元和测试子单元。

第二特征向量提取子单元被配置为将所述第二支持集和第二查询集输入至更新后的编码器模块进行特征提取，以获取所述第二支持集和第二查询集对应的第三样本特征向量。类别预测标签预测子单元，被配置为将所述各第三样本特征向量输入至所述图像分类模型的情节学习模块，以确定第二查询集中的样本的类别预测标签。测试子单元，被配置为根据第二查询集中的样本的类别预测标签确定更新后的所述图像分类模型的准确率。

图7是发明实施例的图像分类装置的示意图。如图7所示，本发明实施例的图像分类装置7包括图像获取单元71、特征提取单元72和类别确定单元73。

图像获取单元71被配置为获取待分类图像。特征提取单元72被配置为将所述待分类图像输入至预先训练的图像分类模型的编码器模块进行特征提取，获取所述待分类图像的特征向量。类别确定单元73被配置为将所述待分类图像的特征向量输入至所述图像分类模型的情节学习模块和/或分类模块进行处理，以确定所述待分类图像的类别。

在一种可选的实现方式中，类别确定单元73包括第一概率集合确定子单元和第一类别确定子单元。第一概率集合确定子单元被配置为将所述待分类图像的特征向量输入至所述情节学习模块进行处理，确定待分类图像属于各类别的第一概率集合。第一类别确定子单元被配置为将所述第一概率集合中最大的第一概率对应的类别确定为所述待分类图像的类别。

在另一种可选的实现方式中，类别确定单元73包括第二概率集合确定子单元和第二类别确定子单元。第二概率集合确定子单元被配置为将所述待分类图像的特征向量输入至所述分类模块进行处理，确定待分类图像属于各类别的第二概率集合。第二类别确定子单元被配置为将所述第二概率集合中最大的第二概率对应的类别确定为所述待分类图像的类别。

在另一种可选的实现方式中，类别确定单元73包括第三概率集合确定子单元、第四概率集合确定子单元和第三类别确定子单元。第三概率集合确定子单元被配置为将所述待分类图像的特征向量输入至所述情节学习模块进行处理，确定待分类图像属于各类别的第一概率集合。第四概率集合确定子单元被配置为将所述待分类图像的特征向量输入至所述分类模块进行处理，确定待分类图像属于各类别的第二概率集合。第三类别确定子单元被配置为根据所述第一概率集合和所述第二概率集合确定所述待分类图像的类别。

图8是本发明实施例的电子设备的示意图。如图8所示，图8所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器81和存储器82。处理器81和存储器82通过总线83连接。存储器82适于存储处理器81可执行的指令或程序。处理器81可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器81通过执行存储器82所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线83将上述多个组件连接在一起，同时将上述组件连接到显示控制器84和显示装置以及输入/输出(I/O)装置85。输入/输出(I/O)装置85可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置85通过输入/输出(I/O)控制器86与系统相连。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像分类模型的训练方法，其特征在于，所述方法包括：

将各所述第一样本特征向量以及对应的元学习标签输入至所述图像分类模型的情节学习模块，以确定第一损失，所述情节学习模块根据样本之间的相似度来确定样本属于各图像类别的概率，根据概率预测对应样本的图像类别；

将各所述第一样本特征向量以及对应的类别标签输入至分类模块，以确定第二损失，所述分类模块根据语义信息来确定样本属于各图像类别的概率，根据概率预测对应样本的图像类别；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，根据第一损失和第二损失调节所述编码器模块、情节学习模块和分类模块的参数，以确定所述图像分类模型包括：

对所述第一损失和第二损失进行累加确定损失和；

5.根据权利要求1所述的方法，其特征在于，所述样本任务的第一支持集和第一查询集的样本类别相同。

6.根据权利要求4所述的方法，其特征在于，所述第一支持集和所述第二支持集中的图像类别至少部分不同。

7.一种图像分类方法，其特征在于，所述方法包括：

获取待分类图像；

其中，所述图像分类模型通过如权利要求1-6中任一项所述的图像分类模型的训练方法训练获得。

8.根据权利要求7所述的方法，其特征在于，将所述待分类图像的特征向量输入至所述图像分类模型的情节学习模块进行处理，以确定所述待分类图像的类别包括：

9.根据权利要求7所述的方法，其特征在于，将所述待分类图像的特征向量输入至所述图像分类模型的分类模块进行处理，以确定所述待分类图像的类别包括：

10.根据权利要求7所述的方法，其特征在于，将所述待分类图像的特征向量输入至所述图像分类模型的情节学习模块和/或分类模块进行处理，以确定所述待分类图像的类别包括：

11.一种图像分类模型的训练装置，其特征在于，所述装置包括：

第一损失确定单元，被配置为将各所述第一样本特征向量以及对应的元学习标签输入至所述图像分类模型的情节学习模块，以确定第一损失，所述情节学习模块根据样本之间的相似度来确定样本属于各图像类别的概率，根据概率预测对应样本的图像类别；

第二损失确定单元，被配置为将各所述第一样本特征向量以及对应的类别标签输入至分类模块，以确定第二损失，所述分类模块根据语义信息来确定样本属于各图像类别的概率，根据概率预测对应样本的图像类别；

12.一种图像分类装置，其特征在于，所述装置包括：

图像获取单元，被配置为获取待分类图像；

13.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-10中任一项所述的方法。

14.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时以实现如权利要求1-10中任一项所述的方法。