CN114187465A

CN114187465A - 分类模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN114187465A
Application number: CN202010962100.8A
Authority: CN
Inventors: 杨杰
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2022-03-15

Abstract

本申请提供一种分类模型的训练方法、装置、电子设备及计算机可读存储介质。该分类模型的训练方法包括：获取多个样本图像；根据所述样本图像和所述样本分布标签进行特征提取处理，得到所述样本图像的基本特征信息和增广特征信息；根据所述基本特征信息和所述增广特征信息进行分类预测处理，得到所述样本图像的第一分类结果和第二分类结果；根据所述第一分类结果、所述第二分类结果以及所述类别标签，更新预设模型的模型参数，直至所述预设模型收敛时，将所述预设模型作为训练好的分类模型。本申请中可以提高分类模型对少样本的类别的分类精度，进而提升分类模型的整体分类精确度。

Description

分类模型的训练方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种分类模型的训练方法、装置、电子设备及计算机可读存储介质。

背景技术

近年来，由于人工智能地快速发展，基于计算机视觉的图像分类处理得到广泛地应用。为了提升图像分类的精度，现有的图像分类模型需要依赖于大量的样本图像进行训练。

然而，在现实中会出现样本少或样本难以获取的情况，这将导致分类模型在训练时的样本分布不均匀(即样本数据集是数据长尾分布)，具体表现为：有些类别的样本图像数量较多、有些类别的样本图像数量较少。由于样本数量较少的类别得不到泛化，将会导致训练后的分类模型在对样本数量较少的类别图像进行分类时，分类精度较低，进而降低了分类模型的分类精度。

发明内容

本申请提供一种分类模型的训练方法、装置、电子设备及计算机可读存储介质，旨在解决由于样本数据集是数据长尾分布，而导致分类模型的训练精确度降低的问题。

第一方面，本申请提供一种分类模型的训练方法，所述方法包括：

获取多个样本图像，其中，所述样本图像已经标注类别标签、以及样本分布标签，所述样本分布标签用于指示样本图像是头部数据或尾部数据；

根据所述样本图像和所述样本分布标签进行特征提取处理，得到所述样本图像的基本特征信息和增广特征信息；

根据所述基本特征信息和所述增广特征信息进行分类预测处理，得到所述样本图像的第一分类结果和第二分类结果；

根据所述第一分类结果、所述第二分类结果以及所述类别标签，更新预设模型的模型参数，直至所述预设模型收敛时，将所述预设模型作为训练好的分类模型，其中，所述分类模型用于对图像进行分类。

在本申请一种可能的实现方式中，所述根据所述样本图像和所述样本分布标签进行特征提取处理，得到所述样本图像的基本特征信息和增广特征信息，包括：

根据所述样本图像进行特征提取处理，得到所述样本图像的图像特征信息；

获取所述图像特征信息的第一均值信息和第一方差信息；

根据所述第一均值信息、所述第一方差信息和所述样本分布标签，确定所述基本特征信息和所述增广特征信息。

在本申请一种可能的实现方式中，所述根据所述第一均值信息、所述第一方差信息和所述样本分布标签，确定所述基本特征信息和所述增广特征信息，包括：

将所述第一均值信息、以及所述第一方差信息作为所述基本特征信息；

根据所述样本分布标签，对所述图像特征信息进行分类处理，得到所述样本图像的尾部图像特征信息和头部图像特征信息；

将所述头部图像特征信息对应的第一方差信息作为所述尾部图像特征信息的第二方差信息；并将所述尾部图像特征信息对应的第一均值信息作为所述尾部图像特征信息的第二均值信息；

将所述第二均值信息、以及所述第二方差信息作为所述增广特征信息。

在本申请一种可能的实现方式中，所述根据所述基本特征信息和所述增广特征信息进行分类预测处理，得到所述样本图像的第一分类结果和第二分类结果，包括：

根据所述第一均值信息和所述第一方差信息，对所述样本图像进行分类预测处理，得到所述第一分类结果；

根据所述第二均值信息和所述第二方差信息，对所述样本图像进行分类预测处理，得到所述第二分类结果。

在本申请一种可能的实现方式中，所述将所述头部图像特征信息对应的第一方差信息作为所述尾部图像特征信息的第二方差信息，包括：

根据所述头部图像特征信息对应的第一方差信息以及预设的缓冲公式，确定所述第二方差信息，其中所述缓冲公式为：

δ'_tail＝αδ_tail+(1-α)δ_head

其中，δ'_tail表示所述第二方差信息，δ_tail表示所述尾部图像特征信息对应的第一方差信息，δ_head表示所述头部图像特征信息对应的第一方差信息，α为超参数。

在本申请一种可能的实现方式中，所述根据所述第一分类结果、所述第二分类结果以及所述类别标签，更新预设模型的模型参数，直至所述预设模型收敛时，将所述预设模型作为训练好的分类模型，包括：

根据所述第一分类结果和所述类别标签，确定所述预设模型的第一分类损失值；

根据所述第二分类结果和所述类别标签，确定所述预设模型的第二分类损失值；

根据所述第一分类损失值和所述第二分类损失值，确定所述预设模型的总损失值；

根据所述总损失值更新所述模型参数，直至所述预设模型收敛时，将所述预设模型作为训练好的分类模型。

在本申请一种可能的实现方式中，所述方法还包括：

获取目标图像；

调用所述分类模型，对所述目标图像进行特征提取处理，得到所述目标图像的目标特征信息；

调用所述分类模型，根据所述目标特征信息进行分类预测处理，得到所述目标图像的目标类别。

第二方面，本申请提供一种分类模型的训练装置，所述分类模型的训练装置包括：

获取单元，用于获取多个样本图像，其中，所述样本图像已经标注类别标签、以及样本分布标签，所述样本分布标签用于指示样本图像是头部数据或尾部数据；

特征提取单元，用于根据所述样本图像和所述样本分布标签进行特征提取处理，得到所述样本图像的基本特征信息和增广特征信息；

预测单元，用于根据所述基本特征信息和所述增广特征信息进行分类预测处理，得到所述样本图像的第一分类结果和第二分类结果；

更新单元，用于根据所述第一分类结果、所述第二分类结果以及所述类别标签，更新预设模型的模型参数，直至所述预设模型收敛时，将所述预设模型作为训练好的分类模型，其中，所述分类模型用于对图像进行分类。

在本申请一种可能的实现方式中，所述特征提取单元具体还用于：

获取所述图像特征信息的第一均值信息和第一方差信息；

在本申请一种可能的实现方式中，所述预测单元具体还用于：

δ'_tail＝αδ_tail+(1-α)δ_head

在本申请一种可能的实现方式中，所述更新单元具体还用于：

在本申请一种可能的实现方式中，所述分类模型的训练装置还包括训练单元，所述训练单元具体用于：

获取目标图像；

第三方面，本申请还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行本申请提供的任一种分类模型的训练方法中的步骤。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的分类模型的训练方法中的步骤。

本申请通过根据标注了用于指示样本图像是头部数据或尾部数据的样本分布标签多个样本图像进行特征提取处理，得到样本图像的基本特征信息和增广特征信息；根据基本特征信息和增广特征信息进行分类预测处理，得到样本图像的第一分类结果和第二分类结果；根据第一分类结果、第二分类结果以及类别标签，更新预设模型的模型参数，直至预设模型收敛时，将预设模型作为训练好的分类模型；一方面，由于可以通过样本分布标签对样本图像中的尾部数据的特征空间进行增广，得到并利用增广特征信息进行模型训练，使得训练后的分类模型在尾部样本数据(即少样本)类别上的分类泛化，从而提升分类模型对少样本类别的分类精确度，进而提升整个分类模型的精度。另一方面，由于在特征空间层面进行特征增广，因此无需依赖于样本图像的数量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例所提供的分类模型的训练系统的场景示意图；

图2是本申请实施例中提供的分类模型的训练方法的一种流程示意图；

图3是本申请实施例中提供的预设模型的一种框架示意图；

图4是本申请实施例中提供的预设模型的又一种框架示意图；

图5是本申请实施例中提供的步骤S20的一个实施例流程示意图；

图6是本申请实施例中提供的特征增广过程的一种示意图；

图7是本申请实施例中提供的分类模型的训练装置的一个实施例结构示意图；

图8是本申请实施例中提供的电子设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的过程进行详细阐述，以避免不必要的细节使本申请实施例的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请实施例所公开的原理和特征的最广范围相一致。

本申请实施例提供一种分类模型的训练方法、装置、电子设备和计算机可读存储介质。其中，该分类模型的训练装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

首先，在介绍本申请实施例之前，先介绍下本申请实施例关于应用背景的相关内容。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

深度神经网络在目标分类与识别任务上获得了较大进展，然而在应对长尾分布的数据时表现糟糕，具体表现为在仅有少量训练样本的类别上分类的泛化性能糟糕。

现有技术中解决数据长尾问题的方式，按策略的不同可分为三种类型：基于重采样、样本生成和权重分配的方法。重采样是对只有少量训练样本的类别进行重复采样，样本生成是通过生成对抗网络为少样本类别额外生成一批样本，重采样和样本生成这两者都是增加少样本类别的样本量，在数量上让各类别达到平衡；权重分配则是对不同训练数目的类别区别考虑，通常在训练损失函数上设置合适的权重，提高分类器对少量样本类别的关注度。基于重采样和权重分配的方法脱离不开现有少样本的限制，所学习得到的分类器表现有限，基于生成对搞网络较为有效的提升了分类器性能，然后这类方法所需要的训练样本过高。

基于现有的相关技术存在的上述缺陷，本申请实施例提供了分类模型的训练方法，至少在一定程度上克服现有的相关技术所存在的缺陷。

本申请实施例分类模型的训练方法的执行主体可以为本申请实施例提供的分类模型的训练装置，或者集成了该分类模型的训练装置的服务器设备、物理主机或者用户设备(User Equipment，UE)等不同类型的电子设备，其中，分类模型的训练装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(Personal Digital Assistant，PDA)等终端设备。

该电子设备可以采用单独运行的工作方式，或者也可以采用设备集群的工作方式，通过应用本申请实施例提供的分类模型的训练方法，可以提高分类模型对少样本的类别的分类精度，进而提升分类模型的整体分类精确度。

参见图1，图1是本申请实施例所提供的分类模型的训练系统的场景示意图。其中，该分类模型的训练系统可以包括电子设备100，电子设备100中集成有分类模型的训练装置。例如，该电子设备可以获取多个样本图像；根据所述样本图像和所述样本分布标签进行特征提取处理，得到所述样本图像的基本特征信息和增广特征信息；根据所述基本特征信息和所述增广特征信息进行分类预测处理，得到所述样本图像的第一分类结果和第二分类结果；根据所述第一分类结果、所述第二分类结果以及所述类别标签，更新预设模型的模型参数，直至所述预设模型收敛时，将所述预设模型作为训练好的分类模型。

另外，如图1所示，该分类模型的训练系统还可以包括存储器200，用于存储数据，如存储图像数据、视频数据。

需要说明的是，图1所示的分类模型的训练系统的场景示意图仅仅是一个示例，本申请实施例描述的分类模型的训练系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着分类模型的训练系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

下面，开始介绍本申请实施例提供的分类模型的训练方法，本申请实施例中以电子设备作为执行主体，为了简化与便于描述，后续方法实施例中将省略该执行主体，该分类模型的训练方法包括：获取多个样本图像；根据所述样本图像和所述样本分布标签进行特征提取处理，得到所述样本图像的基本特征信息和增广特征信息；根据所述基本特征信息和所述增广特征信息进行分类预测处理，得到所述样本图像的第一分类结果和第二分类结果；根据所述第一分类结果、所述第二分类结果以及所述类别标签，更新预设模型的模型参数，直至所述预设模型收敛时，将所述预设模型作为训练好的分类模型。

参照图2，图2是本申请实施例提供的分类模型的训练方法的一种流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。该分类模型的训练方法包括步骤S10～S40，其中：

S10、获取多个样本图像。

其中，样本图像已经标注类别标签、以及样本分布标签，样本分布标签用于指示样本图像是头部数据或尾部数据。

头部数据(本文中亦称为头部类、或头部类数据)是指对应类别的样本数量较多的样本图像。尾部数据(本文中亦称为尾部类、或尾部类数据)是指对应类别的样本数量较少的样本图像。

其中，样本图像所包含的物体、物体的类别可以根据具体需求而设定，在本申请实施例中不做限定。

例如，为了使得模型可以根据图像，将车辆分为全新类别、轻微刮损类别、严重毁坏类别，需要分别采集车辆为全新、轻微刮损、严重毁坏(如严重事故造成的毁坏)的图像作为样本图像对模型进行训练。其中，车辆为全新、轻微刮损的图像比较容易采集，也即全新类别的样本数量较多、轻微刮损类别的样本数量也较多。但是，由于实际情况中车辆为严重毁坏的图像比较难采集，也即严重毁坏类别的样本数量较少。则可以将类别为全新类别的样本图像、轻微刮损类别的样本图像、严重毁坏类别的样本图像的样本分布标签分别标注为：头部数据、头部数据、尾部数据。

S20、根据所述样本图像和所述样本分布标签进行特征提取处理，得到所述样本图像的基本特征信息和增广特征信息。

其中，基本特征信息是指对样本图像进行特征提取后，所得到的图像特征。增广特征信息是指根据样本分布标签对基本特征信息进行增广处理后，所得到的特征。

为了更好地了解本申请实施例，下面先介绍一下本申请实施例中分类模型的训练构思，以及所涉及的预设模型的网络结构和功能。

第一方面，分类模型的训练构思。

在本申请实施例本身并未增加样本图像的丰富性，而是旨在通过增广尾部样本数据的图像特征，利用增广后尾部样本数据的图像特征进行模型训练，以实现分类模型在尾部样本数据(即少样本)类别上的分类泛化，从而提升分类模型对少样本类别的分类精确度，进而提升整个分类模型的精度。

第二方面，预设模型的网络结构和功能。

预设模型可以包括特征提取层、特征增广层、分类预测层。

特征提取层，用于根据图像输出图像的基本特征信息。特征提取层以图像(如单张RGB图片)为输入，对图像进行特征提取处理，以维度为D的图像特征f为输出。

特征增广层，用于根据图像特征f输出增广后的图像特征f’。特征增广层以图像特征f为输入，对图像特征f进行特征增广处理，以增广后的图像特征f’为输出。

分类预测层，用于根据图像特征f输出图像的第一分类结果、根据增广后的图像特征f’输出图像的第二分类结果。

请参照图3，图3是本申请实施例中提供的预设模型的一种框架示意图。在一些实施例中，预设模型的网络框架可以包括如图3所示的两个分支(常规分支、增广分支)。其中，常规分支可以依次包括第一特征提取层、第一分类预测层。第一特征提取层用于根据样本图像进行特征提取处理，输出样本图像的基本特征信息。第一分类预测层用于根据样本图像的基本特征信息进行分类预测处理，输出样本图像的第一分类结果。增广分支可以依次包括第二特征提取层、特征增广层、第二分类预测层。第二特征提取层用于根据样本图像进行特征提取处理，输出样本图像的基本特征信息。特征增广层用于根据样本图像的基本特征信息进行特征增广处理，输出样本图像的增广特征信息。第二分类预测层用于根据样本图像的基本特征信息或增广特征信息进行分类预测处理，输出样本图像的第二分类结果。

其中，图3中第一特征提取层和第二特征提取层的结构可以相同、两者的权重参数可以共享，以保证二者所分别输出的基本特征信息相同。

请参照图4，图4是本申请实施例中提供的预设模型的又一种框架示意图。在一些实施例中，预设模型的网络框架可以包括如图4所示的特征提取层、及两个分支(常规分支、增广分支)。其中，常规分支可以依次包括第一分类预测层。第一分类预测层用于根据样本图像的基本特征信息进行分类预测处理，输出样本图像的第一分类结果。增广分支可以依次包括特征增广层、第二分类预测层。特征增广层用于根据样本图像的基本特征信息进行特征增广处理，输出样本图像的增广特征信息。第二分类预测层用于根据样本图像的基本特征信息、或增广特征信息进行分类预测处理，输出样本图像的第二分类结果。

图3和图4中所示出的常规分支用于输出第一分类结果、增广分支用于输出第二分类结果。

可以理解的是，以上关于预设模型的网络结构和功能的介绍，只是为了更好地理解本申请实施例。本领域技术人员可以根据预设模型所需实现的功能，在以上网络结构示例的基础上，对预设模型的网络结构进行调整。例如，在特征提取层以初步图像特征为输出，并在特征提取层之后新增特征预处理层，在特征预处理层以特征提取层输出的初步图像特征为输入、对初步图像特征进行特征处理以得到可用于分类预测的基本特征信息。

请参照图4，图4是本申请实施例中提供的步骤S20的一个实施例流程示意图。在本申请的一些实施例中，步骤S20具体可以包括以下步骤S21～S23，其中：

S21、根据所述样本图像进行特征提取处理，得到所述样本图像的图像特征信息。

其中，图像特征信息是指对样本图像进行特征提取处理后，所得到的图像空间特征。

例如，将样本图像分别输入如图3所示的常规分支、增广分支中，通过常规分支中的第一特征提取层对样本图像进行特征提取处理，得到样本图像的图像特征信息。通过增广分支中的第二特征提取层对样本图像进行特征提取处理，也同样可以得到样本图像的图像特征信息。

S22、获取所述图像特征信息的第一均值信息和第一方差信息。

其中，第一均值信息是指通过拟合所得到的、每个类别的图像特征信息的均值。第一方差信息是指通过拟合所得到的、每个类别的图像特征信息的方差。

例如，对于不同类别的图像特征信息，利用高斯分布来拟合得到每个类别的图像特征信息的均值和方差。具体地，通过如下公式(1)确定图像特征信息的第一均值信息，通过如下公式(2)确定图像特征信息的第一方差信息，其中公式(1)、公式(2)分别尾：

其中，μ_i表示第i类的均值(即第一均值信息)，δ_i表示第i类的方差(即第一方差信息)，N_i表示第i类的样本量，

表示第i类的第j个样本的图像特征信息，T表示当前迭代数。

S23、根据所述第一均值信息、所述第一方差信息和所述样本分布标签，确定所述基本特征信息和所述增广特征信息。

请参照图6，图6是本申请实施例中提供的特征增广过程的一种示意图。

如图6所示，为了实现尾部样本数据的图像特征的增广，在本申请的一些实施例中，通过保持尾部类的图像特征信息的均值(即第一均值信息)不变、直接将头部类的图像特征信息的方差(即第一方差信息)迁移为尾部类的图像特征信息的方差(即第二方差信息)，即可得到增广后的图像特征信息。

由以上内容可以看出，由于通过以图像特征信息的方差和均值作为基本特征信息和增广特征信息，用于图像分类预测，由于方差与均值信息可以充分反映样本数据的分布情况，并且方差可以反映样本数据的变化剧烈程度，因此利用均值和方差信息更有利于进行特征增广。

此时，步骤S23具体可以包括：将所述第一均值信息、以及所述第一方差信息作为所述基本特征信息；根据所述样本分布标签，对所述图像特征信息进行分类处理，得到所述样本图像的尾部图像特征信息和头部图像特征信息；将所述头部图像特征信息对应的第一方差信息作为所述尾部图像特征信息的第二方差信息；并将所述尾部图像特征信息对应的第一均值信息作为所述尾部图像特征信息的第二均值信息；将所述第二均值信息、以及所述第二方差信息作为所述增广特征信息。

其中，尾部图像特征信息是指尾部类样本图像的图像特征信息的第一均值信息、第一方差信息。头部图像特征信息是指头部类样本图像的图像特征信息的第一均值信息、第一方差信息。

具体地，一方面，直接将图像特征信息的第一均值信息、以及第一方差信息作为样本图像的基本特征信息。例如：尾部类的图像特征信息的第一均值信息、第一方差信息分别为：μ_tail、δ_tail。头部类的图像特征信息的第一均值信息、第一方差信息分别为：μ_head、δ_head。则可以将μ_tail、δ_tail作为尾部类的基本特征信息，将μ_head、δ_head作为头部类的基本特征信息。

另一方面，首先，根据样本分布标签的指示，将图像特征信息进行分类处理，得到样本图像的尾部图像特征信息和头部图像特征信息。例如：尾部类的图像特征信息的第一均值信息、第一方差信息分别为：μ_tail、δ_tail，即尾部图像特征信息为：μ_tail、δ_tail。头部类的图像特征信息的第一均值信息、第一方差信息分别为：μ_head、δ_head，即头部图像特征信息为：μ_head、δ_head。

然后，将头部图像特征信息对应的第一方差信息(如δ_head)作为尾部图像特征信息的第二方差信息(如δ'_tail)；并将尾部图像特征信息对应的第一均值信息(如μ_tail)作为尾部图像特征信息的第二均值信息(如μ'_tail)。

最后，将第二均值信息、以及第二方差信息作为增广特征信息。例如：将尾部图像特征信息的第二方差信息(如δ'_tail)、第二均值信息(如μ'_tail)作为增广特征信息(μ'_tail、δ'_tail)

由上述内容可见，具体地，基本特征信息是指图像特征信息的均值和方差。

由以上内容可以看出，通过将头部图像特征信息对应的第一方差信息作为尾部图像特征信息的第二方差信息、将尾部图像特征信息对应的第一均值信息作为尾部图像特征信息的第二均值信息，并将第二均值信息、以及第二方差信息作为增广特征信息，实现了样本空间特征的增加，使得样本的特征空间存在的多样性，从而使得尾部样本数据(即少样本)类别上的泛化。

由于直接将头部图像特征信息对应的第一方差信息(如δ_head)作为尾部图像特征信息的第二方差信息(如δ'_tail)，容易导致数据的巨变，为了防止数据的巨变，在本申请的一些实施例中，通过如下公式(3)进行缓冲，即步骤“将所述头部图像特征信息对应的第一方差信息作为所述尾部图像特征信息的第二方差信息”具体可以包括：根据所述头部图像特征信息对应的第一方差信息以及预设的缓冲公式，确定所述第二方差信息，其中缓冲公式为：

δ'_tail＝αδ_tail+(1-α)δ_head 公式(3)

其中，δ'_tail表示第二方差信息，δ_tail表示尾部图像特征信息对应的第一方差信息，δ_head表示头部图像特征信息对应的第一方差信息，α为超参数。

由以上内容可以看出，通过预设的缓冲公式，设置超参数α，可以减缓数据的巨变，避免了数据的巨变对模型训练带来不利。

S30、根据所述基本特征信息和所述增广特征信息进行分类预测处理，得到所述样本图像的第一分类结果和第二分类结果。

其中，第一分类结果是指通过预设模型的第一分类预测层，根据(如图3所示的第一特征提取层、或如图4所示的特征提取层输出的)基本特征信息进行分类预测处理，所得到的样本图像的类别。

第二分类结果是指通过预设模型的第二分类预测层，根据(如图3所示的第二特征提取层、或如图4所示的特征提取层输出的)基本特征信息进行分类预测处理，所得到的样本图像的类别。或者是通过预设模型的第二分类预测层，根据(如图3所示的第二分类预测层、或如图4所示的第二分类预测层输出的)增广特征信息进行分类预测处理，所得到的样本图像的类别。

如图3所示，在一些实施例中，通过第一分类预测层对第一特征提取层输出的基本特征信息进行分类预测处理，可以得到样本图像的第一分类结果。通过第二分类预测层对第二特征提取层输出的基本特征信息进行分类预测处理，可以得到样本图像的第二分类结果。通过第二分类预测层对特征增广层输出的增广特征信息进行分类预测处理，也可以得到样本图像的第二分类结果。

如图4所示，在一些实施例中，通过第一分类预测层对特征提取层输出的基本特征信息进行分类预测处理，可以得到样本图像的第一分类结果。通过第二分类预测层对特征提取层输出的基本特征信息进行分类预测处理，可以得到样本图像的第二分类结果。通过第二分类预测层对特征增广层输出的增广特征信息进行分类预测处理，也可以得到样本图像的第二分类结果。

由于基本特征信息是指图像特征信息的均值和方差，对应地可以以图像特征信息的均值和方差用于分类回归，以预测出样本图像的类别。即在一些实施例中，步骤S30具体可以包括：根据所述第一均值信息和所述第一方差信息，对所述样本图像进行分类预测处理，得到所述第一分类结果；根据所述第二均值信息和所述第二方差信息，对所述样本图像进行分类预测处理，得到所述第二分类结果。

由以上内容可以看出，由于方差与均值信息可以充分反映样本数据的分布情况，并且方差可以反映样本数据的变化剧烈程度。通过以图像特征信息的方差和均值作为基本特征信息和增广特征信息，用于图像分类预测，因此可以直接利用均值和方差信息进行特征增广。

S40、根据所述第一分类结果、所述第二分类结果以及所述类别标签，更新预设模型的模型参数，直至所述预设模型收敛时，将所述预设模型作为训练好的分类模型，其中，所述分类模型用于对图像进行分类。

由以上内容可以看出，通过根据标注了用于指示样本图像是头部数据或尾部数据的样本分布标签多个样本图像进行特征提取处理，得到样本图像的基本特征信息和增广特征信息；根据基本特征信息和增广特征信息进行分类预测处理，得到样本图像的第一分类结果和第二分类结果；根据第一分类结果、第二分类结果以及类别标签，更新预设模型的模型参数，直至预设模型收敛时，将预设模型作为训练好的分类模型；一方面，由于可以通过样本分布标签对样本图像中的尾部数据的特征空间进行增广，得到并利用增广特征信息进行模型训练，使得训练后的分类模型在尾部样本数据(即少样本)类别上的分类泛化，从而提升分类模型对少样本类别的分类精确度，进而提升整个分类模型的精度。另一方面，由于在特征空间层面进行特征增广，因此无需依赖于样本图像的数量。

在本申请的一些实施例中，步骤S40具体可以包括以下步骤S41～S44，其中：

S41、根据所述第一分类结果和所述类别标签，确定所述预设模型的第一分类损失值。

例如，可以根据如下公式(4)，确定预设模型的常规分支的损失值，即可以根据以下公式(4)确定预设模型的第一分类损失值，其中公式(4)为：

其中，L₁为第一分类损失值，x_i为第i个样本的类别标签对应的实际类别，y_i为第i个样本的类别(即第一分类结果)，e为自然常数，w为全连接层(即分类预测层)第j个单元权重，N为样本量，b为均衡参数。

S42、根据所述第二分类结果和所述类别标签，确定所述预设模型的第二分类损失值。

为了能充分反映样本数据的变化剧烈程度，在一些实施例中，考虑以数据方差的损失函数确定预设模型的第二分类损失值。例如，可以根据如下公式(5)，确定预设模型的增广分支的损失值，即可以根据以下公式(5)确定预设模型的第二分类损失值，其中公式(5)为：

其中，L₂为第二分类损失值，x_i为第i个样本的类别标签对应的实际类别，y_i为第i个样本的类别(即第二分类结果)，e为自然常数，w为全连接层(即分类预测层)第j个单元权重，N为样本量，b为均衡参数，s为超参数，δ'_tail为为增广后的方差(即第二方差信息)。

S43、根据所述第一分类损失值和所述第二分类损失值，确定所述预设模型的总损失值。

如图3或图4所示，预设模型的总损失值可以通过如下公式(6)中的损失函数确定，其中公式(6)为：

L＝(1-λ))₁+λL₂ 公式(6)

其中，

T为模型训练的当前迭代次数，Tmax为最大迭代次数，L为预设模型的总损失值，L₁为第一分类损失值，L₂为第二分类损失值。

S44、根据所述总损失值更新所述模型参数，直至所述预设模型收敛时，将所述预设模型作为训练好的分类模型。

例如，根据预设模型的总损失值反向传播更新预设模型的模型参数，预设模型以上述总损失值做为最终的目标函数，迭代训练直至总损失值的误差最小。直至模型收敛时，可以将更新后预设模型作为训练好的分类模型，训练好的分类模型可以对图像进行分类。

由以上内容可以看出，预设模型双分支(包含常规分支、增广分支)的设计是以博弈均衡的方式，让增广分支的网络在分类损失中越来越占有据重要的成分。通过公式(6)可以看出，预设模型在刚开始训练时，与单分支(只有常规)的模型并无多少差异，伴随着迭代次数的增加，让增广分支注重类别的特征空间平衡得到更加的凸显。

在本申请的一些实施例中，还可以利用训练好的分类模型用于图像分类，即本申请实施例的分类模型的训练方法还可以包括：获取目标图像；调用所述分类模型，对所述目标图像进行特征提取处理，得到所述目标图像的目标特征信息；调用所述分类模型，根据所述目标特征信息进行分类预测处理，得到所述目标图像的目标类别。

其中，目标图像是指待分类的图像。目标特征信息是指通过分类模型对目标图像进行特征提出处理后，所得到的图像特征。目标类别是指通过分类模型对目标图像进行分类预测后，所得到的目标图像的类别。

为了方便理解，请继续参照图3，训练后的分类模型的网络框架与预设模型的网络框架对应。例如，在分类模型的实际预测阶段，可以通过图3中的常规分支对目标图像进行分类。具体地，将目标图像输入至分类模型中，分类模型中的第一特征提取层对目标图像进行特征提取处理，得到目标图像的图像特征(即目标特征信息)；随后，第一分类预测层根据第一特征提取层输出的目标特征信息进行回归分类，以预测出目标图像的目标类别。

由以上内容可以看出，通过采用训练好的分类模型中的常规分支即可对目标图像进行分类，并且由于分类模型是通过双分支的预设模型对尾部类进行样本特征扩增训练后得到的，使得分类模型在对样本数量较少的类别的图像，也可以实现精确地分类，提升了分类模型对样本数量少的类别图像的分类精确度，进而提升了分类模型的分类精度。

此外，通过上述内容可以看出本申请实施例中的所提及的增广分支可以嵌入到现有的主流网络中，用于优化现有分类模型在面对样本分布不均的表现。并且无需现有分类模型做任何改变，只需加入增广分支，再重新训练常规分支(即现有分类模型作为常规分支)，具备即插即用的特点。

为了更好实施本申请实施例中分类模型的训练方法，在分类模型的训练方法基础之上，本申请实施例中还提供一种分类模型的训练装置，如图7所示，为本申请实施例中分类模型的训练装置的一个实施例结构示意图，该分类模型的训练装置700包括：

获取单元701，用于获取多个样本图像，其中，所述样本图像已经标注类别标签、以及样本分布标签，所述样本分布标签用于指示样本图像是头部数据或尾部数据；

特征提取单元702，用于根据所述样本图像和所述样本分布标签进行特征提取处理，得到所述样本图像的基本特征信息和增广特征信息；

预测单元703，用于根据所述基本特征信息和所述增广特征信息进行分类预测处理，得到所述样本图像的第一分类结果和第二分类结果；

更新单元704，用于根据所述第一分类结果、所述第二分类结果以及所述类别标签，更新预设模型的模型参数，直至所述预设模型收敛时，将所述预设模型作为训练好的分类模型，其中，所述分类模型用于对图像进行分类。

在本申请的一些实施例中，所述特征提取单元702具体还用于：

获取所述图像特征信息的第一均值信息和第一方差信息；

在本申请的一些实施例中，所述预测单元703具体还用于：

δ'_tail＝αδ_tail+(1-α)δ_head

在本申请的一些实施例中，所述更新单元704具体还用于：

在本申请的一些实施例中，所述分类模型的训练装置700还包括训练单元(图中未示出)，所述训练单元具体用于：

获取目标图像；

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由于该分类模型的训练装置可以执行本申请如图1至图6对应任意实施例中分类模型的训练方法中的步骤，因此，可以实现本申请如图1至图6对应任意实施例中分类模型的训练方法所能实现的有益效果，详见前面的说明，在此不再赘述。

此外，为了更好实施本申请实施例中分类模型的训练方法，在分类模型的训练方法基础之上，本申请实施例还提供一种电子设备，参阅图8，图8示出了本申请实施例电子设备的一种结构示意图，具体的，本申请实施例提供的电子设备包括处理器801，处理器801用于执行存储器802中存储的计算机程序时实现如图1至图6对应任意实施例中分类模型的训练方法的各步骤；或者，处理器801用于执行存储器802中存储的计算机程序时实现如图7对应实施例中各单元的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器802中，并由处理器801执行，以完成本申请实施例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

电子设备可包括，但不仅限于处理器801、存储器802。本领域技术人员可以理解，示意仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子备还可以包括输入输出设备、网络接入设备、总线等，处理器801、存储器802、输入输出设备以及网络接入设备等通过总线相连。

处理器801可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分。

存储器802可用于存储计算机程序和/或模块，处理器801通过运行或执行存储在存储器802内的计算机程序和/或模块，以及调用存储在存储器802内的数据，实现计算机装置的各种功能。存储器802可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的分类模型的训练装置、电子设备及其相应单元的具体工作过程，可以参考如图1至图6对应任意实施例中分类模型的训练方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请如图1至图6对应任意实施例中分类模型的训练方法中的步骤，具体操作可参考如图1至图6对应任意实施例中分类模型的训练方法的说明，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请如图1至图6对应任意实施例中分类模型的训练方法中的步骤，因此，可以实现本申请如图1至图6对应任意实施例中分类模型的训练方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请实施例所提供的一种分类模型的训练方法、装置、电子设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种分类模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的分类模型的训练方法，其特征在于，所述根据所述样本图像和所述样本分布标签进行特征提取处理，得到所述样本图像的基本特征信息和增广特征信息，包括：

获取所述图像特征信息的第一均值信息和第一方差信息；

3.根据权利要求2所述的分类模型的训练方法，其特征在于，所述根据所述第一均值信息、所述第一方差信息和所述样本分布标签，确定所述基本特征信息和所述增广特征信息，包括：

4.根据权利要求3所述的分类模型的训练方法，其特征在于，所述根据所述基本特征信息和所述增广特征信息进行分类预测处理，得到所述样本图像的第一分类结果和第二分类结果，包括：

5.根据权利要求3所述的分类模型的训练方法，其特征在于，所述将所述头部图像特征信息对应的第一方差信息作为所述尾部图像特征信息的第二方差信息，包括：

δ'_tail＝αδ_tail+(1-α)δ_head

6.根据权利要求1所述的分类模型的训练方法，其特征在于，所述根据所述第一分类结果、所述第二分类结果以及所述类别标签，更新预设模型的模型参数，直至所述预设模型收敛时，将所述预设模型作为训练好的分类模型，包括：

7.根据权利要求1-6任一项所述的分类模型的训练方法，其特征在于，所述方法还包括：

获取目标图像；

8.一种分类模型的训练装置，其特征在于，所述分类模型的训练装置包括：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至7任一项所述的分类模型的训练方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至7任一项所述的分类模型的训练方法中的步骤。