CN110796260A

CN110796260A - 一种基于类扩张学习的神经网络模型优化方法

Info

Publication number: CN110796260A
Application number: CN201910858852.7A
Authority: CN
Inventors: 汪慧; 朱文武; 赵涵斌; 李玺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2020-02-14
Anticipated expiration: 2039-09-11
Also published as: CN110796260B

Abstract

本发明公开了一种基于类扩张学习的神经网络模型优化方法。具体包括步骤如下：获取用于训练的含有多种类别的样本的数据集，并定义算法目标；用通用模型提取数据集中每类图片的特征，并根据每类特征的分布情况评估各个类别易错的程度；将易错程度最高的几类数据加入训练池，并用训练池中的数据优化神经网络；优化完成后，将剩余易错程度最高的几类数据加入训练池，扩张训练池中的类别，并在上一次训练得到的神经网络基础上用训练池进一步优化神经网络；不断对训练池进行类扩张，直至整个数据集进入训练池，得到最终的优化的神经网络模型。本发明适用于监督学习中的基于多类别数据集的神经网络模型优化，面对各类复杂的情况具有较佳的效果和鲁棒性。

Description

一种基于类扩张学习的神经网络模型优化方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于类扩张学习的神经网络模型优化方法。

背景技术

神经网络模型的优化方法是人工智能的底层技术，常作为高层视觉任务的基础，例如物体检测，目标识别，语意分割等。然而，受到计算机计算资源和内存资源的限制，目前的神经网络模型的优化方法依赖批随机梯度下降。这种方法是一种迭代式的，批层次的学习模型，每次的训练无法利用全局的数据，只能利用其中一批数据。由于每次训练的数据通常分布在极为稀疏和分散的空间上，神经网络模型的优化难度很大，并且在优化的同时会受大部分简单数据的影响，忽略少量复杂数据的信息。

基于人类的认知学理论，目前课程学习和自步学习逐渐用于解决这种问题。现有的学习方法主要采用的是深度学习框架，输入一个数据集，通过特定的评判指标选出部分数据，然后在这部分数据上训练。在不断的迭代过程中，选出的部分数据会越来越多，直至包含整个数据集，从而达到渐进式地优化神经网络的效果。然而，这类优化方法细节多，实现成本高，复现困难；另一方面，这类方法往往是针对特定任务设计特定评判指标，其评判指标不具有迁移能力。

发明内容

为解决上述问题，本发明的目的在于提供一种基于类扩张学习的神经网络模型优化方法。该方法基于神经网络，将神经网络的全数据集优化转化为渐进式的类扩张优化，强化对易错类别的训练，从而提高神经网络优化效果。

为实现上述目的，本发明的技术方案为：

一种基于类扩张学习的神经网络模型优化方法，该方法以类扩张的模式优化神经网络，包括以下步骤：

S1、获取用于训练的含有多种类别的图片样本的数据集，并定义算法目标；

S2、用通用模型提取数据集中每类图片的特征，并根据每类特征的分布情况评估各个类别易错的程度；

S3、将整个数据集中的易错程度最高的若干类数据加入预先置空的训练池，并用训练池中的数据优化神经网络；

S4、上一轮优化完成后，将未加入训练池的剩余数据集中易错程度最高的若干类数据继续加入训练池，扩张训练池中的类别，并在上一轮训练得到的神经网络的基础上用扩张后的训练池进一步优化神经网络；

S5、不断重复步骤S4对训练池进行类扩张和神经网络优化，直至整个数据集都被加入训练池并完成最后一轮神经网络优化，得到最终优化后的神经网络模型。

进一步的，步骤S1的具体实现步骤包括：

S11：获取包含M个类别的多类别数据集D：

D＝C₁∪C₂...∪C_M

其中，C_m表示第m个类别的数据，m＝1,2,...,m；

每个类别数据C_m中包含N_m个图片样本x以及他们对应的标签y:

其中，表示第m个类别的数据C_m中第i个图片样本，y^m表示第m个类别的数据C_m的标签，i∈{1，2，...，N_m}；

S12：定义的算法目标为：通过优化loss函数l(·，·)得到神经网络模型f(·；θ)在数据集D上的最优参数θ^*:

θ^*＝arg min_θ∑_(x，y)∈Dl(f(x；θ)，y)。

进一步的，步骤S2具体实现步骤包括：

S21、用一个通用模型g(·)提取数据集中每类图片中每幅图片的特征：

其中，

表示第m个类别中图片样本x的特征；

S22、计算出每个类别中所有图片的特征的均值：

其中，u^m表示第m个类别中所有图片样本的特征均值；

S23、根据每张图片距离本类类中心距离和距离其他类别类中心距离来评估每个类别的易错程度：

其中，S(C_m)表示第m个类别的易错程度；

S24、根据S(C_m)从大到小的程度对数据集D重新排序，得到有序数据集D_ord：

其中，表示数据集D中易错程度从大到小排名第m位的类别对应的数据。

进一步的，步骤S3的具体实现步骤包括：

S31、在有序数据集D_ord中选择

个易错程度最高的类别的数据加入空训练池

得到第一次类扩张后的训练池

S32、通过优化loss函数l(·，·)对神经网络模型f(·；θ)进行第一轮优化，得到神经网络模型在训练池

上的最优参数

进一步的，步骤S4的具体实现步骤包括：

S41、在第k轮优化神经网络前，从整个数据集D_ord未加入训练池

的数据中，选择个易错程度最高的类别的数据加入训练池

得到类扩张后的训练池

其中

为新加入训练池的

个类别的数据；

S42、在上一个阶段最优参数的基础上通过优化loss函数l(·，·)，得到第k轮优化后神经网络模型在训练池上的最优参数

进一步的，步骤S5的具体实现步骤包括：

S51、不断重复步骤S4对训练池进行类扩张和神经网络优化，在最后一轮优化时，将整个数据集D_ord中未加入训练池

中的个类别的数据加入训练池

得到类扩张后的训练池

此时训练池为整个数据集D_ord：

其中

为新加入训练池的

个类别的数据；

S52、在上一个阶段最优参数

的基础上通过优化loss函数l(·，·)，得到第K轮优化后神经网络模型在训练池

上的最优参数

其中，最终优化后的神经网络模型的参数θ^*即在训练池上的最优参数

本发明的基于类扩展学习方法，相比于传统的学习方法，具有以下有益效果：

首先，本发明的类扩展学习方法定义了类扩张中两个重要的问题，即类间关系的评估和类扩张流程建模。通过寻求这两个方向的解决方法，可以有效地提高神经网络模型的优化效果。

其次，本发明的类扩展学习方法基于神经网络模型优化特点建立优化流程。在类扩张的优化体系中，神经网络模型能够对难以区分，容易错分的类别进行针对性的训练，从而提高对这些类别的区分能力。

最后，本发明的类扩展学习方法减少了每次学习中需要重新学习的新类别的数量，降低了训练的难度。基于类扩张学习训练难度低的特点，本方法每次类扩张的优化时间成本低，从而使得累计时间成本与原方法相当的情况下，有效地提高了神经网络模型的优化效果。

本发明的基于类扩展学习的神经网络模型优化方法，实现简单，适用范围广，具有良好的应用价值。本发明的类扩展张的学习模式渐进式地优化神经网络模型，能够有效降低神经网络模型的优化难度以及提高神经网络模型优化效果。

附图说明

图1为本发明的的流程示意图；

图2为本发明提出的易错类别排序的示意图；

图3为本发明的类扩张学习的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，一种基于类扩张学习的神经网络模型优化方法，该方法以类扩张的模式优化神经网络，用于在给定含有多种类别的训练数据集的情况下，针对难区分，易错的子类别更进一步地优化。该方法包括以下步骤：

S1、获取用于训练的含有多种类别的图片样本的数据集，并定义算法目标。本步骤的具体实现步骤包括：

S11：获取包含M个类别的多类别数据集D：

D＝C₁∪C₂...∪C_M

其中，C_m表示第m个类别的数据，m＝1,2,...,m；

每个类别数据C_m中包含N_m个图片样本x以及他们对应的标签y:

其中，

表示第m个类别的数据C_m中第i个图片样本，y^m表示第m个类别的数据C_m的标签，i∈{1，2，...，N_m}；

θ^*＝argmin_θ∑_(x，y)∈Dl(f(x；θ)，y)

其中，θ表示神经网络模型中的待优化参数；

S2、用通用模型提取数据集中每类图片的特征，并根据每类特征的分布情况评估各个类别易错的程度。本步骤的具体实现步骤包括：

其中，

表示第m个类别中图片样本x的特征；

S22、计算出每个类别中所有图片的特征的均值：

其中，u^m表示第m个类别中所有图片样本的特征均值；

其中，S(C_m)表示第m个类别的易错程度；

我们把距离本类类中心距离放在分母，距离其他类类中心距离放在分子，分数越高，类内图片趋向于靠近其他类中心，远离此类类中心，我们定义这样的类为容易被错分的类，因此根据S(C_m)的大小既可以对各类别的易错程度进行排序。

其中，

表示数据集D中易错程度从大到小排名第m位的类别对应的数据。

如图2所示，经过本步骤的重新排序后，原本的无序数据集D变成了有序数据集，利用该有序数据集就可以按照图3所示的方法逐类加入训练池对神经网络进行优化，通过模型迁移可以在前一次训练完毕的神经网络基础上进一步利用新加入的数据继续优化。下面详细对其过程进行描述。

S3、将有序数据集D_ord中的M类数据按照排序顺次分为K组，每组

个类别。整个数据集中的易错程度最高的若干类数据加入预先置空的训练池，并用训练池中的数据优化神经网络。本步骤的具体实现步骤包括：

S31、在有序数据集D_ord中选择

个易错程度最高的类别的数据加入空训练池

得到第一次类扩张后的训练池

S32、通过优化loss函数l(·，·)对神经网络模型f(·，θ)进行第一轮优化，得到神经网络模型在训练池

上的最优参数

S4、上一轮优化完成后，将未加入训练池的剩余数据集中易错程度最高的若干类数据继续加入训练池，扩张训练池中的类别，并在上一轮训练得到的神经网络的基础上用扩张后的训练池进一步优化神经网络。本步骤的具体实现步骤包括：

S41、在第k轮优化神经网络前(第二轮训练时k＝2，第三轮训练时k＝3，依次类推)，从整个数据集D_ord未加入训练池

的数据中，选择

个易错程度最高的类别的数据加入训练池

得到类扩张后的训练池

其中

为新加入训练池的

个类别的数据；

S42、在上一个阶段最优参数

的基础上通过优化loss函数l(·，·)，得到第k轮优化后神经网络模型在训练池上的最优参数

S5、不断重复步骤S4对训练池进行类扩张和神经网络优化，直至整个数据集都被加入训练池并完成最后一轮神经网络优化，得到最终优化后的神经网络模型。本步骤的具体实现步骤包括：

中的

个类别的数据加入训练池

得到类扩张后的训练池

此时训练池为整个数据集D_ord：

其中

为新加入训练池的

个类别的数据；

S52、在上一个阶段最优参数的基础上通过优化loss函数L(·，·)，得到第K轮优化后神经网络模型在训练池

上的最优参数

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

下面基于上述方法进行仿真实验，本实施例的实现方法如前所述，不在详细阐述具体的步骤，下面仅针对实验结果展示其结果。

本实施例使用了三种复杂网络，分别是ResNet-18，ResNet-30和ResNet-110。并在图像分类任务的三大数据集CIFAR10、CIFAR100、ImageNet-100数据集上实施多次重复训练实验，证明了本方法可以有效地提高神经网络优化效果。其中，数据集CIFAR10中参数M＝10，K＝5；数据集CIFAR100中参数M＝100，K＝10；数据集ImageNet-100中参数M＝100，K＝10。本发明的方法以及传统的神经网络模型优化方法在三个数据集上的实施效果如表1所示。

表1本发明方法在CIFAR10、CIFAR100、ImageNet-100数据集上的实施效果

上述实施例中，本发明的类扩张学习方法首先对数据特征的分布进行结构化建模并使用类的分布特点对各个类别排序。在此基础上，将原问题转化为端到端的类扩张学习问题，目的在于优先对难区分的类别进行区分。最后，利用渐进式的方法得到最终的优化的神经网络模型。从结果可以看出，本发明的优化方法相比于传统方法能够提高神经网络优化效果，本方法优化后神经网络的测试错误率明显进一步降低。

通过以上技术方案，本发明实施例基于类扩张学习的神经网络模型优化方法。本发明可以在将神经网络的全数据集优化转化为渐进式的类扩张优化，强化对易错类别的训练，从而提高神经网络优化效果。本发明适用于监督学习中的基于多类别数据集的神经网络模型优化，面对各类复杂的情况具有较佳的效果和鲁棒性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。