CN111667016B

CN111667016B - 一种基于prototype的增量式信息分类方法

Info

Publication number: CN111667016B
Application number: CN202010539580.7A
Authority: CN
Inventors: 葛轶洲; 徐百乐; 毛乐坤; 张旭; 韩峰; 周青; 赵健; 申富饶
Original assignee: Nanjing University; CETC 36 Research Institute
Current assignee: Nanjing University; CETC 36 Research Institute
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2023-01-06
Anticipated expiration: 2040-06-12
Also published as: CN111667016A

Abstract

本发明提供了一种基于prototype的增量式信息分类方法，包括：步骤1，对当前已经训练好的模型生成一份副本，并固定副本模型参数；步骤2，为数据流新来的每个类初始化一个prototype向量，并按照新类的数量扩展当前模型的分类数目；步骤3,使用深度学习算法，计算新数据对应的损失；步骤4，根据新模型和模型副本对新数据的输出计算固化损失；步骤5，将两部分损失进行权重求和，使用梯度下降算法调整模型；步骤6，根据当前迭代次数选择继续训练或者退出。

Description

一种基于prototype的增量式信息分类方法

技术领域

本发明涉及一种基于prototype的增量式信息分类方法。

背景技术

近年来，在多个领域都见证了深度学习的快速发展。然而，在将深度学习模型部署到实际的应用程序中进行使用时，依然有很多的挑战，其中一个挑战是如何使得深度学习模型能够模仿人类学习新知识一样，可以增量式地从流数据中抽取新的信息。

在实际的应用场景中，一般总是期待模型可以具有很好的拓展性。这样，模型就可以不断更新，能够在新数据(未知类)到来的时候，抽取新的知识；与此同时，也必须要求模型把之前学习到的知识能很好的保存下来。

神经网络的类增量学习研究也经历了一段较长时期，人们普遍认为阻碍神经网络记住旧知识的最大障碍——遗忘灾难。灾难性遗忘现象主要发生在任务增量学习中，其中不同任务的训练数据以递增方式输入到模型中。灾难性遗忘问题的一般而直接的解决方案就是将旧数据抽样保存在样本池中，用这些样本池中的旧数据在后来的学习阶段让神经网络重新学习旧数据。显然，这种方法增加了存储成本。在流数据规模很大的情况下，其代价会更加明显。即使存在其他间接的方法可以不存储旧数据样本，也依然存在模型效率降低的问题。比如，使用GAN模型从旧数据中学习完成之后，可以通过保存GAN模型来生成旧数据的模拟数据，虽然这样能优化存储问题，但是在训练阶段，前期增加了GAN模型伪造旧数据的过程，这种以时间为代价来减小存储代价的方式在实际的流数据处理过程中是十分不合理的。

当前，神经网络在图像分类上的应用越来越广泛，其性能显著优于传统的图像特征提取算法，例如SIFT、HOG、SURF、ORB等方法。在其应用的过程中，出现了一个新的问题——如何增量式地对图像数据进行分类。这是因为模型部署之后，系统可能源源不断地出现新类的图像数据，为了增添模型对所有图像数据的分类能力，就需要模型具有增量式学习的能力。

发明内容

发明目的：为了解决类增量学习过程中的遗忘灾难问题，同时兼具空间效率和时间效率，本发明提出了基于prototype的增量式图像数据分类方法，能在提高对当前批次图像数据分类能力的基础之上，也同时提高模型对旧图像的分类能力。(prototype是描述一类数据映射在某个维度空间上的特征向量)

本发明包括如下步骤：

步骤1，将采集到的图像分成两个数据域A和B，如果图像属于已有类别，放入数据域A中；如果图像不属于已有类别，则放入另一个数据域B中；

步骤2，将当前模型备份副本，并将副本作为旧模型，存储到目前为止已经学习到的网络参数和prototype向量，所述网络参数包括底层网络参数和多个分头网络参数。分头网络数目与当前模型能分类的图像类别数相关，如果每个分头网络负责m个类，有h个头部，则总的分类数上限为m*h；

所述当前模型为上个迭代过程训练好的模型。在实际部署过程中，底层网络需要根据图像数据集的具体情况选择。比如对于MNIST数据集，使用一般的CNN网络就可以了，对于更复杂的CIFAR-10，可以选择ResNet-18作为底层网络抽取中间特征。分头网络相对于底层网络独立，是由一个中间层和一个分类层构成的模块。

步骤3，在当前模型基础之上，根据数据域B中的新的图像类别数目，增加对应的分头网络个数。比如，如果每个分头网络负责分2类图像，数据域B中包含了4类新类数据，那么需要增加2个分头网络到模型中。同时，还需要为每个新图像类设置一个prototype向量初始值，所述初始值为全0向量，初始值设置为全0向量有两点考虑：(1)到目前而言，模型对于该类图像没有任何先验知识；(2)在接下来的模型训练过程中，prototype向量会不断调整，逐渐具有代表该类图像特征的语义。截至到上一轮迭代训练过程中学习到的针对所有已有图像类别训练好的网络参数和prototype向量，以及在本轮迭代训练过程中为遇到的新的图像类别增加的分头网络参数和prototype向量，构成了更新后的模型；

步骤4，将数据域B中的新图像输入到步骤2中得到的旧模型，生成距离向量D_old；

步骤5，将数据域B中的新图像输入到更新后的模型，生成距离向量D，其计算方法同步骤4；

步骤6，使用欧式距离损失函数DCE，计算出学习损失值loss1；

步骤7，使用交叉熵损失函数，根据D_old、D计算出固化损失值loss2；

步骤8，将loss1,loss2进行权重求和，得到总的损失值loss；

步骤9，根据损失值loss，使用梯度下降算法，计算网络中各个权重参数对应的梯度，并使用优化器调整对应的参数；

步骤10，使用测试图像，对截至本次迭代遇到的每个图像类别，，选取一定数量的测试图像(比如100幅图像)，用来测试当前模型的图像分类准确率；；

步骤11，根据迭代次数选择退出模型迭代过程，或者根据学习率策略(对于简单的数据集MNIST,迭代次数20次左右就可以结束训练，对于CIFAR-10这种更加复杂的数据集，迭代次数需要设置更高，比如50)调整学习率，进入下一次模型训练周期，继续训练模型。

上面的步骤描述的是未使用旧数据情况下的详细过程，如果使用旧数据，那么在每个步骤中的数据，不仅来自数据域B，也要包含数据域A中的数据，，整体逻辑依然是一致的，不过对于步骤6中的学习损失值的计算有细微区别：如果只是用数据域B中的新类图像，那么仅使用本次迭代训练中增加的分头网络计算学习损失；如果也使用数据域A中的旧类图像，为了提高各个分头网络对数据的区分能力，模型的所有分头网络都要参与学习损失的计算。在实际的模型部署过程中，可能出现在最新迭代训练过程中数据域A为空，那么只能使用数据域B中的新类图像，如果数据域A不为空，为了获得更好的模型精度，最好也使用数据域A中的旧类图像。

步骤4包括：根据公式(1)计算得到距离向量D的第i个分量D_i：

D_i＝-||f(x)-m_i||² (1)

其中f(x)指的是分头网络中的间接层的输出向量，m_i表示第i类对应的prototype向量。另外，f(x)必须由负责第i类的分头网络中间层生成。该公式表示的含义即距离向量的第i个分量为这两个向量欧式距离平方的相反数。

步骤6中，所述DCE损失函数如下所示：

p(y|x)＝p(x∈m_y|x) (3)

其中，公式(2)中的x表示的是一张训练图像，γ是一个超参数，一般取值[1,2]，p(x∈m_i|x)表示把x预测为第i类的概率；m_i表示第i类的prototype向量；f(x)表示的就是通过模型的底层网络和分头网络中间层，得到的图像的特征向量；d指的是欧式距离；C是图像类别的总数目；公式(3)描述了预测概率的一般形式p(y|x)与p(x∈m_i|x)的关系；公式(4)中的loss1即DCE损失值，，x_i为第i张图像，y_i为第i张图像的类别，N为总的训练图像数目。

步骤7中，根据公式(5)计算固化损失值loss2：

其中，D_{i_old}为第i张图像通过旧模型得到的距离向量，D_i为第i张图像通过更新后的模型得到的距离向量；通过公式(5)，就能够让图像分类深度学习模型记住之前遇到过的图像类别。

步骤8中，根据公式(6)计算总的损失值loss：

loss＝loss1+λ*loss2 (6)

其中λ为权重参数，用来调整两部分损失值的比例，其取值范围一般为[0,1]。λ越大，模型更加倾向于记忆旧知识；λ越小，模型更加倾向于学习新知识。

步骤8中，为了进一步提高模型的分类能力，引入一个新的正则项，即PL损失，由公式(7)计算得到：

其中x_i为第i张图像，y_i为第i张图像的真实类别，N为总的训练图像数目。该正则项的作用就是促进每张图像更靠近自己所在类的prototype向量。这样一方面使得一类图像的特征向量更加集中；另一方面，类与类之间的区分度也更大。

在考虑了正则项之后，现在将loss值的计算调整为：

loss＝loss1+λ*loss2+α*PL (8)

其中超参数α用来调整正则项的权重，其取值范围一般为[0,1]。对于简单的图像数据集,如MNIST，α可以取的稍微大一点，比如0.5，而对于类似CIFAR-10的图像数据集，一般取0.1。

步骤9中，采用Adam优化器，对模型参数进行优化，模型参数包括模型的底层网络参数、分头网络参数和prototype向量。

有益效果：

本发明降低了对旧图像的依赖性。在增量式图像分类应用中，该模型在不使用旧图像的情况下就可以有很好的整体性能，这样在实际模型部署过程中，降低了存储旧照片的硬件成本；

本发明有更好的图像分类能力。在学习新图像类时，由于该模型更加精细选择损失函数，使得在新类图像数目更少的情况下，模型就可以很好地学习到新的分类能力；

本发明性能表现更加稳定。在长时间增量学习过程中，如果使用相同数量旧数据，模型的性能提升更加显著；

本发明建立的整个模型更加模块化。分头网络与底层网络相对独立，底层网络的选择可以根据具体图像数据的分布情况，更具有灵活性，其实用性更强。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明涉及到的模型的框架结构。

图2为未使用旧图像的时候，模型的训练过程。

图3为使用旧图像的时候，模型的训练过程。

图4为模型的预测过程。

图5为未使用旧数据，MNIST数据集上的测试结果。

图6为未使用旧数据，CIFAR-10数据集上的测试结果。

图7为本发明流程图。

具体实施方式

如图7所示，本发明提供了一种基于prototype的增量式信息分类方法，在图1中，old model对应部分是当前已经学习到的模型，并将本次学习的新图像送入old model，得到距离向量D_old，作为old logits，并把它们作为本发明中模型在记忆过程要拟合的目标，这部分就会计算出对应的损失loss2；另一方面，如之前提到的，new model是old model为新图像增添了新的分头网络和prototype向量之后的模型，为了对增加的权重参数与prototype向量进行更新，同样也把本批次的新类图像送入new model，得到的距离向量D，作为new logits。有理由相信，如果新模型依然保留了对旧图像类的分类能力，那么新模型对于这些数据在之前分头网络上的响应——new logits与旧模型对这些数据的响应几乎相同。根据前面提到的loss1计算方法，使用Adam优化器，就可以实现在学习新图像种类的同时，保持了对旧图像类别的记忆。同时，本发明中模型的记忆并不需要使用之前的旧图像，一举两得。

在图2，图3中，对刚才所说的训练过程以绘图的方式呈现，更容易理解本发明提出的这个模型的训练机制。图2、图3中唯一的区别也就是数据的组成，图中未显示出来的部分仅仅是在损失值的计算上面：在有旧图像的情况下，需要使用所有的头部通过DCE损失函数来计算loss1；没有旧图像的情况下，loss1的计算仅仅与新增加的头部相关；如果是使用了旧图像，那么loss1就涉及到了在之前训练过程中随机采样，放到样本池中的旧图像，这样做的一个最大的目的是增加每个头部对整个图像类的区分能力，从而提高整个模型的预测精度，这也是本发明提出的模型对新类图像利用方式的一个创新。

在图4中，图像预测的流程：

1、将测试图像送入本发明训练好的模型，对于每一张图像，模型的各个头部网络中间层依次都会生成一个特征向量f(x)；

2、对于每个分头网络，通过公式(1)，计算f(x)在该分头网络负责的所有图像类对应的prototype的距离，并通过softmax函数，得到在该分头网络上的概率向量；

3、将这些概率向量依次拼接，形成了一个完整的预测向量，通过winner-takes-all策略，根据概率分量最大值所在的位置，既可以判断出预测图像所属类别。

实施例

为了验证本发明的效果，在MNIST，CIFAR-10这两个图像数据集上做了详细的测试。为了体现模型的提升效果，对类增量学习中已经提出来的模型做了比较，包括EWC、LwF、Fine-tuning、icarl，把本发明提出的模型命名为PCRC。

为了更好对比性能，本实施例在PCRC模型和对比模型中使用相同的底层网络模块。在用MNIST数据集测试的时候，底层网络结构使用3层简单的CNN网络；对于CIFAR-10数据集，采用RestNet-18作为底层网络。另外，使用Adam算法来优化网络的参数。在实验参数选择上，设置batchsize＝128作为每批次训练样本数量，初始学习率设置为0.001。对于MNIST数据，把实验epoch设置为20；在CIFAR-10数据集中，epoch设置为50。为了更充分地体现本发明方法和对比算法在CIFAR-10数据集上的性能，都采用相同的学习率调整策略——对于MNIST数据集，当迭代次数大于10，学习率减半；对于CIFAR-10数据集，当迭代次数大于40，学习率减半。

在第一个实验中，未使用数据池去存储已经接触到的训练数据。在训练过程中，每批次从训练集抽取2个新类来迭代训练模型，在训练结束之后，使用测试数据测试模型性能，其他的几个对比算法采用相同的方式来完成对比实验。在所有训练结束后，把所有批次的预测结果以折线图方式展示。

通过图5和图6两个折线图，可以看出，在MNIST数据集上，本发明方法一直比其他对比算法分类效果好；在CIFAR-10数据集上，在开始阶段，PCRC微弱于LwF.MT分类算法，但是在后面的增量式分类过程中，依然是PCRC更占优势，这也说明了本发明提出的这种增量式图像数据分类方法的性能优越性。

在第二个实验中，使用一定数量的已训练样本。在训练过程中，训练数据不仅包括本批次的新类图像数据，还包括数据池中的所有数据。在MNIST、CIFAR-10图像数据集上，分别对每个类取20、50、100个样本放到数据池中，做三次对比试验。下面通过表格的方式呈现实验结果。

表1

表2

表3

表4

表5

表6

其中，表1是对每个旧类抽样20个样本，在MNIST数据集上的测试结果，表2是对每个旧类抽样50个样本，在MNIST数据集上的测试结果，表3是对每个旧类抽样100个样本，在MNIST数据集上的测试结果，表4是对每个旧类抽样20个样本，在CIFAR-10数据集上的测试结果，表5是对每个旧类抽样50个样本，在CIFAR-10数据集上的测试结果，表6是对每个旧类抽样100个样本，在CIFAR-10数据集上的测试结果。

在引入旧训练数据的情况下，可以看到，本发明方法依然优于其他的对比算法。另外可以看到，对于相同的数据集，抽取的旧数据数目越少，那么本发明方法较其他算法的优势更大。两外，对于不同的数据集，抽取数目一定的情况下，本发明方法其分类精度更稳定，变化更平缓。

对两个实验总结如下：

1.本发明方法相比较其他的方法而言，在相同的测试环境中效果更好；

2.使用了旧数据之后，本发明方法在相同的旧数据辅助下，效果提升更加明显；

3.本发明方法相比较其他的方法而言，旧数据越少使用，优势越大；

4.通过未使用旧数据情况下模型的预测精度变化曲线，可以看出本发明方法其实已经具有比较优秀的知识记忆能力。

通过以上详细的对比试验，充分验证了本发明提出的这个基于prototype的增量式图像数据分类方法的有效性和可行性。

本发明提供了一种基于prototype的增量式信息分类方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于prototype的增量式信息分类方法，其特征在于，包括如下步骤：

步骤2，将当前模型备份副本，并将副本作为旧模型，存储到目前为止已经学习到的网络参数和prototype向量，所述网络参数包括底层网络参数和多个分头网络参数；分头网络数目与当前模型能分类的图像类别数相关，如果每个分头网络负责m个类，有h个头部，则总的分类数上限为m*h；所述当前模型为上个迭代过程训练好的模型；

步骤3，在当前模型基础之上，根据数据域B中的新的图像类别数目，增加对应的分头网络个数，同时，还需要为每个新图像类设置一个prototype向量初始值，所述初始值为全0向量；截至到上一迭代训练过程中学习到的针对所有已有训练好的网络参数和prototype向量，以及在本轮迭代训练过程中为遇到的新的图像类别而增加的分头网络参数和prototype向量，构成了更新后的模型；

步骤6，使用欧式距离损失函数DCE，计算出学习损失值loss1；

步骤8，将loss1,loss2进行权重求和，得到总的损失值loss；

步骤10，对截至本次迭代遇到的每个图像类别，选取一定数量的测试图像，用来测试当前模型的图像分类准确率；

步骤11，根据迭代次数选择退出模型迭代过程，或者根据学习率策略调整学习率，进入下一次模型训练周期，继续训练模型。

2.根据权利要求1所述的方法，其特征在于，步骤4包括：根据公式(1)计算得到距离向量D的第i个分量D_i：

D_i＝-||f(x)-m_i||² (1)

其中f(x)指的是分头网络中的间接层的输出向量，m_i表示第i类对应的prototype向量；另外，f(x)必须由负责第i类的分头网络中间层生成。

3.根据权利要求2所述的方法，其特征在于，步骤6中，所述DCE损失函数如下所示：

p(y|x)＝p(x∈m_y|x) (3)

其中，公式(2)中的x表示的是一张训练图像，γ是一个超参数，p(x∈m_i|x)表示把x预测为第i类的概率；m_i表示第i类的prototype向量；；f(x)表示的就是通过模型的底层网络和分头网络中间层，得到的图像的特征向量；d指的是欧式距离；C是图像类别的总数目；公式(3)描述了预测概率的一般形式p(y|x)与p(x∈m_i|x)的关系；公式(4)中的loss1即DCE损失值，x_i为第i张图像，y_ii为第i张图像的类别，N为总的训练图像数目。

4.根据权利要求3所述的方法，其特征在于，步骤7中，根据公式(5)计算固化损失值loss2：

5.根据权利要求4所述的方法，其特征在于，步骤8中，根据公式(6)计算总的损失值loss：

loss＝loss1+λ*loss2 (6)

其中λ为权重参数，用来调整两部分损失值的比例。

6.根据权利要求5所述的方法，其特征在于，步骤8中，为了进一步提高模型的分类能力，引入一个新的正则项，即PL损失，由公式(7)计算得到：

其中x_i为第i张图像，y_i为第i张图像的真实类别，N为总的训练图像数目；

在考虑了正则项之后，现在将loss值的计算调整为：

loss＝loss1+λ*loss2+α*PL (8)

其中超参数α用来调整正则项的权重，其取值范围为[0,1]。

7.根据权利要求6所述的方法，其特征在于，步骤9中，采用Adam优化器，对模型参数进行优化，模型参数包括模型的底层网络参数、分头网络参数和prototype向量。