CN113469262A

CN113469262A - 一种基于Fisher信息矩阵的增量学习方法

Info

Publication number: CN113469262A
Application number: CN202110788383.3A
Authority: CN
Inventors: 张少杰; 朱世强; 蔡思佳; 任杰; 徐泽民; 顾建军
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-10-01

Abstract

本发明公开了一种基于Fisher信息矩阵的增量学习方法。该方法通过计算Fisher信息矩阵判定神经网络各层参数的重要性；通过分离层间参数和层内参数，大大提升Fisher信息矩阵的计算效率；通过引入新的车辆增量数据，迭代训练模型，避免了全量数据训练的庞大计算量；对不同重要性的参数设置相应的权重系数，使得先验模型和后验模型具有最大的相似度；将Fisher信息矩阵和经典的KL散度相关联，给予神经网络的流形假设更有力的支撑。本发明的测试结果表明神经网络各层参数之间确实存在不同的重要性，且引入正则项可以有效控制神经网络的先验模型和后验模型之间的距离，使其尽可能小。

Description

一种基于Fisher信息矩阵的增量学习方法

技术领域

本发明属于计算机技术领域，尤其涉及一种基于Fisher信息矩阵的增量学习方法。

背景技术

传统增量学习的方式是通过继承旧的参数作为模型的初始值，这种操作确实是有效的，但提升的精度只有联合训练时的一半。因为神经网络学习的过程是参数的更新，参数更新会迫使模型遗忘旧数据。实验结果也清楚地表明，使用高学习率会使新模型在旧数据上的表现更差，尽管它在当前训练集上可以有更好的表现。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于Fisher信息矩阵的增量学习方法。

本发明的目的是通过以下技术方案来实现的：一种基于Fisher信息矩阵的增量学习方法，包括：

在基础数据集上进行神经网络训练，得到多批次下各参数的梯度变化情况；按层对参数分组，通过模型聚合层间参数的梯度信息，生成层与层之间的Fisher信息矩阵。

计算层间参数的Fisher信息矩阵；对层内参数通过非参数模型建模，进行正态性、同分布性、非独立性的验证。

在增量学习过程中，在原先的目标函数上增加一个正则项，使用Fisher信息矩阵作为正则项的权重参数，并仅用增量数据进行模型训练。

进一步地，所述层与层之间的Fisher信息矩阵，包括不同类型的取值方式：层内参数取均值、绝对值的均值、中位数、最大值、去除5以外异常值后的取值等。

进一步地，所述层内参数的非参数建模方式，包括GMM模型、KDE模型。

进一步地，计算层间参数的Fisher信息矩阵F：

F_a,b＝E_D[p_ap_b]

其中，F_a,b表示Fisher信息矩阵第a行第b列的值，E_D表示在数据集D上的数学期望，p_a、p_b表示第a、b层参数的梯度变化值的期望。

进一步地，所述Fisher信息矩阵作为正则项的权重参数，具体为：直接内积或引入非线性化确立正则项的值。

进一步地，每次引入新的数据时，仅用增量数据和Fisher信息矩阵，结合上一次增量学习得到的模型或初始模型，进行训练。

本发明的有益效果是：本发明使用具有较强可解释性的增量学习方法，在相对更少计算量的情况下，提升神经网络增量学习的效果和预测精度。本发明的应用场景包括车辆Re-id、搜索推荐、语音识别、模式生成等。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例车辆增量数据的Re-id模型的流程图；

图2为本发明的逐层建模的合理性说明示意图；

图3为本发明增量数据训练结构说明示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

深度学习(Deep Learning)：深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。深度学习从大类上可以归入神经网络，不过在具体实现上有许多变化。深度学习的核心是特征学习，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。

车辆重识别(Vehicle Re-Identification)：车辆重识别是智能视频分析领域的研究热点，得到了学术界的广泛重视，旨在非重叠视角域多摄像头网络下进行的车辆匹配，即确认不同位置的摄像头在不同的时刻拍摄到的车辆目标是否为同一辆车。与其他监控识别技术，如人脸识别相比，车辆重识别具有远距离、广泛围以及低分辨率可行等优势。

增量学习(Incremental Learning)：增量学习作为机器学习的一种方法，现阶段得到广泛的关注。对于满足以下条件的学习方法可以定义为增量学习方法：可以学习新的信息中的有用信息；不需要访问已经用于训练分类器的原始数据；对已经学习的知识具有记忆功能；在面对新数据中包含的新类别时，可以有效地进行处理。

在本发明一个典型的神经网络架构中，网络包括多个全连接层、卷积层、池化层、dropout层等。在附图1的流程图示出的步骤可以在一个经典的网络网络上提升执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为了使模型学到新的知识又不遗忘旧的数据，我们期望模型参数更新时候，有某种约束条件去限制模型的参数变化。显然学习新知识和不遗忘旧知识是对抗的过程，因此合理的选择模型和参数，将模型引导向一个好的“平衡点”是我们努力的方向。

城市每天会产生大量新的车辆图像数据，新的图像数据中包含新的图像类。我们将其抽象为一个时间序列的数据流，每次获取新的数据时，将其与旧的数据全体联合训练，模型训练代价会过大。因此采用持续学习的方法去训练模型，即每次只使用先验模型和增量数据做模型的提升。本发明基于Fisher信息矩阵(FIM)判定模型参数的重要性，并将其应用于控制先验参数到后验参数的变化方法，从而达到增量学习的目的。

我们的工作是比较普适的，不改变网络的架构，而是在原来的损失函数上添加正则项，控制网络的训练方向。正则项可以依据数据设计，也可以依据先验参数设计。

我们首先根据一种名为“后向兼容学习”的方法，将神经网络模型分割为特征层和分类器层，在数据集T_BCT上使用普通的损失函数，分类过程使用先验参数的分类器层和当前模型的特征层。这个方法的核心就是继承部分参数，从而控制先验参数和后验参数的尽可能一致。

为了让新模型在旧的数据集上也能有比较好的效果，即新模型不遗忘旧的信息，于是我们的正则项设计的目标是让新旧模型尽可能一致。

流形角度分析：假设先验模型参数为(关于θ的函数)，添加新数据训练后的后验模型的参数为p+Δp，两者的KL散度D_KL做二阶Taylor展开后，正好可以由Fisher信息矩阵F_θ刻画：

其中，θ表示模型输入参数，Δθ表示模型输入参数θ的一个微小扰动；p_θ表示输入参数为θ时神经网络训练得到先验模型的参数，该值依赖于训练数据(x,y)，p_θ+Δθ同理；D表示数据集，x,y分别指数据集中的输入和输出；x,y～D表示数据(x,y)的分布服从数据集D的分布，

表示在该数据分布下的数学期望，后文简写为E_D；p_θ(y|x)表示数据集中数据输入为x、输出为y时对应的参数。神经网络的参数量是百万级的，因此该矩阵的计算F_θ是不可实现的。

现有技术中，如EWC方法和Riemann-Walk方法都将其简单考虑成对角矩阵，这就忽略了不同参数之间的相关性，我们后续实验验证了这种类简单处理是不可取的。

我们工作的创新点在于将每层网络用一个简单的统计量(也就是均值)去刻画，这样导出的Fisher信息矩阵的规模只与深度神经网络的层数有关，一般矩阵大小不超过1000*1000。对每层参数做统计分析，发现尽管同一层的参数不具备独立性，但正态性和同分布性是近似成立的，且偏离3的参数非常稀少。下面公式简要论述分成操作的合理性：

其中，Δθ_a,Δθ_b表示Δθ的第a行、第b列；F_a,b表示Fisher信息矩阵第a行第b列的值；a_i表示第a行的第i个元素，b_j表示第a行的第j个元素。

分析该方法处理得到的Fisher信息矩阵，其矩阵规模缩减至可计算的量级，同时保留了网络不同层之间的相关性。对于不同的网络架构，我们发现其Fisher矩阵的共性：网络前几层的重要性很强，对应的解释是，前几层学到的是基本的图像特征信息，而不涉及具体的分类，因此在持续学习的过程中，要尽量避免这些层参数的变化。

如图1所示，本发明一种基于FIM的车辆ReID模型增量学习方法，通过计算Fisher信息矩阵判定神经网络各层参数的重要性；通过分离层间参数和层内参数，大大提升Fisher信息矩阵的计算效率；通过引入新的车辆增量数据，迭代训练模型，避免了全量数据训练的庞大计算量；对不同重要性的参数设置相应的权重系数，使得先验模型和后验模型具有最大的相似度；将Fisher信息矩阵和经典的KL散度相关联，给予神经网络的流形假设更有力的支撑。

具体包括以下步骤：

步骤一：通过基础数据集合上的神经网络训练，得到多批次下的各个参数的梯度变化情况。然后选择一定的聚合方式聚合层间参数的梯度变化值。通过模型聚合层间参数的梯度信息，生成层与层之间的Fisher信息矩阵。层与层之间的Fisher信息矩阵，还包括不同类型的取值方式：层内参数取均值、绝对值的均值、中位数、最大值、去除5σ以外异常值后的取值。

具体地，在基础数据集上多批次训练，记录每个参数的1000次迭代的梯度变化值。按层对参数分组，记录每层(第i层)参数的梯度变化值的期望p_i(取均值)和绝对值的期望

(取绝对值的均值)。

利用该类迭代方式(如图3)更新先验-后验参数分布到其它神经网络模型中。

步骤二：利用图2所示的Fisher信息矩阵的计算方式，计算层间的Fisher信息矩阵。图2中，t表示第t个迭代阶段，θ⁰、θ¹表示迭代阶段t＝0,1对应的输入参数，p_θ(t)表示第t次迭代，输入参数为θ时神经网络训练得到的参数；L是神经网络的损失函数，L(θ)表示输入参数为θ时的损失函数，

表示迭代阶段从t到t+Δt时损失函数的变化量。

分析Fisher信息矩阵的对角线元素：若该矩阵某对角线元素的值相对较大，说明该层在神经网络中更加重要，即模型训练时候应当控制该层参数变化量较少；若该矩阵某对角线元素的值相对较小，说明该层在神经网络中相对不重要，蕴含的先验信息较少，即模型训练时可以允许该层参数变化更多以实现目标函数的优化。

对于Fisher信息矩阵的非对角线元素：如矩阵的第a行第b列的值F_a,b，体现的是神经网络第a层和第b层之间的相关性。值为正数说明两层之间呈现正相关性，反之则说明两层之间呈现负相关性。由于神经网络的优化问题是通过反向梯度传播方式实现的，因此不同层之间不会表现独立性质。对层内参数通过非参数模型建模，进行正态性、同分布性、非独立性的验证。层内参数的非参数建模方式包括：GMM模型、KDE模型等使用有限维度的数据衡量该层参数的整体性质。

利用该类参数层间-层内隔离模式探究神经网络参数的建模。具体地，参数层间-层内隔离模式指，对每一层参数独立建模，然后再对各层的统计量统一建模，而不是将所有参数建立到一个模型中去，建模过程按层具有一定独立性，故称隔离。

具体地，计算层间参数的Fisher信息矩阵F：

F_a,b＝E_D[p_ap_b]

其中，F_a,b表示Fisher信息矩阵第a行第b列的值，E_D表示在数据集D上的数学期望，p_a、p_b表示第a、b层参数的梯度变化值的期望(实际计算时是用数据集上的参数计算结果的期望值来代替参数的值)。若F_a,b接近于0，说明神经网络的第a层参数与第b层参数之间的相关性很小，反之则说明两者相互影响。

步骤三：在增量数据学习过程中，原先的目标函数上增加一正则项，其合理性的说明由Fisher信息矩阵的统计学含义导出。通过Fisher信息矩阵为权重函数计算逐层参数梯度的变化值的范数，将其累加到原先的目标函数上，作为增量方法的正则项。使用Fisher信息矩阵作为正则项的权重参数，可以选择直接内积或引入非线性化确立最终的正则项的值。

具体地，在原有的损失函数上添加以Fisher信息矩阵为权重的正则项控制增量学习过程中梯度的变化方向，促使后验参数尽可能保留先验参数的信息。

步骤四：如图3所示，Net₀为基于初始数据集训练得到的初始模型，每次引入新的车辆数据时，不与旧数据联合训练，这会大大增加模型的计算量，而仅用增量数据和Fisher信息矩阵结合上一次增量学习得到的模型进行训练。旧数据的信息包含在先验参数之中，同时Fisher信息矩阵控制后验模型尽可能少的丢失先验信息。而模型的训练本身就会促使后验参数蕴含增量数据的信息。因此，只需记录前面神经网络的参数和训练过程中导出的精简的Fisher信息矩阵，而不需要保留历史数据，就可以对增量数据继续进行训练。

具体地，每次引入新的增量数据的时候，均使用Fisher信息矩阵作为正则项的权重，调整先验参数，使得该阶段能同时在新的数据和旧的数据上同时具有较高的精度。可利用该增加数据建模模式到各类增量数据集的应用场景中，包括：车辆Re-id、搜索推荐、语音识别、模式生成等。

本发明在多个基础数据集和神经网络分类模型上做测试，采用基准方法和本发明方法在ResNet34网络上的测试结果如表1～2所示。将总数据集分割为8个大小一致的不相交的子数据集batch1～8。now、past、next分别表示模型在当前数据集、前一个数据集、后一个数据集上的模型精度(正确率)。测试了不同的训练参数，均能有效地起到提升作用，因此使用Fisher信息矩阵提升增量学习起到了有力的提升效果。

表1：基准方法在ResNet34网络上的测试结果

表2：本发明方法在ResNet34网络上的测试结果

结果表明，神经网络各层参数之间确实存在不同的重要性，且引入正则项可以有效控制神经网络的先验模型和后验模型之间的距离，使其尽可能小，即通过Fisher信息矩阵提供的参数重要性正则项可以显著提升基准方法baseline的精度。

Claims

1.一种基于Fisher信息矩阵的增量学习方法，其特征在于，包括：

2.根据权利要求1所述基于Fisher信息矩阵的增量学习方法，其特征在于，所述层与层之间的Fisher信息矩阵，包括不同类型的取值方式：层内参数取均值、绝对值的均值、中位数、最大值、去除5σ以外异常值后的取值等。

3.根据权利要求1所述基于Fisher信息矩阵的增量学习方法，其特征在于，所述层内参数的非参数建模方式，包括GMM模型、KDE模型。

4.根据权利要求1所述基于Fisher信息矩阵的增量学习方法，其特征在于，计算层间参数的Fisher信息矩阵F：

F_a,b＝E_D[p_ap_b]

5.根据权利要求1所述基于Fisher信息矩阵的增量学习方法，其特征在于，所述Fisher信息矩阵作为正则项的权重参数，具体为：直接内积或引入非线性化确立正则项的值。

6.根据权利要求1所述基于Fisher信息矩阵的增量学习方法，其特征在于，每次引入新的数据时，仅用增量数据和Fisher信息矩阵，结合上一次增量学习得到的模型或初始模型，进行训练。