CN112529183A

CN112529183A - 一种基于知识蒸馏的模型自适应更新方法

Info

Publication number: CN112529183A
Application number: CN202110178302.8A
Authority: CN
Inventors: 李劲松; 朱世强; 吕卫国; 池胜强; 田雨; 周天舒
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-03-19

Abstract

本发明公开了一种基于知识蒸馏的模型自适应更新方法，本发明采用模型自适应更新方法，代替模型重训练过程，减少了计算资源和人力资源的投入；采用模型参数相似性约束，提炼旧模型中的知识，避免了模型更新中的灾难性遗忘现象，保持预测模型的稳定性；利用知识蒸馏的思想，构建实时预测的神经网络模型，使预测模型适应数据分布的变化，保证预测模型的可塑性，实现模型自适应更新中稳定性和可塑性的最佳权衡。相较于在线维护模型池，对新数据同时预测的方法，大大减少了模型实时预测需要的计算资源和内存资源。相较于直接利用新数据增量更新模型的方法，有效解决了模型更新中的灾难性遗忘现象。

Description

一种基于知识蒸馏的模型自适应更新方法

技术领域

本发明属于机器学习技术领域，具体地，涉及一种基于知识蒸馏的模型自适应更新方法。

背景技术

基于机器学习的数据自动预测方法的一个假设是：模型的训练数据和测试数据来自于同一个总体分布。然而，随着时间的推移，数据分布会发生变化。数据分布的变化可以进一步分为样本的变化和类别的变化。所谓样本的变化，是指样本在特征同构空间下的特征值的变化，以及每一类样本所占比例的可能变化。类别的变化是指新的类别的出现，即原来的分类发生了变化。所以，一段时间后，基于历史数据训练的模型可能不适用于一些新的数据。因此，有必要面向自动化预测系统的实际应用，实现模型的自适应更新，以保证不断变化的数据能够被正确预测。常用的模型自适应更新方法有模型重训练、不同时间窗口的模型集成和增量学习三种。

模型重训练需要消耗大量的计算资源和建模时间。不同时间窗口的模型集成需要维护一个模型池，对新数据同时进行打分，会消耗大量的计算资源。增量学习方法则存在灾难性遗忘现象，即随着时间的推移，模型使用最新的数据进行更新，新获得的数据往往会抹去之前学习到的模式；增量学习方法需要具备从新数据中持续学习的能力，同时保留以前学到的知识，是模型自适应更新中的稳定性-可塑性困境。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于知识蒸馏的模型自适应更新方法。

本发明的目的是通过以下技术方案来实现的：一种基于知识蒸馏的模型自适应更新方法，该方法包括以下步骤：

（1）在时刻

，基于初始数据

和

训练一个模型

，其中，

为

时刻数据的特征，

为

时刻数据的标签；

（2）利用模型

对

预测，得到

的预测软标签

；

（3）基于

、

和

训练一个神经网络模型

，模型

的输入为

，标签为

和

，输出为

，损失函数为：

其中，

为神经网络模型中的参数，

为调整损失函数中

和

权重的系数，基于模型

预测的软标签

的信息熵确定；

为

和

之间的对数损失函数；

为

和

之间的对数损失函数；

（4）在时刻

到

执行基于知识蒸馏的模型自适应更新，步骤如下：

a.在时刻

，基于初始数据

和

训练一个模型

；

b.利用模型

对

预测，得到

的预测软标签

；

c.基于

、

、

和模型

训练神经网络模型

，模型

的输入为

，标签为

和

，输出为

；利用模型

的参数对模型

的参数进行初始化，模型

的参数在模型

训练过程中保持不变；损失函数为：

其中，

为神经网络模型

中的参数；

为调整损失函数中

和

权重的系数，基于模型

预测的软标签

的信息熵确定；

为调整损失函数中

权重的系数，基于数据集

和

的相似性确定；

为

和

之间的对数损失函数；

为

和

之间的对数损失函数；

为模型参数相似性约束项，以模型

和

中所有参数的距离进行度量；

利用真实数据进行模型训练，得到模型参数

，从而确定模型。

进一步地，模型

选用以下机器学习方法：神经网络、逻辑回归、支持向量机、决策树、随机森林。

进一步地，所述步骤（3）中：

其中，

为

时刻的样本总量，

为

时刻第j个样本的预测软标签。

进一步地，所述步骤（3）中：

其中，

为

时刻的样本总量，

为

时刻第j个样本的标签，

为

时刻第j 个样本的预测软标签，

为

时刻第j个样本的神经网络模型预测输出。

进一步地，所述步骤（4）中：

其中，

为

时刻的样本总量，

为

时刻第j个样本的预测软标签。

进一步地，所述步骤（4）中：

其中，

为数据集

和

之间的距离，

为

时刻的样本总量，

为

时刻的样本总量，

分别为

中的第p，q个样本，

分别为

中的第 p，q个样本；

函数用于计算两个样本间的距离。

进一步地，

函数用于计算两个样本间的距离，距离采用：曼哈顿距离、欧氏距离、切比雪夫距离、余弦距离。

进一步地，所述步骤（4）中：

其中，

为

时刻的样本总量，

为

时刻第j个样本的标签，

为

时刻第j个样本的预测软标签，

为

时刻第j个样本的神经网络模型预测输出。

进一步地，

用于控制模型

参数在训练过程中的更新幅度，以模型

和

中所有参数的距离进行度量，距离采用：曼哈顿距离、欧氏距离、切比雪夫距离、余弦距离。

本发明的有益效果是：本发明采用模型自适应更新方法，代替模型重训练过程，减少了计算资源和人力资源的投入；采用模型参数相似性约束，提炼旧模型中的知识，避免了模型更新中的灾难性遗忘现象，保持预测模型的稳定性；利用知识蒸馏的思想，构建实时预测的神经网络模型，使预测模型适应数据分布的变化，保证预测模型的可塑性，实现模型自适应更新中稳定性和可塑性的最佳权衡。相较于在线维护模型池，对新数据同时预测的方法，大大减少了模型实时预测需要的计算资源和内存资源。相较于直接利用新数据增量更新模型的方法，有效解决了模型更新中的灾难性遗忘现象。

附图说明

图1为本发明基于知识蒸馏的模型自适应更新方法模型结构图；

图2为本发明基于知识蒸馏的模型自适应更新方法流程图；

图3为自适应更新模型结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明中所述的知识蒸馏作为一种有效的模型压缩方法，利用一个小模型来模仿大模型（或模型集合）的预测能力，从而保留大模型学习到的知识。

如图1、2所示，本发明提出的一种基于知识蒸馏的模型自适应更新方法，包括以下步骤：

（1）在时刻

，基于初始数据

和

训练一个模型

，其中，

为

时刻数据的特征，

为

时刻数据的标签；模型

可以采用任意一种机器学习方法，包括神经网络、逻辑回归、支持向量机、决策树、随机森林等。

（2）利用模型

对

预测，得到

的预测软标签

。

（3）基于

、

和

训练一个神经网络模型

；

为

时刻得到的最终模型，用于

时刻的数据预测，模型

的输入为

，标签为

和

，模型

的输出为

，损失函数为：

其中，

为神经网络模型中的参数，

为调整损失函数中

和

权重的系数：

为

时刻的样本总量，

为

时刻第j个样本的预测软标签，

；

为

和

之间的对数损失函数：

为

时刻第j个样本的标签，

；

为

时刻第j个样本的神经网络模型预测输出；

为

和

之间的对数损失函数：

（4）在时刻

到

执行基于知识蒸馏的模型自适应更新，步骤如下：

a. 在时刻

，基于初始数据

和

，训练一个模型

，其中，

为

时刻数据的特征，

为

时刻数据的标签；模型

可以采用任意一种机器学习方法，包括神经网络、逻辑回归、支持向量机、决策树、随机森林等；

b. 利用模型

对

预测，得到

的预测软标签

；

c. 基于

、

、

和模型

，训练神经网络模型

，

为

时刻得到的最终模型，用于

时刻的数据预测，模型

的输入为

，标签为

和

，模型

的输出为

，自适应更新模型结构如图3所示；

利用模型

的参数对模型

的参数进行初始化；模型

的参数在模型

训练过程中保持不变；损失函数为：

其中，

为神经网络模型

中的参数，

为神经网络模型

中的参数；

为调整损失函数中

和

权重的系数，基于模型

预测的软标签

的信息熵确定，计算公式如下：

为

时刻的样本总量，

为

时刻第j个样本的预测软标签，

；

为调整损失函数中

权重的系数，基于数据集

和

的相似性确定，计算公式如下：

为数据集

和

之间的距离，

为

时刻的样本总量，

分别为

中的第

，

个样本，

分别为

中的第p，q个样本，

分别为

中的第p，q个样本；

函数用于计算两个样本间的距离，可以采用曼哈顿距离、欧氏距离、切比雪夫距离、余弦距离等；

为

和

之间的对数损失函数：

为

时刻第j个样本的标签，

；

为

时刻第j个样本的神经网络模型预测输出；

为

和

之间的对数损失函数：

为

时刻第j个样本的预测软标签；

为模型参数相似性约束项，控制模型

参数在训练过程中的更新幅度，以神经网络模型

和

中所有参数的距离进行度量，可以采用曼哈顿距离、欧氏距离、切比雪夫距离、余弦距离等；优选地，本实施例采用欧氏距离进行度量，计算公式如下：

利用真实数据进行模型训练，得到模型参数

，从而确定模型。

本发明基于分类器预测的软标签的信息熵，确定样本真实标签和预测软标签在新模型损失函数中的权重；基于数据集的相似性，确定模型参数相似性约束项在新模型损失函数中的权重，保持预测模型的稳定性。

以下给出本发明的具体应用场景，但不限于此：

基于人工智能方法的结直肠癌预后风险预测模型的预测准确率超过了临床常用的结直肠癌分期系统。但是，真实临床场景中，随着时间的推移，人口统计、疾病流行、临床实践和医疗保健系统作为一个整体可能会发生变化，这意味着基于静态截面数据的模型可能会过时，导致预测结果不再准确。其次，模型应用于临床实践会改变结直肠癌临床决策和干预措施，导致新数据的结果分布和预测因子-结果关联关系变化，从而导致模型性能快速衰退。因此，结直肠癌风险特征随时间变化的特性会降低模型临床效用，有必要实现临床风险预测模型的自适应更新，以保证不断变化的数据能够被正确预测，从而保证模型的时效性。

在金融风控领域，由于风险防控方的防御措施会抵御部分恶性攻击事件，风险施加方会不断寻找系统漏洞而采取新的攻击方式，导致新的恶性事件发生等。这些真实场景中的特征变化特性，要求风险防控方用于风险防御的模型具有自适应更新的能力，保证模型可以持续发挥作用。

在推荐系统领域，随着用户行为在系统中的记录不断增多，用户会表现出明显的倾向性；同时，用户也容易受当下热点信息的影响而改变使用行为特征。这些都要求推荐系统可以适应系统特征的变化而自适应更新。

本发明提出的基于知识蒸馏的模型自适应更新方法，可以解决医疗、金融风控、推荐系统等领域的预测系统，随着时间的推移数据分布发生变化，导致不断变化的数据不能被正确预测的问题。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。