CN116226654A

CN116226654A - 基于掩码梯度的机器学习数据遗忘方法

Info

Publication number: CN116226654A
Application number: CN202211104065.1A
Authority: CN
Inventors: 马卓; 杨昊; 刘洋; 杨易龙; 李腾; 张俊伟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2023-06-06

Abstract

本发明提出了一种基于掩码梯度的机器学习数据遗忘方法，实现步骤为：获取待遗忘数据集并构建包括情感分析模型和掩码梯度生成器的机器学习系统；初始化参数；更新模型权重参数；对掩码梯度生成器进行优化；达到迭代次数后获取遗忘数据集后的更新模型。本发明在生成掩码梯度时，是通过掩码梯度生成器和情感分析模型相互作用、共同学习来生成的，避免了现有技术由于在生成掩码信息时仅使用训练图像和待训练图像识别模型，直接将训练图像输入待训练图像识别模型中获取训练识别结果和训练掩码结果而造成的优化梯度方向并不是最优的缺陷，有效提高了机器学习数据遗忘的遗忘率，并且降低了过度遗忘造成的准确度损失。

Description

基于掩码梯度的机器学习数据遗忘方法

技术领域

本发明属于机器学习领域，涉及数据遗忘方法，具体涉及一种基于掩码梯度的机器学习数据遗忘方法，可用于机器学习数据遗忘过程，恢复数据对提取的特征和模型的影响。

背景技术

如今，机器学习模型在众多场景中应用广泛，然而在训练数据中可能存在一些异常数据，会对系统造成伤害；其次，随着隐私保护法的颁布，要求用户拥有在模型中删除自身数据的权力，而当前的模型训练器无法提取特定数据。为此，机器学习数据遗忘方法被提出用以解决此类问题，其允许从已经训练好的机器学习模型中消除对特定数据的记忆，恢复数据对模型的影响。现有方法可以分为基于再训练和基于总和的数据遗忘方法，基于总和的遗忘方法在少量求和的基础上训练模型，每个求和都是训练样本的一些有效可计算变换的总和，要忘记一个样本，只需从相应的总和中减去该样本，然后更新模型，然而，对于自适应模型，从总和中减去样本很容易导致过度遗忘无关记忆，降低其效用；基于再训练的遗忘方法在删除要遗忘的样本后重新训练模型，其中SISA框架将训练集划分为片，并通过增量学习训练模型，每多训练一个片后的中间模型都会被记录下来，遗忘样本时从受该样本影响的第一个中间模型开始重新训练整个模型，然而，这种方法开销巨大，用存储来换取再训练时间，而并没有真正减少再训练的开销。

例如国家电网有限公司大数据中心在其拥有的专利技术“一种模型的数据遗忘方法、装置、设备及存储介质”(专利申请号CN202210463318.8，申请公告号CN114863243A)中，公开了一种模型的数据遗忘方法，采用预先训练好的图像识别模型，对获取到的待遗忘图像数据进行图像识别，确定所述待遗忘图像数据的掩码结果，其中，所述图像识别模型包含至少两个卷积网络通道，所述卷积网络通道用于确定通道输入数据的掩码信息和输出特征图，所述掩码结果包括各所述卷积网络通道针对所述待遗忘图像数据输出的掩码信息；获取预设的模型剪枝参数，结合所述掩码结果，从各所述卷积网络通道中确定待剪枝通道，并对所述待剪枝通道进行参数调整，得到参数更新后的图像识别模型，该发明在保持模型识别准确度的同时，可以实现对部分训练数据的遗忘，使被删除的训练数据无法恢复，保护用户隐私，但是，该方法由于在生成掩码信息时仅使用训练图像和待训练图像识别模型，直接将训练图像输入待训练图像识别模型中获取训练识别结果和训练掩码结果，梯度方向可能并不是最优的，容易造成遗忘率低和过度遗忘的情况。

发明内容

本发明的目的是克服现有技术中的不足，提出一种基于掩码梯度的机器学习数据遗忘方法，旨在解决机器学习数据遗忘中遗忘率低和过度遗忘的问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取数据集并构建机器学习系统：

获取包括N个带有偏向性的影评数据的待遗忘数据集D＝{x₁,x₂,...,x_n,...,x_N}，并构建包含预训练的情感分析模型f和掩码梯度生成器G的机器学习系统，其中，N≥1，x_n表示第n个待遗忘的语句数据；

(2)初始化参数：

初始化迭代次数t，第t次迭代的预训练情感分析模型为f_t，f_t的模型权重参数初始值为θ₀，G的掩码梯度的初始值为μ₀，待遗忘数据集D经f_t计算得到的后验集的初始值为Υ₀＝{y₀₁,y₀₂,...,y_0n,...,y_0N}，最大迭代次数T，并令t＝1，其中，y_0n表示x_n的后验的初始值；

(3)计算模型权重参数的值：

通过第t-1次迭代的模型权重参数θ_t-1、数据集D经f_t-1计算的后验Υ_t-1计算第t次迭代G的掩码梯度μ_t＝G(θ_t-1,Υ_t-1)，然后通过μ_t计算第t次迭代的模型权重参数θ_t＝θ₀-ξ·μ_t，其中ξ表示掩码梯度的遗忘系数；

(4)对掩码梯度生成器进行优化：

(4a)将待遗忘影评数据集D作为模型权重参数为θ_t的情感分析模型f_t的输入，计算每个待遗忘语句数据x_n的后验y_tn，得到后验集Υ_t＝{y_t1,y_t2,...,y_tn,...,y_tN}，并计算N个f_t未曾学习过的影评数据的后验分布P；

(4b)采用二阶梯度优化法L-BFGS，并通过Υ_t和P求解G的损失函数L取最小值时G的参数值，将其作为G的新权重参数，得到更新参数后的掩码梯度生成器G；

(5)获取机器学习数据遗忘结果：

判断t＝T是否成立，若是，则得到模型权重参数为θ_T的情感分析模型f_T，否则，令t＝t+1，并执行步骤(3)。

本发明与现有技术相比，具有以下优点：

本发明在生成掩码梯度时，是通过掩码梯度生成器和情感分析模型相互作用、共同学习来生成的，避免了现有技术由于在生成掩码信息时仅使用训练图像和待训练图像识别模型，直接将训练图像输入待训练图像识别模型中获取训练识别结果和训练掩码结果而造成的优化梯度方向并不是最优的缺陷，有效提高了机器学习数据遗忘的遗忘率，并且降低了过度遗忘造成的准确度损失。

附图说明

图1是本发明的实现流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细描述。

参照附图1，本发明包括如下步骤：

步骤1)获取数据集并构建机器学习系统：

本实施例中，选取情感分析模型f来分析影评中所蕴含的情绪，所用数据集为影评数据集IMDB，数据集中的影评带有用户个人对于影片的偏向性态度，情感分析模型f可以预测影评情感倾向，分析结果具有巨大的商业价值，可以反应出社会集体对于影片的情感状态，实验所选取的情感分析模型f结构包括顺次级联的嵌入层、三个卷积层、最大池化层和全连接层，其中嵌入层将影评语句映射为1×100维的数值化向量；三个卷积层窗口大小依次为3×200、4×200、5×200，输出通道数均为100；最大池化层窗口大小为1×35×35；全连接层包括300个输入节点和2个输出节点；

步骤2)初始化参数：

本实施例中，待遗忘数据集D经f_t计算得到的后验集的初始值为Υ₀＝{y₀₁,y₀₂,...,y_0n,...,y_0N}，其计算方法为将数据集D中的每一条影评语句x_n输入至f_t，f_t的嵌入层将语句x_n转换为1×100维的数值化向量数据，三个卷积层和最大池化层依据训练好的权重参数分别对向量数据进行卷积、池化计算，最后，全连接层组合卷积、池化层的输出来计算得到最终的结果，得到计算结果y_0n，组成后验集Υ₀；

步骤3)计算模型权重参数的值：

本实施例中，掩码梯度生成器生成掩码梯度，通过掩码梯度对模型权重参数进行更新，第t次迭代G的掩码梯度μ_t＝G(θ_t-1,Υ_t-1)的计算公式为：

其中，L_KL(Υ_t-1,P)表示Kullback-Leibler发散损失函数；λ表示惩罚系数；||μ_t||₁表示L₁范数正则化项；ω表示动态惩罚项，D₀表示包含随机选取的N个f_t学习过数据的数据组，∑表示求和操作，L_cross(x)表示Cross-entropy交叉熵损失函数，d表示参数θ_t-1的指定维数；

步骤4)对掩码梯度生成器进行优化：

步骤4a)将待遗忘影评数据集D作为模型权重参数为θ_t的情感分析模型f_t的输入，计算每个待遗忘语句数据x_n的后验y_tn，得到后验集Υ_t＝{y_t1,y_t2,...,y_tn,...,y_tN}，并计算N个f_t未曾学习过的影评数据的后验分布P；

本实施例中，将待遗忘影评数据集D输入至情感分析模型f_t，f_t的嵌入层将每个待遗忘语句数据x_n转换为1×100维的数值化向量数据，三个卷积层和最大池化层依据训练好的权重参数分别对向量数据进行卷积、池化计算，最后，全连接层组合卷积、池化层的输出来计算得到最终的结果，得到x_n的后验y_tn，进而组成后验集Υ_t＝{y_t1,y_t2,...,y_tn,...,y_tN}；

N个f_t未曾学习过的影评数据的后验分布P，其计算方法为：基于Shannon熵理论，首先随机选取一组包含N个f_t未曾学习过的影评数据D'＝{x'₁,x'₂,...,x'_n,...,x'_N}，计算其后验集Υ'＝{y'₁,y'₂,...,y'_n,...,y'_N}，并利用下式计算得到P：

其中，x'_n表示第n个f_t未曾学习过的影评数据，y'_n表示x'_n经f_t分析计算的结果，∑表示求和操作；

步骤4b)采用二阶梯度优化法L-BFGS，并通过Υ_t和P求解G的损失函数L取最小值时G的参数值，将其作为G的新权重参数，得到更新参数后的掩码梯度生成器G；

本实施例中，采用二阶梯度优化法L-BFGS，来优化G的损失函数L，使掩码梯度生成器生成的梯度修改模型参数后，数据集D在模型f_t的后验更加接近未曾学习过的影评数据的后验分布，达到模型对数据集D的遗忘；

在数据遗忘的过程中，依据掩码梯度生成器G生成的掩码梯度对模型f_t的权重参数进行修改，然后利用更新后模型计算的数据集D的后验对掩码梯度生成器G进行优化，掩码梯度生成器G和模型f_t相互作用、共同学习来生成最优的掩码梯度，更好的完成数据遗忘任务，防止因掩码拟合效果不足，出现对遗忘数据的遗忘率较低和对不需要遗忘的数据产生过度遗忘的情况；

所用损失函数L，其表达式为：

L＝L_KL(Υ_t,P)+λ·ω·||μ_t||₁

其中，L_KL(Υ_t,P)表示Kullback-Leibler发散损失函数；λ表示惩罚系数；||μ_t||₁表示L₁范数正则化项；ω表示动态惩罚项；

所用二阶梯度优化法L-BFGS，其迭代表达式为：

其中，k表示迭代次数；x_k表示损失函数L的自变量；B_k表示优化中符合拟牛顿条件的迭代矩阵，用于代替损失函数L在x处的海森矩阵进行计算；y_k表示中间计算结果，为

T表示导数的阶数；H_k表示B_k的逆矩阵/>

步骤5)获取机器学习数据遗忘结果：

Claims

1.一种基于掩码梯度的机器学习数据遗忘方法，其特征在于，包括如下步骤：

(1)获取数据集并构建机器学习系统：

(2)初始化参数：

(3)计算模型权重参数的值：

(4)对掩码梯度生成器进行优化：

(5)获取机器学习数据遗忘结果：

2.根据权利要求1所述的基于神经元掩蔽的机器学习数据遗忘方法，其特征在于，步骤(1)中所述的情感分析模型f包括顺次级联的嵌入层、三个卷积层、最大池化层和全连接层，其中嵌入层将影评语句映射为1×100维的数值向量；三个卷积层窗口大小依次为3×200、4×200、5×200，输出通道数均为100；最大池化层窗口大小为1×35×35；全连接层包括300个输入节点和2个输出节点。

3.根据权利要求1所述的基于神经元掩蔽的机器学习数据遗忘方法，其特征在于，步骤(2)中所述的待遗忘影评数据集D经f_t计算得到的后验集的初始值为Υ₀＝{y₀₁,y₀₂,...,y_0n,...,y_0N}，其计算方法为将数据集D中的每一条影评语句x_n输入至模型f_t，f_t对语句进行计算，得到其计算结果y_0n，组成后验集Υ₀。

4.根据权利要求1所述的基于神经元掩蔽的机器学习数据遗忘方法，其特征在于，步骤(3)中所述的第t次迭代G的掩码梯度μ_t＝G(θ_t-1,Υ_t-1)的计算公式为：

其中，L_KL(Υ,P)表示Kullback-Leibler发散损失函数；λ表示惩罚系数；||μ_t||₁表示L₁范数正则化项；ω表示动态惩罚项，D₀表示包含随机选取的N个f_t学习过数据的数据组，∑表示求和操作，L_cross(x)表示Cross-entropy交叉熵损失函数，d表示参数θ的指定维数。

5.根据权利要求1所述的基于神经元掩蔽的机器学习数据遗忘方法，其特征在于，步骤(4a)中所述的N个f_t未曾学习过的影评数据的后验分布P，其计算方法为：基于Shannon熵理论，首先随机选取一组包含N个f_t未曾学习过的影评数据D'＝{x'₁,x'₂,...,x'_n,...,x'_N}，计算其后验集Υ'＝{y'₁,y'₂,...,y'_n,...,y'_N}，并利用下式计算得到P：

其中，x'_n表示第n个f_t未曾学习过的影评数据，y'_n表示x'_n经f_t分析计算的结果，∑表示求和操作。

6.根据权利要求1所述的基于神经元掩蔽的机器学习数据遗忘方法，其特征在于，步骤(4b)中所述的损失函数L，其表达式为：

L＝L_KL(Υ_t,P)+λ·ω·||μ_t||₁

其中，L_KL(Υ_t,P)表示Kullback-Leibler发散损失函数；λ表示惩罚系数；||μ_t||₁表示L₁范数正则化项；ω表示动态惩罚项。