CN116226654A - 基于掩码梯度的机器学习数据遗忘方法 - Google Patents
基于掩码梯度的机器学习数据遗忘方法 Download PDFInfo
- Publication number
- CN116226654A CN116226654A CN202211104065.1A CN202211104065A CN116226654A CN 116226654 A CN116226654 A CN 116226654A CN 202211104065 A CN202211104065 A CN 202211104065A CN 116226654 A CN116226654 A CN 116226654A
- Authority
- CN
- China
- Prior art keywords
- data
- machine learning
- model
- mask
- forgetting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于掩码梯度的机器学习数据遗忘方法,实现步骤为:获取待遗忘数据集并构建包括情感分析模型和掩码梯度生成器的机器学习系统;初始化参数;更新模型权重参数;对掩码梯度生成器进行优化;达到迭代次数后获取遗忘数据集后的更新模型。本发明在生成掩码梯度时,是通过掩码梯度生成器和情感分析模型相互作用、共同学习来生成的,避免了现有技术由于在生成掩码信息时仅使用训练图像和待训练图像识别模型,直接将训练图像输入待训练图像识别模型中获取训练识别结果和训练掩码结果而造成的优化梯度方向并不是最优的缺陷,有效提高了机器学习数据遗忘的遗忘率,并且降低了过度遗忘造成的准确度损失。
Description
技术领域
本发明属于机器学习领域,涉及数据遗忘方法,具体涉及一种基于掩码梯度的机器学习数据遗忘方法,可用于机器学习数据遗忘过程,恢复数据对提取的特征和模型的影响。
背景技术
如今,机器学习模型在众多场景中应用广泛,然而在训练数据中可能存在一些异常数据,会对系统造成伤害;其次,随着隐私保护法的颁布,要求用户拥有在模型中删除自身数据的权力,而当前的模型训练器无法提取特定数据。为此,机器学习数据遗忘方法被提出用以解决此类问题,其允许从已经训练好的机器学习模型中消除对特定数据的记忆,恢复数据对模型的影响。现有方法可以分为基于再训练和基于总和的数据遗忘方法,基于总和的遗忘方法在少量求和的基础上训练模型,每个求和都是训练样本的一些有效可计算变换的总和,要忘记一个样本,只需从相应的总和中减去该样本,然后更新模型,然而,对于自适应模型,从总和中减去样本很容易导致过度遗忘无关记忆,降低其效用;基于再训练的遗忘方法在删除要遗忘的样本后重新训练模型,其中SISA框架将训练集划分为片,并通过增量学习训练模型,每多训练一个片后的中间模型都会被记录下来,遗忘样本时从受该样本影响的第一个中间模型开始重新训练整个模型,然而,这种方法开销巨大,用存储来换取再训练时间,而并没有真正减少再训练的开销。
例如国家电网有限公司大数据中心在其拥有的专利技术“一种模型的数据遗忘方法、装置、设备及存储介质”(专利申请号CN202210463318.8,申请公告号CN114863243A)中,公开了一种模型的数据遗忘方法,采用预先训练好的图像识别模型,对获取到的待遗忘图像数据进行图像识别,确定所述待遗忘图像数据的掩码结果,其中,所述图像识别模型包含至少两个卷积网络通道,所述卷积网络通道用于确定通道输入数据的掩码信息和输出特征图,所述掩码结果包括各所述卷积网络通道针对所述待遗忘图像数据输出的掩码信息;获取预设的模型剪枝参数,结合所述掩码结果,从各所述卷积网络通道中确定待剪枝通道,并对所述待剪枝通道进行参数调整,得到参数更新后的图像识别模型,该发明在保持模型识别准确度的同时,可以实现对部分训练数据的遗忘,使被删除的训练数据无法恢复,保护用户隐私,但是,该方法由于在生成掩码信息时仅使用训练图像和待训练图像识别模型,直接将训练图像输入待训练图像识别模型中获取训练识别结果和训练掩码结果,梯度方向可能并不是最优的,容易造成遗忘率低和过度遗忘的情况。
发明内容
本发明的目的是克服现有技术中的不足,提出一种基于掩码梯度的机器学习数据遗忘方法,旨在解决机器学习数据遗忘中遗忘率低和过度遗忘的问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取数据集并构建机器学习系统:
获取包括N个带有偏向性的影评数据的待遗忘数据集D={x1,x2,...,xn,...,xN},并构建包含预训练的情感分析模型f和掩码梯度生成器G的机器学习系统,其中,N≥1,xn表示第n个待遗忘的语句数据;
(2)初始化参数:
初始化迭代次数t,第t次迭代的预训练情感分析模型为ft,ft的模型权重参数初始值为θ0,G的掩码梯度的初始值为μ0,待遗忘数据集D经ft计算得到的后验集的初始值为Υ0={y01,y02,...,y0n,...,y0N},最大迭代次数T,并令t=1,其中,y0n表示xn的后验的初始值;
(3)计算模型权重参数的值:
通过第t-1次迭代的模型权重参数θt-1、数据集D经ft-1计算的后验Υt-1计算第t次迭代G的掩码梯度μt=G(θt-1,Υt-1),然后通过μt计算第t次迭代的模型权重参数θt=θ0-ξ·μt,其中ξ表示掩码梯度的遗忘系数;
(4)对掩码梯度生成器进行优化:
(4a)将待遗忘影评数据集D作为模型权重参数为θt的情感分析模型ft的输入,计算每个待遗忘语句数据xn的后验ytn,得到后验集Υt={yt1,yt2,...,ytn,...,ytN},并计算N个ft未曾学习过的影评数据的后验分布P;
(4b)采用二阶梯度优化法L-BFGS,并通过Υt和P求解G的损失函数L取最小值时G的参数值,将其作为G的新权重参数,得到更新参数后的掩码梯度生成器G;
(5)获取机器学习数据遗忘结果:
判断t=T是否成立,若是,则得到模型权重参数为θT的情感分析模型fT,否则,令t=t+1,并执行步骤(3)。
本发明与现有技术相比,具有以下优点:
本发明在生成掩码梯度时,是通过掩码梯度生成器和情感分析模型相互作用、共同学习来生成的,避免了现有技术由于在生成掩码信息时仅使用训练图像和待训练图像识别模型,直接将训练图像输入待训练图像识别模型中获取训练识别结果和训练掩码结果而造成的优化梯度方向并不是最优的缺陷,有效提高了机器学习数据遗忘的遗忘率,并且降低了过度遗忘造成的准确度损失。
附图说明
图1是本发明的实现流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细描述。
参照附图1,本发明包括如下步骤:
步骤1)获取数据集并构建机器学习系统:
获取包括N个带有偏向性的影评数据的待遗忘数据集D={x1,x2,...,xn,...,xN},并构建包含预训练的情感分析模型f和掩码梯度生成器G的机器学习系统,其中,N≥1,xn表示第n个待遗忘的语句数据;
本实施例中,选取情感分析模型f来分析影评中所蕴含的情绪,所用数据集为影评数据集IMDB,数据集中的影评带有用户个人对于影片的偏向性态度,情感分析模型f可以预测影评情感倾向,分析结果具有巨大的商业价值,可以反应出社会集体对于影片的情感状态,实验所选取的情感分析模型f结构包括顺次级联的嵌入层、三个卷积层、最大池化层和全连接层,其中嵌入层将影评语句映射为1×100维的数值化向量;三个卷积层窗口大小依次为3×200、4×200、5×200,输出通道数均为100;最大池化层窗口大小为1×35×35;全连接层包括300个输入节点和2个输出节点;
步骤2)初始化参数:
初始化迭代次数t,第t次迭代的预训练情感分析模型为ft,ft的模型权重参数初始值为θ0,G的掩码梯度的初始值为μ0,待遗忘数据集D经ft计算得到的后验集的初始值为Υ0={y01,y02,...,y0n,...,y0N},最大迭代次数T,并令t=1,其中,y0n表示xn的后验的初始值;
本实施例中,待遗忘数据集D经ft计算得到的后验集的初始值为Υ0={y01,y02,...,y0n,...,y0N},其计算方法为将数据集D中的每一条影评语句xn输入至ft,ft的嵌入层将语句xn转换为1×100维的数值化向量数据,三个卷积层和最大池化层依据训练好的权重参数分别对向量数据进行卷积、池化计算,最后,全连接层组合卷积、池化层的输出来计算得到最终的结果,得到计算结果y0n,组成后验集Υ0;
步骤3)计算模型权重参数的值:
通过第t-1次迭代的模型权重参数θt-1、数据集D经ft-1计算的后验Υt-1计算第t次迭代G的掩码梯度μt=G(θt-1,Υt-1),然后通过μt计算第t次迭代的模型权重参数θt=θ0-ξ·μt,其中ξ表示掩码梯度的遗忘系数;
本实施例中,掩码梯度生成器生成掩码梯度,通过掩码梯度对模型权重参数进行更新,第t次迭代G的掩码梯度μt=G(θt-1,Υt-1)的计算公式为:
其中,LKL(Υt-1,P)表示Kullback-Leibler发散损失函数;λ表示惩罚系数;||μt||1表示L1范数正则化项;ω表示动态惩罚项,D0表示包含随机选取的N个ft学习过数据的数据组,∑表示求和操作,Lcross(x)表示Cross-entropy交叉熵损失函数,d表示参数θt-1的指定维数;
步骤4)对掩码梯度生成器进行优化:
步骤4a)将待遗忘影评数据集D作为模型权重参数为θt的情感分析模型ft的输入,计算每个待遗忘语句数据xn的后验ytn,得到后验集Υt={yt1,yt2,...,ytn,...,ytN},并计算N个ft未曾学习过的影评数据的后验分布P;
本实施例中,将待遗忘影评数据集D输入至情感分析模型ft,ft的嵌入层将每个待遗忘语句数据xn转换为1×100维的数值化向量数据,三个卷积层和最大池化层依据训练好的权重参数分别对向量数据进行卷积、池化计算,最后,全连接层组合卷积、池化层的输出来计算得到最终的结果,得到xn的后验ytn,进而组成后验集Υt={yt1,yt2,...,ytn,...,ytN};
N个ft未曾学习过的影评数据的后验分布P,其计算方法为:基于Shannon熵理论,首先随机选取一组包含N个ft未曾学习过的影评数据D'={x'1,x'2,...,x'n,...,x'N},计算其后验集Υ'={y'1,y'2,...,y'n,...,y'N},并利用下式计算得到P:
其中,x'n表示第n个ft未曾学习过的影评数据,y'n表示x'n经ft分析计算的结果,∑表示求和操作;
步骤4b)采用二阶梯度优化法L-BFGS,并通过Υt和P求解G的损失函数L取最小值时G的参数值,将其作为G的新权重参数,得到更新参数后的掩码梯度生成器G;
本实施例中,采用二阶梯度优化法L-BFGS,来优化G的损失函数L,使掩码梯度生成器生成的梯度修改模型参数后,数据集D在模型ft的后验更加接近未曾学习过的影评数据的后验分布,达到模型对数据集D的遗忘;
在数据遗忘的过程中,依据掩码梯度生成器G生成的掩码梯度对模型ft的权重参数进行修改,然后利用更新后模型计算的数据集D的后验对掩码梯度生成器G进行优化,掩码梯度生成器G和模型ft相互作用、共同学习来生成最优的掩码梯度,更好的完成数据遗忘任务,防止因掩码拟合效果不足,出现对遗忘数据的遗忘率较低和对不需要遗忘的数据产生过度遗忘的情况;
所用损失函数L,其表达式为:
L=LKL(Υt,P)+λ·ω·||μt||1
其中,LKL(Υt,P)表示Kullback-Leibler发散损失函数;λ表示惩罚系数;||μt||1表示L1范数正则化项;ω表示动态惩罚项;
所用二阶梯度优化法L-BFGS,其迭代表达式为:
其中,k表示迭代次数;xk表示损失函数L的自变量;Bk表示优化中符合拟牛顿条件的迭代矩阵,用于代替损失函数L在x处的海森矩阵进行计算;yk表示中间计算结果,为T表示导数的阶数;Hk表示Bk的逆矩阵/>
步骤5)获取机器学习数据遗忘结果:
判断t=T是否成立,若是,则得到模型权重参数为θT的情感分析模型fT,否则,令t=t+1,并执行步骤(3)。
Claims (6)
1.一种基于掩码梯度的机器学习数据遗忘方法,其特征在于,包括如下步骤:
(1)获取数据集并构建机器学习系统:
获取包括N个带有偏向性的影评数据的待遗忘数据集D={x1,x2,...,xn,...,xN},并构建包含预训练的情感分析模型f和掩码梯度生成器G的机器学习系统,其中,N≥1,xn表示第n个待遗忘的语句数据;
(2)初始化参数:
初始化迭代次数t,第t次迭代的预训练情感分析模型为ft,ft的模型权重参数初始值为θ0,G的掩码梯度的初始值为μ0,待遗忘数据集D经ft计算得到的后验集的初始值为Υ0={y01,y02,...,y0n,...,y0N},最大迭代次数T,并令t=1,其中,y0n表示xn的后验的初始值;
(3)计算模型权重参数的值:
通过第t-1次迭代的模型权重参数θt-1、数据集D经ft-1计算的后验Υt-1计算第t次迭代G的掩码梯度μt=G(θt-1,Υt-1),然后通过μt计算第t次迭代的模型权重参数θt=θ0-ξ·μt,其中ξ表示掩码梯度的遗忘系数;
(4)对掩码梯度生成器进行优化:
(4a)将待遗忘影评数据集D作为模型权重参数为θt的情感分析模型ft的输入,计算每个待遗忘语句数据xn的后验ytn,得到后验集Υt={yt1,yt2,...,ytn,...,ytN},并计算N个ft未曾学习过的影评数据的后验分布P;
(4b)采用二阶梯度优化法L-BFGS,并通过Υt和P求解G的损失函数L取最小值时G的参数值,将其作为G的新权重参数,得到更新参数后的掩码梯度生成器G;
(5)获取机器学习数据遗忘结果:
判断t=T是否成立,若是,则得到模型权重参数为θT的情感分析模型fT,否则,令t=t+1,并执行步骤(3)。
2.根据权利要求1所述的基于神经元掩蔽的机器学习数据遗忘方法,其特征在于,步骤(1)中所述的情感分析模型f包括顺次级联的嵌入层、三个卷积层、最大池化层和全连接层,其中嵌入层将影评语句映射为1×100维的数值向量;三个卷积层窗口大小依次为3×200、4×200、5×200,输出通道数均为100;最大池化层窗口大小为1×35×35;全连接层包括300个输入节点和2个输出节点。
3.根据权利要求1所述的基于神经元掩蔽的机器学习数据遗忘方法,其特征在于,步骤(2)中所述的待遗忘影评数据集D经ft计算得到的后验集的初始值为Υ0={y01,y02,...,y0n,...,y0N},其计算方法为将数据集D中的每一条影评语句xn输入至模型ft,ft对语句进行计算,得到其计算结果y0n,组成后验集Υ0。
6.根据权利要求1所述的基于神经元掩蔽的机器学习数据遗忘方法,其特征在于,步骤(4b)中所述的损失函数L,其表达式为:
L=LKL(Υt,P)+λ·ω·||μt||1
其中,LKL(Υt,P)表示Kullback-Leibler发散损失函数;λ表示惩罚系数;||μt||1表示L1范数正则化项;ω表示动态惩罚项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211104065.1A CN116226654A (zh) | 2022-09-09 | 2022-09-09 | 基于掩码梯度的机器学习数据遗忘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211104065.1A CN116226654A (zh) | 2022-09-09 | 2022-09-09 | 基于掩码梯度的机器学习数据遗忘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116226654A true CN116226654A (zh) | 2023-06-06 |
Family
ID=86581209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211104065.1A Pending CN116226654A (zh) | 2022-09-09 | 2022-09-09 | 基于掩码梯度的机器学习数据遗忘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226654A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522007A (zh) * | 2023-07-05 | 2023-08-01 | 中国科学技术大学 | 一种面向推荐系统模型的数据遗忘学习方法、装置及介质 |
-
2022
- 2022-09-09 CN CN202211104065.1A patent/CN116226654A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522007A (zh) * | 2023-07-05 | 2023-08-01 | 中国科学技术大学 | 一种面向推荐系统模型的数据遗忘学习方法、装置及介质 |
CN116522007B (zh) * | 2023-07-05 | 2023-10-20 | 中国科学技术大学 | 一种面向推荐系统模型的数据遗忘学习方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112200244B (zh) | 一种基于递阶对抗训练的航天发动机异常智能检测方法 | |
CN110909926A (zh) | 基于tcn-lstm的太阳能光伏发电预测方法 | |
CN113780292B (zh) | 一种基于证据推理的语义分割网络模型不确定性量化方法 | |
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
CN109598220B (zh) | 一种基于多元输入多尺度卷积的人数统计方法 | |
CN113159048A (zh) | 一种基于深度学习的弱监督语义分割方法 | |
CN114092832A (zh) | 一种基于并联混合卷积网络的高分辨率遥感影像分类方法 | |
CN105657402A (zh) | 一种深度图恢复方法 | |
KR102489473B1 (ko) | 인공 지능 모델을 이용한 기후 지수 예측 결과에 대한 불확실성과 기여도를 제공하는 기후 지수 예측 방법 및 시스템 | |
CN112149962B (zh) | 一种施工事故致因行为的风险定量评估方法及系统 | |
CN115899598B (zh) | 一种融合听觉和视觉特征的供热管网状态监测方法及系统 | |
CN114913379B (zh) | 基于多任务动态对比学习的遥感图像小样本场景分类方法 | |
CN108959512B (zh) | 一种基于属性增强注意力模型的图像描述网络及技术 | |
CN116451553A (zh) | 一种改进的变分模态分解与BiGRU融合的水质预测方法 | |
Jin et al. | Deep learning for seasonal precipitation prediction over China | |
CN114863348A (zh) | 基于自监督的视频目标分割方法 | |
CN116226654A (zh) | 基于掩码梯度的机器学习数据遗忘方法 | |
Regazzoni et al. | A physics-informed multi-fidelity approach for the estimation of differential equations parameters in low-data or large-noise regimes | |
CN116187563A (zh) | 一种融合改进变分模态分解的海表温度时空智能预测方法 | |
CN115272213A (zh) | 医学图像质量评价方法及装置 | |
CN116052254A (zh) | 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 | |
CN115561005A (zh) | 基于eemd分解和轻量化神经网络的化工过程故障诊断方法 | |
CN116819615A (zh) | 一种地震数据重建方法 | |
CN115017939A (zh) | 一种飞机燃油泵故障智能诊断方法、装置和存储介质 | |
CN113409213A (zh) | 柱塞泵故障信号时频图降噪增强方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |