CN114707175B

CN114707175B - 机器学习模型敏感信息的处理方法、系统、设备及终端

Info

Publication number: CN114707175B
Application number: CN202210276269.7A
Authority: CN
Inventors: 李晖; 郭子尧; 闫皓楠; 李效光; 郑戈威; 王瑞; 赵兴文; 李凤华
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2024-07-23
Anticipated expiration: 2042-03-21
Also published as: CN114707175A

Abstract

本发明属于人工智能及信息安全技术领域，公开了一种机器学习模型敏感信息的处理方法、系统、设备及终端，包括初次训练以及删除信息后重新训练两部分；采用数据集削减算法，同时使用组合多个单分类器的方案使得需要删除敏感信息时仅需重新训练部分模型。本发明在删除模型内敏感数据时无需重新训练整个模型，只需重新训练包含敏感数据的单分类器，大幅度减少了删除模型内敏感数据的开销。同时本发明结合数据削减算法以削减数据集内包含信息量较少的数据，能够在几乎不影响精准度的情况下大大提高训练的速度。同时该方法在训练单分类模型时将数据分为多个子数据集进行训练，使得删除数据后无需从头训练单分类器，进一步减少了开销。

Description

机器学习模型敏感信息的处理方法、系统、设备及终端

技术领域

本发明属于人工智能及信息安全技术领域，尤其涉及一种机器学习模型敏感信息的处理方法、系统、设备及终端。

背景技术

目前，许多公司利用搜集到的用户信息训练模型来使他们的服务更加智能化。而根据《中华人民共和国个人信息保护法》，用户有权要求公司删除模型中关于其个人信息的部分，包括该部分数据对于模型的梯度更新的贡献等。现存的多项研究都证明模型会潜在记住其训练数据集，这给用户的数据隐私带来了极大的风险。目前使机器学习模型遗忘敏感信息的方法可被分为精确遗忘和近似遗忘。

现有技术一基于精确遗忘的敏感信息遗忘方法：精确遗忘方法一般直接删除数据集中的所有敏感信息，并重新训练模型。正在广泛应用的多分类机器学习模型需要频繁删减数据集并重新训练，后续的相关研究与进展主要围绕如何减弱因数据集减少导致的效果下降。然而，商业使用的数据集一般十分庞大，每次训练都需要消耗价值巨大的计算资源。同时，不同用户可能频繁提出删除个人信息的要求，使得使用该方法的代价高昂。

现有技术二基于近似遗忘的敏感信息遗忘方法：近似遗忘方法一般通过改变模型的参数来消除敏感数据为模型训练造成的影响，以达到与删除敏感数据后重新训练所得的模型近似的效果。尽管使用该方法所消耗的资源远小于基于精确遗忘实现的方法，但最近的研究表明此方法无法证明其精确消除了敏感信息对模型的所有影响，因此本方法并不可靠。

虽然精确遗忘方法往往开销比近似遗忘方法大，但它能够保证消除了所有敏感信息对于模型的影响，具有可靠性。

通过上述分析，现有技术存在的问题及缺陷为：现有的模型信息遗忘方法非常缺乏，且存在的方案如精确遗忘开销高，近似遗忘可靠性差等劣势。因此现在仍缺乏实用的高可靠性的模型遗忘方法。

解决以上问题及缺陷的难度为：要使模型完全可靠地遗忘敏感信息，目前只能通过使用不包含敏感数据的数据集重新训练整个模型，而这带来了非常高的计算开销，实际实用性不高。

解决以上问题及缺陷的意义为：本发明无需重新在整个数据集上进行训练，就可以使模型完全遗忘敏感信息，大幅度降低了使模型遗忘敏感信息的开销，且可信度非常高。

发明内容

针对现有技术存在的问题，本发明提供了一种机器学习模型敏感信息的处理方法、系统、设备及终端。

本发明是这样实现的，一种机器学习模型敏感信息的处理方法，所述机器学习模型敏感信息的处理方法包括初次训练以及删除信息后重新训练两部分；采用数据集削减算法，同时使用组合多个单分类器的方案使得需要删除敏感信息时仅需重新训练部分模型。

进一步，所述初次训练包括以下步骤：

第一步，将数据集按照类别进行划分；

第二步，进行数据集削减，从单类数据集中提取所含信息量最大的一组数据；

第三步，对削减后的数据集进行划块，将所取数据划分为多个数据集，组成一个有序的数据集序列；

第四步，训练单分类器，保存模型训练的中间状态；依次使用序列中的数据集训练单分类模型并保存每一数据集训练完成时的模型；当需要进行敏感信息遗忘时，复用之前的中间训练状态；

第五步，聚合单分类模型，完成多分类任务。

进一步，所述第三步数据集削减在计算完所有数据之间的互信息后，使用贪心算法来提取数据集中互信息最低的部分数据，具体优化目标为：

其中S′_i是削减后的数据集，H(S′_i)是该训练数据集的熵，α是权重系数，I(X_i；X_j)是计算待削减数据集中任意两个样本之间的互信息量。需要注意的是，关于信息削减的部分，本发明以信息论中互信息的方法为例进行说明，但仍有其余多种方式如聚类、置信度等方式可进行信息削减，所述初次训练包括但不仅局限于使用信息论的方法进行数据削减。

进一步，所述第三步将所取数据划分为多个数据集，对于子数据集数据块序列的划分：所有的子数据集之间不包含重复数据，同时所有子数据集的并集为整个单类数据集；如果预先知道某些数据有较高的概率被要求删除，则将部分数据集中到数个子数据集之内，并将子数据集置于子数据集序列的末尾。

进一步，所述第三步数据集训练单分类模型的目标函数是：

其中n为训练样本个数，f_i为第i个单分类模型，x_i是训练数据，θ是模型参数，r_i为相应的样本平均值，λ是超参数，W^[l]是模型第l层的权重。

进一步，所述删除信息后重新训练包括以下步骤：

步骤一，找到敏感信息所属单分类器的数据集，确认所属的数据块位置；

步骤二，读取最后一个未使用该数据的模型训练中间状态，

步骤三，将敏感信息从所属的数据块中删除；

步骤四，从读取的模型训练中间状态开始，使用新的数据块及序列中位于其后的数据块继续训练所读模型；

步骤五，将新得单分类器与原有的其他单分类器重新聚合。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述机器学习模型敏感信息的处理方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述机器学习模型敏感信息的处理方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述机器学习模型敏感信息的处理方法。

本发明的另一目的在于提供一种实施所述机器学习模型敏感信息的处理方法的机器学习模型敏感信息的处理系统，所述机器学习模型敏感信息的处理系统包括：

初次训练模块，用于使用序列中的数据集训练单分类模型并保存每一数据集训练完成时的模型；聚合单分类模型，完成多分类任务；

删除信息后重新训练模块，用于将敏感信息从所属的数据块中删除；从读取的模型训练中间状态开始，使用新的数据块及序列中位于其后的数据块继续训练所读模型。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明为基于精确遗忘的敏感信息遗忘方法，在保证可靠性的条件下进一步减少开销。旨在减少商业应用机器学习模型在因用户要求删除相关数据需重新训练时所需的开销。低开销的能够精确遗忘敏感信息的模型遗忘信息方法。本发明在删除模型内敏感数据时无需重新训练整个模型，只需重新训练包含敏感数据的单分类器，大幅度减少了删除模型内敏感数据的开销。同时本发明结合数据削减算法以削减数据集内包含信息量较少的数据，能够在几乎不影响精准度的情况下大大提高训练的速度。同时该方法在训练单分类模型时将数据分为多个子数据集进行训练，使得删除数据后无需从头训练单分类器，进一步减少了开销。

附图说明

图1是本发明实施例提供的机器学习模型敏感信息的处理方法流程图。

图2是本发明实施例提供的机器学习模型敏感信息的处理系统的结构示意图。

图3是本发明实施例提供的本发明和传统方法的具体的精准度对比示意图。

图4是本发明实施例提供的本发明和传统方法的具体的开销对比示意图。

图5是本发明实施例提供的本发明方法与传统方法的流程区别对比示意图。

图中：1、初次训练模块；2、删除信息后重新训练模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种机器学习模型敏感信息的处理方法、系统、设备及终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明提供的机器学习模型敏感信息的处理方法包括以下步骤：

S101：将数据集按照类别进行划分，进行数据集削减；对削减后的数据集进行划块；

S102：训练单分类器，保存模型训练的中间状态；聚合单分类模型，完成多分类任务；

S103：找到敏感信息所属单分类器的数据集，确认所属的数据块位置；读取最后一个未使用该数据的模型训练中间状态；

S104：将敏感信息从所属的数据块中删除；从读取的模型训练中间状态开始，使用新的数据块及序列中位于其后的数据块继续训练所读模型；

S105：将新得单分类器与原有的其他单分类器重新聚合。

本发明提供的机器学习模型敏感信息的处理方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的机器学习模型敏感信息的处理方法仅仅是一个具体实施例而已。

如图2所示，本发明提供的机器学习模型敏感信息的处理系统包括：

初次训练模块1，用于使用序列中的数据集训练单分类模型并保存每一数据集训练完成时的模型；聚合单分类模型，完成多分类任务。

删除信息后重新训练模块2，用于将敏感信息从所属的数据块中删除；从读取的模型训练中间状态开始，使用新的数据块及序列中位于其后的数据块继续训练所读模型。

下面结合实验对本发明的技术效果作详细的描述。

本发明提供的机器学习模型敏感信息的处理方法通过组合单分类器实现多分类效果，在删除敏感信息时只需重新训练包含敏感信息的单分类器，从而大幅度降低了开销。同时在训练时采用数据削减算法进一步减少了开销。

1、本实验分别使用MNIST数据集、CIFAR-10数据集和Imagenet-30数据集进行了训练和试验。为了对比本发明方法的效果，选用了与Deep SVDD结构相同的多分类模型进行训练，并与现有的方案retraining对比了训练速度与精准度。实验硬件设施如下：系统：Ubuntu 16.04.1LTS 64bit；CPU：Intel(R)Xeon(R)Silver4214；RAM：128GB；GPU：RTX2080Ti*1。

2、实验过程

依照本发明的方案步骤，实验实施过程如下：

初次训练：

1)读取MNIST数据集，将其按类别划分为10个单类数据集。

2)对单类数据集进行数据削减后，将每个单类数据集划分为了5数据块，形成一个子数据集数据块序列。

在具体的数据集削减算法实现中，使用互信息来评估同一类别的两条数据之间包含的信息的重复度(互信息是信息论里的一种信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量)。在计算完所有数据之间的互信息后，使用贪心算法来提取数据集中互信息最低的部分数据。具体优化目标为：

其中S′_i是削减后的数据集，H(S′_i)是该训练数据集的熵，α是权重系数，I(X_i；X_j)是计算待削减数据集中任意两个样本之间的互信息量。

对于子数据集数据块序列的划分：所有的子数据集之间不包含重复数据，同时所有子数据集的并集为整个单类数据集。如果可以预先知道某些数据有较高的概率被要求删除，则将该部分数据集中到数个子数据集之内，并将该子数据集置于子数据集序列的末尾。

3)依次读取子数据集数据块序列中的数据块并将其作为训练数据集。

在具体实现中，选用子数据集序列中的子数据集作为数据集训练50轮后保存模型参数，再读取子数据集数据块序列中的下一个子数据集作为数据集进行模型训练，重复上述操作直至数据集序列中的数据全部使用一遍。

4)训练单分类模型。模型的目标函数是：

删除敏感信息：

1)判断敏感数据是否在数据削减步骤中已被删除，若已删除则无需再次重新训练。

2)找到敏感数据所处的子数据集，并读取上一个子数据集数据块训练完成时存储的模型参数。

3)删除子数据集中的敏感信息后，重新用更新后的该子数据集数据块来继续训练读取的模型。

因在训练时将数据分成了子数据集序列，并将他们依次作为数据集训练同一个模型。则任意子数据集训练所得模型只包含了该子数据集及序列中位置先于该子数据集的数据内容。因此敏感信息所属子训练集的前一个子训练集训练完成时所存储的模型不包含敏感信息，无需重新训练。

例如子数据集序列为A～Z，敏感信息位于子数据集M，则读取初次训练时子数据集L所得模型参数并使用删减后的M数据集及N～Z数据集重新训练即可，而无需重新使用A～L子数据集。

本发明在对精度影响不大的同时极大地降低了需删除模型中的敏感数据时重新训练模型所需的开销。在具体实验中，使用MNIST、CIFAR-10和Imagenet-30数据集进行实验并与传统方法进行了相比。实验证明，与传统方法相比，使用本发明在精度下降不多的情况下大幅度提高了训练速度：在极端情况下，使用MNIST数据集时使用本发明在精度仅下降不到3％的情况下，重新训练所需时间为传统方法的1/2891；使用Imagenet时，精度下降7％，重新训练所需时间为传统方法的1/204。图3和图4展示了本发明和传统方法的具体的精准度与开销对比。本发明通过组合单分类器实现多分类效果，在删除敏感信息时只需重新训练包含敏感信息的单分类器，从而大幅度降低了开销。同时在训练时采用数据削减算法进一步减少了开销。本发明的方法与传统方法的流程区别对比如图5所示。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种机器学习模型敏感信息的处理方法，其特征在于，所述机器学习模型敏感信息的处理方法包括初次训练以及删除敏感信息后重新训练两部分；在训练时使用组合多个单分类器达到多分类效果的方案使得需要删除敏感信息时仅需重新训练部分模型，同时采用数据集削减算法提高训练速度；

所述初次训练包括以下步骤：

第一步，将数据集按照类别进行划分；

第五步，聚合单分类模型，完成多分类任务；

所述删除信息后重新训练包括以下步骤：

步骤二，读取最后一个未使用该数据的模型训练中间状态，

步骤三，将敏感信息从所属的数据块中删除；

步骤五，将新得单分类器与原有的其他单分类器重新聚合。

2.如权利要求1所述的机器学习模型敏感信息的处理方法，其特征在于，所述第三步数据集削减在计算完所有数据之间的互信息后，使用贪心算法来提取数据集中互信息最低的部分数据，具体优化目标为：

其中S′_i是削减后的数据集，H(S′_i)是训练数据集的熵，α是权重系数，I(X_i；X_j)是计算待削减数据集中任意两个样本之间的互信息量。

3.如权利要求1所述的机器学习模型敏感信息的处理方法，其特征在于，所述第三步将所取数据划分为多个数据集，对于子数据集数据块序列的划分：所有的子数据集之间不包含重复数据，同时所有子数据集的并集为整个单类数据集；如果预先知道某些数据有较高的概率被要求删除，则将部分数据集中到数个子数据集之内，并将子数据集置于子数据集序列的末尾。

4.如权利要求1所述的机器学习模型敏感信息的处理方法，其特征在于，所述第三步数据集训练单分类模型的目标函数是：

5.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～4任意一项所述机器学习模型敏感信息的处理方法的步骤。

6.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1～4任意一项所述机器学习模型敏感信息的处理方法的步骤。

7.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现权利要求1～4任意一项所述机器学习模型敏感信息的处理方法。

8.一种实施权利要求1～4任意一项所述机器学习模型敏感信息的处理方法的机器学习模型敏感信息的处理系统，其特征在于，所述机器学习模型敏感信息的处理系统包括：