CN111222570B

CN111222570B - 基于差分隐私的集成学习分类方法

Info

Publication number: CN111222570B
Application number: CN202010010391.0A
Authority: CN
Inventors: 李先贤; 刘静; 刘松逢; 王金艳
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2022-08-26
Anticipated expiration: 2040-01-06
Also published as: CN111222570A

Abstract

本发明公开一种基于差分隐私的集成学习分类方法，首先为了获得具有比较大的差异的基分类器，训练基分类器前先对训练数据集做预处理，增加基分类器多样性的同时提高了隐私预算利用率；然后利用拉普拉斯机制对基分类器模型参数进行加噪，得到满足差分隐私的基分类器；最后通过增量选择得到最终的集成模型。本发明所获得的集成模型能够有效避免隐私泄露。

Description

基于差分隐私的集成学习分类方法

技术领域

本发明涉及数据隐私保护技术领域，具体涉及一种基于差分隐私的集成学习分类方法。

背景技术

集成学习是近年来数据挖掘和机器学习领域的研究热点之一，它在处理数据挖掘、智能交通系统、生物信息等领域的各种类型的真实数据具有有效性。集成学习就是将多个弱学习器进行组合，从而获得比单个学习器显著优越的泛化性能。要获得好的集成模型，个体学习器应该“好而不同”，也就是个体学习器要有一定的准确性，并且要有多样性，即学习器之间具有差异。

在大数据时代，大数据备受关注，主要是从其中挖掘出新的有价值的信息。数据挖掘通过对大量数据进行有效的提取分析，得到有价值的信息。数据挖掘包括分类、聚类、关联等方法，由于数据发布、共享和分析，个人隐私信息很容易被泄露，隐私问题受到越来越多的关注。所以，在数据挖掘中，提取有价值信息的同时不泄露敏感隐私信息显得极其重要。集成学习广泛应用于数据挖掘领域，但是目前的集成学习方法主要考虑精度，却很少考虑隐私泄露问题，敌手可以通过对数据的分析对比推测个人信息，从而导致个人敏感信息遭到泄露。

发明内容

本发明所要解决的是集成学习在处理分类任务时的分类结果和模型参数所导致的隐私泄露的问题，提供一种基于差分隐私的集成学习分类方法。

为解决上述问题，本发明是通过以下技术方案实现的：

基于差分隐私的集成学习分类方法，包括步骤如下：

步骤1、将数据集的特征值归一化到[0,1]，然后将数据集划分为原始训练数据集和验证数据集；同时，设定无放回采样数据集的个数T、有放回采样数据集的个数S和集成模型中基分类器的个数G；

步骤2、利用装袋自助采样法，先对原始训练数据集进行无放回采样得到T个无放回采样数据集D_i，再分别对每个无放回采样数据集进行有放回采样得到S个有放回采样数据集

步骤3、对于每个无放回采样数据集D_i，利用杰卡德相似系数计算其S个有放回采样数据集

两两之间的相似度，并随机删除相似度大于阈值的其中一个有放回采样数据集，将剩下的s_i个有放回采样数据集作为基分类器训练数据集；

步骤4、利用步骤3得到的

个基分类器训练数据集分别去训练

个基分类器，在训练过程中对基分类器的类先验概率、均值向量和协方差矩阵加入拉普拉斯噪声，并对加噪后的协方差矩阵进行特征值分解使其满足半正定性，最后将得到的

个满足差分隐私的基分类器即候选基分类器，并构成候选基分类器集合；

步骤5、对步骤4所得到的候选基分类器进行增量选择，由此得到最终集成模型，即：

步骤5.1、从当前候选基分类器集合中选择精度最高的候选基分类器作为集成模型的第一个基分类器，以构建当前集成模型，并从当前候选基分类器集合中删除该候选基分类器；

步骤5.2、计算当前候选基分类器集合中所有候选基分类器的重要性，并按照重要性降序对这些候选基分类器进行排序；

步骤5.3、从重要性高的候选基分类器开始逐一选取，并判断当前选出的候选基分类器是否对当前集成模型的精度有贡献：

如果有贡献，则将当前选出的候选基分类器与当前集成模型中的基分类器组合，以更新当前集成模型，并将当前选出的候选基分类器从当前候选基分类器集合中删除，并转至步骤5.4；

否则，继续遍历当前候选基分类器集合中下一个重要性较低的候选基分类器，直到找出对当前集成模型的精度有贡献的候选基分类器；

步骤5.4、判断当前集成模型中的基分类器的个数是否为G个：

如果是，则将当前集成模型作为最终集成模型；

否则，进入下一轮选择，并返回步骤5.2；

步骤6、利用步骤5所得到的最终集成模型对待分类的数据进行分类；

其中i＝1,2,……,T，j＝1,2,……,S。

上述步骤4中，为每个基分类器训练数据集分配的隐私预算为

其中ε为给定的总的隐私预算，s_i为第i个无放回采样数据集D_i对应的基分类器训练数据集的个数。

上述步骤5.2中，在第g轮中第r个基分类器

的重要性

为：

其中，r＝1,2,…,R，R表示当前候选基分类器集合中候选基分类器的个数；g＝1,2,…,G，G表示集成模型中基分类器的个数；x_p表示验证数据集中的第p个数据样本，p＝1,2,…,P，P表示验证数据集D_pr中数据样本个数，D_pr表示验证数据集；β∈{0,1}，当第g轮中第r个基分类器

对验证数据集D_pr中的数据样本x_p的分类正确时，β＝1，否则，β＝0；α表示数据样本间隔的权值，α∈[0,1]；y_p表示验证数据集D_pr中的数据样本x_p的真实类别标签索引；θ_m表示当前集成模型中第m个基分类器的权重，h_m(x_p)表示当前集成模型中第m个基分类器对验证数据集D_pr中的数据样本x_p的预测类别标签索引，

表示当前集成模型中对验证数据集D_pr中的数据样本x_p分类正确的基分类器的个数，M表示当前集成模型中所有基分类器的个数。

上述第g轮第r个基分类器的权重

为：

其中，

表示第g轮中第r个基分类器的带权误差；r＝1,2,…,R，R表示当前候选基分类器集合中候选基分类器的个数；g＝1,2,…,G，G表示集成模型中基分类器的个数。

上述第g轮中第r个基分类器的带权误差

为：

其中，

表示第g轮原始训练数据集中数据样本x_q的权重；q＝1，2，……，Q，Q表示原始训练数据集中的数据样本个数；γ∈{1,-1}，当第g轮中第r个基分类器

对原始训练数据集中的数据样本x_q分类正确时，γ＝1，否则γ＝-1；r＝1,2,…,R，R表示当前候选基分类器集合中候选基分类器的个数；g＝1,2,…,G，G表示集成模型中基分类器的个数。

上述步骤5.3中，对当前集成模型的精度有贡献是指加入新的满足差分隐私的基分类器后的集成模型的精度大于等于未加入新的满足差分隐私的基分类器前的集成模型的精度。

与现有技术相比，本发明具有如下特点：

1、训练数据集采样阶段分两步，首先进行无放回采样，然后再在无放回采样数据集上进行有放回采样，即BLB(Bag of Little Bootstrap，装袋自助采样法)采样技术。通过该方法增大训练数据集的差异性，使得基分类器具有较大的差异，从而提高集成分类器的准确性，并且BLB具有较高的计算效率。

2、在训练基分类器前利用杰卡德相似系数计算训练数据集的相识度，删除相识度高于阈值的两个数据集中的一个。提高了隐私预算的利用率，并且实现了隐私预算的动态分配，同时节约了训练资源。

附图说明

图1为基于差分隐私的集成学习分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

一种基于差分隐私的集成学习分类方法，如图1所示，首先为了获得具有比较大的差异的基分类器，训练基分类器前先对训练数据集做预处理，增加基分类器多样性的同时提高了隐私预算利用率；然后利用拉普拉斯机制对基分类器模型参数进行加噪，得到满足差分隐私的基分类器；最后通过增量选择得到最终的集成模型。其具体包括步骤如下：

步骤1、将数据集的特征值归一化到[0,1]，然后将数据集划分为原始训练数据集和验证数据集，预先设置参数T，S，G，其中：T表示在原始训练数据集上无放回采样的不相交数据集个数，S表示在每个无放回采样数据集上有放回采样的数据集个数，G表示最终的集成规模(基分类器个数)。

步骤2、采用BLB采样技术，首先从原始训练数据集无放回采样得到T个不相交数据集D_i(i＝1,2,……,T)，再在数据集D_i上有放回采样得到S个训练数据集

步骤3、利用杰卡德相似系数计算从无放回数据集进行有放回采样的数据集之间的相似度，并随机删除两个相似度大于阈值的其中一个数据集。

对于i＝1，利用杰卡德相似系数比较训练数据集

和

的相似度，删除两个相似度大于阈值的训练数据集中的一个，j++。i++；直到i＝T。从第i个数据集D_i有放回采样得到S个数据集经过杰卡德相似系数比较删除后剩下的训练数据集个数为s_i。

本发明不是直接在所有训练数据集上进行训练，而是先通过相似度比较去掉相似度大于阈值的数据集，再训练基分类器，从而增加基分类器的多样性。

步骤4、利用步骤3得到的训练数据集去训练基分类器，在训练过程中对模型参数(类先验概率、均值向量、协方差矩阵)加入拉普拉斯噪声，并对加噪后的协方差矩阵进行特征值分解使其满足半正定性，最后得到

个满足差分隐私的基分类器；

步骤4.1、假设总的隐私预算为ε，训练数据集

表示步骤3中来自数据集D_i的第j个训练数据集，则分配给训练数据集

的隐私预算为

假设总的隐私预算为ε，T个不相交的无放回采样数据集满足差分隐私并行组合原理，即这T个数据集每个数据集都分配ε的隐私预算；每个无放回采样数据集上的S个有放回采样数据集满足差分隐私串行组合原理，即S个数据集的隐私预算之和为ε。假设s_i表示从第i个无放回数据集D_i有放回采样得到S个数据集经过杰卡德相似系数比较删除后剩下的训练数据集个数，将隐私预算平均分配给s_i个训练数据集，则每个训练数据集的隐私预算为

因为s_i是不确定的，从而实现了隐私预算的动态分配。

步骤4.2、基分类器的训练目标函数如下：

其中，K表示类别数，Λ(k|p^j)表示训练集

中的数据样本p^j的类后验概率，γ(y^j|k)是将真实类为k的数据样本分类为y^j的代价(或成本)，分类正确γ(y^j|k)＝0，否则γ(y^j|k)＝1；Λ(k|p^j)的计算公式如下：

其中，Λ(k)表示类先验概率，Λ(p^j)是一个正则化常数，d表示数据维度，

表示数据集

中类别k的均值向量，∑_k表示数据集

中类别k的协方差矩阵，|∑_k|和

是∑_k的行列式和逆矩阵。

步骤4.3、通过对基分类器训练目标函数的参数类先验概率Λ(k)、均值向量

协方差矩阵∑_k加入拉普拉斯噪声进行扰动。

使用拉普拉斯机制扰动参数从而实现隐私保护，拉普拉斯机制所需要的噪声大小与全局敏感度Δq密切相关，步骤4.3中3个基分类器训练目标函数参数的敏感度计算如下：

Λ(k)：Δq₁＝1；

其中，

表示训练数据集

中类别k的数据样本数，d表示数据维度，n表示训练数据集

的大小，∑₁＝∑₂＝…＝∑_K＝∑。

在步骤4.1中分配给训练数据集

的隐私预算为

假设

根据Δq向∑_k中添加噪声Lap(Δq³/ε₁)，向Λ(k)中添加噪声

向

中添加噪声

得到扰动后的参数，ε控制着隐私保护的程度，ε越小隐私保护程度越高。

步骤4.4、加入噪声可能破坏协方差矩阵的半正定性，所以利用特征值分解恢复其半正定性，由此得到

个满足差分隐私的基分类器。

步骤5、对步骤4得到的基分类器进行增量选择，由此得到集成模型。

步骤5.1、选择步骤3中精度最高的基分类器作为集成模型的第一个基分类器；

步骤5.2、计算每个基分类器对于集成模型的重要性，按降序排序；

计算每个分类器的

带权误差

权重

按

降序排序；

其中，

表示第g轮第j个基分类器对于当前集成模型H的重要性，

表示第g轮第j个基分类器的带权误差，

表示第g轮第j个基分类器的权重，

的计算公式如下：

f_m(x_i)＝log(|margin(x_i)|)

其中，

表示第g轮的第j个分类器

对样本x_i的预测类别标签索引，y_i表示样本x_i的真实类别标签索引，α∈[0,1]，margin(x_i)表示样本x_i的样本间隔，θ_j表示当前集成模型中第j个基分类器的权重，h_j(x_i)表示当前集成模型中第j个基分类器对样本x_i的预测类别标签索引，

表示对样本x_i分类正确的基分类器数，M表示当前的集成规模(基分类器的个数)。

带权误差

的计算公式如下：

其中，

表示第g轮第i个样本的权重，γ∈{1,-1}，如果第g轮的第j个基分类器

对样本x_i分类正确，则γ＝1，否则γ＝-1。

权重

的计算公式如下：

步骤5.3、依次考虑步骤5.2排序后的基分类器，直到找到一个对集成模型精度有贡献的基分类器；

对集成模型精度有贡献即满足：

当找到满足上述条件的分类器

加入集成模型。其中，H^g-1(P)表示第g-1轮集成模型对训练数据集P的预测，

k是类别数。

步骤5.4、更新训练数据集样本的权重；满足以下条件：

其中，

表示第g+1轮样本x_i的权重。

步骤5.5、g++，重复步骤5.2、步骤5.3和步骤5.4G-1次，输出满足差分隐私的增量选择集成模型。

步骤6、利用步骤5所得到的最终集成模型对待分类的数据进行分类。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。