CN111222570A - 基于差分隐私的集成学习分类方法 - Google Patents

基于差分隐私的集成学习分类方法 Download PDF

Info

Publication number
CN111222570A
CN111222570A CN202010010391.0A CN202010010391A CN111222570A CN 111222570 A CN111222570 A CN 111222570A CN 202010010391 A CN202010010391 A CN 202010010391A CN 111222570 A CN111222570 A CN 111222570A
Authority
CN
China
Prior art keywords
base classifier
data set
classifier
current
candidate base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010010391.0A
Other languages
English (en)
Other versions
CN111222570B (zh
Inventor
李先贤
刘静
刘松逢
王金艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202010010391.0A priority Critical patent/CN111222570B/zh
Publication of CN111222570A publication Critical patent/CN111222570A/zh
Application granted granted Critical
Publication of CN111222570B publication Critical patent/CN111222570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于差分隐私的集成学习分类方法,首先为了获得具有比较大的差异的基分类器,训练基分类器前先对训练数据集做预处理,增加基分类器多样性的同时提高了隐私预算利用率;然后利用拉普拉斯机制对基分类器模型参数进行加噪,得到满足差分隐私的基分类器;最后通过增量选择得到最终的集成模型。本发明所获得的集成模型能够有效避免隐私泄露。

Description

基于差分隐私的集成学习分类方法
技术领域
本发明涉及数据隐私保护技术领域,具体涉及一种基于差分隐私的集成学习分类方法。
背景技术
集成学习是近年来数据挖掘和机器学习领域的研究热点之一,它在处理数据挖掘、智能交通系统、生物信息等领域的各种类型的真实数据具有有效性。集成学习就是将多个弱学习器进行组合,从而获得比单个学习器显著优越的泛化性能。要获得好的集成模型,个体学习器应该“好而不同”,也就是个体学习器要有一定的准确性,并且要有多样性,即学习器之间具有差异。
在大数据时代,大数据备受关注,主要是从其中挖掘出新的有价值的信息。数据挖掘通过对大量数据进行有效的提取分析,得到有价值的信息。数据挖掘包括分类、聚类、关联等方法,由于数据发布、共享和分析,个人隐私信息很容易被泄露,隐私问题受到越来越多的关注。所以,在数据挖掘中,提取有价值信息的同时不泄露敏感隐私信息显得极其重要。集成学习广泛应用于数据挖掘领域,但是目前的集成学习方法主要考虑精度,却很少考虑隐私泄露问题,敌手可以通过对数据的分析对比推测个人信息,从而导致个人敏感信息遭到泄露。
发明内容
本发明所要解决的是集成学习在处理分类任务时的分类结果和模型参数所导致的隐私泄露的问题,提供一种基于差分隐私的集成学习分类方法。
为解决上述问题,本发明是通过以下技术方案实现的:
基于差分隐私的集成学习分类方法,包括步骤如下:
步骤1、将数据集的特征值归一化到[0,1],然后将数据集划分为原始训练数据集和验证数据集;同时,设定无放回采样数据集的个数T、有放回采样数据集的个数S和集成模型中基分类器的个数G;
步骤2、利用装袋自助采样法,先对原始训练数据集进行无放回采样得到T个无放回采样数据集Di,再分别对每个无放回采样数据集进行有放回采样得到S个有放回采样数据集
Figure BDA0002356936890000011
步骤3、对于每个无放回采样数据集Di,利用杰卡德相似系数计算其S个有放回采样数据集
Figure BDA0002356936890000012
两两之间的相似度,并随机删除相似度大于阈值的其中一个有放回采样数据集,将剩下的si个有放回采样数据集作为基分类器训练数据集;
步骤4、利用步骤3得到的
Figure BDA0002356936890000013
个基分类器训练数据集分别去训练
Figure BDA0002356936890000014
个基分类器,在训练过程中对基分类器的类先验概率、均值向量和协方差矩阵加入拉普拉斯噪声,并对加噪后的协方差矩阵进行特征值分解使其满足半正定性,最后将得到的
Figure BDA0002356936890000021
个满足差分隐私的基分类器即候选基分类器,并构成候选基分类器集合;
步骤5、对步骤4所得到的候选基分类器进行增量选择,由此得到最终集成模型,即:
步骤5.1、从当前候选基分类器集合中选择精度最高的候选基分类器作为集成模型的第一个基分类器,以构建当前集成模型,并从当前候选基分类器集合中删除该候选基分类器;
步骤5.2、计算当前候选基分类器集合中所有候选基分类器的重要性,并按照重要性降序对这些候选基分类器进行排序;
步骤5.3、从重要性高的候选基分类器开始逐一选取,并判断当前选出的候选基分类器是否对当前集成模型的精度有贡献:
如果有贡献,则将当前选出的候选基分类器与当前集成模型中的基分类器组合,以更新当前集成模型,并将当前选出的候选基分类器从当前候选基分类器集合中删除,并转至步骤5.4;
否则,继续遍历当前候选基分类器集合中下一个重要性较低的候选基分类器,直到找出对当前集成模型的精度有贡献的候选基分类器;
步骤5.4、判断当前集成模型中的基分类器的个数是否为G个:
如果是,则将当前集成模型作为最终集成模型;
否则,进入下一轮选择,并返回步骤5.2;
步骤6、利用步骤5所得到的最终集成模型对待分类的数据进行分类;
其中i=1,2,……,T,j=1,2,……,S。
上述步骤4中,为每个基分类器训练数据集分配的隐私预算为
Figure BDA0002356936890000022
其中ε为给定的总的隐私预算,si为第i个无放回采样数据集Di对应的基分类器训练数据集的个数。
上述步骤5.2中,在第g轮中第r个基分类器
Figure BDA0002356936890000023
的重要性
Figure BDA0002356936890000024
为:
Figure BDA0002356936890000025
其中,r=1,2,…,R,R表示当前候选基分类器集合中候选基分类器的个数;g=1,2,…,G,G表示集成模型中基分类器的个数;xp表示验证数据集中的第p个数据样本,p=1,2,…,P,P表示验证数据集Dpr中数据样本个数,Dpr表示验证数据集;β∈{0,1},当第g轮中第r个基分类器
Figure BDA0002356936890000026
对验证数据集Dpr中的数据样本xp的分类正确时,β=1,否则,β=0;α表示数据样本间隔的权值,α∈[0,1];yp表示验证数据集Dpr中的数据样本xp的真实类别标签索引;θm表示当前集成模型中第m个基分类器的权重,hm(xp)表示当前集成模型中第m个基分类器对验证数据集Dpr中的数据样本xp的预测类别标签索引,
Figure BDA0002356936890000027
表示当前集成模型中对验证数据集Dpr中的数据样本xp分类正确的基分类器的个数,M表示当前集成模型中所有基分类器的个数。
上述第g轮第r个基分类器的权重
Figure BDA0002356936890000031
为:
Figure BDA0002356936890000032
其中,
Figure BDA0002356936890000033
表示第g轮中第r个基分类器的带权误差;r=1,2,…,R,R表示当前候选基分类器集合中候选基分类器的个数;g=1,2,…,G,G表示集成模型中基分类器的个数。
上述第g轮中第r个基分类器的带权误差
Figure BDA0002356936890000034
为:
Figure BDA0002356936890000035
其中,
Figure BDA0002356936890000036
表示第g轮原始训练数据集中数据样本xq的权重;q=1,2,……,Q,Q表示原始训练数据集中的数据样本个数;γ∈{1,-1},当第g轮中第r个基分类器
Figure BDA0002356936890000037
对原始训练数据集中的数据样本xq分类正确时,γ=1,否则γ=-1;r=1,2,…,R,R表示当前候选基分类器集合中候选基分类器的个数;g=1,2,…,G,G表示集成模型中基分类器的个数。
上述步骤5.3中,对当前集成模型的精度有贡献是指加入新的满足差分隐私的基分类器后的集成模型的精度大于等于未加入新的满足差分隐私的基分类器前的集成模型的精度。
与现有技术相比,本发明具有如下特点:
1、训练数据集采样阶段分两步,首先进行无放回采样,然后再在无放回采样数据集上进行有放回采样,即BLB(Bag of Little Bootstrap,装袋自助采样法)采样技术。通过该方法增大训练数据集的差异性,使得基分类器具有较大的差异,从而提高集成分类器的准确性,并且BLB具有较高的计算效率。
2、在训练基分类器前利用杰卡德相似系数计算训练数据集的相识度,删除相识度高于阈值的两个数据集中的一个。提高了隐私预算的利用率,并且实现了隐私预算的动态分配,同时节约了训练资源。
附图说明
图1为基于差分隐私的集成学习分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
一种基于差分隐私的集成学习分类方法,如图1所示,首先为了获得具有比较大的差异的基分类器,训练基分类器前先对训练数据集做预处理,增加基分类器多样性的同时提高了隐私预算利用率;然后利用拉普拉斯机制对基分类器模型参数进行加噪,得到满足差分隐私的基分类器;最后通过增量选择得到最终的集成模型。其具体包括步骤如下:
步骤1、将数据集的特征值归一化到[0,1],然后将数据集划分为原始训练数据集和验证数据集,预先设置参数T,S,G,其中:T表示在原始训练数据集上无放回采样的不相交数据集个数,S表示在每个无放回采样数据集上有放回采样的数据集个数,G表示最终的集成规模(基分类器个数)。
步骤2、采用BLB采样技术,首先从原始训练数据集无放回采样得到T个不相交数据集Di(i=1,2,……,T),再在数据集Di上有放回采样得到S个训练数据集
Figure BDA0002356936890000041
步骤3、利用杰卡德相似系数计算从无放回数据集进行有放回采样的数据集之间的相似度,并随机删除两个相似度大于阈值的其中一个数据集。
对于i=1,利用杰卡德相似系数比较训练数据集
Figure BDA0002356936890000042
Figure BDA0002356936890000043
的相似度,删除两个相似度大于阈值的训练数据集中的一个,j++。i++;直到i=T。从第i个数据集Di有放回采样得到S个数据集经过杰卡德相似系数比较删除后剩下的训练数据集个数为si
本发明不是直接在所有训练数据集上进行训练,而是先通过相似度比较去掉相似度大于阈值的数据集,再训练基分类器,从而增加基分类器的多样性。
步骤4、利用步骤3得到的训练数据集去训练基分类器,在训练过程中对模型参数(类先验概率、均值向量、协方差矩阵)加入拉普拉斯噪声,并对加噪后的协方差矩阵进行特征值分解使其满足半正定性,最后得到
Figure BDA0002356936890000044
个满足差分隐私的基分类器;
步骤4.1、假设总的隐私预算为ε,训练数据集
Figure BDA0002356936890000045
表示步骤3中来自数据集Di的第j个训练数据集,则分配给训练数据集
Figure BDA0002356936890000046
的隐私预算为
Figure BDA0002356936890000047
假设总的隐私预算为ε,T个不相交的无放回采样数据集满足差分隐私并行组合原理,即这T个数据集每个数据集都分配ε的隐私预算;每个无放回采样数据集上的S个有放回采样数据集满足差分隐私串行组合原理,即S个数据集的隐私预算之和为ε。假设si表示从第i个无放回数据集Di有放回采样得到S个数据集经过杰卡德相似系数比较删除后剩下的训练数据集个数,将隐私预算平均分配给si个训练数据集,则每个训练数据集的隐私预算为
Figure BDA0002356936890000048
因为si是不确定的,从而实现了隐私预算的动态分配。
步骤4.2、基分类器的训练目标函数如下:
Figure BDA0002356936890000049
其中,K表示类别数,Λ(k|pj)表示训练集
Figure BDA00023569368900000410
中的数据样本pj的类后验概率,γ(yj|k)是将真实类为k的数据样本分类为yj的代价(或成本),分类正确γ(yj|k)=0,否则γ(yj|k)=1;Λ(k|pj)的计算公式如下:
Figure BDA0002356936890000051
Figure BDA0002356936890000052
其中,Λ(k)表示类先验概率,Λ(pj)是一个正则化常数,d表示数据维度,
Figure BDA0002356936890000053
表示数据集
Figure BDA0002356936890000054
中类别k的均值向量,∑k表示数据集
Figure BDA0002356936890000055
中类别k的协方差矩阵,|∑k|和
Figure BDA00023569368900000527
是∑k的行列式和逆矩阵。
步骤4.3、通过对基分类器训练目标函数的参数类先验概率Λ(k)、均值向量
Figure BDA0002356936890000056
协方差矩阵∑k加入拉普拉斯噪声进行扰动。
使用拉普拉斯机制扰动参数从而实现隐私保护,拉普拉斯机制所需要的噪声大小与全局敏感度Δq密切相关,步骤4.3中3个基分类器训练目标函数参数的敏感度计算如下:
Λ(k):Δq1=1;
Figure BDA0002356936890000057
Figure BDA0002356936890000058
其中,
Figure BDA0002356936890000059
表示训练数据集
Figure BDA00023569368900000510
中类别k的数据样本数,d表示数据维度,n表示训练数据集
Figure BDA00023569368900000511
的大小,∑1=∑2=…=∑K=∑。
在步骤4.1中分配给训练数据集
Figure BDA00023569368900000512
的隐私预算为
Figure BDA00023569368900000513
假设
Figure BDA00023569368900000514
根据Δq向∑k中添加噪声Lap(Δq31),向Λ(k)中添加噪声
Figure BDA00023569368900000515
Figure BDA00023569368900000516
中添加噪声
Figure BDA00023569368900000517
得到扰动后的参数,ε控制着隐私保护的程度,ε越小隐私保护程度越高。
步骤4.4、加入噪声可能破坏协方差矩阵的半正定性,所以利用特征值分解恢复其半正定性,由此得到
Figure BDA00023569368900000518
个满足差分隐私的基分类器。
步骤5、对步骤4得到的基分类器进行增量选择,由此得到集成模型。
步骤5.1、选择步骤3中精度最高的基分类器作为集成模型的第一个基分类器;
步骤5.2、计算每个基分类器对于集成模型的重要性,按降序排序;
计算每个分类器的
Figure BDA00023569368900000519
带权误差
Figure BDA00023569368900000520
权重
Figure BDA00023569368900000521
Figure BDA00023569368900000522
降序排序;
其中,
Figure BDA00023569368900000523
表示第g轮第j个基分类器对于当前集成模型H的重要性,
Figure BDA00023569368900000524
表示第g轮第j个基分类器的带权误差,
Figure BDA00023569368900000525
表示第g轮第j个基分类器的权重,
Figure BDA00023569368900000526
的计算公式如下:
Figure BDA0002356936890000061
fm(xi)=log(|margin(xi)|)
Figure BDA0002356936890000062
Figure BDA0002356936890000063
其中,
Figure BDA0002356936890000064
表示第g轮的第j个分类器
Figure BDA0002356936890000065
对样本xi的预测类别标签索引,yi表示样本xi的真实类别标签索引,α∈[0,1],margin(xi)表示样本xi的样本间隔,θj表示当前集成模型中第j个基分类器的权重,hj(xi)表示当前集成模型中第j个基分类器对样本xi的预测类别标签索引,
Figure BDA0002356936890000066
表示对样本xi分类正确的基分类器数,M表示当前的集成规模(基分类器的个数)。
带权误差
Figure BDA0002356936890000067
的计算公式如下:
Figure BDA0002356936890000068
其中,
Figure BDA0002356936890000069
表示第g轮第i个样本的权重,γ∈{1,-1},如果第g轮的第j个基分类器
Figure BDA00023569368900000610
对样本xi分类正确,则γ=1,否则γ=-1。
权重
Figure BDA00023569368900000611
的计算公式如下:
Figure BDA00023569368900000612
步骤5.3、依次考虑步骤5.2排序后的基分类器,直到找到一个对集成模型精度有贡献的基分类器;
对集成模型精度有贡献即满足:
Figure BDA00023569368900000613
当找到满足上述条件的分类器
Figure BDA00023569368900000614
加入集成模型。其中,Hg-1(P)表示第g-1轮集成模型对训练数据集P的预测,
Figure BDA00023569368900000615
Figure BDA00023569368900000616
k是类别数。
步骤5.4、更新训练数据集样本的权重;满足以下条件:
Figure BDA00023569368900000617
其中,
Figure BDA00023569368900000618
表示第g+1轮样本xi的权重。
步骤5.5、g++,重复步骤5.2、步骤5.3和步骤5.4G-1次,输出满足差分隐私的增量选择集成模型。
步骤6、利用步骤5所得到的最终集成模型对待分类的数据进行分类。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (6)

1.基于差分隐私的集成学习分类方法,其特征是,包括步骤如下:
步骤1、将数据集的特征值归一化到[0,1],然后将数据集划分为原始训练数据集和验证数据集;同时,设定无放回采样数据集的个数T、有放回采样数据集的个数S和集成模型中基分类器的个数G;
步骤2、利用装袋自助采样法,先对原始训练数据集进行无放回采样得到T个无放回采样数据集Di,再分别对每个无放回采样数据集进行有放回采样得到S个有放回采样数据集
Figure FDA0002356936880000011
步骤3、对于每个无放回采样数据集Di,利用杰卡德相似系数计算其S个有放回采样数据集
Figure FDA0002356936880000012
两两之间的相似度,并随机删除相似度大于阈值的其中一个有放回采样数据集,将剩下的si个有放回采样数据集作为基分类器训练数据集;
步骤4、利用步骤3得到的
Figure FDA0002356936880000013
个基分类器训练数据集分别去训练
Figure FDA0002356936880000014
个基分类器,在训练过程中对基分类器的类先验概率、均值向量和协方差矩阵加入拉普拉斯噪声,并对加噪后的协方差矩阵进行特征值分解使其满足半正定性,最后将得到的
Figure FDA0002356936880000015
个满足差分隐私的基分类器即候选基分类器,并构成候选基分类器集合;
步骤5、对步骤4所得到的候选基分类器进行增量选择,由此得到最终集成模型,即:
步骤5.1、从当前候选基分类器集合中选择精度最高的候选基分类器作为集成模型的第一个基分类器,以构建当前集成模型,并从当前候选基分类器集合中删除该候选基分类器;
步骤5.2、计算当前候选基分类器集合中所有候选基分类器的重要性,并按照重要性降序对这些候选基分类器进行排序;
步骤5.3、从重要性高的候选基分类器开始逐一选取,并判断当前选出的候选基分类器是否对当前集成模型的精度有贡献:
如果有贡献,则将当前选出的候选基分类器与当前集成模型中的基分类器组合,以更新当前集成模型,并将当前选出的候选基分类器从当前候选基分类器集合中删除,并转至步骤5.4;
否则,继续遍历当前候选基分类器集合中下一个重要性较低的候选基分类器,直到找出对当前集成模型的精度有贡献的候选基分类器;
步骤5.4、判断当前集成模型中的基分类器的个数是否为G个:
如果是,则将当前集成模型作为最终集成模型;
否则,进入下一轮选择,并返回步骤5.2;
步骤6、利用步骤5所得到的最终集成模型对待分类的数据进行分类;
其中i=1,2,……,T,j=1,2,……,S。
2.根据权利要求1所述的基于差分隐私的集成学习分类方法,其特征是,步骤4中,为每个基分类器训练数据集分配的隐私预算为
Figure FDA0002356936880000016
其中ε为给定的总的隐私预算,si为第i个无放回采样数据集Di对应的基分类器训练数据集的个数。
3.根据权利要求1所述的基于差分隐私的集成学习分类方法,其特征是,步骤5.2中,在第g轮中第r个基分类器
Figure FDA0002356936880000021
的重要性
Figure FDA0002356936880000022
为:
Figure FDA0002356936880000023
其中,r=1,2,…,R,R表示当前候选基分类器集合中候选基分类器的个数;g=1,2,…,G,G表示集成模型中基分类器的个数;xp表示验证数据集中的第p个数据样本,p=1,2,…,P,P表示验证数据集Dpr中数据样本个数,Dpr表示验证数据集;β∈{0,1},当第g轮中第r个基分类器
Figure FDA0002356936880000024
对验证数据集Dpr中的数据样本xp的分类正确时,β=1,否则,β=0;α表示数据样本间隔的权值,α∈[0,1];yp表示验证数据集Dpr中的数据样本xp的真实类别标签索引;θm表示当前集成模型中第m个基分类器的权重,hm(xp)表示当前集成模型中第m个基分类器对验证数据集Dpr中的数据样本xp的预测类别标签索引,
Figure FDA0002356936880000025
表示当前集成模型中对验证数据集Dpr中的数据样本xp分类正确的基分类器的个数,M表示当前集成模型中所有基分类器的个数。
4.根据权利要求3所述的基于差分隐私的集成学习分类方法,其特征是,第g轮第r个基分类器的权重
Figure FDA0002356936880000026
为:
Figure FDA0002356936880000027
其中,
Figure FDA0002356936880000028
表示第g轮中第r个基分类器的带权误差;r=1,2,…,R,R表示当前候选基分类器集合中候选基分类器的个数;g=1,2,…,G,G表示集成模型中基分类器的个数。
5.根据权利要求4所述的基于差分隐私的集成学习分类方法,其特征是,第g轮中第r个基分类器的带权误差
Figure FDA0002356936880000029
为:
Figure FDA00023569368800000210
其中,
Figure FDA00023569368800000211
表示第g轮原始训练数据集中数据样本xq的权重;q=1,2,……,Q,Q表示原始训练数据集中的数据样本个数;γ∈{1,-1},当第g轮中第r个基分类器
Figure FDA00023569368800000212
对原始训练数据集中的数据样本xq分类正确时,γ=1,否则γ=-1;r=1,2,…,R,R表示当前候选基分类器集合中候选基分类器的个数;g=1,2,…,G,G表示集成模型中基分类器的个数。
6.根据权利要求1所述的基于差分隐私的集成学习分类方法,其特征是,步骤5.3中,对当前集成模型的精度有贡献是指加入新的满足差分隐私的基分类器后的集成模型的精度大于等于未加入新的满足差分隐私的基分类器前的集成模型的精度。
CN202010010391.0A 2020-01-06 2020-01-06 基于差分隐私的集成学习分类方法 Active CN111222570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010010391.0A CN111222570B (zh) 2020-01-06 2020-01-06 基于差分隐私的集成学习分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010010391.0A CN111222570B (zh) 2020-01-06 2020-01-06 基于差分隐私的集成学习分类方法

Publications (2)

Publication Number Publication Date
CN111222570A true CN111222570A (zh) 2020-06-02
CN111222570B CN111222570B (zh) 2022-08-26

Family

ID=70829255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010010391.0A Active CN111222570B (zh) 2020-01-06 2020-01-06 基于差分隐私的集成学习分类方法

Country Status (1)

Country Link
CN (1) CN111222570B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131600A (zh) * 2020-09-21 2020-12-25 刘西蒙 差分隐私下基于svm的信用违约预测方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794500A (zh) * 2015-05-11 2015-07-22 苏州大学 一种tri-training半监督学习方法及装置
US20160078359A1 (en) * 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
CN105447525A (zh) * 2015-12-15 2016-03-30 中国科学院软件研究所 一种数据预测分类方法及装置
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
US20190026489A1 (en) * 2015-11-02 2019-01-24 LeapYear Technologies, Inc. Differentially private machine learning using a random forest classifier
US20190066133A1 (en) * 2016-11-11 2019-02-28 Jpmorgan Chase Bank, N.A. System and method for providing data science as a service
CN109784091A (zh) * 2019-01-16 2019-05-21 福州大学 一种融合差分隐私gan和pate模型的表格数据隐私保护方法
CN109902512A (zh) * 2019-03-04 2019-06-18 南京邮电大学 一种空间数据集的差分隐私的隐私保护方法
CN109902109A (zh) * 2019-02-20 2019-06-18 北京邮电大学 一种多方协作数据挖掘方法及装置
WO2019178733A1 (zh) * 2018-03-20 2019-09-26 深圳大学 大规模数据集的频繁项集挖掘方法、装置、设备及介质
CN110348241A (zh) * 2019-07-12 2019-10-18 之江实验室 一种数据共享策略下的多中心协同预后预测系统
CN110572382A (zh) * 2019-09-02 2019-12-13 西安电子科技大学 基于smote算法和集成学习的恶意流量检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078359A1 (en) * 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
CN104794500A (zh) * 2015-05-11 2015-07-22 苏州大学 一种tri-training半监督学习方法及装置
US20190026489A1 (en) * 2015-11-02 2019-01-24 LeapYear Technologies, Inc. Differentially private machine learning using a random forest classifier
CN105447525A (zh) * 2015-12-15 2016-03-30 中国科学院软件研究所 一种数据预测分类方法及装置
US20190066133A1 (en) * 2016-11-11 2019-02-28 Jpmorgan Chase Bank, N.A. System and method for providing data science as a service
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
WO2019178733A1 (zh) * 2018-03-20 2019-09-26 深圳大学 大规模数据集的频繁项集挖掘方法、装置、设备及介质
CN109784091A (zh) * 2019-01-16 2019-05-21 福州大学 一种融合差分隐私gan和pate模型的表格数据隐私保护方法
CN109902109A (zh) * 2019-02-20 2019-06-18 北京邮电大学 一种多方协作数据挖掘方法及装置
CN109902512A (zh) * 2019-03-04 2019-06-18 南京邮电大学 一种空间数据集的差分隐私的隐私保护方法
CN110348241A (zh) * 2019-07-12 2019-10-18 之江实验室 一种数据共享策略下的多中心协同预后预测系统
CN110572382A (zh) * 2019-09-02 2019-12-13 西安电子科技大学 基于smote算法和集成学习的恶意流量检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ISLAM等: ""Differentially private random decision forest using smooth sensitivity"", 《EXPERT SYSTEMS WITH APPLICATION》 *
JAGANNATHAN G等: ""A practical differentially private random decision tree classifier"", 《TRANSACTION ON DATA PRIVACY》 *
SUN Z等: ""Differential Privacy for Data and Model Publishing of Medical Data"", 《IEEE ACCESS》 *
丁丽萍等: ""DiffPRFs:一种面向随机森林的差分隐私保护算法"", 《通信学报》 *
李晓晔等: ""隐私保护技术研究综述"", 《计算机科学》 *
李远航等: ""面向差分隐私保护的随机森林算法"", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131600A (zh) * 2020-09-21 2020-12-25 刘西蒙 差分隐私下基于svm的信用违约预测方法
CN112131600B (zh) * 2020-09-21 2022-06-03 刘西蒙 差分隐私下基于svm的信用违约预测方法

Also Published As

Publication number Publication date
CN111222570B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
Zhang et al. Integrating feature selection and feature extraction methods with deep learning to predict clinical outcome of breast cancer
US20200250465A1 (en) Accurate tag relevance prediction for image search
CN110197286B (zh) 一种基于混合高斯模型和稀疏贝叶斯的主动学习分类方法
Liao Clustering of time series data—a survey
Qi et al. Feature selection and multiple kernel boosting framework based on PSO with mutation mechanism for hyperspectral classification
US20170236055A1 (en) Accurate tag relevance prediction for image search
US20080063264A1 (en) Method for classifying data using an analytic manifold
Kim et al. Ordinal classification of imbalanced data with application in emergency and disaster information services
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN112800249A (zh) 基于生成对抗网络的细粒度跨媒体检索方法
CN111539444B (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN110119448B (zh) 基于双重自动编码器的半监督跨领域文本分类方法
Bouguila A model-based approach for discrete data clustering and feature weighting using MAP and stochastic complexity
Cord et al. Feature selection in robust clustering based on Laplace mixture
Li et al. Support cluster machine
CN111222570B (zh) 基于差分隐私的集成学习分类方法
Erdem et al. RANSAC-based training data selection for emotion recognition from spontaneous speech
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
Ng et al. Incremental hashing with sample selection using dominant sets
CN112749345B (zh) 一种基于神经网络的k近邻矩阵分解推荐方法
CN112308151A (zh) 基于加权的旋转森林高光谱图像分类方法
CN112347162A (zh) 一种基于在线学习的多元时序数据规则挖掘方法
Walkowiak et al. Utilizing local outlier factor for open-set classification in high-dimensional data-case study applied for text documents
CN112819027A (zh) 一种基于机器学习和相似度评分的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant