CN110097119A - 基于对偶变量扰动的差分隐私保护支持向量机分类器算法 - Google Patents
基于对偶变量扰动的差分隐私保护支持向量机分类器算法 Download PDFInfo
- Publication number
- CN110097119A CN110097119A CN201910362177.9A CN201910362177A CN110097119A CN 110097119 A CN110097119 A CN 110097119A CN 201910362177 A CN201910362177 A CN 201910362177A CN 110097119 A CN110097119 A CN 110097119A
- Authority
- CN
- China
- Prior art keywords
- sample
- new
- value
- dual variable
- old
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 65
- 230000009977 dual effect Effects 0.000 title claims abstract description 49
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 37
- 238000005457 optimization Methods 0.000 claims description 21
- 230000035772 mutation Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 17
- 238000002474 experimental method Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 10
- 238000007418 data mining Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于对偶变量扰动的差分隐私保护支持向量机分类器算法,首先利用SMO算法的核心思想去求解支持向量机原始问题的对偶问题,在迭代求解结束之后,对每个支持向量样本点(xi,yi)对应的对偶变量αi进行注入相应的拉普拉斯噪声的噪声,通过隐私性分析可知,该算法满足差分隐私定义,因此通过该算法发布的支持向量机信息既可以进行分类预测,也可以达到个体隐私保护的目的。本发明解决了现有技术中存在的基于隐私保护的支持向量机分类器准确率低、对目标函数的限制性太强的问题。
Description
技术领域
本发明属于信息安全技术领域,具体涉及一种基于对偶变量扰动的差分隐私保护支持向量机分类器算法。
背景技术
数据挖掘技术能从海量的数据中挖掘出潜在的、有价值的信息,支持向量机是数据挖掘分类领域中应用最广泛、最高效的方法之一。然而,训练集数据中往往包含着敏感属性,传统的支持向量机训练方法会泄露训练集中的个体隐私信息。
数据挖掘(Data Mining)技术可以从这些海量的数据中发现并提取潜在的、规律性的、能被人理解的模式或者知识,并反馈并指导商业和人类生活。支持向量机(SupportVector Machine)是一种很有效的监督学习模型和数据挖掘分类算法,它由Vapnik等人根据统计学习理论(Statistical Learning Theory)中的结构风险最小化准则和VC维理论提出],对过拟合有很好的理论保证,当选取合适的核函数,即使面对特征线性不可分的问题也可以表现地很好,尤其是在解决小样本、非线性以及高维度的数据分类中表现出许多特有的优势。
利用支持向量机等数据挖掘算法可以发现隐藏于海量数据中的知识和模式,但同时使得个体隐私信息面临泄露风险,因此具有隐私保护性质的数据挖掘技术成为重要的需求。传统的隐私保护技术有k-anonymity、l-diversity、m-invariance、t-closeness等等,国内外已经有许多学者将这些隐私保护技术应用于数据挖掘的各类方法中,但是这些方法都以攻击者不具有背景知识为前提,不能提够足够的安全保障。差分隐私(DifferentialPrivacy,DP)是Dwork在2006年针对统计数据库的隐私泄露问题提出的一种新的隐私定义,这是一种基于数据失真的隐私保护模型。相比于传统的隐私保护模型,差分隐私模型定义在坚实的数学基础上,可以控制算法隐私保护的水平。
发明内容
本发明的目的是提供一种基于对偶变量扰动的差分隐私保护支持向量机分类器算法,解决了现有技术中存在的基于隐私保护的支持向量机分类器准确率低、对目标函数的限制性太强的问题。
本发明所采用的技术方案是,基于对偶变量扰动的差分隐私保护支持向量机分类器算法,具体按照以下步骤实施:
步骤1、初始化所有样本点对应的对偶变量值:α1=α2=…=αn=0,n表示训练集样本的个数;超平面参数b=0;当前迭代次数iter=0;表示能否找到和第一个优化变量配对优化的另一个变量的标志numChanged=0;是否已经遍历完所有变量的标志examineAll=1;设定惩罚因子C=1;KKT条件停止准则的宽松范围tolerance=0.001;最大迭代次数maxIter=max(1000000,n),即取1000000和训练样本数中的较大者做为最大迭代次数;
步骤2、判断当前迭代次数iter是否小于最大迭代次数maxIter,且存在样本依然违反KKT条件,即numChanged>0|examineAll==1,若两个条件均满足,则通过遍历整个数据集和遍历界内的支持向量对应的样本点,挑选一个违反KKT条件的样本点,并寻找另一个与之配对的样本点进行优化更新,同时当前迭代次数iter自增加1;否则,即只要当前迭代次数iter达到最大迭代次数maxIter,或者所有样本点均满足KKT条件,则执行步骤3;
步骤3、计算每个支持向量的Ei占所有支持向量对应Ei值之和的比值,其中,支持向量为更新计算的对偶变量值满足αi>0的样本点,即计算i=1,2,…,l;l表示支持向量的个数;
步骤4、对每个支持向量(xi,yi)对应的对偶变量值αi加入服从位置参数0,尺度参数为的拉普拉斯随机噪声值,即其中每个αi的隐私预算值为εi=Ei'·ε;
步骤5、输出支持向量点集合SV={(x1,y1),(x2,y2),…,(xl,yl)}及其被扰动过的对偶变量α*=(α1 *,α2 *…αl *)、超平面参数b,得到决策函数f(x)即为超平面,达到将预测样本分类且保护训练集个体隐私信息的目的。
本发明的特点还在于,
步骤2中通过遍历整个数据集和遍历界内的支持向量对应的样本,挑选一个违反KKT条件的样本点,并寻找另一个与之配对的样本点进行优化更新,具体按照以下步骤实施:
步骤2.1、设定赋值numChanged=0;
步骤2.2、如果examineAll!=1,则跳转至步骤2.3;否则遍历所有样本集,对每一个样本,先计算(公式中k(xi,xt)表示计算xi和xt的核函数值,核函数取径向基函数核,即σ取数据集特征数分之一),若当前样本违反KKT条件,即满足(yiEi<-tolerance)&&(αi<C)||(yiEi>tolerance)&&(αi>0),则寻找与当前样本配对优化的另一个样本,对这两个样本的对偶变量进行更新优化,然后执行步骤2.4;
步骤2.3、遍历界内所有支持向量对应的样本点,即满足0<αi<C,若当前样本违反KKT条件,即|yiEi|<tolerance,则寻找与当前样本配对优化的另一个样本,对这两个样本的对偶变量进行更新优化,然后执行步骤2.4;
步骤2.4、若examineAll==1,则examineAll==0;否则继续判断numChanged的值,若numChanged=0,则examineAll==0,继续执行步骤2.1。
步骤2.2和步骤2.3中寻找另一个与第一个需要优化变量配对的样本点进行优化更新,具体按照以下步骤实施:
记第一个需要优化的样本i对应的对偶变量为αi,要找的与αi配对优化的另一个变量为αj:
步骤2.2.1、计算
步骤2.2.2、遍历所有的样本点,找到使得|Ei-Ej|最大的αj;
步骤2.2.3、如果|W(αi)-W(αj)|>tolerance,则根据SMO算法的更新策略更新αi、αj和b;并返回值为1的标志;
步骤2.2.4、循环遍历所有满足αi=0的样本,对于|W(αi)-W(αj)|>tolerance的样本点,则根据SMO算法的更新策略更新αi、αj和b;并返回值为1的标志;
步骤2.2.5、若步骤2.2.3和步骤2.2.4中均没有返回,则返回值为0的标志。
步骤2.2.3和步骤2.2.4中根据SMO算法的更新策略更新αi、αj和b,具体按照以下步骤实施:
记寻找出的两个需要优化更新的变量分别为α1和α2:
步骤2.2.3.1、确定α2的修正范围,如果y1=y2,则L=max(0,α1+α2-C),H=max(C,α1+α2);如果y1=-y2,则L=max(0,α1-α2),H=max(C-α1+α2,C);
步骤2.2.3.2、计算η=k11+k22-2k12;其中,k11表示计算x1和x1的核函数值,核函数取径向基函数核,即σ取数据集特征分之一;k22和k12同理;
步骤2.2.3.3、如果η>0,则α2沿着约束方向更新然后修正取α2=α2 new;其中α2 old、α2 new,unc和α2 new分别表示α2计算更新前、计算更新以及计算更新后再修正的值;
如果η=0,则计算目标函数在L和H处的函数值Lobj=W(L),Hobj=W(H);如果Lobj<Hobj,取α2=L,否则取α2=H;
步骤2.2.3.4、更新α1 new=α1 old+(α2-α2 old)y1y2;其中α1 old、α1 new和α1 new分别表示α1计算更新前、计算更新后的值;
步骤2.2.3.5、计算更新b值:
b1=-E1-y1(α1 new-α1 old)K11-y2(α2 new-α2 old)K21+bold
b2=-E2-y1(α1 new-α1 old)K12-y2(α2 new-α2 old)K22+bold;
若0<α1 new<C,α2 new=0或C,则b=b1;
若0<α2 new<C,α1 new=0或C,则b=b2;
若0<α1 new<C,0<α2 new<C,则b1=b2,故任取b1或b2;
若α1 new=0或C且α2 new=0或C,则
本发明的有益效果是,基于对偶变量扰动的差分隐私保护支持向量机分类器算法,利用SMO方法求解支持向量机的对偶问题过程中,记录了每个支持向量对应的估计值与真实值之间的差Ei,然后计算出每个支持向量的Ei占所有支持向量对应Ei值之和的比值,再根据每个支持向量的Ei比值对各个计算出来要发布的支持向量对应的对偶变量值αi加入不同等级的拉普拉斯随机噪声,最终得到具有差分隐私保护的支持向量机分类器。
附图说明
图1是cod-rna数据集上隐私预算对算法准确率的影响;
图2是splice数据集上隐私预算对算法准确率的影响;
图3是cod-rna数据集上训练集样本数对算法准确率的影响;
图4是splice数据集上训练集样本数对算法准确率的影响;
图5是cod-rna数据集上训练集特征数对算法准确率的影响;
图6是splice数据集上训练集特征数对算法准确率的影响。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法,先利用SMO算法的核心思想,求解支持向量机原始问题的对偶问题,在这个过程会保存每一个训练数据,记录每一个训练样本在更新优化时估计值与真实值之间的差Ei,最终在全部训练样本的对偶变量得到优化后,对支持向量点(对偶变量值满足αi>0的样本点)对应的对偶变量值α=(α1,α2,…,αi,αl)进行扰动处理,l表示支持向量点的个数,即每个支持向量(xi,yi)对应的对偶变量值αi加入相应的拉普拉斯噪声,这样即使攻击者得到原始数据集D上的训练结果信息和邻近数据集D',他们也无法知道最终发布的α=(α1,α2,…,αi,αl)到底是在D还是D'上。这样能保证当数据集中改变任何一个记录时,该算法得到的分类器参数的变化不会泄露数据集样本的隐私信息,从而达到了保护个体隐私的要求。
本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法,具体按照以下步骤实施:
步骤1、初始化所有样本点对应的对偶变量值:α1=α2=…=αn=0,n表示训练集样本的个数;超平面参数b=0;当前迭代次数iter=0;表示能否找到和第一个优化变量配对优化的另一个变量的标志numChanged=0;是否已经遍历完所有变量的标志examineAll=1;设定惩罚因子C=1;KKT条件停止准则的宽松范围tolerance=0.001;最大迭代次数maxIter=max(1000000,n),即取1000000和训练样本数中的较大者做为最大迭代次数;
步骤2、判断当前迭代次数iter是否小于最大迭代次数maxIter,且存在样本依然违反KKT条件,即numChanged>0|examineAll==1,若两个条件均满足,则通过遍历整个数据集和遍历界内的支持向量对应的样本点,挑选一个违反KKT条件的样本点,并寻找另一个与之配对的样本点进行优化更新,同时当前迭代次数iter自增加1;否则,即只要当前迭代次数iter达到最大迭代次数maxIter,或者所有样本点均满足KKT条件,则执行步骤3;
步骤2中通过遍历整个数据集和遍历界内的支持向量对应的样本,挑选一个违反KKT条件的样本点,并寻找另一个与之配对的样本点进行优化更新,具体按照以下步骤实施:
步骤2.1、设定赋值numChanged=0;
步骤2.2、如果examineAll!=1,则跳转至步骤2.3;否则遍历所有样本集,对每一个样本,先计算(公式中k(xi,xt)表示计算xi和xt的核函数值,核函数取径向基函数核,即σ取数据集特征数分之一),若当前样本违反KKT条件,即满足(yiEi<-tolerance)&&(αi<C)||(yiEi>tolerance)&&(αi>0)|,则寻找与当前样本配对优化的另一个样本,对这两个样本的对偶变量进行更新优化,然后执行步骤2.4;
步骤2.3、遍历界内所有支持向量对应的样本点,即满足0<αi<C,若当前样本违反KKT条件,即|yiEi|<tolerance,则寻找与当前样本配对优化的另一个样本,对这两个样本的对偶变量进行更新优化,然后执行步骤2.4;
步骤2.4、若examineAll==1,则examineAll==0;否则继续判断numChanged的值,若numChanged=0,则examineAll==0,继续执行步骤2.1。
其中,步骤2.2和步骤2.3中寻找另一个与第一个需要优化变量配对的样本点进行优化更新,具体按照以下步骤实施:
记第一个需要优化的样本i对应的对偶变量为αi,要找的与αi配对优化的另一个变量为αj:
步骤2.2.1、计算
步骤2.2.2、遍历所有的样本点,找到使得|Ei-Ej|最大的αj;
步骤2.2.3、如果|W(αi)-W(αj)|>tolerance,则根据SMO算法的更新策略更新αi、αj和b;并返回值为1的标志;
步骤2.2.4、循环遍历所有满足αi=0的样本,对于|W(αi)-W(αj)|>tolerance的样本点,则根据SMO算法的更新策略更新αi、αj和b;并返回值为1的标志;
步骤2.2.5、若步骤2.2.3和步骤2.2.4中均没有返回,则返回值为0的标志。
步骤2.2.3和步骤2.2.4中根据SMO算法的更新策略更新αi、αj和b,具体按照以下步骤实施:
记寻找出的两个需要优化更新的变量分别为α1和α2:
步骤2.2.3.1、确定α2的修正范围,如果y1=y2,则L=max(0,α1+α2-C),H=max(C,α1+α2);如果y1=-y2,则L=max(0,α1-α2),H=max(C-α1+α2,C);
步骤2.2.3.2、计算η=k11+k22-2k12;其中,k11表示计算x1和x1的核函数值,核函数取径向基函数核,即σ取数据集特征分之一;k22和k12同理;
步骤2.2.3.3、如果η>0,则α2沿着约束方向更新然后修正取α2=α2 new;其中α2 old、α2 new,unc和α2 new分别表示α2计算更新前、计算更新以及计算更新后再修正的值;
如果η=0,则计算目标函数在L和H处的函数值Lobj=W(L),Hobj=W(H);如果Lobj<Hobj,取α2=L,否则取α2=H;
步骤2.2.3.4、更新α1 new=α1 old+(α2-α2 old)y1y2;其中α1 old、α1 new和α1 new分别表示α1计算更新前、计算更新后的值;
步骤2.2.3.5、计算更新b值:
b1=-E1-y1(α1 new-α1old)K11-y2(α2 new-α2old)K21+bold
b2=-E2-y1(α1 new-α1 old)K12-y2(α2 new-α2 old)K22+bold;
若0<α1 new<C,α2 new=0或C,则b=b1;
若0<α2 new<C,α1 new=0或C,则b=b2;
若0<α1 new<C,0<α2 new<C,则b1=b2,故任取b1或b2;
若α1 new=0或C且α2 new=0或C,则
步骤3、计算每个支持向量的Ei占所有支持向量对应Ei值之和的比值,其中,支持向量为更新计算的对偶变量值满足αi>0的样本点,即计算i=1,2,…,l;l表示支持向量的个数;
步骤4、对每个支持向量(xi,yi)对应的对偶变量值αi加入服从位置参数0,尺度参数为的拉普拉斯随机噪声值,即其中每个αi的隐私预算值为εi=Ei'·ε;
步骤5、输出支持向量点集合SV={(x1,y1),(x2,y2),…,(xl,yl)}及其被扰动过的对偶变量α*=(α1 *,α2 *…αl *)、超平面参数b,得到决策函数f(x)即为超平面,达到将预测样本分类且保护训练集个体隐私信息的目的。
本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法隐私性分析如下:
正如步骤4描述,本发明并没有对求解得到的最优对偶变量α加入噪声时分配相同量级的隐私预算,而是根据每个支持向量样本点的Ei相比于所有支持向量点的Ei之和所占的比值Ei'进行不同量级别噪声的添加。这是鉴于存在的这样一个客观事实,对于每个支持向量,最终更新保存的差值Ei记录了它对应的估计值与真实值之间的差,这个值越大,就说明这个支持向量对支持向量机分类器的贡献相对于小;反之,如果这个值越小,说明这个支持向量相对于支持向量机分类器来说,分类器的贡献就更大。由于加入的拉普拉斯噪声与Δf成正比,与ε成反比,因此在分配隐私预算ε时分配了不同的值,εi=Ei'·ε,即隐私预算的量与自己的误差所占比例是成正比的,这样对于Ei值小的支持向量点,本发明中分配的隐私预算εi相对就会小一点,最终加入的噪声的量也会大一点,对那些对支持向量分类器贡献大的支持向量点的隐私保护程度也就高了一点;相反,对于Ei值大的支持向量点,它本身对最终的贡献值也相对小,因此就隐私保护程度可以小一点。
而总的来看,根绝差分隐私的序列组合特性,算法在输出时分配的整个隐私预算为
因此,整个算法满足ε-差分隐私,能较好地提供隐私保护功能。
本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法,实验结果与评估如下:
针对本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法,将实验评估本发明的DVPDPSVM算法与不带有差分隐私保护的SVM、PrivateSVM做以对比,验证本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法的可用性。
实验数据集:
实验选择的数据集为“cod-rna”数据集和“splice”数据集,两个数据集均是来自台湾大学林智仁教授主页(https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html)预处理过的数据集,其中“cod-rna”数据集来源于Andrew VUzilov,Joshua M Keegan,and David H Mathews在《Detection of non-coding RNAs onthe basis of predicted secondary structure formation free energy change》处理过的数据集,“splice”数据集是来源于Delve数据集官网(http://www.cs.toronto.edu/~delve/data/datasets.html)分类数据集下的“splice”数据集,该数据集用于识别DNA序列中的两类剪接点,来自UCI机器学习数据库的存储库。两个数据集的基本信息如表1:
表1数据集基本信息
实验结果及分析:
准确率是衡量分类算法可用性优劣的重要指标,它是测试集中预测正确的样本数占总的测试集样本数的比值,可以形式化定义为:
其中,Accuracte(TestData)是测试集中预测正确的样本数,Total(TestData)是测试集总的样本数。准确率越高,则说明分类算法的可用性越好。
将分别验证隐私预算大小、训练样本的数据集大小以及训练样本的数据集特征数量三个影响因素对DVPDPSVM算法的可用性影响,同时与标准SVM、PrivateSVM两个算法进行了实验对比和理论分析。
在差分隐私保护机制下,由于向支持向量机分类参数中加入的拉普拉斯噪声值是一系列服从特定分布的随机值,为了得到一个稳定的结果,对每一类实验下同一个参数的SVM、PrivateSVM和DVPDPSVM算法进行了3次实验,并取3次实验的准确率平均值作为最终值。
隐私预算对算法可用性的影响:
为了评估隐私预算对算法可用性的影响,固定训练数据集的样本数和特征数,逐步取隐私预算值为0.0005、0.001、0.005、0.01、0.05、0.1、0.5、1,并对每一个隐私预算值,让SVM、PrivateSVM算法分别进行了3次实验,取3次实验的平均值。其中在两个数据集上的运行结果如下图1和图2所示。
从图1和图2可以看出:隐私预算ε越大,DVPDPSVM算法的准确率越高。这主要是由隐私预算ε越大,所要添加的拉普拉斯噪声扰动就越小,这样对支持向量机分类器模型精确度的影响就会小。同时从图1可以看出,在cod-rna数据集上,当隐私预算ε低于0.001时,DVPDPSVM算法的准确率维持在50%,和PrivateSVM不差上下,而当隐私预算ε由0.001增大到0.05时,其准确率越来越高,当达到0.05以后,其准确率基本可以达到标准SVM的准确率水平。从图2同样可以得出该结果,不同的是在splice数据集上,使得准确率变化的两个隐私预算ε的拐点分别是0.01和0.5时。
训练集样本数对算法可用性的影响:
训练集样本数是影响算法性能的一个重要指标,因此固定训练数据集的特征数,并根据上面的实验结果,在cod-rna数据集和splice数据集上分别固定取隐私预算值为0.1,逐步增多训练集样本数,即cod-rna数据集上依次取样本数为20000、30000、40000、50000、59535,splice数据集上依次取样本数为1300、1600、1900、2175,对每一固定样本数的实验,让SVM、PrivateSVM和DVPDPSVM算法分别进行3次实验,取3次实验的平均值。其中在两个数据集上的运行结果如下图3和图4所示。
从图3和图4可以看出:随着训练集样本数的增多,DVPDPSVM算法的准确性稳步提升。训练集样本数越多,那么整个数据集的数据特征就越丰富,最终的分类模型也就越准确,从图3可以看出,在cod-rna数据集上,当训练集样本数从20000增长到50000时,预测的准确率也从72%增长到了80%左右,而当样本数多于50000时,算法的准确率可以高达90%,而且和SVM的准确率、增长趋势基本一致(图中两个算法的折线图基本重合了);相比之下,PrivateSVM的准确率随训练集样本数的变化特别的微弱,而且其准确率维持在50%至60%的区间。而在splice数据集上,当训练集样本数从1300增长到2175时,预测的准确率也从74%增长到了78%左右。
训练集特征数对算法可用性的影响:
数据样本的特征数量表征着一个数据样本的丰富程度,首先固定训练数据集的大小为总的样本数,cod-rna数据集和splice数据集分别为59535和2175,并分别固定取隐私预算值为0.1,逐步增多训练集的特征数,即cod-rna数据集上依次取特征数为5、6、7、8,splice数据集上依次取特征数为55、56、57、58、59、60,对每一固定特征数的实验,让SVM、PrivateSVM和DVPDPSVM算法没别进行了3次实验,取3次实验的平均值。其中在两个数据集上的运行结果如下图5和图6所示。
从图5和图6可以看出:随着训练集样本特征数的增多,DVPDPSVM算法的准确性稳步提升。从图5可以看出,在cod-rna数据集上,当训练集样本数从5增长到8时,预测的准确率从90.22%增长到了90.48%,增长的很微弱,不是很明显。而通过图6可以看得到,在splice数据集上,当样本特征数从55到60时,算法预测的准确度明显地从64.13%增长到77.57%。
本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法是采用一种新的思路对支持向量机分类器提供差分隐私保护。在该方法中,首先利用SMO算法的核心思想去求解支持向量机原始问题的对偶问题,在迭代求解结束之后,对每个支持向量样本点(xi,yi)对应的对偶变量αi进行注入相应的拉普拉斯噪声的噪声,通过隐私性分析可知,该算法满足差分隐私定义,因此通过该算法发布的支持向量机信息既可以进行分类预测,也可以达到个体隐私保护的目的。最后通过在“cod-rna”和“splice”两个数据集上的实验表明,在隐私预算得到合理的设置也即在隐私保护水平保持在一定程度的情况下,本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法仍然具有较高的分类准确率。
Claims (4)
1.基于对偶变量扰动的差分隐私保护支持向量机分类器算法,其特征在于,具体按照以下步骤实施:
步骤1、初始化所有样本点对应的对偶变量值:α1=α2=…=αn=0,n表示训练集样本的个数;超平面参数b=0;当前迭代次数iter=0;表示能否找到和第一个优化变量配对优化的另一个变量的标志numChanged=0;是否已经遍历完所有变量的标志examineAll=1;设定惩罚因子C=1;KKT条件停止准则的宽松范围tolerance=0.001;最大迭代次数maxIter=max(1000000,n),即取1000000和训练样本数中的较大者做为最大迭代次数;
步骤2、判断当前迭代次数iter是否小于最大迭代次数maxIter,且存在样本依然违反KKT条件,即numChanged>0|examineAll==1,若两个条件均满足,则通过遍历整个数据集和遍历界内的支持向量对应的样本点,挑选一个违反KKT条件的样本点,并寻找另一个与之配对的样本点进行优化更新,同时当前迭代次数iter自增加1;否则,即只要当前迭代次数iter达到最大迭代次数maxIter,或者所有样本点均满足KKT条件,则执行步骤3;
步骤3、计算每个支持向量的Ei占所有支持向量对应Ei值之和的比值,其中,支持向量为更新计算的对偶变量值满足αi>0的样本点,即计算l表示支持向量的个数;
步骤4、对每个支持向量(xi,yi)对应的对偶变量值αi加入服从位置参数0,尺度参数为的拉普拉斯随机噪声值,即其中每个αi的隐私预算值为εi=Ei'·ε;
步骤5、输出支持向量点集合SV={(x1,y1),(x2,y2),…,(xl,yl)}及其被扰动过的对偶变量α*=(α1 *,α2 *…αl *)、超平面参数b,得到决策函数f(x)即为超平面,达到将预测样本分类且保护训练集个体隐私信息的目的。
2.根据权利要求1所述的基于对偶变量扰动的差分隐私保护支持向量机分类器算法,其特征在于,所述步骤2中通过遍历整个数据集和遍历界内的支持向量对应的样本,挑选一个违反KKT条件的样本点,并寻找另一个与之配对的样本点进行优化更新,具体按照以下步骤实施:
步骤2.1、设定赋值numChanged=0;
步骤2.2、如果examineAll!=1,则跳转至步骤2.3;否则遍历所有样本集,对每一个样本,先计算(公式中k(xi,xt)表示计算xi和xt的核函数值,核函数取径向基函数核,即σ取数据集特征数分之一),若当前样本违反KKT条件,即满足(yiEi<-tolerance)&&(αi<C)||(yiEi>tolerance)&&(αi>0),则寻找与当前样本配对优化的另一个样本,对这两个样本的对偶变量进行更新优化,然后执行步骤2.4;
步骤2.3、遍历界内所有支持向量对应的样本点,即满足0<αi<C,若当前样本违反KKT条件,即|yiEi|<tolerance,则寻找与当前样本配对优化的另一个样本,对这两个样本的对偶变量进行更新优化,然后执行步骤2.4;
步骤2.4、若examineAll==1,则examineAll==0;否则继续判断numChanged的值,若numChanged=0,则examineAll==0,继续执行步骤2.1。
3.根据权利要求2所述的基于对偶变量扰动的差分隐私保护支持向量机分类器算法,其特征在于,所述步骤2.2和步骤2.3中寻找另一个与第一个需要优化变量配对的样本点进行优化更新,具体按照以下步骤实施:
记第一个需要优化的样本i对应的对偶变量为αi,要找的与αi配对优化的另一个变量为αj:
步骤2.2.1、计算
步骤2.2.2、遍历所有的样本点,找到使得|Ei-Ej|最大的αj;
步骤2.2.3、如果|W(αi)-W(αj)|>tolerance,则根据SMO算法的更新策略更新αi、αj和b;并返回值为1的标志;
步骤2.2.4、循环遍历所有满足αi=0的样本,对于|W(αi)-W(αj)|>tolerance的样本点,则根据SMO算法的更新策略更新αi、αj和b;并返回值为1的标志;
步骤2.2.5、若步骤2.2.3和步骤2.2.4中均没有返回,则返回值为0的标志。
4.根据权利要求3所述的基于对偶变量扰动的差分隐私保护支持向量机分类器算法,其特征在于,所述步骤2.2.3和步骤2.2.4中根据SMO算法的更新策略更新αi、αj和b,具体按照以下步骤实施:
记寻找出的两个需要优化更新的变量分别为α1和α2:
步骤2.2.3.1、确定α2的修正范围,如果y1=y2,则L=max(0,α1+α2-C),H=max(C,α1+α2);如果y1=-y2,则L=max(0,α1-α2),H=max(C-α1+α2,C);
步骤2.2.3.2、计算η=k11+k22-2k12;其中,k11表示计算x1和x1的核函数值,核函数取径向基函数核,即σ取数据集特征分之一;k22和k12同理;
步骤2.2.3.3、如果η>0,则α2沿着约束方向更新然后修正取α2=α2 new;其中α2 old、α2 new,unc和α2 new分别表示α2计算更新前、计算更新以及计算更新后再修正的值;
如果η=0,则计算目标函数在L和H处的函数值Lobj=W(L),Hobj=W(H);如果Lobj<Hobj,取α2=L,否则取α2=H;
步骤2.2.3.4、更新α1 new=α1 old+(α2-α2 old)y1y2;其中α1 old、α1 new和α1 new分别表示α1计算更新前、计算更新后的值;
步骤2.2.3.5、计算更新b值:
b1=-E1-y1(α1 new-α1 old)K11-y2(α2 new-α2 old)K21+bold
b2=-E2-y1(α1 new-α1 old)K12-y2(α2 new-α2 old)K22+bold;
若0<α1 new<C,α2 new=0或C,则b=b1;
若0<α2 new<C,α1 new=0或C,则b=b2;
若0<α1 new<C,0<α2 new<C,则b1=b2,故任取b1或b2;
若α1 new=0或C且α2 new=0或C,则
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910362177.9A CN110097119A (zh) | 2019-04-30 | 2019-04-30 | 基于对偶变量扰动的差分隐私保护支持向量机分类器算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910362177.9A CN110097119A (zh) | 2019-04-30 | 2019-04-30 | 基于对偶变量扰动的差分隐私保护支持向量机分类器算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110097119A true CN110097119A (zh) | 2019-08-06 |
Family
ID=67446674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910362177.9A Pending CN110097119A (zh) | 2019-04-30 | 2019-04-30 | 基于对偶变量扰动的差分隐私保护支持向量机分类器算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110097119A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767323A (zh) * | 2020-09-02 | 2020-10-13 | 西南石油大学 | 一种基于核smo算法的地层裂缝长度实时预测方法 |
CN112131600A (zh) * | 2020-09-21 | 2020-12-25 | 刘西蒙 | 差分隐私下基于svm的信用违约预测方法 |
CN113158230A (zh) * | 2021-03-16 | 2021-07-23 | 陕西数盾慧安数据科技有限公司 | 一种基于差分隐私的在线分类方法 |
CN113645187A (zh) * | 2021-07-06 | 2021-11-12 | 暨南大学 | 隐私度量和保护策略选择方法、装置、服务器和存储介质 |
CN117521117A (zh) * | 2024-01-05 | 2024-02-06 | 深圳万海思数字医疗有限公司 | 一种医疗数据应用安全与隐私保护方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015157020A1 (en) * | 2014-04-11 | 2015-10-15 | Thomson Licensing | Method and apparatus for sparse privacy preserving mapping |
CN107368752A (zh) * | 2017-07-25 | 2017-11-21 | 北京工商大学 | 一种基于生成式对抗网络的深度差分隐私保护方法 |
WO2018072351A1 (zh) * | 2016-10-20 | 2018-04-26 | 北京工业大学 | 一种基于粒子群优化算法对支持向量机的优化方法 |
CN108280491A (zh) * | 2018-04-18 | 2018-07-13 | 南京邮电大学 | 一种面向差分隐私保护的k均值聚类方法 |
CN109101217A (zh) * | 2013-03-15 | 2018-12-28 | 先进元素科技公司 | 用于有目的计算的方法和系统 |
-
2019
- 2019-04-30 CN CN201910362177.9A patent/CN110097119A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101217A (zh) * | 2013-03-15 | 2018-12-28 | 先进元素科技公司 | 用于有目的计算的方法和系统 |
WO2015157020A1 (en) * | 2014-04-11 | 2015-10-15 | Thomson Licensing | Method and apparatus for sparse privacy preserving mapping |
WO2018072351A1 (zh) * | 2016-10-20 | 2018-04-26 | 北京工业大学 | 一种基于粒子群优化算法对支持向量机的优化方法 |
CN107368752A (zh) * | 2017-07-25 | 2017-11-21 | 北京工商大学 | 一种基于生成式对抗网络的深度差分隐私保护方法 |
CN108280491A (zh) * | 2018-04-18 | 2018-07-13 | 南京邮电大学 | 一种面向差分隐私保护的k均值聚类方法 |
Non-Patent Citations (2)
Title |
---|
狄岚等: "基于信息浓缩的隐私保护支持向量机分类算法", 《计算机应用》 * |
顾晓清等: "面向大规模噪声数据的软性核凸包支持向量机", 《电子学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767323A (zh) * | 2020-09-02 | 2020-10-13 | 西南石油大学 | 一种基于核smo算法的地层裂缝长度实时预测方法 |
CN112131600A (zh) * | 2020-09-21 | 2020-12-25 | 刘西蒙 | 差分隐私下基于svm的信用违约预测方法 |
CN112131600B (zh) * | 2020-09-21 | 2022-06-03 | 刘西蒙 | 差分隐私下基于svm的信用违约预测方法 |
CN113158230A (zh) * | 2021-03-16 | 2021-07-23 | 陕西数盾慧安数据科技有限公司 | 一种基于差分隐私的在线分类方法 |
CN113158230B (zh) * | 2021-03-16 | 2024-02-09 | 陕西数盾慧安数据科技有限公司 | 一种基于差分隐私的在线分类方法 |
CN113645187A (zh) * | 2021-07-06 | 2021-11-12 | 暨南大学 | 隐私度量和保护策略选择方法、装置、服务器和存储介质 |
CN117521117A (zh) * | 2024-01-05 | 2024-02-06 | 深圳万海思数字医疗有限公司 | 一种医疗数据应用安全与隐私保护方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110097119A (zh) | 基于对偶变量扰动的差分隐私保护支持向量机分类器算法 | |
Bahnsen et al. | Cost sensitive credit card fraud detection using Bayes minimum risk | |
EP3420491B1 (en) | Differentially private iteratively reweighted least squares | |
Lofi et al. | Skyline queries in crowd-enabled databases | |
CN105930862A (zh) | 一种基于密度自适应距离的密度峰聚类算法 | |
Zheng et al. | K-nearest neighbor search for fuzzy objects | |
CN113011888A (zh) | 一种针对数字货币的异常交易行为检测方法、装置、设备及介质 | |
CN108108890A (zh) | 一种基于工序关联关系的工艺缺陷风险分析方法 | |
Liu et al. | An optimized computational framework for isolation forest | |
Choi et al. | Machine learning based approach to financial fraud detection process in mobile payment system | |
Shi et al. | An improved agglomerative hierarchical clustering anomaly detection method for scientific data | |
Zhou et al. | Credit card fraud identification based on principal component analysis and improved AdaBoost algorithm | |
Zhang et al. | A software defect prediction approach based on bigan anomaly detection | |
CN114841241A (zh) | 一种基于聚类和距离加权的不平衡数据分类方法 | |
Su et al. | On‐line identification model for single phase‐earth fault in distribution network driven by wavelet transform and multi‐learner combination | |
CN116579842B (zh) | 基于用户行为数据的信用数据分析方法及系统 | |
Fang et al. | An improved decision tree algorithm based on mutual information | |
CN113852629B (zh) | 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质 | |
Janusz et al. | Random probes in computation and assessment of approximate reducts | |
Kamali et al. | Roq: Robust Query Optimization Based on a Risk-aware Learned Cost Model | |
Tamtama et al. | Increasing Accuracy of The Random Forest Algorithm Using PCA and Resampling Techniques with Data Augmentation for Fraud Detection of Credit Card Transaction | |
Grimes et al. | Learning from failure in constraint satisfaction search | |
Yan et al. | Improved ELM optimization model for automobile insurance fraud identification based on AFSA | |
Alshahrani et al. | Evaluation of gradient descent optimization: using android applications in neural networks | |
CN114553534B (zh) | 一种基于知识图谱的电网安全漏洞评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190806 |