CN110097119A

CN110097119A - 基于对偶变量扰动的差分隐私保护支持向量机分类器算法

Info

Publication number: CN110097119A
Application number: CN201910362177.9A
Authority: CN
Inventors: 张亚玲; 郝志峰
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-06

Abstract

本发明公开了一种基于对偶变量扰动的差分隐私保护支持向量机分类器算法，首先利用SMO算法的核心思想去求解支持向量机原始问题的对偶问题，在迭代求解结束之后，对每个支持向量样本点(x_i,y_i)对应的对偶变量α_i进行注入相应的拉普拉斯噪声的噪声，通过隐私性分析可知，该算法满足差分隐私定义，因此通过该算法发布的支持向量机信息既可以进行分类预测，也可以达到个体隐私保护的目的。本发明解决了现有技术中存在的基于隐私保护的支持向量机分类器准确率低、对目标函数的限制性太强的问题。

Description

基于对偶变量扰动的差分隐私保护支持向量机分类器算法

技术领域

本发明属于信息安全技术领域，具体涉及一种基于对偶变量扰动的差分隐私保护支持向量机分类器算法。

背景技术

数据挖掘技术能从海量的数据中挖掘出潜在的、有价值的信息，支持向量机是数据挖掘分类领域中应用最广泛、最高效的方法之一。然而，训练集数据中往往包含着敏感属性，传统的支持向量机训练方法会泄露训练集中的个体隐私信息。

数据挖掘(Data Mining)技术可以从这些海量的数据中发现并提取潜在的、规律性的、能被人理解的模式或者知识，并反馈并指导商业和人类生活。支持向量机(SupportVector Machine)是一种很有效的监督学习模型和数据挖掘分类算法，它由Vapnik等人根据统计学习理论(Statistical Learning Theory)中的结构风险最小化准则和VC维理论提出^]，对过拟合有很好的理论保证，当选取合适的核函数，即使面对特征线性不可分的问题也可以表现地很好，尤其是在解决小样本、非线性以及高维度的数据分类中表现出许多特有的优势。

利用支持向量机等数据挖掘算法可以发现隐藏于海量数据中的知识和模式，但同时使得个体隐私信息面临泄露风险，因此具有隐私保护性质的数据挖掘技术成为重要的需求。传统的隐私保护技术有k-anonymity、l-diversity、m-invariance、t-closeness等等，国内外已经有许多学者将这些隐私保护技术应用于数据挖掘的各类方法中，但是这些方法都以攻击者不具有背景知识为前提，不能提够足够的安全保障。差分隐私(DifferentialPrivacy,DP)是Dwork在2006年针对统计数据库的隐私泄露问题提出的一种新的隐私定义，这是一种基于数据失真的隐私保护模型。相比于传统的隐私保护模型，差分隐私模型定义在坚实的数学基础上，可以控制算法隐私保护的水平。

发明内容

本发明的目的是提供一种基于对偶变量扰动的差分隐私保护支持向量机分类器算法，解决了现有技术中存在的基于隐私保护的支持向量机分类器准确率低、对目标函数的限制性太强的问题。

本发明所采用的技术方案是，基于对偶变量扰动的差分隐私保护支持向量机分类器算法，具体按照以下步骤实施：

步骤1、初始化所有样本点对应的对偶变量值：α₁＝α₂＝…＝α_n＝0，n表示训练集样本的个数；超平面参数b＝0；当前迭代次数iter＝0；表示能否找到和第一个优化变量配对优化的另一个变量的标志numChanged＝0；是否已经遍历完所有变量的标志examineAll＝1；设定惩罚因子C＝1；KKT条件停止准则的宽松范围tolerance＝0.001；最大迭代次数maxIter＝max(1000000,n)，即取1000000和训练样本数中的较大者做为最大迭代次数；

步骤2、判断当前迭代次数iter是否小于最大迭代次数maxIter，且存在样本依然违反KKT条件，即numChanged>0|examineAll＝＝1，若两个条件均满足，则通过遍历整个数据集和遍历界内的支持向量对应的样本点，挑选一个违反KKT条件的样本点，并寻找另一个与之配对的样本点进行优化更新，同时当前迭代次数iter自增加1；否则，即只要当前迭代次数iter达到最大迭代次数maxIter，或者所有样本点均满足KKT条件，则执行步骤3；

步骤3、计算每个支持向量的E_i占所有支持向量对应E_i值之和的比值，其中，支持向量为更新计算的对偶变量值满足α_i＞0的样本点，即计算i＝1,2,…,l；l表示支持向量的个数；

步骤4、对每个支持向量(x_i,y_i)对应的对偶变量值α_i加入服从位置参数0，尺度参数为的拉普拉斯随机噪声值，即其中每个α_i的隐私预算值为ε_i＝E_i'·ε；

步骤5、输出支持向量点集合SV＝{(x₁,y₁),(x₂,y₂),…,(x_l,y_l)}及其被扰动过的对偶变量α^*＝(α₁ ^*，α₂ ^*…α_l ^*)、超平面参数b，得到决策函数f(x)即为超平面，达到将预测样本分类且保护训练集个体隐私信息的目的。

本发明的特点还在于，

步骤2中通过遍历整个数据集和遍历界内的支持向量对应的样本，挑选一个违反KKT条件的样本点，并寻找另一个与之配对的样本点进行优化更新，具体按照以下步骤实施：

步骤2.1、设定赋值numChanged＝0；

步骤2.2、如果examineAll！＝1，则跳转至步骤2.3；否则遍历所有样本集，对每一个样本，先计算(公式中k(x_i,x_t)表示计算x_i和x_t的核函数值，核函数取径向基函数核，即σ取数据集特征数分之一)，若当前样本违反KKT条件，即满足(y_iE_i＜-tolerance)&&(α_i＜C)||(y_iE_i＞tolerance)&&(α_i＞0)，则寻找与当前样本配对优化的另一个样本，对这两个样本的对偶变量进行更新优化，然后执行步骤2.4；

步骤2.3、遍历界内所有支持向量对应的样本点，即满足0＜α_i＜C，若当前样本违反KKT条件，即|y_iE_i|＜tolerance，则寻找与当前样本配对优化的另一个样本，对这两个样本的对偶变量进行更新优化，然后执行步骤2.4；

步骤2.4、若examineAll＝＝1，则examineAll＝＝0；否则继续判断numChanged的值，若numChanged＝0，则examineAll＝＝0，继续执行步骤2.1。

步骤2.2和步骤2.3中寻找另一个与第一个需要优化变量配对的样本点进行优化更新，具体按照以下步骤实施：

记第一个需要优化的样本i对应的对偶变量为α_i，要找的与α_i配对优化的另一个变量为α_j：

步骤2.2.1、计算

步骤2.2.2、遍历所有的样本点，找到使得|E_i-E_j|最大的α_j；

步骤2.2.3、如果|W(α_i)-W(α_j)|＞tolerance，则根据SMO算法的更新策略更新α_i、α_j和b；并返回值为1的标志；

步骤2.2.4、循环遍历所有满足α_i＝0的样本，对于|W(α_i)-W(α_j)|＞tolerance的样本点，则根据SMO算法的更新策略更新α_i、α_j和b；并返回值为1的标志；

步骤2.2.5、若步骤2.2.3和步骤2.2.4中均没有返回，则返回值为0的标志。

步骤2.2.3和步骤2.2.4中根据SMO算法的更新策略更新α_i、α_j和b，具体按照以下步骤实施：

记寻找出的两个需要优化更新的变量分别为α₁和α₂：

步骤2.2.3.1、确定α₂的修正范围，如果y₁＝y₂，则L＝max(0,α₁+α₂-C)，H＝max(C,α₁+α₂)；如果y₁＝-y₂，则L＝max(0,α₁-α₂)，H＝max(C-α₁+α₂,C)；

步骤2.2.3.2、计算η＝k₁₁+k₂₂-2k₁₂；其中，k₁₁表示计算x₁和x₁的核函数值，核函数取径向基函数核，即σ取数据集特征分之一；k₂₂和k₁₂同理；

步骤2.2.3.3、如果η＞0，则α₂沿着约束方向更新然后修正取α₂＝α₂ ^new；其中α₂ ^old、α₂ ^new,unc和α₂ ^new分别表示α₂计算更新前、计算更新以及计算更新后再修正的值；

如果η＝0，则计算目标函数在L和H处的函数值Lobj＝W(L)，Hobj＝W(H)；如果Lobj＜Hobj，取α₂＝L，否则取α₂＝H；

步骤2.2.3.4、更新α₁ ^new＝α₁ ^old+(α₂-α₂ ^old)y₁y₂；其中α₁ ^old、α₁ ^new和α₁ ^new分别表示α₁计算更新前、计算更新后的值；

步骤2.2.3.5、计算更新b值：

b₁＝-E₁-y₁(α₁ ^new-α₁ ^old)K₁₁-y₂(α₂ ^new-α₂ ^old)K₂₁+b^old

b₂＝-E₂-y₁(α₁ ^new-α₁ ^old)K₁₂-y₂(α₂ ^new-α₂ ^old)K₂₂+b^old；

若0＜α₁ ^new＜C，α₂ ^new＝0或C，则b＝b₁；

若0＜α₂ ^new＜C，α₁ ^new＝0或C，则b＝b₂；

若0＜α₁ ^new＜C，0＜α₂ ^new＜C，则b₁＝b₂，故任取b₁或b₂；

若α₁ ^new＝0或C且α₂ ^new＝0或C，则

本发明的有益效果是，基于对偶变量扰动的差分隐私保护支持向量机分类器算法，利用SMO方法求解支持向量机的对偶问题过程中，记录了每个支持向量对应的估计值与真实值之间的差E_i，然后计算出每个支持向量的E_i占所有支持向量对应E_i值之和的比值，再根据每个支持向量的E_i比值对各个计算出来要发布的支持向量对应的对偶变量值α_i加入不同等级的拉普拉斯随机噪声，最终得到具有差分隐私保护的支持向量机分类器。

附图说明

图1是cod-rna数据集上隐私预算对算法准确率的影响；

图2是splice数据集上隐私预算对算法准确率的影响；

图3是cod-rna数据集上训练集样本数对算法准确率的影响；

图4是splice数据集上训练集样本数对算法准确率的影响；

图5是cod-rna数据集上训练集特征数对算法准确率的影响；

图6是splice数据集上训练集特征数对算法准确率的影响。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法，先利用SMO算法的核心思想，求解支持向量机原始问题的对偶问题，在这个过程会保存每一个训练数据，记录每一个训练样本在更新优化时估计值与真实值之间的差E_i，最终在全部训练样本的对偶变量得到优化后，对支持向量点(对偶变量值满足α_i＞0的样本点)对应的对偶变量值α＝(α₁,α₂,…,α_i,α_l)进行扰动处理，l表示支持向量点的个数，即每个支持向量(x_i,y_i)对应的对偶变量值α_i加入相应的拉普拉斯噪声，这样即使攻击者得到原始数据集D上的训练结果信息和邻近数据集D'，他们也无法知道最终发布的α＝(α₁,α₂,…,α_i,α_l)到底是在D还是D'上。这样能保证当数据集中改变任何一个记录时，该算法得到的分类器参数的变化不会泄露数据集样本的隐私信息，从而达到了保护个体隐私的要求。

本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法，具体按照以下步骤实施：

步骤2.1、设定赋值numChanged＝0；

步骤2.2、如果examineAll！＝1，则跳转至步骤2.3；否则遍历所有样本集，对每一个样本，先计算(公式中k(x_i,x_t)表示计算x_i和x_t的核函数值，核函数取径向基函数核，即σ取数据集特征数分之一)，若当前样本违反KKT条件，即满足(y_iE_i＜-tolerance)&&(α_i＜C)||(y_iE_i＞tolerance)&&(α_i＞0)|，则寻找与当前样本配对优化的另一个样本，对这两个样本的对偶变量进行更新优化，然后执行步骤2.4；

其中，步骤2.2和步骤2.3中寻找另一个与第一个需要优化变量配对的样本点进行优化更新，具体按照以下步骤实施：

步骤2.2.1、计算

步骤2.2.2、遍历所有的样本点，找到使得|E_i-E_j|最大的α_j；

记寻找出的两个需要优化更新的变量分别为α₁和α₂：

步骤2.2.3.5、计算更新b值：

b₁＝-E₁-y₁(α₁ ^new-α₁o^ld)K₁₁-y₂(α₂ ^new-α₂o^ld)K₂₁+bo^ld

若0＜α₁ ^new＜C，α₂ ^new＝0或C，则b＝b₁；

若0＜α₂ ^new＜C，α₁ ^new＝0或C，则b＝b₂；

若α₁ ^new＝0或C且α₂ ^new＝0或C，则

本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法隐私性分析如下：

正如步骤4描述，本发明并没有对求解得到的最优对偶变量α加入噪声时分配相同量级的隐私预算，而是根据每个支持向量样本点的E_i相比于所有支持向量点的E_i之和所占的比值E_i'进行不同量级别噪声的添加。这是鉴于存在的这样一个客观事实，对于每个支持向量，最终更新保存的差值E_i记录了它对应的估计值与真实值之间的差，这个值越大，就说明这个支持向量对支持向量机分类器的贡献相对于小；反之，如果这个值越小，说明这个支持向量相对于支持向量机分类器来说，分类器的贡献就更大。由于加入的拉普拉斯噪声与Δf成正比，与ε成反比，因此在分配隐私预算ε时分配了不同的值，ε_i＝E_i'·ε，即隐私预算的量与自己的误差所占比例是成正比的，这样对于E_i值小的支持向量点，本发明中分配的隐私预算ε_i相对就会小一点，最终加入的噪声的量也会大一点，对那些对支持向量分类器贡献大的支持向量点的隐私保护程度也就高了一点；相反，对于E_i值大的支持向量点，它本身对最终的贡献值也相对小，因此就隐私保护程度可以小一点。

而总的来看，根绝差分隐私的序列组合特性，算法在输出时分配的整个隐私预算为

因此，整个算法满足ε-差分隐私，能较好地提供隐私保护功能。

本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法，实验结果与评估如下：

针对本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法，将实验评估本发明的DVPDPSVM算法与不带有差分隐私保护的SVM、PrivateSVM做以对比，验证本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法的可用性。

实验数据集：

实验选择的数据集为“cod-rna”数据集和“splice”数据集，两个数据集均是来自台湾大学林智仁教授主页(https://www.csie.ntu.edu.tw/～cjlin/libsvmtools/datasets/binary.html)预处理过的数据集，其中“cod-rna”数据集来源于Andrew VUzilov,Joshua M Keegan,and David H Mathews在《Detection of non-coding RNAs onthe basis of predicted secondary structure formation free energy change》处理过的数据集，“splice”数据集是来源于Delve数据集官网(http://www.cs.toronto.edu/～delve/data/datasets.html)分类数据集下的“splice”数据集，该数据集用于识别DNA序列中的两类剪接点，来自UCI机器学习数据库的存储库。两个数据集的基本信息如表1：

表1数据集基本信息

实验结果及分析：

准确率是衡量分类算法可用性优劣的重要指标，它是测试集中预测正确的样本数占总的测试集样本数的比值，可以形式化定义为：

其中，Accuracte(TestData)是测试集中预测正确的样本数，Total(TestData)是测试集总的样本数。准确率越高，则说明分类算法的可用性越好。

将分别验证隐私预算大小、训练样本的数据集大小以及训练样本的数据集特征数量三个影响因素对DVPDPSVM算法的可用性影响，同时与标准SVM、PrivateSVM两个算法进行了实验对比和理论分析。

在差分隐私保护机制下，由于向支持向量机分类参数中加入的拉普拉斯噪声值是一系列服从特定分布的随机值，为了得到一个稳定的结果，对每一类实验下同一个参数的SVM、PrivateSVM和DVPDPSVM算法进行了3次实验，并取3次实验的准确率平均值作为最终值。

隐私预算对算法可用性的影响：

为了评估隐私预算对算法可用性的影响，固定训练数据集的样本数和特征数，逐步取隐私预算值为0.0005、0.001、0.005、0.01、0.05、0.1、0.5、1，并对每一个隐私预算值，让SVM、PrivateSVM算法分别进行了3次实验，取3次实验的平均值。其中在两个数据集上的运行结果如下图1和图2所示。

从图1和图2可以看出：隐私预算ε越大，DVPDPSVM算法的准确率越高。这主要是由隐私预算ε越大，所要添加的拉普拉斯噪声扰动就越小，这样对支持向量机分类器模型精确度的影响就会小。同时从图1可以看出，在cod-rna数据集上，当隐私预算ε低于0.001时，DVPDPSVM算法的准确率维持在50％，和PrivateSVM不差上下，而当隐私预算ε由0.001增大到0.05时，其准确率越来越高，当达到0.05以后，其准确率基本可以达到标准SVM的准确率水平。从图2同样可以得出该结果，不同的是在splice数据集上，使得准确率变化的两个隐私预算ε的拐点分别是0.01和0.5时。

训练集样本数对算法可用性的影响：

训练集样本数是影响算法性能的一个重要指标，因此固定训练数据集的特征数，并根据上面的实验结果，在cod-rna数据集和splice数据集上分别固定取隐私预算值为0.1，逐步增多训练集样本数，即cod-rna数据集上依次取样本数为20000、30000、40000、50000、59535，splice数据集上依次取样本数为1300、1600、1900、2175，对每一固定样本数的实验，让SVM、PrivateSVM和DVPDPSVM算法分别进行3次实验，取3次实验的平均值。其中在两个数据集上的运行结果如下图3和图4所示。

从图3和图4可以看出：随着训练集样本数的增多，DVPDPSVM算法的准确性稳步提升。训练集样本数越多，那么整个数据集的数据特征就越丰富，最终的分类模型也就越准确，从图3可以看出，在cod-rna数据集上，当训练集样本数从20000增长到50000时，预测的准确率也从72％增长到了80％左右，而当样本数多于50000时，算法的准确率可以高达90％，而且和SVM的准确率、增长趋势基本一致(图中两个算法的折线图基本重合了)；相比之下，PrivateSVM的准确率随训练集样本数的变化特别的微弱，而且其准确率维持在50％至60％的区间。而在splice数据集上，当训练集样本数从1300增长到2175时，预测的准确率也从74％增长到了78％左右。

训练集特征数对算法可用性的影响：

数据样本的特征数量表征着一个数据样本的丰富程度，首先固定训练数据集的大小为总的样本数，cod-rna数据集和splice数据集分别为59535和2175，并分别固定取隐私预算值为0.1，逐步增多训练集的特征数，即cod-rna数据集上依次取特征数为5、6、7、8，splice数据集上依次取特征数为55、56、57、58、59、60，对每一固定特征数的实验，让SVM、PrivateSVM和DVPDPSVM算法没别进行了3次实验，取3次实验的平均值。其中在两个数据集上的运行结果如下图5和图6所示。

从图5和图6可以看出：随着训练集样本特征数的增多，DVPDPSVM算法的准确性稳步提升。从图5可以看出，在cod-rna数据集上，当训练集样本数从5增长到8时，预测的准确率从90.22％增长到了90.48％，增长的很微弱，不是很明显。而通过图6可以看得到，在splice数据集上，当样本特征数从55到60时，算法预测的准确度明显地从64.13％增长到77.57％。

本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法是采用一种新的思路对支持向量机分类器提供差分隐私保护。在该方法中，首先利用SMO算法的核心思想去求解支持向量机原始问题的对偶问题，在迭代求解结束之后，对每个支持向量样本点(x_i,y_i)对应的对偶变量α_i进行注入相应的拉普拉斯噪声的噪声，通过隐私性分析可知，该算法满足差分隐私定义，因此通过该算法发布的支持向量机信息既可以进行分类预测，也可以达到个体隐私保护的目的。最后通过在“cod-rna”和“splice”两个数据集上的实验表明，在隐私预算得到合理的设置也即在隐私保护水平保持在一定程度的情况下，本发明基于对偶变量扰动的差分隐私保护支持向量机分类器算法仍然具有较高的分类准确率。

Claims

1.基于对偶变量扰动的差分隐私保护支持向量机分类器算法，其特征在于，具体按照以下步骤实施：

步骤3、计算每个支持向量的E_i占所有支持向量对应E_i值之和的比值，其中，支持向量为更新计算的对偶变量值满足α_i＞0的样本点，即计算l表示支持向量的个数；

2.根据权利要求1所述的基于对偶变量扰动的差分隐私保护支持向量机分类器算法，其特征在于，所述步骤2中通过遍历整个数据集和遍历界内的支持向量对应的样本，挑选一个违反KKT条件的样本点，并寻找另一个与之配对的样本点进行优化更新，具体按照以下步骤实施：

步骤2.1、设定赋值numChanged＝0；

3.根据权利要求2所述的基于对偶变量扰动的差分隐私保护支持向量机分类器算法，其特征在于，所述步骤2.2和步骤2.3中寻找另一个与第一个需要优化变量配对的样本点进行优化更新，具体按照以下步骤实施：

步骤2.2.1、计算

步骤2.2.2、遍历所有的样本点，找到使得|E_i-E_j|最大的α_j；

4.根据权利要求3所述的基于对偶变量扰动的差分隐私保护支持向量机分类器算法，其特征在于，所述步骤2.2.3和步骤2.2.4中根据SMO算法的更新策略更新α_i、α_j和b，具体按照以下步骤实施：

记寻找出的两个需要优化更新的变量分别为α₁和α₂：

步骤2.2.3.5、计算更新b值：

若0＜α₁ ^new＜C，α₂ ^new＝0或C，则b＝b₁；

若0＜α₂ ^new＜C，α₁ ^new＝0或C，则b＝b₂；

若α₁ ^new＝0或C且α₂ ^new＝0或C，则