CN105718948A

CN105718948A - 基于信息浓缩的隐私保护svm分类方法

Info

Publication number: CN105718948A
Application number: CN201610040350.XA
Authority: CN
Inventors: 狄岚; 于晓瞳
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2016-01-20
Filing date: 2016-01-20
Publication date: 2016-06-29

Abstract

本发明揭露了一种基于信息浓缩的隐私保护隐私保护支持向量机分类方法，旨在解决分类过程中隐私信息的泄露问题。本发明是在标准支持向量机(即软间隔支持向量机，C?SVC)的基础上，采用了信息浓缩机制，提出了一种新的称为基于信息浓缩的隐私保护SVM分类(IC?SVM)方法。该方法主要针对分类算法支持向量的生成，在对原始训练样本的学习过程，采用模糊C均值聚类(FCM)算法根据样本的邻域信息进行信息浓缩，采用浓缩得到的浓缩点组成的新样本进行训练得决策函数，并用它去进行分类测试，从而较好的保护了数据的隐私。

Description

基于信息浓缩的隐私保护SVM分类方法

【技术领域】

本发明涉及数据挖掘与模式识别技术领域，涉及数据集和人脸的分类分析。

【背景技术】

分类是数据挖掘领域中一个重要研究内容，被广泛的应用于对数据信息的分析以及预测，这极大地促进了人们对海量数据的利用，同时也引起了大量数据信息的泄露。然而，大多数的分类算法依赖于对原始训练样本的学习，容易暴漏训练数据的信息，易导致隐私信息的泄露，这在一些领域是不允许的，如患者的疾病信息、医疗数据处理以及弹药的成分等。因此，如何对训练数据信息进行保护，同时不影响分类的性能成为了分类算法中的一个重要的研究问题。支持向量机(Support Vector Machine，SVM)由于它在处理非线性和高维的数据表现出独有的优势，因此被广发应用于研究以及现实生活中，然而它也依赖于对训练样本的学习，因此不可避免会导致隐私信息的泄露。目前已经有很多针对SVM改进的隐私保护方法，但是却依赖于对原始数据的学习，因此不可避免地会造成原始数据隐私信息的泄漏。

【发明内容】

本发明的目的是为了是SVM在保证分类准确率的基础上，具有保护数据隐私的功能。

为了达到本发明的目的，本发明充分考虑了数据信息泄露的本质原因，即支持向量的生成过程以及支持向量的所包含的本质信息，针对支持向量的生成，采用FCM对训练样本进行信息浓缩，将样本的本质信息进行隐匿，从而达到保护数据信息的目的。

给定训练样本S＝{(x₁，y₁)，(x₂，y₂)，...，(x_l，y_l)}，其中x_i∈Rⁿ，y_i∈{+1，-1}，i＝1，2，...，l。设w^T·x+b＝0为最优超平面，其中w∈Rⁿ且b∈R。标准支持向量机(即软间隔支持向量机算法，C-SVC)，所对应的优化问题如下：

其中，C＞0为惩罚参数，用来控制对错分样本的惩罚程度；ξ_i≥0为松弛变量，用于解决数据中存在的噪声或野值。引入拉格朗日乘子α_i≥0后对应的对偶问题为：

通过求解对偶问题，得最优解α^*＝(α₁ ^*，α₂ ^*，...，α_N ^*)^T，进而得到原始问题的最优解为：

其中α_i ^*∈(0，C)，从而得到最优决策超平面为：

对于非线性问题，SVM引入核函数，相对应的对偶问题和最优决策超平面变为：

SVM在分类的过程中的决策函数是由支持向量扩展生成的，而支持向量的生成依赖于对原始数据的学习过程。根据SVM的分类准则可知，学习过程是完全可见的，因此支持向量以及部分数据的信息被暴漏了出来。而支持向量区别于其他的数据，它包含了此类样本的重要信息，因此易导致重要信息的泄露。当SVM训练样本结束后，可通过支持向量求得到的最优决策超平面。

针对上述存在的问题，这里采用了模糊C均值聚类算法对训练样本进行信息浓缩，通过使用浓缩后得到的新样本来进行训练学习，从而达到保护数据的隐私。设表示给定的样本集合，s是样本空间的维数，n表示样本的个数。FCM算法可以描述为如下的一个优化问题：

通过拉格朗日求极值法，求的隶属度矩阵U以及聚类中心V的循环迭代公式如下：

在分类过程中，只需要用浓缩点组成的新样本来进行训练，即可避免在训练过程和决策过程因支持向量的暴露而导致隐私信息的泄密。关于浓缩点标签的设置，这里给出了相关的准则。设L_i表示第i个信息浓缩点的标签，idx_j表示原始第j个样本的标签，令：

其中m表示隶属于第i类样本的个数。L_i的取值策略如下：

通过上述信息浓缩以及标签取值策略的处理，得到新的训练样本集合可表示为X′＝[V，L]，其中V＝[v₁，v₂，..，v_c]，L∈{+1，-1}。

使用上述得到的新训练样本进行训练学习并得到分类决策函数，然后使用此分类决策函数对待测样本进行分类决策。通过UCI真实数据集和PIE人脸库中的实验，本发明在保护数据隐私信息的同时，具有较好的分类准确率。

【附图说明】

结合图1和下面的具体实施方式将更加清除的了解本发明所提出的基于信息浓缩的隐私保护支持向量机分类方法，其中图1为本发明中的流程图。

【具体实施方式】

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供了一种基于信息浓缩的隐私保护支持向量机的分类方法，首先对训练样本使用FCM进行信息浓缩，使用相关的准则对浓缩点进行标签设定，然后使用浓缩点组成的新样本进行训练学习并求解决策函数，从而保护了数据的隐私信息。在实验过程中，IC-SVM的分类准确率基本和SVM的保持一致。

请参考图1，展示出了本发明中的基于信息浓缩的隐私保护支持向量机的分类方法100的具体实施例子的方法流程图。所述隐私保护SVM分类方法100包括：

步骤102，对训练样本采用模糊C均值聚类算法进行信息浓缩，并用相关的准则进行标签设定。

实验数据集采用了公认的UCI数据集和PIE人脸库进行试验。

步骤104，设定核参数和惩罚系数C，对新训练样本进行训练学习，并得到相关的决策函数，进一步根据此决策函数对待测样本进行分类。

步骤106，将本发明的IC-SVM得到的分类准确率和SVM得到的准确率进行对比，进行评价；

按本发明所提出的基于信息浓缩的隐私保护支持向量机分类方法的有效性，实验将分为2个部分，分别使用UCI真实数据集和PIE人脸库进行实验。通过本发明的方法IC-SVM和SVM的实验结果比较分析，说明本发明在保护了数据隐私信息的同时，分类准确率和SVM基本保持一致。

需要说明的是：上述聚类分析的方法，仅以上述几类数据集和人脸库进行实验举例说明，在实际应用中，可以根据需要而将上述方法运用于不同的地方进行实验分析。

上述说明已经充分揭露了本发明的具体实施方式。需要指出的是，熟悉该领域的技术人员对本发明的具体实施方式所做的任何改动均不脱离本发明的权利要求书的范围。相应地，本发明的权利要求的范围也并不仅仅局限于所述具体实施方式。

Claims

1.基于信息浓缩的隐私保护支持向量机分类方法，所述方法包括：对原始训练样本进行信息浓缩；对浓缩后得到的样本点采用相关机制来组成新的训练样本并用新样本进行学习，进而得到决策函数；对待分类的数据使用此决策函数进行分类并得到准确率，并和软间隔的SVM进行比较。

2.根据权利要求1所述的极大中心间隔的核可能性C均值聚类方法，对训练样本进行信息浓缩，相关的浓缩方法采用模糊C均值聚类FCM算法，相关的FCM描述如下：

设表示给定的样本集合，s是样本空间的维数，n表示样本的个数。FCM算法可以描述为如下的一个优化问题：

\min J_{f c m} (U, V) = Σ_{i = 1}^{c} Σ_{j = 1}^{n} {u_{i j}}^{m} | | x_{j} - v_{i} | |^{2}

式中，m＞1是模糊系数；c(c＞1)表示聚类个数；V是聚类中心构成的向量且V＝[v₁，v₂，...，v_c]；U＝u_ij是一个c×n的模糊划分矩阵，u_ij是第j个样本x_j属于第i类的隶属度值；||x_j-v_i||表示从样本x_j到聚类中心v_i的距离，这里采用经典的欧式距离。采用拉格朗日数乘法，分别对上式中的v_i和u_ij求偏导，可得到优化迭代公式：

v_{i} = \frac{Σ_{j = 1}^{n} u_{i j}^{m} x_{j}}{Σ_{j = 1}^{n} u_{i j}^{m}}, i = 1, 2, ..., c

u_{i j} = {[Σ_{r = 1}^{c} {(\frac{| | x_{j} - v_{i} | |}{| | x_{j} - v_{r} | |})}^{\frac{2}{m - 1}}]}^{- 1}, j = 1, 2, ..., n

使用FCM对训练样本进行聚类分析，这里设聚类的个数为n/3。聚类分析后得到了聚类中心v_i和隶属于这个类的样本x_j(1≤j≤n)，此时聚类中心v_i可以表示为属于这个类的所有样本的信息浓缩点，可以较好的表示这些样本的本质信息。

3.根据权利要求2所述的信息浓缩点，这里采用相关的准则对浓缩点的标签进行设定，相关的描述如下：

设L_i表示第i个信息浓缩点的标签，idx_j表示原始第j个样本的标签，令：

L_{i} = Σ_{j = 1}^{m} {idx}_{j}

其中m表示隶属于第i类样本的个数。L_i的取值策略如下：

L_{i} = \{\begin{matrix} + 1 & L_{i} &GreaterEqual; 0 \\ - 1 & L_{i} < 0 \end{matrix}

通过上述信息浓缩以及标签取值策略的处理，得到新的训练样本集合可表示为X′＝[V，L]，其中V＝[v₁，v₂，...，v_c]，L∈{+1，-1}。

4.根据权利要求3所得到的新的训练样本，使用标准的SVM进行训练，并得到分类决策函数，相关的描述如下：

设w^T·x+b＝0为最优超平面，其中w∈Rⁿ且b∈R。标准支持向量机(即软间隔支持向量机算法，C-SVC)，所对应的优化问题如下：

m i n \frac{1}{2} | | w | |^{2} + C Σ_{i = 1}^{m} ξ_{i}

m i n \frac{1}{2} Σ_{i = 1}^{m} Σ_{j = 1}^{m} y_{i} y_{j} α_{i} α_{j} (x_{i} \cdot x_{j}) - Σ_{i = 1}^{m} α_{i}

w^{*} = Σ_{i = 1}^{m} y_{i} {α_{i}}^{*} x_{i}

b^{*} = y_{j} - Σ_{i = 1}^{m} y_{i} {α_{i}}^{*} (x_{i} \cdot x_{j})

其中α_i ^*∈(0，C)，从而得到最优决策超平面为：

f (x) = sgn (w^{*} \cdot x + b^{*}) = sgn (Σ_{i = 1}^{m} {α_{i}}^{*} y_{i} (x_{i} \cdot x) + b^{*})

m i n \frac{1}{2} Σ_{i = 1}^{m} Σ_{j = 1}^{m} y_{i} y_{j} α_{i} α_{j} K (x_{i}, x_{j}) - Σ_{i = 1}^{m} α_{i}

f (x) = sgn (Σ_{i = 1}^{m} {α_{i}}^{*} y_{i} K (x_{i} \cdot x_{j}) + b^{*})

5.根据权利要求4所描述的标准的SVM分类算法，相关的实施步骤如下：设定相应的核函数和惩罚参数C，对浓缩后得到的新训练样本求解凸二次规划问题，得到α_i ^*，从中选取一个α_j ^*＞0来计算决策函数，使用此决策函数对待测样本进行决策，若f(x)≥0，则x属于+1类，否则属于-1类。

6.根据权利要求5分类后得到的结果，这里采用了分类准确率来进行评价，准确率的表示形式如下：

通过准确率可以很好的评价本发明的性能。