CN105718948A - 基于信息浓缩的隐私保护svm分类方法 - Google Patents

基于信息浓缩的隐私保护svm分类方法 Download PDF

Info

Publication number
CN105718948A
CN105718948A CN201610040350.XA CN201610040350A CN105718948A CN 105718948 A CN105718948 A CN 105718948A CN 201610040350 A CN201610040350 A CN 201610040350A CN 105718948 A CN105718948 A CN 105718948A
Authority
CN
China
Prior art keywords
sigma
sample
alpha
svm
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610040350.XA
Other languages
English (en)
Inventor
狄岚
于晓瞳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201610040350.XA priority Critical patent/CN105718948A/zh
Publication of CN105718948A publication Critical patent/CN105718948A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明揭露了一种基于信息浓缩的隐私保护隐私保护支持向量机分类方法,旨在解决分类过程中隐私信息的泄露问题。本发明是在标准支持向量机(即软间隔支持向量机,C?SVC)的基础上,采用了信息浓缩机制,提出了一种新的称为基于信息浓缩的隐私保护SVM分类(IC?SVM)方法。该方法主要针对分类算法支持向量的生成,在对原始训练样本的学习过程,采用模糊C均值聚类(FCM)算法根据样本的邻域信息进行信息浓缩,采用浓缩得到的浓缩点组成的新样本进行训练得决策函数,并用它去进行分类测试,从而较好的保护了数据的隐私。

Description

基于信息浓缩的隐私保护SVM分类方法
【技术领域】
本发明涉及数据挖掘与模式识别技术领域,涉及数据集和人脸的分类分析。
【背景技术】
分类是数据挖掘领域中一个重要研究内容,被广泛的应用于对数据信息的分析以及预测,这极大地促进了人们对海量数据的利用,同时也引起了大量数据信息的泄露。然而,大多数的分类算法依赖于对原始训练样本的学习,容易暴漏训练数据的信息,易导致隐私信息的泄露,这在一些领域是不允许的,如患者的疾病信息、医疗数据处理以及弹药的成分等。因此,如何对训练数据信息进行保护,同时不影响分类的性能成为了分类算法中的一个重要的研究问题。支持向量机(Support Vector Machine,SVM)由于它在处理非线性和高维的数据表现出独有的优势,因此被广发应用于研究以及现实生活中,然而它也依赖于对训练样本的学习,因此不可避免会导致隐私信息的泄露。目前已经有很多针对SVM改进的隐私保护方法,但是却依赖于对原始数据的学习,因此不可避免地会造成原始数据隐私信息的泄漏。
【发明内容】
本发明的目的是为了是SVM在保证分类准确率的基础上,具有保护数据隐私的功能。
为了达到本发明的目的,本发明充分考虑了数据信息泄露的本质原因,即支持向量的生成过程以及支持向量的所包含的本质信息,针对支持向量的生成,采用FCM对训练样本进行信息浓缩,将样本的本质信息进行隐匿,从而达到保护数据信息的目的。
给定训练样本S={(x1,y1),(x2,y2),...,(xl,yl)},其中xi∈Rn,yi∈{+1,-1},i=1,2,...,l。设wT·x+b=0为最优超平面,其中w∈Rn且b∈R。标准支持向量机(即软间隔支持向量机算法,C-SVC),所对应的优化问题如下:
其中,C>0为惩罚参数,用来控制对错分样本的惩罚程度;ξi≥0为松弛变量,用于解决数据中存在的噪声或野值。引入拉格朗日乘子αi≥0后对应的对偶问题为:
通过求解对偶问题,得最优解α*=(α1 *,α2 *,...,αN *)T,进而得到原始问题的最优解为:
其中αi *∈(0,C),从而得到最优决策超平面为:
对于非线性问题,SVM引入核函数,相对应的对偶问题和最优决策超平面变为:
SVM在分类的过程中的决策函数是由支持向量扩展生成的,而支持向量的生成依赖于对原始数据的学习过程。根据SVM的分类准则可知,学习过程是完全可见的,因此支持向量以及部分数据的信息被暴漏了出来。而支持向量区别于其他的数据,它包含了此类样本的重要信息,因此易导致重要信息的泄露。当SVM训练样本结束后,可通过支持向量求得到的最优决策超平面。
针对上述存在的问题,这里采用了模糊C均值聚类算法对训练样本进行信息浓缩,通过使用浓缩后得到的新样本来进行训练学习,从而达到保护数据的隐私。设表示给定的样本集合,s是样本空间的维数,n表示样本的个数。FCM算法可以描述为如下的一个优化问题:
通过拉格朗日求极值法,求的隶属度矩阵U以及聚类中心V的循环迭代公式如下:
在分类过程中,只需要用浓缩点组成的新样本来进行训练,即可避免在训练过程和决策过程因支持向量的暴露而导致隐私信息的泄密。关于浓缩点标签的设置,这里给出了相关的准则。设Li表示第i个信息浓缩点的标签,idxj表示原始第j个样本的标签,令:
其中m表示隶属于第i类样本的个数。Li的取值策略如下:
通过上述信息浓缩以及标签取值策略的处理,得到新的训练样本集合可表示为X′=[V,L],其中V=[v1,v2,..,vc],L∈{+1,-1}。
使用上述得到的新训练样本进行训练学习并得到分类决策函数,然后使用此分类决策函数对待测样本进行分类决策。通过UCI真实数据集和PIE人脸库中的实验,本发明在保护数据隐私信息的同时,具有较好的分类准确率。
【附图说明】
结合图1和下面的具体实施方式将更加清除的了解本发明所提出的基于信息浓缩的隐私保护支持向量机分类方法,其中图1为本发明中的流程图。
【具体实施方式】
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提供了一种基于信息浓缩的隐私保护支持向量机的分类方法,首先对训练样本使用FCM进行信息浓缩,使用相关的准则对浓缩点进行标签设定,然后使用浓缩点组成的新样本进行训练学习并求解决策函数,从而保护了数据的隐私信息。在实验过程中,IC-SVM的分类准确率基本和SVM的保持一致。
请参考图1,展示出了本发明中的基于信息浓缩的隐私保护支持向量机的分类方法100的具体实施例子的方法流程图。所述隐私保护SVM分类方法100包括:
步骤102,对训练样本采用模糊C均值聚类算法进行信息浓缩,并用相关的准则进行标签设定。
实验数据集采用了公认的UCI数据集和PIE人脸库进行试验。
步骤104,设定核参数和惩罚系数C,对新训练样本进行训练学习,并得到相关的决策函数,进一步根据此决策函数对待测样本进行分类。
步骤106,将本发明的IC-SVM得到的分类准确率和SVM得到的准确率进行对比,进行评价;
按本发明所提出的基于信息浓缩的隐私保护支持向量机分类方法的有效性,实验将分为2个部分,分别使用UCI真实数据集和PIE人脸库进行实验。通过本发明的方法IC-SVM和SVM的实验结果比较分析,说明本发明在保护了数据隐私信息的同时,分类准确率和SVM基本保持一致。
需要说明的是:上述聚类分析的方法,仅以上述几类数据集和人脸库进行实验举例说明,在实际应用中,可以根据需要而将上述方法运用于不同的地方进行实验分析。
上述说明已经充分揭露了本发明的具体实施方式。需要指出的是,熟悉该领域的技术人员对本发明的具体实施方式所做的任何改动均不脱离本发明的权利要求书的范围。相应地,本发明的权利要求的范围也并不仅仅局限于所述具体实施方式。

Claims (6)

1.基于信息浓缩的隐私保护支持向量机分类方法,所述方法包括:对原始训练样本进行信息浓缩;对浓缩后得到的样本点采用相关机制来组成新的训练样本并用新样本进行学习,进而得到决策函数;对待分类的数据使用此决策函数进行分类并得到准确率,并和软间隔的SVM进行比较。
2.根据权利要求1所述的极大中心间隔的核可能性C均值聚类方法,对训练样本进行信息浓缩,相关的浓缩方法采用模糊C均值聚类FCM算法,相关的FCM描述如下:
表示给定的样本集合,s是样本空间的维数,n表示样本的个数。FCM算法可以描述为如下的一个优化问题:
min J f c m ( U , V ) = Σ i = 1 c Σ j = 1 n u i j m | | x j - v i | | 2
式中,m>1是模糊系数;c(c>1)表示聚类个数;V是聚类中心构成的向量且V=[v1,v2,...,vc];U=uij是一个c×n的模糊划分矩阵,uij是第j个样本xj属于第i类的隶属度值;||xj-vi||表示从样本xj到聚类中心vi的距离,这里采用经典的欧式距离。采用拉格朗日数乘法,分别对上式中的vi和uij求偏导,可得到优化迭代公式:
v i = Σ j = 1 n u i j m x j Σ j = 1 n u i j m , i = 1 , 2 , ... , c
u i j = [ Σ r = 1 c ( | | x j - v i | | | | x j - v r | | ) 2 m - 1 ] - 1 , j = 1 , 2 , ... , n
使用FCM对训练样本进行聚类分析,这里设聚类的个数为n/3。聚类分析后得到了聚类中心vi和隶属于这个类的样本xj(1≤j≤n),此时聚类中心vi可以表示为属于这个类的所有样本的信息浓缩点,可以较好的表示这些样本的本质信息。
3.根据权利要求2所述的信息浓缩点,这里采用相关的准则对浓缩点的标签进行设定,相关的描述如下:
设Li表示第i个信息浓缩点的标签,idxj表示原始第j个样本的标签,令:
L i = Σ j = 1 m idx j
其中m表示隶属于第i类样本的个数。Li的取值策略如下:
L i = + 1 L i &GreaterEqual; 0 - 1 L i < 0
通过上述信息浓缩以及标签取值策略的处理,得到新的训练样本集合可表示为X′=[V,L],其中V=[v1,v2,...,vc],L∈{+1,-1}。
4.根据权利要求3所得到的新的训练样本,使用标准的SVM进行训练,并得到分类决策函数,相关的描述如下:
设wT·x+b=0为最优超平面,其中w∈Rn且b∈R。标准支持向量机(即软间隔支持向量机算法,C-SVC),所对应的优化问题如下:
m i n 1 2 | | w | | 2 + C &Sigma; i = 1 m &xi; i
其中,C>0为惩罚参数,用来控制对错分样本的惩罚程度;ξi≥0为松弛变量,用于解决数据中存在的噪声或野值。引入拉格朗日乘子αi≥0后对应的对偶问题为:
m i n 1 2 &Sigma; i = 1 m &Sigma; j = 1 m y i y j &alpha; i &alpha; j ( x i &CenterDot; x j ) - &Sigma; i = 1 m &alpha; i
通过求解对偶问题,得最优解α*=(α1 *,α2 *,...,αN *)T,进而得到原始问题的最优解为:
w * = &Sigma; i = 1 m y i &alpha; i * x i
b * = y j - &Sigma; i = 1 m y i &alpha; i * ( x i &CenterDot; x j )
其中αi *∈(0,C),从而得到最优决策超平面为:
f ( x ) = sgn ( w * &CenterDot; x + b * ) = sgn ( &Sigma; i = 1 m &alpha; i * y i ( x i &CenterDot; x ) + b * )
对于非线性问题,SVM引入核函数,相对应的对偶问题和最优决策超平面变为:
m i n 1 2 &Sigma; i = 1 m &Sigma; j = 1 m y i y j &alpha; i &alpha; j K ( x i , x j ) - &Sigma; i = 1 m &alpha; i
f ( x ) = sgn ( &Sigma; i = 1 m &alpha; i * y i K ( x i &CenterDot; x j ) + b * )
5.根据权利要求4所描述的标准的SVM分类算法,相关的实施步骤如下:设定相应的核函数和惩罚参数C,对浓缩后得到的新训练样本求解凸二次规划问题,得到αi *,从中选取一个αj *>0来计算决策函数,使用此决策函数对待测样本进行决策,若f(x)≥0,则x属于+1类,否则属于-1类。
6.根据权利要求5分类后得到的结果,这里采用了分类准确率来进行评价,准确率的表示形式如下:
通过准确率可以很好的评价本发明的性能。
CN201610040350.XA 2016-01-20 2016-01-20 基于信息浓缩的隐私保护svm分类方法 Pending CN105718948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610040350.XA CN105718948A (zh) 2016-01-20 2016-01-20 基于信息浓缩的隐私保护svm分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610040350.XA CN105718948A (zh) 2016-01-20 2016-01-20 基于信息浓缩的隐私保护svm分类方法

Publications (1)

Publication Number Publication Date
CN105718948A true CN105718948A (zh) 2016-06-29

Family

ID=56153638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610040350.XA Pending CN105718948A (zh) 2016-01-20 2016-01-20 基于信息浓缩的隐私保护svm分类方法

Country Status (1)

Country Link
CN (1) CN105718948A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109143848A (zh) * 2017-06-27 2019-01-04 中国科学院沈阳自动化研究所 基于fcm-gasvm的工业控制系统入侵检测方法
CN109376549A (zh) * 2018-10-25 2019-02-22 广州电力交易中心有限责任公司 一种基于差分隐私保护的电力交易大数据发布方法
WO2023143449A1 (zh) * 2022-01-26 2023-08-03 索尼集团公司 用于隐私保护的方法、装置和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104092686A (zh) * 2014-07-14 2014-10-08 中国科学技术大学苏州研究院 基于svm分类器的隐私保护和数据安全访问的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104092686A (zh) * 2014-07-14 2014-10-08 中国科学技术大学苏州研究院 基于svm分类器的隐私保护和数据安全访问的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙立: "基于隐私保护技术的支持向量机研究", 《CNKI》 *
张向荣 等: "基于FCM聚类算法和SVM的目标分类识别方法", 《计算机科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109143848A (zh) * 2017-06-27 2019-01-04 中国科学院沈阳自动化研究所 基于fcm-gasvm的工业控制系统入侵检测方法
CN109376549A (zh) * 2018-10-25 2019-02-22 广州电力交易中心有限责任公司 一种基于差分隐私保护的电力交易大数据发布方法
WO2023143449A1 (zh) * 2022-01-26 2023-08-03 索尼集团公司 用于隐私保护的方法、装置和系统

Similar Documents

Publication Publication Date Title
Abdoh et al. Cervical cancer diagnosis using random forest classifier with SMOTE and feature reduction techniques
US20230259621A1 (en) Stacking-ensemble-based apt organization identification method and system, and storage medium
Kamishima et al. Fairness-aware classifier with prejudice remover regularizer
CN105930864A (zh) 一种基于abc-svm的脑电信号特征分类方法
Tian et al. A new fuzzy set and nonkernel SVM approach for mislabeled binary classification with applications
CN105718948A (zh) 基于信息浓缩的隐私保护svm分类方法
CN101127029A (zh) 用于在大规模数据分类问题中训练svm分类器的方法
Wang et al. Abnormal detection technology of industrial control system based on transfer learning
CN112927266B (zh) 基于不确定性引导训练的弱监督时域动作定位方法及系统
CN102609693A (zh) 基于模糊二维核主成分分析的人脸识别方法
Lihong et al. Face recognition based on multi-class SVM
CN107885849A (zh) 一种基于文本分类的情绪指数分析系统
Cappozzo et al. Anomaly and Novelty detection for robust semi-supervised learning
Li et al. Support cluster machine
CN106384123A (zh) 基于相关性的特征加权过滤方法及朴素贝叶斯分类方法
CN105868743B (zh) 一种基于快速监督离散哈希的人脸检索方法
CN107563324A (zh) 一种基于核基础超限学习机的高光谱图像分类方法及装置
Webster et al. Generating private data surrogates for vision related tasks
Sudharson et al. Hybrid Quantum Computing and Decision Tree-Based Data Mining for Improved Data Security
Jeong et al. Development and application of a stage-gate process to reduce the underlying risks of it service projects
Chen et al. An automatic vulnerability classification system for IoT softwares
Zhou et al. A novel method for mining abnormal expenses in social medical insurance
Fidanova et al. InterCriteria analysis of different metaheuristics applied to E. coli cultivation process
Nie et al. Intrusion detection based on nonsymmetric sparse autoencoder
Xie et al. Research on SVM based network intrusion detection classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160629

RJ01 Rejection of invention patent application after publication