CN103902706A - 一种基于svm的大数据分类预测方法 - Google Patents

一种基于svm的大数据分类预测方法 Download PDF

Info

Publication number
CN103902706A
CN103902706A CN201410127325.6A CN201410127325A CN103902706A CN 103902706 A CN103902706 A CN 103902706A CN 201410127325 A CN201410127325 A CN 201410127325A CN 103902706 A CN103902706 A CN 103902706A
Authority
CN
China
Prior art keywords
sample
data
svm
class
determinative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410127325.6A
Other languages
English (en)
Other versions
CN103902706B (zh
Inventor
安俊峰
龚涛
卢萌萌
郭吉政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201410127325.6A priority Critical patent/CN103902706B/zh
Publication of CN103902706A publication Critical patent/CN103902706A/zh
Application granted granted Critical
Publication of CN103902706B publication Critical patent/CN103902706B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于SVM的大数据分类预测方法,可以进行大数据样本的有效信息择决操作,获取一种新型决定因素,从而找到一个能够体现原始大数据信息的新型样本C,对于样本C进行SVM分类预测操作,结果表明分类正确率大大的提高,大大的缩短运行时间,是大数据信息处理的一种有效方式。

Description

一种基于SVM的大数据分类预测方法
技术领域
本发明涉及一种分类预测方法,特别是对于大数据的分类预测方法。
背景技术
目前,针对大数据,有效地提取信息是很困难的,因为,数据样本庞大无法研究数据的有效信息,也无法剔除一些无关的数据。
主成分分析(PrincipalComponentAnalysis,PCA)或者主元分析是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定n个变量的m个观察值,形成一个n×m的数据矩阵,n通常比较大。对于一个由多个变量描述的复杂事物,人们难以认识,那么可以抓住事物主要方面进行重点分析。如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。但是,在一般情况下,并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面,PCA就是这样一种分析方法。
支持向量机SVM(SupportVectorMachine)作为一种可训练的机器学习方法。SVM方法是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。简单地说,就是升维和线性化。升维,就是把样本向高维空间做映射,一般情况下这会增加计算的复杂性,甚至会引起“维数灾难”,因而人们很少问津。但是作为分类、回归等问题来说,很可能在低维样本空间无法线性处理的样本集,在高维特征空间中却可以通过一个线性超平面实现线性划分(或回归)。一般的升维都会带来计算的复杂化,SVM方法巧妙地解决了这个难题:应用核函数的展开定理,就不需要知道非线性映射的显式表达式;由于是在高维特征空间中建立线性学习机,所以与线性模型相比,不但几乎不增加计算的复杂性,而且在某种程度上避免了“维数灾难”。这一切要归功于核函数的展开和计算理论。
发明内容
本发明的目的是提供一种可以有效地进行有用样本的筛选,便于进行数据分析和数据分类操作等处理的方法。
为了解决上述技术问题,本发明的技术方案是提供了一种基于SVM的大数据分类预测方法,针对一组具有n个决定因素,记为N1,N2,...,Nn,样本容量为M的大数据,该大数据共分为p类,第1类样本记为样本M11,M12,M13,...,第2类样本记为样本M21,M22,M23,...,……,第p类样本记为样本Mp1,Mp2,Mp3,...,其特征在于,步骤为:
步骤1、对M个样本进行主成分分析操作,得到贡献率达到某个固定值的个数X;
步骤2、用层次分析法得到每个决定因素的权值T1,T2,...,Tn,按照从大到小的顺序取前X个权值;
步骤3、计算得到每类样本中各个样本数据所对应的新型决定因素,将属于同一类样本的所有新型决定因素由小到大排序,取得排列在中间的A%的数据,形成新的样本集C,A的值根据样本容量自行设定,样本容量越大,A越小,取得的有效数据越具有统计价值,其中,第i类样本中第j个样本数据Mij对应的新型决定因素wij的计算过程为:
设样本数据Mij与N1,N2,...,Nn相对应的内容为Aij1,Aij2,...,Aijn,在T1,T2,...,Tn及Aij1,Aij2,...,Aijn中取前X个值,则
Figure BDA0000484809590000021
步骤4、在样本集C中选取一定量的数据作为训练样本,一定量的数据进行预测分析,对样本集C进行基于SVM的样本分类预测。
本发明针对数据样本庞大的大数据的分类方法提出了一种新的解决思路,可以有效的进行有用样本的筛选,便于进行数据分析和数据分类操作等处理。其具有如下优点:具有分类正确率很高的效果,大大的降低样本容量,又不会影响样本的有效信息,减少运行时间,提高大数据的有效处理方式。
附图说明
图1为本发明提供的主要处理流程图;
图2为本发明提供的PCA算法流程图;
图3为SVM原理图;
图4为SVM参数寻优原理图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
结合图1,本发明提供了一种基于SVM的大数据分类预测方法,针对一组具有n个决定因素,记为N1,N2,...,Nn,样本容量为M的大数据,该大数据共分为p类,第1类样本记为样本M11,M12,M13,...,第2类样本记为样本M21,M22,M23,...,……,第p类样本记为样本Mp1,Mp2,Mp3,...,其步骤为:
步骤1、对M个样本进行主成分分析操作,得到贡献率达到某个固定值的个数X,在本实施例中,固定值一般取85%,主成分分析操作简称为PCA操作,有多种方法可以实现PCA操作,比较常见的为图2所示的方法,其步骤一般为:1、生成协方差矩阵;2、计算协方差矩阵的特征值和特征向量;3、计算协方差矩阵的特征值大于阈值(设为1)的个数;4、降序排列特征值;5、选择相应的特征值和特征向量;6、计算白化矩阵;7、统计各个分量的贡献率。
步骤2、用层次分析法得到每个决定因素的权值T1,T2,...,Tn,按照从大到小的顺序取前X个权值;
步骤3、计算得到每类样本中各个样本数据所对应的新型决定因素,将属于同一类样本的所有新型决定因素由小到大排序,取得排列在中间的A%的数据,形成新的样本集C,A的值根据样本容量自行设定,样本容量越大,A越小,取得的有效数据越具有统计价值,其中,第i类样本中第j个样本数据Mij对应的新型决定因素wij的计算过程为:
设样本数据Mij与N1,N2,...,Nn相对应的内容为Aij1,Aij2,...,Aijn,在T1,T2,...,Tn及Aij1,Aij2,...,Aijn中取前X个值,则
Figure BDA0000484809590000031
按照上述步骤计算得到第i类样本的样本数据Mi1,Mi2,...,Min所对应的wi1,wi2,...,win,将其从小到大排序后,取得位于排列在中间的A%的数据,即完成对第i类样本的操作。依照上述方法,完成对各类样本的操作后,形成新的样本集C。
步骤4、在样本集C中选取一定量的数据作为训练样本,一定量的数据进行预测分析,对样本集C进行基于SVM的样本分类预测。结合图3及图4,基于SVM的样本分类预测通常按照如下步骤进行:(a)数据预处理;(b)选择最佳的SVM参数C、G;(c)利用最佳的参数进行SVM网络训练;(d)SVM网络预测。其中要选取最合理的操作进行SVM分类预测,中间可能用到样本的归一化,如果分类效果不明显,可以将改变归一化的范围或者不进行归一化操作,此操作以具体的数据样本进行处理;SVM参数C、G的选取算法有多种,比如交叉验证选择最佳参数,遗传算法参数寻优方法,粒子群算法参数寻优方法,或者更多的算法,参数C、G的选择要按照使得分类正确率达到最高的效果的方式进行。

Claims (1)

1.一种基于SVM的大数据分类预测方法,针对一组具有n个决定因素,记为N1,N2,...,Nn,样本容量为M的大数据,该大数据共分为p类,第1类样本记为样本M11,M12,M13,...,第2类样本记为样本M21,M22,M23,...,……,第p类样本记为样本Mp1,Mp2,Mp3,...,其特征在于,步骤为:
步骤1、对M个样本进行主成分分析操作,得到贡献率达到某个固定值的个数X;
步骤2、用层次分析法得到每个决定因素的权值T1,T2,...,Tn,按照从大到小的顺序取前X个权值;
步骤3、计算得到每类样本中各个样本数据所对应的新型决定因素,将属于同一类样本的所有新型决定因素由小到大排序,取得排列在中间的A%的数据,形成新的样本集C,A的值根据样本容量自行设定,样本容量越大,A越小,取得的有效数据越具有统计价值,其中,第i类样本中第j个样本数据Mij对应的新型决定因素wij的计算过程为:
设样本数据Mij与N1,N2,...,Nn相对应的内容为Aij1,Aij2,...,Aijn,在T1,T2,...,TnAij1,Aij2,...,Aijn中取前X个值,则
步骤4、在样本集C中选取一定量的数据作为训练样本,一定量的数据进行预测分析,对样本集C进行基于SVM的样本分类预测。
CN201410127325.6A 2014-03-31 2014-03-31 一种基于svm的大数据分类预测方法 Expired - Fee Related CN103902706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410127325.6A CN103902706B (zh) 2014-03-31 2014-03-31 一种基于svm的大数据分类预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410127325.6A CN103902706B (zh) 2014-03-31 2014-03-31 一种基于svm的大数据分类预测方法

Publications (2)

Publication Number Publication Date
CN103902706A true CN103902706A (zh) 2014-07-02
CN103902706B CN103902706B (zh) 2017-05-03

Family

ID=50994028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410127325.6A Expired - Fee Related CN103902706B (zh) 2014-03-31 2014-03-31 一种基于svm的大数据分类预测方法

Country Status (1)

Country Link
CN (1) CN103902706B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105806400A (zh) * 2016-02-29 2016-07-27 北斗导航位置服务(北京)有限公司 一种消防栓安全状态智能监测方法及系统
CN106339354A (zh) * 2016-08-17 2017-01-18 盐城师范学院 基于改进pca的云计算网络中高维数据可视化方法
CN107944090A (zh) * 2017-10-31 2018-04-20 中国船舶工业系统工程研究院 基于关键部件失效模型的燃气轮机系统性能预测方法
CN109657950A (zh) * 2018-12-07 2019-04-19 泰康保险集团股份有限公司 层次分析方法、装置、设备及计算机可读存储介质
CN112578740A (zh) * 2019-09-30 2021-03-30 冯恩波 一种工业生产过程的故障诊断与处理方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102254040A (zh) * 2011-08-15 2011-11-23 哈尔滨工业大学 一种基于支撑向量机的Web划分方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
董晓睿: "基于支持向量机的多分类模型的研究和设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105806400A (zh) * 2016-02-29 2016-07-27 北斗导航位置服务(北京)有限公司 一种消防栓安全状态智能监测方法及系统
CN106339354A (zh) * 2016-08-17 2017-01-18 盐城师范学院 基于改进pca的云计算网络中高维数据可视化方法
CN106339354B (zh) * 2016-08-17 2018-11-20 盐城师范学院 基于改进pca的云计算网络中高维数据可视化方法
CN107944090A (zh) * 2017-10-31 2018-04-20 中国船舶工业系统工程研究院 基于关键部件失效模型的燃气轮机系统性能预测方法
CN109657950A (zh) * 2018-12-07 2019-04-19 泰康保险集团股份有限公司 层次分析方法、装置、设备及计算机可读存储介质
CN112578740A (zh) * 2019-09-30 2021-03-30 冯恩波 一种工业生产过程的故障诊断与处理方法及系统

Also Published As

Publication number Publication date
CN103902706B (zh) 2017-05-03

Similar Documents

Publication Publication Date Title
CN106815369B (zh) 一种基于Xgboost分类算法的文本分类方法
CN105589806B (zh) 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
CN110298663B (zh) 基于序列宽深学习的欺诈交易检测方法
CN104699772B (zh) 一种基于云计算的大数据文本分类方法
CN104112026B (zh) 一种短信文本分类方法及系统
CN107292350A (zh) 大规模数据的异常检测方法
CN103902706B (zh) 一种基于svm的大数据分类预测方法
CN105550374A (zh) Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN103632168A (zh) 一种机器学习中的分类器集成方法
CN108319987A (zh) 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN104391860A (zh) 内容类别检测方法及装置
CN104766098A (zh) 一种分类器的构建方法
CN104991974A (zh) 一种基于粒子群算法的多标签分类方法
CN104318515B (zh) 基于nnia进化算法的高光谱图像波段降维方法
CN105320967A (zh) 基于标签相关性的多标签AdaBoost集成方法
Dubey et al. A systematic review on k-means clustering techniques
CN108629358B (zh) 对象类别的预测方法及装置
Hu et al. A novel SDN-based application-awareness mechanism by using deep learning
Krawczyk et al. Incremental weighted one-class classifier for mining stationary data streams
CN110581840B (zh) 基于双层异质集成学习器的入侵检测方法
Jingbiao et al. Research and improvement of clustering algorithm in data mining
Dahiya et al. A rank aggregation algorithm for ensemble of multiple feature selection techniques in credit risk evaluation
CN105512675A (zh) 一种基于记忆性多点交叉引力搜索的特征选择方法
JPWO2020095357A1 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
Tao et al. Subspace Selective Ensemble Algorithm Based on Feature Clustering.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170503

Termination date: 20200331