CN103902706A

CN103902706A - 一种基于svm的大数据分类预测方法

Info

Publication number: CN103902706A
Application number: CN201410127325.6A
Authority: CN
Inventors: 安俊峰; 龚涛; 卢萌萌; 郭吉政
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2014-07-02
Anticipated expiration: 2034-03-31
Also published as: CN103902706B

Abstract

本发明提供了一种基于SVM的大数据分类预测方法，可以进行大数据样本的有效信息择决操作，获取一种新型决定因素，从而找到一个能够体现原始大数据信息的新型样本C，对于样本C进行SVM分类预测操作，结果表明分类正确率大大的提高，大大的缩短运行时间，是大数据信息处理的一种有效方式。

Description

一种基于SVM的大数据分类预测方法

技术领域

本发明涉及一种分类预测方法，特别是对于大数据的分类预测方法。

背景技术

目前，针对大数据，有效地提取信息是很困难的，因为，数据样本庞大无法研究数据的有效信息，也无法剔除一些无关的数据。

主成分分析(PrincipalComponentAnalysis，PCA)或者主元分析是一种掌握事物主要矛盾的统计分析方法，它可以从多元事物中解析出主要影响因素，揭示事物的本质，简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定n个变量的m个观察值，形成一个n×m的数据矩阵，n通常比较大。对于一个由多个变量描述的复杂事物，人们难以认识，那么可以抓住事物主要方面进行重点分析。如果事物的主要方面刚好体现在几个主要变量上，我们只需要将这几个变量分离出来，进行详细分析。但是，在一般情况下，并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面，PCA就是这样一种分析方法。

支持向量机SVM(SupportVectorMachine)作为一种可训练的机器学习方法。SVM方法是通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间)，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。简单地说，就是升维和线性化。升维，就是把样本向高维空间做映射，一般情况下这会增加计算的复杂性，甚至会引起“维数灾难”，因而人们很少问津。但是作为分类、回归等问题来说，很可能在低维样本空间无法线性处理的样本集，在高维特征空间中却可以通过一个线性超平面实现线性划分(或回归)。一般的升维都会带来计算的复杂化，SVM方法巧妙地解决了这个难题：应用核函数的展开定理，就不需要知道非线性映射的显式表达式；由于是在高维特征空间中建立线性学习机，所以与线性模型相比，不但几乎不增加计算的复杂性，而且在某种程度上避免了“维数灾难”。这一切要归功于核函数的展开和计算理论。

发明内容

本发明的目的是提供一种可以有效地进行有用样本的筛选，便于进行数据分析和数据分类操作等处理的方法。

为了解决上述技术问题，本发明的技术方案是提供了一种基于SVM的大数据分类预测方法，针对一组具有n个决定因素，记为N₁，N₂，...，N_n，样本容量为M的大数据，该大数据共分为p类，第1类样本记为样本M₁₁，M₁₂，M₁₃，...，第2类样本记为样本M₂₁，M₂₂，M₂₃，...，……，第p类样本记为样本M_p1，M_p2，M_p3，...，其特征在于，步骤为：

步骤1、对M个样本进行主成分分析操作，得到贡献率达到某个固定值的个数X；

步骤2、用层次分析法得到每个决定因素的权值T₁，T₂，...，T_n，按照从大到小的顺序取前X个权值；

步骤3、计算得到每类样本中各个样本数据所对应的新型决定因素，将属于同一类样本的所有新型决定因素由小到大排序，取得排列在中间的A％的数据，形成新的样本集C，A的值根据样本容量自行设定，样本容量越大，A越小，取得的有效数据越具有统计价值，其中，第i类样本中第j个样本数据M_ij对应的新型决定因素w_ij的计算过程为：

设样本数据M_ij与N₁，N₂，...，N_n相对应的内容为A_ij1，A_ij2，...，A_ijn，在T₁，T₂，...，T_n及A_ij1，A_ij2，...，A_ijn中取前X个值，则

步骤4、在样本集C中选取一定量的数据作为训练样本，一定量的数据进行预测分析，对样本集C进行基于SVM的样本分类预测。

本发明针对数据样本庞大的大数据的分类方法提出了一种新的解决思路，可以有效的进行有用样本的筛选，便于进行数据分析和数据分类操作等处理。其具有如下优点：具有分类正确率很高的效果，大大的降低样本容量，又不会影响样本的有效信息，减少运行时间，提高大数据的有效处理方式。

附图说明

图1为本发明提供的主要处理流程图；

图2为本发明提供的PCA算法流程图；

图3为SVM原理图；

图4为SVM参数寻优原理图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。

结合图1，本发明提供了一种基于SVM的大数据分类预测方法，针对一组具有n个决定因素，记为N₁，N₂，...，N_n，样本容量为M的大数据，该大数据共分为p类，第1类样本记为样本M₁₁，M₁₂，M₁₃，...，第2类样本记为样本M₂₁，M₂₂，M₂₃，...，……，第p类样本记为样本M_p1，M_p2，M_p3，...，其步骤为：

步骤1、对M个样本进行主成分分析操作，得到贡献率达到某个固定值的个数X，在本实施例中，固定值一般取85％，主成分分析操作简称为PCA操作，有多种方法可以实现PCA操作，比较常见的为图2所示的方法，其步骤一般为：1、生成协方差矩阵；2、计算协方差矩阵的特征值和特征向量；3、计算协方差矩阵的特征值大于阈值(设为1)的个数；4、降序排列特征值；5、选择相应的特征值和特征向量；6、计算白化矩阵；7、统计各个分量的贡献率。

按照上述步骤计算得到第i类样本的样本数据M_i1，M_i2，...，M_in所对应的w_i1，w_i2，...，w_in，将其从小到大排序后，取得位于排列在中间的A％的数据，即完成对第i类样本的操作。依照上述方法，完成对各类样本的操作后，形成新的样本集C。

步骤4、在样本集C中选取一定量的数据作为训练样本，一定量的数据进行预测分析，对样本集C进行基于SVM的样本分类预测。结合图3及图4，基于SVM的样本分类预测通常按照如下步骤进行：(a)数据预处理；(b)选择最佳的SVM参数C、G；(c)利用最佳的参数进行SVM网络训练；(d)SVM网络预测。其中要选取最合理的操作进行SVM分类预测，中间可能用到样本的归一化，如果分类效果不明显，可以将改变归一化的范围或者不进行归一化操作，此操作以具体的数据样本进行处理；SVM参数C、G的选取算法有多种，比如交叉验证选择最佳参数，遗传算法参数寻优方法，粒子群算法参数寻优方法，或者更多的算法，参数C、G的选择要按照使得分类正确率达到最高的效果的方式进行。

Claims

1.一种基于SVM的大数据分类预测方法，针对一组具有n个决定因素，记为N₁，N₂，...，N_n，样本容量为M的大数据，该大数据共分为p类，第1类样本记为样本M₁₁，M₁₂，M₁₃，...，第2类样本记为样本M₂₁，M₂₂，M₂₃，...，……，第p类样本记为样本M_p1，M_p2，M_p3，...，其特征在于，步骤为：

设样本数据M_ij与N₁，N₂，...，N_n相对应的内容为A_ij1，A_ij2，...，A_ijn，在T₁，T₂，...，T_n及_Aij1，A_ij2，...，A_ijn中取前X个值，则