CN105426915A

CN105426915A - 基于支持向量机的预测方法及系统

Info

Publication number: CN105426915A
Application number: CN201510811705.6A
Authority: CN
Inventors: 雍珊珊; 王新安; 郭到鑫; 商亚洲; 彭然
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2015-11-20
Filing date: 2015-11-20
Publication date: 2016-03-23

Abstract

本申请涉及基于支持向量机的预测方法及系统，包括按照常规支持向量机预测算法和常规支持向量机分类算法对训练数据分别进行训练，分别得到预测模型和分类模型；将测试数据分别输入预测模型和分类模型，分别得到预测结果和分类结果；根据所述预测结果和所述分类结果的区间关系，确定所述预测结果的正确性；在确定出所述预测结果正确后，输出按所述预测模型预测的预测结果。本申请通过采用常规SVM预测算法与分类算法相结合，相互印证，筛选出不一致的结果，由此得到合适的预测模型，从而可以提高预测结果的准确性，并使得即使只有少量训练样本，由于结合了分类算法得到的分类结果予以判断，所以可以提高SVM算法的精度。

Description

基于支持向量机的预测方法及系统

技术领域

本申请涉及机器学习技术领域，尤其涉及一种基于支持向量机的预测方法及系统。

背景技术

支持向量机(SupportVectorMachine，SVM)是CorinnaCortes和Vapnik等于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。在机器学习中，支持向量机是与相关的学习算法有关的监督学习模型，可以分析数据、识别模式、以及用于分类和回归预测分析。

目前在使用SVM进行回归预测分析的实际应用中，经常会出现训练样本过于庞大的情况，使得SVM样本训练过于耗时耗力，甚至造成对样本数据的浪费，使样本数据利用率低下。另一方面，研究者在回归预测分析中通常只利用SVM建立回归模型，然后直接对测试数据进行预测。该方法存在精度不高的问题，原因在于单一回归模型不能完全反映被研究对象之间的复杂关系。

发明内容

本申请提供一种基于SVM的预测方法及系统，其可应用于众多领域，旨在提高使用SVM算法的预测精度的同时，还减少了对训练样本量的需求。

根据本申请的一个方面，本申请实施例提供一种基于SVM的预测方法，包括：按照常规支持向量机预测算法和常规支持向量机分类算法对训练数据分别进行训练，分别得到预测模型和分类模型；将测试数据分别输入预测模型和分类模型，分别得到预测结果和分类结果；根据所述预测结果和所述分类结果的区间关系，确定所述预测结果的正确性；在确定出所述预测结果正确后，输出按所述预测模型预测的预测结果。

根据本申请的另一方面，本申请实施例提供一种基于SVM的预测系统，包括：常规训练模块，用于按照常规支持向量机预测算法和常规支持向量机分类算法对训练数据分别进行训练，分别得到预测模型和分类模型；测试模块，用于将测试数据分别输入预测模型和分类模型，分别得到预测结果和分类结果；判断模块，用于根据所述预测结果和所述分类结果的区间关系，确定所述预测结果的正确性；预测模块，用于在确定出所述预测结果正确后，输出按所述预测模型预测的预测结果。

本申请实施例通过采用常规SVM预测算法与分类算法对训练数据分别进行训练，来得到预测模型和分类模型，然后将测试数据分别输入预测模型和分类模型以得到预测结果和分类结果，对这两种结果进行区间关系判断，以此确定预测模型的预测结果是否正确，使得即使只有少量训练样本，由于结合了分类算法得到的分类结果予以判断，从而可以提高预测的精度。

附图说明

图1是本申请一实施例的基于SVM的预测方法的流程示意图；

图2是图1所示实施例的细化过程示意图；

图3是本申请一实施例的基于SVM的预测系统的结构示意图。

具体实施方式

常规SVM预测算法是首先使用训练数据建立预测模型model_B，最后将测试数据经过预测模型model_A得到预测结果。而常规SVM分类算法则是，其首先对训练数据进行标定，例如常见的两类分类器中将训练数据标定为1和-1，然后使用训练数据建立分类模型model_B，最后将测试数据经过分类模型model_B得到分类结果。如前述如果仅利用这样的常规方法建立SVM预测模型，其存在精度不高、需要大量训练样本的问题。

对此，本申请提出一种新的SVM建模方法，将常规SVM分类算法和常规SVM预测算法相结合，并将其应用于SVM建模中。本申请提供的基于SVM的预测方法将SVM预测算法与SVM分类算法相结合，相互印证，筛选出不一致的结果，由此得到合适的预测模型，从而可以提高预测结果的准确性，实现提高SVM算法的精度。更进一步地，本申请在得到合适的预测模型后，在实际预测过程中，对同一测试数据进行复制后再输入预测模型，获得多个预测值，再对这些预测值进行去除最大最小值后求平均，将平均值作为最终的预测结果，从而进一步提高了预测结果的准确度。

为使本申请的目的、技术方案和优点更加清楚明白，下面将通过具体实施例并结合参考附图对本申请作进一步说明。

如图1和图2所示，为本申请一实施例提供的一种基于SVM的预测方法的流程示意图，包括常规训练步骤S11、测试步骤S13、判断步骤S15和预测步骤S17。

在常规训练步骤S11中，按照常规SVM预测算法和常规SVM分类算法对训练数据分别进行训练，并分别得到预测模型model_A和分类模型model_B。这里常规SVM预测算法和常规SVM分类算法是指本领域普通技术人员公知的相关的SVM预测算法和SVM分类算法，本申请对此不做限制。

在测试步骤中S13，将测试数据分别输入预测模型model_A和分类模型model_B，并分别得到预测结果result_A和分类结果result_B。这里将测试数据输入预测模型和分类模型并进行训练得到对应的结果的过程，也可采用本领域普通技术人员公知的相关技术实现，本申请对此不做限制。

在判断步骤S15中，根据预测结果result_A和分类结果result_B的区间关系，确定预测结果result_A的正确性。一种具体实现中，SVM预测算法涉及的训练数据形式采用精确数值，SVM分类算法涉及的训练数据形式是将精确数值按不同的幅值范围归类到不同区间，将区间数值应用于建立SVM的分类网络。在本实施例，在步骤S15中，判断预测结果result_A是否属于分类结果result_B所在的区间，如果属于，则保留预测结果result_A；如果不属于，则丢弃预测结果result_A，然后重新进行预测，例如返回步骤S11，按照常规SVM预测算法重新训练预测模型。

在预测步骤S17中，在确定出预测结果result_A正确(即确定预测结果result_A属于分类结果result_B所在的区间)后，本实施例的做法是将该预测结果result_A作为最终的预测结果输出。

本实施例通过采用常规SVM预测算法与SVM分类算法相互结合，同时使用，能够充分利用SVM在分类和回归预测方面的应用，提高了支持向量机算法的精度。

对于预测步骤S17，在另一实施例中，其在确定出预测结果result_A正确(即确定预测结果result_A属于分类结果result_B所在的区间)后，保留当前的预测模型model_A。然后或者同时，复制每一个测试数据Dci(i为正整数)，得到多个同一测试数据如Dc1、Dc2、…、Dcn，n为总个数，然后将这多个同一测试数据Dc1、Dc2、…、Dcn输入预测模型model_A进行预测，得到多个预测值Rc1、Rc2、…、Rcn，接着对这多个预测值Rc1、Rc2、…、Rcn去掉最大值和最小值，而后求取平均值，该平均值作为最终的预测结果输出。对于该实施例，预测模型建立成功后，实际预测过程中，对同一个数据输入进行复制后再输入模型中，从而可获得多个预测值，对这些预测值去掉最大值和最小值，然后求平均值，作为最终的预测结果，这样可充分利用有限数据进一步提高模型精度。

又一实施例中，对于常规训练步骤S11，应用于常规SVM预测算法的训练数据和应用于SVM分类算法的训练数据是同一组数据，但是所得到的分类模型和预测模型在建立时所使用的参数形式不相同；这样，通过将SVM预测算法和SVM分类算法同时使用，充分利用有限数据，减少了对训练样本量的需求，同时也能够提高支持向量机算法的精度。

基于上述实施例，本申请另一实施例还提供了一种基于支持向量机的预测系统，如图3所示，包括常规训练模块11，用于按照常规支持向量机预测算法和常规支持向量机分类算法对训练数据分别进行训练，分别得到预测模型和分类模型；测试模块13，用于将测试数据分别输入预测模型和分类模型，分别得到预测结果和分类结果；判断模块15，用于根据所得到的预测结果和分类结果的区间关系，确定预测结果的正确性；以及预测模块17，用于在确定出预测结果正确后，输出按所得的预测模型预测的预测结果。其中各模块的实现及其功能描述可参考前述例如图1和图2所示实施例的相关内容，在此不作重述。

通过以上描述可知，本申请实施例将SVM预测算法和SVM分类算法相互结合，相互印证，筛选出不一致的结果，可以在得到支持向量机预测算法的预测结果和分类算法的分类结果的基础上，能够提高结果的准确性，实现提高支持向量机算法的精度，同时这样还可以减少对训练样本量的需求，对于后续研究人员使用SVM算法进行科研将有重要的意义。进一步地，模型建立成功后，实际预测过程中，对同一个数据输入进行复制后再输入模型中，从而可获得多个预测值，对这些预测值去掉最大值和最小值，然后求平均值，作为最终的预测结果，进一步提高SVM算法的精度。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种基于支持向量机的预测方法，其特征在于，包括：

常规训练步骤：按照常规支持向量机预测算法和常规支持向量机分类算法对训练数据分别进行训练，分别得到预测模型和分类模型；

测试步骤：将测试数据分别输入预测模型和分类模型，分别得到预测结果和分类结果；

判断步骤：根据所述预测结果和所述分类结果的区间关系，确定所述预测结果的正确性；

预测步骤：在确定出所述预测结果正确后，输出按所述预测模型预测的预测结果。

2.如权利要求1所述的方法，其特征在于，所述判断步骤包括：

判断所述预测结果是否属于所述分类结果所在的区间，

如果所述预测结果不属于所述分类结果所在的区间，则丢弃当前的所述预测模型，按照所述常规支持向量机预测算法重新训练预测模型；

如果所述预测结果属于所述分类结果所在的区间，则保留当前的所述预测模型。

3.如权利要求2所述的方法，其特征在于，所述预测步骤中，在确定出所述预测结果正确后，直接输出所述预测结果；

或者，所述预测步骤包括：在确定出所述预测结果属于所述分类结果所在的区间后，对每一个测试数据进行复制，得到多个同一测试数据，将所述多个同一测试数据输入所述预测模型进行预测，得到多个预测值，对所述多个预测值去掉最大值和最小值后求取平均值，所述平均值作为最终的预测结果输出。

4.如权利要求1所述的方法，其特征在于，在所述常规训练步骤中，应用于常规支持向量机预测算法的训练数据和应用于支持向量机分类算法的训练数据是同一组数据；所得到的分类模型和预测模型在建立时所使用的参数形式不相同。

5.如权利要求1所述的方法，其特征在于，在所述常规训练步骤中，按照常规支持向量机预测算法进行训练的训练数据的形式是直接采用的数值方式，按照常规支持向量机分类算法进行训练的训练数据的形式是将数值按不同的幅值划分到不同区间，以将对应的区间数值应用于建立支持向量机分类网络。

6.一种基于支持向量机的预测系统，其特征在于，包括：

常规训练模块，用于按照常规支持向量机预测算法和常规支持向量机分类算法对训练数据分别进行训练，分别得到预测模型和分类模型；

测试模块，用于将测试数据分别输入预测模型和分类模型，分别得到预测结果和分类结果；

判断模块，用于根据所述预测结果和所述分类结果的区间关系，确定所述预测结果的正确性；

预测模块，用于在确定出所述预测结果正确后，输出按所述预测模型预测的预测结果。

7.如权利要求6所述的系统，其特征在于，所述判断模块具体用于判断所述预测结果是否属于所述分类结果所在的区间，

8.如权利要求7所述的系统，其特征在于，所述预测模块用于在确定出所述预测结果正确后，直接输出所述预测结果；或者所述预测模块具体用于在确定出所述预测结果属于所述分类结果所在的区间后，对每一个测试数据进行复制，得到多个同一测试数据，将所述多个同一测试数据输入所述预测模型进行预测，得到多个预测值，对所述多个预测值去掉最大值和最小值后求取平均值，所述平均值作为最终的预测结果输出。

9.如权利要求6所述的系统，其特征在于，在所述常规训练模块中，应用于常规支持向量机预测算法的训练数据和应用于支持向量机分类算法的训练数据是同一组数据；所得到的分类模型和预测模型在建立时所使用的参数形式不相同。

10.如权利要求6所述的系统，其特征在于，在所述常规训练模块中，按照常规支持向量机预测算法进行训练的训练数据的形式是直接采用的数值方式，按照常规支持向量机分类算法进行训练的训练数据的形式是将数值按不同的幅值划分到不同区间，以将对应的区间数值应用于建立支持向量机分类网络。