CN109740683A

CN109740683A - 一种基于RReliefF算法和支持向量回归的趋势预测方法

Info

Publication number: CN109740683A
Application number: CN201910018145.7A
Authority: CN
Inventors: 胡燕祝; 王松
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-01-13
Filing date: 2019-01-13
Publication date: 2019-05-10

Abstract

本发明涉及基于RReliefF算法和支持向量回归的趋势预测方法属于机器学习和数据挖掘领域，其特征在于采用如下步骤：(1)确定类别样本I₁，I₂对特征属性T的差异程度S；(2)更新质量估计权值W[T]；(3)确定特征属性T(t₁，t₂，...，t_s)；(4)训练支持向量回归模型，求解f(x)；(5)将测试集样本作为输入，利用RReliefF算法选取特征向量并输入支持向量回归模型中进行预测，得到预测结果。本发明所建立的基于RReliefF算法和支持向量回归的趋势预测方法，用RReliefF算法进行特征提取，并将其作为支持向量回归模型的输入进行训练，实现了数值预测。通过多组数据实验结果可知，相比于其他模型相比，本发明训练时间更短并且预测精度相对较高，为趋势预测提供了在保证了预测精度的基础上增加模型的训练速度的预测方法。

Description

一种基于RReliefF算法和支持向量回归的趋势预测方法

技术领域

本发明涉及机器学习与数据挖掘领域，主要是一种数值趋势预测方法。

背景技术

目前针对数值趋势预测问题，大多数模型可以达到很高的预测精度，但是模型过于复杂导致训练时间过长。有些模型虽然训练数据较快，但是在模型训练选取数据特征的时候，往往需要经过一些复杂的计算评估流程。在数值趋势预测中，特征数量比较多，其中可能存在不相关的特征，特征之间也可能存在相关性，这容易导致“维度灾难”，使其模型推广能力下降，或者导致模型可能出现不适定的情况，即模型训练得到的参数会因为样本的微小变化而出现较大的波动，因此在特征选择的过程中，大多数模型在特征选择方面进行复杂化，这就导致模型训练时间过长，复杂度升高，降低了模型效果。例如，利用遗传算法进行特征选取的时候，首先需要随机产生一批特征子集，并用评价函数给这些特征子集评分，然后通过交叉、突变等操作繁殖出下一代的特征子集，选取评分越高的特征子集参加繁殖。这样经过N代的繁殖和优胜劣汰后，才能得到评价函数值最高的特征子集，这样虽然可以达到较高的预测精度，但是算法流程过于复杂，在一定程度上降低了模型效率。

我国在数值预测方面也取得了一些丰富成果。例如，利用深度学习在电力负荷、交通流量、空气质量等方面实现了较好的数值预测。随着计算机互联网的飞速发展以及海量数据的指数级增长，对模型的特征选择以及预测速度提出了更高的要求。因此，要实现准确、高效地对某些领域的数值进行预测，达到数值预测的要求，必须建立一种简单、高效的数值趋势预测方法，进一步简化模型的训练流程，提高模型的运行速度，使得模型预测速度更快，为我国经济和商业等领域提供一种精准、高效的数值趋势预测方式，为未来的发展和管理提供指导性意见。

发明内容

针对上述现有技术中存在的问题，本发明要解决的技术问题是提供一种简单、高效的数值趋势预测方法，其具体流程如图1所示。

技术方案实施步骤如下：

(1)确定类别样本I₁，I₂对特征属性T的差异程度S：

式中，value(T，I₁)和value(T，I₂)分别表示具有属性值T的类别样本I₁，I₂的判别值。

(2)更新质量估计权值W[T]：

其中，

P_difA＝P(difvalue(A)|相近的样本)

P_difC＝P(difprediction|相近的样本)，

P_difC|difA＝P((difprediction|difvalue(A))相近的样本)

(3)确定特征属性T(t₁，t₂，...，t_s)：

根据样本对所有属性T的判别值更新质量估计W[T]，进行特征选择。

(4)训练支持向量回归模型，求解f(x)：

式中，x为输入样本，α_i为拉格朗日乘子

(5)将测试集样本作为输入，利用RReliefF算法选取特征向量并输入支持向量回归模型中进行预测，得到预测结果，完成基于RReliefF算法和支持向量回归的趋势预测方法。

本发明比现有技术具有的优点：

(1)本发明采用了将RReliefF算法和支持向量回归组合的方式，用RReliefF算法进行特征提取，并将其作为支持向量回归模型的输入进行训练，实现了数值预测。充分利用了RReliefF算法选取出的特征向量的优点，减少了模型训练时间，提高了模型效率。

(2)本发明对多组数据进行实验，实验结果与现有技术相比都取得了比较明显的优势，相比于其他模型相比，训练时间更短并且预测精度相对较高。这说明本发明在保证了预测精度的基础上提高了模型的训练速度，能够更好的完成趋势预测任务。

为了更好地理解本发明，下面结合附图作进一步的说明。

图1是建立基于RReliefF算法和支持向量回归的趋势预测模型的步骤流程图；

图2是建立基于RReliefF算法和支持向量回归的趋势预测模型的算法流程图；

图3是多组模型的实验结果对比；

图4是多组模型的运行时间对比；

具体实施方案

下面通过实施案例对本发明作进一步详细说明。

以某地区年降水量预测为例，选用的数据集某地区从2000年-2017年共12年的降水量数据，每月采集两次，每年一共24个数据，所以数据集中一共有432条数据记录。其中，345条数据用作训练集，87条用作测试集。特征属性包括该地区经纬度、天气、温度、前三年降水量、地貌、坡度、海拔、主要植物、年份、月份、日期共11个类。

本发明所提供的降水量方法整体流程如图1所示，具体步骤如下：

(1)确定类别样本I₁，I₂对特征属性T的差异程度S：

根据432个样本，11个属性特征计算每个样本对11个特征属性的差异程度。

(2)更新质量估计权值W[T]：

其中，

P_difA＝P(difvalue(A)|相近的样本)

P_difC＝P(difprediction|相近的样本)，

P_difC|difA＝P((difprediction|difvalue(A))|相近的样本)

通过计算，得出11个特征属性对应的质量估计权值并进行更新，取特征属性温度，计算不同样本对其差异度S，并不断更新权值分别为0，35，0.67，0.23，0.39，…，0.56。经过一系列更新后得到最终估计权值0.56.

(3)确定特征属性T(t₁，t₂，...，t_s)：

根据样本对所有属性T的判别值更新质量估计W[T]，进行特征选择。在本例中最终选择的特征属性有天气、海拔、月份、日期、温度以及前三年降水量其对应的判别值更新质量估计为0.71,0.34,0.87,0.44.，0.56,0.85。

(4)训练支持向量回归模型，求解f(x)：

将上一步确定的特征属性作为支持向量回归模型的输入，根据下式对模型进行训练，得到模型参数。

式中，x为输入样本，和α_i为拉格朗日乘子

为了验证本发明对数值趋势预测的准确性，对本发明进行了多组数值趋势预测仿真实验，并将结果与一些数值趋势预测的模型算法进行了对比，仿真结果如表1所示。

表1多种模型实验结果对比

实验方法	RMSE(％)	运行时间(s)
			基于ARIMA模型的降水量预测方法	3.48	0.122
基于支持向量回归的降水量预测方法	3.94	0.094
			基于遗传小波神经网络的降水量预测方法	4.32	0.198
本发明	3.03	0.072

由仿真结果表1可知，在使用同样数据集的情况下，本发明通过RReliefF算法进行特征提取并进行支持向量回归模型训练以后，均方根误差可以缩小到3.03％。与其他三种方法相比，具有更高的精度。同时，相比于其他模型，模型的训练时间更短，这表明本发明提供的方法更高效，这表明本发明建立的数值趋势预测方法是精确、高效的，为建立精确的数值预测模型提供了简单、高效的方法。

Claims

1.基于RReliefF算法和支持向量回归的趋势预测方法，其具体归类步骤如下：

(1)确定类别样本I₁，I₂对特征属性T的差异程度S：

式中，value(T，I₁)和value(T，I₂)分别表示具有属性值T的类别样本I₁，I₂的判别值；

(2)更新质量估计权值W[T]：

其中，

P_difA＝P(difvalue(A)|相近的样本)

P_difc＝P(difprediction|相近的样本)，

P_difC|difA＝P((difprediction|difvalue(A))|相近的样本)

(3)确定特征属性T(t₁，t₂，...，t_s)：

根据样本对所有属性T的判别值更新质量估计W[T]，进行特征选择；

(4)训练支持向量回归模型，求解f(x)：

式中，x为输入样本，α_i为拉格朗日乘子