CN109242173A

CN109242173A - 基于遗传算法改进rnn神经网络股指预测分析方法

Info

Publication number: CN109242173A
Application number: CN201810994105.1A
Authority: CN
Inventors: 张传雷; 陈佳; 李建荣; 于洋; 武大硕
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2019-01-18

Abstract

本发明涉及一种基于遗传算法改进RNN神经网络股指预测分析方法，包括获取股指数据，全面选取特征参数；采用遗传算法，将每一代的特征参数分别代入RNN神经网络模型训练及预测，以均方误差作为适应度，以一定的迭代次数为模型终止条件，选择预测特征最优化组合。本发明从优化神经网络模型和优化特征参数选取两个角度对模型预测能力进行提升，采用RNN神经网络模型可以从原始数据提取到更加抽象和更有代表性的特征，且具有时序与定向循环的优势特性；同时，应用启发式全局搜索算法遗传算法进行特征组合，提升模型的预测精度。从而使得在股票波动较小的阶段准确度得到显著提升，在股票波动较大的阶段也可对其基本趋势进行预测。

Description

基于遗传算法改进RNN神经网络股指预测分析方法

技术领域

本发明属于神经网络技术领域，尤其是一种基于遗传算法改进RNN神经网络股指预测分析方法。

背景技术

随着全球经济的快速发展，人们对于金融市场的关注度逐步提升，关注范伟趋于多元化，包括保险、黄金、债券、股票等。其中，股票市场作为回报相对较高的领域，受到了投资者们的普遍关注。然而，股票市场还有另一特性，即高风险。对于投资者来说，如果能够提前进行股票价格走势预测，则会降低投资的风险，使利益最大化。因此，股指预测问题成为了当前金融领域重点的研究课题。

目前已有的股票预测方法主要包括基本分析法、技术分析法、组合分析法、时间序列法、神经网络法等几大类。由于股市的限制以及股票自身的特性，诸多方法并不能在预测时达到较好的效果，比如最为常用的时间序列预测方法在处理非线性特征数据时并不能得以很好的应用。近几年，随着机器学习在人工智能领域取得重大成就，学者们尝试构建基于机器学习的量化投资模型，如将支持向量机与离散小波结合，将BP神经网络与主成分分析法结合,将BP神经网络和GARCH模型相结合等，但这些方法对处理非线性问题没有优秀的泛化能力，所以预测精度并不准确。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于遗传算法改进RNN神经网络股指预测分析方法，解决解决股指预测精度和准确度不准确的问题。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于遗传算法改进RNN神经网络股指预测分析方法，包括以下步骤：

步骤1、获取股指数据，全面选取特征参数；

步骤2、采用遗传算法，将每一代的特征参数分别代入RNN神经网络模型训练及预测，以均方误差作为适应度，以一定的迭代次数为模型终止条件，选择预测特征最优化组合。

进一步，所述步骤1选取的特征参数包括开盘价、最高价、成家量、涨跌幅、均价、振幅、成交额、市盈率、总市值、市盈率、总股本、市现率、流通A股和自由流通股本。

进一步，所述RNN神经网络模型型的结构为两层LSTM层和一层DENSE层，并采用多输入、单输出的结构。

进一步，所述步骤2的具体实现方法包括以下步骤：

⑴将特征参数进行实数编码，用数字分别表示每个特征；

⑵设置随机产生的初始特征组合作为初始群体，将种群个数设置与变量个数设置保持一致；

⑶应用轮盘赌方式进行选择运算，各个个体被选中的概率与其适应度成正比；

⑷应用单点交叉法进行交叉运算，互换两个个体之间的染色体，设定交叉概率，在交叉运算过程每次产生一个概率，如果随机概率小于交叉概率则进行交换，反之则不进行；

⑸应用基本位变异法进行变异运算，在当代的个体中，将一个基因用一个较小的概率使其改变，设定变异概率，在变异运算过程每次产生一个概率，如果随机概率小于交叉概率则进行变异，反之则不进行；

⑹循环步骤⑶至步骤⑸，迭代50次；

⑺选择适应度最小的的组合作为预测特征最优化组合。

进一步，所述步骤⑷的交叉概率设为0.8。

进一步，所述步骤⑸的变异概率设为0.2。

本发明的优点和积极效果是：

本发明从优化神经网络模型和优化特征参数选取两个角度对模型预测能力进行提升，在模型构建中选择的是RNN神经网络模型，作为深度神经网络模型，它可以从原始数据提取到更加抽象和更有代表性的特征，且具有时序与定向循环的优势特性，更适合分析股票价格走势这样的前后之间相互关联的时间序列预测问题；针对股票预测参数较多这一特性，我们需要对参数进行优化选择，应用启发式全局搜索算法遗传算法进行特征组合，提升模型的预测精度。从而使得在股票波动较小的阶段准确度得到显著提升，在股票波动较大的阶段也可对其基本趋势进行预测。

附图说明

图1为本发明在训练集上的拟合效果图；

图2为本发明在测试集上的拟合效果图。

具体实施方式

以下结合附图对本发明实施例做进一步详述：

本发明从优化神经网络模型和优化特征参数选取两个角度对模型预测能力进行提升，其设计思想为：

1、本发明在模型选择方面，应用的网络模型为RNN神经网络模型，该神经网络模型可以从原始数据提取到更加抽象和更有代表性的特征，且具有时序与定向循环的优势特性，更适合分析股票价格走势这样的前后之间相互关联的时间序列预测问题。在RNN模型中，前一个时序的信息会被应用于后一个时序的信息计算，也就是说，模型隐藏层的节点之间建立了连接，隐藏层的输入包括输入层的输出以及上一时刻隐藏层的输出。在本发明中，我们选择的是一种特殊的RNN模型——LSTM模型通过引入“cell state”概念，利用门限的结构，可以长期保存某个状态。门限包括输入门、遗忘门和输出门，这样使得误差在传播过程中可以有选择性的通过，收敛性较好。

2、本发明在应用的特征参数选取方法为遗传算法，该算法通过基因编码，产生初代种群、进行染色体选择、进行染色体交叉、进行染色体变异等步骤不断产生新的子代以寻找最优组合。遗传算法是一种较为经典的进化算法，它是模拟自然的进化过程，引入了染色体、种群、子代、父代等基本概念，通过不断的进化，搜索最优解。同时，遗传算法是一种全局优化算法，它以较大的概率进行全局搜索，避免了其他优化算法应用梯度下降法容易陷入局部最优解这一问题。遗传的基本步骤包括进行基因编码，产生初代种群、进行染色体选择、进行染色体交叉、进行染色体变异从而不断产生新的子代以寻找最优解。

基于以上设计思想，本发明的基于遗传算法改进RNN神经网络股指预测分析方法，包括以下步骤：

步骤1、获取股指数据，全面选取特征参数。

本步骤在全面选取特征参数时，需要考虑股票的多种因素，包括平均价、开盘价、市盈率、振幅、总市值等多项因素。

本实施例数据来源为Wind数据库提供的2000年1月5日至2018年7月4日的上证综合指数，包括每天的开盘价、最高价、成家量、涨跌幅、均价、振幅、成交额、市盈率、总市值、市盈率、总股本、市现率、流通A股和自由流通股本等14个特征参数指标，具体特征参数指标如附表1所示。

表1特征参数指标

开盘价	最高价	成交量	涨跌幅
				均价	振幅	成交额	市盈率
总市值	市净率	总股本	市现率
				流通A股	自由流通股本

步骤2、采用遗传算法选择预测特征最优化组合。

对于预测特征的选择，我们应用遗传算法选择最优化组合，对每一代的特征组合分别代入LSTM模型训练及预测，以均方误差作为“适应度”，以迭代次数50次为模型终止条件，具体步骤如下：

(1)将特征进行实数编码，用数字分别表示每个特征。由于在遗传的交叉、变异、选择等步骤中均要保持选择的特征个数恒不变，所以此处我们选择的编码类型为实数编码，避免之后的步骤繁琐；

(2)设置随机产生的初始特征组合作为初始群体。通常，种群个数为变量个数的3-5倍，但我们问题复杂度相对较低，设置过多的种群个数不太有必要，所以在实验中我们的种群个数设置与变量个数设置保持一致；

(3)应用轮盘赌方式进行选择运算，各个个体被选中的概率与其适应度成正比。算法过程每次循环产生一个随机概率，随机概率处于的染色体空间中的组合即被复制选择；

(4)应用单点交叉法进行交叉运算，互换两个个体之间的染色体。交叉概率设为0.8，算法过程每次产生一个概率，如果随机概率小于交叉概率则进行交换，反之则不进行。

(5)应用基本位变异法进行变异运算，在当代的个体中，某一个基因用一个较小的概率使其改变。变异概率设为0.2，算法过程每次产生一个概率，如果随机概率小于交叉概率则进行变异，反之则不进行。

(6)循环(3)(4)(5)步骤，直至迭代50次。

算法结束后，适应度最小的，即均方误差最小的组合即为我们寻找的最优解。

这里需要特别说明的是，交叉和变异的过程中可能会出现某个组合特征变量重复，如果遇到这种情况，则设置将该重复变量随机变异为其他变量。

在本实施例中，我们用遗传算法对特征参数进行选择，实验共进行50次，最终选择的参数组合为【最高价，成交量，涨跌幅，成交额，总市值，市现率，自由流通股本】。

下面结合实例对本发明的效果进行说明：

应用LSTM模型进行实验，并对结果进行分析。RNN神经网络模型型基本结构为两层LSTM层和一层DENSE层，采用“多输入，单输出”的结构。基本参数设置如下：

(1)每一天的特征参数个数为7；因在股票预测问题中各预测特征参数之间并不呈明显线性关系，所以我们分别选择参数为3、4、5、6、7、8、9分别进行了实验，最终确定每天输入模型的特征参数个数为7.

(2)时间序列长度为10；依次从第一天的参数输入模型，循环9次，直至得到第10天的预测输出值；即共63个输入向量，我们从图1清晰的理解多输入这个概念。

(3)输出参数个数为1；在前九天的输入特征参数中不包含每天的收盘价，而是通过其他特征参数进行收盘价每日的预测，将预测值与真实值进行对比，用于调整误差。每一个时间步的结果并不逐一输出，只输出最终的预测结果；

(4)批大小为50；每次选择50组样本进行训练，利用平均梯度更新权重；

(5)迭代次数为50；实验过程中，基本到20-30次即收敛；

(6)训练集数据与测试集数据比例为8：2；实验中，将80％的数据代入模型进行训练，其余20％则作为测试集检验模型的精确度与准确度。

最后，我们将得到的特征参数组合代入模型进行训练，并将训练好的网络代入训练集进行回测，结果如图1所示，拟合效果较好。然而，在训练集上取得效果理想并不代表模型的学习能力确实很强，可能存在过拟合现象，所以我们进一步应用模型在20％的测试集进行测试，拟合效果图与相对误差图如图2所示。可以看出，在股票价格波动较小的时间段提出的方法基本能够预测其状态准确度较高，在股票波动较大的时间段也能够对其基本趋势进行预测。另外，我们运用Explained_variance，MAE，MSE，MedAE，R2_score等评价指标对ceshiji预测结果进行分析，由表可见，MSE低至0.0015，R2系数达到了92％，均优于BP算法、SVM算法达到的结果。由此，进一步验证了我们所提出方法的可行性。

评价指标	结果
		explained_variance	0.9229
MAE	0.025
		MSE	0.0015
MedAE	0.0166
		R2_score	0.9202

综上所述，在分析预测股票问题时，应用我们发明的方法能够取得较为满意的结果，一方面，在股票价格波动较小的时间段提出的方法基本能够预测其状态，且准确度较高；另一方面，在股票波动较大的时间段也能够对其基本趋势进行预测。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于遗传算法改进RNN神经网络股指预测分析方法，其特征在于包括以下步骤：

步骤1、获取股指数据，全面选取特征参数；

2.根据权利要求1所述的基于遗传算法改进RNN神经网络股指预测分析方法，其特征在于：所述步骤1选取的特征参数包括开盘价、最高价、成家量、涨跌幅、均价、振幅、成交额、市盈率、总市值、市盈率、总股本、市现率、流通A股和自由流通股本。

3.根据权利要求1所述的基于遗传算法改进RNN神经网络股指预测分析方法，其特征在于：所述RNN神经网络模型型的结构为两层LSTM层和一层DENSE层，并采用多输入、单输出的结构。

4.根据权利要求1所述的基于遗传算法改进RNN神经网络股指预测分析方法，其特征在于：所述步骤2的具体实现方法包括以下步骤：

⑴将特征参数进行实数编码，用数字分别表示每个特征；

⑹循环步骤⑶至步骤⑸，迭代50次；

⑺选择适应度最小的的组合作为预测特征最优化组合。

5.根据权利要求4所述的基于遗传算法改进RNN神经网络股指预测分析方法，其特征在于：所述步骤⑷的交叉概率设为0.8。

6.根据权利要求4所述的基于遗传算法改进RNN神经网络股指预测分析方法，其特征在于：所述步骤⑸的变异概率设为0.2。