CN110610419A

CN110610419A - 一种基于小波变换与长短期记忆神经网络融合的股票价格预测方法及装置

Info

Publication number: CN110610419A
Application number: CN201910413213.XA
Authority: CN
Inventors: 刘慧�; 刘鑫; 郭强; 张彩明
Original assignee: Shandong University of Finance and Economics
Current assignee: Shandong University of Finance and Economics
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-12-24

Abstract

本发明提供一种基于小波变换与长短期记忆神经网络融合的股票价格预测方法及装置，与傅里叶变换相比，通过引入可变的尺度因子和平移因子,有效地解决了时频局部化的矛盾。小波变换对时间和空间上频率的局部信息进行分析,通过伸缩和平移操作对时间序列进行多尺度多方面的细化,最终可以达到频率细分的目的,能自动适应时间序列分析的要求,可聚焦到时间序列的任意方面,解决了傅里叶变换的困难问题。LSTM通过增加细胞状态的连接,在较长的序列中有更好的表现,并有效解决了RNN随着隐藏层数增加产生的梯度消失和梯度爆炸问题。本发明将小波变换和长短期神经网络融合,通过频率信息的建模减小预测误差，提高预测精度。

Description

一种基于小波变换与长短期记忆神经网络融合的股票价格预测方法及装置

技术领域

本发明涉及数据信息技术领域，尤其涉及一种基于小波变换与长短期记忆神经网络融合的股票价格预测方法及装置。

背景技术

目前证券市场日益完善,越来越多的投资者进入股票市场,试图捕捉市场的潜在模式。受公司决策、政府政策、跨市场的突发新闻等因素的影响,股票市场具有强烈的波动性和非稳定性,这也给未来价格趋势的预测增加了难度。股票价格预测可以理解和把握股票市场的运行规律,把握货币政策传导机制。从实践意义上说,股票价格预测可以在股票市场剧烈波动情况下有效地选择和实施货币政策,有助于减轻和消除来自股票市场的不稳定因素,从而进一步提高各国宏观经济的运行质量。

目前,各种各样的数学模型和神经网络模型都已经被应用到股票市场,并在某些方面取得一些进展。早期,学者们利用自回归滑动平均模型(ARMA)分析中国股指收益的动态,将股票收益分解为几个组成部分,并利用最小二乘法估计出其模型参数进行预测。ARMA模型在固定尺寸的滑动窗口中使用紧邻的先前数据进行价格预测,虽然增加滑动窗口的大小可以包含股票价格的长期趋势,但随着窗口尺寸增加,它增加了模型的复杂性,往往产生过拟合的风险。因此,ARMA模型更适用于平稳线性的时间序列,而股票价格序列通常是高度非线性和非平稳的,这限制了ARMA模型在股票价格序列的实际应用。随着机器学习的发展,研究者提出利用卷积神经网络(CNN)来进行股票价格预测。卷积神经网络通过卷积操作提取股票价格序列的特征,并对特征进行加工处理可以在一定程度上预测出股票价格的大体趋势,但并没有体现出股票数据的时序特点。后来,人们提出利用在时间序列预测方面具有一定优势的神经网络模型进行预测,例如循环神经网络(RNN)和长短期记忆网络(LSTM),二者可以很好地发挥股票价格的时序特点,预测股票序列的未来趋势并拟合股票价格序列。然而,对于以上模型而言,其不足是都没有揭示股票价格序列的多频特征。因此,有学者提出利用傅里叶变换提取股票的时频信息,并将这些时频信息和神经网络结合进行股票价格预测。傅立叶变换把时间序列的时域特征和频域特征联系在一起,从序列的时域和频域两个角度进行观察和分析,但是二者却是绝对分离的,即在频域不包含任何时域信息,在时域中同样找不到任何频域信息的影子。因此傅里叶变换处理股票价格这种非平稳序列时往往产生时频局部化的矛盾。

发明内容

本发明通过引入可变的尺度因子和平移因子,有效地解决了时频局部化的矛盾，解决了傅里叶变换的困难问题。

为此，本发明方法包括：

步骤一，基于离散小波变换对股票序列进行小波分解；

步骤二，将小波变换与长短期记忆神经网络进行融合；

步骤三，配置Wav-LSTM的权重矩阵。

本发明还提供一种实现基于小波变换与长短期记忆神经网络融合的股票价格预测方法的装置，包括：

存储器，用于存储计算机程序及股票价格预测方法；

处理器，用于执行所述计算机程序及股票价格预测方法，以实现股票价格预测方法的步骤。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供的股票价格预测方法与傅里叶变换相比，通过引入可变的尺度因子和平移因子,有效地解决了时频局部化的矛盾。小波变换对时间和空间上频率的局部信息进行分析,通过伸缩和平移操作对时间序列进行多尺度多方面的细化,最终可以达到频率细分的目的,能自动适应时间序列分析的要求,可聚焦到时间序列的任意方面,解决了傅里叶变换的困难问题。小波变换是捕获股票价格序列时域和频域特征的有效方法,而长短期记忆神经网络(LSTM) 是循环神经网络(RNN)的改进。相比于普通的RNN,LSTM通过增加细胞状态的连接,在较长的序列中有更好的表现,并有效解决了RNN随着隐藏层数增加产生的梯度消失和梯度爆炸问题。本发明将小波变换和长短期神经网络融合,通过频率信息的建模减小预测误差，提高预测精度。

附图说明

为了更清楚地说明本发明的技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为小波分解示意图；

图2为LSTM架构示意图；

图3为Wav-LSTM模型示意图；

图4为频率分量对比示意图；

图5为预测与实际对比示意图；

图6为参数对比示意图；

图7为股票价格预测方法流程图。

具体实施方式

本发明提供一种基于小波变换与长短期记忆神经网络融合的股票价格预测方法，如图1至7所示，方法包括：

S1，基于离散小波变换对股票序列进行小波分解；

小波变换分析具有时频局部化性质的序列分析方法。其关键是对序列进行小波分解。ψ(t)为平方可积函数,即ψ(t)∈L²,其傅里叶变换为若满足以下条件:

则ψ(t)被称为基小波。基小波经过伸缩和平移操作之后得到新的小波序列,称为子小波:

ψ_a,b(t)为依赖于参数a,b的小波基函数。其中a为伸缩因子或尺度因子,改变a 的大小即对基小波序列作伸缩变换。b为平移因子,改变b大小即对基小波序列作平移变换。由于尺度因子和平移因子是取连续变化的值,因此称ψ_a,b(t)为连续小波基函数。

对于随机时间序列f(t),f(t)∈L²(R),将f(t)利用小波基函数进行展开,展开为序列f(t)的连续小波变换:

其中,为ψ(t)的复共轭函数,W_f(a,b)为小波变换的系数。从公式(3)可以看出,通过对小波变换系数的分析可以表示出ψ(t)的时频局部化特性。用小波变换处理实际问题时,在一些离散的点上进行伸缩操作和平移操作,并且对伸缩因子和平移因子作离散化处理,取

该过程为离散小波变换:

本发明采用离散小波变换对股票序列进行小波分解。对股票序列进行小波分解的过程和示意图如图1所示,X＝{X₁,X₂,...,X_T}表示股票序列,L_i表示低频信息,H_i表示高频信息,C中保存的是分解的低频信息和高频信息,L记录C中分解股票序列的长度大小。可以看出,小波分析的每一次分解是对原始股票序列或上一层的低频序列进行的,每次分解得到一个低频序列和一个高频序列, 而长度是上一层序列信息的一半。如果该模型只进行一层小波分解,仅能够将数据分为一层低频分量和一层高频分量,并没有充分提取股票的频率信息；而小波三层分解会将数据分为4层频率信息,导致预测和重构过程中产生较多噪声,从而影响实验结果。因此，本发明采用两层小波分解。

S2，将小波变换与长短期记忆神经网络进行融合；

长短期记忆神经网络(Long Short-Term Memory,LSTM)是递归神经网络(Recurrent Neural Network,RNN)的变种。与前馈神经网络不同,RNN包含随时间推移的自身发展的隐藏状态。当通过时间反向传播(Back Propagation Through Time,BPTT)进行训练时,传统的RNN会出现梯度消失和梯度爆炸的问题,无法捕捉时间序列中的长期依赖性,因此本发明采用LSTM神经网络来解决这个问题。LSTM神经网络中增加细胞结构使其能从历史价格中维持交易模式的长期记忆。相比普通的RNN,LSTM在较长的时间序列中有更好的表现, 并通过设定阈值和正则化有效地解决了梯度消失和梯度爆炸问题。

LSTM神经网络的核心是基于细胞状态的连接,同时在细胞中加入了三个门结构:忘记门f_T、输入门i_T和输出门O_T。三种类型的门结构控制每次进入和离开细胞单元的信息,LSTM的门架构使其能够在时间序列中平衡对股票价格的短期和长期依赖性。

图2为LSTM架构图,C_T代表细胞状态向量,H_T为C_T输出的细胞隐层状态向量,W为权重矩阵,b为偏置向量,σ为sigmoid激活函数,tanh为双曲正切激活函数。忘记门控制在细胞单元中应丢弃的信息,给定时间序列T,X_T代表输入的股票序列,H_T-1是上一个细胞隐层状态向量,公式(6)得到忘记信息f_T。

f_T＝σ(W_f[H_T-1,X_T]+b_f) (6)

输入门调节新信息量流入细胞单元,在公式(7)(8)中,输入的序列分别经过sigmoid层和tanh层得到细胞更新信息i_T和待更新细胞公式(9)将更新信息和遗忘信息与细胞状态结合得到新的细胞状态C_T。

i_t＝σ(W_i[H_T-1,X_T]+b_i) (7)

输出门定义了可以输出的信息量。公式(10)确定了sigmoid层的输出O_T,但这并不是细胞最终的输出,O_T需要经过细胞状态和tanh层的处理得到细胞最终的输出H_T。

O_T＝σ(W_O[H_T-1,X_T]+b_o) (10)

H_T＝O_T*tanh(C_T) (11)

LSTM是RNN的一个优秀的变种模型。与其他神经网络相比,LSTM继承了大部分RNN模型的特性,例如:将上一个隐层的的输出作为下一个隐层的输入,利用反向传播训练误差等,在此基础上LSTM还加入有助于时间序列的长期记忆的细胞门结构,并通过设定阈值和正则化解决了RNN中常见的梯度消失和梯度爆炸问题,由此看出LSTM非常适合用于处理与时间序列高度相关的问题,因此本发明将LSTM应用到股票预测中。

小波变换能够捕获股票价格序列时域和频域的特征,LSTM可以在较长序列中达到满意的预测效果,因此本发明将二者结合,提出一种基于小波变换与长短期记忆神经网络融合的股票价格预测模型(Wav-LSTM)。

S3，配置Wav-LSTM的权重矩阵。

股票序列的时间相关性与频率密切相关。短期的股票趋势更依赖于高频价格数据,而长期趋势则更关注低频股票数据。

如图3所示,模型输入的股票序列表示为X＝{X₁,X₂,...,X_T},每一层小波分解产生的低频信号和高频信号分别表示为X_L(i)和X_H(i),低频信号继续进入下一层经过小波分解得到X_L(i+1)和X_H(i+1),以此类推，将全部股票价格序列经小波完全分解之后得到最终的股票频率序列为：

X'＝{X_H(1),X_H(2),...,X_H(N),X_L(N)},N代表小波分解层数,且频率由高到低排列。然后,模型将分解得到的低频信息X_L(i)和高频信息X_H(i)作为单独的时间序列,分别输入到LSTM网络中进行训练,每个LSTM神经网络都会预测出股票价格数据的一组频率信息，最后利用小波重构将预测出的各种频率信息融合得到预测的股票数据

股票预测的目标是利用前T天的股票价格对股票序列X进行N步预测,其中 N≥1。N步预测有以下定义:

f:V_T+N＝W*h_T+b (13)

其中,f为前T天的历史价格到第T+N天的价格映射,V_T+N为股票序列标准化之后的价格,W和b分别为权重向量和偏差向量,Wav-LSTM中的非线性隐藏向量h_T给股票价格增加了非线性因素。本发明采用基于时间的反向误差传播算法(BPTT)来训练Wav-LSTM模型。利用小波变换将股票价格数据分解为频率分量,为了增加模型的收敛速度,利用公式(14)将频率分量离差标准化：

其中为标准化的频率分量X为频率分量均值,将输入Wav-LSTM模型,并通过目标函数(15)训练模型:

其中是Wav-LSTM得到的预测值,y是实际值。使用BPTT算法优化目标函数,θ为Wav-LSTM模型的优化参数,利用BPTT算法迭代的将优化参数θ不断更新为

其中η为可调节的学习率。Wav-LSTM中的权重矩阵W^H(i)和W^L(i)同样在公式(16)中训练,但是训练参数的过程中存在一个问题,即模型在参数训练过程中可能会遗忘初始值。为了解决这个问题,本发明在目标函数中引入两个正则项和

这两个正则化项为模型权重矩阵的F范数,其中正则化权重矩阵和是与优化权重矩阵W^L(i)和W^H(i)相同的矩阵,α和β为超参数,设定为经验值,采用BPTT算法迭代更新Wav-LSTM中的权重矩阵。

基于本发明提出的基于小波变换与长短期记忆神经网络融合的股票价格预测方法，通过具体实现方式来进行进一步说明。

本实现方式分为两部分,第一部分将Wav-LSTM模型和基线模型进行比较。第二部分讨论小波分解层数和时间步长两个参数对Wav-LSTM模型的影响。考虑到2008年全球金融危机对股票市场产生的影响,本发明采用2009年至今的沪深300的大盘数据和其他个股数据作为数据集。并将大盘数据作为训练集,个股数据作为测试集。

1、基线比较：

实验首先对数据进行离差标准化处理,用于提高数据在训练过程中的收敛速度,然后选择离散小波函数将数据分解到各个频域。如图4所示,(a)图从上到下分别对应着股票真实值从低到高的频率分量。这些频率分量将股票数据大部分的有效信息保留其中。通过小波分解将得到的频域信息作为Wav-LSTM 模型的输入,并通过基于时间的反向传播方法训练得到如(b)图所示的预测频率信息,最后对训练得到的预测频率分量进行小波重构,输出预测结果。

本发明将Wav-LSTM模型与以下基线模型进行比较:1、RNN神经网络；2、 LSTM神经网络。3、基于小波分解的RNN神经网络模型,循环神经网络和长短期神经网络是两种广泛应用于股票预测的经典神经网络模型,且极具代表性。在实验结果的量化对比方面,本发明使用平均百分比误差(MAPE)均方根误差(RMSE)来对模型性能进行评估。

其中x_t表示股票序列中第t个样本的实际值,表示实验得到的预测值。理论上,训练过程中的误差可以通过足够复杂的模型来降低。但是训练集上的低误差并不意味着较低的测试集误差,并且复杂的模型还会增加过度拟合的风险。因此,通过大量实验分析,最终设定学习率为0.0006,时间步长为3,隐藏层的层数为2,迭代次数为500次。

为使实验对比效果更加清晰,本发明并未放入RNN的预测曲线。图5展示了本发明模型和基线模型与真实值的曲线拟合图和最近30天预测结果的局部放大图。从图5(a)中可以看出,这几种模型都可以拟合出股票价格的未来趋势, 但很明显Wav-LSTM模型拟合地更好；特别是通过图5(b)的局部放大看出 Wav-LSTM模型滞后更小,预测更精确。股票价格预测的滞后是预测过程中无法避免的问题,滞后是指股票预测结果的上涨或下跌过程要比真实序列有时间上的延后,即两者存在一定的时间差。通过比较RNN、Wav-RNN、LSTM及本发明Wav-LSTM的实验误差,发现LSTM在股票预测方面的性能更好。这也充分体现了LSTM神经网络模型在捕捉股票市场价格趋势的优越性；而通过比较 RNN、LSTM和Wav-RNN、Wav-LSTM的实验结果,证明了小波变换与神经网络的结合比简单地神经网络在股票预测方面更具优势。

表1误差分析

2、参数分析：

为了检验实验参数对预测结果的影响,本发明将对Wav-LSTM模型的小波分解层数和时间步长进行分析。

如图6(a)所示,Wav-LSTM的两层分解和三层分解都可以捕捉到股票的价格趋势,但Wav-LSTM两层分解的预测效果更好。由表2的误差分析也可以看出,Wav-LSTM神经网络模型在一层分解和三层分解的预测结果误差较大。这是因为小波一层分解产生2层频率分量,并没有充分提取股票的频率信息；而小波三层分解会将数据分为4层频率信息,分解的频率过多导致在预测和重构过程中易产生噪声,从而实验误差变大,。因此本发明模型采用两层小波分解。

表2 Wav-LSTM小波分解层数误差分析

如图6(b)所示,Wav-LSTM模型的1-step预测和3-step预测的拟合曲线基本重合,但5-step状态下预测曲线与真实值相差较大。从表3的误差分析也可以看出,1-step预测和3-预测的实验误差相差无几,但5-step的实验误差较大。这说明随着时间步长的增加,细胞需要记忆的信息量增多,细胞记忆能力不足,导致预测误差变大。

表3 Wav-LSTM时间步误差分析

通过上述两组实验可以看出,小波分解层数和时间步长这两个指标对 Wav-LSTM模型的预测结果具有重要影响。

股票价格反映了以不同速度进行的交易活动而产生的多频率模式,有效挖掘相关的频率模式为未来的价格趋势提供了有用的线索。本发明利用这些频率模式,提出了一种基于小波变换与长短期记忆神经网络融合的股票价格预测模型(Wav-LSTM)。Wav-LSTM模型利用小波变换提取股票价格的频率分量, 再用LSTM对频率信息训练得到预测频率分量,最后对预测分量进行小波重构得到预测股票序列,其优势如下:

(1)小波变换通过分析股票序列时间域和频率域信息,对股票序列进行多尺度多方面的细化,最终可以充分提取股票序列高频和低频信息。

(2)与其他神经网络相比,长短期神经网络在较长的股票序列中有更好的预测性能,并通过设定阈值和正则化有效地解决了梯度消失和梯度爆炸问题。

(3)Wav-LSTM兼顾了小波变换和LSTM模型在股票序列时频分解和价格预测方面的优势。实验发现与以往的股票价格预测模型相比,Wav-LSTM有较强的预测能力。

本发明通过实验证明,小波分解层数和时间步长对模型的预测结果有重要影响。Wav-LSTM模型利用股票价格序列的频率信息,有效降低了预测误差, 提高了模型的预测精度,具有较强的预测能力。

本发明还提供一种实现基于小波变换与长短期记忆神经网络融合的股票价格预测方法的装置，包括：存储器，用于存储计算机程序及股票价格预测方法；处理器，用于执行所述计算机程序及股票价格预测方法，以实现股票价格预测方法的步骤。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本发明所示的这些实施例，而是要符合与本发明所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于小波变换与长短期记忆神经网络融合的股票价格预测方法，其特征在于，方法包括：

步骤一，基于离散小波变换对股票序列进行小波分解；

步骤二，将小波变换与长短期记忆神经网络进行融合；

步骤三，配置Wav-LSTM的权重矩阵。

2.根据权利要求1所述的股票价格预测方法，其特征在于，

步骤一还包括：

对股票数据序列进行小波分解，ψ(t)为平方可积函数,即ψ(t)∈L²,傅里叶变换为若满足以下条件:

则ψ(t)被称为基小波；基小波经过伸缩和平移操作之后得到新的小波序列，称子小波：

ψ_a,b(t)为依赖于参数a,b的小波基函数；其中a为伸缩因子或尺度因子,改变a的大小即对基小波序列作伸缩变换；b为平移因子，改变b大小即对基小波序列作平移变换；称ψ_a,b(t)为连续小波基函数；

对于随机时间序列f(t),f(t)∈L²(R),将f(t)利用小波基函数进行展开,为序列f(t)的连续小波变换:

其中,为ψ(t)的复共轭函数,W_f(a,b)为小波变换的系数；从公式(3)看出,通过对小波变换系数的分析表示出ψ(t)的时频局部化特性；

对伸缩因子和平移因子作离散化处理，取

执行离散小波变换:

3.根据权利要求1所述的股票价格预测方法，其特征在于，

步骤二还包括：

基于细胞状态的连接，同时在细胞中加入了三个门结构：忘记门f_T、输入门i_T和输出门O_T；

三种类型的门结构控制每次进入和离开细胞单元的信息，LSTM的门架构使其能够在时间序列中平衡对股票价格的短期和长期依赖性；

忘记门控制在细胞单元中应丢弃的信息,给定时间序列T,X_T代表输入的股票序列,H_T-1是上一个细胞隐层状态向量，公式(6)得到忘记信息f_T；

f_T＝σ(W_f[H_T-1,X_T]+b_f) (6)

输入门调节新信息量流入细胞单元，在公式(7)和(8)中,输入的序列分别经过sigmoid层和tanh层得到细胞更新信息i_T和待更新细胞公式(9)将更新信息和遗忘信息与细胞状态结合得到新的细胞状态C_T；

i_t＝σ(W_i[H_T-1,X_T]+b_i) (7)

输出门定义了输出的信息量；公式(10)确定了sigmoid层的输出O_T,O_T经过细胞状态和tanh层的处理得到细胞最终的输出H_T；

O_T＝σ(W_O[H_T-1,X_T]+b_o) (10)

H_T＝O_T*tanh(C_T) (11)。

4.根据权利要求1所述的股票价格预测方法，其特征在于，

步骤三还包括：

基于Wav-LSTM模型输入的股票序列表示为X＝{X₁,X₂,...,X_T},每一层小波分解产生的低频信号和高频信号分别表示为X_L(i)和X_H(i),低频信号继续进入下一层经过小波分解得到X_L(i+1)和X_H(i+1),以此类推；

将全部股票价格序列经小波完全分解之后得到最终的股票频率序列为：

X'＝{X_H(1),X_H(2),...,X_H(N),X_L(N)},N代表小波分解层数,且频率由高到低排列；

Wav-LSTM模型将分解得到的低频信息X_L(i)和高频信息X_H(i)作为单独的时间序列,分别输入到LSTM网络中进行训练,每个LSTM神经网络都会预测出股票价格数据的一组频率信息，利用小波重构将预测出的各种频率信息融合得到预测的股票数据

5.根据权利要求4所述的股票价格预测方法，其特征在于，步骤三还包括：

利用前T天的股票价格对股票序列X进行N步预测,其中N≥1；

定义N步预测：

f:V_T+N＝W*h_T+b (13)

其中,f为前T天的历史价格到第T+N天的价格映射,V_T+N为股票序列标准化之后的价格,W和b分别为权重向量和偏差向量，Wav-LSTM中的非线性隐藏向量h_T给股票价格增加了非线性因素；

采用基于时间的反向误差传播算法来训练Wav-LSTM模型；

利用小波变换将股票价格数据分解为频率分量,为了增加模型的收敛速度，利用公式(14)将频率分量离差标准化；

其中是Wav-LSTM得到的预测值,y是实际值；使用BPTT算法优化目标函数,θ为Wav-LSTM模型的优化参数，利用BPTT算法迭代的将优化参数θ不断更新为

其中η为可调节的学习率；Wav-LSTM中的权重矩阵W^H(i)和W^L(i)同样在公式(16)中训练；

在目标函数中引入两个正则项和

6.一种实现基于小波变换与长短期记忆神经网络融合的股票价格预测方法的装置，其特征在于，包括：

存储器，用于存储计算机程序及股票价格预测方法；

处理器，用于执行所述计算机程序及股票价格预测方法，以实现如权利要求1至5任意一项所述股票价格预测方法的步骤。