CN113538145A

CN113538145A - 一种基于多粒度级联森林的股票走势预测方法

Info

Publication number: CN113538145A
Application number: CN202110816977.0A
Authority: CN
Inventors: 李本领; 李鹏; 尹莉莉
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-22

Abstract

本申请涉及一种基于多粒度级联森林的股票走势预测方法，包括：通过yfinance获取股票数据，使用指数平滑方法对初始数据进行处理，计算技术指标作为待选的特征，并经过决策树的特征重要性筛选过程，得到对模型强有效的特征集合，并以此作为多粒度级联森林模型的输入，经过网格搜索进行参数寻优，对股价的走势进行预测。本方法采用集成学习框架，结合了神经网络逐层处理、特征转换的特点，充分考虑了股票数据的时间序列特点以进行数据指数平滑处理，结合技术指标提取更有效的特征数据并对数据进行特征重要性筛选，筛选所用的决策树与模型训练所用的多粒度级联森林更贴合，经过这些处理过程，模型的稳定性、准确率都有提升，最终提高了股票走势预测的准确性。

Description

一种基于多粒度级联森林的股票走势预测方法

技术领域

本发明涉及一种股票走势预测方法，属于分类预测领域。

背景技术

股票走势预测是金融领域和时间序列预测领域的研究热点，许多商业公司和研究机构都开发了基于统计模型的股票预测器，期望在对历史数据的分析中获取更有规律的信息或者直接辅助决策。当前的股票走势预测方法主要是使用技术面或基本面的数据，通过传统模型和集成模型进行数据分析。传统的股票走势预测模型主要有泰勒展开预测模型、支持向量机(Support VectorMachine,SVM)、ARIMA模型。随着机器学习领域的不断发展，对神经网络的不断探索，多粒度级联森林立足于神经网络逐层处理、特征转换和复杂性这些特点，又使用了基于决策树的集成方法，对股票走势预测的能力进一步提升。

然而目前的股票走势预测方法易受到时间序列和特征选择的影响造成预测准确性起伏过大，而且单一分类器模型的使用，容易在训练过程中产生过拟合现象。

发明内容

本发明要解决的技术问题是时间序列下股票走势预测筛选特征和过拟合问题，提出了一种基于多粒度级联森林的股票走势预测方法。

为了达到上述目的，本发明采用的技术方案是：

S1、通过Python第三方库yfinance获取股票数据；

S2、对获取的股票数据进行指数平滑处理；

S3、利用技术指标对步骤S2处理获取的数据提取特征；

S4、利用决策树的特征重要性排序，对步骤S3获取的特征数据进行3次评估并取平均值，选取强有效特征；

S5、将步骤S4获取的特征数据利用多粒度级联森林及默认参数进行分类预测；

S6、将步骤S5中使用的模型进行网格参数搜索优化，获取一组最优参数组合，输出优化的分类预测结果；

进一步的，所述步骤S1获取股票数据，其具体方法包括：

S11、yfinance结合pandas_datareader获取雅虎金融的历史股票数据。

S12、将步骤S11中获取的数据转存为csv文件。

进一步的，所述步骤S2中股票数据指数平滑的具体方法是：

对具有时间序列性质的历史股票数据进行指数平滑，在这一过程中对时间距离短的数据给予更大权重，对时间距离长的数据给予指数递减的权重。这种平滑方法可以减轻或消除历史数据中的随机变化或噪声。序列Y的指数平滑可以递归表示：

式中：S_t表示在时间t的平滑值，Y_t表示时间t的实际值，α作为平滑常数的取值范围为0到1，α的值越大，则平滑程度越低。当α＝1时，平滑后的数据与实际数据相等。

进一步的，所述步骤S3中通过技术指标获取特征的具体内容是：

技术面分析中使用的技术指标是从股票数据中计算出来用于预测股票市场走向的重要参数，也是广大投资者经常使用的工具。选择的技术指标包括指数移动平均值、指数平滑移动均线、动量指标、相对强弱指标、真实波幅平均值、震荡量指标、能量潮指标、真实强弱指数、估波指标、随机摆动指标、质量指数、简易波动指标。

进一步的，所述步骤S4包括：

S41、将步骤S3中获取的技术指标送入决策树进行特征重要性排序，其中集合的纯度可使用信息增益或基尼不纯度进行度量。从一个内部节点或叶子节点对应的集合抽取样本，y类实例的概率Pr(y)正比于集合中该类实例所占比例，用标记概率分布的香农熵衡量所得类的统计不确定性如下所示：

H(Y)＝-∑_y∈YPr(y)logPr(y)

在信息增益方法中，由类别概率分布的熵来度量一集合的混乱程度。为了表示信息熵的单位为二进制位，如下公式采用log₂Pr(y)：

H(Y)＝-Σ_y∈YPr(y)log₂Pr(y)

S42、信息增益表现为熵在数据集划分开始和结束期间的变化。当一个集合为所有类别的实例均分，熵取到最大值；当所有实例归为一类时，熵取到最小值。实例集由D表示，且D＝D_TUD_F是某一次划分，信息增益可表示为：

进一步的，步骤S5中多粒度级联森林模型训练的具体方法为：

S51、将步骤S4中提取到的特征输入到多粒度扫描部分，原始数据集是10维的，使用大小为5的滑动窗口进行滑动，得到6个实例为5维的子样本数据。

S52、将多粒度扫描得到的数据送到级联森林，这里每层的随机森林是成对出现的，包括普通随机森林和完全随机森林。随机森林分类之后的类别个数为2，则经过一个随机森林可得到12个样本数据。

进一步的，所述步骤S6具体为：

网格搜索基于范围参数内点查找该集合内的最佳参数值，通过使用较广的参数范围，同时在每次参数改变时采用较小的步长以获得最优的参数组合。

本发明的先进点在于：

1、本发明采用指数平滑的方法对历史股票数据进行处理后，再使用技术指标进行特征提取。指数平滑用于预测模型，可以减轻或消除历史数据中的随机变化或噪声，更有利于模型训练阶段对特征的识别。

2、在特征筛选中，多次使用决策树对特征进行重要性排序，并取得排序的平均值，这一过程使得特征数据更贴合多粒度级联森林的训练。

3、采用的多粒度级联森林模型，表征学习能力经过多粒度扫描阶段加强，级联的层数可以通过自适应结构决定。

附图说明

图1为基于多粒度级联森林的股票走势预测方法流程图。

图2多粒度级联森林的多粒度扫描阶段示意图。

图3多粒度级联森林的级联森林阶段示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1，

参见图1-图3，本实施例1提供了一种基于多粒度级联森林的股票走势预测方法，

包括如下步骤：

S1、通过Python第三方库yfinance获取股票数据；

步骤S1中获取的股票数据来自于美国股票市场，包括英特尔(INTC)、谷歌(GOOG)、超威(AMD)、动视暴雪(INTC)，具体步骤为：

S11、yfinance结合pandas_datareader获取雅虎金融接口的历史股票数据。

S12、将步骤S11中获取的数据转存为csv文件，即将网络数据持久化为本地文件。

具体的说，S1步骤是从雅虎金融接口获取历史股票数据，设置一个时间段，最终获得的股票数据维度包括日期、最高价、最低价、开盘价、收盘价、成交量。

S2、对获取的股票数据作指数平滑处理处理；

具体的说，数据的指数平滑方法是：对具有时间序列性质的历史股票数据进行指数平滑，在这一过程中对时间距离短的数据给予更大权重，对时间距离长的数据给予指数递减的权重。这种平滑方法可以减轻或消除历史数据中的随机变化或噪声。序列Y的指数平滑可以递归表示为：

具体的说，所述步骤S3中通过技术指标获取特征的具体内容是：

进一步的，所述步骤S4包括：

H(Y)＝-∑_y∈YPr(y)logPr(y)

H(Y)＝-Σ_y∈YPr(y)log₂Pr(y)

S51、参见图2，将步骤S4中提取到的特征输入到多粒度扫描部分，原始数据集是10维的，使用大小为5的滑动窗口进行滑动，得到6个实例为5维的子样本数据。

S52、参见图3，将多粒度扫描得到的数据送到级联森林，这里每层的随机森林是成对出现的，包括普通随机森林和完全随机森林。随机森林分类之后的类别个数为2，则经过一个随机森林可得到12个样本数据。最终以收盘价为基准判断股价涨跌：

pred_n＝Label(Close_n+horizon-Close_n)

当pred_n取值为+1时，表示horizon天后价格呈现正向变化趋势；当pred_n取值为-1时，表示horizon天后价格呈现负向变化趋势。最终，股票数据作为数值型数据通过涨跌类别转化为标称型数据。

进一步的，所述步骤S6具体为：

本发明未详述之处，均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于多粒度级联森林的股票走势预测方法，其特征在于，包括以下几个步骤：

S1、通过Python第三方库yfinance获取股票数据；

S2、对获取的股票数据进行指数平滑处理；

S3、利用技术指标对步骤S2处理获取的数据提取特征；

S6、将步骤S5中使用的模型进行网格参数搜索优化，获取一组最优参数组合，输出优化的分类预测结果。

2.根据权利要求1所述的基于多粒度级联森林的股票走势预测方法，其特征在于，具体的说，S1步骤是从雅虎金融接口获取历史股票数据，设置一个时间段，最终获得的股票数据维度包括日期、最高价、最低价、开盘价、收盘价、成交量。所述步骤S1包括：

3.根据权利要求2所述的基于多粒度级联森林的股票走势预测方法，其特征在于，在所述步骤S2中，数据的指数平滑方法是：对具有时间序列性质的历史股票数据进行指数平滑，在这一过程中对时间距离短的数据给予更大权重，对时间距离长的数据给予指数递减的权重。这种平滑方法可以减轻或消除历史数据中的随机变化或噪声。序列Y的指数平滑可以递归表示为：

4.根据权利要求3所述的基于多粒度级联森林的股票走势预测方法，其特征在于，在所述步骤S3中，技术面分析中使用的技术指标是从股票数据中计算出来用于预测股票市场走向的重要参数，选择的技术指标包括指数移动平均值、指数平滑移动均线、动量指标、相对强弱指标、真实波幅平均值、震荡量指标、能量潮指标、真实强弱指数、估波指标、随机摆动指标、质量指数、简易波动指标。

5.根据权利要求4所述的基于多粒度级联森林的股票走势预测方法，其特征在于，在所述步骤S4包括：

H(Y)＝-∑_y∈YPr(y)logPr(y)

H(Y)＝-∑_y∈YPr(y)log₂Pr(y)

6.根据权利要求5所述的基于多粒度级联森林的股票走势预测方法，其特征在于，在所述步骤S5包括：

S52、将多粒度扫描得到的数据送到级联森林，这里每层的随机森林是成对出现的，包括普通随机森林和完全随机森林。随机森林分类之后的类别个数为2，则经过一个随机森林可得到12个样本数据。最终以收盘价为基准判断股价涨跌：

pred_n＝Label(Close_n+horizon-Close_n)

其中，当pred_n取值为+1时，表示horizon天后价格呈现正向变化趋势；当pred_n取值为-1时，表示horizon天后价格呈现负向变化趋势。最终，股票数据作为数值型数据通过涨跌类别转化为标称型数据。

7.根据权利要求6所述的基于多粒度级联森林的股票走势预测方法，其特征在于，在所述步骤S6中网格搜索基于范围参数内点查找该集合内的最佳参数值，通过使用较广的参数范围，同时在每次参数改变时采用较小的步长以获得最优的参数组合。