CN113538145A - 一种基于多粒度级联森林的股票走势预测方法 - Google Patents

一种基于多粒度级联森林的股票走势预测方法 Download PDF

Info

Publication number
CN113538145A
CN113538145A CN202110816977.0A CN202110816977A CN113538145A CN 113538145 A CN113538145 A CN 113538145A CN 202110816977 A CN202110816977 A CN 202110816977A CN 113538145 A CN113538145 A CN 113538145A
Authority
CN
China
Prior art keywords
data
stock
index
granularity
forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110816977.0A
Other languages
English (en)
Inventor
李本领
李鹏
尹莉莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202110816977.0A priority Critical patent/CN113538145A/zh
Publication of CN113538145A publication Critical patent/CN113538145A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Finance (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种基于多粒度级联森林的股票走势预测方法,包括:通过yfinance获取股票数据,使用指数平滑方法对初始数据进行处理,计算技术指标作为待选的特征,并经过决策树的特征重要性筛选过程,得到对模型强有效的特征集合,并以此作为多粒度级联森林模型的输入,经过网格搜索进行参数寻优,对股价的走势进行预测。本方法采用集成学习框架,结合了神经网络逐层处理、特征转换的特点,充分考虑了股票数据的时间序列特点以进行数据指数平滑处理,结合技术指标提取更有效的特征数据并对数据进行特征重要性筛选,筛选所用的决策树与模型训练所用的多粒度级联森林更贴合,经过这些处理过程,模型的稳定性、准确率都有提升,最终提高了股票走势预测的准确性。

Description

一种基于多粒度级联森林的股票走势预测方法
技术领域
本发明涉及一种股票走势预测方法,属于分类预测领域。
背景技术
股票走势预测是金融领域和时间序列预测领域的研究热点,许多商业公司和研究机构都开发了基于统计模型的股票预测器,期望在对历史数据的分析中获取更有规律的信息或者直接辅助决策。当前的股票走势预测方法主要是使用技术面或基本面的数据,通过传统模型和集成模型进行数据分析。传统的股票走势预测模型主要有泰勒展开预测模型、支持向量机(Support VectorMachine,SVM)、ARIMA模型。随着机器学习领域的不断发展,对神经网络的不断探索,多粒度级联森林立足于神经网络逐层处理、特征转换和复杂性这些特点,又使用了基于决策树的集成方法,对股票走势预测的能力进一步提升。
然而目前的股票走势预测方法易受到时间序列和特征选择的影响造成预测准确性起伏过大,而且单一分类器模型的使用,容易在训练过程中产生过拟合现象。
发明内容
本发明要解决的技术问题是时间序列下股票走势预测筛选特征和过拟合问题,提出了一种基于多粒度级联森林的股票走势预测方法。
为了达到上述目的,本发明采用的技术方案是:
S1、通过Python第三方库yfinance获取股票数据;
S2、对获取的股票数据进行指数平滑处理;
S3、利用技术指标对步骤S2处理获取的数据提取特征;
S4、利用决策树的特征重要性排序,对步骤S3获取的特征数据进行3次评估并取平均值,选取强有效特征;
S5、将步骤S4获取的特征数据利用多粒度级联森林及默认参数进行分类预测;
S6、将步骤S5中使用的模型进行网格参数搜索优化,获取一组最优参数组合,输出优化的分类预测结果;
进一步的,所述步骤S1获取股票数据,其具体方法包括:
S11、yfinance结合pandas_datareader获取雅虎金融的历史股票数据。
S12、将步骤S11中获取的数据转存为csv文件。
进一步的,所述步骤S2中股票数据指数平滑的具体方法是:
对具有时间序列性质的历史股票数据进行指数平滑,在这一过程中对时间距离短的数据给予更大权重,对时间距离长的数据给予指数递减的权重。这种平滑方法可以减轻或消除历史数据中的随机变化或噪声。序列Y的指数平滑可以递归表示:
Figure BDA0003170486430000011
式中:St表示在时间t的平滑值,Yt表示时间t的实际值,α作为平滑常数的取值范围为0到1,α的值越大,则平滑程度越低。当α=1时,平滑后的数据与实际数据相等。
进一步的,所述步骤S3中通过技术指标获取特征的具体内容是:
技术面分析中使用的技术指标是从股票数据中计算出来用于预测股票市场走向的重要参数,也是广大投资者经常使用的工具。选择的技术指标包括指数移动平均值、指数平滑移动均线、动量指标、相对强弱指标、真实波幅平均值、震荡量指标、能量潮指标、真实强弱指数、估波指标、随机摆动指标、质量指数、简易波动指标。
进一步的,所述步骤S4包括:
S41、将步骤S3中获取的技术指标送入决策树进行特征重要性排序,其中集合的纯度可使用信息增益或基尼不纯度进行度量。从一个内部节点或叶子节点对应的集合抽取样本,y类实例的概率Pr(y)正比于集合中该类实例所占比例,用标记概率分布的香农熵衡量所得类的统计不确定性如下所示:
H(Y)=-∑y∈YPr(y)logPr(y)
在信息增益方法中,由类别概率分布的熵来度量一集合的混乱程度。为了表示信息熵的单位为二进制位,如下公式采用log2Pr(y):
H(Y)=-Σy∈YPr(y)log2Pr(y)
S42、信息增益表现为熵在数据集划分开始和结束期间的变化。当一个集合为所有类别的实例均分,熵取到最大值;当所有实例归为一类时,熵取到最小值。实例集由D表示,且D=DTUDF是某一次划分,信息增益可表示为:
Figure BDA0003170486430000021
进一步的,步骤S5中多粒度级联森林模型训练的具体方法为:
S51、将步骤S4中提取到的特征输入到多粒度扫描部分,原始数据集是10维的,使用大小为5的滑动窗口进行滑动,得到6个实例为5维的子样本数据。
S52、将多粒度扫描得到的数据送到级联森林,这里每层的随机森林是成对出现的,包括普通随机森林和完全随机森林。随机森林分类之后的类别个数为2,则经过一个随机森林可得到12个样本数据。
进一步的,所述步骤S6具体为:
网格搜索基于范围参数内点查找该集合内的最佳参数值,通过使用较广的参数范围,同时在每次参数改变时采用较小的步长以获得最优的参数组合。
本发明的先进点在于:
1、本发明采用指数平滑的方法对历史股票数据进行处理后,再使用技术指标进行特征提取。指数平滑用于预测模型,可以减轻或消除历史数据中的随机变化或噪声,更有利于模型训练阶段对特征的识别。
2、在特征筛选中,多次使用决策树对特征进行重要性排序,并取得排序的平均值,这一过程使得特征数据更贴合多粒度级联森林的训练。
3、采用的多粒度级联森林模型,表征学习能力经过多粒度扫描阶段加强,级联的层数可以通过自适应结构决定。
附图说明
图1为基于多粒度级联森林的股票走势预测方法流程图。
图2多粒度级联森林的多粒度扫描阶段示意图。
图3多粒度级联森林的级联森林阶段示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1,
参见图1-图3,本实施例1提供了一种基于多粒度级联森林的股票走势预测方法,
包括如下步骤:
S1、通过Python第三方库yfinance获取股票数据;
步骤S1中获取的股票数据来自于美国股票市场,包括英特尔(INTC)、谷歌(GOOG)、超威(AMD)、动视暴雪(INTC),具体步骤为:
S11、yfinance结合pandas_datareader获取雅虎金融接口的历史股票数据。
S12、将步骤S11中获取的数据转存为csv文件,即将网络数据持久化为本地文件。
具体的说,S1步骤是从雅虎金融接口获取历史股票数据,设置一个时间段,最终获得的股票数据维度包括日期、最高价、最低价、开盘价、收盘价、成交量。
S2、对获取的股票数据作指数平滑处理处理;
具体的说,数据的指数平滑方法是:对具有时间序列性质的历史股票数据进行指数平滑,在这一过程中对时间距离短的数据给予更大权重,对时间距离长的数据给予指数递减的权重。这种平滑方法可以减轻或消除历史数据中的随机变化或噪声。序列Y的指数平滑可以递归表示为:
Figure BDA0003170486430000031
式中:St表示在时间t的平滑值,Yt表示时间t的实际值,α作为平滑常数的取值范围为0到1,α的值越大,则平滑程度越低。当α=1时,平滑后的数据与实际数据相等。
具体的说,所述步骤S3中通过技术指标获取特征的具体内容是:
技术面分析中使用的技术指标是从股票数据中计算出来用于预测股票市场走向的重要参数,也是广大投资者经常使用的工具。选择的技术指标包括指数移动平均值、指数平滑移动均线、动量指标、相对强弱指标、真实波幅平均值、震荡量指标、能量潮指标、真实强弱指数、估波指标、随机摆动指标、质量指数、简易波动指标。
进一步的,所述步骤S4包括:
S41、将步骤S3中获取的技术指标送入决策树进行特征重要性排序,其中集合的纯度可使用信息增益或基尼不纯度进行度量。从一个内部节点或叶子节点对应的集合抽取样本,y类实例的概率Pr(y)正比于集合中该类实例所占比例,用标记概率分布的香农熵衡量所得类的统计不确定性如下所示:
H(Y)=-∑y∈YPr(y)logPr(y)
在信息增益方法中,由类别概率分布的熵来度量一集合的混乱程度。为了表示信息熵的单位为二进制位,如下公式采用log2Pr(y):
H(Y)=-Σy∈YPr(y)log2Pr(y)
S42、信息增益表现为熵在数据集划分开始和结束期间的变化。当一个集合为所有类别的实例均分,熵取到最大值;当所有实例归为一类时,熵取到最小值。实例集由D表示,且D=DTUDF是某一次划分,信息增益可表示为:
Figure BDA0003170486430000032
进一步的,步骤S5中多粒度级联森林模型训练的具体方法为:
S51、参见图2,将步骤S4中提取到的特征输入到多粒度扫描部分,原始数据集是10维的,使用大小为5的滑动窗口进行滑动,得到6个实例为5维的子样本数据。
S52、参见图3,将多粒度扫描得到的数据送到级联森林,这里每层的随机森林是成对出现的,包括普通随机森林和完全随机森林。随机森林分类之后的类别个数为2,则经过一个随机森林可得到12个样本数据。最终以收盘价为基准判断股价涨跌:
predn=Label(Closen+horizon-Closen)
当predn取值为+1时,表示horizon天后价格呈现正向变化趋势;当predn取值为-1时,表示horizon天后价格呈现负向变化趋势。最终,股票数据作为数值型数据通过涨跌类别转化为标称型数据。
进一步的,所述步骤S6具体为:
网格搜索基于范围参数内点查找该集合内的最佳参数值,通过使用较广的参数范围,同时在每次参数改变时采用较小的步长以获得最优的参数组合。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (7)

1.一种基于多粒度级联森林的股票走势预测方法,其特征在于,包括以下几个步骤:
S1、通过Python第三方库yfinance获取股票数据;
S2、对获取的股票数据进行指数平滑处理;
S3、利用技术指标对步骤S2处理获取的数据提取特征;
S4、利用决策树的特征重要性排序,对步骤S3获取的特征数据进行3次评估并取平均值,选取强有效特征;
S5、将步骤S4获取的特征数据利用多粒度级联森林及默认参数进行分类预测;
S6、将步骤S5中使用的模型进行网格参数搜索优化,获取一组最优参数组合,输出优化的分类预测结果。
2.根据权利要求1所述的基于多粒度级联森林的股票走势预测方法,其特征在于,具体的说,S1步骤是从雅虎金融接口获取历史股票数据,设置一个时间段,最终获得的股票数据维度包括日期、最高价、最低价、开盘价、收盘价、成交量。所述步骤S1包括:
S11、yfinance结合pandas_datareader获取雅虎金融接口的历史股票数据。
S12、将步骤S11中获取的数据转存为csv文件,即将网络数据持久化为本地文件。
3.根据权利要求2所述的基于多粒度级联森林的股票走势预测方法,其特征在于,在所述步骤S2中,数据的指数平滑方法是:对具有时间序列性质的历史股票数据进行指数平滑,在这一过程中对时间距离短的数据给予更大权重,对时间距离长的数据给予指数递减的权重。这种平滑方法可以减轻或消除历史数据中的随机变化或噪声。序列Y的指数平滑可以递归表示为:
Figure FDA0003170486420000011
式中:St表示在时间t的平滑值,Yt表示时间t的实际值,α作为平滑常数的取值范围为0到1,α的值越大,则平滑程度越低。当α=1时,平滑后的数据与实际数据相等。
4.根据权利要求3所述的基于多粒度级联森林的股票走势预测方法,其特征在于,在所述步骤S3中,技术面分析中使用的技术指标是从股票数据中计算出来用于预测股票市场走向的重要参数,选择的技术指标包括指数移动平均值、指数平滑移动均线、动量指标、相对强弱指标、真实波幅平均值、震荡量指标、能量潮指标、真实强弱指数、估波指标、随机摆动指标、质量指数、简易波动指标。
5.根据权利要求4所述的基于多粒度级联森林的股票走势预测方法,其特征在于,在所述步骤S4包括:
S41、将步骤S3中获取的技术指标送入决策树进行特征重要性排序,其中集合的纯度可使用信息增益或基尼不纯度进行度量。从一个内部节点或叶子节点对应的集合抽取样本,y类实例的概率Pr(y)正比于集合中该类实例所占比例,用标记概率分布的香农熵衡量所得类的统计不确定性如下所示:
H(Y)=-∑y∈YPr(y)logPr(y)
在信息增益方法中,由类别概率分布的熵来度量一集合的混乱程度。为了表示信息熵的单位为二进制位,如下公式采用log2Pr(y):
H(Y)=-∑y∈YPr(y)log2Pr(y)
S42、信息增益表现为熵在数据集划分开始和结束期间的变化。当一个集合为所有类别的实例均分,熵取到最大值;当所有实例归为一类时,熵取到最小值。实例集由D表示,且D=DTUDF是某一次划分,信息增益可表示为:
Figure FDA0003170486420000012
6.根据权利要求5所述的基于多粒度级联森林的股票走势预测方法,其特征在于,在所述步骤S5包括:
S51、将步骤S4中提取到的特征输入到多粒度扫描部分,原始数据集是10维的,使用大小为5的滑动窗口进行滑动,得到6个实例为5维的子样本数据。
S52、将多粒度扫描得到的数据送到级联森林,这里每层的随机森林是成对出现的,包括普通随机森林和完全随机森林。随机森林分类之后的类别个数为2,则经过一个随机森林可得到12个样本数据。最终以收盘价为基准判断股价涨跌:
predn=Label(Closen+horizon-Closen)
其中,当predn取值为+1时,表示horizon天后价格呈现正向变化趋势;当predn取值为-1时,表示horizon天后价格呈现负向变化趋势。最终,股票数据作为数值型数据通过涨跌类别转化为标称型数据。
7.根据权利要求6所述的基于多粒度级联森林的股票走势预测方法,其特征在于,在所述步骤S6中网格搜索基于范围参数内点查找该集合内的最佳参数值,通过使用较广的参数范围,同时在每次参数改变时采用较小的步长以获得最优的参数组合。
CN202110816977.0A 2021-07-20 2021-07-20 一种基于多粒度级联森林的股票走势预测方法 Pending CN113538145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110816977.0A CN113538145A (zh) 2021-07-20 2021-07-20 一种基于多粒度级联森林的股票走势预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110816977.0A CN113538145A (zh) 2021-07-20 2021-07-20 一种基于多粒度级联森林的股票走势预测方法

Publications (1)

Publication Number Publication Date
CN113538145A true CN113538145A (zh) 2021-10-22

Family

ID=78128851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110816977.0A Pending CN113538145A (zh) 2021-07-20 2021-07-20 一种基于多粒度级联森林的股票走势预测方法

Country Status (1)

Country Link
CN (1) CN113538145A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024031332A1 (zh) * 2022-08-09 2024-02-15 深圳市富途网络科技有限公司 基于机器学习的股票趋势分析方法、装置
CN117786560A (zh) * 2024-02-28 2024-03-29 通用电梯股份有限公司 一种基于多粒度级联森林的电梯故障分类方法及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024031332A1 (zh) * 2022-08-09 2024-02-15 深圳市富途网络科技有限公司 基于机器学习的股票趋势分析方法、装置
CN117786560A (zh) * 2024-02-28 2024-03-29 通用电梯股份有限公司 一种基于多粒度级联森林的电梯故障分类方法及电子设备
CN117786560B (zh) * 2024-02-28 2024-05-07 通用电梯股份有限公司 一种基于多粒度级联森林的电梯故障分类方法及电子设备

Similar Documents

Publication Publication Date Title
Ramadhan et al. Parameter tuning in random forest based on grid search method for gender classification based on voice frequency
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
EP3729338A1 (en) Neural entropy enhanced machine learning
CN113538145A (zh) 一种基于多粒度级联森林的股票走势预测方法
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN112015863A (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN108596637B (zh) 一种电商服务问题自动发现系统
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN111191825A (zh) 用户违约预测方法、装置及电子设备
Alwaqfi et al. Generative Adversarial Network for an Improved Arabic Handwritten Characters Recognition.
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
Vera et al. Compression-based regularization with an application to multitask learning
Corpuz Implementation of artificial neural network using scaled conjugate gradient in ISO 9001: 2015 audit findings classification
CN111581984A (zh) 一种基于任务贡献度的语句表示方法
CN108846057B (zh) 一种基于带状时变模糊信息粒的时间序列长期预测方法
CN111723127A (zh) 基于文本摘要情感挖掘的股票趋势预测方法和系统
CN111708865A (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN115599918A (zh) 一种基于图增强的互学习文本分类方法及系统
Moskalenko et al. Development of the method of features learning and training decision rules for the prediction of violation of service level agreement in a cloud-based environment
CN115358340A (zh) 一种信贷催收短信判别方法、系统、设备及存储介质
CN114692746A (zh) 一种基于信息熵的模糊半监督支持向量机的分类方法
Zhang et al. Word embedding-based web service representations for classification and clustering
CN114091469A (zh) 基于样本扩充的网络舆情分析方法
Kandasamy et al. Study on various stock prediction techniques with news sentiment
Wang et al. Application of Natural Language Processing in Financial Risk Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211022