CN107844865A - 基于特征参数选取与lstm模型的股指预测方法 - Google Patents
基于特征参数选取与lstm模型的股指预测方法 Download PDFInfo
- Publication number
- CN107844865A CN107844865A CN201711155418.XA CN201711155418A CN107844865A CN 107844865 A CN107844865 A CN 107844865A CN 201711155418 A CN201711155418 A CN 201711155418A CN 107844865 A CN107844865 A CN 107844865A
- Authority
- CN
- China
- Prior art keywords
- parameter
- lstm
- lstm models
- stock index
- stock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于特征参数选取与LSTM模型的股指预测方法,其技术特点是包括以下步骤:获取股指数据,全面选取特征参数;采用系统聚类法进行特征分类,使得同一类中的参数相似度较高,不同类别之间的相似度则较低;采用主成分析法对不同类别参数进行降维,使新的指标能够保留原始信息且彼此之间互不相关;将最终输入特征参数直接输入LSTM模型中进行训练,并对实验结果进行分析。本发明设计合理,其从优化特征参数选取角度对模型预测能力进行提升并应用LSTM模型进行训练,不仅计算量小,而且预测结果在速度和准确度两方面均有显著提升。
Description
技术领域
本发明涉及金融股票预测技术,尤其是一种基于特征参数选取与LSTM模型的股指预测方法。
背景技术
股票市场作为风险和投资双高的投资市场,对其进行预测从而更好地进行选股和择时以获得最大收益是研究者密切关注的领域。沿用至今的分析方法可以分为两类——基本面分析法与技术分析法。基本面分析法着手点在于国家经济政策与公司的基本面等信息,而技术分析方法则侧重利用历史数据带入数学模型或机器中来训练和演算。其中,基本面分析法中应用到的国家宏观经济状况、企业盈利状况等因素均较难定量,且大多属于长期性因素,所以如果只应用基本面分析法预测的精度将很不准确。而技术分析法主要是应用客观的量化指标进行预测,较为常用的方法包括时间序列法、小波分析法、神经网络法等,但由于股市的限制以及股票自身的特性,当前诸多方法并不能在预测时达到较好的效果,比如时间序列预测方法在处理非线性特征数据时并不能得以很好的应用,而神经网络当前较为流行的SVM预测模型只对求解小样本、非线性问题具有优秀的泛化能力。
此外,在预测过程中学者们往往较为重视模型的构建,试图通过数据预处理、优化参数、结合多种网络结构等方法提升模型的拟合效果,却忽略了股票影响因素这一重要方面。在以往的方法中我们发现预测股票价格指数的模型所应用的输入特征参数大多为最高价、平均价等一次性指标,且均为主观选择输入。然而,由于股票本身受多种因素影响,各因素之间并不呈明显线性关系,如果我们选择的输入特征参数较为单一,将不能很好地对这一预测问题予以反映;如果选择的输入特征参数较多,将会复杂化模型,不利于其训练速度及性能。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于特征参数选取与LSTM模型的股指预测方法,解决股指预测精度和准确度的问题。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于特征参数选取与LSTM模型的股指预测方法,包括以下步骤:
步骤1、获取股指数据,全面选取特征参数;
步骤2、采用系统聚类法进行特征分类,使得同一类中的参数相似度较高,不同类别之间的相似度则较低;
步骤3、采用主成分析法对不同类别参数进行降维,使新的指标能够保留原始信息且彼此之间互不相关;
步骤4:将最终输入特征参数直接输入LSTM模型中进行训练,并对实验结果进行分析。
进一步,所述步骤1全面选取特征参数时,需要考虑股票的影响因素,股票的影响因素包括宏观因素、利率因素和估值因素。
进一步,所述步骤2系统聚类法包括以下步骤:
⑴将每个样本看做一类,并计算各类之间的距离;
⑵将距离最近的两类进行合并,成为新类别,并计算新类别与其他各类之间的距离;
⑶重复步骤⑵,直至所有类别聚为一类或达到所需的聚类数目。
进一步,所述步骤2采用系统聚类法将最终分类结果分为4类。
进一步,所述步骤3主成分分析法包括以下步骤:
⑴获得数据,计算数据的平均值;
⑵计算数据的协方差矩阵,并求得该协方差矩阵的特征值和特征向量;
⑶对特征值进行排序,筛选大于阈值的特征值,计算白化矩阵;
⑷计算累积贡献率,提取主成分;
⑸计算主成分载荷,分析其与原数据的相关连续度。
进一步,所述步骤4采用的LSTM模型为LSTM神经网络模型,该LSTM神经网络模型由LSTM层和DENSE层构成,使用的激活函数为tanh函数。
本发明的优点和积极效果是:
1、本发明设计合理,其从优化特征参数选取角度对模型预测能力进行提升并应用LSTM模型进行训练,不仅计算量小,而且预测结果在速度和准确度两方面均有显著提升。
2、本发明在模型选择方面,采用深度学习相关方法可以从原始数据提取到更加抽象和更有代表性的特征,能更好地用于分类和预测,对于深度学习不容易训练的问题,可以采用逐层训练的方法予以解决,所以选取合适的深度学习往往会使得预测的效果有时更加理想;采用新型深度学习算法,能够凭借其时序与定向循环的优势特性,更适合分析时间序列前后之间相互关联的预测问题。
3、本发明在特征参数选取方面,由于股票受不同因素影响的不确定性,因此选择特征抽取的方法进行降维,包含全面选取特征参数、应用系统聚类法进行特征分类、应用主成分分析对分类特征进行降维三个步骤,通过此方法对输入特征参数进行整合和优化。
附图说明
图1为本发明的特征选取参数聚类垂直冰柱图;
图2为本发明的拟合效果图。
具体实施方式
以下结合附图对本发明实施例做进一步详述。
一种基于特征参数选取与LSTM模型的股指预测方法,包括以下步骤:
步骤1:获取股指数据,全面选取特征参数。在特征选取的过程中,尽可能全面的考虑影响因素,全方位的对问题进行分析。
本实施例采用1990年2月1日至2008年12月31的纳斯达克股票指数数据(数据来源于Yahoo财经),共4769条有效数据进行说明。
股票的影响因素包括宏观因素、利率因素、估值因素等。其中,宏观因素指国家宏观经济的发展状况,包括国民经济生产总值、消费者物价指数、固定资产投资完成额等指标,从长远分析,宏观因素将影响股票的总体趋势,股票市场也在很大程度上反映了国家的宏观经济状况;利率因素指国家的货币政策,如存款利率、贷款利率等,利率上升可能会提升股票市场的资金量,但也有可能由于各企业运行成本的增加使得股票价格下跌;估值因素包括市盈率、市净率等指标,反映股票价格及企业盈利水平,可以视作短期因素。除此之外,股票同时受国家政策、大众心理等多种因素影响,有些因素属于不可控因素,所以在选取特征参数时应该考虑多种影响因子,尽可能全面化。
在实施例中,我们初步选取的特征参数共15个,如下表所示:
步骤2:采用系统聚类法进行特征分类。通过聚类将参数进行分类,使得同
一类中的参数相似度较高,不同类别之间的相似度则较低。
由于在对股票数据的特征参数进行聚类的过程中,并没有明确的类别个数,所以在此我们采用系统聚类法,根据数据之间的距离来自动列出类别后再做判别。其基本步骤如下:
(1)将每个样本看做一类,并计算各类之间的距离;
(2)将距离最近的两类进行合并,成为新类别,并计算新类别与其他各类之间的距离;
(3)重复步骤(2),直至所有类别聚为一类或达到所需的聚类数目。
在本实施例中,我们我们利用SPSS软件,将所选的除收盘价以外的14个参数及其相关数据输入,选择的系统聚类方法为组间聚类法,距离测量的方法为平方欧式聚类法,聚类结果如图1的垂直冰柱图所示。根据聚类的不同分类结果进行实验后,我们选取最终分类结果为4类,即ewindd为第一类、ewindx为第二类、usdcnt及totcnt为第三类,其余指标归为第四类。
步骤3:采用主成分析法对不同类别参数进行降维:通过线性组合的方法,对原始数据指标的相关性进行分析,并通过对相关性较强的指标进行组合形成新的指标,使新的指标能够保留原始信息且彼此之间互不相关。
主成分分析不但实现了数据降维,减少数据冗余,另一方面也在降维过程中进行了去噪处理。本步骤采用主成分分析法的基本步骤如下:
(1)获得数据,计算数据的平均值;
(2)计算数据的协方差矩阵,并求得该矩阵的特征值和特征向量;
(3)对特征值进行排序,筛选大于阈值的特征值,计算白化矩阵;
(4)计算累积贡献率,提取主成分;
(5)计算主成分载荷,分析其与原数据的相关连续度;
在本实施例中,由于我们所分的四个类别中,只有第四类包含10个特征参数,其余参数类均较少,所以我们在此仅对第四类进行降维。我们利用SPSS软件,首先根据KMO和Bartlett球形度检验进行相关性检验,确定我们的数据适合进行主成分分析。随后提取主成分,因提取前2个主成分累积方差贡献率达到90%,所以我们提取两个主成分。最后,根据成分矩阵确定提取因子与原参数之间的相关关系,并根据成分得分系数矩阵得到降维后的特征参数。
步骤4:将最终输入特征参数直接输入LSTM模型中进行训练,并对实验结果进行分析。
在本实施例中,我们应用的LSTM神经网络模型,由LSTM层和DENSE层构成,使用的激活函数为tanh函数,批大小(batch_size)为50,迭代次数(epochs)为50次,测试样本比例为20%,应用前10天的特征参数数据对第11天的股票指数价格进行预测。我们将原始的未经处理的特征参数(14个)、直接进行降维的特征参数(3个)及先进行聚类再进行降维的特征参数(5个)分别代入LSTM模型进行训练,训练结果对比如下表所示。
评价尺度 | 原始数据 | 降维数据 | 聚类后再降维数据 |
training_time | 920.075 | 620.91 | 589.52 |
explained_variance | 0.9681 | 0.9541 | 0.9730 |
MAE | 0.0094 | 0.0063 | 0.0052 |
MSE | 0.0001 | 6.759e-05 | 4.588e-05 |
MedAE | 0.0096 | 0.0049 | 0.0041 |
r2_score | 0.9225 | 0.9529 | 0.9726 |
通过上述分析,运用本发明的方法,先进行聚类后再降维,从可释方差得分、平均绝对误差、均方差、中值绝对误差、R2决定系数各个评价尺度看都体现了其优势所在。从图2给出的拟合效果图中,我们可以进一步看出,模型的拟合能力较强,整体的趋势基本能够反映出来。
综上所述,在分析预测股票问题时,应用我们所提出的特征参数选取的“三步法”并应用LSTM模型进行训练能够取得较为满意的结果,一方面,输入参数的减少简化了网络模型的结构,提高了模型的运行速度;另一方面,消除冗余参数并进行降噪,提升了模型的拟合精度。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (6)
1.一种基于特征参数选取与LSTM模型的股指预测方法,其特征在于包括以下步骤:
步骤1、获取股指数据,全面选取特征参数;
步骤2、采用系统聚类法进行特征分类,使得同一类中的参数相似度较高,不同类别之间的相似度则较低;
步骤3、采用主成分析法对不同类别参数进行降维,使新的指标能够保留原始信息且彼此之间互不相关;
步骤4:将最终输入特征参数直接输入LSTM模型中进行训练,并对实验结果进行分析。
2.根据权利要求1所述的基于特征参数选取与LSTM模型的股指预测方法,其特征在于:所述步骤1全面选取特征参数时,需要考虑股票的影响因素,股票的影响因素包括宏观因素、利率因素和估值因素。
3.根据权利要求1所述的基于特征参数选取与LSTM模型的股指预测方法,其特征在于:所述步骤2系统聚类法包括以下步骤:
⑴将每个样本看做一类,并计算各类之间的距离;
⑵将距离最近的两类进行合并,成为新类别,并计算新类别与其他各类之间的距离;
⑶重复步骤⑵,直至所有类别聚为一类或达到所需的聚类数目。
4.根据权利要求1所述的基于特征参数选取与LSTM模型的股指预测方法,其特征在于:所述步骤2采用系统聚类法将最终分类结果分为4类。
5.根据权利要求1所述的基于特征参数选取与LSTM模型的股指预测方法,其特征在于:所述步骤3主成分分析法包括以下步骤:
⑴获得数据,计算数据的平均值;
⑵计算数据的协方差矩阵,并求得该协方差矩阵的特征值和特征向量;
⑶对特征值进行排序,筛选大于阈值的特征值,计算白化矩阵;
⑷计算累积贡献率,提取主成分;
⑸计算主成分载荷,分析其与原数据的相关连续度。
6.根据权利要求1所述的基于特征参数选取与LSTM模型的股指预测方法,其特征在于:所述步骤4采用的LSTM模型为LSTM神经网络模型,该LSTM神经网络模型由LSTM层和DENSE层构成,使用的激活函数为tanh函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711155418.XA CN107844865A (zh) | 2017-11-20 | 2017-11-20 | 基于特征参数选取与lstm模型的股指预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711155418.XA CN107844865A (zh) | 2017-11-20 | 2017-11-20 | 基于特征参数选取与lstm模型的股指预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107844865A true CN107844865A (zh) | 2018-03-27 |
Family
ID=61679053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711155418.XA Pending CN107844865A (zh) | 2017-11-20 | 2017-11-20 | 基于特征参数选取与lstm模型的股指预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107844865A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846307A (zh) * | 2018-04-12 | 2018-11-20 | 中南大学 | 一种基于波形图像的微震与爆破事件识别方法 |
CN109508811A (zh) * | 2018-09-30 | 2019-03-22 | 中冶华天工程技术有限公司 | 基于主成分分析和长短期记忆网络的污水处理出水参数预测方法 |
CN109559218A (zh) * | 2018-11-07 | 2019-04-02 | 北京先进数通信息技术股份公司 | 一种异常交易的确定方法、装置及存储介质 |
CN109670629A (zh) * | 2018-11-16 | 2019-04-23 | 浙江蓝卓工业互联网信息技术有限公司 | 基于长短期记忆神经网络的燃煤锅炉热效率预测方法 |
CN110163460A (zh) * | 2018-03-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种确定应用分值的方法及设备 |
CN110210559A (zh) * | 2019-05-31 | 2019-09-06 | 北京小米移动软件有限公司 | 对象筛选方法及装置、存储介质 |
WO2019205384A1 (zh) * | 2018-04-26 | 2019-10-31 | 平安科技(深圳)有限公司 | 电子装置、基于机器学习的股票择时方法及存储介质 |
CN112365045A (zh) * | 2020-11-09 | 2021-02-12 | 上海明华电力科技有限公司 | 一种基于大数据的主蒸汽温度智能预测方法 |
CN113744059A (zh) * | 2021-09-08 | 2021-12-03 | 上海擎创信息技术有限公司 | 一种对股指数据进行监控及提示的方法 |
CN114247661A (zh) * | 2020-09-24 | 2022-03-29 | 长鑫存储技术有限公司 | 半导体产品分级方法和分级系统 |
CN114417734A (zh) * | 2022-03-09 | 2022-04-29 | 深圳市信润富联数字科技有限公司 | 刀具寿命的预测方法及装置 |
-
2017
- 2017-11-20 CN CN201711155418.XA patent/CN107844865A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163460B (zh) * | 2018-03-30 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种确定应用分值的方法及设备 |
CN110163460A (zh) * | 2018-03-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种确定应用分值的方法及设备 |
CN108846307A (zh) * | 2018-04-12 | 2018-11-20 | 中南大学 | 一种基于波形图像的微震与爆破事件识别方法 |
CN108846307B (zh) * | 2018-04-12 | 2021-12-28 | 中南大学 | 一种基于波形图像的微震与爆破事件识别方法 |
WO2019205384A1 (zh) * | 2018-04-26 | 2019-10-31 | 平安科技(深圳)有限公司 | 电子装置、基于机器学习的股票择时方法及存储介质 |
CN109508811A (zh) * | 2018-09-30 | 2019-03-22 | 中冶华天工程技术有限公司 | 基于主成分分析和长短期记忆网络的污水处理出水参数预测方法 |
CN109559218A (zh) * | 2018-11-07 | 2019-04-02 | 北京先进数通信息技术股份公司 | 一种异常交易的确定方法、装置及存储介质 |
CN109670629B (zh) * | 2018-11-16 | 2021-09-07 | 浙江蓝卓工业互联网信息技术有限公司 | 基于长短期记忆神经网络的燃煤锅炉热效率预测方法 |
CN109670629A (zh) * | 2018-11-16 | 2019-04-23 | 浙江蓝卓工业互联网信息技术有限公司 | 基于长短期记忆神经网络的燃煤锅炉热效率预测方法 |
CN110210559B (zh) * | 2019-05-31 | 2021-10-08 | 北京小米移动软件有限公司 | 对象筛选方法及装置、存储介质 |
CN110210559A (zh) * | 2019-05-31 | 2019-09-06 | 北京小米移动软件有限公司 | 对象筛选方法及装置、存储介质 |
CN114247661A (zh) * | 2020-09-24 | 2022-03-29 | 长鑫存储技术有限公司 | 半导体产品分级方法和分级系统 |
CN112365045A (zh) * | 2020-11-09 | 2021-02-12 | 上海明华电力科技有限公司 | 一种基于大数据的主蒸汽温度智能预测方法 |
CN113744059A (zh) * | 2021-09-08 | 2021-12-03 | 上海擎创信息技术有限公司 | 一种对股指数据进行监控及提示的方法 |
CN114417734A (zh) * | 2022-03-09 | 2022-04-29 | 深圳市信润富联数字科技有限公司 | 刀具寿命的预测方法及装置 |
CN114417734B (zh) * | 2022-03-09 | 2022-07-12 | 深圳市信润富联数字科技有限公司 | 刀具寿命的预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107844865A (zh) | 基于特征参数选取与lstm模型的股指预测方法 | |
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
Tsai | Feature selection in bankruptcy prediction | |
Tsai et al. | Earnings management prediction: A pilot study of combining neural networks and decision trees | |
CN105760957B (zh) | 一种证券软流失客户的预测方法 | |
Liu et al. | Combining enterprise knowledge graph and news sentiment analysis for stock price prediction | |
Ozcalici et al. | An integrated multi-criteria decision making model with Self-Organizing Maps for the assessment of the performance of publicly traded banks in Borsa Istanbul | |
AU2018101523A4 (en) | A personal credit scoring model based on machine learning method | |
Le Pen et al. | Futures trading and the excess comovement of commodity prices | |
Liu | The evaluation of classification models for credit scoring | |
Jiang et al. | On the build and application of bank customer churn warning model | |
Yao et al. | Six-factor asset pricing and portfolio investment via deep learning: Evidence from Chinese stock market | |
Hatamlou et al. | Forecasting gold price using data mining techniques by considering new factors | |
CN114529063A (zh) | 一种基于机器学习的金融领域数据预测方法、设备及介质 | |
Lin et al. | Soft computing algorithms in price of Taiwan real estates | |
Alls et al. | Data mining for database marketing at Garanti Bank | |
Muliawan et al. | Experiment Time Series Forcasting Using Machine Learning (Case studi: Stock Value Prediction) | |
Moodi et al. | A CNN-LSTM deep neural network with technical indicators and sentiment analysis for stock price forecastings | |
Shriwas et al. | Using text mining and rule based technique for prediction of stock market price | |
Shen et al. | Investment time series prediction using a hybrid model based on RBMs and pattern clustering | |
Awolusi et al. | Determinants of Export Performance in Uganda (1989-2020) | |
Sayadi et al. | Prediction-based portfolio optimization model for Iran’s oil dependent stocks using data mining methods | |
Safa et al. | Application of HS meta-heuristic algorithm in designing a mathematical model for forecasting P/E in the panel data approach | |
Alexey | Country Risk in International Investment: Its’ structure and methods of estimation | |
Makatjane | Deep Learning for Sentiment Analysis to Predict the Probability of Bank Loan Default |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180327 |
|
RJ01 | Rejection of invention patent application after publication |