CN111507528A - 一种基于cnn-lstm的股票长期趋势预测方法 - Google Patents
一种基于cnn-lstm的股票长期趋势预测方法 Download PDFInfo
- Publication number
- CN111507528A CN111507528A CN202010305960.4A CN202010305960A CN111507528A CN 111507528 A CN111507528 A CN 111507528A CN 202010305960 A CN202010305960 A CN 202010305960A CN 111507528 A CN111507528 A CN 111507528A
- Authority
- CN
- China
- Prior art keywords
- stock
- sample point
- price
- score
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007774 longterm Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 10
- 238000011176 pooling Methods 0.000 claims abstract description 6
- 238000012300 Sequence Analysis Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims description 32
- 230000000630 rising effect Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 16
- 230000001174 ascending effect Effects 0.000 claims description 11
- 230000010355 oscillation Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 18
- 238000013527 convolutional neural network Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000009514 concussion Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000283690 Bos taurus Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于CNN‑LSTM的股票长期趋势预测方法,包括:对股票市场的股票数据集进行预处理;对经预处理的股票数据集进行数据切分,得到第一股票样本点数据集;采用预先训练好的CNN网络模型对第一股票样本点数据集中的每一第一样本点进行卷积和池化操作,得到第二股票样本点数据集;采用LSTM网络模型对第二股票样本点数据集进行时序分析,并生成预设维数的特征向量;采用具有预设长度的全连接层及softmax分类器对特征向量进行分类评分;根据分类评分回推股票长期的涨跌幅的预测值和股票长期趋势的预测结果。本发明通过大量数据展现出股票长期运行趋势中运行速度快、准确度高、预测标准差更低的优点,避免了股票短期预测的单一化的劣势。
Description
技术领域
本发明涉及股票趋势预测技术领域,尤其涉及一种基于CNN-LSTM的股票长期趋势预测的方法。
背景技术
股票市场的起源最早可追溯至1602年荷兰人买卖荷属东印度公司的股票,而正规的股票市场最早出现在美国。随着通讯技术和电子设备的推广使用,股票交易日益国际化。目前,全球股票市场已达到空前规模,其波动对全球经济的影响重大而深远。股票价格不仅能反映当前的政治形势和宏观经济动向,还能灵敏地反映行业前景和企业的资金供求以及市场供求等情况,可以给管理者提供决策依据。因而,依据相关理论,利用算法模型分析,挖掘股市历史数据和技术指标,对预测股票流通市场的价格走势情况具有重要的理论意义和社会价值。
股票市场是一个具有高时变性的复杂开放系统,众多外界影响因素可以对其产生影响,其高频波动成分具有极大的随机性,使用传统的统计方法和计量模型预测其变化趋势,效果不明显。神经网络(Artificial Neural Networks,ANNs)是一种模仿大脑神经突触联接结构进行分布式并行信息处理的数学模型,具有自学习和自适应的能力。其可以表达复杂的非线性问题,为股票预测带来曙光。卷积神经网络(Convolutional NeuralNetwork,CNN)是一种深度前馈神经网络,其人工神经元可响应部分周围神经元。根据现有技术,首先运用卷积神经网络预测股价短期和长期走势;然后利用CNN识别训练集--股票K线图像,虽然试验结果不理想,但首次将CNN应用于股票交易;而后利用金融数据的特性,构建了适合处理时间序列数据的CNN的模型。长短期记忆网络(Long Short-Term Memory,LSTM)是一种递归型神经网络模型,适用于处理、预测时间序列间隔或延迟较长的重要事件。基于该特点,LSTM被应用于股票预测。根据现有技术,首先构建深度LSTM模型,预测中国股票流通市场中股票价格;随后构建基于股票历史价格数据和技术指标的LSTM模型,预测未来股票市场的变化趋势,同时证明LSTM模型比其他的机器学习方法具有更高的预测精度;近期构建了基于沪市、深市、港股股票数据的PSO-LSTM模型,用于预测股票第二日收盘价格。
目前,国内外大部分针对于CNN和LSTM模型的应用研究集中于短期价格拟合任务;使用的特征也大多只有股票历史价格,MACD的集合,与长期趋势预测契合度不高。
发明内容
本发明所需要解决的技术问题是针对上述现有技术的不足,提供一种基于CNN-LSTM的股票长期趋势预测方法,更加直观且准确性更高地展示出股票长期的运行趋势。
为了解决以上问题,本发明通过以下技术方案实现:
一种基于CNN-LSTM的股票长期趋势预测方法,包含:步骤S1、对股票市场的股票数据集进行预处理。步骤S2、对经预处理的所述股票数据集进行数据切分,得到第一股票样本点数据集,所述第一股票样本点数据集包括用于对CNN网络模型进行训练的训练集和测试集。步骤S3、采用预先训练好的CNN网络模型对所述第一股票样本点数据集中的每一第一样本点进行卷积和池化操作,得到第二股票样本点数据集,所述第二股票样本点数据集中的每一第二样本点的时间序列长度对应的小于所述第一样本点的时间序列长度;所述第二样本点的特征抽象度大于所述第一样本点的特征抽象度。步骤S4、采用LSTM网络模型对所述第二股票样本点数据集进行时序分析,并生成预设维数的特征向量。步骤S5、采用具有预设长度的全连接层及softmax分类器对所述特征向量进行分类评分。步骤S6、根据所述分类评分回推股票长期的涨跌幅的预测值和股票长期的趋势的预测结果。
优选地,所述步骤S1包括:步骤S1.1、对所述股票数据进行奇异值清理后,进行特征提取,得到股票时间序列第一特征集。步骤S1.2、对所述股票时间序列第一特征集进行归一化处理,得到股票时间序列第二特征集。
优选地,所述步骤S1.1包括:将所述股票数据中涨幅超过预设值的数据点标记为奇异值;保留所述奇异值至今的股票数据,对所述奇异值至今的股票数据,进行特征提取,得到所述股票时间序列第一特征集。
优选地,所述步骤S1.2包括:将所述股票时间序列第一特征集中的乖离率特征集的特征数值、价格类特征集的特征数值和波动率特征的特征数值进行归一化处理,得到所述股票时间序列第二特征集。
优选地,所述特征提取包括:将所述奇异值至今的股票数据的乖离率指标、市场波动强度、成交量和价格分别进行短期预设日、中期预设日和长期预设日的平均值计算,得到乖离率的多周期均线集,成交量的多周期均线集,波动率的多周期均线集和价格的多周期均线集。
优选地,所述价格为开盘价、收盘价、最高价和最低价中的一种或几种。
优选地,分别对所述乖离率的多周期均线集、所述成交量的多周期均线集、所述波动率的多周期均线集和所述价格的多周期均线集进行异同移动平均线计算,得到乖离率特征集、成交量特征集、波动率特征集和价格类特征集。
优选地,所述价格类特征集为价格类及其衍生特征和成交量及其衍生特征;所述乖离率特征集为乖离率及其衍生特征和成交量及其衍生特征;所述波动率特征集为波动率及其衍生特征和成交量及其衍生特征。
优选地,所述股票时间序列第一特征集包括价格类特征集、乖离率特征集和波动率特征集。
优选地,所述步骤S2包括:步骤S2.1、将所述股票时间序列第二特征集按照预设个数个交易日一份进行切分,得到所述第一股票样本点数据集,每预设个数个交易日的股票时间序列为一个样本点。步骤S2.2、在所述第一股票样本点数据集中随机抽取若干个样本点作为所述训练集,所述第一股票样本点数据集中余下样本点作为所述测试集。
优选地,所述步骤S5包括:步骤S5.1、所述分类评分包括上涨评分、下跌评分和横盘震荡评分,其中,各类评分满分为1分,且所述上涨评分、下跌评分和横盘震荡评分之和为1分。
步骤S5.2、按照所述上涨评分、所述下跌评分和所述横盘震荡评分对第一股票样本点数据集中的第一样本点进行排序,然后计算每一所述第一样本点的真实涨跌幅,采用sigmoid函数制作对应每一所述第一样本点的涨跌幅标签。优选地,所述步骤S6包括:对所述测试集进行所述分类评分,将得到的该测试集的评分与所述第一股票样本点数据集中的具有相同评分的所述第一样本点的所述涨跌幅标签进行对比,将与所述测试集中的样本点评分相同的所有所述第一样本点的所述涨跌幅标签的平均值作为对所述测试集中的样本点的涨跌幅预测值,以得到所述测试集的趋势的预测结果。
本发明至少具有以下优点之一:
本发明提出CNN-LSTM网络方法可以较为准确地预测到股价中期的涨跌趋势情况,并可以利用评分反推真实涨跌幅,并且利用高上涨评分的股票占比可以较好地估计此时市场环境的好坏和牛熊市运行阶段,更好的为中长线投资者提供参考。CNN-LSTM网络方法运行速度更快,准确度更高,鲁棒性更好,预测标准差更低,能更好的实现股票趋势预测。
附图说明
图1为本发明一实施例提供的一种基于CNN-LSTM的股票长期趋势预测的方法的流程示意图;
图2为本发明一实施例提供的滑动时间窗口及其步长图;
图3为本发明一实施例提供的sigmoid函数对股价涨跌幅度的处理结果图;
图4为本发明一实施例提供的回推验证结果图;
图5为本发明一实施例提供的依照上涨评分排序散点图;
图6为本发明一实施例提供的依照下跌评分排序散点图;
图7为本发明一实施例提供的依照横盘评分排序散点图;
图8为本发明一实施例提供的价格类测试集实验结果示意图;
图9为本发明一实施例提供的乖离率类测试集实验结果;
图10为本发明一实施例提供的波动率类测试集实验结果;
图11为本发明一实施例提供的不同网络结构柱状图分析。
具体实施方式
以下结合附图1~11和具体实施方式对本发明提出的一种基于CNN-LSTM的股票长期趋势预测的方法作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需要说明的是,附图采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂,请参阅附图。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本实施例提供的一种基于CNN-LSTM的股票长期趋势预测方法,包括以下步骤:
步骤S1、对股票市场的股票数据集进行预处理;具体的,所述步骤S1还包括:
步骤S1.1、对所述股票数据进行奇异值清理后,进行特征提取,得到股票时间序列第一特征集;
将所述股票数据中涨幅超过预设值的数据点标记为奇异值;保留所述奇异值至今的股票数据,对所述奇异值至今的股票数据,进行特征提取,得到所述股票时间序列第一特征集。
由于股票数据时间跨度长,期间的各种历史事件会使股价数据失真,涨跌幅数据失真,失真的数据与近年股票数据差异较大。市场长期分红送股会导致股价变动渐渐失真,其数值会小于零,涨跌幅会扩大几倍甚至十几倍。由此,针对以上数据和数据结构存在的问题,本实施例将涨幅超过15%的所述股票市场的股票数据标记为数据失真点,即所述奇异值,15%为所述预设值,并只保留奇异值至今的数据,保证训练数据与近年数据的匹配度。
股票市场是一个复杂多变的系统,特征选择对其预测结果的准确性具有决定性作用。本实施例为了尽可能的表征股价运行的内在机理,经研究发现股市与宏观经济统计数据表现不一致,但与宏观经济潜在面表现一致,故不将基本面信息加入特征集。
在训练神经网络感知股票时间序列运行规律的任务中,更好的特征工程可以使一个轻量级的神经网络获得较好效果。通常的股票时间序列的特征只有最高价、最低价、开盘价、收盘价、成交量这五个基本特征。要对股票数据的中长期趋势进行预测,这五个基本特征是不够的,需要能够表征中长期趋势的特征和短期趋势特征。表征中长期趋势的特征可以使得神经网络更容易的感知到长期趋势的运行情况;表征短期趋势的特征可以使得神经网络在感知短期趋势变动对长期趋势的影响,进而增强神经网络对长期趋势拐点的感知能力。
MACD指标对于股票投资者来说更应当成一个中线买卖的指标参考,对于短线来说并不十分有效,故表征中长期趋势状况及其变动的现有的方法是计算序列的MACD;乖离率可以更好的捕捉数十个交易日的趋势变化状况,本发明将乖离率加入特征集,可以增强系统的短期趋势感知力,提高判断长期趋势拐点的能力,故表征短期趋势的方法是乖离率指标;股票波动性和市场整体波动性与牛熊市有很强的关联性,市场波动强度的变化也可以表征趋势的稳定性和变动情况;同时研究表明,将成交量并入特征体系,会有效提升算法对股票时间序列规律的感知能力。本实施例基于以上四个原则,对股票时间序列数据进行特征工程,使特征集扩增。
波动率现有指标很少。本实施例波动率的计算体系如下:
当日涨幅:
K线涨幅:
涨跌稳定性:
当日运行稳定性:
结合公式(1)(2)(3)(4)特征的MACD:
将所述奇异值至今的股票数据的乖离率指标、市场波动强度、成交量和价格分别进行短期预设日、中期预设日和长期预设日的平均值计算,得到乖离率的多周期均线集,成交量的多周期均线集,波动率的多周期均线集和价格的多周期均线集。
所述价格为开盘价、收盘价、最高价和最低价中的一种或几种。例如,所述价格为开盘价、收盘价、最高价和最低价时,预测结果最优。
分别对所述乖离率的多周期均线集、所述成交量的多周期均线集、所述波动率的多周期均线集和所述价格的多周期均线集进行异同移动平均线计算,得到乖离率特征集、成交量特征集、波动率特征集和价格类特征集。
具体的,本实施例中每个交易日的股价数据特征共计50维,其特征向量主要分为四大类:一是所述价格,包括当日开盘价(Open)、当日最高价(High)、当日最低价(Low)、当日收盘价(Close)、收盘价的5日、10日、20日、44日及55日的平均线,并计算对应MACD,得到所述价格类特征集,作为补充特征;二是为提高预测准确率,将所述成交量数据、成交量的5日,10日,50日的平均线作为重要特征,并提取成交量MACD特征,得到所述成交量特征集,并加入股票时间序列第一特征集;三是为捕捉股价的所述市场波动强度规律,求出股价涨幅、K线涨幅、涨跌稳定性、当日运行稳定性指标,并由各指标的长短期平均线计算对应MACD,得到所述波动率特征集,加入股票时间序列第一特征集;四是为捕捉中长期趋势变化状况,加入所述乖离率指标,并计算第55日、第250日的所述乖离率指标和乖离率的5日,15日,30日,60日的平均线,依然计算对应的MACD,得到所述乖离率特征集,加入股票时间序列第一特征集。
指标计算公式如下:
MACD:
K日乖离率:
乖离率MACD:
长期均线-短期均线 (8)
由于所述成交量特征是起辅助做用,本发明将按照以下表格特指对应的特征体系:
特征体系名称 | 特征体系组成 |
价格类特征集 | 价格类及其衍生特征+成交量及其衍生特征 |
乖离率特征集 | 乖离率及其衍生特征+成交量及其衍生特征 |
波动率特征集 | 波动率及其衍生特征+成交量及其衍生特征 |
如上表所示,所述价格类特征集为价格类及其衍生特征和成交量及其衍生特征;所述乖离率特征集为乖离率及其衍生特征和成交量及其衍生特征;所述波动率特征集为波动率及其衍生特征和成交量及其衍生特征。
所述股票时间序列第一特征集包括价格类特征集、乖离率特征集和波动率特征集。
步骤S1.2、对所述股票时间序列第一特征集进行归一化处理,得到股票时间序列第二特征集。
将所述股票时间序列第一特征集中的乖离率特征集的特征数值、价格类特征集的特征数值和波动率特征的特征数值进行归一化处理,得到所述股票时间序列第二特征集。
具体的,特征数值归一化可使得神经网络的训练更加快速并获得更优秀的结果。本实施例为了保证股价涨跌幅和各类特征的结构不变性,归一化方法如下:
价格特征归一化:
其余特征归一化:
步骤S2、对经预处理的所述股票数据集进行数据切分,得到第一股票样本点数据集,所述第一股票样本点数据集包括用于对CNN网络模型进行训练的训练集和测试集。
步骤S2.1、将所述股票时间序列第二特征集按照预设个数个交易日一份进行切分,得到所述第一股票样本点数据集,每预设个数个交易日的股票时间序列为一个样本点。
步骤S2.2、在所述第一股票样本点数据集中随机抽取若干个样本点作为所述训练集,所述第一股票样本点数据集中余下样本点作为所述测试集。
具体的,国内股市指数的运行周期从79个交易日到921个交易日不等,大级别运行周期包含小级别运行周期,600个交易日可以囊括96%的股价运行周期,100个交易日可以囊括40%的运行周期并囊括大多数小级别运行周期。对于中长期趋势预测任务,输入数据应当包含更大的运行周期,输出预测周期应当选择小周期。故本实施例选择600个交易日作为神经网络输入序列的长度,即每600个交易日的股票时间序列作为一个样本点,600个交易日为所述预设个数个交易日,随机抽取80%的样本点作为神经网络的所述训练集,余下20%数据作为所述测试集。而数据标签则由600个交易日的后续100个交易日数据生成。本实施例在数据切分时的滑动窗口大小为600个交易日,滑动步长定为股价最短运行周期的1/3——25个交易日,以降低样本之间的相似度,减少冗余数据,如图2所示。
市场环境等因素对股价的影响会随着预测周期的延长而变大。且不同股票的涨跌幅非平均分布,于是本实施例采用先分类,再由分类结果的评分回推真实涨跌幅标签的方法,来提高神经网络的鲁棒性。
本实施例用未来100个交易日收盘价的中位数表示计算股价涨跌幅,利用sigmoid函数处理涨跌幅,以弱化牛熊市造成的涨跌幅失真的情况,并根据处理结果对其进行分类处理,结果如图3所示。其中,振幅在0.5附近代表不涨不跌;振幅大于0.59定义为上涨,对应涨幅大于20%;振幅小于0.487定义为下跌,对应跌幅大于15%。
分类方法如下:
类别 | 上涨类 | 下跌类 | 横盘震荡类 | 舍弃数据 |
类别数据占比 | 24.77% | 25.41% | 24.93% | 24.89% |
这种分类方法保留了约75%的原始样本量,因此保证了鲁棒性;同时使不同类别股票之间具有足够的类别间距来完成分类任务。
本实施例提供的所述测试集和所述训练集在生成标签时剔除约25%的样本来保证类间距,模型测试时应当对所有的样本进行测试并回推模型各项指标。
步骤S3、采用预先训练好的CNN网络模型对所述第一股票样本点数据集中的每一第一样本点进行卷积和池化操作,得到第二股票样本点数据集,所述第二股票样本点数据集中的每一第二样本点的时间序列长度对应的小于所述第一样本点的时间序列长度;所述第二样本点的特征抽象度大于所述第一样本点的特征抽象度。
具体的,卷积层步长3和5,池化层步长2和3,可得25个16维的特征向量,每个特征向量代表相邻24个交易日内的关键特征及特征之间的联系。
步骤S4、采用LSTM网络模型对所述第二股票样本点数据集进行时序分析,并生成预设维数的特征向量。
步骤S5、采用具有预设长度的全连接层及softmax分类器对所述特征向量进行分类评分。
步骤S5.1、所述分类评分包括上涨评分、下跌评分和横盘震荡评分,其中,各类评分满分为1分,且所述上涨评分、下跌评分和横盘震荡评分之和为1分。
步骤S5.2、按照所述上涨评分、所述下跌评分和所述横盘震荡评分对第一股票样本点数据集中的第一样本点进行排序,然后计算每一所述第一样本点的真实涨跌幅,采用sigmoid函数制作对应每一所述第一样本点的涨跌幅标签。
步骤S6、根据所述分类评分回推股票长期的涨跌幅的预测值和股票长期的趋势的预测结果。
对所述测试集进行所述分类评分,将得到的该测试集的评分与所述第一股票样本点数据集中的具有相同评分的所述第一样本点的所述涨跌幅标签进行对比,将与所述测试集中的样本点评分相同的每一所述第一样本点的所述涨跌幅标签的平均值作为对所述测试集中的样本点的涨跌幅预测值,以得到所述测试集的趋势的预测结果。
具体的,将每一所述第一样本点的真实涨跌幅按照纵坐标:涨跌幅标签;横坐标:排名进行作图,得到附图5~7。将得到的评分对比附图5~7中相同评分样本的涨跌幅标签,将与所述测试集中的样本点评分相同的每一所述第一样本点的涨跌幅标签的平均值作为对所述测试集中的样本点的涨跌幅预测值,也由此得出所述测试集的预期趋势。
观察图5~7可得:随着评分的提高,第一样本点会趋向于上涨;随着评分的降低,第一样本点会趋向于下跌。由震荡评分排序展示图可以发现,评分越高,样本点越趋向于横盘震荡,而评分越低,第一样本点更倾向于上涨或者下跌。
本实施例就上涨、下跌、横盘震荡评分排序对股票市场形势进行预测,结果如下表所示。
表中数据表明,根据上涨评分排序,评分大于0.96和0.98时,预测准确率皆高于下跌、震荡评分排序,标准差也普遍低于下跌、震荡评分排序,因而认为上涨评分排序来回推新数据的预期涨跌幅具有较强的鲁棒性,预测标准差取0.0553。为了验证本发明,提出CNN-LSTM模型的有效性,本实施例将评分大于0.96的股价样本提取出来,按照时间顺序与深证指数相对应,结果如图4所示。数据表格如下:
由上表看出,2005-2007年的牛市和2012-2015年的小票牛市的收益率均高于17.4%,评分大于0.96的股票比例均大于0.054,最大回撤率均小于12%;当处于2008年的熊市和2015年股灾时,本实施例数据集没有评分大于0.96的股票,即找不到大概率会上涨的股票。
为了分析不同种类特征对于算法的影响,本实施例分别使用价格类特征、乖离率特征、波动性特征和全特征分别构建数据集,并对其进行神经网络训练,以此作为对照实验。实验结果如图8~10所示。对比分析三张结果图发现,模型中单独加入价格类特征、乖离率类特征、波动率类特征对的预测准确率都稍逊色于全特征类数据集。模型训练60epoch后,全特征的测试集准确率达86.5%。
为了分析不同网络结构对结果的影响,使用传统的纯LSTM神经网络和纯CNN神经网络进行模型训练,分析收敛速度、正确率、方差,如图11所示。LSTM网络无CNN帮助降维,收敛速度非常慢,约为其他两种网络的15-20倍,正确率为81.5%,方差更大;CNN神经网络无法考虑时序信息,虽然收敛速度很快,但正确率只有83%,方差也更大。只考虑正确率,三个模型相似,但若考虑方差和收敛速度,本实施例提出的CNN-LSTM网络更加优秀。
由于股票市场的价格变化并非是简单的金融时间序列,而是受到突发事件以及市场环境的不可预测性等多重因素的影响,具有复杂的不稳定性、非线性与周期不确定性的特点。由此本实施例根据wind数据库下载的所述股票市场的股票数据进行奇异值的清理,对清理后的数据进行特征提取;依照600个交易日作为神经网络输入数据的格式对处理后的数据进行切分,获得所述第一股票样本点数据集,并将所述第一股票样本点数据集划分为训练集和测试集;使用预先训练好的CNN神经网络对所述第一股票样本点数据集中的每一第一样本点进行卷积和池化处理,提取形态特征并缩短序列长度;采用LSTM神经网络对CNN输出的第二股票样本点数据集进行处理;将结果输入全连接层映射样本空间并使用softmax层完成分类评分,制作涨跌幅标签;依照分类评分,根据涨跌幅标签回推股票长期的涨跌幅的预测值和股票长期的趋势的预测结果。
本实施例提出基于CNN-LSTM的股票长期趋势预测算法,先对股票开盘价收盘价等基础数据提取能表征长期和短期趋势变化的特征,再使用一维CNN网络模型对股票时间序列长度进行压缩并提取股价区域结构特征,得到具有股价区域结构特征的较短的时间序列;然后将结果输入LSTM网络中,完成对股票时序特征的识别,随后将LSTM网络的输出结果输入到全连接层网络,完成对样本空间的映射,并由softmax分类器进行股票趋势分类(上涨、下跌、横盘);最后由softmax分类器输出的类别可能性的评分,依照历史样本的分类评分和真实涨跌幅来反推新股票样本的预期涨跌幅和趋势。本文经过实验对比单一特征集(价格类,乖离率类,波动率类)对结果的影响,对比CNN,LSTM,和本文网络结构对结果的影响,证明本文提出的组合特征集和CNN-LSTM混合网络在股票长期趋势预测中具有运行速度快,准确度高,预测标准差更低的优点。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (10)
1.一种基于CNN-LSTM的股票长期趋势预测方法,其特征在于,包含:
步骤S1、对股票市场的股票数据集进行预处理;
步骤S2、对经预处理的所述股票数据集进行数据切分,得到第一股票样本点数据集,所述第一股票样本点数据集包括用于对CNN网络模型进行训练的训练集和测试集;
步骤S3、采用预先训练好的CNN网络模型对所述第一股票样本点数据集中的每一第一样本点进行卷积和池化操作,得到第二股票样本点数据集,所述第二股票样本点数据集中的每一第二样本点的时间序列长度对应的小于所述第一样本点的时间序列长度;所述第二样本点的特征抽象度大于所述第一样本点的特征抽象度;
步骤S4、采用LSTM网络模型对所述第二股票样本点数据集进行时序分析,并生成预设维数的特征向量;
步骤S5、采用具有预设长度的全连接层及softmax分类器对所述特征向量进行分类评分;
步骤S6、根据所述分类评分回推股票长期的涨跌幅的预测值和股票长期的趋势的预测结果。
2.如权利要求1所述的基于CNN-LSTM的股票长期趋势预测方法,其特征在于,所述步骤S1包括:
步骤S1.1、对所述股票数据进行奇异值清理后,进行特征提取,得到股票时间序列第一特征集;
步骤S1.2、对所述股票时间序列第一特征集进行归一化处理,得到股票时间序列第二特征集。
3.如权利要求2所述的基于CNN-LSTM的股票长期趋势预测方法,其特征在于,所述步骤S1.1包括:将所述股票数据中涨幅超过预设值的数据点标记为奇异值;保留所述奇异值至今的股票数据,对所述奇异值至今的股票数据,进行特征提取,得到所述股票时间序列第一特征集。
4.如权利要求3所述的基于CNN-LSTM的股票长期趋势预测方法,其特征在于,所述步骤S1.2包括:将所述股票时间序列第一特征集中的乖离率特征集的特征数值、价格类特征集的特征数值和波动率特征的特征数值进行归一化处理,得到所述股票时间序列第二特征集。
5.如权利要求4所述的基于CNN-LSTM的股票长期趋势预测方法,其特征在于,所述特征提取包括:将所述奇异值至今的股票数据的乖离率指标、市场波动强度、成交量和价格分别进行短期预设日、中期预设日和长期预设日的平均值计算,得到乖离率的多周期均线集,成交量的多周期均线集,波动率的多周期均线集和价格的多周期均线集。
6.如权利要求5所述的基于CNN-LSTM的股票长期趋势预测方法,其特征在于,所述价格为开盘价、收盘价、最高价和最低价中的一种或几种。
7.如权利要求6所述的基于CNN-LSTM的股票长期趋势预测方法,其特征在于,分别对所述乖离率的多周期均线集、所述成交量的多周期均线集、所述波动率的多周期均线集和所述价格的多周期均线集进行异同移动平均线计算,得到乖离率特征集、成交量特征集、波动率特征集和价格类特征集。
8.如权利要求7所述的基于CNN-LSTM的股票长期趋势预测方法,其特征在于,所述价格类特征集为价格类及其衍生特征和成交量及其衍生特征;所述乖离率特征集为乖离率及其衍生特征和成交量及其衍生特征;所述波动率特征集为波动率及其衍生特征和成交量及其衍生特征。
9.如权利要求8所述的基于CNN-LSTM的股票长期趋势预测方法,其特征在于,所述股票时间序列第一特征集包括价格类特征集、乖离率特征集和波动率特征集。
10.如权利要求1所述的基于CNN-LSTM的股票长期趋势预测方法,其特征在于,所述步骤S2包括:
步骤S2.1、将所述股票时间序列第二特征集按照预设个数个交易日一份进行切分,得到所述第一股票样本点数据集,每预设个数个交易日的股票时间序列为一个样本点;
步骤S2.2、在所述第一股票样本点数据集中随机抽取若干个样本点作为所述训练集,所述第一股票样本点数据集中余下样本点作为所述测试集;
所述步骤S5包括:
步骤S5.1、所述分类评分包括上涨评分、下跌评分和横盘震荡评分,其中,各类评分满分为1分,且所述上涨评分、下跌评分和横盘震荡评分之和为1分;
步骤S5.2、按照所述上涨评分、所述下跌评分和所述横盘震荡评分对第一股票样本点数据集中的第一样本点进行排序,然后计算每一所述第一样本点的真实涨跌幅,采用sigmoid函数制作对应每一所述第一样本点的涨跌幅标签;
所述步骤S6包括:对所述测试集进行所述分类评分,将得到的该测试集的评分与所述第一股票样本点数据集中的具有相同评分的所述第一样本点的所述涨跌幅标签进行对比,将与所述测试集中的样本点评分相同的所有所述第一样本点的所述涨跌幅标签的平均值作为对所述测试集中的样本点的涨跌幅预测值,以得到所述测试集的趋势的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010305960.4A CN111507528A (zh) | 2020-04-17 | 2020-04-17 | 一种基于cnn-lstm的股票长期趋势预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010305960.4A CN111507528A (zh) | 2020-04-17 | 2020-04-17 | 一种基于cnn-lstm的股票长期趋势预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111507528A true CN111507528A (zh) | 2020-08-07 |
Family
ID=71874455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010305960.4A Pending CN111507528A (zh) | 2020-04-17 | 2020-04-17 | 一种基于cnn-lstm的股票长期趋势预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507528A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792258A (zh) * | 2021-09-18 | 2021-12-14 | 广东电网有限责任公司广州供电局 | 一种电网企业信息化投资的贡献率确定方法 |
CN113807951A (zh) * | 2021-09-23 | 2021-12-17 | 中国建设银行股份有限公司 | 一种基于深度学习的交易数据趋势预测方法和系统 |
CN117725522A (zh) * | 2023-12-18 | 2024-03-19 | 易方达基金管理有限公司 | 一种新股发行趋势预测方法及系统 |
-
2020
- 2020-04-17 CN CN202010305960.4A patent/CN111507528A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792258A (zh) * | 2021-09-18 | 2021-12-14 | 广东电网有限责任公司广州供电局 | 一种电网企业信息化投资的贡献率确定方法 |
CN113807951A (zh) * | 2021-09-23 | 2021-12-17 | 中国建设银行股份有限公司 | 一种基于深度学习的交易数据趋势预测方法和系统 |
CN117725522A (zh) * | 2023-12-18 | 2024-03-19 | 易方达基金管理有限公司 | 一种新股发行趋势预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
CN107608956B (zh) | 一种基于cnn-grnn的读者情绪分布预测算法 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
Suresh | An unsupervised fuzzy clustering method for twitter sentiment analysis | |
CN105550269A (zh) | 一种有监督学习的产品评论分析方法及系统 | |
CN111507528A (zh) | 一种基于cnn-lstm的股票长期趋势预测方法 | |
CN108694476A (zh) | 一种结合财经新闻的卷积神经网络股票价格波动预测方法 | |
CN110852856A (zh) | 一种基于动态网络表征的发票虚开识别方法 | |
CN111680225B (zh) | 基于机器学习的微信金融消息分析方法及系统 | |
CN108647828A (zh) | 一种结合新闻语料和股市交易数据的股票预测方法 | |
CN104851025A (zh) | 一种基于案例推理的电商网站商品的个性化推荐方法 | |
WO2017118333A1 (zh) | 一种基于数据驱动预测用户问题的方法及装置 | |
CN111583012B (zh) | 融合文本信息的信用债发债主体违约风险评估方法 | |
CN109063983B (zh) | 一种基于社交媒体数据的自然灾害损失实时评估方法 | |
CN117151870A (zh) | 一种基于客群画像行为分析方法及系统 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN111754208A (zh) | 一种招聘简历自动筛选方法 | |
CN112380346B (zh) | 金融新闻情感分析方法、装置、计算机设备及存储介质 | |
CN113569048A (zh) | 一种基于企业经营范围自动划分所属行业的方法及系统 | |
CN113837266A (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN114595693A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN111753083A (zh) | 一种基于svm参数优化的投诉举报文本分类方法 | |
CN112215629A (zh) | 基于构造对抗样本的多目标广告生成系统及其方法 | |
Mankolli et al. | A hybrid machine learning method for text analysis to determine job titles similarity | |
CN115034762A (zh) | 一种岗位推荐方法、装置、存储介质、电子设备及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200807 |