CN117853239A - 股价预测方法、系统、设备、存储介质 - Google Patents
股价预测方法、系统、设备、存储介质 Download PDFInfo
- Publication number
- CN117853239A CN117853239A CN202410057821.2A CN202410057821A CN117853239A CN 117853239 A CN117853239 A CN 117853239A CN 202410057821 A CN202410057821 A CN 202410057821A CN 117853239 A CN117853239 A CN 117853239A
- Authority
- CN
- China
- Prior art keywords
- subsequence
- stock price
- prediction
- data
- series data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于股价预测技术领域,具体涉及股价预测方法、系统、设备、存储介质,通过设置固定时间步长的滑动窗口,滑动窗口按照股价序列数据的时间维度,递进滑动步长,直至历史市场股价序列数据全部遍历、分解完成,得到N个子序列及每一个子序列对应的若干个内涵模态分量,从而保证了利用当前数据进行股价预测,防止了数据泄漏;另外对子序列中的股价数据进行三次样条插值后进行分解,能够避免在端点处产生畸变分量,克服了股价序列高波动性与非线性带来的预测误差大的问题。
Description
技术领域
本发明属于股价预测技术领域,具体涉及股价预测方法、系统、设备、存储介质。
背景技术
当前,经济全球化的迅猛发展使得全球股票市场竞争愈加激烈,市场呈现出高频化、多样性和复杂性的特点。股票价格的准确预测在股市投资决策中扮演着至关重要的角色,不仅能够有效降低投资风险,也可为金融机构制定经济政策提供有力参考。
近年来,众多深度学习方法被提出,它们可以从非平滑、非线性的股票价格中自动学习复杂的特征表示,如卷积神经网络(CNN)、长短期记忆网络(LSTM)、门控循环单元(RNN)等,这些深度学习方法已被用于股票价格预测,并显示出优越的性能。针对于股价非线性的问题,还提出了预测股价的混合模型,如将经验模态分解(EMD)、极限学习机(ELM)和改进的和谐搜索(his)算法进行组合,提出了新的两阶段集成模型来预测股价,该模型通过充分利用各种算法的优势,有效地提升了预测的精度。
虽然已有的股票预测方法取得了一定研究成果,但仍然存在以下不足:
(1)虽然神经网络表现出良好的预测性能,但没有明确的机制来处理股票价格序列的非平稳性,已有的研究方法降低数据的非线性和高波动性时,引起的噪声问题和模态混叠问题会影响最终的预测效果,增大预测误差。
(2)绝大多数基于分解的混合模型往往在整个股票价格序列上进行分解,分解后的内涵模态分量(IMF分量)在划分训练集和测试集时会混合,这可能导致数据泄漏的问题,即在分析期间使用了未来数据,影响了模型的真实性。
发明内容
本发明提供一种股价预测方法、系统、设备、存储介质。
本发明的技术方案如下:
本发明提供了一种股价预测方法,包括如下步骤:
获取历史市场股价序列数据,以固定时间步长的滑动窗口对股价序列数据进行选取,得到第一子序列;对第一子序列中的股价数据进行分解得到第一子序列的若干个内涵模态分量;
滑动窗口按照股价序列数据的时间维度,递进一个滑动步长后,得到第二子序列,重复对第二子序列中的股价数据分解、递进一个滑动步长的操作,直至历史市场股价序列数据全部遍历、分解完成,得到第N子序列及对应的若干个内涵模态分量;滑动步长小于固定时间步长;N为历史市场股价序列数据划分为的子序列的数量;
将第一子序列、第二子序列、……、第N子序列对应的若干个内涵模态分量分别输入预测网络中,得到每一个子序列的预测结果,将预测结果按照第一子序列、第二子序列、……、第N子序列的顺序排列,得到股价预测结果;
所述分解,为对滑动窗口选取的每个子序列中的股价数据先进行白噪声处理后,再进行三次样条插值,对插值后的每个子序列分别进行分解。
本发明所述插值后的子序列进行分解,具体为,插值后的子序列根据上极值点、下极值点,分别得到上包络线、下包络线,分别获得上包络线、下包络线的均值后,得到每个子序列的均值包络线,插值后的子序列减去插值后的子序列的均值包络线后,得到插值后的子序列的中间分量,若中间分量满足预设条件,则该中间分量为插值后的子序列的内涵模态分量;
若中间分量不满足预设条件,则以该中间分量为基础,重复白噪声处理、三次样条插值、均值包络线、得到中间分量的操作,直至得到子序列相应的内涵模态分量。
本发明所述白噪声处理,为添加不同于上一轮次幅值的白噪声;同一轮次下,添加相同幅值的白噪声。
本发明所述三次样条插值,具体为,将依次包括k0、k1、k2、k3极值点的子序列,分别从k0、k3极值点作切线后,分别过k1、k2极值点作垂直于x轴的直线,并分别与切线相交于点p1、p2,得到多边形k0p1p2k3,作为插值的边界。
本发明所述得到每一个子序列的预测结果,包括归一化处理,所述归一化处理,为对每一个子序列对应的若干个内涵模态分量,选择最大值和最小值后,处理每一个子序列对应的若干个内涵模态分量,落至[-1,1]区间。
本发明所述第一子序列、第二子序列、……、第N子序列,为从历史市场股价序列数据的初始日期位置开始,以固定时间步长的滑动窗口递进滑动步长,逐步移动滑动窗口,得到具有相同固定时间步长的子序列。
本发明所述固定时间步长,由历史市场股价序列数据决定,若采用的是近5天的历史市场股价序列数据,则固定时间步长为5。
本发明还提供了一种股价预测系统,包括:
分解模块:用于获取历史市场股价序列数据,以固定时间步长的滑动窗口对股价序列数据进行选取,得到第一子序列;对第一子序列中的股价数据进行分解得到第一子序列的若干个内涵模态分量;
滑动窗口按照股价序列数据的时间维度,递进一个滑动步长后,得到第二子序列,重复对第二子序列中的股价数据分解、递进一个滑动步长的操作,直至历史市场股价序列数据全部遍历、分解完成,得到第N子序列及对应的若干个内涵模态分量;滑动步长小于固定时间步长;N为历史市场股价序列数据划分为的子序列的数量;
所述分解,为对滑动窗口选取的每个子序列中的股价数据先进行白噪声处理后,再进行三次样条插值,对插值后的每个子序列分别进行分解;
预测模块:用于将第一子序列、第二子序列、……、第N子序列对应的若干个内涵模态分量分别输入预测网络中,得到每一个子序列的预测结果,将预测结果按照第一子序列、第二子序列、……、第N子序列的顺序排列,得到股价预测结果。
本发明还提供了一种股价预测设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现所述的股价预测方法。
本发明还提供了一种股价预测存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现所述的股价预测方法。
有益效果
本发明提供的股价预测方法,能够减小股价预测误差,提高预测精度;
本发明通过以固定时间步长的滑动窗口对股价序列数据进行选取,得到第一子序列;对子序列中的股价数据进行分解得到第一子序列的若干个内涵模态分量,子序列分解完成后,滑动窗口按照股价序列数据的时间维度,递进滑动步长后,得到第二子序列,重复对子序列中的股价数据分解、递进滑动步长的操作,直至历史市场股价序列数据全部遍历、分解完成,得到第N子序列及对应的若干个内涵模态分量。保证了利用当前数据进行股价预测,确保使用已知信息,避免使用未来数据,防止了数据泄漏;
本发明通过对子序列中的股价数据进行白噪声处理后,进行三次样条插值,插值后的子序列进行分解。三次样条插值能够避免在端点处产生畸变分量,减少了分解过程中所引起的噪声问题和模态混叠问题,又克服了股价序列高波动性与非线性带来的预测误差大的问题。
附图说明
图1为滑动窗口切分示意图,
图2为A股票数据集的分解结果示意图,
图3为A股票(a)、B股票(b)、C股票(c)三支数据集训练过程中的损失变化图,
图4为A股票的股价预测结果图,
图5为B股票的股价预测结果图,
图6为C股票的股价预测结果图,
图7为不同股价预测方法对A股票的股价预测结果对比图。
具体实施方式
以下实施例旨在说明本发明,而不是对本发明的进一步限定。
本发明提供了一种股价预测方法,包括如下步骤:
获取历史市场股价序列数据,以固定时间步长的滑动窗口对股价序列数据进行选取,得到第一子序列;对第一子序列中的股价数据进行分解得到第一子序列的若干个内涵模态分量(IMF分量);
滑动窗口按照股价序列数据的时间维度,递进一个滑动步长后,得到第二子序列,重复对第二子序列中的股价数据分解、递进一个滑动步长的操作,直至历史市场股价序列数据全部遍历、分解完成,得到第N子序列及对应的若干个内涵模态分量;滑动步长小于固定时间步长;N为历史市场股价序列数据划分为的子序列的数量。
考虑到,如果直接对整个股价序列进行分解,并将分解后的全部IMF分量直接导入预测网络,容易出现训练集与测试集混合,从而引发数据泄漏的问题,影响测试效果。采用以滑动窗口的方式将历史市场股价序列处理得到子序列,优选地,所述第一子序列、第二子序列、……、第N子序列,为从历史市场股价序列数据的初始日期位置开始,以固定时间步长的滑动窗口递进滑动步长,逐步移动滑动窗口,得到具有相同固定时间步长的子序列。
另外,所述固定时间步长,由历史市场股价序列数据决定,若采用的是近5天的历史市场股价序列数据,则固定时间步长为5。
在不分解整体股价序列的情况下,本申请以滑动窗口的方式,通过设置固定时间步长的输入,得到N个子序列,从而只对固定时间步长内的子序列进行分解。
以A股票数据集为例,一共975天的收盘价数据,即历史市场股价序列数据总长度大小为975。采用本申请提出的预测方法,首先利用滑动窗口的方式得到子序列,滑动窗口如图1所示:滑动窗口固定时间步长为5,滑动步长为1。即利用前五天的收盘价预测后一天的收盘价,输入数据每次向后移动1天,即滑动过程中,依次产生的子序列S1,为第1天至第五天数据;子序列S2,为第2天到第6天数据,以此类推,共得到971个子序列。
通过在滑动窗口内进行股价分解,可以得到所在时间段内股价分解后的若干个IMF分量,每一个IMF分量都是该时间段内的股价信息,并且没有与该时间段外的IMF分量混合,从而保证了只使用该时间段内的历史价格信息去预测后一天的股价,有效地避免了数据泄露问题。另外,滑动窗口按照股价序列数据的时间维度,递进滑动步长后,得到子序列,保证得到的是依次利用输入信息预测的结果,从而保证了预测的信息也是连续的。
除此之外,对得到的每一个子序列进行分解,得到子序列相对应的若干个IMF分量。具体地,所述分解,为对滑动窗口选取的每个子序列中的股价数据先进行白噪声处理后,再进行三次样条插值,对插值后的每个子序列分别进行分解。
进一步的,所述插值后的子序列进行分解,具体为,所述插值后的子序列进行分解,具体为,插值后的子序列根据上极值点、下极值点,分别得到上包络线、下包络线,分别获得上包络线、下包络线的均值后,得到每个子序列的均值包络线,插值后的子序列减去插值后的子序列的均值包络线后,得到插值后的子序列的中间分量,若中间分量满足预设条件,则该中间分量为插值后的子序列的内涵模态分量;
若中间分量不满足预设条件,则以该中间分量为基础,重复白噪声处理、三次样条插值、均值包络线、得到中间分量的操作,直至得到子序列相应的IMF分量。
所述预设条件,需同时满足以下两点。一是,在序列数据内,极值点的个数和过零点的个数必须相等或相差最多不能超过一个;二是,在任意时刻,由局部极大值点形成的上包络线和由局部极小值点形成的下包络线的平均值为零,即上包络线、下包络线相对于时间轴局部对称。
另外,考虑到分解过程降低数据的非线性和高波动性时,会产生噪声问题,优选地,所述白噪声处理,为添加不同于上一轮次幅值的白噪声,经过多次重复操作得到的相应IMF分量,进行平均来抵消加入的白噪声,从而有效抑制模态混叠的产生;同一轮次下,添加相同幅值的白噪声,将一个具有标准正态分布的白噪声加到原始数据上,从而产生一个新数据,对新数据进行分解得到与每一个子序列对应的IMF分量。
由于股价的高波动性和强非线性,使得预测网络在训练学习的过程中容易引发欠拟合现象,导致预测网络的泛化能力下降,预测质量大幅度降低。选择进行插值处理,可以保证整个股价序列的光滑性,而插值范围尤为重要。优选地,所述三次样条插值,具体为,将依次包括k0、k1、k2、k3极值点的子序列,分别从k0、k3极值点作切线后,分别过k1、k2极值点作垂直于x轴的直线,并分别与切线相交于点p1、p2,得到多边形k0p1p2k3,作为插值的边界。
在对每个子序列进行分解时,需要找出时间尺度模态下的序列极大值点和极小值点。然而,在股价序列的周期内,很难对极值点进行准确地定位,即便定位到极值点,也可能是局部极值点而非全局极值点。这导致在进行样条曲线拟合时存在较大的拟合误差。本申请通过对局部极值点插值后求取平均值,得到新的极值点,然后再对新的极值点进行插值,并在全局范围内按整体趋势进行延拓,避免分解时在端点处产生畸变分量。同时,在分解过程中,除了得到IMF分量,还会产生趋势分量,结合趋势分量不断迭代,直至均值包络线趋近于零时停止,从而得到能够反映真实股价序列特性的光滑拟合曲线,进而实现对非线性、非平稳股价序列全局范围内的准确分解,有效地提高了预测网络对股价序列的预测精度。
由于IMF分量的个数是无法限制的,所以在实际分解过程中每一个子序列的IMF分量个数无法确定,一般分解后的IMF数量为8-9个。对A股票历史市场股价序列数据进行滑动窗口处理得到子序列S1后,子序列S1实际分解的IMF分量个数为9个,如图2所示。
可以看出,子序列S1分解产生的IMF分量越来越平稳,由历史的强波动序列变为平缓的IMF分量,有效地降低了历史市场股价序列数据的非线性。
将第一子序列、第二子序列、……、第N子序列对应的若干个内涵模态分量分别输入预测网络中,得到每一个子序列的预测结果,将预测结果按照第一子序列、第二子序列、……、第N子序列的顺序排列,得到股价预测结果。
在提取IMF分量包含的特征信息过程中,IMF分量作为预测网络的导入,在处理数据时,一般需要至少两个循环层,考虑到数据的复杂性,本申请采用BiLSTM双层预测网络,其中,第一层的输出作为第二层的输入,第二层可以根据第一层获取的内容更新其内部状态,有利于深入挖掘数据中的股价特征,同时捕捉股价走势的非线性规律。
具体地,第一层预测网络能够通过前向和后向的处理方式,捕捉到当前时刻之前和之后的时间上下文信息,有助于对当前时刻的输入进行特征提取。
第二层预测网络在第一层预测网络的输出基础上进行处理,主要是通过在第一层预测网络的输出上再次进行前向和后向的处理,从更长的时间范围内提取出时间序列的重要特征。
第一层预测网络提取的特征可能更接近原始序列数据,第二层BiLSTM在此基础上提取更高级别、更抽象的特征,有助于更好地理解和表示时间序列。
比如,对A股票历史市场股价序列数据进行滑动窗口处理、分解后,将488个子序列对应的若干个IMF分量分别输入BiLSTM双层预测网络中,得到每一个子序列的预测结果,即下一天的预测收盘价;将预测结果按照488个子序列的顺序排练,得到股价预测结果。如图4所示。
另外,本申请将具有相同固定时间步长的子序列,划分为训练集和测试集,训练集与测试集的子序列各自分解产生的IMF分量作为预测网络的输入,进而获得预测结果。这种方式能够有效地防止直接分解整体股价产生大量IMF分量所导致的训练集与测试集混合的问题,有利于保证预测的质量。
为了进一步提升预测效率,需要对导入预测网络的每个子序列对应的IMF分量,进行归一化处理。所述归一化处理,为对每一个子序列对应的若干个内涵模态分量,选择最大值和最小值后,处理每一个子序列对应的若干个内涵模态分量,落至[-1,1]区间。计算公式如下:
其中,x是需要归一化的IMF分量,x*是归一化后的IMF分量,xmin是IMF分量中的最小值;xmax是IMF分量中的最大值。为了获取预测结果,需要进行反归一化,计算公式如下:
y=y*(ymax-ymin)+ymin
其中,y是预测网络反归一化的预测值,y*是预测网络的预测值,ymin是测试集中IMF分量的最小值,ymax是测试集中IMF分量的最大值。
本申请首先以滑动窗口的方式将历史市场股价序列处理得到子序列;其次,利用三次样条插值将每个子序列分解为多个内涵模态分量,三次样条插值能够避免在端点处产生畸变分量,以达到降低股票非线性和提高预测精度的目的;然后,将第一子序列、第二子序列、……、第N子序列对应的若干个内涵模态分量分别输入预测网络中,捕捉股票数据中的依赖关系和股价特征,得到每一个子序列的预测结果;最后将预测结果按照第一子序列、第二子序列、……、第N子序列的顺序排列,得到股价预测结果。该股价预测方法,能够减小股价预测误差,提高预测精度。
仿真实验
1.评价指标
实验选用了四种公用的评价指标来衡量预测效果,四种指标及其计算公式分别是:平均绝对误差(MeanAbsolute Error,简称MAE)、均方根误差(RootMean Square Error,简称RMSE)、平均绝对百分比误差(MeanAbsolute Percentage Error,简称MAPE)和决定系数(R2)。
其中,m为样本总数,yi为测试集的真实值,为测试集的预测值,/>为测试集的真实值的平均值。MAE、RMSE和MAPE用来度量真实值与预测值之间的偏差,其取值范围是[0,+∞),数值越靠近0表示模型预测性能越好,R2用来度量模型拟合程度,其取值范围是[0,1],数值越接近1表示模型的拟合性能越好。
2.实验结果分析
2.1不同数据集下的预测性能
为了验证模型的预测性能,本文将B股票、C股票以及A股票三支股票数据,采用本申请的股价预测方法进行滑动窗口切分及三次样条插值、分解后,得到第一子序列、第二子序列、……、第N子序列对应的若干个内涵模态分量,分别输入BiLSTM双层预测网络中,经过训练学习后,在测试集上验证模型的预测性能。测试集时间范围如表1所示,训练过程中的损失变化如图3所示,预测网络在A股票、B股票、C股票三支股票测试集上的预测结果分别如图4、图5和图6所示。
表1测试集时间范围
图3为A股票(a)、B股票(b)、C股票(c)三支数据集训练过程中的损失变化图,由图可知,在训练100次的过程中,三支数据集均展现出以下规律:在初始阶段,随着训练批次的逐渐增多,预测网络的损失值急剧下降。这是因为预测网络在学习历史股价数据的时序特征和股价走势规律时,逐渐提高了对训练数据的拟合能力,使得预测网络训练数据上的损失逐渐减小。接着,随着训练批次的持续增加,模型的损失值逐渐趋于稳定。这表明预测网络在训练数据上已经达到了较好拟合性,此时预测网络对训练数据的损失不再有显著的变化。最后,随着训练批次的继续增加,预测网络的损失值不再表现出较为显著的变化,这表明预测网络在训练时没有出现过拟合的现象,具有较好的泛化能力。
从图4、图5和图6可以看出,本申请所提出的预测方法在测试集上表现出了相对准确的预测性能。其中,在A股票数据集的预测效果(图4)尤为突出,在预测过程中表现出了较强的稳健性。B股票数据集的预测结果(图5)出现了较大的波动,但整体预测结果仍然符合预期,这表明在股价波动性较强的情况下,本申请提出的股价预测方法仍然能够保持较好的预测性能。C股票数据集的预测结果(图6)与实际走势较为吻合,显示出了较为理想的预测性能。
上述实验结果表明,在面对不同行业领域以及股价波动较强的情况下,本申请提出的股价预测方法仍然能够取得较好的预测效果,具有较强的健壮性。
2.2对比实验
将A股票的历史数据作为数据集,分别采用不同的股价预测方法对股价进行预测,其中方法1为直接将整体股价序列导入LSTM单层预测网络进行预测;方法2为直接将整体股价序列导入BiLSTM双层预测网络进行预测;方法3为将整体股价序列分解为IMF分量后,导入BiLSTM双层预测网络进行预测;方法4为将整体股价序列经三次样条插值、分解为IMF分量后,导入BiLSTM双层预测网络进行预测,方法5为将整体股价序列处理为子序列,分解为IMF分量后,导入BiLSTM双层预测网络进行预测;方法6为本申请的股价预测方法,即,将整体股价序列处理为子序列,经三次样条插值、分解为IMF分量后,导入BiLSTM双层预测网络进行预测,以验证本申请的股价预测方法对股价预测的影响,其实验结果如图7所示。
由图7可知,与方法1-5相比,在MAE和RMSE指标上,方法6的MAE和RMSE数值均最低;在MAPE指标上,方法2的MAPE数值最低,其次便是方法6的MAPE数值;在R2指标上,方法6的R2数值最高。以上结果表明了本申请提供的股价预测方法能够降低股票价格时间序列噪声,同时还能够有效地降低数据的非线性和波动性,从而提高预测的准确性。
表2采用不同的股价预测方法对股价进行预测的结果
2.3稳定性分析
为了进一步验证数据集对本申请股价预测方法的影响,本申请还选择了其他行业内的六支热门代表股票进行训练学习,并验证本申请股价预测方法的稳定性。为了最大程度地避免与上文所使用的三支股票数据产生关联,本文选取了来自其它不同行业领域的六支代表性股票,分别是D股票、E股票、F股票、G股票、H股票和K股票,六支代表性股票相关信息如表3所示。
表3六支不同行业股票信息
上述六支股票均为各自行业领域内的领军企业,与上文实验所选用的三支股票相比,它们并无明显的行业相关性,因此具备一定的区分度和代表性,将上述六支股票作为数据集,能够用于验证本申请股价预测方法的稳定性。实验结果如表4所示。
表4方法在六个数据集上的对比结果
从表4可以看出,在MAE与RMSE两项评价指标上,除E股票外,其他五支股票的指标数值大约在[0.02,0.08]区间内上下浮动,E股票的MAE和RMSE数值高于其他五支股票。此外,从整体数据来看,六支股票误差范围较小,股价预测的准确度较高,预测结果较为精确,并且数据取值较为稳定。在MAPE评价指标上,六支股票的数值都处在[0.4,0.9]区间内,且波动的幅度为0.5,说明本文所提方法的预测性能较为稳定。在R2评价指标上,尽管除E股票的数值为0.9897,而其它五支股票都在0.99以上,但是E股票的R2数值与0.99的差值仅为0.0003,数据差值非常小,表明本申请的股价预测方法拟合效果较好,能够灵活适应多种行业的不同类型的股票数据,具有较好的稳定性和泛化性。
本发明还提供了一种股价预测系统,包括:
分解模块:用于获取历史市场股价序列数据,以固定时间步长的滑动窗口对股价序列数据进行选取,得到第一子序列;对第一子序列中的股价数据进行分解得到第一子序列的若干个内涵模态分量;
滑动窗口按照股价序列数据的时间维度,递进一个滑动步长后,得到第二子序列,重复对第二子序列中的股价数据分解、递进一个滑动步长的操作,直至历史市场股价序列数据全部遍历、分解完成,得到第N子序列及对应的若干个内涵模态分量;滑动步长小于固定时间步长;N为历史市场股价序列数据划分为的子序列的数量;
所述分解,为对滑动窗口选取的每个子序列中的股价数据先进行白噪声处理后,再进行三次样条插值,对插值后的每个子序列分别进行分解;
预测模块:用于将第一子序列、第二子序列、……、第N子序列对应的若干个内涵模态分量分别输入预测网络中,得到每一个子序列的预测结果,将预测结果按照第一子序列、第二子序列、……、第N子序列的顺序排列,得到股价预测结果。
本发明还提供了一种股价预测设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现所述的股价预测方法。
本发明还提供了一种股价预测存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现所述的股价预测方法。
Claims (10)
1.一种股价预测方法,其特征在于,包括如下步骤:
获取历史市场股价序列数据,以固定时间步长的滑动窗口对股价序列数据进行选取,得到第一子序列;对第一子序列中的股价数据进行分解得到第一子序列的若干个内涵模态分量;
滑动窗口按照股价序列数据的时间维度,递进一个滑动步长后,得到第二子序列,重复对第二子序列中的股价数据分解、递进一个滑动步长的操作,直至历史市场股价序列数据全部遍历、分解完成,得到第N子序列及对应的若干个内涵模态分量;滑动步长小于固定时间步长;N为历史市场股价序列数据划分为的子序列的数量;
将第一子序列、第二子序列、……、第N子序列对应的若干个内涵模态分量分别输入预测网络中,得到每一个子序列的预测结果,将预测结果按照第一子序列、第二子序列、……、第N子序列的顺序排列,得到股价预测结果;
所述分解,为对滑动窗口选取的每个子序列中的股价数据先进行白噪声处理后,再进行三次样条插值,对插值后的每个子序列分别进行分解。
2.根据权利要求1所述的股价预测方法,其特征在于,所述插值后的子序列进行分解,具体为,插值后的子序列根据上极值点、下极值点,分别得到上包络线、下包络线,分别获得上包络线、下包络线的均值后,得到每个子序列的均值包络线,插值后的子序列减去插值后的子序列的均值包络线后,得到插值后的子序列的中间分量,若中间分量满足预设条件,则该中间分量为插值后的子序列的内涵模态分量;
若中间分量不满足预设条件,则以该中间分量为基础,重复白噪声处理、三次样条插值、均值包络线、得到中间分量的操作,直至得到子序列相应的内涵模态分量。
3.根据权利要求2所述的股价预测方法,其特征在于,所述白噪声处理,为添加不同于上一轮次幅值的白噪声;同一轮次下,添加相同幅值的白噪声。
4.根据权利要求1所述的股价预测方法,其特征在于,所述三次样条插值,具体为,将依次包括k0、k1、k2、k3极值点的子序列,分别从k0、k3极值点作切线后,分别过k1、k2极值点作垂直于x轴的直线,并分别与切线相交于点p1、p2,得到多边形k0p1p2k3,作为插值的边界。
5.根据权利要求1所述的股价预测方法,其特征在于,所述得到每一个子序列的预测结果,包括归一化处理,所述归一化处理,为对每一个子序列对应的若干个内涵模态分量,选择最大值和最小值后,处理每一个子序列对应的若干个内涵模态分量,落至[-1,1]区间。
6.根据权利要求1所述的股价预测方法,其特征在于,所述第一子序列、第二子序列、……、第N子序列,为从历史市场股价序列数据的初始日期位置开始,以固定时间步长的滑动窗口递进滑动步长,逐步移动滑动窗口,得到具有相同固定时间步长的子序列。
7.根据权利要求1所述的股价预测方法,其特征在于,所述固定时间步长,由历史市场股价序列数据决定,若采用的是近5天的历史市场股价序列数据,则固定时间步长为5。
8.一种股价预测系统,其特征在于,包括:
分解模块:用于获取历史市场股价序列数据,以固定时间步长的滑动窗口对股价序列数据进行选取,得到第一子序列;对第一子序列中的股价数据进行分解得到第一子序列的若干个内涵模态分量;
滑动窗口按照股价序列数据的时间维度,递进一个滑动步长后,得到第二子序列,重复对第二子序列中的股价数据分解、递进一个滑动步长的操作,直至历史市场股价序列数据全部遍历、分解完成,得到第N子序列及对应的若干个内涵模态分量;滑动步长小于固定时间步长;N为历史市场股价序列数据划分为的子序列的数量;
所述分解,为对滑动窗口选取的每个子序列中的股价数据先进行白噪声处理后,再进行三次样条插值,对插值后的每个子序列分别进行分解;
预测模块:用于将第一子序列、第二子序列、……、第N子序列对应的若干个内涵模态分量分别输入预测网络中,得到每一个子序列的预测结果,将预测结果按照第一子序列、第二子序列、……、第N子序列的顺序排列,得到股价预测结果。
9.一种股价预测设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1-7中任一项所述的股价预测方法。
10.一种股价预测存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的股价预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410057821.2A CN117853239A (zh) | 2024-01-16 | 2024-01-16 | 股价预测方法、系统、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410057821.2A CN117853239A (zh) | 2024-01-16 | 2024-01-16 | 股价预测方法、系统、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117853239A true CN117853239A (zh) | 2024-04-09 |
Family
ID=90539773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410057821.2A Pending CN117853239A (zh) | 2024-01-16 | 2024-01-16 | 股价预测方法、系统、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117853239A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010001966A1 (ja) * | 2008-07-03 | 2010-01-07 | 日本電気株式会社 | 時系列データ処理装置およびその方法とプログラム |
US20160209532A1 (en) * | 2014-11-17 | 2016-07-21 | Board Of Regents, The University Of Texas System | Applied interpolation techniques |
CN110334881A (zh) * | 2019-07-17 | 2019-10-15 | 深圳大学 | 一种基于长短记忆网络与深度数据清洗的金融时间序列预测方法,装置及服务器 |
CN113807964A (zh) * | 2021-09-16 | 2021-12-17 | 陈炜 | 一种预测股票价格和确定参数的方法、设备及存储介质 |
WO2022105016A1 (zh) * | 2020-11-19 | 2022-05-27 | 中国科学院深圳先进技术研究院 | 一种股票价格走势预测方法、系统、终端以及存储介质 |
CN117217915A (zh) * | 2023-08-10 | 2023-12-12 | 浙江工商大学 | 一种基于深度迁移学习的股票价格预测方法 |
-
2024
- 2024-01-16 CN CN202410057821.2A patent/CN117853239A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010001966A1 (ja) * | 2008-07-03 | 2010-01-07 | 日本電気株式会社 | 時系列データ処理装置およびその方法とプログラム |
US20160209532A1 (en) * | 2014-11-17 | 2016-07-21 | Board Of Regents, The University Of Texas System | Applied interpolation techniques |
CN110334881A (zh) * | 2019-07-17 | 2019-10-15 | 深圳大学 | 一种基于长短记忆网络与深度数据清洗的金融时间序列预测方法,装置及服务器 |
WO2022105016A1 (zh) * | 2020-11-19 | 2022-05-27 | 中国科学院深圳先进技术研究院 | 一种股票价格走势预测方法、系统、终端以及存储介质 |
CN113807964A (zh) * | 2021-09-16 | 2021-12-17 | 陈炜 | 一种预测股票价格和确定参数的方法、设备及存储介质 |
CN117217915A (zh) * | 2023-08-10 | 2023-12-12 | 浙江工商大学 | 一种基于深度迁移学习的股票价格预测方法 |
Non-Patent Citations (2)
Title |
---|
张倩玉 等: "结合深度学习和分解算法的股票价格预测研究", 计算机工程与应用, vol. 57, no. 5, 31 May 2021 (2021-05-31), pages 56 - 64 * |
王晓红;王梦瑶;郝婷;: "改进的时间相关序列股票价格混合预测模型研究", 科技促进发展, no. 06, 20 June 2020 (2020-06-20), pages 82 - 88 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Digital transformation, life cycle and internal control effectiveness: Evidence from China | |
CN114399101A (zh) | 基于tcn-bigru的燃气负荷预测方法和装置 | |
CN113570140A (zh) | 一种基于随机森林的铝锭价格预测方法及装置 | |
CN116992253A (zh) | 与目标业务关联的目标预测模型中超参数的取值确定方法 | |
CN116307250A (zh) | 一种基于典型日特征选择的短期负荷预测方法及系统 | |
CN115809927A (zh) | 一种基于数字经济的风险评估方法 | |
WO2023050649A1 (zh) | 基于数据补全的esg指数确定方法及相关产品 | |
CN117853239A (zh) | 股价预测方法、系统、设备、存储介质 | |
Webb | Toward more accurate macroeconomic forecasts from vector autoregressions | |
CN116630036A (zh) | 一种基于w-tstm模型的股票指数预测系统及其方法 | |
Varghese et al. | Candlestick chart based stock analysis system using ensemble learning | |
CN116308448A (zh) | 一种基于神经网络的商户日交易量预测方法及系统 | |
CN114741958A (zh) | 一种多时段规则级联记忆网络的发动机剩余寿命预测方法 | |
CN114722088A (zh) | 一种基于机器学习模型样本生成的在线近似查询方法 | |
CN112132352A (zh) | 一种基于注意力以及密集连接的股价趋势预测方法 | |
Zhang et al. | Research on credit risk prediction based on cart classification tree | |
CN116719519B (zh) | 银行领域的广义线性模型训练方法、装置、设备和介质 | |
Yu et al. | Feature Extraction and Prediction of Stock Information Based on LSTM | |
CN110457543A (zh) | 一种基于端到端多视角匹配的实体消解方法和系统 | |
CN117390362B (zh) | 一种空调能耗预测方法、装置、设备及存储介质 | |
CN118154273B (zh) | 基于数据仓库的竞品数据智能分析方法和系统 | |
Corletto et al. | Impact of real-world market conditions on returns of deep learning based trading strategies | |
Kong | Application of BP Neural Networks in Stock Price Prediction | |
Xu et al. | Improved Deep Transfer Learning Model for Scarce Sample Kechuang 50 Prediction | |
Healy | Equivalence between forward rate interpolations and discount factor interpolations for the yield curve construction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |