CN117272160A - 基于iceemdan和小波阈值的金融时间序列去噪分类方法 - Google Patents
基于iceemdan和小波阈值的金融时间序列去噪分类方法 Download PDFInfo
- Publication number
- CN117272160A CN117272160A CN202311299257.7A CN202311299257A CN117272160A CN 117272160 A CN117272160 A CN 117272160A CN 202311299257 A CN202311299257 A CN 202311299257A CN 117272160 A CN117272160 A CN 117272160A
- Authority
- CN
- China
- Prior art keywords
- noise
- component
- denoising
- threshold
- wavelet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 24
- 238000000354 decomposition reaction Methods 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000002474 experimental method Methods 0.000 claims description 12
- 230000002195 synergetic effect Effects 0.000 claims description 9
- 238000000692 Student's t-test Methods 0.000 claims description 6
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000005654 stationary process Effects 0.000 claims description 6
- 238000012353 t test Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000003306 harvesting Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 239000004973 liquid crystal related substance Substances 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000005191 phase separation Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000005295 random walk Methods 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims description 3
- 230000036962 time dependent Effects 0.000 claims description 3
- 238000001744 unit root test Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
- G06F2218/04—Denoising
- G06F2218/06—Denoising by applying a scale-space analysis, e.g. using wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,涉及时间序列分类方法技术领域,具体为基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,包括ICEEMDAN算法和小波阈值去噪方法,所述基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法步骤如下:Step1:使用ICEEMDAN分解时间序列,得到IMF分量和余项分量。该基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,利用改进的ICEEMDAN算法将时间序列分解成一系列IMF分量和余项,并利用本文提出的噪声分量检验方法,将IMF分量和余项集成为噪声分量和去噪分量;然后对噪声分量用小波阈值法去噪,得到噪声分量中的非噪声序列,并将非噪声序列与去噪分量合并得到最终的去噪分量,进而使用最近邻1‑NN算法进行时间序列分类。
Description
技术领域
本发明涉及时间序列分类方法技术领域,具体为基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法。
背景技术
时间序列分类方法是重要的研究领域,在医疗保健、计量经济学和语音识别等多个领域都有应用。因此,大量的时间序列分类方法被提出。然而,随着噪声标准差的增加,基于欧式距离和DTW距离的时间序列分类算法精度持续下降。噪声已经成为了时间序列分类的重要问题之一。
近年来,较多学者研究各类模态分解方法与小波阈值联合去噪的方法,其中包括EMD与小波阈值去噪、CEEMDAN与小波阈值去噪、ICEEMDAN与小波阈值去噪、变分模态分解(VMD)与小波阈值联合去噪。在这一类方法中有个共性问题是识别IMF分量是否是噪声主导的分量,它们通常计算IMF分量与原信号的Pearson相关系数来表示IMF分量的信息量,通常设定一个阈值,阈值以下的即为噪声主导的IMF分量。采用Pearson相关系数的相关系数检验法能够界定IMF分量与原信号的线性相关程度,但将该方法用于鉴别噪声分量存在两个问题,一是IMF分量与原信号的线性相关程度较小也并不意味着IMF分量就是噪声分量;二是相关系数阈值设定较为主观,且缺乏说服力。针对该问题,本文提出利用t检验法和单位根检验法联合的检验方法检验IMF分量是否是噪声主导的IMF分量。该方法从噪声的本质出发,给出了明确的参数检验方法,各类模态分解方法与小波阈值联合去噪的方法均可以采用本文提出的方法来替代相关系数检验法。
现有技术中的CEEMDAN算法能有效地降低信号重构的误差,恢复了EMD的完备性,但IMF分量容易受到噪声的影响,仍然存在残余噪声和假模态成分的问题。
发明内容
针对现有技术的不足,本发明提供了基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,解决了上述背景技术中提出CEEMDAN算法能有效地降低信号重构的误差,恢复了EMD的完备性,但IMF分量容易受到噪声的影响,仍然存在残余噪声和假模态成分的问题。
为实现以上目的,本发明通过以下技术方案予以实现:基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,包括ICEEMDAN算法和小波阈值去噪方法,所述基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法步骤如下:
Step1:使用ICEEMDAN分解时间序列,得到IMF分量和余项分量;
Step2:对每个IMFk和分别进行t检验和单位根检验,将IMF分量和余项分量集成为含噪分量x(t)noise和去噪分量x(t)non_noise;
Step3:对含噪分量x(t)noise进行小波阈值去噪,将含噪分量x(t)noise分解为噪声分量ε(t)和含噪分量中非噪分量ε(t)即为最终的噪声分量;将该含噪分量中非噪分量/>回拨给去噪分量x(t)non_noise,得到最终的去噪信号/>
Step4:计算训练集和测试集去噪信号的欧式距离和DTW距离,运用1-NN给测试集标记类别索引,得到测试集每个时间序列的分类。
可选的,所述ICEEMDAN算法通过引入局部包络平均,能分解出具有更少的噪声和更多的物理意义的IMF分量;
定义x(t)是原时间序列,Ej(·)是通过EMD分解后得到的第j个IMF分量,ωi表示添加的第i个高斯白噪声,βk为加入噪声的幅度系数,即第k个阶段的信噪比,i=1,…,I表示实验次数,则ICEEMDAN算法具体步骤如下:
Step1:在时间序列x(t)中加入噪声,构造成新时间序列
xi(t)=x(t)+β0E1(ωi) (1)
Step2:通过EMD分别计算(1)式中第i个局部均值,得到第1个阶段的残差:
r1(t)=<M(xi(t))> (2)
其中<M(·)>是计算平均值的算子;
加噪信号xi(t)通过EMD获取ICEEMDAN的第1个模态分量,即
IMF1(t)=x(t)-r1(t) (3)
Step3:同样进行I次实验(i=1,…,I),计算信号r1(t)+β1E2(ωi)的局部均值,得到第2个阶段的残差:
r2(t)=<M(r1(t)+β1E2(ωi))> (4)
用(2)式与(4)式相减,得到原序列的第2个IMF分量:
IMF2(t)=r1(t)-r2(t) (5)
Step4:循环Step3,直至余项的极值点不超过2个;计算第k个余项的递推公式如下:
rk(t)=<M(rk-1(t)+βk-1Ek(ωi))> (6)
并得到原序列的第k个分量:
IMFk(t)=rk-1(t)-rk(t) (7)
最终的余项为:
因此,原时间序列x(t)最终被分解为
可选的,所述模态分量和余项集成设为两类;
不失一般性,假定分割是1,…,i和i+1,…,可得含噪分量和去噪分量,分别记为x(t)noise和x(t)non_noise:
这个分解应该满足以下条件:
(1)当k=1,…,i时,IMFk的总体均值等于0;
(2)的总体均值等于0;
(3)当k=1,…,i时,IMFk是平稳的;
(4)是平稳的;
此时,对于条件(1)、(2)的检验,可以让IMFk(k=1,…,i)、/>分别进行一个总体的均值检验,H0:μ=0,H1:μ≠0;构造t检验统计量
则,拒绝域为{|t|>tα/2(n-1)};
对于条件(3)、(4)的检验,可以使用ADF检验。
可选的,所述小波阈值去噪方法的具体步骤如下:
首先选取合适的小波基函数和分解层数,将含噪信号进行小波分解,得到一系列的低频小波系数和高频小波系数;然后以阈值函数对小波系数进行处理,对处理后的高频系数和低频系数进行重构,得到去除噪声后的信号;
在小波阈值去噪中门限阈值选取准则一般有以下几种:
(1)固定式阈值(sqtwolog),其中σn是噪声标准差,N是信号长度;
(2)无偏风险估计阀值(rigrsure),基于Stein无偏似然估计原理的自适应阈值选择,阈值为其中σn是噪声标准差,ωb为风险函数;
含噪分量x(t)noise在经过小波分解后,通过阈值函数处理小波系数去噪,将得到噪声分量ε(t)和含噪分量中非噪分量其中,/>小波系数处理算法有软阈值函数、硬阈值函数和一些改进的阈值函数等,这里列出一些后续数值实验用到的阈值函数;设ωj,k是小波系数,/>是量化后的小波系数,sgn是符号函数,λ是阈值,则
(1)软阈值函数
(2)硬阈值函数
(3)改进的阈值函数(a1)
(4)改进的阈值函数(a2)
(5)改进的阈值函数(a3)
可选的,所述金融时间序列存在大量噪声,假定噪声ε(t)=0是不现实的,现实数据常常是ε(t)≠0;不失一般性,假设时间序列x(t)中存在随机噪声ε(t),该噪声体现随机因素对去噪时间序列的影响;因此,构建
在高斯假定中,噪声是白噪声的,即服从均值为0,方差为σ2的正态分布,表示为ε(t)~N(0,σ2);此时噪声ε(t)应该是零均值和同方差的;然而异方差检验通常需要利用原模型解释变量来构建辅助回归模型,来判断随机误差是否存在异方差,不构建回归模型的情景下难以完成该检验;
在协整检验中,如果变量Xt和Yt都是一阶单整I(1),假定原模型是Yt=β0+β1Xt+εt;在协整关系检验中,如果ε(t)是平稳的且均值为0,此时则表明Xt和Yt是协整关系,方程中的随机误差不会被累积;如果ε(t)是一个随机游走(单位根过程),则表明方程中的随机误差将会被累积,导致对均衡的偏离不能消除;如果随机时间序列Xt是平稳的,那么
(1)Xt的均值不随时间变化,E(Xt)=μ;
(2)Xt的方差不随时间变化,VAR(Xt)=E(Xt-μ)2=σ2;
(3)任何两期的Xt与Xt-k之间的协方差仅依赖于这两期间隔的距离或滞后长度(k),而不依赖于其他变量(对所有的k),即Xt与Xt-k的协方差表述为
γk=E[(Xt-μ)(Xt+k-μ)] (19)
如果上述一个或几个性质不满足,则称Xt是非平稳的;
由于本文面对的是时间序列数据,因此可以通过检验ε(t)是平稳过程且均值为0来替代高斯模型中对随机扰动项的检验;当ε(t)是平稳过程且均值为0时,则对的偏离很快就回消除;将随机噪声ε(t)去除并不会影响/>的长期变化趋势。
可选的,所述分类分法和BP神经网络两步股票分类预测法有以下几个步骤:
Step1:将多个行业的指数贴上类别标签,并结合第一时间阶段这些指数的收盘价作为第一步时间序列分类阶段的训练集;将某行业股票全部选入投资组合,作为第二步预测阶段的对照组;并且选取该对照组第一时间阶段的股票复权价格作为第一步的测试集;
Step2:利用时间序列分解-集成分类方法对对照组的投资组合进行遴选,剔除形态特征与该行业指数有较大差异的股票,选出具有较大行业形态相似度股票构成投资组合,该组合为实验组;
Step3:利用第二时间阶段的数据分别计算实验组和对照组的技术指标,用来刻画股票的统计特征;将实验组和对照组的技术指标均根据时间顺序统一分割为第二步预测阶段的训练集和预测集;
Step4:分别对实验组、对照组的历史样本判定好、坏、一般,给其贴上涨跌类别标签;
Step5:使用均值方差归一化方法将实验组和对照组预测阶段的训练集和预测集进行归一化;
Step6:为避免缺乏有效性的技术指标降低预测性能,利用相关系数法对预测阶段训练集的技术指标和股票类别标签进行相关性判别,进而剔除不相关的技术指标;
Step7:利用预测阶段训练集训练BP神经网络,再利用预测集进行股票涨跌分类预测,比较实验组和对照组的预测正确率。
可选的,所述BP神经网络主要有1个输入层、1个或多个隐藏层、1个输入层构成,各层均拥有一定数量的节点(神经元);通常神经网络的输入数据通过输入层、隐藏层和输出层正向移动;BP神经网络还增加了反向传播,即输出误差从输出层开始反向移动;具体步骤如下:
Step1:初始化权重;
Step2:信号正向移动,获得模型输出y,并计算误差向量E,并计算输出节点的增量δ,
e=d-y (20)
Step3:计算反向传播输出节点的增量δ,并计算下一层节点的增量,
E(k)=WTδ (22)
Step4:重复Step3,直至计算到输入层右侧的那一隐藏层为止;
Step5:根据下面的公式调整权重值,即
Δwij=αδixj (24)
wij←wij+Δwij(25)
Step6:对所有的训练数据节点重复Step2~Step5;
Step7:重复Step2~Step6,直至神经网络得到了合适的训练。
本发明提供了基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,具备以下有益效果:
该基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,利用改进的自适应噪声完备集合经验模态分解方法(ICEEMDAN)将时间序列分解成一系列模态分量和余项,并利用本文提出的噪声分量检验方法,将一系列模态分量和余项集成为含噪分量和去噪分量;然后对含噪分量用小波阈值法去噪,得到含噪分量中的非噪声分量和噪声分量,并将非噪声分量与去噪分量合并得到最终的去噪分量,进而使用最近邻1-NN算法进行时间序列分类。
为了体现该方法在金融领域中的应用价值,本文提出了基于时间序列分类方法和BP神经网络的两步股票分类预测方法;
该方法首先使用时间序列分类方法对股票进行分类,得到组合内部具有更大相似度的投资组合,进而利用BP神经网络算法对该投资组合的股票价格涨跌分类进行预测。通过回测验证了该方法能够有效提升股票价格涨跌分类预测的性能。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明提供一种技术方案:基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,包括ICEEMDAN算法和小波阈值去噪方法,所述基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法步骤如下:
Step1:使用ICEEMDAN分解时间序列,得到IMF分量和余项分量;
Step2:对每个IMFk和分别进行t检验和单位根检验,将IMF分量和余项分量集成为含噪分量x(t)noise和去噪分量x(t)non_noise;
Step3:对含噪分量x(t)noise进行小波阈值去噪,将含噪分量x(t)noise分解为噪声分量ε(t)和含噪分量中非噪分量ε(t)即为最终的噪声分量;将该含噪分量中非噪分量/>回拨给去噪分量x(t)non_noise,得到最终的去噪信号/>
Step4:计算训练集和测试集去噪信号的欧式距离和DTW距离,运用1-NN给测试集标记类别索引,得到测试集每个时间序列的分类。
本实施例中,ICEEMDAN算法通过引入局部包络平均,能分解出具有更少的噪声和更多的物理意义的IMF分量;
定义x(t)是原时间序列,Ej(·)是通过EMD分解后得到的第j个IMF分量,ωi表示添加的第i个高斯白噪声,βk为加入噪声的幅度系数,即第k个阶段的信噪比,i=1,…,I表示实验次数,则ICEEMDAN算法具体步骤如下:
Step1:在时间序列x(t)中加入噪声,构造成新时间序列
xi(t)=x(t)+β0E1(ωi) (1)
Step2:通过EMD分别计算(1)式中第i个局部均值,得到第1个阶段的残差:
r1(t)=<M(xi(t))> (2)
其中<M(·)>是计算平均值的算子;
加噪信号xi(t)通过EMD获取ICEEMDAN的第1个模态分量,即
IMF1(t)=x(t)-r1(t) (3)
Step3:同样进行I次实验(i=1,…,I),计算信号r1(t)+β1E2(ωi)的局部均值,得到第2个阶段的残差:
r2(t)=<M(r1(t)+β1E2(ωi))> (4)
用(2)式与(4)式相减,得到原序列的第2个IMF分量:
IMF2(t)=r1(t)-r2(t) (5)
Step4:循环Step3,直至余项的极值点不超过2个;计算第k个余项的递推公式如下:
rk(t)=<M(rk-1(t)+βk-1Ek(ωi))> (6)
并得到原序列的第k个分量:
IMFk(t)=rk-1(t)-rk(t) (7)
最终的余项为:
因此,原时间序列x(t)最终被分解为
本实施例中,模态分量和余项集成设为两类;
不失一般性,假定分割是1,…,i和i+1,…,可得含噪分量和去噪分量,分别记为x(t)noise和x(t)non_noise:
这个分解应该满足以下条件:
(2)当k=1,…,i时,IMFk的总体均值等于0;
(2)的总体均值等于0;
(3)当k=1,…,i时,IMFk是平稳的;
(4)是平稳的;
此时,
对于条件(1)、(2)的检验,可以让IMFk(k=1,…,i)、分别进行一个总体的均值检验,H0:μ=0,H1:μ≠0;构造t检验统计量
则,拒绝域为{|t|>tα/2(n-1)};
对于条件(3)、(4)的检验,可以使用ADF检验。
本实施例中,小波阈值去噪方法的具体步骤如下:
首先选取合适的小波基函数和分解层数,将含噪信号进行小波分解,得到一系列的低频小波系数和高频小波系数;然后以阈值函数对小波系数进行处理,对处理后的高频系数和低频系数进行重构,得到去除噪声后的信号;
在小波阈值去噪中门限阈值选取准则一般有以下几种:
(3)固定式阈值(sqtwolog),其中σn是噪声标准差,N是信号长度;
(4)无偏风险估计阀值(rigrsure),基于Stein无偏似然估计原理的自适应阈值选择,阈值为其中σn是噪声标准差,ωb为风险函数;
含噪分量x(t)noise在经过小波分解后,通过阈值函数处理小波系数去噪,将得到噪声分量ε(t)和含噪分量中非噪分量其中,/>小波系数处理算法有软阈值函数、硬阈值函数和一些改进的阈值函数等,这里列出一些后续数值实验用到的阈值函数;设ωj,k是小波系数,/>是量化后的小波系数,sgn是符号函数,λ是阈值,则
(2)软阈值函数
(2)硬阈值函数
(3)改进的阈值函数(a1)
(4)改进的阈值函数(a2)
(5)改进的阈值函数(a3)
本实施例中,金融时间序列存在大量噪声,假定噪声ε(t)=0是不现实的,现实数据常常是ε(t)≠0;不失一般性,假设时间序列x(t)中存在随机噪声ε(t),该噪声体现随机因素对去噪时间序列的影响;因此,构建
在高斯假定中,噪声是白噪声的,即服从均值为0,方差为σ2的正态分布,表示为ε(t)~N(0,σ2);此时噪声ε(t)应该是零均值和同方差的;然而异方差检验通常需要利用原模型解释变量来构建辅助回归模型,来判断随机误差是否存在异方差,不构建回归模型的情景下难以完成该检验;
在协整检验中,如果变量Xt和Yt都是一阶单整I(1),假定原模型是Yt=β0+β1Xt+εt;在协整关系检验中,如果ε(t)是平稳的且均值为0,此时则表明Xt和Yt是协整关系,方程中的随机误差不会被累积;如果ε(t)是一个随机游走(单位根过程),则表明方程中的随机误差将会被累积,导致对均衡的偏离不能消除;如果随机时间序列Xt是平稳的,那么
(4)Xt的均值不随时间变化,E(Xt)=μ;
(5)Xt的方差不随时间变化,VAR(Xt)=E(Xt-μ)2=σ2;
(6)任何两期的Xt与Xt-k之间的协方差仅依赖于这两期间隔的距离或滞后长度(k),而不依赖于其他变量(对所有的k),即Xt与Xt-k的协方差表述为
γk=E[(Xt-μ)(Xt+k-μ)] (19)
如果上述一个或几个性质不满足,则称Xt是非平稳的;
由于本文面对的是时间序列数据,因此可以通过检验ε(t)是平稳过程且均值为0来替代高斯模型中对随机扰动项的检验;当ε(t)是平稳过程且均值为0时,则对的偏离很快就回消除;将随机噪声ε(t)去除并不会影响/>的长期变化趋势。
本实施例中,分类分法和BP神经网络两步股票分类预测法有以下几个步骤:
Step1:将多个行业的指数贴上类别标签,并结合第一时间阶段这些指数的收盘价作为第一步时间序列分类阶段的训练集;将某行业股票全部选入投资组合,作为第二步预测阶段的对照组;并且选取该对照组第一时间阶段的股票复权价格作为第一步的测试集;
Step2:利用时间序列分解-集成分类方法对对照组的投资组合进行遴选,剔除形态特征与该行业指数有较大差异的股票,选出具有较大行业形态相似度股票构成投资组合,该组合为实验组;
Step3:利用第二时间阶段的数据分别计算实验组和对照组的技术指标,用来刻画股票的统计特征;将实验组和对照组的技术指标均根据时间顺序统一分割为第二步预测阶段的训练集和预测集;
Step4:分别对实验组、对照组的历史样本判定好、坏、一般,给其贴上涨跌类别标签;
Step5:使用均值方差归一化方法将实验组和对照组预测阶段的训练集和预测集进行归一化;
Step6:为避免缺乏有效性的技术指标降低预测性能,利用相关系数法对预测阶段训练集的技术指标和股票类别标签进行相关性判别,进而剔除不相关的技术指标;
Step7:利用预测阶段训练集训练BP神经网络,再利用预测集进行股票涨跌分类预测,比较实验组和对照组的预测正确率。
本实施例中,BP神经网络主要有1个输入层、1个或多个隐藏层、1个输入层构成,各层均拥有一定数量的节点(神经元);通常神经网络的输入数据通过输入层、隐藏层和输出层正向移动;BP神经网络还增加了反向传播,即输出误差从输出层开始反向移动;具体步骤如下:
Step1:初始化权重;
Step2:信号正向移动,获得模型输出y,并计算误差向量E,并计算输出节点的增量δ,
e=d-y (20)
Step3:计算反向传播输出节点的增量δ,并计算下一层节点的增量,
E(k)=WTδ (22)
Step4:重复Step3,直至计算到输入层右侧的那一隐藏层为止;
Step5:根据下面的公式调整权重值,即
Δwij=αδixj (24)
wij←wij+Δwij (25)
Step6:对所有的训练数据节点重复Step2~Step5;
Step7:重复Step2~Step6,直至神经网络得到了合适的训练。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,包括ICEEMDAN算法和小波阈值去噪方法,其特征在于:所述基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法步骤如下:
Step1:使用ICEEMDAN分解时间序列,得到IMF分量和余项分量;
Step2:对每个IMFk和分别进行t检验和单位根检验,将IMF分量和余项分量集成为含噪分量x(t)noise和去噪分量x(t)non_noise;
Step3:对含噪分量x(t)noise进行小波阈值去噪,将含噪分量x(t)noise分解为噪声分量ε(t)和含噪分量中非噪分量ε(t)即为最终的噪声分量;将该含噪分量中非噪分量/>回拨给去噪分量x(t)non_noise,得到最终的去噪信号/>
Step4:计算训练集和测试集去噪信号的欧式距离和DTW距离,运用1-NN给测试集标记类别索引,得到测试集每个时间序列的分类。
2.根据权利要求1所述的基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,其特征在于:所述ICEEMDAN算法通过引入局部包络平均,能分解出具有更少的噪声和更多的物理意义的IMF分量;
定义x(t)是原时间序列,Ej(·)是通过EMD分解后得到的第j个IMF分量,ωi表示添加的第i个高斯白噪声,βk为加入噪声的幅度系数,即第k个阶段的信噪比,i=1,…,I表示实验次数,则ICEEMDAN算法具体步骤如下:
Step1:在时间序列x(t)中加入噪声,构造成新时间序列
xi(t)=x(t)+β0E1(ωi) (1)
Step2:通过EMD分别计算(1)式中第i个局部均值,得到第1个阶段的残差:
r1(t)=<M(xi(t))> (2)
其中<M(·)>是计算平均值的算子;
加噪信号xi(t)通过EMD获取ICEEMDAN的第1个模态分量,即
IMF1(t)=x(t)-r1(t) (3)
Step3:同样进行I次实验(i=1,…,I),计算信号r1(t)+β1E2(ωi)的局部均值,得到第2个阶段的残差:
r2(t)=<M(r1(t)+β1E2(ωi))> (4)
用(2)式与(4)式相减,得到原序列的第2个IMF分量:
IMF2(t)=r1(t)-r2(t) (5)
Step4:循环Step3,直至余项的极值点不超过2个;计算第k个余项的递推公式如下:
rk(t)=<M(rk-1(t)+βk-1Ek(ωi))> (6)
并得到原序列的第k个分量:
IMFk(t)=rk-1(t)-rk(t) (7)
最终的余项为:
因此,原时间序列x(t)最终被分解为
3.根据权利要求2所述的基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,其特征在于:所述模态分量和余项集成设为两类;
不失一般性,假定分割是1,…,i和i+1,…,可得含噪分量和去噪分量,分别记为x(t)noise和x(t)non_noise:
这个分解应该满足以下条件:
(1)当k=1,…,i时,IMFk的总体均值等于0;
(2)的总体均值等于0;
(3)当k=1,…,i时,IMFk是平稳的;
(4)是平稳的;
此时,
对于条件(1)、(2)的检验,可以让IMFk(k=1,…,i)、分别进行一个总体的均值检验,H0:μ=0,H1:μ≠0;构造t检验统计量
则,拒绝域为{|t|>tα/2(n-1)};
对于条件(3)、(4)的检验,可以使用ADF检验。
4.根据权利要求1所述的基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,其特征在于:所述小波阈值去噪方法的具体步骤如下:
首先选取合适的小波基函数和分解层数,将含噪信号进行小波分解,得到一系列的低频小波系数和高频小波系数;然后以阈值函数对小波系数进行处理,对处理后的高频系数和低频系数进行重构,得到去除噪声后的信号;
在小波阈值去噪中门限阈值选取准则一般有以下几种:
(1)固定式阈值(sqtwolog),其中σn是噪声标准差,N是信号长度;
(2)无偏风险估计阀值(rigrsure),基于Stein无偏似然估计原理的自适应阈值选择,阈值为其中σn是噪声标准差,ωb为风险函数;
含噪分量x(t)noise在经过小波分解后,通过阈值函数处理小波系数去噪,将得到噪声分量ε(t)和含噪分量中非噪分量其中,/>小波系数处理算法有软阈值函数、硬阈值函数和一些改进的阈值函数等,这里列出一些后续数值实验用到的阈值函数;设ωj,k是小波系数,/>是量化后的小波系数,sgn是符号函数,λ是阈值,则
(1)软阈值函数
(2)硬阈值函数
(3)改进的阈值函数(a1)
(4)改进的阈值函数(a2)
(5)改进的阈值函数(a3)
5.根据权利要求1所述的基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,其特征在于:所述金融时间序列存在大量噪声,假定噪声ε(t)=0是不现实的,现实数据常常是ε(t)≠0;不失一般性,假设时间序列x(t)中存在随机噪声ε(t),该噪声体现随机因素对去噪时间序列x~(t)的影响;因此,构建
在高斯假定中,噪声是白噪声的,即服从均值为0,方差为σ2的正态分布,表示为ε(t)~N(0,σ2);此时噪声ε(t)应该是零均值和同方差的;然而异方差检验通常需要利用原模型解释变量来构建辅助回归模型,来判断随机误差是否存在异方差,不构建回归模型的情景下难以完成该检验;
在协整检验中,如果变量Xt和Yt都是一阶单整I(1),假定原模型是Yt=β0+β1Xt+εt;在协整关系检验中,如果ε(t)是平稳的且均值为0,此时则表明Xt和Yt是协整关系,方程中的随机误差不会被累积;如果ε(t)是一个随机游走(单位根过程),则表明方程中的随机误差将会被累积,导致对均衡的偏离不能消除;如果随机时间序列Xt是平稳的,那么
(1)Xt的均值不随时间变化,E(Xt)=μ;
(2)Xt的方差不随时间变化,VAR(Xt)=E(Xt-μ)2=σ2;
(3)任何两期的Xt与Xt-k之间的协方差仅依赖于这两期间隔的距离或滞后长度(k),而不依赖于其他变量(对所有的k),即Xt与Xt-k的协方差表述为
γk=E[(Xt-μ)(Xt+k-μ)] (19)
如果上述一个或几个性质不满足,则称Xt是非平稳的;
由于本文面对的是时间序列数据,因此可以通过检验ε(t)是平稳过程且均值为0来替代高斯模型中对随机扰动项的检验;当ε(t)是平稳过程且均值为0时,则对的偏离很快就回消除;将随机噪声ε(t)去除并不会影响/>的长期变化趋势。
6.根据权利要求1所述的基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,其特征在于:所述分类分法和BP神经网络两步股票分类预测法有以下几个步骤:
Step1:将多个行业的指数贴上类别标签,并结合第一时间阶段这些指数的收盘价作为第一步时间序列分类阶段的训练集;将某行业股票全部选入投资组合,作为第二步预测阶段的对照组;并且选取该对照组第一时间阶段的股票复权价格作为第一步的测试集;
Step2:利用时间序列分解-集成分类方法对对照组的投资组合进行遴选,剔除形态特征与该行业指数有较大差异的股票,选出具有较大行业形态相似度股票构成投资组合,该组合为实验组;
Step3:利用第二时间阶段的数据分别计算实验组和对照组的技术指标,用来刻画股票的统计特征;将实验组和对照组的技术指标均根据时间顺序统一分割为第二步预测阶段的训练集和预测集;
Step4:分别对实验组、对照组的历史样本判定好、坏、一般,给其贴上涨跌类别标签;
Step5:使用均值方差归一化方法将实验组和对照组预测阶段的训练集和预测集进行归一化;
Step6:为避免缺乏有效性的技术指标降低预测性能,利用相关系数法对预测阶段训练集的技术指标和股票类别标签进行相关性判别,进而剔除不相关的技术指标;
Step7:利用预测阶段训练集训练BP神经网络,再利用预测集进行股票涨跌分类预测,比较实验组和对照组的预测正确率。
7.根据权利要求6所述的基于ICEEMDAN和小波阈值的金融时间序列去噪分类方法,其特征在于:所述BP神经网络主要有1个输入层、1个或多个隐藏层、1个输入层构成,各层均拥有一定数量的节点(神经元);通常神经网络的输入数据通过输入层、隐藏层和输出层正向移动;BP神经网络还增加了反向传播,即输出误差从输出层开始反向移动;具体步骤如下:
Step1:初始化权重;
Step2:信号正向移动,获得模型输出y,并计算误差向量E,并计算输出节点的增量δ,
e=d-y (20)
Step3:计算反向传播输出节点的增量δ,并计算下一层节点的增量,
E(k)=WTδ (22)
Step4:重复Step3,直至计算到输入层右侧的那一隐藏层为止;
Step5:根据下面的公式调整权重值,即
Δwij=αδixj (24)
wij←wij+Δwij (25)Step6:对所有的训练数据节点重复Step2~Step5;
Step7:重复Step2~Step6,直至神经网络得到了合适的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311299257.7A CN117272160A (zh) | 2023-10-09 | 2023-10-09 | 基于iceemdan和小波阈值的金融时间序列去噪分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311299257.7A CN117272160A (zh) | 2023-10-09 | 2023-10-09 | 基于iceemdan和小波阈值的金融时间序列去噪分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117272160A true CN117272160A (zh) | 2023-12-22 |
Family
ID=89215793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311299257.7A Pending CN117272160A (zh) | 2023-10-09 | 2023-10-09 | 基于iceemdan和小波阈值的金融时间序列去噪分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117272160A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117559448A (zh) * | 2024-01-12 | 2024-02-13 | 山东德源电力科技股份有限公司 | 一种用于专变采集终端的用电负荷预测分析方法及系统 |
-
2023
- 2023-10-09 CN CN202311299257.7A patent/CN117272160A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117559448A (zh) * | 2024-01-12 | 2024-02-13 | 山东德源电力科技股份有限公司 | 一种用于专变采集终端的用电负荷预测分析方法及系统 |
CN117559448B (zh) * | 2024-01-12 | 2024-03-22 | 山东德源电力科技股份有限公司 | 一种用于专变采集终端的用电负荷预测分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wenliang et al. | Learning deep kernels for exponential family densities | |
Anish et al. | Hybrid nonlinear adaptive scheme for stock market prediction using feedback FLANN and factor analysis | |
US20160034814A1 (en) | Noise-boosted back propagation and deep learning neural networks | |
Hayashi et al. | Bidirectional LSTM-HMM Hybrid System for Polyphonic Sound Event Detection. | |
CN110070895B (zh) | 一种基于监督变分编码器因素分解的混合声音事件检测方法 | |
CN117272160A (zh) | 基于iceemdan和小波阈值的金融时间序列去噪分类方法 | |
CN114399032A (zh) | 一种电能表计量误差预测方法及系统 | |
CN113553831A (zh) | 基于bagcnn模型的方面级别情感分析方法和系统 | |
CN112215404A (zh) | 基于相空间重构和集合经验模态分解的预测方法及装置 | |
Karamizadeh et al. | Using the clustering algorithms and rule-based of data mining to identify affecting factors in the profit and loss of third party insurance, insurance company auto | |
CN111340236A (zh) | 一种基于债券估值数据与集成机器学习的债券违约预测方法 | |
CN115452362A (zh) | 一种齿轮箱故障诊断方法 | |
CN113674767A (zh) | 一种基于多模态融合的抑郁状态识别方法 | |
CN108846128B (zh) | 一种基于自适应噪音降噪编码器的跨领域文本分类方法 | |
Alp et al. | Prediction of bist price indices: a comparative study between traditional and deep learning methods | |
CN109360573A (zh) | 牲畜声纹识别方法、装置、终端设备及计算机存储介质 | |
Doroudi et al. | Optimal tuning of three deep learning methods with signal processing and anomaly detection for multi-class damage detection of a large-scale bridge | |
Samann et al. | On estimating the optimal autoencoder model for denoising ECG using Akaike Information Criterion | |
Xiao et al. | Predict stock prices with ARIMA and LSTM | |
Behnam et al. | Power complexity feature-based seizure prediction using DNN and firefly-BPNN optimization algorithm | |
Kale et al. | Forecasting Indian stock market using artificial neural networks | |
CN116757309A (zh) | 一种基于长短期时间序列网络的燃气负荷预测方法及装置 | |
CN108735231B (zh) | 主旋律音高序列估计方法 | |
Balochian et al. | Neural network optimization by genetic algorithms for the audio classification to speech and music | |
Fathi et al. | A hybrid model combining discrete wavelet transform and nonlinear autoregressive neural network for stock price prediction: An application in the Egyptian exchange |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |