CN111178578A - 一种融合聚类与集成学习的金融股票预测方法 - Google Patents

一种融合聚类与集成学习的金融股票预测方法 Download PDF

Info

Publication number
CN111178578A
CN111178578A CN201911171730.7A CN201911171730A CN111178578A CN 111178578 A CN111178578 A CN 111178578A CN 201911171730 A CN201911171730 A CN 201911171730A CN 111178578 A CN111178578 A CN 111178578A
Authority
CN
China
Prior art keywords
svr
clustering
stock
algorithm
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911171730.7A
Other languages
English (en)
Inventor
许莹
杨翠娟
郑冰欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201911171730.7A priority Critical patent/CN111178578A/zh
Publication of CN111178578A publication Critical patent/CN111178578A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种融合聚类与集成学习的金融股票预测方法,采用k‑means聚类方法对多个常用的技术指标进行聚类提出了基于聚类的预测模型C‑SVR‑SVR(Clustering‑SVR‑SVR)和C‑SVR‑RF(Clustering‑SVR‑RF);接着采用Bagging集成学习算法提出了模型E‑SVR&RF(Ensemble‑SVR&RF)。最后,将k‑means聚类算法和Bagging集成学习算法相结合,提出一种混合模型C‑E‑SVR&RF(Clustering‑Ensemble‑SVR&RF)。本发明选取浦发银行(SH:600000)、中信证券(SH:600030)、中兴通讯(SZ:000063)、乐视网(SZ:300104)四支中国股票进行实验评估。实验结果表明,单独加入k‑means聚类算法的C‑SVR‑SVR、C‑SVR‑RF模型可以提高特定股票价格预测准确率,但总体效果不明显。单独加入集成学习算法能提高股票价格预测的准确率。融合k‑means聚类算法和集成学习的混合算法,可进一步提高股票价格预测准确率,尤其是提前20、30天的预测。

Description

一种融合聚类与集成学习的金融股票预测方法
技术领域
本发明涉及股票预测领域,特别是一种融合聚类与集成学习的金融股票预 测方法。
背景技术
根据历史股票行情的发展对未来股市发展方向进行预测称为股票预测。股票 的价格走势直接影响着投资者的经济利益,也影响和反映着国家的宏观经济政策, 因而受到人们的广泛关注。股票指数即股票价格指数,是由证券交易所或者金融 服务机构编制的表明股市行情变动的一种仅供参考的指示数字,它是一个国家经 济形势的综合反映。近年来,使用融合多种机器学习模型的混合算法进行金融股 票预测成为研究热点。根据历史已有的股票价格指数预测未来的股票收盘价变动, 是一个具有挑战性的问题。
通过分析近几年关于股票预测的文献,使用聚类的方法可以提高股票预测的 准确率。Amit Kumar Sirohi等人[2]提出了一个多核学习模型来预测股票价格的日 涨跌趋势,使用多核学习异构特征,不同的特征构建不同的核,最终组合进行股 票预测。与此类似的还有Wen Long等人[3]提出的语义和结构内核,将新闻内容 和信息结构都导入内核预测股票。对历史股票行情数据[4,5,6]、新闻信息[7]等直接 进行聚类也是一种常见的聚类形式。常用的k-均值聚类方法[8,9]被用于股票预测。 集成学习也被应用于股票预测,文献[10]开发一个包含搜索趋势、网页访问量和 金融新闻的金融专家系统来预测短期股票价格。专家系统由两个主要模块组成: 知识库和人工智能平台,其中人工智能平台训练了四种机器学习集成方法,分别 是神经网络回归集成NNRE(Neural Networks Regression Ensemble)、支持向量 机集成SVRE(Support Vector Regression Ensemble)、增强回归树BRT(BoostedRegression Tree)、随机森林回归RFR(Random Forest Regression)。常用的集成 学习方法有Adaboost[11]、Boosting学习算法[12,13]
使用机器学习、深度学习、集成学习模型预测金融股票也是一大研究热点。 根据不同模型固有的特性,将多个模型组合、集成,也是一种提高预测准确率的 方法。NonitaSharma等人[14]使用LSboost(即LS-RF)结合随机森林中树木的总体 预测/估计。将该模型的预测性能与已知的支持向量回归模型进行了比较,该方法 优于支持向量回归方法,可以成功地应用于股票价格预测模型的建立。文献[15]针对不同来源信息的聚合和现有模型的无类型转换能力,建立了混合数据(包括 标量数据、类派成分数据和类曲线函数数据)的股票市场预测框架。Xingyu Zhou 等人[16]利用长短时记忆(LSTM)和卷积神经网络(CNN)进行对抗性训练预测高频 股票市场的通用框架。文献[17]则采用了一种不同的方法,通过一个称为递归卷 积神经网络(RCN)的模型,它结合了卷积、序列建模、股票价格分析的单词嵌入和金融新闻信息提取的优点,然后将RCN与技术分析指标相结合,对股票价格 进行预测。Ziniu Hu等人[18]设计了一种新颖的基于最近相关新闻序列的混合注意 网络(HAN)来预测股票走势。在面对股市相关的网络内容的质量、可信度和全面 性差别很大,其中很大一部分是低质量的新闻、评论,甚至谣言时,使用一种全 新的分析方式,模仿人类在面对如此混乱的网络新闻时的学习过程,遵循三个原 则:上下内容依赖、不同的影响、高效的学习。文献[19]在金融大数据平台下,采 用bootstrap重采样技术和长短时记忆(LSTM)对20个月内的股票溢价价值进行预 测。对于金融股票的预测目标,是基于股票溢价的预测结果和评价指标,提出了 公司财务风险投资的对策。Hyun Sik Sim等人[20]研究图像识别的深度学习CNN 是否适用于股市预测?实验证实CNN可以作为构建股票预测模型的理想选择。 使用CNN进行股票价格预测的关键问题是如何使用CNN以及如何进行优化。
[1]Patel J,Shah S,Thakkar P,et al.Predicting stock market index usingfusion of machine learning techniques[J].Expert Systems with Applications,2015, 42(4):2162-2172.
[2]Sirohi A K,Mahato P K,Attar V.Multiple Kernel Learning for stockprice direction prediction[C]//International Conference on Advances inEngineering& Technology Research.IEEE,2015.
[3]Long W,Song L,Tian Y.A new graphic kernel method of stock pricetrend prediction based on financial news semantic and structural similarity[J].Expert Systems with Applications,2018.
[4]Zhaoyue W,Jinsong H,Yongjie W.A Bimodel Algorithm with Data-Divider to Predict Stock Index[J].Mathematical Problems in Engineering,2018,2018:1-14.
[5]Jeon S,Hong B,Chang V.Pattern graph tracking-based stock priceprediction using big data[J].Future Generation Computer Systems,2017:S0167739X17301991.
[6]Feng Z,Hao-Min Z,Zhihua Y,et al.EMD2FNN:A strategy combiningempirical mode decomposition and factorization machine based neural networkfor stock market trend prediction[J].Expert Systems with Applications, 2018:S0957417418304901-.
[7]Y.Shynkevich1,T.M.McGinnity,S.Coleman and A.Bela-treche,“Predicting Stock Price Movements Based on Different Categoriesof NewsArticles,”In Proc. IEEE Symposium on Computational Intelli-gence forFinancial Engineering and Economics(IEEE CIFEr),2015.
[8]Das D,Safa Sadiq A,Mirjalili S,et al.Hybrid Clustering-GWO-NARXneural network technique in predicting stock price[C]//Journal of PhysicsConference Series. 2017:012018.
[9]Shao X L,Ma D,Liu Y,et al.Short-term forecast of stock price ofmulti-branch LSTM based on k-means[C]//International Conference on Systems&Informatics. IEEE,2018.
[10]Bin W,Lin L,Xing W,et al.Predicting Short-Term Stock Prices usingEnsemble Methods and Online Data Sources[J].Expert Systems with Applications,2018:S0957417418303622-.
[11]Guoying Z,Ping C.[IEEE 2017 IEEE International Conference onSmart Cloud (SmartCloud)-New York,NY(2017.11.3-2017.11.5)]2017 IEEEInternational Conference on Smart Cloud(SmartCloud)-Forecast of Yearly StockReturns Based on Adaboost Integration Algorithm[J].2017:263-267.
[12]Wang,Chengzhang,Bai,et al.Boosting Learning Algorithm for StockPrice Forecasting[J].International Symposium on Application of MaterialsScience and Energy Materials(SAMSE),2018:UNSP 052053.
[13]Weiling Chen,Chai Kiat Yeo,Chiew Tong Lau,et al.Leveraging socialmedia news to predict stock index movement using RNN-boost[J].Data&KnowledgeEngineering,2018,118:14-24.
[14]Sharma N,Juneja A.[IEEE 2017 2nd International Conference forConvergence in Technology(I2CT)-Mumbai,India(2017.4.7-2017.4.9)]2017 2ndInternational Conference for Convergence in Technology(I2CT)-Combining ofrandom forest estimates using LSboost for stock market index prediction[J].2017:1199-1202.
[15]Wang H,Lu S,Zhao J.Aggregating multiple types of complex data instock market prediction:A model-independent framework[J].Knowledge-BasedSystems, 2018.
[16]Xingyu Zhou,Zhisong Pan,Guyu Hu,et al.Stock Market Prediction onHigh-Frequency Data Using Generative Adversarial Nets[J].MathematicalProblems in Engineering,2018.
[17]Lee C Y,Soo V W.Predict Stock Price with Financial News Based onRecurrent Convolutional Neural Networks[C]//Conference on Technologies&Applications of Artificial Intelligence.IEEE,2018.
[18]Ziniu Hu,Weiqing Liu,Jiang Bian,Xuanzhe Liu,and Tie-YanLiu.Listening to chaotic whispers:Adeep learning framework for news-orientedstock trend prediction. In Proceedings of the EleventhACM InternationalConference on Web Search and Data Mining,pp.261–269.ACM,2018.
[19]Tao Luo.Research on Decision-Making of Complex Venture CapitalBased on Financial Big Data Platform[J].Complexity,2018(4):1-12.
[20]Hyun Sik Sim,Hae In Kim,and Jae Joon Ahn.Is Deep Learning forImage Recognition Applicable to Stock Market Prediction?[J].Complexity,2019(1):1-10.
Clustering:聚类标签相同的样本集为一个簇。
SVR-SVR:两阶段融合模型,第一阶段使用10个SVR进行训练、预测,第二 阶段仅使用SVR模型进行预测收盘价。详细的算法模型图如图1所示,全称表 示为Support VectorRegression-Support Vector Regression。
SVR-RF:两阶段融合模型,第一阶段使用10个SVR进行训练、预测,第二阶 段仅使用RF模型进行预测收盘价。详细的算法模型图如图1所示,全称表示为 Support VectorRegression-Random Forest。
C-SVR-SVR:在两阶段融合模型SVR-SVR中的第二阶段单独加入k-means聚类 算法,得到算法C-SVR-SVR,详细的算法模型图如图2所示,全称表示为 Clustering-SupportVector Regression-Support Vector Regression。
C-SVR-RF:在两阶段融合模型SVR-RF中的第二阶段单独加入k-means聚类算 法,得到算法C-SVR-RF,详细的算法模型图如图2所示,全称表示为 Clustering-SupportVector Regression-Random Forest。
E-SVR&RF:两阶段融合模型,第一阶段使用10个SVR进行训练、预测,第 二阶段分别使用SVR、RF模型进行训练,将训练好的模型作为弱学习器,最终 使用Bagging集成学习模型训练、预测收盘价。详细的算法模型图如图3所示, 全称表示为Ensemble Learning-Support Vector Regression&Random Forest。
C-E-SVR&RF:两阶段融合模型,第一阶段使用10个SVR进行训练、预测, 第二阶段加入k-means聚类算法后,分别使用SVR、RF模型进行训练,将训练 好的模型作为弱学习器,最终使用Bagging集成学习模型训练、预测收盘价。 详细的算法图如图4所示,全称表示为Clustering-Ensemble Learning-Support Vector Regression&Random Forest。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种融合聚类与 集成学习的金融股票预测方法,有效预测股票价格。
为解决上述技术问题,本发明所采用的技术方案是:一种融合聚类与集成学 习的金融股票预测方法,包括以下步骤:
1)选取N支股票,利用每支股票的技术指标和收盘价构成总数据集
D={X,Y},Y∈R,X为输入总样本,Y为输入总样本对应的标签,即当天的 股票收盘价;X={X1,X2,…,Xm-(n-1),Xm-n},m-n为样本数;Xi={Xi0,Xi1,……,Xip}, i∈[1,m-n];p为技术指标数量;Xi0,Xi1,Xi2,Xi3,Xi4,Xi5,Xi6,Xi7,Xi8,Xi9分别表示 不同的技术指标;Y={Y(1+n),Y(2+n),…,Y(m-1),Ym},Y是X序列对应的第n天的 股票收盘价序列,Y中的每个元素对应于第n天的股票收盘价;
2)使用第t天的不同技术指标训练p个SVR作为预测模型,所述预测模型 输出第t+n天的p个技术指标;
3)将第t+n天的p个技术指标作为SVR或RF算法模型的输入,利用训练 好的算法模型预测第t+n天的股票收盘价。
步骤3)中,利用k-means聚类算法对所述第t+n天的10个技术指标进行聚 类,得到聚类标签。
利用k-means聚类算法对所述第t+n天的p个技术指标进行分类的具体实现 过程包括:
1)将所有技术指标随机两两组合,每个组合构成k-means聚类的数据集;
2)对上述数据集进行k-means聚类,k=2,为每个样本添加0或1的聚类标 签,聚类后计算轮廓系数;
3)选择轮廓系数最大和最小的数据集的聚类标签;轮廓系数最大即最佳, 轮廓系数最小即最差;
4)在总数据集中根据聚类标签,如果该样本被标记为1,则将该样本添加到 集合Cluster1中,否则在集合Cluster0中添加该样本;
5)为每个集合训练一个SVR或RF算法模型,使用训练好的算法模型预测 输出,得到最终的评估结果。
所述最终的评估结果是最佳或最差数据集的预测结果中,评估指标最好的 一组数据。
与现有技术相比,本发明所具有的有益效果为:本发明可以提前预测第20、 30天的股票价格,预测更可靠准确。
附图说明
图1为两阶段融合模型SVR-SVR、SVR-RF示意图;
图2为C-SVR-SVR,C-SVR-RF预测模型示意图;
图3为在E-SVR&RF算法的第二阶段进行集成学习示意图;
图4为C-E-SVR&RF原理图;
图5~图8分别为本发明的方法C-SVR-SVR、C-SVR-RF、E-SVR&RF、 C-E-SVR&RF与现有算法SVR-SVR、SVR-RF分别在数据集SH:600000、数据 集SH:600030、数据集SZ:000063、数据集SZ:300104上的预测误差比较结果;
图9和图10表示对算法C-E-SVR&RF,SVR-SVR,SVR-RF分别在数据集 SH:600000、SZ:300104上预测得到的收盘价与实际收盘价的对比曲线图;(a) n=1;(b)n=5;(c)n=10;(d)n=20;(e)n=30。
具体实施方式
在本发明中,选取4支中国股票:浦发银行(SH:600000)、中信证券(SH:600030)、中兴通讯(SZ:000063)、乐视网(SZ:300104)作为总数据集,提前预测第n天的收 盘价,其中n∈{1,5,10,20,30}。对于金融股票预测问题,数据集(任一支股票的技 术指标)可以形式化表示为D={X,Y},Y∈R,X为输入总样本,Y为输入总样本对 应的标签。X={X1,X2,…,Xm-1,Xm},m为样本数。对于提前预测第n天的收盘价, 任意Xi,i∈[1,m-n],由表1所示的10个技术指标组成,可以表示为 Xi={Xi0,Xi1,Xi2,Xi3,Xi4,Xi5,Xi6,Xi7,Xi8,Xi9}。X样本对应的当天收盘价序列表示为 Y={Y1,Y2,…,Ym-1,Ym}。相应的提前预测第n天的股票收盘价可以形式化为 Y={Y(1+n),Y(2+n),…,Y(m-1-n),Y(m-n)}。
表1选定的技术指标及其公式[1].
Figure BDA0002288896160000071
在表1中,Ct、Lt、Ht是在t时间的收盘价、最低价、最高价。DIFFt=EMA(12)t-EMA(26)t, EMA是移动平均指数。EMA(k)t=EMA(k)t-1+α×(Ct-EMA(k)t-1),α表示平滑因子,等于
Figure BDA0002288896160000072
k表示以k天为时间周期的移动平均指数,LLt和HHt分别表示最近t天的 最低点和最高点。
Figure BDA0002288896160000081
UPt意味着t 时刻的价格上涨变化,而DWt是t时刻的价格下降变化。
本发明整体流程如下:
步骤1:使用Patel J等人[1]提出的两阶段融合模型SVR-SVR、SVR-RF提前 预测第n天的股票收盘价。将此步骤的预测模型作为基础模型。两阶段融合模型 SVR-SVR、SVR-RF如图1所示。
两阶段融合模型的第一阶段使用第t天的不同技术指标训练10个SVR作为 预测模型,模型输出的是第t+n天的10个技术指标。将第一阶段的输出直接作 为第二阶段的输入,分别训练算法模型SVR、RF,预测第t+n天的股票收盘价。
步骤2:考虑到聚类算法能将相似的数据归为一类,以便提高股票预测的准 确率,因此在基础模型的第二阶段中,将k-means聚类算法应用于输入数据上, 将输入数据进行分类后分别使用SVR、RF进行训练、预测。基于k-means聚类 算法的两阶段混合模型可以表示为C-SVR-SVR、C-SVR-RF。
聚类分析已被证明是提高金融股票预测精度的有效方法。与以往的许多研究 不同,我们考虑了10个技术指标中任意两个指标的组合,并通过选取的两个指 标对数据集进行k-means聚类。我们设置k=2,这样整个数据集就可以聚集成两 个不同的集群。每个聚类分别训练一个预测模型,提前预测第n天的股票收盘价。 将聚类方法应用于两阶段融合模型的第二阶段。本发明提出的基于聚类的两阶段 预测模型C-SVR-SVR和C-SVR-RF如图2所示。
为了评估聚类效果的好坏,我们使用了通用的聚类评估指标轮廓系数,它结 合内聚度和分离度两种因素。轮廓系数的值在[-1,1]之间,值越接近1,聚类结果 在内聚和分离方面越好。
算法C-SVR-SVR/C-SVR-RF具体的实现步骤如下:
a、从10个技术指标中随机选取两个不同的技术指标作为组合,所有的组合 (这里是90个组合)形成k-means聚类的数据集。如图2所示,假设选取第8和第 9项技术指标构成数据集。
b、进行k-means聚类,k=2,聚类后计算轮廓系数。
c、重复上述步骤1,选择轮廓系数最大(最佳的一次聚类)和最小(最差的一 次聚类)数据集的聚类标签。
d、在原始数据集中根据聚类结果标签(最佳、最差),为每个样本添加0或1 的聚类标签。如果该样本被标记为1,则将该样本添加到Cluster1中,否则将在 Cluster0中添加该样本。
e、为每个Cluster训练一个SVR或RF算法模型,最终的预测结果从最佳、 最差聚类中选择,选择依据是效果最好的预测值。
步骤3:集成学习算法是一种应用广泛的方法,已被证明能够提高财务股票 预测的准确性。因此,我们利用Bagging集成学习算法进一步提高了股票价格预 测的准确性。在基模型的第二阶段加入集成学习算法。
在第二阶段,使用未聚类的数据集作为算法模型的输入。将训练好的SVR 和RF作为弱回归学习器,进一步增强集成学习算法。所提出的E-SVR&RF算 法模型如图3所示。
基于集成学习的E-SVR&RF算法模型的具体过程如下:
a、采用非聚类数据集分别训练SVR和RF。此外,对弱学习器DR(DummyRegression)、DTR(Decision Tree Regression)和KR(Kneighbors Regression)进行了Bagging集成学习的训练。
b、Bagging是集合学习者预测股票价格的一种方法。
步骤4:在步骤2、3中,在基础模型的第二阶段分别加入聚类、集成学习 算法,得到不一样的实验效果。此外,考虑将聚类、集成学习算法相融合,作用 于基础模型的第二阶段,得到模型C-E-SVR&RF。聚类方法将原始股票数据聚 合成两个类,每个聚类训练一个模型。在Bagging集成学习中,将每个训练好的 模型作为学习器,提出C-E-SVR&RF混合模型,如图4所示。
轮廓系数(Silhouette coefficient)用于评价k-means聚类结果。选取系数最大的 两组聚类结果标签(最佳聚类)和系数最小的两组聚类结果标签(最差聚类)。根据 聚类标签划分数据集,训练模型,预测输出。最终的实验结果是最好和最差实验 结果的平均值。
算法性能比较
A)数据源
选取4支中国股票:浦发银行(SH:600000)、中信证券(SH:600030)、中兴通讯 (SZ:000063)、乐视网(SZ:300104)进行实验。实验选取2008年01月01日至2019 年01月20日近11年的实验数据,详细的实验数据集信息如表2所示。
表2实验数据集
Figure BDA0002288896160000101
×:表示股票自上市以来,未发生过影响股价波动的重大事件;√:表示股票自 上市以来,发生过影响股价波动的重大事件。
乐视网(SZ:300104)和中兴通讯(SZ:000063)自上市以来,都发生过影响股价波动的重大事件,历史股价数据呈现出极其不平稳的状态。其中浦发银行 (SH:600000)、中信证券(SH:600030)属于较为稳定的股票,而中兴通讯(SZ:000063)、 乐视网(SZ:300104)属于波动比较大的股票,但这2支股票的波动影响力各不相 同,主要取决于影响股价波动的重大事件发生的时间先后,中兴通讯(SZ:000063) 发生巨大变动的部分是在距离实验截取时间段更右端,而乐视网(SZ:300104)是 在2017年发生巨大变动的事件,稍微靠左端。选取这4支不同的股票分别进行 实验,我们认为,较为平稳的股票和较为波动的股票,内在的规律可能不一样。
从浦发银行(SH:600000)、中信证券(SH:600030)、中兴通讯(SZ:000063)、乐 视网(SZ:300104)4支股票的历史股票数据(收盘价)趋势图可见,中信证券 (SH:600030)的趋势图中有一个较大的波动,这是合乎情理的,毕竟影响股价波 动的因素各异。在本发明,我们只考虑单一影响股价波动的因素:是否发生过影 响股价波动的重大事件?
数据进行预测前,使用最小-最大标准化方法进行数据归一化预处理,也称 为离差标准化,是对原始数据的线性变换,使结果值映射到[0,1]之间。转换函 数如下:
Figure BDA0002288896160000111
xMin表示样本数据的最小值,xMax表示样本数据的最大值。然后再将预测结 果进行反规格化,反规格化数据如下:
x=xnormalization×(xMax-xMin)+xMin (2)
B)评估指标
本发明所采用的实验评价指标包括平均绝对百分误差(MAPE)、平均绝对误 差(MAE)、相对均方根误差(rRMSE)和均方误差(MSE),这些指标与文献[1]中的 评价指标一致。这些度量的计算公式如公式(12)-(15)。其中At为实际值,Ft表示 预测值。
Figure BDA0002288896160000112
Figure BDA0002288896160000113
Figure BDA0002288896160000114
Figure BDA0002288896160000115
C)实验结果
a)聚类方法的有效性
为了检验聚类方法的有效性,将本发明提出的C-SVR-SVR和C-SVR-RF算 法模型与文献中两阶段融合模型SVR-SVR和SVR-RF进行了比较。
从表3可以看出,C-SVR-SVR在股票数据集SH:600000上取得了比 SVR-SVR更好的结果。对于MAPE和rRMSE,C-SVR-SVR优于SVR-SVR,而 对于MAE,平均排名低于SVR-SVR模型。对于MSE,这两个模型的平均排名 相同。对于C-SVR-RF算法模型,其排序与SVR-RF相同。对于rRMSE和MSE, C-SVR-RF优于SVR-RF。实验结果表明,该聚类方法可以提高股票数据 SH:600000的股票预测精度。
表3在数据集SH:600000上的预测性能比较
Figure BDA0002288896160000121
Figure BDA0002288896160000131
表4给出了股票数据集SH:600030的实验结果。可以看出,C-SVR-SVR和 C-SVR-RF的性能略差于SVR-SVR和SVR-RF。这意味着聚类方法不能提高该 股票价格预测的准确性。
表4在数据集SH:600030上的预测性能比较
Figure BDA0002288896160000132
Figure BDA0002288896160000141
对于数据集SZ:000063,对应的实验结果如表5所示。在rRMSE上, C-SVR-RF表现优于SVR-RF。但C-SVR-SVR的表现与SVR-SVR相同,甚至略 差。因此,聚类方法对这个数据集不是很有效。
表5在数据集SZ:000063上的预测性能比较
Figure BDA0002288896160000142
Figure BDA0002288896160000151
Figure BDA0002288896160000161
表6为股票SZ:300104的预测精度。基于C-SVR-SVR和C-SVR-RF的聚类 方法不能提高该股票的预测精度。
表6在数据集SZ:300104上的预测性能比较
Figure BDA0002288896160000162
Figure BDA0002288896160000171
表7为选取的4个股票数据集上SVR-SVR、SVR-RF、C-SVR-SVR、C-SVR-RF、 E-SVR&RF、C-E-SVR&RF的平均排序,可以看出k-means聚类只能提高特定股 票数据集的预测精度。这意味着本发明所涉及的10个股票技术指标的聚类并不 是一种有效的融合聚类与集成学习的金融股票预测方法。
表7四支股票的平均排名
Figure BDA0002288896160000172
Figure BDA0002288896160000181
b)集成学习方法的性能评价
在两阶段融合模型SVR-SVR和SVR-RF的基础上,应用Bagging集成学习 方法提出了一种新的E-SVR&RF算法,提高了股价预测的准确性。集成学习中 的弱学习者包括SVR,RF,Dummy Regressor,Decision Tree Regressor,Kneighbors Regressor算法模型。从表3到表6的实验结果可以看出,E-SVR&RF在所选的 SH:600000、SH:600030、SZ:000063和SZ:300104四个股票数据集上的性能优于 SVR-SVR、SVR-RF、C-SVR-SVR和C-SVR-RF。从表7中也可以看出,与 SVR-SVR,SVR-RF,C-SVR-SVR,C-SVR-RF相比,E-SVR&RF得到最好的排名结果。研究结果表明,基于E-SVR&RF的集成学习能够提高股票价格预测的准确 性。
图5至图8是我们提出的算法C-SVR-SVR、C-SVR-RF、E-SVR&RF、 C-E-SVR&RF与文献中的算法SVR-SVR、SVR-RF进行比较。从图中可以看出, 与C-SVR-SVR、C-SVR-RF、SVR-SVR、SVR-RF相比,采用集成学习的 E-SVR&RF具有更好的性能,说明了集成学习的有效性。
c)融合聚类与集成学习算法模型C-E-SVR&RF的性能评估
在上述实验的基础上,我们将聚类和集成学习相结合,提出了一种新的混合 预测算法模型C-E-SVR&RF。如图3所示,在集成学习中使用了5种弱学习算 法,分别是聚类后的SVR、聚类后的RF、DR(Dummy Regression)、DTR(Decision Tree Regression)和KR(Kneighbors Regression)。表3至表6的实验结果均表明, C-E-SVR&RF在股票数据集SH:600000、SH:600030和SZ:000063上优于 E-SVR&RF。对于数据集SZ:300104,E-SVR&RF在MAPE、MAE和MSE上优 于C-E-SVR&RF。从表7中四组股票数据集的平均排名可以看出,C-E-SVR&RF 在三支股票上的效果最好。结果表明,聚类和集成学习的融合可以提高股票价格预测的准确性。
图9和图10表示对算法C-E-SVR&RF,SVR-SVR,SVR-RF分别在数据集 SH:600000、SZ:300104上预测得到的收盘价与实际收盘价的对比曲线图。本发 明提前预测第n(n=1,5,10,20,30)天的股票收盘价。从图中可以看出,与SVR-SVR 和SVR-RF相比,C-E-SVR&RF整体效果最好。
本发明首先将聚类方法应用于两阶段预测模型中,以提高预测精度,因为影 响金融股票价格的技术因素很多,可以进行聚类。此外,还将集成学习算法应用 于两阶段预测模型中,提高了预测精度。在此基础上,将聚类方法与集成学习算 法相结合,提出了一种混合模型。实验结果表明,该方法可以进一步提高大部分 数据集中金融股预测的准确性。

Claims (4)

1.一种融合聚类与集成学习的金融股票预测方法,其特征在于,包括以下步骤:
1)选取N支股票,利用每支股票的技术指标和收盘价构成总数据集D={X,Y},Y∈R,X为输入总样本,Y为输入总样本对应的标签,即当天的股票收盘价;X={X1,X2,…,Xm-(n-1),Xm-n},m-n为样本数;Xi={Xi0,Xi1,……,Xip},i∈[1,m-n];p为技术指标数量;Xi0,Xi1,Xi2,Xi3,Xi4,Xi5,Xi6,Xi7,Xi8,Xi9分别表示不同的技术指标;Y={Y(1+n),Y(2+n),…,Y(m-1),Ym},Y是X序列对应的第n天的股票收盘价序列,Y中的每个元素对应于第n天的股票收盘价;
2)使用第t天的不同技术指标训练p个SVR作为预测模型,所述预测模型输出第t+n天的p个技术指标;
3)将第t+n天的p个技术指标作为SVR或RF算法模型的输入,利用训练好的算法模型预测第t+n天的股票收盘价。
2.根据权利要求1所述的融合聚类与集成学习的金融股票预测方法,其特征在于,步骤3)中,利用k-means聚类算法对所述第t+n天的p个技术指标进行聚类,得到聚类标签;根据聚类标签划分数据集,再利用分类后的数据训练算法模型SVR、RF。
3.根据权利要求2所述的融合聚类与集成学习的金融股票预测方法,其特征在于,利用k-means聚类算法对所述第t+n天的p个技术指标进行分类的具体实现过程包括:
1)将所有技术指标随机两两组合,每个组合构成k-means聚类的数据集;
2)对上述数据集进行k-means聚类,k=2,为每个样本添加0或1的聚类标签,聚类后计算轮廓系数;
3)选择轮廓系数最大和最小的数据集的聚类标签;轮廓系数最大即最佳,轮廓系数最小即最差;
4)在总数据集中根据聚类标签,如果该样本被标记为1,则将该样本添加到集合Cluster1中,否则在集合Cluster0中添加该样本;
5)为每个集合训练一个SVR或RF算法模型,使用训练好的算法模型预测输出,得到最终的评估结果。
4.根据权利要求3所述的融合聚类与集成学习的金融股票预测方法,其特征在于,所述最终的评估结果是最佳或最差数据集的预测结果中,评估指标最好的一组数据。
CN201911171730.7A 2019-11-26 2019-11-26 一种融合聚类与集成学习的金融股票预测方法 Pending CN111178578A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911171730.7A CN111178578A (zh) 2019-11-26 2019-11-26 一种融合聚类与集成学习的金融股票预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911171730.7A CN111178578A (zh) 2019-11-26 2019-11-26 一种融合聚类与集成学习的金融股票预测方法

Publications (1)

Publication Number Publication Date
CN111178578A true CN111178578A (zh) 2020-05-19

Family

ID=70651899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911171730.7A Pending CN111178578A (zh) 2019-11-26 2019-11-26 一种融合聚类与集成学习的金融股票预测方法

Country Status (1)

Country Link
CN (1) CN111178578A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111917785A (zh) * 2020-08-06 2020-11-10 重庆邮电大学 一种基于de-gwo-svr的工业互联网安全态势预测方法
CN112541536A (zh) * 2020-12-09 2021-03-23 长沙理工大学 用于信用评分的欠采样分类集成方法、设备及存储介质
CN112836743A (zh) * 2021-02-02 2021-05-25 中国工商银行股份有限公司 用户标签的确定方法、装置和服务器

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111917785A (zh) * 2020-08-06 2020-11-10 重庆邮电大学 一种基于de-gwo-svr的工业互联网安全态势预测方法
CN111917785B (zh) * 2020-08-06 2022-07-15 重庆邮电大学 一种基于de-gwo-svr的工业互联网安全态势预测方法
CN112541536A (zh) * 2020-12-09 2021-03-23 长沙理工大学 用于信用评分的欠采样分类集成方法、设备及存储介质
CN112836743A (zh) * 2021-02-02 2021-05-25 中国工商银行股份有限公司 用户标签的确定方法、装置和服务器

Similar Documents

Publication Publication Date Title
Li et al. Day-ahead electricity price prediction applying hybrid models of LSTM-based deep learning methods and feature selection algorithms under consideration of market coupling
Xiang et al. Temporal and heterogeneous graph neural network for financial time series prediction
Wazery et al. Twitter sentiment analysis using deep neural network
CN111178578A (zh) 一种融合聚类与集成学习的金融股票预测方法
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
Raghavendra et al. Artificial humming bird with data science enabled stability prediction model for smart grids
CN114564573A (zh) 基于异构图神经网络的学术合作关系预测方法
Sarhan Fintech: an overview
Daiya et al. Stock movement prediction that integrates heterogeneous data sources using dilated causal convolution networks with attention
Ngoc Hai et al. An empirical research on the effectiveness of different LSTM architectures on vietnamese stock market
Li et al. [Retracted] A Study of Different Existing Methods for the Stock Selection in the Field of Quantitative Investment
Liu et al. Attention-based event relevance model for stock price movement prediction
Ni et al. A WOA-CNN-BiLSTM-based multi-feature classification prediction model for smart grid financial markets
Marconi et al. Hyperbolic manifold regression
Li et al. An improved genetic-XGBoost classifier for customer consumption behavior prediction
Zhao A deep learning framework for predicting digital asset price movement from trade-by-trade data
CN115796175A (zh) 企业业务数据分词权重优化方法、智能匹配方法及系统
CN115438098A (zh) 关系挖掘方法以及装置
CN115689639A (zh) 一种基于深度学习的商业广告点击率预测方法
Fu et al. The long short-term memory (lstm) model combines with technical analysis to forecast cryptocurrency prices
More et al. Sentiment Analysis on Amazon Product Reviews with Stacked Neural Networks
Kong et al. The risk prediction of mobile user tricking account overdraft limit based on fusion model of logistic and GBDT
Uddin et al. A fuzzy TOPSIS approach for big data analytics platform selection
Loday et al. Stock Price Prediction Using Modified Bidirectional Long Short-Term Memory and Deep Learning Models: A Case Study of Bhutan Tourism Corporation Limited Stock Data
Broadhurst et al. Data Analytics On Nasdaq Stock Prices: Reddit Social Media Case Study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination