CN111027745A - 一种基于自适应特征提取的股票指数预测方法 - Google Patents

一种基于自适应特征提取的股票指数预测方法 Download PDF

Info

Publication number
CN111027745A
CN111027745A CN201911088969.8A CN201911088969A CN111027745A CN 111027745 A CN111027745 A CN 111027745A CN 201911088969 A CN201911088969 A CN 201911088969A CN 111027745 A CN111027745 A CN 111027745A
Authority
CN
China
Prior art keywords
price
day
index
expression
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911088969.8A
Other languages
English (en)
Inventor
周锋
古林燕
杨利军
许波
李祥霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Business Studies
Original Assignee
Guangdong University of Business Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Business Studies filed Critical Guangdong University of Business Studies
Priority to CN201911088969.8A priority Critical patent/CN111027745A/zh
Publication of CN111027745A publication Critical patent/CN111027745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于自适应特征提取的股票指数预测方法,包括:S1:获取股票指数数据,得到每日的开盘价、最低价、最高价、收盘价和成交量;S2:计算由金融经济专家提出的人工指标值;S3:构造样本特征及样本标签,将所有样本划分为训练集、验证集和测试集;S4:对样本进行自适应特征提取;S5:将自适应提取特征与S2计算的人工指标一起输入基于因子机的神经网络预测模型中,并输出预测结果。本发明通过自适应提取股票指数的特征,且提取方法简单、解释性强;使用基于因子机的神经网络作为预测模型,它不仅能够学习到特征之间的交互作用、具备非线性的表达能力,还具有线性复杂度;可有效提高股票指数预测技术的准确率。

Description

一种基于自适应特征提取的股票指数预测方法
技术领域
本发明涉及股票指数预测领域,更具体地,涉及一种基于自适应特征提取的股票指数预测方法。
背景技术
分析、预测股票指数是在私人投资者,对冲基金和自营交易部门的日常工作中的一项必不可少的环节,而合理准确的预测可能会增加产生高额金融收益和对冲市场风险的潜力。然而,考虑到股票市场的信息效率和成熟度等因素,金融经济学家经常质疑股票指数的可预测性和获利交易的机会的存在。因此,在有效市场假说的背景下,这就导出了一个问题,即股市是否是将信息转化为价格的有效引擎。
尽管金融市场正常情况下符合有效市场假设,但不稳定的市场制度会出现,其中基本价格的基调不稳定,未来收益具有较大的不确定性,这为异常行为(如过度交易、波动、泡沫和疯狂交易的共同发生)提供了肥沃的环境。实际上,不存在真正有效的市场,正如格罗斯曼(Grossman)和斯蒂格利茨(Stiglitz)所表明的那样:信息的获取和分析是昂贵的,价格不能完美地反映所有现有的信息,因为这将对那些花费资源来获取信息和利用信息进行交易的人没有任何激励。此外,交易者对新信息也不能及时做出反应。一方面,一些交易者对新信息的到来表现出过度反应,要么是因为他们过分自信,要么是他们有模仿的动机和被模仿的欲望。这可能导致资产高估或低估,从而增加反弹或崩溃的可能性,从而在收益中产生负自相关。另一方面,由于注意力不集中等原因,投资者可能反应迟钝,并且新闻信息被缓慢地内化到价格中,从而导致正的自相关作用。
此外,信息技术和公共通信基础设施的进步使我们重新对金融市场的结构和有效的市场假设进行思考。正如高频交易(HFT)的出现和发展所体现的那样,它减少了价格波动所需的时间周期,并引发了新的不稳定性,例如瞬间暴跌。据调查,伴随着许多“跳跃”,股票每天上涨约2%以上。尽管新闻对价格走势有一定影响,但它只是波动的一小部分原因。许多理论研究表明,波动的爆发可能与金融市场的准效率密切相关,因为它们难以预测,因为金融投资者的适应性行为往往会消除价格的可预测性。随着计算机性能、数据可用性和算法复杂度的提高,投资者的投资决策及其算法的持续行为产生了一个强大的“市场情报”。这可称为“新兴市场情报假说”。考虑到它们共同创造的金融市场的复杂性或结构,这种“智能”会使大多数(但不是全部)策略变成失败的策略。
目前,股票指数预测方法可以概括为两类,即基础面分析和技术分析。在基本面分析类别中,基本面专家研究股票的内在价值,行业表现,政治事件,总体经济状况和市场预期。技术分析师(也称为图表专家)不是试图衡量上述所有指标,而是倾向于通过研究市场活动产生的统计数据并利用图表得出可预测的模式和趋势来挖掘潜在的机会,这些可预测的模式和趋势可能暗示该指数在未来股市中的表现。许多研究已经调查了不同市场中的各种技术交易规则并得出结论,技术规则至少在引入相应的交易所交易基金(ETF)之前对增长和新兴市场指数具有预测力。
至今为止,已有一些围绕传统时间序列预测的算法在股票指数预测问题中广泛使用,例如移动平均模型(MA)、指数平滑(ES)、自回归移动平均模型(ARMA)、广义自回归条件模型和异方差模型(GARCH)等。最近,为了对系统的结构和参数中的随机突变进行建模,已经为一类设计了动量水平估计算法(MHE)、马尔可夫跳跃系统(MJSs)的模型和无模型自适应动态规划算法(ADP)。此外,许多算法和方法,尤其是从机器学习的角度来看,已经树立了自己的优势,包括逻辑回归(LR)、判别分析(DA)、支持向量机(SVM)、梯度提升决策树(GBDT)、神经网络(NN)和基于树的管道优化工具(TPOT)等。例如,支持向量机已用于预测土耳其和马德里IBEX-35股票指数的未来走势。人工神经网络已被用于预测日本股市、伊斯坦布尔证券交易所和美国股市的股指方向。实际上,这些研究报告的准确性并非纯属偶然,而是基于这样的理解,即通常可以将预测股票指数的方向表达为分类问题,并且这种问题不是线性可分离的。此外,当基础数据生成过程的知识很少时,机器学习方法特别有用。
股票指数的趋势预测模型和策略主要可以概括为两类:一类是基于统计的,另一类是基于机器学习的。对于基于统计的方法,它们基本上都建立在时间序列具有平稳性以及变量服从正态分布和线性性质的假设之上。然而金融市场作为一个混沌系统,金融时间序列通常不满足这些性质。另一方面,机器学习算法摒弃了上述假设的限制,近年来许多工作也证明它们可以得到比基于统计的方法更好的结果。尽管如此,它们仍有一些不足之处,如:(1)大多数预测模型使用的特征都是人工构造的,因此预测结果很大程度上依赖于人们对金融市场的了解程度,缺乏自适应性。(2)大部分机器学习算法仍无法同时兼顾强表达、泛化与特征之间交互作用两方面的能力。以上不足导致现有的股票指数预测技术的准确率仍不够高。
发明内容
本发明为克服克服当前股票指数预测模型对人工特征依赖较高的缺陷,提供一种基于自适应特征提取的股票指数预测方法。
本发明针对股票指数提出一种鲁棒的自适应特征提取方法,然后基于集成学习思想,将一种具备输入特征交互作用学习能力的模型作为预测模型用于预测股票指数的未来趋势。
所述方法包括以下步骤:
S1:获取股票指数数据,得到每日的开盘价(O)、最低价(L)、最高价(H)、收盘价(C)和成交量(V);
S2:根据股票指数数据计算由金融经济专家提出的人工指标值;
S3:构造样本,包括样本特征及样本标签,将所有样本划分为训练集、验证集和测试集;
S4:利用逻辑回归(Logistical Regression)模型对样本进行自适应特征提取;
S5:将自适应提取特征与S2计算的人工指标一起输入基于因子机(FactorizationMachine)的神经网络预测模型中,并输出预测结果。
本发明首先利用逻辑回归(Logistical Regression)模型自适应地对股票历史指数信息进行特征学习,与此同时也计算由金融经济领域专家提出人工指标值,然后将自适应提取的特征和专家指标一起作为预测模型的输入传入基于因子机(FactorizationMachine)的神经网络模型,最后输出股票指数的预测结果。可有效提高股票指数预测的准确率。
优选地,S2中的人工指标包括:随机指数%Kt、随机指数%Dt、慢随机指数%Dt、Momentumt、ROCt、拉里·威廉姆斯指数%Rt、A/D Oscillatort、n-天Disparityt、2n-天Disparityt、OSCPt、CCIt、RSIt、OBVt、BIAS6t、PSY12t、ASY5t、ASY4t、ASY3t、ASY2t、ASY1t
优选地,随机指数%Kt用于比较给定时间段内证券的收盘价相对于其价格范围的波动性,表达式为:
Figure BDA0002266289440000041
其中LLt和HHt分别表示在过去t天中的最小的日最低价和最大的日最高价,Ct表示第t天的收盘价;n为时间窗口;
随机指数%Dt为随机指数%Kt的滑动平均,表达式为:
Figure BDA0002266289440000042
慢随机指数%Dt为随机指数%Dt的滑动平均,表达式为:
Figure BDA0002266289440000043
Momentumt为衡量证券价格在一段时间内变化的程度,表达式为:
Ct-Ct-n-1
额ROCt为价格变动率量化了当前价格和n天前价格之间的变化,表达式为:
Figure BDA0002266289440000044
拉里·威廉姆斯指数%Rt衡量的是超买/超卖的水平,表达式为:
Figure BDA0002266289440000045
其中,Hn为第n天的最高价,Ln为第n天的最低价;
A/D Oscillatort用来衡量成交量产生的价格变化,表达式为:
Figure BDA0002266289440000046
其中,Vt为第t天的成交量;Lt为第t天的最低价;
n-天Disparityt是当前价格和n天移动平均值之间的距离,表达式为:
Figure BDA0002266289440000047
其中,MAn为n天移动平均收盘价值;
2n-天Disparityt是当前价格和2n天移动平均值之间的距离,表达式为:
Figure BDA0002266289440000051
OSCPt展示证券价格的两个移动平均线之间的相对差异,表达式为:
Figure BDA0002266289440000052
CCIt用来衡量证券价格从其统计平均值的变化,表达式为:
Figure BDA0002266289440000053
其中
Figure BDA0002266289440000054
Figure BDA0002266289440000055
RSIt用来衡量在给定的时间跨度内价格变动的速度和变化,其中RSIt的取值范围为[0,100],表达式为:
Figure BDA0002266289440000056
其中UPt=max{0,Ct-Ct-1}和DWt=max{0,Ct-1-Ct};
OBVt表示股票总体成交量表达式为:
Vt+Vt-1
BIAS6t用来衡量收盘价与移动平均线之间的偏离水平,表达式为:
Figure BDA0002266289440000057
其中MA6t为过去6天收盘价的移动平均值;
PSY12t表示过去12天的心理线,表达式为:
Figure BDA0002266289440000058
其中Dup12表示过去12天中收盘价上涨的天数;
ASY5t为预测日前5天的平均收益率,表达式为:
Figure BDA0002266289440000059
其中SYt=(ln Ct-ln Ct-1)×100;
ASY4t为预测日前4天的平均收益率,表达式为:
Figure BDA0002266289440000061
ASY3t为预测日前3天的平均收益率,表达式为:
Figure BDA0002266289440000062
ASY2t为预测日前2天的平均收益率,表达式为:
Figure BDA0002266289440000063
ASY1t为预测日前1天的平均收益率,表达式为:
SYt-1
优选地,步骤S3中构造样本标签具体为:自第6日开始,比较每天的收盘价与前一天的收盘价,如果大于0,则标签记为1,否则取为0;以此类推,得到其它样本的标签。
优选地,步骤S3中构造样本特征具体为:自第6日开始,利用前5日的20个人工指标构造第一个样本的特征,以此类推,得到其它样本的特征。
优选地,步骤S4包括以下步骤:
S4.1:针对股票指数数据利用S3所构造的训练集和验证集样本训练逻辑回归模型,用来学习股票指数数据的潜在特征;
S4.2:针对股票指数数据将学习好逻辑回归模型分别对训练集、验证集和测试集样本进行预测,所得到的预测结果就是自适应提取的特征。
优选地,S4.2中逻辑回归模型具体如下:
给定样本数据
Figure BDA0002266289440000064
其中
Figure BDA0002266289440000065
表示第i个样本且具有K个特征,yi∈{0,1}表示第i个样本的类别,
Figure BDA0002266289440000066
为待求参数,逻辑回归模型的表达式如下:
Figure BDA0002266289440000067
其中,
Figure BDA0002266289440000068
为第i个样本的预测值,c为待求的偏差参数;
损失函数取为:
Figure BDA0002266289440000069
逻辑回归模型采用梯度下降法求解,损失函数用以指导更新待定参数w。
优选地,S5包括以下步骤:
S5.1:整合股票指数的自适应特征和人工特征;
S5.2:将整合后的特征作为基于因子机的神经网络预测模型的输入,在训练集上训练该预测模型,并在验证集上调整超参数;
S5.3:待基于因子机的神经网络预测模型训练完成之后,将之对测试集进预测,即可得到股票指数的预测结果。
优选地,步骤S5.2中的基于因子机的神经网络预测模型具体如下:
给定样本数据
Figure BDA0002266289440000071
表示第i个样本,具有K+1个特征,yi∈{0,1}表示第i个样本的类别;
第一个隐藏层的输出为(第i个样本):
Figure BDA0002266289440000072
Figure BDA0002266289440000073
其中
Figure BDA0002266289440000074
为待定的线性权重,
Figure BDA0002266289440000075
为待定的潜在交互权重,k1为超参数,f表示非线性激活函数(包括:tanh,sigmoid,ReLU,PReLU,ELU等),此处f取为ReLU,即当a≥0,f(a)=a,否则f(a)=0;xi,p为第i个样本的第p个特征值,
Figure BDA0002266289440000076
为第i个样本的第j个神经元,m1为第一层隐藏层输出神经元的个数;
第二个隐藏层的输出为(第i个样本):
Figure BDA0002266289440000077
Figure BDA0002266289440000078
其中
Figure BDA0002266289440000079
为待定的线性权重,
Figure BDA00022662894400000710
为待定的潜在交互权重,k2为超参数,m2为第二层隐藏层输出神经元的个数,f表示非线性激活函数,此处f取为ReLU.
输出层的输出为(第i个样本):
Figure BDA00022662894400000711
其中
Figure BDA00022662894400000712
为待定的线性权重,f表示非线性激活函数,此处f取为Sigmoid,即
Figure BDA00022662894400000713
o表示预测值个数,在我们的技术中o取1,表示预测隔天的股票指数价格;
最后,模型的损失函数为(第i个样本):
Figure BDA0002266289440000081
损失函数能够衡量预测值为真实标签的误差,由于模型中的待定权重采用基于梯度下降的反向传播法求解,因此损失函数可以指导模型朝着使得误差越来越小的趋势学习。
与现有技术相比,本发明技术方案的有益效果是:本发明可降低股票指数预测模型对人工特征的依赖,可有效提高股票指数预测技术的准确率,本发明通过自适应提取股票指数的特征,且提取方法简单、解释性强;使用基于因子机的神经网络作为预测模型,它不仅能够学习到特征之间的交互作用、具备非线性的表达能力,还具有线性复杂度。
附图说明
图1为实施例1所述基于自适应特征提取的股票指数预测方法流程图。
图2为逻辑回归模型。
图3为基于因子机的神经网络预测模型。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1:
本实施例提供一种基于自适应特征提取的股票指数预测方法。如图1所示,所述方法包括以下步骤:
S1:获取股票指数数据(本技术以上海证券交易所综合指数和纳斯达克综合指数为例),得到每日的开盘价(O)、最低价(L)、最高价(H)、收盘价(C)和成交量(V);
S2:计算由金融经济专家提出的人工指标值(如表1所示);
S3:构造样本,包括样本特征及样本标签,并按照7∶2∶1的比例将所有样本划分为训练集、验证集和测试集;
S4:利用逻辑回归(Logistical Regression)模型(如图2所示)对样本进行自适应特征提取;
S5:将自适应提取特征与计算的人工指标一起输入基于因子机(FactorizationMachine)的神经网络预测模型(如图3所示)中,并输出预测结果。
所述步骤S1具体为:从雅虎金融网站(https://finance.yahoo.com)获取股票指数数据,包括上海证券交易所综合指数(SSEC,时间范围:2010/01/04-2014/12/31)和纳斯达克综合指数(NASDAQ,时间范围:2012/01/03-2016/12/23)的开盘价、最高价、最低价、收盘价和成交量。
所述步骤S2具体为:根据表1所给出的20个人工指标的表达式,计算它们的值,其中窗口大小n取为5。
表1:20个人工指标及其描述
Figure BDA0002266289440000091
Figure BDA0002266289440000101
Figure BDA0002266289440000111
所述S3具体为:
根据上述所获得的SSEC和NASDAQ数据,构造样本标签。具体地,自第6日开始,比较它的与前一天的收盘价,如果大于0,则标签记为1,否则取为0,以此类推,可以得到其它样本的标签;
根据上述所获得的SSEC和NASDAQ数据,构造样本特征。具体地,自第6日开始,利用前5日的20个人工指标构造第一个样本的特征。以此类推,可以得到其它样本的特征;
针对上述所构造的SSEC和NASDAQ的样本,分别按照7∶2∶1的比例对其划分训练集、验证集和测试集。
所述S4包括以下步骤:
S4.1:针对SSEC和NASDAQ股票指数数据,分别利用所构造的训练集和验证集样本,训练逻辑回归模型用来学习SSEC和NASDAQ的潜在特征;
S4.2:针对SSEC和NASDAQ股票指数数据,将学习好逻辑回归模型分别对训练集、验证集和测试集样本进行预测,所得到的预测结果就是自适应提取的特征。
所述步骤S4.2中的逻辑回归模型具体如下:
给定样本数据
Figure BDA0002266289440000112
其中
Figure BDA0002266289440000113
表示第i个样本且具有K个特征,yi∈{0,1}表示第i个样本的类别,
Figure BDA0002266289440000114
为待求参数,逻辑回归模型的表达式如下:
Figure BDA0002266289440000115
其中,
Figure BDA0002266289440000116
为第i个样本的预测值,c为待求的偏差参数;
损失函数取为:
Figure BDA0002266289440000121
逻辑回归模型采用梯度下降法求解,损失函数用以指导更新待定参数w。
所述步骤S5包括以下步骤:
S5.1:对于SSEC和NASDAQ指数,整合它们的自适应特征和人工特征;
S5.2:将整合后的特征作为基于因子机的神经网络预测模型的输入,在训练集上训练该预测模型,并在验证集上调整超参数;
S5.3:待基于因子机的神经网络预测模型训练完成之后,将之对测试集进预测,即可得到SSEC和NASDAQ股票指数的预测结果。
如图3所示,所述步骤S5.2中的基于因子机的神经网络预测模型具体如下:
给定样本数据
Figure BDA0002266289440000122
表示第i个样本,具有K+1个特征,yi∈{0,1}表示第i个样本的类别。
第一个隐藏层的输出为(第i个样本):
Figure BDA0002266289440000123
Figure BDA0002266289440000124
其中
Figure BDA0002266289440000125
为待定的线性权重,
Figure BDA0002266289440000126
为待定的潜在交互权重,k1为超参数,f表示非线性激活函数(包括:tanh,sigmoid,ReLU,PReLU,ELU等),此处f取为ReLU,即当a≥0,f(a)=a,否则f(a)=0;xi,p为第i个样本的第p个特征值,
Figure BDA0002266289440000127
为第i个样本的第j个神经元,m1为第一层隐藏层输出神经元的个数;
第二个隐藏层的输出为(第i个样本):
Figure BDA0002266289440000128
Figure BDA0002266289440000129
其中
Figure BDA00022662894400001210
为待定的线性权重,
Figure BDA00022662894400001211
为待定的潜在交互权重,k2为超参数,m2为第二层隐藏层输出神经元的个数,f表示非线性激活函数,此处f取为ReLU.
输出层的输出为(第i个样本):
Figure BDA00022662894400001212
其中
Figure BDA0002266289440000131
为待定的线性权重,f表示非线性激活函数,此处f取为Sigmoid,即
Figure BDA0002266289440000132
o表示预测值个数,在我们的技术中o取1,表示预测隔天的股票指数价格。
最后,模型的损失函数为(第i个样本):
Figure BDA0002266289440000133
损失函数能够衡量预测值为真实标签的误差。由于模型中的待定权重采用基于梯度下降的反向传播法求解,因此损失函数可以指导模型朝着使得误差越来越小的趋势学习。
将本实施例所提技术(LR2FNN)与现阶段主流的方法进行比较,实验结果也显示出LR2FNN的优势。
表2:不同预测模型在S&P 500和NASDAQ数据集上的预测结果
Figure BDA0002266289440000134
在表2中,准确率:
Figure BDA0002266289440000135
召回率:
Figure BDA0002266289440000136
F指数:
Figure BDA0002266289440000137
其中,FP(真阳性)为正确识别的类别示例的数量,TN(真阴性)表示不属于该类别的正确识别的示例的数量,FP(假阳性)为错误地分配给正类,FN(假阴性)表示未被识别的正类数量。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于自适应特征提取的股票指数预测方法,其特征在于,所述方法包括以下步骤:
S1:获取股票指数数据,得到每日的开盘价(O)、最低价(L)、最高价(H)、收盘价(C)和成交量(V);
S2:根据股票指数数据计算由金融经济专家提出的人工指标值;
S3:构造样本,包括样本特征及样本标签,将所有样本划分为训练集、验证集和测试集;
S4:利用逻辑回归模型对样本进行自适应特征提取;
S5:将自适应提取特征与S2计算的人工指标一起输入基于因子机的神经网络预测模型中,并输出预测结果。
2.根据权利要求1所述的基于自适应特征提取的股票指数预测方法,其特征在于,S2中的人工指标包括:随机指数%Kt、随机指数%Dt、慢随机指数%Dt、Momentumt、ROCt、拉里·威廉姆斯指数%Rt、A/D Oscillatort、n-天Disparityt、2n-天Disparityt、OSCPt、CCIt、RSIt、OBVt、BIAS6t、PSY12t、ASY5t、ASY4t、ASY3t、ASY2t、ASY1t
3.根据权利要求2所述的基于自适应特征提取的股票指数预测方法,其特征在于,随机指数%Kt用于比较给定时间段内证券的收盘价相对于其价格范围的波动性,表达式为:
Figure FDA0002266289430000011
其中LLt和HHt分别表示在过去t天中的最小的日最低价和最大的日最高价,Ct表示第t天的收盘价,n为时间窗口;
随机指数%Dt为随机指数%Kt的滑动平均,表达式为:
Figure FDA0002266289430000012
慢随机指数%Dt为随机指数%Dt的滑动平均,表达式为:
Figure FDA0002266289430000013
Momentumt为衡量证券价格在一段时间内变化的程度,表达式为:
Ct-Ct-n-1
额ROCt为价格变动率量化了当前价格和n天前价格之间的变化,表达式为:
Figure FDA0002266289430000021
拉里·威廉姆斯指数%Rt衡量的是超买/超卖的水平,表达式为:
Figure FDA0002266289430000022
其中,Hn为第n天的最高价,Ln为第n天的最低价;
A/D Oscillatort用来衡量成交量产生的价格变化,表达式为:
Figure FDA0002266289430000023
其中,Vt为第t天的成交量;Lt为第t天的最低价;
n-天Disparityt是当前价格和n天移动平均值之间的距离,表达式为:
Figure FDA0002266289430000024
其中,MAn为n天移动平均收盘价值;
2n-天Disparityt是当前价格和2n天移动平均值之间的距离,表达式为:
Figure FDA0002266289430000025
OSCPt展示证券价格的两个移动平均线之间的相对差异,表达式为:
Figure FDA0002266289430000026
CCIt用来衡量证券价格从其统计平均值的变化,表达式为:
Figure FDA0002266289430000027
其中
Figure FDA0002266289430000028
Figure FDA0002266289430000029
RSIt用来衡量在给定的时间跨度内价格变动的速度和变化,表达式为:
Figure FDA00022662894300000210
其中UPt=max{0,Ct-Ct-1}和DWt=max{0,Ct-1-Ct};
OBVt表示股票总体成交量表达式为:
Vt+Vt-1
BIAS6t用来衡量收盘价与移动平均线之间的偏离水平,表达式为:
Figure FDA0002266289430000031
其中MA6t为过去6天收盘价的移动平均值;
PSY12t表示过去12天的心理线,表达式为:
Figure FDA0002266289430000032
其中Dup12表示过去12天中收盘价上涨的天数;
ASY5t为预测日前5天的平均收益率,表达式为:
Figure FDA0002266289430000033
其中SYt=(ln Ct-ln Ct-1)×100;
ASY4t为预测日前4天的平均收益率,表达式为:
Figure FDA0002266289430000034
ASY3t为预测日前3天的平均收益率,表达式为:
Figure FDA0002266289430000035
ASY2t为预测日前2天的平均收益率,表达式为:
Figure FDA0002266289430000036
ASY1t为预测日前1天的平均收益率,表达式为:
SYt-1
4.根据权利要求1-3任一项所述的基于自适应特征提取的股票指数预测方法,其特征在于,步骤S3中构造样本标签具体为:自第6日开始,比较每天的收盘价与前一天的收盘价,如果大于0,则标签记为1,否则取为0;以此类推,得到其它样本的标签。
5.根据权利要求4所述的基于自适应特征提取的股票指数预测方法,其特征在于,步骤S3中构造样本特征具体为:自第6日开始,利用前5日的20个人工指标构造第一个样本的特征,以此类推,得到其它样本的特征。
6.根据权利要求5所述的基于自适应特征提取的股票指数预测方法,其特征在于,步骤S4包括以下步骤:
S4.1:针对股票指数数据利用S3所构造的训练集和验证集样本训练逻辑回归模型,用来学习股票指数数据的潜在特征;
S4.2:针对股票指数数据将学习好逻辑回归模型分别对训练集、验证集和测试集样本进行预测,所得到的预测结果就是自适应提取的特征。
7.根据权利要求6所述的基于自适应特征提取的股票指数预测方法,其特征在于,S4.2中逻辑回归模型具体如下:
给定样本数据
Figure FDA0002266289430000041
其中
Figure FDA0002266289430000042
表示第i个样本且具有K个特征,yi∈{0,1}表示第i个样本的类别,
Figure FDA0002266289430000043
为待求参数,逻辑回归模型的表达式如下:
Figure FDA0002266289430000044
其中,
Figure FDA0002266289430000045
为第i个样本的预测值,c为待求的偏差参数;
损失函数取为:
Figure FDA0002266289430000046
逻辑回归模型采用梯度下降法求解,损失函数用以指导更新待定参数w。
8.根据权利要求7所述的基于自适应特征提取的股票指数预测方法,其特征在于,S5包括以下步骤:
S5.1:整合股票指数的自适应特征和人工特征;
S5.2:将整合后的特征作为基于因子机的神经网络预测模型的输入,在训练集上训练该预测模型,并在验证集上调整超参数;
S5.3:待基于因子机的神经网络预测模型训练完成之后,将之对测试集进预测,即可得到股票指数的预测结果。
9.根据权利要求8所述的基于自适应特征提取的股票指数预测方法,其特征在于,步骤S5.2中的基于因子机的神经网络预测模型具体如下:
给定样本数据
Figure FDA0002266289430000047
表示第i个样本,具有K+1个特征,yi∈{0,1}表示第i个样本的类别;
第一个隐藏层的输出为:
Figure FDA0002266289430000051
Figure FDA0002266289430000052
其中
Figure FDA0002266289430000053
为待定的线性权重,
Figure FDA0002266289430000054
为待定的潜在交互权重,k1为超参数,f表示非线性激活函数,此处f取为ReLU,即当a≥0,f(a)=a,否则f(a)=0;xi,p为第i个样本的第p个特征值,
Figure FDA0002266289430000055
为第i个样本的第j个神经元,m1为第一层隐藏层输出神经元的个数;
第二个隐藏层的输出为:
Figure FDA0002266289430000056
Figure FDA0002266289430000057
其中
Figure FDA0002266289430000058
为待定的线性权重,
Figure FDA0002266289430000059
为待定的潜在交互权重,k2为超参数,m2为第二层隐藏层输出神经元的个数,f表示非线性激活函数,此处f取为ReLU;
输出层的输出为:
Figure FDA00022662894300000510
其中
Figure FDA00022662894300000511
为待定的线性权重,f表示非线性激活函数,此处f取为Sigmoid,即
Figure FDA00022662894300000512
o表示预测值个数,表示预测隔天的股票指数价格;
最后,模型的损失函数为:
Figure FDA00022662894300000513
损失函数能够衡量预测值为真实标签的误差,由于模型中的待定权重采用基于梯度下降的反向传播法求解,因此损失函数可以指导模型朝着使得误差越来越小的趋势学习。
CN201911088969.8A 2019-11-08 2019-11-08 一种基于自适应特征提取的股票指数预测方法 Pending CN111027745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911088969.8A CN111027745A (zh) 2019-11-08 2019-11-08 一种基于自适应特征提取的股票指数预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911088969.8A CN111027745A (zh) 2019-11-08 2019-11-08 一种基于自适应特征提取的股票指数预测方法

Publications (1)

Publication Number Publication Date
CN111027745A true CN111027745A (zh) 2020-04-17

Family

ID=70205089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911088969.8A Pending CN111027745A (zh) 2019-11-08 2019-11-08 一种基于自适应特征提取的股票指数预测方法

Country Status (1)

Country Link
CN (1) CN111027745A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598435A (zh) * 2020-05-14 2020-08-28 北京工业大学 一种基于自适应特征选择及改进思维进化算法的质量趋势预测方法
CN111652722A (zh) * 2020-05-28 2020-09-11 杭州师范大学 一种基于人工神经网络的金融板块指数预测方法
CN112101566A (zh) * 2020-09-11 2020-12-18 石化盈科信息技术有限责任公司 预测模型训练方法、价格预测方法、存储介质及电子设备
CN112465646A (zh) * 2021-01-21 2021-03-09 深圳华锐金融技术股份有限公司 证券数据监控方法、装置、计算机设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598435A (zh) * 2020-05-14 2020-08-28 北京工业大学 一种基于自适应特征选择及改进思维进化算法的质量趋势预测方法
WO2021227406A1 (zh) * 2020-05-14 2021-11-18 北京工业大学 一种基于自适应特征选择及改进思维进化算法的质量趋势预测方法
CN111598435B (zh) * 2020-05-14 2023-08-04 北京工业大学 一种基于自适应特征选择及改进思维进化算法的质量趋势预测方法
CN111652722A (zh) * 2020-05-28 2020-09-11 杭州师范大学 一种基于人工神经网络的金融板块指数预测方法
CN112101566A (zh) * 2020-09-11 2020-12-18 石化盈科信息技术有限责任公司 预测模型训练方法、价格预测方法、存储介质及电子设备
CN112465646A (zh) * 2021-01-21 2021-03-09 深圳华锐金融技术股份有限公司 证券数据监控方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
Chen et al. A hybrid approach for portfolio selection with higher-order moments: Empirical evidence from Shanghai Stock Exchange
Park et al. Stock market forecasting using a multi-task approach integrating long short-term memory and the random forest framework
Lawrence Using neural networks to forecast stock market prices
Ni et al. Exchange rate prediction using hybrid neural networks and trading indicators
Nair et al. A decision tree-rough set hybrid system for stock market trend prediction
CN111027745A (zh) 一种基于自适应特征提取的股票指数预测方法
Lang et al. A framework for early-warning modeling with an application to banks
Hájek et al. Forecasting stock prices using sentiment information in annual reports-a neural network and support vector regression approach
Hajek et al. Fuzzy rule-based prediction of gold prices using news affect
Diqi et al. StockGAN: robust stock price prediction using GAN algorithm
Consoli et al. Neural forecasting of the Italian sovereign bond market with economic news
Aminimehr et al. The role of feature engineering in prediction of tehran stock exchange index based on LSTM
Li Application of neural networks in financial time series forecasting models
Qianyun et al. Simulation of stock market investor behavior based on bayesian learning and complex network
Qiu et al. Qf-tradernet: Intraday trading via deep reinforcement with quantum price levels based profit-and-loss control
Ghahramani et al. Compatible deep neural network framework with financial time series data, including data preprocessor, neural network model and trading strategy
Mitra et al. Predicting Indian basket crude prices through machine learning models-a comparative approach
Pongsena et al. Deep Learning for Financial Time-Series Data Analytics: An Image Processing Based Approach
Shen et al. Bitcoin Return Volatility Forecasting: A Comparative Study of GARCH Model and Machine Learning Model
Hao Quantitative Trading Portfolio Optimization-Based Stock Prediction Using Long-Short Term Memory Network
PraveenKumar et al. Stock Management Using Artificial Intelligence
Liu et al. Computer Intelligent Investment Strategy Based on Deep Reinforcement Learning and Multi-Layer LSTM Network
Ghasemieh et al. Deep Learning Vs. Machine Learning in Predicting the Future Trend of Stock Market Prices
Zhu et al. Quantitative trading model and price forecasting system based on BiGRU neural network
Dias et al. Aggregation of Sentiment Analysis Index with Hesitant Fuzzy Sets for Financial Time Series Forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200417