CN108985501B - 基于指数特征提取的股指预测方法、服务器及存储介质 - Google Patents
基于指数特征提取的股指预测方法、服务器及存储介质 Download PDFInfo
- Publication number
- CN108985501B CN108985501B CN201810694893.2A CN201810694893A CN108985501B CN 108985501 B CN108985501 B CN 108985501B CN 201810694893 A CN201810694893 A CN 201810694893A CN 108985501 B CN108985501 B CN 108985501B
- Authority
- CN
- China
- Prior art keywords
- index
- time sequence
- vector
- time
- hidden layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于指数特征提取的股指预测方法、装置及存储介质,该方法提取预设数量的时间序列中所有时间点的指数因子及对应的收益率,根据预设规则选取n个指数因子构成一个n维向量,将各个时间点的n维向量及其对应的收益率分别组成一个待训练的样本数据。之后,该方法利用样本数据中的n维向量及其对应的收益率对双向长短期记忆网络模型进行训练,确定模型参数。最后,该方法接收待分析的时间序列,提取出该时间序列所有时间点的n维向量输入到训练好的双向长短期记忆网络模型中,得到该段时间序列的综合解释性指标。利用本发明,能够深层次的提取指数的特征,提高股指预测的准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于指数特征提取的股指预测方法、服务器及计算机可读存储介质。
背景技术
因子一般是指对研究事物具有影响作用的特征或因素。指数相对于其他指标而言,往往具有时序依赖的特征。目前的指数因子特征提取方法,可以是提取指数位于某一时刻的特定维度的特征,也可以是提取长时间段上指数的趋势性与周期性特征,而对于相邻时序间的依赖关系特征较难提取,从而不能够科学地衡量指数走势。
发明内容
鉴于以上内容,本发明提供一种基于指数特征提取的股指预测方法、服务器及计算机可读存储介质,其主要目的在于提取多重指数特征所包含的综合信息,科学、准确地预测指数走势。
为实现上述目的,本发明提供一种基于指数特征提取的股指预测方法,该方法包括:
样本采集步骤:提取预设数量的时间序列中所有时间点的指数因子及对应的收益率,根据预设规则选取n个指数因子构成一个n维向量xi,i>0且i为整数,将各个时间点的n维向量xi及其对应的收益率组成待训练的样本数据;
提取步骤:提取样本数据中每段时间序列的所有时间点的n维向量xi,作为双向长短期记忆网络模型第一层的输入;
处理步骤:在双向长短期记忆网络模型的第二层,根据某段时间序列的某个时间点的n维向量xi及前一个时间点的n维向量xi-1的隐藏层状态向量hi-1计算该时间点的n维向量xi的第一隐藏层状态向量hi,并根据该时间点的n维向量xi及后一个时间点的n维向量xi+1的隐藏层状态向量hi+1计算该时间点n维向量xi的第二隐藏层状态向量hi’,将第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行平均处理,得到该时间点的综合隐藏层状态向量,直至算出所有时间点的综合隐藏层状态向量,再根据每段时间序列的所有时间点的综合隐藏层状态向量得到每段时间序列的特征向量Ti;
计算步骤:在双向长短期记忆网络模型的第三层,根据每段时间序列的特征向量Ti,利用预设的指标计算公式计算下一段时间序列的综合解释性指标S;
权重确定步骤:在双向长短期记忆网络模型的最后一层,将每段时间序列的综合解释性指标S及该段时间序列对应的所有收益率代入反向传播算法,得到各段时间序列的权重ai;
预测步骤:接收待分析的时间序列,提取该段时间序列中所有时间点的n维向量,输入到训练好的双向长短期记忆网络模型中,得到该时间序列的综合解释性指标S。
优选地,所述预设规则包括:
分析用户的需求,根据用户需求确定用户意图;及
根据预设的意图与指数因子的对应关系,选取对应的指数因子。
优选地,所述预设的指标计算公式为:
S=a1T1+a2T2+a3T3+…+akTk
其中,T1、T2、……、Tk分别代表每段时间序列的特征向量,a1、a2、……、ak分别代表T1、T2、……、Tk的权重。
优选地,所述反向传播算法的公式为:
优选地,该方法还包括:
判断预设数量的时间序列的长度是否超过预设值,若时间序列的长度超过预设值,则以预设方式对时间序列进行截取,得到长度合适的时间序列。
此外,本发明还提供一种服务器,该服务器包括:存储器、处理器及显示器,所述存储器上存储股指预测程序,所述股指预测程序被所述处理器执行,可实现如下步骤:
样本采集步骤:提取预设数量的时间序列中所有时间点的指数因子及对应的收益率,根据预设规则选取n个指数因子构成一个n维向量xi,i>0且i为整数,将各个时间点的n维向量xi及其对应的收益率组成待训练的样本数据;
提取步骤:提取样本数据中每段时间序列的所有时间点的n维向量xi,作为双向长短期记忆网络模型第一层的输入;
处理步骤:在双向长短期记忆网络模型的第二层,根据某段时间序列的某个时间点的n维向量xi及前一个时间点的n维向量xi-1的隐藏层状态向量hi-1计算该时间点的n维向量xi的第一隐藏层状态向量hi,并根据该时间点的n维向量xi及后一个时间点的n维向量xi+1的隐藏层状态向量hi+1计算该时间点n维向量xi的第二隐藏层状态向量hi’,将第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行平均处理,得到该时间点的综合隐藏层状态向量,直至算出所有时间点的综合隐藏层状态向量,再根据每段时间序列的所有时间点的综合隐藏层状态向量得到每段时间序列的特征向量Ti;
计算步骤:在双向长短期记忆网络模型的第三层,根据每段时间序列的特征向量Ti,利用预设的指标计算公式计算下一段时间序列的综合解释性指标S;
权重确定步骤:在双向长短期记忆网络模型的最后一层,将每段时间序列的综合解释性指标S及该段时间序列对应的所有收益率代入反向传播算法,得到各段时间序列的权重ai;
预测步骤:接收待分析的时间序列,提取该段时间序列中所有时间点的n维向量,输入到训练好的双向长短期记忆网络模型中,得到该时间序列的综合解释性指标S。
优选地,所述预设规则包括:
分析用户的需求,根据用户需求确定用户意图;及
根据预设的意图与指数因子的对应关系,选取对应的指数因子。
优选地,所述预设的指标计算公式为:
S=a1T1+a2T2+a3T3+…+akTk
其中,T1、T2、……、Tk分别代表每段时间序列的特征向量,a1、a2、……、ak分别代表T1、T2、……、Tk的权重。
优选地,所述反向传播算法的公式为:
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括股指预测程序,所述股指预测程序被处理器执行时,可实现如上所述基于指数特征提取的股指预测方法中的任意步骤。
本发明提出的基于指数特征提取的股指预测方法、服务器及计算机可读存储介质,通过提取每段时间序列所有时间点的指数因子及对应的收益率,并选取n个指数因子构成n维向量xi,接着,将n维向量xi及收益率代入双向长短期记忆网络模型中训练,得到完整的模型,最后,提取待分析的时间序列的n维向量,输入到模型中,得到该时间序列的综合解释性指标,从而减少梯度爆炸或梯度消失,准确的预测股指的走势。
附图说明
图1为本发明服务器较佳实施例的示意图;
图2为图1中股指预测程序较佳实施例的模块示意图;
图3为本发明基于指数特征提取的股指预测方法较佳实施例的流程图;
图4为本发明双向长短期记忆网络模型的示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,是本发明服务器1较佳实施例的示意图。
在本实施例中,服务器1是指产品服务平台,该服务器1可以是服务器、平板电脑、个人电脑、便携计算机以及其它具有运算功能的电子设备。
该服务器1包括:存储器11、处理器12及网络接口13。其中,网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。
存储器11至少包括一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述存储器11可以是所述服务器1的内部存储单元,例如该服务器1的硬盘。在另一些实施例中,所述存储器11也可以是所述服务器1的外部存储单元,例如所述服务器1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。在本实施例中,所述存储器11不仅可以用于存储安装于所述服务器1的应用软件及各类数据,例如股指预测程序10及训练好的双向长短期记忆网络模型等。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其它数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行股指预测程序10的计算机程序代码、执行双向长短期记忆网络模型的训练等。
图2仅示出了具有组件11-13以及股指预测程序10的服务器1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该服务器1还可以包括显示器,显示器可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在服务器1中处理的信息以及用于显示可视化的工作界面,例如显示各个任务当前的执行状态。
可选地,该服务器1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该服务器1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。用户可以通过触摸所述触控区域启动股指预测程序10。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
该服务器1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
如图2所示,是图1中股指预测程序10较佳实施例的模块示意图。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
在本实施例中,股指预测程序10包括:样本采集模块110、提取模块120、处理模块130、计算模块140、权重确定模块150及预测模块160,结合图3中程序模块的应用环境示意图,所述模块110-160所实现的功能或操作步骤如下:
样本采集模块110,用于从数据平台,如金融数据和分析工具服务商(Wind)、彭博(Bloomberg)等,提取沪深300指数2个月内每段时间序列所有时间点的指数因子及对应的收益率,并根据预设规则选取n个指数因子映射成一个n维向量xi,i>0且i为整数。其中,解释沪深300指数的常见指数因子有以下13种,包括:中债国债到期收益率:10年-中债企业债到期收益率(AAA):10年、风险溢价、股息率、慢速KD指标(SlowKD)、平滑异同移动平均线直方图(Moving Average Convergence and Divergence Histogram,MACD Histogram)、布林线指标(Bollinger Bands)、移动平均线-相对强弱指标(MA of RSI(14)[m=22])、4-period MA of 4week MA of modified OBV-(MA4*4)、CR指标、大小盘换手率比值、RSRS指标、溢价率、主动买入额。所述预设规则包括:分析用户的需求,根据用户需求确定用户意图,并根据预设的意图与指数因子的对应关系,选取对应的指数因子。所述用户意图是指用户希望综合指标所反映的结果,包括希望综合指标所反映的结果是时间序列的指数走势或时间点的具体的收益率。所述收益率是指日收益率,即以一天为时间间隔的相对收益。所述日收益率的计算公式为:第n日的收益率=(第n+1日收盘价-第n日收盘价)/第n日收盘价。
进一步地,在指数因子特征提取前,还需要先判断每段时间序列的长度是否超过预设值,若时间序列的长度超过预设值,则以预设方式对时间序列进行截取,得到长度合适的时间序列。所述预设方式可以是指以步长为t(t=2,3,……)进行截取数据。假设,预设值为30,对于长度超过30个时间单位的时间序列,可能会造成梯度爆炸或梯度消失,待分析的时间序列为50个时间单位,采用步长为2的采样方法对序列进行重构,将时间序列长度归为25个时间单位。
提取模块120,用于提取样本数据中每段时间序列所有时间点的n维向量xi,作为双向长短期记忆网络模型第一层的输入。例如,提取样本数据中每段时间序列的每日的n个指数因子及对应的收益率,根据n个指数因子构成n维向量,将n维向量和对应的收益率进行数据划分为训练集及验证集,将训练集中是n维向量输入到双向长短期记忆网络进行训练。
处理模块130,用于在双向长短期记忆网络模型的第二层,根据某段时间序列的某个时间点的n维向量xi及前一个时间点的n维向量xi-1的隐藏层状态向量hi-1计算该时间点的n维向量xi的第一隐藏层状态向量hi,并根据该时间点的n维向量xi及后一个时间点的n维向量xi+1的隐藏层状态向量hi+1计算该时间点n维向量xi的第二隐藏层状态向量hi’,将第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行平均处理,得到该段时间序列中每个时间点n维向量的综合隐藏层状态向量。以此类推,算出时间段上所有时间点的综合隐藏层状态向量,再根据每段时间序列的所有时间点的综合隐藏层状态向量得到每段时间序列的特征向量Ti。
在另一个实施例中,还可以将该段时间序列中每个时间点n维向量的第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行拼接处理,得到每个时间点n维向量的综合隐藏层状态向量Ti。例如,将4月份每一日的n维向量的第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行拼接处理,得到每一日的综合隐藏层状态向量。
计算模块140,用于在双向长短期记忆网络模型的第三层,根据每段时间序列的每个时间点的n维向量的综合隐藏层状态向量Ti,利用预设的指标计算公式计算每段时间序列的综合解释性指标S。其中,所述预设的指标计算公式为:S=a1T1+a2T2+a3T3+…+akTk,其中,T1、T2、……、Tk分别代表每个时间点n维向量的综合隐藏层状态向量,a1、a2、……、ak分别代表T1、T2、……、Tk的权重。
权重确定模块150,用于在双向长短期记忆网络模型的最后一层,将每段时间序列的综合解释性指标S及该段时间序列对应的所有收益率代入反向传播(Back Propagation,BP)算法,得到各个权重ai。例如,根据沪深300指数各个月份的综合解释性指标S及每日的收益率,利用BP算法确定各个权重ai。其中,所述BP算法的表达式为:
其中,所述a′k代表更新后的第k个权重,ak代表更新前的第k个权重,η代表学习速率,0.1<η<3,代表整体误差E对ak的偏导值。具体地,整体误差E=(S-S′)^2,S代表综合解释性指标预测值,即上述指标计算公式计算得到的综合解释性指标,S′代表综合解释性指标的真实值,即由每日的收益率得到的综合解释性指标。进一步地,当输出的综合解释性指标为2维,即综合解释性指标为S1和S2时,E=0.5(S1-S′1)^2+0.5(S2-S′2)^2。对E求ak的偏导乘以学习速率,得到偏置值,ak减去偏置值得到ak的更新值a′k。持续循环训练,直到偏置值达到预设值,模型为最优模型,输出最终的各个权重值。
预测模块160,用于接收待分析的时间序列,提取出时间序列中所有时间点的n维向量,输入到训练好的双向长短期记忆网络模型中,得到该时间序列的综合解释性指标。例如,需要解释2018年5月指数走势时,可以选取前几个月的逐日数据,提取每日的n维向量,输入到训练好的双向长短期记忆网络模型中,得到该5月的指数走势。
如图3所示,是本发明基于指数特征提取的股指预测方法较佳实施例的流程图。
下面以沪深300指数为例,但不仅限于沪深300指数,对本发明加以阐述。在本实施例中,处理器12执行存储器11中存储的股指预测程序10的计算机程序时实现基于指数特征提取的股指预测方法包括:步骤S10-步骤S60,其中,步骤S10为样本数据的采集步骤,步骤S20-50为双向长短期记忆网络模型的训练步骤,如图4所示,是本发明双向长短期记忆网络模型的示意图,步骤S60为股指趋势的预测步骤。
步骤S10,样本采集模块110从数据平台,如金融数据和分析工具服务商(Wind)、彭博(Bloomberg)等,提取沪深300指数2个月内每段时间序列所有时间点的指数因子及对应的收益率,并根据预设规则选取n个指数因子映射成一个n维向量xi,i>0且i为整数。其中,解释沪深300指数的常见指数因子有以下13种,包括:中债国债到期收益率:10年-中债企业债到期收益率(AAA):10年、风险溢价、股息率、慢速KD指标(SlowKD)、平滑异同移动平均线直方图(Moving Average Convergence and Divergence Histogram,MACD Histogram)、布林线指标(Bollinger Bands)、移动平均线-相对强弱指标(MA of RSI(14)[m=22])、4-period MA of 4week MA of modified OBV-(MA4*4)、CR指标、大小盘换手率比值、RSRS指标、溢价率、主动买入额。所述预设规则包括:分析用户的需求,根据用户需求确定用户意图,并根据预设的意图与指数因子的对应关系,选取对应的指数因子。所述用户意图是指用户希望综合指标所反映的结果,包括希望综合指标所反映的结果是时间序列的指数走势或时间点的具体的收益率。例如,当用户希望从宏观基本角度对沪深300走势进行刻画时,可以选取专注于宏观基本角度的5个指数因子,包括:中债国债到期收益率:10年-中债企业债到期收益率(AAA):10年、风险溢价、股息率、溢价率及主动买入额,构成一个5维的向量。将各个时间点的n维向量xi及其对应的收益率组成待训练的样本数据。所述收益率是指日收益率,即以一天为时间间隔的相对收益。所述日收益率的计算公式为:第n日的收益率=(第n+1日收盘价-第n日收盘价)/第n日收盘价。
进一步地,在指数因子特征提取前,还需要先判断每段时间序列的长度是否超过预设值,若时间序列的长度超过预设值,则以预设方式对时间序列进行截取,得到长度合适的时间序列。所述预设方式可以是指以步长为t(t=2,3,……)进行截取数据。假设,预设值为30,对于长度超过30个时间单位,如30天,的时间序列,可能会造成梯度爆炸或梯度消失,待分析的时间序列为50个时间单位,采用步长为2的采样方法对序列进行重构,将时间序列长度归为25个时间单位。
步骤S20,提取模块120提取样本数据中每段时间序列所有时间点的n维向量xi,作为双向长短期记忆网络模型第一层的输入。例如,提取样本数据中每段时间序列的每日的n个指数因子及对应的收益率,根据n个指数因子构成n维向量,将n维向量和对应的收益率进行数据划分为训练集及验证集,将训练集中是n维向量输入到双向长短期记忆网络进行训练。
步骤S30,在双向长短期记忆网络模型的第二层,处理模块130根据某段时间序列的某个时间点的n维向量xi及前一个时间点的n维向量xi-1的隐藏层状态向量hi-1计算该时间点的n维向量xi的第一隐藏层状态向量hi,并根据该时间点的n维向量xi及后一个时间点的n维向量xi+1的隐藏层状态向量hi+1计算该时间点n维向量xi的第二隐藏层状态向量hi’,将第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行平均处理,得到该段时间序列中每个时间点n维向量的综合隐藏层状态向量。以此类推,算出时间段上所有时间点的综合隐藏层状态向量,再根据每段时间序列的所有时间点的综合隐藏层状态向量得到每段时间序列的特征向量Ti。例如,根据沪深300指数4月15日的n维向量xi和4月14日的n维向量xi-1的隐藏层状态向量hi-1计算15日的n维向量xi的第一隐藏层状态向量hi,并根据沪深300指数4月15日的n维向量xi和4月16日的n维向量xi-1的隐藏层状态向量hi+1计算该日的n维向量xi的第二隐藏层状态向量hi’,将4月15日的第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行平均处理,得到4月15日的综合隐藏层状态向量。以此类推,算出时序中所有时间点的综合隐藏层状态向量,得到4月份的特征向量Ti。
在另一个实施例中,还可以将该段时间序列中每个时间点n维向量的第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行拼接处理,得到每个时间点n维向量的综合隐藏层状态向量Ti。例如,将4月份每一日的n维向量的第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行拼接处理,得到每一日的综合隐藏层状态向量。
步骤S40,在双向长短期记忆网络模型的第三层,计算模块140根据每段时间序列的特征向量Ti,利用预设的指标计算公式计算下一段时间序列的综合解释性指标S。其中,所述预设的指标计算公式为:S=a1T1+a2T2+a3T3+…+akTk,其中,T1、T2、……、Tk分别代表每个时间点n维向量的综合隐藏层状态向量,a1、a2、……、ak分别代表T1、T2、……、Tk的权重。例如,将1-4月份的特征向量T1-T4输入预设的指标计算公式,得到5月份的综合解释性指标S。
步骤S50,在双向长短期记忆网络模型的最后一层,权重确定模块150将每段时间序列的综合解释性指标S及该段时间序列对应的所有收益率代入BP算法,得到各个权重ai。例如,根据沪深300指数各个月份的综合解释性指标S及每日的收益率,利用BP算法确定各个权重ai。其中,所述BP算法的表达式为:
其中,所述a′k代表更新后的第k个权重,ak代表更新前的第k个权重,η代表学习速率,0.1<η<3,代表整体误差E对ak的偏导值。具体地,整体误差E=(S-S′)^2,S代表综合解释性指标预测值,即上述指标计算公式计算得到的综合解释性指标,S′代表综合解释性指标的真实值,即由每日的收益率得到的综合解释性指标。进一步地,当输出的综合解释性指标为2维,即综合解释性指标为S1和S2时,E=0.5(S1-S′1)^2+0.5(S2-S′2)^2。对E求ak的偏导乘以学习速率,得到偏置值,ak减去偏置值得到ak的更新值a′k。持续循环训练,直到偏置值达到预设值,模型为最优模型,输出最终的各个权重值。
步骤S60,预测模块160接收待分析的时间序列,提取出时间序列中所有时间点的n维向量,输入到训练好的双向长短期记忆网络模型中,得到该时间序列的综合解释性指标。例如,需要解释2018年5月指数走势时,可以选取前几个月的逐日数据,提取每日的n维向量,输入到训练好的双向长短期记忆网络模型中,得到该5月的指数走势。
上述实施例提出的基于指数特征提取的股指预测方法,通过提取每段时间序列所有时间点的指数因子及对应的收益率,并选取n个指数因子构成n维向量xi。之后,该方法将n维向量xi及收益率代入双向长短期记忆网络模型中训练,得到完整的模型。最后,该方法提取待分析的时间序列的n维向量,输入到模型中,得到该时间序列的综合解释性指标,从而避免梯度消失和梯度爆炸,准确的分析股指的走势。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括股指预测程序10,所述股指预测程序10被处理器执行时实现如下操作:
样本采集步骤:提取预设数量的时间序列中所有时间点的指数因子及对应的收益率,根据预设规则选取n个指数因子构成一个n维向量xi,i>0且i为整数,将各个时间点的n维向量xi及其对应的收益率组成待训练的样本数据;
提取步骤:提取样本数据中每段时间序列的所有时间点的n维向量xi,作为双向长短期记忆网络模型第一层的输入;
处理步骤:在双向长短期记忆网络模型的第二层,根据某段时间序列的某个时间点的n维向量xi及前一个时间点的n维向量xi-1的隐藏层状态向量hi-1计算该时间点的n维向量xi的第一隐藏层状态向量hi,并根据该时间点的n维向量xi及后一个时间点的n维向量xi+1的隐藏层状态向量hi+1计算该时间点n维向量xi的第二隐藏层状态向量hi’,将第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行平均处理,得到该时间点的综合隐藏层状态向量,直至算出所有时间点的综合隐藏层状态向量,再根据每段时间序列的所有时间点的综合隐藏层状态向量得到每段时间序列的特征向量Ti;
计算步骤:在双向长短期记忆网络模型的第三层,根据每段时间序列的特征向量Ti,利用预设的指标计算公式计算下一段时间序列的综合解释性指标S;
权重确定步骤:在双向长短期记忆网络模型的最后一层,将每段时间序列的综合解释性指标S及该段时间序列对应的所有收益率代入反向传播算法,得到各段时间序列的权重ai;
预测步骤:接收待分析的时间序列,提取该段时间序列中所有时间点的n维向量,输入到训练好的双向长短期记忆网络模型中,得到该时间序列的综合解释性指标S’。
优选地,所述预设规则包括:
分析用户的需求,根据用户需求确定用户意图;及
根据预设的意图与指数因子的对应关系,选取对应的指数因子。
优选地,所述预设的指标计算公式为:
S=a1T1+a2T2+a3T3+…+akTk
其中,T1、T2、……、Tk分别代表每段时间序列的特征向量,a1、a2、……、ak分别代表T1、T2、……、Tk的权重。
优选地,所述反向传播算法的公式为:
优选地,该方法还包括:
判断预设数量的时间序列的长度是否超过预设值,若时间序列的长度超过预设值,则以预设方式对时间序列进行截取,得到长度合适的时间序列。
本发明之计算机可读存储介质的具体实施方式与上述基于指数特征提取的股指预测方法的具体实施方式大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种基于指数特征提取的股指预测方法,应用于服务器,其特征在于,所述方法包括:
样本采集步骤:提取预设数量的时间序列中所有时间点的指数因子及对应的收益率,根据预设规则选取n个指数因子构成一个n维向量xi,i>0且i为整数,将各个时间点的n维向量xi及其对应的收益率组成待训练的样本数据;
提取步骤:提取样本数据中每段时间序列的所有时间点的n维向量xi,作为双向长短期记忆网络模型第一层的输入;
处理步骤:在双向长短期记忆网络模型的第二层,根据某段时间序列的某个时间点的n维向量xi及前一个时间点的n维向量xi-1的隐藏层状态向量hi-1计算该时间点的n维向量xi的第一隐藏层状态向量hi,并根据该时间点的n维向量xi及后一个时间点的n维向量xi+1的隐藏层状态向量hi+1计算该时间点n维向量xi的第二隐藏层状态向量hi’,将第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行平均处理,得到该时间点的综合隐藏层状态向量,直至算出所有时间点的综合隐藏层状态向量,再根据每段时间序列的所有时间点的综合隐藏层状态向量得到每段时间序列的特征向量Ti;
计算步骤:在双向长短期记忆网络模型的第三层,根据每段时间序列的特征向量Ti,利用预设的指标计算公式计算下一段时间序列的综合解释性指标S,所述指标计算公式为:S=a1T1+a2T2+a3T3+…+akTk
其中,T1、T2、……、Tk分别代表每段时间序列的特征向量,a1、a2、……、ak分别代表T1、T2、……、Tk的权重;
权重确定步骤:在双向长短期记忆网络模型的最后一层,将每段时间序列的综合解释性指标S及该段时间序列对应的所有收益率代入反向传播算法,得到各段时间序列的权重ai,所述反向传播算法的公式为:
预测步骤:接收待分析的时间序列,提取该段时间序列中所有时间点的n维向量,输入到训练好的双向长短期记忆网络模型中,得到该时间序列的综合解释性指标S。
2.根据权利要求1所述的基于指数特征提取的股指预测方法,其特征在于,所述预设规则包括:
分析用户的需求,根据用户需求确定用户意图;及
根据预设的意图与指数因子的对应关系,选取对应的指数因子。
3.根据权利要求1所述的基于指数特征提取的股指预测方法,其特征在于,该方法还包括:
判断预设数量的时间序列的长度是否超过预设值,若时间序列的长度超过预设值,则以预设方式对时间序列进行截取,得到长度合适的时间序列。
4.一种服务器,其特征在于,所述服务器包括:存储器、处理器及显示器,所述存储器上存储有股指预测程序,所述股指预测程序被所述处理器执行,可实现如下步骤:
样本采集步骤:提取预设数量的时间序列中所有时间点的指数因子及对应的收益率,根据预设规则选取n个指数因子构成一个n维向量xi,i>0且i为整数,将各个时间点的n维向量xi及其对应的收益率组成待训练的样本数据;
提取步骤:提取样本数据中每段时间序列的所有时间点的n维向量xi,作为双向长短期记忆网络模型第一层的输入;
处理步骤:在双向长短期记忆网络模型的第二层,根据某段时间序列的某个时间点的n维向量xi及前一个时间点的n维向量xi-1的隐藏层状态向量hi-1计算该时间点的n维向量xi的第一隐藏层状态向量hi,并根据该时间点的n维向量xi及后一个时间点的n维向量xi+1的隐藏层状态向量hi+1计算该时间点n维向量xi的第二隐藏层状态向量hi’,将第一隐藏层状态向量hi和第二隐藏层状态向量hi’进行平均处理,得到该时间点的综合隐藏层状态向量,直至算出所有时间点的综合隐藏层状态向量,再根据每段时间序列的所有时间点的综合隐藏层状态向量得到每段时间序列的特征向量Ti;
计算步骤:在双向长短期记忆网络模型的第三层,根据每段时间序列的特征向量Ti,利用预设的指标计算公式计算下一段时间序列的综合解释性指标S,所述指标计算公式为:S=a1T1+a2T2+a3T3+…+akTk
其中,T1、T2、……、Tk分别代表每段时间序列的特征向量,a1、a2、……、ak分别代表T1、T2、……、Tk的权重;
权重确定步骤:在双向长短期记忆网络模型的最后一层,将每段时间序列的综合解释性指标S及该段时间序列对应的所有收益率代入反向传播算法,得到各段时间序列的权重ai,所述反向传播算法的公式为:
预测步骤:接收待分析的时间序列,提取该段时间序列中所有时间点的n维向量,输入到训练好的双向长短期记忆网络模型中,得到该时间序列的综合解释性指标S。
5.根据权利要求4所述的服务器,其特征在于,所述预设规则包括:
分析用户的需求,根据用户需求确定用户意图;及
根据预设的意图与指数因子的对应关系,选取对应的指数因子。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括股指预测程序,所述股指预测程序被处理器执行时,可实现如权利要求1至3中任一项所述基于指数特征提取的股指预测方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810694893.2A CN108985501B (zh) | 2018-06-29 | 2018-06-29 | 基于指数特征提取的股指预测方法、服务器及存储介质 |
PCT/CN2018/107484 WO2020000715A1 (zh) | 2018-06-29 | 2018-09-26 | 基于指数特征提取的股指预测方法、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810694893.2A CN108985501B (zh) | 2018-06-29 | 2018-06-29 | 基于指数特征提取的股指预测方法、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108985501A CN108985501A (zh) | 2018-12-11 |
CN108985501B true CN108985501B (zh) | 2022-04-29 |
Family
ID=64538978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810694893.2A Active CN108985501B (zh) | 2018-06-29 | 2018-06-29 | 基于指数特征提取的股指预测方法、服务器及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108985501B (zh) |
WO (1) | WO2020000715A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749845A (zh) * | 2021-01-13 | 2021-05-04 | 中国工商银行股份有限公司 | 模型训练方法、资源数据预测方法、装置和计算设备 |
CN112817832B (zh) * | 2021-01-19 | 2022-09-30 | 网易(杭州)网络有限公司 | 游戏服务器的健康状态获取方法、装置、设备及存储介质 |
CN112598526A (zh) * | 2021-03-04 | 2021-04-02 | 蚂蚁智信(杭州)信息技术有限公司 | 资产数据的处理方法及装置 |
CN115081702A (zh) * | 2022-06-14 | 2022-09-20 | 国网信息通信产业集团有限公司 | 一种具有可解释特性的电力负荷预测方法、系统及终端机 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798604A (zh) * | 2017-09-28 | 2018-03-13 | 平安科技(深圳)有限公司 | 基于机器学习的择时入股方法及终端设备 |
CN107943847A (zh) * | 2017-11-02 | 2018-04-20 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10325205B2 (en) * | 2014-06-09 | 2019-06-18 | Cognitive Scale, Inc. | Cognitive information processing system environment |
US9639807B2 (en) * | 2014-06-10 | 2017-05-02 | Jose Oriol Lopez Berengueres | Method and system for forecasting future events |
US9652712B2 (en) * | 2015-07-27 | 2017-05-16 | Google Inc. | Analyzing health events using recurrent neural networks |
CN105787582A (zh) * | 2015-12-24 | 2016-07-20 | 清华大学 | 股票风险预测方法和装置 |
CN106952161A (zh) * | 2017-03-31 | 2017-07-14 | 洪志令 | 一种基于长短期记忆深度学习网络的股票近期走势预测方法 |
CN107832897A (zh) * | 2017-11-30 | 2018-03-23 | 浙江工业大学 | 一种基于深度学习的股票市场预测方法 |
-
2018
- 2018-06-29 CN CN201810694893.2A patent/CN108985501B/zh active Active
- 2018-09-26 WO PCT/CN2018/107484 patent/WO2020000715A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798604A (zh) * | 2017-09-28 | 2018-03-13 | 平安科技(深圳)有限公司 | 基于机器学习的择时入股方法及终端设备 |
CN107943847A (zh) * | 2017-11-02 | 2018-04-20 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
Non-Patent Citations (3)
Title |
---|
The prediction of index in Shanghai stock based on genetic neural network;Xijie Zang 等;《2011 2nd International Conference on Artificial Intelligence, Management Science and Electronic Commerce 》;20110810;5943-5946 * |
组合预测模型在股指短期预测中的应用;刘佳明;《中国商贸》;20140228;93-96 * |
股市波动溢出效应及其影响因素分析;郑挺国;《经济学》;20180131;第17卷(第2期);669-692 * |
Also Published As
Publication number | Publication date |
---|---|
CN108985501A (zh) | 2018-12-11 |
WO2020000715A1 (zh) | 2020-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108985501B (zh) | 基于指数特征提取的股指预测方法、服务器及存储介质 | |
US10839790B2 (en) | Sequence-to-sequence convolutional architecture | |
US10958748B2 (en) | Resource push method and apparatus | |
US11928620B2 (en) | Method for estimating amount of task objects required to reach target completed tasks | |
JP6815708B2 (ja) | インフルエンザ予測モデルの生成方法、装置及びコンピュータ可読記憶媒体 | |
CN109460514A (zh) | 用于推送信息的方法和装置 | |
CN110008973B (zh) | 一种模型训练方法、基于模型确定目标用户的方法及装置 | |
US9344507B2 (en) | Method of processing web access information and server implementing same | |
CN112965645B (zh) | 页面拖拽方法、装置、计算机设备及存储介质 | |
CN108345419B (zh) | 一种信息推荐列表的生成方法及装置 | |
WO2019179030A1 (zh) | 产品购买预测方法、服务器及存储介质 | |
CN113343101B (zh) | 一种对象排序方法及系统 | |
WO2021047376A1 (zh) | 数据处理方法、数据处理装置及相关设备 | |
US10083252B2 (en) | Ranking autocomplete results based on a business cohort | |
US20150331889A1 (en) | Method of Image Tagging for Identifying Regions and Behavior Relationship between Different Objects | |
CN116703466A (zh) | 基于改进灰狼算法的系统访问量预测方法及其相关设备 | |
WO2020000718A1 (zh) | 投资组合生成方法、装置及计算机可读存储介质 | |
US20150170068A1 (en) | Determining analysis recommendations based on data analysis context | |
WO2018106552A1 (en) | Stress feedback for presentations | |
CN110837596B (zh) | 一种智能推荐方法、装置、计算机设备及存储介质 | |
WO2020037922A1 (zh) | 股指预测方法、装置及存储介质 | |
CN117436550B (zh) | 推荐模型训练方法及装置 | |
KR102347187B1 (ko) | Ai 마케팅 솔루션을 위해 특정 사이트에 대한 정보를 분석하는 전자 장치 및 그 동작 방법 | |
CN110717006B (zh) | 用户学校位置的分析方法、系统、存储介质及电子设备 | |
US20150046439A1 (en) | Determining Recommendations In Data Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |