CN109214560A

CN109214560A - 股指预测方法、装置及存储介质

Info

Publication number: CN109214560A
Application number: CN201810954505.XA
Authority: CN
Inventors: 李海疆
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2019-01-15
Also published as: WO2020037922A1

Abstract

本发明涉及智能预测技术，提供了一种股指预测方法、装置及存储介质。该方法包括：选取预设时间段的n种指数因子的时间序列，获取该预设时间段的每个第一预设时间点的股指收益率，并根据所述n种指数因子的时间序列为每个第一预设时间点构造一个第一n维向量；以所述多个第一预设时间点的第一n维向量及股指收益率为样本数据，对基于门控循环单元的双循环神经网络模型进行训练，得到股指预测模型；采集所述n种指数因子在第二预设时间点的数据，根据采集的数据构造第二预设时间点的第二n维向量，将该第二n维向量输入所述股指预测模型，预测得到该第二预设时间点的股指收益率。利用本发明，可以提取指数因子的深层次特征，提高股指预测准确度。

Description

股指预测方法、装置及存储介质

技术领域

本发明涉及计算机技术和智能预测技术领域，尤其涉及一种股指预测方法、装置及计算机可读存储介质。

背景技术

股票市场作为风险和收益双高的投资市场，对其进行预测从而更好地进行选股和择时以获得最大收益是研究者密切关注的领域。沿用至今的预测分析方法可以分为两类：基本面分析法与技术分析法。基本面分析法着手点在于国家经济政策与公司的基本面等信息，而技术分析方法则侧重利用历史数据带入数学模型或机器中来训练和演算。其中，基本面分析法中应用到的国家宏观经济状况、企业盈利状况等因素均较难定量，且大多属于长期性因素，所以如果只应用基本面分析法预测的精度将很不准确。而技术分析法主要是应用客观的量化指标进行预测，较为常用的方法包括时间序列法、小波分析法、神经网络法等，但由于股市的限制以及股票、期货等自身的特性，例如各影响因素大多不具有明显的关联关系，当前诸多方法并不能在预测时达到较好的效果，比如单独使用时间序列预测方法难以衡量多种指数因子的相互作用，在处理非线性特征数据时很难得到很好的预测结果，而神经网络当前较为流行的支持向量机预测模型只对求解小样本的非线性问题具有优秀的泛化能力，难以准确地预测股指走势。

发明内容

鉴于以上原因，本发明提供一种股指预测方法、电子装置及计算机可读存储介质，其主要目的在于从多种指数因子中提取深层次的特征向量，从而科学、准确地预测股指收益率。

为实现上述目的，本发明提供的股指预测方法包括如下步骤：

样本获取步骤：选取预设时间段的n种指数因子的时间序列，获取该预设时间段的每个第一预设时间点的股指收益率，并根据所述n种指数因子的时间序列为每个第一预设时间点构造一个第一n维向量；

模型训练步骤：以所述多个第一预设时间点的第一n维向量及股指收益率为样本数据，利用反向传播算法对预先建立的基于门控循环单元的双循环神经网络模型进行训练，迭代更新模型权重，得到股指预测模型；及

预测步骤：采集所述n种指数因子在第二预设时间点的数据，根据采集的数据构造第二预设时间点的第二n维向量，将该第二n维向量输入所述股指预测模型，预测得到该第二预设时间点的股指收益率。

优选地，该方法还包括：

对所述时间序列的指数因子数据进行预处理，利用拉格朗日插值法对所述指数因子数据中的缺失值进行修补。

优选地，所述预先建立的基于门控循环单元的双循环神经网络模型包括两个隐含层，所述隐含层用于将所述n维向量抽象为预设维度的特征向量，每个所述隐含层的神经元个数与所述特征向量的预设维度的数值相等。

优选地，所述反向传播算法的公式为：

其中，a′_k代表更新后的第k个模型权重，a_k代表更新前的第k个模型权重，η代表学习速率，0.1<η<3，代表整体误差E对a_k的偏导值。

优选地，当达到预设值时，确定模型权重，结束所述模型训练步骤，得到所述股指预测模型。

本发明还提供一种电子装置，该电子装置包括存储器和处理器，所述存储器中包括股指预测程序，该股指预测程序被所述处理器执行时实现如下步骤：

优选地，该方法还包括：

优选地，所述反向传播算法的公式为：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中包括股指预测程序，该股指预测程序被所述处理器执行时实现如下步骤：

本发明提出的股指预测方法、装置及计算机可读存储介质，通过选取预设时间段的n种指数因子的时间序列，获取该预设时间段的每个第一预设时间点的股指收益率，并根据所述n种指数因子的时间序列为每个第一预设时间点构造一个第一n维向量，然后以所述多个第一预设时间点的第一n维向量及股指收益率为样本数据，利用反向传播算法对预先建立的基于门控循环单元的双循环神经网络模型进行训练，迭代更新模型权重，得到股指预测模型，最后采集所述n种指数因子在第二预设时间点的数据，根据采集的数据构造第二预设时间点的第二n维向量，将该第二n维向量输入所述股指预测模型，预测得到该第二预设时间点的股指收益率。因为基于门控循环单元的双循环神经网络模型可以从各种指数因子中提取深层次特征，所以利用本发明可以准确地对股指进行预测。

附图说明

图1为本发明电子装置一实施例的示意图；

图2为图1中股指预测程序一实施例的程序模块图；

图3为本发明股指预测方法一实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚明白，下面将结合若干附图及实施例，对本发明进行进一步的详细说明。应当理解的是，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种电子装置。参照图1所示，为本发明电子装置1一实施例的示意图。在该实施例中，电子装置1通过获取样本数据，利用反向传播算法对预先建立的基于门控循环单元的双循环神经网络模型进行训练，迭代更新模型权重，得到股指预测模型，然后利用该股指预测模型对预设时间点的股指收益率进行预测。

所述电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有存储和运算功能的终端设备。在一个实施例中，当电子装置1为服务器时，该服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等的一种或几种。

所述电子装置1包括存储器11、处理器12及网络接口13。

其中，所述存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储操作系统、股指预测程序10、预先建立的基于门控循环单元的双循环神经网络模型以及采集到的各种指数因子数据等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行所述股指预测程序10等。

所述网络接口13可以包括标准的有线接口、无线接口(如WI-FI接口)。通常用于在该电子装置1与其他电子设备或系统之间建立通信连接。

图1仅示出了具有组件11-13以及所述股指预测程序10的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括显示器，也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(OrganicLight-Emitting Diode，OLED)显示器等。显示器用于显示在该电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。用户可以通过触摸所述触控区域启动所述股指预测程序10。

此外，该电子装置1的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

该电子装置1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在上述实施例中，处理器12执行存储器11中存储的股指预测程序10时实现如下步骤：

关于上述步骤的详细介绍，请参照下述图2关于股指预测程序10实施例的程序模块图以及图3关于股指预测方法实施例的流程图的说明。

在其他实施例中，所述股指预测程序10可以被分割为多个模块，该多个模块被存储于存储器12中，并由处理器13执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

参照图2所示，为图1中股指预测程序10一实施例的程序模块图。在本实施例中，所述股指预测程序10可以被分割为：样本获取模块110、预处理模块120、模型训练模块130以及预测模块140。其中：

所述样本获取模块110，用于选取预设时间段的n种指数因子的时间序列，获取该预设时间段的每个第一预设时间点的股指收益率，并根据所述n种指数因子的时间序列为每个第一预设时间点构造一个第一n维向量。例如，从预设的数据平台选取近两个月解释沪深300指数走势的13种指数因子的时间序列，根据选取的时间序列为每个第一预设时间点(例如每日开盘时间)构造一个13维向量，获取沪深300股指期货每日收益率作为所述每个第一预设时间点的股指收益率。其中，所述13种指数因子可以是中债企业债到期收益率(AAA)：10年、风险溢价、股息率、慢速KD指标(SlowKD)、平滑异同移动平均线直方图(MovingAverage Convergence and Divergence Histogram，MACD Histogram)、布林线指标(Bollinger Bands)、移动平均线-相对强弱指标(MA of RSI(14)[m＝22])、4-period MAof 4week MA of modified OBV-(MA4*4)、CR指标、大小盘换手率比值、RSRS指标、溢价率、主动买入额等。在其他实施例中，所述指数因子也可以只包括上述指数因子中的一种或几种，还可以为其他影响股指走势的统计数据，在此不再赘述。

所述预处理模块120，用于对所述时间序列的指数因子数据进行预处理，并利用拉格朗日插值法对所述指数因子数据中的缺失值进行修补。所述预处理包括去除噪声，以及利用拉格朗日插值法对数据中的缺失值进行插补调整。例如，在利用指数因子的时间序列构造多维向量时，可能出现指数因子数据获取失败的情况，此时可利用拉格朗日插值法补齐构造多维向量需要的获取失败的指数因子数据。

所述模型训练模块130，用于以所述多个第一预设时间点的第一n维向量及股指收益率为样本数据，利用反向传播算法对预先建立的基于门控循环单元的双循环神经网络模型进行训练，迭代更新模型权重，得到股指预测模型。其中，所述预先建立的基于门控循环单元的双循环神经网络模型包括两个隐含层，所述隐含层用于将所述n维向量抽象为预设维度(例如，二维)的特征向量，每个所述隐含层的神经元个数与所述特征向量的预设维度的数值相等。所述反向传播算法的公式为：

当偏置值达到预设值时，确定模型权重，结束模型训练，得到训练好的股指预测模型。

依上述例子，假设将某日开盘时间的解释沪深300指数走势的13种指数因子构成的13维向量输入所述预先建立的基于门控循环单元的双循环神经网络模型，该模型隐含层的输出结果即为由所述13维向量抽象出的特征向量，该特征向量反映出指数因子数据的深层次特征，利用该特征向量，可以计算得到当日沪深300股指收益率的预测值。在本实施例中，样本获取模块110获取的股指收益率为股指收益率的真实值，股指收益率真实值的计算公式可以为：股指收益率＝(当日收盘价-当日开盘价)/当日开盘价。假设某日股指收益率的预测值为P，该日股指收益率的真实值为T，则整体误差E＝(P-T)^2，将整体误差E与待更新模型权重的偏导值乘以学习速率，得到偏置值，计算待更新模型权重与所述偏置值的差，得到更新后的模型权重，迭代更新模型权重，直到偏置值达到预设值，确定模型权重，得到训练好的股指预测模型。

所述预测模块140，用于采集所述n种指数因子在第二预设时间点的数据，根据采集的数据构造第二预设时间点的第二n维向量，将该第二n维向量输入所述股指预测模型，预测得到该第二预设时间点的股指收益率。例如，采集解释沪深300指数走势的13种指数因子在今日开盘时间点的数据，根据采集的数据构造今日开盘时间点的13维向量，将该13维向量输入所述模型训练模块130训练得到的股指预测模型，预测得到沪深300指数今日的股指收益率。

此外，本发明还提供一种股指预测方法。参照图3所示，为本发明股指预测方法一实施例的流程图。电子装置1的处理器12执行存储器中存储的股指预测程序10时实现股指预测方法的如下步骤：

步骤S300，样本获取模块110选取预设时间段的n种指数因子的时间序列，获取该预设时间段的每个第一预设时间点的股指收益率，并根据所述n种指数因子的时间序列为每个第一预设时间点构造一个第一n维向量。例如，从预设的数据平台选取近两个月的解释沪深300指数走势的多种指数因子的时间序列，根据选取的时间序列为每个第一预设时间点(例如每日开盘时间)构造一个多维向量，获取沪深300股指期货每日收益率作为所述每个第一预设时间点的股指收益率。其中，所述多种指数因子可以包括中债企业债到期收益率(AAA)：10年、风险溢价、股息率、慢速KD指标(SlowKD)、MACD Histogram、溢价率、主动买入额等的一种或多种。其中，通常来说，风险溢价与股息率呈负相关性，当股市的收益率高于债市时，资金将从债市流向股市；反之，当股指收益率低于债市时，资金将从股市流向债市。沪深300股息率与沪深300股指收盘价呈负相关性。当SlowKD<10时，超卖信号出现，沪深300股指可能上升；当SlowKD>10时，超卖信号消失，沪深300股指可能下降。当MACDHistogram由负转正，沪深300股指做多信号出现；MACD由正转负，沪深300股指做空信号出现。溢价率>0，市场乐观；溢价率<0，市场悲观；历史上，溢价率触及5时，为卖出信号；溢价率触及-1时，为买入信号。以上仅为在理论上对部分指数因子做的简单介绍，因为股指走势受投资者的心理影响非常大，所以指数因子与股指之间存在很高的非线性度，用单一的指数因子或结合多种指数因子解释股指走势常常并不具有很强的说服力。本发明选择对基于门控循环单元的双循环神经网络模型进行训练，正是为了从指数因子中提取不易被察觉的更深层次的特征，以此提高股指预测准确度。

步骤S301，模型训练模块120以所述多个第一预设时间点的第一n维向量及股指收益率为样本数据，利用反向传播算法对预先建立的基于门控循环单元的双循环神经网络模型进行训练，迭代更新模型权重，得到股指预测模型。其中，所述预先建立的基于门控循环单元的双循环神经网络模型包括两个隐含层，所述隐含层用于将所述n维向量抽象为预设维度(例如，二维)的特征向量，每个所述隐含层的神经元个数与所述特征向量的预设维度的数值相等。所述反向传播算法的公式为：

其中，a′_k代表更新后的第k个模型权重，a_k代表更新前的第k个模型权重，η代表学习速率，0.1<η<3，代表整体误差E对a_k的偏导值。当偏置值达到预设值时，确定模型权重，结束模型训练，得到股指预测模型。

例如，将某日开盘时间的解释沪深300指数走势的多种指数因子构成的多维向量输入所述预先建立的基于门控循环单元的双循环神经网络模型，该模型隐含层的输出结果即为由所述多维向量抽象出的特征向量，该特征向量反映出指数因子数据的深层次特征，利用该特征向量，可以计算得到当日沪深300股指收益率的预测值。假设某日股指收益率的预测值为P，样本获取模块110获取的该日股指收益率的真实值为T，则所述整体误差E＝(P-T)^2，将整体误差E与待更新模型权重的偏导值乘以学习速率，得到偏置值，计算待更新模型权重与所述偏置值的差，得到更新后的模型权重，迭代更新模型权重，直到偏置值达到预设值，确定模型权重，得到训练好的股指预测模型。

在一个实施例中，输入所述预先建立的基于门控循环单元的双循环神经网络模型的数据包括某日开盘时间的解释沪深300指数走势的多种指数因子构成的多维向量以及前后若干个(通常小于30个)交易日的多维向量，所述隐含层的输出结果为由上述多个多维向量抽象出的特征向量，涵盖了相邻时间点指数因子的数据依赖关系，利用该特征向量得到的仍是当日沪深300股指收益率的预测值，但该预测值考虑到了相邻交易日的指数因子数据对当日股指收益率的影响，往往更加接近当日股指收益率的真实值。

步骤S302，预测模块130采集所述n种指数因子在第二预设时间点的数据，根据采集的数据构造第二预设时间点的第二n维向量，将该第二n维向量输入所述股指预测模型，预测得到该第二预设时间点的股指收益率。

为了体现基于门控循环单元的双循环神经网络模型的优势，在一个实施例中，预测模块130还将采集所述n种指数因子在所述第二预设时间点的若干个(通常小于30个)相邻预设时间点的数据，将由这些数据构造的n维向量一并输入所述股指预测模型，则隐含层输出的所述预设时间点n维向量的特征向量将涵盖相邻预设时间点指数因子的数据依赖关系，将该特征向量作为模型输出层的输入预测得到该第二预设时间点的股指收益率将更加准确。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。

所述计算机可读存储介质中包括股指预测程序，所述股指预测程序被处理器执行时实现如下步骤：

本发明之计算机可读存储介质的具体实施方式与上述股指预测方法和电子装置1的具体实施方式大致相同，请参相关介绍，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质中，包括若干指令用以使得电子装置执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种股指预测方法，应用于电子装置，其特征在于，所述方法包括：

2.如权利要求1所述的股指预测方法，其特征在于，该方法还包括：

3.如权利要求1或2所述的股指预测方法，其特征在于，所述预先建立的基于门控循环单元的双循环神经网络模型包括两个隐含层，所述隐含层用于将所述n维向量抽象为预设维度的特征向量，每个所述隐含层的神经元个数与所述特征向量的预设维度的数值相等。

4.如权利要求1所述的股指预测方法，其特征在于，所述反向传播算法的公式为：

5.如权利要求4所述的股指预测方法，其特征在于，当达到预设值时，确定模型权重，结束所述模型训练步骤，得到所述股指预测模型。

6.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中包括股指预测程序，所述股指预测程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的电子装置，其特征在于，所述股指预测程序被所述处理器执行时实现的步骤还包括：

对所述时间序列的指数因子数据进行预处理，将缺失值用拉格朗日插值法进行修补。

8.如权利要求6或7所述的电子装置，其特征在于，所述预先建立的基于门控循环单元的双循环神经网络模型包括两个隐含层，所述隐含层用于将所述n维向量抽象为预设维度的特征向量，每个所述隐含层的神经元个数与所述特征向量的预设维度的数值相等。

9.如权利要求6所述的电子装置，其特征在于，所述反向传播算法的公式为：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括股指预测程序，所述股指预测程序被处理器执行时实现如权利要求1至5中任一项所述股指预测方法的步骤。