CN108615096A

CN108615096A - 服务器、金融时序数据的处理方法及存储介质

Info

Publication number: CN108615096A
Application number: CN201810441414.6A
Authority: CN
Inventors: 李正洋; 李海疆
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2018-10-02
Also published as: WO2019214143A1; JP2020522774A; JP6812573B2

Abstract

本发明涉及一种服务器、金融时序数据的处理方法及存储介质，该方法包括：设置不同预定时间步长的滑动窗口，利用滑动窗口在不含有缺失值的金融时序数据滑动以获取多个窗口数据，对每一窗口数据进行采样得到样本数据；利用各样本数据分别对预定的循环神经网络模型进行训练，得到训练后的各模型作为预测模型；获取含有缺失值的金融时序数据，获取该金融时序数据中的缺失值的位置及缺失值的位数，根据该缺失值的位置及缺失值的位数截取在该缺失值的位置前方的金融时序数据，以所截取的数据作为待输入数据；将待输入数据输入至各预测模型中，获取各预测模型输出的预测值的平均值作为该缺失值的填充值。本发明能够预测得到准确、客观的缺失值。

Description

服务器、金融时序数据的处理方法及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种服务器、金融时序数据的处理方法及存储介质。

背景技术

金融时序数据具有时间序列的统计特征，具有很多类别，例如，价量的金融时序数据包括：股票、期货、外汇等标的的开盘价、收盘价、最高价、最低价、成交量数据；又如，衍生指标的金融时序数据包括：中债国债到期收益率-中债企业债到期收益率、风险溢价、股息率、CR指标、大小盘换手率比值、RSRS指标、沪深300溢价率、沪深300主动买入额等。在实际情况中，金融时序数据由于各种原因引起数据的缺失，例如：1、上市公司股票停牌导致当日股票开盘价、收盘价、最高价、最低价、成交量等信息丧失；2、在公开平台无法获取相应的金融时序数据；3、在公开平台获取的金融时序数据与实际值存在显著偏差，等。

传统的缺失值处理方法包括人工填写、特殊值填充、均值填充、就近补齐、聚类填充等。但对于金融时序数据而言，由于其在时间上存在依赖关系，传统的简单处理方法得到的缺失值不准确，无法最大程度地模拟真实的金融时序数据的分布，易造成信息损失，影响了后续对金融时序数据的研究。

发明内容

本发明的目的在于提供一种服务器、金融时序数据的处理方法及存储介质，旨在预测得到准确、客观的缺失值。

为实现上述目的，本发明提供一种服务器，所述服务器包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的处理系统，所述处理系统被所述处理器执行时实现如下步骤：

设置不同预定时间步长的滑动窗口，利用所设置的滑动窗口在不含有缺失值的金融时序数据滑动以获取多个窗口数据，对每一窗口数据进行采样得到各预定时间步长对应的样本数据；

利用各预定时间步长对应的样本数据分别对预定的循环神经网络模型进行训练，得到训练后的各预定时间步长对应的模型作为预测模型；

获取含有缺失值的金融时序数据，获取该金融时序数据中的缺失值的位置及缺失值的位数，根据该缺失值的位置及缺失值的位数截取在该缺失值的位置前方的金融时序数据，以所截取的数据作为待输入数据；

将待输入数据输入至各预测模型中，获取各预测模型输出的预测值，获取各预测值的平均值作为该缺失值的填充值。

优选地，所述利用各预定时间步长对应的样本数据分别对预定的循环神经网络模型进行训练，得到训练后的各预定时间步长对应的模型作为预测模型的步骤，具体包括：

将每一种预定时间步长对应的样本数据划分为第一比例的训练集及第二比例的测试集，利用每一种预定时间步长对应的训练集分别对预定的循环神经网络模型进行训练，所述第一比例与第二比例的和小于等于1；

在每一种预定时间步长对应的训练集中抽取预定数量的样本数据作为验证集，利用该验证集对训练中的循环神经网络模型的参数进行测试，在测试误差大于等于预定的误差阈值时，结束训练以得到训练后的循环神经网络模型；

利用测试集对训练后的循环神经网络模型的准确率进行测试；

若该准确率大于等于预定的准确率阈值，则将该训练后的循环神经网络模型作为预测模型；

若该准确率小于预定的准确率阈值，则修改该循环神经网络模型的隐含层结构，并重新进行训练，以得到准确率大于等于预定准确率阈值的预测模型。

优选地，所述根据缺失值的位置及缺失值的位数截取在该缺失值的位置前方的金融时序数据，以所截取的数据作为待输入数据的步骤，具体包括：

根据该缺失值的位数确定截取数据的位数，并截取在该缺失值的位置前方与所确定的位数相同的位数的金融时序数据，以所截取的数据作为待输入数据。

优选地，所述根据缺失值的位置及缺失值的位数截取在该缺失值的位置前方的金融时序数据，以所截取的数据作为待输入数据的步骤，进一步包括：

若缺失值的位数为1位，则确定截取数据的位数为5位、6位或者7位，截取在该缺失值的位置前方的5位、6位或者7位金融时序数据，以所截取的数据作为待输入数据；

若缺失值的位数为2位，则确定截取数据的位数为6位或者7位，截取在该缺失值的位置前方的6位或者7位金融时序数据，以所截取的数据作为待输入数据。

为实现上述目的，本发明还提供一种金融时序数据的处理方法，所述金融时序数据的处理方法包括：

S1，设置不同预定时间步长的滑动窗口，利用所设置的滑动窗口在不含有缺失值的金融时序数据滑动以获取多个窗口数据，对每一窗口数据进行采样得到各预定时间步长对应的样本数据；

S2，利用各预定时间步长对应的样本数据分别对预定的循环神经网络模型进行训练，得到训练后的各预定时间步长对应的模型作为预测模型；

S3，获取含有缺失值的金融时序数据，获取该金融时序数据中的缺失值的位置及缺失值的位数，根据该缺失值的位置及缺失值的位数截取在该缺失值的位置前方的金融时序数据，以所截取的数据作为待输入数据；

S4，将待输入数据输入至各预测模型中，获取各预测模型输出的预测值，获取各预测值的平均值作为该缺失值的填充值。

优选地，所述步骤S2，具体包括：

优选地，所述预定时间步长为6个时间单位、11个时间单位及16个时间单位，所述预定的循环神经网络模型为长短期记忆网络模型与门控循环单元模型组成的混合模型。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有处理系统，所述处理系统被处理器执行时实现上述的金融时序数据的处理方法的步骤。

本发明的有益效果是：本发明对不含有缺失值的金融时序数据，设置不同时间步长的滑动窗口截取数据，再对截取的数据进行采样得到不同时间步长对应的样本数据，分别将样本数据划分训练集及测试集训练预定的循环神经网络模型，得到不同时间步长对应的预测模型；对于含有缺失值的金融时序数据，定位缺失值的位置及确定缺失值的位数，根据该缺失值的位置及缺失值的位数截取在该缺失值的位置前方的金融时序数据，将数据输入至各预测模型中，得到各预测模型输出的预测值，以各预测值的平均值作为该缺失值的填充值，本发明利用循环神经网络模型处理和预测金融时序数据中的缺失值，能够捕捉到金融时序数据前后的依赖关系，缺失值的填充值由多种模型的平均值给出，更加客观、准确，能够最大程度地还原真实的金融时序数据的整体分布。

附图说明

图1为本发明服务器一实施例的硬件架构的示意图；

图2为LSTM模型的结构示意图；

图3为图2所示修改后的LSTM模型的结构示意图；

图4为本发明金融时序数据的处理方法一实施例的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，为本发明服务器一实施例的硬件架构的示意图。服务器1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述服务器1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，服务器1可包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12、网络接口13，存储器11存储有可在处理器12上运行的处理系统。需要指出的是，图1仅示出了具有组件11-13的服务器1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储器11包括内存及至少一种类型的可读存储介质。内存为服务器1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是服务器1的内部存储单元，例如该服务器1的硬盘；在另一些实施例中，该非易失性存储介质也可以是服务器1的外部存储设备，例如服务器1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。本实施例中，存储器11的可读存储介质通常用于存储安装于服务器1的操作系统和各类应用软件，例如存储本发明一实施例中的处理系统的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器1的总体操作，例如执行与所述其他设备进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行处理系统等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述服务器1与其他电子设备之间建立通信连接。本实施例中，网络接口13主要用于将服务器1与一个或多个终端设备2相连，在服务器1与一个或多个终端设备2之间建立数据传输通道和通信连接。

所述处理系统存储在存储器11中，包括至少一个存储在存储器11中的计算机可读指令，该至少一个计算机可读指令可被处理器器12执行，以实现本申请各实施例的方法；以及，该至少一个计算机可读指令依据其各部分所实现的功能不同，可被划为不同的逻辑模块。

在一实施例中，上述处理系统被所述处理器12执行时实现如下步骤：

其中，预定时间步长包括6个时间单位、11个时间单位及16个时间单位，时间单位指的是金融时序数据的粒度单位，例如，以天为粒度的金融时序数据，其时间单位为天；以分钟为粒度的高频金融时序数据，其时间单位为分钟，等。

对于6个时间单位的滑动窗口，对应的窗口数据的位数为6位，采样得到的样本数据的位数为6位；对于11个时间单位的滑动窗口，对应的窗口数据的位数为11位，采样得到的样本数据的位数为6位，例如，采样得到的样本数据为(x1,x3,x5,x7,x9,x11)，即采样窗口数据中的第1、3、5、7、9、11位的数据；对于16个时间单位的滑动窗口，对应的窗口数据的位数为16位，采样得到的样本数据的位数为6位，例如，采样得到的样本数据为(x1,x4,x7,x10,x13,x16)，即采样窗口数据中的第1、4、7、10、13、16位的数据。

其中，设置设置不同预定时间步长的滑动窗口的目的在于在样本数据的长度不变的情况下，扩大所捕获信息的久远度及联系关系。对不含有缺失值的金融时序数据进行采样得到样本数据，利用该样本数据来训练模型，以得到准确度较高的模型。

其中，预定的循环神经网络模型为两个或两个以上的循环神经网络的混合模型，优选地，为长短期记忆网络模型(Long Short-Term Memory，LSTM)与门控循环单元模型(Gated Recurrent Unit，GRU)组成的混合模型，LSTM模型及GRU模型均可用于捕捉时间序列前后的依赖关系。

在一实施例中，该步骤包括：将每一种预定时间步长对应的样本数据划分为第一比例的训练集及第二比例的测试集，利用每一种预定时间步长对应的训练集分别对预定的循环神经网络模型进行训练，所述第一比例与第二比例的和小于等于1；在每一种预定时间步长对应的训练集中抽取预定数量的样本数据作为验证集，利用该验证集对训练中的循环神经网络模型的参数进行测试，在测试误差大于等于预定的误差阈值时，结束训练以得到训练后的循环神经网络模型；利用测试集对训练后的循环神经网络模型的准确率进行测试；若该准确率大于等于预定的准确率阈值，则将该训练后的循环神经网络模型作为预测模型；若该准确率小于预定的准确率阈值，则修改该循环神经网络模型的隐含层结构，并重新进行训练，以得到准确率大于等于预定准确率阈值的预测模型。

其中，由于各预定时间步长对应的样本数据可以视为是独立同分布的，故对于训练集和测试集采取随机随机抽样，训练集所占的比例为70％，测试集所占的比例为30％，例如，训练集包括7万份样本数据，测试集包括3万份样本数据。

优选地，在训练集中，采用交叉验证的方式进行训练，即将训练集中的样本数据分为10份，每次取9份进行训练，取1份样本数据作为验证集，以利用验证集对训练中的循环神经网络模型的参数进行测试。在训练集上进行训练，并且在验证集上获取测试结果，随着训练次数的增加，如果在验证集上发现测试误差上升，即测试误差大于等于预定的误差阈值，则停止训练，以得到训练后的循环神经网络模型作为下述测试集测试的模型，可以有效避免模型的过度拟合。

具体地，利用训练集对LSTM模型进行训练，LSTM模型结构可采用Bi-directionalLSTM结构，训练集的样本数据包括(X1,X2,X3,X4,X5，X6)，如图2所示，(X1,X2,X3,X4,X5)为输入层，A为隐含层，St为输出。其中，隐含层A是LSTM模型的记忆单元，为模型的参数，根据当前输入层的输入和上一步隐含层的输出进行计算得到。在测试集对训练后的LSTM模型的准确率进行测试时，将输出St与样本数据中的X6进行比较，以进行测试，测试结果表明模型对金融时序数据分布的刻画能力。如果LSTM模型的准确率大于等于预定准确率阈值(例如，0.9)，则LSTM模型符合要求，将该训练后的LSTM模型作为预测模型；如果LSTM模型的准确率小于预定准确率阈值，则LSTM模型不符合要求，修改LSTM模型的隐含层结构，如图3所示，本实施例中，将每一个时间点对应输入的样本数据的隐含层由单隐层的形式修改为双隐含层堆叠结构，并重新进行训练，以得到准确率大于等于预定准确率阈值的预测模型。

GRU模型和LSTM模型的结构类似，只是隐含层的结构比LSTM模型复杂。利用上述相同的训练集对GRU模型进行训练，训练GRU模型与训练LSTM模型的过程基本一致，且在训练集抽取部分样本数据作为验证集，可以有效避免模型的过度拟合。在训练后利用测试集对训练后的GRU模型进行测试，以使得GRU模型的准确率大于等于预定的准确率阈值，如果GRU模型的准确率小于该准确率阈值，则考虑修改GRU模型的结构，修改方式与LSTM模型类似。

通过上述的训练及测试过程，拟合得到各预定时间步长对应的LSTM模型+GRU模型组合成的混合模型，作为预测模型。

本实施例中，首先定位缺失值的位置，由于金融时序数据是时序序列，因此可以通过缺失值所在的时间点定位缺失值的位置；然后确定每一处缺失值的位数，例如为1位或2位等。根据将要预测的缺失值的位数，确定输入模型的金融时序数据的位数，截取在缺失值前方的若干位数据，作为待输入数据。

其中，缺失值的位数一般为1位或2位，待输入数据优选为5位、6位或者7位，少于5位和多于7位通常难以取得较好的效果，因为少于5位则捕获的时序信息较少，而多于7位则时序较长，信息偏差较大。优选地，如下表1所示，缺失值的位数与待输入数据的位数的对应关系为：

缺失值的位数	待输入数据的位数
		1	5
1	6
		2	6
1	7
		2	7

表1

在表1中，若缺失值的位数为1位，则确定截取数据的位数为5位、6位或者7位，截取在该缺失值的位置前方的5位、6位或者7位金融时序数据，以所截取的数据作为待输入数据；若缺失值的位数为2位，则确定截取数据的位数为6位或者7位，截取在该缺失值的位置前方的6位或者7位金融时序数据，以所截取的数据作为待输入数据。

本实施例中，将待输入数据分别输入至各GRU模型和LSTM模型组成的混合模型的预测模型中，即分别输入至6个时间单位对应的混合模型、11个时间单位对应的混合模型、16个时间单位对应的混合模型中，获取三个混合模型对应输出的预测值V1、V2、V3，计算该缺失值的填充值V＝(V1+V2+V3)/3，缺失值的位数为2位的也是计算输出的对应位置的预测值的平均值。该缺失值的填充值V能够捕捉到金融时序数据前后的依赖关系，且由三种混合模型的平均值给出，更加客观、准确。

与现有技术相比，本发明对不含有缺失值的金融时序数据，设置不同时间步长的滑动窗口截取数据，再对截取的数据进行采样得到不同时间步长对应的样本数据，分别将样本数据划分训练集及测试集训练预定的循环神经网络模型，得到不同时间步长对应的预测模型；对于含有缺失值的金融时序数据，定位缺失值的位置及确定缺失值的位数，根据该缺失值的位置及缺失值的位数截取在该缺失值的位置前方的金融时序数据，将数据输入至各预测模型中，得到各预测模型输出的预测值，以各预测值的平均值作为该缺失值的填充值，本发明利用循环神经网络模型处理和预测金融时序数据中的缺失值，能够捕捉到金融时序数据前后的依赖关系，缺失值的填充值由多种模型的平均值给出，更加客观、准确，能够最大程度地还原真实的金融时序数据的整体分布。

如图4所示，图4本发明金融时序数据的处理方法一实施例的流程示意图，该金融时序数据的处理方法包括以下步骤：

步骤S1，设置不同预定时间步长的滑动窗口，利用所设置的滑动窗口在不含有缺失值的金融时序数据滑动以获取多个窗口数据，对每一窗口数据进行采样得到各预定时间步长对应的样本数据；

步骤S2，利用各预定时间步长对应的样本数据分别对预定的循环神经网络模型进行训练，得到训练后的各预定时间步长对应的模型作为预测模型；

步骤S3，获取含有缺失值的金融时序数据，获取该金融时序数据中的缺失值的位置及缺失值的位数，根据该缺失值的位置及缺失值的位数截取在该缺失值的位置前方的金融时序数据，以所截取的数据作为待输入数据；

其中，缺失值的位数一般为1位或2位，待输入数据优选为5位、6位或者7位，少于5位和多于7位通常难以取得较好的效果，因为少于5位则捕获的时序信息较少，而多于7位则时序较长，信息偏差较大。优选地，如上述表1所示。

步骤S4，将待输入数据输入至各预测模型中，获取各预测模型输出的预测值，获取各预测值的平均值作为该缺失值的填充值。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种服务器，其特征在于，所述服务器包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的处理系统，所述处理系统被所述处理器执行时实现如下步骤：

2.根据权利要求1所述的服务器，其特征在于，所述利用各预定时间步长对应的样本数据分别对预定的循环神经网络模型进行训练，得到训练后的各预定时间步长对应的模型作为预测模型的步骤，具体包括：

3.根据权利要求1或2所述的服务器，其特征在于，所述根据缺失值的位置及缺失值的位数截取在该缺失值的位置前方的金融时序数据，以所截取的数据作为待输入数据的步骤，具体包括：

4.根据权利要求3所述的服务器，其特征在于，所述根据缺失值的位置及缺失值的位数截取在该缺失值的位置前方的金融时序数据，以所截取的数据作为待输入数据的步骤，进一步包括：

5.一种金融时序数据的处理方法，其特征在于，所述金融时序数据的处理方法包括：

6.根据权利要求5所述的金融时序数据的处理方法，其特征在于，所述步骤S2，具体包括：

7.根据权利要求5或6所述的金融时序数据的处理方法，其特征在于，所述根据缺失值的位置及缺失值的位数截取在该缺失值的位置前方的金融时序数据，以所截取的数据作为待输入数据的步骤，具体包括：

8.根据权利要求7所述的金融时序数据的处理方法，其特征在于，所述根据缺失值的位置及缺失值的位数截取在该缺失值的位置前方的金融时序数据，以所截取的数据作为待输入数据的步骤，进一步包括：

9.根据权利要求5或6所述的金融时序数据的处理方法，其特征在于，所述预定时间步长为6个时间单位、11个时间单位及16个时间单位，所述预定的循环神经网络模型为长短期记忆网络模型与门控循环单元模型组成的混合模型。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有处理系统，所述处理系统被处理器执行时实现如权利要求5至9中任一项所述的金融时序数据的处理方法的步骤。