CN116702991A

CN116702991A - 基于数据拟合模型的数据预测方法、装置、设备及介质

Info

Publication number: CN116702991A
Application number: CN202310722927.5A
Authority: CN
Inventors: 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-05

Abstract

本申请提供一种基于数据拟合模型的数据预测方法、装置、设备及介质，涉及金融科技技术领域。该方法通过数据拟合模型提取目标对象历史时序数据中的均值数据和波动数据，拟合目标对象的时序数据，获得拟合时序数据，从而增强数据预测的可解释性；通过基本因子数据，拟合所述拟合时序数据的拟合残差，获得残差时序数据，即根据影响历史时序数据的基本因子，对数据拟合模型的数据拟合残差进行拟合；通过第一数据合成公式，将拟合时序数据和残差时序数据按照时间序列对应合成，对拟合时序数据进行残差弥补，从而降低数据拟合模型的残差影响，提高数据拟合模型的数据预测准确性。

Description

基于数据拟合模型的数据预测方法、装置、设备及介质

技术领域

本申请涉及金融科技技术领域，尤其涉及一种基于数据拟合模型的数据预测方法、装置、设备及介质。

背景技术

随着互联网科技的发展，在互联网、量化行业，每天都会产生大量的数据，比如金融领域股票价格随时间的走势、电商行业每日的销售额以及旅游行业随着节假日周期变化的机票酒店价格等。这种不同时间收到的、描述一个或多种特征随着时间发生变化的数据，为时间序列数据。

时间序列是一组按照时间发生先后顺序进行排列的数据点序列。时间序列预测就是通过多种维度的数据本身内在与时间的关联特征，利用历史数据预测未来。

时间序列预测模型根据历史时间序列数据对未来数据的推理，实现数据预测，比如对下一期的股票预测，以便用户选择需要购买或者抛售的股票，获得更大的收益；比如节假日期间某个城市/景点的酒店价格变化趋势，便于用户提前预定。

在金融领域，现有的时间序列预测模型主要包括传统的统计模型，如ARIMA(Auto-Regressive Integrated Moving Averages，自回归综合移动平均)模型、ARCH(Autoregressive Conditional Heteroskedasticity Model，自回归条件异方差)模型等，以及利用机器学习和深度学习设计的神经网络模型。根据历史时间序列金融数据，统计模型拟合计算金融数据的走向趋势，进而实现对未来一段时间内的金融数据进行预测。

其中，神经网络模型的预测能力强，但是可解释性比传统模型弱，而传统模型虽然具有良好的理论基础并且可解释性强，但是传统模型的预测能力弱，传统模型只能根据历史数据的部分有效信息进行预测，而传统模型的拟合值与真实数据存在残差，使得传统模型的预测结果准确性低。

因此，如何解决目前传统数据模型的数据预测准确性低下成为亟待解决的技术问题。

发明内容

本申请提供了一种基于数据拟合模型的数据预测方法、装置、设备及存储介质，旨在提高传统数据模型的数据预测准确性。

第一方面，本申请提供一种基于数据拟合模型的数据预测方法，所述方法包括：

获取目标对象的历史时序数据和基本因子数据，其中，所述基本因子数据为影响所述历史时序数据的基本因子的时序数据；

基于数据拟合模型，提取所述历史时序数据中的均值数据和波动数据，并基于所述均值数据和所述波动数据，拟合生成所述目标对象在目标预测时刻的拟合时序数据；

基于所述数据拟合模型和所述基本因子数据，拟合所述数据拟合模型对所述历史时序数据拟合的数据残差，生成残差时序数据；

基于第一数据合成公式，将所述拟合时序数据和所述残差时序数据按照时间序列对应合成，生成所述目标对象在所述目标预测时刻的预测数据。

第二方面，本申请还提供一种基于数据拟合模型的数据预测方法装置，所述基于数据拟合模型的数据预测方法装置包括：

数据获取模块，用于获取目标对象的历史时序数据和基本因子数据，其中，所述基本因子数据为影响所述历史时序数据的基本因子的时序数据；

时序数据拟合模块，用于基于数据拟合模型，提取所述历史时序数据中的均值数据和波动数据，并基于所述均值数据和所述波动数据，拟合生成所述目标对象在目标预测时刻的拟合时序数据；

残差数据拟合模块，用于基于所述数据拟合模型和所述基本因子数据，拟合所述数据拟合模型对所述历史时序数据拟合的数据残差，生成残差时序数据；

数据合成模块，用于基于第一数据合成公式，将所述拟合时序数据和所述残差时序数据按照时间序列对应合成，生成所述目标对象在所述目标预测时刻的预测数据。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的基于数据拟合模型的数据预测方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的基于数据拟合模型的数据预测方法的步骤。

本申请提供一种基于数据拟合模型的数据预测方法、装置、设备及存储介质，本申请方法包括获取目标对象的历史时序数据和基本因子数据，其中，所述基本因子数据为影响所述历史时序数据的基本因子的时序数据；基于数据拟合模型，提取所述历史时序数据中的均值数据和波动数据，并基于所述均值数据和所述波动数据，拟合生成所述目标对象在目标预测时刻的拟合时序数据；基于所述数据拟合模型和所述基本因子数据，拟合所述数据拟合模型对所述历史时序数据拟合的数据残差，生成残差时序数据；基于第一数据合成公式，将所述拟合时序数据和所述残差时序数据按照时间序列对应合成，生成所述目标对象在所述目标预测时刻的预测数据。通过上述方式，通过数据拟合模型提取目标对象历史时序数据中的均值数据和波动数据，拟合目标对象的时序数据，获得拟合时序数据，从而增强数据预测的可解释性；通过基本因子数据，拟合所述拟合时序数据的拟合残差，获得残差时序数据，即根据影响历史时序数据的基本因子，对数据拟合模型的数据拟合残差进行拟合；通过第一数据合成公式，将拟合时序数据和残差时序数据按照时间序列对应合成，对拟合时序数据进行残差弥补，从而降低数据拟合模型的残差影响，提高数据拟合模型的数据预测准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的实施例提供的一种基于数据拟合模型的数据预测系统；

图2为本申请提供的一种基于数据拟合模型的数据预测方法第一实施例的流程示意图；

图3为本申请实施例提供的一种LSTM模型的结构示意图；

图4为本申请提供的基于数据拟合模型的数据预测方法第二实施例的流程示意图；

图5是本申请提供的一种基于数据拟合模型的数据预测装置第一实施例的结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本申请的实施例提供了一种基于数据拟合模型的数据预测方法、装置、设备及存储介质，用于通过数据拟合模型提取目标对象历史时序数据中的均值数据和波动数据，拟合目标对象的拟合时序数据，通过基本因子数据，拟合所述拟合时序数据的拟合残差，通过第一数据合成公式，将拟合时序数据和残差时序数据按照时间序列对应合成，对拟合时序数据进行残差弥补，从而降低数据拟合模型的残差影响，提高数据拟合模型的数据预测准确性。

如图1所示，图1为本申请的实施例提供的一种基于数据拟合模型的数据预测系统，该系统包括终端、服务器，所述终端和所述服务器通信连接，所述服务器与目标对象的资产数据库通信连接。

其中，所述终端包括手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。

其中，所述服务器包括独立一台服务器，或者服务器集群。

以下，将基于该基于数据拟合模型的数据预测系统对本申请的实施例提供的基于数据拟合模型的数据预测方法进行详细介绍。

请参照图2，图2为本申请提供的一种基于数据拟合模型的数据预测方法第一实施例的流程示意图。该基于数据拟合模型的数据预测方法可以用于基于数据拟合模型的数据预测系统的服务器中。

如图2所示，该基于数据拟合模型的数据预测方法包括步骤S101至步骤S103。

步骤S101、获取目标对象的历史时序数据和基本因子数据，其中，所述基本因子数据为影响所述历史时序数据的基本因子的时序数据；

在一实施例中，时间序列是一组按照时间发生先后顺序进行排列的数据点序列。比如CPU负载、上证指数、商场每天的人流量、商品每日价格、每天的天气数据等。通常一组时间序列的时间间隔可以为一恒定值(如1秒，5分钟，12小时，7天，1年)，因此时间序列可以作为离散时间数据进行分析处理。

可以理解的是，时间序列分析是使用统计的手段对目标变量时间序列的历史进行分析，依次对该变量的变化特性建模、并对未来进行预测，即时间序列分析通过研究过去来预测未来。

在一具体实施例中，目标对象可以是股票、电商产品，或者是机票、酒店，还可以是天气数据等，历史时序数据可以是股票的历史收益率时序数据、电商产品的历史销售额时序数据、机票的历史价格时序数据或者是酒店房间的历史价格时序数据等。

在一具体实施例中，基本因子可以包括历史时间段内的最大数据、最小数据、平均数据以及数据总量等。比如可以是股票上一期的开盘价、最高价、最低价、闭盘价和成交量等；或者是电商产品历史销售额的最大销售额、最小销售额、总销售额、销售量等；也可以是机票或者酒店房间的最高价、最低价、销售量等。

步骤S102、基于数据拟合模型，提取所述历史时序数据中的均值数据和波动数据，并基于所述均值数据和所述波动数据，拟合生成所述目标对象在目标预测时刻的拟合时序数据；

在一实施例中，所述基于数据拟合模型可以是ARMA-EGARCH-LSTM预测模型，所述ARMA-EGARCH-LSTM预测模型包括自回归滑动平均-指数条件异方差ARMA-EGARCH拟合模型和长短时记忆网络LSTM拟合模型。

在一实施例中，所述ARMA-EGARCH拟合模型包括自回归滑动平均ARMA模型和指数条件异方差EGARCH模型。

在一实施例中，ARMA-EGARCH拟合模型通过统计手段对目标对象的历史时间序列数据建模，以此推断序列中不同时间的历史数据之间有无关联特征，从而预测未来的时序数据。

ARMA-EGARCH模型主要利用自回归滑动平均ARMA模型拟合历史时序数据的均值，利用指数条件异方差EGARCH模型拟合历史时序数据的波动率，根据均值和波动率拟合真实时序数据；利用长短期记忆网络LSTM模型结合除历史时序数据外的基本因子来拟合ARMA-EGACH模型的残差即模型的拟合值同真实值的差。

其中，ARMA-EGARCH拟合模型是利用统计建模来识别时间序列中潜在的趋势、季节变化和序列相关性，以实现预测未来和序列模拟的目的。

在一具体实施例中，向ARMA模型输入历史时序数据，对历史时序数据进行均值拟合，比如输入酒店前三年每个类型的房间价格的历史时序数据，ARMA模型可以拟合酒店在历史三年中不同类型房间每一天的历史均价。然后EGARCH模型计算不同类型房间每一个房间每一天的实际价格与历史均价的波动值，进而计算出波动率。根据不同类型房间的每一天的房价波动率，对历史均值进行修正，即可拟合得到各类型房间每一天的拟合时序数据。因为酒店价格受季节和地区影响较大，房间价格根据实际情况实时调整，可能存在个别时间段房间价格很高，或者个别时间段房间价格很低，导致同一类型的房间差价较大，从而使得计算结果存在残差。此时，提取其中的基本因子，比如最高房间价格、最低房间价格，通过LSTM模型对基本因子数据进行差分计算，从而输出每个房间每一天的残差数据。最后通过残差数据对拟合时序数据进行修正，使得拟合时序数据更准确。

在一实施例中，时间序列数据可以分解为三部分：趋势项、季节项和残差项，一般包括乘性分解与加性分解，其中，乘性分解即为时间序列＝趋势项*季节项*残差项，加性分解即时间序列＝趋势项+季节项+残差项。

在一实施例中，如果季节性波动的幅度或者趋势周期项的波动不随时间序列水平的变化而变化，那么加法模型是最为合适的。当季节项或趋势周期项的变化与时间序列的水平成比例时，则乘法模型更为合适。

步骤S103、基于所述数据拟合模型和所述基本因子数据，拟合所述数据拟合模型对所述历史时序数据拟合的数据残差，生成残差时序数据；

在一实施例中，利用ARMA-EGARCH模型能够提取出历史时序数据的有效信息，而它的拟合值同真实时序数据的差即残差可以视为无法用历史时序数据解释的部分，该部分由LSTM模型结合基本因子即别的影响目标对象历史时序数据的因素来拟合。

比如，历史时序数据中的绝大部分时序数据都遵循相同且连续的趋势，只有个别数据产生无法预测的跳动变化，如某只股票始终保持在一个恒定的范围内上下跳动，但是某一个时序数据发生突变，跳变范围超过了该恒定的范围，此时，因为股票每一期的时序数据的数据量很大，该个别数据对整个时序数据的计算结果影响很小，而用整个历史时序数据计算得到的均值无法体现和解释该个别数据的跳变趋势，所以需要通过残差拟合的方式进行计算，其主要对于残差较大的个别数据进行修正。

LSTM模型，即长短时记忆网络，是一种是为了解决RNN模型梯度弥散的问题而提出的改进之后的循环神经网络，可以解决RNN无法处理长距离的依赖的问题。LSTM的细胞状态由两种激活函数构成，分别组成遗忘门、输入门和输出门。LSTM一种基于神经网络的自回归模型，它的特点是具有时间循环结构，可以很好地刻画具有时空关联的序列数据。

请参照图3，图3为本申请实施例提供的一种LSTM模型的结构示意图。

如图3所示，长短时记忆网络(Long Short Term Memory，简称LSTM)模型，本质上是一种特定形式的循环神经网络(Recurrent Neural Network，简称RNN)。LSTM模型在RNN模型的基础上通过增加门限(Gates)来解决RNN短期记忆的问题，使得循环神经网络能够真正有效地利用长距离的时序信息。LSTM在RNN的基础结构上增加了输入门限(Input Gate)、输出门限(Output Gate)、遗忘门限(Forget Gate)等3个逻辑控制单元，且各自连接到了一个乘法元件上，通过设定神经网络的记忆单元与其他部分连接的边缘处的权值控制信息流的输入、输出以及细胞单元(Memory cell)的状态。

其中，Input Gate用于控制信息是否流入Memory cell中；Forget Gate用于控制上一时刻Memory cell中的信息是否积累到当前时刻Memory cell中；Output Gate用于控制当前时刻Memory cell中的信息是否流入当前隐藏状态中；cell为记忆单元，表示神经元状态的记忆，使得LSTM单元有保存、读取、重置和更新长距离历史信息的能力。

在一实施例中，基于所述LSTM拟合模型，对所述基本因子数据进行一阶差分运算，获得所述基本因子数据的平稳序列，作为所述残差序列数据。

在一具体实施例中，基本因子可以包括历史时间段内的最大数据、最小数据、平均数据以及数据总量等。

在一具体实施例中，在量化选股领域，在对目标股票进行时间序列预测时，可以将目标股票历史时间序列中的开盘价open、最高价high、最低价low、闭盘价close、成交量vloume作为解释ARMA-EGARCH拟合模型残差序列的基本因子，那么LSTM拟合模型需要能够将这些基本因子表达为残差序列{Res_t}。

在一具体实施例中，所述LSTM拟合模型对所述基本因子数据中的所述开盘价、所述最高价、所述最低价以及所述闭盘价进行一阶差分运算，且对所述成交量进行标准化运算，获得各所述基本因子数据的平稳序列，作为所述残差序列数据；

其中，对所述成交量标准化运算的数学表达式为：

其中，Vloume表示所述成交量，mean表示Vloume_t在窗口期内的平均值，std表示Vloume_t在窗口期内的标准差；

所述LSTM拟合模型计算所述残差序列数据的数学表达式为：

其中，所述Res_t表示所述残差序列数据，表示一阶差分运算符，Open表示所述开盘价，Close表示所述闭盘价，High表示所述最高价，Low表示所述最低价。

在一具体实施例中，输入股票每一期的开盘价、最高价、最低价和闭盘价，然后上述数据进行一阶差分，以及通过成交量标准化运算公式对成交量进行计算，继而根据各数据一阶差分结果计算股票每一期的残差序列数据。

在一实施例中，时序建模首先要保证序列是平稳的，所以需要将基本因子数据进行一阶差分使其变成平稳序列。

差分法是一种转换时间序列数据集的方法，它可用于消除序列对时间的依赖性，即所谓的时间依赖性，包括趋势和季节性等结构。简单说就是在一系列数据中，相邻两个相减得到相邻两个值的变化量。在进行数据分析的过程中，只对差分之后的结果进行分析，只分析连续数据间的变化情况，而忽略了数据本身的累加形成的趋势性或者季节性。

步骤S104、基于第一数据合成公式，将所述拟合时序数据和所述残差时序数据按照时间序列对应合成，生成所述目标对象在所述目标预测时刻的预测数据。

其中，第一数据合成公式为拟合时序数据和残差时序数据的求和公式，将对应同一时刻的拟合时序数据和残差时序数据进行求和即可生成该时刻的预测数据。

在一实施例中，ARMA-EGARCH拟合模型可以利用历史时序数据进行收益率的预测，但是类似成交量、公司财务数据等基本因子所包含的信息都没有参与序列的预测中，而收益率很显然与这些基本因子有关，所以只是利用历史时序数据预测得到的拟合时间序列数据与真实时间序列数据存在残差，而影响收益率序列的基本因子数据可以用于对该部分残差进行解释，所以通过LSTM拟合模型根据基本因子数据进行残差拟合得到的残差序列数据，通过第一数据合成公式，将拟合时序数据和残差时序数据按照时间序列对应合成，可以对ARMA-EGARCH拟合模型根据历史时序数据拟合得到的拟合时间序列数据进行补充，从而使得模型对于目标对象的未来预测结果更加准确。

本实施例提供了一种基于数据拟合模型的数据预测方法，本申请方法通过数据拟合模型提取目标对象历史时序数据中的均值数据和波动数据，拟合目标对象的时序数据，获得拟合时序数据，从而增强数据预测的可解释性；通过基本因子数据，拟合所述拟合时序数据的拟合残差，获得残差时序数据，即根据影响历史时序数据的基本因子，对数据拟合模型的数据拟合残差进行拟合；通过第一数据合成公式，将拟合时序数据和残差时序数据按照时间序列对应合成，对拟合时序数据进行残差弥补，从而降低数据拟合模型的残差影响，提高数据拟合模型的数据预测准确性。

请参照图4，图4为本申请提供的基于数据拟合模型的数据预测方法第二实施例的流程示意图。

本实施例中，如图4所示，基于上述图2所示实施例，所述步骤S102，包括：

步骤S201、基于所述ARMA模型，拟合所述历史时序数据中的所述均值数据，获得均值时序数据；

自回归滑动平均模型(简称：ARMA模型)，是研究时间序列的重要方法，由自回归模型(简称AR模型)与移动平均模型(简称MA模型)为基础“混合”构成。

在一实施例中，ARMA模型主要用来拟合平稳时间序列，通过实证检验收益率序列{r_t}基本上满足平稳性的要求。一个ARMA(p，q)模型具有如下结构：

练时需要估计的系数。p，q是模型的阶数，可以人为设定，也可以借助最小信息量准则进行确定，合适的阶数能够充分提取序列中的有效信息。

其中，如果检验结果表示收益率序列是白噪声序列，则表示收益率序列满足平稳性要求，具备分析价值，可以用于数据预测的依据；反之，则表示该收益率序列不具备分析价值，无法用于数据预测。

在一实施例中，对于ARMA模型的定阶，最常用的方法是借助最小信息量准则进行阶数的确定。最小信息量准则从衡量拟合程度的似然函数值以及模型未知参数的个数两方面考量拟合模型的好坏；似然函数值越大说明模型拟合的效果越好。模型中未知参数个数越多，说明模型中包含的自变量越多；自变量越多，模型变化越灵活，模型拟合的准确度就会越高。

在一实施例中，时间序列预测是利用统计建模来识别历史时间序列中潜在的趋势、季节变化和序列相关性。对自相关建模并加以利用能够大幅提高数据预测的准确性。

步骤S202、基于所述EGARCH模型，拟合所述历史时序数据和所述均值时序数据的波动数据，获得波动时序数据；

EGARCH模型属于GARCH族模型，该类模型主要是为了刻画资产波动率的聚集现象、杠杆效应等特征。EGARCH模型相比普通的GARCH模型模型允许正负资产收益率对波动率有不对称的影响，因此更适合拟合杠杆效应比较明显的资产，如股票。

进一步地，所述EGARCH模型的数学表达式为：

其中，a_t为t时刻EGARCH模型拟合的ARMA模型的残差，为t时刻资产波动率，E(·)表示数学期望(均值)，{ε_t}为零均值单位方差的独立同分布白噪声序列，模型中α_i,γ_i,β_j是模型系数。m，s为EGARCH模型的阶数，可以采用m＝1，s＝1。

在一具体实施例中，向EGARCH输入历史时序数据的均值序列，比如酒店房间价格均值，股票收益率均值，同时输入通过ARMA模型计算得到的白噪声序列，计算得到波动率，然后根据白噪声时序数据和计算得到的波动率，计算得到拟合残差时序数据。

波动率一般不可被直接观测，但在历史时间序列中可以看到波动率的特征：首先，在历史时间序列中存在波动率聚集，即波动率可能在一段时间内表现为高，而在另一段时间内表现为低；其次，波动率以连续方式随时间变化，很少出现跳跃变化；再次，波动率在固定范围内变化，即波动率是平稳的；最后，波动率对数据大幅上升和数据大幅下降的反映不同，这种现象叫做杠杆效应。

可以理解地是，ARMA模型能够充分提取序列中的有效信息，其残差序列应该近似的为白噪声。对于白噪声的定义可以理解为：对于一个时间序列{ω_t：t＝1,2,…,n，如果时间序列的成分ω_t满足均值为0，方差且对于任意的k≥1，自相关系数ρ_k均为0，则称该时间序列为一个离散的白噪声。

步骤S203、基于第二数据合成公式，将所述均值时序数据和所述波动时序数据按照时间序列对应合成，生成所述拟合时序数据。

进一步地，基于所述第二数据合成公式，将对应同一数据采集时刻的所述均值时序数据和所述波动时序数据进行求和，获得至少一个数据采集时刻的所述拟合数据；基于各所述数据采集时刻对应的所述拟合数据，生成所述拟合时序数据。

其中，所述第二数据合成公式的数学表达式为：

r_t＝μ_t+a_t

其中，所述r_t表示t时刻拟合的历史时序数据，μ_t表示t时刻由所述ARMA拟合的所述历史时序数据均值，a_t为t时刻所述EGARCH模型拟合的所述ARMA模型的所述拟合残差数据。

比如，输入某一个产品销售价格历史三个月每一天的历史时序数据以及基本因子数据，通过ARMA模型对历史时序数据进行均值拟合，即依次计算对应一天中同一时刻的多个价格数据的均值，得到历史时序数据均值，然后对基本因子数据进行残差数据拟合，得到拟合残差数据，通过将对应一天中同一时刻的时序数据均值和拟合残差数据求和，得到该时刻的拟合数据，依次进行一天中每一个时刻的均值和残差的求和计算，最终输出该产品一天中销售价格的拟合时序数据。

可以理解地是，ARMA模型主要用来拟合平稳时间序列，通过实证检验收益率序列{r_t}基本上满足平稳性的要求，EGARCH模型主要是为了刻画时序数据波动率的聚集现象、杠杆效应等特征。

ARMA-EGARCH拟合模型分别通过ARMA模型和EGARCH模型拟合历史时序数据中的数据均值和波动率，波动率会影响模型预测的准确度，而时间序列中一般会隐含波动率，但是不能实际查看，隐含波动率会导致ARMA模型拟合的历史时间序列数据与真实时间序列数据之间存在残差，而EGARCH模型则可以估算出历史时间序列数据中的波动率，从而对残差序列进行解释，提高历史时间序列数据的拟合准确度。

进一步地，基于上述图2所示实施例，所述步骤S104之后，具体还包括：

基于所述数据拟合模型，计算预测对象池中至少一个目标对象在所述目标预测时刻的预测数据；

基于对各所述目标对象对应的所述预测数据的排序，确定各所述目标对象的预测数据排序列表；

基于所述预测数据排序列表，确定所述预测对象池中各目标对象中的目标可用对象和目标不可用对象。

可以理解的是，时间序列预测即是根据目标对象的历史时序数据进行数据拟合，从而预测目标对象在未来某一时刻或者某一段时间内的数据走向，从而根据预测结果制定对应的策略，从而达到规避风险、扩大收益的目的。

在一实施例中，时间序列预测可以应用在多种领域或场景中，例如货币投资、预测销售额、呼叫中心的呼叫量预测、太阳活动、潮汐现象、股价走势等。

在一具体实施例中，在货币投资领域，比如加密货币是一种剧烈波动的货币，投资加密货币是不是安全的？如何能够确定现在投资这些货币能在未来赚到足够的收益？此时，可以根据当前的价格，通过数据拟合模型预测一个未来价格的近似值，从而达到更好的投资回报率。

在一具体实施例中，在酒店管理领域，如果酒店经理希望通过预测未来一年间夜量来对未来酒店库存和定价策略做事先的规划并对未来的酒店收入有一定预期，此时，可以利用过去1年、1月的数据，通过数据拟合模型预测未来的间夜量，预测的结果可以帮助制定管理酒店的策略。

在一具体实施例中，在股票投资领域，可以通过数据拟合模型预测股票池中各股票的未来走向趋势，从而根据预测结果构建投资组合的策略，以取得最好的收益，比方对预测对象池(股票池)中每一个目标对象都建立数据拟合模型，利用该模型预测股票池中所有的目标对象下一期的收益率值并排序，可以选择排序列表中收益率前20％股票多头，后20％股票做空头，即收益率前20％的目标对象作为可用对象买入，收益率后20％的目标对象作为不可用对象而卖出。

其中，多头和空头，属于交易术语，多头，指买方，也就是看好某个股票(或者证券)未来走势，买入或者持有该股票，称为多头；空头，就是对某个股票未来行情走势看跌，卖出或者不看好该股票，称为空头。

请参阅图5，图5是本申请提供的一种基于数据拟合模型的数据预测装置第一实施例的结构示意图，该基于数据拟合模型的数据预测装置用于执行前述的基于数据拟合模型的数据预测方法。其中，该基于数据拟合模型的数据预测装置可以配置于服务器中。

如图5所示，该基于数据拟合模型的数据预测装置300，包括：数据获取模块301、时序数据拟合模块302、残差数据拟合模块303和数据合成模块304。

数据获取模块301，用于获取目标对象的历史时序数据和基本因子数据，其中，所述基本因子数据为影响所述历史时序数据的基本因子的时序数据；

时序数据拟合模块302，用于基于数据拟合模型，提取所述历史时序数据中的均值数据和波动数据，并基于所述均值数据和所述波动数据，拟合生成所述目标对象在目标预测时刻的拟合时序数据；

残差数据拟合模块303，用于基于所述数据拟合模型和所述基本因子数据，拟合所述数据拟合模型对所述历史时序数据拟合的数据残差，生成残差时序数据；

数据合成模块304，用于基于第一数据合成公式，将所述拟合时序数据和所述残差时序数据按照时间序列对应合成，生成所述目标对象在所述目标预测时刻的预测数据。

在一实施例中，所述数据拟合模型包括自回归滑动平均-指数条件异方差ARMA-EGARCH拟合模型和长短时记忆网络LSTM拟合模型；其中，所述ARMA-EGARCH拟合模型包括自回归滑动平均ARMA模型和指数条件异方差EGARCH模型。

在一实施例中，所述时序数据拟合模块302，还用于基于所述ARMA模型，拟合所述历史时序数据中的所述均值数据，获得均值时序数据；基于所述EGARCH模型，拟合所述历史时序数据和所述均值时序数据的波动数据，获得波动时序数据；基于第二数据合成公式，将所述均值时序数据和所述波动时序数据按照时间序列对应合成，生成所述拟合时序数据。

在一实施例中，所述时序数据拟合模块302，还用于基于所述第二数据合成公式，将对应同一数据采集时刻的所述均值时序数据和所述波动时序数据进行求和，获得至少一个数据采集时刻的所述拟合数据；基于各所述数据采集时刻对应的所述拟合数据，生成所述拟合时序数据；

其中，所述第二数据合成公式的数学表达式为：

r_t＝μ_t+a_t

其中，所述r_t表示t时刻的拟合数据，μ_t表示t时刻由所述ARMA拟合的均值数据，a_t为t时刻所述EGARCH模型拟合的波动数据。

在一实施例中，所述EGARCH模型的数学表达式为：

其中，a_t为t时刻所述EGARCH模型拟合的波动数据，为t时刻的波动率，E(·)表示数学期望，{ε_t}为零均值单位方差的独立同分布白噪声序列，α_i、γ_i、β_j为模型系数，m、s为所述EGARCH模型的阶数。

在一实施例中，所述残差数据拟合模块303，还用于基于所述LSTM拟合模型，对所述基本因子数据进行一阶差分运算，获得所述基本因子数据的平稳序列，作为所述残差序列数据。

在一实施例中，所述基于数据拟合模型的数据预测装置300，还包括目标对象筛选模块，用于基于所述数据拟合模型，计算预测对象池中至少一个目标对象在所述目标预测时刻的预测数据；基于对各所述目标对象对应的所述预测数据的排序，确定各所述目标对象的预测数据排序列表；基于所述预测数据排序列表，确定所述预测对象池中各目标对象中的目标可用对象和目标不可用对象。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块的具体工作过程，可以参考前述基于数据拟合模型的数据预测方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器。

参阅图6，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种基于数据拟合模型的数据预测方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种基于数据拟合模型的数据预测方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一实施例中，所述数据拟合模型包括自回归滑动平均-指数条件异方差ARMA-EGARCH拟合模型和长短时记忆网络LSTM拟合模型；

其中，所述ARMA-EGARCH拟合模型包括自回归滑动平均ARMA模型和指数条件异方差EGARCH模型。

在一实施例中，所述处理器在实现所述基于数据拟合模型，提取所述历史时序数据中的均值数据和波动数据，并基于所述均值数据和所述波动数据，拟合生成所述目标对象在目标预测时刻的拟合时序数据时，用于实现：

基于所述ARMA模型，拟合所述历史时序数据中的所述均值数据，获得均值时序数据；

基于所述EGARCH模型，拟合所述历史时序数据和所述均值时序数据的波动数据，获得波动时序数据；

基于第二数据合成公式，将所述均值时序数据和所述波动时序数据按照时间序列对应合成，生成所述拟合时序数据。

在一实施例中，所述处理器在实现所述基于第二数据合成公式，将所述均值时序数据和所述波动时序数据按照时间序列对应合成，生成所述拟合时序数据时，用于实现：

基于所述第二数据合成公式，将对应同一数据采集时刻的所述均值时序数据和所述波动时序数据进行求和，获得至少一个数据采集时刻的所述拟合数据；

基于各所述数据采集时刻对应的所述拟合数据，生成所述拟合时序数据；

其中，所述第二数据合成公式的数学表达式为：

r_t＝μ_t+a_t

在一实施例中，所述EGARCH模型的数学表达式为：

在一实施例中，所述处理器在实现所述基于所述数据拟合模型和所述基本因子数据，拟合所述数据拟合模型对所述历史时序数据拟合的数据残差，生成残差时序数据时，用于实现：

基于所述LSTM拟合模型，对所述基本因子数据进行一阶差分运算，获得所述基本因子数据的平稳序列，作为所述残差序列数据。

在一实施例中，所述处理器在实现所述基于第一数据合成公式，将所述拟合时序数据和所述残差时序数据按照时间序列对应合成，生成所述目标对象在所述目标预测时刻的预测数据之后，还用于实现：

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一种基于数据拟合模型的数据预测方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于数据拟合模型的数据预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于数据拟合模型的数据预测方法，其特征在于，所述数据拟合模型包括自回归滑动平均-指数条件异方差ARMA-EGARCH拟合模型和长短时记忆网络LSTM拟合模型；

3.根据权利要求2所述的基于数据拟合模型的数据预测方法，其特征在于，所述基于数据拟合模型，提取所述历史时序数据中的均值数据和波动数据，并基于所述均值数据和所述波动数据，拟合生成所述目标对象在目标预测时刻的拟合时序数据，包括：

4.根据权利要求3所述的基于数据拟合模型的数据预测方法，其特征在于，所述基于第二数据合成公式，将所述均值时序数据和所述波动时序数据按照时间序列对应合成，生成所述拟合时序数据，包括：

其中，所述第二数据合成公式的数学表达式为：

r_t＝μ_t+a_t

5.根据权利要求3所述的基于数据拟合模型的数据预测方法，其特征在于，所述EGARCH模型的数学表达式为：

6.根据所述权利要求2所述的基于数据拟合模型的数据预测方法，其特征在于，所述基于所述数据拟合模型和所述基本因子数据，拟合所述数据拟合模型对所述历史时序数据拟合的数据残差，生成残差时序数据，包括：

7.根据权利要求1-6中任一项所述的基于数据拟合模型的数据预测方法，其特征在于，所述基于第一数据合成公式，将所述拟合时序数据和所述残差时序数据按照时间序列对应合成，生成所述目标对象在所述目标预测时刻的预测数据之后，还包括：

8.一种基于数据拟合模型的数据预测方法装置，其特征在于，所述基于数据拟合模型的数据预测方法装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的基于数据拟合模型的数据预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的基于数据拟合模型的数据预测方法的步骤。