CN109800483A

CN109800483A - 一种预测方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN109800483A
Application number: CN201811647879.3A
Authority: CN
Inventors: 张昕; 战泓升; 龚诚
Original assignee: Beijing City Network Neighbor Technology Co Ltd
Current assignee: Beijing Urban Network Neighbor Information Technology Co Ltd; Beijing City Network Neighbor Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-24

Abstract

本发明提供了一种预测方法和装置，涉及计算机技术领域。所述方法包括：确定待预测时间；根据所述待预测时间，获取距所述待预测时间之前第一时间段内的目标历史时间序列数据；根据所述目标历史时间序列数据，提取目标特征；所述目标特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；根据所述目标特征，利用预设的目标预测模型，确定与所述待预测时间对应的预测结果。本发明实施例结合了时间序列和机器学习模型，能够结合目标历史时间序列数据中的时间因素之外外界因素特征进行预测，提高预测准确性，也能提高对不平稳的时间序列的预测的准确性。

Description

一种预测方法、装置、电子设备和计算机可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种预测方法、装置、电子设备和计算机可读存储介质。

背景技术

时间序列是按时间顺序排列的一组数字序列，该序列中每个时间以及对应的数值构成该序列的一个元素。时间序列分析就是利用这组数列，应用数理统计方法加以处理，以预测未来事物的发展。

传统的时间序列预测方法是根据源历史时间序列数据的变化趋势预测未来的发展，它将时间序列分解成趋势项、季节项和随机项的和，其中随机项一般是平稳序列。常用的预测方法包括ARIMA、指数平滑算法等。

发明人在对现有技术进行应用的过程中发现，目前的时间序列预测方法存在如下缺陷：(1)要求待预测的时间序列必须满足平稳，或者差分后平稳的条件，在时间序列中数据的变化幅度较大时，预测结果会很差；(2)目前的时间序列预测方法只考虑时间因素，但在很多外界因素影响比较大的应用场景中，如果也只考虑时间因素，预测结果也会很差。

发明内容

本发明实施例提供一种预测方法、装置、电子设备及计算机可读存储介质，以解决现有的时间序列预测方法无法针对数据变化幅度较大的时间序列和受外界影响较大的时间序列进行较为准确的预测的问题。

为了解决上述技术问题，本发明是这样实现的：

根据本发明实施例的第一方面，本发明实施例提供了一种预测方法，其特征在于，所述方法包括：

确定待预测时间；

根据所述待预测时间，获取距所述待预测时间之前第一时间段内的目标历史时间序列数据；

根据所述目标历史时间序列数据，提取目标特征；所述目标特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；

根据所述目标特征，利用预设的目标预测模型，确定与所述待预测时间对应的预测结果。

可选地，在获取目标历史时间序列数据的步骤之前，还包括：

获取第一源历史时间序列数据；

将所述第一源历史时间序列数据划分为多个样本时间序列数据；

根据所述样本时间序列数据，提取对应的样本特征和实际值；所述样本特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；

根据所述样本特征和所述实际值，对初始的机器学习模型进行训练，获得所述目标预测模型。

可选地，所述根据所述样本特征和所述实际值，对初始的机器学习模型进行训练，获得所述目标预测模型的步骤，包括：

根据所述样本特征和所述实际值，对至少两类初始机器学习模型进行训练，获得至少两个第一预测模型；

利用预设的测试时间序列数据集，对所述至少两个第一预测模型进行测试，获得至少两组测试结果；

从所述至少两组测试结果中，选择所述测试结果符合预设条件的第一预测模型作为所述目标预测模型。

可选地，所述从所述至少两组测试结果中，选择所述测试结果符合预设条件的第一预测模型作为所述目标预测模型的步骤，包括：

将所述至少两组测试结果分别与测试时间序列数据集中的实际值进行比较，获得至少两组误差值；

将误差值最小第一预测模型，确定为目标预测模型。

可选地，所述获取第一源历史时间序列数据的步骤之后，还包括：

对所述第一源历史时间序列数据中的异常数据进行清洗。

可选地，所述对所述第一源历史时间序列数据中的异常数据进行清洗的步骤，包括：

利用预设异常检测模型，对所述第一源历史时间序列数据的异常数据进行初次清洗；

利用拉依达规则，对初次清洗后的第一源历史时间序列数据进行再次清洗。

可选地，所述第一源历史时间序列数据的时间单位为第一时间单位，所述样本时间序列数据的时间单位为第二时间单位，所述第二时间单位大于第一时间单位；所述将所述第一源历史时间序列数据划分为多个样本时间序列数据的步骤，包括：

将所述第一源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为样本时间序列数据。

可选地，所述将所述第一源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为样本时间序列数据的步骤，包括：

按照第二时间单位的时间类别，将所述第一源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述时间类别的样本时间序列数据。

可选地，所述待预测时间包括第一时间单位的时间以及第二时间单位的时间，所述第二时间单位大于第一时间单位；所述根据所述待预测时间，获取距所述待预测时间之前第一时间段内的目标历史时间序列数据的步骤，包括：

获取距离所述待预测时间之前第一时间段内的第二源历史时间序列数据；所述第二源历史时间序列数据的时间单位为第一时间单位；

将所述第二源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述目标历史时间序列数据。

可选地，所述将所述第二源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述目标历史时间序列数据的步骤，包括：

按照所述待预测时间对应的第二时间单位的时间类别，将所述第二源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述时间类别的目标历史时间序列数据。

获取所述第二源历史时间序列数据中，距离所述待预测时间最近的多个第二时间单位的数据；所述多个第二时间单位的数据之间的相似度大于预设相似度阈值；

从所述多个第二时间单位的数据中，选择同一时刻的第一时间单位的数据，组合为所述时间类别的目标历史时间序列数据。

可选地，所述获取距离所述待预测时间之前第一时间段内的第二源历史时间序列数据的步骤之后，还包括：

对所述第二源历史时间序列数据中的异常数据进行清洗；

对清洗后出现的缺失值进行填充。

可选地，所述对所述第二源历史时间序列数据中的异常数据进行清洗的步骤，包括：

利用预设异常检测模型，对所述第二源历史时间序列数据的异常数据进行初次清洗；

利用拉依达规则，对初次清洗后的第二源历史时间序列数据进行再次清洗。

可选地，所述对清洗后出现的缺失值进行填充的步骤，包括：

在所述缺失值处于异常数据段的情况下，如果所述异常数据段的长度大于第一预设阈值h，则采用与所述异常数据段的时间类别相同的，且距离所述异常数据段最近的第二时间单位内的数值进行替换；其中，所述异常数据段为相邻两个缺失值之间正常值连续个数小于预设个数阈值n；其中，所述h、n为大于0的整数，h≥n；

如果所述最近的第二时间单位内的缺失值处于异常数据段，则获取与所述异常数据段的时间类别相同的，且距离所述异常数据段最近的多天的第二时间单位内的数值的均值，并进行替换；

在所述缺失值不处于异常数据段的情况下，如果所述缺失值处于连续缺失值数据段中，则采用线性插值法对所述缺失值进行填充；如果所述缺失值不处于连续缺失值数据段中，则采用三次样条插值法对所述缺失值进行填充；其中，所述连续缺失值数据段为所述缺失值连续出现的个数大于预设个数q的数据段；其中，所述q为大于0的整数，所述q<n。

根据本发明实施例的第二方面，本发明实施例还提供一种预测装置，所述装置包括：

待预测时间确定模块，用于确定待预测时间；

目标序列获取模块，用于根据所述待预测时间，获取距所述待预测时间之前第一时间段内的目标历史时间序列数据；

目标特征提取模块，用于根据所述目标历史时间序列数据，提取目标特征；所述目标特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；

预测模块，用于根据所述目标特征，利用预设的目标预测模型，确定与所述待预测时间对应的预测结果。

可选地，还包括：

源序列获取模块，用于获取第一源历史时间序列数据；

样本序列获取模块，用于将所述第一源历史时间序列数据划分为多个样本时间序列数据；

样本特征提取模块，用于根据所述样本时间序列数据，提取对应的样本特征和实际值；所述样本特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；

训练模块，用于根据所述样本特征和所述实际值，对初始的机器学习模型进行训练，获得所述目标预测模型。

可选地，所述训练模块包括：

多模型训练子模块，用于根据所述样本特征和所述实际值，对至少两类初始机器学习模型进行训练，获得至少两个第一预测模型；

测试结果获取子模块，用于利用预设的测试时间序列数据集，对所述至少两个第一预测模型进行测试，获得至少两组测试结果；

目标模型选择子模块，用于从所述至少两组测试结果中，选择所述测试结果符合预设条件的第一预测模型作为所述目标预测模型。

可选地，所述目标模型选择子模块包括：

误差值获取子模块，用于将所述至少两组测试结果分别与测试时间序列数据集中的实际值进行比较，获得至少两组误差值；

模型确定子模块，用于将误差值最小第一预测模型，确定为目标预测模型。

可选地，还包括：

第一清洗模块，用于对所述第一源历史时间序列数据中的异常数据进行清洗。

可选地，所述第一清洗模块包括：

第一初次清洗子模块，用于利用预设异常检测模型，对所述第一源历史时间序列数据的异常数据进行初次清洗；

第一再次清洗子模块，用于利用拉依达规则，对初次清洗后的第一源历史时间序列数据进行再次清洗。

可选地，所述第一源历史时间序列数据的时间单位为第一时间单位，所述样本时间序列数据的时间单位为第二时间单位，所述第二时间单位大于第一时间单位；所述样本序列获取模块包括：

样本序列获取子模块，用于将所述第一源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为样本时间序列数据。

可选地，所述样本序列获取子模块包括：

类型样本获取子模块，用于按照第二时间单位的时间类别，将所述第一源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述时间类别的样本时间序列数据。

可选地，所述待预测时间包括第一时间单位的时间以及第二时间单位的时间，所述第二时间单位大于第一时间单位；所述目标序列获取模块包括：

源序列获取子模块，用于获取距离所述待预测时间之前第一时间段内的第二源历史时间序列数据；所述第二源历史时间序列数据的时间单位为第一时间单位；

目标序列获取子模块，用于将所述第二源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述目标历史时间序列数据。

可选地，所述目标序列获取子模块包括：

类型目标序列获取子模块，用于按照所述待预测时间对应的第二时间单位的时间类别，将所述第二源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述时间类别的目标历史时间序列数据。

可选地，所述目标序列获取子模块包括：

相似度序列获取子模块，用于获取所述第二源历史时间序列数据中，距离所述待预测时间最近的多个第二时间单位的数据；所述多个第二时间单位的数据之间的相似度大于预设相似度阈值；

序列组合子模块，用于从所述多个第二时间单位的数据中，选择同一时刻的第一时间单位的数据，组合为所述时间类别的目标历史时间序列数据。

可选地，还包括：

第二清洗模块，用于对所述第二源历史时间序列数据中的异常数据进行清洗；

在线填充子模块，用于对清洗后出现的缺失值进行填充。

可选地，所述第二清洗模块包括：

第二初次清洗子模块，用于利用预设异常检测模型，对所述第二源历史时间序列数据的异常数据进行初次清洗；

第二再次清洗子模块，用于利用拉依达规则，对初次清洗后的第二源历史时间序列数据进行再次清洗。

可选地，所述在线填充子模块包括：

第一替换模块，用于在所述缺失值处于异常数据段的情况下，如果所述异常数据段的长度大于第一预设阈值h，则采用与所述异常数据段的时间类别相同的，且距离所述异常数据段最近的第二时间单位内的数值进行替换；其中，所述异常数据段为相邻两个缺失值之间正常值连续个数小于预设个数阈值n；其中，所述h、n为大于0的整数，h≥n；

第二替换子模块，用于如果所述最近的第二时间单位内的缺失值处于异常数据段，则获取与所述异常数据段的时间类别相同的，且距离所述异常数据段最近的多天的第二时间单位内的数值的均值，并进行替换；

插值子模块，用于在所述缺失值不处于异常数据段的情况下，如果所述缺失值处于连续缺失值数据段中，则采用线性插值法对所述缺失值进行填充；如果所述缺失值不处于连续缺失值数据段中，则采用三次样条插值法对所述缺失值进行填充；其中，所述连续缺失值数据段为所述缺失值连续出现的个数大于预设个数q的数据段；其中，所述q为大于0的整数，所述q<n。

根据本发明实施例的第三方面，本发明实施例另外提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如前述的预测方法的步骤。

根据本发明实施例的第四方面，本发明实施例另外提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前述的预测方法的步骤。

本发明实施例包括以下优点：在本发明实施例中，通过确定待预测时间；根据所述待预测时间，获取距所述待预测时间之前第一时间段内的目标历史时间序列数据；根据所述目标历史时间序列数据，提取目标特征；所述目标特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；根据所述目标特征，利用预设的目标预测模型，确定与所述待预测时间对应的预测结果。这样，首先，本发明实施例由于提取的特征中包括了外界因素特征和时间因素特征，该外界因素特征为该目标历史时间序列数据中的时间因素之外的至少一个特征，所以本发明实施例能够更好反映时间序列受到外界影响的情况，使预测结果能够更符合实际情况；其次，由于本发明实施例提取了上述多种特征，对于不平稳的时间序列，也能够进行更准确的预测。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所可以使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种预测方法的步骤流程图；

图2是本发明实施例中的另一种预测方法的步骤流程图；

图3是本发明实施例中的另一种预测方法的步骤流程图；

图4是本发明实施例中的一种预测装置的结构示意图；

图5是本发明实施例中的另一种预测装置的结构示意图；

图6是本发明实施例中的另一种预测装置的结构示意图；

图7是本发明实施例的一种电子设备的框图；

图8是本发明实施例一种电子设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明实施例的一种预测方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，确定待预测时间；

在本发明实施例中，该待预测时间可以为未来某天，未来某周，或者未来某天某个时刻本发明实施例不对其加以限制。比如，对于某个待预测指标，记录该待预测指标的源历史时间序列以天进行记录，记录到了2018年12月28日，那么未来的一天可以为2018年12月29日，该2018年12月29日可以作为该待预测时间；又比如，对于某个待预测指标，记录该待预测指标的源历史时间序列以分钟进行记录，记录到了2018年12月28日12：00，那么未来的一天可以为2018年12月29日10:00，该2018年12月29日10:00可以作为该待预测时间，上述示例只是举例说明，本发明对此不作限定。

在实际应用中，本发明实施例可以应用于服务器，该服务器可以接收预测请求，该预测请求中包括该待预测时间。当然，该预测请求中还可以包括待预测指标，该待预测指标可以为网站流量、访问量、订单数以及流水数等指标，上述示例只是举例说明，本发明对此不作限定。

步骤102，根据所述待预测时间，获取距所述待预测时间之前第一时间段内的目标历史时间序列数据；

在本发明实施例中，由于预先训练了目标预测模型，那么本发明实施例可以根据模型训练时，构建一个样本特征需求的时间序列的序列提取规则，提取目标历史时间序列数据。该序列提取规则比如时间序列的长度，或者时间序列的长度和类型。

其中时间序列的定义为指将某种现象某一个统计指标在不同时间上的各个数值，按时间先后顺序排列而形成的序列。该时间序列中每个“时间+数值”的组合为该时间序列的一个元素。

示例地，在源历史时间序列以天进行记录的情况下，待预测时间为未来某天，构建一个样本特征需求的时间序列为30天的时间序列，则该步骤中，从该待预测时间之前的源历史时间序列中，提取最近30天的时间序列，作为目标历史时间序列数据，比如前述待预测时间为2018年12月29日，则可以提取2018年11月29日到2018年12月28日的数据作为目标历史时间序列数据；又比如，构建样本特征需求的时间序列为30个工作日的时间序列，则该步骤中，从该待预测时间之前的源历史时间序列中，提取最近的30个工作日的时间序列，作为目标历史时间序列数据，比如前述待预测时间为2018年12月29日，则可以提取2018年12月29日之前的30个工作日的数据作为目标历史时间序列数据。

示例地，在源历史时间序列以分钟进行记录的情况下，待预测时间为未来某天的10:00，构建一个样本特征需求的时间序列为30天的10:00的时间序列，则该步骤中，从该待预测时间之前的源历史时间序列中，提取最近的30天的10:00的时间序列，作为目标历史时间序列数据，比如前述待预测时间为2018年12月29日10:00，则可以提取2018年11月29日到2018年12月28日的10:00的数据作为目标历史时间序列数；又比如，构建一个样本特征需求的时间序列为30个工作日的10:00的时间序列，则该步骤中，从该待预测时间之前的源历史时间序列中，提取最近的30个工作日的10:00的时间序列，作为目标历史时间序列数据，比如前述待预测时间为2018年12月29日10:00，则可以提取2018年12月29之前30个工作日的10:00的数据作为目标历史时间序列数。上述示例只是举例说明，本发明对此不作限定。

需要说明的是，在实际应用中，针对不同的待预测指标，本发明实施例可以从与该待预测指标对应的源历史时间序列中，提取上述目标历史时间序列数据。

步骤103，根据所述目标历史时间序列数据，提取目标特征；所述目标特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；

在本发明实施例中，在预先训练目标预测模型时，还存在一个特征提取规则，该特征规则用于从时间序列中提取时间因素特征和外界因素特征。

因此，本发明实施例中，在得到上述述目标历史时间序列数据后，可以根据该特征提取规则，提取相应的目标特征，该目标特征包括时间因素特征和外界因素特征。

需要说明的是，该时间因素特征为时间序列中可以通过数值计算得到的因素，比如该时间序列的方差、中位数、最大值、最小值、趋势项、季节项、随机项等，该时间因素特征反映时间序列自身的固有变化规律，比如可以反映时间序列的周期性和趋势。该外界因素特征为可以为该时间因素特征之外的至少一个特征，反映外界对时间序列施加的影响因素，外界因素特征可以理解为不能通过数值计算得到的因素，比如时间的时间类别，人为事件等，时间类别比如节假日、周末、工作日等，人为事件比如引起时间序列的数值指标发生变化的人为事件，比如流量迁移时间、广告推广时间等。上述示例只是举例说明，本发明对此不作限定。

步骤104，根据所述目标特征，利用预设的目标预测模型，确定与所述待预测时间对应的预测结果。

在提取到上述目标特征之后，即可将该目标特征输入预先训练的目标预测模型进行计算，然后该目标预测模型即可输出与该待预测时间对应的预测结果。该预测结果可以提供给用户进行业务处理的参考，比如对于网站流量，预测到未来某天或者多天的网站流量很大，则可以提前设置更大的带宽，更多的承载服务器，以满足访问需求。

在本发明实施例中，通过确定待预测时间；根据所述待预测时间，获取距所述待预测时间之前第一时间段内的目标历史时间序列数据；根据所述目标历史时间序列数据，提取目标特征；所述目标特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；根据所述目标特征，利用预设的目标预测模型，确定与所述待预测时间对应的预测结果。这样，首先，本发明实施例由于提取的特征中包括了外界因素特征和时间因素特征，该外界因素特征为该目标历史时间序列数据中的时间因素之外的至少一个特征，所以本发明实施例能够更好反映时间序列受到外界影响的情况，使预测结果能够更符合实际情况；其次，由于本发明实施例提取了上述多种特征，对于不平稳的时间序列，也能够进行更准确的预测。

参照图2，示出了本发明实施例的另一种预测方法实施例的步骤流程图。

在本发明实施例中，首先可以采用步骤201至步骤204训练目标预测模型。

步骤201，获取第一源历史时间序列数据；

在本发明实施例中，针对不同待预测指标，可以训练相应待预测指标的目标预测模型。该待预测指标比如为网站流量、访问量、订单数以及流水数等指标，具体待预测指标可以根据实际需求设置，本发明实施例不对其加以限定。

在实际应用中，针对不同的待预测指标，服务器可以记录有不同的源历史时间序列数据。在本发明实施例实施例中，为了训练准确，可以获取大批量的历史数据，比如最近3年的源历史数据。

可选地，步骤201之后，还包括：

步骤A11，对所述第一源历史时间序列数据中的异常数据进行清洗。

因为源历史时间序列中的数据是某一指标的数据的集合，这些数据中可能存在一些异常数据，会影响目标预测模型的准确性，因此本发明实施例可以对第一源历史时间序列数据进行清洗，降低异常数据对目标预测模型准确性的影响。

可选地，步骤A11包括：子步骤A111、子步骤A112；

子步骤A111，利用预设异常检测模型，对所述第一源历史时间序列数据的异常数据进行初次清洗；

本发明实施例中，可以利用源历史时间序列数据训练一个异常检测模型，比如将源历史数据构建清洗样本集，然后将清洗样本集输入初始的机器学习模型，比如lightgbm模型(基于决策树的集成模型)，进行清洗，然后将清洗结果跟实际应该的清洗结果进行比较，然后根据比较结果不断调整机器学习模型的参数，直到对比较结果收敛，则获得的异常检测模型。

然后，本发明实施例可以利用之前已经训练好的预设异常检测模型，例如lightgbm模型的分类模型来检测异常值，对检测到的异常值进行第一次清洗。

子步骤A112，利用拉依达规则，对初次清洗后的第一源历史时间序列数据进行再次清洗。

为防止因阈值附近的异常值没有被清洗掉，将初次清洗过的时间序列再经过拉伊达规则过滤。

具体地，获取已进行过初次清洗的源历史时间序列中，所有数据的均值μ和标准差σ；将取值不在(μ-3σ,μ+3σ)区间内的数据作为异常数据，从所述初次清洗过的源历史时间序列中去除。

在本发明实施例中，发明人研究过程中发现，假设输入数据服从标准的正态分布，利用3σ原则(拉依达规则)，将有约0.27％的数据被当作异常数据清洗掉。但是如果输入数据中有大量异常，经过3σ原则后还会存在大量异常点，导致训练的机器学习模型准确率不够高。因此，本发明实施例中预先设置了一个异常检测模型进行第一次清洗，然后再用3σ原则进行第二次清洗，减少源历史时间序列数据中的异常数据，然后利用清洗后的数据进行后续训练，可以提高目标预测模型的准确性。

可选地，在本发明实施例中，步骤A11之后，还可以包括：

步骤A12，在清洗后的第一源历史时间序列数据中，存在缺失值的情况下，对所述缺失值进行填充。

在进行数据清洗后，会增加源历史数据中的缺失值。缺失值的存在，导致丢失了大量的有用信息，为了提高数据的准确性，本发明实施例对缺失值进行了填充。

需要说明的是，本发明实施例中，由于用于训练的源历史时间序列数据量庞大，得到的样本量也很大，因此，即使不对缺失值进行补偿，其训练得到的目标预测模型也较为准确，在该种情况下，为了节省计算量，在训练过程中可以省略步骤A12。

可选地，在本发明实施例中，所述步骤A12进一步可以包括：子步骤A121至子步骤A123；

子步骤A121，在所述缺失值处于异常数据段的情况下，如果所述异常数据段元素值个数大于第一预设阈值h，则采用与所述异常数据段对应的时间类别相同的最近的第二时间单位内的元素值进行替换；其中，所述异常数据段中相邻两个缺失值之间正常值连续个数小于预设个数阈值n；其中，所述h、n为大于0的整数，h≥n；

在本发明实施例中，源历史时间序列数据可能采用第二时间单位记录，而训练时，设置的样本时间序列数据中，采用的时间单位为第一时间单位，其中第一时间单位大于第二时间单位。比如第一时间单位为天，第二时间单位为分钟或小时；又比如第一时间单位为周，第二时间单位为天或小时或分钟；又比如第一时间单位为月，第二时间单位为周或天或小时或分钟；上述示例只是举例说明，本发明对此不作限定。

本发明实施例中，可以先判断所述缺失值是否处于异常数据段。所述异常数据段为：相邻两个缺失值之间包括的连续正常值的个数小于n。然后，在所述缺失值处于异常数据段的情况下，判断该异常数据段元素值个数大于第一预设阈值h，若大于h，则说明该异常数据段中的数据对误差影响很大，此时，可以采用与所述异常数据段对应的时间类别相同的最近的第二时间单位内的元素值进行替换的方法填充缺失值，以减小误差。其中，h、n为大于0的整数，h≥n。比如在2018年12月20号10:00-10:30的数据出现异常，其数据是以分钟进行记录，而h为10，10:00-10:30对应的一侧数据段为30个，可以利用2018年12月19号10:00-10:30的数据进行替换。

需要说明的是，在替换时，还可以以最近的第一时间单位的源历史数据进行替换，保证整天的数据更准确。比如在2018年12月20号10:00-10:30的数据出现异常，其数据是以分钟进行记录，而h为10，10:00-10:30对应的异常数据段为30个，30大于10，则可以利用2018年12月19号数据替换2018年12月20号整天的数据。

子步骤A122，如果所述最近的第二时间单位内的元素值处于异常数据段，则获取与所述异常数据段对应的时间类别相同的最近多天的第二时间单位内的元素值的均值，并进行替换。

若替换的元素值仍处于异常数据段，则改变策略，选择与异常数据段对应的时间类别相同的最近多天的第二时间单位内的元素值的均值，进行替换。该最近多天，比如最近三天。比如在2018年12月20号10:00-10:30的数据出现异常，其数据是以分钟进行记录，而h为10，10:00-10:30对应的异常数据段为30个，可以利用2018年12月17号-2018年12月19号的10:00-10:30的数据中，对应每分钟的值的均值进行替换。

需要说明的是，在替换时，还可以以最近的第一时间单位的源历史数据进行替换，保证整天的数据更准确。比如在2018年12月20号10:00-10:30的数据出现异常，其数据是以分钟进行记录，而h为10，10:00-10:30对应的一侧数据段为30个，可以利用利用2018年12月17号-2018年12月19号的数据中，对应每分钟的值的均值替换2018年12月20号整天的数据。需要说明的是，如果以天进行替换，可以避免异常数据段很长的那天可能整体数据都有问题的情况，提高训练数据的准确度。

在本发明实施例中，由于是用相近时间的数据进行替换，而不是直接删除，变向提高了源数据的准确性。

子步骤A123，在所述缺失值不处于异常数据段的情况下，如果所述缺失值处于连续缺失值数据段中，则采用线性插值法对所述缺失值进行填充；如果所述缺失值不处于连续缺失值数据段中，则采用三次样条插值法对所述缺失值进行填充；其中，所述连续缺失值数据段指所述缺失值连续出现的个数大于预设个数q的数据段；其中，所述q为大于0的整数，所述q<n。

在本发明实施例中，在缺失值不处于异常数据段的情况下，采用第二时间单位内的元素值进行替换，或采用第二时间单位内相同时刻的元素均值进行缺失值填充后的数据不够理想，填充处会出现忽上忽下的毛刺，导致曲线不够平滑，对模型训练会产生不好的影响。所以此处选择使用三次样条插值或线性差值法对缺失值进行填充，而在当连续缺失值较多时，填补的数据规律性会与原始数据不一致，导致训练的模型效果不好，因此在该种情况下，连续缺失值较多的情况下用线性插值法进行填充，而连续缺失值较少的情况下用三次样条插值法进行填充，得到数据更平滑。该这两种方法都是选择缺失值附近的点作为插值节点，对于曲线的拟合度较高，填充后的曲线比较平滑。其中，q为采用线性插值法和三次样条插值法的分界点，q可以根据实际测试得到，本发明实施例不对其加以限制。

可选地，确定三次样条插值的插值节点的方法是：取连续缺失值数据段的第一个缺失值之前的n个数据中的前n/2个作为插值起点，以及取连续缺失值数据段的最后一个缺失值之后的n个数据中的后n/2个作为插值终点。

由于缺失值往往是清洗异常值产生的，异常值前后经常会出现阈值附近的没有被判断成异常值的次正常值，为了避免这些值对填充逻辑的影响，在第一个缺失值前、末尾缺失值后分别取窗口为n的数据集，并在这两个数据集中对应取前n/2，和后n/2长度的数据作为三次样条插值的输入。

三次样条插值曲线由分段的三次多项式来描述，设其参变量为t，则分段三次插值样条曲线表达式的一般形式为：

P(t)＝B1+B2t+B3t²+B4t³(0≤t≤tm)

其中，P(ti)＝[x(ti)y(ti)z(ti)]可以看作三次插值样条曲线上某一点的位置向量，ti是该点的参变量，x(ti)、y(ti)、z(ti)可以看作是该点的坐标值。式中的B1、B2、B3、B4为四个待定系数。要确定这四个系数，这可以设定四个独立条件。

三次样条插值的独立条件的确定：(1)对于每个内型值点(P1、P2……Pn-1，共n-1个)有4个边界条件：在该型值点两侧的两个相邻曲线段在该点处具有相同的一阶和二阶导数，并且两个曲线段都要通过该点。(2)曲线起点为第一个型值点P0，曲线终点为最后一个型值点Pn。(3)在P0和Pn两点处二阶导数为0。

由此可知，上述确定三次样条插值的插值起点和插值终点，即是确定第一个型值点P0，和最后一个型值点Pn，可以将这两个点分别代入三次插值样条曲线表达式；根据在P0和Pn两点处二阶导数为0，也可以确定解析方程。并根据条件(1)，也可以确定解析方程。最终可以确定四个待定系数。进而确定三次样条插值的曲线表达式，从而通过把缺失值处所在的点代入表达式，可以得到该处的缺失值。

可选地，确定线性插值的插值节点的方法包括：

根据所述连续缺失值数据段中第一个缺失值之前的n个数据中的前n/2个确定插值起点；

根据所述连续缺失值数据段最后一个缺失值之后的n个数据中的后n/2个确定插值终点。

具体而言，线性插值的插值起v_start点如下：

其中，表示第一个缺失值之前的n个数据中的前n/2个数据。

线性插值终点v_end如下：

其中，表示最后一个缺失值之后的n个数据中的后n/2个数据。

在按照上述方式，确定了线性插值的起点和终点后，则可以确定线性插值起点和线性插值终点所在直线的线性函数，然后将缺失值的时间代入该线性函数，即可得到该时间对应的数值。

本发明实施例中，因为靠近缺失值的数据还是存在不准确的嫌疑，为了使插值更准确，所以选择第一个缺失值之前的n个数据中的前n/2个，以及选择最后一个缺失值之厚的n个数据中的前n/2个作为基础进行插值。

步骤202，将所述第一源历史时间序列数据划分为多个样本时间序列数据；

由于第一源历史时间序列数据的数据量很庞大，比如对于网站流量，前述最近3年的数据会很庞大，而对于预测而言，可以只用到比如最近30天的时间序列进行预测，那么，在训练模型时，可以将第一源历史时间序列数据划分为多个样本时间序列数据。

假设以在在线的预测过程中，使用的时间序列的长度为30天，则构建模型时，可以按每31天划分得到样本时间序列数据。比如180天的源历史数据，而在线预测时使用的时间长度为30天，那么则将180天中第1天到第31天的数据作为第一个样本时间序列数据，第2天到第32天的数据作为第二样本时间序列数据，……，第150天到180天的数据作为最后一个样本时间序列数据，如此，可以得到150个样本数据。

需要说明的是，不同的待预测时间的需求以及第一源历史时间序列数据的存储方式，可以有不同的样本时间序列的提取规则。

比如待预测时间是以天为单位预测未来某天的结果，第一源历史时间序列数据的存储方式是以天为单位记录数值，如表一的第一源历史时间序列数据示例，其记录了从2018年11月1日的00:00这一天到2018年12月26日23:59这一天的数据：

表一

基于该表一，则该提取规则可以为，直接按照使用的时间序列的长度，按序将第一源历史时间序列数据划分为多个样本时间序列数据。比如长度为30天，将第一源历史时间序列数据中的每31天的数据划分为一个样本时间序列数据，提取的第一个样本时间序列数据如表二：

表二

表二中，2018年11月1日到2018年11月30日元素用于提取样本特征，2018年12月1日的数值作为实际值。

可选地，所述第一源历史时间序列数据的时间单位为第一时间单位，所述样本时间序列数据的时间单位为第二时间单位，所述第二时间单位大于第一时间单位，进一步的，步骤202包括：

步骤A21，将所述第一源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为样本时间序列数据。

在本发明实施例中，第一源历史时间序列数据可能采用第二时间单位记录，而训练时，设置的样本时间序列数据中，采用的时间单位为第一时间单位，其中第一时间单位大于第二时间单位。比如第一时间单位为天，第二时间单位为分钟或小时；又比如第一时间单位为周，第二时间单位为天或小时或分钟；又比如第一时间单位为月，第二时间单位为周或天或小时或分钟；上述示例只是举例说明，本发明对此不作限定。

比如待预测时间是以天为单位预测未来某天某时刻的结果，则第一源历史时间序列数据的存储方式是以分钟为单位记录数值，如表三的第一源历史时间序列数据示例，其记录了从2018年11月1日的00:00这一分钟到2018年12月26日23:59这一分钟的数据：

表三

基于该表三，样本时间序列数据的时间单位为以天为单位，上述提取规则可以为，直接按照使用的时间序列的长度，按序将第一源历史时间序列数据中与该时刻对应的数据划分为多个样本时间序列数据。比如长度为30天，待预测的某天的时刻为10:00，将第一源历史时间序列数据中的每31天的10:00这一时刻的数据，划分为一个样本时间序列数据，提取的第一个样本时间序列数据如表四：

表四

表四中都是天这个第二单位下10:00这个第一单位的数据。

表四中，2018年11月1日到2018年11月30日元素用于提取样本特征，2018年12月1日的数值作为实际值。

上述示例只是举例说明，本发明对此不作限定。

可选地，步骤A21，包括：

子步骤A211，按照第二时间单位的时间类别，将所述第一源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述时间类别的样本时间序列数据。

比如上述表三的示例中，天是第二时间单位，那么天具有时间类别，该时间类别比如节假日、工作日、周末等，本发明实施例在提取数据时，将第二时间单位为同一类别的数据同一时刻的数据进行提取。比如都提取周末的10:00的数据，提取的第一个样本时间序列数据如表五：

表五

表五中的数据都是周末的数据，都是天这个第二单位下10:00这个第一单位的数据。

步骤203，根据所述样本时间序列数据，提取对应的样本特征和实际值；所述样本特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；

在实际应用中，在训练机器学习模型过程中，需要有作为模型输入的样本特征，以及对应该样本特征的作为模型输出实际中，那么则需要从上述样本时间序列数据，提取对应的样本特征和实际值。

如前述例子中，有150个样本时间序列数据，由于在在线的预测过程中，使用的时间序列的长度为30天。那么从第一个样本时间序列数据的第1天到第30天的数据中，提取上述样本特征，将第一个样本时间序列数据的第31天的数值，作为该样本特征的实际值；从第二个样本时间序列数据的第2天到第31天的数据中，提取上述样本特征，将第一个样本时间序列数据的第32天的数值，作为该样本特征的实际值，以此类推，得到150对样本特征和实际值。

在本发明实施例中，提取的样本特征包括：时间因素特征和外界因素特征，该外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征。该时间因素特征反映时间序列自身的固有变化规律，而外界因素特征反映外界对时间序列施加的影响因素。

在本发明实施例中，外界因素特征包括但不限于以下至少一项：时间类别、人为事件。

其中，待预测指标可能对于不同类别的时间敏感度不同，比如网站流量，对节假日、周末、工作日的敏感度都可能不同，因此本发明实施例设置了时间类别，可以提高预测准确性。

其中，其中，待预测指标可能由于不同的人为事件波动比较大，该人为时间比如流量迁移、广告推广等事件，因此设置了人为事件这一特征，也可以提高预测准确性。

在实际应用中，设置了日历表，对相应的时间记录了时间类别和/或人为事件。从而在本步骤中，可以通过样本时间序列中的时间，查询相应的时间类别以及人为事件。

在本发明实施例中，所述时间因素特征包括但不限于以下至少一项：趋势项、季节项、随机项；

其中该趋势项是时间序列在长时期内呈现出来的持续向上或持续向下的变动；季节项是时间序列在一年内重复出现的周期性波动。它是诸如气候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果；随机项是时间序列中除去趋势、季节变动和周期波动之后的随机波动。

在实际应用中，可以通过ARMA模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型或组合-ARMA模型等来进行时间序列曲线的拟合，以求出时间序列的趋势项、季节项、随机项其中至少一项，以作为样本特征。

在本发明实施例中，如果第一源历史时间序列按单一维度的时间单位(比如天)进行记录，则时间因素还可以包括：样本时间序列数据中除作为实际值之外的数据的均值、方差、最大值、最小值、中位数其中至少一项。以表二为例，通过表二的数值计算得到上述均值、方差、最大值、最小值、中位数。

在本发明实施例中，如果第一源历史时间序列第一时间单位记录，而待预测时间以第二时间单位预测，比如前述待预测时间为某天的某时刻。则时间因素还可以包括：第一均值、第一方差、第一最大值、第一最小值、第一中位数、第二均值、第二方差、第二最大值、第二最小值、第二中位数其中至少一项；其中，所述第一均值、第一方差、第一最大值、第一最小值、第一中位数基于所述样本时间序列数据中各元素按照第二时间单位计算得到；所述第二均值、第二方差、第二最大值、第二最小值、第二中位数基于预设时间窗口内的源历史时间序列得到，所述预设时间窗口为第一时间单位维度。

其中第一均值、第一方差、第一最大值、第一最小值、第一中位数可以按照表四数值计算得到。

而第二均值、第二方差、第二最大值、第二最小值、第二中位数，则针对表四中每天的10:00这个时刻，在表三中获取预设时间窗口内的数据，该预设时间窗口比如10分钟，然后计算该天的10:00这一时刻的中间均值、中间方差、中间最大值、中间最小值、中间中位数，那么可得到该30天10:00时刻分别对应的中间均值、中间方差、中间最大值、中间最小值、中间中位数，然后可以利用该30天的10:00时刻的间均值、中间方差、中间最大值、中间最小值、中间中位数分别计算该样本时间序列对应的第二均值、第二方差、第二最大值、第二最小值、第二中位数。当然，也可以直接将该中间均值、中间方差、中间最大值、中间最小值、中间中位数作为第二均值、第二方差、第二最大值、第二最小值、第二中位数，得到样本特征。

步骤204，根据所述样本特征和所述实际值，对初始的机器学习模型进行训练，获得所述目标预测模型。

在得到一些列的样本特征及对应的实际值之后，即可对初始的机器学习模型进行训练，得到目标预测模型。

在实际应用中，将上述样本特征和所述实际值输入初始机器模型中，将模型的输出结果与作为训练标签的实际值进行对比，因为实际值代表了已知的目标输出值，所以根据对比结果修改模型映射参数，已使模型的输出结果与实际值更为接近；经过反复训练反复修改参数，直到模型输出结果与实际结果的误差收敛，则模型训练完毕，得到目标预测模型。

可选地，步骤204包括：子步骤2014至2043；

子步骤2041，根据所述样本特征和所述实际值，对至少两类初始机器学习模型进行训练，获得至少两个第一预测模型；

因为事先并不确定哪种初始机器模型更为适合本发明实施例的样本数据特点，所以可以对多个初始机器模型进行训练，以从中选择最为合适的预测模型。

本发明实施例中，机器学习模型可以包括lightgbm(基于决策树的集成模型)，svm(支持向量机)，mlp(多层感知机)，逻辑回归模型等其中至少两个。

在实际应用中，因为lightgbm(基于决策树的集成模型)直接支持类别特征，具有快速高效、低内存占有、高准确度的优点；svm(支持向量机)可以将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能；mlp(多层感知机)由多个感知器组合来实现非线性分类面，把特征空间分割，所以这三种模型比较适合本发明实施例中样本数据具有多维特征的特点，所以可以选取上述三种模型作为初始机器学习模型进行训练。

子步骤2042，利用预设的测试时间序列数据集，对所述至少两个第一预测模型进行测试，获得至少两组测试结果；

在模型训练之前，可以从源历史时间序列中分离出一部分数据，构建测试时间序列数据集。例如，可以从源历史时间序列中分离20％的数据作为测试时间序列数据集，然后按照上述步骤202可提取特征和实际值，从而构建出测试时间序列数据集。然后将该特征和实际值，分别输入至少两个第一预测模型中，可以获得至少两组输出结果，则得到至少两组测试结果；每组测试结果与相应类别的第一预测模型对应。

子步骤2043，从所述至少两组测试结果中，选择所述测试结果符合预设条件的第一预测模型作为所述目标预测模型。

在本发明实施例中，从至少两组测试结果中，选择评价结果更好的更符合预设条件的预测模型，作为目标预测模型。

通过多模型打分筛选的方法，能够选择预测更准确的模型，提高预测准确率。

可选地，步骤2043，包括：子步骤20431、子步骤20432；

子步骤20431，将所述至少两组测试结果分别与测试时间序列数据集中的实际值进行比较，获得至少两组误差值；

如前述步骤203中，测试时间序列数据集中包括了特征和实际值，那么对于每个特征输入第一测试模型后的输出结果，都可以与相应实际值进行比较，得到误差。那么，对于每组测试结果，与实际值进行比较厚，可以得到与各个第一测试模型的一组误差值。

子步骤20432，将误差值最小第一预测模型，确定为目标预测模型。

在本发明实施例中，可以计算所述至少两组误差值的均方误差(MSE)。所述均方误差是衡量“平均误差”的一种较方便的方法，具体是参数估计值与参数真值之差的平方的期望值(即均值)。均方误差可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的精确度。所以，可以选择均方误差最小的第一预测模型作为目标预测模型。

需要说明的是，步骤201和步骤204可以离线进行训练。

在目标预测模型训练完毕后，可以将模型上线，然后在线执行步骤205至步骤208，进行预测过程。

步骤205，确定待预测时间；

步骤206，根据所述待预测时间，获取距所述待预测时间之前第一时间段内的目标历史时间序列数据；

步骤207，根据所述目标历史时间序列数据，提取目标特征；所述目标特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；

步骤208，根据所述目标特征，利用预设的目标预测模型，确定与所述待预测时间对应的预测结果。

在本发明实施例中，在提取到目标特征之后，可以将离线训练的目标预测模型进行加载，然后进行识别过程。

比如训练过程是在离线的第一服务器中执行，预测过程是在在线的第二服务器中执行，那么第二服务器可以从第一服务器中获取训练到的目标预测模型，加载至第二服务器中，以执行上述预测过程。

步骤205至步骤208与步骤101至步骤104原理类似，在此不再详述。

在本发明实施例中，在步骤207中，提取到的目标特征，可以更新到离线训练的特征文件中，然后在该待预测时间到达后，将实际值与该目标特征对应，得到新的样本特征和实际值，然后利用新的样本特征和实际值重新执行步骤204，重新训练模型，使模型不断的进行更新，该模型可以随着数据变化而变化，从而使模型更准确。

在本发明实施例中，通过确定待预测时间；根据所述待预测时间，获取距所述待预测时间之前第一时间段内的目标历史时间序列数据；根据所述目标历史时间序列数据，提取目标特征；所述目标特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；根据所述目标特征，利用预设的目标预测模型，确定与所述待预测时间对应的预测结果。这样，首先，本发明实施例由于提取的特征中包括了外界因素特征和时间因素特征，该外界因素特征为该目标历史时间序列数据中的时间因素之外的至少一个特征，所以本发明实施例能够更好反映时间序列受到外界影响的情况，使预测结果能够更符合实际情况；其次，由于本发明实施例提取了上述多种特征，对于不平稳的时间序列，也能够进行更准确的预测；再次，由于结合机器训练学习模型，无需人工设置时间序列的预测参数，当存在针对不同的指标进行预测的情况下，也无需人工调节预测参数，节省人力成本。

参照图3，示出了本发明实施例提供的另一种预测方法的步骤流程图所述方法包括：

步骤301，确定待预测时间；其中，所述待预测时间包括第一时间单位的时间以及第二时间单位的时间，所述第二时间单位大于第一时间单位。

在本发明实施例中，所述待预测时间可以两个维度的时间单位，比如包括第一时间单位和第二时间单位，该第一时间单位比如分钟，第二时间单位比如天，比如待预测时间为2018年12月29日10:00。以网站流量这个待预测指标为例，可以是预测具体的2018年12月29日10:00的网站流量。

步骤302，获取距离所述待预测时间之前第一时间段内的第二源历史时间序列数据；所述第二源历史时间序列数据的时间单位为第一时间单位。

在本发明实施例中第二源历史数据是以第一时间单位进行记录的。比如针对某个待预测指标，以分钟记录该指标的数值。

为了预测结果尽可能准确，可以选取距离所述待预测时间之前第一时间段内的第二源历史时间序列数据。比如待预测时间为2018年12月29日10:00，可以选择最近半年的第二源历史数据，然后进入步骤303。

步骤303，对所述第二源历史时间序列数据中的异常数据进行清洗；

本步骤的清洗原理与步骤A11的原理类似，在此不再赘叙。

可选地，步骤303，包括：子步骤A31-子步骤A32；

子步骤A31，利用预设异常检测模型，对所述第二源历史时间序列数据的异常数据进行初次清洗；

子步骤A32，利用拉依达规则，对初次清洗后的第二源历史时间序列数据进行再次清洗。

子步骤A31-A32的两次清洗过程与字步骤A111-A112的原理类似，在此不再赘叙。

步骤304，对清洗后出现的缺失值进行填充。

步骤304对缺失值的填充原理与步骤A12的填充原理类似，在此不再赘叙。

可选地，步骤303，包括：子步骤A41-A43；

子步骤A41，在所述缺失值处于异常数据段的情况下，如果所述异常数据段的长度大于第一预设阈值h，则采用与所述异常数据段的时间类别相同的，且距离所述异常数据段最近的第二时间单位内的数值进行替换；其中，所述异常数据段为相邻两个缺失值之间正常值连续个数小于预设个数阈值n；其中，所述h、n为大于0的整数，h≥n；

子步骤A42，如果所述最近的第二时间单位内的缺失值处于异常数据段，则获取与所述异常数据段的时间类别相同的，且距离所述异常数据段最近的多天的第二时间单位内的数值的均值，并进行替换；

子步骤A43，在所述缺失值不处于异常数据段的情况下，如果所述缺失值处于连续缺失值数据段中，则采用线性插值法对所述缺失值进行填充；如果所述缺失值不处于连续缺失值数据段中，则采用三次样条插值法对所述缺失值进行填充；其中，所述连续缺失值数据段为所述缺失值连续出现的个数大于预设个数q的数据段；其中，所述q为大于0的整数，所述q<n。

子步骤A41-A43的填充原理与子步骤A121-A123的原理类似，在此不再赘叙。

步骤305，将所述第二源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述目标历史时间序列数据。

在本发明实施例中，从上述填充后的第二源历史时间序列数据中，将多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述目标历史时间序列数据。

在本发明实施例中，第二源历史实际序列数据比如表六，其为2018年12月29日之前半年的数据：

表六

假设训练样本是提取样本特征用到的是30天数据，那么从表六中提取30天的数据，在不分时间类别的情况下，如表七：

表七

如表七，其是提取的是以天为单位下的30天的10:00的数据，组合为目标样本时间序列数据。

可选地，步骤305，包括：

子步骤A51，按照所述待预测时间对应的第二时间单位的时间类别，将所述第二源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述时间类别的目标历史时间序列数据。

如前述表六的第二源历史数据和待预测时间2018年12月29日10:00，本发明实施例首先识别该大待预测时间的第二时间单位的时间类别，即2018年12月29日为工作日，那么从表六中提取30个工作日的数据比如表八：

表八

如表七，其是提取的是以天为单位下的30个工作日的10:00的数据，其中去掉了周末的数据，组合为目标样本时间序列数据。

可选地，步骤305，包括：

子步骤A52，获取所述第二源历史时间序列数据中，距离所述待预测时间最近的多个第二时间单位的数据；所述多个第二时间单位的数据之间的相似度大于预设相似度阈值；

子步骤A53，从所述多个第二时间单位的数据中，选择同一时刻的第一时间单位的数据，组合为所述时间类别的目标历史时间序列数据。

在本发明实施例中，比如选择距离2018年12月29日10:00最近的a天的数据，该a天的数据之间的相似度需要大于预设相似度阈值。

其中，所述a天之间的相似度可以为皮尔逊相关系数。皮尔逊相关系数的绝对值越大，表示相关性越强。相关系数越接近于1，相关度越强，相关系数越接近于0，相关度越弱。通常情况下选择相关系数为0.8作为所述相似度阈值。这样就能保证这a天的数据均值差异不会太大，避免了业务数据在有意外情况发生时，导致时间序列规律性发生变化，进而导致输入模型的数据不能代表正常数据的情况。

且所述a天之间的相似度大于或预设相似度阈值。比如假设a为30天，待预测时间为2018年12月29日10:00，先选从2018年11月28日到2018年11月28日这30天数据，如果该30天数据中某天比如2018年12月15日的数据与其他日期的数据相似度小于或等于阈值，则去掉2018年12月15日的数据，再从2018年11月28之前选择2018年11月27的数据，如果2018年11月27日的数据与上述30天中除2018年12月15日之外的天数的相似度大于相似度阈值，则这30天为2018年11月27日到2018年12月14日，2018年12月16日到2018年12月28日，其他情况以此类推。

当然，对于按照时间类别选择目标时间序列数据的情况，也可以按照上述相似度的选择方式选择，在此不再赘叙。

步骤306，根据所述目标历史时间序列数据，提取目标特征；所述目标特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；

在本发明实施例中，所述外界因素特征包括：第二时间单位的时间类别，人为事件；所述时间因素特征包括：趋势项、季节项、随机项、第一均值、第一方差、第一最大值、第一最小值、第一中位数、第二均值、第二方差、第二最大值、第二最小值、第二中位数其中至少一项；其中，所述第一均值、第一方差、第一最大值、第一最小值、第一中位数基于所述样本时间序列数据中各元素按照第二时间单位计算得到；所述第二均值、第二方差、第二最大值、第二最小值、第二中位数基于预设时间窗口内的源历史时间序列得到，所述预设时间窗口为第一时间单位维度。

上述外界因素特征和时间因素特征的获取方式，参照上述步骤203的描述，在此不再赘叙。

步骤307，根据所述目标特征，利用预设的目标预测模型，确定与所述待预测时间对应的预测结果。

步骤306-步骤307的原理与步骤103-步骤104的原理类似，在此不再赘叙。

参照图4，示出了本发明实施例中一种训练装置的结构示意图。

本发明实施例的预测装置400包括：

待预测时间确定模块401，用于确定待预测时间；

目标序列获取模块402，用于根据所述待预测时间，获取距所述待预测时间之前第一时间段内的目标历史时间序列数据；

目标特征提取模块403，用于根据所述目标历史时间序列数据，提取目标特征；所述目标特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；

预测模块404，用于根据所述目标特征，利用预设的目标预测模型，确定与所述待预测时间对应的预测结果。

参照图5，在图4的基础上，还包括：

源序列获取模块405，用于获取第一源历史时间序列数据；

样本序列获取模块406，用于将所述第一源历史时间序列数据划分为多个样本时间序列数据；

样本特征提取模块407，用于根据所述样本时间序列数据，提取对应的样本特征和实际值；所述样本特征包括：时间因素特征和外界因素特征，所述外界因素特征为所述目标历史时间序列数据中的时间因素之外的至少一个特征；

训练模块408，用于根据所述样本特征和所述实际值，对初始的机器学习模型进行训练，获得所述目标预测模型。

可选地，所述训练模块408包括：

可选地，所述目标模型选择子模块包括：

可选地，还包括：

可选地，所述第一清洗模块包括：

可选地，所述第一源历史时间序列数据的时间单位为第一时间单位，所述样本时间序列数据的时间单位为第二时间单位，所述第二时间单位大于第一时间单位；所述样本序列获取模块406包括：

可选地，还包括：

所述样本序列获取子模块包括：

可选地，还包括：

训练数据缺失值填充模块，用于在清洗后的源历史数据的第五元素中，存在缺失值的情况下，对所述缺失值进行填充。

可选地，所述训练数据缺失值填充模块包括：

第一训练填充子模块，用于在所述缺失值处于异常数据段的情况下，如果所述异常数据段的长度大于第一预设阈值h，则采用与所述异常数据段的时间类别相同的，且距离所述异常数据段最近的第二时间单位内的数值进行替换；其中，所述异常数据段为相邻两个缺失值之间正常值连续个数小于预设个数阈值n；其中，所述h、n为大于0的整数，h≥n；；

第二训练填充子模块，用于如果所述最近的第二时间单位内的缺失值处于异常数据段，则获取与所述异常数据段的时间类别相同的，且距离所述异常数据段最近的多天的第二时间单位内的数值的均值，并进行替换；

第三训练填充子模块，用于在所述缺失值不处于异常数据段的情况下，如果所述缺失值处于连续缺失值数据段中，则采用线性插值法对所述缺失值进行填充；如果所述缺失值不处于连续缺失值数据段中，则采用三次样条插值法对所述缺失值进行填充；其中，所述连续缺失值数据段为所述缺失值连续出现的个数大于预设个数q的数据段；其中，所述q为大于0的整数，所述q<n。

可选地，参照图6，在图4的基础上，所述待预测时间包括第一时间单位的时间以及第二时间单位的时间，所述第二时间单位大于第一时间单位；所述目标序列获取模块402包括：

源序列获取子模块4021，用于获取距离所述待预测时间之前第一时间段内的第二源历史时间序列数据；所述第二源历史时间序列数据的时间单位为第一时间单位；

目标序列获取子模块4022，用于将所述第二源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述目标历史时间序列数据。

可选地，所述目标序列获取子模块包括：

可选地，还包括：

第二清洗模块4023，用于对所述第二源历史时间序列数据中的异常数据进行清洗；

在线填充子模块4024，用于对清洗后出现的缺失值进行填充。

可选地，所述第二清洗模块4023包括：

可选地，所述在线填充子模块4024包括：

第一替换子模块，用于在所述缺失值处于异常数据段的情况下，如果所述异常数据段的长度大于第一预设阈值h，则采用与所述异常数据段的时间类别相同的，且距离所述异常数据段最近的第二时间单位内的数值进行替换；其中，所述异常数据段为相邻两个缺失值之间正常值连续个数小于预设个数阈值n；其中，所述h、n为大于0的整数，h≥n；

可选地，所述外界因素特征包括：第二时间单位的时间类别，人为事件；所述时间因素特征包括：趋势项、季节项、随机项、第一均值、第一方差、第一最大值、第一最小值、第一中位数、第二均值、第二方差、第二最大值、第二最小值、第二中位数其中至少一项；其中，所述第一均值、第一方差、第一最大值、第一最小值、第一中位数基于所述样本时间序列数据中各元素按照第二时间单位计算得到；所述第二均值、第二方差、第二最大值、第二最小值、第二中位数基于预设时间窗口内的源历史时间序列得到，所述预设时间窗口为第一时间单位维度。

图7是本发明实施例示出的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图像，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图8是本发明实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。

参照图8，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理电子设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理电子设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理电子设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理电子设备上，使得在计算机或其他可编程电子设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程电子设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者电子设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者电子设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者电子设备中还存在另外的相同要素。

以上对本发明实施例所提供的一种参数处理方法及装置，进行了详细介绍，本文中应用了具体个例对本发明实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明实施例的限制。

Claims

1.一种预测方法，其特征在于，所述方法包括：

确定待预测时间；

2.根据权利要求1所述的方法，其特征在于，在获取目标历史时间序列数据的步骤之前，还包括：

获取第一源历史时间序列数据；

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本特征和所述实际值，对初始的机器学习模型进行训练，获得所述目标预测模型的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述从所述至少两组测试结果中，选择所述测试结果符合预设条件的第一预测模型作为所述目标预测模型的步骤，包括：

将误差值最小第一预测模型，确定为目标预测模型。

5.根据权利要求2所述的方法，其特征在于，所述获取第一源历史时间序列数据的步骤之后，还包括：

对所述第一源历史时间序列数据中的异常数据进行清洗。

6.根据权利要求5所述的方法，其特征在于，所述对所述第一源历史时间序列数据中的异常数据进行清洗的步骤，包括：

7.根据权利要求2所述的方法，其特征在于，所述第一源历史时间序列数据的时间单位为第一时间单位，所述样本时间序列数据的时间单位为第二时间单位，所述第二时间单位大于第一时间单位；所述将所述第一源历史时间序列数据划分为多个样本时间序列数据的步骤，包括：

8.根据权利要求7所述的方法，其特征在于，所述将所述第一源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为样本时间序列数据的步骤，包括：

9.根据权利要求1所述的方法，其特征在于，所述待预测时间包括第一时间单位的时间以及第二时间单位的时间，所述第二时间单位大于第一时间单位；所述根据所述待预测时间，获取距所述待预测时间之前第一时间段内的目标历史时间序列数据的步骤，包括：

10.根据权利要求9所述的方法，其特征在于，所述将所述第二源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述目标历史时间序列数据的步骤，包括：

11.根据权利要求9所述的方法，其特征在于，所述将所述第二源历史时间序列数据中，多个属于不同时间的第二时间单位下，同一时刻的第一时间单位的数据，组合为所述目标历史时间序列数据的步骤，包括：

12.根据权利要求9所述的方法，其特征在于，所述获取距离所述待预测时间之前第一时间段内的第二源历史时间序列数据的步骤之后，还包括：

对所述第二源历史时间序列数据中的异常数据进行清洗；

对清洗后出现的缺失值进行填充。

13.根据权利要求12所述的方法，其特征在于，所述对所述第二源历史时间序列数据中的异常数据进行清洗的步骤，包括：

14.根据权利要求12所述的方法，其特征在于，所述对清洗后出现的缺失值进行填充的步骤，包括：

15.一种预测装置，其特征在于，所述装置包括：

待预测时间确定模块，用于确定待预测时间；

16.根据权利要求15所述的装置，其特征在于，还包括：

源序列获取模块，用于获取第一源历史时间序列数据；

17.根据权利要求16所述的装置，其特征在于，所述训练模块包括：

18.根据权利要求17所述的装置，其特征在于，所述目标模型选择子模块包括：

19.根据权利要求16所述的装置，其特征在于，还包括：

20.根据权利要求19所述的方法，其特征在于，所述第一清洗模块包括：

21.根据权利要求16所述的装置，其特征在于，所述第一源历史时间序列数据的时间单位为第一时间单位，所述样本时间序列数据的时间单位为第二时间单位，所述第二时间单位大于第一时间单位；所述样本序列获取模块包括：

22.根据权利要求21所述的装置，其特征在于，所述样本序列获取子模块包括：

23.根据权利要求15所述的装置，其特征在于，所述待预测时间包括第一时间单位的时间以及第二时间单位的时间，所述第二时间单位大于第一时间单位；所述目标序列获取模块包括：

24.根据权利要求23所述的装置，其特征在于，所述目标序列获取子模块包括：

25.根据权利要求23所述的装置，其特征在于，所述目标序列获取子模块包括：

26.根据权利要求23所述的装置，其特征在于，还包括：

在线填充子模块，用于对清洗后出现的缺失值进行填充。

27.根据权利要求26所述的装置，其特征在于，所述第二清洗模块包括：

28.根据权利要求26所述的方法，其特征在于，所述在线填充子模块包括：

29.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至14中任一项所述的预测方法的步骤。

30.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至14中任一项所述的预测方法的步骤。