CN117540336A

CN117540336A - 时间序列预测方法、装置及电子设备

Info

Publication number: CN117540336A
Application number: CN202311365181.3A
Authority: CN
Inventors: 石志林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-02-09

Abstract

本说明书实施例公开了一种时间序列预测方法、装置及电子设备，该方法包括：获取目标预测时间对应的历史时间序列数据；将历史时间序列数据分解为季节性变量数据、趋势变量数据、异常变量数据和残差变量数据；将历史时间序列数据和分解获得的数据输入预先训练好的时间序列预测模型，在时间序列预测模型对每个异常变量数据对应的异常时间步骤进行数据处理时，利用注意力机制计算各个异常时间步骤对应的注意力权重；基于各个异常时间步骤的注意力权重，利用时间序列预测模型预测出目标预测时间对应的时间序列预测结果。利用本说明书提供的技术方案，自动感知异常变量数据对时间序列预测的影响，提升了时间序列预测的准确性。

Description

时间序列预测方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种时间序列预测方法、装置及电子设备。

背景技术

随着计算机技术的发展，利用时间序列预测方法来推测未来事物的发展趋势，为人们的工作和生活提供了便利。例如：基于历史数据预测商品在未来某个时间段的销售量，基于历史数据预测未来某段时间的天气等等，基于预测结果，人们可以合理安排自己的工作和生活。

时间序列预测可以理解为指针对时间序列数据进行的下一时刻目标值预测任务，但是，在一些场景中，可能会存在一些异常事件，异常事件虽然出现的概率比较小，但对于时间序列预测很有可能存在不可估量的影响。正因为异常时间出现的概率比较小，不方便提取，现有技术中在处理时间序列数据预测时往往会忽略了异常事件对时间序列预测的影响，使得时间序列预测结果在某些情况下不准确，进而使得时间序列预测的可靠性不能得到保证。

因此，如何提供一种时间序列预测方案，能够提升时间序列预测的准确性，是本领域亟需解决的技术问题。

发明内容

本说明书实施例提供了一种时间序列预测方法、装置、设备、存储介质、计算机程序产品，提升了时间序列预测结果的准确性，进而能够辅助用户基于时间序列预测结果合理安排自己的工作和生活。

一方面，本说明书实施例提供了一种时间序列预测方法，所述方法包括：

获取目标预测时间对应的历史时间序列数据；

对所述历史时间序列数据进行多变量分解，将所述历史时间序列数据分解为季节性变量数据、趋势变量数据、异常变量数据和残差变量数据；其中，所述季节性变量数据、所述趋势变量数据、所述异常变量数据和所述残差变量数据的乘积等于所述历史时间序列数据；

将所述历史时间序列数据、所述季节性变量数据、所述趋势变量数据、所述异常变量数据和所述残差变量数据输入预先训练好的时间序列预测模型，在所述时间序列预测模型对每个异常变量数据对应的异常时间步骤进行数据处理时，利用所述时间序列预测模型中的注意力层计算各个异常时间步骤对应的注意力权重；

基于各个异常时间步骤的注意力权重，利用所述时间序列预测模型预测出所述目标预测时间对应的时间序列预测结果。

另一方面提供了一种时间序列预测装置，所述装置包括：

数据获取模块，用于获取目标预测时间对应的历史时间序列数据；

多变量分解模块，用于对所述历史时间序列数据进行多变量分解，将所述历史时间序列数据分解为季节性变量数据、趋势变量数据、异常变量数据和残差变量数据；其中，所述季节性变量数据、所述趋势变量数据、所述异常变量数据和所述残差变量数据的乘积等于所述历史时间序列数据；

异常感知模块，用于将所述历史时间序列数据、所述季节性变量数据、所述趋势变量数据、所述异常变量数据和所述残差变量数据输入预先训练好的时间序列预测模型，在所述时间序列预测模型对每个异常变量数据对应的异常时间步骤进行数据处理时，利用所述时间序列预测模型中的注意力层计算各个异常时间步骤对应的注意力权重；

时间序列预测模块，用于利用所述时间序列预测模型预测出所述目标预测时间对应的时间序列预测结果。

另一方面提供了一种电子设备，包括：处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述任一项所述的时间序列预测方法。

另一方面提供了一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述任一时间序列预测方法。

另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的时间序列预测方法。

本说明书实施例提供的时间序列预测方法、装置、设备、存储介质、计算机程序产品，具有如下技术效果：

本说明书实施例提供的时间序列预测方法，通过对历史时间序列数据进行多变量分解，提取时间序列数据中的异常变量数据以及季节性变量数据、趋势变量数据、残差变量数据，再将提取出的异常变量数据以及季节性变量数据、趋势变量数据、残差变量数据与历史时间序列数据一起输入到预先训练好的时间序列预测模型中，利用时间序列预测模型预测出目标预测时间的时间序列预测结果。并且，采用了注意力机制，在时间序列预测模型处理到异常变量数据对应的异常时间步骤时，自动感知异常变量数据，并计算异常变量数据对应的注意力权重，基于计算出的注意力权重来进行时间序列预测。本说明书实施例中提出的多变量分解，能够捕获到时间序列中的基本模式和趋势如：周期性模式和长期性模式，这使得时间序列预测模型能够对未见过的数据进行预测。并且，多变量分解还能够提取出时间序列中的异常变量数据，在进行时间序列预测时，利用注意力机制，自动感知异常变量数据，充分考虑了异常变量对时间序列预测的影响，进而可以提升存在异常变量场景下时间序列预测结果的准确性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1所示的仅仅是一种时间序列预测方法的应用环境的示意图；

图2是本说明书一个实施例提供的时间序列预测方法的流程示意图；

图3是本说明书一个实施例中时间序列预测模型的结构示意图；

图4是本说明书一个实施例中时间序列预测的原理流程示意图；

图5是本说明书一个场景实例中对时间序列预测模型进行动态不确定优化的原理示意图；

图6是本说明书实施例提供的一种时间序列预测装置的结构示意图；

图7是本说明书实施例提供的一种用于时间序列预测电子设备的框图；

图8是本说明书实施例提供的另一种用于时间序列预测电子设备的框图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本说明书保护的范围。

需要说明的是，本说明书实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本说明书的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本说明书实施例提供的一种时间序列预测方法的应用环境的示意图，该应用环境至少可以包括服务器100和终端200。

在一个可选的实施例中，服务器100可以用于接收终端200发送的时间序列数据，基于接收到的时间序列数据进行时间序列预测，进而方便用户根据预测结果合理安排自己的工作或生活。服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个可选的实施例中，终端200可以是向服务端100发送时间序列数据的终端，也可以根据需要在终端本地进行时间序列预测，具体的，终端200可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmentedreality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备、车载终端、智能电视等类型的电子设备；也可以为运行于上述电子设备的软体，例如应用程序、小程序等。本说明书实施例中电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

此外，需要说明的是，图1所示的仅仅是一种时间序列预测方法的应用环境的示意图，本说明书实施例并不以上述为限。

本说明书实施例中，上述服务器100和终端200可以通过有线或无线通信方式进行直接或间接地连接，本说明书实施例在此不做限制。

本说明书实施例中的时间序列预测方法，可以应用于各种互联网产品，如：可以用于预测广告平台上的销售额、用户数量、订单量等指标。例如可以通过分析广告平台上的促销活动、节假日等极端事件对销售额的影响，从而预测未来的销售额。可以用于预测社交媒体上的用户活跃度、用户增长率等指标。例如可以通过分析社交媒体上的热门话题、重大事件等极端事件对用户活跃度的影响，从而预测未来的用户活跃度。还可以用于预测金融服务平台上的股价、汇率、利率等指标。例如可以通过分析全球经济形势、政策变化等极端事件对股价、汇率、利率等指标的影响，从而预测未来的趋势。当然，根据实际需要，也可以用于其他应用场景，本说明书实施例中的时间序列预测，考虑了异常数据对时间序列预测的影响，而不是直接将异常数据删除，忽略异常数据，进而提升了时间序列预测的准确性。基于时间序列预测结果，可以帮助用户更好地了解市场变化和用户需求，制定相应的策略和产品规划，提高产品的市场竞争力和用户满意度。

以下介绍本说明书实施例一种时间序列预测方法，图2是本说明书一个实施例提供的时间序列预测方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。该方法可以应用于计算机、平板电脑、智能手机等终端设备上，当然，根据实际需要也可以应用在服务器中，本说明书实施例对此不做具体限定。具体的如图2所示，所述方法可以包括：

S202：获取目标预测时间对应的历史时间序列数据。

在具体的实施过程中，目标预测时间可以理解为需要进行时间序列预测的时间，目标预测时间可以是一个时刻也可以是一个时间范围，具体可以根据实际需要而定。如：需要预测2023年10月1-7日某景点可能的游客数量，那么2022年10月1-7日即为目标预测时间，若需要预测2023年10月1苏州的天气情况，那么2023年10月1则为目标预测时间。一般，目标预测时间是指还未发生的某个时间，也就是说，时间序列预测一般是对未来某时间的数据的预测。时间序列数据是在不同时间上收集到的数据，用于所描述现象随时间变化的情况。这类数据反映了某一事物、现象等随时间的变化状态或程度。历史时间序列数据可以理解为需要预测的时间之间的时间序列数据，例如：若需要预测某商品2023年10月份的销售额，那么，历史时间序列数据可以理解为2023年10月之前与该商品的相关数据，如：2023年10月之前该商品的促销活动、往年10月份的销量、与该商品相同类型的商品的销量等。

此外，本说明书一些实施例中，在获取到目标预测时间对应的历史时间序列数据后，所述方法还包括：

对历史时间序列数据进行极端值标记，获得历史时间序列数据中的极端数据；极端数据为发生频率小于预设频率的时间序列数据。

在具体的实施过程中，本说明书实施例中在获得历史时间序列数据后，还可以对历史时间序列数据进行极端值标记，即将历史时间序列数据中的极端数据标记出来。其中，极端数据可以理解为发生频率小于预设频率的时间序列数据，即极端数据一般为在时间序列中预期会发生但频率较低的事件。例如一个销售数据集中的“黑色星期五”销售额可能被视为一个极端事件，因为尽管销售额异常高，但这是预期会发生的。可以通过人工标记等方式将历史时间序列数据中的异常数据标记出来，用于后续时间序列预测，使得时间序列预测时能够考虑异常事件对预测结果的影响，提升事件序列预测的准确性。

在一个场景示例中，假设给定数据集D＝{x⁽¹⁾，x⁽²⁾，...，x^(k)}，其中，数据集D中包括k个单变量时间序列数据，即：

表示长度为T的时间序列实例，其中x^(k)∈RT。

对于每个时间步骤，相应的极端事件对应的极端数据可以被对齐和标记为协变量极端事件被视为外部事件的影响，一般在有限的时间步骤内动态发生。

具体而言，表示时间步骤t对应的极端数据，数值的大小可以表示极端数据对应的级别(例如请求数据量突然增加)，否则，若/>可以表示在时间步骤t没有发生极端事件，即可以理解为非极端事件条件。基于此，将具有极端事件的极端数据表示为一系列数据元组：

其中，每一对数组中表示第k个时间序列在第i个时间点的观测值，简单来说，它是时间序列的实际数据值。/>表示第k个时间序列在第i个时间点的极端数据，如果在某个时间点i发生了极端事件(例如请求数据量突然增加)，那么/>的值会是一个正数，反映这种突增的强度或大小，如果没有发生极端事件那么/>的值就是0。

特别地给定先前τ个观察值：

进而建模下一个观察值的条件分布：

其中，Φ可以表示非线性时间序列预测模型的参数。我们还希望在在线设置中降低预测的不确定性，其中预测的不确定性可以视为分布的可变性。因此在线设置下的优化问题可以定义如下：

其中，可以表示概率分布的可变性，用于衡量概率分布的可变性或不确定性，是产生每个时间步长中最小不确定性的非线性时间序列预测模型的最佳在线参数。公式(1)-(2)主要用于时间序列预测模型的优化，描述了模型优化的目标，模型的目标是找到一组参数/>使得预测的不确定性(或可变性)最小，这意味着我们希望模型的预测尽可能精确，不确定性尽可能小。

S204：对历史时间序列数据进行多变量分解，将历史时间序列数据分解为季节性变量数据、趋势变量数据、异常变量数据和残差变量数据；其中，季节性变量数据、趋势变量数据、异常变量数据和残差变量数据的乘积等于历史时间序列数据。

在具体的实施过程中，本说明书实施例采用了一种多变量分解法，利用这种多变量分解法，可以将复杂的多元的历史时间序列数据分解成季节性变量数据、趋势变量数据、异常变量数据和残差变量数据四个基本成分，并且，本说明书实施例中采用的是乘法分解法，也就是说，分解后的季节性变量数据、趋势变量数据、异常变量数据和残差变量数据乘积等于历史时间序列数据。其中，例如：季节性变量数据可以捕捉数据的周期性模式，趋势变量数据表示数据的长期趋势，异常变量数据可以突出显示数据中的突然和不寻常的变化，而残差变量数据可以包含其他未被捕获的信息。

其中，异常变量数据一般可以理解为不符合时间序列的常规模式或预期的数据点，例如：由于某种错误或其他非常规因素导致的突然的销售下降被视为异常值。可以看出，虽然极端数据和异常变量数据虽然都是不经常发生的时间序列数据，但二者还是有一定的区别的，极端数据的发生一般存在合理的原因，而异常变量数据的发生一般是不合理且可以避免的。极端数据为时间序列预测提供了关于预期的、但不常见的模式的信息，而异常变量数据则为时间序列预测提供了关于数据中可能存在的不规则性的信息。本说明书一些实施例中，可以将极端数据和异常变量数据区分开，这样能够更好地理解和区分这两种类型的特殊事件，从而提高预测的准确性和鲁棒性。但是，根据实际使用需要，也可以将极端数据和异常变量数据均作为异常数据，不进行分开处理，如：也可以将时间序列数据中与其他数据不同的数据划分为一类，作为异常数据，本说明书实施例不做具体限定。

本说明书实施例中的多变量分解并不是简单的将各个变量进行叠加，对于变量之间存在影响的数据，通过这种分解方式充分考虑了变量之间的关系，这种分解有助于揭示数据中的潜在模式和异常行为，以便更好地了解数据的特征和性质，提取出其中的异常变量数据以及季节性变量数据、趋势变量数据、和残差变量数据为后续时间序列预测模型提供有价值的输入特征。

本说明书一些实施例中，对历史时间序列数据进行多变量分解，包括：

对历史时间序列数据进行局部加权散点平滑拟合处理，获得趋势变量数据；

将历史时间序列数据除以趋势变量数据对应的时间序列，获得预处理时间序列数据；

对预处理时间序列数据按照预设时间周期进行分组，并计算每组预处理时间序列数据的平均值，获得季节性变量数据；

将历史时间序列数据去除趋势变量数据和季节性变量数据对应的时间序列，获得残差变量数据；

从残差变量数据中提取异常值，获得异常变量数据。

在具体的实施过程中，本说明书实施例中可以提供一种多变量分解方法，不仅用于提取数据的异常和突变，而且可以将复杂的时间序列分解为多个基本的组成部分。具体的，可以先将原始时间序列即历史时间序列数据x^(k)以乘法方式分解为其季节性变量数据(s^(k))、趋势变量数据(t^(k))、异常变量数据(a^(k))和残差变量数据(r^(k))四个变量，其中：

x^(k)＝s^(k)×t^(k)×a^(k)×r^(k) (3)

这种分解方法对于增加原始数据的维度并为模型提供异常自动提取非常重要。

首先，可以通过使用局部加权散点平滑来近似拟合趋势线，获得趋势变量数据t^(k)，从而实现对历史时间序列数据进行分解。然后将原始的历史时间序列数据x^(k)除以近似趋势线以得到去掉趋势变量数据的预处理时间序列数据。

然后，将去掉趋势变量数据的预处理时间序列数据分成循环子序列周期，可以根据预设时间周期决定循环大小，对预处理时间序列数据进行分组。其中，预设时间周期可以根据实际需要进行设置，如：可以将历史时间序列数据中各个数据之间的时间间隔作为预设时间周期。例如：月度数据集的循环大小为12(一年为一个周期)。对去掉趋势变量数据的预处理时间序列数据进行分组后，可以在预处理时间序列数据上计算每个周期(即每组预处理时间序列数据)的平均值来获得季节性变量数据(s^(k))。然后通过从原始的历史时间序列数据中减去季节性变量数据(s^(k))和趋势变量数据t^(k)派生出残差变量数据(r^(k))。

异常值一般会通过残差变量传播，残差变量也包含噪声，在获得残差变量数据后，可以从残差变量数据中提取异常值，获得异常变量数据(a^(k))。

本说明书实施例提供的多变量分解方法，先通过局部加权散点平滑来近似拟合的，然后原始数据被除以这个近似趋势线，这样做的目的是去除原始数据中的趋势，留下一个没有趋势的时间序列。而残差变量通常是指原始数据与模型预测之间的差异，为了得到残差，本说明书实施例从原始时间序列中减去季节性和趋势分段。季节性变量数据和趋势变量数据通常是原始时间序列数据中的两个主要组件，当从原始数据中减去这两个组件时，得到的是一个表示原始数据中未被季节性和趋势解释的部分的残差序列，这个残差序列包含了原始数据中的所有其他信息，包括可能的异常值和噪声。如果直接从去掉趋势的时间序列中减去季节变量数据，可能会得到一个不同的残差序列，因为这样做实际上是在考虑已经被趋势调整过的数据的季节性，这可能不会给我们提供原始数据中未被季节性和趋势解释的真实信息。可见，本说明书实施例提供的多变量分解方法能够更加准确的提取原始时间序列数据中的各个特征，从而提升时间序列预测的准确性。

本说明书一些实施例中，从残差变量数据中提取异常值，获得异常变量数据，包括：

根据残差变量数据的中位数计算残差变量数据中各个时间步骤对应的鲁棒性分数，鲁棒性分数用于表征时间步骤对应的残差与残差变量数据的中位数之间的差异；

若时间步骤对应的鲁棒性分数小于预设阈值，则将时间步骤对应的异常值设置为指定数值；

若时间步骤对应的鲁棒性分数大于所述预设阈值，则将时间步骤对应的残差变量数据作为时间步骤的异常值。

在具体的实施过程中，异常值一般会通过残差变量传播，残差变量也包含噪声。为了区分异常值和残差变量，均值和方差不是适合的统计指标，因为它们对异常值的异常程度高度敏感。异常值的严重程度可以改变均值和方差值，而这会带来噪声。本说明书实施例中使用残差变量数据的中位数(它对异常值的严重程度具有免疫力)，来进行异常值的提取。具体的，先为每个观察时间t定义了鲁棒性分数

其中，可以表示时间步骤t对应的鲁棒性分数，鲁棒性分数可以表征异常值的强度，/>表示时间步骤t的残差变量数据，/>表示残差变量数据的中位数。

需要注意的是，较大的表明趋势和季节性变量发生了显著变化。基于此，本说明书实施例中设置了一个预设阈值/>根据各个时间步骤对应的鲁棒性分数和预设阈值的大小来确定各个时间步骤对应的异常值。若某个时间步骤对应的鲁棒性分数小于预设阈值，则将该时间步骤对应的异常值设置为指定数值如：1；若某个时间步骤对应的鲁棒性分数大于预设阈值，则将该时间步骤对应的残差变量数据作为该时间步骤对应的异常值。具体可以参见下述公式(5)：

其中，可以表示时间步骤t对应的异常值。基于各个时间步骤对应的异常值，进而提取出原始的时间序列数据中的异常变量数据。

其中，预设阈值的大小可以根据实际需要进行设置，本说明书实施例不做具体限定。可以将历史时间序列数据中所有时间步骤对应的鲁棒性分数放在一个集合ρ^(k)中，集合中的每一个鲁棒性分数都是基于时间步骤t的残差变量数据与残差的中位数之间的差异来计算的，集合中的元素值可以按从大到小的顺序排列的，最大的鲁棒性分数(即最大的异常程度)会被放在前面，进而将集合中各个时间步骤对应的鲁棒性分数与预设阈值进行比较，提取出对应的异常值。

当异常变量数据(a^(k))远离值1时，它表明趋势和季节变量发生了突然变化(出现异常迹象)。相反当异常值和残差的值都等于表明时间步骤t上的观测信号明确遵循趋势和季节变量。需要注意的是，当使用加性分解方法时，这种重要信息可能无法自动推断出来，这是因为残差变量的值可能因数据集而异，需要手动检测。而本说明书实施例中采用的是乘法分解方式，不仅可以提取历史时间序列数据中的趋势遍历数据、季节遍历数据，还能够提取出其中的残差变量数据以及异常变量数据，从而能够在时间序列预测时，充分考虑异常值对时间序列预测的影响，提升时间序列预测的准确性，从而使得用户能够基于时间序列预测结果合理安排未来的工作和生活，避免因时间预测结果不准确给人们的生活带来的不便或给工作带来损失的问题。

S206：将历史时间序列数据、季节性变量数据、趋势变量数据、异常变量数据和残差变量数据输入预先训练好的时间序列预测模型，在时间序列预测模型对每个异常变量数据对应的异常时间步骤进行数据处理时，利用时间序列预测模型中的注意力层计算各个异常时间步骤对应的注意力权重。

在具体的实施过程中，在对历史时间序列数据进行多变量分解后，可以将分解后的数据和历史时间序列数据一起作为输入，输入到预先训练好的时间序列预测模型中。在将历史时间序列数据进行多变量分解后，可以将标记获得的极端数据与历史时间序列数据、季节性变量数据、趋势变量数据、异常变量数据和残差变量数据拼接后，作为时间序列预测模型的输入，进而利用时间序列预测模型预测目标预测时间的时间序列预测结果。本说明书实施例将这极端数据和异常变量数据分开并将它们与其他时间序列数据一起作为输入，可以使时间序列预测模型能够更好地理解和区分这两种类型的特殊事件，从而提高时间序列预测的准确性和鲁棒性。

具体的，在多变量分解完成后，将分解出的时间序列的向量与其他输入进行串联，其中可以包括观察到的时间序列及其标记的极端事件。如：可以将分解出的季节性变量数据(s^(k))、趋势变量数据(t^(k))、异常变量数据(a^(k))和残差变量数据(r^(k))与历史时间序列数据x^(k)以及标记出的极端数据e^(k)连接在一起，构建出输入向量：输入到时间序列预测模型中。

时间序列预测模型可以对输入的数据进行数据处理，在处理到异常变量数据对应的异常时间步骤时，可以利用模型中的注意力层计算异常时间步骤对应的注意力权重，注意力权重可以用于表征异常变量数据对时间序列预测的影响程度。本说明书一些实施例中，在时间序列预测模型中增加了注意力层，并且，可以利用注意力机制对异常变量数据进行自动关注，确保异常变量数据在时间序列预测时得到适当的重视，从而提升时间序列预测的准确性。具体的，可以在将历史时间序列数据分解出异常变量数据后，基于异常变量数据对应的时间，构建出一个异常时间集合，该集合中可以包括分解出的异常变量数据对应的异常时间。当然，若历史时间序列数据中还存在极端数据，异常时间集合中还可以包括极端数据对应的时间。在将历史时间序列数据、季节性变量数据、趋势变量数据、异常变量数据和残差变量数据输入时间序列预测模型中时，在处理到异常时间对应的异常时间步骤时，可以利用时间序列预测模型中的注意力层计算各个异常时间对应的异常时间步骤的注意力权重。

其中，时间序列预测模型可以理解为一种能够基于时间序列数据对未来某时间进行数据预测的模型，本说明书实施例中的时间序列预测模型能够感知时间序列数据中的异常变量，充分考虑异常变量数据对时间序列预测的影响，来预测出时间序列预测结果。其中，时间序列预测模型的结构可以根据实际需要进行选择，如：可以是选择LSTM(LongShort-Term Memory，长短时记忆网络)或GRU(Gate Recurrent Unit，门控循环单元)或RNN(Recurrent Neural Network，循环神经网络)等，本说明书实施例对时间序列预测模型的结构不做具体限定。

S208：基于各个异常时间步骤的注意力权重，利用时间序列预测模型预测出所述目标预测时间对应的时间序列预测结果。

在具体的实施过程中，在对历史时间序列数据进行多变量分解后，可以将分解后的数据和历史时间序列数据一起作为输入，输入到预先训练好的时间序列预测模型中，时间序列预测模型基于输入数据，利用注意力层自动关注数据中的异常变量数据，并计算异常变量数据对应的异常时间步骤的注意力权重，结合异常时间步骤对应的注意力权重，可以获得目标预测时间对应的时间序列预测结果。用户可以根据获得的时间序列预测结果来安排自己的工作或生活，如：若时间序列预测结果是一种天气预测，那么可以根据时间序列预测结果选择出行方式，若时间序列预测结果是某景点的未来游客量预测，那么景点工作人员可以根据预测出的游客量合理安排游客接待工作。

本说明书一些实施例中，基于各个异常时间步骤的注意力权重，利用时间序列预测模型预测出目标预测时间对应的时间序列预测结果，包括：

基于各个异常时间步骤的注意力权重，计算各个异常时间步骤的隐藏状态值；

将各个异常时间步骤的隐藏状态值输入所述时间序列预测模型的稠密层，获得所述时间序列预测结果。

在具体的实施过程中，异常时间步骤的注意力权重在一定程度上可以表征异常变量数据对时间序列预测的影响程度。基于各个异常时间步骤对应的注意力权重来计算各个异常时间步骤对应的隐藏状态值，进而将计算出的隐藏状态值输入到时间序列预测模型的稠密层中，获得时间序列预测结果。通过注意力机制自动感知数据中的异常数据，并将异常数据应用到时间序列预测中，提升了时间序列预测的准确性。

本说明书一些实施例中，利用时间序列预测模型中的注意力层计算各个异常时间步骤对应的注意力权重，包括：

根据历史时间序列数据、季节性变量数据、趋势变量数据、异常变量数据和残差变量数据，利用时间序列预测模型中的注意力层基于各个异常时间步骤之前预设时间步骤的隐藏状态值，确定出各个异常时间步骤的初始注意力权重；

基于各个异常时间步骤之前所有时间步骤对应的初始注意力权重，获得各个异常时间步骤对应的注意力权重。

在具体的实施过程中，一般的时间序列预测模型如：LSTM和GRU适用于预测具有相对较低的计算时间和内存复杂度的重复模式，而完全注意力变换器的二次复杂度则会受到影响，本说明书实施例通过注意机制增强了时间序列预测模型的长期依赖性，以保留异常和极端事件的影响，以便对目标预测时间进行预测。这样的架构不仅使模型能够处理大规模数据集的计算，而且可以考虑极端事件和异常的关键时刻。

其中，注意力机制的使用过程可以参考如下：

假设给定过去τ个时间步的观察值推导出处理梯度消失问题的RNN的隐藏状态(例如LSTM或GRU)如下：

其中，h_t可以表示时间步骤t处的RNN隐藏层。本说明书实施例中模型中的注意力层只关注异常变量数据和极端数据，这些数据自然而然是罕见的，并属于少数观测数据的小群体。而且两者可能对预测产生不同的影响，并且根据数据集的类型，建模可能具有挑战性。基于此，本说明书实施例设计了一种注意机制，以在其发生时自动注意到极端数据和异常变量数据，首先，建立一个异常时间集合J：

J＝{t∈Z⁺|e_t≠0 V a_t≠1} (7)

其中，J为异常时间集合，即当存在极端数据(e_t≠0)或异常变量数据(a_t≠1)时，获取对应的时间步骤，构建出的时间步长的集合为J。然后将所有异常时间步骤(即极端数据或异常变量数据发生的时间对应的时间步骤)的先前预设时间步骤(如：先前5步或10步)RNNs隐藏状态结合起来，并通过由注意力层生成的初始注意力权重v_t进行正则化，如下所示：

其中，w_α和b_α分别为注意力层的权重和偏置。然后，基于初始注意力权重计算所有先前值的注意力权重，即根据当前时间步骤t之前的所有时间步骤的初始注意力权重，进行加权平均或其他计算获得时间步骤t对应的注意力权重。本说明书一个实施例中，时间步骤t对应的注意力权重的计算方式可以参考下述公式(9)：

其中，α_t为异常时间t对应的异常时间步骤的注意力权重。可以看出，其中，初始注意力权重v_t只对时间步骤t先前预设时间步骤的注意力层进行关注，而注意力权重α_t还对其他注意力层进行关注，考虑了异常变量数据和极端数据对不同时间步骤的影响，进而后续时间序列预测的准确性。α_t、v_t虽然都对应于时间步骤t，但是他们关注的注意力层不同，本说明书实施例中相当于使用了双层的权重。

生成的注意力权重随后用于时间序列预测模型中的预测模块计算下一时间步的值即隐藏状态值

/>

再基于计算出的下一时间步的值通过一个稠密层计算得出对应的时间序列预测结果y_t+1：

其中，w_d和b_d是稠密层的权重和偏差。在时间序列预测模型的训练过程中，为了训练网络我们最小化预测损失其定义如下：

其中，可以transformer模型即时间序列模型中的注意力层，y是训练标签，即下一个时间步的真实时间序列，需要注意的是/>代表离线训练阶段后的最优模型参数。公式(12)主要可以用于时间序列模型的训练过程中，以获得最优的模型参数。

通常情况下，在很多循环神经网络中，隐藏状态是在每个时间步骤中维护的内部状态，它捕获了到目前为止观察到的信息。本说明书实施例中，在每个时间步骤中都会更新隐藏状态，并用于下一个时间步骤的预测。模型会评估先前的隐藏状态对于下一个时间步骤预测的重要性或贡献度，这可以帮助模型确定哪些信息是关键的，哪些信息可以被忽略或降低其重要性。通过确定先前隐藏状态对下一个时间步骤预测的相关性来改善每个时间步骤t的确定性和准确性。即本说明书实施例可以通过评估过去的信息(隐藏状态)对未来预测的影响，来提高预测的准确性和确定性。

图3是本说明书一个实施例中时间序列预测模型的结构示意图，如图3所示，该时间序列预测模型可以采用LSTM结构，在模型接收到输入后，经过模型中的隐藏层h_t后，若识别到存在异常时间步骤，那么可以利用上述实施例中提到注意力机制，进行异常感知。也就是说，只有当时问步骤t存在于集合J中(即存在异常或极端事件)时，才会计算对应的注意力权重，结合计算出的注意力权重进行下一时间的时间序列预测。若时间步骤t不是异常时间步骤，则按照正常的数据处理流程，利用时间序列预测模型的模型层、Dropout层以及稠密层，进行下一时间步骤的预测处理。也就是说，对于非异常时间步骤，不需要使用注意力机制进行注意力权重的计算。图3中的C_t可以理解为是模型中第t个时间步骤的单元状态，Dense可以表示模型中的稠密层。

由于异常变量数据和极端数据在整个时间序列中很少出现，将它们直接发送到常规的RNN模型(如LSTM)中很可能在训练模型时被忽略。一般的，时间序列预测模型依赖于LSTM或transformers体系结构来进行预测，虽然LSTM旨在获得长期依赖性，但在大时间步长内对子窗口特征提供不同程度的注意力的能力不足。即使LSTM模型可以处理具有200个观测值的有效序列，它们也只能明显区分最近的50个数据值，这表明即使LSTM也难以捕捉长期依赖性。另一方面传统的transformers由于具有更高的计算和内存资源要求，这限制了其处理长输入序列的能力。尽管使用了稀疏注意算法改善了这些内存限制，但它们与真实世界数据集相比，与全注意力机制相比的性能提升并不显着。鉴于极端事件和异常很少出现，并且它们可能相距很远，增加输入序列以提供对所有先前看到的异常和极端事件的注意力在计算上是不可行的。

本说明书实施例中，提出了一种注意力机制，专门用于关注数据集中的异常变量数据和极端数据，即使它们发生时距离当前很遥远。由于它们的罕见性，因此在学习中这些数据重要性更高，因为趋势和季节模式通常更容易由统计或深度学习模型预测。通过引入新的注意力机制专门用于关注数据中的异常变量数据和极端数据，并计算异常变量数据和极端数据对应的时间步骤的注意力权重，进而进行下一时间步骤的时间序列预测。通过注意力机制增强了异常值和极端数据对时间序列预测的影响，进而提升了时间序列预测的准确性。

本说明书一些实施例中，所述方法还包括：

在训练好时间序列预测模型之后，将时间序列预测模型作为初始时间序列预测模型，获取测试样本数据，测试样本数据中包括异常变量样本数据；

利用测试样本数据对初始时间序列预测模型进行测试训练，在测试训练过程中，根据输入的测试样本数据依次确定每一个时间步骤初始时间序列预测模型对应的目标丢弃概率；

在各个时间步骤的数据处理过程中，基于目标丢弃概率随机关闭初始时间序列预测模型中指定数量的神经元；

对关闭神经元后的初始时间序列预测模型进行测试训练，以对初始时间序列预测模型的模型参数进行优化，将优化后的初始时间序列预测模型，作为时间序列预测模型。

在具体的实施过程中，图4是本说明书一个实施例中时间序列预测的原理流程示意图，如图4所示，本说明书实施例中的时间序列预测可以包括三个部分：1)多变量分解，自动提取时间序列数据的异常变量数据和必要的特征。2)提取的异常被发送到时间序列预测模型中，利用异常和极端事件上的注意力机制，生成预测分布。3)为了进一步以在线方式减少预测的不确定性，本说明书实施例还提出了一种动态不确定性的优化算法。图4中ModelLayer(模型层)，通常是神经网络或其他机器学习模型的核心部分，负责从输入数据中提取特征并生成预测结果。此外，本说明书实施例中的模型层的输出会被用作动态不确定优化的输入，以进一步调整或优化预测结果。Dropout是一种正则化技术，通过在训练过程中随机关闭一部分神经元来防止过拟合。Dynamic Dropout是一种更高级的Dropout技术，它会根据模型的当前状态或输入数据的特性动态调整Dropout的比率。Dynamic Dropout可以视为Dropout的一个变种或扩展。Dense(稠密层)，通常指的是全连接层，其中每个输入神经元都连接到下一层的每个神经元。稠密层的目的是对从前面层(如卷积层或循环层)提取的特征进行进一步的转换和组合。Dropout层通常在Dense层之前使用，以防止过拟合并增强模型的泛化能力。此外，模型中实际上还包括注意力层，注意力层一般可以设置在Dense层之前，注意力层主要用于对数据中的异常和极端数据进行关注，图4中没有示意出。

模型的不确定性一般希望尽可能低且稳定，因此进一步优化模型预测的不确定性在离线训练和在线测试阶段都是至关重要的。本说明书实施例提出了一种动态不确定优化，一般的，动态不确定优化的过程可以在时间序列预测模型训练完成之后的测试阶段使用。通过以在线方式(测试数据)从之前训练的模型/>产生M个每个时间步长的预测，获得M个输出y^*，其中预测分布为/>然后通过计算分布的平均值，得出未来观测的概率分布的标准差(SD)表示不确定性。进一步通过针对每个时间步骤推导出的目标丢弃概率p来优化框架的不确定性。值得注意的是，如果没有这样的目标丢弃概率(例如p＝0)，模型预测将偏离概率预测，并且对于每个时间步骤不提供其预测的不确定性水平。假设推导出预测的最佳不确定性μ_t，当它导致预

测值的方差(即SD)最小时，即在测试阶段将预测不确定性降至最低。基于此，本说明书实施例中，可以将预测不确定性定义为：

具体过程可以参考如下：

1.数据采样：可以从训练数据中采样一个测试样本数据，其中可以包括异常变量数据和极端数据。

2.模型测试训练：使用采样的数据进行模型测试训练，目标是最大化总体预测准确性。可以通过预测分布的平均值的大小来评估总体预测准确性，或通过预测不确定性的取值最小来评估总体预测准确性，当然，也可以通过其他方式进行评估，本说明书实施例不做具体限定。

3.动态不确定性优化：

在测试过程中，时间序列预测模型自动调整其预测的不确定性，这一步骤确保了每个未来预测步骤中的预测不确定性最小，这种优化方法不需要进一步的监督训练，通过控制模型的可变性，确保每个未来预测步骤中的预测不确定性最小，无论是否提供标签。

具体的，可以先将训练好的时间序列预测模型作为初始时间序列预测模型，在测试训练过程中阶段，初始时间序列预测模型会自动选择并报告一个最佳的目标丢弃概率，以达到最低的不确定性。例如，当模型预测结果的标准差最小时，最优的不确定性结果可能会发生。此外，本说明书实施例中在模型测试训练过程中可以为每个时间步骤确定一个最佳的目标丢弃概率，这样做的目的是为了根据数据的特性和模型的当前状态来调整丢弃的强度。例如：当某个时间步骤确定出当p＝0.5时，网络模型显示出最高的预测自信度(即最低的不确定性)，其中不需要的神经元从网络中删除。则认为在测试阶段的这个时间步骤中，网络自动选择并报告p＝0.5概率作为目标丢弃概率。可以看出，目标丢弃概率主要用于表征该概率下模型拥有最低的不确定性。图5是本说明书一个场景实例中对时间序列预测模型进行动态不确定优化的原理示意图，图5中AA-Model以及AA-Model Layer可以理解为上述实施例中记载的时间序列预测模型，Dynamic Dropout则表示动态不确定优化，如图5所示，每个时间步骤时间序列预测模型会计算出一个输出即隐藏状态值h_t，再利用动态不确定优化算法，确定出每一个时间步骤对应的最佳的目标丢弃概率Dropoutμ_t。基于每一个步骤对应的目标丢弃概率，可以获得对应的输出。

一旦确定了每个时间步骤的最佳的目标丢弃概率，可以在该时间步骤的前向和反向传播过程中应用它。基于这个目标丢弃概率，会随机地关闭初始时间序列预测模型中的一部分神经元，关闭的神经元的数量可以根据目标丢弃概率的取值来决定，不同的目标丢弃概率可以关闭不同数量的神经元，具体关闭神经元的数量可以根据实际需要进行调整，本说明书实施例不做具体限定。这样，在模型的测试训练过程中，每一个时间步骤会对应关闭不同数量的神经元，再对关闭神经元后的模型进行测试训练，从而可以实现模型能够获得最优的预测不确定性下的模型参数，实现对模型的优化，从而获得最终的时间序列预测模型。最终的模型参数可以通过整个测试训练过程中的反向传播和优化算法(如梯度下降)来确定的，尽管每个时间步骤可能有不同的目标丢弃概率，但所有的时间步骤都会对同一组模型参数进行更新。

本说明书实施例提供了一种动态不确定优化算法，通过对训练好的时间序列预测模型进行测试训练，获得每一个时间步骤对应的目标丢弃概率，基于目标丢弃概率来关闭时间序列预测模型中的神经元，基于关闭神经元后的时间序列预测模型进行测试训练，从而使得时间序列预测模型能够获得最小的不确定预测结果，进而使得模型在存在异常或极端事件的情况下提供最少的不确定性，提升了时间序列预测模型预测结果的准确性。通过在模型测试阶段自动调整其预测的不确定性，以提高预测的准确性和信心，而不需要进行额外的训练或调整，从而使得允许模型在面对新的、未见过的数据时更加灵活和自适应，提升时间序列预测的适应性。

本说明书一些实施例中，根据输入的测试样本数据依次确定每一个时间步骤初始时间序列预测模型对应的目标丢弃概率，包括：

将每一个时间步骤对应的丢弃概率从0到1按照预设步长逐渐增加，根据输入的测试样本数据计算各个丢弃概率下每一个时间步骤初始时间序列预测模型的预测误差；

将预测误差最小时对应的丢弃概率作为对应时间步骤初始时间序列预测模型对应的目标丢弃概率。

在具体的实施过程中，每一个时间步骤对应的目标丢弃概率的确定是一个尝试或搜索过程，可以在模型测试训练过程中，对每一个时间步骤将丢弃概率从0到1按照预设步长逐渐增加，如：可以每次增加0.1，这样对于每一个时间步骤，可以基于输入的测试样本数据计算初始时间序列模型以下丢弃概率对应的预测误差：0、0.1、0.2、0.3、...、0.9、1.0。即对于每一个丢弃概率，模型都会计算预测误差，以确定哪个概率值为模型提供了最佳的预测性能。可以将预测误差最小时对应的丢弃概率作为该时间步骤初始时间序列预测模型对应额目标丢弃概率。其中，预设步长的取值可以根据实际需要进行调整，本说明书实施例不做具体限定。

例如：在计算时间步骤t对应的目标丢弃概率时，将丢弃概率从0开始，每次增加0.1，获得11个丢弃概率。每个丢弃概率会对应关闭初始时间序列预测模型的不同数量的神经元，分别关闭不同的神经元的情况下，初始时间序列预测模型可以对应有预测误差。计算这11个丢弃概率下，初始时间序列预测模型的预测误差，选择预测误差最小时，对应的丢弃概率作为时间步骤t对应的目标丢弃概率。如：经过计算丢弃概率为0.4时模型的预测误差最小，可以将0.4作为时间步骤t对应的目标丢弃概率。

本说明书实施例通过对每一个时间步骤进行丢弃概率的逐渐增加，并计算不同丢弃概率下时间序列预测模型的预测误差，基于预测误差确定出每个时间步骤对应的目标丢弃概率，从而使得每一个时间步骤都能够获得一个最佳的丢弃概率。实现基于时间序列预测模型的当前状态和数据特性动态调整丢弃概率的功能，改善每个时间步骤的确定性和准确性，使得模型可以更准确地预测下一个时间步骤的值，同时也更有信心地进行这样的预测，进而提升了时间序列预测的准确性和确定性。

本说明书一些实施例中还可以提供一种时间序列预测模型的训练方法，训练过程和上述预测过程相似，可以包括下述步骤：

采集时间序列样本数据，采集到的时间序列样本数据后，还可以将时间序列样本数据中的极端样本数据标记出来。

对时间序列样本数据进行多变量分解，将时间序列样本数据分解为季节性变量样本数据、趋势变量样本数据、异常变量样本数据和残差变量样本数据；其中，季节性变量样本数据、趋势变量样本数据、异常变量样本数据和残差变量样本数据的乘积等于时间序列样本数据。其中，多变量分解的具体过程可以参考上述实施例的记载，此处不再赘述。

将时间序列样本数据、极端样本数据、季节性变量样本数据、趋势变量样本数据、异常变量样本数据和残差变量样本数据作为输入，将时间序列样本数据对应的标签作为输出，训练时间序列预测初始模型，直至满足预设条件，将满足预设条件时的时间序列预测初始模型作为最终的时间序列预测模型。

此外，在时间序列预测模型训练过程中，还可以采用上述实施例中的注意力机制，使得模型能够自动感知到异常变量数据和极端数据，注意力机制的具体使用过程参见上述实施例的记载，此处不再赘述。

模型经过训练，能够自动提取出异常数据和极端数据，并通过注意机制将其纳入到最终的概率预测中，以提高在存在异常和极端事件时预测结果的准确性。此外，本说明书实施例中还采用动态不确定性来优化算法，降低时间序列预测模型的不确定性，与当前时间序列预测方法相比，本说明书实施例提供的时间序列预测方法在多个不同的异常数据变化的业务场景中表现出了更好的性能，模型预估准确性更高并且不确定性更小。

在存在异常事件和极端事件时进行时间序列预测非常重要，这要求开发高精度、低不确定性的预测模型，以预估外部事件对大规模时间序列数据的影响。然而开发可靠和准确的预测模型仍然是一个挑战，因为实际的数据集通常包含罕见且随机的异常值，因此开发一种可以利用已有的极端异常数据进行训练和预测的模型非常重要。尽管在基于机器学习的模型方面取得了相当大的成就，但现有方法往往忽略异常值对实际时间序列数据的特殊影响。例如LSTM模型被广泛用于通过门控机制解决梯度消失问题，并具有捕捉复杂时间依赖性的能力。然而即使LSTM也只有有限的能力来捕捉长期依赖性，随着输入序列长度的增加，模型对上下文的理解迅速下降，因此非常难以捕捉和学习罕见事件或极端事件。

transformer模型受益于自我注意机制，允许特征序列中的每个观察都可以独立地参与到序列中的其他特征中。然而这种方法需要相当大的计算和内存资源，并且对计算资源的需求随着序列长度的增加呈平方级增长，使得在大规模数据中训练的成本非常高昂。因此当需要输入更长的事件序列并且包含极端事件时，使用transformer训练和计算成本非常高昂。此外，从设计本身上看，transformer是否可以像RNN一样有效也不清楚，transformer中的注意机制可以不严格遵循按时间排序。

一般的时间序列预测模型缺乏处理异常变量数据和极端数据的有效方法，且不能提供稳定的不确定性水平，这使得当异常事件和极端事件存在时，模型的预测变得非常不可靠。本说明书提供一种时间序列预测方法，它能够自动提取和利用异常变量数据、极端数据来优化其概率预测，提升了时间序列预测的准确性。

基于上述所述的时间序列预测方法，本说明书一个或多个实施例还提供一种时间序列预测处理的终端、服务端。所述终端、服务端可以包括使用了本说明书实施例所述方法的装置(包括分布式系统)、软件(应用)、模块、组件、服务器、终端等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参考前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

由以上本说明书实施例提供的技术方案可见，本说明书本说明书实施例还提供了一种时间序列预测装置，图6是本说明书实施例提供的一种时间序列预测装置的结构示意图，如图6所示，上述装置包括：

数据获取模块610，用于获取目标预测时间对应的历史时间序列数据；

多变量分解模块620，用于对所述历史时间序列数据进行多变量分解，将所述历史时间序列数据分解为季节性变量数据、趋势变量数据、异常变量数据和残差变量数据；其中，所述季节性变量数据、所述趋势变量数据、所述异常变量数据和所述残差变量数据的乘积等于所述历史时间序列数据；

异常感知模块630，用于将所述历史时间序列数据、所述季节性变量数据、所述趋势变量数据、所述异常变量数据和所述残差变量数据输入预先训练好的时间序列预测模型，在所述时间序列预测模型对每个异常变量数据对应的异常时间步骤进行数据处理时，利用所述时间序列预测模型中的注意力层计算各个异常时间步骤对应的注意力权重；

时间序列预测模块640，用于基于各个异常时间步骤的注意力权重，利用所述时间序列预测模型预测出所述目标预测时间对应的时间序列预测结果。

本说明书一些实施例中，所述时间序列预测模块640具体用于

本说明书一些实施例中，所述异常感知模块630具体用于：

根据所述历史时间序列数据、所述季节性变量数据、所述趋势变量数据、所述异常变量数据和所述残差变量数据，利用所述时间序列预测模型中的注意力层基于各个异常时间步骤之前预设时间步骤的隐藏状态值，确定出各个异常时间步骤对应的初始注意力权重；

本说明书一些实施例中，多变量分解模块620具体用于：

对所述历史时间序列数据进行局部加权散点平滑拟合处理，获得所述趋势变量数据；

将所述历史时间序列数据除以所述趋势变量数据对应的时间序列，获得预处理时间序列数据；

对所述预处理时间序列数据按照预设时间周期进行分组，并计算每组预处理时间序列数据的平均值，获得所述季节性变量数据；

将所述历史时间序列数据去除所述趋势变量数据和所述季节性变量数据对应的时间序列，获得所述残差变量数据；

从所述残差变量数据中提取异常值，获得所述异常变量数据。

本说明书一些实施例中，多变量分解模块620具体用于：

根据所述残差变量数据的中位数计算所述残差变量数据中各个时间步骤对应的鲁棒性分数，所述鲁棒性分数用于表征时间步骤对应的残差与所述残差变量数据的中位数之间的差异；

若所述时间步骤对应的鲁棒性分数小于预设阈值，则将所述时间步骤对应的异常值设置为指定数值；

若所述时间步骤对应的鲁棒性分数大于所述预设阈值，则将所述时间步骤对应的残差变量数据作为所述时间步骤的异常值。

本说明书一些实施例中，所述装置还包括模型动态优化模块用于：

在训练好所述时间序列预测模型之后，将所述时间序列预测模型作为初始时间序列预测模型，获取测试样本数据，所述测试样本数据中包括异常变量样本数据；

利用所述测试样本数据对所述初始时间序列预测模型进行测试训练，在测试训练过程中，根据输入的测试样本数据依次确定每一个时间步骤所述初始时间序列预测模型对应的目标丢弃概率；

在各个时间步骤的数据处理过程中，基于所述目标丢弃概率随机关闭所述初始时间序列预测模型中指定数量的神经元；

对关闭神经元后的初始时间序列预测模型进行测试训练，以对所述初始时间序列预测模型的模型参数进行优化，将优化后的初始时间序列预测模型，作为所述时间序列预测模型。

本说明书一些实施例中，模型动态优化模块具体用于：

将每一个时间步骤对应的丢弃概率从0到1按照预设步长逐渐增加，根据输入的测试样本数据计算各个丢弃概率下每一个时间步骤所述初始时间序列预测模型的预测误差；

将所述预测误差最小时对应的丢弃概率作为对应时间步骤所述初始时间序列预测模型对应的目标丢弃概率。

本说明书一些实施例中，数据获取模块610还用于：

在获取到所述目标预测时间对应的历史时间序列数据后，对所述历史时间序列数据进行极端值标记，获得所述历史时间序列数据中的极端数据；所述极端数据为发生频率小于预设频率的时间序列数据；

将所述极端数据和所述历史时间序列数据、所述季节性变量数据、所述趋势变量数据、所述异常变量数据和所述残差变量数据拼接后，输入到所述时间序列预测模型中。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。上述实施例中的装置根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

图7是本说明书实施例提供的一种用于时间序列预测电子设备的框图，该电子设备可以是终端，其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种时间序列预测方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

图8是本说明书实施例提供的另一种用于时间序列预测电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种时间序列预测方法。

本领域技术人员可以理解，图7或图8中示出的结构，仅仅是与本说明书实施例方案相关的部分结构的框图，并不构成对本说明书实施例方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本说明书实施例中的时间序列预测方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本说明书实施例中的时间序列预测方法。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的时间序列预测方法。

可以理解的是，在本说明书的具体实施方式中，涉及到用户相关的数据，当本说明书以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本说明书所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本说明书实施例的其它实施方案。本说明书旨在涵盖本说明书实施例的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书实施例的一般性原理并包括本说明书实施例未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书实施例的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书实施例并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书实施例的范围仅由所附的权利要求来限制。

Claims

1.一种时间序列预测方法，其特征在于，所述方法包括：

获取目标预测时间对应的历史时间序列数据；

2.根据权利要求1所述的方法，其特征在于，所述基于各个异常时间步骤的注意力权重，利用所述时间序列预测模型预测出所述目标预测时间对应的时间序列预测结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用所述时间序列预测模型中的注意力层计算各个异常时间步骤对应的注意力权重，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述历史时间序列数据进行多变量分解，包括：

5.根据权利要求4所述的方法，其特征在于，所述从所述残差变量数据中提取异常值，获得所述异常变量数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据输入的测试样本数据依次确定每一个时间步骤所述初始时间序列预测模型对应的目标丢弃概率，包括：

8.根据权利要求1所述的方法，其特征在于，在获取到所述目标预测时间对应的历史时间序列数据后，所述方法还包括：

对所述历史时间序列数据进行极端值标记，获得所述历史时间序列数据中的极端数据；所述极端数据为发生频率小于预设频率的时间序列数据；

9.一种时间序列预测装置，其特征在于，所述装置包括：

时间序列预测模块，用于基于各个异常时间步骤的注意力权重，利用所述时间序列预测模型预测出所述目标预测时间对应的时间序列预测结果。

10.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的时间序列预测方法。

11.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至8中任一项所述的时间序列预测方法。