CN115146764A

CN115146764A - 一种预测模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN115146764A
Application number: CN202210737538.5A
Authority: CN
Inventors: 解文斌; 胡杰; 石凌燕; 梁天健; 李华
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-10-04

Abstract

本申请实施例公开了一种预测模型的训练方法、装置、电子设备及存储介质，该方法包括：获取原始时序数据；对原始时序数据进行预处理，得到外生变量，外生变量用于表征将原始时序数据对应的周期性数据延伸第一预设时间段；将原始时序数据和外生变量输入至预设模型，基于外生变量和局部敏感哈希函数，对原始时序数据进行处理，得到与第一预设时间段对应的预测时序数据；根据预测时序数据和预设时序数据，训练预设模型，直至预设模型满足预设训练条件，得到训练好的预测模型。根据本申请的实施例，能够有效解决数据预测的准确率低的问题。

Description

一种预测模型的训练方法、装置、电子设备及存储介质

技术领域

本申请属于互联网技术领域，尤其涉及一种预测模型的训练方法、装置、电子设备及存储介质。

背景技术

随着信息技术的发展，在智能运维领域，分析历史指标数据，解析其内在时序模式，并对未来走向做出预测至关重要。这类时序数据通常有一列时间戳和其对应的多元向量数值组成。时间序列预测在智能运维中的应用场景，可以包括网络吞吐率，磁盘占用率和业务量预测等。

目前，对于时序数据的预测方法主要分为传统的统计分析方法，以及深度学习类序列建模方法。然而，现有的时间序列预测方法往往基于大量数据分布的假设，并且仅对时序数据的线性关系进行分析和捕捉，数据预测的准确率低。

发明内容

本申请实施例提供一种预测模型的训练方法、装置、电子设备及存储介质，能够解决目前数据预测的准确率低的问题。

第一方面，本申请实施例提供一种预测模型的训练方法，该方法包括：

获取原始时序数据；

对原始时序数据进行预处理，得到外生变量，外生变量用于表征将原始时序数据对应的周期性数据延伸第一预设时间段；

将原始时序数据和外生变量输入至预设模型，基于外生变量和局部敏感哈希函数，对原始时序数据进行处理，得到与第一预设时间段对应的预测时序数据；

根据预测时序数据和预设时序数据，训练预设模型，直至预设模型满足预设训练条件，得到训练好的预测模型。

第二方面，本申请实施例提供一种预测模型的训练装置，预测模型的训练装置包括：

获取模块，用于获取原始时序数据；

预处理模块，用于对原始时序数据进行预处理，得到外生变量，外生变量用于表征将原始时序数据对应的周期性数据延伸第一预设时间段；

输入模块，用于将原始时序数据和外生变量输入至预设模型，基于外生变量和局部敏感哈希函数，对原始时序数据进行处理，得到与第一预设时间段对应的预测时序数据；

训练模块，用于根据预测时序数据和预设时序数据，训练预设模型，直至预设模型满足预设训练条件，得到训练好的预测模型。

第三方面，本申请实施例提供了一种电子设备，该设备包括：处理器以及存储有计算机程序指令的存储器；处理器执行计算机程序指令时，实现如第一方面或者第一方面的任一可能实现方式中的方法。

第四方面，本申请实施例提供了一种可读存储介质，该计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如第一方面或者第一方面的任一可能实现方式中的方法。

本申请实施例中，通过对原始时序数据进行预处理，得到用于表征将原始时序数据对应的周期性数据延伸第一预设时间段的外生变量，这里，能够将原始时序数据对应的周期性数据融入至外生变量中，便于在后续的预测过程中，融入实际使用场景下的领域特征信息。然后，将原始时序数据和外生变量输入至预设模型，基于外生变量和局部敏感哈希函数，对原始时序数据进行处理，得到与第一预设时间段对应的预测时序数据，由于外生变量为从原始时序数据中提取的信息，在模型的推理过程中无需再进行自回归式的推理，能够实现多水平的并行的推理过程，能够加速推理速度。最后，根据预测时序数据和预设时序数据训练预设模型，直至预设模型满足预设训练条件，得到训练好的预测模型。由此，训练好的预测模型能够快速准确地预测原始时序数据对应的预测时序数据。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种预测模型的训练方法的流程图；

图2是本申请实施例提供的一种预处理过程的示意图；

图3是本申请实施例提供的一种预测模型的结构示意图；

图4是本申请实施例提供的一种生成对抗网络的结构示意图；

图5是本申请实施例提供的一种预测模型的训练装置的结构示意图；

图6是本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本申请，并不被配置为限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面对本申请涉及到的技术术语进行简要介绍。

吞吐率原指一个业务系统在单位时间内提供的产量，或服务量。在计算机或数据通信系统，指的是单位时间内通过某通信信道或某个节点成功交付数据的平均速率，通常以每秒比特数(bits per second，bps)为单位。

CPU使用率其实就是运行的程序占用的中央处理器(central processing unit，CPU)资源，表示机器在某个时间点的运行程序的情况。使用率越高，说明机器在这个时间上运行了很多程序，反之较少。使用率的高低与CPU强弱有直接关系。

长短期记忆网络(Long Short-Term Memory，LSTM)是一种时间循环神经网络，是为了解决一般的循环神经网络存在的长期依赖问题而专门设计出来的，所有的循环神经网络都具有一种重复神经网络模块的链式形式。

Transformer，使用全注意力机制的结构代替了LSTM，抛弃了之前传统的encoder-decoder模型必须结合卷积神经网络(Convolutional Neural Networks，CNN)或者循环神经网络(Recurrent Neural Network，RNN)的固有模式。在减少计算量和提高并行效率的同时还取得了更好的结果。Transformer模型摒弃了序列化建模的思想，将自注意力机制作为深度模型的内核，从而使并行化训练成为可能，并有效缓解了回归式神经网络在训练阶段的错误累积效应。

其中，自注意力机制是Transformer中关键的一个概念。自注意力机制，顾名思义，指的是数据的内部元素之间发生的Attention机制。显然，Self-Attention更容易长距离的相互依赖的特征，因为如果是RNN或LSTM需要根据时间序列计算目标(Target)，对于远距离的相互依赖的特征，要经过若干时间步的信息累积才能将两者联系起来，而距离越远，有效信息也就越难提取。但是，Self-Attention在计算过程中直接将任意两个Target之间的联系通过一个计算结果直接表示，远距离依赖特征之间的距离被极大缩短，有利于有效地利用这些特征。

Prophet，是一种基于加性模型预测时间序列数据的方法，其中非线性趋势与年、周、日的季节性变化以及假日效应相吻合。它适合具有强烈季节性影响和多个季节历史数据的时间序列。

外生变量，它是只对系统产生影响而不受系统的影响。在经济计量模型中，外生变量是与模型的随机扰动项不相关的变量。通常，描述影响经济系统运行的，技术、政治、制度、自然条件等外部因素的变量都是外生变量。

本申请实施例提供的预测模型的训练方法至少可以应用于下述应用场景中，下面进行说明。

随着信息技术的发展，保障数字化系统的稳定性成为了企业的刚需。在智能运维领域，分析历史指标数据，解析其内在时序模式，并对未来走向做出预测至关重要。

这类数据通常有一列时间戳和其对应的多元向量数值组成。时间序列预测在智能运维中的应用场景，可以包括网络吞吐率，磁盘占用率，CPU使用率预测，业务量预测，虚拟系统容量预测等。时间序列预测技术是作为智能运维技术领域中一部分基石的存在。

成熟的时间预测技术可以作为其他智能运维技术，如异常检测，根因分析等中间件，从而提升其对应的性能。其中，根因分析是一项结构化的问题处理法，用以逐步找出问题的根本原因并加以解决，而不是仅仅关注问题的表征。

现有的时间序列预测方法主要分为传统的统计分析方法，以及近年来兴起的深度学习类序列建模方法如循环神经网络。然而，传统的统计分析方法，往往基于大量数据分布的假设，并且仅对时序数据的线性关系进行分析和捕捉，缺乏泛用性和延展性。现有的深度学习类序列建模方法虽然能够捕捉复杂的高阶规律，但是存在如下问题：

首先，模型在推理阶段依赖自回归，使得长序列预测变的不可行。其次，模型的时间复杂度过高，难以在工业上大规模部署。接着，模型的不稳定性高，尤其是对序列回归式的建模，如RNN类模型，此类问题尤为显著。最后，深度模型难以编码使用者的领域知识，使得模型缺少实际经验的约束从而易于过拟合。

现有的深度学习类序列建模方法，依旧存在难以并行化训练和错误累积的问题，从而使大规模工业部署成为工业技术领域的痛点。

Transformer有效的提升了序列模型的性能，在神经语言程序学(Neuro-Linguistic Programming，NLP)领域和图像领域有了广泛的研究热度，但是对于时间序列类数据，由于序列往往远长于NLP任务的序列，Transformer仍然有在长时间序列上计算效率过低的问题，以及其在推理阶段依旧属于自回归式的计算，在推理阶段依旧有错误累积效应，从而给其工业上的落地带来了极大的挑战。

图1是本申请实施例提供的一种预测模型的训练方法的流程图。

如图1所示，该预测模型的训练方法可以包括步骤110-步骤140，该方法应用于预测模型的训练装置，具体如下所示：

步骤110，获取原始时序数据。

步骤120，对原始时序数据进行预处理，得到外生变量，外生变量用于表征将原始时序数据对应的周期性数据延伸第一预设时间段。

步骤130，将原始时序数据和外生变量输入至预设模型，基于外生变量和局部敏感哈希函数，对原始时序数据进行处理，得到与第一预设时间段对应的预测时序数据。

步骤140，根据预测时序数据和预设时序数据，训练预设模型，直至预设模型满足预设训练条件，得到训练好的预测模型，预测时序数据的时序信息与预设时序数据的时序信息相匹配。

下面，对步骤110-步骤140的内容分别进行描述：

涉及步骤110。

获取原始时序数据。

其中，原始时序数据是与时间序列相关的数据，比如：与时间序列对应的网络吞吐率，与时间序列对应的磁盘占用率和与时间序列对应的CPU使用率等。

涉及步骤120。

对原始时序数据进行预处理，得到外生变量，外生变量用于表征将原始时序数据对应的周期性数据延伸第一预设时间段。

其中，原始时序数据对应原始时间段，第一预设时间段在原始时间段之后。

利用prophet模型的泛用性，可以实现简单易用的数据预处理，得到外生变量，外生变量是根据原始时序数据中的周期性信息确定的，所以外生变量中携带一些节假日信息，使得使用者可以轻松的将其了解的周期性，节假日信息融入数据的预处理过程中。

本申请将Prophet算法提取出的周期项延伸到预测长度作为外生时间序列的技术，无需考虑masking机制，并且由于外生变量为从原始时序数据中提取的信息，在推理阶段无需再自回归式的推理，能够达到多水平并行的同时推理，极大的加速了推理速度，并且由于模型摒弃了自回归式的推理，模型不再受错误累积问题的困扰。

在一种可能的实施例中，步骤120，具体可以包括以下步骤：

确定原始时序数据的关联信息，关联信息包括：原始时序数据中的变点标注信息和节假日信息；

根据原始时序数据和关联信息，确定第一时序数据；

将第一时序数据输入至时序分解器，得到外生变量。

其中，变点标注信息为对原始时序数据进行自动标注得到的标记点信息，用于标注原始时序数据中的跳变和突变。

为了解决目前存在的，难以将领域内知识，编码于深度模型的问题，采用基于通过时间序列分解的算法Prophet，通过整合从业人员对数据本身的知识来提取时序数据的周期性信息，并将周期性信息作为外生变量，输入后续的预设模型，使得深度学习模型学习到更准确的周期性信息。

首先，采集原始时序数据，并在原始时序数据中选择原始时序数据的关联信息，关联信息包括原始时序数据相关的变点标注和节假日相关信息。

其中，时序分解器，用于输入已知的时间序列的时间戳和相应的值，输入需要预测的时间序列的长度；输出未来的时间序列走势。时序分解器的输出结果可以提供必要的统计指标，包括拟合曲线，上界和下界等。

其中，上述涉及到的将第一时序数据输入至时序分解器，得到外生变量的步骤中，具体可以包括以下步骤：

将第一时序数据，输入至时序分解器，提取关联信息对应的N阶傅立叶级数对应的参数，N为正整数；

对参数进行数值模拟，得到外生变量。

将第一时序数据，输入至时序分解器，通过prophet时序分解算法得到数据的周期性信息的傅立叶级数表达，即其N阶傅立叶级数所对应的参数。

通过prophet时序分解算法所解析出的傅立叶级数的参数进行数值模拟，从而将原始时序数据所对应的周期性数据延伸到要预测的水平，即原始时序数据所对应的外生变量。

具体地，如图2所示，prophet时序分解器的输入是标注了关联信息的原始时序数据，即第一时序数据，y[1:t₀]，时序分解器的输出是外生变量，即X[t1：t1+tau]。

其中，令原始时序数据

长度为t₀，维度为d的时间序列。

Prophet算法将d维时间序列的每一个维度看作一维分别处理，通过一个对时间上的回归得到对时间序列的分解:y(t)＝g(t)+s(t)+h(t)+∈_t。

其中，g(t),s(t),h(t)分别为趋势项，周期项，节假日项，∈_t被假设为一个参数化高斯。通过对g(t),s(t),h(t)共同的回归后，周期项s(t)的参数为本方法提取出的季节性信息。

这里，具体可以根据周期项s(t)，确定外生变量。

其中，g(t)表示趋势项，它表示时间序列在非周期上面的变化趋势；

s(t)表示周期项，或者称为季节项，一般来说是以周或者年为单位；

h(t)表示节假日项，表示时间序列中那些潜在的具有非固定周期的节假日对预测值造成的影响；

即误差项或者称为剩余项，表示模型未预测到的波动，服从高斯分布；

Prophet算法就是通过拟合这几项，然后最后把它们累加起来就得到了时间序列的预测值。

具体的，g(t)＝(k+a(t)^Tδ)t+(m+a(t)^Tγ)。其中k是线性趋势的生长率，a(t)是一个反应趋势变点信息的向量函数，δ向量反应了每个变点所对应的速率调整，m是一个偏距参数，γ_j被设置为-S_jδ_j，这里s_j代表第j个变点所对应的时间，这样的设置使得g(t)成为一个连续函数。

可以基于对数据和prophet的理解手动设置断点s_j，也可以通过给定一系列潜在断点交给算法自动选择，从而可以融合专业知识。

让算法自动选择断点可以通过令δ_j服从拉普拉斯先验分布Laplace(0，v。超参数v被用于控制模型在学习变点速率上的灵活性。在实现上需要注意的是，prophet仅作为预处理的周期型信息提取器，无需考虑预测情j＞T的情况。具体的，本申请中的prophet仅用来拟合与提供外生变量。

对于周期信息

其中，P为实践者所提供的周期型信息，比如当时间序列存在周周期时，P＝30，N作为一个超参数控制傅立叶级数的阶数。a_n和b_n是预设系数。

β＝[a₁，b₁，...，a_n，b_n]为傅立叶级数所对应的参数，通过prophet的拟合可以学习到，从而得到对时间的周期型函数s(t)，从而得到外生变量：X＝[s(1)，s(t₀+1)，...，s(t₀+τ)]，作为对本申请解码器的输入。

在实现上，β服从高斯先验分布Normal(0，σ²)。其中σ²作为一个控制β平滑程度的超参数，可以起到L2正则化的效果。

对于节假日信息的建模，对每一个节假日i，令D_i为节假日i所影响的时间集合，令Z(t)＝[I(t∈D₁)，...，I(t∈D_l)]，其中I为Indicator函数，并且令h(t)＝Z(t)^Tk，参数k代表节假日对拟合的影响，同样的k～Normal(0，Γ²)

基于Prophet的预处理过程可以通过最大后验分布(Max A Posterior，MAP)来学习其对应参数。通过对∈_t做高斯分布假设，此生成模型所对应的MAP存在一个闭式表达，以便可以使用诸多数值优化软件求解此优化问题。

其中，在贝叶斯统计学中，“最大后验概率估计”是后验概率分布的众数。利用最大后验概率估计可以获得对实验数据中无法直接观察到的量的点估计。它与最大似然估计中的经典方法有密切关系，但是它使用了一个增广的优化目标，进一步考虑了被估计量的先验概率分布。所以最大后验概率估计可以看作是规则化的最大似然估计。

涉及步骤130。

将原始时序数据和外生变量输入至预设模型，基于外生变量和局部敏感哈希函数，对原始时序数据进行处理，得到与第一预设时间段对应的预测时序数据。

相对于朴素Transformer在多元时间序列预测问题上的低效问题上，本申请采用多路局部敏感哈希函数加速了QK^T的矩阵运算。令模型有更短的训练时间和推理时间。

在一种可能的实施例中，步骤130，具体可以包括以下步骤：

将原始时序数据和外生变量输入至预设模型，基于局部敏感哈希函数，对原始时序数据进行处理，得到第二时序数据；

根据外生变量和第二时序数据，确定全局隐性特征；

根据全局隐形特征、外生变量和第二时序数据，确定与第一预设时间段对应的预测时序数据。

其中，全局隐形特征用于表征原始时序数据中的隐形特征。

其中，预设模型包括：稀疏自注意力子模块、前向链接网络子模块和网络残差链接结构，相应地，步骤130，，具体可以包括以下步骤：

根据外生变量和第二时序数据，确定全局隐性特征；

根据全局隐形特征、外生变量和第二时序数据，确定预测时序数据，包括：

将所述原始时序输入至所述稀疏自注意力子模块，基于局部敏感哈希函数，对所述原始时序数据进行处理，得到所述第二时序数据；

将所述外生变量和所述第二时序数据，输入至所述前向链接网络子模块，捕捉所述全局隐性特征；

通过所述网络残差链接结构，连接所述全局隐形特征、所述外生变量和所述第二时序数据，得到所述预测时序数据。

首先，在上述涉及到的基于局部敏感哈希函数，对原始时序数据进行处理，得到第二时序数据的步骤之前，还可以包括以下步骤：

根据外生变量，确定查询矩阵和键矩阵；

根据查询矩阵和键矩阵，确定局部敏感哈希函数。

一种基于局部敏感哈希函数(local sensitive hashing function，LSH)的稀疏自注意力子模块。由于朴素Transformer中的多头点积自注意力机制需要计算查询矩阵Q和键矩阵K的乘积QK^T，随着时间序列的长度增加，这样的计算逐渐变的低效。其中，QK^T是指查询矩阵乘键矩阵的转置。

其中，查询矩阵Q和键矩阵K是根据外生变量和第一时序数据确定。

其中，局部敏感哈希函数，能够快速在高维空间中找到最近邻。一个局部敏感哈希算法可以将每个向量x转换为hashh(x)，和这个向量x靠近的哈希更有可能有着相同的哈希值，而距离远的则不会。

本申请为了简化点积自注意力的计算，采用共享Q，K矩阵的方式，并对每一个查询向量q_i，仅对其邻近的键向量k_j计算点积。

其中，在高维空间中的邻近与否由本地敏感哈希函数h确定，当q_i与k_j同属一个哈希值时，才会有q_i和k_j的点积运算。哈希函数则是基于随机投影；

若q_i，k_j均为d_k维度的向量，则选取一个维度为(d_k,b/2)的随机矩阵R，那么本地敏感哈希函数则被定义为h(x)＝argmax([xR；-xR])。

其中[u；v]被定义为向量u和向量v的粘合。其中，d_k是原始数据的维度，b是预设的参数，x是预设的系数。d_k是原始时序数据的数据维度。

由此，可以根据查询矩阵和键矩阵，确定局部敏感哈希函数的表达式。

其次，上述涉及到的根据外生变量和第二时序数据，确定全局隐性特征的步骤中，具体可以包括以下步骤：

根据原始时序数据的数据维度，确定随机矩阵；

根据随机矩阵，确定权重参数矩阵和偏差参数向量；

根据权重参数矩阵和偏差参数向量对外生变量和第二时序数据，进行计算，得到全局隐性特征。

前向链接网络子模块，用于捕捉多维时间序列的全局隐性特征。

对于此前向链接网络子模块的输入

此子模块利用内置的权重参数矩阵

和偏差参数向量b∈R^1×n去计算Output＝f(RW+b)，Output是全局隐性特征。

其中，上述涉及到的权重参数矩阵和偏差参数向量是根据随机矩阵确定的。

其中，前向链接网络子模块的输入，可以包括：基于局部敏感哈希函数对所述原始时序数据进行处理得到的第二时序数据，以及外生变量。

其中函数f为网络的非线性激活函数，f可以被采用为ReLu函数f(x)＝max(0,x)。

即在RW+b大于0的情况下，全局隐性特征为RW+b；在RW+b小于0的情况下，全局隐性特征为全局隐性特征0。在RW+b大于0的情况下，全局隐性特征为0。

最后，根据全局隐形特征、外生变量和第二时序数据，确定预测时序数据。

通过所述网络残差链接结构，连接全局隐形特征、外生变量和第二时序数据，得到与第一预设时间段对应的预测时序数据。

其中，网络残差链接结构，能够用于加速网络的训练。对于每一个子模块M的输入x，经过残差链接后其输出为M(x)+x。

需要注意的是，本申请同样舍弃了朴素Transformer架构中的Layer Norm层，且时序数据无需使用位置编码。

其中，上述涉及到的预设模型包括编码器和解码器，编码器用于对步骤120输出的内容进行编译处理，以便加快数据处理过程，解码器的输入是编译处理后的外生变量和第一时序数据，或者编译处理后的外生变量和原始时序数据。

为了解决朴素Transformer中基于点积的自注意力模块高时间复杂度的问题，本申请基于局部敏感哈希函数，将朴素Transformer中的点积自注意力模块修改为稀疏自注意力模块。

为了解决传统时序模型中推理阶段低效自回归的问题，将预处理过程中得到的外生变量当作解码器的输入，使得解码器在推理阶段同样可以多水平的，并行的预测所需的时序长度，并且无需使用朴素attention解码器中的masking机制防止训练阶段的信息泄露，有效的解决了自回归预测中的错误积累问题。

具体的，如图3所示，Transformer层包括编码器的N级结构，和解码器的M级结构。

将原始时序数据输入至编码器，经过局部敏感哈希子注意力的N个累积，输入至解码器中，解码器的输入包括外生变量、编码器的输入，经过局部敏感哈希子注意力的M个累积，得到与第一预设时间段对应的预测时序数据，最后将预测时序数据输入至生成对抗网络。其中，Transformer层相当于生成对抗网络的生成器。

此Transformer的编码器，具体可以包括：

稀疏自注意力子模块、前向链接网络子模块和网络残差链接结构，用于实现上述步骤130。

对于其对应的解码器，除了同样具有编码器对应的稀疏自注意力子模块、前向链接网络子模块和网络残差链接结构之外，还有如下改动：

不同于朴素Transformer将输入直接右移当作解码器的输入，本申请的解码器将预处理阶段得到的外生变量作为解码器的输入，使得解码器无需使用masking机制防止信息泄露，因为周期性数据信息被当作了原始时间序列的外生变量，从而简化实现。且在推理阶段亦可以并行化的多水平预测，从而摒弃了朴素Transformer在推理阶段自回归的结构，极大的加速了推理速度。

解码器除了包括用于处理上层输入的稀疏注意力模块，此解码器还有额外的稀疏自注意力模块，其对应的V，K，Q矩阵均来自于编码器输出的隐变量和上层隐变量的整合。使得解码器可以得到输入层隐变量的注意力信息。

其中，注意力信息是编码器的输出内容，解码器的输入内容。

为了高效且并行化的实现基于多回局部哈希敏感自注意力机制。n_rounds为控制LSH回数的超参数，表示利用n_rounds个不同个哈希函数

并行的计算哈希值，以此来减少相似的q_i,k_j无法被映射到同一哈希值的可能性。具体的，对每一个h^r，其对应的随机矩阵R独立于其他哈希函数。

对于朴素的自注意力计算，对每个查询q_i,令

表示为查询q_i所涉及的时间位置的集合。

以使用masking的自注意力为例，其为

得到其相关的注意力向量：

其中，o_i为注意力向量，

P_i为查询矩阵，k_j为键矩阵，z是运算的中间量。这样的公式规划会令接下来的基于并行计算的实现更为容易。

其中，i用于表示第i个隐变量在编码器中所对应信息的位置，j用于表示第j个隐变量在解码器中的位置。

这里，用编码器编译后的信息，计算隐变量，并根据隐变量计算注意力向量o_i，并对注意力向量o_i进行数学运算，并输入至解码器中。

对于多路局部敏感哈希，P_i的基数被极大的缩小：

同时，为了并行化的实现，需要对每个查询q_i基于哈希值和序列位置进行排序i→s_i,并对排序后的矩阵连续均分为m块，由此即可多批量并行化的计算。

这里，对每回哈希函数：

则每个注意力向量可以写作

其中，

以及

这里，将注意力向量拆解为m份，由此每一回的注意力向量

都可以独立的并行计算。当前的深度学习框架(如PyTorch或Tensorflow等)，可以方便的搭建上述所描述的计算图。

这里，一方面，由于采用了局部敏感哈希，另一方面由于采用相关性强的运算计算查询向量和键向量的点积，即上述涉及到的对于查询向量q_i，仅对其邻近的键向量k_j计算点积，可以实现相对于朴素Transformer在计算效率上的进一步加速。

涉及步骤140。

根据预测时序数据和预设时序数据，训练预设模型，直至预设模型满足预设训练条件，得到训练好的预测模型，预测时序数据的时序信息与预设时序数据的时序信息相匹配。

其中，预设时序数据对应第一时间段，即预设时序数据是从真实的样本数据确定的，在原始时序数据之后的时序数据。

比如：原始时序数据对应第一周，预设时序数据对应第二周，预测时序数据对应第二周，原始时序数据和预设时序数据都是从真实的样本数据中提取得到。

预设训练条件可以是预设模型满足预设收敛条件，或者，根据预测时序数据和预设时序数据确定的损失值小于预设损失值。

本申请采用对抗式训练，使得模型拥有捕捉时间序列中序列级时序关系的能力。通过对模型的对抗式训练，相对于传统模型，本申请采用的模型泛用性更强，更不容易过拟合。

在一种可能的实施例中，步骤140，具体可以包括以下步骤：

根据预测时序数据和预设时序数据，计算对抗损失值和均方损失值；

根据对抗损失值和均方损失值，训练预设模型，直至预设模型满足预设训练条件，得到预测模型。

其中，预设时序数据对应第一预设时间段。

预设模型包括生成器和鉴别器，所述生成器用于生成所述预测时序数据，所述鉴别器用于根据所述预测时序数据和所述预设时序数据计算损失值。

基于点积的自注意力机制仅能捕捉多维时间序列之间的点与点的时序关系，无法捕捉到序列级别的时序关系，从而影响到模型最终的性能。本申请采用了一种基于生成对抗网络的对抗式损失函数(GAN Loss)，配合均方误差损失函数(MSE)对模型可学习参数进行额外的规约，使得其能够学习到序列级别的时序关系。

预设模型包含一个由两层前向神经网络所构成的鉴别器，用于分类真实序列Y_real与从Transformer(其对应的生成器)所得到的生成序列Y_fake。

令D为鉴别器，当输入为Y_real时输出1，反之输出0。

其中，上述涉及到的根据预测时序数据和预设时序数据，计算对抗损失值和均方损失值的步骤中，具体可以包括以下步骤：

根据预测时序数据和预设时序数据，计算均方损失值；

根据预测时序数据和原始时序数据，确定第一预测时序数据；

根据预设时序数据和原始时序数据，确定第一预设时序数据；

根据第一预测时序数据和第一预设时序数据，计算对抗损失值。

令Transformer的输入为

所输出的长度为τ的预测为

即预测时序数据。

则

其中[a；b]表示将向量a，b整合成一个向量。其中，第一预测时序数据是Y_fake。

令

则模型的对抗式损失函数为Ladv(θ^G，θ^D)＝E[log(D(Y_real))]+E[log(D(Y_fake))]。其中，第一预设时序数据是Y_real。

其中，θ^G为生成器参数，θ^D为判别器参数，E为数学期望。

令G为我们上文描述的Transformer生成器，模型的均方损失函数为

其中，Y_i是预设时序数据，

是预测时序数据。

则L_mse与L_adv为互相对抗的损失函数，模型的优化问题便转换为了minmax问题：argmin_Gmax_DλL_adv(θ^G，θ^D)+L_p(θ^G)，其中λ为一个取舍超参数，取之范围为[0，1]。此模块具体架构见图4。

这里的训练目的是使得L_mse与L_adv都逐渐减小，直至达到预设训练条件。

如图4所示，将原始时序数据和外生变量输入至生成器，通过生成其中的编码器和解码器的运算，得到与第一预设时间段对应的预测时序数据，根据预测时序数据和预设时序数据，计算均方损失值。

然后，根据预测时序数据和原始时序数据，确定第一预测时序数据；根据预设时序数据和原始时序数据，确定第一预设时序数据，根据第一预测时序数据和第一预设时序数据，计算对抗损失值。

其中，鉴别器有两层前向神经网络构成。在模型的训练阶段，鉴别器有50％的概率接收到真实的多元时间序列Y_real，0％的概率接收到由生成器(上游Transformer模型)所生成的Y_fake。

可以使用PyTorch，TensorFlow等框架方便的求得生成器和鉴别器的梯度，并使用Adam等优化器对模型参数进行学习。具体的，对生成器G的梯度可以表示为：

其中，

为梯度计算，

为数学期望计算。

对鉴别器D的梯度可以表示为

通过深度学习框架的自动微分图功能，实践者可以轻松的实现如上梯度的计算。可选择的，实践者可以选择对模型参数的L1正则化或者L2正则化。对L_p的正则化训练，生成器和鉴别器的梯度分别为

其中，α,β分别为正则化的强度。

在一种可能的实施例中，在步骤140之后，还可以包括以下步骤：

获取第三时序数据；

对第三时序数据进行预处理，得到第三时序数据对应的外生变量，外生变量用于表征将第三时序数据所对应的周期性数据延伸第二预设时间段；

将第三时序数据，和第三时序数据对应的外生变量输入至预测模型中，得到与第二预设时间段对应的第四时序数据，第四时序数据的时序信息，与第三时序数据对应的外生变量的时序信息相匹配。

在得到预测模型之后，可以通过预设模型对带预测的数据进行预测的应用。具体可以对待处理的第三时序数据进行预测，对第三时序数据进行预处理，得到第三时序数据对应的外生变量，将第三时序数据和外生变量输入至预测模型中，得到与第二预设时间段对应的第四时序数据。

预测模型预测到的第四时序数据具体可以用于以下方面：

第一，运维监控数据的预测。运维监控目标一般包括硬件监控，系统监控，应用监控，网络监控，流量分析，日志监控，安全监控，API监控，性能监控等任务。最常见的如CPU、磁盘的使用率，当磁盘、CPU的容量占用较高时，可能会降低应用或者系统的运行性能，甚至造成事故。

算法可以学习各指标历史数据的增长情况，对未来一段时间的指标情况进行预测，一旦发现在临近的某个时间点指标值将超过警报线时，将予以发出告警，通过对运维数据的预测实现提前告警，减少系统宕机率，以保证IT系统的高效稳定运行。

第二，容量规划问题。容量规划实际上就是运用一些策略对系统容量进行预估的过程，如预测未来的负载水平在何时会使系统饱和，动态扩展容器pod数目、数据量、带宽、用户规模、网盘容量、CPU容量等。在企业中，每个业务都由一系列不同的系统来提供服务，每个业务系统都部署在不同的机器上。

容量规划的目的在于让每一个业务系统能够清晰地知道：什么时候应该增加服务节点，什么时候应该减少服务节点；遇到促销、秒杀、渠道拓展引流等业务需求，需要扩充到什么数量级的服务，才能即保证系统的可用性、稳定性。从而能够规避系统在业务量增加时能力不足所造成的问题。

第三，业务数据预测。如商品交易量、系统访问量等。业务预测是企业根据时间序列数据的预测结果，来制定业务未来发展(收入、销售、对资源的需求、产品数据)的工具。准确的预测能为企业的战略决策提供数据支撑，使企业能够有效的进行资金预算及资源分配，可以帮助企业高层做出更合理的计划。

基于上述图1所示的预测模型的训练方法，本申请实施例还提供一种预测模型的训练装置，如图5所示，该预测模型的训练装置500可以包括：

获取模块510，用于获取原始时序数据。

预处理模块520，用于对原始时序数据进行预处理，得到外生变量，外生变量用于表征将原始时序数据对应的周期性数据延伸第一预设时间段。

输入模块530，用于将原始时序数据和外生变量输入至预设模型，基于外生变量和局部敏感哈希函数，对原始时序数据进行处理，得到与第一预设时间段对应的预测时序数据。

训练模块540，用于根据预测时序数据和预设时序数据，训练预设模型，直至预设模型满足预设训练条件，得到训练好的预测模型，预测时序数据的时序信息与预设时序数据的时序信息相匹配。

在一种可能的实施例中，预处理模块520，具体用于：确定原始时序数据的关联信息，关联信息包括：原始时序数据中的变点标注信息和节假日信息；

根据原始时序数据和关联信息，确定第一时序数据；

将第一时序数据输入至时序分解器，得到外生变量。

在一种可能的实施例中，预处理模块520，具体用于：将第一时序数据，输入至时序分解器，提取关联信息对应的N阶傅立叶级数对应的参数，N为正整数；

对参数进行数值模拟，得到外生变量。

在一种可能的实施例中，输入模块530，具体用于：将原始时序数据和外生变量输入至预设模型，基于局部敏感哈希函数，对原始时序数据进行处理，得到第二时序数据；

根据外生变量和第二时序数据，确定全局隐性特征；

在一种可能的实施例中，该装置500还可以包括：

确定模块，用于：根据外生变量，确定查询矩阵和键矩阵；

根据查询矩阵和键矩阵，确定局部敏感哈希函数。

在一种可能的实施例中，输入模块530，具体用于：

根据原始时序数据的数据维度，确定随机矩阵；

根据随机矩阵，确定权重参数矩阵和偏差参数向量；

根据权重参数矩阵和偏差参数向量，对外生变量和第二时序数据进行计算，得到全局隐性特征。

在一种可能的实施例中，训练模块540，具体用于：

根据预测时序数据和预设时序数据，训练预设模型，直至预设模型满足预设训练条件，得到训练好的预测模型，包括：

在一种可能的实施例中，训练模块540，具体用于：

根据预测时序数据和预设时序数据，计算均方损失值；

在一种可能的实施例中，该装置500还可以包括：预测模块，该预测模块，具体用于：

获取第三时序数据；

图6示出了本申请实施例提供的一种电子设备的硬件结构示意图。

在电子设备可以包括处理器601以及存储有计算机程序指令的存储器602。

具体地，上述处理器601可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器602可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在综合网关容灾设备的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。在特定实施例中，存储器602包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器601通过读取并执行存储器602中存储的计算机程序指令，以实现图所示实施例中的任意一种预测模型的训练方法。

在一个示例中，电子设备还可包括通信接口606和总线610。其中，如图6所示，处理器601、存储器602、通信接口606通过总线610连接并完成相互间的通信。

通信接口606，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线610包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线610可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该电子设备可以执行本申请实施例中的预测模型的训练方法，从而实现结合图1-图4描述的预测模型的训练方法。

另外，结合上述实施例中的预测模型的训练方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现图1-图4描述的预测模型的训练方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种预测模型的训练方法，其特征在于，所述方法包括：

获取原始时序数据；

对所述原始时序数据进行预处理，得到外生变量，所述外生变量用于表征将所述原始时序数据对应的周期性数据延伸第一预设时间段；

将所述原始时序数据和所述外生变量输入至预设模型，基于所述外生变量和局部敏感哈希函数，对所述原始时序数据进行处理，得到与所述第一预设时间段对应的预测时序数据；

根据所述预测时序数据和预设时序数据，训练所述预设模型，直至所述预设模型满足预设训练条件，得到训练好的预测模型。

2.根据权利要求1所述的方法，其特征在于，所述对所述原始时序数据进行预处理，得到外生变量，包括：

确定所述原始时序数据的关联信息，所述关联信息包括：所述原始时序数据中的变点标注信息和节假日信息；

根据所述原始时序数据和所述关联信息，确定第一时序数据；

将所述第一时序数据输入至时序分解器，得到所述外生变量。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一时序数据输入至时序分解器，得到所述外生变量，包括：

将所述第一时序数据，输入至所述时序分解器，提取所述关联信息对应的N阶傅立叶级数对应的参数，N为正整数；

对所述参数进行数值模拟，得到所述外生变量。

4.根据权利要求1所述的方法，其特征在于，所述将所述原始时序数据和所述外生变量输入至预设模型，基于所述外生变量和局部敏感哈希函数，对所述原始时序数据进行处理，得到与第一预设时间段对应的预测时序数据，包括：

将所述原始时序数据和所述外生变量输入至预设模型，基于局部敏感哈希函数，对所述原始时序数据进行处理，得到第二时序数据；

根据所述外生变量和所述第二时序数据，确定全局隐性特征；

根据所述全局隐形特征、所述外生变量和所述第二时序数据，确定所述与第一预设时间段对应的预测时序数据。

5.根据权利要求4所述的方法，其特征在于，在所述基于局部敏感哈希函数，对所述原始时序数据进行处理，得到第二时序数据之前，所述方法还包括：

根据所述外生变量，确定查询矩阵和键矩阵；

根据所述查询矩阵和所述键矩阵，确定所述局部敏感哈希函数。

6.根据权利要求4所述的方法，其特征在于，所述根据所述外生变量和所述第二时序数据，确定全局隐性特征，包括；

根据所述原始时序数据的数据维度，确定随机矩阵；

根据所述随机矩阵，确定权重参数矩阵和偏差参数向量；

根据所述权重参数矩阵和所述偏差参数向量，对所述外生变量和所述第二时序数据进行计算，得到所述全局隐性特征。

7.根据权利要求1所述的方法，其特征在于，所述根据所述预测时序数据和预设时序数据，训练预设模型，直至所述预设模型满足预设训练条件，得到训练好的预测模型，包括：

根据所述预测时序数据和所述预设时序数据，计算对抗损失值和均方损失值；

根据所述对抗损失值和所述均方损失值，训练所述预设模型，直至所述预设模型满足所述预设训练条件，得到所述预测模型。

8.根据权利要求7所述的方法，其特征在于，所述根据所述预测时序数据和所述预设时序数据，计算对抗损失值和均方损失值，包括：

根据所述预测时序数据和所述预设时序数据，计算所述均方损失值；

根据所述预测时序数据和所述原始时序数据，确定第一预测时序数据；

根据所述预设时序数据和所述原始时序数据，确定第一预设时序数据；

根据所述第一预测时序数据和所述第一预设时序数据，计算所述对抗损失值。

9.根据权利要求1所述的方法，其特征在于，在所述根据所述预测时序数据和预设时序数据，训练预设模型，直至所述预设模型满足预设训练条件，得到训练好的预测模型之后，所述方法还包括：

获取第三时序数据；

对所述第三时序数据进行预处理，得到所述第三时序数据对应的外生变量，所述外生变量用于表征将所述第三时序数据所对应的周期性数据延伸第二预设时间段；

将所述第三时序数据，和所述第三时序数据对应的外生变量输入至所述预测模型中，得到与所述第二预设时间段对应的第四时序数据。

10.一种预测模型的训练方法装置，其特征在于，所述预测模型的训练装置包括：

获取模块，用于获取原始时序数据；

预处理模块，用于对所述原始时序数据进行预处理，得到外生变量，所述外生变量用于表征将所述原始时序数据对应的周期性数据延伸第一预设时间段；

输入模块，用于将所述原始时序数据和所述外生变量输入至预设模型，基于所述外生变量和局部敏感哈希函数，对所述原始时序数据进行处理，得到与所述第一预设时间段对应的预测时序数据；

训练模块，用于根据所述预测时序数据和预设时序数据，训练所述预设模型，直至所述预设模型满足预设训练条件，得到训练好的预测模型，所述预测时序数据的时序信息与所述预设时序数据的时序信息相匹配。

11.一种电子设备，其特征在于，所述电子设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现如权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-9任一项所述的方法。