CN117094451A

CN117094451A - 一种耗电量的预测方法、装置及终端

Info

Publication number: CN117094451A
Application number: CN202311360376.9A
Authority: CN
Inventors: 杨勇; 彭浩; 朱文亮; 王昕洋; 米艳鑫; 何春山; 刘明生
Original assignee: Handan Xinhe Electric Power Construction Co ltd; Handan Power Supply Co of State Grid Hebei Electric Power Co Ltd
Current assignee: Handan Xinhe Electric Power Construction Co ltd; Handan Power Supply Co of State Grid Hebei Electric Power Co Ltd
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2023-11-21
Anticipated expiration: 2043-10-20
Also published as: CN117094451B

Abstract

本发明提供一种耗电量的预测方法、装置及终端。该方法包括：获取历史耗电量数据；根据历史耗电量数据以及预设模型，获取预测耗电量数据；根据预测耗电量数据以及提取器，生成特征数据；将特征数据分为第一预测区间和第二预测区间；通过第一解码器对第一预测区间进行预测，以得到第一查询结果；根据第一查询结果以及第二预测区间，采用第二解码器预测第二预测区间的结果，以得到带间隔的预测耗电量数据；根据带间隔的预测耗电量数据以及第一模型框架，获取带有信息杂质的预测耗电量数据；根据带有信息杂质的预测耗电量数据以及第二模型框架，获取目标预测耗电量数据。本发明能够提高耗电量预测的准确度。

Description

一种耗电量的预测方法、装置及终端

技术领域

本发明涉及耗电量预测技术领域，尤其涉及一种耗电量的预测方法、装置及终端。

背景技术

电力工业是国家在能源领域的重大基础行业，电力是国民经济的命脉，对于我国经济建设、国家安全、社会稳定、生活质量具有至关重要的作用。对耗电量进行预测，有利于合理规划电能供应，提高供电管理的效果。

传统的耗电量预测方法主要利用历史数据和统计模型进行预测，平均法是传统耗电量预测的一种常用的方法，该方法简单地将历史数据中的平均值作为未来的预测值，使用历史数据训练选定的预测模型，对模型进行迭代训练和验证，并根据模型表现找到最佳的参数组合。然而平均法对异常值非常敏感，如果历史数据中存在异常值，如极端高或低的耗电量值，这些异常值会对平均值产生较大影响，从而导致预测结果的偏差，从而导致预测耗电量的准确度降低。

发明内容

本发明实施例提供了一种耗电量的预测方法、装置及终端，以解决平均法预测耗电量的准确度较低的问题。

第一方面，本发明实施例提供了一种耗电量的预测方法，包括：

获取历史耗电量数据；

根据历史耗电量数据以及预设模型，获取预测耗电量数据；

根据预测耗电量数据以及提取器，生成特征数据；

将特征数据分为第一预测区间和第二预测区间，通过第一解码器对第一预测区间进行预测，以得到第一查询结果，根据第一查询结果以及第二预测区间，采用第二解码器预测第二预测区间的结果，以得到带间隔的预测耗电量数据；

根据带间隔的预测耗电量数据以及第一模型框架，获取带有信息杂质的预测耗电量数据；

根据带有信息杂质的预测耗电量数据以及第二模型框架，获取目标预测耗电量数据。

在一种可能的实现方式中，根据历史耗电量数据以及预设模型，获取预测耗电量数据包括：

将历史耗电量数据进行归一化处理，以得到归一化处理之后的历史耗电量数据；

对每个单变量的归一化处理之后的历史耗电量数据进行分割，以得到重叠或非重叠的补丁；

采用TSMixer骨干网络将重叠或非重叠的补丁进行转换，以得到学习权重；其中，学习权重在TSMixer骨干网络中的通道之间共享；

将学习权重输入到在TSMixer骨干网络堆叠混合器层中，以得到杂质特征；

采用门控注意力块过滤杂质特征，以得到纯净特征；

根据纯净特征以及在TSMixer骨干网络中添加的预测数据，获取多变量时间序列；

调整多变量时间序列的内在时间层次结构和通道间依赖性，以得到预测耗电量数据。

在一种可能的实现方式中，采用门控注意力块过滤杂质特征，以得到纯净特征包括：

根据注意力权重以及混合器层的隐藏张量，计算得到纯净特征。

在一种可能的实现方式中，根据预测耗电量数据以及提取器，生成特征数据包括：

将预测耗电量数据进行图卷积变换，以得到变换后的预测耗电量；

通过卷积操作符对变换后的预测耗电量的每个节点进行处理，以将变换后的预测耗电量的单通道拓展为多通道；

根据变换后的预测耗电量、多通道以及归一化嵌入高斯函数，计算变换后的预测耗电量中节点与节点之间的相似性，以得到变换后的预测耗电量的相似性矩阵；

根据变换后的预测耗电量的相似性矩阵以及随机相似性矩阵，获取半自适应图；

根据半自适应图与自注意模块，利用权重矩阵将变换后的预测耗电量的特征进行加权汇总，以得到特征数据。

在一种可能的实现方式中，变换后的预测耗电量中节点与节点之间的相似性的计算方法包括：

；

其中，和/>表示经过f变换后的第i个和第j个节点张量，/>和/>是两个卷积操作符，T代表输入模型的观测点数量，V是变量的数量。

在一种可能的实现方式中，根据带间隔的预测耗电量数据以及第一模型框架，获取带有信息杂质的预测耗电量数据包括：

将带间隔的预测耗电量数据转换为图结构；其中，图结构为每个时间点与耗电量数据构成；

对每个时间点对应的耗电量数据进行局部特征提取，以得到局部特征；

采用图卷积网络对图结构进行卷积处理，以得到全局特征；

通过解码器对局部特征和全局特征进行合成，以得到带有信息杂质的预测耗电量数据。

在一种可能的实现方式中，根据带有信息杂质的预测耗电量数据以及第二模型框架，获取目标预测耗电量数据包括：

通过注意力机制和位置逐元素前馈网络对带有信息杂质的预测耗电量数据进行处理，以得到处理后的带有信息杂质的预测耗电量数据；

通过残差连接和层归一化对处理后的带有信息杂质的预测耗电量数据进行处理，以得到目标预测耗电量数据。

在一种可能的实现方式中，在获取历史耗电量数据之后，还包括：

对历史耗电量数据进行平滑处理，以得到平滑后的历史耗电量数据；

将平滑后的历史耗电量数据转换为具有固定时间间隔的历史耗电量数据，以得到预处理之后的历史耗电量数据。

第二方面，本发明实施例提供了一种耗电量的预测装置，包括：

数据获取模块，用于获取历史耗电量数据；

初始预测模块，用于根据历史耗电量数据以及预设模型，获取预测耗电量数据；

特征生成模块，用于根据预测耗电量数据以及提取器，生成特征数据；

间隔获取模块，用于将特征数据分为第一预测区间和第二预测区间，通过第一解码器对第一预测区间进行预测，以得到第一查询结果，根据第一查询结果以及第二预测区间，采用第二解码器预测第二预测区间的结果，以得到带间隔的预测耗电量数据；

杂质获取模块，用于根据带间隔的预测耗电量数据以及第一模型框架，获取带有信息杂质的预测耗电量数据；

目标预测模块，用于根据带有信息杂质的预测耗电量数据以及第二模型框架，获取目标预测耗电量数据。

第三方面，本发明实施例提供了一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

本发明实施例提供的一种耗电量的预测方法、装置及终端的有益效果在于：

本发明通过将历史耗电量数据输入到预设模型中，以获取预测耗电量数据，然后根据预测耗电量数据以及提取器，生成特征数据，然后根据特征数据以及预测器，获取带间隔的预测耗电量数据，然后根据带间隔的预测耗电量数据以及第一模型框架，获取带有信息杂质的预测耗电量数据，最后根据带有信息杂质的预测耗电量数据以及第二模型框架，获取目标预测耗电量数据，从而提高了耗电量预测的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的耗电量的预测方法的实现流程图；

图2是本发明另一实施例提供的耗电量的预测方法的实现流程图；

图3是本发明一实施例提供的耗电量的预测装置的结构示意图；

图4是本发明一实施例提供的终端的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

参见图1，其示出了本发明实施例提供的耗电量的预测方法的实现流程图，详述如下：

步骤101，获取历史耗电量数据。

在本实施例中，根据预测目标和需求，选择合适的数据源进行耗电量数据的采集。常见的数据源可以包括智能电表、传感器设备或其他监测系统。通过与数据源进行通信或连接，获取实时或历史的耗电量数据，这些数据可以是连续的时间序列数据，包含时间戳和相应的耗电量值。然后将获取到的数据经过清洗和处理后，存储在数据库或其他存储介质中，为数据处理做准备。

步骤102，根据历史耗电量数据以及预设模型，获取预测耗电量数据。

在本实施例中，预设模型为MLP-Mixer模型，MLP-Mixer模型是一种用于处理多个变量时序数据并进行预测的机器学习模型，该模型结合了多层感知器（MLP）和Mixer架构的特点，以提供高效且准确的预测结果。首先，该模型接收多个变量的时序数据作为输入。每个变量可以表示不同的特征或属性，例如温度、湿度、气压等。这些变量按时间顺序排列，并形成一个时间序列。然后，该模型利用MLP网络来对每个时间步的各个变量进行特征提取和变换。通过堆叠多个MLP层，模型能够捕捉到不同层次的抽象特征，并逐步提高对数据的理解能力。接下来，该模型引入了Mixer架构来对不同变量之间的关系进行建模。Mixer架构由两个主要组件组成：channel-mixing和token-mixing。在channel-mixing中，模型使用全局平均池化来对每个时间步内所有变量进行池化操作，得到一个全局特征表示。然后，通过一系列MLP层来对这个全局特征进行处理和变换。这样做可以促使不同变量之间相互交流、共享信息，从而提高模型的表达能力。在token-mixing中，模型对每个变量进行独立的特征提取和变换。这样可以保留每个变量的独特性，并避免信息损失。然后，通过一系列MLP层来对每个变量的特征表示进行处理和变换。最后，该模型通过全局平均池化操作将所有变量的特征表示合并为一个全局特征向量。这个全局特征向量被送入一个输出层，用于预测未来时间步的目标值或分类标签。

步骤103，根据预测耗电量数据以及提取器，生成特征数据。

在本实施例中，提取器为时空编码提取器，时空编码提取器是一个用于从输入的时间序列数据中提取时空特征的模块。它由图卷积模块和自注意力模块组成。首先，图卷积模块将输入的时间序列数据进行变换，并通过卷积操作符对每个节点进行处理。这些操作符通过改变通道数，将单通道扩展为多通道，以便捕捉不同特征之间的关系。然后，利用归一化嵌入高斯函数来计算生成的图中节点之间的相似性。同时，我们还随机初始化一个学习到的图作为另一个相似性矩阵，将两个相似性矩阵求和得到最终的半自适应图。接下来，在自注意力模块中，我们使用权重矩阵对特征进行加权汇总，以获得更全面、准确的表示。该模块会对每个节点计算其与其他节点之间的注意力分数，并根据这些分数对特征进行加权求和。这样可以使得重要特征得到更大的权重，从而突出了时空关系中的重要信息。

步骤104，将特征数据分为第一预测区间和第二预测区间，通过第一解码器对第一预测区间进行预测，以得到第一查询结果，根据第一查询结果以及第二预测区间，采用第二解码器预测第二预测区间的结果，以得到带间隔的预测耗电量数据。

在本实施例中，第一解码器和第二解码器构成级联解码预测器，级联解码预测器是一种序列建模方法，用于对时间序列数据进行预测。它通过将多个解码器连接在一起，逐步生成预测结果，从而提供更准确和精细的预测。在级联解码预测器中，首先使用一个初始解码器来生成第一个预测结果。然后，将这个预测结果与输入序列的一部分（例如前一段时间的数据）合并，并将合并后的序列输入到下一个解码器中。该解码器使用上一步生成的预测结果和当前输入序列的信息来生成下一个预测结果。这个过程可以重复多次，直到得到整个目标序列的完整预测。通过级联解码预测器，模型可以利用之前生成的预测结果作为输入，从而逐步提取和利用更多的上下文信息。这样做可以增强模型对长期依赖关系和序列中的其他复杂模式的建模能力。

由于每个解码器都只负责生成部分预测结果，因此可以降低整体计算复杂度，并且可以更好地处理长序列数据。解码过程中的所有级联解码器都附加到编码阶段输出的共享特征映射上。每个解码器都将前一个解码器的输出作为查询，并将编码阶段的输出作为键和值。相邻区间的一致性。将待预测的整个区间分解为许多连续的小子区间，通过级联解码器缩小不同区间的预测精度。考虑我们有N个解码器来预测N个区间的结果，记为，在第一个解码器/>中，我们从/>预测区间的结果，/>的结果有两个目的地。一方面，它被用作模型的中间输出。另一方面，它被用作第二个解码器的 start-token 的一部分，并与输入2到N第二个解码器的剩余间隔(从/>到/>)的结果形成一个新的查询。以同样的方式得到所有区间的输出。借助变压器解码器中查询、键和值的自然结构，可以利用在编码阶段提取的特征(键和值)和前一个区间(查询)的结果来预测后面的区间。CDP 的整个过程可以用以下递归公式表示:

，

其中，，/>为输入查询和解码器/>的输出，k, v 为时空编码提取器的输出。表示在/>中选择区间/>的结果，/>表示从/>到/>开始的区间集合。值得注意的是，它是输出/>的一部分，并使用ground truth标签进行中间监督。解码器将Autoformer中的自相关模块和序列分解块简化如下:

；

这种级联范式的动机是，较短时间内的结果可以被认为足够准确，甚至接近于真实。在预测以后的区间时，可以使用前一个区间的“真实”结果来预测下一个相邻的区间。在实验部分，展示了这种级联结构，以确保跨不同区间的一致预测精度。向前起始标记，每个解码器的查询由起始标记和前一个解码器的预测结果组成。在第一个解码器中，从目标序列之前采样一个较早的时间片段作为起始标记。以预测96个数据点为例，将目标序列之前已知的48个数据点作为起始标记，并用0填充其余的96个数据点，得到第一个输入查询,/>其中表示第一个解码器（D1）的查询，Concat指示将两个向量或矩阵连接在一起，/>表示第一个解码器的输入标记序列，这是一个由真实数据点或前面解码器的预测结果组成的向量，/>表示填充向量，其中包含用0填充的未知数据点。对于解码器/>，使用少量真实数据点（或没有）和前面解码器的预测结果/>作为起始标记/>。剩下的部分用/>填充，这与将0填充相比更接近区间/>到/>的真实结果。这样设置向前起始标记的原因是，前一个解码器输出的结果更有可能成为预测后续解码器结果的指导线索，并且具有更高的置信概率。

步骤105，根据带间隔的预测耗电量数据以及第一模型框架，获取带有信息杂质的预测耗电量数据。

在本实施例中，多元时间序列预测的GCformer模型框架是一种基于图卷积神经网络（Graph Convolutional Neural Network，GCN）和自回归模型的方法。该框架旨在解决多个相关时间序列的预测问题，其中每个时间序列可以包含多个特征。首先，GCformer模型框架将多元时间序列数据表示为一个时空图结构，其中节点表示不同的时间步和特征组合。这个时空图被用来捕捉不同时间步之间的相关性以及特征之间的依赖关系。然后，在GCformer模型中，每个节点的特征通过GCN进行编码。GCN是一种能够在图结构上传播信息并学习节点表示的神经网络。通过多层GCN的堆叠，模型能够逐步聚合全局和局部上下文信息，并生成更丰富的节点表示。接下来，在GCformer模型中，使用一个自回归模型来预测未来时间步的值。具体地，将当前时间步的节点表示作为输入，通过一个全连接层和激活函数得到预测结果。然后将预测结果与真实值进行比较，并使用损失函数来衡量预测误差。最后，在训练过程中，使用反向传播算法优化模型参数，使得模型能够更准确地预测未来时间步的值。在预测过程中，将已知时间步的节点表示作为输入，通过自回归模型生成未来时间步的预测结果。

步骤106，根据带有信息杂质的预测耗电量数据以及第二模型框架，获取目标预测耗电量数据。

在本实施例中，inTformer是一种基于时间嵌入的注意力转换器模型，用于处理序列数据。它由编码器和解码器组成，每个都包含多个子层。在编码器中，输入序列经过多头注意力机制和位置逐元素前馈网络进行处理。多头注意力机制是inTformer的核心部分之一。它允许模型同时关注输入序列中不同位置的相关信息。具体而言，多头注意力机制将输入序列划分为多个子序列，并对每个子序列应用自注意力机制。自注意力机制通过计算查询、键和值之间的相似度来确定每个位置与其他位置的关联程度，并根据这些关联程度加权求和得到每个位置的上下文表示。在多头注意力后，输出会经过dropout操作。dropout是一种正则化技术，通过随机将某些神经元输出置为零来减少模型的过拟合风险。它的作用是防止模型过度依赖任何单个输入或元素。接下来是残差连接和层归一化。残差连接是指将原始输入与子层的输出相加，以避免梯度消失问题。这样可以帮助信息在网络中更好地传播并保留重要的特征。层归一化是一种技术，用于将每个子层的激活值标准化为均值为0、方差为1的分布。它有助于保持激活和梯度在相似的尺度上，从而实现更稳定的训练。

总之，inTformer中的编码器通过多头注意力机制、dropout、残差连接和层归一化来处理输入序列，以捕捉序列中的相关信息并防止模型过拟合和梯度消失。这些步骤共同作用，使得inTformer能够有效地处理序列数据并提取有用的特征。

本发明实施例通过历史耗电量数据输入到预设模型中，以获取预测耗电量数据，然后根据预测耗电量数据以及提取器，生成特征数据，然后根据特征数据以及预测器，获取带间隔的预测耗电量数据，然后根据带间隔的预测耗电量数据以及第一模型框架，获取带有信息杂质的预测耗电量数据，最后根据带有信息杂质的预测耗电量数据以及第二模型框架，获取目标预测耗电量数据，从而提高了耗电量预测的准确度。

采用门控注意力块过滤杂质特征，以得到纯净特征；

在本实施例中，TSMixer具有两种训练方法：监督和自我监督。监督训练遵循“预测”工作流程。首先，输入的历史时间序列（预处理之后的历史耗电量数据）经过一系列的转换（归一化、补丁和排列）。然后，它进入负责主要学习过程的TSMixer骨干网络。根据预测头将骨干网络的输出嵌入转换为基本预测（杂质特征）。可以通过最小化基本预测的均方误差（MSE）来训练模型：，其中Y代表真实值或目标值，/>代表模型的预测值，表示欧氏距离（L2范数）的平方，用于计算基本预测与真实值之间的误差大小，在模型中引入了两个额外的在线预测调和头，当激活在线预测调和头时，可以通过利用跨通道和补丁聚合信息来调整基本预测并产生更准确的预测。当激活一个或两个调和头时，会在调整后的预测上使用定制的基于均方误差的目标函数。

自我监督训练分为两个阶段进行。首先，模型进行预训练，使用自我监督目标。然后，通过“预测”工作流程对预训练模型进行微调，用于有监督的下游任务。自我监督预训练已被证明对各种NLP、视觉和时间序列任务都很有用。与NLP领域的BERT的遮蔽语言建模（MLM）类似，采用了遮蔽时间序列建模（MTSM）任务。MTSM任务在一部分输入补丁上随机应用掩码，并且模型通过未遮蔽的输入补丁来恢复被掩码的补丁。预训练工作流中的其他输入转换与预测工作流相同。MTSM任务通过最小化掩码补丁上的均方误差重构错误来进行训练。TSMixer的模块化设计使其能够通过仅更改模型头部（保持骨干网络不变）来进行有监督或自我监督训练。

基于上述的模型训练方法，首先将预处理之后的历史耗电量数据进行归一化处理，以得到归一化处理之后的历史耗电量数据，即将输入的时间序列片段经过可逆实例归一化（RevIN）。RevIN标准化数据分布（即去除均值并除以标准差），以应对时间序列中的数据偏移。然后每个单变量时间序列被分割成重叠/非重叠的补丁，步长为s。对于自我监督训练流程，补丁必须是严格非重叠的。小批量被重新塑形为/>，每个小批量/>都是通过移动窗口技术从X中获取的。其中pl表示补丁长度，而n是补丁的数量，sl表示时间序列长度,B表示批次数量,c表示时间序列片段的通道数,P 表示补丁处理后得到的补丁数据的维度,（因此，/>）。然后将补丁数据置换为/>，并输入TSMixer骨干网络模型。补丁处理通过因子为s来减少模型的输入令牌数量，与标准的逐点Transformer方法相比，显著提高了模型的运行时性能。

为了解决训练数据和测试数据之间分布移位的问题，采用数据归一化方法RevIN来增强模型的鲁棒性。RevIN是一种基于分位数的归一化方法，它通过将输入数据映射到一个统一的范围内，使得模型在处理不同尺度和分布的数据时能够更加稳定和可靠。具体而言，RevIN首先计算输入数据在每个维度上的分位点，并将其映射到一个标准化的区间。然后，它通过对原始数据进行缩放和平移操作，将其映射到以0为中心的标准正态分布。这样做可以确保数据在训练过程中具有相似的尺度和分布，从而提高模型对输入数据的适应能力。通过使用RevIN进行数据归一化，我们可以有效地减少由于不同尺度和分布带来的问题，例如梯度爆炸或梯度消失。此外，RevIN还可以增强模型对异常值和噪声的鲁棒性，使其更好地处理不完整、不准确或被污染的数据。总之，RevIN作为一种数据归一化方法，可以提高模型在处理不同尺度和分布的输入数据时的稳定性和可靠性，并增强其对异常值和噪声的鲁棒性。最后，通过应用初始归一化的倒数来反转归一化过程，以获得预测结果，进一步提高了耗电量数据预测的准确性。

然后，采用TSMixer骨干网络将重叠或非重叠的补丁进行转换，以得到学习权重，其中，学习权重在TSMixer骨干网络中的通道之间共享。TSMixer骨干网络可以包括普通骨干网络（V-TSMixer）、独立通道骨干网络（CI-TSMixer）和跨通道骨干网络（IC-TSMixer），普通骨干网络（V-TSMixer）在传递到下一层之前，将输入的通道和补丁维度（）展平。这种方法通常用于视觉MLP混合技术中，因此作为基准线。独立通道骨干网络（CI-TSMixer）和跨通道骨干网络（IC-TSMixer）在MLP混合层的架构上有所不同。CI-TSMixer骨干网络受到PatchTST 模型的启发，在该模型中，MLP混合层在通道之间共享，强制模型共享可学习的权重。这导致了模型参数的减少。此外，CI-TSMixer使能够在多个数据集上进行自我监督建模，每个数据集都具有不同数量的通道，而V-TSMixer则不能。在IC-TSMixer中，骨干网络激活了一个额外的跨通道混合模块，以明确捕捉跨通道之间的依赖关系。所有这些骨干网络将通过大量实验进行比较。

请注意，所有的TSMixer骨干网络都以一个线性补丁嵌入层开始。它将每个补丁独立地转换为一个嵌入向量：

,

其中，A(.)代表用于转换补丁数据的线性函数，c代表时间序列片段的通道数（特征维度），n代表补丁数量，hf代表补丁嵌入层输出的嵌入向量维度，代表hf：补丁嵌入层输出的嵌入向量维度。A(.)的权重和偏置在CI-TSMixer和ICTSMixer骨干网络中在通道之间共享，但在V-TSMixer中不共享。由于V-TSMixer完全展平了通道，所以V-TSMixer中的A(.)没有多个通道的概念（即c = 1）。

具体地，TSMixer骨干网络堆叠了一组混合器层，类似于Transformers中的编码器堆叠。直观地说，每个混合器层试图学习三个不同方向上的相关性：（i）不同补丁之间的相关性，（ii）补丁内部隐藏特征之间的相关性，以及（iii）不同通道之间的相关性。前两种混合方法来自于视觉MLP-Mixer，而最后一种是专门针对多变量时间序列数据提出的。补丁间混合模块使用共享的MLP（权重维度= n × n）来学习不同补丁之间的相关性。即根据学习权重学习补丁之间的相关性。补丁内混合块的共享MLP层混合了隐藏特征的维度，因此权重矩阵的维度为 hf × hf 。所提出的通道间混合器（权重矩阵大小= c × c）混合了输入通道维度，并试图在多元上下文中捕获多个通道之间的相关性。这种通道间混合器已经在MLP4Rec中针对事件预测问题提出，并且探究了它在时间序列领域的适用性。请注意，通道间混合块仅包含在IC-TSMixer骨干网络中，而不包含在CI-TSMixer和V-TSMixer骨干网络中。混合器层和混合器块的输入和输出用X表示。根据每个混合器块关注的维度，输入将相应地重塑以学习沿着关注的维度的相关性。最后，重塑被还原，以保持块和层之间的原始输入形状。所有三个混合器模块都配备了一个MLP块、层归一化、残差连接和门控注意力。前三个组件在MLP-Mixer中是标准的，而门控注意力块将在下面描述。

具体地，时间序列数据通常具有许多不重要的特征，这些特征会使模型混淆。为了有效地过滤掉这些特征，在每个混合器组件的MLP块之后添加了一个简单的门控注意力。GA起到了一个简单的门控函数的作用，根据其特征值，它以概率上调主导特征并下调不重要的特征。注意力权重由以下公式得出：

，

其中 b 表示批次大小（batch size），c 表示通道数（channel number），n 表示序列长度（sequence length），hf 表示隐藏特征维度（hidden feature dimension），softmax是一个归一化函数，A表示门控函数，表示来自混合器模块的隐藏张量。门控注意力模块的输出通过对注意力权重和来自混合器模块的隐藏张量进行点积来获得：/>，其中/>表示表示门控注意力模块的输出结果，/>表示注意力权重矩阵，/>表示来自混合器模块的隐藏张量，它是一个包含了时间序列数据特征的张量。将标准的混合器操作与GA相结合，有效地引导模型关注重要的特征，并改善长期交互建模，而无需复杂的多头自注意力机制。

具体地，根据训练方法（即有监督或自我监督），要么在骨干网络中添加预测头，要么添加预训练头。两个头部都使用一个简单的线性层，在展平所有补丁的隐藏特征之后进行了dropout。默认情况下，头部在通道之间共享相同的权重。预测头的输出是预测的多变量时间序列，而预训练头则生成与输入相同维度的多变量系列/>，其中，b表示批次大小，fl和sl表示时间序列长度， c表示特征通道数，预测数据可以为预测头或者预训练头。

具体地，根据时间序列数据的两个重要特征：内在的时间层次结构和通道间依赖性，来调整原始的预测结果，所使用的TSMixer模型可以激活其中任何一种或两种方法来获得协调一致的预测结果。

1、通道间预测调整头部：在许多场景中，某个时间点上一个通道的预测可能依赖于未来时间点上另一个通道的预测。例如，在零售领域，未来某个时间点的销售可能取决于该时间点附近的折扣模式。因此，引用了一个通道间预测调整头部，它根据预测时段内局部上下文中不同通道之间的交叉依赖关系推导出一个目标函数。

首先，根据上下文长度（cl），将每个预测点转换为一个补丁（长度为spl），通过附加其前后周围的预测来实现。然后，将每个补丁在通道上展平，并通过门控注意力和线性层传递，以获得该补丁的修正预测点。因此，预测点的所有通道根据周围上下文中的预测通道值调整其值，从而实现了有效的通道间建模。残差连接确保当通道相关性非常嘈杂时，调整不会导致准确性下降。由于修正后的预测结果与原始预测具有相同的维度，因此不需要对损失函数进行任何更改。与其他通道混合方法相比，具有独立于通道的骨干网络并带有通道间协调头部的“混合”方法提供了稳定的改进。此外，这种架构有助于更好地推广骨干网络，因为它可以使用多个具有不同数量通道的数据集进行训练，并将通道相关性建模转移到预测头部（它是任务和数据相关的）。

2、时序数据通常具有内在的层次结构，可以是明确已知的，也可以是隐含的特征。一般而言，聚合时间序列具有更好的可预测性，良好的预测模型旨在实现层次结构的各个级别中低的预测误差。在这里，引用了一种新颖的方法，在训练过程中自动推导出层次补丁聚合损失（在线进行），以与粒度级别的预测误差同时最小化。原始预测被分成op个长度为pl的补丁，我们将其表示为/>。现在，/>还经过线性层传递，以预测补丁级别上的层次聚合预测：/>。然后，我们将/>和/>在补丁级别上进行连接，并通过另一个线性变换传递，以获得调整后的粒度级别预测：/>。因此，基于补丁聚合预测的补丁级别上进行了粒度级别预测的调整，从而改善了粒度级别预测。残差连接确保当预测聚合信号变得具有挑战性时，调整不会导致准确性下降。现在，层次补丁聚合损失计算如下：

；

在这里，Y是真实未来时间序列，H是在块级别的聚合的真实数据，BU指的是将粒度级别的预测进行自下而上的聚合以获得聚合的块级别预测，sf是规模因子。对于MSE损失函数，。更直观地说，这个损失函数试图调整基本预测方式，使其不仅在粒度级别准确，而且在聚合的块级别也准确。请注意，在这里可以强制使用预先定义的特定于数据集的层次结构。

在本实施例中，时空编码提取器由多个时空编码器层组成。在每一层中，两个并行分支，包括一个香草自关注模块和一个额外的图卷积模块，附加到共享输入嵌入上。在本文中，除非另有说明，需要将自 former 中的自关注替换为自相关。因此，香草自关注模块捕获序列点之间的时间相关性，就像自former 一样。受计算机视觉中基于骨架的动作识别的自适应图的启发，引用了自定义图卷积模块，并将其设置在一个合理的位置，用于基于变压器的多变量时间序列预测。所提出的图卷积模块覆盖了一个半自适应图，它将学习到的图计算得到的图/>结合起来，提示模型关注点向特征的空间细节。假设我们有V个时间序列，表示为/>。T代表输入模型的观测点数量，V是变量的数量。在我们的图卷积模块中，重新考虑了空间维度上的逐点变量，并利用卷积操作符f将单通道(1)扩展为多通道（/>）。然后，我们应用归一化嵌入高斯函数来计算生成的图/>中两个节点之间的相似性：

，

其中，和/>代表经过f变换后的第i个和第j个节点张量，/>和/>是两个卷积操作符，用于将通道数从/>改变为/>。同时随机初始化矩阵A作为学习到的图/>，并将/>和/>的求和设置为我们最终的半自适应图/>。因此，图卷积模块的整个过程如下:

，

其中，、/>和/>是不同卷积操作符的权重，为了简单起见，省略了形状变换。最后，通过图卷积模块和自注意力模块的加权求和，获得了时空特征图。值得注意的是，时空编码提取器的输出将在整个级联解码预测器中运行，因此获取完全表达的特征图是必要的。

；

采用图卷积网络对图结构进行卷积处理，以得到全局特征；

在本实施例中，GCformer是一种基于图卷积网络（GCN）的模型框架，用于进行时间序列预测任务。该框架结合了全局特征和局部特征，并利用图结构来捕捉时间序列数据中的相关性和依赖关系。所引用的架构具有独特的双分支设计。这个设计同时通过两个独立的分支传递输入数据，每个分支专门设计用于捕捉和提取不同类型的信息：局部信息和全局信息。解码器模块专门定制了一种方式，将这两种类型的信息集成并融合在一起，以最大化它们的互补性。GCformer的模型框架主要包括以下几个步骤：1)图构建：首先，将时间序列数据转化为一个图结构。每个时间点对应图中的一个节点，节点之间的连接表示它们之间的相似性或相关性。可以使用不同的方法来定义节点之间的连接关系，例如基于距离、相关系数等。2)特征提取：对于每个节点，从原始时间序列数据中提取局部特征。可以使用各种特征提取方法，例如傅里叶变换、小波变换等。这些局部特征可以反映单个时间点的信息。3)图卷积操作：使用图卷积网络对图进行卷积操作，以获得全局特征。在每一层的卷积操作中，每个节点都会聚合其邻居节点的信息，并通过学习权重来更新自身的表示。这样做可以将周围节点的信息传递给目标节点，并获得更丰富和全局的特征。4)解码器设计：在GCformer中，解码器模块用于生成时间序列的预测结果。它接收来自图卷积层的全局特征和来自局部特征提取的局部特征作为输入，将它们合并后输出预测结果。

在编码器部分，有两个并行的分支。具体而言，上部分分支设计用于提取全局信息，这指的是序列中存在的长期依赖关系。由于变压器模型对内存要求较高，通过将整个输入序列/>输入到全局分支中来解决这个问题，其复杂度与序列长度呈次线性关系，其中，X表示输入序列，R表示实数域，N表示序列的长度，d表示每个数据点的特征维度。相反，下部分分支专注于捕捉最近的局部信息/>，这涉及到相邻时间节点之间的依赖关系。同时，我们将序列的尾段/>（其中，/>）输入到Transformer分支中，以降低整体复杂度而不牺牲预测准确性。

。

为了增强全局和局部信息的利用，我们的方法包括将全局信息和局部信息/>合并到解码器模块中，该模块输出预测结果。解码器模块主要由一个交叉注意力模块组成，旨在确保时间序列中历史信息的有效表示。将全局和局部特征映射到令牌级别的隐藏维度，然后利用全局信息作为查询（q），局部信息作为键（k）和值（v）:；

其中q表示查询向量，用于在交叉注意力模块中将全局信息整合到解码器模块中，MLP表示多层感知机，是一个由多个全连接层组成的神经网络模型；k表示键向量，用于在交叉注意力模块中将局部信息作为键整合到解码器模块中，v：表示值向量，也用于在交叉注意力模块中将局部信息作为值整合到解码器模块中。

这允许通过查询全局信息和本地信息来有效整合全局和本地信息。；

其中Atten表示注意力机制，用于计算加权的值向量v，它接受查询向量q、键向量k和值向量v作为输入，并根据它们之间的相似度得分为值向量v分配权重，Softmax用于将注意力得分进行归一化，使其成为概率分布，q表示查询向量，k表示键向量，v表示值向量，T表示转置操作，即将矩阵的行和列交换位置，表示查询向量的维度。

在本实施例中，将通过多元时间序列预测的GCformer模型框架预测过的较为准确的耗电量数据输入到基于时间嵌入的inTformer模型框架之中，滤除上一步没有过滤掉的信息杂质，使耗电量预测的准确性达到极致。本发明扩展了原始变压器的功能域，以实时预测十字路口的碰撞可能性。本发明采用的十字路口-变压器(inTformer)架构。inTformer需要batch_size×sequence _length (timesteps)×input_feature维度的规范化顺序数据作为输入。

在变压器中，所有数据都通过模型体系结构一次转发，以学习顺序数据中的依赖关系和交互。因此，与传统的 rnn 和 LSTM 模型不同，变压器在结构上倾向于基于注意力的系统，避免了顺序处理。尽管基于注意力的系统可以识别几乎所有类型的顺序数据中的依赖关系，但有时顺序处理的无能使得Transformer难以提取具有时间序列(即时间序列数据)的数据中的依赖关系。由于实时碰撞可能性预测需要时间序列数据作为输入，因此在本研究中，在开发inTformer 架构时提出了一个严重的时序挑战。通过在 inTformer 架构中嵌入一个“时间嵌入”层来解决这个顺序问题，该层可以解释数据序列的时间顺序，以预测未来 15-30 分钟内的崩溃。

在inTformer架构中，"Time Embedding"层采用了Kazemi等人提出的模型无关的时间表示方法，也称为"Time2Vec"。根据"Time2Vec"提出的原则，在"Time Embedding"层实现了两个思想：首先，真实的时间表达必须包含周期性和非周期性模式；其次，时间表达应该对时间缩放具有不变性，也就是说，它不受不同的时间增量（例如秒、小时或天）和长期时间跨度的影响。将这些思想结合起来得到的数学定义如下：

；

其中，代表时间向量的非周期/线性特征，而/>代表时间向量的周期特征。在/>中的/>是一个定义时间序列/>斜率的矩阵，而在简单术语中，/>是一个定义时间序列/>与y轴相交位置的矩阵。函数F(.)使得线性项/>变为周期性。“编码器”层是所建议的inTformer的核心层。在这篇开创性的论文中(Vas wani et al.)，提议的Transformer有两个核心层:编码器和解码器。然而，在本发明中，inTformer专注于仅利用前者的功能来预测十字路口的碰撞可能性。所提出的 inTformer 架构可以有多个“编码器”层，每个“编码器”层包含两个关键子层:多头注意机制和位置智能前馈网络。

1).多头注意机制

这个子层通过连接单个头的注意权重来执行inTformer的注意机制。每个单独的头接收三个输入，即查询Q、键K和值V，总共计算出衡量序列中元素/输入之间关系的注意权重。Q、K和V向量是通过将每个输入从输入序列（在我们的情况下是时间嵌入输入序列）转换而来的。

假设表示时间嵌入输入序列，其中/>是时间步i上的输入。可以使用以下方式将输入/>转换为三个向量:

，

其中，、/>和/>分别是查询、键和值转换的权重矩阵，这些矩阵在训练过程中进行学习。在确定了所有时间步的Q、K和V向量之后，然后计算每对Q和K向量的注意分数。具体而言，对于/>和/>（对应于时间步i和j），注意分数的计算如下:

，其中/>表示注意分数，衡量了查询/>和键/>之间的相似性，/>表示查询向量，/>表示键向量，注意分数/>衡量了Q和K之间的相似性，有效地确定了从/>（时间步i上的查询）到/>（时间步j上的键）应该给予多少关注。然后使用“softmax”函数对原始的注意分数进行归一化，以确保它们在每个Q的所有时间步上总和为一。此外，通常通过关键向量维度的平方根来缩小得分，以避免出现极大值，这可能导致梯度不稳定，如下所示:

，

其中表示注意权重，通过对注意分数进行softmax归一化得到，对于每个单独的头，使用注意权重计算每个输入/>的输出，这是V向量的加权和。最后，来自所有h个单独头的输出矩阵进行连接，然后通过最终的线性变换传递。

/>

（/>），

其中表示单个头的输出，是值/>根据注意权重/>加权求和得到的结果，/>表示值向量，包含了输入序列中时间步j上的值信息，/>表示将所有单独头输出/>连接起来形成一个输出矩阵，/>表示通过线性变换将/>映射到最终的输出向量，最终输出向量/>从多头注意机制的输出序列。

2).位置智能前馈网络

这个子层的目的是将从“多头注意力机制”接收到的表示进行转换，使模型能够识别更复杂的关系。在“位置编码前馈网络”中，“位置逐元素”一词指的是相同的前馈网络分别应用于输入序列中的每个输入（在我们的情况下，是一系列时间嵌入输入）。这类似于在CNN中使用卷积核大小为1。因此，将卷积核大小为1的CNN结合到inTformer架构中作为“位置编码前馈网络”。inTformer的“编码器”中使用的CNN包括两个层，如下所示:

在第一层中，首先进行简单的线性变换，将输入数据的维度投影（增加）到一个更高维的空间。在线性变换之后，对非线性激活函数（例如ReLU）进行逐元素应用。

在第二层中，从激活函数的输出通过第二个线性变换，将数据投影回原始维度。

在“编码器”中，每个关键子层：“多头注意力机制”和“位置逐元素前馈网络”之后都跟着dropout、残差连接和层归一化。包含dropout有助于防止模型过拟合，不允许它过度依赖序列中的任何单个输入/元素。残差连接，也称为跳跃或快捷连接，帮助inTformer解决梯度消失的问题。层归一化是将一个层的激活值标准化为均值为0，方差为1的过程。这有助于保持激活和梯度在类似的尺度上，从而实现更稳定的训练。在inTformer中，层归一化有助于确保整个模型中的值的尺度不失控，这可能导致学习问题。

通过上述步骤，可以使耗电量检测的精确度达到最大化，从而完成耗电量的耗电预测。

图2示出了本发明的另一实施例提供的耗电量的预测方法的实现流程图，详述如下：在步骤101之后，还包括：

步骤107，对历史耗电量数据进行平滑处理，以得到平滑后的历史耗电量数据。

在本实施例中，采用移动平均法对历史耗电量数据进行平滑处理。移动平均法是一种常用的数据平滑技术，它可以减少时间序列数据中的噪声和突变点，并使其更具可读性和稳定性。该方法通过计算连续窗口内数据点的平均值来实现平滑操作。在移动平均法中，首先需要选择一个窗口大小，通常称为移动窗口或滑动窗口。这个窗口的大小决定了参与计算的数据点数量。较小的窗口会使平滑后的曲线对噪声更敏感，而较大的窗口则可能造成数据平滑过度。然后，从时间序列数据的起始位置开始，将窗口依次向前滑动。每次滑动时，选择窗口内的数据点，计算它们的平均值，并将该平均值作为对应位置上的平滑结果。这样，就得到了经过移动平均法处理后的新时间序列数据。在计算移动平均时，可以采用不同类型的移动平均方法。最简单的是简单移动平均法（Simple Moving Average,SMA），它直接对窗口内的数据点做等权重求和再除以窗口大小。另外还有加权移动平均法（Weighted Moving Average, WMA），它给不同位置上的数据点分配不同的权重，以更好地适应数据的变化。

步骤108，将平滑后的历史耗电量数据转换为具有固定时间间隔的历史耗电量数据，以得到预处理之后的历史耗电量数据。

在本实施例中，由于原始数据的时间间隔不是固定的，可以使用重采样技术将平滑后的历史耗电量数据转换为固定时间间隔的数据。这有助于保持数据的连续性，并使得模型更容易学习和预测。对平滑处理过的数据进行重采样，主要用于将原始时间序列数据转换为固定时间间隔的数据。在时间序列数据分析中，原始数据的时间间隔可能不是均匀的，这对于模型的训练和预测可能带来一定的挑战。因此，通过重采样可以将原始数据转换为等间隔的形式，方便后续的分析和建模。在进行重采样时，首先需要确定目标时间间隔。例如，如果我们希望得到每小时的耗电量数据，则目标时间间隔为1小时。然后，根据目标时间间隔和原始数据中的时间戳信息，在每个目标时间点上插值或聚合原始数据。插值方法常用于将原始数据插入到目标时间点上。最常见的插值方法是线性插值，它根据相邻两个时间点上的数值，在目标时间点上进行线性插值计算。通过重采样操作，原始时间序列数据可以转换为固定时间间隔的数据，使得后续的分析和建模更加方便。不仅如此，重采样还有助于减少噪声和平滑数据，使得模型能够更好地学习和预测时间序列中的趋势和周期性特征。

由上可知，本发明具有以下有益效果：

1.提高耗电量预测的准确性：本发明旨在通过引入多种数据处理和建模技术，提高耗电量预测的准确性。通过使用移动平均法和重采样等数据预处理方法，可以有效地去除噪声和不规则变动，从而得到更平滑和可靠的数据。同时，通过使用轻量级MLP-Mixer模型进行初步预测，并结合时空编码提取器获取空间和时间信息特征，能够更好地捕捉数据中的相关性和依赖关系。

2.提高耗电量预测的稳定性：本发明通过引入级联解码预测器和GCformer模型框架，增强了耗电量预测的鲁棒性和稳定性。级联解码预测器能够逐步生成预测结果，并利用先前的预测结果作为输入，从而提供更精细和准确的预测。而GCformer模型框架结合图卷积网络和全局特征提取，能够更好地捕捉时间序列数据中的复杂模式和长期依赖关系。

3.提供一个综合且高效的耗电量预测方法：本发明将多种技术和模型结合在一起，形成一个综合且高效的耗电量预测方法。通过将数据经过移动平均法和重采样进行预处理，再使用轻量级MLP-Mixer模型、时空编码提取器、级联解码预测器和GCformer模型框架进行预测，能够充分利用不同方法的优势，并在准确性和计算效率上取得平衡。

4.适用于各种耗电量预测任务：本发明旨在提供一种通用的耗电量预测方法，适用于各种场景和应用。无论是对个人家庭的电力消耗预测，还是对大规模工业设备的能源需求预测，该方法都可以提供准确和可靠的结果。

5.利用基于时间嵌入的注意力的转换器模型inTformer的优点，如inTformer中的多头注意力机制允许模型同时关注输入序列中不同位置的相关信息。这使得模型能够以并行方式处理序列，提高了计算效率；nTformer使用自注意力机制来捕捉序列中的相关性，可以更好地处理长序列数据，并有效地捕捉长期依赖关系；inTformer采用编码器-解码器结构，每个部分都由多个子层组成。这种模块化结构使得在不同任务和数据集上进行灵活的定制和扩展变得更加容易；多头注意力机制允许模型在不同粒度上对输入序列进行建模，并通过自适应地组合不同粒度的信息来生成更丰富和准确的表示等优点，完成耗电量的最终预测。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以下为本发明的装置实施例，对于其中未详尽描述的细节，可以参考上述对应的方法实施例。

图3示出了本发明实施例提供的耗电量的预测装置的结构示意图，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

如图3所示，耗电量的预测装置3包括：

数据获取模块31，用于获取历史耗电量数据；

初始预测模块32，用于根据历史耗电量数据以及预设模型，获取预测耗电量数据；

特征生成模块33，用于根据预测耗电量数据以及提取器，生成特征数据；

间隔获取模块34，将特征数据分为第一预测区间和第二预测区间，通过第一解码器对第一预测区间进行预测，以得到第一查询结果，根据第一查询结果以及第二预测区间，采用第二解码器预测第二预测区间的结果，以得到带间隔的预测耗电量数据；

杂质获取模块35，用于根据带间隔的预测耗电量数据以及第一模型框架，获取带有信息杂质的预测耗电量数据；

目标预测模块36，用于根据带有信息杂质的预测耗电量数据以及第二模型框架，获取目标预测耗电量数据。

在一种可能的实现方式中，初始预测模块32具体用于：

采用门控注意力块过滤杂质特征，以得到纯净特征；

在一种可能的实现方式中，初始预测模块32具体用于：

在一种可能的实现方式中，特征生成模块33具体用于：

根据变换后的预测耗电量、多通道以及归一化嵌入高斯函数，计算变换后的预测耗电量中节点与节点之间的相似性；其中，变换后的预测耗电量中节点与节点之间的相似性的计算方法包括：

在一种可能的实现方式中，杂质获取模块35具体用于：

采用图卷积网络对图结构进行卷积处理，以得到全局特征；

在一种可能的实现方式中，目标预测模块36具体用于：

在一种可能的实现方式中，还包括平滑模块，用于：

在获取历史耗电量数据之后，对历史耗电量数据进行平滑处理，以得到平滑后的历史耗电量数据；

由上可知，本发明实施例通过历史耗电量数据输入到预设模型中，以获取预测耗电量数据，然后根据预测耗电量数据以及提取器，生成特征数据，然后根据特征数据以及预测器，获取带间隔的预测耗电量数据，然后根据带间隔的预测耗电量数据以及第一模型框架，获取带有信息杂质的预测耗电量数据，最后根据带有信息杂质的预测耗电量数据以及第二模型框架，获取目标预测耗电量数据，从而提高了耗电量预测的准确度。

图4是本发明实施例提供的终端的示意图。如图4所示，该实施例的终端4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个耗电量的预测方法实施例中的步骤，例如图1所示的步骤101至步骤106。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图3所示模块31至36的功能。

示例性的，所述计算机程序42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述终端4中的执行过程。例如，所述计算机程序42可以被分割成图3所示模块31至36。

所述终端4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端4可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端4的示例，并不构成对终端4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端还可以包括输入输出设备、网络接入设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端4的内部存储单元，例如终端4的硬盘或内存。所述存储器41也可以是所述终端4的外部存储设备，例如所述终端4上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器41还可以既包括所述终端4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个耗电量的预测方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种耗电量的预测方法，其特征在于，包括：获取历史耗电量数据；

根据所述历史耗电量数据以及预设模型，获取预测耗电量数据；

根据所述预测耗电量数据以及提取器，生成特征数据；

将所述特征数据分为第一预测区间和第二预测区间，通过第一解码器对所述第一预测区间进行预测，以得到第一查询结果，根据所述第一查询结果以及所述第二预测区间，采用第二解码器预测所述第二预测区间的结果，以得到带间隔的预测耗电量数据；

根据所述带间隔的预测耗电量数据以及第一模型框架，获取带有信息杂质的预测耗电量数据；

根据所述带有信息杂质的预测耗电量数据以及第二模型框架，获取目标预测耗电量数据。

2.根据权利要求1所述的耗电量的预测方法，其特征在于，所述根据所述历史耗电量数据以及预设模型，获取预测耗电量数据包括：

将所述历史耗电量数据进行归一化处理，以得到归一化处理之后的历史耗电量数据；

对每个单变量的所述归一化处理之后的历史耗电量数据进行分割，以得到重叠或非重叠的补丁；

采用TSMixer骨干网络将所述重叠或所述非重叠的补丁进行转换，以得到学习权重；其中，所述学习权重在所述TSMixer骨干网络中的通道之间共享；

将所述学习权重输入到在所述TSMixer骨干网络堆叠混合器层中，以得到杂质特征；

采用门控注意力块过滤所述杂质特征，以得到纯净特征；

根据所述纯净特征以及在所述TSMixer骨干网络中添加的预测数据，获取多变量时间序列；

调整所述多变量时间序列的内在时间层次结构和通道间依赖性，以得到所述预测耗电量数据。

3.根据权利要求2所述的耗电量的预测方法，其特征在于，所述采用门控注意力块过滤所述杂质特征，以得到纯净特征包括：

根据注意力权重以及所述混合器层的隐藏张量，计算得到所述纯净特征。

4.根据权利要求1所述的耗电量的预测方法，其特征在于，所述根据所述预测耗电量数据以及提取器，生成特征数据包括：

将所述预测耗电量数据进行图卷积变换，以得到变换后的预测耗电量；

通过卷积操作符对所述变换后的预测耗电量的每个节点进行处理，以将所述变换后的预测耗电量的单通道拓展为多通道；

根据所述变换后的预测耗电量、所述多通道以及归一化嵌入高斯函数，计算所述变换后的预测耗电量中节点与节点之间的相似性，以得到所述变换后的预测耗电量的相似性矩阵；

根据所述变换后的预测耗电量的相似性矩阵以及随机相似性矩阵，获取半自适应图；

根据所述半自适应图与自注意模块，利用权重矩阵将所述变换后的预测耗电量的特征进行加权汇总，以得到所述特征数据。

5.根据权利要求4所述的耗电量的预测方法，其特征在于，所述变换后的预测耗电量中节点与节点之间的相似性的计算方法包括：

；

6.根据权利要求1所述的耗电量的预测方法，其特征在于，所述根据所述带间隔的预测耗电量数据以及第一模型框架，获取带有信息杂质的预测耗电量数据包括：

将所述带间隔的预测耗电量数据转换为图结构；其中，所述图结构为每个时间点与耗电量数据构成；

对所述每个时间点对应的耗电量数据进行局部特征提取，以得到局部特征；

采用图卷积网络对所述图结构进行卷积处理，以得到全局特征；

通过解码器对所述局部特征和所述全局特征进行合成，以得到所述带有信息杂质的预测耗电量数据。

7.根据权利要求1所述的耗电量的预测方法，其特征在于，所述根据所述带有信息杂质的预测耗电量数据以及第二模型框架，获取目标预测耗电量数据包括：

通过注意力机制和位置逐元素前馈网络对所述带有信息杂质的预测耗电量数据进行处理，以得到处理后的带有信息杂质的预测耗电量数据；

通过残差连接和层归一化对所述处理后的带有信息杂质的预测耗电量数据进行处理，以得到所述目标预测耗电量数据。

8.根据权利要求1所述的耗电量的预测方法，其特征在于，在所述获取历史耗电量数据之后，还包括：

对所述历史耗电量数据进行平滑处理，以得到平滑后的历史耗电量数据；

将所述平滑后的历史耗电量数据转换为具有固定时间间隔的历史耗电量数据，以得到预处理之后的历史耗电量数据。

9.一种耗电量的预测装置，其特征在于，包括：

数据获取模块，用于获取历史耗电量数据；

初始预测模块，用于根据所述历史耗电量数据以及预设模型，获取预测耗电量数据；

特征生成模块，用于根据所述预测耗电量数据以及提取器，生成特征数据；

间隔获取模块，用于将所述特征数据分为第一预测区间和第二预测区间，用于通过第一解码器对所述第一预测区间进行预测，以得到第一查询结果，根据所述第一查询结果以及所述第二预测区间，采用第二解码器预测所述第二预测区间的结果，以得到带间隔的预测耗电量数据；

杂质获取模块，用于根据所述带间隔的预测耗电量数据以及第一模型框架，获取带有信息杂质的预测耗电量数据；

目标预测模块，用于根据所述带有信息杂质的预测耗电量数据以及第二模型框架，获取目标预测耗电量数据。

10.一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上的权利要求1至8中任一项所述方法的步骤。