CN113393025A

CN113393025A - 一种基于Informer模型编码结构的非侵入式负荷分解方法

Info

Publication number: CN113393025A
Application number: CN202110629468.7A
Authority: CN
Inventors: 彭勇刚; 凌家源; 陈俊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-09-14
Also published as: US20220397874A1

Abstract

本发明涉及非侵入式负荷分解技术，旨在提供一种于Informer模型编码结构的非侵入式负荷分解方法。包括：对用电负荷的其中的功率数据进行预处理，按总功率和单个用电负荷的时间功率序列组成样本对；参照Informer模型搭建训练模型，该模型包括依次布置的特征提取部分、特征处理部分和特征映射部分；初始化训练模型的各个参数，选择合适的激活函数和损失函数；利用经过预处理的样本数据对训练模型进行训练；将总的功率曲线输入训练好的模型，分解得到单个负荷的功率曲线。本发明在提高模型输入输出的长期依赖的同时，减少了模型对内存空间的占有率和计算时间复杂度，提高非侵入式负荷分解的分解精度；的计算复杂度和空间的储存复杂度上要更少。

Description

一种基于Informer模型编码结构的非侵入式负荷分解方法

技术领域

本发明涉及非侵入式负荷分解领域，尤其涉及基于Informer模型编码结构的非侵入式负荷分解方法。

技术背景

近年来，打造能源互联网成为越来越热门的话题，也得到了许多研究人员的重视，实现能源互联首先要进行能源管理，而其中最重要的基础是对负荷进行监测和控制，合理地优化能源配置能达到节约能源和减少能源消耗的目的。传统的负荷监测方法主要采用侵入式手段，该方法的优点在于数据准确，但缺点是实际的可操作性很差、实施成本高、用户可接受程度低。所以非侵入式的负荷分解手段得到大多数研究人员的青睐。

非侵入式的负荷分解方法主要通过采集电力负荷入口的电气信息数据，从中分解出单个用电负荷的用电情况，是现有的最经济清洁的数据采集方式。目前的非侵入式分解方法主要采用事件检测、特征提取、负荷识别、负荷分解等流程得到最后的分解结果。该方法对会累积每个流程步骤的误差，从而使得较为复杂的负荷的分解准确率不够高。现有的分解准确率较高的方法主要是基于深度学习的非侵入式负荷分解方法。

近年来，深度学习算法已经证明了其在诸如语音识别、机器视觉等各种应用中解决许多复杂问题的能力。因此，研究人员已经开始在非侵入式负荷分解的问题中引入深度学习的算法，包括自动编码器、卷积神经网络、循环神经网络等，用于更好地实现负荷识别与负荷分解。然而，基于深度学习的方法仍存在一定的问题，例如模型的泛化能力、训练数据的不平衡性、评价指标不够全面等难题，需要大量的研究去解决。

发明内容

本发明要解决的技术问题是，克服现有技术中的不足，提供一种基于Informer模型编码结构的非侵入式负荷分解方法。

为解决技术问题，本发明的解决方案是：

提供一种基于Informer模型编码结构的非侵入式负荷分解方法，包括以下步骤：

(1)通过非侵入式的负荷分解方法，从采集到的电气信息数据中分解出用电负荷的用电情况；对其中的功率数据进行预处理，按总功率的时间序列和单个用电负荷的时间功率序列组成样本对；

本发明中所述用电负荷的功率数据，更倾向于选择采集频率小于1Hz的低频功率数据。选择低频数据的原因是，在通常情况下高频数据的获取难度高，存储和传输的成本大。实际上，如果不考虑高频数据的获取难度和成本的话，本发明的实现也不局限于低频数据。另外，鉴于本发明中模型训练和处理的对象是电器设备的功率数据，因此供电网或电气设备中的电压、电流的国家地区差异并不会对本发明的实现造成影响。除需预先获取数据外，本发明没有特殊应用场景限定。

(2)参照自然语言处理领域的Informer模型搭建训练模型，该模型包括依次布置的特征提取部分、特征处理部分和特征映射部分；其中，

在特征提取部分中，将输入长度为L、维度为1的原始序列通过一维卷积层和最大值池化层进行特征提取，得到特征图矩阵；随后进行位置嵌入，即根据特征图计算得到形状相同的位置特征矩阵；将两个矩阵相加，最终得到长度为L、维度为d的特征矩阵；

在特征处理部分中，由基于Informer模型编码部分简化的块结构进行堆叠，舍弃模型中原编码部分的副堆栈部分；在块结构中，第一层是自注意力层，然后连接一个位置全连接前馈网络，最后是一个提炼层(经过提炼层能将特征矩阵的长度缩小二分之一)；按此方式一共堆叠三次，并舍弃第三个块结构的提炼层；经过特征处理部分的处理后，特征矩阵的长度变为L/4，维度保持为d；

在特征映射部分，通过一个一维转置卷积层将特征矩阵的长度恢复为L，维度不变，然后经过两个全连接层，分别将维度缩小为d/2和1，最后得到长度为L，维度为1的输出序列；

(3)初始化训练模型的各个参数，选择合适的激活函数和损失函数；

(4)利用经过预处理的样本数据对训练模型进行训练；

(5)将总的功率曲线输入训练好的模型，分解得到单个负荷的功率曲线。

进一步地，在所述步骤(2)中，按下述计算公式对特征图矩阵进行位置嵌入，得到与其相同维度的位置特征矩阵：

PE(pos，2i)＝sin(pos/10000^2i/d)

PE(pos，2i+1)＝cos(pos/10000^2i/d)

式中，d表示特征矩阵的维度，2i表示维度中的偶数位置，2i+1则表示奇数位置，pos表示原始序列中的位置。

进一步地，在所述步骤(2)中，所述块结构的自注意力层中，包含一个多头概率稀疏自注意力层(Multi-Head ProbSparse Self-attention层)；使用dropout对其进行随机失活，并进行残差连接(防止权重矩阵的退化，提高网络的表征能力)，最后为LayerNorm层进行归一化。

进一步地，在多头概率稀疏自注意力层中，注意力机制所采用的计算方式为：

式中，Q，K，V分别是Query，Key和Value的简写，Query代表查询项，Key代表对应的键项，Value代表需要加权平均的值项；在自注意力机制里，Q，K，V是相同的，代表多头概率稀疏自注意力层的输入矩阵，d表示Query和Key的维度；

是一个稀疏矩阵，大小和Query一样，通过Query稀疏评估选择其中部分Query构成矩阵；上标T是转置的意思。

这样做的原因是QK^T的结果是稀疏的，只有部分Query和Key的矩阵运算对结果有主要影响，而其他的运算可以忽略而不影响模型的性能。该方法大幅降低了注意力模型算法的时间和空间复杂度。

进一步地，所述Query稀疏评估采用的计算方式为：

式中，L_K表示key矩阵的行数，q_i，k_j，分别表示query和key矩阵的第i行和第j行，d表示query和key矩阵的维度，即列数；上标T是转置的意思。

在此基础上，多头概率稀疏自注意力层的计算公式为：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

i＝1，2...，h

其中，W是线性映射矩阵，不同的(W_i ^Q，W_i ^K，W_i ^V)将输入映射到不同的空间，再分别使用映射后的矩阵计算注意力函数，得到head；然后将多个head计算的注意力函数输出拼接在一起后，通过线性变换矩阵W^O映射到输出。

进一步地，在所述步骤(2)中，所述块结构的位置全连接前馈网络由两个核大小为1的卷积层组成，第一个卷积层将自注意力层的结果映射到一个更大维度的特征空间，维度变为4×d，激活函数为GELU；第二个卷积层将输出维度恢复为d；对每个卷积层分别使用dropout进行随机失活，并进行残差连接，最后为LayerNorm层进行归一化。

进一步地，在所述步骤(2)中，所述块结构的提炼层由一个一维卷积层和一个最大值池化层组成；经过提炼层后，特征矩阵的输出长度变为输入长度的二分之一(提炼层的设计能使模型更关注其中重要的特征，舍弃概率稀疏自注意力(ProbSparseSelf-attention)机制产生的冗余特征。

进一步地，所述的提炼层采用的计算方式为：

式中，j表示层数，[·]_AB表示经过Multi-Head ProbSparse Self-attention层的计算操作，Convld(·)表示在时间维度进行一维卷积，卷积核的大小为3，ELU(·)表示激活函数，最大值池化的步长为2。上标t表示第t个输入矩阵。

进一步地，在所述步骤(2)中，特征映射部分的一维转置卷积层使用的卷积核大小为6、步长为4、填充为1，能够将前级得到的序列长度放大4倍，恢复为最初输入序列的大小。

进一步地，在所述步骤(3)中，训练模型所用的损失函数的计算方式为：

式中，

x∈[0，1]，分别表示归一化的模型输出和真实的功率；

s∈{-1，1}，为目标设备的预测开关状态和实际状态；T是序列的时间步，O是其中满足负荷实际开关状态为开或者模型预测状态错误条件下的时间步；τ为放大系数，设置为0.1；λ为惩罚系数，根据不同负荷取经验值。

在该损失函数计算公式中，具有以三个+号连接的四部分内容。其中，第一项为常用的均方误差(Mean Squared Error，MSE)损失函数，第二项为相对熵(KL散度)损失用于衡量预测与真实值的差异，第三项是开关对状态错误预测的惩罚，最后一项是在设备实际开启或模型错误预测状态的时间步上计算的L1项，是针对模型预测偏小的惩罚项。虽然可能在训练时导致震荡但合理的设置可以提高模型的表现，其中λ根据不同负荷取值不同。

进一步地，在所述步骤(4)中，在对模型进行训练时对输入的数据做遮蔽处理，迫使模型通过学习预测被遮蔽的数据，增强模型对重要模式的捕获能力。

以遮蔽比例为10％为例，遮蔽处理是随机选取输入数据的10％进行处理，随机选取的数据中80％的数据设置为-1，10％的数据设置为随机值，10％的数据保持不变。遮蔽处理迫使模型通过学习预测被遮蔽的数据，增强模型对重要模式的捕获能力。

本发明还提供了一种用于非侵入式负荷分解的系统，包括依次连接的输入模块、训练模型和输出模块；所述的训练模型包括依次布置的特征提取部分、特征处理部分和特征映射部分，其中特征处理部分由Informer模型改造而来，选用了其中的编码器结构，并进行简化和堆叠；其中，

特征提取部分，包括一维卷积层、最大值池化层、位置嵌入模块和矩阵相加模块；

特征处理部分，是由基于Informer模型编码部分简化的块结构进行堆叠，且舍弃模型中原编码部分的副堆栈部分而实现的；在块结构中，包括依次布置的自注意力层、位置全连接前馈网络和提炼层；按此方式一共堆叠三次，并舍弃第三个块结构的提炼层；

特征映射部分，包括一个一维转置卷积层和两个全连接层。

与现有技术相比，本发明有以下优点和有益效果：

1、本发明引入长期时间序列预测所使用的Informer模型，将其改进引用于非侵入式负荷分解领域，在提高模型输入输出的长期依赖的同时，减少了模型对内存空间的占有率和计算时间复杂度，提高非侵入式负荷分解的分解精度。

2、本发明基于自然语言处理领域的Informer模型，将Informer模型的部分结构堆叠成块应用于非侵入式负荷分解领域。继承了Informer模型对长序列处理的优秀性能，对于运行周期较长且多状态的用电负荷的分解性能要优于大多数的分解方法；同时，小功率的用电负荷，分解曲线的拟合程度高；在数据量足够的情况下，本模型的分解性能还能有所提高，同时本模型在时间的计算复杂度和空间的储存复杂度上要比常见的类似Transformer模型要更少。

附图说明

图1为模型整体结构图；

图2为基于Informer模型的块结构图；

图3-7为五种电器模型分解效果图。

具体实施方式

首先需要说明的是，本发明涉及数据库和深度学习技术，是计算机技术在电力能源控制技术中的应用。在本发明的实现过程中，会涉及到多个软件功能模块的应用。申请人认为，如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后，在结合现有公知技术的情况下，本领域技术人员完全可以运用其掌握的软件编程技能实现本发明。凡本发明申请文件提及的均属此范畴，申请人不再一一列举。

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

图1为所搭建模型的整体结构图，图2为基于Informer模型的块结构图。

本发明选择自然语言处理领域的Informer模型(如Informer：Beyond EfficientTransformer for Long Sequence Time-Series Forecasting文献的记载)，在其基础上进行块结构的改造；使得改造后的模型能够保持长序列处理的优秀性能，同时减少对内存空间的占有率和计算时间复杂度。

本实施例采用UK-DALE数据集作为研究对象。UK-DALE数据集属于公开免费使用的数据集，其作者是Kelly，数据发布方是英国能源研究中心能源数据中心(UK EnergyResearch Centre Energy DataCentre)。该数据集的内容主要是针对位于英国的五所房屋内的每个用电情况进行长期记录，本实施例选取其中的低频数据组成数据集，低频数据采样频率为1/6Hz。

本实施例选取了数据集中洗碗机、冰箱、电热水壶、洗衣机、笔记本电脑五种电器作为研究对象，选取第2个房屋一周的数据作为测试对象，其他房屋的所有数据作为训练对象。本实施例中的模型在Python 3.6和Pytorch 1.4环境中实现，在两块Nvidia GTX1080TiGPU上进行训练和测试，耗时从数小时到两天不等。

本实施例的具体实施方式包括以下步骤：

S1、将低频数据进行预处理，将5所房屋中选中的五种电器的所有数据提取出来，包括总的视在功率数据和单个用电负荷的有功功率数据，将数据进行清洗，去除没有采集到的空数据和极端异常值，并将数据按照时间序列对齐，组成样本对；

S2、搭建训练模型，模型主要由三部分组成，第一部分是特征提取部分，将输入长度为L，维度为1的原始序列通过一维卷积层和最大值池化层进行特征提取得到特征图，随后进行位置嵌入，即根据特征图计算得到形状相同的位置特征矩阵并将两个矩阵相加，最后得到长度为L，维度为d的特征矩阵；第二部分是特征处理部分，由基于Informer模型编码部分的块结构堆叠组成，块结构的第一层是自注意力层，然后连接一个位置全连接前馈网络，最后是一个提炼层，经过提炼层能将特征矩阵的长度缩小二分之一，本模型一共将块结构堆叠三次，其中第三个块结构舍弃了提炼层，所以经过特征处理部分，特征矩阵的长度变为L/4，维度保持为d；第三部分是特征映射部分，通过一个一维转置卷积层将特征矩阵的长度恢复为L，维度不变，然后经过两个全连接层，分别将维度缩小为d/2和1，最后得到长度为L，维度为1的输出序列；模型的整体结构如图1所示，训练模型中基于Informer模型的块结构如图2所示，具体的参数也标注其中。

S3、初始化模型的各个参数，其中输入序列的长度根据不同的负荷选择为320或480，遮蔽的比例为20％，一维卷积的核大小为5，核数量为256，步长为1，激活函数为线性函数，池化为最大值，池化前后序列形状不变，经过Informer块结构后，序列的长度缩短为原来的四分之一，维度不变还是256，而通过一维转置卷积后长度可以恢复，一维转置卷积使用的卷积核大小为6，步长为4，填充为1，核数量为256，再通过两个全连接层，将序列的维度先后缩减为128和1，得到和输出相同的序列；

S4、把预处理后的训练集中的样本数据输入模型中，对模型进行迭代训练，训练的批次大小为64，代数为10，学习率为1e-4，选择的优化器为Adam；

S5、将测试集中的总的功率数据输入训练好的模型，可以分解得到单个负荷的功率曲线。结果如图3-7所示。

为了评估模型的分解性能，本实施例中选用三个有代表性的指标，分别为F₁分数，平均绝对误差(Mean Absolute Error，MAE)以及信号总误差(Signal Aggregate Error，SAE)。其中F₁分数基于开关状态计算，根据设定的阈值判断负荷处于开启还是关闭状态，将模型输出序列中的状态与实际状态比较计算得到，F₁的计算公式为：

其中，PR为精确率，recall为召回率，β表示了对精确率和召回率的不同侧重，β＝1表示精确率和召回率的调和平均，两者权重相等，即为F₁分数；

其余两个指标的计算公式为：

其中

表示模型分解输出的功率序列，y表示负荷实际的功率序列，

表示模型分解得到的一段时间内的功耗，E表示这个负荷在这段时间内的实际功耗。

表1是所选负荷在算法中的一些参数设置，用于确认负荷的开关状态。

表1负荷的参数设置

表2展示了在测试数据上模型的分解性能指标。

表2模型负荷分解的性能指标

其中F₁分数和MAE指标评估了模型负荷分解每个时间步的准确程度，直观地表现为模型输出的功率曲线与负荷实际功率曲线的贴合程度，而SAE表示在一段时间内模型输出的总功耗与实际功耗之间的差距。

Claims

1.一种基于Informer模型编码结构的非侵入式负荷分解方法，其特征在于，包括以下步骤：

(1)通过非侵入式的负荷分解方法，从采集到的电气信息数据中分解用电负荷的用电情况；对其中的功率数据进行预处理，按总功率的时间序列和单个用电负荷的时间功率序列组成样本对；

在特征处理部分中，由基于Informer模型编码部分简化的块结构进行堆叠，舍弃模型中原编码部分的副堆栈部分；在块结构中，第一层是自注意力层，然后连接一个位置全连接前馈网络，最后是一个提炼层；按此方式一共堆叠三次，并舍弃第三个块结构的提炼层；经过特征处理部分的处理后，特征矩阵的长度变为L/4，维度保持为d；

(4)利用经过预处理的样本数据对训练模型进行训练；

2.根据权利要求1所述的方法，其特征在于，在所述步骤(2)中，按下述计算公式对特征图矩阵进行位置嵌入，得到与特征图矩阵具有相同维度的位置特征矩阵：

PE(pos，2i)＝sin(pos/10000^2i/d)

PE(pos，2i+1)＝cos(pos/10000^2i/d)

3.根据权利要求1所述的方法，其特征在于，在所述步骤(2)中，所述块结构的自注意力层中，包含一个多头概率稀疏自注意力层；使用dropout对其进行随机失活，并进行残差连接，最后为LayerNorm层进行归一化。

4.根据权利要求3所述的方法，其特征在于，在多头概率稀疏自注意力层中，注意力机制所采用的计算方式为：

5.根据权利要求4所述的方法，其特征在于，所述Query稀疏评估采用的计算方式为：

式中，L_K表示key矩阵的行数，q_i，k_j，分别表示query和key矩阵的第i行和第j行，d表示query和key矩阵的维度，即列数；上标T是转置的意思；

在此基础上，多头概率稀疏自注意力层的计算公式为：

MultiHead(Q，K，V)＝Concat(head₁，..，head_h)W^O

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

i＝1，2...，h

6.根据权利要求1所述的方法，其特征在于，在所述步骤(2)中，所述块结构的位置全连接前馈网络由两个核大小为1的卷积层组成，第一个卷积层将自注意力层的结果映射到一个更大维度的特征空间，维度变为4×d，激活函数为GELU；第二个卷积层将输出维度恢复为d；对每个卷积层分别使用dropout进行随机失活，并进行残差连接，最后为LayerNorm层进行归一化。

7.根据权利要求1所述的方法，其特征在于，在所述步骤(2)中，所述块结构的提炼层由一个一维卷积层和一个最大值池化层组成；经过提炼层后，特征矩阵的输出长度变为输入长度的二分之一。

8.根据权利要求7所述的方法，其特征在于，所述的提炼层采用的计算方式为：

式中，j表示层数，[.]_AB表示经过多头概率稀疏自注意力层的计算操作，Convld(·)表示在时间维度进行一维卷积，卷积核的大小为3，ELU(.)表示激活函数，最大值池化的步长为2；上标t表示第t个输入矩阵。

9.根据权利要求1所述的方法，其特征在于，在所述步骤(2)中，特征映射部分的一维转置卷积层使用的卷积核大小为6、步长为4、填充为1，能够将前级得到的序列长度放大4倍，恢复为最初输入序列的大小。

10.根据权利要求1所述的方法，其特征在于，在所述步骤(3)中，训练模型所用的损失函数的计算方式为：

式中，

分别表示归一化的模型输出和真实的功率；

为目标设备的预测开关状态和实际状态；T是序列的时间步，O是其中满足负荷实际开关状态为开或者模型预测状态错误条件下的时间步；τ为放大系数，设置为0.1；λ为惩罚系数，根据不同负荷取经验值；

在该计算公式中，第一项为常用的均方误差损失函数，第二项为相对熵损失用于衡量预测与真实值的差异，第三项是开关对状态错误预测的惩罚，最后一项是在设备实际开启或模型错误预测状态的时间步上计算的L1项，是针对模型预测偏小的惩罚项。

11.根据权利要求1所述的方法，其特征在于，在所述步骤(4)中，在对模型进行训练时，对输入的数据做遮蔽处理，迫使模型通过学习预测被遮蔽的数据，增强模型对重要模式的捕获能力。

12.一种用于非侵入式负荷分解的系统，包括依次连接的输入模块、训练模型和输出模块；其特征在于，所述的训练模型包括依次布置的特征提取部分、特征处理部分和特征映射部分，其中特征处理部分由Informer模型改造而来，选用了其中的编码器结构，并进行简化和堆叠；其中，

特征映射部分，包括一个一维转置卷积层和两个全连接层。