CN117033916A

CN117033916A - 一种基于神经网络的窃电检测方法

Info

Publication number: CN117033916A
Application number: CN202310840149.XA
Authority: CN
Inventors: 李琪林; 方建全; 周尧; 彭德中
Original assignee: Marketing Service Center Of State Grid Sichuan Electric Power Co
Current assignee: Marketing Service Center Of State Grid Sichuan Electric Power Co
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-11-10
Anticipated expiration: 2043-07-10
Also published as: CN117033916B

Abstract

本发明公开了一种基于神经网络的窃电检测方法，包括以下步骤：S1、数据预处理：对输入的数据集中存在的缺失情况进行预处理，填补缺失值，并对数据进行归一化处理；S2、根据窃电数据特征创建检测网络模型，使用处理好的数据集来训练模型；S3、加载模型，根据输入的电力消耗数据来进行检测。该发明的窃电检测方法通过利用卷积神经网络来提取数据周内与相邻周间信息，并利用自注意力机制来提取月份间的信息，且针对难以从复杂的序列模式提取出模式的依赖关系问题，对序列进行了分解，从而提高窃电检测的准确率并降低检测的假阳率。

Description

一种基于神经网络的窃电检测方法

技术领域

本发明属于窃电检测技术领域，具体涉及到一种基于神经网络的窃电检测方法。

背景技术

现如今，电力在我们的生活中扮演着越来越重要的角色，汽车的动力来源也正逐渐从燃油变为电力，但是电力从生产到消耗的过程中存在着两种类型的损耗：技术性损耗和非技术性损耗，其中非技术性损耗主要是窃电造成的。窃电者未经电力公司授权而消耗的能源，窃电行为带来了严重的安全隐患，危及居民的生命安全。早期的检测窃电行为主要靠人工手段，但近年来智能电网的建设以及基于神经网络的人工智能技术的发展为我们解决窃电问题提供了新的机遇。但是现有结合两者技术的方法针对已有数据所做出的归纳偏置还有待完善，没有充分利用现有数据的特性。

现有技术方案大致分为三种：基于状态的检测方法、基于博弈的检测方法以及基于分类的检测方法。基于状态的检测方法使用特定的硬件设备，如无线传感器和射频识别标签来进行检测，以提供高检测精度，但其额外需要的硬件设施也为监管系统引入了额外的成本开销；基于博弈的检测方法则将窃电检测问题建模为窃电者和电力公司间的博弈，通过制定盗窃电力人员、监管人员和电力公司在内的所有与电力生产消费环节的有关实体的效用函数和潜在战略的方式，基于博弈的检测方法需要兼顾多方的博弈，其实施难度很大，且效果往往也不是最优；基于分类的检测方法则利用电力消费者存在的固有消费模式来甄别潜在的窃电者，相较于正常用户，窃电者的消费模式是不规则的，而针对分类方法则有传统的机器学习和神经网络方法，神经网络对如今大数据的适配度更好，能达到的性能上限也更高，但是现有的神经网络方法往往是把已有的其他任务网络架构直接套用到电力消耗的数据上，很少对电力消耗的数据做出针对性的架构设计，限制了其的检测率的提高，且导致其拥有更高的假阳性率。

发明内容

针对现有技术的不足，本发明旨在提出一种基于神经网络的窃电检测方法，该方法综合考虑电力消耗数据本身作为时序数据特点，对进行窃电检测的神经网络结构做出针对性的调整，通过对窃电数据复杂的相关性和周期性进行建模，解决现有的基于神经网络窃电检测方法的网络架构没有很好的利用数据集特点的问题，从而提高窃电检测的准确率并降低检测的假阳率。

为了解决上述技术问题，本发明通过以下方式来实现：

一种基于神经网络的窃电检测方法，包括以下步骤：

S1、数据预处理：对输入的数据集中存在的缺失情况进行预处理，填补缺失值，并对数据进行归一化处理；

S2、根据窃电数据特征创建检测网络模型，使用处理好的数据集来训练模型；

S3、加载模型，根据输入的电力消耗数据来进行检测。

进一步，所述步骤S1中数据预处理具体包括如下步骤：

S11、数据采集与标注：采集用户每日耗电数据组成数据集，由国家电网的工程师依据经验对用电量、台区损失电量和线损率综合分析标注每个用户是否进行了窃电；

S12、对步骤S11中的数据集进行读取，查看每日的耗电数据，并从中找到因设备或者网络故障导致的存在缺失值的数据；

S13、在数据集中识别空间相近似的10个样本，并计算它们之间的欧氏距离，再找到每个缺失样本距离最小的10样本来估算数据点的缺失值，每个样本的缺失值使用该10个邻居的平均值进行插补，计算公式如下：

其中，D_ij表示第i个和第j个样本之间的欧氏距离，x_i和x_j分别表示第i个样本和第j个样本；

S14、对于不同用户数据进行归一化处理，归一化公式如下：

其中，X_norm表示处理后的向量，x_i表示原始向量的每一个维度，x_min表示该向量所有维度中的最小值，x_max表示该向量所有维度中的最大值。

进一步，所述步骤S2中创建窃电检测网络模型，使用预处理完的数据作为输入，具体包括如下步骤：

S21、将预处理完的数据输入至特征提取网络，整个网络表述为三个部分，每部分负责提取不同的特征，最后将三部分特征组合在一起后输入分类网络进行分类，且充分利用电力消耗数据本身特性，三部分特征提取网络在数据输入时分别做以下处理；

S22、特征提取网络1利用卷积神经网络来提取数据的部分知识，将一维线性的数据进行二维化处理，具体卷积操作是利用不同尺度的卷积操作，分别学习不同天数的同一周内部相邻k天以及跨周的相邻k周之间的相关知识，并使用三个卷积块操作且保持矩阵的形状不变，将三者输出的通道拼接起来经过池化层和激活层作为输出；

特征提取网络1的具体描述如下所示：

S221、将预处理后的数据进行维度上的变形，将其从X_in∈R^1×1×T，变成X_in1∈R¹ ^×7×(T/7)，若T不能被7整除，则将余数部分丢弃，变形后的数据变成一个二维矩阵；

S222、特征提取网络1利用不同尺度的卷积块操作对重新排列后的数据进行特征提取，尺度分别是3×3、5×5、7×7，即对一周内相邻的三天、五天、七天耗电量的数据关系进行建模，同时对相邻周的同一天也进行了建模；

具体卷积块操作的运算过程是：

卷积块依次由卷积层、批归一化层、ReLU激活函数层及卷积层、批归一化层、ReLU激活函数层组成，两卷积层的卷积核大小分别是16×1×3×3和32×1×3×3，且卷积运算使用padding运算保持二维向量的尺度不变，对于输入维度为X_in1∈R^1×7×(T/7)的数据，其输出为X_out13∈R^32×7×(T/7)；

S223、将三个卷积块的输出通道数拼接起来，最终输出为X_out1∈R^96×7×(T/7)，特征提取网络1公式表示如下：

X′_out1k＝ReLU(BatchNorm(Conv_2d(Padding(X_in1)))),k∈{3,5,7} (3)

X_out1k＝ReLU(BatchNorm(Conv_2d(Padding(X′_out1k)))),k∈{3,5,7} (4)

X_out1＝[X_out13,X_out15,X_out17] (5)

其中，X′_out1k指的是某个卷积层进行第一次卷积运算后的输出，X_out1k表示第二次卷积运算后的输出，BatchNorm()是归一化操作，Conv_2d是卷积运算的符号。

S23、特征提取网络2利用注意力机制来提取数据的部分知识，将数据按月进行分割作为注意力机制的输入，并在输入前引入固定位置编码作为不同月份的顺序知识；

特征提取网络2的具体描述如下所示：

S231、噪声输入是从标准正态分布中数据组成，其向量维度是1×1×T，因Transformer编码器的输入是多个向量，将向量按月进行切分，共分成T/30个向量作为输入，若不满30天的余数直接丢弃，分割后向量的维度是X_in2∈R^{1×30×(T/30)}

S232、位置编码模块负责给输入向量添加序列的位置信息，其将包含有位置信息的向量与预处理好的向量作相加运算，位置编码向量维度是X_e∈R^{1×30×(T/30)}，且位置编码向量的参数是可学习的，以便在端到端的训练过程中学习到比绝对位置编码含有更丰富位置信息的编码；

S233、加入位置编码后的数据输入，连续经过3个Transformer编码器后获得输出特征，该Transformer编码器由自注意力层、层归一化层、残差连接和全连接层构成，输入数据依次经过自注意力层、通过残差连接方式输入到层归一化层、通过全连接层和残差连接方式输入到层归一化层后最终输出。

其中，Transformer编码器中各层的详细描述如下：

首先，数据输入到自注意力层中，自注意层用于处理输入序列之间的关系，在运算过程中将对输入向量之间的联系性进行学习，从全局视角来看向量之间的联系性；

其次，自注意力层的输出通过残差连接的方式输入到层归一化层中，将注意力层的输入X_l和注意力层的输出X_l ^′相加后，作为层归一化层的输入；

具体来说，对于输入数据X_in2通过三个线性变换矩阵Q、K、V映射为对应的查询向量D_Q、关键词向量D_K和值向量D_V，三种矩阵的维度均为30×D，D的大小是32，自注意力模块通过某个向量A的查询向量和所有向量的关键词向量相乘来计算该向量A和其他向量的相似度，再将每个相似度同相应的值向量作加权运算得到一个输出向量；本发明所使用的相似度计算方法为基于函数的缩放向量点乘方法，计算公式如下：

然后，通过全连接层和残差连接方式输入到层归一化层后最终输出，全连接层的计算公式如下：

X_mlp＝W₁·ReLU(W₀·X_attn+b₀)+b₁ (7)

其中，W₀和W₁表示两层权重向量，b₀和b₁表示两层偏执向量。

计算过程：特征提取网络2的Transformer编码器可以由如下公式表示，

X′_l＝Attn(X_l·W_Q,X_l·W_K,X_l·W_V) (8)

其中，X_l表示Transformer编码器的输入，X′_l表示自注意力层的输出，表示第一个层归一化和残差连接的输出，W_Q W_K W_V分别表示注意力层中的三个线性变换矩阵，其参数可学习，X_l+1表示该Transformer编码器的输出。

S24、特征提取网络3利用电力消耗数据作为时间序列数据本身的特性进行建模，将数据分解后再进行学习到相应的知识，特征提取网络3主要由两部分组成，一部分是序列分解模块，其作用是把原始的时间序列分解季节项和趋势项，另一部分是混合全连接网络，其作用是进行一个重新编码。

特征提取网络3的具体描述如下所示：

S241、序列分解模块通过平均池化的方式将时间序列拆解为季节性和趋势性，其公式表达如下：

X_t＝AvgPool(Padding(X)) (11)

X_s＝X-X_t (12)

其中，X_s和X_t分别表示季节性和趋势性，Padding表示卷积操作中填充技巧，使得卷积前后的序列长度不变，Avgpool表示移动平均。

S242、混合全连接层结构由全连接层、批归一化层和激活函数层构成，混合全连接层的输入，依次使用其包含的层进行计算，每一层的输出作为下一层的输入，最后一层的输出作为混合全连接层的输出，其输入是按周进行分割的数据序列，作用是在周这个时间单位上建立全局的联系，弥补卷积神经网络无法构建全局联系的缺点。

其中，混合全连接层的具体描述如下

将输入数据X_in∈R^1×1×T进行变形成X_in3∈R^{1×30×(T/30)}作为输入，一个混合全连接层使用两个全连接块进行运算，第一个全连接块将数据视为T/30个30维的向量，这些向量各自内部经过全连接块计算，混合向量内部的信息，意义在于每个月都学习月内的相关性，希望找到每个月自身的性质；第二个全连接块将T/30个向量的对应维度进行混合，学习该尺度上的特征；将X_in3和序列分解模块的季节性X_s相加作为第一个混合全连接层的输入，再经两个全连接块计算公式如下：

X₀＝X_in3+X_s (13)

X₁＝ReLU(BatchNorm(W₀·X₀+b₀)) (14)

其中，X₁表示第一个全连接层的输出，X₂表示第二个全连接层的输出，表示对于向量X₁的转置；

S243、每次序列分解后将趋势性相加，季节性用于混合全连接层的计算输入，最终将两个过程的结果相加作为输出，公式如下：

X_t＝X_t1+X_t2+X_t3 (16)

X_out3＝X_s+X_t (17)

其中，X_t1,X_t2,X_t3分别表示每个序列分解模块分解出的趋势性，X_s是经过计算最终获得的季节性。

S25、最后将三部分特征提取网络的输出拼接在一起输入到分类网络，进行分类任务的预测，分类网络使用全连接层进行计算，输出的值X_{class_out}若大于0.5表示有窃电行为；

其中分类网路利用两个全连接层进行计算，其公式如下

X_{class_in}＝X_out1+X_out2+X_out3 (18)

X_{class_out}＝W₁·(W₀·X_{class_in}+b₀)+b₁ (19)

其中，X_{class_in}表示分类网络的输入，由X_out1、X_out2、X_out3相加而来。X_{class_out}是分类网络的输出。b₀、b₁、W₀、W₁是全连接层的可学习参数。

与现有技术相比，本发明具有的有益效果：

本发明申请根据用户耗电量数据的特点构建一个窃电检测的模型，高效率的利用用户耗电量的数据检测出该用户是否出现过窃电行为；使用恰当的方式对数据进行了预处理，经过预处理后的数据更加有效地辅助网络进行检测；通过设计的三种网络提取结构，学习了用户天与天之间、周与周之间、月与月之间的数据模式及更深尺度的特征，进一步通过时间序列的分解，强化突出电力消费序列中隐藏的季节性和趋势性，使得其特点更容易被学习到。

通过利用卷积神经网络来提取数据周内与相邻周间信息，并利用自注意力机制来提取月份间的信息，且针对难以从复杂的序列模式提取出模式的依赖关系问题，对序列进行了分解，从而提高窃电检测的准确率并降低检测的假阳率。

附图说明

图1为本发明创建的窃电检测网络模型示意图：

图2为本发明中特征提取网络1操作流程示意图；

图3为本发明中卷积块操作过程示意图；

图4为本发明中特征提取网络2操作流程示意图；

图5为本发明中Transformer编码器的结构示意图；

图6为本发明中特征提取网络3操作流程示意图；

图7为本发明混合全连接层结构示意图；

图8为本发明的分类网络结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式作进一步详细的说明。

一种基于神经网络的窃电检测方法，包括以下步骤：

S3、加载模型，根据输入的电力消耗数据来进行检测。

进一步，所述步骤S1中数据预处理具体包括如下步骤：

S14、因不同用户的用电量不同，电费的绝对值各异，而只关注各家用电量的消耗模式，因此对于不同用户数据进行归一化处理，使其数量上绝对值不会影响模型的判断，归一化公式如下：

S21、如图1所示，将预处理完的数据输入至特征提取网络，整个网络表述为三个部分，每部分负责提取不同的特征，最后将三部分特征组合在一起后输入分类网络进行分类，且充分利用电力消耗数据本身特性，三部分特征提取网络在数据输入时分别做以下处理；

S22、特征提取网络1利用卷积神经网络来提取数据的部分知识，将一维线性的数据进行二维化处理，每条数据是一个用户每天的耗电量组成，其本身的波动是具有一定的周期性，如工作日相较于周末而言耗电量是更低的；若某用户的数据维度是X_in∈R^1×T，那么我们就将其变换成一个二维矩阵，这样不但可以对数据进行卷积操作，还更易于利用各种形式的卷积学习到不同尺度知识。

如图2所示，具体卷积操作是利用不同尺度的卷积核，分别学习不同天数的同一周内部相邻k天以及跨周的相邻k周之间的相关数据，并使用三个卷积块操作且保持矩阵的形状不变，将三者输出的通道拼接起来经过池化层和激活层作为输出；

特征提取网络1的具体描述如下所示：

如图3所示是3×3卷积块操作的运算过程，其余两个卷积块的操作相同；

X′_out1k＝ReLU(BatchNorm(Conv_2d(Padding(X_in1)))),k∈{3,5,7} (3)

X_out1k＝ReLU(BatchNorm(Conv_2d(Padding(X′_out1k)))),k∈{3,5,7} (4)

X_out1＝[X_out13,X_out15,X_out17] (5)

S23、特征提取网络2利用注意力机制来提取数据的部分知识，对于电力消耗数据来讲，除了每周内会出现一定模式的波动及不同周之间也会有一定模式的波动，在不同的月份中，数据也会出现波动，如夏天的电费往往高于冬天，且由于阶梯电价的应用，一年当中后几个月的电费往往高于前几个月，因此与卷积网络不同的是，将数据按月进行分割作为注意力机制的输入，并在输入前引入固定位置编码作为不同月份的顺序知识；

如图4所示，特征提取网络2的具体描述如下所示：

S231、噪声输入是从标准正态分布中数据组成，其向量维度是1×1×T，因Transformer编码器的输入是多个向量，学习向量之间的联系，将向量按月进行切分，共分成T/30个向量作为输入，若不满30天的余数直接丢弃，分割后向量的维度是X_in2∈R¹ ^×30×(T/30)；

S232、位置编码模块负责给输入向量添加序列的位置信息，输入序列在未进行切分之前，其时间信息可由数值间的位置顺序来表示，但切分之后各向量间的关系变成了对称关系，无法表示时间上的顺序，在这里加入了位置编码模块，其将包含有位置信息的向量与预处理好的向量作相加运算，位置编码向量维度是X_e∈R^{1×30×(T/30)}，和切分后的向量长度相同，且位置编码向量的参数是可学习的，以便在端到端的训练过程中学习到比绝对位置编码含有更丰富位置信息的编码；

如图5所示，Transformer编码器中各层的详细描述如下：

首先，数据输入到自注意力层中，自注意层用于处理输入序列之间的关系，在运算过程中将对输入向量之间的联系性进行学习，从全局视角来看向量之间的联系性；相比于循环神经网络，可无视输入数据间的距离，避免了学习远距离数据联系时知识的遗忘；相比于卷积神经网络，其感受野更大，作用于全局而非局部的卷积框，且对于序列数据的专攻性更强，能更好的从序列数据中提取联系性和特征。

其次，自注意力层的输出通过残差连接的方式输入到层归一化层中，将注意力层的输入X_l和注意力层的输出X′_l相加后，作为层归一化层的输入；

层归一化模块负责对输入数据进行归一化操作，使归一化后的数据满足均值为0，标准差为1的正态分布。

然后，通过全连接层和残差连接方式输入到层归一化层后最终输出，全连接层的作用是进一步提取窃电数据的抽象特征，如果只有注意力层，那么模型只会有注意力层出来的一些线性组合，表达能力有限，而全连接层可以自己学习复杂的特征表达，且还可以起到变换维度的作用，全连接层的计算公式如下：

X_mlp＝W₁·ReLU(W₀·X_attn+b₀)+b₁(7)

其中，W₀和W₁表示两层权重向量，b₀和b₁表示两层偏执向量，得到的输出X_mlp再经过层归一化操作变成最终输出，输出的维度同原始窃电数据的维度相同。

X′_l＝Attn(X_l·W_Q,X_l·W_K,X_l·W_V) (8)

S24、特征提取网络3利用电力消耗数据作为时间序列数据本身的特性进行建模，而非考虑现实的因素，时序数据具有周期性、季节性、趋势性特点。将数据分解后再进行学习到相应的知识，如图6所示，特征提取网络3主要由两部分组成，一部分是序列分解模块，其作用是把原始的时间序列分解季节项和趋势项，另一部分是混合全连接网络，其作用是进行一个重新编码，网络不断地将季节项逐步地聚合和细化，使得这部分网络更偏好存在周期规律波动的序列。

特征提取网络3的具体描述如下所示：

X_t＝AvgPool(Padding(X)) (11)

X_s＝X-X_t (12)

S242、混合全连接层结构由全连接层、批归一化层和激活函数层构成，混合全连接层的输入依次使用其包含的层进行计算，每一层的输出作为下一层的输入，最后一层的输出作为混合全连接层的输出，其输入是按周进行分割的数据序列，作用是在周这个时间单位上建立全局的联系，弥补卷积神经网络无法构建全局联系的缺点。

如图7所示，其中混合全连接层的具体描述如下：

X₀＝X_in3+X_s (13)

X₁＝ReLU(BatchNorm(W₀·X₀+b₀)) (14)

X_t＝X_t1+X_t2+X_t3 (16)

X_out3＝X_s+X_t (17)

如图8所示，分类网路利用两个全连接层进行计算，其公式如下

X_{class_in}＝X_out1+X_out2+X_out3 (18)

X_{class_out}＝W₁·(W₀·X_{class_in}+b₀)+b₁ (19)

以上所述仅是本发明的实施方式，再次声明，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进，这些改进也列入本发明权利要求的保护范围内。

Claims

1.一种基于神经网络的窃电检测方法，其特征在于：包括以下步骤：

S3、加载模型，根据输入的电力消耗数据来进行检测。

2.如权利要求1所述的一种基于神经网络的窃电检测方法，其特征在于：

所述步骤S1中数据预处理具体包括如下步骤：

S11、数据采集与标注：采集用户每日耗电数据组成数据集，由工程师依据经验对用电量、台区损失电量和线损率综合分析标注每个用户是否进行了窃电；

S14、对于不同用户数据进行归一化处理，归一化公式如下：

3.如权利要求1所述的一种基于神经网络的窃电检测方法，其特征在于：

所述步骤S2中创建窃电检测网络模型，使用预处理完的数据作为输入，具体包括如下步骤：

S24、特征提取网络3利用电力消耗数据作为时间序列数据本身的特性进行建模，将数据分解后再进行学习到相应的知识，特征提取网络3主要由两部分组成，一部分是序列分解模块，其作用是把原始的时间序列分解为季节项和趋势项，另一部分是混合全连接网络，其作用是进行一个重新编码；

S25、最后将三部分特征提取网络的输出拼接在一起输入到分类网络，进行分类任务的预测，分类网络使用全连接层进行计算，输出的值X_{class_out}若大于0.5表示有窃电行为。

4.如权利要求3所述的一种基于神经网络的窃电检测方法，其特征在于：

所述步骤S22特征提取网络1的具体步骤如下所示：

S221、将预处理后的数据进行维度上的变形，将其从X_in∈R^1×1×T，变成X_in1∈R^1×7×(T/7)，若T不能被7整除，则将余数部分丢弃，变形后的数据变成一个二维矩阵；

X′_out1k＝ReLU(BatchNorm(Conv_2d(Padding(X_in1))))，k∈{3，5，7} (3)

X_out1k＝ReLU(BatchNorm(Conv_2d(Padding(X′_out1k))))，k∈(3，5，7} (4)

X_out1＝[X_out13，X_out15，X_out17] (5)

5.如权利要求3所述的一种基于神经网络的窃电检测方法，其特征在于：

所述步骤S23特征提取网络2的具体步骤如下所示：

S231、噪声输入是从标准正态分布中数据组成，其向量维度是1×1×T，因Transformer编码器的输入是多个向量，将向量按月进行切分，共分成T/30个向量作为输入，若不满30天的余数直接丢弃，分割后向量的维度是X_in2∈R^{1×30×(T/30)}；

6.如权利要求3所述的一种基于神经网络的窃电检测方法，其特征在于：

所述步骤S24特征提取网络3的具体步骤如下所示：

X_t＝AvgPool(Padding(X)) (11)

X_s＝X-X_t (12)

其中，X_s和X_t分别表示季节性和趋势性，Padding表示卷积操作中填充技巧，使得卷积前后的序列长度不变，Avgpool表示移动平均；

S242、混合全连接层结构由全连接层、批归一化层和激活函数层构成，混合全连接层的输入，依次使用其包含的层进行计算，每一层的输出作为下一层的输入，最后一层的输出作为混合全连接层的输出，其输入是按周进行分割的数据序列，作用是在周这个时间单位上建立全局的联系，弥补卷积神经网络无法构建全局联系的缺点；

X_t＝X_t1+X_t2+X_t3 (16)

X_out3＝X_s+X_t (17)

7.如权利要求4所述的一种基于神经网络的窃电检测方法，其特征在于：

所述步骤S222中具体卷积块操作的运算过程是：

卷积块依次由卷积层、批归一化层、ReLU激活函数层及卷积层、批归一化层、ReLU激活函数层组成，两卷积层的卷积核大小分别是16×1×3×3和32×1×3×3，且卷积运算使用padding运算保持二维向量的尺度不变，对于输入维度为X_in1∈R^1×7×(T/7)的数据，其输出为X_out13∈R^32×7×(T/7)。

8.如权利要求5所述的一种基于神经网络的窃电检测方法，其特征在于：

所述步骤S233中Transformer编码器中各层的详细如下：

其次，自注意力层的输出通过残差连接的方式输入到层归一化层中，将注意力层的输入X_l和注意力层的输出X′_l相加后，作为层归一化层的输入；对于输入数据X_in2通过三个线性变换矩阵Q、K、V映射为对应的查询向量D_Q、关键词向量D_K和值向量D_V，三种矩阵的维度均为30×D，D的大小是32，自注意力模块通过某个向量A的查询向量和所有向量的关键词向量相乘来计算该向量A和其他向量的相似度，再将每个相似度同相应的值向量作加权运算得到一个输出向量；使用的相似度计算方法为基于函数的缩放向量点乘方法，计算公式如下：

X_mlp＝W₁·ReLU(W₀·X_attn+b₀)+b₁ (7)

其中，W₀和W₁表示两层权重向量，b₀和b₁表示两层偏执向量；

特征提取网络2的Transformer编码器可以由如下公式表示，

X′_l＝Attn(X_l·W_Q,X_l·W_K,X_l·W_V) (8)

其中，X_l表示Transformer编码器的输入，X′_l表示自注意力层的输出，表示第一个层归一化和残差连接的输出，W_Q W_K W_V分别表示注意力层中的三个线性变换矩阵，X_l+1表示该Transformer编码器的输出。

9.如权利要求6所述的一种基于神经网络的窃电检测方法，其特征在于：

所述步骤S242中混合全连接层的具体描述如下

将输入数据X_in∈R^1×1×T进行变形成X_in3∈R^{1×30×(T/30)}作为输入，一个混合全连接层使用两个全连接块进行运算，第一个全连接块将数据视为T/30个30维的向量，这些向量各自内部经过全连接块计算，混合向量内部的信息；第二个全连接块将T/30个向量的对应维度进行混合，学习该尺度上的特征；将X_in3和序列分解模块的季节性X_s相加作为第一个混合全连接层的输入，再经两个全连接块计算公式如下：

X₀＝X_in3+X_s (13)

X₁＝ReLU(BatchNorm(W₀·X₀+b₀)) (14)

其中，X₁表示第一个全连接层的输出，X₂表示第二个全连接层的输出，表示对于向量X₁的转置。

10.如权利要求3所述的一种基于神经网络的窃电检测方法，其特征在于：

所述步骤S25中分类网路利用两个全连接层进行计算，其公式如下

X_{class_in}＝X_out1+X_out2+X_out3 (18)

X_{class_out}＝W₁·(W₀·X_{class_in}+b₀)+b₁ (19)