CN115618212A

CN115618212A - 电力数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN115618212A
Application number: CN202211239093.4A
Authority: CN
Inventors: 孟令雯; 唐赛秋; 张庆伟; 辛明勇; 张锐锋; 王宇; 席光辉; 汪明媚; 余思伍; 刘斌; 郭思琪
Original assignee: Electric Power Research Institute of Guizhou Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Guizhou Power Grid Co Ltd
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2023-01-17

Abstract

本申请涉及一种电力数据处理方法、装置、计算机设备和存储介质。所述方法包括：获取变电站二次系统数据，并基于固定时间间隔进行分组，得到多组待处理数据；对各待处理数据分别基于信息熵特性进行特征预筛选得到多组第一数据：建立反映了第一数据和第二数据间的关联关系动态线性化数据模型，并求解模型的线性化系数得到转换矩阵，基于转换矩阵对各组第一数据分别进行降维处理，得到多组第二数据；基于每组第二数据中的各个样本的径向基函数向量，对各组第二数据进行样本量纵向筛选，得到多组第三数据；基于第三数据进行电力业务处理。采用本方法能够实现对变电站产生的电力数据的有效处理从而方便投入后续电力业务处理。

Description

电力数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及智能变电站信息治理技术领域，特别是涉及一种电力数据处理方法、装置、计算机设备和存储介质。

背景技术

随着智能变电站的推广应用，变电站设备运行和设备监测产生了大量的电力数据。这些数据信息是变电站实现各种功能应用的关键所在。然而，这些海量数据信息，加重了变电站通信成本，影响了变电站的运维效率。这些数据通常需要做一些处理方能有效地投入至后续应用。

传统技术中通常基于单一层面对变电站产生地电力数据进行处理，比如对变电站产生的电力数据进行主成分分析，以进行降维处理，但仅通过单一维度的主成分分析难以有效提取出海量电力数据中的有效信息，使得电力业务处理效果不理想。

发明内容

基于此，有必要针对上述技术问题，提供一种能够对变电站产生的电力数据进行有效处理从而方便投入后续应用的电力数据处理方法、装置、计算机设备和计算机可读存储介质。

第一方面，本申请提供了一种电力数据处理方法。所述方法包括：

获取变电站二次系统数据，并基于固定时间间隔将所述变电站二次系统数据进行分组，得到多组待处理数据；

对各待处理数据分别基于信息熵特性进行特征预筛选，得到一次降维后的多组第一数据：

建立动态线性化数据模型，所述动态线性化数据模型反映了一次降维后的第一数据和二次降维后的第二数据间的关联关系；

求解所述动态线性化数据模型的线性化系数得到转换矩阵，并基于所述转换矩阵对各组第一数据分别进行降维处理，基于处理结果得到多组第二数据；

基于每组第二数据中的各个样本的径向基函数向量，对各组第二数据进行样本量纵向筛选，得到多组第三数据；

基于所述第三数据进行电力业务处理。

在其中一个实施例中，每组待处理数据均包括n个样本下每个样本的c个特征维度的数据，所述对各待处理数据分别基于信息熵特性进行特征预筛选，得到一次降维后的多组第一数据，包括：

计算每组待处理数据中每个样本的每个特征维度的数据所对应的信息熵；

将计算得到的每个特征维度的信息熵与预先设置的信息熵阈值进行比较；

对于每组待处理数据中的每个样本，保留相应样本中信息熵大于所述信息熵阈值的特征维度的数据，得到多组第一数据。

在其中一个实施例中，所述求解所述动态线性化数据模型的线性化系数得到转换矩阵，并基于所述转换矩阵对各组第一数据分别进行降维处理，基于处理结果得到多组第二数据，包括：

确定与所述动态线性化数据模型的线性化系数对应的参数估计准则函数；

对所述参数估计准则函数进行极小化处理，求解得到所述线性化系数所对应的转换矩阵；

确定第k组第一数据与第k-1组第一数据间的第一差异，其中，第k组第一数据为多组第一数据中除第一组第一数据外的任一组第一数据；

将所述第一差异代入至包括有所述转换矩阵的动态线性化数据模型中，得到第k组第二数据与第k-1组第二数据间的第二差异，基于所述第二差异和第k-1组第二数据，得到第k组第二数据；其中，第一组第二数据通过对第一组第一数据进行主成分分析得到。

在其中一个实施例中，所述基于每组第二数据中的各个样本的径向基函数向量，对各组第二数据进行样本量纵向筛选，得到多组第三数据，包括：

保留第k组第二数据中的第一个样本，其中，第k组第二数据为多组第二数据中的任一组第二数据；

对于第k组第二数据中除第一个样本之外的其他样本，确定与各样本分别对应的径向基函数向量；

基于除第一个样本之外的其他样本的径向基函数向量，计算样本均值向量；

根据各样本的径向基函数向量分别与所述样本均值向量间的差异，对除第一个样本之外的其他样本进行筛选，得到第k组第三数据。

在其中一个实施例中，所述根据各样本的径向基函数向量分别与所述样本均值向量间的差异，对除第一个样本之外的其他样本进行筛选，得到第k组第三数据，包括：

确定根据各样本的径向基函数向量分别与所述样本均值向量间的差异；

确定第j个样本的径向基函数向量与所述样本均值向量间的差异，与所述第j个样本的径向基函数向量间的比值；其中，第j个样本为多个样本中的任一个样本；

当第j个样本所对应的比值大于预设信息差阈值时，保留第j个样本，否则删除第j个样本；

基于保留的样本得到第k组第三数据。

在其中一个实施例中，基于所述第三数据进行电力业务处理，包括：

基于所述第三数据进行电力设备状态估计、电力设备运行告警分析、电力设备故障诊断、或漏洞检测安全防护中的至少一种电力业务处理。

第二方面，本申请还提供了一种电力数据处理装置。所述装置包括：

获取模块，用于获取变电站二次系统数据，并基于固定时间间隔将所述变电站二次系统数据进行分组，得到多组待处理数据；

一次降维模块，用于对各待处理数据分别基于信息熵特性进行特征预筛选，得到一次降维后的多组第一数据；

二次降维模块，用于建立动态线性化数据模型以及求解所述动态线性化数据模型的线性化系数得到转换矩阵，并基于所述转换矩阵对各组第一数据分别进行降维处理，基于处理结果获取多组第二数据；

三次降维模块，用于基于每组第二数据中的各个样本的径向基函数向量，对各组第二数据进行样本量纵向筛选，得到多组第三数据；

处理模块，用于基于所述第三数据进行电力业务处理。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

基于所述第三数据进行电力业务处理。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

基于所述第三数据进行电力业务处理。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

基于所述第三数据进行电力业务处理。

上述电力数据处理方法、装置、计算机设备和存储介质，通过将获取的变电站二次系统数据基于固定时间间隔进行分组得到多组待处理数据，进而可利用时序数据的特征，对变电站二次系统数据进行多次有效的降维处理。具体地，首先利用信息熵对数据进行直观的特征筛选预处理，剔除大部分无用特征，完成一次降维；然后根据时序数据特点和无模型自适应控制的框架，建立二次降维前后数据间的动态线性化数据模型，可提高降维方法的鲁棒性，并对降维前后数据间的转换矩阵进行求解，实现二次降维；最后从样本间差异的角度，根据各样本的径向基函数向量设计筛选函数对样本进行逐个筛选，完成三次降维。其中，一次降维和二次降维为从数据特征角度进行的横向降维，三次降维为根据样本间差异进行的纵向降维，这样实现了对变电站产生的电力数据进行有效降维处理从而方便投入后续应用，大大提高了后续电力业务处理的有效性。

附图说明

图1为一些实施例中电力数据处理方法的应用环境图；

图2为一些实施例中电力数据处理的流程示意图；

图3为一些实施例中得到第三数据的流程示意图；

图4为另一些实施例中电力数据处理方法的流程示意图；

图5为一个实施例中电力数据处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请所使用的术语“包括”、“包含”、“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或装置的过程、方法、产品或设备不必限于已清楚地列出的步骤，而是还可以包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或装置。本申请所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，本申请所使用的术语“第一”、“第二”、“第三”等是用于对类似的对象作出命名上的区分，但这些对象本身不受这些术语限制。应当理解，在不脱离本申请的范围的情况下，这些术语在适当的情况下可以互换。例如，可将“第一数据”描述为“第二数据”或“第三数据”，且类似地，将“第二数据”描述为“第一数据”或“第三数据”，将“第三数据”描述为“第一数据”或“第二数据”。

本申请实施例提供的电力数据处理方法，可以应用于如图1所示的应用环境中。其中，变电站二次系统102通过网络与计算机设备104进行通信。数据存储系统可以存储计算机设备104需要处理的数据。数据存储系统可以集成在计算机设备104上，也可以放在云上或其他网络服务器上。计算机设备104从变电站系统102获取到变电站二次系统数据之后首先基于固定时间间隔将变电站二次系统数据进行分组，得到多组待处理数据，进而对各待处理数据分别基于信息熵特性进行特征预筛选，得到一次降维后的多组第一数据。其次，计算机设备104还通过建立动态线性化数据模型并对其线性化系数进行求解得到转换矩阵，进而基于转换矩阵对各组第一数据分别进行降维处理，基于处理结果得到多组第二数据。再次，计算机设备104基于每组第二数据中的各个样本的径向基函数向量，对各组第二数据进行样本量纵向筛选，得到多组第三数据。最后，计算机设备104基于得到的第三数据进行电力业务处理。

其中，计算机设备104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。计算机设备104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种电力数据处理方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

步骤202，获取变电站二次系统数据，并基于固定时间间隔将变电站二次系统数据进行分组，得到多组待处理数据。

其中，变电站二次系统是整个变电站控制和监测的神经系统，变电站二次系统数据是变电站二次系统在实现控制和监测变电站的过程中产生的电力数据。一般情况下，变电站二次系统数据是按照时间顺序产生的，为时序数据。

具体地，计算机设备从变电站二次系统获取待处理的变电站二次系统数据，考虑变电站二次系统数据的时间相关性，计算机设备可按照固定时间间隔对变电站二次系统数据进行批量处理，将变电站二次系统数据进行分组，得到多组待处理数据，其中第k组数据可记为X_original(k)∈R^c×n，R^c×n表示c行n列的实数矩阵，c为X_original(k)的原始特征维度，n为X_original(k)中原始包含的样本数量。

步骤204，对各待处理数据分别基于信息熵特性进行特征预筛选，得到一次降维后的多组第一数据。

其中，信息熵为信息中排除冗余后的平均信息量。第一数据是计算机设备对待处理数据进行特征预筛选之后得到的数据。

具体地，计算机设备得到多组待处理数据之后，对于各待处理数据基于信息熵特性进行特征预筛选，得到多组第一数据。

在其中一个实施例中，每组待处理数据均包括n个样本下每个样本的c个特征维度的数据，对各待处理数据分别基于信息熵特性进行特征预筛选，得到一次降维后的多组第一数据，包括：计算每组待处理数据中每个样本的每个特征维度的数据所对应的信息熵；将计算得到的每个特征维度的信息熵与预先设置的信息熵阈值进行比较；对于每组待处理数据中的每个样本，保留相应样本中信息熵大于信息熵阈值的特征维度的数据，得到多组第一数据。

其中，信息熵阈值是用于筛选信息熵的临界值。

具体地，计算机设备对每组待处理数据中每个样本的每个特征维度的数据所对应的信息熵进行计算，得到每组待处理数据中每个样本的每个特征维度的数据所对应的信息熵。进而计算机设备将计算得到的每组待处理数据中每个样本的每个特征维度的数据所对应的信息熵与预设的信息熵阈值进行比较。计算机设备依据的比较原则为：特征维度对应的信息熵越大，其包含的数据信息越大，属于应该保留的特征；特征的信息熵越低，其包含的数据信息量越少，属于应该被剔除的特征。按照上述原则，对于每组待处理数据中的每个样本，计算机设备保留该样本中大于信息熵阈值的特征维度的数据，得到多组第一数据。其中第k组第一数据可记为X(k)∈R^m×n，R^m×n为m行n列的实数矩阵，m为一次降维后第一数据的特征维数。

上述实施例中，通过对每组待处理数据中每个样本的每个特征维度的数据所对应的信息熵与预先设置的信息熵阈值进行比较，能够过滤掉每组待处理数据中每个样本中几乎无用的特征维度的数据，实现对每组待处理数据的特征预筛选，可以大大降低后续电力业务处理的数据量。

步骤206，建立动态线性化数据模型，该动态线性化数据模型反映了一次降维后的第一数据和二次降维后的第二数据间的关联关系。

其中，动态线性化数据模型用输入输出的线性联结形式以直接近似描述系统动态。在本实施例中，该动态线性化数据模型反映了一次降维后的第一数据和二次降维后的第二数据间的关联关系。二次降维后的第k组第二数据可记为Y(k)∈R^d×n，R^d×n为d行n列的实数矩阵，d为二次降维后第二数据的特征维数。

具体地，输入数据增量ΔX(k)为第k组第一数据与第k-1组第一数据的第一差异，第k组第一数据与第k-1组第一数据为相邻时间间隔的第一数据；输出数据增量ΔY(k)为第k组第二数据与第k-1组第二数据的第二差异，第k组第二数据与第k-1组第二数据为相邻时间间隔的第二数据；因此，可建立输入数据增量与输出数据增量之间的动态线性化数据模型为：

ΔY(k)＝Q^T(k)ΔX(k) (1)

其中，Q^T(k)为动态线性化数据模型的线性化系数，Q(k)∈R^m×d是伪雅可比矩阵，具体表示一个转换矩阵，用于将第k组第一数据与第k-1组第一数据的第一差异ΔX(k)投影至低维子空间得到第k组第二数据与第k-1组第二数据的第二差异ΔY(k)。

步骤208，求解动态线性化数据模型的线性化系数得到转换矩阵，并基于转换矩阵对各组第一数据分别进行降维处理，基于处理结果得到多组第二数据。

具体地，计算机设备需要对动态线性化数据模型的线性化系数进行求解以得到转换矩阵。由于一次降维后的各组第一数据已知，则可基于求出的转换矩阵对一次降维后的各组第一数据之间的第一差异ΔX(k)投影至低维子空间得到二次降维后的各组第二数据之间的第二差异ΔY(k)，进而根据二次降维后的各组第二数据之间的第二差异ΔY(k)得到二次降维后的第二数据。

在其中一个实施例中，求解动态线性化数据模型的线性化系数得到转换矩阵，并基于转换矩阵对各组第一数据分别进行降维处理，基于处理结果得到多组第二数据，包括：确定与动态线性化数据模型的线性化系数对应的参数估计准则函数；对参数估计准则函数进行极小化处理，求解得到线性化系数所对应的转换矩阵；确定第k组第一数据与第k-1组第一数据间的第一差异，其中，第k组第一数据为多组第一数据中的任一组第一数据；将第一差异代入至包括有转换矩阵的建立动态线性化数据模型中，得到第k组第二数据与第k-1组第二数据间的第二差异，基于第二差异和第k-1组第二数据，得到第k组第二数据；其中，第一组第二数据通过对第一组第一数据进行主成分分析得到。

其中，参数估计准则函数是用于估计动态线性化数据模型中线性化系数的参数的准则函数。

具体地，考虑数据中可能会出现的异常值和特征选择的一致性，在将第一差异投影到低维子空间的转换矩阵Q(k)的基础上，引入一个新的变换矩阵P(k)，并在损失项和正则项上添加L_2,1联合范数确定与动态线性化数据模型的线性化系数对应的参数估计准则函数：

J(Q(k),P(k))＝||ΔX(k)-P(k)Q^T(k)ΔX(k)||_2,1+λ|||Q(k)||_2,1 (2)

其中，[·]^T表示矩阵的转置，定义矩阵X(k)的第i行表示为X(k)ⁱ，定义矩阵X(k)的联合范数

||X(k)ⁱ||₂表示X(k)ⁱ的l₂范数，

||ΔX(k)-P(k)Q^T(k)ΔX(k)||_2,1为损失项，||Q(k)||_2,1为正则化项，λ表示正则化参数，用于平衡损失项和正则化项。

对参数估计准则函数进行极小化处理得到：

对公式(3)进行求解，得到线性化系数所对应的转换矩阵Q(k)。

需要说明的是，通过在动态线性化数据模型的线性化系数对应的参数估计准则函数中引入变化矩阵P(k)，并在损失项和正则化项上添加联合范数来放松对转换矩阵Q(k)的正交约束，从而求得的转换矩阵Q(k)可以有更大的自由度将一次降维后的多组第一数据投影至接近高维数据的低维子空间，得到多组第二数据。

由于一次降维后的各组第一数据已知，则一次降维后的各组第一数据之间的第一差异ΔX(k)可通过公式(4)确定：

ΔX(k)＝X(k)-X(k-1) (4)

其中，X(k)∈R^m×n为一次降维后的第k组第一数据，X(k-1)∈R^m×n为一次降维后的第k-1组数据，第k组第一数据为多组第一数据中的任一组第一数据。

计算机设备将确定的第一差异ΔX()代入至公式(1)，转换矩阵Q(k)将第一差异ΔX(k)投影至低维子空间得到第k组第二数据与第k-1组第二数据的第二差异ΔY(k)。

由于：

ΔY(k)＝Y(k)-Y(k-1) (5)

其中，Y(k)∈R^d×n为二次降维后的第k组第二数据，Y(k-1)∈R^d×n为二次降维后的第k-1组数据；

则参见公式(6)，将第k组第二数据与第k-1组第二数据的第二差异ΔY(k)与第k-1组第二数据Y(k-1)求和确定第k组第二数据Y(k)。

Y(k)＝ΔY(k)+Y(k-1) (6)

其中，第一组第二数据通过对第一组第一数据进行主成分分析得到，即利用主成分分析对第一组第一数据X(1)进行处理，得到第一组第二数据Y(1)。

上述实施例中，通过设计参数估计准则函数，可以放宽转换矩阵的正交约束和提高降维方法的鲁棒性。从而求得的转换矩阵Q(k)可以有更大的自由度将一次降维后的多组第一数据投影至接近高维数据的低维子空间，得到多组第二数据。

步骤210，基于每组第二数据中的各个样本的径向基函数向量，对各组第二数据进行样本量纵向筛选，得到多组第三数据。

其中，径向基函数向量是沿径向对称的标量函数空间中特定基底的元素，第三数据是计算机设备对第二数据进行第三次降维处理后得到的数据。

具体地，计算机设备得到多组第二数据之后，确定每组第二数据的各个样本的径向基函数向量，并基于确定的每组第二数据的各个样本的径向基函数向量对各组第二数据进行样本量纵向筛选，得到多组第三数据。

在其中一个实施例中，基于每组第二数据中的各个样本的径向基函数向量，对各组第二数据进行样本量纵向筛选，得到多组第三数据，包括：保留第k组第二数据中的第一个样本，其中，第k组第二数据为多组第二数据中的任一组第二数据；对于第k组第二数据中除第一个样本之外的其他样本，确定与各样本分别对应的径向基函数向量；基于除第一个样本之外的其他样本的径向基函数向量，计算样本均值向量；根据各样本的径向基函数向量分别与样本均值向量间的差异，对除第一个样本之外的其他样本进行筛选，得到第k组第三数据。

其中，样本均值向量是对多个样本的径向基函数向量取平均值所得的向量。

具体地，计算机设备得到多组第二数据之后，对于每组第二数据，首先保留每组第二数据的第一个样本，而后基于每组第二数据中除第一个样本之外的其他样本的径向基函数向量对其他样本进行筛选，进而得到与各组第二数据对应的各组第三数据。以第k组第二数据为例：

计算机设备得到第k组第二数据之后，首先保留第k组第二数据中的第一个样本。对于第k组第二数据中除第一个样本之外的其他样本，计算机设备确定各其他样本的径向基函数向量，第k组第二数据中第j个样本的径向基函数向量可表示为σ(Y(k,j))，其中第k组第二数据中第j个样本为第k组第二数据中除第一个样本之外的其他样本中的任一个样本。进而计算机设备可通过对第k组第二数据中第二个样本至第j个样本的径向基函数向量进行求和并除以样本数计算得到样本均值向量。将第k组第二数据中各样本的径向基函数向量分别与样本均值向量进行对比可得到各样本的径向基函数向量分别与样本均值向量间的差异，计算机设备基于各样本的径向基函数向量分别与样本均值向量间的差异可对除第一个样本之外的其他样本进行筛选，当第k组第二数据中第j个样本与样本均值向量间的差异满足筛选条件时即保留，不满足筛选条件时即删除，进而可得到第k组第三数据。

需要说明的是，第k组第二数据为多组第二数据中的任一组第二数据。

上述实施例中，通过每组第二数据中的各个样本的径向基函数向量，对各组第二数据进行样本量纵向筛选，可以实现纵向降维。

在其中一个实施例中，如图3所示，根据各样本的径向基函数向量分别与样本均值向量间的差异，对除第一个样本之外的其他样本进行筛选，得到第k组第三数据，包括：

步骤302，确定根据各样本的径向基函数向量分别与样本均值向量间的差异。

具体地，计算机设备确定根据各样本的径向基函数向量且通过计算得到样本均值向量之后，将各样本的径向基函数向量分别与样本均值向量做差，即可确定各样本的径向基函数向量分别与样本均值向量间的差异。

步骤304，确定第j个样本的径向基函数向量与样本均值向量间的差异，与第j个样本的径向基函数向量间的比值；其中，第j个样本为多个样本中的任一个样本。

具体地，对于第j个样本，参阅公式7，计算机设备通过对第j个样本的径向基函数向量与样本均值向量做差确定第j个样本的径向基函数向量与样本均值向量间的差异之后，将第j个样本的径向基函数向量与样本均值向量间的差异除以第j个样本的径向基函数向量得到第j个样本对应的比值，将该比值与信息差阈值进行对比，可确定第j个样本是否满足筛选条件。

式中，σ(Y(k,j)为第j个样本的径向基函数向量，

为样本均值向量，α为信息差阈值。

步骤306，当第j个样本所对应的比值大于预设信息差阈值时，保留第j个样本，否则删除第j个样本。

其中，信息差阈值是用于筛选样本量的临界值。

具体地，当计算机设备计算得到的第j个样本对应的比值之后，将该比值与与预先设置的信息差阈值进行对比，当第j个样本所对应的比值大于预设信息差阈值时，保留第j个样本，否则删除第j个样本。

步骤308，基于保留的样本得到第k组第三数据。

具体地，计算机设备将第k组第二数据中不满足筛选条件的样本删除之后，满足筛选条件的样本被保留下来，保留下来的第k组第二数据的样本即为第k组第三数据。

上述实施例中，通过确定每组第二数据中的各个样本的径向基函数向量，确定各样本的径向基函数向量分别与样本均值向量间的差异，进而基于各样本的径向基函数向量分别与样本均值向量间的差异对每组第二数据的各个样本进行筛选，在保证样本数据丰富性的情况下得到了第三数据。

步骤212，基于第三数据进行电力业务处理。

具体地，在电力业务处理方面，需要电力数据作为处理依据。因此，计算机设备在得到多组第三数据之后，可基于其得到的第三数据进行相应的电力业务处理。

在其中一个实施例中，基于第三数据进行电力业务处理，包括：基于第三数据对变电站设备进行电力设备状态估计、电力设备运行告警分析、电力设备故障诊断、或漏洞检测安全防护中的至少一种电力业务处理。

其中，状态估计是当代电力系统能量管理系统的重要组成部分，利用电力数据可推测电力系统实时运行状态，并检测和辨识电力系统产生的不良数据。故障诊断是根据相应的电力数据判断电力系统在运维过程中是否遇到故障。漏洞检测安全防护是对相应的电力数据进行入侵监测进而判断是电力系统是否被入侵。告警分析用于根据相应的电力数据判断电力系统在运维过程中是否需要发出告警。

在其中一个实施例中，第三数据可以是变电站二次系统入侵检测数据经过三次降维处理后的数据。

具体地，计算机设备对变电站二次系统入侵检测数据经过三次降维处理后得到变电站二次系统入侵检测第三数据，再通过聚类等方法对变电站二次系统入侵检测第三数据进行分类，判定攻击类型。

上述电力数据处理方法中，通过将获取的变电站二次系统数据基于固定时间间隔进行分组得到多组待处理数据，进而可利用时序数据的特征，对变电站二次系统数据进行多次有效的降维处理。具体地，首先利用信息熵对数据进行直观的特征筛选预处理，剔除大部分无用特征，完成一次降维；然后根据时序数据特点和无模型自适应控制的框架，建立二次降维前后数据间的动态线性化数据模型，可提高降维方法的鲁棒性，并对降维前后数据间的转换矩阵进行求解，实现二次降维；最后从样本间差异的角度，根据各样本的径向基函数向量设计筛选函数对样本进行逐个筛选，完成三次降维。其中，一次降维和二次降维为从数据特征角度进行的横向降维，三次降维为根据样本间差异进行的纵向降维，这样实现了对变电站产生的电力数据进行有效降维处理从而方便投入后续应用，大大提高了后续电力业务处理的有效性。下面参考图4，再以一个具体的实施例来详细说明本申请的电力数据处理方法，包括：获取变电站二次系统数据，将变电站二次系统数据按固定时间间隔进行分组并添加随机噪声，利用信息熵进行特征预筛选完成对第k组数据的一次降维，根据无模型自适应控制架构建立二次降维前后数据见的模型，确定转换矩阵Q(k)的参数估计准则函数，初始化D₁(k)、D₂(k)、

对于给定的

求解

和Q(k)，对于给定的

求解

和P(k)，根据P(k)、Q(k)求解D₁(k)、D₂(k)，直至参数估计准则函数收敛，根据上述结果计算得到对第k组数据进行二次降维的结果，从样本量差异性方面完成对第k组数据的三次降维，最后基于经过三次降维后的变电站二次系统数据进行电力业务处理。

计算机设备从变电站二次系统获取待处理的变电站二次系统数据，由于变电站二次系统数据一般为时序数据，为了在保留特征的条件下实现最大程度的数据降维，本申请考虑变电站二次系统数据的时间相关性，按照固定时间间隔t将变电站二次系统数据进行分割，得到多组待处理数据，其中第k组数据可记为X_original(k)∈R^c×n，R^c×n表示c行n列的是实数矩阵，c为X_original(k)的原始特征维度，n为X_original(k)中原始包含的样本数量。

同时，为了增强后续降维模型的鲁棒性，对X_original(k)添加随机高斯噪声，并将其记为X_noise(k)∈R^c×n。

计算机设备得到多组添加了随机高斯噪声待处理数据之后，设置信息熵阈值δ，过滤掉X_noise(k)中几乎无用的原始变电站二次系统数据信息的特征。即首先计算每个特征的信息熵，如果该特征的信息熵大于设定的阈值δ，则将该特征保留，否则对该特征进行剔除操作。通过信息熵特性初步筛选过后的第k组数据记为X(k)，X(k)∈R^m×n，R^m×n表示m行n列的实数矩阵，m为初步筛选后的数据集的特征维数。

设经过二次降维后的第k组数据为Y(k)∈R^d×n，d表示二次降维后第k组数据的特征维数，ΔY(k)＝Y(k)-Y(k-1)，ΔX(k)＝X(k)-X(k-1)，则可建立一次降维后的第k组数据和二次降维后的第k组数据间的动态线性化数据模型为：

ΔY(k)＝Q^T(k)ΔX(k) (1)

其中，Q(k)∈R^m×d是伪雅可比矩阵，具体地，在本申请中表示转换矩阵，将数据矩阵ΔX(k)投影到低维子空间。上式中不仅考虑了第k组中所包含时刻的数据，还考虑了第k-1组中所包含时刻的数据，可利用变电站二次系统数据的时间关联性实现更有效的数据降维。

为了求解转换矩阵Q(k)，首先确定与动态线性化数据模型的线性化系数对应的参数估计准则函数；

J(Q(k),P(k))＝||ΔX(k)-P(k)Q^T(k)ΔX(k)||_2,1+λ|||Q(k)||_2,1 (2)

式中，[·]^T表示矩阵的转置，定义矩阵X(k)的第i行表示为X(k)ⁱ，定义矩阵X(k)的联合范数

||X(k)ⁱ||₂表示X(k)ⁱ的l₂范数，

||ΔX(k)-P(k)Q^T(k)ΔX(k)||_2,1为损失项，||Q(k)||_2,1为正则化项，λ表示正则化参数，用于平衡损失项和正则化项。其中，矩阵Q(k)首先将数据矩阵X(k)投影到低维子空间，然后再使用另一个变换矩阵P(k)恢复数据矩阵ΔX(k)。这里降维的核心依据主成分分析理论，因此通过引入变化矩阵P(k)并在损失项和正则化项上添加联合范数来放松对变换矩阵Q(k)的正交约束，从而可以有更大的自由度以灵活的方式学习到接近高维数据的低维子空间。损失项||ΔX(k)-P(k)Q^T(k)ΔX(k)||_2,1不是平方项，因此可以提高它对异常数据的鲁棒性。惩罚项||Q(k)||_2,1将与单个特征相对应的所有m个回归系数作为一个整体惩罚，因此本申请能够联合选择特征。

由于损失项和正则化项都是非平滑的，除了对公式(2)进行极小化处理之外，还需要将一些数学技术用于公式(2)以进行求解：

其中，

D₁(k)和D₂(k)是两个m×m的对角矩阵，||·||_F表示矩阵的F范数，由矩阵全部元素平方和的平方根计算得到，[·]ⁱ表示矩阵的第i行。经过一系列迭代后，||ΔX(k)-P(k)Q^T(k)ΔX(k)||₂和||Q(k)||₂(i＝1,2,...,m)将收敛到0，从而得到Q(k)和较小的重构损失。

因此，式(2)的求解变为：

令

且为了减少特征冗余，施加正交约束

I为d×d的单位矩阵，则

初始化D₁(k)＝I^m×m，D₂(k)＝I^m×m，

为随机的m×d的矩阵；给定

则存在一个优化矩阵

使得

是一个m×m的正交矩阵，则式(10)可表示为：

式(11)的第一部分可重写为：

由于

是固定的，

是一个常数，则式(11)可转化为：

对式(13)求导并令

为0，可得：

因此，

给定

计算

则式(10)优化问题变为：

式(16)的第一部分可以转换为：

由于

已经给定，则式(11)等价于：

此外，式(11)通过数学变换还可转化为：

令

的奇异值分解为E(k)D(k)U^T(k)，其中

E(k)为

的左奇异矩阵，

U(k)为

的右奇异矩阵，

D(k)为

的奇异值矩阵，则可得：

根据式(14)计算

根据式(10)计算Q(k)，根据式(20)计算

根据式(21)计算P(k)，再根据定义计算D₁(k)和D₂(k)，循环迭代，直至收敛。

对Q(k)进行归一化，然后根据式(1)计算得到ΔY(k)，再根据Y(k)＝ΔY(k)+Y(k-1)计算得到对第k组数据进行二次降维的结果Y(k)。

其中，当k＝1时，采用主成分分析法得到第k组数据二次降维的结果Y(1)。

令Y(k,j)表示第k组数据的第j个样本，j＝1,…,n，则对Y(k)进行纵向降维时首先保留第一个样本Y(k,1)，然后对其余样本进行逐个筛选。

令σ(Y(k,j))表示样本Y(k,j)的径向基函数向量，然后给定一个信息差阈值α，根据下式对样本Y(k,j)进行筛选：

符合式(22)条件的样本被保留下来，不符合的样本被剔除掉，从而实现数据的三次降维。

最后，基于经过三次降维之后的变电站二次系统数据进行电力业务处理。

上述电力数据处理方法中，通过将获取的变电站二次系统数据基于固定时间间隔进行分组得到多组待处理数据，进而可利用时序数据的特征，对变电站二次系统数据进行多次有效的降维处理。具体地，首先利用信息熵对数据进行直观的特征筛选预处理，剔除大部分无用特征，完成一次降维；然后根据时序数据特点和无模型自适应控制的框架，建立二次降维前后数据间的动态线性化数据模型，可提高降维方法的鲁棒性，并对降维前后数据间的转换矩阵进行求解，实现二次降维；最后从样本间差异的角度，根据各样本的径向基函数向量设计筛选函数对样本进行逐个筛选，完成三次降维。其中，一次降维和二次降维为从数据特征角度进行的横向降维，三次降维为根据样本间差异进行的纵向降维，这样实现了对变电站产生的电力数据进行有效降维处理从而方便投入后续应用，大大提高了后续电力业务处理的有效性。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，如图5所示，本申请还提供了一种电力数据处理装置500，包括：获取模块501、一次降维模块502、二次降维模块503、三次降维模块504和处理模块506，其中：

获取模块501，用于获取变电站二次系统数据，并基于固定时间间隔将变电站二次系统数据进行分组，得到多组待处理数据。

一次降维模块502，用于对各待处理数据分别基于信息熵特性进行特征预筛选，得到一次降维后的多组第一数据。

二次降维模块503，用于建立动态线性化数据模型以及求解所述动态线性化数据模型的线性化系数得到转换矩阵，并基于转换矩阵对各组第一数据分别进行降维处理，基于处理结果获取多组第二数据。

三次降维模块504，用于基于每组第二数据中的各个样本的径向基函数向量，对各组第二数据进行样本量纵向筛选，得到多组第三数据。

处理模块505，用于基于第三数据进行电力业务处理。

在其中一个实施例中，一次降维模块还用于，计算每组待处理数据中每个样本的每个特征维度的数据所对应的信息熵；将计算得到的每个特征维度的信息熵与预先设置的信息熵阈值进行比较；对于每组待处理数据中的每个样本，保留相应样本中信息熵大于信息熵阈值的特征维度的数据，得到多组第一数据。

在其中一个实施例中，二次降维模块还用于，确定与动态线性化数据模型的线性化系数对应的参数估计准则函数；对参数估计准则函数进行极小化处理，求解得到线性化系数所对应的转换矩阵；确定第k组第一数据与第k-1组第一数据间的第一差异，其中，第k组第一数据为多组第一数据中的任一组第一数据；将第一差异代入至包括有转换矩阵的建立动态线性化数据模型中，得到第k组第二数据与第k-1组第二数据间的第二差异，基于第二差异和第k-1组第二数据，得到第k组第二数据；其中，第一组第二数据通过对第一组第一数据进行主成分分析得到。

在其中一个实施例中，三次降维模块还用于，保留第k组第二数据中的第一个样本，其中，第k组第二数据为多组第二数据中的任一组第二数据；对于第k组第二数据中除第一个样本之外的其他样本，确定与各样本分别对应的径向基函数向量；基于除第一个样本之外的其他样本的径向基函数向量，计算样本均值向量；根据各样本的径向基函数向量分别与样本均值向量间的差异，对除第一个样本之外的其他样本进行筛选，得到第k组第三数据。

在其中一个实施例中，三次降维模块还用于，确定根据各样本的径向基函数向量分别与样本均值向量间的差异；确定第j个样本的径向基函数向量与样本均值向量间的差异，与第j个样本的径向基函数向量间的比值；其中，第j个样本为多个样本中的任一个样本；当第j个样本所对应的比值大于预设信息差阈值时，保留第j个样本，否则删除第j个样本；基于保留的样本得到第k组第三数据。

在其中一个实施例中，处理模块还用于，基于第三数据对变电站设备进行电力设备状态估计、电力设备运行告警分析、电力设备故障诊断、或漏洞检测安全防护中的至少一种电力业务处理。

上述电力数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种电力数据处理方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种电力数据处理方法，其特征在于，所述方法包括：

基于所述第三数据进行电力业务处理。

2.根据权利要求1所述的方法，其特征在于，每组待处理数据均包括n个样本下每个样本的c个特征维度的数据，所述对各待处理数据分别基于信息熵特性进行特征预筛选，得到一次降维后的多组第一数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述求解所述动态线性化数据模型的线性化系数得到转换矩阵，并基于所述转换矩阵对各组第一数据分别进行降维处理，基于处理结果得到多组第二数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于每组第二数据中的各个样本的径向基函数向量，对各组第二数据进行样本量纵向筛选，得到多组第三数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据各样本的径向基函数向量分别与所述样本均值向量间的差异，对除第一个样本之外的其他样本进行筛选，得到第k组第三数据，包括：

基于保留的样本得到第k组第三数据。

6.根据权利要求1至5中任一项所述的方法，其特征在于，基于所述第三数据进行电力业务处理，包括：

7.一种电力数据处理装置，其特征在于，所述装置包括：

处理模块，用于基于所述第三数据进行电力业务处理。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。