CN118014041A

CN118014041A - 一种电力设备能耗预测模型的训练方法及装置

Info

Publication number: CN118014041A
Application number: CN202410424623.5A
Authority: CN
Inventors: 吕峰; 于云霞; 秦立刚; 李茂轩; 公志国; 刘杨; 庄斌
Original assignee: State Grid Shandong Electric Power Co Mengyin County Power Supply Co
Current assignee: State Grid Shandong Electric Power Co Mengyin County Power Supply Co
Priority date: 2024-04-10
Filing date: 2024-04-10
Publication date: 2024-05-10

Abstract

本申请涉及数据处理技术领域，尤其涉及一种电力设备能耗预测模型的训练方法及装置。方法包括：获取训练样本集；训练样本集中的样本包括：电力设备的历史配置数据、历史维护数据、历史运行数据和历史能耗数据；根据训练样本集，通过第一神经网络得到当前预测误差和当前第一损失函数值；根据当前预测误差和当前第一损失函数值，确定调整参数的当前调整值；根据调整参数的当前调整值对第一神经网络的第一结构参数的当前值进行调整得到训练后的能耗预测模型。本申请能够解决现有的电力设备的能耗预测模型存在能耗预测不准确、神经网络难以达到最优状态以及神经网络的参数不准确的技术问题。

Description

一种电力设备能耗预测模型的训练方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种电力设备能耗预测模型的训练方法及装置。

背景技术

能耗预测不仅可以提高电力使用的效率，还可以辅助电网公司进行合理的电力调度和维护策略，因此为确保电力系统的稳定运行和优化资源配置，对电力设备的能耗进行准确预测至关重要。

在实际的生产生活中，虽然电力设备所面临的环境复杂多变并且电力设备的配置数据、运行数据等均会对电力设备的能耗产生影响，但是现有技术中对电力设备的能耗预测却过于依赖某一项电力设备数据，例如只考虑电力设备的配置数据，没有全面地融合多种数据来源，导致对电力设备的能耗预测不准确。

另外，现有技术中用于对电力设备的能耗进行预测的分类模型通常仅为一个神经网络，通过一个神经网络中的不同层分别承担特征提取任务和特征分类任务；但是根据实际操作经验可知，该神经网络的特征提取层和特征分类层在训练时会发生相互干扰的现象。具体地，训练使用损失函数在用于确定特征分类层的参数时，可能会对特征提取层的参数也产生较大影响，导致训练好的特征提取层所能提取的特征不再是最优的，进而影响特征分类层的性能，由此可知，特征提取层和特征分类层在训练过程中的相互干扰可能使得神经网络难以达到最优状态。

此外，现有技术中通常使用梯度下降法来辅助损失函数确定神经网络的参数，但是根据实际操作经验可知，使用梯度下降法的过程中存在下降速度慢、依赖梯度信息等应用局限，此外还可能出现梯度爆炸现象，导致严重影响神经网络的参数的准确性。

发明内容

有鉴于此，本申请的目的在于提供电力设备能耗预测模型的训练方法及装置，用于解决现有的电力设备的能耗预测模型存在能耗预测不准确、神经网络难以达到最优状态以及神经网络的参数不准确的技术问题。

第一方面，本申请提供了一种电力设备能耗预测模型的训练方法，用于对能耗预测模型中执行特征提取任务的第一神经网络进行训练，所述方法包括：

获取训练样本集；所述训练样本集中的样本包括：电力设备的历史配置数据、历史维护数据、历史运行数据和历史能耗数据；

根据所述训练样本集，通过所述第一神经网络得到当前预测误差和当前第一损失函数值；

根据所述当前预测误差和所述当前第一损失函数值，确定调整参数的当前调整值；所述调整参数为构造的用于指示所述第一神经网络的第一结构参数的当前值在进行调整时的调整方向、调整范围；

根据所述调整参数的当前调整值对所述第一神经网络的第一结构参数的当前值进行调整得到训练后的所述能耗预测模型。

第二方面，本申请提供了一种分类模型的训练装置，用于对能耗预测模型中执行特征提取任务的第一神经网络进行训练，所述装置包括：样本模块、模型模块、计算模块和更新模块；

所述样本模块，用于获取训练样本集；所述训练样本集中的样本包括：电力设备的历史配置数据、历史维护数据、历史运行数据和历史能耗数据；

所述模型模块，用于根据所述训练样本集，通过所述第一神经网络得到当前预测误差和当前第一损失函数值；

所述计算模块，用于根据所述当前预测误差和所述当前第一损失函数值，确定调整参数的当前调整值；所述调整参数为构造的用于指示所述第一神经网络的第一结构参数的当前值在进行调整时的调整方向、调整范围；

所述更新模块，用于根据所述调整参数的当前调整值对所述第一神经网络的第一结构参数的当前值进行调整得到训练后的所述能耗预测模型。

有益效果：

综上可知，本申请提供了一种对执行特征提取任务的第一神经网络的第一结构参数进行更新的方法，第一，由于本申请的样本中包括数据来源非常丰富，例如历史配置数据、历史维护数据、历史运行数据和历史能耗数据，使得训练得到的能耗预测模型的能耗预测值更为准确；第二，由于本申请中的能耗预测模型中执行特征提取任务的第一神经网络是单独训练的，所以能够避免现有的仅应用一个能够执行特征提取和特征分类的神经网络在训练时会导致神经网络中的特征提取层、特征分类层发生相互干扰的现象；第三，由于本申请中对第一神经网络的第一结构参数的优化方式是通过构造的第一结构参数确定的，所以本申请提供了一个与传统梯度下降方法不同的优化方式，能够有效避免传统的应用梯度下降法可能存在的梯度爆炸等现象的出现；综上可知，本申请能够解决现有的电力设备的能耗预测模型存在能耗预测不准确、神经网络难以达到最优状态以及神经网络的参数不准确的技术问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例一的电力设备能耗预测模型的训练方法的流程图；

图2为本申请实施例一的S110的流程图；

图3为本申请实施例一的S130的流程图；

图4为本申请实施例一的S140的流程图；

图5为本申请实施例二的电力设备能耗预测模型的训练方法的流程图；

图6为本申请实施例三的电力设备能耗预测模型的训练方法的流程图；

图7为本申请实施例四的电力设备能耗预测模型的训练装置的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一：本申请的实施例一为电力设备能耗预测模型的训练方法的实施例，本申请实施例一的训练方法用于对能耗预测模型中执行特征提取任务的第一神经网络进行训练，如图1所示，图1为本申请实施例一的电力设备能耗预测模型的训练方法的流程图，方法包括：

S110：获取训练样本集；训练样本集中的样本包括：电力设备的历史配置数据、历史维护数据、历史运行数据和历史能耗数据。

具体地，电力设备的历史配置数据包括3种属性数据，具体为周围环境温度、设备配置状态/>（具体可为高性能、节能或者一般等）、负载百分比/>；电力设备的历史维护数据包括2种属性数据，具体为维护记录数/>、故障次数/>；电力设备的历史运行数据包括4种属性数据，具体为设备功率/>、设备输入电流/>、设备输入电压/>、设备运行小时数/>；

在上述数据中，周围环境温度（单位：Celsius）、负载百分比/>、维护记录数/>、故障次数/>、设备功率/>（单位：Watt）、设备输入电流/>（单位：Ampere）、设备输入电压/>（单位：Volt）、设备运行小时数/>和历史能耗数据/>（单位：kWh）均为数值数据；设备配置状态/>为文本数据。在实际的操作中，上述所采集的数据可以以结构化的表格进行存储，表格的形式可为CSV格式。

需要强调的是，在实际应用中，数据的属性通常多于10个属性，数据的属性数量可能达到几十个甚至上百个。

现举例说明样本的具体内容，示例如下所示：

°C；/>、/>；/>、/>；W、/>A、/>V、/>小时；/>kWh；在实际操作中，需要获取电力设备的历史配置数据、历史维护数据、历史运行数据和历史能耗数据的原始数据，然后需要依次对原始数据进行缺失值处理、标准化处理、编码处理。

缺失值处理的过程如下所述：

缺失值处理的目的是为了对原始数据中缺失值较多的属性数据进行调整；此处仅以属性数据周围环境温度和属性数据设备功率/>进行举例说明对缺失值较多的属性数据进行调整的必要性，示例如下所示：

对于不同的时刻，周围环境温度中包括15个原始数据，属性数据设备功率/>中包括20个原始数据，显然周围环境温度/>中原始数据的数量与设备功率/>中原始数据的数量不匹配，因此无法根据周围环境温度/>、数据设备功率一一匹配的原理得到20个样本，因此需要对具有缺失值的属性数据进行处理，保证样本的完整性；

对属性数据中缺失值的具体处理过程如下所示：

（1）确认原始数据中每个属性数据中缺失值的缺失率；

根据下述公式计算缺失率：；

式中，表示属性数据中缺失值/>的缺失率；

表示属性数据中缺失值的数量；/>表示属性数据中数据的总数量；

（2）判断每个属性数据的缺失率与预设缺失率阈值之间的关系；

当属性数据的缺失率大于预设缺失率阈值，即删除该属性数据。当属性数据的缺失率小于等于预设缺失率阈值，根据属性数据的中位数进行填补。

在实际操作中，当属性数据被删除后，在后续的编码处理过程中需要在被删除的属性数据的对应位置补充占位数据；属性数据的中位数指的是该属性数据的多个数据在按照大小排列后得到的中位数，如果中位数的数量为两个，取平均值再进位，得到可进行填补的中位数；预设缺失率阈值可根据实际需求确定，例如可将预设缺失率阈值设置为0.05。

标准化处理的过程如下所述：

在对属性数据中的原始数据进行转码前，需要将原始数据进行Z-score标准化处理，标准化处理公式如下所示：

；

式中，表示属性数据/>的均值；/>表示属性数据/>的标准差；

表示属性数据/>中的第/>个原始数据；/>表示属性数据/>中的标准化处理后的第/>个原始数据。

编码处理的过程如下所述：

在依次进行缺失值处理、标准化处理后，需要将根据时刻或者其他划分标准，将属性数据中的多个处理后的原始数据划分至不同的样本中；每个样本包括多个属性数据。在本申请实施例中，标注的方式为人工标注。标注的类别包括：低能耗、中等能耗、高能耗3个类别。在得到多个样本后，需要对样本中的向量进行编码处理，得到包括多个向量的向量序列。对于样本中的文本数据，可采用独热编码和word2vec算法将数值数据或者文本数据转化为向量数据，具体过程可参加下述公式：

；

表示对设备配置状态/>的原始数据进行编码后得到的向量数据。上述公式仅是为了简要说明，并非表示设备配置状态/>只有“高性能”和其他两种情形，具体可根据实际确定，本申请不再限定。

在一种实现方式中，如图2所示，图2为本申请实施例一的S110的流程图，S110包括：

S1101：获取原始样本集；根据原始样本集，通过预训练的生成对抗网络得到用于对原始样本集进行扩充的扩充数据集。

具体地，上述步骤得到多个样本的向量序列即为原始样本集。

在实际的操作中，为了避免有限的原始样本集对能耗预测模型的训练过程中可能存在的过拟合问题，在对电力设备能耗预测模型进行训练前，采用基于压缩感知的生成对抗网络和黎曼流形对原始样本集进行数据扩充。

在现有技术中，传统的生成对抗网络使用随机噪声作为输入，生成类似于真数据的假数据。本申请实施例提出一种改进的基于压缩感知的生成对抗网络，基于压缩感知的生成对抗网络不仅能利用随机噪声，还结合了压缩感知的思想，使得生成的假数据能更好地捕获电力设备的工作模式和特性。此外，在高维数据空间中，数据往往分布在某个低维子空间或流形上。考虑到电力设备数据的特性，本申请实施例选择黎曼流形作为数据的低维表示，进一步增强数据的多样性，同时保留关键的电力设备特性。

基于压缩感知的生成对抗网络是在电力设备的能耗预测模型的训练之前进行预训练的。

生成对抗网络包括：生成器和判别器。生成对抗网络中生成器的作用是根据随机噪声生成假数据。生成器不仅是一个简单的映射，生成器实际上包括多个网络层，每个网络层都通过激活函数进行非线性转换，非线性转换过程如下所示：/>；

式中，表示生成器中第/>个网络层的输出数据；/>和/>表示生成器中第/>个网络层的权重和偏置；/>表示生成器中的ReLU激活函数。

本申请实施例对上述的生成器进行了调整，在上述的生成器的基础上引入了压缩感知测量矩阵，压缩感知测量矩阵的应用如下所示：

；

式中，表示生成器基于随机噪声/>和压缩感知测量矩阵所生成的假数据；/>表示生成器函数；/>表示生成器的参数；/>表示预设的压缩感知测量矩阵；/>表示随机噪声；

生成对抗网络中判别器的作用是区分真数据和假数据，与生成器类似，判别器也包括多个网络层，每个网络层都进行线性转换和非线性激活，线性转换过程如下所示：；

式中，表示判别器中第/>个网络层的输出数据；/>和/>表示判别器中第/>个网络层的权重和偏置；/>表示判别器中的tanh激活函数。

在一种实现方式中，压缩感知测量矩阵通过基于图节点理论的策略计算得到，考虑数据的内在几何结构，同时引入自适应特征选择机制来增强测量矩阵的性能。压缩感知测量矩阵/>的具体计算过程如下所示：

（1）设电力设备的历史能耗样本集为；

（2）构建一个图结构；式中，/>表示顶点集合，每个顶点代表一个数据点；/>表示边集合，每条边代表数据点之间的相似度。

（3）计算相似度矩阵，其中相似度矩阵/>中的元素/>表示顶点/>和/>之间的相似度，相似度通过高斯核函数计算得到，高斯核函数如下所示：

；

式中，表示高斯核的宽度；/>表示欧氏距离；

（4）构建图结构的拉普拉斯矩阵，拉普拉斯矩阵被定义为/>；

式中，表示度矩阵，度矩阵是一个对角矩阵，其每个元素/>等于顶点/>的度，即；

（5）利用拉普拉斯矩阵的特征值和特征向量进行特征选择。具体的，选择与最小非零特征值相对应的特征向量，因为其反映了图的最重要的结构信息。设的特征值分解为，其中/>是包含特征值的对角矩阵，/>的列是对应的特征向量。本发明选择/>个最小的非零特征值对应的特征向量/>来构造压缩感知测量矩阵/>。

（6）为提高压缩感知测量矩阵的压缩感知性能，对选定的特征向量通过进行稀疏化处理，稀疏化可以通过求解以下优化问题实现：

；

式中，表示压缩感知测量矩阵；/>表示由选定的/>个特征向量组成的矩阵；/>表示弗罗贝尼乌斯范数；/>表示/>范数，/>表示正则化参数；

可根据实际需求确定，在本申请实施例中，可将/>设置为0.3或者0.4。

（7）通过梯度下降法求解该优化问题，得到压缩感知测量矩阵。

在一种实现方式中，基于压缩感知的生成对抗网络在训练过程中所使用的损失函数如下所示：

；

式中，表示根据生成对抗网络得到的当前第二损失函数值；

表示生成对抗网络中的判别器对真数据/>的判断概率；真数据根据原始样本集确定；/>表示生成对抗网络中的生成器基于随机噪声/>和压缩感知测量矩阵生成的假数据；/>=/>；/>表示生成对抗网络中的判别器对生成器生成的假数据/>的判断概率；

表示正则化参数；/>表示压缩感知测量矩阵/>的逆。

在实际的操作中，本申请实施例提出的应用于生成对抗网络训练过程的损失函数不仅考虑了判别器识别真假数据的能力，也采用压缩感知策略来促进生成假数据的质量，同时通过正则化项控制模型复杂度，防止过拟合。

当将基于压缩感知的生成对抗网络训练完毕后，可通过基于压缩感知的生成对抗网络得到用于对原始样本集进行扩充的扩充数据集，扩充数据集包括多个扩充数据。

S1102：将扩充数据集通过黎曼流形进行映射得到映射样本集。

具体地，将所有的扩充数据点映射到黎曼流形上，以保持扩充数据的内在结构。考虑到数据的高维分布，本申请实施例使用黎曼流形来描述扩充数据的低维结构。对于每个扩充数据，其在黎曼流形上的映射为/>，映射关系如下所示：/>；

式中，表示黎曼度量，描述了扩充数据在流形上的局部结构；黎曼度量是一个加权的协方差矩阵，其中权重由高斯核确定；

黎曼度量的计算公式如下所示：

；

在黎曼流形上，根据扩充数据映射得到的映射数据之间的距离不再是欧几里得距离；映射数据之间的距离的计算公式如下所示：

；

式中，，/>表示由黎曼度量/>定义的内积；/>、/>表示扩充数据集中的扩充数据；/>、/>表示根据扩充数据通过黎曼流形映射得到的映射数据；/>表示映射数据/>、/>之间的距离。

S1103：通过映射损失函数确定映射样本集中的有效数据，将有效数据添加至原始样本集得到训练样本集。

具体地，为了确保映射的有效性，需要最小化映射损失函数，映射损失函数如下所示：

；

式中，表示当前第三损失函数值；/>表示高斯核的宽度。

在实际的操作中，当得到训练样本集后，还可通过预设的分类器评估扩充得到的训练样本集的质量；如果质量不满足预设标准，则需要对生成对抗网络进行重新训练。

在本申请实施例中，预设的分类器可设置为支持向量机分类器。预设标准也可根据实际需求确定，本申请不做具体限定。

S120：根据训练样本集，通过第一神经网络得到当前预测误差和当前第一损失函数值。

具体地，能耗预测模型还具有执行特征分类任务的第二神经网络。

当将训练样本集中的样本输入至第一神经网络、第二神经网络后，第二神经网络会输出对应于样本的能耗预测值；根据对应于样本的能耗标注值、能耗预测值，即可确定预测误差；再根据对应于样本的能耗标注值、能耗预测值以及第一神经网络的第一损失函数，即可得到第一损失函数值；第一损失函数可根据实际需求确定，本申请不做具体限定。

S130：根据当前预测误差和当前第一损失函数值，确定调整参数的当前调整值。其中，调整参数为构造的用于指示第一神经网络的第一结构参数的当前值在进行调整时的调整方向、调整范围。

具体地，在得到样本扩充后的训练样本集后，采用第一神经网络进行特征提取。区别于传统的神经网络，本申请实施例采用基于生物荧光启发式优化算法替代传统的梯度下降法，在第一神经网络的训练过程中对第一神经网络的第一结构参数进行更新。

受启发于生物体的生物荧光现象，某些生物体可以根据其环境条件发出光线，这种发光的强度和频率可能会随环境的变化而变化。本申请实施例将这一现象与第一神经网络的第一结构参数优化相结合，网络的损失或错误可以看作是环境条件，而第一神经网络的第一结构参数的调整则与生物荧光的变化相似。

在实际的操作中，第一结构参数包括：权重和偏置。

在还未对第一神经网络进行训练时，需要对第一神经网络的权重和偏置/>进行初始化；在本申请实施例中，权重/>和偏置/>被初始化为随机值；

；/>；

式中，表示均匀分布；/>表示一个小的正值，在本申请实施例中，将/>设置为0.001；

由于每个网络层均包括多个神经元，每个神经元都具有权重和偏置/>，在本申请实施例中，为每个网络层中的所有神经元的权重/>和偏置/>进行统一更新优化，因此在本申请实施例中，/>表示第一神经网络中第n个网络层的权重，用于代表第n个网络层中所有神经元的权重；/>表示第一神经网络中第n个网络层的偏置，用于代表第n个网络层中所有神经元的偏置。

基于生物荧光启发式优化算法，为权重和偏置定义一个发光体，发光体的初始的发光强度和频率均为随机值，光强和频率/>的计算公式如下所示：

；/>；

式中，表示关系系数，用于指示光强和频率之间的关联程度，在本申请实施例中，将/>设置为0.5；/>表示光强，用于指示权重或偏置在训练过程的调整范围；/>表示频率，频率与光强相结合，用于决定权重和偏置的调整方向；光强/>即为第一调整参数，频率/>即为第二调整参数。在接下来的步骤中，将会详细记述如何通过构造的第一调整参数/>和第二调整参数/>对第一神经网络的第一结构参数进行更新。

在一种实施方式中，如图3所示，图3为本申请实施例一的S130的流程图，调整参数包括：第一调整参数和第二调整参数，S130包括：

S1301：根据当前预测误差，确定当前适应值；当前适应值指示基于第一结构参数的当前值的第一神经网络的当前预测性能。

具体地，通过适应度函数确定当前适应值；适应度函数如下所示：

；

式中，表示当前适应值；/>表示陡度常数，用于指示适应度公式的陡度，在本申请实施例中，将/>设置为0.8；(/>)表示当前预测误差；/>表示训练样本集中样本的能耗标注值，/>表示通过基于第一结构参数的当前值的第一神经网络得到的训练样本集中样本的能耗预测值。当前适应值指示基于第一结构参数的当前值的第一神经网络的当前预测性能，当前适应值的值越高，表示对应的第一神经网络的当前预测性能越好。

S1302：根据当前适应值，通过第一调整公式得到第一调整参数的当前调整值。其中，第一调整公式如下所示：；

式中，表示目标网络层的已进行/>次调整的第一调整参数/>的当前值；/>表示目标网络层的第一调整参数的当前值/>的当前调整值；/>表示光强常数，用于指示第一调整参数/>的调整程度；/>表示当前适应值。

具体地，根据当前适应值，可以确定用于动态调整每个发光体的光强的当前值的当前调整值。

S1303：根据第一损失函数值、第一调整参数的当前值，通过第二调整公式得到第二调整参数的当前调整值。

其中，第二调整公式如下所示：；式中，/>表示目标网络层的已进行次调整的第二调整参数/>的当前值；/>表示目标网络层的第二调整参数的当前值的当前调整值；/>表示频率参数，用于指示第二调整参数/>的调整程度；/>表示当前第一损失函数值。

具体地，根据第一损失函数值、第一调整参数的当前调整值，可以确定用于动态调整每个发光体的频率的当前值的当前调整值。

S140：根据调整参数的当前调整值对第一神经网络的第一结构参数的当前值进行调整得到训练后的能耗预测模型。

具体地，当确定第一调整参数、第二调整参数的当前调整值后，即可对第一神经网络的第一结构参数的当前值进行调整。

在一种实现方式中，如图4所示，图4为本申请实施例一的S140的流程图，S140包括：

S1401：根据第一神经网络中的目标网络层的第一调整参数、第二调整参数的当前值、当前调整值，确定目标网络层的第一调整参数、第二调整参数的更新值。

具体地，目标网络层指的是根据经验挑选的最先进行第一结构参数进行的调整的网络层。

（1）根据第一调整参数的当前值、当前调整值，根据第一调整参数更新公式，确定第一调整参数的更新值；

第一调整参数更新公式如下所示：；

式中，表示目标网络层的第一调整参数/>的更新值；

（2）根据第二调整参数的当前值、当前调整值，根据第二调整参数更新公式，确定第二调整参数的更新值；

第二调整参数更新公式如下所示：；

式中，表示目标网络层的第二调整参数/>的更新值。

S1402：根据目标网络层的第一结构参数的当前值以及第一调整参数、第二调整参数的更新值，通过第一结构参数更新公式得到目标网络层的第一结构参数的更新值。

其中，第一结构参数更新公式如下所示：；

式中，表示已进行/>次调整的目标网络层的第一结构参数/>的当前值；表示目标网络层的第一结构参数的更新值，用于对目标网络层的第一结构参数的当前值/>进行第/>次调整；

表示目标网络层的第一调整参数/>的更新值；

表示目标网络层的第二调整参数/>的更新值；

表示第一神经网络的学习率；/>表示对目标网络层的第一结构参数的当前值/>进行迭代更新的时间步。

具体地，第一调整参数的更新值越大，表明第一结构参数越需要进行大幅度的参数调整；第二调整参数的更新值/>的变化则决定了第一结构参数的调整方向。

需要强调的是，根据实际经验可知，对第一神经网络结构的第一结构参数进行调整的过程为一个迭代调整的过程，虽然本申请仅记载了一次调整过程，但是出于简要的目的视为本申请已经记载了第一结构参数的整个迭代调整过程。

S1403：根据第一结构参数的更新值对第一神经网络的第一结构参数的当前值进行调整得到训练后的能耗预测模型。

具体地，在确定第一结构参数的更新值后，用第一结构参数的更新值对第一结构参数的当前值进行替换。

在第一结构参数的迭代更新过程中，当达到预设迭代次数或者第一结构参数的变化小于预设变化阈值时，第一结构参数的迭代更新停止。预设迭代次数、预设变化阈值均根据实际需求确定，本申请不做具体限定。

综上可知，本申请实施例一提供了一种基于仿生算法对执行特征提取任务的第一神经网络的第一结构参数进行更新的方法，第一，由于本申请实施例的样本中包括数据来源非常丰富，不仅考虑了电力设备的实时参数和历史消耗记录，还涉及了与设备相关的电网日志和设备的配置及维护信息，使得训练得到的能耗预测模型的能耗预测值更为准确；第二，由于本申请中的能耗预测模型中执行特征提取任务的第一神经网络是单独训练的，所以能够避免现有的仅应用一个能够执行特征提取和特征分类的神经网络在训练时会导致神经网络中的特征提取层、特征分类层发生相互干扰的现象；第三，由于本申请实施例应用了基于压缩感知的生成对抗网络来对原始样本进行扩充，生成的数据不仅多样，因此能够保留关键的电力设备特性，有助于防止能耗预测模型过拟合；第四，由于本申请在数据扩充过程中应用了黎曼流形，增强了数据的多样性，同时保留了关键的电力设备特性；第五，由于本申请中对第一神经网络的第一结构参数的优化方式是基于生物荧光启发确定的，所以本申请实施例提供了一个与传统梯度下降方法不同的优化方式，能够有效避免传统的应用梯度下降法可能存在的梯度爆炸等现象。

实施例二：本申请的实施例二为电力设备能耗预测模型的训练方法的实施例，如图5所示，图5为本申请实施例二的电力设备能耗预测模型的训练方法的流程图，与实施例一的不同之处在于，方法还包括：

S210：根据目标网络层的第一结构参数的更新值，通过参数传递公式得到目标网络层的当前参数传递值。其中，当前参数传递值用于对第一神经网络中与目标网络层相邻的相邻网络层的第一结构参数的当前值进行更新。

具体地，参数传递公式如下所示：；

式中，表示当前网络层的当前参数传递值；

表示当前网络层的第一结构参数的更新值。

S220：根据目标网络层的当前参数传递值、相邻网络层的第一结构参数的当前值，确定相邻网络层的第一结构参数的更新值；

具体地，计算第一结构参数的更新值的公式如下所示：

；

式中，表示相邻网络层的第一结构参数的更新值；

表示传递常数，用于指示当前网络层的第一调整参数的传递比率；/>

表示调节系数，用于指示当前网络层的第一调整参数的在传递过程中对第一结构参数的影响能力。

在本申请实施例中，可将的值设置为0.5，将/>的值设置为0.4。

综上可知，本申请实施例二提供了一种用于基于已进行过迭代更新的当前网络层的第一结构参数对相邻网络层的第一结构参数进行更新的方法，由于本申请实施例二所提供的方法很简便，省去对第一神经网络中每个网络层的第一结构参数均进行训练的过程。

实施例三：本申请的实施例三为电力设备能耗预测模型的训练方法的实施例。在现有技术中，传统的梯度下降法在第二结构参数的每次更新时，都使用了所有数据的梯度信息。而在电力数据中，可能存在一些异常值或噪声，数据的梯度会对参数更新产生不利影响。

为了解决上述技术问题，当对第一神经网络训练完成后，本申请实施例采用的改进的分位数梯度下降对执行特征分类任务的第二神经网络（高阶神经网络）的第二结构参数进行训练，更为适应于处理电力设备能耗预测的异常值与噪声，从而降低了异常值对模型的影响。此外，为了加强第二神经网络的表示能力，本申请实施例引入一种新的神经元结构，称为低秩近似神经元。用于捕获样本的主要变化趋势。

如图6所示，图6为本申请实施例三的电力设备能耗预测模型的训练方法的流程图，与实施例一的不同之处在于，本申请实施例用于对能耗预测模型中执行特征分类任务的第二神经网络进行训练，方法还包括：

S310：据训练样本集，通过第一神经网络、第二神经网络得到对应于训练样本集中样本的预测能耗数据。

S320：根据对应于训练样本集中样本的标注能耗数据、预测能耗数据，通过分位数梯度下降函数得到第二神经网络的第二结构参数的当前值的分位数梯度值。

具体地，在传统的梯度下降法中，梯度下降函数是关于损失函数的导数，但在分位数梯度下降函数中，考虑一个特定的分位数τ；

分位数梯度下降函数如下所示：

；

式中，表示已进行/>次调整的第二结构参数的当前值/>的分位数梯度值；/>表示第二神经网络的分类损失函数/>的导数函数；

表示分位数，/>；/>表示训练样本集中样本的能耗标注值，/>表示通过基于第二结构参数的当前值的第二神经网络得到的训练样本集中样本的能耗预测值；

S330：根据第二结构参数的当前值的分位数梯度值，通过第二结构参数更新公式得到第二结构参数的更新值。

具体地，第二结构参数更新公式如下所示：

；/>

式中，表示第二结构参数的更新值；/>表示已进行/>次调整的第二结构参数的当前值；/>表示遗忘因子，/>；/>表示第二神经网络的学习率；/>表示参与常数，用于防止计算项/>的分母为0；

表示已进行/>次调整的梯度的历史累积平方和矩阵；

表示已进行/>次调整的第二结构参数的当前值/>的分位数梯度值；/>表示第二神经网络中神经元的输出的低秩输出矩阵。

在一种实现方式中，低秩输出矩阵的确认方法如下所示：

设每个神经元的输出矩阵为，现需要确定一个近似的低秩矩阵/>来近似/>，首先对输出矩阵/>进行奇异值分解，输出矩阵/>的分解公式如下所示：

；

根据输出矩阵的分解公式，本申请实施例只保留前/>个奇异值，得到近似矩阵，/>远小于/>的秩；/>；

式中，表示输出矩阵/>的近似的低秩输出；/>、/>、/>表示输出矩阵/>的奇异值；、/>、/>表示输出矩阵/>的前/>个奇异值对应的近似奇异值。

S340：根据第二结构参数的更新值对第二神经网络的第二结构参数的当前值进行调整得到训练后的能耗预测模型。

具体地，在第二结构参数的迭代更新过程中，当达到预设迭代次数时，第二结构参数的迭代更新停止。预设迭代次数根据实际需求确定，本申请不做具体限定。

综上可知，本申请实施例三提供了一种用于对能耗预测模型中执行分类任务的第二神经网络的训练方法，首先，本申请实施例引入了分位数梯度下降的函数，分位数梯度下降仅考虑部分数据点的梯度信息，有效降低了异常值的影响；第二，本申请实施例还引入了低秩近似神经元，使新的神经元结构能够捕获数据的主要变化趋势，增强了第二神经网络的表示能力。

实施例四：本申请实施例四为电力设备能耗预测模型的训练装置，用于对能耗预测模型中执行特征提取任务的第一神经网络进行训练，如图7所示，图7为本申请实施例四的电力设备能耗预测模型的训练装置的结构图，装置包括：样本模块410、模型模块420、计算模块430和更新模块440。

样本模块410，用于获取训练样本集；训练样本集中的样本包括：电力设备的历史配置数据、历史维护数据、历史运行数据和历史能耗数据；

模型模块420，用于根据训练样本集，通过第一神经网络得到当前预测误差和当前第一损失函数值；

计算模块430，用于根据当前预测误差和当前第一损失函数值，确定调整参数的当前调整值；调整参数为构造的用于指示第一神经网络的第一结构参数的当前值在进行调整时的调整方向、调整范围；

更新模块440，用于根据调整参数的当前调整值对第一神经网络的第一结构参数的当前值进行调整得到训练后的能耗预测模型。

在一种实现方式中，模型模块420，还用于根据当前预测误差，确定当前适应值；当前适应值指示基于第一结构参数的当前值的第一神经网络的当前预测性能；还用于根据当前第一损失函数值、当前适应值，确定调整参数的当前调整值。

在一种实现方式中，调整参数包括：第一调整参数；模型模块420，还用于根据当前适应值，通过第一调整公式得到第一调整参数的当前调整值；第一调整公式如下所示：；

式中，表示已进行/>次调整的第一调整参数/>的当前值；/>表示第一调整参数的当前值/>的当前调整值；/>表示光强常数，用于指示第一调整参数/>的调整程度；/>表示当前适应值。

在一种实现方式中，调整参数还包括：第二调整参数；模型模块420，还用于根据第一损失函数值、第一调整参数的当前值，通过第二调整公式得到第二调整参数的当前调整值；第二调整公式如下所示：

；

式中，表示已进行/>次调整的第二调整参数/>的当前值；/>表示第二调整参数的当前值/>的当前调整值；/>表示频率参数，用于指示第二调整参数/>的调整程度；/>表示当前第一损失函数值。

在一种实现方式中，第一神经网络中的每个网络层均对应一个第一调整参数、第二调整参数；更新模块440，还用于根据第一神经网络中的目标网络层的第一调整参数、第二调整参数的当前值、当前调整值，确定目标网络层的第一调整参数、第二调整参数的更新值；

还用于根据目标网络层的第一结构参数的当前值以及第一调整参数、第二调整参数的更新值，通过第一结构参数更新公式得到目标网络层的第一结构参数的更新值；

还用于根据第一结构参数的更新值对第一神经网络的第一结构参数的当前值进行调整得到训练后的能耗预测模型；

第一结构参数更新公式如下所示：；

式中，表示已进行/>次调整的目标网络层的第一结构参数/>的当前值；表示目标网络层的第一结构参数的更新值，用于对目标网络层的第一结构参数的当前值/>进行第/>次调整，/>表示目标网络层的第一调整参数/>的更新值；/>表示目标网络层的第二调整参数/>的更新值；

在一种实现方式中，更新模块440，还用于根据目标网络层的第一结构参数的更新值，通过参数传递公式得到目标网络层的当前参数传递值；当前参数传递值用于对第一神经网络中与目标网络层相邻的相邻网络层的第一结构参数的当前值进行更新；

还用于根据目标网络层的当前参数传递值、相邻网络层的第一结构参数的当前值，确定相邻网络层的第一结构参数的更新值；

参数传递公式如下所示：；

式中，表示当前网络层的当前参数传递值；

表示当前网络层的第一结构参数的更新值。

在一种实现方式中，样本模块410，还用于获取原始样本集；根据原始样本集，通过预训练的生成对抗网络得到用于对原始样本集进行扩充的扩充数据集；还用于将扩充数据集通过黎曼流形进行映射得到映射样本集；

还用于通过映射损失函数确定映射样本集中的有效数据，将有效数据添加至原始样本集得到训练样本集。

在一种实现方式中，样本模块410，还用于通过对抗损失函数对生成对抗网络进行训练；生成对抗网络在训练过程中所应用的对抗损失函数如下：

；

式中，表示根据生成对抗网络得到的当前第二损失函数值；

表示生成对抗网络中的判别器对真数据/>的判断概率；真数据根据原始样本集确定；/>表示生成对抗网络中的生成器基于随机噪声/>和压缩感知测量矩阵生成的假数据；/>表示生成对抗网络中的判别器对生成器生成的假数据/>的判断概率；/>=/>，/>表示预设的压缩感知测量矩阵；/>表示正则化参数；/>表示压缩感知测量矩阵/>的逆；

以及，映射损失函数如下所示：

；

式中，表示当前第三损失函数值；/>表示高斯核的宽度；

、/>表示扩充数据集中的扩充数据；/>、/>表示根据扩充数据通过黎曼流形映射得到的映射数据；/>表示映射数据/>、/>之间的距离；/>，/>表示由黎曼度量/>定义的内积。

在一种实现方式中，装置还用于对能耗预测模型中执行特征分类任务的第二神经网络进行训练；

模型模块420，还用于根据训练样本集，通过第一神经网络、第二神经网络得到对应于训练样本集中样本的预测能耗数据；

计算模块430，还用于根据对应于训练样本集中样本的标注能耗数据、预测能耗数据，通过分位数梯度下降函数得到第二神经网络的第二结构参数的当前值的分位数梯度值；

计算模块430，还用于根据第二结构参数的当前值的分位数梯度值，通过第二结构参数更新公式得到第二结构参数的更新值；

更新模块440，根据第二结构参数的更新值对第二神经网络的第二结构参数的当前值进行调整得到训练后的能耗预测模型；

第二结构参数更新公式如下所示：

；

表示已进行/>次调整的梯度的历史累积平方和矩阵；

表示已进行/>次调整的第二结构参数的当前值/>的分位数梯度值；/>表示第二神经网络中神经元的输出矩阵的近似的低秩输出矩阵。

除上述方法、装置的实施例外，本申请还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例提供的S110~S140的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机可读介质上存储有计算机程序，计算机程序被处理器运行时执行上述实施例的S110~S140的步骤。

本申请所提供的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例的S110~S140的步骤，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

需要说明的是，功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。

Claims

1.一种电力设备能耗预测模型的训练方法，其特征在于，用于对能耗预测模型中执行特征提取任务的第一神经网络进行训练，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述当前预测误差和所述当前第一损失函数值，确定调整参数的当前调整值，包括：

根据所述当前预测误差，确定当前适应值；所述当前适应值指示基于所述第一结构参数的当前值的所述第一神经网络的当前预测性能；

根据所述当前第一损失函数值、所述当前适应值，确定所述调整参数的当前调整值。

3.根据权利要求2所述的方法，其特征在于，所述调整参数包括：第一调整参数；所述根据所述当前第一损失函数值、所述当前适应值，确定所述调整参数的当前调整值，包括：

根据所述当前适应值，通过第一调整公式得到所述第一调整参数的当前调整值；所述第一调整公式如下所示：

；

式中，表示已进行/>次调整的所述第一调整参数/>的当前值；

表示所述第一调整参数的当前值/>的当前调整值；

表示光强常数，用于指示所述第一调整参数/>的调整程度；

表示所述当前适应值。

4.根据权利要求3所述的方法，其特征在于，所述调整参数还包括：第二调整参数；所述根据所述当前第一损失函数值、所述当前适应值，确定所述调整参数的当前调整值，还包括：

根据所述第一损失函数值、所述第一调整参数的当前值，通过第二调整公式得到所述第二调整参数的当前调整值；

所述第二调整公式如下所示：

；

式中，表示已进行/>次调整的所述第二调整参数/>的当前值；

表示所述第二调整参数的当前值/>的当前调整值；

表示频率参数，用于指示所述第二调整参数/>的调整程度；

表示当前第一损失函数值。

5.根据权利要求4所述的方法，其特征在于，所述第一神经网络中的每个网络层均对应一个所述第一调整参数、所述第二调整参数；所述根据所述调整参数的当前调整值对所述第一神经网络的第一结构参数的当前值进行调整得到训练后的所述能耗预测模型，包括：

根据所述第一神经网络中的目标网络层的所述第一调整参数、所述第二调整参数的所述当前值、所述当前调整值，确定目标网络层的所述第一调整参数、所述第二调整参数的更新值；

根据所述目标网络层的所述第一结构参数的当前值以及所述第一调整参数、所述第二调整参数的更新值，通过第一结构参数更新公式得到所述目标网络层的所述第一结构参数的更新值；

根据所述第一结构参数的更新值对所述第一神经网络的第一结构参数的当前值进行调整得到训练后的所述能耗预测模型；

所述第一结构参数更新公式如下所示：

；

式中，表示已进行/>次调整的所述目标网络层的第一结构参数/>的当前值；表示所述目标网络层的第一结构参数的更新值，用于对所述目标网络层的第一结构参数的当前值/>进行第/>次调整；

表示所述目标网络层的第一调整参数/>的更新值；

表示所述目标网络层的第二调整参数/>的更新值；

表示所述第一神经网络的学习率；/>表示对所述目标网络层的第一结构参数的当前值进行迭代更新的时间步。

6.根据权利要求5所述的方法，其特征在于，所述通过第一结构参数更新公式得到所述目标网络层的所述第一结构参数的更新值之后，所述方法还包括：

根据所述目标网络层的所述第一结构参数的更新值，通过参数传递公式得到所述目标网络层的当前参数传递值；所述当前参数传递值用于对所述第一神经网络中与所述目标网络层相邻的相邻网络层的第一结构参数的当前值进行更新；

根据所述目标网络层的当前参数传递值、所述相邻网络层的第一结构参数的当前值，确定所述相邻网络层的第一结构参数的更新值；

所述参数传递公式如下所示：

；

式中，表示所述当前网络层的当前参数传递值；

表示所述当前网络层的第一结构参数的更新值；

表示传递常数，用于指示所述当前网络层的第一调整参数的传递比率。

7.根据权利要求1所述的方法，其特征在于，所述获取训练样本集，包括：

获取原始样本集；根据所述原始样本集，通过预训练的生成对抗网络得到用于对所述原始样本集进行扩充的扩充数据集；

将所述扩充数据集通过黎曼流形进行映射得到映射样本集；

通过映射损失函数确定映射样本集中的有效数据，将所述有效数据添加至所述原始样本集得到所述训练样本集。

8.根据权利要求7所述的方法，其特征在于，所述生成对抗网络在训练过程中所应用的对抗损失函数如下所示：

；

式中，表示根据所述生成对抗网络得到的当前第二损失函数值；

表示所述生成对抗网络中的判别器对真数据/>的判断概率；所述真数据根据所述原始样本集确定；/>表示生成对抗网络中的生成器基于随机噪声/>和压缩感知测量矩阵/>生成的假数据；

表示所述生成对抗网络中的判别器对生成器生成的假数据/>的判断概率；= />，/>表示预设的压缩感知测量矩阵；

表示正则化参数；/>表示压缩感知测量矩阵/>的逆；

以及，所述映射损失函数如下所示：

；

式中，表示当前第三损失函数值；/>表示高斯核的宽度；

、/>表示所述扩充数据集中的扩充数据；

、/> 表示根据所述扩充数据通过黎曼流形映射得到的映射数据；/>表示映射数据/>、/>之间的距离；

，/>表示由黎曼度量/>定义的内积。

9.根据权利要求1所述的方法，其特征在于，还用于对能耗预测模型中执行特征分类任务的第二神经网络进行训练，所述方法还包括：

根据所述训练样本集，通过所述第一神经网络、所述第二神经网络得到对应于所述训练样本集中样本的预测能耗数据；

根据对应于所述训练样本集中样本的标注能耗数据、所述预测能耗数据，通过分位数梯度下降函数得到所述第二神经网络的第二结构参数的当前值的分位数梯度值；

根据所述第二结构参数的当前值的分位数梯度值，通过第二结构参数更新公式得到所述第二结构参数的更新值；

根据所述第二结构参数的更新值对所述第二神经网络的第二结构参数的当前值进行调整得到训练后的所述能耗预测模型；

所述第二结构参数更新公式如下所示：

；

式中，表示所述第二结构参数的更新值；

表示已进行/>次调整的所述第二结构参数的当前值；

表示遗忘因子，/>；/>表示所述第二神经网络的学习率；

表示参与常数，用于防止计算项/>的分母为0；

表示已进行/>次调整的梯度的历史累积平方和矩阵；

10.一种分类模型的训练装置，其特征在于，用于对能耗预测模型中执行特征提取任务的第一神经网络进行训练，所述装置包括：样本模块、模型模块、计算模块和更新模块；