CN115310675A

CN115310675A - 一种基于电网用户数据集和神经网络的负荷估算优化方法

Info

Publication number: CN115310675A
Application number: CN202210838071.3A
Authority: CN
Inventors: 孙梦觉; 保富; 李珗; 邓安明; 杨洋
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2022-07-17
Filing date: 2022-07-17
Publication date: 2022-11-08

Abstract

本发明涉及一种基于电网用户数据集和神经网络的负荷估算优化方法，属于用户数据挖掘和分析技术领域。本发明首先在特征层面上，多对层的循环神经网络提取不同维度的数据特征并训练响应，然后在算法层面上，通过分类器模型依照数据的维度特征分类并融合循环神经网络神经网络的特征响应，再对输出响应的数据集构建组合预测模型，从而提高预测的可靠性。通过对UCI回归分析数据集实验结果表明，与传统的算法相比，本发明对存在多维度特征的时间序列数据的回归分析过程中，能显著提高模型预测准确率。

Description

一种基于电网用户数据集和神经网络的负荷估算优化方法

技术领域

本发明涉及一种基于电网用户数据集和神经网络的负荷估算优化方法，属于用户数据挖掘和分析技术领域。

背景技术

电网智能化处理用户数据的相关应用正在快速的发展，如针对数据的回归分析和分类等，但传统数据回归分析算法假设基于统计学算法，导致回归分析模型偏向于多维数据集中，数据的离群样本，影响了整体预测分析的精确度，从而在面对不止含有一维数据的多维数据超参数中，不能有效提取并处理多维数据集的样本特征，为了解决这些挑战，研究者开始提出了许多机器学习的数据分类算法，如，非均衡数据集分类算法。通过评估参数筛选出数据集中少数类样本的特征属性，从而加强分类器精确度。

发明内容

本发明要解决的技术问题是提供一种基于电网用户数据集和神经网络的负荷估算优化方法，解决传统方法中整体预测分析的精确度不高，面对不止含有单一维度数据的多维数据时，不能有效提取并处理多维数据集的样本特征的问题。

本发明的技术方案是：一种基于电网用户数据集和神经网络的负荷估算优化方法，具体步骤为：

Step1：获取电网用户数据集，依照电网用户数据集内的信息维度，将用户数据信息进行二维抽象，得到抽象后的特征结果，再根据欧拉公式的长度定义，确定K-means聚类算法输入的判据，然后通过自适应函数计算各次添加数据的权重值，建立训练后的初始聚类边界。

Step2：添加新的数据样本对应的特征点x_i，再通过step1中的K-means聚类算法来对新添加的特征点x_i进行判断，判断新添加数据样本的特征点x_i是否在K-means聚类算法得到的初始聚类区间中。若在，则将其添加到对应的聚类区间中，若不在，则需要确定新的聚类边界。

同时确定新添加的数据样本属于何种类别，并更新特征集合T。同时，通过计算特征集合T的分布函数H(v_i,s_k)。基于分类结果分布函数，为了得到T集合更新过程中实时变化的分布函数H(v_i,s_k)和权重系数z_jt的最优化映射关系，通过使用自适应函数计算来得到最优化聚类的权重系数z_jt的输出结果，即得到最优化聚类的输出结果。

Step3：对在初始聚类边界中，添加的所有特征点x_i，重复step2的过程得到新的聚类结果，把聚类结果样本集合抽象为样本集合Φ，再从聚类后的样本集合Φ中遴选出满足式子

的特征点，并对不满足的特征点样本进行筛除。

Step4：循环执行step2和step3，直到剩余的所有数据特征点划分完毕，确定每一个样本其对应的聚类区间，通过计算每一个聚类区间中的聚类中心，令每个聚类区间的聚类中心的样本特征点，对神经网络输入层的权重矩阵进行映射，从而使得最优化的聚类输出结果中的聚类中心信息特征，相对应于神经网络输入层的神经元权重矩阵，得到最优化输入层权重矩阵。

Step5：利用得到的最优化输入层权重矩阵，构建循环神经网络，通过对上述过程中的电网用户数据集中的用户数据进行回归分析，得到了短期电网用户负载的预测结果。

Step6：为了对循环神经网络的预测结果进行泛化误差计算和调优，首先对于使用到的循环神经网络数量假设为N，然后对得到的用户数据预测结果集合抽象为R^m，网络输出即类标号集合抽象为Rⁿ，其次通过计算电网用户数据预测样本的泛化误差E，依据泛化误差的计算结果对N个循环神经网络的回归分析结果进行网络复杂度的优化调整，得到最终的优化方案。

所述Step1具体为：

Step1.1：首先通过电网用户数据集中的数据，确定数据中的特征维度和目标维度，以此抽象构建二维数据，再根据K-means方法进行初始聚类运算。

Step1.2：对step1.1中聚类的结果通过抽象定义为集合T，T＝{V,S}，集合T中S和V参数表示维度特征，集合T中的特征关系通过欧拉公式的长度定义为：

式中，v_i和s_k之间的距离则表示两个特征之间的关系，以此构建特征信息集合，从而把集合中的特征关系映射到需要求取的权重系数自适应函数中去。

所述Step1.1中K-means聚类算法具体为：

Step1.1.1：随机在N个电网用户数据集的样本中抽取K个作为初始的质心。

Step1.1.2：开始遍历除开质心外的所有样本点，将其分配至距离它们最近的质心，每一个质心以及被分配至其下的样本点视为一个簇。(或者说一个分类)，这样便完成了一次聚类。

Step1.1.3：对于每一个簇，重新计算簇内所有样本点的平均值，取结果为新的质心。

Step1.1.4：比对旧的质心与新的质心是否再发生变化，若发生变化，按照新的质心从步骤二开始重复，若没发生变化，聚类完成。

所述Step2具体为：

在步骤一初始化之后，添加新的数据样本特征点x_i，对新的数据样本的特征点x_i进行K-means聚类，依照step1中提到的算法流程，对添加的数据样本特征点x_i进行判别，把数据样本添加到Step1.1.2步骤中，遍历所有的数据样本特征点，若新添加的数据样本特征点x_i符合K-means聚类初始化计算得到的类别，则将其添加到对应的聚类区间同时更新特征集合T。

此外，如果新添加的数据样本特征点x_i过于远离Step1中得到的初始化聚类结果，则需要重复Step1.1.2至Step1.1.4的流程，直到添加后的聚类质心不再发生变化，通过计算K-means聚类算法的新的质心，来不断更新所述的特征集合T，该步骤的目的在于，对每一个添加的数据样本特征点x_i分析了其类型特征，和其特征维度带来的整体影响。

基于不断更新得到的特征集合T，需要计算集合T中特征数据的聚类结果和结果分布函数H(v_i,s_k)，通过结果分布函数来进一步优化特征权重系数z_jt。以确保得到最优化的特征权重系数。

式中，K表示数据集合中的聚类个数，聚类的特征结果由K-means聚类算法输入，

则表示特征数据在二维空间上的分布，在二维空间上的分布是根据数据中的聚类的质心来划分的，而z_jt为特征数据在第t次迭代上的权重系数。

计算权重系数z_jt的过程中，权重系数通过少数类的可靠度自适应函数得到权重值，公式为：

式中，α_vt表示数据点中神经网络中隐含层分数的最大值，β_v表示可靠度。

其中每次迭代的可靠度为β_v，公式如下：

β_v＝min(h(v_i,s_k),β_pv)

所述Step3具体为：

Step3.1：通过重复Step2的过程中K-means聚类算法的计算和训练，得到最终的聚类结果之后，把K-means算法训练样本响应后的集合抽象为Φ＝{(x_i,y_i),1≤i≤c}，其中c为样本的类别数，x_i为第i类的样本特征点，y_i为其输出的参数，τ_i为第i类样本的特征点总数。

其中正数r_i为样本特征点x_i到异类样本的欧式距离，然后定义一个以x_i为中心r_i为半径的区域。

Step3.2：根据步骤Step2更新后的样本特征集合Φ中最优样本特征点后确定神经网络模型中输出层神经元的个数，其中神经元数学模型表示为：

y＝f[Φ(x₁,x₂,...,x_n)-θ]

其中，Φ(x₁,x₂,...,x_n)为输入的数据集合，θ为阈值，f(*)为神经元的激励函数，通过神经网络中神经元的运算规则：

得到对应低维数据的超平面方程为：

其中，w_i为输出层神经元的权值，而

表示为样本集中第i个数据点离超平面的距离，当该点位于此超平面数据类内则输出为0，否则为1。

Step 3.3：对于样本数据的遴选方程以及神经网络神经元的表达式为：

所述Step5中的循环神经网络由网络输入层和前向输入层序列数据的记忆网络组成，首先在输入层中，假设N个样本集合{(x_i,y_i)|x∈R^m,y∈Rⁿ,i＝1,2,...,N}为离散时间序列，R^m表示输入层有m个神经元，Rⁿ表示输出层有n个神经元。

所述Step6具体为：

Step6.1：假设R^m为这N个循环换神经网络的总输出数据样本的集合，则为了计算输出的预测数据的泛化误差，对f:R^m→Rⁿ进行近似，其中Rⁿ为网络输出即类标号集合，假设N个样本的期望输出为D＝[d₁,d₂,...,d_N]，其中d_j为第j个样本的期望输出，第i个神经网络的实际输出为f_i＝[f_i1,f_i2,...,f_iN]，其中f_ij表示第i个神经网络在第j个样本上的实际输出，于是第i个神经网络在这N个样本上泛化误差为：

其中，对于误差公式定义为：

Step6.2：依照泛化误差，通过调整模型的复杂度，即使用的循环神经网络神经元的数量，和上述Step6.1中，利用N个循环神经网络组成的集成，削减或增加N的数量，计算模型的泛化误差，不断调整，直至达到泛化误差的最优值。

根据泛化误差调整输出层的预测结果，能有效提高预测模型的准确性，即在泛化误差调整之后得到输出的回归预测数据序列。

本发明的有益效果是：相较于现有的常用算法，由于常用算法在电网用户数据集中存在局限性，即在用户多维数据中因离群类的混杂导致现有算法过拟合，造成了查准率较低的结果，而本发明通过K-means方法管理改进的循环神经网络模型输出，由聚类特征来对样本分类进行训练归并后得出更合理的预测结果，避免了数据的过拟合，提高预测的准确率。此外在电网用户数据集中，存在的稀疏样本数据点并会影响整体模型的预测性能，导致其他算法预测结果较差，而本发明对样本维度特征点计算同类样本中的聚类划分区域，并各自依照聚类区间训练，同时对离群样本进行筛选和基于泛化误差进行调优，最终构建出合理的神经网络预测模型，提升了模型的可靠性。

附图说明

图1是本发明的神经网络结构框图；

图2是本发明的步骤流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图2所示，一种基于电网用户数据集和神经网络的负荷估算优化方法，具体步骤为：

在Step1中，针对电网用户数据集，把数据中获取的部分负载分量和其他特征维度，如风速，湿度，温度等，抽象构建二维特征向量，在二维空间中依照欧拉公式为判据，在K-means算法中进行迭代运算，以划分各个特征和复杂关系的初始聚类边界。

的特征点，并对不满足的特征点样本进行筛除。

步骤step3的意义在于，数据集样本中有时可能存在离群和错误统计值，该类离群点对神经网络等相关智能算法的学习和训练将会造成很大的权重误差影响，最终导致算法计算有效性不高的问题出现，相较于传统神经网络模型，本发明增加了模型的模型的普适性。

根据最K-means聚类值构建的循环神经网络的数据回归分析模型，避免了模型向少数特异类的倾斜。然而循环神经网络输出层的分析结果，是由经过相对多数投票生成，没有考虑样本上的泛化误差，本发明对循环神经网络出层进行必要的调整，提高整体模型的性能，相较于传统神经案例模型的输出层，在一定程度上提高了模型预测的有效性。

所述Step1中通过聚类方法对输入层的多维数据进行权重融合，可以当数据维度信息价值分布不平衡时，有效处理多维度的高维数据，降低类间属于信息价值差异大的的部分样本过于影响预测结果，然后沿K-means聚类多维数据的方法的平滑更新方式来保持模型可靠性。此外针对获取到的电网用户数据集，把数据中获取的部分负载分量和其他特征维度，如风速，湿度，温度等，抽象构建二维特征向量，在二维空间中依照欧拉公式为判据，在K-means算法中进行迭代运算，以划分各个特征和复杂关系的初始聚类边界。

由于神经网络共享多个隐含层中的所有参数，因此节省了存储空间并避免网络冗余。最后通过判断最大响应值来对少数类样本分类，避免了数据的过拟合。

所述Step1具体为：

所述Step1.1中K-means聚类算法具体为：

所述Step2具体为：

一般传统模型中会忽略权重更新的可靠性问题，如果分类价值尺度不佳，则会对后续预测结果造成很大的影响，所以需要沿着迭代过程更新超参数，计算各聚类结果的可靠度。

其中每次迭代的可靠度为β_v，公式如下：

β_v＝min(h(v_i,s_k),β_pv)

所述Step3具体为：

Step3所述过程中，为了优化循环神经网络，将得到的训练样本集合中，响应值最大的样本数据特征点作为代表性较强的样本特征点，然后把循环神经网络输出层的电网用户数据用于回归分析预测。在本发明专利中，利用序列特征提取然后进行K-means聚类的方法，作为回归分析数据集的关键性区分特征，从而优化少数类数据对多数类样本间产生影响过大的问题。

y＝f[Φ(x₁,x₂,...,x_n)-θ]

得到对应低维数据的超平面方程为：

其中，w_i为输出层神经元的权值，而

该计算过程相当于在样本集中以步骤Step3.2中提到的参量进行抽象和映射运算，W＝(w₁,w₂,...,w_n)为球心，以θ为半径做一个超球面，当数据点在此球面内则输出为0，否则为1，即当输入数据进行上述流程运算之后，在上述神经元计算过程中计算该样本和球面的距离，符合判据保留，不符合剔除，显然在半径以外的数据点对循环网络迭代几乎没有影响，而半径内有较多相同类别的样本特征点。

循环神经网络完成训练样本从输入到输出的高维非线性映射f:R^m→Rⁿ，再由检测样本来检验网络的泛化能力。该过程的映射关系表示为：

式中，w_ij表示记忆网络的权重系数，η_j表示输入层的此刻的权重数据，z_jt表示隐含层权重系数，r_t表示隐含层偏置，

表示t-1时刻的网络数据，x_i(t)表示t时刻的网络数据，在第t＝1个时刻会进行网络的初始化，其中f[*]和x_i(t)中包含了激活函数，所述f[*]激活函数采用了sigmoid函数，x_i(t)则采用了softmax函数。

通过构建的循环神经网络中，隐含层的权重系数z_jt，随着K-means的聚类结果不断向特征显著的聚类质心优化来调整循环神经网络的预测过程，在预测过程中，通过BPTT策略优化时序预测输出结果。因为网络在一次迭代过程中，得不到准确的输出结果，所以计算过程中依靠时间反向传播BPTT，将误差信号从输出层经各中间层逐层不断修改隐含层的神经元权重值，在网络的迭代过程中，网络本身的全局误差，将会不断向最优值趋近，以此优化算法分类的有效性。

其次隐含层权重的自适应函数变化调整过程Δz_jt，是构建的循环神经网络中，映射聚类特征关系和循环神经网络预测结果的关键性步骤，通过隐含层权重的自适应函数变化调整过程Δz_jt，在预测的结果中结合了聚类提取到的电网用户数据集的特征信息，特征样本信息越显著的类别其权重越高，则最终预测结果中，预测得到的数据序列与特征显著性高的样本关联性也就越大，预测的结果趋势也更接近于特征显著性高的类别的回归曲线。

其中隐含层权值z_jt的变化为：

通过累计误差的方法去不断调整RNN算法网络中记忆网络的权值w_ij，使全局误差E进步一优化，即：

其中，λ为学习率，对于p个学习样本用x₁,x₂,...,x_p来表示，第p个样本输入到循环神经网络后得到输出y_pk，通过平方型误差函数或者交叉熵损失函数得到第p个样本的误差E_p：

其中，t_pk为P样本在第k个输出层的期望输出。

所述Step6具体为：

由于RNN网络存在的固有问题，即循环神经网络输出层的分析结果是经过相对多数遴选生成，没有考虑样本上的泛化误差，本发明对RNN网络输出层进行必要的调整提高整体模型的性能，进行如下优化。

由于数据分类和回归任务是利用N个循环神经网络组成的集成，需要对其进行泛化误差分析。

其中，对于误差公式定义为：

Step6.2：依照泛化误差，通过调整模型的复杂度，即使用的循环神经网络神经元的数量，和上述Step6.1中，利用N个循环神经网络组成的集成，、削减或增加N的数量，计算模型的泛化误差，不断调整，直至达到泛化误差的最优值。

实施例2：首先获取带有多维特征的电网用户数据集信息，把选择的数据样本依照实施例1中的方法流程，先对特征维度和计算过程中神经网络的迭代权重进行计算，同时筛选离群点，依照实施例1给出的明确步骤，实施方案。

首先根据训练样本建立循环神经网络模型，使用K-means方法管理循环神经网络的输入层，将多个输入层数据的维度属性价值量以调整权重值，使输出层得到隐含层中迭代加权后的最佳响应值，然后最佳响应值对应的样本聚类特征点计算同类样本中的最大信息维度后，输出层神经元构建含有数据特征信息的预测模型，最后在组合模型的输出层调整样本集遍历后的数据测试结果，对照测试集。

损失函数定义为评价预测结果与测量值的误差指标，MSE为模型预测和测量值偏差的指标，MAE定义为多数类样本被正确分类的数量值。然后准确率评价指标MSE表示为：

本发明评价指标相关MAE表示为：

其中，MSE，当测试集和比较集的预测准确率都很高时，MSE的值才会小。MAE的值较低时表示回归预测模型的精确值比较高，方法的可靠性较好。

为了验证本发明的有效性和可靠性，本发明在UCI回归分析数据集进行了如下具体实施流程。

表1列举了本发明在UCI数据集上选取的3个摩洛哥得土安市耗电量部分数据集，将数据预处理为80％训练集和20％测试集，本发明以神经网络模型作为组合器，根据MSE值与MAE值2不同的loss函数评价指标进行比较，实验表明本发明对电网用户数据集中进行短期类预测更具有良好的可靠性。本发明的实验环境的处理器为

i7-6700 2.60GHz，内存为16GB。接下来通过实验结果对5种不同的分类算法进行实验分析，得到如下的效果对比分析：

Table 1 Experimental data set

表1：实验数据集

本发明基于树状结构的神经网路数据集分类算法选择与SVM算法、基于统计学算法的AR算法、基于BP改进的RNN算法、基于时间序列特异化的LSTM和GRU算法进行实验对比分析。实验结果表明，本发明提出的模型使回归分析预测结果更优，表2和表3为各算法的MSE值和MAE值对比结果。

Table 2 Comparison results of MSE values of different algorithms

表2：不同算法的MSE值对比结果

Table 3 Comparison results of MAE of different algorithms

表3：不同算法的MAE值对比结果

从表2和表3的摩洛哥得土安电网数据集上，可以看出本发明在MSE和MAE值相比其他方法得到明显提高，主要是因为其他算法存在数据集中，多维数据中因离群类的混杂过拟合，导致查准率较低，而本发明专利通过K-means方法管理改进的RNN神经网络模型输出，由聚类特征来对样本分类进行训练归并后得出更合理的预测结果，避免了数据的过拟合，提高预测的准确率。UCI回归数据集存在的稀疏样本数据点并会影响整体模型的预测性能，导致其他算法预测结果较差，而本发明对样本维度特征点计算同类样本中的聚类划分区域，并各自依照聚类区间训练，构建出合理的神经网络预测模型，从区域1和区域2的数据集上，可以看出本发明在不同数据集中的数据分析效果同样较优。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于电网用户数据集和神经网络的负荷估算优化方法，其特征在于：

Step1：获取电网用户数据集，依照电网用户数据集内的信息维度，将用户数据信息进行二维抽象，得到抽象后的特征结果，再根据欧拉公式的长度定义，确定K-means聚类算法输入的判据，然后通过自适应函数计算各次添加数据的权重值，建立训练后的初始聚类边界；

Step2：添加新的数据样本对应的特征点x_i，再通过step1中的K-means聚类算法来对新添加的特征点x_i进行判断，判断新添加数据样本的特征点x_i是否在K-means聚类算法得到的初始聚类区间中；若在，则将其添加到对应的聚类区间中，若不在，则需要确定新的聚类边界；同时确定新添加的数据样本属于何种类别，得到最优化聚类的输出结果；

的特征点，并对不满足的特征点样本进行筛除；

Step4：循环执行step2和step3，直到剩余的所有数据特征点划分完毕，确定每一个样本其对应的聚类区间，通过计算每一个聚类区间中的聚类中心，令每个聚类区间的聚类中心的样本特征点，对神经网络输入层的权重矩阵进行映射，从而使得最优化的聚类输出结果中的聚类中心信息特征，相对应于神经网络输入层的神经元权重矩阵，得到最优化输入层权重矩阵；

Step5：利用得到的最优化输入层权重矩阵，构建循环神经网络，通过对上述过程中的电网用户数据集中的用户数据进行回归分析，得到了短期电网用户负载的预测结果；

Step6：首先对于使用到的循环神经网络数量假设为N，然后对得到的用户数据预测结果集合抽象为R^m，网络输出即类标号集合抽象为Rⁿ，其次通过计算电网用户数据预测样本的泛化误差E，依据泛化误差的计算结果对N个循环神经网络的回归分析结果进行网络复杂度的优化调整，得到最终的优化方案。

2.根据权利要求1所述的基于电网用户数据集和神经网络的负荷估算优化方法，其特征在于，所述Step1具体为：

Step1.1：首先通过电网用户数据集中的数据，确定数据中的特征维度和目标维度，以此抽象构建二维数据，再根据K-means方法进行初始聚类运算；

3.根据权利要求2所述的基于电网用户数据集和神经网络的负荷估算优化方法，其特征在于，所述Step1.1中K-means聚类算法具体为：

Step1.1.1：随机在N个电网用户数据集的样本中抽取K个作为初始的质心；

Step1.1.2：开始遍历除开质心外的所有样本点，将其分配至距离它们最近的质心，每一个质心以及被分配至其下的样本点视为一个簇；

Step1.1.3：对于每一个簇，重新计算簇内所有样本点的平均值，取结果为新的质心；

4.根据权利要求1所述的基于电网用户数据集和神经网络的负荷估算优化方法，其特征在于，所述Step3具体为：

Step3.1：通过重复Step2的过程中K-means聚类算法的计算和训练，得到最终的聚类结果之后，把K-means算法训练样本响应后的集合抽象为Φ＝{(x_i,y_i),1≤i≤c}，其中c为样本的类别数，x_i为第i类的样本特征点，y_i为其输出的参数，τ_i为第i类样本的特征点总数；

其中正数r_i为样本特征点x_i到异类样本的欧式距离，然后定义一个以x_i为中心r_i为半径的区域；

y＝f[Φ(x₁,x₂,...,x_n)-θ]

得到对应低维数据的超平面方程为：

其中，w_i为输出层神经元的权值，而

表示为样本集中第i个数据点离超平面的距离，当该点位于此超平面数据类内则输出为0，否则为1；

Step3.3：对于样本数据的遴选方程以及神经网络神经元的表达式为：

5.根据权利要求1所述的基于电网用户数据集和神经网络的负荷估算优化方法，其特征在于，所述Step5中的循环神经网络由网络输入层和前向输入层序列数据的记忆网络组成，首先在输入层中，假设N个样本集合{(x_i,y_i)|x∈R^m,y∈Rⁿ,i＝1,2,...,N}为离散时间序列，R^m表示输入层有m个神经元，Rⁿ表示输出层有n个神经元。

6.根据权利要求1所述的基于电网用户数据集和神经网络的负荷估算优化方法，其特征在于，所述Step6具体为：

其中，对于误差公式定义为：