CN113435101B

CN113435101B - 一种基于粒子群优化的支持向量机停电预测方法

Info

Publication number: CN113435101B
Application number: CN202110354085.3A
Authority: CN
Inventors: 李淑锋; 李加; 张玉峰; 闫永昶; 郭继永
Original assignee: State Grid Eastern Inner Mongolia Power Co Ltd
Current assignee: State Grid Eastern Inner Mongolia Power Co Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2023-06-30
Anticipated expiration: 2041-04-01
Also published as: CN113435101A

Abstract

本发明公开了一种基于粒子群优化的支持向量机停电预测方法，包括如下步骤：获取预先确定的有效特征的参数；将有效特征的参数输入预先训练的支持向量机模型中，支持向量机模型预测输出停电数据。在已有的停电特征基础上构造新特征；采用随机森林方法计算已有的停电特征重要性和新特征重要性，根据重要性对已有的停电特征和新特征进行排名，按照重要性排名顺序由高到低选择若干个已有的停电特征或新特征组成有效特征的参数；用有效特征的参数训练新建立的支持向量机模型，训练得到的支持向量机模型预测停电数据。通过对收集的停电数据进行数据分析和处理进行停电预测，可以为电力公司的停电决策提供参考，改善资源分配并可能缩短恢复时间，也可以给群众一定的反应时间。

Description

一种基于粒子群优化的支持向量机停电预测方法

技术领域

本发明涉及一种基于粒子群优化的支持向量机停电预测方法，属于输配电技术与信息科学技术领域。

背景技术

电力建设被认为是现代社会中较为关键的基础设施之一，随着智慧电网的快速建设，电网系统中产生了大量的电力数据，为了更好地收集和管理电力数据搭建了电力大数据平台。通过对收集到的电力数据进行数据挖掘，可以更好地了解到电网的运行状态。

停电现象在日常生活中发生的可能性较小，但在广泛分布时会造成严重影响。它的影响几乎渗透到社会的各个方面，包括经济、社会、公共卫生和其他重要方面。停电通常会造成巨大的经济损失，影响其他关键基础设施系统并严重破坏日常生活，因此对停电数据进行分析很有必要。预测是数据挖掘中较为常见的技术之一，停电预测可以为电网公司、政府等提前做好停电的响应规划和决策。从短期看，停电预测可以帮助公共事业更好地计划其响应，从而更好地平衡成本和恢复速度。对于大规模停电事件，有利于电网企业提前准备相应的修复材料，以便更快地恢复电力节约成本。

发明内容

本发明所要解决的技术问题是克服现有技术中缺乏停电预测方法的缺陷，提供一种基于粒子群优化的支持向量机停电预测方法，为了拥有更多有效特征的参数训练数据，在已有特征基础上构造新的特征；为了提取与停电预测相关度大的有效数据，采用随机森林方法提取有效特征的参数，提高模型性能；为了获取更优的模型参数，使用基于线性递减权重的粒子群优化算法搜索最优的支持向量机参数，根据确定的参数训练停电数据。

为达到上述目的，本发明提供一种基于粒子群优化的支持向量机停电预测方法，包括：

获取预先确定的有效特征的参数；将有效特征的参数输入预先训练的支持向量机模型中，支持向量机模型预测输出停电数据。

优先地，训练支持向量机模型，包括：

在已有的停电特征基础上构造新特征；

采用随机森林方法计算已有的停电特征重要性和新特征重要性，根据重要性对已有的停电特征和新特征进行排名，按照重要性排名顺序由高到低选择若干个已有的停电特征或新特征组成有效特征的参数；

用有效特征的参数训练参数待确定的支持向量机模型，构建有效特征的参数和停电数据之间的映射关系。

优先地，采用随机森林方法计算已有的停电特征重要性和新特征重要性，根据重要性对已有的停电特征和新特征进行排名，按照重要性排名顺序由高到低选择若干个已有的停电特征或新特征组成有效特征的参数，包括：

随机森林使用固定的概率分布下的随机向量产生若干个不相关的决策树，对多个决策树的分类结果进行投票产生最终的分类结果，最终的分类结果包括会停电和不会停电；随机森林计算得到已有的停电特征在多个决策树上的重要性和新特征在多个决策树上的重要性，已有的停电特征和新特征一起按照重要性进行排名，排名顺序由高到低选择若干个已有的停电特征或新特征组成有效特征的参数。

优先地，随机森林计算得到已有的停电特征在多个决策树上做的重要性和新特征在多个决策树上做的重要性，包括：

设样本数据包括C个特征X₁,X₂,...,X_C，j范围为[1,C]，特征包括已有的停电特征或新特征，计算特征X_j重要性步骤如下：

(1)将已有的停电特征和新特征组成原始训练集，随机从原始训练集中有放回地抽取若干个样本，使用固定的概率分布下的随机向量构造K个不相关的决策树，每次未采样样本构成K个袋外错误率；

(2)在每个决策树的每个节点上随机抽取特征作为特征子集，通过计算该特征子集中每个特征的重要性，选择一个分类能力最好的特征进行节点分割；

(3)利用基尼指数

计算特征的重要性：特征X_j的基尼指数/>

表示所有决策树中第j个特征的节点分裂不纯度的平均变化量，基尼指数的计算如公式(1)所示：

其中，k表示类别总数，p_mk表示在节点m中类别k所占的比例；

特征X_j在节点m分支前后的基尼指数的变化量如下：

其中，GI_l和GI_r表示节点m分支后两个新节点的基尼索引；

假如特征X_j出现在决策树i中的节点上，那么特征X_j在决策树i中的重要性如下：

如果随机森林中一共有个决策树，则

归一化计算的重要分数如下所示：

接着，对计算出的特征的重要性进行排序，按照重要性排名顺序由高到低选择出若干个有效特征的参数去训练支持向量机模型。

优先地，训练支持向量机模型，包括：

支持向量机模型的集合定义如下：

其中，x_j代表第j个有效特征的参数，有效特征的参数维度为k；y_j表示支持向量机模型的第j个预测输出；R^m表示有效特征的参数的集合，是m维的实数向量，n表示有效特征的参数的记录总数。

优先地，多个有效特征的参数组成样本向量，将原先的样本向量映射到一个新的坐标空间中，然后在变换后的新的坐标空间中用线性的决策边界划分样本向量，选择径向基核函数作为支持向量机模型的核函数，使用核函数通过非线性变换创建线性的决策边界；

若会停电和不会停电这两种类别线性不可分割，则引入从输入空间到高维特征空间的非线性变换，非线性变换公式如下所示：

φ(x):x∈R^m→R^k，m＜＜k (7)，

其中，φ(x)表示一种函数映射，x表示有效特征，R^k表示k维的实数向量；

在变换后的坐标空间中，划分超平面的模型方程如下所示：

其中，T为向量的转置，ω和b为支持向量机模型中的参数，

表示关于x的向量，为了使得找到的超平面到两种类别之间的距离之和最大，则有

其中r表示样本向量的目标特征的记录数；

得到该约束下的优化问题的对偶Lagrangian函数如下所示：

其中，α_i表示拉格朗日乘子，α_j表示拉格朗日乘子，y_i表示第i个样本记录的目标特征的真实值，x_j代表第j个有效特征的参数；

其对偶问题如下所示：

根据二次规划得到拉格朗日乘子，从而得到参数ω和b的值，计算过程如下所示：

结合核函数进行求解得到超平面的方程如下：

其中，κ(·)为径向基核函数，κ(x,x_i)表示φ(x)·φ(x_i)。

优先地，支持向量机模型中待确定参数，包括：

支持向量机模型的参数包括C和γ，C代表惩罚因子，γ是RBF函数的参数；

利用基于线性递减权重的粒子群优化算法寻找支持向量机模型中C和γ的最佳值，并且使用线性递减权重提高粒子群优化算法的搜索效率；

其中，利用基于线性递减权重的粒子群优化算法寻找支持向量机模型中C和γ的最佳值，并且使用线性递减权重提高粒子群优化算法的搜索效率，包括：

每个粒子都在问题空间中跟踪其位置坐标，pbest表示个体最优的粒子；gbest表示全局最优粒子；

粒子群优化算法包括改变每个粒子向其pbest位置移动的速度和改变每个粒子向其gbest位置移动的速度，加速度由随机项加权得到，在这些随机项中，为向pbest位置的加速度和向gbest位置的加速度生成单独的随机数，基于粒子群优化算法更新粒子的速度和粒子的位置的计算如下所示：

其中，

表示t时刻的粒子群中粒子的速度，c₁和c₂表示学习因子，random(0,1)表示服从参数为0和1的均匀分布的随机数，pbest_i表示第i个最优的粒子位置，gbest表示所有粒子中最优的粒子，/>

表示t时刻的粒子群中粒子的位置；w是惯性因子且w＞＝0，用来平衡粒子群优化算法的全局和局部寻优的参数；

为了更好地利用粒子群算法寻优，采用线性递减权重方法动态更新w的值，更新公式如下所示：

其中，w₁表示惯性因子初始的设置值，w_e表示迭代到最大的进化代时的设置值，I_k表示设置的最大的迭代次数。

优先地，利用基于线性递减权重的粒子群优化算法寻找支持向量机模型中C和γ的最佳值，包括：

初始化粒子群算法中的粒子的总数N、学习因子c₁、学习因子c₂、惯性因子w₁、惯性因子w_e和迭代次数m，然后随机生成初始的粒子，并对该粒子进行评估，给局部最优的位置和全局最优的位置赋值；

更新粒子的速度和粒子的位置，并对粒子进行评估，根据不同粒子的位置对应的参数C和γ代入支持向量机模型中得到分类精度，根据不同参数下的分类精度更新局部最优的位置和全局最优的位置，然后不断迭代直到满足结束条件；

最后，返回搜索到的适合支持向量机模型下的局部最优参数C和γ；

用步骤(2)中有效特征的参数训练新建立的支持向量机模型，并使用公式(14)和公式(15)寻找支持向量机模型中C和γ的最佳值。

优先地，已有的停电特征包括温度和日期，新特征包括温差和月份，有效特征的参数包括温差、最大温度、最小温度、周、节假日。

优先地，结束条件指的是若达到设定的最大迭代次数或者，更新的局部最优的位置达到设定的局部最优且阈值全局最优的位置达到设定的全局最优阈值，就终止迭代；

停电数据包括会停电和不会停电。

本发明所达到的有益效果：

本发明针对停电数据的预测，提出了一种基于粒子群优化的支持向量机停电预测方法。通过对收集的停电数据进行数据分析和处理进行停电预测，可以为电力公司的停电决策提供参考，改善资源分配并可能缩短恢复时间，也可以给群众一定的反应时间。利用线性递减的方法训练粒子群优化算法，粒子群算法用来优化支持向量机模型，根据数据训练得到的支持向量机模型预测是否停电，也可以用来做其它分类或者回归预测；首先，利用随机森林算法计算停电数据不同特征的重要性分数，然后选择与停电预测关联度较大的特征。接着，使用支持向量机模型对停电数据进行训练，并利用粒子群优化支持向量机模型中的参数，可以提高支持向量机模型的性能。利用基于线性递减权重的粒子群优化算法寻找支持向量机模型中C和γ的最佳值，并且使用线性递减权重提高粒子群优化算法的搜索效率，最终，用训练出来的模型预测停电数据，停电预测可以为电网公司、政府等提前做好停电的响应规划和决策。

附图说明

图1是本发明的流程图。

具体实施方式

以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明一种基于粒子群优化的支持向量机停电预测方法。在已有的特征基础上增加新的特征；其次，采用随机森林方法提取与停电问题关联度较大的特征；接着，利用支持向量机模型训练停电数据，并使用基于线性递减权重的粒子群优化算法搜索最优的支持向量机参数；最后，利用训练的预测模型预测停电数据。具体实施步骤如下，且具体流程见附图1。

1、特征构造和特征提取

1.1特征构造

为了拥有更多有效特征的参数训练数据，利用已有的温度、日期等特征基础上构造如温差、月份等新特征。

1.2特征提取

本文通过随机森林(RF)[10]做特征选择，RF使用固定的概率分布下的随机向量产生若干个不相关的决策树，然后通过多个决策树进行投票产生最终的分类结果。通过随机森林可以得到不同特征在在多个决策树上做的贡献，通过重要性的大小选择特征。基尼系数(Gini)或袋外错误率(OOB)的错误率通常用于衡量评估功能的重要性。随机森林使用固定的概率分布下的随机向量产生若干个不相关的决策树，这一步骤属于现有技术，本实施例不再详细阐述。

假设样本数据有C个特征X₁,X₂,...,X_C，计算每个特征变量X_j的重要性的步骤如下所示。

(1)使用随机的方式从原始训练集中有放回地抽取若干个样本，然后返回数据样本，利用随机性去构造K个决策树。每次未采样样本构成K个OOB[11]；

(2)在每棵树的每个节点上随机抽取特征作为随机生成的特征子集，通过计算该特征子集中包含的每个特征所包含的信息，在特征中选择一个分类能力最好的特征进行节点分割，增加了决策树的多样性；

(3)利用基尼指数

计算特征的重要性。特征X_j的基尼指数/>

表示所有随机森林决策树中第j个特征的节点分裂不纯度的平均变化量。基尼指数的计算如公式(1)所示。

其中，k表示一共有k个类别，p_mk表示在节点m中类别k所占的比例。

特征X_j在节点m分支前后的Gini指数的变化量如下：

其中，GI_l和GI_r表示分支后两个新节点的基尼索引。

假如特征X_j出现在决策树i中的节点隶属于集合M，那么特征X_j在决策树i中的重要性如下：

如果RF中一共有N颗树，则

归一化计算的重要分数如下所示：

接着，对计算出的不同特征的重要性进行排序，选择对停电预测较为重要的特征去训练模型。

2、模型训练与预测

2.1支持向量机

支持向量机(SVM)是Vapnik提出的一种分类技术，该技术具有坚实的统计理论基础。大多数现有分类器使用超平面来分离类。但是，SVM通过将预测变量映射到新的可以线性分离的高维空间，将超平面分离的思想扩展到了无法线性分离的数据。这里的关键是将原先的样本向量映射到一个新的坐标空间中，然后再变换后的新的坐标空间中用线性的决策边界划分样本，可使用核函数通过非线性变换创建线性的决策边界[13,14]。样本向量是指停电数据，停电数据包括是否停电。

对于支持向量机分类器的集合定义如下：

其中x_j代表输入特征向量，也就是样本记录，特征向量的维度为k，y_j表示分类器的期望输出。分类的目标是创建一个超平面，通过超平面将样本数据线性地分为两类。并且可以在两个类之间放置无穷多数量的此类超平面。为了获得良好的分类性能，SVM尝试扩展超平面余量。如果两类线性不可分割，则需要引入从输入空间到高维特征空间的非线性变换。变换形式如下所示：

φ(x):x∈R^m→R^k，m＜＜k (7)

那么，在变换后的坐标空间中，划分超平面的模型方程如下所示：

其中，ω和b为支持向量机模型中的参数。为了使得找到的超平面到不同类别之间的距离和最大，则有

根据对偶问题得到该约束下的优化问题的对偶Lagrangian函数如下所示：

其中，α_i表示拉格朗日乘子。

其对偶问题如下所示：

根据二次规划技术可以得到拉格朗日乘子，那么就可以得到参数ω和b的值，计算如下所示：

结合核函数进行求解得到超平面的方程如下：

其中，κ(·)为核函数，κ(x,x_i)表示φ(x)·φ(x_i)，核函数技术是使用原来的样本数据计算变换后的空间中的相似度的一种方法，可以用来帮助处理支持向量机中的非线性问题。常用的核函数有径向基函数、线性核函数和多项式核函数等，本文采用径向基核函数。

支持向量机分类模型中存在两个非常重要的参数C和γ。参数C代表惩罚因子，C的取值会影响分类器的分类精度。如果C太大，则在训练阶段的分类准确率很高，而在测试阶段的分类准确率很低。如果C太小，则分类准确率较差，不能令人满意，从而使得训练出来的分类模型变得无用。γ是选择RBF函数作为kernel后，该RBF函数自带的一个参数，隐含地决定了数据映射到新的特征空间后的分布，参数γ对分类结果的影响相比较于惩罚因子更大，因为γ的值会影响特征空间中的划分结果。如果γ的值过大则会导致拟合过度，而γ的值过小会导致拟合不足。因此C和γ的取值对于SVM的影响很大，不同的取值会导致不同的分类性能，为了选择合适的C和γ的值，通过粒子群算法优化支持向量机模型。

2.2粒子群优化算法

粒子群优化算法(PSO)[15]是基于种群的模拟的基于种群的搜索算法，与其他进化计算算法类似，是一种基于鸟群觅食行为的搜索算法。在粒子群算法中，通过用粒子来表示不同的个体，粒子飞过高维搜索空间。搜索空间中粒子位置的变化是基于个体模仿群体中其他个体成功的趋势。因此，群体中粒子的变化受到其相邻个体的经验或知识的影响。粒子的搜索行为会受到群内其他粒子的搜索行为的影响。换句话说，粒子流经多维搜索空间，其中每个粒子的位置根据其自身及其邻居的体验进行调整。粒子群优化算法中的每个粒子都是一个潜在的优化解，通过不断地调整自身位置找到设置条件下的最优解。

每个粒子都在问题空间中跟踪其位置坐标，迄今为止已实现的最佳解决方案的值称为pbest，它表示个体最优的粒子，而粒子群优化算法的全局版本跟踪的另一个最优值是总体最优值，它的位置可以通过总体中的任何粒子获得，称为gbest，也就是说它是全局最优粒子。

粒子群优化算法由改变每个粒子向其pbest和gbest位置移动的速度组成。加速度由随机项加权得到，在这些随机项中，为向pbest和gbest位置的加速度生成单独的随机数。PSO更新粒子的速度和位置的计算如下所示：

其中，

表示t时刻的群中粒子的速度，c₁和c₂表示学习因子，random(0,1)表示服从参数为0和1的均匀分布的随机数，pbest_i表示第i个最优的粒子位置，gbest表示所有粒子中最优的粒子，/>

表示t时刻的群中粒子的位置。w是惯性因子且w＞＝0，它是用来平衡粒子群算法的全局和局部寻优的参数，为了更好地利用粒子群算法寻优，采用LDW动态更新w的值，更新公式如下所示：

其中，w₁表示初始的设置值，w_e表示迭代到最大的进化代时的设置值，I_k表示设置的最大的迭代次数。通过线性递减权重(LDW)方法可以提高PSO的寻优性能。

2.3基于粒子群优化的支持向量机的停电预测

在本节中，我们阐述了用于停电预测的PSO-SVM算法模型。利用粒子群算法寻找参数的最佳值，自动求解支持向量机模型选择问题，从而优化SVM分类器的精度。PSO是一种进化计算方法，是一种基于群体的搜索技术，利用了信息的社会共享概念。在粒子群优化算法中，个体被称为粒子，在多维搜索空间中飞行。粒子在搜索空间中位置的变化是基于个体追随他人成功的社会心理倾向。因此，群中一个粒子的变化受其邻居的经验或知识的影响。因此，一个粒子的搜索行为会受到群内其他粒子的影响。模拟这种社会行为的结果是，搜索过程使得粒子随机返回到搜索空间中先前成功的区域。

为了实现我们提出的方法，核函数用于支持向量机分类器。在选择核函数时，必须利用PSO-SVM对C和γ进行优化。由于RBF核函数具有良好的性能，通常采用非线性SVM分类器来实现。将粒子群中每个粒子的位置视为一个矢量，该矢量编码SVM分类器的两个参数的值，分别是核参数C和γ。分类精度是设计适应度函数的一个标准。因此，对于分类精度高的粒子产生较高的适应值。粒子群优化的SVM算法的算法描述如下：

算法1:粒子群优化的SVM算法

输入：粒子的总数N，学习因子c₁和c₂，惯性因子w₁和w_e，迭代次数m

输出:最优的SVM参数C,γ

01.j←1

02.WHILEj＜NDO

03.Intialization(v_i,x_i)

04.Evaluation(particle_i)

05.pbest_i←x_i

06.END WHILE

07.gbest←max{pbest_i}

08.j←1

09.FORi＝1to mDO

10.WHILEj＜NDO

11.w_t＝Updation(w₁,w_e,m,g)

12.v_i＝Updation(w_i,c₁,c₂,pbest_i,gbest,x_i)

13.x_i＝Updation(x_i,v_i)

14.Evaluation(particle_i)

15.IF Prediction.SVM(x_i)＞Prediction.SVM(pbest_i)THEN

16.pbest_i←x_i

17.END IF

18.IF Prediction.SVM(pbest_i)＞Prediction.SVM(gbest)THEN

19.gbest←pbest_i

20.END IF

21.END WHILE

22.END FOR

23.(C,γ)←gbest

24.RETURNC,γ

算法1是通过粒子群优化算法优化支持向量机中的参数，提高支持向量机模型的性能。首先初始化，随机生成初始的粒子，并对生成的粒子进行评估，给局部最优和全局最优的位置赋值(第01-07行)。接着，更新粒子的速度和位置值，并并对粒子进行评估，根据不同粒子的位置对应的参数代入SVM模型中得到分类精度，根据不同参数下的精度更新局部最优和全局最优的位置，然后不断迭代直到满足结束条件。最后，返回搜索到的适合停电数据预测的SVM模型下的最优参数(第08-24行)。

利用支持向量机模型训练停电数据，并使用基于线性递减权重的粒子群优化算法搜索最优的支持向量机参数。然后，利用训练的预测模型预测停电数据。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。