CN112084237A

CN112084237A - 一种基于机器学习和大数据分析的电力系统异常预测方法

Info

Publication number: CN112084237A
Application number: CN202010941202.1A
Authority: CN
Inventors: 张春梅
Original assignee: Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Zhongshan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-15

Abstract

本发明提出一种基于机器学习和大数据分析的电力系统异常预测方法，包括以下步骤：从数据库中采集相关电网故障的原始数据，并根据时间先后顺序对原始数据进行分段处理，得到数据序列；对数据序列进行预处理，得到对应的特征值和异常程度值，并将数据序列及其特征值、异常程度值组成样本数据；对样本数据进行再次处理、采样、转换以及特征的设计与选择，然后进行数据分类，得到样本数据对应的特征数据；构建机器学习模型，并将特征数据输入机器学习模型中进行训练，得到完成训练的机器学习模型；将完成训练的机器学习模型接入数据库线上获取实时电网检测数据，实时电网检测数据输入完成训练的机器学习模型中，输出得到电力系统异常预测结果。

Description

一种基于机器学习和大数据分析的电力系统异常预测方法

技术领域

本发明涉及大数据分析技术领域，更具体地，涉及一种基于机器学习和大数据分析的电力系统异常预测方法。

背景技术

智能电网是电力工业发展的方向和趋势，随着智能电网的建设，产生了大量的量测、监测数据，而如何处理这些数据，挖掘其价值，是电力公司面临的问题。现代生活对电网的依赖性非常大，电网必须24小时不间断、高效运行，任何机械系统常见的、甚至是最普通的系统故障和缺陷都是不可容忍的。

目前，国内外大学和研究机构、IT企业、电力公司均开展了智能电网大数据研究和工程应用，如IBM和C3-Energy开发了针对智能电网的大数据分析系统，Oracle提出了智能电网大数据公共数据模型等等，显然智能电网大数据研究和应用已取得了一些成效，但研究成果仍比较粗糙，不成体系，研究和应用尚处于起步和探索阶段(张东霞,苗新,刘丽平,等.智能电网大数据技术发展研究[J].中国电机工程学报,2015(1):2-12.)。由此可见，面对电力系统内存在大量且复杂的数据，目前还没有能够有效对电力系统进行诊断、优化、预测的方法。

发明内容

本发明为克服上述现有技术所述的缺少能够有效对电力系统进行诊断、优化、预测的方法的缺陷，提供一种基于机器学习和大数据分析的电力系统异常预测方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于机器学习和大数据分析的电力系统异常预测方法，包括以下步骤：

S1：从数据库中采集相关电网故障的原始数据，并根据时间先后顺序对所述原始数据进行分段处理，得到数据序列；

S2：对所述数据序列进行预处理，得到对应的特征值和异常程度值，并将所述数据序列及其特征值、异常程度值组成样本数据；

S3：对所述样本数据进行再次处理、采样、转换以及特征的设计与选择，然后进行数据分类，得到所述样本数据对应的特征数据；

S4：构建机器学习模型，并将所述特征数据输入所述机器学习模型中进行训练，得到完成训练的机器学习模型；

S5：将所述完成训练的机器学习模型接入数据库线上获取实时电网检测数据，所述实时电网检测数据输入所述完成训练的机器学习模型中，输出得到电力系统异常预测结果。

优选地，所述S2步骤中，对所述数据序列进行预处理的具体步骤依次包括：数据清洗、格式转化、过采样、正则化或二极化、抽样检查数据质量、填补遗漏的数据值、缩放和规范化数据。

优选地，所述S2步骤中，进行预处理所采用的的处理模块包括：preprocess模块、TF-IDF转换模块、word2vec词向量转化模块。

优选地，所述S3步骤中，进行数据分类的依据包括用户信息、故障类型、故障时间、故障地点、故障环境。

优选地，所述S4步骤中，构建机器学习模型的具体步骤包括：

S4.1：根据所述样本数据对应的特征数据，从数据库中获取初始参数、训练字段标识、训练数据表标识及其对应的训练数据表，从机器学习库中获取与用户信息对应的算法；

S4.2：根据所述训练字段标识选择目标训练数据表标识及其对应的训练数据表，从所述训练数据表中提取数据作为训练数据；

S4.3：采用所述初始参数对所获取的算法进行初始化，得到初始机器学习模型；将所述训练数据及样本数据输入所述初始机器学习模型中进行训练，得到与所述用户名对应的机器学习模型。

优选地，所述S4.1步骤中，从机器学习库中获取的算法包括回归模型算法、分类模型算法、聚类模型算法中的一种或多种。

优选地，所述回归模型算法包括线性回归算法、逻辑回归算法、多项式回归算法、Stepwise Regression逐步回归算法、Ridge Regression岭回归算法、Lasso Regression套索回归算法、ElasticNet回归算法中的一种或多种。

优选地，所述分类模型算法包括支持向量机算法、K最近邻算法、决策树算法、集成学习算法、人工神经网络算法以及朴素贝叶斯算法中的一种或多种。

优选地，所述聚类模型算法包括K-Means算法、谱聚类算法。

优选地，所述S4步骤中，还包括以下步骤：

S4.5：从数据库中获取预测字段标识、预测数据表标识及其对应的预测数据表，

S4.6：根据所获取的预测字段标识，选择目标预测数据表标识及其对应的预测数据表，然后从所述预测数据表中提取数据作为测试数据；

S4.7：将所述测试数据及样本数据输入所述目标机器学习模型中，输出得到测试结果，并将测试结果与预测数据表及样本数据对应的特征数据进行对比，根据其对比结果对机器学习模型的参数进行调整，得到完成训练的机器学习模型。

与现有技术相比，本发明技术方案的有益效果是：本发明通过从数据库中获取电网故障数据并进行分析获取训练样本数据，并应用于机器学习中，且将完成训练的机器学习模型与大数据库连接，可高精度、动态地采集电力实时数据采集整个电力系统的运行数据，再对采集的电力大数据进行机器学习的处理和分析，从而实现对电网的实时监控和异常预测。

附图说明

图1为本发明的基于机器学习和大数据分析的电力系统异常预测方法的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

本实施例提出一种基于机器学习和大数据分析的电力系统异常预测方法，如图1所示，为本实施例的基于机器学习和大数据分析的电力系统异常预测方法的流程图。

本实施例提出的基于机器学习和大数据分析的电力系统异常预测方法中，其具体包括以下步骤：

S1：从数据库中采集相关电网故障的原始数据，并根据时间先后顺序对原始数据进行分段处理，得到数据序列。

S2：对数据序列进行预处理，得到对应的特征值和异常程度值，并将数据序列及其特征值、异常程度值组成样本数据。

本步骤中，对数据序列进行预处理的具体步骤依次包括：数据清洗、格式转化、过采样、正则化或二极化、抽样检查数据质量、填补遗漏的数据值、缩放和规范化数据，以确定各数据序列对应的特征值和异常程度以形成样本数据。

在具体实施过程中，采用preprocess模块、TF-IDF(Term Frequency-InverseDocument Frequency，词频-逆文本频率指数)转换模块、word2vec词向量转化模块等处理模块进行数据预处理。

其中，TF-IDF转换模块是一种用于资讯检索与资讯探勘的常用加权技术，用于评估一个特征对于一个输入数据集中的其中一份数据的重要程度。一个特征的重要性随着它在数据集中出现的次数成正比增加，但同时会随着它在数据集中出现的频率成反比下降，因此在本实施例中采用TF-IDF转换模块主要用于文本类数据源提取出的特征进行转换，将提取的文字特征转换为特征值。

word2vec词向量转换模块本质上来说就是一个矩阵分解的模型，主要通过矩阵刻画每个词和其上下文的词的集合的相关情况。在使用过程中对该矩阵进行分解，只取每个词对应在隐含空间的向量，所以word2vec适合的情况就是对于一个序列的数据，在序列局部数据间存在着很强的关联，可以应用于分类、聚类以及词的相似度计算。

S3：对样本数据进行再次处理、采样、转换以及特征的设计与选择，然后进行数据分类，得到样本数据对应的特征数据。

本步骤中，在对样本数据进行分类时，其分类依据包括用户信息、故障类型、故障时间、故障地点、故障环境，即得到样本数据对应的用户信息、故障类型、故障时间、故障地点、故障环境等特征数据。

S4：构建机器学习模型，并将特征数据输入机器学习模型中进行训练，得到完成训练的机器学习模型。在具体实施过程中，其具体步骤如下：

S4.1：根据样本数据对应的特征数据，从数据库中获取初始参数、训练字段标识、训练数据表标识及其对应的训练数据表，从机器学习库中获取与用户信息对应的算法；

S4.2：根据训练字段标识选择目标训练数据表标识及其对应的训练数据表，从训练数据表中提取数据作为训练数据；

S4.3：采用初始参数对所获取的算法进行初始化，得到初始机器学习模型；将训练数据及样本数据输入初始机器学习模型中进行训练，得到与用户名对应的机器学习模型；

S4.6：根据所获取的预测字段标识，选择目标预测数据表标识及其对应的预测数据表，然后从预测数据表中提取数据作为测试数据；

S4.7：将测试数据及样本数据输入目标机器学习模型中，输出得到测试结果，并将测试结果与预测数据表及样本数据对应的特征数据进行对比，根据其对比结果对机器学习模型的参数进行调整，得到完成训练的机器学习模型。

S5：将完成训练的机器学习模型接入数据库线上获取实时电网检测数据，实时电网检测数据输入完成训练的机器学习模型中，输出得到电力系统异常预测结果。

在本实施例中，S4.1步骤中从机器学习库中获取的算法包括回归模型算法、分类模型算法和/或聚类模型算法等，其中，回归模型算法包括线性回归算法、逻辑回归算法、多项式回归算法、Stepwise Regression逐步回归算法、Ridge Regression岭回归算法、LassoRegression套索回归算法、ElasticNet回归算法等。本实施例中采用回归模型研究的是因变量(目标)和自变量(预测器)之间的不确定性的关系(相关性关系)，通常用于预测分析时间序列模型以及发现变量之间的因果关系，以线性回归为例，据现有数据对分类边界建立回归公式：

Z＝w₀x₀+w₁x₁+w₂x₂+K+w_nx_n

其中w_n为回归公式的参数，x_n为自变量；假设数据符合线性方程，即当Z＝w^Tx，只要确定参数w，即可计算出回归公式，进而分类；分类问题与回归问题是监督学习问题，区别在于学习函数的预测输出是类别还是值，所以回归模型也可作为分类模型调用。

在本实施例中，分类模型算法包括支持向量机算法、K最近邻算法、决策树算法、集成学习算法、人工神经网络算法以及朴素贝叶斯算法等。

其中，K最近邻(k-NearestNeighbor，KNN)算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

决策树(DecisionTree)算法中的决策树是一个预测模型，是对象属性与对象值之间的一种映射关系。决策树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应根节点到该叶节点所经历的路径所表示的对象的值。数据挖掘中决策树是一种经常要用到的技术，可以用于分类，同样也可以用来作回归。

集成学习(Ensemble Learning)算法通过将其他算法进行组合而形成更优的算法，组合方式包括:不同算法的集成，数据集不同部分采用不同算法分类后的集成或者同一算法在不同设置下的集成。主要有Bagging,Boosting和Stacking三种实现方式。Bagging为每个样本建立分类器；最后，这些多分类器的结果将结合起来，使用平均或多数投票，有助于降低方差；Boosting提供了预测模块的连续学习功能。第一个预测模块从整个数据集上学习，下一个预测模块在前一个的性能基础上在训练数据集上学习；首先对原始数据集进行分类，并给每个观测给予同样的权重。如果第一个学习模块错误预测了类，那么将会赋予错误分类观测较高的权重；这个过程将反复迭代，不断添加分类学习模块，直到达到模型数量或者某个准确度。Boosting有比Bagging更好的预测精准度，但它有时也会过度拟合训练数据；Stacking则是使用多个基础分类器来预测分类；然后，一个新的学习模块与它们的预测结果结合起来，来降低泛化误差；包含有随机森林模型，Adaboost集成模型等。

人工神经网络(Artificial Neural Network)算法是从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。神经网络是一种运算模型，由大量的节点(神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。

朴素贝叶斯(NaiveBayesian)算法主要对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

此外，S4.1步骤中获取的聚类模型算法包括K-Means算法和谱聚类算法。

其中，K-Means算法是很典型的基于距离的聚类算法，其采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。该算法在每次迭代中对数据集中剩余的每个对象，根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后，一次迭代运算完成，新的聚类中心被计算出来。如果在一次迭代前后，J的值没有发生变化，说明算法已经收敛；算法过程如下：

1)从N个文档随机选取K个文档作为质心

2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类

3)重新计算已经得到的各个类的质心

4)迭代2～3步直至新的质心与原质心相等或小于指定阈值，算法结束。

谱聚类(Spectral clustering)算法将数据集中的每个对象看作是图的顶点V，将顶点间的相似度量化作为相应顶点连接边E的权值，这样就得到一个基于相似度的无向加权图G(V，E)，即可将聚类问题转化为图的划分问题。基于图论的最优划分准则就是使划分成的子图内部相似度最大，子图之间的相似度最小。谱聚类算法有不同的具体实现方法，主要归纳为下面三个主要步骤：

1)构建表示对象集的相似度矩阵W；

2)通过计算相似度矩阵或拉普拉斯矩阵的前k个特征值与特征向量，构建特征向量空间；

3)利用K-means或其它经典聚类算法对特征向量空间中的特征向量进行聚类。

在本实施例提出的基于机器学习和大数据分析的电力系统异常预测方法中，可高精度、动态地采集电力实时数据采集整个电力系统的运行数据，再对采集的电力大数据进行机器学习的处理和分析，从而实现对电网的实时监控和异常预测；进一步结合了机器学习大数据分析方法和电力系统模型对电网运行进行诊断、优化和预测，为电网实现安全、可靠、经济、高效地运行提供保障。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于机器学习和大数据分析的电力系统异常预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的电力系统异常预测方法，其特征在于：所述S2步骤中，对所述数据序列进行预处理的具体步骤依次包括：数据清洗、格式转化、过采样、正则化或二极化、抽样检查数据质量、填补遗漏的数据值、缩放和规范化数据。

3.根据权利要求2所述的电力系统异常预测方法，其特征在于：所述S2步骤中，进行预处理所采用的的处理模块包括：preprocess模块、TF-IDF转换模块、word2vec词向量转化模块。

4.根据权利要求1所述的电力系统异常预测方法，其特征在于：所述S3步骤中，进行数据分类的依据包括用户信息、故障类型、故障时间、故障地点、故障环境。

5.根据权利要求4所述的电力系统异常预测方法，其特征在于：所述S4步骤中，构建机器学习模型的具体步骤包括：

6.根据权利要求5所述的电力系统异常预测方法，其特征在于：所述S4.1步骤中，从机器学习库中获取的算法包括回归模型算法、分类模型算法、聚类模型算法中的一种或多种。

7.根据权利要求6所述的电力系统异常预测方法，其特征在于：所述回归模型算法包括线性回归算法、逻辑回归算法、多项式回归算法、Stepwise Regression逐步回归算法、Ridge Regression岭回归算法、Lasso Regression套索回归算法、ElasticNet回归算法中的一种或多种。

8.根据权利要求6所述的电力系统异常预测方法，其特征在于：所述分类模型算法包括支持向量机算法、K最近邻算法、决策树算法、集成学习算法、人工神经网络算法以及朴素贝叶斯算法中的一种或多种。

9.根据权利要求6所述的电力系统异常预测方法，其特征在于：所述聚类模型算法包括K-Means算法、谱聚类算法。

10.根据权利要求5所述的电力系统异常预测方法，其特征在于：所述S4步骤中，还包括以下步骤：