CN112084237A - 一种基于机器学习和大数据分析的电力系统异常预测方法 - Google Patents
一种基于机器学习和大数据分析的电力系统异常预测方法 Download PDFInfo
- Publication number
- CN112084237A CN112084237A CN202010941202.1A CN202010941202A CN112084237A CN 112084237 A CN112084237 A CN 112084237A CN 202010941202 A CN202010941202 A CN 202010941202A CN 112084237 A CN112084237 A CN 112084237A
- Authority
- CN
- China
- Prior art keywords
- data
- algorithm
- machine learning
- learning model
- power system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000007405 data analysis Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 230000002159 abnormal effect Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 238000013461 design Methods 0.000 claims abstract description 4
- 238000011268 retreatment Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 94
- 230000005856 abnormality Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 9
- 238000003066 decision tree Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000010354 integration Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Public Health (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- General Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明提出一种基于机器学习和大数据分析的电力系统异常预测方法,包括以下步骤:从数据库中采集相关电网故障的原始数据,并根据时间先后顺序对原始数据进行分段处理,得到数据序列;对数据序列进行预处理,得到对应的特征值和异常程度值,并将数据序列及其特征值、异常程度值组成样本数据;对样本数据进行再次处理、采样、转换以及特征的设计与选择,然后进行数据分类,得到样本数据对应的特征数据;构建机器学习模型,并将特征数据输入机器学习模型中进行训练,得到完成训练的机器学习模型;将完成训练的机器学习模型接入数据库线上获取实时电网检测数据,实时电网检测数据输入完成训练的机器学习模型中,输出得到电力系统异常预测结果。
Description
技术领域
本发明涉及大数据分析技术领域,更具体地,涉及一种基于机器学习和大数据分析的电力系统异常预测方法。
背景技术
智能电网是电力工业发展的方向和趋势,随着智能电网的建设,产生了大量的量测、监测数据,而如何处理这些数据,挖掘其价值,是电力公司面临的问题。现代生活对电网的依赖性非常大,电网必须24小时不间断、高效运行,任何机械系统常见的、甚至是最普通的系统故障和缺陷都是不可容忍的。
目前,国内外大学和研究机构、IT企业、电力公司均开展了智能电网大数据研究和工程应用,如IBM和C3-Energy开发了针对智能电网的大数据分析系统,Oracle提出了智能电网大数据公共数据模型等等,显然智能电网大数据研究和应用已取得了一些成效,但研究成果仍比较粗糙,不成体系,研究和应用尚处于起步和探索阶段(张东霞,苗新,刘丽平,等.智能电网大数据技术发展研究[J].中国电机工程学报,2015(1):2-12.)。由此可见,面对电力系统内存在大量且复杂的数据,目前还没有能够有效对电力系统进行诊断、优化、预测的方法。
发明内容
本发明为克服上述现有技术所述的缺少能够有效对电力系统进行诊断、优化、预测的方法的缺陷,提供一种基于机器学习和大数据分析的电力系统异常预测方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于机器学习和大数据分析的电力系统异常预测方法,包括以下步骤:
S1:从数据库中采集相关电网故障的原始数据,并根据时间先后顺序对所述原始数据进行分段处理,得到数据序列;
S2:对所述数据序列进行预处理,得到对应的特征值和异常程度值,并将所述数据序列及其特征值、异常程度值组成样本数据;
S3:对所述样本数据进行再次处理、采样、转换以及特征的设计与选择,然后进行数据分类,得到所述样本数据对应的特征数据;
S4:构建机器学习模型,并将所述特征数据输入所述机器学习模型中进行训练,得到完成训练的机器学习模型;
S5:将所述完成训练的机器学习模型接入数据库线上获取实时电网检测数据,所述实时电网检测数据输入所述完成训练的机器学习模型中,输出得到电力系统异常预测结果。
优选地,所述S2步骤中,对所述数据序列进行预处理的具体步骤依次包括:数据清洗、格式转化、过采样、正则化或二极化、抽样检查数据质量、填补遗漏的数据值、缩放和规范化数据。
优选地,所述S2步骤中,进行预处理所采用的的处理模块包括:preprocess模块、TF-IDF转换模块、word2vec词向量转化模块。
优选地,所述S3步骤中,进行数据分类的依据包括用户信息、故障类型、故障时间、故障地点、故障环境。
优选地,所述S4步骤中,构建机器学习模型的具体步骤包括:
S4.1:根据所述样本数据对应的特征数据,从数据库中获取初始参数、训练字段标识、训练数据表标识及其对应的训练数据表,从机器学习库中获取与用户信息对应的算法;
S4.2:根据所述训练字段标识选择目标训练数据表标识及其对应的训练数据表,从所述训练数据表中提取数据作为训练数据;
S4.3:采用所述初始参数对所获取的算法进行初始化,得到初始机器学习模型;将所述训练数据及样本数据输入所述初始机器学习模型中进行训练,得到与所述用户名对应的机器学习模型。
优选地,所述S4.1步骤中,从机器学习库中获取的算法包括回归模型算法、分类模型算法、聚类模型算法中的一种或多种。
优选地,所述回归模型算法包括线性回归算法、逻辑回归算法、多项式回归算法、Stepwise Regression逐步回归算法、Ridge Regression岭回归算法、Lasso Regression套索回归算法、ElasticNet回归算法中的一种或多种。
优选地,所述分类模型算法包括支持向量机算法、K最近邻算法、决策树算法、集成学习算法、人工神经网络算法以及朴素贝叶斯算法中的一种或多种。
优选地,所述聚类模型算法包括K-Means算法、谱聚类算法。
优选地,所述S4步骤中,还包括以下步骤:
S4.5:从数据库中获取预测字段标识、预测数据表标识及其对应的预测数据表,
S4.6:根据所获取的预测字段标识,选择目标预测数据表标识及其对应的预测数据表,然后从所述预测数据表中提取数据作为测试数据;
S4.7:将所述测试数据及样本数据输入所述目标机器学习模型中,输出得到测试结果,并将测试结果与预测数据表及样本数据对应的特征数据进行对比,根据其对比结果对机器学习模型的参数进行调整,得到完成训练的机器学习模型。
与现有技术相比,本发明技术方案的有益效果是:本发明通过从数据库中获取电网故障数据并进行分析获取训练样本数据,并应用于机器学习中,且将完成训练的机器学习模型与大数据库连接,可高精度、动态地采集电力实时数据采集整个电力系统的运行数据,再对采集的电力大数据进行机器学习的处理和分析,从而实现对电网的实时监控和异常预测。
附图说明
图1为本发明的基于机器学习和大数据分析的电力系统异常预测方法的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
本实施例提出一种基于机器学习和大数据分析的电力系统异常预测方法,如图1所示,为本实施例的基于机器学习和大数据分析的电力系统异常预测方法的流程图。
本实施例提出的基于机器学习和大数据分析的电力系统异常预测方法中,其具体包括以下步骤:
S1:从数据库中采集相关电网故障的原始数据,并根据时间先后顺序对原始数据进行分段处理,得到数据序列。
S2:对数据序列进行预处理,得到对应的特征值和异常程度值,并将数据序列及其特征值、异常程度值组成样本数据。
本步骤中,对数据序列进行预处理的具体步骤依次包括:数据清洗、格式转化、过采样、正则化或二极化、抽样检查数据质量、填补遗漏的数据值、缩放和规范化数据,以确定各数据序列对应的特征值和异常程度以形成样本数据。
在具体实施过程中,采用preprocess模块、TF-IDF(Term Frequency-InverseDocument Frequency,词频-逆文本频率指数)转换模块、word2vec词向量转化模块等处理模块进行数据预处理。
其中,TF-IDF转换模块是一种用于资讯检索与资讯探勘的常用加权技术,用于评估一个特征对于一个输入数据集中的其中一份数据的重要程度。一个特征的重要性随着它在数据集中出现的次数成正比增加,但同时会随着它在数据集中出现的频率成反比下降,因此在本实施例中采用TF-IDF转换模块主要用于文本类数据源提取出的特征进行转换,将提取的文字特征转换为特征值。
word2vec词向量转换模块本质上来说就是一个矩阵分解的模型,主要通过矩阵刻画每个词和其上下文的词的集合的相关情况。在使用过程中对该矩阵进行分解,只取每个词对应在隐含空间的向量,所以word2vec适合的情况就是对于一个序列的数据,在序列局部数据间存在着很强的关联,可以应用于分类、聚类以及词的相似度计算。
S3:对样本数据进行再次处理、采样、转换以及特征的设计与选择,然后进行数据分类,得到样本数据对应的特征数据。
本步骤中,在对样本数据进行分类时,其分类依据包括用户信息、故障类型、故障时间、故障地点、故障环境,即得到样本数据对应的用户信息、故障类型、故障时间、故障地点、故障环境等特征数据。
S4:构建机器学习模型,并将特征数据输入机器学习模型中进行训练,得到完成训练的机器学习模型。在具体实施过程中,其具体步骤如下:
S4.1:根据样本数据对应的特征数据,从数据库中获取初始参数、训练字段标识、训练数据表标识及其对应的训练数据表,从机器学习库中获取与用户信息对应的算法;
S4.2:根据训练字段标识选择目标训练数据表标识及其对应的训练数据表,从训练数据表中提取数据作为训练数据;
S4.3:采用初始参数对所获取的算法进行初始化,得到初始机器学习模型;将训练数据及样本数据输入初始机器学习模型中进行训练,得到与用户名对应的机器学习模型;
S4.5:从数据库中获取预测字段标识、预测数据表标识及其对应的预测数据表,
S4.6:根据所获取的预测字段标识,选择目标预测数据表标识及其对应的预测数据表,然后从预测数据表中提取数据作为测试数据;
S4.7:将测试数据及样本数据输入目标机器学习模型中,输出得到测试结果,并将测试结果与预测数据表及样本数据对应的特征数据进行对比,根据其对比结果对机器学习模型的参数进行调整,得到完成训练的机器学习模型。
S5:将完成训练的机器学习模型接入数据库线上获取实时电网检测数据,实时电网检测数据输入完成训练的机器学习模型中,输出得到电力系统异常预测结果。
在本实施例中,S4.1步骤中从机器学习库中获取的算法包括回归模型算法、分类模型算法和/或聚类模型算法等,其中,回归模型算法包括线性回归算法、逻辑回归算法、多项式回归算法、Stepwise Regression逐步回归算法、Ridge Regression岭回归算法、LassoRegression套索回归算法、ElasticNet回归算法等。本实施例中采用回归模型研究的是因变量(目标)和自变量(预测器)之间的不确定性的关系(相关性关系),通常用于预测分析时间序列模型以及发现变量之间的因果关系,以线性回归为例,据现有数据对分类边界建立回归公式:
Z=w0x0+w1x1+w2x2+K+wnxn
其中wn为回归公式的参数,xn为自变量;假设数据符合线性方程,即当Z=wTx,只要确定参数w,即可计算出回归公式,进而分类;分类问题与回归问题是监督学习问题,区别在于学习函数的预测输出是类别还是值,所以回归模型也可作为分类模型调用。
在本实施例中,分类模型算法包括支持向量机算法、K最近邻算法、决策树算法、集成学习算法、人工神经网络算法以及朴素贝叶斯算法等。
其中,K最近邻(k-NearestNeighbor,KNN)算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
决策树(DecisionTree)算法中的决策树是一个预测模型,是对象属性与对象值之间的一种映射关系。决策树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应根节点到该叶节点所经历的路径所表示的对象的值。数据挖掘中决策树是一种经常要用到的技术,可以用于分类,同样也可以用来作回归。
集成学习(Ensemble Learning)算法通过将其他算法进行组合而形成更优的算法,组合方式包括:不同算法的集成,数据集不同部分采用不同算法分类后的集成或者同一算法在不同设置下的集成。主要有Bagging,Boosting和Stacking三种实现方式。Bagging为每个样本建立分类器;最后,这些多分类器的结果将结合起来,使用平均或多数投票,有助于降低方差;Boosting提供了预测模块的连续学习功能。第一个预测模块从整个数据集上学习,下一个预测模块在前一个的性能基础上在训练数据集上学习;首先对原始数据集进行分类,并给每个观测给予同样的权重。如果第一个学习模块错误预测了类,那么将会赋予错误分类观测较高的权重;这个过程将反复迭代,不断添加分类学习模块,直到达到模型数量或者某个准确度。Boosting有比Bagging更好的预测精准度,但它有时也会过度拟合训练数据;Stacking则是使用多个基础分类器来预测分类;然后,一个新的学习模块与它们的预测结果结合起来,来降低泛化误差;包含有随机森林模型,Adaboost集成模型等。
人工神经网络(Artificial Neural Network)算法是从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。神经网络是一种运算模型,由大量的节点(神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。
朴素贝叶斯(NaiveBayesian)算法主要对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
此外,S4.1步骤中获取的聚类模型算法包括K-Means算法和谱聚类算法。
其中,K-Means算法是很典型的基于距离的聚类算法,其采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。如果在一次迭代前后,J的值没有发生变化,说明算法已经收敛;算法过程如下:
1)从N个文档随机选取K个文档作为质心
2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类
3)重新计算已经得到的各个类的质心
4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。
谱聚类(Spectral clustering)算法将数据集中的每个对象看作是图的顶点V,将顶点间的相似度量化作为相应顶点连接边E的权值,这样就得到一个基于相似度的无向加权图G(V,E),即可将聚类问题转化为图的划分问题。基于图论的最优划分准则就是使划分成的子图内部相似度最大,子图之间的相似度最小。谱聚类算法有不同的具体实现方法,主要归纳为下面三个主要步骤:
1)构建表示对象集的相似度矩阵W;
2)通过计算相似度矩阵或拉普拉斯矩阵的前k个特征值与特征向量,构建特征向量空间;
3)利用K-means或其它经典聚类算法对特征向量空间中的特征向量进行聚类。
在本实施例提出的基于机器学习和大数据分析的电力系统异常预测方法中,可高精度、动态地采集电力实时数据采集整个电力系统的运行数据,再对采集的电力大数据进行机器学习的处理和分析,从而实现对电网的实时监控和异常预测;进一步结合了机器学习大数据分析方法和电力系统模型对电网运行进行诊断、优化和预测,为电网实现安全、可靠、经济、高效地运行提供保障。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于机器学习和大数据分析的电力系统异常预测方法,其特征在于,包括以下步骤:
S1:从数据库中采集相关电网故障的原始数据,并根据时间先后顺序对所述原始数据进行分段处理,得到数据序列;
S2:对所述数据序列进行预处理,得到对应的特征值和异常程度值,并将所述数据序列及其特征值、异常程度值组成样本数据;
S3:对所述样本数据进行再次处理、采样、转换以及特征的设计与选择,然后进行数据分类,得到所述样本数据对应的特征数据;
S4:构建机器学习模型,并将所述特征数据输入所述机器学习模型中进行训练,得到完成训练的机器学习模型;
S5:将所述完成训练的机器学习模型接入数据库线上获取实时电网检测数据,所述实时电网检测数据输入所述完成训练的机器学习模型中,输出得到电力系统异常预测结果。
2.根据权利要求1所述的电力系统异常预测方法,其特征在于:所述S2步骤中,对所述数据序列进行预处理的具体步骤依次包括:数据清洗、格式转化、过采样、正则化或二极化、抽样检查数据质量、填补遗漏的数据值、缩放和规范化数据。
3.根据权利要求2所述的电力系统异常预测方法,其特征在于:所述S2步骤中,进行预处理所采用的的处理模块包括:preprocess模块、TF-IDF转换模块、word2vec词向量转化模块。
4.根据权利要求1所述的电力系统异常预测方法,其特征在于:所述S3步骤中,进行数据分类的依据包括用户信息、故障类型、故障时间、故障地点、故障环境。
5.根据权利要求4所述的电力系统异常预测方法,其特征在于:所述S4步骤中,构建机器学习模型的具体步骤包括:
S4.1:根据所述样本数据对应的特征数据,从数据库中获取初始参数、训练字段标识、训练数据表标识及其对应的训练数据表,从机器学习库中获取与用户信息对应的算法;
S4.2:根据所述训练字段标识选择目标训练数据表标识及其对应的训练数据表,从所述训练数据表中提取数据作为训练数据;
S4.3:采用所述初始参数对所获取的算法进行初始化,得到初始机器学习模型;将所述训练数据及样本数据输入所述初始机器学习模型中进行训练,得到与所述用户名对应的机器学习模型。
6.根据权利要求5所述的电力系统异常预测方法,其特征在于:所述S4.1步骤中,从机器学习库中获取的算法包括回归模型算法、分类模型算法、聚类模型算法中的一种或多种。
7.根据权利要求6所述的电力系统异常预测方法,其特征在于:所述回归模型算法包括线性回归算法、逻辑回归算法、多项式回归算法、Stepwise Regression逐步回归算法、Ridge Regression岭回归算法、Lasso Regression套索回归算法、ElasticNet回归算法中的一种或多种。
8.根据权利要求6所述的电力系统异常预测方法,其特征在于:所述分类模型算法包括支持向量机算法、K最近邻算法、决策树算法、集成学习算法、人工神经网络算法以及朴素贝叶斯算法中的一种或多种。
9.根据权利要求6所述的电力系统异常预测方法,其特征在于:所述聚类模型算法包括K-Means算法、谱聚类算法。
10.根据权利要求5所述的电力系统异常预测方法,其特征在于:所述S4步骤中,还包括以下步骤:
S4.5:从数据库中获取预测字段标识、预测数据表标识及其对应的预测数据表,
S4.6:根据所获取的预测字段标识,选择目标预测数据表标识及其对应的预测数据表,然后从所述预测数据表中提取数据作为测试数据;
S4.7:将所述测试数据及样本数据输入所述目标机器学习模型中,输出得到测试结果,并将测试结果与预测数据表及样本数据对应的特征数据进行对比,根据其对比结果对机器学习模型的参数进行调整,得到完成训练的机器学习模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010941202.1A CN112084237A (zh) | 2020-09-09 | 2020-09-09 | 一种基于机器学习和大数据分析的电力系统异常预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010941202.1A CN112084237A (zh) | 2020-09-09 | 2020-09-09 | 一种基于机器学习和大数据分析的电力系统异常预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112084237A true CN112084237A (zh) | 2020-12-15 |
Family
ID=73731714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010941202.1A Pending CN112084237A (zh) | 2020-09-09 | 2020-09-09 | 一种基于机器学习和大数据分析的电力系统异常预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084237A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905792A (zh) * | 2021-02-20 | 2021-06-04 | 深圳前海微众银行股份有限公司 | 基于非文本场景的文本聚类方法、装置、设备及存储介质 |
CN113011530A (zh) * | 2021-04-29 | 2021-06-22 | 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心) | 一种基于多分类器融合的智能电表故障预测方法 |
CN113033089A (zh) * | 2021-03-23 | 2021-06-25 | 中国联合网络通信集团有限公司 | 用电量异常用户识别方法和装置 |
CN113128612A (zh) * | 2021-04-26 | 2021-07-16 | 国网河北省电力有限公司营销服务中心 | 电力数据中异常值的处理方法及终端设备 |
CN113156917A (zh) * | 2021-04-10 | 2021-07-23 | 河南巨捷电子科技有限公司 | 基于人工智能的电网设备故障诊断方法及系统 |
CN113158769A (zh) * | 2021-03-03 | 2021-07-23 | 安徽大学 | 基于CEEMDAN和FastICA的机电设备轴承振动信号除噪方法 |
CN113496262A (zh) * | 2021-09-08 | 2021-10-12 | 山东大学 | 数据驱动的有源配电网异常状态感知方法及系统 |
CN113516313A (zh) * | 2021-07-20 | 2021-10-19 | 上海航天能源股份有限公司 | 一种基于用户画像的燃气异常检测方法 |
CN115345202A (zh) * | 2022-08-17 | 2022-11-15 | 国网江苏省电力有限公司电力科学研究院 | 一种第三方负荷聚合平台交互数据异常检测方法及系统 |
CN116070150A (zh) * | 2023-03-06 | 2023-05-05 | 济南市计量检定测试院 | 基于呼吸机运行参数的异常监测方法 |
CN116243097A (zh) * | 2023-05-11 | 2023-06-09 | 新风光电子科技股份有限公司 | 基于大数据的电能质量检测方法 |
CN117370790A (zh) * | 2023-10-13 | 2024-01-09 | 江苏智谨创新能源科技有限公司 | 一种光伏发电组件故障自动报警方法及系统 |
CN117591964A (zh) * | 2024-01-12 | 2024-02-23 | 山西思极科技有限公司 | 基于人工智能的电力智能分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109120632A (zh) * | 2018-09-04 | 2019-01-01 | 中国人民解放军陆军工程大学 | 基于在线特征选择的网络流异常检测方法 |
CN109242041A (zh) * | 2018-09-28 | 2019-01-18 | 南方电网科学研究院有限责任公司 | 一种电能表异常数据检测方法、装置、设备及存储介质 |
US20200136431A1 (en) * | 2018-07-16 | 2020-04-30 | Cable Television Laboratories, Inc. | System and method for distributed, secure, power grid data collection, consensual voting analysis, and situational awareness and anomaly detection |
CN111582298A (zh) * | 2020-03-18 | 2020-08-25 | 宁波送变电建设有限公司永耀科技分公司 | 一种基于人工智能的传感异常数据实时检测方法 |
-
2020
- 2020-09-09 CN CN202010941202.1A patent/CN112084237A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200136431A1 (en) * | 2018-07-16 | 2020-04-30 | Cable Television Laboratories, Inc. | System and method for distributed, secure, power grid data collection, consensual voting analysis, and situational awareness and anomaly detection |
CN109120632A (zh) * | 2018-09-04 | 2019-01-01 | 中国人民解放军陆军工程大学 | 基于在线特征选择的网络流异常检测方法 |
CN109242041A (zh) * | 2018-09-28 | 2019-01-18 | 南方电网科学研究院有限责任公司 | 一种电能表异常数据检测方法、装置、设备及存储介质 |
CN111582298A (zh) * | 2020-03-18 | 2020-08-25 | 宁波送变电建设有限公司永耀科技分公司 | 一种基于人工智能的传感异常数据实时检测方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905792A (zh) * | 2021-02-20 | 2021-06-04 | 深圳前海微众银行股份有限公司 | 基于非文本场景的文本聚类方法、装置、设备及存储介质 |
CN113158769A (zh) * | 2021-03-03 | 2021-07-23 | 安徽大学 | 基于CEEMDAN和FastICA的机电设备轴承振动信号除噪方法 |
CN113033089A (zh) * | 2021-03-23 | 2021-06-25 | 中国联合网络通信集团有限公司 | 用电量异常用户识别方法和装置 |
CN113156917A (zh) * | 2021-04-10 | 2021-07-23 | 河南巨捷电子科技有限公司 | 基于人工智能的电网设备故障诊断方法及系统 |
CN113156917B (zh) * | 2021-04-10 | 2023-09-08 | 河北新大长远电力科技股份有限公司 | 基于人工智能的电网设备故障诊断方法及系统 |
CN113128612A (zh) * | 2021-04-26 | 2021-07-16 | 国网河北省电力有限公司营销服务中心 | 电力数据中异常值的处理方法及终端设备 |
CN113011530A (zh) * | 2021-04-29 | 2021-06-22 | 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心) | 一种基于多分类器融合的智能电表故障预测方法 |
CN113516313A (zh) * | 2021-07-20 | 2021-10-19 | 上海航天能源股份有限公司 | 一种基于用户画像的燃气异常检测方法 |
CN113496262B (zh) * | 2021-09-08 | 2022-02-08 | 山东大学 | 数据驱动的有源配电网异常状态感知方法及系统 |
CN113496262A (zh) * | 2021-09-08 | 2021-10-12 | 山东大学 | 数据驱动的有源配电网异常状态感知方法及系统 |
CN115345202A (zh) * | 2022-08-17 | 2022-11-15 | 国网江苏省电力有限公司电力科学研究院 | 一种第三方负荷聚合平台交互数据异常检测方法及系统 |
CN116070150A (zh) * | 2023-03-06 | 2023-05-05 | 济南市计量检定测试院 | 基于呼吸机运行参数的异常监测方法 |
CN116070150B (zh) * | 2023-03-06 | 2023-06-09 | 济南市计量检定测试院 | 基于呼吸机运行参数的异常监测方法 |
CN116243097A (zh) * | 2023-05-11 | 2023-06-09 | 新风光电子科技股份有限公司 | 基于大数据的电能质量检测方法 |
CN116243097B (zh) * | 2023-05-11 | 2023-08-15 | 新风光电子科技股份有限公司 | 基于大数据的电能质量检测方法 |
CN117370790A (zh) * | 2023-10-13 | 2024-01-09 | 江苏智谨创新能源科技有限公司 | 一种光伏发电组件故障自动报警方法及系统 |
CN117591964A (zh) * | 2024-01-12 | 2024-02-23 | 山西思极科技有限公司 | 基于人工智能的电力智能分析方法 |
CN117591964B (zh) * | 2024-01-12 | 2024-04-05 | 山西思极科技有限公司 | 基于人工智能的电力智能分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084237A (zh) | 一种基于机器学习和大数据分析的电力系统异常预测方法 | |
Guo et al. | Unsupervised anomaly detection in IoT systems for smart cities | |
CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及系统 | |
CN116451139B (zh) | 一种基于人工智能的直播数据快速分析方法 | |
CN114093445B (zh) | 一种基于偏多标记学习的患者筛选标记方法 | |
CN106846170B (zh) | 一种发电机组跳闸监测方法及其监测装置 | |
Waqas et al. | Robust bag classification approach for multi-instance learning via subspace fuzzy clustering | |
Qaedi et al. | Improvement in power transformer intelligent dissolved gas analysis method | |
Chen et al. | Transformer Dissolved Gas Analysis for Highly-Imbalanced Dataset Using Multiclass Sequential Ensembled ELM | |
Giampieri et al. | A supervised classification system based on evolutive multi-agent clustering for smart grids faults prediction | |
Langbridge et al. | Causal temporal graph convolutional neural networks (ctgcn) | |
CN115438239A (zh) | 一种自动化异常样本筛选的异常检测方法及装置 | |
Johnpaul et al. | Representational primitives using trend based global features for time series classification | |
Hanna et al. | Anomaly detection in time series data using unsupervised machine learning methods: A clustering-based approach | |
Mehrmolaei et al. | A comparative study on weighting-based clustering techniques: Time series data | |
Auret | Process monitoring and fault diagnosis using random forests | |
Hills | Mining time-series data using discriminative subsequences | |
Gupta et al. | A detailed Study of different Clustering Algorithms in Data Mining | |
Kuranga | Genetic Programming Approach for Non-stationary Data Analytics | |
Gujral | Survey: Anomaly Detection Methods | |
Cabral et al. | A hybrid method for novelty detection in time series based on states transitions and swarm intelligence | |
Chengyang et al. | Representation learning of time series data with high-level semantic | |
Pradhan et al. | Software Defect Prediction Model Using AdaBoost based Random Forest Technique | |
Edholm | Unsupervised Anomaly Detection and Explainability for Ladok Logs | |
Tiwari | Segmentation and Clustering of Time Series Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |