CN116975670A - 一种短期调荷场景下线损特征分类处理方法 - Google Patents
一种短期调荷场景下线损特征分类处理方法 Download PDFInfo
- Publication number
- CN116975670A CN116975670A CN202310952918.5A CN202310952918A CN116975670A CN 116975670 A CN116975670 A CN 116975670A CN 202310952918 A CN202310952918 A CN 202310952918A CN 116975670 A CN116975670 A CN 116975670A
- Authority
- CN
- China
- Prior art keywords
- line loss
- sample
- clustering
- short
- term load
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000009826 distribution Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000002159 abnormal effect Effects 0.000 claims abstract description 19
- 238000007619 statistical method Methods 0.000 claims abstract description 14
- 238000012800 visualization Methods 0.000 claims abstract description 11
- 238000004140 cleaning Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000004458 analytical method Methods 0.000 description 12
- 230000005611 electricity Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000012300 Sequence Analysis Methods 0.000 description 2
- 238000000540 analysis of variance Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000012731 temporal analysis Methods 0.000 description 2
- 238000000700 time series analysis Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本申请提供一种短期调荷场景下线损特征分类处理方法,包括:对10kV配网的线损数据进行采集;采用孤立森林方法对所述线损数据进行清洗,将异常值和空缺值分离,得到分离后的线损数据;根据预设指标结合K‑Sums聚类将分离后的线损数据进行聚类,得到聚类结果,所述预设指标包括供电半径、负载率、用电比例、导线型号、有功电源功率、无功电源功率;对所述聚类结果进行处理与分析,得到短期调荷场景下线损特征。通过统计分析和可视化技术对聚类簇进行描述和解释,从而更好地理解短期调荷场景下线损的特征。通过统计分析和可视化技术对聚类簇进行描述和解释,从而更好地理解短期调荷场景下线损的特征。
Description
技术领域
本申请涉及电力检测领域,尤其涉及一种短期调荷场景下线损特征分类处理方法。
背景技术
短期调荷是指电力系统在较短时间内(如几天或几周)内的负荷变化情况。在线损特征分类处理方法用于针对短期调荷场景下的线损数据进行分类和分析,目的是识别出影响线损的不同特征,并提供合理的调控方案。
线损特征分类处理方法包括基于统计分析和机器学习处理,基于时间序列分析处理,基于规则推导和专家系统处理。上述处理方法可能存在数据缺失、噪声、异常值等问题,这会影响特征提取和分类处理的准确性。因此,需要开发更为高效和准确的数据清洗和处理方法来处理不完整或错误的数据。
发明内容
本申请提供了一种短期调荷场景下线损特征分类处理方法,以提高特征提取和分类处理的准确性。
本申请提供一种短期调荷场景下线损特征分类处理方法,包括:
对10kV配网的线损数据进行采集;
采用孤立森林方法对所述线损数据进行清洗,将异常值和空缺值分离,得到分离后的线损数据;
根据预设指标结合K-Sums聚类将分离后的线损数据进行聚类,得到聚类结果,所述预设指标包括供电半径、负载率、用电比例、导线型号、有功电源功率、无功电源功率;
对所述聚类结果进行处理与分析,得到短期调荷场景下线损特征。
在一种可行的实施方式中,采用孤立森林方法对所述线损数据进行清洗,将异常值和空缺值分离,得到分离后的线损数据包括:
将线损数据特征转换为特征矩阵,其中每一行代表一个样本,每一列代表一个特征;
使用孤立森林算法对所述特征矩阵进行训练,得到训练好的孤立森林模型;
使用训练好的孤立森林模型,计算每个样本的异常分数,其中异常分数与所述样本异常成正比;
根据异常分数的分布情况和过滤的异常值比例,设置阈值;
将异常分数与阈值进行对比,将异常分数大于阈值的样本标记为异常值;将异常分数等于1的样本标记为空缺值;
将异常值和空缺值分离,得到分离后的线损数据。
在一种可行的实施方式中,计算每个样本的异常分数包括:
根据样本计算每个样本的模式长度;其中每个样本的模式长度根据公式(1)计算:
h(x)=c+2*(log(N-1)-E(h(n-1))) (1)
其中,x是样本,N是训练数据集中的样本数,h(n-1)是每次分割后的子树的平均高度,c是修正因子,h为孤立树高度;
基于孤立树高度计算得到异常分数;其中,异常分数可以通过公式(2)得到:
s(x)=2^(-E(h(x))/c) (2)
其中,E(h(x))是样本x的平均路径长度,c是修正因子。
在一种可行的实施方式中,根据预设指标结合K-Sums聚类将分离后的线损数据进行聚类,得到聚类结果包括:
将预设指标作为特征,构建特征矩阵;
从数据样本中随机选择K个样本作为初始的聚类中心,其中K是预先指定的类别数;
计算每个样本与每个聚类中心的距离;
将每个样本分配到与其距离最近的聚类中心所属的类别;
对于每个类别,计算该类别中所有样本与其他样本的距离之和,并选择最小和距离之和的样本作为新的聚类中心;
得到最终的聚类结果,其中每个样本均属于其中一个聚类簇。
在一种可行的实施方式中,使用欧氏距离计算每个样本与每个聚类中心的距离,其中,根据公式(3)计算:
d(x,c)=sqrt(sum((xi-ci)2)) (3)
其中,xi和ci分别表示样本x和聚类中心c对应的特征值。
在一种可行的实施方式中,使用曼哈顿距离计算每个样本与每个聚类中心的距离,其中,根据公式(4)和(5)计算:
d(x,c)=sum(|xi-ci|) (4)
ci=argmin(sum(d(x,ci)))(i=1,2,3,...,n) (5)
其中,argmin()表示求使得括号内容最小的值,d(x,ci)是样本x与聚类中心ci的距离。
在一种可行的实施方式中,重复执行将每个样本分配到与其距离最近的聚类中心所属的类别以及对于每个类别,计算该类别中所有样本与其他样本的距离之和,直至聚类中心不再发生变化或达到预定的迭代次数。
在一种可行的实施方式中,对所述聚类结果进行处理与分析,得到短期调荷场景下线损特征包括:
对每个聚类簇的样本进行描述性统计分析,计算统计指标,其中所述统计指标包括:平均值、中位数、极差、方差;
使用可视化工具展示每个聚类簇内样本的数据分布和特征;
对于每个聚类簇,使用特征重要性评估方法来确定哪些指标对于区分不同聚类簇重要;
比较不同聚类簇的特征和分布,得到短期调荷场景下线损特征。
由以上技术方案可知,本申请提供一种短期调荷场景下线损特征分类处理方法,包括:对10kV配网的线损数据进行采集;采用孤立森林方法对所述线损数据进行清洗,将异常值和空缺值分离,得到分离后的线损数据;根据预设指标结合K-Sums聚类将分离后的线损数据进行聚类,得到聚类结果,所述预设指标包括供电半径、负载率、用电比例、导线型号、有功电源功率、无功电源功率;对所述聚类结果进行处理与分析,得到短期调荷场景下线损特征通过统计分析和可视化技术对聚类簇进行描述和解释,从而更好地理解短期调荷场景下线损的特征。通过统计分析和可视化技术对聚类簇进行描述和解释,从而更好地理解短期调荷场景下线损的特征。通过对不同聚类簇的比较和分析,可以发现不同特征之间的关联性,或者发现与平均情况不符的异常情况。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的短期调荷场景下线损特征分类处理方法的流程图;
图2为本申请实施例采用孤立森林方法对线损数据进行清洗流程图;
图3为本申请实施例通过K-Sums聚类将数据进行聚类流程图;
图4为本申请实施例对聚类结果进行处理与分析流程图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
短期调荷是指电力系统在较短时间内(如几天或几周)内的负荷变化情况。在线损特征分类处理方法用于针对短期调荷场景下的线损数据进行分类和分析,目的是识别出影响线损的不同特征,并提供合理的调控方案。
线损特征分类处理方法包括基于统计分析和机器学习处理,基于时间序列分析处理,基于规则推导和专家系统处理。
基于统计分析和机器学习这种方法使用统计分析和机器学习算法来识别关联线损特征。首先,对线损数据进行预处理和特征提取,例如计算平均线损率、最大线损率、负荷波动等特征。然后,利用聚类算法(如K-Means、DBSCAN)或分类算法(如决策树、支持向量机、神经网络)对提取的特征进行分类和分析。
基于时间序列分析这种方法利用时间序列分析技术对线损数据进行建模和预测。例如,可以使用ARMA(自回归滑动平均模型)或ARIMA(自回归滑动平均差分模型)模型来分析线损的趋势和周期性变化,从中提取出线损的特征,并进行分类处理。
基于规则推导和专家系统这种方法基于专家知识和规则推导,通过定义一系列的规则和逻辑,对线损数据进行分类和判断。例如,可以根据用户类型、负荷变化规律、系统参数等因素,设计一套专家系统,通过推理和判断,对线损数据进行分类处理。
由于线损数据可能存在数据缺失、噪声、异常值等问题,这会影响特征提取和分类处理的准确性。线损数据中可能包含大量的特征,但不是所有特征都对分类处理具有重要影响。在线损数据中,正常情况的数据点可能远远超过异常情况的数据点,导致数据量不平衡。这会影响分类模型的训练和评估过程,可能导致对异常情况的分类效果较差。某些机器学习算法,如深度神经网络等黑盒模型,其分类结果具有很强的预测能力,但缺乏解释性。这使得无法深入理解分类结果背后的原因和机制。部分线损特征分类处理方法需要大量的计算和分析,并且对大规模数据的处理过程较为耗时。
因此,本申请提出了一种短期调荷场景下线损特征分类处理方法,以提高特征提取和分类处理的准确性。
本申请针对短期调荷场景下线损特征的分类,需要根据10kV配网特点,选取供电半径、负载率、用电比例、导线型号、有功电源功率、无功电源功率等六个指标对短期调荷场景下10kV配网线损数据进行分类。而K-Sums聚类算法具有算法参数少、优化速度快、可有效避免K-means算法出现空类等优点,所以先采用孤立森林方法对线损数据进行清洗,将异常值和空缺值分离;然后根据六个指标通过K-Sums聚类将数据进行聚类,对聚类结果进行处理与分析,综合得出短期调荷场景下线损的特征。根据线损特征可以对10kV配网进行实时监控,及时找出具有类似线损特征的区段,方便工作人员及时进行维护,提高线损精细化管理水平。
如图1至图4所示,本申请提出短期调荷场景下线损特征分类处理方法,包括:
步骤1数据采集,对10kV配网的线损数据进行采集;
选取供电半径、负载率、用电比例、导线型号、有功电源功率、无功电源功率等六个指标,对短期调荷场景下10kV配网线损数据进行分类;
通过SCADA(Supervisory Control and Data Acquisition,监测与数据采集控制系统)可以对供电系统进行实时监测和控制。通过连接到SCADA系统,可以采集供电半径、负载率、用电比例等指标数据;
供电半径:确定需要采集数据的供电线路或区域范围,使用GPS或地理信息系统(GIS)工具,测量或确定该供电范围的地理位置坐标。
负载率:安装电力负荷监测仪器(如电力负荷仪表),将其连接到10kV配电线路上,实时采集负荷数据。可以使用这些数据计算负载率。
用电比例:通过智能电表或子表来监测每个用户的用电情况。使用这些数据计算每个用户的用电比例,并结合供电范围的总用电数据,计算整个供电范围的用电比例。
导线型号:对于已安装的配网线路,可以通过现场查看或查阅相关记录,获取导线型号信息。对于新安装的线路,可以从供应商或设计人员处获取导线型号信息。
有功电源功率和无功电源功率:通过连接到10kV配电网的电力监测装置,实时监测供电点的有功和无功功率,并记录数据。
步骤2、采用孤立森林方法对线损数据进行清洗,将异常值和空缺值分离,得到分离后的线损数据;
S201数据准备:首先,将线损数据准备成一个特征矩阵,每一行代表一个样本,每一列代表一个特征。确保特征矩阵中没有缺失值。
S202构建孤立森林:使用孤立森林算法对准备好的特征矩阵进行训练,得到一个孤立森林模型。孤立森林通过将数据递归地分割成子空间,来建立一个无监督的异常检测模型。
S203计算异常分数:使用训练好的孤立森林模型,计算每个样本的异常分数。异常分数越高,说明该样本越可能是异常值。
S204设置阈值:根据异常分数的分布情况和需要过滤的异常值比例,设置一个合适的阈值。
S205分离异常值和空缺值:将异常分数与阈值进行对比,将异常分数大于阈值的样本标记为异常值;将异常分数等于1的样本标记为空缺值。
计算孤立树高度(h):
每个样本的模式长度按如下公式计算:
h(x)=c+2*(log(N-1)-E(h(n-1))) (1)
其中,x是样本,N是训练数据集中的样本数,h(n-1)是每次分割后的子树的平均高度,c是修正因子,通常取值0.5772156649。
计算异常分数(s)
异常分数可以通过平均路径长度(E(h(x)))转换得到:
s(x)=2^(-E(h(x))/c) (2)
其中,E(h(x))是样本x的平均路径长度,c是修正因子;
阈值(t):阈值可以通过训练数据集中的异常分数分布情况和需要过滤的异常值比例自定义设置。
通过上述过程,可以将线损数据清洗并分离出异常值和空缺值,使得数据更加准确和可靠。
步骤3、根据预设指标结合K-Sums聚类将分离后的线损数据进行聚类,得到聚类结果,所述预设指标包括供电半径、负载率、用电比例、导线型号、有功电源功率、无功电源功率;
所述的步骤3具体步骤如下:
S301数据准备:同样将六个指标(供电半径、负载率、用电比例、导线型号、有功电源功率、无功电源功率)作为特征,构建特征矩阵。确保特征矩阵中没有缺失值。
S302初始化聚类中心:从数据样本中随机选择K个样本作为初始的聚类中心,其中K是预先指定的类别数。
S303计算样本到聚类中心的距离:对于每个样本,计算它与每个聚类中心的距离。仍使用欧氏距离或曼哈顿距离作为距离度量方法。
S304分配样本到最近的聚类中心:将每个样本分配到距离最近的聚类中心所属的类别。
S305更新聚类中心:对于每个类别,计算该类别中所有样本与其他样本的距离之和,并选择最小和距离之和的样本作为新的聚类中心。
重复步骤4和5直至收敛:重复执行步骤4和5,直到聚类中心不再发生变化或达到预定的迭代次数。
S306聚类结果:得到最终的聚类结果,每个样本都属于其中一个聚类簇。
欧氏距离(Euclidean Distance):
对于样本x和聚类中心c的计算公式与K-Means中的公式相同:
d(x,c)=sqrt(sum((xi-ci)2)) (3)
其中,xi和ci分别表示样本x和聚类中心c对应的特征值。
曼哈顿距离(Manhattan Distance):
d(x,c)=sum(|xi-ci|) (4)
聚类中心更新(Cluster Center Update):
ci=argmin(sum(d(x,ci)))(i=1,2,3,...,n) (5)
其中,argmin()表示求使得括号内容最小的值,d(x,ci)是样本x与聚类中心ci的距离。
使用K-Sums聚类算法,可以根据六个指标将数据进行聚类,并分配到不同的聚类簇中。这样可以根据聚类结果对数据进行分析和管理。
步骤4、对聚类结果进行处理与分析,综合得出短期调荷场景下线损的特征。
所述的步骤4对聚类结果进行处理与分析,综合得出短期调荷场景下线损的特征。
在获得聚类结果后,可以对每个聚类簇进行处理和分析,并综合得出短期调荷场景下线损的特征。以下是对聚类结果进行处理和分析的一些方法:
S401描述性统计:对每个聚类簇的样本进行描述性统计分析,计算平均值、中位数、极差、方差等统计指标。这些统计指标可以提供有关每个聚类簇内样本的集中性、离散程度、分布情况等信息。
S402可视化分析:使用可视化工具(如散点图、柱状图、箱线图等)展示每个聚类簇内样本的数据分布和特征。这可以帮助观察聚类簇的差异性和相似性,并了解不同簇的线损特征。
S403特征重要性评估:对于每个聚类簇,可以使用特征重要性评估方法(如信息增益、方差分析等)来确定哪些指标对于区分不同聚类簇最为重要。这可以帮助识别短期调荷场景下线损的主要影响因素。
S404聚类簇比较与解释:比较不同聚类簇的特征和分布,寻找其差异性和共同特点。进一步解释每个聚类簇代表的线损特征,例如与供电半径、负载率、用电比例等指标之间的关系。这可以提供关于短期调荷场景下线损的整体认识。
S405数据挖掘与模式识别:应用数据挖掘和模式识别技术,探索聚类簇中潜在的规律、关联和异常情况。例如,使用关联规则挖掘寻找不同特征之间的关联性,或者使用异常检测方法检测异常情况。
本申请有益效果:
简单和高效:K-Sums算法相对于其他复杂的聚类算法来说比较简单,容易实施和理解。它具有较低的时间复杂度,适用于中小规模的数据集,可以快速处理和分析线损数据。
无监督学习:K-Sums算法是一种无监督学习算法,不需要事先标记样本的类别或进行人工干预。它通过计算样本之间的距离或相似度来划分数据,可以发现数据中潜在的模式和结构,对于线损特征的发现和分析非常有效。
聚类结果可解释性:K-Sums算法产生的聚类结果是具有解释性的。每个聚类簇代表了具有相似特征的样本群体,可以通过统计分析和可视化技术对聚类簇进行描述和解释,从而更好地理解短期调荷场景下线损的特征。
发现潜在关联和异常:K-Sums算法的聚类结果可以帮助挖掘潜在的关联和异常情况。通过对不同聚类簇的比较和分析,可以发现不同特征之间的关联性,或者发现与平均情况不符的异常情况。这对于制定相应的调控和优化策略有很大的帮助。
通过综合上述分析方法,可以从不同角度对短期调荷场景下线损的特征进行全面的理解。这样能够为制定相应的调控和优化策略提供有价值的信息。
实施例一:
假设从10kV配电网中采集线损数据,并以供电半径、负载率、用电比例、导线型号、有功电源功率和无功电源功率作为六个指标。以下是一个具体实施方式的例子:
数据采集:在10kV配电网中选择代表性的供电线路或区域,安装传感器或仪器设备,实时采集六个指标的数据。假设我们采集了以下数据:
供电半径(km):[15,20,12,18,16,10,22,17,14,13]
负载率(%):[80,70,75,90,85,65,95,80,75,70]
用电比例(%):[30,35,40,25,20,45,50,30,35,40]
导线型号:["A","B","A","C","B","C","D","A","B","C"]
有功电源功率(kW):[100,120,80,90,110,100,130,115,100,95]
无功电源功率(kVAR):[50,60,40,45,55,50,65,60,50,50]
数据准备:将以上数据整理为一个特征矩阵,得到一个10行6列的矩阵,每一行代表一个样本,每一列代表一个特征。
聚类算法选择:选择K-Sums聚类算法,并设置聚类簇的数量K为3。
聚类训练:使用K-Sums聚类算法对准备好的特征矩阵进行训练,得到聚类模型。
聚类结果分析:
描述性统计:计算每个聚类簇的平均值、标准差、最大值、最小值等统计指标。
假设我们得到以下聚类结果:
聚类簇1:样本1,样本3,样本6,样本9;
聚类簇2:样本2,样本5,样本8;
聚类簇3:样本4,样本7,样本10;
每个聚类簇的特征值分布如下:
聚类簇1:供电半径:[15,12,10,14];负载率:[80,75,65,75];用电比例:[30,40,45,35];导线型号:["A","A","C","B"];有功电源功率:[100,80,100,100];无功电源功率:[50,40,50,50];
聚类簇2:供电半径:[20,16,17];负载率:[70,85,80];用电比例:[35,20,35];导线型号:["B","B","A"];有功电源功率:[120,110,115];无功电源功率:[60,55,60];
聚类簇3:供电半径:[18,22,13];负载率:[90,95,70];用电比例:[25,50,40];导线型号:["C","D","C"];有功电源功率:[90,130,95];无功电源功率:[45,65,50];
可视化分析:使用散点图、箱线图等可视化工具展示不同聚类簇的数据分布情况。例如,可以绘制负载率和有功电源功率之间的散点图,不同聚类簇用不同颜色或符号表示。
特征重要性评估:使用特征重要性评估方法,比如方差分析,确定哪些指标对于区分不同聚类簇最为重要。例如,可以计算每个指标在不同聚类簇之间的方差,进而判断其重要性。
综合特征分析:根据描述性统计、可视化分析和特征重要性评估的结果,综合得出短期调荷场景下线损的特征。例如,可以发现供电半径和有功电源功率两个指标在不同聚类簇之间的差异较大,可以推测这两个指标对于线损的影响较为显著。
结果应用与调优策略:基于上述分析,可以制定相应的调控和优化策略。例如,在聚类簇1中,受供电半径较小和导线型号"A"影响,可以考虑对该区域进行线路改造或容量扩展,以减少线损。
由以上实施例可知,本申请提供一种短期调荷场景下线损特征分类处理方法,包括:对10kV配网的线损数据进行采集;采用孤立森林方法对所述线损数据进行清洗,将异常值和空缺值分离,得到分离后的线损数据;根据预设指标结合K-Sums聚类将分离后的线损数据进行聚类,得到聚类结果,所述预设指标包括供电半径、负载率、用电比例、导线型号、有功电源功率、无功电源功率;对所述聚类结果进行处理与分析,得到短期调荷场景下线损特征通过统计分析和可视化技术对聚类簇进行描述和解释,从而更好地理解短期调荷场景下线损的特征。通过统计分析和可视化技术对聚类簇进行描述和解释,从而更好地理解短期调荷场景下线损的特征。通过对不同聚类簇的比较和分析,可以发现不同特征之间的关联性,或者发现与平均情况不符的异常情况。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
Claims (8)
1.一种短期调荷场景下线损特征分类处理方法,其特征在于,包括:
对10kV配网的线损数据进行采集;
采用孤立森林方法对所述线损数据进行清洗,将异常值和空缺值分离,得到分离后的线损数据;
根据预设指标结合K-Sums聚类将分离后的线损数据进行聚类,得到聚类结果,所述预设指标包括供电半径、负载率、用电比例、导线型号、有功电源功率、无功电源功率;
对所述聚类结果进行处理与分析,得到短期调荷场景下线损特征。
2.根据权利要求1所述的短期调荷场景下线损特征分类处理方法,其特征在于,采用孤立森林方法对所述线损数据进行清洗,将异常值和空缺值分离,得到分离后的线损数据包括:
将线损数据特征转换为特征矩阵,其中每一行代表一个样本,每一列代表一个特征;
使用孤立森林算法对所述特征矩阵进行训练,得到训练好的孤立森林模型;
使用训练好的孤立森林模型,计算每个样本的异常分数,其中异常分数与所述样本异常成正比;
根据异常分数的分布情况和过滤的异常值比例,设置阈值;
将异常分数与阈值进行对比,将异常分数大于阈值的样本标记为异常值;将异常分数等于1的样本标记为空缺值;
将异常值和空缺值分离,得到分离后的线损数据。
3.根据权利要求2所述的短期调荷场景下线损特征分类处理方法,其特征在于,计算每个样本的异常分数包括:
根据样本计算每个样本的模式长度;其中每个样本的模式长度根据公式(1)计算:
h(x)=c+2*(log(N-1)-E(h(n-1))) (1)
其中,x是样本,N是训练数据集中的样本数,h(n-1)是每次分割后的子树的平均高度,c是修正因子,h为孤立树高度;
基于孤立树高度计算得到异常分数;其中,异常分数可以通过公式(2)得到:
s(x)=2^(-E(h(x))/c) (2)
其中,E(h(x))是样本x的平均路径长度,c是修正因子。
4.根据权利要求1所述的短期调荷场景下线损特征分类处理方法,其特征在于,根据预设指标结合K-Sums聚类将分离后的线损数据进行聚类,得到聚类结果包括:
将预设指标作为特征,构建特征矩阵;
从数据样本中随机选择K个样本作为初始的聚类中心,其中K是预先指定的类别数;
计算每个样本与每个聚类中心的距离;
将每个样本分配到与其距离最近的聚类中心所属的类别;
对于每个类别,计算该类别中所有样本与其他样本的距离之和,并选择最小和距离之和的样本作为新的聚类中心;
得到最终的聚类结果,其中每个样本均属于其中一个聚类簇。
5.根据权利要求4所述的短期调荷场景下线损特征分类处理方法,其特征在于,使用欧氏距离计算每个样本与每个聚类中心的距离,其中,根据公式(3)计算:
d(x,c)=sqrt(sum((xi-ci)2)) (3)
其中,xi和ci分别表示样本x和聚类中心c对应的特征值。
6.根据权利要求4所述的短期调荷场景下线损特征分类处理方法,其特征在于,使用曼哈顿距离计算每个样本与每个聚类中心的距离,其中,根据公式(4)和(5)计算:
d(x,c)=sum(|xi-ci|) (4)
ci=argmin(sum(d(x,ci))) (i=1,2,3,...,n) (5)
其中,argmin()表示求使得括号内容最小的值,d(x,ci)是样本x与聚类中心ci的距离。
7.根据权利要求4所述的短期调荷场景下线损特征分类处理方法,其特征在于,重复执行将每个样本分配到与其距离最近的聚类中心所属的类别以及对于每个类别,计算该类别中所有样本与其他样本的距离之和,直至聚类中心不再发生变化或达到预定的迭代次数。
8.根据权利要求1所述的短期调荷场景下线损特征分类处理方法,其特征在于,对所述聚类结果进行处理与分析,得到短期调荷场景下线损特征包括:
对每个聚类簇的样本进行描述性统计分析,计算统计指标,其中所述统计指标包括:平均值、中位数、极差、方差;
使用可视化工具展示每个聚类簇内样本的数据分布和特征;
对于每个聚类簇,使用特征重要性评估方法来确定哪些指标对于区分不同聚类簇重要;
比较不同聚类簇的特征和分布,得到短期调荷场景下线损特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310952918.5A CN116975670A (zh) | 2023-07-31 | 2023-07-31 | 一种短期调荷场景下线损特征分类处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310952918.5A CN116975670A (zh) | 2023-07-31 | 2023-07-31 | 一种短期调荷场景下线损特征分类处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116975670A true CN116975670A (zh) | 2023-10-31 |
Family
ID=88477765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310952918.5A Pending CN116975670A (zh) | 2023-07-31 | 2023-07-31 | 一种短期调荷场景下线损特征分类处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975670A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118137482A (zh) * | 2024-03-07 | 2024-06-04 | 四川大学 | 一种基于光伏机组出力异常数据清洗的发电功率预测方法 |
-
2023
- 2023-07-31 CN CN202310952918.5A patent/CN116975670A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118137482A (zh) * | 2024-03-07 | 2024-06-04 | 四川大学 | 一种基于光伏机组出力异常数据清洗的发电功率预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106709662B (zh) | 一种电力设备运行工况划分方法 | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN111340063B (zh) | 一种磨煤机数据异常检测方法 | |
CN110458230A (zh) | 一种基于多判据融合的配变用采数据异常甄别方法 | |
CN110837866A (zh) | 基于XGBoost的电力二次设备缺陷程度评估方法 | |
CN110750524A (zh) | 一种有源配电网故障特征的确定方法及系统 | |
CN111950585A (zh) | 一种基于XGBoost的地下综合管廊安全状况评估方法 | |
CN109670676A (zh) | 基于支持向量数据描述的配网台区风险预警方法及系统 | |
Jiang et al. | A family of joint sparse PCA algorithms for anomaly localization in network data streams | |
CN110969556A (zh) | 机器学习多维度多模型融合河道水质异常检测方法及装置 | |
CN111339297A (zh) | 网络资产异常检测方法、系统、介质和设备 | |
CN108334894B (zh) | 基于无监督机器学习的变压器油温异常识别方法 | |
CN113125903A (zh) | 线损异常检测方法、装置、设备及计算机可读存储介质 | |
CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及系统 | |
CN110297207A (zh) | 智能电表的故障诊断方法、系统及电子装置 | |
CN116975670A (zh) | 一种短期调荷场景下线损特征分类处理方法 | |
CN113792754A (zh) | 一种先除异后修复的换流变dga在线监测数据处理方法 | |
CN101738998A (zh) | 一种基于局部判别分析的工业过程监测系统及方法 | |
CN114201374A (zh) | 基于混合机器学习的运维时序数据异常检测方法及系统 | |
CN115021679A (zh) | 一种基于多维离群点检测的光伏设备故障检测方法 | |
CN114416423B (zh) | 一种基于机器学习的根因定位方法和系统 | |
CN115034671A (zh) | 基于关联规则与聚类的二次系统信息故障分析方法 | |
CN114443338A (zh) | 面向稀疏负样本的异常检测方法、模型构建方法及装置 | |
CN114597886A (zh) | 基于区间二型模糊聚类分析的配电网运行状态评估方法 | |
CN117540317A (zh) | 基于余弦相似度与孤立森林的配网异常线变关系辨识方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |