CN113469500A - 一种行业用电大数据特征分析方法及装置 - Google Patents

一种行业用电大数据特征分析方法及装置 Download PDF

Info

Publication number
CN113469500A
CN113469500A CN202110629487.XA CN202110629487A CN113469500A CN 113469500 A CN113469500 A CN 113469500A CN 202110629487 A CN202110629487 A CN 202110629487A CN 113469500 A CN113469500 A CN 113469500A
Authority
CN
China
Prior art keywords
data
industrial
matrix
power consumption
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110629487.XA
Other languages
English (en)
Inventor
方力谦
严玉婷
钟田勇
罗陆宁
黄媚
李扬
张月英
李燕
李志华
罗益会
潘柳
石龙燕
姜琳杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Bureau Co Ltd
Original Assignee
Shenzhen Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Bureau Co Ltd filed Critical Shenzhen Power Supply Bureau Co Ltd
Priority to CN202110629487.XA priority Critical patent/CN113469500A/zh
Publication of CN113469500A publication Critical patent/CN113469500A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开一种行业用电大数据特征分析方法及装置,其中,行业用电大数据特征分析方法包括:步骤S1,确定行业用电负荷数据;步骤S2,对所述行业用电负荷数据进行预处理和标准化,获得行业用电负荷数据的标准化数据样本;步骤S3,根据近邻传播AP聚类算法对所述标准化数据样本进行数据分析和特征提取,分析行业用电特性。本发明采用AP聚类算法对行业用电数据进行相似度度量、特征分析及聚类,并与传统k‑means聚类算法进行结果比对,从测试结果显示AP聚类算法应用于行业用电大数据特征提取和数据分析中优于传统的k‑means聚类算法,具有实用价值和广泛应用前景。

Description

一种行业用电大数据特征分析方法及装置
技术领域
本发明涉及大数据分析及其聚类技术领域,尤其涉及一种行业用电大数据特征分析方法及装置。
背景技术
随着社会的不断发展与进步,各类能源用户不断增加,用电信息量巨大,而且一般存在错误的异常数据相比之下非常少,若对每一个数据都进行距离计算,所涉及的计算量十分庞大。因此,在对数据进行距离计算前,通过区域划分将数据集划分为若干个不相交的子数据集,然后对这些子数据集进行数据分析、特征提取和判定,对于明显不含有异常数据的子集则将其剪枝,不进行后续的距离计算。
聚类分析是基于相似性对数据进行分类的一种方法,利用聚类分析可将数据集划分为若干个区域。但是对于大部分聚类算法,其算法的复杂度通常与输入数据集的数据总量的平方正相关,而此处分析的数据总量很大,如此一来,会在聚类分析这一步消耗大量时间和存储空间,节省计算量的效果将会大打折扣。
特征提取,具体来说,样品指标(变量)之间存在程度不同的相似性,根据一批样品的多个观测指标(变量),具体找出一些能够度量指标(变量)之间相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大指标(变量)的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另一类,直到把所有的样品聚合完毕。
目前常用的聚类分析方法主要有以下四种分类,(1)基于聚类特征概括的方法:对规模庞大到不能一次性读入内存的原始数据集,可以先识别,归纳出其中的某些数据对象,降低其对内存的占用,从而完成大规模数据的聚类分析,经典的方法有利用层次法的平衡迭代归纳聚类算法;(2)基于密度聚类的方法:判断哪个区域中的点很密,其密度超过了设定的阈值,那么就把这个区域中的点归为一类。这种算法的优点是可以找到任意形状的簇,并且对噪声不敏感。DBSCAN是一种典型的基于密度聚类的算法,不仅能够消除数据集中的噪声,也能够发现任意几何结构的簇。(3)基于采样聚类的方法:如果不能一次完全读原始数据到内存中,那么可以以某种方式采样对原始数据集进行处理,用样本点代表原始数据集,利用样本点聚类大规模数据。(4)基于约束信息的半监督聚类方法:一种用约束信息来监督聚类的搜索过程,根据半监督的思想,用少量的标签数据或部分约束信息指引聚类过程的进行,从而高效地完成大规模数据的聚类。
应用聚类技术来获得一组“集群化”和有代表性的场景是非常必要的。具体来说,k-means算法非常简单,在实际问题中得到了广泛应用,比如风电预测和负荷估计等。但是,它对初始分区非常敏感,并且非常依赖于聚类的数量。
发明内容
本发明所要解决的技术问题在于,提供一种行业用电大数据特征分析方法及装置,以提高数据特征分析的性能。
为了解决上述技术问题,本发明实施例提供一种行业用电大数据特征分析方法,包括:
步骤S1,确定行业用电负荷数据;
步骤S2,对所述行业用电负荷数据进行预处理和标准化,获得行业用电负荷数据的标准化数据样本;
步骤S3,根据近邻传播AP聚类算法对所述标准化数据样本进行数据分析和特征提取,分析行业用电特性。
进一步地,所述步骤S2对所述行业用电负荷数据进行预处理和标准化具体包括:
步骤S21,对生成的行业用电负荷数据样本按下述方式进行标准化处理:
Figure BDA0003103074030000021
其中,xmax=max(xi),i=1,2,...,n,xmax表示某一组数据中的最大值,xi表示某一组数据的第i个样本数据,n表示某组样本的总数量,max(·)表示取最大值函数,zi表示经过标准化处理后的某组数据的第i个标准化样本;
步骤S22,对标准化数据样本中每一类行业用电负荷数据进行降序排列处理。
进一步地,所述步骤S3具体包括:
步骤S31,根据步骤S2得到的标准化数据样本,计算相似矩阵s(i,k),s(i,k)表示数据点k适合作为数据点i的榜样的程度:
s(i,k)=-||zi-zk2
步骤S32,生成职责矩阵r(i,k)和可用性矩阵a(i,k),r(i,k)表示每个数据点i对候选榜样k比对其他候选榜样k'的偏爱程度,a(i,k)表示每个候选榜样k作为数据点i的集群中心的可用程度;
步骤S33,根据步骤S31获得的相似矩阵s(i,k)以及上一代的可用性矩阵at(i,k′),更新下一代的职责矩阵rt+1(i,k):
Figure BDA0003103074030000031
步骤S34,根据步骤S33获得的职责矩阵rt+1(i,k)更新下一代的可用性矩阵at+1(i,k):
Figure BDA0003103074030000032
Figure BDA0003103074030000033
步骤S35,在迭代计算r(i,k)和a(i,k)的过程中引入衰减因子λ:
rt+1(i,k)←(1-λ)rt+1(i,k)+λrt(i,k)
at+1(i,k)←(1-λ)at+1(i,k)+λat(i,k)
步骤S36,重复步骤S33-S35,直到r(i,k)和a(i,k)稳定,或者达到最大迭代次数。
本发明还提供一种行业用电大数据特征分析装置,包括:
确定模块,用于确定行业用电负荷数据;
预处理和标准化模块,用于对所述行业用电负荷数据进行预处理和标准化,获得行业用电负荷数据的标准化数据样本;
聚类模块,用于根据近邻传播AP聚类算法对所述标准化数据样本进行数据分析和特征提取,分析行业用电特性。
进一步地,所述预处理和标准化模块对所述行业用电负荷数据进行预处理和标准化的具体方式为:
对生成的行业用电负荷数据样本按下述方式进行标准化处理:
Figure BDA0003103074030000041
其中,xmax=max(xi),i=1,2,...,n,xmax表示某一组数据中的最大值,xi表示某一组数据的第i个样本数据,n表示某组样本的总数量,max(·)表示取最大值函数,zi表示经过标准化处理后的某组数据的第i个标准化样本;
对标准化数据样本中每一类行业用电负荷数据进行降序排列处理。
进一步地,所述聚类模块具体包括:
第一计算单元,用于根据标准化数据样本计算相似矩阵s(i,k),s(i,k)表示数据点k适合作为数据点i的榜样的程度:
s(i,k)=-‖zi-zk2
生成单元,用于生成职责矩阵r(i,k)和可用性矩阵a(i,k),r(i,k)表示每个数据点i对候选榜样k比对其他候选榜样k'的偏爱程度,a(i,k)表示每个候选榜样k作为数据点i的集群中心的可用程度;
第一更新单元,用于根据相似矩阵s(i,k)以及上一代的可用性矩阵at(i,k′),更新下一代的职责矩阵rt+1(i,k):
Figure BDA0003103074030000042
第二更新单元,用于根据下一代的职责矩阵rt+1(i,k)更新下一代的可用性矩阵at+1(i,k):
Figure BDA0003103074030000043
Figure BDA0003103074030000044
衰减因子单元,用于在迭代计算r(i,k)和a(i,k)的过程中引入衰减因子λ:
rt+1(i,k)←(1-λ)rt+1(i,k)+λrt(i,k)
at+1(i,k)←(1-λ)at+1(i,k)+λat(i,k)
迭代计算单元,用于迭代计算,直到r(i,k)和a(i,k)稳定,或者达到最大迭代次数。
本发明实施例的有益效果在于:本发明以邻近传播聚类方法为理论基础,是一种科学而且易行的聚类分析方案,具有显著的工程实用价值和广泛的应用前景;本发明相比于k-means聚类,基于相同的指标,其分组数少于k-means聚类方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一一种行业用电大数据特征分析方法的流程示意图。
图2是本发明实施例一一种行业用电大数据特征分析方法的具体流程示意图。
具体实施方式
以下各实施例的说明是参考附图,用以示例本发明可以用以实施的特定实施例。
请参照图1所示,本发明实施例一提供一种行业用电大数据特征分析方法,包括:
步骤S1,确定行业用电负荷数据;
步骤S2,对所述行业用电负荷数据进行预处理和标准化,获得行业用电负荷数据的标准化数据样本;
步骤S3,根据近邻传播(Affinity Propagation,AP)聚类算法对所述标准化数据样本进行数据分析和特征提取,分析行业用电特性。
具体地,请结合图2所示,步骤S2中预处理及标准化样本具体过程如下:
步骤S21,对生成的行业用电负荷数据样本进行标准化处理,其数学描述如下:
Figure BDA0003103074030000051
其中,xmax=max(xi),i=1,2,...,n,xmax表示某一组数据中的最大值,xi表示某一组数据的第i个样本数据,n表示某组样本的总数量,max(·)表示取最大值函数,zi表示经过标准化处理后的某组数据的第i个标准化样本。
步骤S22,对标准化数据样本中每一类行业用电负荷数据进行降序排列处理。
进一步地,步骤S3具体包括:
步骤S31,根据步骤S2得到的标准化数据样本,计算相似矩阵s(i,k),s(i,k)表示数据点k适合作为数据点i的榜样的程度,通常设置为负的平方误差(欧氏距离),其数学描述如下:
s(i,k)=-||zi-zk2
步骤S32,初始化算法:生成职责矩阵r(i,k)和可用性矩阵a(i,k),r(i,k)表示每个数据点i对候选榜样k比对其他候选榜样k'的偏爱程度;a(i,k)表示每个候选榜样k作为数据点i的集群中心的可用程度。
步骤S33,更新职责矩阵:步骤S31所获得的s(i,k)以及上一代的可用性矩阵at(i,k′)用于更新下一代的职责矩阵rt+1(i,k),其数学描述如下所示:
Figure BDA0003103074030000061
步骤S34,更新可用性矩阵:根据步骤S33所获得的职责矩阵rt+1(i,k)更新下一代的可用性矩阵at+1(i,k),计算过程如下:
Figure BDA0003103074030000062
Figure BDA0003103074030000063
步骤S35,引入衰减因子λ:为避免在迭代计算过程中r(i,k)和a(i,k)出现震荡现象,故引入衰减因子λ,其数学描述如下所示:
rt+1(i,k)←(1-λ)rt+1(i,k)+λrt(i,k)
at+1(i,k)←(1-λ)at+1(i,k)+λat(i,k)
步骤S36,重复步骤S33-S35,直到r(i,k)和a(i,k)稳定,或者达到最大迭代次数。
进一步地,步骤S3基于AP聚类算法获得最终的聚类结果,并进行各类行业用电数据的特征提取及数据分析,分析各行业的用电特性。
以下以某地区电网两种类型的真实数据为仿真对象来具体说明本实施例的行业用电大数据特征分析方法。
首先确定行业用电负荷数据,两组数据分别是:一组为8760个小时的某一真实负荷数据,一组为8760个小时的某一风力发电站的真实出力数据。
然后对用电负荷数据进行预处理和标准化。
对预处理和标准化后的数据样本,根据AP聚类算法对数据进行数据分析和特征提取:
首先,根据样本数据计算s(i,k),通常设置为负的平方误差(欧氏距离),其计算方式如下:
s(i,k)=-‖zi-zk2
其次,初始化r(i,k)和a(i,k),然后利用相似矩阵s(i,k)和上一代的at(i,k′)来更新下一代的职责矩阵rt+1(i,k),以及基于rt+1(i,k)更新下一代的可用性矩阵at+1(i,k)。更新的数学表达式如下所示:
Figure BDA0003103074030000071
Figure BDA0003103074030000072
Figure BDA0003103074030000073
接着,为了避免在迭代计算过程中出现震荡现象,引入衰减因子λ,具体实现如下所示:
rt+1(i,k)←(1-λ)rt+1(i,k)+λrt(i,k)
at+1(i,k)←(1-λ)at+1(i,k)+λat(i,k)
继续循环步骤S3的过程,直至达到最大收敛次数或者r(i,k)和a(i,k)稳定。
本实施例中基于AP聚类算法的行业用电大数据特征分析方法与传统的基于k-means聚类方法进行比对,其中基于k-means聚类方法在本实施例中设置为120组。而计算结果显示,两组样本共2×8760数据被本实施例基于AP聚类算法的行业用电大数据特征分析方法分为82组。
为了评估AP聚类的表现,从MATLAB的evalclusters函数中选取三个评估指标作为对比,如表1所示。不失一般性,基于k-means聚类方法增加了两个算例比对,分别为组数82组算例(与本发明方法分类组数相同)和分组组数为60组的算例(少于与本发明方法分类组数)。结果如表1所示:
表1 AP聚类和k-means聚类的对比结果
Figure BDA0003103074030000081
指标CH等于簇间距离除以簇内邻近度。因此,CH越大,簇内元素越接近,簇间元素越分散。指标DB计算数据簇间的相似度,DB越低,聚类结果越好。指标Sil度量元素与其集群之间的相似性。较高的Sil表明元素更强烈地倾向于它们当前的集群。如表1所示,k-means聚类分组为120组是k-means聚类结果中最优的,而AP聚类的分组数目仅为82组,且无需提前确定聚类数目。由上可知,本发明的基于AP聚类算法的行业用电大数据特征分析方法的性能优于k-means。
相应于本发明实施例一一种行业用电大数据特征分析方法,本发明实施例二提供一种行业用电大数据特征分析装置,包括:
确定模块,用于确定行业用电负荷数据;
预处理和标准化模块,用于对所述行业用电负荷数据进行预处理和标准化,获得行业用电负荷数据的标准化数据样本;
聚类模块,用于根据近邻传播AP聚类算法对所述标准化数据样本进行数据分析和特征提取,分析行业用电特性。
进一步地,所述预处理和标准化模块对所述行业用电负荷数据进行预处理和标准化的具体方式为:
对生成的行业用电负荷数据样本按下述方式进行标准化处理:
Figure BDA0003103074030000082
其中,xmax=max(xi),i=1,2,...,n,xmax表示某一组数据中的最大值,xi表示某一组数据的第i个样本数据,n表示某组样本的总数量,max(·)表示取最大值函数,zi表示经过标准化处理后的某组数据的第i个标准化样本;
对标准化数据样本中每一类行业用电负荷数据进行降序排列处理。
进一步地,所述聚类模块具体包括:
第一计算单元,用于根据标准化数据样本计算相似矩阵s(i,k),s(i,k)表示数据点k适合作为数据点i的榜样的程度:
s(i,k)=-||zi-zk||2
生成单元,用于生成职责矩阵r(i,k)和可用性矩阵a(i,k),r(i,k)表示每个数据点i对候选榜样k比对其他候选榜样k'的偏爱程度,a(i,k)表示每个候选榜样k作为数据点i的集群中心的可用程度;
第一更新单元,用于根据相似矩阵s(i,k)以及上一代的可用性矩阵at(i,k′),更新下一代的职责矩阵rt+1(i,k):
Figure BDA0003103074030000091
第二更新单元,用于根据下一代的职责矩阵rt+1(i,k)更新下一代的可用性矩阵at+1(i,k):
Figure BDA0003103074030000092
Figure BDA0003103074030000093
衰减因子单元,用于在迭代计算r(i,k)和a(i,k)的过程中引入衰减因子λ:
rt+1(i,k)←(1-λ)rt+1(i,k)+λrt(i,k)
at+1(i,k)←(1-λ)at+1(i,k)+λat(i,k)
迭代计算单元,用于迭代计算,直到r(i,k)和a(i,k)稳定,或者达到最大迭代次数。
有关本实施例的工作原理及过程,请参照前述实施例一的说明,此处不再赘述。
综上所述,相比于现有技术,本发明实施例带来的有益效果在于:本发明以邻近传播聚类方法为理论基础,是一种科学而且易行的聚类分析方案,具有显著的工程实用价值和广泛的应用前景;本发明相比于k-means聚类,基于相同的指标,其分组数少于k-means聚类方法。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (6)

1.一种行业用电大数据特征分析方法,其特征在于,包括:
步骤S1,确定行业用电负荷数据;
步骤S2,对所述行业用电负荷数据进行预处理和标准化,获得行业用电负荷数据的标准化数据样本;
步骤S3,根据近邻传播AP聚类算法对所述标准化数据样本进行数据分析和特征提取,分析行业用电特性。
2.根据权利要求1所述的行业用电大数据特征分析方法,其特征在于,所述步骤S2对所述行业用电负荷数据进行预处理和标准化具体包括:
步骤S21,对生成的行业用电负荷数据样本按下述方式进行标准化处理:
Figure FDA0003103074020000011
其中,xmax=max(xi),i=1,2,...,n,xmax表示某一组数据中的最大值,xi表示某一组数据的第i个样本数据,n表示某组样本的总数量,max(·)表示取最大值函数,zi表示经过标准化处理后的某组数据的第i个标准化样本;
步骤S22,对标准化数据样本中每一类行业用电负荷数据进行降序排列处理。
3.根据权利要求2所述的行业用电大数据特征分析方法,其特征在于,所述步骤S3具体包括:
步骤S31,根据步骤S2得到的标准化数据样本,计算相似矩阵s(i,k),s(i,k)表示数据点k适合作为数据点i的榜样的程度:
s(i,k)=-||zi-zk||2
步骤S32,生成职责矩阵r(i,k)和可用性矩阵a(i,k),r(i,k)表示每个数据点i对候选榜样k比对其他候选榜样k'的偏爱程度,a(i,k)表示每个候选榜样k作为数据点i的集群中心的可用程度;
步骤S33,根据步骤S31获得的相似矩阵s(i,k)以及上一代的可用性矩阵at(i,k′),更新下一代的职责矩阵rt+1(i,k):
Figure FDA0003103074020000012
步骤S34,根据步骤S33获得的职责矩阵rt+1(i,k)更新下一代的可用性矩阵at+1(i,k):
Figure FDA0003103074020000021
Figure FDA0003103074020000022
步骤S35,在迭代计算r(i,k)和a(i,k)的过程中引入衰减因子λ:
rt+1(i,k)←(1-λ)rt+1(i,k)+λrt(i,k)
at+1(i,k)←(1-λ)at+1(i,k)+λat(i,k)
步骤S36,重复步骤S33-S35,直到r(i,k)和a(i,k)稳定,或者达到最大迭代次数。
4.一种行业用电大数据特征分析装置,其特征在于,包括:
确定模块,用于确定行业用电负荷数据;
预处理和标准化模块,用于对所述行业用电负荷数据进行预处理和标准化,获得行业用电负荷数据的标准化数据样本;
聚类模块,用于根据近邻传播AP聚类算法对所述标准化数据样本进行数据分析和特征提取,分析行业用电特性。
5.根据权利要求4所述的行业用电大数据特征分析装置,其特征在于,所述预处理和标准化模块对所述行业用电负荷数据进行预处理和标准化的具体方式为:
对生成的行业用电负荷数据样本按下述方式进行标准化处理:
Figure FDA0003103074020000023
其中,xmax=max(xi),i=1,2,...,n,xmax表示某一组数据中的最大值,xi表示某一组数据的第i个样本数据,n表示某组样本的总数量,max(·)表示取最大值函数,zi表示经过标准化处理后的某组数据的第i个标准化样本;
对标准化数据样本中每一类行业用电负荷数据进行降序排列处理。
6.根据权利要求5所述的行业用电大数据特征分析装置,其特征在于,所述聚类模块具体包括:
第一计算单元,用于根据标准化数据样本计算相似矩阵s(i,k),s(i,k)表示数据点k适合作为数据点i的榜样的程度:
s(i,k)=-||zi-zk||2
生成单元,用于生成职责矩阵r(i,k)和可用性矩阵a(i,k),r(i,k)表示每个数据点i对候选榜样k比对其他候选榜样k'的偏爱程度,a(i,k)表示每个候选榜样k作为数据点i的集群中心的可用程度;
第一更新单元,用于根据相似矩阵s(i,k)以及上一代的可用性矩阵at(i,k′),更新下一代的职责矩阵rt+1(i,k):
Figure FDA0003103074020000031
第二更新单元,用于根据下一代的职责矩阵rt+1(i,k)更新下一代的可用性矩阵at+1(i,k):
Figure FDA0003103074020000032
Figure FDA0003103074020000033
衰减因子单元,用于在迭代计算r(i,k)和a(i,k)的过程中引入衰减因子λ:
rt+1(i,k)←(1-λ)rt+1(i,k)+λrt(i,k)
at+1(i,k)←(1-λ)at+1(i,k)+λat(i,k)
迭代计算单元,用于迭代计算,直到r(i,k)和a(i,k)稳定,或者达到最大迭代次数。
CN202110629487.XA 2021-06-07 2021-06-07 一种行业用电大数据特征分析方法及装置 Pending CN113469500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110629487.XA CN113469500A (zh) 2021-06-07 2021-06-07 一种行业用电大数据特征分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110629487.XA CN113469500A (zh) 2021-06-07 2021-06-07 一种行业用电大数据特征分析方法及装置

Publications (1)

Publication Number Publication Date
CN113469500A true CN113469500A (zh) 2021-10-01

Family

ID=77872311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110629487.XA Pending CN113469500A (zh) 2021-06-07 2021-06-07 一种行业用电大数据特征分析方法及装置

Country Status (1)

Country Link
CN (1) CN113469500A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446967A (zh) * 2016-10-28 2017-02-22 国网福建省电力有限公司 一种新型电力系统负荷曲线聚类方法
CN107274025A (zh) * 2017-06-21 2017-10-20 国网山东省电力公司诸城市供电公司 一种实现用电模式智能识别与管理的系统和方法
CN107767293A (zh) * 2017-09-20 2018-03-06 国网浙江省电力公司电力科学研究院 一种基于改进AP和K‑means聚类的电力大用户细分方法
CN108280479A (zh) * 2018-01-25 2018-07-13 重庆大学 一种基于负荷特性指标加权聚类算法的电网用户分类方法
CN111612650A (zh) * 2020-05-27 2020-09-01 福州大学 一种基于dtw距离和近邻传播聚类算法的电力用户分群方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446967A (zh) * 2016-10-28 2017-02-22 国网福建省电力有限公司 一种新型电力系统负荷曲线聚类方法
CN107274025A (zh) * 2017-06-21 2017-10-20 国网山东省电力公司诸城市供电公司 一种实现用电模式智能识别与管理的系统和方法
CN107767293A (zh) * 2017-09-20 2018-03-06 国网浙江省电力公司电力科学研究院 一种基于改进AP和K‑means聚类的电力大用户细分方法
CN108280479A (zh) * 2018-01-25 2018-07-13 重庆大学 一种基于负荷特性指标加权聚类算法的电网用户分类方法
CN111612650A (zh) * 2020-05-27 2020-09-01 福州大学 一种基于dtw距离和近邻传播聚类算法的电力用户分群方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
彭远新: "《地理学定量方法与应用》", 31 May 2020, 北京理工大学出版社, pages: 111 - 112 *
郭崇慧: "《大数据与中国古村落保护》", 30 June 2017, 华南理工大学出版社, pages: 118 - 122 *

Similar Documents

Publication Publication Date Title
CN109461025B (zh) 一种基于机器学习的电能替代潜在客户预测方法
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
CN111681132B (zh) 适用于海量类别不平衡负荷数据的典型用电模式提取方法
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
CN110263834B (zh) 一种新能源电能质量异常值的检测方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN111950620A (zh) 基于DBSCAN和K-means算法的用户筛选方法
CN116821832A (zh) 针对高压工商业用户用电负荷的异常数据辨识与修正方法
CN112001441A (zh) 一种基于Kmeans-AHC混合聚类算法的配电网线损异常检测方法
CN111562541A (zh) 一种应用cart算法实现电能表检测数据管理的软件平台
Li et al. Time series prediction of wireless network traffic flow based on wavelet analysis and BP neural network
CN117688362A (zh) 基于多元数据特征增强的光伏功率区间预测方法及装置
CN117609818A (zh) 基于聚类与信息熵的电网关联关系发现方法
CN111090679B (zh) 基于时序影响和图嵌入的时序数据表示学习方法
CN113469500A (zh) 一种行业用电大数据特征分析方法及装置
Gavagsaz Efficient parallel processing of k-nearest neighbor queries by using a centroid-based and hierarchical clustering algorithm
Gong In-depth data mining method of network shared resources based on k-means clustering
CN114118812A (zh) 基于改进模糊均值聚类的水电站能效分析评价方法及装置
Chen et al. Clustering without prior knowledge based on gene expression programming
RongQi et al. Research of Power User Load Classification Method Based on K-means and FSVM
CN111310842A (zh) 一种密度自适应的快速聚类方法
Zhul et al. A fast quantum clustering approach for cancer gene clustering
CN113723835B (zh) 火电厂用水评估方法和终端设备
Luo et al. Research on the anonymous customer segmentation model of telecom
Suhaeri et al. Evaluation of clustering approach with euclidean and Manhattan distance for outlier detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination