CN115545107B - 一种基于海量电力数据的云计算方法、系统 - Google Patents
一种基于海量电力数据的云计算方法、系统 Download PDFInfo
- Publication number
- CN115545107B CN115545107B CN202211225416.4A CN202211225416A CN115545107B CN 115545107 B CN115545107 B CN 115545107B CN 202211225416 A CN202211225416 A CN 202211225416A CN 115545107 B CN115545107 B CN 115545107B
- Authority
- CN
- China
- Prior art keywords
- power data
- data object
- distance
- data set
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 25
- 238000009826 distribution Methods 0.000 claims description 12
- 238000007418 data mining Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 19
- 238000005065 mining Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种基于海量电力数据的云计算方法、系统,由于初始聚类中心的选取对聚类效果影响十分明显,随机选取初始聚类中心缺乏科学性,当初始的聚类中心点选择为同一类时,聚类效果不理想。因此,通过对电力数据集进行处理,提升初始聚类中心选取的合理性,能够有效提升聚类效果。而通过计算每个电力数据对象到聚类中心的距离,进行聚类,不断迭代,直到满足结束条件,完成聚类。由此可以实现对海量电力数据的挖掘分类。
Description
技术领域
本申请涉及电力数据分析领域,具体而言,涉及一种基于海量电力数据的云计算方法、系统。
背景技术
电力系统深入到国家经济、生产生活的诸多领域,不仅与国民生活关系密切,国家工业领域的正常生产也依赖于电力系统的稳定运行。对于电力系统中智能设备、智能电网、智能系统的投入和建设,使得电力系统所产生的电力数据容量成指数级增长,这些大容量数据隐藏着电力系统运行状态、发展趋势等重要信息,对这些隐藏信息进行挖掘能够创造巨大的价值,对于电力系统数据挖掘方法的研究是获取该价值的关键。
随着智能电网的发展,传统的电力数据分析平台己经无法适应日益增长的海量电力数据,而云计算的出现为大数据的处理提供了解决方案。云平台具有计算速度快、容纳数据多的特征,它可以对海量数据做出高效的分析、计算机能够处理一些复杂的数据,而且还可以通过变换数据计算规则和方法,将数据发送到不同PC终端内,实现高效的处理。
云计算是基于互联网的计算,能够向各种互联网应用提供基础架构服务、硬件服务、平台服务、存储服务和软件服务的系统。目前对于云计算的应用与研究中,最具关注度也最广泛应用的是Hadoop开源云计算平台。作为云计算的典型解决方案,受到了众多开发人员的好评,具有扩展性强、成本低、效率高和可靠性高等特点。
大数据分析平台(BDAP)是北京邮电大学数据科学服务中心自助研发的并行,平台基于Spark、Hadoop等并行计算框架,并结合了工作流引擎、批处理以及MongonDB数据存储等多项技术。平台功能涵盖了数据ETL、数据挖掘的基本方法、社会网络、视频分析等多种算法组件。
使用云计算对电力系统数据进行挖掘、分析,其步骤主要为两步:1.从电力系统中的数据源向云主控服务器传输数据,并通过主控服务器向从服务器下达数据存储、任务执行命令;2.通过云平台的计算模块对数据进行处理,降低计算复杂度并对数据进行挖掘、分析。
目前,数据挖掘的方法各有优劣,对于海量电力数据,目前的挖掘方法,其效果仍有待进一步提升,究其原因,是由于海量电力数据,不仅有数据量旁大的特点,还有着数据差异较小的特点。
发明内容
本申请实施例的目的在于提供一种基于海量电力数据的云计算方法、系统,考虑海量电力数据的特点,以提升数据挖掘效果。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种基于海量电力数据的云计算方法,包括:
S1:获取待处理的电力数据集X,处理为n×m的矩阵形式,其中,电力数据集X具有n个电力数据对象,每个电力数据对象具有m个属性,n>1,m>1;
S2:基于所述电力数据集X内每个电力数据对象的分布特征,确定出K个初始聚类中心,K>1;
S3:计算第l次所述电力数据集X中每个电力数据对象xi与第k个聚类中心之间的距离/>得到第l次的计算结果,i∈[1,n],k∈[1,K];
S4:基于第l次的计算结果,计算第l+1次的聚类中心的位置,并判断是否满足结束条件,其中,结束条件为:第l+1次所有聚类中心的位置与第l次所有聚类中心的位置相同,且满足预设收敛极限;
S5:若满足结束条件,则结束计算,以基于第l次的计算结果划分的K个簇作为结果输出,得到划分的K个分类{S1,S2,...,SK};
S6:若不满足结束条件,跳转到步骤S3进行下一次计算,直到满足结束条件得到K个分类{S1,S2,...,SK}输出,实现对海量电力数据的分类。
在本申请实施例中,由于初始聚类中心的选取对聚类效果影响十分明显,随机选取初始聚类中心缺乏科学性,当初始的聚类中心点选择为同一类时,聚类效果不理想。因此,通过对电力数据集进行处理,利用电力数据集X内每个电力数据对象的分布特征,从中确定出K个初始聚类中心,能够考虑到电力数据集X的分布情况,提升初始聚类中心选取的合理性,能够有效提升聚类效果。而通过计算每个电力数据对象到聚类中心的距离,进行聚类,不断迭代,直到满足结束条件,完成聚类。由此可以实现对海量电力数据的挖掘分类。
结合第一方面,在第一方面的第一种可能的实现方式中,S2中基于所述电力数据集X内每个电力数据对象的分布特征,确定出K个初始聚类中心,包括:基于所述电力数据集X,确定出相应的聚类中心个数K;基于所述电力数据集X,确定出每个电力数据对象xi中每个属性的权值;基于每个电力数据对象xi中每个属性的权值,计算电力数据对象xi与电力数据对象xp的距离,以确定出所述电力数据集X中每个电力数据对象xi的相对赋值距离,其中,电力数据对象xi的相对赋值距离表示电力数据对象xi与所述电力数据集X中其他电力数据对象之间的最大距离;基于每个电力数据对象xi的相对赋值距离,确定出每个电力数据对象xi对应的局部密度;基于每个电力数据对象xi的相对赋值距离和局部密度,确定出K个初始聚类中心。
在该实现方式中,通过确定出聚类中心个数K,基于电力数据集X确定出每个电力数据对象xi中每个属性的权值,进一步计算电力数据对象xi与电力数据对象xp的距离,以确定出每个电力数据对象xi的相对赋值距离,再确定出每个电力数据对象xi对应的局部密度,基于每个电力数据对象xi的相对赋值距离和局部密度,确定出K个初始聚类中心。这样的方式,能够有效考虑到电力数据集X内每个电力数据对象的分布情况,能够利用相对赋值距离和局部密度,确定出合适的初始聚类中心(有研究表明,与簇中其他数据对象相比,簇心具有更高的局部密度,并且与比它密度更高的样本对象之间存在相对大多数普通数据更大的距离),因此,这样确定K个初始聚类中心,更有利于聚类效果的提升。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,基于所述电力数据集X,确定出每个电力数据对象xi中每个属性的权值,包括:针对所述电力数据集X中每个电力数据对象xi,进行如下处理:确定电力数据对象xi中第j个属性的香农熵Hij为:
其中,m为电力数据对象xi的属性维度总数,xij表示电力数据对象xi的第j个属性,j∈[1,m];
针对电力数据对象xi中每个属性,进行以下处理:基于电力数据对象xi中第j个属性的香农熵Hij,按照以下公式计算电力数据对象xi中第j个属性的权值wij:
据此计算出所述电力数据集X中每个电力数据对象xi的每个属性xij的权值wij。
在该实现方式中,为了提高聚类算法的精准度,使用香农熵对数据的所有属性进行权值计算,通过在数据处理阶段为每个电力数据对象xi的每个属性xij定义香农熵Hij,进一步确定出每个电力数据对象xi的每个属性xij的权值wij,以衡量电力数据对象xi的属性xij在电力数据对象的相似度计算(集计算两个电力数据对象之间的距离)的影响程度。为了在提高数据特征分度的同时又防止权值过大导致精准度下降,采用此种权值计算方式,能够利用余弦函数进一步弱化权值过大的情况,更适合电力数据的聚类分析。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,基于每个电力数据对象xi中每个属性的权值,计算电力数据对象xi与电力数据对象xp的距离,以确定出所述电力数据集X中每个电力数据对象xi的相对赋值距离,包括:针对所述电力数据集X中每个电力数据对象xi,进行如下处理:利用以下公式计算电力数据对象xi与电力数据对象xp的距离:
其中,dw(xi,xp)表示电力数据对象xi与电力数据对象xp的距离,σ为常数,用于调节随电力数据对象距聚类中心的距离变化时的密度;
基于以下公式确定出电力数据对象xi对应的相对赋值距离δi:
δi=max dw(xi,X),
其中,δi表示电力数据对象xi对应的相对赋值距离,dw(xi,X)表示电力数据对象xi与所述电力数据集X中每个电力数据对象的距离,共计n个距离;据此计算出所述电力数据集X中每个电力数据对象xi的相对赋值距离δi,共计n个相对赋值距离。
在该实现方式中,由于电力数据集的特点(电力数据量庞大,且相差异较小),常规的聚类方法聚类效果不够好,为了提高局部密度的区分度,提高样本离聚类中心较近时的密度,设计距离计算公式dw(xi,xp),能够很好地考虑到电力数据差异较小的特点,不仅在初始聚类中心的确定过程中能够直到初始聚类中心的确定,还能够应用在后续的数据对象与聚类中心的相似度计算过程中(即计算聚类中心与数据对象的距离),提升聚类效果。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,基于每个电力数据对象xi的相对赋值距离,确定出每个电力数据对象xi对应的局部密度,包括:基于每个电力数据对象xi的相对赋值距离,计算出截断距离;基于每个电力数据对象xi与所述电力数据集X中所有电力数据对象的距离,以及所述截断距离,确定出每个电力数据对象xi对应的局部密度。
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,基于每个电力数据对象xi的相对赋值距离,计算出截断距离,包括:基于每个电力数据对象xi的相对赋值距离,利用以下公式计算所述电力数据集X中所有电力数据对象的均值距离μ:
基于均值距离μ和每个电力数据对象xi对应的相对赋值距离δi,计算截断距离:
其中,dc表示截断距离。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,基于每个电力数据对象xi与所述电力数据集X中所有电力数据对象的距离,以及所述截断距离,确定出每个电力数据对象xi对应的局部密度,包括:针对所述电力数据集X中每个电力数据对象xi,采用以下公式进行计算:
其中,ρi表示电力数据对象xi对应的局部密度,共计算出n个局部密度。
结合第一方面,在第一方面的第七种可能的实现方式中,S3中计算第l次所述电力数据集X中每个电力数据对象xi与第k个聚类中心之间的距离/>得到第l次的计算结果,包括:针对第l次计算时的每个聚类中心,采用以下公式计算所述电力数据集X中每个电力数据对象xi与第k个聚类中心/>之间的距离/>
其中,表示电力数据对象xi与第k个聚类中心/>的距离,σ为常数,用于调节随电力数据对象距聚类中心的距离变化时的密度,xij表示电力数据对象xi的第j个属性,wij表示电力数据对象xi的属性xij对应的权值,/>表示第k个聚类中心/>的第j个属性,/>表示第k个聚类中心/>的属性/>对应的权值。
结合第一方面,在第一方面的第八种可能的实现方式中,S4中基于第l次的计算结果,计算第l+1次的聚类中心的位置,包括:
基于第l次的计算结果,利用以下公式计算第l+1次的聚类中心:
其中,表示第l+1次的第k个聚类中心,Nk表示第k个聚类中的电力数据对象的个数,Sk表示第k个聚类,xq表示第k个聚类中第q个电力数据对象。
第二方面,本申请实施例提供一种基于海量电力数据的云计算系统,包括:数据获取单元,用于执行第一方面的第一种至第八种可能的实现方式中任一项所述的基于海量电力数据的云计算方法中的步骤S1;数据挖掘单元,用于执行第一方面的第一种至第八种可能的实现方式中任一项所述的基于海量电力数据的云计算方法中的步骤S2~S6。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于海量电力数据的云计算方法的流程图。
图2为本申请实施例提供的一种基于海量电力数据的云计算系统的示意图。
图标:10-基于海量电力数据的云计算系统;11-数据获取单元;12-数据挖掘单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
为了实现对海量电力数据的挖掘,本实施例中使用BDAP作为云平台,完成数据收集处理、存储等步骤,以便后续运行基于海量电力数据的云计算方法。
请参阅图1,图1为本申请实施例提供的一种基于海量电力数据的云计算方法的流程图。基于海量电力数据的云计算方法可以包括步骤S1、步骤S2、步骤S3、步骤S4、步骤S5、步骤S6。
首先,可以执行步骤S1。
S1:获取待处理的电力数据集X,处理为n×m的矩阵形式,其中,电力数据集X具有n个电力数据对象,每个电力数据对象具有m个属性,n>1,m>1。
在本实施例中,可以从云平台获取待处理的电力数据集X,电力数据集X具有n个电力数据对象,每个电力数据对象具有m个属性,n>1,m>1。因此,为了便于后续处理流程,可以将电力数据集X处理为n×m的矩阵形式:
其中,xij表示电力数据对象xi的第j维属性。
之后,可以执行步骤S2。
S2:基于所述电力数据集X内每个电力数据对象的分布特征,确定出K个初始聚类中心,K>1。
由于初始聚类中心的选取对聚类效果影响十分明显,随机选取初始聚类中心缺乏科学性,当初始的聚类中心点选择为同一类时,聚类效果不理想。在本实施例中,为了提升聚类效果,可以基于电力数据集X内每个电力数据对象的分布特征,确定出K个初始聚类中心,K>1。
示例性的,首先可以基于电力数据集X,确定出相应的聚类中心个数K。例如,可以基于电力数据集X的先验知识,确定数据集的聚类中心个数K,当然,也可以采用其他方式,例如,可以利用峰值法在电力数据集X上测试,得到该数据集的最佳聚类数K,此处不作限定。
确定出聚类中心个数K后,可以基于电力数据集X,确定出每个电力数据对象xi中每个属性的权值。
示例性的,针对电力数据集X中每个电力数据对象xi,可以进行如下处理:
可以先确定电力数据对象xi中第j个属性的香农熵Hij为:
其中,m为电力数据对象xi的属性维度总数,xij表示电力数据对象xi的第j个属性,j∈[1,m]。
为了提高聚类算法的精准度,使用香农熵对数据的所有属性进行权值计算,通过在数据处理阶段为每个电力数据对象xi的每个属性xij定义香农熵Hij,进一步确定出每个电力数据对象xi的每个属性xij的权值wij,以衡量电力数据对象xi的属性xij在电力数据对象的相似度计算(集计算两个电力数据对象之间的距离)的影响程度。
然后,针对电力数据对象xi中每个属性,可以进行以下处理:
基于电力数据对象xi中第j个属性的香农熵Hij,按照以下公式(3)计算电力数据对象xi中第j个属性的权值wij:
据此计算出电力数据集X中每个电力数据对象xi的每个属性xij的权值wij。
为了在提高数据特征分度的同时又防止权值过大导致精准度下降,采用此种权值计算方式,能够利用余弦函数进一步弱化权值过大的情况,更适合电力数据的聚类分析。
基于此,可以实现对电力数据集X中每个电力数据对象xi的每个属性xij对应的权值wij的计算。
之后,可以基于每个电力数据对象xi中每个属性的权值,计算电力数据对象xi与电力数据对象xp的距离,以确定出电力数据集X中每个电力数据对象xi的相对赋值距离,其中,电力数据对象xi的相对赋值距离表示电力数据对象xi与电力数据集X中其他电力数据对象之间的最大距离。
示例性的,针对电力数据集X中每个电力数据对象xi,可以进行如下处理:
利用以下公式(4)计算电力数据对象xi与电力数据对象xp的距离:
其中,dw(xi,xp)表示电力数据对象xi与电力数据对象xp的距离,σ为常数,用于调节随电力数据对象距聚类中心的距离变化时的密度。
由于电力数据集的特点(电力数据量庞大,且相差异较小),常规的聚类方法聚类效果不够好,为了提高局部密度的区分度,提高样本离聚类中心较近时的密度,设计距离计算公式dw(xi,xp),能够很好地考虑到电力数据差异较小的特点,不仅在初始聚类中心的确定过程中能够直到初始聚类中心的确定,还能够应用在后续的数据对象与聚类中心的相似度计算过程中(即计算聚类中心与数据对象的距离),提升聚类效果。
进一步可以基于以下公式(5)确定出电力数据对象xi对应的相对赋值距离δi:
δi=max dw(xi,X), (5)
其中,δi表示电力数据对象xi对应的相对赋值距离,dw(xi,X)表示电力数据对象xi与电力数据集X中每个电力数据对象的距离,共计n个距离。据此可以计算出电力数据集X中每个电力数据对象xi的相对赋值距离δi,共计n个相对赋值距离。
计算出电力数据集X中每个电力数据对象xi的相对赋值距离δi后,可以基于每个电力数据对象xi的相对赋值距离,确定出每个电力数据对象xi对应的局部密度。
示例性的,可以基于每个电力数据对象xi的相对赋值距离,计算出截断距离。具体的,可以利用以下公式(6)计算电力数据集X中所有电力数据对象的均值距离μ:
计算出均值距离μ后,可以基于均值距离μ和每个电力数据对象xi对应的相对赋值距离δi,计算截断距离:
其中,dc表示截断距离。
计算出截断距离后,可以基于每个电力数据对象xi与电力数据集X中所有电力数据对象的距离,以及截断距离,确定出每个电力数据对象xi对应的局部密度。
示例性的,针对电力数据集X中每个电力数据对象xi,可以采用以下公式(8)进行计算:
其中,ρi表示电力数据对象xi对应的局部密度,共计算出n个局部密度。
计算出电力数据集X中每个电力数据对象xi对应的局部密度后,可以基于每个电力数据对象xi的相对赋值距离和局部密度,确定出K个初始聚类中心。
例如,可以分别以相对赋值距离δi和局部密度ρi为横轴和纵轴,将n个电力数据对象xi纳入此二维坐标系中,选取二维坐标系中位于第一象限中两个指标值(相对赋值距离δi和局部密度ρi)都较大的电力数据对象xi,作为一个初始聚类中心,通过此种方式选取K个初始聚类中心。确定出的K个初始聚类中心以表示。
通过确定出聚类中心个数K,基于电力数据集X确定出每个电力数据对象xi中每个属性的权值,进一步计算电力数据对象xi与电力数据对象xp的距离,以确定出每个电力数据对象xi的相对赋值距离,再确定出每个电力数据对象xi对应的局部密度,基于每个电力数据对象xi的相对赋值距离和局部密度,确定出K个初始聚类中心。这样的方式,能够有效考虑到电力数据集X内每个电力数据对象的分布情况,能够利用相对赋值距离和局部密度,确定出合适的初始聚类中心(有研究表明,与簇中其他数据对象相比,簇心具有更高的局部密度,并且与比它密度更高的样本对象之间存在相对大多数普通数据更大的距离),因此,这样确定K个初始聚类中心,更有利于聚类效果的提升。
确定出K个初始聚类中心后,可以执行步骤S3。
S3:计算第l次所述电力数据集X中每个电力数据对象xi与第k个聚类中心之间的距离/>得到第l次的计算结果,i∈[1,n],k∈[1,K]。
在本实施例中,可以第l次计算电力数据集X中每个电力数据对象xi与第k个聚类中心之间的距离/>得到第l次的计算结果。
以第一次计算为例,那么,对应的聚类中心为K个初始聚类中心此时,可以利用以下公式(9)计算电力数据集X中每个电力数据对象xi与第k个聚类中心/>之间的距离/>
这样可以简单快速地计算电力数据集X中每个电力数据对象xi与第k个聚类中心之间的距离。
针对电力数据差异性较小的情况,为了进一步提升聚类效果,可以采用公式(10)替代公式(9)的计算方式,实现对距离的计算:
其中,表示电力数据对象xi与第k个聚类中心/>的距离,σ为常数,用于调节随电力数据对象距聚类中心的距离变化时的密度,xij表示电力数据对象xi的第j个属性,wij表示电力数据对象xi的属性xij对应的权值,/>表示第k个聚类中心/>的第j个属性,/>表示第k个聚类中心/>的属性/>对应的权值。
完成第l次电力数据集X中每个电力数据对象xi与第k个聚类中心之间的距离计算后,可以得到第l次的计算结果。基于此,可以执行步骤S4。
S4:基于第l次的计算结果,计算第l+1次的聚类中心的位置,并判断是否满足结束条件,其中,结束条件为:第l+1次所有聚类中心的位置与第l次所有聚类中心的位置相同,且满足预设收敛极限。
在本实施例中,可以基于第l次的计算结果,计算第l+1次的聚类中心的位置。
示例性的,可以基于第l次的计算结果,利用以下公式(11)计算第l+1次的聚类中心:
其中,表示第l+1次的第k个聚类中心,Nk表示第k个聚类中的电力数据对象的个数,Sk表示第k个聚类,xq表示第k个聚类中第q个电力数据对象。
由此,可以计算出第l+1次的新的K个聚类中心。得到新的聚类中心后,可以判断是否满足结束条件:第l+1次所有聚类中心的位置与第l次所有聚类中心的位置相同,且满足预设收敛极限。
其中,通过以下公式(12)可以计算聚类的代价函数:
通过第l次的所有聚类中心代入公式(12)计算求得U(l),通过第l+1次的所有聚类中心代入公式(12)计算求得U(l+1)后,可以利用以下公式(13)判断是否满足预设收敛极限:
U(l+1)-U(l)<γ, (13)
其中,γ表示预设收敛极限。
公式(12)的代价函数表示第l次聚类后,所得到的第k个类Sk中所有电力数据对象到该类的聚类中心的欧氏距离之和。而公式(13)则反映第l+1次聚类得到的结果和第l次的结果是否收敛。
若收敛(即U(l+1)-U(l)<γ),则说明聚类得到最优,认为聚类划分合理。基于此,可以执行步骤S5。
S5:若满足结束条件,则结束计算,以基于第l次的计算结果划分的K个簇作为结果输出,得到划分的K个分类{S1,S2,...,SK}。
在本实施例中,第l次聚类已经满足结束条件,可以结束计算,以基于第l次的计算结果划分的K个簇作为结果输出,得到划分的K个分类{S1,S2,...,SK}。
若第l+1次所有聚类中心的位置与第l次所有聚类中心的位置并不完全相同,或者,第l+1次所有聚类中心的位置与第l次所有聚类中心的位置相同,但却不收敛(即U(l+1)-U(l)≥γ),则说明聚类未得到最优,不满足结束条件,此时可以执行步骤S6。
S6:若不满足结束条件,跳转到步骤S3进行下一次计算,直到满足结束条件得到K个分类{S1,S2,...,SK}输出,实现对海量电力数据的分类。
在本实施例中,第l次聚类仍不满足结束条件,需要继续计算,那么,可以跳转到步骤S3进行下一次计算,直到满足结束条件,可以得到K个分类{S1,S2,...,SK}输出,以此实现对海量电力数据的分类。
基于同一发明构思,本申请实施例中还提供一种基于海量电力数据的云计算系统10。请参阅图2,图2为基于海量电力数据的云计算系统10的示意图。
在本实施例中,基于海量电力数据的云计算系统10可以包括:
数据获取单元11,用于执行本实施例的基于海量电力数据的云计算方法中的步骤S1。
数据挖掘单元12,用于执行本实施例的基于海量电力数据的云计算方法中的步骤S2~S6。
综上所述,本申请实施例提供一种基于海量电力数据的云计算方法、系统,通过对电力数据集进行处理,利用电力数据集X内每个电力数据对象的分布特征,从中确定出K个初始聚类中心,能够考虑到电力数据集X的分布情况,提升初始聚类中心选取的合理性,能够有效提升聚类效果。而通过计算每个电力数据对象到聚类中心的距离,进行聚类,不断迭代,直到满足结束条件,完成聚类。由此可以实现对海量电力数据的挖掘分类。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种基于海量电力数据的云计算方法,其特征在于,包括:
S1:获取待处理的电力数据集X,处理为n×m的矩阵形式,其中,电力数据集X具有n个电力数据对象,每个电力数据对象具有m个属性,n>1,m>1;
S2:基于所述电力数据集X内每个电力数据对象的分布特征,确定出K个初始聚类中心,K>1;
S3:计算第l次所述电力数据集X中每个电力数据对象xi与第k个聚类中心之间的距离/>得到第l次的计算结果,i∈[1,n],k∈[1,K];
S4:基于第l次的计算结果,计算第l+1次的聚类中心的位置,并判断是否满足结束条件,其中,结束条件为:第l+1次所有聚类中心的位置与第l次所有聚类中心的位置相同,且满足预设收敛极限;
S5:若满足结束条件,则结束计算,以基于第l次的计算结果划分的K个簇作为结果输出,得到划分的K个分类{S1,S2,...,SK};
S6:若不满足结束条件,跳转到步骤S3进行下一次计算,直到满足结束条件得到K个分类{S1,S2,...,SK}输出,实现对海量电力数据的分类;
其中,S2中基于所述电力数据集X内每个电力数据对象的分布特征,确定出K个初始聚类中心,包括:
基于所述电力数据集X,确定出相应的聚类中心个数K;
基于所述电力数据集X,确定出每个电力数据对象xi中每个属性的权值;
基于每个电力数据对象xi中每个属性的权值,计算电力数据对象xi与电力数据对象xp的距离,以确定出所述电力数据集X中每个电力数据对象xi的相对赋值距离,其中,电力数据对象xi的相对赋值距离表示电力数据对象xi与所述电力数据集X中其他电力数据对象之间的最大距离;
基于每个电力数据对象xi的相对赋值距离,确定出每个电力数据对象xi对应的局部密度;
基于每个电力数据对象xi的相对赋值距离和局部密度,确定出K个初始聚类中心。
2.根据权利要求1所述的基于海量电力数据的云计算方法,其特征在于,基于所述电力数据集X,确定出每个电力数据对象xi中每个属性的权值,包括:
针对所述电力数据集X中每个电力数据对象xi,进行如下处理:
确定电力数据对象xi中第j个属性的香农熵Hij为:
其中,m为电力数据对象xi的属性维度总数,xij表示电力数据对象xi的第j个属性,j∈[1,m];
针对电力数据对象xi中每个属性,进行以下处理:
基于电力数据对象xi中第j个属性的香农熵Hij,按照以下公式计算电力数据对象xi中第j个属性的权值wij:
据此计算出所述电力数据集X中每个电力数据对象xi的每个属性xij的权值wij。
3.根据权利要求2所述的基于海量电力数据的云计算方法,其特征在于,基于每个电力数据对象xi中每个属性的权值,计算电力数据对象xi与电力数据对象xp的距离,以确定出所述电力数据集X中每个电力数据对象xi的相对赋值距离,包括:
针对所述电力数据集X中每个电力数据对象xi,进行如下处理:
利用以下公式计算电力数据对象xi与电力数据对象xp的距离:
其中,dw(xi,xp)表示电力数据对象xi与电力数据对象xp的距离,σ为常数,用于调节随电力数据对象距聚类中心的距离变化时的密度;
基于以下公式确定出电力数据对象xi对应的相对赋值距离δi:
δi=max dw(xi,X),
其中,δi表示电力数据对象xi对应的相对赋值距离,dw(xi,X)表示电力数据对象xi与所述电力数据集X中每个电力数据对象的距离,共计n个距离;
据此计算出所述电力数据集X中每个电力数据对象xi的相对赋值距离δi,共计n个相对赋值距离。
4.根据权利要求3所述的基于海量电力数据的云计算方法,其特征在于,基于每个电力数据对象xi的相对赋值距离,确定出每个电力数据对象xi对应的局部密度,包括:
基于每个电力数据对象xi的相对赋值距离,计算出截断距离;
基于每个电力数据对象xi与所述电力数据集X中所有电力数据对象的距离,以及所述截断距离,确定出每个电力数据对象xi对应的局部密度。
5.根据权利要求4所述的基于海量电力数据的云计算方法,其特征在于,基于每个电力数据对象xi的相对赋值距离,计算出截断距离,包括:
基于每个电力数据对象xi的相对赋值距离,利用以下公式计算所述电力数据集X中所有电力数据对象的均值距离μ:
基于均值距离μ和每个电力数据对象xi对应的相对赋值距离δi,计算截断距离:
其中,dc表示截断距离。
6.根据权利要求5所述的基于海量电力数据的云计算方法,其特征在于,基于每个电力数据对象xi与所述电力数据集X中所有电力数据对象的距离,以及所述截断距离,确定出每个电力数据对象xi对应的局部密度,包括:
针对所述电力数据集X中每个电力数据对象xi,采用以下公式进行计算:
其中,ρi表示电力数据对象xi对应的局部密度,共计算出n个局部密度。
7.根据权利要求1所述的基于海量电力数据的云计算方法,其特征在于,S3中计算第l次所述电力数据集X中每个电力数据对象xi与第k个聚类中心之间的距离/>得到第l次的计算结果,包括:
针对第l次计算时的每个聚类中心,采用以下公式计算所述电力数据集X中每个电力数据对象xi与第k个聚类中心之间的距离/>
其中,表示电力数据对象xi与第k个聚类中心/>的距离,σ为常数,用于调节随电力数据对象距聚类中心的距离变化时的密度,xij表示电力数据对象xi的第j个属性,wij表示电力数据对象xi的属性xij对应的权值,/>表示第k个聚类中心/>的第j个属性,/>表示第k个聚类中心/>的属性/>对应的权值。
8.根据权利要求1所述的基于海量电力数据的云计算方法,其特征在于,S4中基于第l次的计算结果,计算第l+1次的聚类中心的位置,包括:
基于第l次的计算结果,利用以下公式计算第l+1次的聚类中心:
其中,表示第l+1次的第k个聚类中心,Nk表示第k个聚类中的电力数据对象的个数,Sk表示第k个聚类,xq表示第k个聚类中第q个电力数据对象。
9.一种基于海量电力数据的云计算系统,其特征在于,包括:
数据获取单元,用于执行权利要求1至8中任一项所述的基于海量电力数据的云计算方法中的步骤S1;
数据挖掘单元,用于执行权利要求1至8中任一项所述的基于海量电力数据的云计算方法中的步骤S2~S6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211225416.4A CN115545107B (zh) | 2022-10-09 | 2022-10-09 | 一种基于海量电力数据的云计算方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211225416.4A CN115545107B (zh) | 2022-10-09 | 2022-10-09 | 一种基于海量电力数据的云计算方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115545107A CN115545107A (zh) | 2022-12-30 |
CN115545107B true CN115545107B (zh) | 2023-07-21 |
Family
ID=84731377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211225416.4A Active CN115545107B (zh) | 2022-10-09 | 2022-10-09 | 一种基于海量电力数据的云计算方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545107B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492683A (zh) * | 2018-10-30 | 2019-03-19 | 国网湖南省电力有限公司 | 一种针对广域量测电力大数据数据质量的快速在线评估方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8843933B1 (en) * | 2011-05-25 | 2014-09-23 | Vmware, Inc. | System and method for managing a virtualized computing environment |
CN106408008A (zh) * | 2016-09-08 | 2017-02-15 | 国网江西省电力公司赣州供电分公司 | 一种基于负荷曲线距离和形状的负荷分类方法 |
CN106777005A (zh) * | 2016-12-07 | 2017-05-31 | 国网天津市电力公司 | 基于大数据技术改进聚类算法的用户用电行为分析方法 |
US10997009B2 (en) * | 2018-12-10 | 2021-05-04 | Vmware, Inc. | Methods and systems that detect and classify incidents and anomalous behavior using metric-data observations |
CN111353529A (zh) * | 2020-02-23 | 2020-06-30 | 北京工业大学 | 一种自动确定聚类中心的混合属性数据集聚类方法 |
CN111553434A (zh) * | 2020-04-30 | 2020-08-18 | 华北电力大学 | 一种电力系统负荷分类方法及系统 |
CN113193551B (zh) * | 2021-04-27 | 2023-01-24 | 长安大学 | 基于多因素和改进特征筛选策略的短期电力负荷预测方法 |
-
2022
- 2022-10-09 CN CN202211225416.4A patent/CN115545107B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492683A (zh) * | 2018-10-30 | 2019-03-19 | 国网湖南省电力有限公司 | 一种针对广域量测电力大数据数据质量的快速在线评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115545107A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | An incremental CFS algorithm for clustering large data in industrial internet of things | |
CN110768971B (zh) | 适用于人工智能系统的对抗样本快速预警方法及系统 | |
CN110827924B (zh) | 基因表达数据的聚类方法、装置、计算机设备及存储介质 | |
CN111709022B (zh) | 基于ap聚类与因果关系的混合报警关联方法 | |
CN107609105B (zh) | 大数据加速结构的构建方法 | |
CN111950620A (zh) | 基于DBSCAN和K-means算法的用户筛选方法 | |
CN117078048B (zh) | 基于数字孪生的智慧城市资源管理方法及系统 | |
CN113949577A (zh) | 一种应用于云服务的数据攻击分析方法及服务器 | |
CN115563477B (zh) | 谐波数据识别方法、装置、计算机设备和存储介质 | |
CN111062431A (zh) | 图像聚类方法、图像聚类装置、电子设备及存储介质 | |
CN114386466B (zh) | 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法 | |
Gao et al. | Icfs: An improved fast search and find of density peaks clustering algorithm | |
CN117556369A (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
CN111797899B (zh) | 一种低压台区kmeans聚类方法及系统 | |
CN115545107B (zh) | 一种基于海量电力数据的云计算方法、系统 | |
CN117155701A (zh) | 一种网络流量入侵检测方法 | |
CN112149052A (zh) | 一种基于plr-dtw的日负荷曲线聚类方法 | |
CN111062418A (zh) | 一种基于最小生成树的无参数化聚类算法及系统 | |
CN109728958A (zh) | 一种网络节点信任预测方法、装置、设备及介质 | |
CN114185956A (zh) | 基于canopy、k-means算法的数据挖掘方法 | |
CN113723514A (zh) | 一种基于混合采样的安全接入日志数据平衡处理方法 | |
CN114004989A (zh) | 一种基于改进K-means算法的电力安全预警数据聚类处理方法 | |
CN112766356A (zh) | 一种基于动态权重D-XGBoost模型的预测方法及系统 | |
CN111813542A (zh) | 一种并行处理大规模图分析任务的负载均衡方法及其装置 | |
CN111429045B (zh) | 一种基于区域对称性的能源互联网聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |