CN115545107B

CN115545107B - 一种基于海量电力数据的云计算方法、系统

Info

Publication number: CN115545107B
Application number: CN202211225416.4A
Authority: CN
Inventors: 王皓然; 刘俊荣; 魏力鹏; 班秋成; 周泽元; 陶佳冶; 付鋆; 吕嵘晶; 李荣宇
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-07-21
Anticipated expiration: 2042-10-09
Also published as: CN115545107A

Abstract

本申请提供一种基于海量电力数据的云计算方法、系统，由于初始聚类中心的选取对聚类效果影响十分明显，随机选取初始聚类中心缺乏科学性，当初始的聚类中心点选择为同一类时，聚类效果不理想。因此，通过对电力数据集进行处理，提升初始聚类中心选取的合理性，能够有效提升聚类效果。而通过计算每个电力数据对象到聚类中心的距离，进行聚类，不断迭代，直到满足结束条件，完成聚类。由此可以实现对海量电力数据的挖掘分类。

Description

一种基于海量电力数据的云计算方法、系统

技术领域

本申请涉及电力数据分析领域，具体而言，涉及一种基于海量电力数据的云计算方法、系统。

背景技术

电力系统深入到国家经济、生产生活的诸多领域，不仅与国民生活关系密切，国家工业领域的正常生产也依赖于电力系统的稳定运行。对于电力系统中智能设备、智能电网、智能系统的投入和建设，使得电力系统所产生的电力数据容量成指数级增长，这些大容量数据隐藏着电力系统运行状态、发展趋势等重要信息，对这些隐藏信息进行挖掘能够创造巨大的价值，对于电力系统数据挖掘方法的研究是获取该价值的关键。

随着智能电网的发展，传统的电力数据分析平台己经无法适应日益增长的海量电力数据，而云计算的出现为大数据的处理提供了解决方案。云平台具有计算速度快、容纳数据多的特征，它可以对海量数据做出高效的分析、计算机能够处理一些复杂的数据，而且还可以通过变换数据计算规则和方法，将数据发送到不同PC终端内，实现高效的处理。

云计算是基于互联网的计算，能够向各种互联网应用提供基础架构服务、硬件服务、平台服务、存储服务和软件服务的系统。目前对于云计算的应用与研究中，最具关注度也最广泛应用的是Hadoop开源云计算平台。作为云计算的典型解决方案，受到了众多开发人员的好评，具有扩展性强、成本低、效率高和可靠性高等特点。

大数据分析平台(BDAP)是北京邮电大学数据科学服务中心自助研发的并行，平台基于Spark、Hadoop等并行计算框架，并结合了工作流引擎、批处理以及MongonDB数据存储等多项技术。平台功能涵盖了数据ETL、数据挖掘的基本方法、社会网络、视频分析等多种算法组件。

使用云计算对电力系统数据进行挖掘、分析，其步骤主要为两步：1.从电力系统中的数据源向云主控服务器传输数据，并通过主控服务器向从服务器下达数据存储、任务执行命令；2.通过云平台的计算模块对数据进行处理，降低计算复杂度并对数据进行挖掘、分析。

目前，数据挖掘的方法各有优劣，对于海量电力数据，目前的挖掘方法，其效果仍有待进一步提升，究其原因，是由于海量电力数据，不仅有数据量旁大的特点，还有着数据差异较小的特点。

发明内容

本申请实施例的目的在于提供一种基于海量电力数据的云计算方法、系统，考虑海量电力数据的特点，以提升数据挖掘效果。

为了实现上述目的，本申请的实施例通过如下方式实现：

第一方面，本申请实施例提供一种基于海量电力数据的云计算方法，包括：

S1：获取待处理的电力数据集X，处理为n×m的矩阵形式，其中，电力数据集X具有n个电力数据对象，每个电力数据对象具有m个属性，n>1,m>1；

S2：基于所述电力数据集X内每个电力数据对象的分布特征，确定出K个初始聚类中心，K>1；

S3：计算第l次所述电力数据集X中每个电力数据对象x_i与第k个聚类中心之间的距离/>得到第l次的计算结果，i∈[1,n]，k∈[1,K]；

S4：基于第l次的计算结果，计算第l+1次的聚类中心的位置，并判断是否满足结束条件，其中，结束条件为：第l+1次所有聚类中心的位置与第l次所有聚类中心的位置相同，且满足预设收敛极限；

S5：若满足结束条件，则结束计算，以基于第l次的计算结果划分的K个簇作为结果输出，得到划分的K个分类{S₁,S₂,...,S_K}；

S6：若不满足结束条件，跳转到步骤S3进行下一次计算，直到满足结束条件得到K个分类{S₁,S₂,...,S_K}输出，实现对海量电力数据的分类。

在本申请实施例中，由于初始聚类中心的选取对聚类效果影响十分明显，随机选取初始聚类中心缺乏科学性，当初始的聚类中心点选择为同一类时，聚类效果不理想。因此，通过对电力数据集进行处理，利用电力数据集X内每个电力数据对象的分布特征，从中确定出K个初始聚类中心，能够考虑到电力数据集X的分布情况，提升初始聚类中心选取的合理性，能够有效提升聚类效果。而通过计算每个电力数据对象到聚类中心的距离，进行聚类，不断迭代，直到满足结束条件，完成聚类。由此可以实现对海量电力数据的挖掘分类。

结合第一方面，在第一方面的第一种可能的实现方式中，S2中基于所述电力数据集X内每个电力数据对象的分布特征，确定出K个初始聚类中心，包括：基于所述电力数据集X，确定出相应的聚类中心个数K；基于所述电力数据集X，确定出每个电力数据对象x_i中每个属性的权值；基于每个电力数据对象x_i中每个属性的权值，计算电力数据对象x_i与电力数据对象x_p的距离，以确定出所述电力数据集X中每个电力数据对象x_i的相对赋值距离，其中，电力数据对象x_i的相对赋值距离表示电力数据对象x_i与所述电力数据集X中其他电力数据对象之间的最大距离；基于每个电力数据对象x_i的相对赋值距离，确定出每个电力数据对象x_i对应的局部密度；基于每个电力数据对象x_i的相对赋值距离和局部密度，确定出K个初始聚类中心。

在该实现方式中，通过确定出聚类中心个数K，基于电力数据集X确定出每个电力数据对象x_i中每个属性的权值，进一步计算电力数据对象x_i与电力数据对象x_p的距离，以确定出每个电力数据对象x_i的相对赋值距离，再确定出每个电力数据对象x_i对应的局部密度，基于每个电力数据对象x_i的相对赋值距离和局部密度，确定出K个初始聚类中心。这样的方式，能够有效考虑到电力数据集X内每个电力数据对象的分布情况，能够利用相对赋值距离和局部密度，确定出合适的初始聚类中心(有研究表明，与簇中其他数据对象相比，簇心具有更高的局部密度，并且与比它密度更高的样本对象之间存在相对大多数普通数据更大的距离)，因此，这样确定K个初始聚类中心，更有利于聚类效果的提升。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，基于所述电力数据集X，确定出每个电力数据对象x_i中每个属性的权值，包括：针对所述电力数据集X中每个电力数据对象x_i，进行如下处理：确定电力数据对象x_i中第j个属性的香农熵H_ij为：

其中，m为电力数据对象x_i的属性维度总数，x_ij表示电力数据对象x_i的第j个属性，j∈[1,m]；

针对电力数据对象x_i中每个属性，进行以下处理：基于电力数据对象x_i中第j个属性的香农熵H_ij，按照以下公式计算电力数据对象x_i中第j个属性的权值w_ij：

据此计算出所述电力数据集X中每个电力数据对象x_i的每个属性x_ij的权值w_ij。

在该实现方式中，为了提高聚类算法的精准度，使用香农熵对数据的所有属性进行权值计算，通过在数据处理阶段为每个电力数据对象x_i的每个属性x_ij定义香农熵H_ij，进一步确定出每个电力数据对象x_i的每个属性x_ij的权值w_ij，以衡量电力数据对象x_i的属性x_ij在电力数据对象的相似度计算(集计算两个电力数据对象之间的距离)的影响程度。为了在提高数据特征分度的同时又防止权值过大导致精准度下降，采用此种权值计算方式，能够利用余弦函数进一步弱化权值过大的情况，更适合电力数据的聚类分析。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，基于每个电力数据对象x_i中每个属性的权值，计算电力数据对象x_i与电力数据对象x_p的距离，以确定出所述电力数据集X中每个电力数据对象x_i的相对赋值距离，包括：针对所述电力数据集X中每个电力数据对象x_i，进行如下处理：利用以下公式计算电力数据对象x_i与电力数据对象x_p的距离：

其中，d_w(x_i,x_p)表示电力数据对象x_i与电力数据对象x_p的距离，σ为常数，用于调节随电力数据对象距聚类中心的距离变化时的密度；

基于以下公式确定出电力数据对象x_i对应的相对赋值距离δ_i：

δ_i＝max d_w(x_i,X)，

其中，δ_i表示电力数据对象x_i对应的相对赋值距离，d_w(x_i,X)表示电力数据对象x_i与所述电力数据集X中每个电力数据对象的距离，共计n个距离；据此计算出所述电力数据集X中每个电力数据对象x_i的相对赋值距离δ_i，共计n个相对赋值距离。

在该实现方式中，由于电力数据集的特点(电力数据量庞大，且相差异较小)，常规的聚类方法聚类效果不够好，为了提高局部密度的区分度，提高样本离聚类中心较近时的密度，设计距离计算公式d_w(x_i,x_p)，能够很好地考虑到电力数据差异较小的特点，不仅在初始聚类中心的确定过程中能够直到初始聚类中心的确定，还能够应用在后续的数据对象与聚类中心的相似度计算过程中(即计算聚类中心与数据对象的距离)，提升聚类效果。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，基于每个电力数据对象x_i的相对赋值距离，确定出每个电力数据对象x_i对应的局部密度，包括：基于每个电力数据对象x_i的相对赋值距离，计算出截断距离；基于每个电力数据对象x_i与所述电力数据集X中所有电力数据对象的距离，以及所述截断距离，确定出每个电力数据对象x_i对应的局部密度。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，基于每个电力数据对象x_i的相对赋值距离，计算出截断距离，包括：基于每个电力数据对象x_i的相对赋值距离，利用以下公式计算所述电力数据集X中所有电力数据对象的均值距离μ：

基于均值距离μ和每个电力数据对象x_i对应的相对赋值距离δ_i，计算截断距离：

其中，d_c表示截断距离。

结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，基于每个电力数据对象x_i与所述电力数据集X中所有电力数据对象的距离，以及所述截断距离，确定出每个电力数据对象x_i对应的局部密度，包括：针对所述电力数据集X中每个电力数据对象x_i，采用以下公式进行计算：

其中，ρ_i表示电力数据对象x_i对应的局部密度，共计算出n个局部密度。

结合第一方面，在第一方面的第七种可能的实现方式中，S3中计算第l次所述电力数据集X中每个电力数据对象x_i与第k个聚类中心之间的距离/>得到第l次的计算结果，包括：针对第l次计算时的每个聚类中心，采用以下公式计算所述电力数据集X中每个电力数据对象x_i与第k个聚类中心/>之间的距离/>

其中，表示电力数据对象x_i与第k个聚类中心/>的距离，σ为常数，用于调节随电力数据对象距聚类中心的距离变化时的密度，x_ij表示电力数据对象x_i的第j个属性，w_ij表示电力数据对象x_i的属性x_ij对应的权值，/>表示第k个聚类中心/>的第j个属性，/>表示第k个聚类中心/>的属性/>对应的权值。

结合第一方面，在第一方面的第八种可能的实现方式中，S4中基于第l次的计算结果，计算第l+1次的聚类中心的位置，包括：

基于第l次的计算结果，利用以下公式计算第l+1次的聚类中心：

其中，表示第l+1次的第k个聚类中心，N_k表示第k个聚类中的电力数据对象的个数，S_k表示第k个聚类，x_q表示第k个聚类中第q个电力数据对象。

第二方面，本申请实施例提供一种基于海量电力数据的云计算系统，包括：数据获取单元，用于执行第一方面的第一种至第八种可能的实现方式中任一项所述的基于海量电力数据的云计算方法中的步骤S1；数据挖掘单元，用于执行第一方面的第一种至第八种可能的实现方式中任一项所述的基于海量电力数据的云计算方法中的步骤S2～S6。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于海量电力数据的云计算方法的流程图。

图2为本申请实施例提供的一种基于海量电力数据的云计算系统的示意图。

图标：10-基于海量电力数据的云计算系统；11-数据获取单元；12-数据挖掘单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

为了实现对海量电力数据的挖掘，本实施例中使用BDAP作为云平台，完成数据收集处理、存储等步骤，以便后续运行基于海量电力数据的云计算方法。

请参阅图1，图1为本申请实施例提供的一种基于海量电力数据的云计算方法的流程图。基于海量电力数据的云计算方法可以包括步骤S1、步骤S2、步骤S3、步骤S4、步骤S5、步骤S6。

首先，可以执行步骤S1。

S1：获取待处理的电力数据集X，处理为n×m的矩阵形式，其中，电力数据集X具有n个电力数据对象，每个电力数据对象具有m个属性，n>1,m>1。

在本实施例中，可以从云平台获取待处理的电力数据集X，电力数据集X具有n个电力数据对象，每个电力数据对象具有m个属性，n>1,m>1。因此，为了便于后续处理流程，可以将电力数据集X处理为n×m的矩阵形式：

其中，x_ij表示电力数据对象x_i的第j维属性。

之后，可以执行步骤S2。

S2：基于所述电力数据集X内每个电力数据对象的分布特征，确定出K个初始聚类中心，K>1。

由于初始聚类中心的选取对聚类效果影响十分明显，随机选取初始聚类中心缺乏科学性，当初始的聚类中心点选择为同一类时，聚类效果不理想。在本实施例中，为了提升聚类效果，可以基于电力数据集X内每个电力数据对象的分布特征，确定出K个初始聚类中心，K>1。

示例性的，首先可以基于电力数据集X，确定出相应的聚类中心个数K。例如，可以基于电力数据集X的先验知识，确定数据集的聚类中心个数K，当然，也可以采用其他方式，例如，可以利用峰值法在电力数据集X上测试，得到该数据集的最佳聚类数K，此处不作限定。

确定出聚类中心个数K后，可以基于电力数据集X，确定出每个电力数据对象x_i中每个属性的权值。

示例性的，针对电力数据集X中每个电力数据对象x_i，可以进行如下处理：

可以先确定电力数据对象x_i中第j个属性的香农熵H_ij为：

其中，m为电力数据对象x_i的属性维度总数，x_ij表示电力数据对象x_i的第j个属性，j∈[1,m]。

为了提高聚类算法的精准度，使用香农熵对数据的所有属性进行权值计算，通过在数据处理阶段为每个电力数据对象x_i的每个属性x_ij定义香农熵H_ij，进一步确定出每个电力数据对象x_i的每个属性x_ij的权值w_ij，以衡量电力数据对象x_i的属性x_ij在电力数据对象的相似度计算(集计算两个电力数据对象之间的距离)的影响程度。

然后，针对电力数据对象x_i中每个属性，可以进行以下处理：

基于电力数据对象x_i中第j个属性的香农熵H_ij，按照以下公式(3)计算电力数据对象x_i中第j个属性的权值w_ij：

据此计算出电力数据集X中每个电力数据对象x_i的每个属性x_ij的权值w_ij。

为了在提高数据特征分度的同时又防止权值过大导致精准度下降，采用此种权值计算方式，能够利用余弦函数进一步弱化权值过大的情况，更适合电力数据的聚类分析。

基于此，可以实现对电力数据集X中每个电力数据对象x_i的每个属性x_ij对应的权值w_ij的计算。

之后，可以基于每个电力数据对象x_i中每个属性的权值，计算电力数据对象x_i与电力数据对象x_p的距离，以确定出电力数据集X中每个电力数据对象x_i的相对赋值距离，其中，电力数据对象x_i的相对赋值距离表示电力数据对象x_i与电力数据集X中其他电力数据对象之间的最大距离。

利用以下公式(4)计算电力数据对象x_i与电力数据对象x_p的距离：

其中，d_w(x_i,x_p)表示电力数据对象x_i与电力数据对象x_p的距离，σ为常数，用于调节随电力数据对象距聚类中心的距离变化时的密度。

由于电力数据集的特点(电力数据量庞大，且相差异较小)，常规的聚类方法聚类效果不够好，为了提高局部密度的区分度，提高样本离聚类中心较近时的密度，设计距离计算公式d_w(x_i,x_p)，能够很好地考虑到电力数据差异较小的特点，不仅在初始聚类中心的确定过程中能够直到初始聚类中心的确定，还能够应用在后续的数据对象与聚类中心的相似度计算过程中(即计算聚类中心与数据对象的距离)，提升聚类效果。

进一步可以基于以下公式(5)确定出电力数据对象x_i对应的相对赋值距离δ_i：

δ_i＝max d_w(x_i,X)， (5)

其中，δ_i表示电力数据对象x_i对应的相对赋值距离，d_w(x_i,X)表示电力数据对象x_i与电力数据集X中每个电力数据对象的距离，共计n个距离。据此可以计算出电力数据集X中每个电力数据对象x_i的相对赋值距离δ_i，共计n个相对赋值距离。

计算出电力数据集X中每个电力数据对象x_i的相对赋值距离δ_i后，可以基于每个电力数据对象x_i的相对赋值距离，确定出每个电力数据对象x_i对应的局部密度。

示例性的，可以基于每个电力数据对象x_i的相对赋值距离，计算出截断距离。具体的，可以利用以下公式(6)计算电力数据集X中所有电力数据对象的均值距离μ：

计算出均值距离μ后，可以基于均值距离μ和每个电力数据对象x_i对应的相对赋值距离δ_i，计算截断距离：

其中，d_c表示截断距离。

计算出截断距离后，可以基于每个电力数据对象x_i与电力数据集X中所有电力数据对象的距离，以及截断距离，确定出每个电力数据对象x_i对应的局部密度。

示例性的，针对电力数据集X中每个电力数据对象x_i，可以采用以下公式(8)进行计算：

计算出电力数据集X中每个电力数据对象x_i对应的局部密度后，可以基于每个电力数据对象x_i的相对赋值距离和局部密度，确定出K个初始聚类中心。

例如，可以分别以相对赋值距离δ_i和局部密度ρ_i为横轴和纵轴，将n个电力数据对象x_i纳入此二维坐标系中，选取二维坐标系中位于第一象限中两个指标值(相对赋值距离δ_i和局部密度ρ_i)都较大的电力数据对象x_i，作为一个初始聚类中心，通过此种方式选取K个初始聚类中心。确定出的K个初始聚类中心以表示。

通过确定出聚类中心个数K，基于电力数据集X确定出每个电力数据对象x_i中每个属性的权值，进一步计算电力数据对象x_i与电力数据对象x_p的距离，以确定出每个电力数据对象x_i的相对赋值距离，再确定出每个电力数据对象x_i对应的局部密度，基于每个电力数据对象x_i的相对赋值距离和局部密度，确定出K个初始聚类中心。这样的方式，能够有效考虑到电力数据集X内每个电力数据对象的分布情况，能够利用相对赋值距离和局部密度，确定出合适的初始聚类中心(有研究表明，与簇中其他数据对象相比，簇心具有更高的局部密度，并且与比它密度更高的样本对象之间存在相对大多数普通数据更大的距离)，因此，这样确定K个初始聚类中心，更有利于聚类效果的提升。

确定出K个初始聚类中心后，可以执行步骤S3。

S3：计算第l次所述电力数据集X中每个电力数据对象x_i与第k个聚类中心之间的距离/>得到第l次的计算结果，i∈[1,n]，k∈[1,K]。

在本实施例中，可以第l次计算电力数据集X中每个电力数据对象x_i与第k个聚类中心之间的距离/>得到第l次的计算结果。

以第一次计算为例，那么，对应的聚类中心为K个初始聚类中心此时，可以利用以下公式(9)计算电力数据集X中每个电力数据对象x_i与第k个聚类中心/>之间的距离/>

这样可以简单快速地计算电力数据集X中每个电力数据对象x_i与第k个聚类中心之间的距离。

针对电力数据差异性较小的情况，为了进一步提升聚类效果，可以采用公式(10)替代公式(9)的计算方式，实现对距离的计算：

完成第l次电力数据集X中每个电力数据对象x_i与第k个聚类中心之间的距离计算后，可以得到第l次的计算结果。基于此，可以执行步骤S4。

S4：基于第l次的计算结果，计算第l+1次的聚类中心的位置，并判断是否满足结束条件，其中，结束条件为：第l+1次所有聚类中心的位置与第l次所有聚类中心的位置相同，且满足预设收敛极限。

在本实施例中，可以基于第l次的计算结果，计算第l+1次的聚类中心的位置。

示例性的，可以基于第l次的计算结果，利用以下公式(11)计算第l+1次的聚类中心：

由此，可以计算出第l+1次的新的K个聚类中心。得到新的聚类中心后，可以判断是否满足结束条件：第l+1次所有聚类中心的位置与第l次所有聚类中心的位置相同，且满足预设收敛极限。

其中，通过以下公式(12)可以计算聚类的代价函数：

通过第l次的所有聚类中心代入公式(12)计算求得U(l)，通过第l+1次的所有聚类中心代入公式(12)计算求得U(l+1)后，可以利用以下公式(13)判断是否满足预设收敛极限：

U(l+1)-U(l)<γ， (13)

其中，γ表示预设收敛极限。

公式(12)的代价函数表示第l次聚类后，所得到的第k个类S_k中所有电力数据对象到该类的聚类中心的欧氏距离之和。而公式(13)则反映第l+1次聚类得到的结果和第l次的结果是否收敛。

若收敛(即U(l+1)-U(l)<γ)，则说明聚类得到最优，认为聚类划分合理。基于此，可以执行步骤S5。

S5：若满足结束条件，则结束计算，以基于第l次的计算结果划分的K个簇作为结果输出，得到划分的K个分类{S₁,S₂,...,S_K}。

在本实施例中，第l次聚类已经满足结束条件，可以结束计算，以基于第l次的计算结果划分的K个簇作为结果输出，得到划分的K个分类{S₁,S₂,...,S_K}。

若第l+1次所有聚类中心的位置与第l次所有聚类中心的位置并不完全相同，或者，第l+1次所有聚类中心的位置与第l次所有聚类中心的位置相同，但却不收敛(即U(l+1)-U(l)≥γ)，则说明聚类未得到最优，不满足结束条件，此时可以执行步骤S6。

在本实施例中，第l次聚类仍不满足结束条件，需要继续计算，那么，可以跳转到步骤S3进行下一次计算，直到满足结束条件，可以得到K个分类{S₁,S₂,...,S_K}输出，以此实现对海量电力数据的分类。

基于同一发明构思，本申请实施例中还提供一种基于海量电力数据的云计算系统10。请参阅图2，图2为基于海量电力数据的云计算系统10的示意图。

在本实施例中，基于海量电力数据的云计算系统10可以包括：

数据获取单元11，用于执行本实施例的基于海量电力数据的云计算方法中的步骤S1。

数据挖掘单元12，用于执行本实施例的基于海量电力数据的云计算方法中的步骤S2～S6。

综上所述，本申请实施例提供一种基于海量电力数据的云计算方法、系统，通过对电力数据集进行处理，利用电力数据集X内每个电力数据对象的分布特征，从中确定出K个初始聚类中心，能够考虑到电力数据集X的分布情况，提升初始聚类中心选取的合理性，能够有效提升聚类效果。而通过计算每个电力数据对象到聚类中心的距离，进行聚类，不断迭代，直到满足结束条件，完成聚类。由此可以实现对海量电力数据的挖掘分类。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于海量电力数据的云计算方法，其特征在于，包括：

S6：若不满足结束条件，跳转到步骤S3进行下一次计算，直到满足结束条件得到K个分类{S₁,S₂,...,S_K}输出，实现对海量电力数据的分类；

其中，S2中基于所述电力数据集X内每个电力数据对象的分布特征，确定出K个初始聚类中心，包括：

基于所述电力数据集X，确定出相应的聚类中心个数K；

基于所述电力数据集X，确定出每个电力数据对象x_i中每个属性的权值；

基于每个电力数据对象x_i中每个属性的权值，计算电力数据对象x_i与电力数据对象x_p的距离，以确定出所述电力数据集X中每个电力数据对象x_i的相对赋值距离，其中，电力数据对象x_i的相对赋值距离表示电力数据对象x_i与所述电力数据集X中其他电力数据对象之间的最大距离；

基于每个电力数据对象x_i的相对赋值距离，确定出每个电力数据对象x_i对应的局部密度；

基于每个电力数据对象x_i的相对赋值距离和局部密度，确定出K个初始聚类中心。

2.根据权利要求1所述的基于海量电力数据的云计算方法，其特征在于，基于所述电力数据集X，确定出每个电力数据对象x_i中每个属性的权值，包括：

针对所述电力数据集X中每个电力数据对象x_i，进行如下处理：

确定电力数据对象x_i中第j个属性的香农熵H_ij为：

针对电力数据对象x_i中每个属性，进行以下处理：

基于电力数据对象x_i中第j个属性的香农熵H_ij，按照以下公式计算电力数据对象x_i中第j个属性的权值w_ij：

3.根据权利要求2所述的基于海量电力数据的云计算方法，其特征在于，基于每个电力数据对象x_i中每个属性的权值，计算电力数据对象x_i与电力数据对象x_p的距离，以确定出所述电力数据集X中每个电力数据对象x_i的相对赋值距离，包括：

利用以下公式计算电力数据对象x_i与电力数据对象x_p的距离：

δ_i＝max d_w(x_i,X)，

其中，δ_i表示电力数据对象x_i对应的相对赋值距离，d_w(x_i,X)表示电力数据对象x_i与所述电力数据集X中每个电力数据对象的距离，共计n个距离；

据此计算出所述电力数据集X中每个电力数据对象x_i的相对赋值距离δ_i，共计n个相对赋值距离。

4.根据权利要求3所述的基于海量电力数据的云计算方法，其特征在于，基于每个电力数据对象x_i的相对赋值距离，确定出每个电力数据对象x_i对应的局部密度，包括：

基于每个电力数据对象x_i的相对赋值距离，计算出截断距离；

基于每个电力数据对象x_i与所述电力数据集X中所有电力数据对象的距离，以及所述截断距离，确定出每个电力数据对象x_i对应的局部密度。

5.根据权利要求4所述的基于海量电力数据的云计算方法，其特征在于，基于每个电力数据对象x_i的相对赋值距离，计算出截断距离，包括：

基于每个电力数据对象x_i的相对赋值距离，利用以下公式计算所述电力数据集X中所有电力数据对象的均值距离μ：

其中，d_c表示截断距离。

6.根据权利要求5所述的基于海量电力数据的云计算方法，其特征在于，基于每个电力数据对象x_i与所述电力数据集X中所有电力数据对象的距离，以及所述截断距离，确定出每个电力数据对象x_i对应的局部密度，包括：

针对所述电力数据集X中每个电力数据对象x_i，采用以下公式进行计算：

7.根据权利要求1所述的基于海量电力数据的云计算方法，其特征在于，S3中计算第l次所述电力数据集X中每个电力数据对象x_i与第k个聚类中心之间的距离/>得到第l次的计算结果，包括：

针对第l次计算时的每个聚类中心，采用以下公式计算所述电力数据集X中每个电力数据对象x_i与第k个聚类中心之间的距离/>

8.根据权利要求1所述的基于海量电力数据的云计算方法，其特征在于，S4中基于第l次的计算结果，计算第l+1次的聚类中心的位置，包括：

9.一种基于海量电力数据的云计算系统，其特征在于，包括：

数据获取单元，用于执行权利要求1至8中任一项所述的基于海量电力数据的云计算方法中的步骤S1；

数据挖掘单元，用于执行权利要求1至8中任一项所述的基于海量电力数据的云计算方法中的步骤S2～S6。