CN116992320A

CN116992320A - 风电功率数据聚类方法、装置、计算机设备及存储介质

Info

Publication number: CN116992320A
Application number: CN202311028204.1A
Authority: CN
Inventors: 周晓; 颜俊; 潘中奇; 颜安; 李倩; 梁涛; 郭磊
Original assignee: China Three Gorges Corp
Current assignee: China Three Gorges Corp
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-11-03

Abstract

本发明涉及新能源发电模拟技术领域，公开了一种风电功率数据聚类方法、装置、计算机设备及存储介质，本发明将预设周期长度引入预设粒子群算法对样本轮廓系数进行优化，得到改进后的目标样本轮廓系数，使得改进后的目标轮廓系数能够更好地量化判断分类结果的优劣。进一步，以该改进后的目标样本轮廓系数为寻优目标，以待聚类风电功率数据集的周期长度和分类数量为寻优变量，利用粒子群算法在待聚类风电功率数据集中自动寻找最佳的数据分类长度及分类数量，相比于人工指定分类长度和分类数量，具有更好的分类效果。

Description

风电功率数据聚类方法、装置、计算机设备及存储介质

技术领域

本发明涉及新能源发电模拟技术领域，具体涉及一种风电功率数据聚类方法、装置、计算机设备及存储介质。

背景技术

新能源发电出力模拟技术可以为新能源规划、运营及电力系统运行调度等领域提供重要的技术支撑。

现有的新能源发电出力模拟技术主要集中于以日为单位的短期功率预测，需要输入数值天气预报为基础，追求预测的准确性，而在新能源发电长时间模拟方面的技术研究，主要以风电功率数据聚类方法为主，目前主流的聚类方法存在需要人为设定周期长度、类别个数，因此会引入人为因素的干扰，一旦人为设定的聚类周期、类别个数不合适，将导致新能源发电出力模拟准确性差，不满足使用条件的情况。

发明内容

有鉴于此，本发明提供了一种风电功率数据聚类方法、装置、计算机设备及存储介质，以解决风电功率数据聚类需要人为设定周期长度、类别个数，导致新能源发电出力模拟准确性差的问题。

第一方面，本发明提供了一种风电功率数据聚类方法，用于风电场站；该风电功率数据聚类方法包括：

获取风电场站的待聚类风电功率数据集和历史目标发电功率数据集；基于预设周期长度，经过预设粒子群算法处理，得到待聚类风电功率数据集对应的目标样本轮廓系数；基于预设周期长度，以目标样本轮廓系数为寻优目标，利用预设粒子群算法对待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度；基于目标分类数量和目标数据分类长度，利用预设聚类算法对待聚类风电功率数据集进行聚类处理，得到目标聚类结果。

本发明提供的风电功率数据聚类方法，将预设周期长度引入预设粒子群算法对初始样本轮廓系数进行优化，得到改进后的目标样本轮廓系数，使得改进后的目标轮廓系数能够更好地量化判断分类结果的优劣。进一步，以该改进后的目标样本轮廓系数为寻优目标，以待聚类风电功率数据集的周期长度和分类数量为寻优变量，利用粒子群算法在待聚类风电功率数据集中自动寻找最佳的数据分类长度及分类数量，相比于人工指定分类长度和分类数量，具有更好的分类效果。

在一种可选的实施方式中，获取风电场站的待聚类风电功率数据集和历史目标发电功率数据集，包括：

获取风电场站的待聚类风电功率数据集和第一历史发电功率数据集；对第一历史发电功率数据集进行预处理，得到第二历史发电功率数据集；对第二历史发电功率数据集进行格式转换，生成历史目标发电功率数据集。

本发明通过对风电场站的历史发电功率数据集进行预处理并转换为格式满足要求的历史目标发电功率数据集，提高了数据的准确度，进一步，为后续粒子群算法寻优提供了数据支持。

在一种可选的实施方式中，基于预设周期长度，经过预设粒子群算法处理，得到待聚类风电功率数据集对应的目标样本轮廓系数，包括：

基于预设粒子群算法和预设欧式距离计算方法，确定第一样本轮廓系数关系式；基于预设周期长度和预设欧式距离计算方法，对第一样本轮廓系数关系式进行优化，得到第二样本轮廓系数关系式；基于第二样本轮廓系数关系式，确定待聚类风电功率数据集对应的目标样本轮廓系数。

本发明引入预设周期长度对第一轮廓系数关系式进行改进，并利用改进后的第二样本轮廓系数关系式确定目标样本轮廓系数，使得目标样本轮廓系数能够更好地量化判断分类结果的优劣。

在一种可选的实施方式中，基于预设粒子群算法和预设欧式距离计算方法，确定第一样本轮廓系数关系式，包括：

基于预设粒子群算法对待聚类风电功率数据集进行处理，生成第一类别种群簇和第二类别种群簇；利用预设欧式距离计算方法计算第一类别种群簇中每个风电功率数据与第一类别种群簇中其他风电功率数据的第一初始平均距离；利用预设欧式距离计算方法计算第一类别种群簇中每个风电功率数据与第二类别种群簇的第二初始平均距离；基于每个第一初始平均距离和每个第二初始平均距离，确定第一样本轮廓系数关系式。

本发明利用第一初始平均距离和第二初始平均距离反映凝聚度和分离度，使得计算得到的初始轮廓系数能够更好地量化判断分类结果的优劣。

在一种可选的实施方式中，基于每个第一初始平均距离和每个第二初始平均距离，确定第一样本轮廓系数关系式，包括：

基于每个第一初始平均距离确定每个风电功率数据对应的目标第一初始平均距离；基于每个第二初始平均距离确定每个风电功率数据对应的目标第二初始平均距离；基于每个目标第一初始平均距离和每个目标第二初始平均距离，确定第三样本轮廓系数关系式；基于第三样本轮廓系数关系式，确定第一样本轮廓系数关系式。

本发明利用第一初始平均距离和第二初始平均距离反映凝聚度和分离度，使得根据第一样本轮廓系数关系式计算得到的样本轮廓系数能够更好地量化判断分类结果的优劣。

在一种可选的实施方式中，基于预设周期长度和预设欧式距离计算方法，对第一样本轮廓系数关系式进行优化，得到第二样本轮廓系数关系式，包括：

在预设欧式距离计算方法中引入预设周期长度，得到目标欧式距离计算方法；利用目标欧式距离计算方法，对第一样本轮廓系数关系式进行优化，得到第二样本轮廓系数关系式。

本发明引入预设周期长度对轮廓系数进行改进，使得改进后的目标轮廓系数能够更好地量化判断分类结果的优劣。

在一种可选的实施方式中，基于预设周期长度，以目标样本轮廓系数为寻优目标，利用预设粒子群算法对待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度，包括：

获取预设分类数量范围，以及基于预设周期长度获取周期长度范围；以预设分类数量范围和周期长度范围为约束条件，以目标样本轮廓系数为寻优目标，利用预设粒子群算法对待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度。

本发明将预设周期长度引入预设粒子群算法对样本轮廓系数进行优化，得到改进后的目标样本轮廓系数，使得改进后的目标轮廓系数能够更好地量化判断分类结果的优劣。进一步，以该改进后的目标样本轮廓系数为寻优目标，以待聚类风电功率数据集的周期长度和分类数量为寻优变量，利用粒子群算法在待聚类风电功率数据集中自动寻找最佳的数据分类长度及分类数量，相比于人工指定分类长度和分类数量，具有更好的分类效果。同时，以预设分类数量范围和周期长度范围为约束条件，对寻优过程进行约束，提高了分类效果。

在一种可选的实施方式中，对第一历史发电功率数据集进行预处理，得到第二历史发电功率数据集，包括：

在第一历史发电功率数据集中确定空值数据和异常数据；利用线性插值方法对空值数据和异常数据进行插补处理，得到第二历史发电功率数据集。

本发明通过对第一历史发电功率数据集进行插补处理，可以提高第二历史发电功率数据集的准确度。

在一种可选的实施方式中，方法还包括：

基于目标聚类结果，经过第二样本轮廓系数关系式计算，得到第一样本轮廓系数；利用第一样本轮廓系数对目标聚类结果进行评估，并根据评估结果对目标聚类结果进行调整，直至得到满足条件的目标聚类结果。

本发明通过不断重复计算样本轮廓系数以提高目标聚类结果的聚类效果。

在一种可选的实施方式中，方法还包括：

获取预设分类数量和预设数据长度；基于预设分类数量和预设数据长度，利用预设聚类算法对待聚类风电功率数据集进行聚类处理，得到预设聚类结果；将预设聚类结果与满足条件的目标聚类结果进行比对，并根据比对结果确定满足条件的目标聚类结果的聚类效果。

本发明利用设定好的预设分类数量和预设数据长度进行聚类后的预设聚类结果判断满足条件的目标聚类结果的聚类效果，可以进一步验证本发明提供的风电功率数据聚类方法的聚类效果。

第二方面，本发明提供了一种风电功率数据聚类装置，用于风电场站；该风电功率数据聚类装置包括：

获取模块，用于获取风电场站的待聚类风电功率数据集和历史目标发电功率数据集；第一处理模块，用于基于预设周期长度，经过预设粒子群算法处理，得到待聚类风电功率数据集对应的目标样本轮廓系数；第二处理模块，用于基于预设周期长度，以目标样本轮廓系数为寻优目标，利用预设粒子群算法对待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度；第三处理模块，用于基于目标分类数量和目标数据分类长度，利用预设聚类算法对待聚类风电功率数据集进行聚类处理，得到目标聚类结果。

在一种可选的实施方式中，获取模块，包括：

第一获取子模块，用于获取风电场站的待聚类风电功率数据集和第一历史发电功率数据集；预处理子模块，用于对第一历史发电功率数据集进行预处理，得到第二历史发电功率数据集；格式转换子模块，用于对第二历史发电功率数据集进行格式转换，生成历史目标发电功率数据集。

在一种可选的实施方式中，第一处理模块，包括：

第一确定子模块，用于基于预设粒子群算法和预设欧式距离计算方法，确定第一样本轮廓系数关系式；

优化子模块，用于基于预设周期长度和预设欧式距离计算方法，对第一样本轮廓系数关系式进行优化，得到第二样本轮廓系数关系式；

第二确定子模块，用于基于第二样本轮廓系数关系式，确定待聚类风电功率数据集对应的目标样本轮廓系数。

第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的风电功率数据聚类方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的风电功率数据聚类方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的风电功率数据聚类方法的流程示意图；

图2是根据本发明实施例的另一风电功率数据聚类方法的流程示意图；

图3是根据本发明实施例的某一风电场站30天内的第一历史发电功率数据集示意图；

图4是根据本发明实施例的又一风电功率数据聚类方法的流程示意图；

图5是根据本发明实施例的再一风电功率数据聚类方法的流程示意图；

图6是根据本发明实施例的基于样本轮廓系数和粒子群算法的风电功率自适应分类方法的流程示意图；

图7是根据本发明实施例的人工指定方法对应的聚类结果示意图；

图8是根据本发明实施例的基于样本轮廓系数和粒子群算法的风电功率自适应分类方法的聚类结果示意图；

图9是根据本发明实施例的风电功率数据聚类装置的结构框图；

图10是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种风电功率数据聚类方法，通过粒子群算法自动寻找最佳的数据分类长度及分类数量以达到更好的分类效果。

根据本发明实施例，提供了一种风电功率数据聚类方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种风电功率数据聚类方法，用于风电场站；图1是根据本发明实施例的风电功率数据聚类方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取风电场站的待聚类风电功率数据集和历史目标发电功率数据集。

其中，历史目标发电功率数据集可以为任意时间段内经过数据处理后的发电功率数据。

步骤S102，基于预设周期长度，经过预设粒子群算法处理，得到待聚类风电功率数据集对应的目标样本轮廓系数。

具体地，将预设周期长度引入预设粒子群算法，可以得到待聚类风电功率数据集对应的目标样本轮廓系数。

步骤S103，基于预设周期长度，以目标样本轮廓系数为寻优目标，利用预设粒子群算法对待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度。

具体地，在利用预设粒子群算法在待聚类风电功率数据集进行寻优时，将改进后的目标样本轮廓系数作为寻优目标，同时，将待聚类风电功率数据集的分类长度和分类数量作为寻优变量，提高了待聚类风电功率数据集的分类效果，使得到的目标分类数量和目标数据分类长度的准确度更高。

步骤S104，基于目标分类数量和目标数据分类长度，利用预设聚类算法对待聚类风电功率数据集进行聚类处理，得到目标聚类结果。

其中，预设聚类算法可以为改进欧式距离(Euclidean)的K-means聚类算法。

具体地，将预设粒子群算法的寻优结果，即目标分类数量和目标数据分类长度作为参数输入改进欧式距离的K-means聚类算法，并利用该改进欧式距离的K-means聚类算法对待聚类风电功率数据集进行聚类，可以得到对待聚类风电功率数据集的目标聚类结果。

本实施例提供的风电功率数据聚类方法，利用粒子群算法自动寻找最佳的数据分类长度及分类数量，相比于人工指定分类长度和分类数量，具有更好的分类效果。

在本实施例中提供了一种风电功率数据聚类方法，用于风电场站；图2是根据本发明实施例的风电功率数据聚类方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取风电场站的待聚类风电功率数据集和历史目标发电功率数据集。

具体地，上述步骤S201包括：

步骤S2011，获取风电场站的待聚类风电功率数据集和第一历史发电功率数据集。

其中，第一历史发电功率数据集为任意时间段内的初始发电功率数据，比如，数据的时间间隔为15分钟，数据的长度为一年。

如图3所示，为某一风电场站30天内的第一历史发电功率数据集。

步骤S2012，对第一历史发电功率数据集进行预处理，得到第二历史发电功率数据集。

具体地，通过对第一历史发电功率数据集进行预处理，可以去除掉第一历史发电功率数据集中不符合要求的异常数据等。

步骤S2013，对第二历史发电功率数据集进行格式转换，生成历史目标发电功率数据集。

具体地，格式转换的目的是使得第二历史发电功率数据集满足后续预设粒子群算法的运行工具。

比如，当利用Python运行该预设粒子群算法时，则需要利用Python中的pandas库将数据转化为dataframe格式，且包含日期列和功率列。

其中，dataframe格式表示由一组数据与一对索引(行索引和列索引)组成的表格型数据结构。

在一些可选的实施方式中，上述步骤S2012包括：

步骤a1，在第一历史发电功率数据集中确定空值数据和异常数据。

步骤a2，利用线性插值方法对空值数据和异常数据进行插补处理，得到第二历史发电功率数据集。

具体地，当第一历史发电功率数据集中存在不符合要求的空值数据和异常数据时，可以利用线性插值方法进行插补处理，并得到对应的第二历史发电功率数据集。其中，本实施例对插补处理的方法不做具体限定，只要满足数据处理需求即可。

步骤S202，基于预设周期长度，经过预设粒子群算法处理，得到待聚类风电功率数据集对应的目标样本轮廓系数。详细请参见图1所示实施例的步骤S102，在此不再赘述。

步骤S203，基于预设周期长度，以目标样本轮廓系数为寻优目标，利用预设粒子群算法对待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度。详细请参见图1所示实施例的步骤S103，在此不再赘述。

步骤S204，基于目标分类数量和目标数据分类长度，利用预设聚类算法对待聚类风电功率数据集进行聚类处理，得到目标聚类结果。详细请参见图1所示实施例的步骤S104，在此不再赘述。

本实施例提供的风电功率数据聚类方法，通过对风电场站的历史发电功率数据集进行预处理并转换为格式满足要求的历史目标发电功率数据集，提高了数据的准确度，进一步，为后续粒子群算法寻优提供了数据支持。

在本实施例中提供了一种风电功率数据聚类方法，用于风电场站；图4是根据本发明实施例的风电功率数据聚类方法的流程图，如图4所示，该流程包括如下步骤：

步骤S401，获取风电场站的待聚类风电功率数据集和历史目标发电功率数据集。详细请参见图2所示实施例的步骤S201，在此不再赘述。

步骤S402，基于预设周期长度，经过预设粒子群算法处理，得到待聚类风电功率数据集对应的目标样本轮廓系数。

具体地，上述步骤S402包括：

步骤S4021，基于预设粒子群算法和预设欧式距离计算方法，确定第一样本轮廓系数关系式。

其中，样本轮廓系数表示一种聚类评估指标，用于评估数据聚类(分类)的效果。其取值范围在[-1，1]之间，指标值越大表示聚类结果聚类效果越好。

具体地，在预设粒子群算法中引入预设欧式距离计算方法，可以确定样本轮廓系数的第一计算关系式，即第一样本轮廓系数关系式。

步骤S4022，基于预设周期长度和预设欧式距离计算方法，对第一样本轮廓系数关系式进行优化，得到第二样本轮廓系数关系式。

具体地，在预设欧式距离计算方法中引入预设周期长度，可以对第一样本轮廓系数关系式进行优化，得到样本轮廓系数的第一计算关系式，即第二样本轮廓系数关系式。

步骤S4023，基于第二样本轮廓系数关系式，确定待聚类风电功率数据集对应的目标样本轮廓系数。

具体地，利用改进后的第二样本轮廓系数关系式，可以计算得到待聚类风电功率数据集对应的目标样本轮廓系数。

在一些可选的实施方式中，上述步骤S4021包括：

步骤b1，基于预设粒子群算法对待聚类风电功率数据集进行处理，生成第一类别种群簇和第二类别种群簇。

步骤b2，利用预设欧式距离计算方法计算第一类别种群簇中每个风电功率数据与第一类别种群簇中其他风电功率数据的第一初始平均距离。

步骤b3，利用预设欧式距离计算方法计算第一类别种群簇中每个风电功率数据与第二类别种群簇的第二初始平均距离。

步骤b4，基于每个第一初始平均距离和每个第二初始平均距离，确定第一样本轮廓系数关系式。

其中，第一初始平均距离用于反映待聚类风电功率数据集中数据的凝聚度；第二初始平均距离用于反映待聚类风电功率数据集中数据的分离度。

首先，利用预设粒子群算法对待聚类风电功率数据集进行处理，可以将待聚类风电功率数据集初步分为数据种类相同的第一类别种群簇和数据种类不同的第二类别种群簇。其中，第一类别种群簇和第二类别种群簇可以为一个或多个。

其次，计算簇内不相似度，对于样本中第i个风电功率数据，计算它到所属簇，即第一类别种群簇中所有其他风电功率数据的第一初始平均距离。

然后，计算簇间不相似度，对于样本中第i个风电功率数据，计算它到其他簇，即第二类别种群簇的第二初始平均距离。

最后，根据该第一初始平均距离和第二初始平均距离可以计算得到待聚类风电功率数据集的初始轮廓系数。

其中，上述第一初始平均距离和第二初始平均距离利用预设欧式距离计算方法进行计算，预设欧式距离计算方法的计算公式如下关系式(1)所示：

式中：X¹表示X簇的序列1；X²表示X簇的序列2；T表示序列的周期总长度；表示序列1在t时刻的值。

在一些可选的实施方式中，上述步骤b4包括：

步骤b41，基于每个第一初始平均距离确定每个风电功率数据对应的目标第一初始平均距离。

步骤b42，基于每个第二初始平均距离确定每个风电功率数据对应的目标第二初始平均距离。

步骤b43，基于每个目标第一初始平均距离和每个目标第二初始平均距离，确定第三样本轮廓系数关系式。

步骤b44，基于第三样本轮廓系数关系式，确定第一样本轮廓系数关系式。

其中，目标第一初始平均距离为所有第一初始平均距离的平均值，记为a(i)；目标第二初始平均距离为所有第二初始平均距离中的最小值，记为b(i)。

具体地，根据上述关系式(1)所示的预设欧式距离计算方法的计算公式，可以计算得到目标第一初始平均距离a(i)和目标第二初始平均距离b(i)，具体地计算公式分别为如下关系式(2)和(3)：

式中：M表示X簇的对象总数；y，z，c表示不同的簇。

进一步，根据上述关系式(2)和(3)计算得到的目标第一初始平均距离a(i)和目标第二初始平均距离b(i)可以得到第三样本轮廓系数关系式，如下关系式(4)所示：

式中：S(i)表示每个风电功率数据对应的初始轮廓系数S(i)。

最后，根据上述关系式(4)可以确定对应的第一样本轮廓系数关系式，如下关系式(5)所示：

式中：S表示待聚类风电功率数据集的初始轮廓系数。

在一些可选的实施方式中，上述步骤S4022包括：

步骤c1，在预设欧式距离计算方法中引入预设周期长度，得到目标欧式距离计算方法。

步骤c2，利用目标欧式距离计算方法，对第一样本轮廓系数关系式进行优化，得到第二样本轮廓系数关系式。

首先，引入预设周期长度T_s后，上述关系式(1)所示的目标欧式距离计算方法的计算公式变为如下关系式(6)：

进一步，可以根据上述关系式(6)，并结合上述关系式(2)和(3)计算得到第一目标平均距离a(i)_s和第二目标平均距离b(i)_s。

然后，对上述关系式(4)进行改进，可以得到如下关系式(7：)：

式中：表示每个风电功率数据对应的目标轮廓系数。

最后，可以得到第二样本轮廓系数关系式，如下关系式(8)所示：

式中：S_new表示待聚类风电功率数据集的目标轮廓系数。

步骤S403，基于预设周期长度，以目标样本轮廓系数为寻优目标，利用预设粒子群算法对待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度。详细请参见图1所示实施例的步骤S103，在此不再赘述。

步骤S404，基于目标分类数量和目标数据分类长度，利用预设聚类算法对待聚类风电功率数据集进行聚类处理，得到目标聚类结果。详细请参见图1所示实施例的步骤S104，在此不再赘述。

步骤S405，基于目标聚类结果，经过第二样本轮廓系数关系式计算，得到第一样本轮廓系数。

具体地，利用上述关系式(8)所示的改进的第二样本轮廓系数关系式，可以计算得到目标聚类结果下对应的目标聚类结果

步骤S406，利用第一样本轮廓系数对目标聚类结果进行评估，并根据评估结果对目标聚类结果进行调整，直至得到满足条件的目标聚类结果。

具体地，利用第一样本轮廓系数评估目标聚类结果的聚类效果，当聚类效果不满足要求时，将第一样本轮廓系数返回至预设粒子群算法，并重复上述步骤S402至步骤S404直至预设粒子群算法输出最优的目标分类数量和目标数据分类长度，并在该目标分类数量和目标数据分类长度下，利用K-means聚类算法待聚类风电功率数据集进行聚类处理，得到最佳目标聚类结果，即满足条件的目标聚类结果。

步骤S407，获取预设分类数量和预设数据长度。

其中，预设分类数量和预设数据长度为人工指定的数据。

步骤S408，基于预设分类数量和预设数据长度，利用预设聚类算法对待聚类风电功率数据集进行聚类处理，得到预设聚类结果。

具体地，在预设分类数量和预设数据长度的基础上，利用改进欧式距离(Euclidean)的K-means聚类算法对待聚类风电功率数据集进行聚类处理，可以得到对应的预设聚类结果。

步骤S409，将预设聚类结果与满足条件的目标聚类结果进行比对，并根据比对结果确定满足条件的目标聚类结果的聚类效果。

具体地，根据预设聚类结果与目标聚类结果的比对结果可以确定上述步骤S406得到的最佳的目标聚类结果的聚类效果。

其中，预设聚类结果与上述最佳的目标聚类结果的差异越大，则表明上述最佳的目标聚类结果的聚类效果越好。

本实施例提供的风电功率数据聚类方法，利用初始轮廓系数确定初始分类数量和初始数据分类长度，为后续量化判断分类结果的优劣提供了判断基础，同时，利用第一初始平均距离和第二初始平均距离反映凝聚度和分离度，使得计算得到的初始轮廓系数能够更好地量化判断分类结果的优劣。相比于人工指定分类长度和分类数量，具有更好的分类效果。

在本实施例中提供了一种风电功率数据聚类方法，用于风电场站；图5是根据本发明实施例的风电功率数据聚类方法的流程图，如图5所示，该流程包括如下步骤：

步骤S501，获取风电场站的待聚类风电功率数据集和历史目标发电功率数据集。详细请参见图2所示实施例的步骤S201，在此不再赘述。

步骤S502，基于预设周期长度，经过预设粒子群算法处理，得到待聚类风电功率数据集对应的目标样本轮廓系数。详细请参见图4所示实施例的步骤S402，在此不再赘述。

步骤S503，基于预设周期长度，以目标样本轮廓系数为寻优目标，利用预设粒子群算法对待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度。

具体地，上述步骤S503包括：

步骤S5031，获取预设分类数量范围，以及基于预设周期长度获取周期长度范围。

其中，预设分类数量范围为预先设置的数据分类数量的范围，比如3-7类等。

周期长度范围为以预设周期长度为边界的数据的周期长度范围，比如48-192小时等。

步骤S5032，以预设分类数量范围和周期长度范围为约束条件，以目标样本轮廓系数为寻优目标，利用预设粒子群算法对待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度。

具体地，在利用预设粒子群算法在待聚类风电功率数据集进行寻优时，将待聚类风电功率数据集的周期长度和分类数量作为目标寻优变量，并将预设分类数量范围和周期长度范围作为约束条件对寻优过程进行约束，当目标轮廓系数最大时预设粒子群算法输出聚类的最佳分类数量和分类数据长度，即目标分类数量和目标数据分类长度。

其中，将待聚类风电功率数据集的周期长度和分类数量作为目标寻优变量，可以寻找更优的时间长度和分类数量，让分类结果可以更好地服务于风电功率的预测与模拟。

比如，当风电功率的模拟或预测的时间长度为7天时，如果分类的周期长度是1天，则需要进行7次预测，如果分类的周期长度是7天，则仅需进行1次预测。

步骤S504，基于目标分类数量和目标数据分类长度，利用预设聚类算法对待聚类风电功率数据集进行聚类处理，得到目标聚类结果。详细请参见图1所示实施例的步骤S104，在此不再赘述。

本实施例提供的风电功率数据聚类方法，引入预设周期长度对轮廓系数进行改进，使得改进后的目标轮廓系数能够更好地量化判断分类结果的优劣。进一步，将预设周期长度和初始分类数量作为目标变量，可以寻优到更好的目标分类数量和目标数据分类长度，具有更好的分类效果。

在一实例中，提供一种基于样本轮廓系数和粒子群算法的风电功率自适应分类方法，如图6所示，具体步骤如下：

1、获取风电场站30天的历史发电功率数据，对数据进行预处理，对空值和异常值用线性插值进行插补。

2、利用Python中的pandas库将数据转化为dataframe格式，包含日期列和功率列。

3、定义粒子群算法参数，包括粒子的维度、粒子个数、迭代次数等。

4、定义设定周期长度T_s，在该周期长度下，以最佳的轮廓系数(数值越大)为优化函数，利用粒子群算法寻优最佳的分类数量C_s。

5、定义变量数据长度和分类数量的范围。如数据长度可以定义为48-192小时等，分类数量可以定义为3-7类等。

6、利用改进样本轮廓系数(数值越大)为优化函数，以周期长度T和分类数量C为优化变量，求解最佳方案，最佳方案(改进轮廓系数最大的值)对应的数据长度和分类数量即为聚类的最佳数据长度和分类数量。

7、将粒子群算法的结果(数据长度和分类数量)作为参数输入给改进欧式距离的K-means聚类，得到聚类结果。

进一步，以上述风电场为例，分别进行人工指定长度或类别数量和本实例提供的基于样本轮廓系数和粒子群算法的风电功率自适应分类方法进行聚类，并对比分析。

具体地，人工指定的方法中，指定的时间长度为24小时，即按照专家经验，以一天为时间长度单位去聚类，指定的类别为5类，利用Euclidean K-means方法聚类后，选取每类各10条曲线，将聚类的结果绘制成图，如图7所示。

从图7中可以看出，指定时间长度为24小时、类别个数为5类的聚类结果中，每一类曲线的特征有一定差异，类与类之间能够观察到界限，但分类结果交叉模糊的情况比较严重，分类效果不令人满意。

进一步，利用本实例提供的基于样本轮廓系数和粒子群算法的风电功率自适应分类方法进行聚类：设定时间长度T_s为96个点(24个小时)，得到最佳的分类长度是48个点(12个小时)，最佳的分类类别是4类，选取每类各10条曲线，分类结果如图8所示。

从图8中可以看出，相比于人工指定的分类结果，应用本实例提供的基于样本轮廓系数和粒子群算法的风电功率自适应分类方法的结果具有更好的分类特征，类与类之间能够观察到清晰的界限，分类结果交叉模糊情况明显减少，分类效果令人满意。因此，利用改进轮廓系数对两种方案的分类结果进行测算，人工指定方案的测算结果为0.22，所提出方案的测算结果为0.51，改进样本轮廓系数大幅提升。

在本实施例中还提供了一种风电功率数据聚类装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种风电功率数据聚类装置，用于风电场站；如图9所示，包括：

获取模块901，用于获取风电场站的待聚类风电功率数据集和历史目标发电功率数据集。

第一处理模块902，用于基于预设周期长度，经过预设粒子群算法处理，得到待聚类风电功率数据集对应的目标样本轮廓系数。

第二处理模块903，用于基于预设周期长度，以目标样本轮廓系数为寻优目标，利用预设粒子群算法对待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度。

第三处理模块904，用于基于目标分类数量和目标数据分类长度，利用预设聚类算法对待聚类风电功率数据集进行聚类处理，得到目标聚类结果。

在一些可选的实施方式中，获取模块901包括：

第一获取子模块，用于获取风电场站的待聚类风电功率数据集和第一历史发电功率数据集。

预处理子模块，用于对第一历史发电功率数据集进行预处理，得到第二历史发电功率数据集。

格式转换子模块，用于对第二历史发电功率数据集进行格式转换，生成历史目标发电功率数据集。

在一些可选的实施方式中，第一处理模块902包括：

第一确定子模块，用于基于预设粒子群算法和预设欧式距离计算方法，确定第一样本轮廓系数关系式。

优化子模块，用于基于预设周期长度和预设欧式距离计算方法，对第一样本轮廓系数关系式进行优化，得到第二样本轮廓系数关系式。

在一些可选的实施方式中，第一确定子模块包括：

第一处理单元，用于基于预设粒子群算法对待聚类风电功率数据集进行处理，生成第一类别种群簇和第二类别种群簇。

第一计算单元，用于利用预设欧式距离计算方法计算第一类别种群簇中每个风电功率数据与第一类别种群簇中其他风电功率数据的第一初始平均距离。

第二计算单元，用于利用预设欧式距离计算方法计算第一类别种群簇中每个风电功率数据与第二类别种群簇的第二初始平均距离。

第一确定单元，用于基于每个第一初始平均距离和每个第二初始平均距离，确定第一样本轮廓系数关系式。

第二确定单元，用于基于每个第一初始平均距离和每个第二初始平均距离，确定第一样本轮廓系数关系式。

在一些可选的实施方式中，第二确定单元包括：

第一确定子单元，用于基于每个第一初始平均距离确定每个风电功率数据对应的目标第一初始平均距离。

第二确定子单元，用于基于每个第二初始平均距离确定每个风电功率数据对应的目标第二初始平均距离。

第三确定子单元，用于基于每个目标第一初始平均距离和每个目标第二初始平均距离，确定第三样本轮廓系数关系式。

第四确定子单元，用于基于第三样本轮廓系数关系式，确定第一样本轮廓系数关系式。

在一些可选的实施方式中，优化子模块包括：

引入单元，用于在预设欧式距离计算方法中引入预设周期长度，得到目标欧式距离计算方法。

优化单元，用于利用目标欧式距离计算方法，对第一样本轮廓系数关系式进行优化，得到第二样本轮廓系数关系式。

在一些可选的实施方式中，第二处理模块903包括：

第三获取子模块，用于获取预设分类数量范围，以及基于预设周期长度获取周期长度范围。

寻优处理子模块，用于以预设分类数量范围和周期长度范围为约束条件，以目标样本轮廓系数为寻优目标，利用预设粒子群算法对待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度。

在一些可选的实施方式中，预处理子模块包括：

确定单元，用于在第一历史发电功率数据集中确定空值数据和异常数据。

第二处理单元，用于利用线性插值方法对空值数据和异常数据进行插补处理，得到第二历史发电功率数据集。

在一些可选的实施方式中，风电功率数据聚类装置还包括：

计算模块，用于基于目标聚类结果，经过第二样本轮廓系数关系式计算，得到第一样本轮廓系数。

调整模块，用于利用第一样本轮廓系数对目标聚类结果进行评估，并根据评估结果对目标聚类结果进行调整，直至得到满足条件的目标聚类结果。

在一些可选的实施方式中，风电功率数据聚类装置还包括：

第一获取模块，用于获取预设分类数量和预设数据长度。

第四处理模块，用于基于预设分类数量和预设数据长度，利用预设聚类算法对待聚类风电功率数据集进行聚类处理，得到预设聚类结果。

比对确定模块，用于将预设聚类结果与满足条件的目标聚类结果进行比对，并根据比对结果确定满足条件的目标聚类结果的聚类效果。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的风电功率数据聚类装置是以功能单元的形式来呈现，这里的单元是指ASIC(Application Specific Integrated Circuit，专用集成电路)电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供一种计算机设备，具有上述图9所示的风电功率数据聚类装置。

请参阅图10，图10是本发明可选实施例提供的一种计算机设备的结构示意图，如图10所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，存储器20存储有可由至少一个处理器10执行的指令，以使至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括通信接口30，用于该计算机设备与其他设备或通信网络通信。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种风电功率数据聚类方法，用于风电场站；其特征在于，所述方法包括：

获取所述风电场站的待聚类风电功率数据集和历史目标发电功率数据集；

基于预设周期长度，经过预设粒子群算法处理，得到所述待聚类风电功率数据集对应的目标样本轮廓系数；

基于所述预设周期长度，以所述目标样本轮廓系数为寻优目标，利用所述预设粒子群算法对所述待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度；

基于所述目标分类数量和所述目标数据分类长度，利用预设聚类算法对所述待聚类风电功率数据集进行聚类处理，得到目标聚类结果。

2.根据权利要求1所述的方法，其特征在于，获取所述风电场站的待聚类风电功率数据集和历史目标发电功率数据集，包括：

获取所述风电场站的所述待聚类风电功率数据集和第一历史发电功率数据集；

对所述第一历史发电功率数据集进行预处理，得到第二历史发电功率数据集；

对所述第二历史发电功率数据集进行格式转换，生成所述历史目标发电功率数据集。

3.根据权利要求1所述的方法，其特征在于，基于预设周期长度，经过预设粒子群算法处理，得到所述待聚类风电功率数据集对应的目标样本轮廓系数，包括：

基于所述预设粒子群算法和预设欧式距离计算方法，确定第一样本轮廓系数关系式；

基于所述预设周期长度和所述预设欧式距离计算方法，对所述第一样本轮廓系数关系式进行优化，得到第二样本轮廓系数关系式；

基于所述第二样本轮廓系数关系式，确定所述待聚类风电功率数据集对应的所述目标样本轮廓系数。

4.根据权利要求3所述的方法，其特征在于，基于所述预设粒子群算法和预设欧式距离计算方法，确定第一样本轮廓系数关系式，包括：

基于所述预设粒子群算法对所述待聚类风电功率数据集进行处理，生成第一类别种群簇和第二类别种群簇；

利用所述预设欧式距离计算方法计算所述第一类别种群簇中每个风电功率数据与所述第一类别种群簇中其他风电功率数据的第一初始平均距离；

利用所述预设欧式距离计算方法计算所述第一类别种群簇中每个风电功率数据与所述第二类别种群簇的第二初始平均距离；

基于每个所述第一初始平均距离和每个所述第二初始平均距离，确定所述第一样本轮廓系数关系式。

5.根据权利要求4所述的方法，其特征在于，基于每个所述第一初始平均距离和每个所述第二初始平均距离，确定所述第一样本轮廓系数关系式，包括：

基于每个所述第一初始平均距离确定每个所述风电功率数据对应的目标第一初始平均距离；

基于每个所述第二初始平均距离确定每个所述风电功率数据对应的目标第二初始平均距离；

基于每个所述目标第一初始平均距离和每个所述目标第二初始平均距离，确定第三样本轮廓系数关系式；

基于所述第三样本轮廓系数关系式，确定所述第一样本轮廓系数关系式。

6.根据权利要求3所述的方法，其特征在于，基于所述预设周期长度和所述预设欧式距离计算方法，对所述第一样本轮廓系数关系式进行优化，得到第二样本轮廓系数关系式，包括：

在所述预设欧式距离计算方法中引入所述预设周期长度，得到目标欧式距离计算方法；

利用所述目标欧式距离计算方法，对所述第一样本轮廓系数关系式进行优化，得到所述第二样本轮廓系数关系式。

7.根据权利要求1所述的方法，其特征在于，基于所述预设周期长度，以所述目标样本轮廓系数为寻优目标，利用所述预设粒子群算法对所述待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度，包括：

获取预设分类数量范围，以及基于所述预设周期长度获取周期长度范围；

以所述预设分类数量范围和所述周期长度范围为约束条件，以所述目标样本轮廓系数为寻优目标，利用所述预设粒子群算法对所述待聚类风电功率数据集进行寻优处理，得到所述目标分类数量和所述目标数据分类长度。

8.根据权利要求2所述的方法，其特征在于，对所述第一历史发电功率数据集进行预处理，得到第二历史发电功率数据集，包括：

在所述第一历史发电功率数据集中确定空值数据和异常数据；

利用线性插值方法对所述空值数据和所述异常数据进行插补处理，得到所述第二历史发电功率数据集。

9.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于所述目标聚类结果，经过所述第二样本轮廓系数关系式计算，得到第一样本轮廓系数；

利用所述第一样本轮廓系数对所述目标聚类结果进行评估，并根据评估结果对所述目标聚类结果进行调整，直至得到满足条件的所述目标聚类结果。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

获取预设分类数量和预设数据长度；

基于所述预设分类数量和所述预设数据长度，利用所述预设聚类算法对所述待聚类风电功率数据集进行聚类处理，得到预设聚类结果；

将所述预设聚类结果与所述满足条件的所述目标聚类结果进行比对，并根据比对结果确定所述满足条件的所述目标聚类结果的聚类效果。

11.一种风电功率数据聚类装置，用于风电场站；其特征在于，所述装置包括：

获取模块，用于获取所述风电场站的待聚类风电功率数据集和历史目标发电功率数据集；

第一处理模块，用于基于预设周期长度，经过预设粒子群算法处理，得到所述待聚类风电功率数据集对应的目标样本轮廓系数；

第二处理模块，用于基于所述预设周期长度，以所述目标样本轮廓系数为寻优目标，利用所述预设粒子群算法对所述待聚类风电功率数据集进行寻优处理，得到目标分类数量和目标数据分类长度；

第三处理模块，用于基于所述目标分类数量和所述目标数据分类长度，利用预设聚类算法对所述待聚类风电功率数据集进行聚类处理，得到目标聚类结果。

12.根据权利要求11所述的装置，其特征在于，所述获取模块，包括：

第一获取子模块，用于获取所述风电场站的所述待聚类风电功率数据集和第一历史发电功率数据集；

预处理子模块，用于对所述第一历史发电功率数据集进行预处理，得到第二历史发电功率数据集；

格式转换子模块，用于对所述第二历史发电功率数据集进行格式转换，生成所述历史目标发电功率数据集。

13.根据权利要求11所述的装置，其特征在于，所述第一处理模块，包括：

第一确定子模块，用于基于所述预设粒子群算法和预设欧式距离计算方法，确定第一样本轮廓系数关系式；

优化子模块，用于基于所述预设周期长度和所述预设欧式距离计算方法，对所述第一样本轮廓系数关系式进行优化，得到第二样本轮廓系数关系式；

第二确定子模块，用于基于所述第二样本轮廓系数关系式，确定所述待聚类风电功率数据集对应的所述目标样本轮廓系数。

14.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至10中任一项所述的风电功率数据聚类方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至10中任一项所述的风电功率数据聚类方法。