CN115600119A - 适用于风力发电的数据处理方法及系统 - Google Patents

适用于风力发电的数据处理方法及系统 Download PDF

Info

Publication number
CN115600119A
CN115600119A CN202211592281.5A CN202211592281A CN115600119A CN 115600119 A CN115600119 A CN 115600119A CN 202211592281 A CN202211592281 A CN 202211592281A CN 115600119 A CN115600119 A CN 115600119A
Authority
CN
China
Prior art keywords
data point
target data
neighborhood
degree
data points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211592281.5A
Other languages
English (en)
Other versions
CN115600119B (zh
Inventor
卜庆凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Zuo'an Data Technology Co ltd
Original Assignee
Qingdao Zuo'an Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Zuo'an Data Technology Co ltd filed Critical Qingdao Zuo'an Data Technology Co ltd
Priority to CN202211592281.5A priority Critical patent/CN115600119B/zh
Publication of CN115600119A publication Critical patent/CN115600119A/zh
Application granted granted Critical
Publication of CN115600119B publication Critical patent/CN115600119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/70Wind energy
    • Y02E10/72Wind turbines with rotation axis in wind direction

Landscapes

  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种适用于风力发电的数据处理方法及系统,该方法包括:获取风电机组的风速数据以及功率数据;获取目标数据点的邻域数据点在散点图中的分布方向混乱程度,获取每个目标数据点的邻域数据点在散点图中的堆积度,获取目标数据点隶属于每个聚类中心的隶属度影响因子,进行C均值聚类,并获取正常数据点。本发明自适应获取均值聚类算法的隶属度影响因子,从而使得在基于隶属度影响因子利用均值聚类算法进行数据点聚类时,提高分类的精度,实现了正常数据点的精确获取。

Description

适用于风力发电的数据处理方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种适用于风力发电的数据处理方法及系统。
背景技术
在风力发电的过程中,由于风向和风速是随机变化的,因此,产生的风电功率具有随机性和波动性,在现有技术中往往是通过实测的风速和功率获取风电功率曲线来评估风电机组的运行状况。然而在风电场运行过程中,由于风电机组设备以及噪声的影响,会产生大量的异常数据,若对这些异常数据不进行剔除,直接利用获得的数据来对风电机组的运行状况评估,会使得评估产生较大的误差,因此,在进行风电机组的运行状况评估前,需要将数据中的异常数据剔除,以得到精准的数据。
然而,风电数据的异常数据点主要为三类:一类为距离正常数据较近的离散数据点,一类为距离正常数据较远的离散数据点,一类为中部堆积型数据点,故风电数据中的异常数据点的原因不同,其造成的数据分布特征也不同,在利用C均值聚类算法中的隶属度影响因子来对数据点进行分类时,利用固定的隶属度影响因子在数据中的异常数据点和正常数据点区分时会产生误差,使得正常的数据点、异常数据点分类错误,从而导致得到的正常数据并不准确。
发明内容
本发明提供一种适用于风力发电的数据处理方法及系统,以解决现有的C均值聚类算法会使得正常的数据点、异常数据点分类错误,从而导致得到的正常数据并不准确的问题。
本发明的一种适用于风力发电的数据处理方法采用如下技术方案:
获取风电机组的风速数据以及功率数据;
根据风速数据以及功率数据获取风速-功率的散点图;
以散点图中每个数据点为目标数据点,获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离,根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度;
预设每个目标数据点的纵坐标值波动范围,获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值,获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值,根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度;
获取数据点隶属于均值聚类算法的每个聚类中心的隶属度,根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子;
根据隶属度影响因子获取均值聚类的目标函数,根据均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类,根据最终聚类中数据点个数获取正常数据点。
优选的,在计算目标数据点隶属于每个聚类中心的隶属度影响因子之前,包括:
获取目标数据点的邻域数据点对应的分布方向混乱程度与在目标数据点的邻域数据点为目标数据点时对应的邻域数据点对应的分布方向混乱程度之间的分布方向混乱程度差值;
根据第二欧式距离、分布方向混乱程度差值绝对值获取目标数据点的邻域数据点在目标数据点的邻域内的参与度;
根据参与度获取目标数据点的邻域数据点中的目标邻域数据点;
将目标邻域数据点作为获取目标数据点隶属于每个聚类中心的隶属度影响因子时的邻域数据点。
优选的,对预设的第二欧式距离权重与第二欧式距离的乘积、分布方向混乱程度差值权重与分布方向混乱程度差值绝对值的乘积进行求和,根据求和后的和值的倒数得到目标数据点的邻域数据点在目标数据点的邻域内的参与度。
优选的,目标数据点隶属于每个聚类中心的隶属度影响因子的计算公式:
Figure DEST_PATH_IMAGE001
式中,
Figure 279675DEST_PATH_IMAGE002
表示第
Figure 376640DEST_PATH_IMAGE003
个目标数据点
Figure 94060DEST_PATH_IMAGE004
隶属于第
Figure 692532DEST_PATH_IMAGE005
个聚类的聚类中心
Figure 100002_DEST_PATH_IMAGE006
的隶属度影响因 子;
Figure 913429DEST_PATH_IMAGE007
表示第
Figure 939154DEST_PATH_IMAGE003
个目标数据点
Figure 143870DEST_PATH_IMAGE004
对应的邻域数据点的堆积度;
Figure 546032DEST_PATH_IMAGE008
表示第
Figure 418173DEST_PATH_IMAGE003
个目标数据点
Figure 614800DEST_PATH_IMAGE004
对应的邻域数据点的分布方向混乱程度;
Figure 572391DEST_PATH_IMAGE009
表示第
Figure 778245DEST_PATH_IMAGE003
个目标数据点
Figure 504892DEST_PATH_IMAGE004
的邻域中第
Figure 137999DEST_PATH_IMAGE010
个邻域数据点
Figure 51728DEST_PATH_IMAGE011
与第
Figure 530114DEST_PATH_IMAGE005
个聚类的聚 类中心
Figure 376847DEST_PATH_IMAGE006
的第三欧式距离;
Figure 915276DEST_PATH_IMAGE012
表示第
Figure 847460DEST_PATH_IMAGE003
个目标数据点
Figure 129537DEST_PATH_IMAGE004
的邻域中第
Figure 830777DEST_PATH_IMAGE010
个邻域数据点
Figure 540107DEST_PATH_IMAGE011
的隶属于第
Figure 694007DEST_PATH_IMAGE005
个聚类的聚类 中心的隶属度;
Figure 779775DEST_PATH_IMAGE006
表示第
Figure 335521DEST_PATH_IMAGE005
个聚类的聚类中心;
Figure 746911DEST_PATH_IMAGE013
表示模糊加权指数;
Figure 122529DEST_PATH_IMAGE014
表示第
Figure 480829DEST_PATH_IMAGE003
个目标数据点
Figure 156661DEST_PATH_IMAGE004
与其邻域中第
Figure 473373DEST_PATH_IMAGE010
个邻域数据点
Figure 336287DEST_PATH_IMAGE011
的第二欧式距离;
Figure DEST_PATH_IMAGE015
表示第
Figure 701540DEST_PATH_IMAGE003
个目标数据点
Figure 700720DEST_PATH_IMAGE004
的邻域中的邻域数据点的个数。
优选的,获取目标数据点的邻域数据点在散点图中的分布方向混乱程度包括:
根据在目标数据点的每个方向上的每两个相邻数据点的第一欧式距离获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度;
根据目标数据点在所有方向上的分布度获取分布度熵值,并将分布度熵值作为目标数据点的邻域数据点在散点图中的分布方向混乱程度。
优选的,获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度包括:
以目标数据点为起始点,以起始点在散点图中的每个方向上最后一个数据点为终止点,得到在目标数据点的每个方向上数据点的总数;
获取在目标数据点的每个方向上的所有相邻数据点的第一欧式距离的均值;
根据目标数据点的每个方向上数据点的总数与其在对应方向上的第一欧式距离的均值的倒数的乘积得到目标数据点在每个方向上的邻域数据点的分布度。
优选的,获取每个目标数据点的邻域数据点在散点图中的堆积度包括:
获取每个数据点对应的第一均值与目标数据点对应的第二均值的均值比值,并得到均值比值与1的差值绝对值;
获取目标数据点的纵坐标值波动范围内所有数据点与目标数据点对应差值绝对值的均值;
对差值绝对值的均值进行负相关计算得到每个目标数据点的邻域数据点在散点图中的堆积度。
优选的,预设每个目标数据点的纵坐标值波动范围包括:
将目标数据点的纵坐标值减去预设的纵坐标值阈值作为纵坐标值波动范围的最小值;
将目标数据点的纵坐标值加上预设的纵坐标值阈值作为纵坐标值波动范围的最大值;
根据纵坐标值波动范围的最小值和纵坐标值波动范围的最大值得到每个目标数据点的预设的纵坐标值波动范围。
优选的,将数据点个数最多的最终聚类中的数据点记为正常数据点,除数据点个数最多的最终聚类外的其他最终聚类对应数据点记为异常数据点,并对异常数据点进行剔除。
本发明还提供一种适用于风力发电的数据处理系统,包括:
数据采集模块,用于获取风电机组的风速数据以及功率数据;
第一参数计算模块,用于根据风速数据以及功率数据获取风速-功率的散点图;以散点图中每个数据点为目标数据点,获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离,根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度;
第二参数计算模块,用于预设每个目标数据点的纵坐标值波动范围,获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值,获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值,根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度;
影响因子修正模块,用于获取数据点隶属于均值聚类算法的每个聚类中心的隶属度,根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子;
数据点筛选模块,用于根据隶属度影响因子获取均值聚类的目标函数,根据均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类,根据最终聚类中数据点个数获取正常数据点。
本发明的一种适用于风力发电的数据处理方法及系统的有益效果是:
通过对风电机组的风速数据以及功率数据的风速-功率的散点图中的数据点进行分析得到数据点的类型,然后基于数据点的邻域数据点在散点图中的分布方向混乱程度及堆积度来对均值聚类算法的隶属度影响因子进行修正,即通过分析在目标数据点多个方向中的每个方向上每两个相邻数据点的第一欧氏距离,然后基于所有方向上的第一欧氏距离获取表征目标数据点的邻域内的邻数据点的分布度的分布方向混乱程度,结合目标数据点与其他数据点上在纵坐标轴方向上的数据点的相似性来表征目标数据点的邻域数据点的堆积度,由于数据点的局部邻域数据点距离聚类中心的欧式距离以及局部邻域数据点对于聚类中心的隶属度均为影响均值聚类算法的隶属度影响因子的影响参数,且对于正常数据点其邻域内邻域数据点多且每个方向都有分布,而对于异常数据点其邻域数据点在方向分布比较单一,即分布方向混乱程度较小,其且堆积度较大,其次,异常数据点的邻域数据点的隶属度参数对隶属度影响因子的影响也越大,故以堆积度与分布方向混乱程度来自适应的得到每个数据点的隶属度影响因子,进而基于自适应的隶属度影响因子获取均值聚类的目标函数,基于均值聚类的目标函数对数据点进行均值聚类,实现精确分类,进而保证异常数据点准确的从所有数据点中剔除,实现了正常数据点的精确获取。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种适用于风力发电的数据处理方法的实施例的流程图;
图2为本发明的一种适用于风力发电的数据处理方法的实施例中的风速-功率的散点图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种适用于风力发电的数据处理方法的实施例,如图1所示,本实施例具体包括:
S1、获取风电机组的风速数据以及功率数据;
具体的,从风电场的风电机组的系统中采集风电机组的一个月内的运行数据中的风速数据以及功率数据,其中,本实施例中预设时间为一个月,也可以是两个月,具体的可根据实际情况选择预设时间,且在采集过程中保证风电场机组的其他基本参数固定不变。
S2、获取目标数据点的邻域数据点在散点图中的分布方向混乱程度;
在风电机组的数据的处理中,由于产生风电数据的异常数据点的原因不同造成的数据分布特征不同,若仅考虑C均值聚类算法中局部邻域数据点的距离和隶属度,来进行隶属度影响因子的计算时会产生较大的误差,故在隶属度影响因子计算时需要考虑不同的风电数据异常数据点的位置分布特征。
具体的,根据风速数据以及功率数据获取风速-功率的散点图;以散点图中每个数据点为目标数据点,获取在目标数据点的每个方向上的每两个相邻数据点的第一欧式距离,根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度。
其中,获取目标数据点的邻域数据点在散点图中的分布方向混乱程度包括:
先构建以风速数据为横坐标、功率数据为纵坐标的风速-功率的散点图,风速- 功率的散点图如图2所示,从图2中,可得到风电数据异常产生的异常数据点主要为三类:一 类为距离正常数据较近的离散数据点,一类为距离正常数据较远的离散数据点,一类为中 部堆积型数据点,然后以散点图中每个数据点作为目标数据点,预设每个目标数据点的方 向,即本实施例中,以散点图中的第
Figure 922754DEST_PATH_IMAGE003
个数据点为目标数据点,以该目标数据点为起始点设 定36个方向(为了方便计算36个方向限制为0-360°,每个方向的夹角相差10°。其中,具体的 角度方向可根据实施者具体实施情况而定,本案给出的为经验参考值),在目标数据点的36 个方向上,将散点图中目标数据点与36个方向上的最后一个数据点进行连接,获取每个方 向上数据点的个数以及相邻数据点之间的第一欧式距离,然后根据方向上对应的第一欧式 距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度。
具体的,获取目标数据点的邻域数据点在散点图中的分布方向混乱程度时,先根据在目标数据点的每个方向上的每两个相邻数据点的第一欧式距离获取目标数据点在每个方向上的分布度;根据目标数据点在所有方向上的分布度获取分布度熵值,并将分布度熵值作为数据点在散点图中的分布方向混乱程度,其中,获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度包括:以目标数据点为起始点,以起始点在散点图中的每个方向上最后一个数据点为终止点,得到在目标数据点的每个方向上其他数据点的总数及相邻两个数据点组成的数据组的个数;获取在目标数据点的每个方向上数据点的总数与相邻两个数据点组成的数据组的个数的数量乘积;获取在目标数据点的每个方向上的所有数据组的第一欧式距离的和值;根据数量乘积与在目标数据点的对应方向上的第一欧式距离的和值的比值得到目标数据点的邻域数据点在目标数据点的每个方向上的分布度,分布度计算公式为:
Figure 272964DEST_PATH_IMAGE016
式中,
Figure 504225DEST_PATH_IMAGE017
表示目标数据点在第
Figure 623491DEST_PATH_IMAGE018
个方向上的分布度;
Figure 750847DEST_PATH_IMAGE019
表示以目标数据点为起始点,在目标数据点的第
Figure 588353DEST_PATH_IMAGE018
个方向上其他数据点的个数;
Figure 92146DEST_PATH_IMAGE020
表示在目标数据点的第
Figure 331498DEST_PATH_IMAGE018
个方向上目标数据点和其他数据点的总个数;
Figure DEST_PATH_IMAGE021
表示在目标数据点的第
Figure 833017DEST_PATH_IMAGE018
个方向上,第
Figure 423399DEST_PATH_IMAGE022
个数据点和相邻的第
Figure 730883DEST_PATH_IMAGE023
个 数据点之间的第一欧式距离,其中,在
Figure 824741DEST_PATH_IMAGE022
=1时,即第
Figure 559479DEST_PATH_IMAGE022
个数据点为目标数据点;
Figure 371577DEST_PATH_IMAGE024
表示线性归一化函数,归一化是为了方便后续计算;
需要说明的是,
Figure 748332DEST_PATH_IMAGE025
表示在目标数据点的第
Figure 696696DEST_PATH_IMAGE018
个方向上相邻两个数据点组成的数 据组的个数,通过计算目标数据点的各个方向的数据点的个数,以及各个方向上相邻数据 点之间的欧式距离均值,若每个方向上的数据点的个数越多,且该方向上相邻数据点之间 的欧式距离均值的倒数越大,则表明该方向上的数据点分布度较大,若方向上的数据点的 个数越少,且该方向上相邻数据点之间的欧式距离均值的倒数越小,则表明该方向上的数 据点分布度较小。
其中,目标数据点在散点图中的分布方向混乱程度(分布度熵值)的计算公式为:
Figure 867915DEST_PATH_IMAGE026
式中,
Figure 167309DEST_PATH_IMAGE027
表示第
Figure 82175DEST_PATH_IMAGE028
个目标数据点
Figure 150626DEST_PATH_IMAGE029
的邻域数据点的分布方向混乱程度;
Figure 492745DEST_PATH_IMAGE030
表示第
Figure 279436DEST_PATH_IMAGE018
个方向的分布度在所有分布度中出现的概率,即先获取所有分布度中 相同的分布度归为一类,每类分布度中的分布度个数与所有方向的分布度值的总个数的占 比即为分布度在所有分布度中出现的概率;
Figure 732414DEST_PATH_IMAGE017
表示目标数据点在第
Figure 655370DEST_PATH_IMAGE018
个方向上的分布度;
Figure 433971DEST_PATH_IMAGE031
表示以2为底的对数函数;
Figure DEST_PATH_IMAGE032
表示第
Figure 911219DEST_PATH_IMAGE028
个目标数据点
Figure 167888DEST_PATH_IMAGE029
的方向的个数,本实施例中
Figure 945352DEST_PATH_IMAGE032
取36;
需要说明的是,本实施例中,以相同分布度出现的概率来表示每个方向的分布度在所有分布度的占比,然后获取分布度熵值,即以分布度来反映目标数据点的各个方向数据点的分布方向特征,若目标数据点的各个方向的数据点分布越多,且各个方向数据点的分布特征的差异越大,则表明目标数据点周围邻域数据点的分布信息量越大,即对应的目标数据点的分布方向混乱程度越大,越有可能为数据正常分布的数据点,其中,熵值公式为现有技术公式,本实施例不再赘述。
至此,得到目标数据点的邻域数据点在散点图中的分布方向混乱程度,通过计算目标数据点在各个方向的分布度的差异来表征目标数据点周围邻域数据点的方向分布信息量的大小,对于正常的周围较为密集且均匀分布的数据点可以更好的表征其正常数据点分布的特征,对于异常的周围较为稀疏且非均匀分布的数据点可以更好的表征其异常数据点分布的特征,并且对于不同原因造成的异常数据点的分布特征也可以通过目标数据点的邻域数据点的分布方向混乱程度的大小进行区分,为之后自适应计算的隶属度影响因子提供参考,使得目标数据点的隶属度影响的大小计算更加准确。
S3、获取每个目标数据点的邻域数据点在散点图中的堆积度;
由于风电数据异常产生的异常数据点主要为三类:一类为距离正常数据较近的离 散数据点,一类为距离正常数据较远的离散数据点,一类为中部堆积型数据点,因此,在异 常数据点的计算过程中,需要结合数据点的堆积度对数据点进行综合判断,即在步骤S2中 得到了36个方向上的分布度,即也得到了在
Figure 629274DEST_PATH_IMAGE033
轴方向上的数据点的分布度以及在
Figure 124977DEST_PATH_IMAGE034
轴方向上 的数据点的分布度,考虑到数据点的堆积特性,本实施例中以
Figure 185337DEST_PATH_IMAGE033
轴为变化方向,以数据点在
Figure 82886DEST_PATH_IMAGE034
轴方向的波动程度作信息参考来获取每个目标数据点的邻域数据点的堆积度的大小。
故具体的,预设每个目标数据点的纵坐标值波动范围,获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值,获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值,根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度。
其中,预设每个目标数据点的纵坐标值波动范围包括:将目标数据点的纵坐标值 减去预设的纵坐标值阈值作为纵坐标值波动范围的最小值;将目标数据点的纵坐标值加上 预设的纵坐标值阈值作为纵坐标值波动范围的最大值;根据纵坐标值波动范围的最小值和 纵坐标值波动范围的最大值得到每个目标数据点的预设的纵坐标值波动范围,具体的,本 实施例中,预设的纵坐标值阈值为
Figure 672130DEST_PATH_IMAGE035
=1,在目标数据点
Figure 920709DEST_PATH_IMAGE029
的纵坐标值为
Figure 519181DEST_PATH_IMAGE036
时,则纵坐标值波 动范围为
Figure 271236DEST_PATH_IMAGE037
获取目标数据点的邻域数据点在散点图中的堆积度包括:获取纵坐标值波动范围内的每个数据点对应的第一均值与目标数据点对应的第二均值的均值比值,并得到均值比值与1的差值绝对值;获取目标数据点的纵坐标值波动范围内所有数据点与目标数据点对应差值绝对值的均值;对差值绝对值的均值进行负相关计算得到每个目标数据点的邻域数据点在散点图中的堆积度,其中,目标数据点的邻域数据点在散点图中的堆积度的计算公式为:
Figure DEST_PATH_IMAGE038
式中,
Figure 234644DEST_PATH_IMAGE039
表示第
Figure 439360DEST_PATH_IMAGE028
个目标数据点
Figure 491059DEST_PATH_IMAGE029
的堆积度;
Figure DEST_PATH_IMAGE040
表示第
Figure 300883DEST_PATH_IMAGE028
个目标数据点
Figure 763088DEST_PATH_IMAGE029
的纵坐标值波动范围内的数据点的个数;
Figure 720680DEST_PATH_IMAGE041
表示第
Figure 660954DEST_PATH_IMAGE028
个目标数据点
Figure 387602DEST_PATH_IMAGE029
的纵坐标值波动范围内的第
Figure 20708DEST_PATH_IMAGE042
个数据点
Figure 200017DEST_PATH_IMAGE043
的纵坐 标方向上,数据点
Figure 678403DEST_PATH_IMAGE043
与第
Figure 525136DEST_PATH_IMAGE042
个数据点
Figure 797986DEST_PATH_IMAGE043
其纵坐标方向的其他数据点之间的欧式距离的第 一均值;
Figure 730170DEST_PATH_IMAGE044
表示第
Figure 12246DEST_PATH_IMAGE028
个目标数据点
Figure 447907DEST_PATH_IMAGE029
的纵坐标值波动范围内,目标数据点
Figure 891658DEST_PATH_IMAGE029
与目标数据点
Figure 311138DEST_PATH_IMAGE029
的纵坐标方向的其他数据点之间的欧式距离的第二均值;
Figure 131326DEST_PATH_IMAGE045
表示以自然常数e为底的指数函数;
需要说明的是,由于,考虑到风电数据点的堆积特性,通过计算每个数据点中以y 轴为变化方向,以数据点的y轴方向的波动程度作信息参考,来计算每个数据点的堆积度的 大小,其中,
Figure 687072DEST_PATH_IMAGE046
表示目标数据点与其y轴方向上的数据点的欧式距离的第一均值和目标数 据点与其他数据点的y轴方向上的数据点的欧式距离的第二均值的均值比值,若均值比值 与1越接近,则表明目标数据点与其他数据点上在y轴的分布数据分布相似,则对应的目标 数据点的堆积程度就越大,因此,根据弃风限电的原理,通过计算每个目标数据点在y轴的 波动范围内数据点的信息分布变化,来获取每个数据点的堆积度的大小,通过堆积度的大 小来表征数据点对于表征弃风限电的特征的大小,使得可以在区分异常数据点的原因影响 的同时获取更为精确的数据点的分布特征,为之后对数据点聚类时所用的信息分布更加准 确,其中,y轴均表示散点图中的y轴。
S4、获取目标数据点隶属于每个聚类中心的隶属度影响因子;
具体的,获取数据点隶属于均值聚类算法的每个聚类中心的隶属度,根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子。
通过考虑每个数据点的分布方向混乱程度和堆积度的大小,以便于在进行隶属度影响因子计算时综合考虑每个数据点的局部邻域数据点的分布的特征,故本实施例以分布方向混乱程度和堆积度获取影响隶属度影响因子计算的影响参数的权重,从而综合考虑计算隶属度影响因子时,来确定是局部邻域数据点与聚类的聚类中心之间的欧式距离的影响还是隶属度的影响,使得在计算数据点的隶属度影响因子更加准确,进而提高续数据点分类的精准性。
具体的,本实施例中利用均值聚类算法选用C均值聚类算法,利用C均值聚类算法的多个初始聚类中心及对应初始隶属度先获取多个对应的聚类中心,然后依据C均值聚类算法中的隶属度计算公式获取数据点与隶属于每个聚类中心的隶属度,然后结合堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子,即隶属度影响因子的计算公式为:
Figure 567304DEST_PATH_IMAGE047
式中,
Figure 942921DEST_PATH_IMAGE002
表示第
Figure 301222DEST_PATH_IMAGE003
个目标数据点
Figure 977054DEST_PATH_IMAGE004
隶属于第
Figure 762607DEST_PATH_IMAGE005
个聚类的聚类中心
Figure 891100DEST_PATH_IMAGE006
的隶属度影响因 子;
Figure 318670DEST_PATH_IMAGE007
表示第
Figure 849009DEST_PATH_IMAGE003
个目标数据点
Figure 71043DEST_PATH_IMAGE004
对应的邻域数据点的堆积度;
Figure 686832DEST_PATH_IMAGE008
表示第
Figure 386935DEST_PATH_IMAGE003
个目标数据点
Figure 771779DEST_PATH_IMAGE004
对应的邻域数据点的分布方向混乱程度;
Figure 430294DEST_PATH_IMAGE009
表示第
Figure 533379DEST_PATH_IMAGE003
个目标数据点
Figure 37173DEST_PATH_IMAGE004
的邻域中第
Figure 276524DEST_PATH_IMAGE010
个邻域数据点
Figure 105940DEST_PATH_IMAGE011
与第
Figure 696321DEST_PATH_IMAGE005
个聚类的聚类中 心
Figure 3806DEST_PATH_IMAGE006
的第三欧式距离;
Figure 363243DEST_PATH_IMAGE012
表示第
Figure 363560DEST_PATH_IMAGE003
个目标数据点
Figure 910079DEST_PATH_IMAGE004
的邻域中第
Figure 552413DEST_PATH_IMAGE010
个邻域数据点
Figure 766357DEST_PATH_IMAGE011
的隶属于第
Figure 937575DEST_PATH_IMAGE005
个聚类的聚类 中心的隶属度;
Figure 236969DEST_PATH_IMAGE006
表示第
Figure 151836DEST_PATH_IMAGE005
个聚类的聚类中心;
Figure 485865DEST_PATH_IMAGE013
表示模糊加权指数;
Figure 827985DEST_PATH_IMAGE014
表示第
Figure 349096DEST_PATH_IMAGE003
个目标数据点
Figure 536495DEST_PATH_IMAGE004
与其邻域中第
Figure 725031DEST_PATH_IMAGE010
个邻域数据点
Figure 972472DEST_PATH_IMAGE011
的第二欧式距离;
Figure 512038DEST_PATH_IMAGE015
表示第
Figure 768707DEST_PATH_IMAGE003
个目标数据点
Figure 546170DEST_PATH_IMAGE004
的邻域中的邻域数据点的个数;
需要说明的是,为了可以更好区分由于不同类型的异常数据点,使异常数据点分 到各自对应的聚类中,故根据每个数据点的邻域数据点的分布方向混乱程度和堆积度对影 响隶属度影响因子的影响参数设定权重,其中,对于异常数据点来说,其邻域数据点的分布 方向混乱程度较小而堆积度较大,则对应的数据点也应考虑邻域数据点与聚类之间的隶属 度的影响越大,则对应的受到的邻域数据点与聚类之间的欧式距离影响越小,即对应的受 到
Figure DEST_PATH_IMAGE048
的影响较小,受到
Figure 433355DEST_PATH_IMAGE049
的影响较大;若数据点的堆积度较小,则对应的数据点应 考虑邻域数据点的欧式距离的影响越大,受到的邻域数据点与聚类之间的隶属度的影响越 小,故通过
Figure 929058DEST_PATH_IMAGE050
来表征
Figure 723839DEST_PATH_IMAGE049
的权重,堆积度
Figure 621388DEST_PATH_IMAGE039
越大,即隶属度影响因子受到
Figure 476211DEST_PATH_IMAGE049
的影响越 大。
其中,为了减少计算量,保证隶属度影响因子计算的进度,进而保证C均值聚类的分类精度,将每个目标数据点的邻域内的邻域数据点的分布方向混乱程度与以目标数据点的邻域数据点为目标数据点时对应的分布方向混乱程度相似且距离较近的目标邻域数据点作为目标数据点的隶属度计算所用的邻域数据点,具体的,在计算目标数据点隶属于每个聚类中心的隶属度影响因子之前,包括:获取目标数据点的邻域数据点对应的分布方向混乱程度与在目标数据点的邻域数据点为目标数据点时对应的邻域数据点对应的分布方向混乱程度之间的分布方向混乱程度差值;根据第二欧式距离、分布方向混乱程度差值绝对值获取目标数据点的邻域数据点在目标数据点的邻域内的参与度,对预设的第二欧式距离权重与第二欧式距离的乘积、分布方向混乱程度差值权重与分布方向混乱程度差值绝对值的乘积进行求和,根据求和后的和值的倒数得到目标数据点的邻域数据点在目标数据点的邻域内的参与度;根据参与度获取目标数据点的邻域数据点中的目标邻域数据点;将目标邻域数据点作为获取目标数据点隶属于每个聚类中心的隶属度影响因子时的邻域数据点,即在。
其中,参与度计算公式为:
Figure 459211DEST_PATH_IMAGE051
式中,
Figure DEST_PATH_IMAGE052
表示第
Figure 260945DEST_PATH_IMAGE028
个目标数据点的邻域内第
Figure 747421DEST_PATH_IMAGE053
个数据点在第
Figure 773146DEST_PATH_IMAGE028
个目标数据点邻域内的 参与度;
Figure 243441DEST_PATH_IMAGE054
表示第
Figure 114445DEST_PATH_IMAGE028
个目标数据点和其邻域内第
Figure 721007DEST_PATH_IMAGE053
个邻域数据点之间的第二欧式距离;
Figure DEST_PATH_IMAGE055
表示第
Figure 386475DEST_PATH_IMAGE028
个目标数据点的邻域数据点对应的分布方向混乱程度与第
Figure 78487DEST_PATH_IMAGE028
个目标 数据点的邻域内第
Figure 18761DEST_PATH_IMAGE053
个邻域数据点为目标数据点时的邻域数据点对应的分布方向混乱程度 差值的绝对值;
Figure 721971DEST_PATH_IMAGE056
表示线性归一化函数,目的是为了方便选取参与度阈值,便于后续计算;
本实施例中,认为分布方向混乱程度的差异相比欧式距离更加重要,故第二欧式 距离权重取
Figure DEST_PATH_IMAGE057
、分布方向混乱程度差值权重取
Figure 292761DEST_PATH_IMAGE058
,第二欧式距离
Figure 737649DEST_PATH_IMAGE059
越小,且置分布程度差 值的绝对值越小,越表明目标数据点与邻域数据点越相似,即表明邻域数据点在目标数据 点的邻域内的参与度越大,由于,参与度进行了线性归一化,故本实施例设置参与度阈值
Figure 481614DEST_PATH_IMAGE060
,将参与度大于参与度阈值的邻域数据点作为目标邻域数据点,即目标邻域数据点 作为隶属度影响因子计算时的邻域数据点,即以第
Figure 62768DEST_PATH_IMAGE028
个目标数据点为例,其邻域数据点的总 数量等于隶属度影响因子的计算公式中的
Figure 132355DEST_PATH_IMAGE061
的大小,即,隶属度影响因子公式中的第三欧 式距离、隶属度、第二欧式距离中的邻域数据点均为根据参数度及参与度阈值筛选出的目 标邻域数据点。
S5、进行C均值聚类,并获取正常数据点;
具体的,根据隶属度影响因子获取C均值聚类的目标函数,根据C均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类,根据最终聚类中数据点个数获取正常数据点。
具体的,目标函数表达式为:
Figure 533381DEST_PATH_IMAGE062
式中,
Figure 425245DEST_PATH_IMAGE063
表示目标函数的目标值,当目标函数收敛,则目标函数收敛时对应的隶属 度即为C均值聚类的最终隶属度,即依据最终隶属度即可得到最终聚类;
Figure DEST_PATH_IMAGE064
表示以第
Figure 329747DEST_PATH_IMAGE065
个目标数据点;
Figure 39077DEST_PATH_IMAGE066
表示所有目标数据点的个数;
Figure 192977DEST_PATH_IMAGE067
表示设置的聚类个数;
Figure 544324DEST_PATH_IMAGE068
表示第
Figure 100071DEST_PATH_IMAGE069
个聚类的聚类中心;
Figure 980302DEST_PATH_IMAGE070
表示目标数据点
Figure 621499DEST_PATH_IMAGE064
隶属于第
Figure 510957DEST_PATH_IMAGE069
个聚类的隶属度;
Figure 655631DEST_PATH_IMAGE071
表示第
Figure 706764DEST_PATH_IMAGE065
个目标数据点
Figure 835257DEST_PATH_IMAGE064
与第
Figure 262827DEST_PATH_IMAGE069
个聚类的聚类中心之间的欧式距离;
Figure 793165DEST_PATH_IMAGE072
表示模糊加权指数,可根据实施者具体实施情况而定,本案给出的为经验参考 值,
Figure 546358DEST_PATH_IMAGE073
Figure 630988DEST_PATH_IMAGE074
表示第
Figure 862250DEST_PATH_IMAGE065
个目标数据点
Figure 981515DEST_PATH_IMAGE064
隶属于第
Figure 640030DEST_PATH_IMAGE069
个聚类中心的隶属度影响因子;
需要说明的是,C均值聚类的目标函数为现有技术函数,本实施例只是将本发明中自适计算得到的隶属度影响因子将目标函数的隶属度影响因子进行替换,故本实施例不再对C均值聚类的目标函数进行赘述。
在步骤S4中得到每个目标数据点的自适应的隶属度影响因子后,根据隶属度影响 因子代入到C均值聚类算法的目标函数中,并对数据点进行C均值聚类,由于在步骤S3中对 散点图分析,散点图中共有4类数据点,故本实施例中C均值聚类算法的参数设置为:聚类数 量为4,对每个初始聚类进行初始化得到初始化聚类中心及对应的初始隶属度,进行迭代得 到每次迭代时的聚类中心及对应的隶属度,迭代停止条件为目标函数收敛,即目标函数值 的变化阈值
Figure 477536DEST_PATH_IMAGE075
(即目标函数收敛阈值可根据实施者具体实施情况而定,本案给出的 为经验参考值)。
具体的,将数据点个数最多的最终聚类中的数据点记为正常数据点,除数据点个数最多的最终聚类外的其他最终聚类对应数据点记为异常数据点,并对异常数据点进行剔除。
本发明的一种适用于风力发电的数据处理系统,包括:数据采集模块、第一参数计算模块、第二参数计算模块、影响因子修正模块及数据点筛选模块,其中,数据采集模块用于获取风电机组的风速数据以及功率数据;第一参数计算模块用于根据风速数据以及功率数据获取风速-功率的散点图;以散点图中每个数据点为目标数据点,获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离,根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度;第二参数计算模块用于预设每个目标数据点的纵坐标值波动范围,获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值,获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值,根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度;影响因子修正模块用于获取数据点隶属于C均值聚类算法的每个聚类中心的隶属度,根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子;数据点筛选模块用于根据隶属度影响因子获取C均值聚类的目标函数,根据C均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类,根据最终聚类中数据点个数获取正常数据点。
本发明的一种适用于风力发电的数据处理方法及系统,通过对风电机组的风速数据以及功率数据的风速-功率的散点图中的数据点进行分析得到数据点的类型,然后基于数据点的邻域数据点在散点图中的分布方向混乱程度及堆积度来对C均值聚类算法的隶属度影响因子进行修正,即通过分析在目标数据点多个方向中的每个方向上每两个相邻数据点的第一欧氏距离,然后基于所有方向上的第一欧氏距离获取表征目标数据点的邻域内的邻数据点的分布度的分布方向混乱程度,结合目标数据点与其他数据点上在纵坐标轴方向上的数据点的相似性来表征目标数据点的邻域数据点的堆积度,由于数据点的局部邻域数据点距离聚类中心的欧式距离以及局部邻域数据点对于聚类中心的隶属度均为影响C均值聚类算法的隶属度影响因子的影响参数,且对于正常数据点其邻域内邻域数据点多且每个方向都有分布,而对于异常数据点其邻域数据点在方向分布比较单一,即分布方向混乱程度较小,其且堆积度较大,其次,异常数据点的邻域数据点的隶属度参数对隶属度影响因子的影响也越大,故以堆积度与分布方向混乱程度的比值来表征隶属度的权重、以1减去堆积度与分布方向混乱程度的比值来表征欧式距离的权重,从而自适应的得到每个数据点的隶属度影响因子,进而基于自适应的隶属度影响因子获取C均值聚类的目标函数,基于C均值聚类的目标函数对数据点进行C均值聚类,实现精确分类,进而保证异常数据点准确的从所有数据点中剔除,实现了正常数据点的精确获取。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种适用于风力发电的数据处理方法,其特征在于,包括:
获取风电机组的风速数据以及功率数据;
根据风速数据以及功率数据获取风速-功率的散点图;
以散点图中每个数据点为目标数据点,获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离,根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度;
预设每个目标数据点的纵坐标值波动范围,获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值,获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值,根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度;
获取数据点隶属于均值聚类算法的每个聚类中心的隶属度,根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子;
根据隶属度影响因子获取均值聚类的目标函数,根据均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类,根据最终聚类中数据点个数获取正常数据点。
2.根据权利要求1所述的一种适用于风力发电的数据处理方法,其特征在于,在计算目标数据点隶属于每个聚类中心的隶属度影响因子之前,包括:
获取目标数据点的邻域数据点对应的分布方向混乱程度与在目标数据点的邻域数据点为目标数据点时对应的邻域数据点对应的分布方向混乱程度之间的分布方向混乱程度差值;
根据第二欧式距离、分布方向混乱程度差值绝对值获取目标数据点的邻域数据点在目标数据点的邻域内的参与度;
根据参与度获取目标数据点的邻域数据点中的目标邻域数据点;
将目标邻域数据点作为获取目标数据点隶属于每个聚类中心的隶属度影响因子时的邻域数据点。
3.根据权利要求2所述的一种适用于风力发电的数据处理方法,其特征在于,对预设的第二欧式距离权重与第二欧式距离的乘积、分布方向混乱程度差值权重与分布方向混乱程度差值绝对值的乘积进行求和,根据求和后的和值的倒数得到目标数据点的邻域数据点在目标数据点的邻域内的参与度。
4.根据权利要求1或2所述的一种适用于风力发电的数据处理方法,其特征在于,目标数据点隶属于每个聚类中心的隶属度影响因子的计算公式:
Figure DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE004
表示第
Figure DEST_PATH_IMAGE006
个目标数据点
Figure DEST_PATH_IMAGE008
隶属于第
Figure DEST_PATH_IMAGE010
个聚类的聚类中心
Figure DEST_PATH_IMAGE012
的隶属度影响因子;
Figure DEST_PATH_IMAGE014
表示第
Figure 333767DEST_PATH_IMAGE006
个目标数据点
Figure 923011DEST_PATH_IMAGE008
对应的邻域数据点的堆积度;
Figure DEST_PATH_IMAGE016
表示第
Figure 374852DEST_PATH_IMAGE006
个目标数据点
Figure 707745DEST_PATH_IMAGE008
对应的邻域数据点的分布方向混乱程度;
Figure DEST_PATH_IMAGE018
表示第
Figure 905204DEST_PATH_IMAGE006
个目标数据点
Figure 665350DEST_PATH_IMAGE008
的邻域中第
Figure DEST_PATH_IMAGE020
个邻域数据点
Figure DEST_PATH_IMAGE022
与第
Figure 11012DEST_PATH_IMAGE010
个聚类的聚类中心
Figure 944333DEST_PATH_IMAGE012
的第三欧式距离;
Figure DEST_PATH_IMAGE024
表示第
Figure 222998DEST_PATH_IMAGE006
个目标数据点
Figure 154045DEST_PATH_IMAGE008
的邻域中第
Figure 642795DEST_PATH_IMAGE020
个邻域数据点
Figure 848649DEST_PATH_IMAGE022
的隶属于第
Figure 44138DEST_PATH_IMAGE010
个聚类的聚类中心 的隶属度;
Figure 411665DEST_PATH_IMAGE012
表示第
Figure 387712DEST_PATH_IMAGE010
个聚类的聚类中心;
Figure DEST_PATH_IMAGE026
表示模糊加权指数;
Figure DEST_PATH_IMAGE028
表示第
Figure 741464DEST_PATH_IMAGE006
个目标数据点
Figure 119355DEST_PATH_IMAGE008
与其邻域中第
Figure 923363DEST_PATH_IMAGE020
个邻域数据点
Figure 589968DEST_PATH_IMAGE022
的第二欧式距离;
Figure DEST_PATH_IMAGE030
表示第
Figure 75307DEST_PATH_IMAGE006
个目标数据点
Figure 245388DEST_PATH_IMAGE008
的邻域中的邻域数据点的个数。
5.根据权利要求1所述的一种适用于风力发电的数据处理方法,其特征在于,获取目标数据点的邻域数据点在散点图中的分布方向混乱程度包括:
根据在目标数据点的每个方向上的每两个相邻数据点的第一欧式距离获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度;
根据目标数据点在所有方向上的分布度获取分布度熵值,并将分布度熵值作为目标数据点的邻域数据点在散点图中的分布方向混乱程度。
6.根据权利要求5所述的一种适用于风力发电的数据处理方法,其特征在于,获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度包括:
以目标数据点为起始点,以起始点在散点图中的每个方向上最后一个数据点为终止点,得到在目标数据点的每个方向上数据点的总数;
获取在目标数据点的每个方向上的所有相邻数据点的第一欧式距离的均值;
根据目标数据点的每个方向上数据点的总数与其在对应方向上的第一欧式距离的均值的倒数的乘积得到目标数据点在每个方向上的邻域数据点的分布度。
7.根据权利要求1所述的一种适用于风力发电的数据处理方法,其特征在于,获取每个目标数据点的邻域数据点在散点图中的堆积度包括:
获取纵坐标值波动范围内的每个数据点对应的第一均值与目标数据点对应的第二均值的均值比值,并得到均值比值与1的差值绝对值;
获取目标数据点的纵坐标值波动范围内所有数据点与目标数据点对应差值绝对值的均值;
对差值绝对值的均值进行负相关计算得到每个目标数据点的邻域数据点在散点图中的堆积度。
8.根据权利要求1所述的一种适用于风力发电的数据处理方法,其特征在于,预设每个目标数据点的纵坐标值波动范围包括:
将目标数据点的纵坐标值减去预设的纵坐标值阈值作为纵坐标值波动范围的最小值;
将目标数据点的纵坐标值加上预设的纵坐标值阈值作为纵坐标值波动范围的最大值;
根据纵坐标值波动范围的最小值和纵坐标值波动范围的最大值得到每个目标数据点的预设的纵坐标值波动范围。
9.根据权利要求1所述的一种适用于风力发电的数据处理方法,其特征在于,将数据点个数最多的最终聚类中的数据点记为正常数据点,除数据点个数最多的最终聚类外的其他最终聚类对应数据点记为异常数据点,并对异常数据点进行剔除。
10.一种适用于风力发电的数据处理系统,其特征在于,包括:
数据采集模块,用于获取风电机组的风速数据以及功率数据;
第一参数计算模块,用于根据风速数据以及功率数据获取风速-功率的散点图;以散点图中每个数据点为目标数据点,获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离,根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度;
第二参数计算模块,用于预设每个目标数据点的纵坐标值波动范围,获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值,获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值,根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度;
影响因子修正模块,用于获取数据点隶属于均值聚类算法的每个聚类中心的隶属度,根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子;
数据点筛选模块,用于根据隶属度影响因子获取均值聚类的目标函数,根据均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类,根据最终聚类中数据点个数获取正常数据点。
CN202211592281.5A 2022-12-13 2022-12-13 适用于风力发电的数据处理方法及系统 Active CN115600119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211592281.5A CN115600119B (zh) 2022-12-13 2022-12-13 适用于风力发电的数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211592281.5A CN115600119B (zh) 2022-12-13 2022-12-13 适用于风力发电的数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN115600119A true CN115600119A (zh) 2023-01-13
CN115600119B CN115600119B (zh) 2023-06-16

Family

ID=84853896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211592281.5A Active CN115600119B (zh) 2022-12-13 2022-12-13 适用于风力发电的数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN115600119B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115951123A (zh) * 2023-02-28 2023-04-11 国网山东省电力公司营销服务中心(计量中心) 一种基于无线通信的电能计量方法及系统
CN116166960A (zh) * 2023-02-07 2023-05-26 河南大学 用于神经网络训练的大数据特征清洗方法及系统
CN116361679A (zh) * 2023-06-02 2023-06-30 青岛豪迈电缆集团有限公司 基于数据驱动的电缆寿命智能预测方法及系统
CN116703485A (zh) * 2023-08-04 2023-09-05 山东创亿智慧信息科技发展有限责任公司 基于大数据的广告精准营销方法及系统
CN116757334A (zh) * 2023-08-16 2023-09-15 江西科技学院 财务数据处理方法、系统、可读存储介质及计算机
CN117056764A (zh) * 2023-10-11 2023-11-14 唐山市南堡经济开发区航天万源新能源有限公司 一种发电机组智能保护方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740175A (zh) * 2018-11-18 2019-05-10 浙江大学 一种面向风电机组功率曲线数据的离群点判别方法
CN110674864A (zh) * 2019-09-20 2020-01-10 国网上海市电力公司 一种含同步相量量测装置的风电异常数据辨识方法
CN111260503A (zh) * 2020-01-13 2020-06-09 浙江大学 一种基于聚类中心优化的风电机组功率曲线离群点检测方法
CN115423174A (zh) * 2022-08-30 2022-12-02 东北电力大学 一种计及波动过程划分的短期风电功率预测方法
CN115858630A (zh) * 2023-02-21 2023-03-28 新风光电子科技股份有限公司 一种储能电站储能数据的异常检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740175A (zh) * 2018-11-18 2019-05-10 浙江大学 一种面向风电机组功率曲线数据的离群点判别方法
CN110674864A (zh) * 2019-09-20 2020-01-10 国网上海市电力公司 一种含同步相量量测装置的风电异常数据辨识方法
CN111260503A (zh) * 2020-01-13 2020-06-09 浙江大学 一种基于聚类中心优化的风电机组功率曲线离群点检测方法
CN115423174A (zh) * 2022-08-30 2022-12-02 东北电力大学 一种计及波动过程划分的短期风电功率预测方法
CN115858630A (zh) * 2023-02-21 2023-03-28 新风光电子科技股份有限公司 一种储能电站储能数据的异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN FANG等: "Abnormal Wind Power Data Identification Based on the Improved FCM Algorithm and Considering the Influence of Wind Speed", 《2019 9TH INTERNATIONAL CONFERENCE ON POWER AND ENERGY SYSTEMS(ICPES)》 *
陈伟;吴布托;裴喜平;: "风电机组异常数据预处理的分类多模型算法", 电力系统及其自动化学报, no. 04 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116166960A (zh) * 2023-02-07 2023-05-26 河南大学 用于神经网络训练的大数据特征清洗方法及系统
CN116166960B (zh) * 2023-02-07 2023-09-29 山东经鼎智能科技有限公司 用于神经网络训练的大数据特征清洗方法及系统
CN115951123A (zh) * 2023-02-28 2023-04-11 国网山东省电力公司营销服务中心(计量中心) 一种基于无线通信的电能计量方法及系统
CN115951123B (zh) * 2023-02-28 2023-06-30 国网山东省电力公司营销服务中心(计量中心) 一种基于无线通信的电能计量方法及系统
CN116361679A (zh) * 2023-06-02 2023-06-30 青岛豪迈电缆集团有限公司 基于数据驱动的电缆寿命智能预测方法及系统
CN116361679B (zh) * 2023-06-02 2023-08-11 青岛豪迈电缆集团有限公司 基于数据驱动的电缆寿命智能预测方法及系统
CN116703485A (zh) * 2023-08-04 2023-09-05 山东创亿智慧信息科技发展有限责任公司 基于大数据的广告精准营销方法及系统
CN116703485B (zh) * 2023-08-04 2023-10-20 山东创亿智慧信息科技发展有限责任公司 基于大数据的广告精准营销方法及系统
CN116757334A (zh) * 2023-08-16 2023-09-15 江西科技学院 财务数据处理方法、系统、可读存储介质及计算机
CN116757334B (zh) * 2023-08-16 2023-11-24 江西科技学院 财务数据处理方法、系统、可读存储介质及计算机
CN117056764A (zh) * 2023-10-11 2023-11-14 唐山市南堡经济开发区航天万源新能源有限公司 一种发电机组智能保护方法及系统
CN117056764B (zh) * 2023-10-11 2024-01-09 唐山市南堡经济开发区航天万源新能源有限公司 一种发电机组智能保护方法及系统

Also Published As

Publication number Publication date
CN115600119B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN115600119A (zh) 适用于风力发电的数据处理方法及系统
CN107682319B (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN108805213B (zh) 计及小波熵降维的电力负荷曲线双层谱聚类方法
CN109657891B (zh) 一种基于自适应k-means++算法的负荷特性分析方法
CN116166960B (zh) 用于神经网络训练的大数据特征清洗方法及系统
CN111709454B (zh) 一种基于最优copula模型的多风电场出力聚类评估方法
CN111275132A (zh) 一种基于sa-pfcm++算法的目标分群方法
CN110232371B (zh) 基于小样本的高精度hrrp雷达多目标识别方法
CN111784093B (zh) 一种基于电力大数据分析的企业复工辅助判断方法
CN116522268B (zh) 一种配电网的线损异常识别方法
CN112561139A (zh) 一种短期光伏发电功率预测方法和系统
CN112070121A (zh) 一种基于变分自编码器的智能电表数据填补方法
CN112186761A (zh) 一种基于概率分布的风电功率场景生成方法及系统
CN115952067A (zh) 一种数据库操作异常行为检测方法及可读存储介质
CN114861760A (zh) 一种基于密度峰值聚类算法的改进研究
CN107808209B (zh) 基于加权kNN距离的风电场异常数据辨识方法
CN114519651A (zh) 基于电力大数据的智能配电方法
CN109508350B (zh) 一种对数据进行采样的方法和装置
CN110988856B (zh) 一种基于密度聚类的目标检测点迹凝聚算法
CN117407732A (zh) 一种基于对抗神经网络的非常规储层气井产量预测方法
CN116663431A (zh) 基于分段仿射的风电场阻抗确定方法、系统、设备及介质
Dai et al. Clustering of DOA data in radar pulse based on SOFM and CDbw
CN114548294A (zh) 一种电网异常数据检测方法、装置、移动终端及存储介质
CN114545158A (zh) 自动分离局部放电信号和噪声信号
CN110942089B (zh) 一种基于多级决策的击键识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant