CN115600119A - 适用于风力发电的数据处理方法及系统 - Google Patents
适用于风力发电的数据处理方法及系统 Download PDFInfo
- Publication number
- CN115600119A CN115600119A CN202211592281.5A CN202211592281A CN115600119A CN 115600119 A CN115600119 A CN 115600119A CN 202211592281 A CN202211592281 A CN 202211592281A CN 115600119 A CN115600119 A CN 115600119A
- Authority
- CN
- China
- Prior art keywords
- data point
- target data
- neighborhood
- degree
- data points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010248 power generation Methods 0.000 title claims abstract description 24
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000010586 diagram Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000009825 accumulation Methods 0.000 claims description 34
- 230000002159 abnormal effect Effects 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 24
- 150000001875 compounds Chemical class 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 230000000739 chaotic effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/70—Wind energy
- Y02E10/72—Wind turbines with rotation axis in wind direction
Landscapes
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种适用于风力发电的数据处理方法及系统,该方法包括:获取风电机组的风速数据以及功率数据;获取目标数据点的邻域数据点在散点图中的分布方向混乱程度,获取每个目标数据点的邻域数据点在散点图中的堆积度,获取目标数据点隶属于每个聚类中心的隶属度影响因子,进行C均值聚类,并获取正常数据点。本发明自适应获取均值聚类算法的隶属度影响因子,从而使得在基于隶属度影响因子利用均值聚类算法进行数据点聚类时,提高分类的精度,实现了正常数据点的精确获取。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种适用于风力发电的数据处理方法及系统。
背景技术
在风力发电的过程中,由于风向和风速是随机变化的,因此,产生的风电功率具有随机性和波动性,在现有技术中往往是通过实测的风速和功率获取风电功率曲线来评估风电机组的运行状况。然而在风电场运行过程中,由于风电机组设备以及噪声的影响,会产生大量的异常数据,若对这些异常数据不进行剔除,直接利用获得的数据来对风电机组的运行状况评估,会使得评估产生较大的误差,因此,在进行风电机组的运行状况评估前,需要将数据中的异常数据剔除,以得到精准的数据。
然而,风电数据的异常数据点主要为三类:一类为距离正常数据较近的离散数据点,一类为距离正常数据较远的离散数据点,一类为中部堆积型数据点,故风电数据中的异常数据点的原因不同,其造成的数据分布特征也不同,在利用C均值聚类算法中的隶属度影响因子来对数据点进行分类时,利用固定的隶属度影响因子在数据中的异常数据点和正常数据点区分时会产生误差,使得正常的数据点、异常数据点分类错误,从而导致得到的正常数据并不准确。
发明内容
本发明提供一种适用于风力发电的数据处理方法及系统,以解决现有的C均值聚类算法会使得正常的数据点、异常数据点分类错误,从而导致得到的正常数据并不准确的问题。
本发明的一种适用于风力发电的数据处理方法采用如下技术方案:
获取风电机组的风速数据以及功率数据;
根据风速数据以及功率数据获取风速-功率的散点图;
以散点图中每个数据点为目标数据点,获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离,根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度;
预设每个目标数据点的纵坐标值波动范围,获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值,获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值,根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度;
获取数据点隶属于均值聚类算法的每个聚类中心的隶属度,根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子;
根据隶属度影响因子获取均值聚类的目标函数,根据均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类,根据最终聚类中数据点个数获取正常数据点。
优选的,在计算目标数据点隶属于每个聚类中心的隶属度影响因子之前,包括:
获取目标数据点的邻域数据点对应的分布方向混乱程度与在目标数据点的邻域数据点为目标数据点时对应的邻域数据点对应的分布方向混乱程度之间的分布方向混乱程度差值;
根据第二欧式距离、分布方向混乱程度差值绝对值获取目标数据点的邻域数据点在目标数据点的邻域内的参与度;
根据参与度获取目标数据点的邻域数据点中的目标邻域数据点;
将目标邻域数据点作为获取目标数据点隶属于每个聚类中心的隶属度影响因子时的邻域数据点。
优选的,对预设的第二欧式距离权重与第二欧式距离的乘积、分布方向混乱程度差值权重与分布方向混乱程度差值绝对值的乘积进行求和,根据求和后的和值的倒数得到目标数据点的邻域数据点在目标数据点的邻域内的参与度。
优选的,目标数据点隶属于每个聚类中心的隶属度影响因子的计算公式:
优选的,获取目标数据点的邻域数据点在散点图中的分布方向混乱程度包括:
根据在目标数据点的每个方向上的每两个相邻数据点的第一欧式距离获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度;
根据目标数据点在所有方向上的分布度获取分布度熵值,并将分布度熵值作为目标数据点的邻域数据点在散点图中的分布方向混乱程度。
优选的,获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度包括:
以目标数据点为起始点,以起始点在散点图中的每个方向上最后一个数据点为终止点,得到在目标数据点的每个方向上数据点的总数;
获取在目标数据点的每个方向上的所有相邻数据点的第一欧式距离的均值;
根据目标数据点的每个方向上数据点的总数与其在对应方向上的第一欧式距离的均值的倒数的乘积得到目标数据点在每个方向上的邻域数据点的分布度。
优选的,获取每个目标数据点的邻域数据点在散点图中的堆积度包括:
获取每个数据点对应的第一均值与目标数据点对应的第二均值的均值比值,并得到均值比值与1的差值绝对值;
获取目标数据点的纵坐标值波动范围内所有数据点与目标数据点对应差值绝对值的均值;
对差值绝对值的均值进行负相关计算得到每个目标数据点的邻域数据点在散点图中的堆积度。
优选的,预设每个目标数据点的纵坐标值波动范围包括:
将目标数据点的纵坐标值减去预设的纵坐标值阈值作为纵坐标值波动范围的最小值;
将目标数据点的纵坐标值加上预设的纵坐标值阈值作为纵坐标值波动范围的最大值;
根据纵坐标值波动范围的最小值和纵坐标值波动范围的最大值得到每个目标数据点的预设的纵坐标值波动范围。
优选的,将数据点个数最多的最终聚类中的数据点记为正常数据点,除数据点个数最多的最终聚类外的其他最终聚类对应数据点记为异常数据点,并对异常数据点进行剔除。
本发明还提供一种适用于风力发电的数据处理系统,包括:
数据采集模块,用于获取风电机组的风速数据以及功率数据;
第一参数计算模块,用于根据风速数据以及功率数据获取风速-功率的散点图;以散点图中每个数据点为目标数据点,获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离,根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度;
第二参数计算模块,用于预设每个目标数据点的纵坐标值波动范围,获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值,获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值,根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度;
影响因子修正模块,用于获取数据点隶属于均值聚类算法的每个聚类中心的隶属度,根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子;
数据点筛选模块,用于根据隶属度影响因子获取均值聚类的目标函数,根据均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类,根据最终聚类中数据点个数获取正常数据点。
本发明的一种适用于风力发电的数据处理方法及系统的有益效果是:
通过对风电机组的风速数据以及功率数据的风速-功率的散点图中的数据点进行分析得到数据点的类型,然后基于数据点的邻域数据点在散点图中的分布方向混乱程度及堆积度来对均值聚类算法的隶属度影响因子进行修正,即通过分析在目标数据点多个方向中的每个方向上每两个相邻数据点的第一欧氏距离,然后基于所有方向上的第一欧氏距离获取表征目标数据点的邻域内的邻数据点的分布度的分布方向混乱程度,结合目标数据点与其他数据点上在纵坐标轴方向上的数据点的相似性来表征目标数据点的邻域数据点的堆积度,由于数据点的局部邻域数据点距离聚类中心的欧式距离以及局部邻域数据点对于聚类中心的隶属度均为影响均值聚类算法的隶属度影响因子的影响参数,且对于正常数据点其邻域内邻域数据点多且每个方向都有分布,而对于异常数据点其邻域数据点在方向分布比较单一,即分布方向混乱程度较小,其且堆积度较大,其次,异常数据点的邻域数据点的隶属度参数对隶属度影响因子的影响也越大,故以堆积度与分布方向混乱程度来自适应的得到每个数据点的隶属度影响因子,进而基于自适应的隶属度影响因子获取均值聚类的目标函数,基于均值聚类的目标函数对数据点进行均值聚类,实现精确分类,进而保证异常数据点准确的从所有数据点中剔除,实现了正常数据点的精确获取。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种适用于风力发电的数据处理方法的实施例的流程图;
图2为本发明的一种适用于风力发电的数据处理方法的实施例中的风速-功率的散点图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种适用于风力发电的数据处理方法的实施例,如图1所示,本实施例具体包括:
S1、获取风电机组的风速数据以及功率数据;
具体的,从风电场的风电机组的系统中采集风电机组的一个月内的运行数据中的风速数据以及功率数据,其中,本实施例中预设时间为一个月,也可以是两个月,具体的可根据实际情况选择预设时间,且在采集过程中保证风电场机组的其他基本参数固定不变。
S2、获取目标数据点的邻域数据点在散点图中的分布方向混乱程度;
在风电机组的数据的处理中,由于产生风电数据的异常数据点的原因不同造成的数据分布特征不同,若仅考虑C均值聚类算法中局部邻域数据点的距离和隶属度,来进行隶属度影响因子的计算时会产生较大的误差,故在隶属度影响因子计算时需要考虑不同的风电数据异常数据点的位置分布特征。
具体的,根据风速数据以及功率数据获取风速-功率的散点图;以散点图中每个数据点为目标数据点,获取在目标数据点的每个方向上的每两个相邻数据点的第一欧式距离,根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度。
其中,获取目标数据点的邻域数据点在散点图中的分布方向混乱程度包括:
先构建以风速数据为横坐标、功率数据为纵坐标的风速-功率的散点图,风速-
功率的散点图如图2所示,从图2中,可得到风电数据异常产生的异常数据点主要为三类:一
类为距离正常数据较近的离散数据点,一类为距离正常数据较远的离散数据点,一类为中
部堆积型数据点,然后以散点图中每个数据点作为目标数据点,预设每个目标数据点的方
向,即本实施例中,以散点图中的第个数据点为目标数据点,以该目标数据点为起始点设
定36个方向(为了方便计算36个方向限制为0-360°,每个方向的夹角相差10°。其中,具体的
角度方向可根据实施者具体实施情况而定,本案给出的为经验参考值),在目标数据点的36
个方向上,将散点图中目标数据点与36个方向上的最后一个数据点进行连接,获取每个方
向上数据点的个数以及相邻数据点之间的第一欧式距离,然后根据方向上对应的第一欧式
距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度。
具体的,获取目标数据点的邻域数据点在散点图中的分布方向混乱程度时,先根据在目标数据点的每个方向上的每两个相邻数据点的第一欧式距离获取目标数据点在每个方向上的分布度;根据目标数据点在所有方向上的分布度获取分布度熵值,并将分布度熵值作为数据点在散点图中的分布方向混乱程度,其中,获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度包括:以目标数据点为起始点,以起始点在散点图中的每个方向上最后一个数据点为终止点,得到在目标数据点的每个方向上其他数据点的总数及相邻两个数据点组成的数据组的个数;获取在目标数据点的每个方向上数据点的总数与相邻两个数据点组成的数据组的个数的数量乘积;获取在目标数据点的每个方向上的所有数据组的第一欧式距离的和值;根据数量乘积与在目标数据点的对应方向上的第一欧式距离的和值的比值得到目标数据点的邻域数据点在目标数据点的每个方向上的分布度,分布度计算公式为:
需要说明的是,表示在目标数据点的第个方向上相邻两个数据点组成的数
据组的个数,通过计算目标数据点的各个方向的数据点的个数,以及各个方向上相邻数据
点之间的欧式距离均值,若每个方向上的数据点的个数越多,且该方向上相邻数据点之间
的欧式距离均值的倒数越大,则表明该方向上的数据点分布度较大,若方向上的数据点的
个数越少,且该方向上相邻数据点之间的欧式距离均值的倒数越小,则表明该方向上的数
据点分布度较小。
其中,目标数据点在散点图中的分布方向混乱程度(分布度熵值)的计算公式为:
需要说明的是,本实施例中,以相同分布度出现的概率来表示每个方向的分布度在所有分布度的占比,然后获取分布度熵值,即以分布度来反映目标数据点的各个方向数据点的分布方向特征,若目标数据点的各个方向的数据点分布越多,且各个方向数据点的分布特征的差异越大,则表明目标数据点周围邻域数据点的分布信息量越大,即对应的目标数据点的分布方向混乱程度越大,越有可能为数据正常分布的数据点,其中,熵值公式为现有技术公式,本实施例不再赘述。
至此,得到目标数据点的邻域数据点在散点图中的分布方向混乱程度,通过计算目标数据点在各个方向的分布度的差异来表征目标数据点周围邻域数据点的方向分布信息量的大小,对于正常的周围较为密集且均匀分布的数据点可以更好的表征其正常数据点分布的特征,对于异常的周围较为稀疏且非均匀分布的数据点可以更好的表征其异常数据点分布的特征,并且对于不同原因造成的异常数据点的分布特征也可以通过目标数据点的邻域数据点的分布方向混乱程度的大小进行区分,为之后自适应计算的隶属度影响因子提供参考,使得目标数据点的隶属度影响的大小计算更加准确。
S3、获取每个目标数据点的邻域数据点在散点图中的堆积度;
由于风电数据异常产生的异常数据点主要为三类:一类为距离正常数据较近的离
散数据点,一类为距离正常数据较远的离散数据点,一类为中部堆积型数据点,因此,在异
常数据点的计算过程中,需要结合数据点的堆积度对数据点进行综合判断,即在步骤S2中
得到了36个方向上的分布度,即也得到了在轴方向上的数据点的分布度以及在轴方向上
的数据点的分布度,考虑到数据点的堆积特性,本实施例中以轴为变化方向,以数据点在
轴方向的波动程度作信息参考来获取每个目标数据点的邻域数据点的堆积度的大小。
故具体的,预设每个目标数据点的纵坐标值波动范围,获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值,获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值,根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度。
其中,预设每个目标数据点的纵坐标值波动范围包括:将目标数据点的纵坐标值
减去预设的纵坐标值阈值作为纵坐标值波动范围的最小值;将目标数据点的纵坐标值加上
预设的纵坐标值阈值作为纵坐标值波动范围的最大值;根据纵坐标值波动范围的最小值和
纵坐标值波动范围的最大值得到每个目标数据点的预设的纵坐标值波动范围,具体的,本
实施例中,预设的纵坐标值阈值为=1,在目标数据点的纵坐标值为时,则纵坐标值波
动范围为。
获取目标数据点的邻域数据点在散点图中的堆积度包括:获取纵坐标值波动范围内的每个数据点对应的第一均值与目标数据点对应的第二均值的均值比值,并得到均值比值与1的差值绝对值;获取目标数据点的纵坐标值波动范围内所有数据点与目标数据点对应差值绝对值的均值;对差值绝对值的均值进行负相关计算得到每个目标数据点的邻域数据点在散点图中的堆积度,其中,目标数据点的邻域数据点在散点图中的堆积度的计算公式为:
需要说明的是,由于,考虑到风电数据点的堆积特性,通过计算每个数据点中以y
轴为变化方向,以数据点的y轴方向的波动程度作信息参考,来计算每个数据点的堆积度的
大小,其中,表示目标数据点与其y轴方向上的数据点的欧式距离的第一均值和目标数
据点与其他数据点的y轴方向上的数据点的欧式距离的第二均值的均值比值,若均值比值
与1越接近,则表明目标数据点与其他数据点上在y轴的分布数据分布相似,则对应的目标
数据点的堆积程度就越大,因此,根据弃风限电的原理,通过计算每个目标数据点在y轴的
波动范围内数据点的信息分布变化,来获取每个数据点的堆积度的大小,通过堆积度的大
小来表征数据点对于表征弃风限电的特征的大小,使得可以在区分异常数据点的原因影响
的同时获取更为精确的数据点的分布特征,为之后对数据点聚类时所用的信息分布更加准
确,其中,y轴均表示散点图中的y轴。
S4、获取目标数据点隶属于每个聚类中心的隶属度影响因子;
具体的,获取数据点隶属于均值聚类算法的每个聚类中心的隶属度,根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子。
通过考虑每个数据点的分布方向混乱程度和堆积度的大小,以便于在进行隶属度影响因子计算时综合考虑每个数据点的局部邻域数据点的分布的特征,故本实施例以分布方向混乱程度和堆积度获取影响隶属度影响因子计算的影响参数的权重,从而综合考虑计算隶属度影响因子时,来确定是局部邻域数据点与聚类的聚类中心之间的欧式距离的影响还是隶属度的影响,使得在计算数据点的隶属度影响因子更加准确,进而提高续数据点分类的精准性。
具体的,本实施例中利用均值聚类算法选用C均值聚类算法,利用C均值聚类算法的多个初始聚类中心及对应初始隶属度先获取多个对应的聚类中心,然后依据C均值聚类算法中的隶属度计算公式获取数据点与隶属于每个聚类中心的隶属度,然后结合堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子,即隶属度影响因子的计算公式为:
需要说明的是,为了可以更好区分由于不同类型的异常数据点,使异常数据点分
到各自对应的聚类中,故根据每个数据点的邻域数据点的分布方向混乱程度和堆积度对影
响隶属度影响因子的影响参数设定权重,其中,对于异常数据点来说,其邻域数据点的分布
方向混乱程度较小而堆积度较大,则对应的数据点也应考虑邻域数据点与聚类之间的隶属
度的影响越大,则对应的受到的邻域数据点与聚类之间的欧式距离影响越小,即对应的受
到的影响较小,受到的影响较大;若数据点的堆积度较小,则对应的数据点应
考虑邻域数据点的欧式距离的影响越大,受到的邻域数据点与聚类之间的隶属度的影响越
小,故通过来表征的权重,堆积度越大,即隶属度影响因子受到的影响越
大。
其中,为了减少计算量,保证隶属度影响因子计算的进度,进而保证C均值聚类的分类精度,将每个目标数据点的邻域内的邻域数据点的分布方向混乱程度与以目标数据点的邻域数据点为目标数据点时对应的分布方向混乱程度相似且距离较近的目标邻域数据点作为目标数据点的隶属度计算所用的邻域数据点,具体的,在计算目标数据点隶属于每个聚类中心的隶属度影响因子之前,包括:获取目标数据点的邻域数据点对应的分布方向混乱程度与在目标数据点的邻域数据点为目标数据点时对应的邻域数据点对应的分布方向混乱程度之间的分布方向混乱程度差值;根据第二欧式距离、分布方向混乱程度差值绝对值获取目标数据点的邻域数据点在目标数据点的邻域内的参与度,对预设的第二欧式距离权重与第二欧式距离的乘积、分布方向混乱程度差值权重与分布方向混乱程度差值绝对值的乘积进行求和,根据求和后的和值的倒数得到目标数据点的邻域数据点在目标数据点的邻域内的参与度;根据参与度获取目标数据点的邻域数据点中的目标邻域数据点;将目标邻域数据点作为获取目标数据点隶属于每个聚类中心的隶属度影响因子时的邻域数据点,即在。
其中,参与度计算公式为:
本实施例中,认为分布方向混乱程度的差异相比欧式距离更加重要,故第二欧式
距离权重取、分布方向混乱程度差值权重取,第二欧式距离越小,且置分布程度差
值的绝对值越小,越表明目标数据点与邻域数据点越相似,即表明邻域数据点在目标数据
点的邻域内的参与度越大,由于,参与度进行了线性归一化,故本实施例设置参与度阈值,将参与度大于参与度阈值的邻域数据点作为目标邻域数据点,即目标邻域数据点
作为隶属度影响因子计算时的邻域数据点,即以第个目标数据点为例,其邻域数据点的总
数量等于隶属度影响因子的计算公式中的的大小,即,隶属度影响因子公式中的第三欧
式距离、隶属度、第二欧式距离中的邻域数据点均为根据参数度及参与度阈值筛选出的目
标邻域数据点。
S5、进行C均值聚类,并获取正常数据点;
具体的,根据隶属度影响因子获取C均值聚类的目标函数,根据C均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类,根据最终聚类中数据点个数获取正常数据点。
具体的,目标函数表达式为:
需要说明的是,C均值聚类的目标函数为现有技术函数,本实施例只是将本发明中自适计算得到的隶属度影响因子将目标函数的隶属度影响因子进行替换,故本实施例不再对C均值聚类的目标函数进行赘述。
在步骤S4中得到每个目标数据点的自适应的隶属度影响因子后,根据隶属度影响
因子代入到C均值聚类算法的目标函数中,并对数据点进行C均值聚类,由于在步骤S3中对
散点图分析,散点图中共有4类数据点,故本实施例中C均值聚类算法的参数设置为:聚类数
量为4,对每个初始聚类进行初始化得到初始化聚类中心及对应的初始隶属度,进行迭代得
到每次迭代时的聚类中心及对应的隶属度,迭代停止条件为目标函数收敛,即目标函数值
的变化阈值(即目标函数收敛阈值可根据实施者具体实施情况而定,本案给出的
为经验参考值)。
具体的,将数据点个数最多的最终聚类中的数据点记为正常数据点,除数据点个数最多的最终聚类外的其他最终聚类对应数据点记为异常数据点,并对异常数据点进行剔除。
本发明的一种适用于风力发电的数据处理系统,包括:数据采集模块、第一参数计算模块、第二参数计算模块、影响因子修正模块及数据点筛选模块,其中,数据采集模块用于获取风电机组的风速数据以及功率数据;第一参数计算模块用于根据风速数据以及功率数据获取风速-功率的散点图;以散点图中每个数据点为目标数据点,获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离,根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度;第二参数计算模块用于预设每个目标数据点的纵坐标值波动范围,获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值,获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值,根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度;影响因子修正模块用于获取数据点隶属于C均值聚类算法的每个聚类中心的隶属度,根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子;数据点筛选模块用于根据隶属度影响因子获取C均值聚类的目标函数,根据C均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类,根据最终聚类中数据点个数获取正常数据点。
本发明的一种适用于风力发电的数据处理方法及系统,通过对风电机组的风速数据以及功率数据的风速-功率的散点图中的数据点进行分析得到数据点的类型,然后基于数据点的邻域数据点在散点图中的分布方向混乱程度及堆积度来对C均值聚类算法的隶属度影响因子进行修正,即通过分析在目标数据点多个方向中的每个方向上每两个相邻数据点的第一欧氏距离,然后基于所有方向上的第一欧氏距离获取表征目标数据点的邻域内的邻数据点的分布度的分布方向混乱程度,结合目标数据点与其他数据点上在纵坐标轴方向上的数据点的相似性来表征目标数据点的邻域数据点的堆积度,由于数据点的局部邻域数据点距离聚类中心的欧式距离以及局部邻域数据点对于聚类中心的隶属度均为影响C均值聚类算法的隶属度影响因子的影响参数,且对于正常数据点其邻域内邻域数据点多且每个方向都有分布,而对于异常数据点其邻域数据点在方向分布比较单一,即分布方向混乱程度较小,其且堆积度较大,其次,异常数据点的邻域数据点的隶属度参数对隶属度影响因子的影响也越大,故以堆积度与分布方向混乱程度的比值来表征隶属度的权重、以1减去堆积度与分布方向混乱程度的比值来表征欧式距离的权重,从而自适应的得到每个数据点的隶属度影响因子,进而基于自适应的隶属度影响因子获取C均值聚类的目标函数,基于C均值聚类的目标函数对数据点进行C均值聚类,实现精确分类,进而保证异常数据点准确的从所有数据点中剔除,实现了正常数据点的精确获取。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种适用于风力发电的数据处理方法,其特征在于,包括:
获取风电机组的风速数据以及功率数据;
根据风速数据以及功率数据获取风速-功率的散点图;
以散点图中每个数据点为目标数据点,获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离,根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度;
预设每个目标数据点的纵坐标值波动范围,获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值,获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值,根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度;
获取数据点隶属于均值聚类算法的每个聚类中心的隶属度,根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子;
根据隶属度影响因子获取均值聚类的目标函数,根据均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类,根据最终聚类中数据点个数获取正常数据点。
2.根据权利要求1所述的一种适用于风力发电的数据处理方法,其特征在于,在计算目标数据点隶属于每个聚类中心的隶属度影响因子之前,包括:
获取目标数据点的邻域数据点对应的分布方向混乱程度与在目标数据点的邻域数据点为目标数据点时对应的邻域数据点对应的分布方向混乱程度之间的分布方向混乱程度差值;
根据第二欧式距离、分布方向混乱程度差值绝对值获取目标数据点的邻域数据点在目标数据点的邻域内的参与度;
根据参与度获取目标数据点的邻域数据点中的目标邻域数据点;
将目标邻域数据点作为获取目标数据点隶属于每个聚类中心的隶属度影响因子时的邻域数据点。
3.根据权利要求2所述的一种适用于风力发电的数据处理方法,其特征在于,对预设的第二欧式距离权重与第二欧式距离的乘积、分布方向混乱程度差值权重与分布方向混乱程度差值绝对值的乘积进行求和,根据求和后的和值的倒数得到目标数据点的邻域数据点在目标数据点的邻域内的参与度。
4.根据权利要求1或2所述的一种适用于风力发电的数据处理方法,其特征在于,目标数据点隶属于每个聚类中心的隶属度影响因子的计算公式:
5.根据权利要求1所述的一种适用于风力发电的数据处理方法,其特征在于,获取目标数据点的邻域数据点在散点图中的分布方向混乱程度包括:
根据在目标数据点的每个方向上的每两个相邻数据点的第一欧式距离获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度;
根据目标数据点在所有方向上的分布度获取分布度熵值,并将分布度熵值作为目标数据点的邻域数据点在散点图中的分布方向混乱程度。
6.根据权利要求5所述的一种适用于风力发电的数据处理方法,其特征在于,获取目标数据点的邻域数据点在目标数据点的每个方向上的分布度包括:
以目标数据点为起始点,以起始点在散点图中的每个方向上最后一个数据点为终止点,得到在目标数据点的每个方向上数据点的总数;
获取在目标数据点的每个方向上的所有相邻数据点的第一欧式距离的均值;
根据目标数据点的每个方向上数据点的总数与其在对应方向上的第一欧式距离的均值的倒数的乘积得到目标数据点在每个方向上的邻域数据点的分布度。
7.根据权利要求1所述的一种适用于风力发电的数据处理方法,其特征在于,获取每个目标数据点的邻域数据点在散点图中的堆积度包括:
获取纵坐标值波动范围内的每个数据点对应的第一均值与目标数据点对应的第二均值的均值比值,并得到均值比值与1的差值绝对值;
获取目标数据点的纵坐标值波动范围内所有数据点与目标数据点对应差值绝对值的均值;
对差值绝对值的均值进行负相关计算得到每个目标数据点的邻域数据点在散点图中的堆积度。
8.根据权利要求1所述的一种适用于风力发电的数据处理方法,其特征在于,预设每个目标数据点的纵坐标值波动范围包括:
将目标数据点的纵坐标值减去预设的纵坐标值阈值作为纵坐标值波动范围的最小值;
将目标数据点的纵坐标值加上预设的纵坐标值阈值作为纵坐标值波动范围的最大值;
根据纵坐标值波动范围的最小值和纵坐标值波动范围的最大值得到每个目标数据点的预设的纵坐标值波动范围。
9.根据权利要求1所述的一种适用于风力发电的数据处理方法,其特征在于,将数据点个数最多的最终聚类中的数据点记为正常数据点,除数据点个数最多的最终聚类外的其他最终聚类对应数据点记为异常数据点,并对异常数据点进行剔除。
10.一种适用于风力发电的数据处理系统,其特征在于,包括:
数据采集模块,用于获取风电机组的风速数据以及功率数据;
第一参数计算模块,用于根据风速数据以及功率数据获取风速-功率的散点图;以散点图中每个数据点为目标数据点,获取目标数据点在其每个不同方向上的每两个相邻数据点的第一欧式距离,根据所有方向上对应的第一欧式距离获取目标数据点的邻域数据点在散点图中的分布方向混乱程度;
第二参数计算模块,用于预设每个目标数据点的纵坐标值波动范围,获取纵坐标值波动范围内的每个数据点与其所在的纵坐标轴方向上的其他数据点的欧氏距离的第一均值,获取每个目标数据点与其纵坐标轴方向上的每个数据点的欧氏距离的第二均值,根据第一均值、第二均值及预设的纵坐标值波动范围内的数据点的数量获取每个目标数据点的邻域数据点在散点图中的堆积度;
影响因子修正模块,用于获取数据点隶属于均值聚类算法的每个聚类中心的隶属度,根据堆积度、分布方向混乱程度、目标数据点与其邻域数据点的第二欧式距离、目标数据点的邻域数据点隶属于每个聚类中心的隶属度、目标数据点的邻域数据点与每个聚类中心的第三欧式距离获取目标数据点隶属于每个聚类中心的隶属度影响因子;
数据点筛选模块,用于根据隶属度影响因子获取均值聚类的目标函数,根据均值聚类的目标函数对所有数据点进行聚类得到多个最终聚类,根据最终聚类中数据点个数获取正常数据点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211592281.5A CN115600119B (zh) | 2022-12-13 | 2022-12-13 | 适用于风力发电的数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211592281.5A CN115600119B (zh) | 2022-12-13 | 2022-12-13 | 适用于风力发电的数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115600119A true CN115600119A (zh) | 2023-01-13 |
CN115600119B CN115600119B (zh) | 2023-06-16 |
Family
ID=84853896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211592281.5A Active CN115600119B (zh) | 2022-12-13 | 2022-12-13 | 适用于风力发电的数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115600119B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115951123A (zh) * | 2023-02-28 | 2023-04-11 | 国网山东省电力公司营销服务中心(计量中心) | 一种基于无线通信的电能计量方法及系统 |
CN116166960A (zh) * | 2023-02-07 | 2023-05-26 | 河南大学 | 用于神经网络训练的大数据特征清洗方法及系统 |
CN116361679A (zh) * | 2023-06-02 | 2023-06-30 | 青岛豪迈电缆集团有限公司 | 基于数据驱动的电缆寿命智能预测方法及系统 |
CN116703485A (zh) * | 2023-08-04 | 2023-09-05 | 山东创亿智慧信息科技发展有限责任公司 | 基于大数据的广告精准营销方法及系统 |
CN116757334A (zh) * | 2023-08-16 | 2023-09-15 | 江西科技学院 | 财务数据处理方法、系统、可读存储介质及计算机 |
CN117056764A (zh) * | 2023-10-11 | 2023-11-14 | 唐山市南堡经济开发区航天万源新能源有限公司 | 一种发电机组智能保护方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740175A (zh) * | 2018-11-18 | 2019-05-10 | 浙江大学 | 一种面向风电机组功率曲线数据的离群点判别方法 |
CN110674864A (zh) * | 2019-09-20 | 2020-01-10 | 国网上海市电力公司 | 一种含同步相量量测装置的风电异常数据辨识方法 |
CN111260503A (zh) * | 2020-01-13 | 2020-06-09 | 浙江大学 | 一种基于聚类中心优化的风电机组功率曲线离群点检测方法 |
CN115423174A (zh) * | 2022-08-30 | 2022-12-02 | 东北电力大学 | 一种计及波动过程划分的短期风电功率预测方法 |
CN115858630A (zh) * | 2023-02-21 | 2023-03-28 | 新风光电子科技股份有限公司 | 一种储能电站储能数据的异常检测方法 |
-
2022
- 2022-12-13 CN CN202211592281.5A patent/CN115600119B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740175A (zh) * | 2018-11-18 | 2019-05-10 | 浙江大学 | 一种面向风电机组功率曲线数据的离群点判别方法 |
CN110674864A (zh) * | 2019-09-20 | 2020-01-10 | 国网上海市电力公司 | 一种含同步相量量测装置的风电异常数据辨识方法 |
CN111260503A (zh) * | 2020-01-13 | 2020-06-09 | 浙江大学 | 一种基于聚类中心优化的风电机组功率曲线离群点检测方法 |
CN115423174A (zh) * | 2022-08-30 | 2022-12-02 | 东北电力大学 | 一种计及波动过程划分的短期风电功率预测方法 |
CN115858630A (zh) * | 2023-02-21 | 2023-03-28 | 新风光电子科技股份有限公司 | 一种储能电站储能数据的异常检测方法 |
Non-Patent Citations (2)
Title |
---|
CHEN FANG等: "Abnormal Wind Power Data Identification Based on the Improved FCM Algorithm and Considering the Influence of Wind Speed", 《2019 9TH INTERNATIONAL CONFERENCE ON POWER AND ENERGY SYSTEMS(ICPES)》 * |
陈伟;吴布托;裴喜平;: "风电机组异常数据预处理的分类多模型算法", 电力系统及其自动化学报, no. 04 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116166960A (zh) * | 2023-02-07 | 2023-05-26 | 河南大学 | 用于神经网络训练的大数据特征清洗方法及系统 |
CN116166960B (zh) * | 2023-02-07 | 2023-09-29 | 山东经鼎智能科技有限公司 | 用于神经网络训练的大数据特征清洗方法及系统 |
CN115951123A (zh) * | 2023-02-28 | 2023-04-11 | 国网山东省电力公司营销服务中心(计量中心) | 一种基于无线通信的电能计量方法及系统 |
CN115951123B (zh) * | 2023-02-28 | 2023-06-30 | 国网山东省电力公司营销服务中心(计量中心) | 一种基于无线通信的电能计量方法及系统 |
CN116361679A (zh) * | 2023-06-02 | 2023-06-30 | 青岛豪迈电缆集团有限公司 | 基于数据驱动的电缆寿命智能预测方法及系统 |
CN116361679B (zh) * | 2023-06-02 | 2023-08-11 | 青岛豪迈电缆集团有限公司 | 基于数据驱动的电缆寿命智能预测方法及系统 |
CN116703485A (zh) * | 2023-08-04 | 2023-09-05 | 山东创亿智慧信息科技发展有限责任公司 | 基于大数据的广告精准营销方法及系统 |
CN116703485B (zh) * | 2023-08-04 | 2023-10-20 | 山东创亿智慧信息科技发展有限责任公司 | 基于大数据的广告精准营销方法及系统 |
CN116757334A (zh) * | 2023-08-16 | 2023-09-15 | 江西科技学院 | 财务数据处理方法、系统、可读存储介质及计算机 |
CN116757334B (zh) * | 2023-08-16 | 2023-11-24 | 江西科技学院 | 财务数据处理方法、系统、可读存储介质及计算机 |
CN117056764A (zh) * | 2023-10-11 | 2023-11-14 | 唐山市南堡经济开发区航天万源新能源有限公司 | 一种发电机组智能保护方法及系统 |
CN117056764B (zh) * | 2023-10-11 | 2024-01-09 | 唐山市南堡经济开发区航天万源新能源有限公司 | 一种发电机组智能保护方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115600119B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115600119A (zh) | 适用于风力发电的数据处理方法及系统 | |
CN107682319B (zh) | 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法 | |
CN108805213B (zh) | 计及小波熵降维的电力负荷曲线双层谱聚类方法 | |
CN109657891B (zh) | 一种基于自适应k-means++算法的负荷特性分析方法 | |
CN116166960B (zh) | 用于神经网络训练的大数据特征清洗方法及系统 | |
CN111709454B (zh) | 一种基于最优copula模型的多风电场出力聚类评估方法 | |
CN111275132A (zh) | 一种基于sa-pfcm++算法的目标分群方法 | |
CN110232371B (zh) | 基于小样本的高精度hrrp雷达多目标识别方法 | |
CN111784093B (zh) | 一种基于电力大数据分析的企业复工辅助判断方法 | |
CN116522268B (zh) | 一种配电网的线损异常识别方法 | |
CN112561139A (zh) | 一种短期光伏发电功率预测方法和系统 | |
CN112070121A (zh) | 一种基于变分自编码器的智能电表数据填补方法 | |
CN112186761A (zh) | 一种基于概率分布的风电功率场景生成方法及系统 | |
CN115952067A (zh) | 一种数据库操作异常行为检测方法及可读存储介质 | |
CN114861760A (zh) | 一种基于密度峰值聚类算法的改进研究 | |
CN107808209B (zh) | 基于加权kNN距离的风电场异常数据辨识方法 | |
CN114519651A (zh) | 基于电力大数据的智能配电方法 | |
CN109508350B (zh) | 一种对数据进行采样的方法和装置 | |
CN110988856B (zh) | 一种基于密度聚类的目标检测点迹凝聚算法 | |
CN117407732A (zh) | 一种基于对抗神经网络的非常规储层气井产量预测方法 | |
CN116663431A (zh) | 基于分段仿射的风电场阻抗确定方法、系统、设备及介质 | |
Dai et al. | Clustering of DOA data in radar pulse based on SOFM and CDbw | |
CN114548294A (zh) | 一种电网异常数据检测方法、装置、移动终端及存储介质 | |
CN114545158A (zh) | 自动分离局部放电信号和噪声信号 | |
CN110942089B (zh) | 一种基于多级决策的击键识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |