CN112085115A - 高维空间异常数据优化识别方法 - Google Patents
高维空间异常数据优化识别方法 Download PDFInfo
- Publication number
- CN112085115A CN112085115A CN202010973364.3A CN202010973364A CN112085115A CN 112085115 A CN112085115 A CN 112085115A CN 202010973364 A CN202010973364 A CN 202010973364A CN 112085115 A CN112085115 A CN 112085115A
- Authority
- CN
- China
- Prior art keywords
- data
- dimensional
- probability
- rated
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000005457 optimization Methods 0.000 title claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 47
- 238000009826 distribution Methods 0.000 claims abstract description 47
- 241000039077 Copula Species 0.000 claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 238000004519 manufacturing process Methods 0.000 claims abstract description 13
- 238000004140 cleaning Methods 0.000 claims description 9
- 230000008030 elimination Effects 0.000 claims description 9
- 238000003379 elimination reaction Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 238000009825 accumulation Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 239000010749 BS 2869 Class C1 Substances 0.000 description 1
- 239000010750 BS 2869 Class C2 Substances 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y10/00—Economic sectors
- G16Y10/35—Utilities, e.g. electricity, gas or water
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种高维空间异常数据优化识别方法,首先,通过获取工业过程多维变量运行数据并进行采集及存储,然后进行机理剔除,接着,通过高维空间聚类分析方法对多维变量运行数据进行第一次聚类分析得到若干组第一数据类Ci;接着,对每一组第一数据类Ci进行第二次聚类分析,获得若干组第二数据类Cij;之后,在Copula高维概率空间下,建立所述多维变量构成的联合概率分布,在每一个维度上,将所述多维变量联合概率分布的取值范围均匀划分为多个概率区间;最后,基多向四分位算法、智能或数值型优化算法,实现对每个所述概率区间内运行数据样本的异常数据优化识别。
Description
技术领域
本发明涉及一种数据预处理方法,具体涉及一种高维空间异常数据优化识别方法及装置。
背景技术
随着工业物联网的快速发展,海量工业过程运行数据得以采集和存储。以风电工业为例,由于弃风限电、环境干扰、测量噪声和传输存储错误等原因的广泛存在,风机数据采集与监控(SCADA)系统的记录中产生了大量异常数据,主要包括堆积型和稀疏型异常数据。这些异常数据数量庞大并易对由数据驱动的风功率曲线建模、风电理论功率计算、风机运行性能评价、运行状态及故障诊断等应用产生不良影响。由于异常数据与有效数据混合存在、多变量运行数据间复杂非线性等原因,加大了对异常数据识别、清洗的难度。因此,异常数据识别问题引起了学界和工业界的广泛关注和研究。
从异常数据类型来看,堆积型异常数据量通常较大,特征明显且较易识别,但识别精度较低,一般用于异常数据初始识别;稀疏型异常数据量通常较小,易与有效数据混淆,识别难度大,依赖高精度的识别算法。目前,聚类方法是实现大量堆积型异常数据识别的可行解决方案,但由于在高维空间下,由于数据存在大量无关属性且分布稀疏等原因,多变量数据在高维空间下的数据识别常常难以取得良好效果。此外,用于稀疏型异常数据识别的有效算法较少,尤其在高维空间下,更加难以实现对稀疏型异常数据有效识别与精度评价。
发明目的
鉴于目前高维空间异常数据识别研究中存在的问题,本发明的目的在于提供一种高维空间异常数据优化识别的方法及装置。
通过多变量数据在高维空间的多次聚类分析,完成高维空间堆积型异常数据的初始识别及剔除。在此基础上,通过时序空间向概率空间的特征映射,在Copula高维概率空间下,定义多维变量线性相关性评价指标,基于Copula高维概率空间多向四分位算法、智能或数值型优化算法构建稀疏型异常数据优化识别问题描述,完成对高维空间内稀疏型常异常数据优化识别及剔除。
在工业物联网背景下,通过采用本发明的所述方法进行数据预处理后,最终实现为数据驱动的相关应用奠定基础的目的。
发明内容
根据本发明的一个方面,提供了一种高维空间异常数据优化识别方法,包括如下步骤:
S1:获取工业过程多维变量运行数据,按照一定采样时间进行数据采集及存储;
S2:根据变量正常运行范围,进行机理剔除;
S3:通过高维空间聚类分析方法对多维变量运行数据进行第一次聚类分析,将运行数据划分为若干组第一数据类Ci;
S4:通过高维空间聚类分析方法对每一组第一数据类Ci进行第二次聚类分析,获得若干组第二数据类Cij;
S5:基于多维变量的边缘概率分布,在Copula高维概率空间下,建立所述多维变量构成的联合概率分布,其中,所述各变量边缘概率分布的取值范围为[0,1],联合概率分布的取值范围为[0,1];
S6:在Copula高维概率空间每一个维度上,将所述多维变量联合概率分布的取值范围均匀划分为多个概率区间;
S7:基于Copula高维概率空间多向四分位算法、智能或数值型优化算法,对每个所述概率区间内运行数据样本的异常数据进行优化识别。
优选地,所述步骤S1中,根据特定的工业过程,基于影响其生产特性的多维变量,按照特定的采样时间,对实际运行数据进行采集及存储,为后续的数据预处理提供数据样本基础。
优选地,所述步骤S2中,根据特定工业过程的运行机理及运行特性,对实测运行数据中不符各个变量正常运行范围的异常数据进行机理剔除。
优选地,步骤S3中,所述第一次聚类分析选取基于模型的聚类方法,寻找满足此模型的数据集,进而得到数据样本X的第一次聚类结果Ci={C1,C2,…,Ck}(i=1,2,…,k);第一次聚类分析后,根据特定的工业过程运行机理及运行特性,对第一数据类中的异常数据进行剔除,其中,作为异常数据被剔除的数据量在剔除前数据总量的25%以内。
优选地,步骤S4中,基于所述第一次聚类结果Ci,经过聚类得到数据样本X的第二次聚类结果Cij={Ci1,Ci2,…,Cim}(i=1,2,…,k;j=1,2,…,m);基于高维空间聚类算法第二次聚类结果,对高维聚类结果进行分析,并对异常数据进行剔除。
优选地,步骤S5中,在Copula高维概率空间中建立所述多维变量构成的联合概率分布,对于由任意两个变量构成的联合概率分布,包括以下步骤:
S51:采用核密度估计法(KDE)分别建立所述多维变量的边缘概率分布,其中,各变量边缘概率分布的取值范围为[0,1];
S52:根据所述边缘概率分布在Copula概率空间建立所述多维变量的联合概率分布,其中,所述联合概率分布的取值范围为[0,1];
S53:在所述Copula高维概率空间中,建立多维变量线性相关性评价指标,对所述多维变量的联合概率分布中多个概率散点的集中程度进行评价。
优选地,步骤S6中,采用智能或数值型优化算法对所述划分取值范围的划分间隔D进行优化。
优选地,步骤S7中,所述基于Copula高维概率空间的多向四分位法包括:
对于每一个所述多维变量的概率区间,分别定义所述概率区间内的分位点Q1、Q2和Q3,其中,通过计算所述分位点,定义多向四分位法的四分位距(IQR):IQR=Q3-Q1;基于分位点与四分位距,定义数据识别区间为[NL,NH]=[Q1-μIQR,Q3+μIQR],其中,NL为正常数据下限,NH为正常数据上限,μ为四分位系数。
优选地,所述数据识别区间表达式中四分位系数μ采用智能或数值型优化算法求取,根据所述数据识别区间在每个所述概率区间内的执行多向四分位法数据识别,所述数据识别的步骤包括:
S71:定义所述多维变量在Copula概率空间上的维度;
S72:在高维空间的每一个维度上,基于智能或数值型优化算法,定义并求取相应的划分间隔和四分位系数;
S73:基于所述划分间隔和四分位系数,在由任意两个变量构成的联合概率分布每个维度的每个所述概率区间内执行四分位算法,获取识别区间,在每个所述概率区间内,对属于识别区间内的正常数据进行保留,对不属于识别区间的异常数据进行剔除,实现了数据样本中异常数据的横向和纵向的四分位识别,进而对于多变量实现了多向四分位识别。
根据本发明的另一个方面,提供了上述的数据优化识别方法在风机功率数据清洗方法中的应用,进一步包括以下步骤:
步骤一:获取风电场多维变量运行数据,具体为按一定采样时间进行采集和存储的风电场中的风机风速、转子转速和功率的实测运行数据;
步骤二:基于运行特性对步骤一种所获取的数据进行机理剔除,具体包括:将风力发电机功率曲线WTPC划分为五个区域,即,
区域I:切入阶段,此时风速小于切入风速Vcut,in,机组空转,并网功率为0;
区域Ⅱ:最大风能跟踪阶段,此时Vcut,in≤V<Vωr,rated,通过调节转矩来控制转速,维持最大风能利用率;
区域Ⅲ:过渡阶段,此时Vωr,rated≤V<Vrated,风机功率Pω,rated≤P<Prated;
区域Ⅳ:额定功率阶段,此时Vrated≤V<Vcut,out,通过控制桨距角使机组以额定功率和额定转速运行;
区域Ⅴ:切出阶段,此时V>Vcut,out,机组刹车停机,风机离网,此时风机功率为0;
所述机理剔除指在区域Ⅰ剔除功率小于零和大于零的数据,在区域Ⅱ和区域Ⅲ剔除桨距角不等于零的数据,在区域Ⅳ剔除由于传输错误造成功率远大于额定功率的异常数据,在区域Ⅴ剔除功率不为零的数据;
步骤三:基于高维聚类算法获得第一数据类Ci;
步骤四:基于高维聚类算法获得第二数据类Cij;
步骤五:基于Copula高维概率空间建立多维变量联合概率分布;
步骤六:将联合概率分布的取值范围均匀划分为多个概率区间;
步骤七:基于多向四分位算法实现概率区间内数据优化识别。
附图说明
图1为根据本发明的一种风机功率数据清洗方法的实施流程图。
图2为风力发电机功率曲线(WTPC)。
图3为采用进行第一次聚类的结果。
图4为采用GMM聚类算法进行第二次聚类的结果。
图5为风速、转速、功率在Copula空间中联合概率分布。
图6为本发明实施例中风机功率数据的清洗结果。
图7为本发明实施例中数据清洗前后概率密度曲线对比。
具体实施方式
以下结合附图及本发明的优选实施例,进一步阐述本发明为达成预定发明目的所采取的技术手段。本发明选取一台华北1.5MW的风力发电机组仿真,采样周期为10分钟/点,示例数据为2019年1月至12月。
图1为一种风机功率数据清洗方法的实施流程图。一种风机功率数据清洗的方法具体包括以下步骤:
步骤一:获取风电场多维变量运行数据。具体为风电场中风机风速、转子转速和功率按一定采样时间进行采集和存储的实测运行数据。
步骤二:基于运行特性进行机理剔除。根据机组运行特性和控制策略将风力发电机功率曲线(WTPC)划分为五个区域,如图2所示,区域I:切入阶段,此时风速小于切入风速Vcut,in,机组空转,理论并网功率为0。区域Ⅱ:最大风能跟踪阶段,此时Vcut,in≤V<Vωr,rated,通过调节转矩来控制转速,维持最大风能利用率。区域Ⅲ:过渡阶段,此时Vωr,rated≤V<Vrated,风机功率Pωrated≤P<Prated。区域Ⅳ:额定功率阶段,此时Vrated≤V<Vcut,out,通过控制桨距角使机组以额定功率和额定转速运行。区域Ⅴ:切出阶段,此时V>Vcut,out,机组刹车停机,风机离网,此时风机功率为0。
本发明选取的风机出厂参数为Vcut,in=3m/s,Vωr,rated=8.5m/s,Vrated=11.5m/s,Vcut,out=25m/s,对实测运行数据进行机理剔除,具体为在区域Ⅰ剔除功率小于零和大于零的数据,在区域Ⅱ和区域Ⅲ剔除桨距角不等于零的数据,在区域Ⅳ剔除由于传输错误造成功率远大于额定功率的异常数据,在区域Ⅴ剔除功率不为零的数据。
步骤三:基于高维聚类算法获得第一数据类Ci。本实例优选高斯混合模型聚类对数据进行识别,对采用的高斯混合模型聚类算法作如下介绍,其特征在于,包括以下步骤:
定义高斯混合分布如公式(1)所示,其中,μi和εi为第i个高斯混合成分的参数,αi为相应的混合系数,且Σαi=1,(i=1,2,…,k)。
由贝叶斯定理,定义随机变量sj的后验概率如公式(2)所示,pG(sj|xj)给出了数据样本的第i个高斯混合成分的后验概率,记为ξji。
给定一个数据样本X,当公式(1)已知时,高斯混合聚类将数据样本X分为k类,C={C1,C2,…,Ck}。求解高斯混合模型本质即求解高斯成分混合参数和混合系数。由于采用极大似然估计对公式(1)的模型参数难以直接求解,本发明实例中采用EM算法优化求解,其特征在于,以一种迭代的方式对参数进行估计,迭代公式如下:
所述EM算法,其特征在于,包括如下执行步骤:
①初始化均值、协方差和混合系数。
②E-step:对于每一个观测值,计算各分量的后验概率ξji。
③M-step:根据求得的后验概率,代入公式(3)(4)(5)更新高斯混合模型的各个参数,直到满足后验概率最大时停止。
采用k-means++算法初始化聚类中心,经实验,设置第一次聚类数目为2,第一次聚类结果如图3所示。
步骤四:基于高维聚类算法获得第二数据类Cij。本实例优选高斯混合模型聚类算法,具体为采用GMM聚类算法对第一数据类C1和C2分别再次聚类,实施图4所示。结合风力发电机的实际运行特性,可以得出,C14和C22为异常数据。
步骤五:基于Copula高维概率空间建立多维变量联合概率分布。具体为在Copula概率空间建立风速、转速和功率构成的联合概率分布。采用基于粒子群优化算法的Copula概率空间多向四分位法,优化目标函数如公式(6)所示,ρ代表两个向量间的相关系数,用于评价向量的线性相关性。
其中,u为风速或转速的边缘概率分布,v为功率的边缘概率分布,均采用核密度估计(KDE)计算得出。风速、转速、功率在Copula概率空间中的联合概率分布如图5所示。
步骤六:将联合概率分布的取值范围均匀划分为多个概率区间。具体为在Copula概率空间中,设置间隔D分别将维度u、v划分为若干个宽度相等的概率区间,其中,间隔D采用PSO算法进行优化。经实验,通过采用PSO算法优化求解,得到间隔D为0.00086。
步骤七:基于多向四分位算法实现概率区间内数据优化识别。具体为在Copula概率空间中,采用基于粒子群优化算法的多向四分位法,在由风速和功率、转速和功率构成的联合分布概率空间中,分别沿所定义维度u、v上,在每个概率区间内对运行数据样本进行数据优化识别,整体实现了各个变量横向和纵向的数据识别,最终实现了多维变量的多向四分位数据识别。
对数据识别时采用的四分法,其特征在于,包括如下步骤:
定义数据样本X={x1,x2,…,xn},其等分割点四分位数分别记为Q1、Q2、Q3,分别通过下式计算:
当n=2k时,Q1=Q2=Q3;
当n=4k+1(k=0,1,2…)时,Q1、Q3采用(8)式计算:
当n=4k+3(k=0,1,2…)时,Q1、Q3采用(9)式计算:
定义四分位距(IQR)为:IQR=Q3-Q1,定义清洗区间如公式(10)所示,其中μ为四分位系数,并采用PSO算法来优化μ的求解。
[NL,NH]=[Q1-μIQR,Q3+μIQR] (10)
基于粒子群优化算法的多向四分位算法,通过计算每个维度的识别区间,确定正常的数据的取值范围,即属于识别区间内的为正常数据,属于识别区间外的为异常数据,整体实现对多维度概率区间内数据样本的识别。
经实验,经PSO算法优化求解后,风速和转速对应的四分位系数μu分别为1.0122和1.2998,功率对应的四分位系数μu为1.0024。
运行数据样本在二维、三维空间的最终识别效果如图6所示,由于三维空间无法对有些数据可视化,因此只展示最终数据识别结果。下面对最终的识别效果进行说明:
在Copula概率空间中,经数据识别后,风速和功率之间的皮尔逊系数为0.9721,而识别前仅为0.7891,说明经过本发明所述数据优化识别方法,剔除了许多与实际风速相关系很小的异常风功率数据。为了进一步说明数据优化识别的效果,求得数据识别前后的概率密度曲线如图7所示,从图中可以看出,经优化识别后的数据可用性显著提高,数据质量明显改善,因此本发明所提出的高维空间异常数据优化识别方法是有效的。
发明效果
本发明具有以下有益效果:
1)本发明提供的高维空间异常数据优化识别方法,能够在获取工业过程的实测数据样本后,在由多维变量组成的高维空间里,采用高维聚类算法完成高维空间内堆积型异常数据初始识别,有助于优化堆积型异常数据识别效果。
2)在此基础上,本发明在Copula高维概率空间中,建立多维变量的联合概率分布,并定义多维变量线性相关性评价指标。将多维变量联合概率分布在高维概率空间内每一个维度上的取值范围均匀划分成多个概率区间,采用多向四分位算法、智能或数值型优化算法,分别对每个概率区间内的运行数据样本进行精细化异常数据识别,有助于优化对稀疏型异常数据识别效果。
3)最终,在工业物联网背景下,通过采用本发明的所述方法进行数据预处理后,有助于为数据驱动的相关应用奠定基础。
Claims (10)
1.一种高维空间异常数据优化识别方法,其特征在于,包括如下步骤:
S1:获取工业过程多维变量运行数据,按照一定采样时间进行数据采集及存储;
S2:根据变量正常运行范围,进行机理剔除;
S3:通过高维空间聚类分析方法对多维变量运行数据进行第一次聚类分析,将运行数据划分为若干组第一数据类Ci;
S4:通过高维空间聚类分析方法对每一组第一数据类Ci进行第二次聚类分析,获得若干组第二数据类Cij;
S5:基于多维变量的边缘概率分布,在Copula高维概率空间下,建立所述多维变量构成的联合概率分布,其中,所述各变量边缘概率分布的取值范围为[0,1],联合概率分布的取值范围为[0,1];
S6:在Copula高维概率空间每一个维度上,将所述多维变量联合概率分布的取值范围均匀划分为多个概率区间;
S7:基于Copula高维概率空间多向四分位算法、智能或数值型优化算法,对每个所述概率区间内运行数据样本的异常数据进行优化识别。
2.根据权利要求1所述的优化识别方法,其特征在于,所述步骤S1中,根据特定的工业过程,基于影响其生产特性的多维变量,按照特定的采样时间,对实际运行数据进行采集及存储,为后续的数据预处理提供数据样本基础。
3.根据权利要求1所述的优化识别方法,其特征在于,所述步骤S2中,根据特定工业过程的运行机理及运行特性,对实测运行数据中不符各个变量正常运行范围的异常数据进行机理剔除。
4.根据权利要求1所述的优化识别方法,其特征在于,步骤S3中,所述第一次聚类分析选取基于模型的聚类方法,寻找满足此模型的数据集,进而得到数据样本X的第一次聚类结果Ci={C1,C2,…,Ck}(i=1,2,…,k);第一次聚类分析后,根据特定的工业过程运行机理及运行特性,对第一数据类中的异常数据进行剔除,其中,作为异常数据被剔除的数据量在剔除前数据总量的25%以内。
5.根据权利要求1所述的优化识别方法,其特征在于,步骤S4中,基于所述第一次聚类结果Ci,经过聚类得到数据样本X的第二次聚类结果Cij={Ci1,Ci2,…,Cim}(i=1,2,…,k;j=1,2,…,m);基于高维空间聚类算法第二次聚类结果,对高维聚类结果进行分析,并对异常数据进行剔除。
6.根据权利要求1所述的优化识别方法,其特征在于步骤S5中,在Copula高维概率空间中建立所述多维变量构成的联合概率分布,对于由任意两个变量构成的联合概率分布,包括以下步骤:
S51:采用核密度估计法(KDE)分别建立所述多维变量的边缘概率分布,其中,各变量边缘概率分布的取值范围为[0,1];
S52:根据所述边缘概率分布在Copula概率空间建立所述多维变量的联合概率分布,其中,所述联合概率分布的取值范围为[0,1];
S53:在所述Copula高维概率空间中,建立多维变量线性相关性评价指标,对所述多维变量的联合概率分布中多个概率散点的集中程度进行评价。
7.根据权利要求1所述的优化识别方法,其特征在于,步骤S6中,采用智能或数值型优化算法对所述划分取值范围的划分间隔D进行优化。
8.根据权利要求1所述的优化识别方法,其特征在于,步骤S7中,所述基于Copula高维概率空间的多向四分位法包括:
对于每一个所述多维变量的概率区间,分别定义所述概率区间内的分位点Q1、Q2和Q3,其中,通过计算所述分位点,定义多向四分位法的四分位距(IQR):IQR=Q3-Q1;基于分位点与四分位距,定义数据识别区间为[NL,NH]=[Q1-μIQR,Q3+μIQR],其中,NL为正常数据下限,NH为正常数据上限,μ为四分位系数。
9.根据权利要求8所述的优化识别方法,其特征在于,所述数据识别区间表达式中四分位系数μ采用智能或数值型优化算法求取,根据所述数据识别区间在每个所述概率区间内的执行多向四分位法数据识别,所述数据识别的步骤包括:
S71:定义所述多维变量在Copula概率空间上的维度;
S72:在高维空间的每一个维度上,基于智能或数值型优化算法,定义并求取相应的划分间隔和四分位系数;
S73:基于所述划分间隔和四分位系数,在由任意两个变量构成的联合概率分布每个维度的每个所述概率区间内执行四分位算法,获取识别区间,在每个所述概率区间内,对属于识别区间内的正常数据进行保留,对不属于识别区间的异常数据进行剔除,实现了数据样本中异常数据的横向和纵向的四分位识别,进而对于多变量实现了多向四分位识别。
10.根据权利要求1-9任一所述的数据优化识别方法在风机功率数据清洗方面的应用,进一步包括以下步骤:
步骤一:获取风电场多维变量运行数据,具体为按一定采样时间进行采集和存储的风电场中的风机风速、转子转速和功率的实测运行数据;
步骤二:基于运行特性对步骤一种所获取的数据进行机理剔除,具体包括:将风力发电机功率曲线WTPC划分为五个区域,即,
区域I:切入阶段,此时风速小于切入风速Vcut,in,机组空转,并网功率为0;
区域Ⅱ:最大风能跟踪阶段,此时Vcut,in≤V<Vωr,rated,Vωr,rated为额定转速对应风速,通过调节转矩来控制转速,维持最大风能利用率;
区域Ⅲ:过渡阶段,此时Vωr,rated≤V<Vrated,Vrated为额定风速,风机功率Pω,rated≤P<Prated,Pω,rated为额定转速对应功率,Prated为额定功率;
区域Ⅳ:额定功率阶段,此时Vrated≤V<Vcut,out,Vcut,out为切出风速,通过控制桨距角使机组以额定功率和额定转速运行;
区域Ⅴ:切出阶段,此时V>Vcut,out,机组刹车停机,风机离网,此时风机功率为0;
所述机理剔除指在区域Ⅰ剔除功率小于零和大于零的数据,在区域Ⅱ和区域Ⅲ剔除桨距角不等于零的数据,在区域Ⅳ剔除由于传输错误造成功率远大于额定功率的异常数据,在区域Ⅴ剔除功率不为零的数据;
步骤三:基于高维聚类算法获得第一数据类Ci;
步骤四:基于高维聚类算法获得第二数据类Cij;
步骤五:基于Copula高维概率空间建立多维变量联合概率分布;
步骤六:将联合概率分布的取值范围均匀划分为多个概率区间;
步骤七:基于多向四分位算法实现概率区间内数据优化识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010973364.3A CN112085115A (zh) | 2020-09-16 | 2020-09-16 | 高维空间异常数据优化识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010973364.3A CN112085115A (zh) | 2020-09-16 | 2020-09-16 | 高维空间异常数据优化识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112085115A true CN112085115A (zh) | 2020-12-15 |
Family
ID=73737142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010973364.3A Pending CN112085115A (zh) | 2020-09-16 | 2020-09-16 | 高维空间异常数据优化识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085115A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112950403A (zh) * | 2021-01-29 | 2021-06-11 | 上海电气风电集团股份有限公司 | 风机多工况数据异常处理的方法、装置及计算机可读存储介质 |
CN114039886A (zh) * | 2021-10-19 | 2022-02-11 | 国网山东省电力公司日照供电公司 | 基于四分差和自相关性分析的数据正确性辨识方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3109801A1 (en) * | 2015-06-26 | 2016-12-28 | National University of Ireland, Galway | Data analysis and event detection method and system |
CN107330183A (zh) * | 2017-06-29 | 2017-11-07 | 华北电力大学 | 一种基于运行数据的风电利用率计算方法 |
CN109783486A (zh) * | 2019-01-17 | 2019-05-21 | 华北电力大学 | 数据清洗方法、装置及服务器 |
CN109918364A (zh) * | 2019-02-28 | 2019-06-21 | 华北电力大学 | 一种基于二维概率密度估计和四分位法的数据清洗方法 |
CN110674120A (zh) * | 2019-08-09 | 2020-01-10 | 国电新能源技术研究院有限公司 | 一种风电场数据清洗方法及装置 |
CN111077876A (zh) * | 2019-12-11 | 2020-04-28 | 湖南大唐先一科技有限公司 | 一种电站设备状态智能评价和预警方法、装置及系统 |
-
2020
- 2020-09-16 CN CN202010973364.3A patent/CN112085115A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3109801A1 (en) * | 2015-06-26 | 2016-12-28 | National University of Ireland, Galway | Data analysis and event detection method and system |
CN107330183A (zh) * | 2017-06-29 | 2017-11-07 | 华北电力大学 | 一种基于运行数据的风电利用率计算方法 |
CN109783486A (zh) * | 2019-01-17 | 2019-05-21 | 华北电力大学 | 数据清洗方法、装置及服务器 |
CN109918364A (zh) * | 2019-02-28 | 2019-06-21 | 华北电力大学 | 一种基于二维概率密度估计和四分位法的数据清洗方法 |
CN110674120A (zh) * | 2019-08-09 | 2020-01-10 | 国电新能源技术研究院有限公司 | 一种风电场数据清洗方法及装置 |
CN111077876A (zh) * | 2019-12-11 | 2020-04-28 | 湖南大唐先一科技有限公司 | 一种电站设备状态智能评价和预警方法、装置及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112950403A (zh) * | 2021-01-29 | 2021-06-11 | 上海电气风电集团股份有限公司 | 风机多工况数据异常处理的方法、装置及计算机可读存储介质 |
CN114039886A (zh) * | 2021-10-19 | 2022-02-11 | 国网山东省电力公司日照供电公司 | 基于四分差和自相关性分析的数据正确性辨识方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107909211B (zh) | 基于模糊c均值聚类算法的风场等值建模及优化控制方法 | |
Weinberger et al. | Graph Laplacian regularization for large-scale semidefinite programming | |
CN112085115A (zh) | 高维空间异常数据优化识别方法 | |
CN112288164B (zh) | 一种计及空间相关性和修正数值天气预报的风功率组合预测方法 | |
CN110889535B (zh) | 一种基于卷积循环神经网络的风电场内多点位风速预测方法 | |
CN110263998B (zh) | 多源数值天气预报集合双层修正方法 | |
Montechiesi et al. | Artificial immune system via Euclidean Distance Minimization for anomaly detection in bearings | |
CN110795690A (zh) | 风电场运行异常数据检测方法 | |
Liu et al. | Fault diagnosis of rod pumping wells based on support vector machine optimized by improved chicken swarm optimization | |
CN111881617A (zh) | 数据处理方法、风力发电机组的性能评估方法及系统 | |
CN116070769A (zh) | 一种超短期风电场功率多步区间预测模块化方法及其设备 | |
CN115146718A (zh) | 基于深度表示的风电机组异常检测方法 | |
Cascianelli et al. | Wind turbine power curve monitoring based on environmental and operational data | |
Krishnamoorthy et al. | Data-driven scenario selection for multistage robust model predictive control | |
CN113221311A (zh) | 一种大气边界层风速的不确定性量化方法 | |
CN115641231A (zh) | 一种电力系统典型场景提取方法、系统、电子设备及介质 | |
Qing et al. | Spectral representation of robustness measures for optimization under input uncertainty | |
CN116054240A (zh) | 一种基于功率预测的风电并网运行控制优化方法及系统 | |
CN107766887A (zh) | 一种局部加权的不完整数据混杂聚类方法 | |
Groff et al. | Piecewise linear homeomorphisms: The scalar case | |
CN113379103A (zh) | 基于降阶模型的泵类设备内部流场的预测方法 | |
CN113048012A (zh) | 基于混合高斯模型的风电机组偏航角度识别方法和装置 | |
CN107039987B (zh) | 一种配电网的无功优化方法及系统 | |
Zhang et al. | Multi-region System Modelling by using Genetic Programming to Extract Rule Consequent Functions in a TSK Fuzzy System | |
Rui et al. | Digital information mining technology based on principal component analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231227 Address after: 100096 No. 2, Beinong Road, Huilongguan, Changping District, Beijing Applicant after: NORTH CHINA ELECTRIC POWER University Applicant after: HUANENG RUDONG BAXIANJIAO OFFSHORE WIND POWER CO.,LTD. Applicant after: HUANENG GROUP TECHNOLOGY INNOVATION CENTER Co.,Ltd. Address before: 102206 No. 2 Nong Road, Zhu Xin Zhuang, Beijing, Changping District Applicant before: NORTH CHINA ELECTRIC POWER University |
|
TA01 | Transfer of patent application right |