CN112085115A

CN112085115A - 高维空间异常数据优化识别方法

Info

Publication number: CN112085115A
Application number: CN202010973364.3A
Authority: CN
Inventors: 胡阳; 候文昌; 房方; 刘吉臻
Original assignee: North China Electric Power University
Current assignee: Huaneng Rudong Baxianjiao Offshore Wind Power Co ltd; North China Electric Power University; Huaneng Group Technology Innovation Center Co Ltd
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-15

Abstract

本发明公开了一种高维空间异常数据优化识别方法，首先，通过获取工业过程多维变量运行数据并进行采集及存储，然后进行机理剔除，接着，通过高维空间聚类分析方法对多维变量运行数据进行第一次聚类分析得到若干组第一数据类C_i；接着，对每一组第一数据类C_i进行第二次聚类分析，获得若干组第二数据类C_ij；之后，在Copula高维概率空间下，建立所述多维变量构成的联合概率分布，在每一个维度上，将所述多维变量联合概率分布的取值范围均匀划分为多个概率区间；最后，基多向四分位算法、智能或数值型优化算法，实现对每个所述概率区间内运行数据样本的异常数据优化识别。

Description

高维空间异常数据优化识别方法

技术领域

本发明涉及一种数据预处理方法，具体涉及一种高维空间异常数据优化识别方法及装置。

背景技术

随着工业物联网的快速发展，海量工业过程运行数据得以采集和存储。以风电工业为例，由于弃风限电、环境干扰、测量噪声和传输存储错误等原因的广泛存在，风机数据采集与监控(SCADA)系统的记录中产生了大量异常数据，主要包括堆积型和稀疏型异常数据。这些异常数据数量庞大并易对由数据驱动的风功率曲线建模、风电理论功率计算、风机运行性能评价、运行状态及故障诊断等应用产生不良影响。由于异常数据与有效数据混合存在、多变量运行数据间复杂非线性等原因，加大了对异常数据识别、清洗的难度。因此，异常数据识别问题引起了学界和工业界的广泛关注和研究。

从异常数据类型来看，堆积型异常数据量通常较大，特征明显且较易识别，但识别精度较低，一般用于异常数据初始识别；稀疏型异常数据量通常较小，易与有效数据混淆，识别难度大，依赖高精度的识别算法。目前，聚类方法是实现大量堆积型异常数据识别的可行解决方案，但由于在高维空间下，由于数据存在大量无关属性且分布稀疏等原因，多变量数据在高维空间下的数据识别常常难以取得良好效果。此外，用于稀疏型异常数据识别的有效算法较少，尤其在高维空间下，更加难以实现对稀疏型异常数据有效识别与精度评价。

发明目的

鉴于目前高维空间异常数据识别研究中存在的问题，本发明的目的在于提供一种高维空间异常数据优化识别的方法及装置。

通过多变量数据在高维空间的多次聚类分析，完成高维空间堆积型异常数据的初始识别及剔除。在此基础上，通过时序空间向概率空间的特征映射，在Copula高维概率空间下，定义多维变量线性相关性评价指标，基于Copula高维概率空间多向四分位算法、智能或数值型优化算法构建稀疏型异常数据优化识别问题描述，完成对高维空间内稀疏型常异常数据优化识别及剔除。

在工业物联网背景下，通过采用本发明的所述方法进行数据预处理后，最终实现为数据驱动的相关应用奠定基础的目的。

发明内容

根据本发明的一个方面，提供了一种高维空间异常数据优化识别方法，包括如下步骤：

S1：获取工业过程多维变量运行数据，按照一定采样时间进行数据采集及存储；

S2：根据变量正常运行范围，进行机理剔除；

S3：通过高维空间聚类分析方法对多维变量运行数据进行第一次聚类分析，将运行数据划分为若干组第一数据类C_i；

S4：通过高维空间聚类分析方法对每一组第一数据类C_i进行第二次聚类分析，获得若干组第二数据类C_ij；

S5：基于多维变量的边缘概率分布，在Copula高维概率空间下，建立所述多维变量构成的联合概率分布，其中，所述各变量边缘概率分布的取值范围为[0，1]，联合概率分布的取值范围为[0，1]；

S6：在Copula高维概率空间每一个维度上，将所述多维变量联合概率分布的取值范围均匀划分为多个概率区间；

S7：基于Copula高维概率空间多向四分位算法、智能或数值型优化算法，对每个所述概率区间内运行数据样本的异常数据进行优化识别。

优选地，所述步骤S1中，根据特定的工业过程，基于影响其生产特性的多维变量，按照特定的采样时间，对实际运行数据进行采集及存储，为后续的数据预处理提供数据样本基础。

优选地，所述步骤S2中，根据特定工业过程的运行机理及运行特性，对实测运行数据中不符各个变量正常运行范围的异常数据进行机理剔除。

优选地，步骤S3中，所述第一次聚类分析选取基于模型的聚类方法，寻找满足此模型的数据集，进而得到数据样本X的第一次聚类结果C_i＝{C₁,C₂,…,C_k}(i＝1,2,…,k)；第一次聚类分析后，根据特定的工业过程运行机理及运行特性，对第一数据类中的异常数据进行剔除，其中，作为异常数据被剔除的数据量在剔除前数据总量的25％以内。

优选地，步骤S4中，基于所述第一次聚类结果C_i，经过聚类得到数据样本X的第二次聚类结果C_ij＝{C_i1,C_i2,…,C_im}(i＝1,2,…,k；j＝1,2,…,m)；基于高维空间聚类算法第二次聚类结果，对高维聚类结果进行分析，并对异常数据进行剔除。

优选地，步骤S5中，在Copula高维概率空间中建立所述多维变量构成的联合概率分布，对于由任意两个变量构成的联合概率分布，包括以下步骤：

S51：采用核密度估计法(KDE)分别建立所述多维变量的边缘概率分布，其中，各变量边缘概率分布的取值范围为[0，1]；

S52：根据所述边缘概率分布在Copula概率空间建立所述多维变量的联合概率分布，其中，所述联合概率分布的取值范围为[0，1]；

S53：在所述Copula高维概率空间中，建立多维变量线性相关性评价指标，对所述多维变量的联合概率分布中多个概率散点的集中程度进行评价。

优选地，步骤S6中，采用智能或数值型优化算法对所述划分取值范围的划分间隔D进行优化。

优选地，步骤S7中，所述基于Copula高维概率空间的多向四分位法包括：

对于每一个所述多维变量的概率区间，分别定义所述概率区间内的分位点Q₁、Q₂和Q₃，其中，通过计算所述分位点，定义多向四分位法的四分位距(IQR)：IQR＝Q₃-Q₁；基于分位点与四分位距，定义数据识别区间为[N_L，N_H]＝[Q₁-μIQR，Q₃+μIQR]，其中，N_L为正常数据下限，N_H为正常数据上限，μ为四分位系数。

优选地，所述数据识别区间表达式中四分位系数μ采用智能或数值型优化算法求取，根据所述数据识别区间在每个所述概率区间内的执行多向四分位法数据识别，所述数据识别的步骤包括：

S71：定义所述多维变量在Copula概率空间上的维度；

S72：在高维空间的每一个维度上，基于智能或数值型优化算法，定义并求取相应的划分间隔和四分位系数；

S73：基于所述划分间隔和四分位系数，在由任意两个变量构成的联合概率分布每个维度的每个所述概率区间内执行四分位算法，获取识别区间，在每个所述概率区间内，对属于识别区间内的正常数据进行保留，对不属于识别区间的异常数据进行剔除，实现了数据样本中异常数据的横向和纵向的四分位识别，进而对于多变量实现了多向四分位识别。

根据本发明的另一个方面，提供了上述的数据优化识别方法在风机功率数据清洗方法中的应用，进一步包括以下步骤：

步骤一：获取风电场多维变量运行数据，具体为按一定采样时间进行采集和存储的风电场中的风机风速、转子转速和功率的实测运行数据；

步骤二：基于运行特性对步骤一种所获取的数据进行机理剔除，具体包括：将风力发电机功率曲线WTPC划分为五个区域，即，

区域I：切入阶段，此时风速小于切入风速V_cut,in，机组空转，并网功率为0；

区域Ⅱ：最大风能跟踪阶段，此时V_cut,in≤V＜V_ωr,rated，通过调节转矩来控制转速，维持最大风能利用率；

区域Ⅲ：过渡阶段，此时V_ωr,rated≤V＜V_rated,风机功率P_ω，rated≤P＜P_rated；

区域Ⅳ：额定功率阶段，此时V_rated≤V＜V_cut,out，通过控制桨距角使机组以额定功率和额定转速运行；

区域Ⅴ：切出阶段，此时V＞V_cut,out,机组刹车停机，风机离网，此时风机功率为0；

所述机理剔除指在区域Ⅰ剔除功率小于零和大于零的数据，在区域Ⅱ和区域Ⅲ剔除桨距角不等于零的数据，在区域Ⅳ剔除由于传输错误造成功率远大于额定功率的异常数据，在区域Ⅴ剔除功率不为零的数据；

步骤三：基于高维聚类算法获得第一数据类C_i；

步骤四：基于高维聚类算法获得第二数据类C_ij；

步骤五：基于Copula高维概率空间建立多维变量联合概率分布；

步骤六：将联合概率分布的取值范围均匀划分为多个概率区间；

步骤七：基于多向四分位算法实现概率区间内数据优化识别。

附图说明

图1为根据本发明的一种风机功率数据清洗方法的实施流程图。

图2为风力发电机功率曲线(WTPC)。

图3为采用进行第一次聚类的结果。

图4为采用GMM聚类算法进行第二次聚类的结果。

图5为风速、转速、功率在Copula空间中联合概率分布。

图6为本发明实施例中风机功率数据的清洗结果。

图7为本发明实施例中数据清洗前后概率密度曲线对比。

具体实施方式

以下结合附图及本发明的优选实施例，进一步阐述本发明为达成预定发明目的所采取的技术手段。本发明选取一台华北1.5MW的风力发电机组仿真，采样周期为10分钟/点，示例数据为2019年1月至12月。

图1为一种风机功率数据清洗方法的实施流程图。一种风机功率数据清洗的方法具体包括以下步骤：

步骤一：获取风电场多维变量运行数据。具体为风电场中风机风速、转子转速和功率按一定采样时间进行采集和存储的实测运行数据。

步骤二：基于运行特性进行机理剔除。根据机组运行特性和控制策略将风力发电机功率曲线(WTPC)划分为五个区域，如图2所示，区域I：切入阶段，此时风速小于切入风速V_cut,in，机组空转，理论并网功率为0。区域Ⅱ：最大风能跟踪阶段，此时V_cut,in≤V＜V_ωr,rated，通过调节转矩来控制转速，维持最大风能利用率。区域Ⅲ：过渡阶段，此时V_ωr,rated≤V＜V_rated,风机功率P_ωrated≤P＜P_rated。区域Ⅳ：额定功率阶段，此时V_rated≤V＜V_cut,out，通过控制桨距角使机组以额定功率和额定转速运行。区域Ⅴ：切出阶段，此时V＞V_cut,out,机组刹车停机，风机离网，此时风机功率为0。

本发明选取的风机出厂参数为V_cut,in＝3m/s,V_ωr,rated＝8.5m/s,V_rated＝11.5m/s,V_cut,out＝25m/s，对实测运行数据进行机理剔除，具体为在区域Ⅰ剔除功率小于零和大于零的数据，在区域Ⅱ和区域Ⅲ剔除桨距角不等于零的数据，在区域Ⅳ剔除由于传输错误造成功率远大于额定功率的异常数据，在区域Ⅴ剔除功率不为零的数据。

步骤三：基于高维聚类算法获得第一数据类C_i。本实例优选高斯混合模型聚类对数据进行识别，对采用的高斯混合模型聚类算法作如下介绍，其特征在于，包括以下步骤：

定义高斯混合分布如公式(1)所示，其中，μ_i和ε_i为第i个高斯混合成分的参数，α_i为相应的混合系数，且Σα_i＝1,(i＝1,2,…,k)。

由贝叶斯定理，定义随机变量s_j的后验概率如公式(2)所示，p_G(s_j|x_j)给出了数据样本的第i个高斯混合成分的后验概率，记为ξ_ji。

给定一个数据样本X，当公式(1)已知时，高斯混合聚类将数据样本X分为k类，C＝{C₁,C₂,…,C_k}。求解高斯混合模型本质即求解高斯成分混合参数和混合系数。由于采用极大似然估计对公式(1)的模型参数难以直接求解，本发明实例中采用EM算法优化求解，其特征在于，以一种迭代的方式对参数进行估计，迭代公式如下：

所述EM算法，其特征在于，包括如下执行步骤:

①初始化均值、协方差和混合系数。

②E-step:对于每一个观测值，计算各分量的后验概率ξ_ji。

③M-step：根据求得的后验概率，代入公式(3)(4)(5)更新高斯混合模型的各个参数,直到满足后验概率最大时停止。

采用k-means++算法初始化聚类中心，经实验，设置第一次聚类数目为2，第一次聚类结果如图3所示。

步骤四：基于高维聚类算法获得第二数据类C_ij。本实例优选高斯混合模型聚类算法，具体为采用GMM聚类算法对第一数据类C₁和C₂分别再次聚类，实施图4所示。结合风力发电机的实际运行特性，可以得出，C₁₄和C₂₂为异常数据。

步骤五：基于Copula高维概率空间建立多维变量联合概率分布。具体为在Copula概率空间建立风速、转速和功率构成的联合概率分布。采用基于粒子群优化算法的Copula概率空间多向四分位法，优化目标函数如公式(6)所示，ρ代表两个向量间的相关系数，用于评价向量的线性相关性。

其中，u为风速或转速的边缘概率分布，v为功率的边缘概率分布，均采用核密度估计(KDE)计算得出。风速、转速、功率在Copula概率空间中的联合概率分布如图5所示。

步骤六：将联合概率分布的取值范围均匀划分为多个概率区间。具体为在Copula概率空间中，设置间隔D分别将维度u、v划分为若干个宽度相等的概率区间，其中，间隔D采用PSO算法进行优化。经实验，通过采用PSO算法优化求解，得到间隔D为0.00086。

步骤七：基于多向四分位算法实现概率区间内数据优化识别。具体为在Copula概率空间中，采用基于粒子群优化算法的多向四分位法，在由风速和功率、转速和功率构成的联合分布概率空间中，分别沿所定义维度u、v上，在每个概率区间内对运行数据样本进行数据优化识别，整体实现了各个变量横向和纵向的数据识别，最终实现了多维变量的多向四分位数据识别。

对数据识别时采用的四分法，其特征在于，包括如下步骤：

定义数据样本X＝{x₁,x₂,…,x_n},其等分割点四分位数分别记为Q₁、Q₂、Q₃,分别通过下式计算：

当n＝2k时，Q₁＝Q₂＝Q₃；

当n＝4k+1(k＝0,1,2…)时，Q₁、Q₃采用(8)式计算:

当n＝4k+3(k＝0,1,2…)时，Q₁、Q₃采用(9)式计算:

定义四分位距(IQR)为：IQR＝Q₃-Q₁，定义清洗区间如公式(10)所示，其中μ为四分位系数，并采用PSO算法来优化μ的求解。

[N_L,N_H]＝[Q₁-μIQR,Q₃+μIQR] (10)

基于粒子群优化算法的多向四分位算法，通过计算每个维度的识别区间，确定正常的数据的取值范围，即属于识别区间内的为正常数据，属于识别区间外的为异常数据，整体实现对多维度概率区间内数据样本的识别。

经实验，经PSO算法优化求解后，风速和转速对应的四分位系数μ_u分别为1.0122和1.2998，功率对应的四分位系数μ_u为1.0024。

运行数据样本在二维、三维空间的最终识别效果如图6所示，由于三维空间无法对有些数据可视化，因此只展示最终数据识别结果。下面对最终的识别效果进行说明：

在Copula概率空间中，经数据识别后，风速和功率之间的皮尔逊系数为0.9721，而识别前仅为0.7891，说明经过本发明所述数据优化识别方法，剔除了许多与实际风速相关系很小的异常风功率数据。为了进一步说明数据优化识别的效果，求得数据识别前后的概率密度曲线如图7所示，从图中可以看出，经优化识别后的数据可用性显著提高，数据质量明显改善，因此本发明所提出的高维空间异常数据优化识别方法是有效的。

发明效果

本发明具有以下有益效果：

1)本发明提供的高维空间异常数据优化识别方法，能够在获取工业过程的实测数据样本后，在由多维变量组成的高维空间里，采用高维聚类算法完成高维空间内堆积型异常数据初始识别，有助于优化堆积型异常数据识别效果。

2)在此基础上，本发明在Copula高维概率空间中，建立多维变量的联合概率分布，并定义多维变量线性相关性评价指标。将多维变量联合概率分布在高维概率空间内每一个维度上的取值范围均匀划分成多个概率区间，采用多向四分位算法、智能或数值型优化算法，分别对每个概率区间内的运行数据样本进行精细化异常数据识别，有助于优化对稀疏型异常数据识别效果。

3)最终，在工业物联网背景下，通过采用本发明的所述方法进行数据预处理后，有助于为数据驱动的相关应用奠定基础。

Claims

1.一种高维空间异常数据优化识别方法，其特征在于，包括如下步骤：

S2：根据变量正常运行范围，进行机理剔除；

2.根据权利要求1所述的优化识别方法，其特征在于，所述步骤S1中，根据特定的工业过程，基于影响其生产特性的多维变量，按照特定的采样时间，对实际运行数据进行采集及存储，为后续的数据预处理提供数据样本基础。

3.根据权利要求1所述的优化识别方法，其特征在于，所述步骤S2中，根据特定工业过程的运行机理及运行特性，对实测运行数据中不符各个变量正常运行范围的异常数据进行机理剔除。

4.根据权利要求1所述的优化识别方法，其特征在于，步骤S3中，所述第一次聚类分析选取基于模型的聚类方法，寻找满足此模型的数据集，进而得到数据样本X的第一次聚类结果C_i＝{C₁,C₂,…,C_k}(i＝1,2,…,k)；第一次聚类分析后，根据特定的工业过程运行机理及运行特性，对第一数据类中的异常数据进行剔除，其中，作为异常数据被剔除的数据量在剔除前数据总量的25％以内。

5.根据权利要求1所述的优化识别方法，其特征在于，步骤S4中，基于所述第一次聚类结果C_i，经过聚类得到数据样本X的第二次聚类结果C_ij＝{C_i1,C_i2,…,C_im}(i＝1,2,…,k；j＝1,2,…,m)；基于高维空间聚类算法第二次聚类结果，对高维聚类结果进行分析，并对异常数据进行剔除。

6.根据权利要求1所述的优化识别方法，其特征在于步骤S5中，在Copula高维概率空间中建立所述多维变量构成的联合概率分布，对于由任意两个变量构成的联合概率分布，包括以下步骤：

7.根据权利要求1所述的优化识别方法，其特征在于，步骤S6中，采用智能或数值型优化算法对所述划分取值范围的划分间隔D进行优化。

8.根据权利要求1所述的优化识别方法，其特征在于，步骤S7中，所述基于Copula高维概率空间的多向四分位法包括：

9.根据权利要求8所述的优化识别方法，其特征在于，所述数据识别区间表达式中四分位系数μ采用智能或数值型优化算法求取，根据所述数据识别区间在每个所述概率区间内的执行多向四分位法数据识别，所述数据识别的步骤包括：

S71：定义所述多维变量在Copula概率空间上的维度；

10.根据权利要求1-9任一所述的数据优化识别方法在风机功率数据清洗方面的应用，进一步包括以下步骤：

区域Ⅱ：最大风能跟踪阶段，此时V_cut,in≤V＜V_ωr,rated，V_ωr,rated为额定转速对应风速,通过调节转矩来控制转速，维持最大风能利用率；

区域Ⅲ：过渡阶段，此时V_ωr,rated≤V＜V_rated,V_rated为额定风速，风机功率P_ω，rated≤P＜P_rated，P_ω，rated为额定转速对应功率，P_rated为额定功率；

区域Ⅳ：额定功率阶段，此时V_rated≤V＜V_cut,out，V_cut,out为切出风速，通过控制桨距角使机组以额定功率和额定转速运行；

步骤三：基于高维聚类算法获得第一数据类C_i；

步骤四：基于高维聚类算法获得第二数据类C_ij；