CN112990274A

CN112990274A - 一种基于大数据的风电场异常数据自动辨识方法

Info

Publication number: CN112990274A
Application number: CN202110192450.5A
Authority: CN
Inventors: 王楠; 程艳; 王士柏; 管荑; 马强; 耿玉洁; 孙树敏; 于芃; 关逸飞; 王玥娇; 邢家维; 滕玮; 李广磊; 魏大钧; 张兴友
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2021-06-18

Abstract

本发明公开一种基于大数据的风电场异常数据自动辨识方法，包括：获取待辨识风电场数据；根据直推信度机计算待辨识风电场数据的异常度；引入权值分配动量参数和分类迭代阈值对Adaboost算法的分类权值和迭代次数进行改进，根据改进后的Adaboost算法生成分类器；根据预训练的神经网络模型和分类器对确定异常度的待辨识风电场数据进行分类，得到风电场异常数据。获取风电场站数据并进行预处理后，引入权值分配动量参数和分类迭代阈值对Adaboost算法进行改进，利用神经网络和改进后的Adaboost算法检自动辨识风电场异常数据，利用直推信度机计算数据异常度后，将神经网络结合Adaboost算法实现对风电场异常数据的自动辨识。

Description

一种基于大数据的风电场异常数据自动辨识方法

技术领域

本发明涉及新能源风电场站技术领域，特别是涉及一种基于大数据的风电场异常数据自动辨识方法。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

新能源风电场站是新能源供能系统的重要组成部分，大量的控制指令数据以及监测数据在新能源风电场站汇总，为保证新能源风电场站的正常运行，需要深度、高速且准确地在海量数据中挖掘出异常数据。

在现有的基于距离的异常数据挖掘方法中，以数据之间不同的距离为衡量标准，通过设定不同的距离阈值，实现异常数据挖掘；但是这种方法只适用于一般的海量数据库中的数据进行挖掘，使用存在局限性。

在现有的基于密度的异常数据挖掘方法中，通过计算数据在给定范围内的数量，按照一定的阈值从而判定数据是否异常；这种方法需要通过多次的实验才能确定最佳的范围阈值，数据处理代价大，只适用于较少数据的异常挖掘情况。

在现有的基于统计学的异常数据挖掘方法中，在处理前需要明确待处理对象，正常数据整体服从某种已知或近似已知的概率分布模型，然后根据统计学原理，实现异常数据挖掘；但是这种数据挖掘方法在实际处理时，只能处理单维的数据对象，而且需要较多的先验知识，而新能源风电场站的日常运行数据具有极强的异构性、数据量极大，给异常数据挖掘方法的可靠性和数据处理效率提出了很高的要求。因此，利用其它的先进算法或技术处理手段提升异常数据挖掘方法的性能至关重要。

发明内容

为了解决上述问题，本发明提出了一种基于大数据的风电场异常数据自动辨识方法，获取风电场站数据并进行预处理后，引入权值分配动量参数和分类迭代阈值对Adaboost算法进行改进，利用神经网络和改进后的Adaboost算法检自动辨识风电场异常数据，利用直推信度机计算数据异常度后，将神经网络结合Adaboost算法实现对风电场异常数据的自动辨识。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于大数据的风电场异常数据自动辨识方法，包括：

获取待辨识风电场数据；

根据直推信度机计算待辨识风电场数据的异常度；

引入权值分配动量参数和分类迭代阈值对Adaboost算法的分类权值和迭代次数进行改进，根据改进后的Adaboost算法生成分类器；

根据预训练的神经网络模型和分类器对确定异常度的待辨识风电场数据进行分类，得到风电场异常数据。

第二方面，本发明提供一种基于大数据的风电场异常数据自动辨识系统，包括：

数据获取模块，被配置为获取待辨识风电场数据；

异常度确认模块，被配置为根据直推信度机计算待辨识风电场数据的异常度；

分类器生成模块，被配置为引入权值分配动量参数和分类迭代阈值对Adaboost算法的分类权值和迭代次数进行改进，根据改进后的Adaboost算法生成分类器；

异常辨识模块，被配置为根据预训练的神经网络模型和分类器对确定异常度的待辨识风电场数据进行分类，得到风电场异常数据。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明基于改进Adaboost算法，实现对风电场异常数据的自动辨识，解决传统异常数据挖掘方法需要大量先验知识，而导致的数据挖掘完整度和效率较低的问题。

本发明引入权值分配动量参数和分类迭代阈值对Adaboost算法进行改进，利用直推信度机计算数据异常度后，使用神经网络将Adaboost算法的误差值降低，通过Adaboost算法的输出，实现异常数据的挖掘，挖掘数据的完整度高、效率高。

对于待分类识别类别标识不清的数据样本，为避免迭代次数过多，导致对应的分类项权重增加而影响Adaboost算法的处理效率，同时也为了避免多次迭代过程造成的子分类器冗余，本发明引入分类迭代阈值，控制不明分类识别类别标识的样本权重增加，降低对分类器的干扰，以获得更优质的子分类器。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于大数据的风电场异常数据自动辨识方法流程图；

图2为本发明实施例1提供的直推信度机划分数据示意图；

图3(a)-3(c)为本发明实施例1提供的基于距离的异常数据挖掘方法、基于统计学的异常数据挖掘方法以及本实施例的异常数据辨识方法的测试结果。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示，本实施例提供一种基于大数据的风电场异常数据自动辨识方法，包括：

S1：获取待辨识风电场数据；

S2：根据直推信度机计算待辨识风电场数据的异常度；

S3：引入权值分配动量参数和分类迭代阈值对Adaboost算法的分类权值和迭代次数进行改进，根据改进后的Adaboost算法生成分类器；

S4：根据预训练的神经网络模型和分类器对确定异常度的待辨识风电场数据进行分类，得到风电场异常数据。

所述步骤S1中，由于新能源风电场站中汇总的数据来源不同，而异构数据量较大会影响后续异常数据的自动辨识和挖掘效率，因此，在进行新能源风电场站异常数据辨识前，需要对待辨识的数据进行预处理；所述预处理包括：去噪、缺失数据的填补、规范化处理等；具体地：

S1-1：新能源风电场站在传输与接收供能指令、监测供能情况、维护风电场站正常工作的过程中，大量数据经由不同的数据通道传输，在传输过程以及数据采集、监测设备都会产生无法避免的噪声数据；所以，本实施例利用小波阈值方法对新能源风电场站数据进行去噪处理；

S1-1.1：按照公式(1)形式表示新能源风电场站数据序列：

s(k)＝f(k)+n(k),k＝0,1,2,...,N-1 (1)

其中，s(k)为未经过处理的新能源风电场站数据序列；f(k)为不含噪声的新能源风电场站数据序列；n(k)为新能源风电场站数据序列中包含的噪声数据序列；

S1-1.2：对包含噪声数据的原始新能源风电场站数据序列进行离散小波变换，得到公式(2)：

w_s(j,k)＝w_f(j,k)+w_n(j,k),j＝0,1,…J；k＝0,1,...,N-1 (2)

其中，w_s(j,k)为未经过处理的新能源风电场站数据序列在对应尺度上的小波系数；w_f(j,k)为不含噪声的新能源风电场站数据序列在对应尺度上的小波系数；w_n(j,k)为噪声数据序列对应尺度上的小波系数；J为离散小波变换的最大分解尺度；N为数据序列的长度；

S1-1.3：根据新能源风电场站的具体数据规模，选取合适的小波基函数以及分解层数，完成去噪处理。

S1-2：新能源风电场站在供能工作过程中，会因为多种因素的作用导致场站接收、存储的数据出现部分缺失；所以本实施例对去噪处理后的新能源风电场站数据，根据不同的数据类型，采用相对应的方法进行缺失数据填补；

S1-2.1：对于周期型缺失数据，利用相邻周期的数据规律进行填补；

S1-2.2：对于可以忽略、不会对数据辨识结果产生影响的数据，可以不进行缺失数据填补处理；

S1-2.3：对于存在关联规则的数据，根据建立的关联规则进行缺失数据填补。

S1-3：数据填补处理后，对数据进行规范化处理，如公式(3)：

其中，x′为规范后的数据；x为待处理数据的平均值；x为填补处理后的数据；σ_x为待处理数据的标准差。

所述步骤S2中，对预处理后的新能源风电场站数据采用直推信度机TCM计算数据异常度，直推信度机用于确定数据的异常程度，从而将待处理数据进行划分，以便在新能源风电场站数据中检测异常数据；

对新能源风电场站数据的异常程度的计算如下式(4)：

其中，k为新能源风电场站数据集合中，处于选取的最近邻内的数据个数；D为数据样本距离最近邻样本数据的距离；

根据公式(4)确定数据的异常程度，在独立且同分布条件作用下，得到所有待处理风电场站数据的P值，即待处理样本数据属于已存在的几类样本空间的概率，根据如图2所示的过程对风电场站数据进行划分。

所述步骤S3中，Adaboost算法是在Boosting多项式增强学习算法的基础上改进的一种迭代算法，Boosting多项式增强学习算法针对于直接构造强学习器较为困难的情况，能够对当前所有的机器学习算法的预测精度进行进一步的提升。

Adaboost算法通过调整算法处理对象样本集的权重以及弱分类器的权值，从而将数个精度或分辨率较低的分类子模型构建、训练、整合形成精度或分辨率较高的分类模型，从而缩短了精度或分辨率较高分类模型的生成步骤，并有效降低了难度，还降低了分类模型对算法处理对象样本集数据的要求；通过调控分类子模型的权值，在多次迭代过程中调整目标分类模型的处理精度，提高最终生成模型对数据的分类处理能力。

在Adaboost算法的迭代过程中，首先根据训练样本集的大小初始化样本数据权值并得到一个精度或分辨率较低的分类子模型；通过多轮迭代，得到若干个分类能力较差的分类子模型；各个分类子模型按照其分类精度给予不同的权重；Adaboost算法迭代完成后，通过一定的线性加权方式，将所有已知权重的分类子模型组合生成具有较强精度或分辨率的分类模型。Adaboos算法主要应用于解决分类问题，但是该算法也应用于解决两类问题、多类单标签问题、多类多标签问题、大类单标签问题、线性回归问题等回归问题，通过在迭代过程中，调节不同迭代环节生成的子分类模型的权值从而形成分类精度较高的分类模型。但是，传统Adaboost算法在进行上述过程时，无法准确控制算法的迭代次数，并且对于不同迭代环节生成的子分类模型的权值的赋值也没有固定的规则，导致最终生成的分类精度较高的分类模型，虽然具备较高的分类精度，但是处理的效率非常低。

因此，本实施例针对传统Adaboost算法存在的问题，通过增加分类迭代阈值和权值分配动量参数的方式，对传统Adaboost算法进行改进优化，降低传统的Adaboost算法在分给处理时的错误率，从而整体提升Adaboost算法的性能；具体地：

S3-1：根据传统Adaboost算法的数据处理要求，给定已知的训练数据集(X,Y)，其中，Y为训练数据集中各个数据对应的属性类别标签；

S3-2：通过对训练数据集中每一个数据赋予相同权重值的方式，初始化训练数据集中数据的权值分布，得到训练数据集中数据的初始权重值；

S3-3：根据传统Adaboost算法的迭代过程，迭代生成分类精度较低的子分类器，从当前生成的所有分类精度较低的子分类器中，选择精度最高的子分类器作为第t次迭代的基础子分类器，并在该基础子分类器的权值基础上，计算训练数据集初始权重分布的误差率；

误差率计算公式如公式(5)：

D_l＝∑w_t·H_t(e_i) (5)

其中，D_l为训练数据集权重分布的误差率，e_i为训练数据集初始权重分布的误差率；w_t为在该轮算法迭代时，训练数据集中数据的权重；H_t为选择的基础子分类器；

则此时子分类器的一级权重a_t为：

S3-4：为保证Adaboost算法的处理效率，引入权值分配动量参数，通过权值分配动量参数，按照一定的方向加快Adaboost算法子分类器的学习生成方向，从而减少不正确方向的算法迭代，提高算法效率；

通过动量法优化训练数据集的初始权值分布，使其满足式(7)关系：

W_t+1＝W_t+V_t+1 (7)

其中，V_t+1为通过动量法添加的迭代权值分配动量参数，该参数的计算公式如公式(8)：

其中，γ为Adaboost算法的学习率，μ为权值分配动量参数项的系数；L(W_t)为训练数据集权重的分布梯度值。

对于待分类识别类别标识不清的数据样本，为避免迭代次数过多，导致对应的分类项权重增加而影响Adaboost算法的处理效率，本实施例引入分类迭代阈值，控制增加不明分类识别类别标识的样本权重，当不明分类识别类别标识的样本权重大于该阈值时，对应的样本权重清零，降低该类样本对分类器的干扰；

而为了避免多次迭代过程造成的子分类器冗余，本实施例引入另一个迭代阈值作为算法迭代的调整阈值，当Adaboost算法迭代次数达到该迭代阈值时，停止算法迭代，通过引入该算法迭代阈值，得到正确分类数据时子分类器的分类权值，来获得更优质的子分类器。

所述步骤S4中，所述神经网络采用单隐含层，隐含层节点数量按照经验公式进行合理的选择，隐层节点数计算的经验公式如公式(9)所示：

其中，K为样本数，n₁为隐层节点数，当i>n₁时，取

隐层节点数n₁与输入层节点和输出层节点数之间的关系如公式(10)所示：

其中，h为神经网络的输出层节点数，d为[1,10]区间上的常数。

在神经网络中，各层通过连接权值相连，每一层的输出作为下一层的输入，连接权值的计算公式如公式(11)：

确定神经网络的基本结构后，利用训练样本对神经网络进行训练，使网络的实际输出值与期望输出值的均方值误差为最小；具体为：

初始化神经网络，采用梯度搜索技术，输入训练样本，输入信号从输入层经隐含层处理，并传向输出层，每一层神经元只影响下一层神经元的状态；如果在输出层不能得到期望的输出，则转入反向传播，将输出信号的误差沿原来的连接通路返回，通过修改各层神经元之间的连接权重，使得误差最小，完成对神经网络的训练。

改进后的Adaboost算法生成的子分类器按照公式(12)的加权线性组合公式生成最终的分类器，隐含层中利用改进后的Adaboost算法对确定异常程度的新能源风电场站数据进行分类处理；

其中，a_i是子分类器的权重，M为改进Adaboost算法的迭代总次数。

本实施例使用训练后确定的神经网络参数，结合改进的Adaboost算法，在根据直推信度机划分新能源风电场站数据的异常程度后，对风电场站数据进行异常辨识，挖掘风电场站数据异常数据。

本实施例进行实验以测试模型的有效性，选择基于距离的异常数据挖掘方法和基于统计学的异常数据挖掘方法作为对比项，与本实施例的异常数据辨识方法进行对比，根据三种方法的完成度，比较三种方法的性能。

本次实验的测试数据由新能源风电场站数据仓库提供，先从原始数据库中将某一个时间段的历史场站运行数据抽取到实验数据库中，再对数据进行转化、数据清理和数据分析等操作，结合该场站运行情况监测的历史报告，确定测试数据集中异常数据的比例。

测试平台使用搭载了Hadoop分布式系统架构的仿真平台，其具有高容错性的特点，同时提供高吞吐量来处理测试所需的数据。测试平台由一台IBM服务器和4台主机组成，其中IBM服务器配置为16G内存，双千兆网卡，主机配置为i7处理器，8G内存，电脑之间使用千兆交换机连接，所有网线使用千兆网线，所有物理机的操作系统均为64位的ubuntu10.04，Hadoop版本为2.2.0，其运行参数的选择如表1所示。

表1 Hadoop运行参数选择

分别使用三种异常数据辨识方法对实验选定的新能源风电场站数据进行异常数据挖掘，设定不同的实验数据量和数据挖掘处理时间，对比实验数据，得出如图3(a)-3(c)所示的实验结果；图3(a)中显示不同大小的数据量在不同数据处理时间内上，异常数据挖掘完成度始终保持在85％～99％之间，而且数据挖掘完成度波动幅度不大，比较稳定；在相同条件下，图3(b)中异常数据挖掘完成度波动变化在70％～82％之间，图3(c)中显示异常数据挖掘完成度波动变化在68％～92％之间，但是在测试数据量为10GB和20GB时，波动幅度较大，挖掘完成度出现了明显的变化，并且，现有方法的数据挖掘完成度第一次达到峰值的时间明显晚于本实施例所提方法，说明现有方法处理效率低，对比三组结果可知，在相同条件下，采用本实施例所提方法进行处理时，对异常数据挖掘完成程度、效率更高。

实施例2

本实施例提供一种基于大数据的风电场异常数据自动辨识系统，包括：

数据获取模块，被配置为获取待辨识风电场数据；

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于大数据的风电场异常数据自动辨识方法，其特征在于，包括：

获取待辨识风电场数据；

根据直推信度机计算待辨识风电场数据的异常度；

2.如权利要求1所述的一种基于大数据的风电场异常数据自动辨识方法，其特征在于，对所述待辨识风电场数据进行预处理，包括：

对待辨识风电场数据采用小波阈值方法进行去噪处理；

对去噪处理后的待辨识风电场数据进行缺失数据填补和规范化处理。

3.如权利要求1所述的一种基于大数据的风电场异常数据自动辨识方法，其特征在于，引入权值分配动量参数对Adaboost算法进行改进包括：

初始化训练集的初始权值分布；

选择Adaboost算法生成的子分类器中精度最高的子分类器，根据该子分类器计算训练集初始权值分布的误差率；

根据权值分配动量参数优化训练集的权值分布，以此优化生成的子分类器分类权值。

4.如权利要求3所述的一种基于大数据的风电场异常数据自动辨识方法，其特征在于，在生成子分类器时，通过分类迭代阈值删除不明分类识别类别标识的数据权重，同时通过分类迭代阈值限定迭代次数。

5.如权利要求4所述的一种基于大数据的风电场异常数据自动辨识方法，其特征在于，对改进后的Adaboost算法生成的子分类器进行加权线性组合生成最终的分类器。

6.如权利要求1所述的一种基于大数据的风电场异常数据自动辨识方法，其特征在于，所述权值分配动量参数为

其中，γ为Adaboost算法的学习率，μ为权值分配动量参数项的系数；L(W_t)为训练集权重分布梯度值。

7.如权利要求1所述的一种基于大数据的风电场异常数据自动辨识方法，其特征在于，所述神经网络模型采用单隐含层，单隐含层的节点数与输入层节点和输出层节点数间的关系为

K为样本数，n₁为隐层节点数，h为输出层节点数，d为[1,10]区间上的常数。

8.一种基于大数据的风电场异常数据自动辨识系统，其特征在于，包括：

数据获取模块，被配置为获取待辨识风电场数据；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。