CN111539553B

CN111539553B - 基于svr算法和偏峰度的风电机组发电机故障预警方法

Info

Publication number: CN111539553B
Application number: CN202010243898.0A
Authority: CN
Inventors: 魏乐; 胡晓东; 房方
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-10-24
Anticipated expiration: 2040-03-31
Also published as: CN111539553A

Abstract

本发明涉及风力发电机故障预警领域，提供了一种基于SVR算法和偏峰度的风电机组发电机故障预警方法，包括：对风电机组发电机的历史数据进行数据采集；进行数据清洗，去除异常数据；使用支持向量回归算法建立预警模型；残差分析预警：基于统计学中的偏度和峰度，计算预警模型输出值的残差，通过滑动窗口算法按天计算残差的峰度和偏度，偏度的最大值和峰度的最大值二者的均值作为预警模型阈值的最大值，偏度的最小值和峰度的最小值二者的均值为预警模型阈值的最小值，对风电机组发电机实时数据在线监测预警。本发明能在风电机组发电机发生故障前及时提供故障前预判，第一时间实现故障的分析和控制，防止带来巨大的经济损失和安全事故。

Description

基于SVR算法和偏峰度的风电机组发电机故障预警方法

技术领域

本发明涉及风力发电机故障预警领域，特别涉及一种基于SVR算法和偏峰度的风电机组发电机故障预警方法。

背景技术

随着近年来能源供应日益紧张，环境污染问题日益突出，国家对新能源的需求与日俱增，全球迫切地发展可再生能源来解决不可再生能源越来越匮乏的困境。风能作为一种清洁高效的能源已经成为国家重点关注和发展的对象。对于整个风电产业而言，路正在越走越宽。据《风电行业市场前瞻与投资战略规划分析报告》预计到2023年，全球风电累计装机量达969.15GW。数十年来，我国风电发展取得了举世瞩目的成就。产业规模迅速扩大，新增装机和累计装机连续多年领跑全球，并在2018年年底成为首个风电装机突破2亿千瓦的国家。欧洲风能协会(WindEurope)最新发布的一份报告显示，2019年上半年，欧洲风电新增装机容量达到4.9GW,去年同期为4.5GW。随着装机容量的快速增加，风电机组的正常运行决定着风电场的经济效益。当风电机组发生故障时，不仅会造成发电量的不足，而且可能会产生严重的安全事故。这是因为风场都处于偏远地区、风电场切分风复杂多变、且长期运行在野外、暴晒和雷雨等恶劣环境中，其次机舱位于50-80米的高空中，加剧了维护维修工作的展开。风电机组的核心部件一旦损坏，在风场无法修复，必须得运到专业厂家修理。因其维修费用高、周期长，势必给风电场造成巨大的经济损失，严重影响风电的经济效益。因此研发一种安全可靠的故障预警系统对风电场尤为重要。

风电机组的故障诊断常用方法有时域分析方法和频域分析方法，时域分析方法主要研究不同时刻信号之间的关系，对于某些有明显特征的故障信号，可做出定性分析。频域分析方法通过研究波形的谐波分量来识别多种频率成分，但是频域分析所需要的信号需要特定的传感器来采集，以前安装的风机大多没有安装此类传感器，因此目前主流的方法还是采用比较经济的时域方法分析。

现有的风电机组发电机预警方法普遍存在算法计算复杂、参数假设性强、耗费时间长、预测模型的可靠性不足、泛化能力弱等问题，限制了故障预测实用性的进一步提升。当机组发电机发生异常时，机组的温度参数偏离正常状态，但是温度参数的停机值的设定依据是出厂设置，一般设定比较高，无法识别出故障初期的异常状态。

发明内容

本发明的目的是克服现有技术的不足，提供了一种基于SVR算法和偏峰度的风电机组发电机故障预警方法，解决现有方法存在算法计算复杂、参数假设性强、耗费时间长、预测模型的可靠性不足、泛化能力弱等问题；通过检测发电机轴承温度实际值与预测值的变化趋势，基于机器学习中鲁棒性比较强的支持向量回归算法(SVR)为发电机轴承温度预测模型，实现训练速度快、泛化能力强、收敛速度快、准确度高的在线监测预警。

本发明采用如下技术方案：

一种基于SVR算法和偏峰度的风电机组发电机故障预警方法，所述方法包括如下步骤：

S1、对风电机组发电机的历史数据进行数据采集；

S2、对采集到的数据进行数据清洗，去除异常数据；

S3、提取模型特征：采用随机森林算法提取建模特征；

S4、建立预警模型：使用支持向量回归算法(SVR)建立预警模型；

S5、残差分析预警。

进一步的，基于统计学中的峰度和偏度，计算所述预警模型输出值的残差(模型预测值与实时数据之差)，通过滑动窗口算法按天计算残差的峰度和偏度，通过计算偏度的最大值和峰度的最大值二者的均值作为预警模型阈值的最大值，通过计算偏度的最小值和峰度的最小值二者的均值作为预警模型阈值的最小值，以所述阈值的最大值、阈值的最小值作为风电机组发电机故障发生的阈值对风电机组发电机实时数据进行在线监测预警。

进一步的，步骤S1中，所述历史数据为数据采集与监视控制系统(supervisorycontrol and data acquisition，SCADA)采集的SCADA数据。

进一步的，步骤S2中，所述数据清洗的具体步骤如下：

S2.1数据缺失值处理：若缺失值样本小于设定比例，采用删除法；若缺失值样本大于等于所述设定比例，采用热卡填充法填充数据缺失值；

S2.2对经S2.1处理后的数据进行滤波处理：通过统计过程控制SPC和高斯复合滤波去除数据中的异常点。

进一步的，步骤S3中，采用随机森林算法提取模型的特征的具体步骤如下：

S3.1采用随机森林算法对数据集的多个特征进行重要性度量；

S3.2根据每个特征的重要性按降序排序；

S3.3依据特征重要性剔除相应比例的特征，得到一个新的特征集；

S3.4用新的特征集重复S3.1至S3.3的过程，直到剩下m个特征，m为设定值；

S3.5选择袋外误差率最低的特征集作为模型特征。

进一步的，步骤S3.1的具体方法为：

步骤3.1.1对每一个决策树，选择相应的袋外数据(out of bag，OOB)计算袋外数据误差，记为errOOB1；

所谓袋外数据是指，每次建立决策树时，通过重复抽样得到一个数据用于训练决策树，这时还有大约1/3的数据没有被利用，没有参与决策树的建立。袋外数据可以用于对决策树的性能进行评估，计算模型的预测错误率，称为袋外数据误差。

3.1.1.1对于每个样本，计算其作为OOB样本的树对该样本的分类情况；

3.1.1.2以简单投票作为该样本的分类结果；

3.1.1.3利用误分个数占样本总数的比率，作为袋外数据误差；

步骤3.1.2随机对袋外数据所有样本的特征X加入噪声干扰，再次计算袋外数据误差，记为errOOB2；

步骤3.1.3假设森林中有N棵树，则特征X的重要性等于∑(errOOB2-errOOB1)/N。

进一步的，步骤S4中，建立预警模型的具体步骤如下：

S4.1特征标准化处理：将步骤S3中选取好的特征进行标准化处理；

S4.2切分数据集：将特征(某特征的数据集)分为训练集、验证集和测试集；

S4.3训练：将训练集导入模型进行训练；

S4.4诊断模型：训练完成后将测试集输入模型，利用均方误差和R平方评价指标对模型的泛化能力进行评价；

S4.5模型调优：通过验证集选择模型的超参数(模型内置参数)，同时监控模型是否发生过拟合(以决定是否停止训练)；重复S4.3至S4.5步骤使模型达到S4.4评价指标的预期范围。

进一步的，步骤S5的具体方法如下：

S5.1利用训练数据计算模型输出值的残差；

S5.2利用滑动窗口算法按天计算残差的峰度和偏度，然后再计算峰度和偏度的最大值、最小值；

S5.3计算偏度的最大值和峰度的最大值二者的均值作为预警模型阈值的最大值，计算偏度的最小值和峰度的最小值二者的均值作为预警模型阈值的最小值，所述阈值的最大值和阈值最小值作为预警模型的阈值；

S5.4阈值作为上下限，将正常机组和异常机组的特征数据输入到模型，计算出模型输出值的残差，通过滑动窗口算法按天计算残差值偏度和峰度的均值，用S5.3计算的阈值进行检测是否超出阈值范围；

S5.5模型接入风力发电机的在线检测系统，实时监测异常数据；当观测指标超出阈值范围即警，达到实时预警的目的。

进一步的，步骤S2.1中，填充缺失值时，当缺失值的类型为非完全随机缺失时，通过对完整数据加权来减小偏差，完整数据赋予的权重通过Logistic或Probit回归求得。

进一步的，步骤S2.2中，对数据进行SPC处理后，复合滤波采用中值滤波或者平均滤波。

本发明的有益效果为：

通过本申请，可以实现一种基于机器学习算法和统计学知识相结合的风电机组发电机的故障预警方法；该方法在采集风力发电机组发电机的历史数据基础上，首先通过SPC方法去除大幅度的异常值，此次用高斯滤波模型对SPC处理完的数据进行平滑处理。通过这种复合滤波方法可以去除信号中夹杂的噪声数据。滤波完成后采用集成算法装代法中的随机森林进行特征提取。特征提取后的数据中往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价，从而消除奇异样本数集导致的不良影响。在完成这一系列前期工作后就可以使用支持向量回归算法(SVR)进行建立预警模型。利用训练集计算所述预警模型输出值的残差，通过滑动窗口算法按天计算残差值的偏度和峰度，以残差值的偏度极值和峰度极值的均值作为风电机组发电机故障发生的阈值对风电机组发电机实时数据进行在线监测预警。该方法根据正常工况下风电机组发电机运行的历史数据，结合鲁棒性很强的支持向量回归(SVR)算法，大大提高了故障预警的准确性及及时性。在风力发电机发生故障前，通过预警模型提示现场工作人员及时的开展风机状态监测，将故障及时的扼杀在摇篮中，减少风场的经济损失和安全事故的发生。

附图说明

图1所示为本发明实施例一种基于SVR算法和偏峰度的风电机组发电机故障预警方法的总体流程图。

图2所示为实施例中数据清洗流程图。

图3所示为实施例中缺失数据处理流程图。

图4所示为实施例中异常值处理流程图。

图5所示为实施例中复合滤波效果图。

图6所示为实施例中SPC控制正常和异常的示意图。

图7所示为实施例中常态分布表。

图8所示为实施例中集成算法流程图。

图9所示为实施例中特征选择流程图。

图10所示为随机森林生成过程示意图。

图11所示为SVR超平面示意图。

图12所示为实施例中预警模型训练流程图。

图13所示为实施例中测试结果示意图。

具体实施方式

下文将结合具体附图详细描述本发明具体实施例。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中，各附图所出现的相同标号代表相同的特征或者部件，可应用于不同实施例中。

如图1所示，本发明实施例一种基于SVR算法和偏峰度的风电机组发电机故障预警方法，包括数据采集、数据清洗、特征工程、建立预警模型、残差分析。

S1、数据采集

在本实施例中，基于数据采集与监视控制系统(supervisory control and dataacquisition，SCADA)的风电大数据平台采集8台正常运行机组的SCADA数据和2台故障发生前一年的SCADA数据，抽取6台正常机组的SCADA数据建立模型，剩余的2台正常机组和2台故障机组来测试模型。用SCADA系统采集的数据包括：风速、发电机转速、叶轮转速、风向角、偏航角度、齿轮箱油温等一百多个有效特征指标。本实例中选择与发电机组发电机运行相关风速、发电机转速、环境温度、机舱温度、A相电流、无功功率、有功功率、桨角、发电机非驱动端温度等九个特征指标的最小值、最大值、平均值共计27个指标作为模型的输入，以发电机驱动端温度为模型输出。

S2、数据清洗

风机在运行过程中，由于机组停机、减载、通信噪声、SCADA系统宕机、传感器出现故障等因素，采集的SCADA数据中夹杂着很多异常噪声数据。想要建立一个精确可靠的预警模型，对训练数据的要求特别高，也可以说是数据决定了预警模型的准确性。因此建模前期的准备工作异常重要。数据清洗模块流程图见图2。本申请提出此模块进行分两大步进行：

S2.1填充缺失值。缺失值部分分按具体情况分两种情况进行：如果缺失值样本比较少，采用最简单的删除法进行删除处理缺失值。如果缺失值数量较多，删除法不再适合，因为该方法是用减少历史数据的方法来换取数据的完备性，会丢失大量隐藏在这些对象上的信息，在样本数量本来就很少的数据集中删除少量对象将严重影响数据集的客观性和结果的正确性。因此采用数据补齐的方法进行填充缺失值。缺失值处理流程图见图3所示。在本申请中采用热卡填充缺失值；

S2.2进行滤波处理。通过统计过程控制(SPC)和高斯复合滤波去除数据中的异常点，首先利用统计的工具，识别风机运行过程中的变差，去除大幅度的异常点，然后再通过高斯滤波做平滑处理。滤波处理流程图见图4所示。复合滤波效果图见图5所示。

在一个具体实施例中，复合滤波方法包括如下步骤：

步骤2.2.1先将采集到秒级数据通过均值、最大值、最小值聚合成十分钟数据。也可直接采集十分钟数据。根据中央极限定理，不论母群体是否正态分布，但在其中抽取n个样品的平均数而组成的群体，则此群体非常接近正态分布。聚合的目的一方面解决数据量庞大、导致运算速度慢、受瞬时极值影响大的问题，另一方面通过聚合确保所有数据段复合正态分布，以保证接下来的操作更加准确；

步骤2.2.2将聚合后的数据按生产风电机组厂家设定的阈值进行单点过滤，删除超出阈值范围的数据点；

步骤2.2.3按SPC方法去除离奇值。常规控制图类型有平均与极差图(均值-极差控制图、均值-标准差控制图、中位数-极差控制图、单值-移动极差控制图)，I和MR控制图，离散U、P、C、NP控制图。在本申请中采用平均与极差图中的均值-标准差控制图。如图6统计过程控制图，UCL为上控制界限，LCL为下控制界限。根据常态分布表图7计算上控制界限和下控制界限，超过控制图范围的数据视为异常数据，可选择剔除或者替换。控制图内的概率计算公式为：

其中e＝2.718,μ为均值，δ为标准差。

上控制界限计算公式：UCL＝μ+3δ

下控制界限计算公式：LCL＝μ-3δ

根据控制图可以把超出控制范围内的数据点去除或者替换；

步骤2.2.4对SPC初步处理后的数据进行高斯滤波做平滑处理；

步骤2.2.5查看风功率曲线图，复合过滤后的风功率曲线图是否符合正常工况风功率曲线图；

步骤2.2.6符合正常工况风功率曲线图过滤结束，不符合则返回步骤2.2.3调试。

本申请中采用的复合过滤方法和现有的过滤方法相比，其优越在于：传统的特征过滤大部分都是基于生产厂家给出的正常范围阈值，厂家给出的阈值一般都是正常工况的极限值，通过这种方式过滤特征建立预警模型可行，但是建立的模型的准确性大打折扣。基于复合过滤的方法，很大程度的提升了过滤的有效性和建立模型的准确性，能够很好的代表发电机组发电机正常运行的工况。

S3、特征选取

特征工程是将原始数据转换为更能代表预测模型潜在问题特征的过程，可以通过挑选与观测指标最相关的特征，提取特征以及创造特征来实现。其中创造特征又可以通过降维算法来实现。特征工程的的目的是降低计算成本、提升模型上限等。数据特征会直接影响模型的预测性能。在实际应用中，常用的方法就是使用一些评价指标单独地计算出单个特征跟类别变量之间的关系。如Pearson相关系数，Gini-index(基尼指数)，IG(信息增益)等特征子集选择的方法属于filter(刷选器)方法，它主要侧重于单个特征跟目标变量的相关性。优点是计算时间上较高效,对于过拟合问题也具有较高的鲁棒性。缺点就是倾向于选择冗余的特征,因为他们不考虑特征之间的相关性,有可能某一个特征的分类能力很差，但是它和某些其它特征组合起来会得到不错的效果。另外做特征子集选取的方法还有wrapper(封装器)和Embeded(集成方法)。wrapper方法实质上是一个分类器，封装器用选取的特征子集对样本集进行分类，分类的精度作为衡量特征子集好坏的标准,经过比较选出最好的特征子集。常用的有逐步回归、向前选择和向后选择。它的优点是考虑了特征与特征之间的关联性，缺点是：当观测数据较少时容易过拟合，而当特征数量较多时,计算时间又会增长。对于Embeded集成方法，它是学习器自身自主选择特征，如使用Regularization做特征选择，或者使用决策树思想。集成算法流程图见图8所示。Random Forest和Gradientboosting做特征选择，本质上都是基于决策树来做的特征选择，只是细节上有些区别。特征选择方法流程图为图9所示。

特征选择过程一般包括产生过程、评价函数、停止准则、验证过程四部分：

产生过程：产生过程是搜索特征子集的过程，负责为评价函数子集。

评价函数：评价函数是评价一个特征子集优劣程度的一个标准。

停止准则：停止准则是与评价函数相关的一个阈值，当评价函数达到这个阈值时停止搜索。

验证过程：在验证数据集上验证所选特征子集的有效性。

在本实施例中，为了选取发电机驱动端轴承温度相关的特征，采用了随机森林算法进行特征的提取，随机森林生成流程图见图10。随机森林是非常具有代表性的Bagging集成算法，它的所有基评估器都是决策树，分类树组成的森林就叫做随机森林分类器，回归数所集成的森林就叫做随机森林回归器。随机森林的基本原理是从原始数据集中有放回的采样获得若干子集，基于每个子集训练除不同的基分类器，再通过基分类器的投票获得最终的分类结果。随机森林采用自助采样法(bootstrap)获得原数据集的子集。

基于自助采样法随机森林的构建过程为：

步骤1：从原始训练集中使用Bootstraping方法随机有放回采样选出m个样本，共进行n_tree次采样，生成n_tree个训练集。

步骤2：对于n_tree个训练集，分别训练n_tree个决策树模型。

步骤3：对于单个决策树模型，假设训练样本特征的个数为n，那么每次分裂时根据信息增益/信息增益比/基尼指数选择最好的特征进行分裂。

步骤4：每棵树都一直这样分裂下去，直到该节点的所有训练样例都属于同一类。在决策树的分裂过程中不需要剪枝。

步骤5：将生成的多棵决策树组成随机森林。对于分类问题，按多棵树分类器投票决定最终分类结果；对于回归问题，由多棵树预测值的均值决定最终预测结果。

本实施例中，基于随机森林选取特征的方法包括如下步骤：

步骤3.1：衡量特征好坏。

步骤3.1.1：对每一颗决策树，选择相应的袋外数据(out of bag，OOB)计算袋外数据误差，记为errOOB1.

所谓袋外数据是指，每次建立决策树时，通过重复抽样得到一个数据用于训练决策树，这时还有大约1/3的数据没有被利用，没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估，计算模型的预测错误率，称为袋外数据误差。

步骤3.1.2：随机对袋外数据OOB所有样本的特征X加入噪声干扰(可以随机改变样本在特征X处的值)，再次计算袋外数据误差，记为errOOB2。

步骤3.1.3：假设森林中有N棵树，则特征X的重要性等于∑(errOOB2-errOOB1)/N。这个数值之所以能够说明特征的重要性是因为，如果加入随机噪声后，袋外数据准确率大幅度下降(即errOOB2上升)，说明这个特征对于样本的预测结果有很大影响，进而说明重要程度比较高。

步骤3.2：计算每个特征的重要性，并按降序排序。

步骤3.3：确定要剔除的比例，依据特征重要性剔除相应比例的特征，得到一个新的特征集。

步骤3.4：用新的特征集重复上述过程，直到剩下m个特征(m为提前设定的值)。

步骤3.5：根据上述过程中得到的各个特征集和特征集对应的袋外误差率，选择袋外误差率最低的特征集。

本实例中利用随机森林算法最终选择与发电机组发电机驱动端温度强相关的特征是风速、发电机转速、环境温度、机舱温度、A相电流、无功功率、有功功率、桨角、发电机非驱动端温度共9个特征。

与传统方法相比，基于随机森林进行特征提取的优势在于：它可以判断特征的重要程度，可以判断出不同特征之间的相互影响，实现起来比较简单，对于不平衡的数据集来说，它可以平衡误差。随机森林和其他算法准确性差不多的情况下，运算速度比要其他算法快很多。

S4、建立预警模型

完成特征选取后，接下来就是建立模型，本申请中所采用的建模算法是SVR(支持向量回归)。支持向量机(SVM)本身是针对二分类问题提出的，而SVR(支持向量回归)是SVM(支持向量机)中的一个重要的应用分支。SVR回归与SVM分类的区别在于，SVR的样本点最终只有一类，它所寻求的最优超平面不是SVM那样使两类或多类样本点分的“最开”，而是使所有的样本点离着超平面的总偏差最小。对于给定训练样本D＝{(x1,y1),(x2,y2),...,(xm,ym)}，我们希望得到一个形如f(x)＝w^tx+b的回归模型，使得f(x)与y尽可能接近，w和b是待确定的模型参数。对样本(x,y)，传统回归模型通常直接基于模型输出f(x)与真实输出y之间的差别来计算损失，当且仅当f(x)与完全相同时，损失才为零。与此不同，SVR假设我们能容忍f(x)与y之间最多有ε的偏差，仅当f(x)与y之间的差值绝对值大于ε时才计算损失。如图11所示,相当于f(x)为中心，构建了一个宽为2ε的间隔带，若训练样本落入此间隔带，则认为是被预测正确的。模型建立的流程图见图12所示。

基于支持向量回归SVR建立模型包括如下步骤：

步骤S4.1：标准化处理：将选取好的特征进行标准化处理。

步骤S4.2：切分数据集：将特征数据切分为训练集、验证集和测试集。

步骤S4.3：训练：将训练集输入模型进行训练。

步骤S4.4：诊断模型：训练完成后将测试集输入模型，利用均方误差和R平方评价指标对模型的泛化能力进行评价。

步骤S4.5：模型调优：通过验证集选择模型的超参数(模型内置参数)，监控模型是否发生过拟合(以决定是否停止训练)。重复S4.3至S4.5步骤使模型达到S4.4评价指标的预期范围。

与传统方法相比，基于支持向量回归算法进行建立预警模型，其优越在于：SVR适用范围广、鲁棒性强、操作简单等SVM由SVM演变而来，因此也具备SVM的优点，它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的回归问题。

S5、残差分析预警

残差分析是预警模型特别重要的一部分，在本申请中提出了使用正常状态下风电机组发电机驱动端温度作为模型的输出值，利用滑动窗口算法按天计算输出值残差的偏度和峰度，通过计算偏度的最大值和峰度的最大值的均值作为预警模型阈值的最大值，通过计算偏度的最小值和峰度的最小值的均值作为预警模型阈值的最小值，以所述阈值的最大值、阈值的最小值作为风电机组发电机故障发生的阈值对风电机组发电机实时数据进行在线监测预警。因温度参数的变化幅度比较小，采用偏度和峰度可以快速的找出异常点。峰度(Kurtosis)是描述某变量所有取值分布形态陡缓程度的统计量。它是和正态分布相比较的，Kurtosis＝0与正态分布的陡缓程度相同；Kurtosis>0比正态分布的高峰更加陡峭；Kurtosis<0比正态分布的高峰来得平缓。偏度(Skewness)是描述某变量取值分布对称性的统计量，Skewness＝0分布形态与正态分布偏度相同；Skewness>0正偏差数值较大，为正偏或右偏。长尾巴拖在右边；Skewness<0负偏差数值较大，为负偏或左偏，长尾巴拖在左边。计算Skewness越大，分布形态偏移程度越大。在本申请中偏度用来表示温度参数分布的形态。当温度残差参数的偏度为零时，温度残差的值呈现出左右对称的分布状态；当温度残差的偏度小于零时，温度残差的值为左偏分布，高峰在右；而当温度残差大于零时，表明正偏差数值较大，温度残差的值分布呈现出右偏分布，高峰在左。峰度用于描述温度参数分布形态的陡峭程度。当温度残差的峰度等于零时，温度残差的分布的程度与正太分布一致；当温度参数残差的峰度大于零时，温度残差分布相对正太分布更为陡峭或者尾部更厚；当温度残差的峰度小于零时，温度残差的分布较之正太分布平缓，变现为平顶锋。

偏度、峰度计算公式如下：

式中：n为残差的个数；x_i为第i个残差值；为残差的平均值；SD为整个残差的标准差。

本申请采用滑动窗口算法按天来计算模型输出值残差的偏度和峰度。首先，按天设定残差的时间序列滑动窗口，随着窗口沿着时间轴向前滑动，会产生一系列残差的偏度和峰度值。每个时间点对应的残差的偏度和峰度是基于包含此时刻及之前的残差数据计算得到的。然后通过均值计算公式将偏度和峰度两指标合为一个指标，在此名为偏峰度。图13为测试结果图。

基于偏峰度指标分析残差的方法包括如下步骤：

步骤S5.1：利用训练数据求出模型输出值的残差值。

步骤S5.2：利用滑动窗口算法按天求残差的峰度值和偏度值的最大值、最小值。

步骤S5.3：计算峰度的最小值和偏度的最小值二者的均值作为模型异常识别的最低阈值，计算峰度的最大值和偏度的最大值二者的均值作为模型异常识别的最大阈值。

S5.4阈值作为上下限，将正常机组和异常机组的特征数据输入到预警模型，计算出预警模型输出值的残差，通过滑动窗口算法按天计算残差值偏度和峰度的均值，用S5.3计算的阈值进行检测是否超出阈值范围；

验证有效性：采用异常风电机组的历史SCADA数据验证模型的有效性；经验证效果较好；

步骤S5.5：模型可接入在线系统实时检测是否异常：当发电机轴承端温度残差超出阈值范围即可报警，达到在线实时预警的效果。

本文虽然已经给出了本发明的几个实施例，但是本领域的技术人员应当理解，在不脱离本发明精神的情况下，可以对本文的实施例进行改变。上述实施例只是示例性的，不应以本文的实施例作为本发明权利范围的限定。

Claims

1.一种基于SVR算法和偏峰度的风电机组发电机故障预警方法，所述方法包括如下步骤：

S1、对风电机组发电机的历史数据进行数据采集；

S2、对采集到的数据进行数据清洗，去除异常数据；

S3、提取模型特征：采用随机森林算法提取建模特征；

S4、建立预警模型：使用支持向量回归算法建立预警模型；

S5、残差分析预警；

步骤S5中，基于统计学中的峰度和偏度，计算所述预警模型输出值的残差，所述残差为模型预测值与实时数据之差；通过滑动窗口算法按天计算残差的峰度和偏度，通过计算偏度的最大值和峰度的最大值二者的均值作为预警模型阈值的最大值，通过计算偏度的最小值和峰度的最小值二者的均值作为预警模型阈值的最小值，以所述阈值的最大值、阈值的最小值作为风电机组发电机故障发生的阈值对风电机组发电机实时数据进行在线监测预警；

步骤S5的具体方法如下：

S5.1利用训练数据计算出模型输出值的残差；

S5.2利用滑动窗口算法按天计算残差的偏度和峰度，然后再计算偏度和峰度的最大值、最小值；

S5.5预警模型接入风力发电机的在线检测系统，实时监测异常数据；当观测指标超出阈值范围即警，达到实时预警的目的。

2.如权利要求1所述的基于SVR算法和偏峰度的风电机组发电机故障预警方法，其特征在于，步骤S2中，所述数据清洗的具体步骤如下：

3.如权利要求1所述的基于SVR算法和偏峰度的风电机组发电机故障预警方法，其特征在于，步骤S3中，采用随机森林算法提取模型的特征的具体步骤如下：

S3.1采用随机森林算法对数据集的多个特征进行重要性度量；

S3.2根据每个特征的重要性按降序排序；

S3.5选择袋外误差率最低的特征集作为模型特征。

4.如权利要求3所述的基于SVR算法和偏峰度的风电机组发电机故障预警方法，其特征在于，步骤S3.1的具体方法为：

步骤3.1.1对每一个决策树，选择相应的袋外数据OOB计算袋外数据误差，记为errOOB1；

步骤3.1.2随机对袋外数据OOB所有样本的特征X加入噪声干扰，再次计算袋外数据误差，记为errOOB2；

步骤3.1.3假设森林中有N棵树，则特征X的重要性等于∑^{(errOOB2-errOOB1)/N}。

5.如权利要求1所述的基于SVR算法和偏峰度的风电机组发电机故障预警方法，其特征在于，步骤S4中，建立预警模型的具体步骤如下：

S4.2切分数据集：将特征分为训练集、验证集和测试集；

S4.3训练：将训练集导入模型进行训练；

S4.5模型调优：通过验证集选择模型的超参数。

6.如权利要求1所述的基于SVR算法和偏峰度的风电机组发电机故障预警方法，其特征在于，步骤S1中，所述历史数据包含多个特征，所述特征包括风速、发电机转速、叶轮转速、风向角、偏航角度、齿轮箱油温、环境温度、机舱温度、A相电流、无功功率、有功功率、桨角、发电机非驱动端温度。

7.如权利要求2所述的基于SVR算法和偏峰度的风电机组发电机故障预警方法，其特征在于，步骤S2.2中，对数据进行SPC处理后，复合滤波采用中值滤波或者均值滤波。

8.如权利要求2所述的基于SVR算法和偏峰度的风电机组发电机故障预警方法，其特征在于，步骤S2.1中，填充缺失值时，当缺失值的类型为非完全随机缺失时，通过对完整数据加权来减小偏差，完整数据赋予的权重通过Logistic回归或Probit回归求得。