CN110968069A - 风力发电机组的故障预测方法、相应的装置及电子设备 - Google Patents

风力发电机组的故障预测方法、相应的装置及电子设备 Download PDF

Info

Publication number
CN110968069A
CN110968069A CN201811142683.9A CN201811142683A CN110968069A CN 110968069 A CN110968069 A CN 110968069A CN 201811142683 A CN201811142683 A CN 201811142683A CN 110968069 A CN110968069 A CN 110968069A
Authority
CN
China
Prior art keywords
fault
decision tree
model
random forest
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811142683.9A
Other languages
English (en)
Other versions
CN110968069B (zh
Inventor
余斌
侠惠芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinfeng Technology Co ltd
Original Assignee
Xinjiang Goldwind Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Goldwind Science and Technology Co Ltd filed Critical Xinjiang Goldwind Science and Technology Co Ltd
Priority to CN201811142683.9A priority Critical patent/CN110968069B/zh
Publication of CN110968069A publication Critical patent/CN110968069A/zh
Application granted granted Critical
Publication of CN110968069B publication Critical patent/CN110968069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0243Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults model based detection method, e.g. first-principles knowledge model
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/24Pc safety
    • G05B2219/24065Real time diagnostics

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种风力发电机组的故障预测方法、相应的装置及电子设备。该方法包括:获取目标风力发电机组的静态信息及环境信息;基于预先构建的决策树模型和/或随机森林模型,根据静态信息及环境信息,确定目标风力发电机组的故障预测结果。本申请通过风力发电机组的静态信息及环境信息来预测风力发电机组故障的发生,填补了故障与更多维度的特征交互的情况,通过预先构建的决策树模型和/或随机森林模型,可以刻画出故障在特定环境和规则下出现集聚和高发的现象,从而提高风力发电机组故障预测的可靠性,提升风力发电机组维护的效率。

Description

风力发电机组的故障预测方法、相应的装置及电子设备
技术领域
本申请涉及风力发电技术领域,具体而言,本申请涉及一种风力发电机组的故障预测方法、相应的装置及电子设备。
背景技术
风力发电是指把风的动能转为电能。风能是一种清洁无公害的可再生能源,利用风力发电非常环保,且它取之不尽,用之不竭,因此日益受到世界各国的重视。
近年来,我国的风力发电占供电比重增长迅速,大规模风力发电机组对地区电网稳定性造成的影响愈发显著。而由于各种因素的影响,风力发电机组难免会出现运行故障,就会造成电力系统暂态不稳定,严重时甚至会造成局部系统瘫痪。
因此,对风力发电机组的维护就显得至关重要。其中,维护内容之一就包括对风力发电机组故障的预测及预警。现有技术中,通常基于专家经验预测风力发电机组故障的发生,一定程度上存在主观性、片面性和滞后性的问题,且专家经验难以快速复制,人力成本过高,给风力发电机组的维护工作带来很大的困难。
发明内容
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
第一方面,本申请提供了一种风力发电机组的故障预测方法,该方法包括:
获取目标风力发电机组的静态信息及环境信息;
基于预先构建的决策树模型和/或随机森林模型,根据静态信息及环境信息,确定目标风力发电机组的故障预测结果。
第二方面,本申请提供了一种风力发电机组的故障预测装置,该装置包括:
获取模块,用于获取目标风力发电机组的静态信息及环境信息;
预测模块,用于基于预先构建的决策树模型和/或随机森林模型,根据静态信息及环境信息,确定目标风力发电机组的故障预测结果。
第三方面,本申请提供了一种电子设备,该电子设备包括:
处理器和存储器,存储器存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现本申请第一方面所示的方法。
第四方面,本申请提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令、程序、代码集或指令集,当其在计算机上运行时,使得计算机执行以实现本申请第一方面所示的方法。
本申请提供的技术方案带来的有益效果是:
本申请通过风力发电机组的静态信息及环境信息来预测风力发电机组故障的发生,填补了故障与更多维度的特征交互的情况,通过预先构建的决策树模型和/或随机森林模型,可以刻画出故障在特定环境和规则下出现集聚和高发的现象,从而提高风力发电机组故障预测的可靠性,提升风力发电机组维护的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请的一个实施例提供的风力发电机组的故障预测方法的流程示意图;
图2为本申请的另一个实施例提供的风力发电机组的故障预测方法的流程示意图;
图3为本申请的一个实施例提供的构建模型的流程示意图;
图4为本申请实施例提供的一个决策树模型的示例图;
图5为本申请实施例提供的提取故障集聚规则的流程示意图;
图6为本申请实施例提供的一种数据统计结果的示例图一;
图7为本申请实施例提供的一种数据统计结果的示例图二;
图8为本申请的另一个实施例提供的模型构建的流程示意图;
图9为本申请实施例提供的误差折线图的示例图;
图10为本申请实施例提供的袋外观测错判率的示例图;
图11为本申请实施例提供的重要性测度指标的散点图;
图12为本申请的一个实施例提供的风力发电机组的故障预测装置的结构示意图;
图13本申请的另一个实施例提供的风力发电机组的故障预测装置的结构示意图;
图14本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图,以具体的实施例对本申请的技术方案进行详细说明。
本申请实施例提供了一种风力发电机组的故障预测方法,如图1所示,该方法包括:
步骤S101、获取目标风力发电机组的静态信息及环境信息;
其中,静态信息是指关于目标项目或目标风力发电机组在一定时期内保持稳定的信息描述,本申请实施例中,静态信息可以包括所属项目信息和/或设备信息;
作为示例地,所属项目信息可以包括但不限于以下至少一项:事业部类别信息、省份类别信息、风区类别信息等。
设备信息可以包括但不限于以下至少一项:总线类型信息、交流配置类别信息、变桨类别信息、叶片类别信息、冷却类型信息、扫风直径信息、轮毂高度信息、轮毂直径信息、机组吊装时间信息等。
环境信息是指目标风力发电机组的外部数据的描述。本申请实施例中,环境信息可以包括气象信息和/或地形信息。
作为示例地,气象信息可以包括但不限于以下至少一项:风区类别信息、潮湿类别信息、最高温度信息、最低温度信息、年平均风速信息、平均降水量信息、年平均雷暴数据信息、年平均空气密度信息、平均湿度信息等。
地形信息可以包括但不限于以下至少一项:海拔类别信息、海拔最高值信息、海拔最低值信息、经度信息、纬度信息、坡度1~坡度16信息、坡向1~坡向16信息、高程(坡高)1~高程16信息等。
步骤S102、基于预先构建的决策树模型和/或随机森林模型,根据静态信息及环境信息,确定目标风力发电机组的故障预测结果。
具体而言,可以将静态信息及环境信息与基于决策树模型确定出的故障集聚规则进行匹配,将得到的匹配结果确定为目标风力发电机组的故障预测结果;
例如,根据静态信息及环境信息,确定目标风力发电机组是否符合故障集聚规则,若符合,则目标风力发电机组发生故障的可能性会非常大,需要重点关注,以及进行有针对性维护、优化等操作。
或者,可以基于随机森林模型,根据静态信息及环境信息,预测目标风力发电机组发生故障的概率,将该概率确定为目标风力发电机组的故障预测结果。
各观测的各类别预测概率
0 1
50 0.524862 0.475138
326 0.513089 0.486911
327 0.890710 0.109290
443 0.931818 0.068182
521 0.643564 0.356436
636 0.542289 0.457711
表1
例如如表1所示,表1中的第一列为各个风力发电机组的标识信息,第二列为各个风力发电机组预测为0的概率(即预测为故障不发生的概率),第三列为各个风力发电机组预测为1的概率(即预测为故障发生的概率)。也就是说,表1示出了根据静态信息及环境信息,每个风力发电机组(也可计算每个项目、省份等维度)是否会发生故障,以及发生故障的概率是多少,可以体现特定区域或规则下故障集聚和高发的情况,用于后期运维和优化等针对性操作做参考。
或者,还可以基于决策树模型确定出的故障集聚规则和随机森林模型,根据静态信息及环境信息,确定目标风力发机组的联合故障预测结果,该联合故障预测结果是根据匹配结果及概率确定的,将该联合故障预测结果确定为目标风力发电机组的故障预测结果。
例如,可以为匹配结果及上述概率分别分配相应的权重,用来计算联合故障预测结果,或者也可以采用逻辑回归、朴素贝叶斯、神经网络等分类器来根据匹配结果及概率确定出联合故障预测结果,本申请对联合故障预测结果的确定方式不作限定。
本申请实施例中,可以采用决策树模型和/或随机森林模型直接预测目标风力发电机组是否发生故障和/或发生故障的概率。
或者,也可以针对不同故障类型(例如),构建不同决策树模型和/或随机森林模型,那么,本申请实施例中,可以采用各种故障类型对应的决策树模型和/或随机森林模型预测目标风力发电机组是否发生各种故障和/或发生各种故障的概率。
本申请实施例提供的风力发电机组的故障预测方法,通过风力发电机组的静态信息及环境信息来预测风力发电机组故障的发生,填补了故障与更多维度的特征交互的情况,通过预先构建的决策树模型和/或随机森林模型,可以刻画出故障在特定环境和规则下出现集聚和高发的现象,从而提高风力发电机组故障预测的可靠性,提升风力发电机组维护的效率。
本申请实施例中,如图2所示,在步骤S201中获取目标风力发电机组的静态信息及环境信息之后,该风力发电机组的故障预测方法还可以包括:
步骤S202:对获取的静态信息及环境信息进行匹配合并处理;
例如,将获取的静态信息及环境信息与模型的入参匹配后,进行数据的合并,以输入模型进行故障预测。
当判断出匹配合并处理结果不完整时,例如查看变量的分布情况,判断出存在缺失值和离群值的情况时,或者,判断出存在缺失的变量类型时,重新进入步骤S201获取目标风力发电机组的静态信息及环境信息。
而当判断出匹配合并处理后的数据完整时,进入步骤S203将匹配合并处理后的数据输入决策树模型和/或随机森林模型,输出目标风力发电机组的故障预测结果。
其中,步骤S201的具体实现方式可参见上述步骤S101,在此不再赘述。
由上述介绍可知,本申请实施例主要采用决策树模型和/或随机森林模型来进行故障预测,其中,如图3所示,构建决策树模型和随机森林模型的方式,包括:
步骤S301、获取多个风力发电机组的历史故障信息、历史静态信息及历史环境信息作为样本数据;
其中,故障信息可以从历史的故障工单中获取的,一般的机组维护过程中,若有机组报出故障,运维工程师对故障内容和处理方式记录到故障工单中。可选地,静态信息及环境信息也可以从故障工单中获取。实际应用中,故障工单或历史故障信息、历史静态信息及历史环境信息可以由预设的系统服务器进行存储,需要时直接获取即可,也可以采用其他获取方式,本申请实施例对此不作限定。
作为示例地,故障信息可以包括但不限于以下至少一项:故障类型信息、故障发生月份信息等。静态信息及环境信息可以参见上文中的介绍,在此不再赘述。
一种可行的实现方式中,本申请实施例将获取的历史故障信息、历史静态信息及历史环境信息中的各个信息类型均作为自变量(预测变量),那么具体的变量类型(也可称为维度或特征)可以包括但不限于故障发生月份、省份类别、风区类别、总线类型、交流配置类别、变桨类别、叶片类别、冷却类型、扫风直径、轮毂高度、轮毂直径、潮湿类别、最高温度、最低温度、年平均风速、平均降水量、年平均雷暴数据、年平均空气密度、平均湿度、海拔类别、海拔最高值、海拔最低值、经度、纬度、坡度1~坡度16、坡向1~坡向16、高程1~高程16等。
其中,变量类型可区分为定性变量(分类变量)和定量变量(连续变量),例如定性变量潮湿类型可以分为普通型、非潮湿型、潮湿型、陆地潮湿型、潮间带型、沿海型、海上型等;又例如定量变量平均湿度取值为1~93%。本领域技术人员可以根据实际情况进行区分,在此不再赘述。
进一步地,将是否发生故障(也可以为是否发生某一具体类型的故障,为简要描述,下文中相同的部分将不再赘述)作为因变量(目标变量),例如,若故障(某故障)发生则因变量的值为“1”,若故障(某故障)不发生则因变量的值为“0”。其中,因变量也可作为定性变量(分类变量)。
步骤S302、基于样本数据对应的多个变量类型,分别对样本数据进行分层采样,并根据分层采样后的数据生成对应的决策树模型;
本申请实施例中,获取多个风力发电机组的历史故障信息、历史静态信息及历史环境信息作为样本数据后,可以直接进行训练集和测试集的划分,例如,划分70%比例的训练集和30%测试集进行建模。可以理解,根据历史故障信息、历史静态信息及历史环境信息,可以将样本数据分成“1”对应的样本数据以及“0”对应的样本数据。
可选地,分别对“0”对应的样本数据按照一定比例进行分层随机采样,例如,根据“事业部类别”、“风区类别”、“轮毂直径”、“故障发生月份”等变量类型进行分层抽取,得到“0”对应的数据集和“1”对应的数据集后合并形成新数据集,用来划分测试集和训练集。相较于直接划分训练集和测试集,或者进行随机采样来划分数据集,该分层随机采样的方式对数据的覆盖范围更广,样本各属性变量更均匀,可以有效提升模型效果,避免直接随机抽样导致部分变量中部分类型数据抽取不到,影响预测效果。
具体而言,决策树(Decision Tree)是一种基本的分类与回归方法,本申请实施例主要应用其分类方法。决策树模型呈树形结构,在本申请实施例中,表示基于变量类型对数据进行分类的过程,是直观运用概率分析的一种图解法。
决策树一般包括根结点(也称为节点)、叶结点、中间结点,同层结点、父结点、子结点等。本申请实施例中,一棵决策树的每个根节点和中间结点节点分别对应不同的变量类型的条件,而叶结点对应着分类的结论。分类的时候,把样本数据从根结点开始,测试该结点对应的变量类型,然后按照给定的变量类型的值将样本数据分配到其子结点,即每一个子结点对应着该变量类型的一个取值。如此递归按照对应的路径往下遍历,直至叶子结点获得样本数据的分类。
例如如图4所示的一个决策树模型的示例,除了叶节点之外的每个其他节点均包含以下信息:
区分因变量(目标变量)是“1”或“0”;
该结点下区分因变量的准确率;
作为分割点的变量类型及分割界限;
该结点下数据量的占比。
本申请实施例中,可以通过分类回归树算法在样本数据中选择具有最小基尼指数增益的多个变量类型分别作为结点来划分决策树;基于划分结果,对样本数据进行分配,生成对应的决策树模型;
如表2(1)和表2(2)所示,决策树算法包括C4.5、C50、CART算法,主要通过rpart、rpart.plot、C50等主要函数来实现决策树模型的构建。
决策树算法 支持模型 特征选择 树结构 缺失值处理 连续值处理 剪枝处理
C4.5 分类 信息增益率 多叉树 支持 支持 支持
C5.0 分类 信息增益率 多叉树 不支持 支持 支持
CART 分类/回归 基尼系数/均方差 二叉树 支持 支持 支持
表2(1)
Figure BDA0001816134570000091
表2(2)
本申请实施例中可以采用决策树中的CART算法,能够选择分类能力好的变量类型。CART算法用于分类和回归的分析,本申请实施例主要采用分类方向分析,在创建分类树递归过程中,CART每次都选择当前数据集中具有最小基尼Gini信息增益的特征作为结点划分决策树。
基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经A=a分割后集合D的不确定性,基尼指数越大,样本集合的不确定性也就越大,与熵类似。
本申请实施例采用决策树模型的优势在于:
1)相比于先进行单变量或双变量分析,再综合所有单变量或双变量分析结果来总结和发现规则而言,决策树可以一次综合各变量类型进行分析和提取规则,决策树在处理特征交互关系上优势很明显。
2)算法的中间过程清晰、明了,结果的理解、可解读性强,便于分析和调整。
3)决策树算法属于监督学习,对于模型的构建和测试过程中,可以通过数据采样和参数调优等方式进行干预和调整,提升整体效果。
步骤S303、将多个决策树模型进行集成,生成随机森林模型。
随机森林(Random forest)是利用多棵树对样本进行训练并预测的一种分类器。随机森林里面有很多的决策树,每颗树的分类强度越大,则随机森林的分类性能越好;每一棵决策树之间要求不关联,树之间的相关度越大,则随机森林的分类性能越差。随机森林模型的结果输出参见上文中的表1所示,在此不再详细赘述。
具体而言,可以随机地选取若干个变量类型作为分列点,再随机地选取部分数据集作为测试集,来建立一个森林。随机森林有2个参数需要进行控制,一个是森林中树的数量,例如可以在500~1000之间。另一个是变量类型的个数(以m表示),例如m的值可以为样本数据中变量类型个数的开方。
那么,假设有M个变量类型个数,该算法具体流程如下:
从M中确定一个值m,它用来表示每个树分类器选取多少个变量。
从数据集中有放回的抽取k个样本集,用它们创建k个树分类器。另外还伴随生成了k个袋外数据,用来后面做检测。
运行随机森林模型时,输入待预测的信息数据,随机森林中的每一棵树都会给出自己的分类选择,随机森林由此进行投票计分,随机森林整体的输出结果将会是票数和分数最高的分类选项,就预测这个样本为那一类。
具体而言,本申请实施例中,可以通过随机森林randomForest算法将多个决策树模型进行集成,生成随机森林模型。
本申请实施例采用随机森林模型的优势在于:
1)不必担心过度拟合;
2)适用于存在大量未知特征的数据集;
3)能够估计哪个特征在分类中更重要;
4)具有很好的抗噪声能力(在数据抽取时采用有放回抽取方式使得噪声点不一定能抽到,且即使抽到噪声点,此时噪声点的票数不会很高,因此不能对高分或高票数的分类产生很大影响)。
本申请实施例中,还可以根据决策树模型的根结点到叶结点的每一条路径来构建不同的规则,则路径上的内部结点的特征对应着规则的条件。每一条故障工单记录可以被一条规则(路径)所覆盖,而且只被一条规则所覆盖,例如如图4所示。因此,生成对应的决策树模型之后,该风力发电机组的故障预测方法还可以包括:基于决策树模型,提取故障规则;确定各个故障规则的故障规则准确率;将故障规则准确率超过预定阈值的故障规则确定为故障集聚规则。
作为示例地,如图5所示,在步骤S501中基于决策树模型,提取故障规则,在步骤S502中判断故障规则的准确率是否大于80%,若是,则在步骤S503中归纳总结为故障集聚规则进行输出,用于上述步骤S102中确定目标风力发电机组的故障预测结果。或者,也可以将输出的故障集聚规则进行解释说明和应用,在故障集聚规则下故障(或某一故障类型的故障)比较呈集聚现象,进行有针对性的重点关注、运维优化等操作,便可转化为生产力。
本申请的一个示例中,可以分层采样数据构建4棵决策树,提取22条准确率大于80%的规则,覆盖500条以上“1”的样本集,具体地,
按照“事业部类型”这一变量类型进行分层采样后生成的决策树模型一,可提取6条准确率大于80%的规则(故障集聚规则01~故障集聚规则06),下面以故障集聚规则03为例,提取的内容为(其中FaultName表示因变量取值,cover表示样本数据的覆盖率,prob表示准确率,下文中相同的地方将不再赘述):
故障集聚规则03:[FaultName=1cover=52(1%)prob=0.90]
平均降水量2>=7.55
省份类别=A,C,E,G,N,O,R,S
故障发生月份=11,6
最低温度2<-40.15
而按照“故障月份”这一变量类型进行分层采样后生成的决策树模型二,可提取7条准确率大于80%的规则(故障集聚规则07~故障集聚规则13),下面以故障集聚规则12为例,提取的内容为:
故障集聚规则12:[FaultName=1cover=55(1%)prob=0.85]
省份类别=A,C,E,G,O,R,S,T,U
故障发生月份=11,5,6
平均降水量2>=485.6
年平均空气密度2<1.184
省份类别=G,S
而按照“轮毂直径”这一变量类型进行分层采样后生成的决策树模型三,可提取6条准确率大于80%的规则(故障集聚规则14~故障集聚规则19),下面以故障集聚规则15和故障集聚规则16为例,提取的内容为:
故障集聚规则15:[FaultName=1cover=55(1%)prob=0.89]
叶片类别=A,H,J
叶片厂家类别=A,B,D,E,F
省份类别=C,E,G,K,O,S
年平均雷暴数量2<41.5
经度>=114.2
最低温度2<-30.5
故障发生月份=1,2,3,5,6,7
故障集聚规则16:[FaultName=1cover=91(1%)prob=0.88]
叶片类别=B,D,E,G
省份类别=C,G,S,T,U
坡度2>=6.243
而按照“风区类别”这一变量类型进行分层采样后生成的决策树模型四,可提取3条准确率大于80%的规则(故障集聚规则20~故障集聚规则22),下面以故障集聚规则22为例,提取的内容为:
故障集聚规则22:[FaultName=1cover=20(0%)prob=0.80]
省份类别=A,C,E,G,O,S,T,U
叶片类别=A,B,E,H
平均湿度2<61.5
年平均雷暴数量2<7.75
轮毂直径>=94
针对基于决策树模型提取的准确率大于80%的规则进行阐述说明,例如:
故障集聚规则03:如果在平均降水量大于等于7.55的情况下,在A、C、E、G、N、O、R、S等省份境内,在6月和11月中,全年最低温度小于40.15度的特定环境中的项目机组,会发生故障;
该故障集聚规则03能覆盖52条样本集,且准确率为90%。
故障集聚规则12:如果在5月、6月、11月期间,且年平均降水量大于等于485.6,年平均空气密度小于1.184,在G和S省份内的特定环境中的项目机组,会发生故障;
该故障集聚规则12能覆盖55条样本集,且准确率为85%。
故障集聚规则15:如果在机组叶片类别为A、H、J的情况下,叶片厂家为A、B、D、E、F,在C、E、G、K、O、S等省份境内时,且年平均雷暴数量小于41.4,经度大于等于114.2,年最低温度小于30.5,在1、2、3、5、6、7月份的特定环境中的项目机组,会发生故障;
该故障集聚规则15能覆盖55条样本集,且准确率为89%。同理地,
故障集聚规则16:如果在叶片类别为B、D、E、G的情况下,且在C、G、S、T和U等省份境内,坡度2大于等于6.243的特定环境中的项目机组,会发生故障;
该故障集聚规则16能覆盖91条样本集,且准确率为88%。
同理地,其他故障集聚规则可依次类推,在此不再赘述。
本申请的另一个示例中,可以根据数据统计结果对故障集聚的变量及变量类型进行筛选后构建相应的决策树模型,再进行故障规则的提取:
#分类变量
#事业部:type<-c("A","B","C","J")
#机型:type1<-c(70,82,87,93)
#变桨类型:"A"
#风区:"A","B","C"
#连续变量
#年平均风速:大于4m/s
则提取到规则准确率大于预定阈值的故障集聚规则为:
故障集聚规则:[FaultName=1cover=184(12%)prob=0.80]
故障发生月份=11,2,5,6,8
省份类别=E,G,H,K,T
海拔最高值2>=397.2
年平均雷暴数量2>=2.5
纬度>=41.36
轮毂高度3>=72.5
故障发生月份=11,5,6,8
对该故障集聚规则进行阐述说明:故障会发生在E、G、H、K、T这5个省份内,海拔最高值大于397.2,年平均雷暴数量大于等于2.5,纬度大于等于41.36,轮毂高度大于72.5,发生月份为5、6、8、11。
本申请的发明人对原始数据进行统计发现,如图6所示,该故障集聚规则中的省份E、G、H、K、T为统计故障频次中出现故障频次最高的5个省份,如图7所示,月份5、6、8、11为统计故障频次中出现故障频次最高的4个月份,且该故障集聚规则覆盖184条样本集,准确率为80%,因此,该故障集聚规则下体现故障聚集的分类变量类别和统计结果吻合,说明该规则效果比较好。
本申请实施例中,如图8所示,获取多个风力发电机组的历史故障信息、历史静态信息及历史环境信息作为样本数据之后,在步骤S801中需要对样本数据进行探索分析,以筛选构建随机森林模型和/或决策树模型的变量类型。
具体而言,探索分析时对数据进行初步分析,一般是通过数据描述估计、数据可视化等手段,查看数据的分布情况、内在特征规律,有助于后续选择合适的数据处理等技术。
其中,可以分别查看单个变量的分布情况,了解每一个变量的分布情况,并查看缺失值和离群值的情况,确定变量是否需要进行一定的转换和处理,是否适合建模。以及,可以分析因变量和各个自变量之间的关系,可用于初步的特征选择。以及,可以分析各个自变量之间的关系,了解是否有冗余情况的出现,以便确定是否需要剔除部分变量。
本申请实施例中,如图8所示,获取多个风力发电机组的历史故障信息、历史静态信息及历史环境信息作为样本数据之后,还可以对样本数据进行预处理,实际应用中,可以在步骤S802中根据探索分析结果,选择相应的预处理技术对样本数据进行预处理。数据预处理一般包括数据清洗、数据集成、数据变换及规约等方式。
本申请实施例可以采取类似图2的数据处理方法:
对获取的样本数据进行匹配、合并、筛选处理;当判断出匹配、合并、筛选处理后的数据不完整时,重新获取样本数据。而当判断出匹配、合并、筛选处理后的数据完整时,进行后续的模型构建工作。
本申请实施例还可以针对具体问题进行以下这些主要的数据处理:
1)对连续变量类型的数据中存在的异常值、噪音值及空缺值进行剔除处理或补缺处理;
由于不同算法对数据源中的空缺值(NA,not available)要求不一样,需要根据具体的方法对空缺值进行删除或替换。
2)将各个变量类型的数据进行规范化;
尤其是对分类变量数据规范化,目的是使数据相对标准或规范,分为两种:一种为本身数据杂乱进行规范(例如:III、三、3类风区都代表三类风区),另一种是将数据转化为便于分析软件读取兼容和模型要求的格式。
3)哑变量处理(Dummy Variables);
对离散变量进行量化,同时检验不同变量类型对因变量的影响。结合上文,对于每个变量类型均可用字母来表示。例如,省份类别中,A-安徽省,B-甘肃省等;地形类型中,A-山地,B-平原等。不用数字来表示不同变量类型的原因是,那样便无法还原不同变量类型间的差异和相互关联性。例如事业部类别的分类变量,用1代表东北,2代表西北,数值1、2间有距离为1的差异,但实际上,东北和西北是不存在这种差异的。
4)样本数据偏斜处理(unbalance class);
一般因变量中正负(值为“1”或“0”)案例数量会不平衡,比例差距过大。可以采用欠采样方法,对样本数据进行处理后再划分测试集和训练集。
随后,如图8所示,便可执行步骤S801来构建模型。其中,步骤S801的具体执行方式可参见上述步骤S302,在此不再赘述。
本申请实施例中,构建决策树模型主要分两步:1、生成决策树;2、决策树修剪。其中生成决策树主要是特征变量的选择,可参见上文中的介绍。修剪决策树主要是惩罚系数的选择。即在步骤S302之后,还可以对各个决策树模型进行剪枝处理及参数优调处理。
其中,对任一决策树模型进行参数优调处理,可以是基于结点最小样本量(minsplit)、按重要性输出候选变量类型个数(maxcompete)、交叉验证折数(xval)、最大树深度(xval)中的至少一项,对决策树模型进行参数优调处理。
参数调优的本质就是参数的调整结果是未知的,部分参数基于一些方法、经验可以先选取合理的参数范围,但不能确定具体的值来达到最优效果,所以需要调参优化,而且可调参数根据不同模型也有不同参数可调。
另外,对任一决策树模型进行剪枝处理,可以是确定剪枝系数的最优值范围及该任一决策树模型的最优分割点范围;根据剪枝系数的最优值范围及该任一决策树模型的最优分割点范围,删减该任一决策树的结点数量;
剪枝处理可以通过一些常规方法来得到剪枝系数(Pruning coefficient,CP)的最优值范围和决策树模型的最优分割点范围,减少决策树模型的节点数量,降低由于决策树过大造成的过拟合的现象,避免在训练集有很好的适应性,却在测试集适应性急剧下降,而在新数据集的泛化能力比较差的情况出现。
可以为CP值确定出合理的范围,但是具体的值需要综合模型的准确率、过拟合性等方面进行测试和验证,最终确定CP的最终值。也可根据1-SE(1-标准差)规则,首先要保证预测误差(通过交叉验证获得,在程序中表示为xerror)尽量小,但不一定要取最小值,而是允许它在“最小的误差±一个相应标准差”的范围内,然后在此范围内选取尽量小的复杂性参量,进而以复杂性参量为依据的进行剪枝,这样才能兼顾树的规模(复杂度)和误差大小。
表3示出了CP列表的示例图,其中,第一列代表序号;第二列代表CP值;第三列代表分组次数;第四列(rel error)代表预测误差相对值的估计;第五列(xerror)代表交叉验证的预测误差的相对值;第六列(xstd)代表预测误差的标准误。
序号 CP 分组次数 rel error xerror xstd
1 0.01146420 0 1.00000 1.00000 0.024562
2 0.00965406 5 0.93886 0.96299 0.024252
3 0.00643604 7 0.91955 0.95656 0.024196
4 0.00563154 8 0.91311 0.95173 0.024154
5 0.00482703 9 0.90748 0.95736 0.024203
6 0.00402253 10 0.90265 0.96460 0.024265
7 0.00362027 14 0.88335 0.96460 0.024265
8 0.00321802 16 0.87611 0.97184 0.024327
9 0.00257442 32 0.82140 0.97667 0.024368
10 0.00241352 38 0.80290 1.01046 0.024647
11 0.00225261 44 0.78681 1.00885 0.024634
12 0.00214535 50 0.77152 1.00402 0.024595
13 0.00160901 53 0.76508 1.00965 0.024641
14 0.00100563 56 0.76026 1.03459 0.024839
15 0.00080451 60 0.75623 1.04344 0.024908
16 0.00053634 76 0.74256 1.04264 0.024901
17 0.00000000 79 0.74095 1.04666 0.024932
表3
其中,第17行,复杂度参数CP取值为0,此时的决策树是经过79次分组(nsplit)的结果,包含80个叶节点,预测误差估计值为0.74095。
第11行,经过交叉验证,CP值增加至0.00225261,该过程中经过若干次剪枝,此时决策树经过44次分组,包含45个叶节点,预测误差相对值为0.78681。
图9示出了误差折线图的示例图,即复杂度(决策树剪枝的复杂度度,即剪枝系数CP)与代价(xerror)的关系,虚线代表初始交叉验证错误率的上限,在虚线以下的CP值是合适的,CART算法剪枝使用最小代价复杂度剪枝法,既要保证预测精度又要保证树的精简性,一般CP值的选择依据xerror(交叉验证估计误差)最小或xerror+xstd(标准误差)最小,示例中分割数从6-14范围内的CP值时合适的。
作为示例的,构建决策树模型时:
a)按变量类型“事业部类别”分层采样样本数据,得到CP值的范围为0.00241352~0.00724055,分组次数范围为4~28,最终CP值为00241352,分组次数为28。
b)按变量类型“故障月份”分层采样样本数据,得到CP值的范围为0.00243506~0.00622294,分组次数范围为11~32,最终CP值为0.00405844,分组次数为18。
c)按变量类型“轮毂直径”分层采样样本数据,得到CP值的范围为0.00243506~0.00568182,分组次数范围为15~36,最终CP值为0.00324675,分组次数为23。
d)按变量类型“风区类别”分层采样样本数据,得到CP值的范围为0.00241741~0.00725222,分组次数范围9~37,最终CP值为0.00443191,分组次数为21。
经过多棵决策树的构建,对每棵决策树中涉及的变量进行汇总后,由之前的75个变量类型减少为47个变量类型,这47个变量类型在决策树规则中基于基尼系数计算的结果,了认为是对因变量相比其余变量有重要的意义和作用的,随后,采用这47个变量类型重新构建决策树模型。
a)按变量类型“事业部类别”分层采样样本数据,得到的CP值为0.00321802,分组次数为28。
b)按变量类型“故障月份”分层采样样本数据,得到的CP值为0.00324675,分组次数为25。
c)按变量类型“轮毂直径”分层采样样本数据,得到的CP值为0.00365260,分组次数为21次。
d)按变量类型“风区类别”分层采样样本数据,得到的CP值为0.0029546,分组次数为26次。
本申请实施例中,在步骤S303之后,还可以对随机森林模型进行降维处理。具体而言,基于对变量类型分列属性数量的选择及对随机森林模型中决策树模型数量的选择,对随机森林模型进行降维处理。
通过对变量类型分列属性数量(mtry)的设置和选择(不用所有变量类型是为了避免一些变量类型之间的相关性高)、随机森林模型中决策树模型数量(ntree)的设置和选择,根据重要性参数(importance参数)可选择重要性高的变量,降维后重新构建随机森林。
1)mtry的选择:
a)选取数据集所有变量类型总和的开方数量为9,依次计算平均误差率得出变量类型最小平均误差为9,则设定所有mtry=9;
b)循环测试mtry数量的平均错误率,确定多少棵树下的平均错误率最低。
2)ntree的选择
图10示出了本申请实施例中袋外观测(Out of bag,OOB)错判率随随机森林模型中决策树模型数量的变化特点,其中,中间的线为整体错判率,最下方的线为对因变量“0”的错判率,最上方的线为对因变量“1”的错判率。可见,模型对“0”的预测效果好于对整体和“1”的预测效果,当决策树数量达到200棵树后,各类错判率保持稳定,当树的数量在650-800之间时,错判率趋于绝对稳定,考虑到树的数量不至于过多,占用太多系统运行内存,故参数ntree设置为650—800之间即可。
边界点探测主要是查看处于分类边界附近的点和错判情况,其中,正表示预测正确,负表示预测错误。为负的比例为错判率,差的绝对值越小,越接近0。0表明该观测处在分类边界上,不容易判定类别。处在分类边界的点的定义依据为:随机森林中投票给正确类别(该观测所属的实际类别)的树的比率与投票给众数类别(除正确类别以外的其他众数类别)的树的比率。
3)特征变量的选择:
获取随机森林模型针对多个风力发电机组的故障预测结果;根据针对多个风力发电机组的故障预测结果,确定随机森林模型对应的各个变量类型的重要性测度指标;根据各个变量类型的重要性测度指标,对随机森林模型对应的各个变量类型进行筛选,以优化随机森林模型。
其中,重要性测度指标包括:平均精度下降(MeanDecreaseAccuracy)和平均基尼指数下降(MeanDecreaseGini),二者都可以用来筛选重要性比较高的变量类型,剔除对因变量预测分类重要性低的变量,用于降低变量维度,提高准确率。
一个示例中,根据表4示出了一个随机森林模型的重要性参数:
Figure BDA0001816134570000201
Figure BDA0001816134570000211
Figure BDA0001816134570000221
Figure BDA0001816134570000231
表4
整理成散点图如图11所示,通过重要性测度指标的测度结果可以看出对因变量预测精度影响的角度及对因变量异质性下降程度影响的重要性,从图11中可以看出在,该示例的随机森林模型中,省份类别、经度、纬度和故障发生月份对预测目标变量分类是很重要的。
4)通过模型的运行情况,可实时更新和优化模型参数,确保模型的泛化能力和准确率。
一个示例中,生产随机森林:得到随机森林函数主体randomForest对应的随机森林,其中,包含目标变量FaultName、训练数据集train、决策树数量、输入特征变量数量、特征变量重要性测度指标importance、计算模型的临近矩阵proximity、随机森林类型、信息OOB袋外误差率、混淆矩阵matrix等信息。
对随机森林模型进行降维处理后,优化结果为:1000棵树,候选输入变量为2,如表5所示,准确率:预测正确“1”和“0”的数量比总样本量为(50405+1029)/(50405+5735+343+1029)=0.8943177,即为89%,预测正确“1”的数量比预测“1”正确的数量加预测“1”错误的数量准确率为1029/(343+1029)=0.75,即为75%,
Figure BDA0001816134570000232
表5
本申请实施例,如图8所示,在构建完模型后,在步骤S804中还需要用测试数据对模型进行测试及评估。其中,关于模型评估,该风力发电机组的故障预测方法还可以包括:针对决策树模型及随机森林模型,分别建立对应的混淆矩阵;根据决策树模型对应的混淆矩阵,对决策树模型进行模型评估;根据随机森林模型对应的混淆矩阵,对随机森林模型进行模型评估。
混淆矩阵(Confusion Matrix),是将预测分类结果和实际分类结果集成为一个n*n的矩阵列表,来评估两类结果的差距,适用于有监督的学习。每一列的求和代表实际值的不同分类结果对应的总样本数量,每一行的求和代表预测值的不同分类结果对应的总样本数量,如表6所示。
Figure BDA0001816134570000241
表6
其中,绿色代表分类正确,灰色代表分类错误。
TP——True Positive(真正,TP)被模型预测为正的正样本;可以称作判断为真的正确率;
TN——True Negative(真负,TN)被模型预测为负的负样本;可以称作判断为假的正确率;
FP——False Positive(假正,FP)被模型预测为正的负样本;可以称作误报率;
FN——False Negative(假负,FN)被模型预测为负的正样本;可以称作漏报率。
准确率=(TP+TN)/(TP+FN+FP+TN),表示所有准确的数量比上所有样本的数量;
召回率=TP/(TP+FN),表示在所有为正样本中有多少被识别为正样本;
查准率=TP/(TP+FP),表示在所有识别成正样本中有多少是真正的正样本;
误报率=FP/(FP+TN),表示在所有为负样本中有多少被识别为正样本。
本申请实施例中,还可以在如图1所示对新数据的故障预测中,同时进行模型的评估并进行反馈,以便及时地调整模型,保证模型的可靠性。
本申请实施例提供的风力发电机组的故障预测方法,通过风力发电机组的静态信息及环境信息来预测风力发电机组故障的发生,填补了故障与更多维度的特征交互的情况,通过预先构建的决策树模型和/或随机森林模型,可以刻画出故障在特定环境和规则下出现集聚和高发的现象,从而提高风力发电机组故障预测的可靠性,提升风力发电机组维护的效率。且由于决策树模型和随机森林模型相对其他分类模型来说对数据要求低,而且中间过程和结果都比较清晰明了,便于解读和调整,用于风力发电机组的故障预测的优势非常明显。
本申请实施例还提供了一种风力发电机组的故障预测装置,如图12所示,该种故障预测装置120可以包括:获取模块1201和预测模块1202,其中,
获取模块1201用于获取目标风力发电机组的静态信息及环境信息;
预测模块1202用于基于预先构建的决策树模型和/或随机森林模型,根据静态信息及环境信息,确定目标风力发电机组的故障预测结果。
其中,静态信息包括所属项目信息和/或设备信息;
环境信息包括气象信息和/或地形信息。
可选地,预测模块1202具体用于将静态信息及环境信息与基于决策树模型确定出的故障集聚规则进行匹配,将得到的匹配结果确定为目标风力发电机组的故障预测结果;或者基于随机森林模型,根据静态信息及环境信息,预测目标风力发电机组发生故障的概率,将概率确定为目标风力发电机组的故障预测结果;或者基于决策树模型确定出的故障集聚规则和随机森林模型,根据静态信息及环境信息,确定目标风力发机组的联合故障预测结果,联合故障预测结果是根据匹配结果及概率确定的,将联合故障预测结果确定为目标风力发电机组的故障预测结果。
可选地,获取模块1201还用于对获取的静态信息及环境信息进行匹配合并处理;当判断出匹配合并处理结果不完整时,重新获取目标风力发电机组的静态信息及环境信息。
本申请实施例中,如图13所示,该种故障预测装置120还可以包括构建模块1203,其中,
构建模块1203用于构建决策树模型和随机森林模型;
构建模块1203具体用于获取多个风力发电机组的历史故障信息、历史静态信息及历史环境信息作为样本数据;基于样本数据对应的多个变量类型,分别对样本数据进行分层采样,并根据分层采样后的数据生成对应的决策树模型;将多个决策树模型进行集成,生成随机森林模型。
可选地,构建模块1203具体用于基于决策树模型,提取故障规则;确定各个故障规则的故障规则准确率;将故障规则准确率超过预定阈值的故障规则确定为故障集聚规则。
可选地,构建模块1203还用于对样本数据进行探索分析,以筛选构建随机森林模型和/或决策树模型的变量类型;和/或,对样本数据进行预处理;
可选地,构建模块1203具体用于以下至少一项:
对连续变量类型的数据中存在的异常值、噪音值及空缺值进行剔除处理或补缺处理;
将各个变量类型的数据进行规范化;
哑变量处理;
样本数据偏斜处理。
可选地,构建模块1203具体用于通过分类回归树算法在样本数据中选择具有最小基尼指数增益的多个变量类型分别作为结点来划分决策树;基于划分结果,对样本数据进行分配,生成对应的决策树模型;
可选地,构建模块1203具体用于通过随机森林算法将多个决策树模型进行集成,生成随机森林模型。
可选地,构建模块1203还用于对各个决策树模型进行剪枝处理及参数优调处理;
可选地,构建模块1203具体用于确定剪枝系数的最优值范围及任一决策树模型的最优分割点范围;根据剪枝系数的最优值范围及任一决策树模型的最优分割点范围,删减任一决策树的结点数量;
可选地,构建模块1203具体用于基于结点最小样本量、按重要性输出候选变量类型个数、交叉验证折数、最大树深度中的至少一项,对决策树模型进行参数优调处理。
可选地,构建模块1203还用于对随机森林模型进行降维处理;
可选地,构建模块1203具体用于基于对变量类型分列属性数量的选择及对随机森林模型中决策树模型数量的选择,对随机森林模型进行降维处理。
可选地,构建模块1203具体用于获取随机森林模型针对多个风力发电机组的故障预测结果;根据针对多个风力发电机组的故障预测结果,确定随机森林模型对应的各个变量类型的重要性测度指标;根据各个变量类型的重要性测度指标,对随机森林模型对应的各个变量类型进行筛选。
可选地,构建模块1203还用于针对决策树模型及随机森林模型,分别建立对应的混淆矩阵;根据混淆矩阵,对决策树模型及随机森林模型进行模型评估。
本申请实施例的风力发电机组的故障预测装置,通过风力发电机组的静态信息及环境信息来预测风力发电机组故障的发生,填补了故障与更多维度的特征交互的情况,通过预先构建的决策树模型和/或随机森林模型,可以刻画出故障在特定环境和规则下出现集聚和高发的现象,从而提高风力发电机组故障预测的可靠性,提升风力发电机组维护的效率。且由于决策树模型和随机森林模型相对其他分类模型来说对数据要求低,而且中间过程和结果都比较清晰明了,便于解读和调整,用于风力发电机组的故障预测的优势非常明显。
本申请实施例的故障预测装置可执行上述方法实施例,其实现原理相类似,此处不再赘述。
本申请实施例还提供了一种电子设备,如图14所示,图14所示的电子设备140包括:处理器1401和存储器1403。其中,处理器1401和存储器1403相连,如通过总线1402相连。可选地,电子设备1400还可以包括收发器1404。需要说明的是,实际应用中收发器1404不限于一个,该电子设备1400的结构并不构成对本申请实施例的限定。
其中,处理器1401应用于本申请实施例中,用于上述方法实施例的功能。收发器1404包括接收机和发射机。
处理器1401可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1401也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线1402可包括一通路,在上述组件之间传送信息。总线1402可以是PCI总线或EISA总线等。总线1402可以分为地址总线、数据总线、控制总线等。为便于表示,图14中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器1403用于存储执行本申请方案的应用程序代码,并由处理器1401来控制执行。处理器1401用于执行存储器1403中存储的应用程序代码,以实现上述方法实施例的功能。
本申请实施例提供的电子设备,通过风力发电机组的静态信息及环境信息来预测风力发电机组故障的发生,填补了故障与更多维度的特征交互的情况,通过预先构建的决策树模型和/或随机森林模型,可以刻画出故障在特定环境和规则下出现集聚和高发的现象,从而提高风力发电机组故障预测的可靠性,提升风力发电机组维护的效率。且由于决策树模型和随机森林模型相对其他分类模型来说对数据要求低,而且中间过程和结果都比较清晰明了,便于解读和调整,用于风力发电机组的故障预测的优势非常明显。
本申请实施例提供的电子设备适用于上述方法实施例,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述方法实施例所示的图像分割方法。
本申请实施例提供的计算机可读存储介质,通过风力发电机组的静态信息及环境信息来预测风力发电机组故障的发生,填补了故障与更多维度的特征交互的情况,通过预先构建的决策树模型和/或随机森林模型,可以刻画出故障在特定环境和规则下出现集聚和高发的现象,从而提高风力发电机组故障预测的可靠性,提升风力发电机组维护的效率。且由于决策树模型和随机森林模型相对其他分类模型来说对数据要求低,而且中间过程和结果都比较清晰明了,便于解读和调整,用于风力发电机组的故障预测的优势非常明显。
本申请实施例提供的计算机可读存储介质适用于上述方法实施例,在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (18)

1.一种风力发电机组的故障预测方法,其特征在于,所述方法包括:
获取目标风力发电机组的静态信息及环境信息;
基于预先构建的决策树模型和/或随机森林模型,根据所述静态信息及所述环境信息,确定所述目标风力发电机组的故障预测结果。
2.根据权利要求1所述的故障预测方法,其特征在于,
所述静态信息包括所属项目信息和/或设备信息;
所述环境信息包括气象信息和/或地形信息。
3.根据权利要求1所述的故障预测方法,其特征在于,所述基于预先构建的决策树模型和/或随机森林模型,根据所述静态信息及所述环境信息,确定所述目标风力发电机组的故障预测结果,包括:
将所述静态信息及所述环境信息与基于所述决策树模型确定出的故障集聚规则进行匹配,将得到的匹配结果确定为所述目标风力发电机组的故障预测结果;或者
基于所述随机森林模型,根据所述静态信息及所述环境信息,预测所述目标风力发电机组发生故障的概率,将所述概率确定为所述目标风力发电机组的故障预测结果;或者
基于所述决策树模型确定出的故障集聚规则和所述随机森林模型,根据所述静态信息及所述环境信息,确定所述目标风力发机组的联合故障预测结果,所述联合故障预测结果是根据所述匹配结果及所述概率确定的,将所述联合故障预测结果确定为所述目标风力发电机组的故障预测结果。
4.根据权利要求1所述的故障预测方法,其特征在于,所述获取目标风力发电机组的静态信息及环境信息之后,所述方法还包括:
对获取的所述静态信息及所述环境信息进行匹配合并处理;
当判断出匹配合并处理结果不完整时,重新获取所述目标风力发电机组的静态信息及环境信息。
5.根据权利要求1-4任一项所述的故障预测方法,其特征在于,构建决策树模型和随机森林模型的方式,包括:
获取多个风力发电机组的历史故障信息、历史静态信息及历史环境信息作为样本数据;
基于所述样本数据对应的多个变量类型,分别对所述样本数据进行分层采样,并根据分层采样后的数据生成对应的决策树模型;
将多个决策树模型进行集成,生成随机森林模型。
6.根据权利要求5所述的故障预测方法,其特征在于,生成对应的决策树模型之后,还包括:
基于所述决策树模型,提取故障规则;
确定各个故障规则的故障规则准确率;
将故障规则准确率超过预定阈值的故障规则确定为故障集聚规则。
7.根据权利要求5所述的故障预测方法,其特征在于,获取多个风力发电机组的历史故障信息、历史静态信息及历史环境信息作为样本数据之后,还包括:
对所述样本数据进行探索分析,以筛选构建随机森林模型和/或决策树模型的变量类型;和/或,
对所述样本数据进行预处理;
其中,所述对所述样本数据进行预处理,包括以下至少一项:
对连续变量类型的数据中存在的异常值、噪音值及空缺值进行剔除处理或补缺处理;
将各个变量类型的数据进行规范化;
哑变量处理;
样本数据偏斜处理。
8.根据权利要求5所述的故障预测方法,其特征在于,所述基于所述样本数据对应的多个变量类型,分别对所述样本数据进行分层采样,并根据分层采样后的数据生成对应的决策树模型,包括:
通过分类回归树算法在所述样本数据中选择具有最小基尼指数增益的多个变量类型分别作为结点来划分决策树;
基于划分结果,对所述样本数据进行分配,生成对应的决策树模型;
所述将多个决策树模型进行集成,生成随机森林模型,包括:
通过随机森林算法将多个决策树模型进行集成,生成随机森林模型。
9.根据权利要求5所述的故障预测方法,其特征在于,所述基于所述样本数据对应的多个变量类型,分别对所述样本数据进行分层采样,并根据分层采样后的数据生成对应的决策树模型之后,还包括:
对各个决策树模型进行剪枝处理及参数优调处理;
对任一决策树模型进行剪枝处理,包括:
确定剪枝系数的最优值范围及所述任一决策树模型的最优分割点范围;
根据所述剪枝系数的最优值范围及所述任一决策树模型的最优分割点范围,删减所述任一决策树的结点数量;
对任一决策树模型进行参数优调处理,包括:
基于结点最小样本量、按重要性输出候选变量类型个数、交叉验证折数、最大树深度中的至少一项,对决策树模型进行参数优调处理。
10.根据权利要求5所述的故障预测方法,其特征在于,所述将多个决策树模型进行集成,生成随机森林模型之后,还包括:
对所述随机森林模型进行降维处理;
所述对所述随机森林模型进行降维处理,包括:
基于对变量类型分列属性数量的选择及对所述随机森林模型中决策树模型数量的选择,对所述随机森林模型进行降维处理。
11.根据权利要求10所述的故障预测方法,其特征在于,对所述随机森林模型进行降维处理之前,还包括:
获取所述随机森林模型针对多个风力发电机组的故障预测结果;
根据所述针对多个风力发电机组的故障预测结果,确定所述随机森林模型对应的各个变量类型的重要性测度指标;
根据所述各个变量类型的所述重要性测度指标,对所述随机森林模型对应的所述各个变量类型进行筛选。
12.根据权利要求5所述的故障预测方法,其特征在于,所述方法还包括:
针对所述决策树模型及所述随机森林模型,分别建立对应的混淆矩阵;
根据所述决策树模型对应的混淆矩阵,对所述决策树模型进行模型评估;
根据所述随机森林模型对应的混淆矩阵,对所述随机森林模型进行模型评估。
13.一种风力发电机组的故障预测装置,其特征在于,所述装置包括:
获取模块,用于获取目标风力发电机组的静态信息及环境信息;
预测模块,用于基于预先构建的决策树模型和/或随机森林模型,根据所述静态信息及所述环境信息,确定所述目标风力发电机组的故障预测结果。
14.根据权利要求13所述的故障预测装置,其特征在于,所述预测模块具体用于将所述静态信息及所述环境信息与基于所述决策树模型确定出的故障集聚规则进行匹配,将得到的匹配结果确定为所述目标风力发电机组的故障预测结果;或者基于所述随机森林模型,根据所述静态信息及所述环境信息,预测所述目标风力发电机组发生故障的概率,将所述概率确定为所述目标风力发电机组的故障预测结果;或者基于所述决策树模型确定出的故障集聚规则和所述随机森林模型,根据所述静态信息及所述环境信息,确定所述目标风力发机组的联合故障预测结果,所述联合故障预测结果是根据所述匹配结果及所述概率确定的,将所述联合故障预测结果确定为所述目标风力发电机组的故障预测结果。
15.根据权利要求13或14所述的故障预测装置,其特征在于,所述装置还包括:
构建模块,用于构建决策树模型和随机森林模型;
所述构建模块具体用于获取多个风力发电机组的历史故障信息、历史静态信息及历史环境信息作为样本数据;基于所述样本数据对应的多个变量类型,分别对所述样本数据进行分层采样,并根据分层采样后的数据生成对应的决策树模型;将多个决策树模型进行集成,生成随机森林模型。
16.根据权利要求13所述的故障预测装置,其特征在于,所述构建模块具体用于基于所述决策树模型,提取故障规则;确定各个故障规则的故障规则准确率;将故障规则准确率超过预定阈值的故障规则确定为故障集聚规则。
17.一种电子设备,其特征在于,包括:处理器和存储器,
所述存储器存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-12任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令、程序、代码集或指令集,当其在计算机上运行时,使得计算机执行如权利要求1-12任一项所述的方法。
CN201811142683.9A 2018-09-28 2018-09-28 风力发电机组的故障预测方法、相应的装置及电子设备 Active CN110968069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811142683.9A CN110968069B (zh) 2018-09-28 2018-09-28 风力发电机组的故障预测方法、相应的装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811142683.9A CN110968069B (zh) 2018-09-28 2018-09-28 风力发电机组的故障预测方法、相应的装置及电子设备

Publications (2)

Publication Number Publication Date
CN110968069A true CN110968069A (zh) 2020-04-07
CN110968069B CN110968069B (zh) 2022-01-25

Family

ID=70027695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811142683.9A Active CN110968069B (zh) 2018-09-28 2018-09-28 风力发电机组的故障预测方法、相应的装置及电子设备

Country Status (1)

Country Link
CN (1) CN110968069B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723519A (zh) * 2020-05-29 2020-09-29 国网四川省电力公司电力科学研究院 基于逻辑回归和朴素贝叶斯的变压器故障诊断装置及方法
CN111861703A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统
CN112446144A (zh) * 2020-11-17 2021-03-05 哈工大机器人(合肥)国际创新研究院 一种大型回转机组故障诊断方法及装置
CN112578794A (zh) * 2020-12-12 2021-03-30 云南昆船智能装备有限公司 基于机器学习的agv故障检测方法、存储介质及系统
CN112611584A (zh) * 2020-05-18 2021-04-06 北京金风慧能技术有限公司 风力发电机组的疲劳失效检测方法、装置、设备及介质
CN113007038A (zh) * 2021-03-11 2021-06-22 中国华电科工集团有限公司 发电设备间的发电性能比较方法、装置及电子设备
CN115965080A (zh) * 2022-11-07 2023-04-14 河海大学 新能源发电单元运行状态识别方法、装置及存储介质
CN116415724A (zh) * 2023-03-29 2023-07-11 福建亿山能源管理有限公司 一种光伏电站运维检修时间的预测方法及装置
CN117289143A (zh) * 2023-11-27 2023-12-26 宁德时代新能源科技股份有限公司 一种故障预测方法、装置、设备、系统和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090228160A1 (en) * 2008-03-10 2009-09-10 Eklund Neil H Method, Apparatus And Computer Program Product For Predicting And Avoiding A Fault
CN101950327A (zh) * 2010-09-09 2011-01-19 西北工业大学 一种基于故障树信息的设备状态预测方法
CN104102773A (zh) * 2014-07-05 2014-10-15 山东鲁能软件技术有限公司 一种设备故障预警及状态监测方法
CN106951997A (zh) * 2017-03-24 2017-07-14 新疆金风科技股份有限公司 预测风机的故障的方法和设备
CN107016404A (zh) * 2017-02-24 2017-08-04 沈阳工业大学 基于d‑s证据融合的风力发电机组故障预测方法
CN107179503A (zh) * 2017-04-21 2017-09-19 美林数据技术股份有限公司 基于随机森林的风电机组故障智能诊断预警的方法
CN107797063A (zh) * 2017-09-19 2018-03-13 北京瑞盈同创智能技术研究院有限公司 基于scada的风电机组运行状态评估及故障诊断方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090228160A1 (en) * 2008-03-10 2009-09-10 Eklund Neil H Method, Apparatus And Computer Program Product For Predicting And Avoiding A Fault
CN101950327A (zh) * 2010-09-09 2011-01-19 西北工业大学 一种基于故障树信息的设备状态预测方法
CN104102773A (zh) * 2014-07-05 2014-10-15 山东鲁能软件技术有限公司 一种设备故障预警及状态监测方法
CN107016404A (zh) * 2017-02-24 2017-08-04 沈阳工业大学 基于d‑s证据融合的风力发电机组故障预测方法
CN106951997A (zh) * 2017-03-24 2017-07-14 新疆金风科技股份有限公司 预测风机的故障的方法和设备
CN107179503A (zh) * 2017-04-21 2017-09-19 美林数据技术股份有限公司 基于随机森林的风电机组故障智能诊断预警的方法
CN107797063A (zh) * 2017-09-19 2018-03-13 北京瑞盈同创智能技术研究院有限公司 基于scada的风电机组运行状态评估及故障诊断方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112611584B (zh) * 2020-05-18 2023-06-02 北京金风慧能技术有限公司 风力发电机组的疲劳失效检测方法、装置、设备及介质
CN112611584A (zh) * 2020-05-18 2021-04-06 北京金风慧能技术有限公司 风力发电机组的疲劳失效检测方法、装置、设备及介质
CN111723519A (zh) * 2020-05-29 2020-09-29 国网四川省电力公司电力科学研究院 基于逻辑回归和朴素贝叶斯的变压器故障诊断装置及方法
CN111723519B (zh) * 2020-05-29 2022-11-15 国网四川省电力公司电力科学研究院 基于逻辑回归和朴素贝叶斯的变压器故障诊断装置及方法
CN111861703A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统
CN111861703B (zh) * 2020-07-10 2024-05-10 深圳无域科技技术有限公司 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统
CN112446144A (zh) * 2020-11-17 2021-03-05 哈工大机器人(合肥)国际创新研究院 一种大型回转机组故障诊断方法及装置
CN112578794A (zh) * 2020-12-12 2021-03-30 云南昆船智能装备有限公司 基于机器学习的agv故障检测方法、存储介质及系统
CN112578794B (zh) * 2020-12-12 2023-09-01 云南昆船智能装备有限公司 基于机器学习的agv故障检测方法、存储介质及系统
CN113007038A (zh) * 2021-03-11 2021-06-22 中国华电科工集团有限公司 发电设备间的发电性能比较方法、装置及电子设备
CN115965080A (zh) * 2022-11-07 2023-04-14 河海大学 新能源发电单元运行状态识别方法、装置及存储介质
CN116415724A (zh) * 2023-03-29 2023-07-11 福建亿山能源管理有限公司 一种光伏电站运维检修时间的预测方法及装置
CN117289143A (zh) * 2023-11-27 2023-12-26 宁德时代新能源科技股份有限公司 一种故障预测方法、装置、设备、系统和介质
CN117289143B (zh) * 2023-11-27 2024-04-19 宁德时代新能源科技股份有限公司 一种故障预测方法、装置、设备、系统和介质

Also Published As

Publication number Publication date
CN110968069B (zh) 2022-01-25

Similar Documents

Publication Publication Date Title
CN110968069B (zh) 风力发电机组的故障预测方法、相应的装置及电子设备
CN110703057B (zh) 基于数据增强和神经网络的电力设备局部放电诊断方法
CN109766583A (zh) 基于无标签、不均衡、初值不确定数据的航空发动机寿命预测方法
Oswal Predicting rainfall using machine learning techniques
CN105677791A (zh) 用于分析风力发电机组的运行数据的方法和系统
CN112415331B (zh) 基于多源故障信息的电网二次系统故障诊断方法
CN113590396A (zh) 一次设备的缺陷诊断方法、系统、电子设备及存储介质
CN111079999A (zh) 一种基于cnn和svm的洪水灾害易发性预测方法
CN114048468A (zh) 入侵检测的方法、入侵检测模型训练的方法、装置及介质
CN111967675A (zh) 光伏发电量的预测方法以及预测装置
CN112085869A (zh) 一种基于飞参数据的民机飞行安全性分析方法
CN113177643A (zh) 一种基于大数据的自动建模系统
CN117351659B (zh) 一种水文地质灾害监测装置及监测方法
Yang et al. Software defect prediction: an ensemble learning approach
CN117493798A (zh) 一种气象环境数据分析方法及系统
CN116756225A (zh) 一种基于计算机网络安全的态势数据信息处理方法
CN115660221B (zh) 基于混合神经网络的油气藏经济可采储量评估方法及系统
CN109636194B (zh) 一种输变电项目重大变动多源协同检测方法与系统
CN114580472B (zh) 工业互联网中因果与注意力并重的大型设备故障预测方法
CN110471279A (zh) 一种基于vine-copulas的工业生产模拟场景发生器及场景发生方法
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
CN114819344A (zh) 一种基于关键影响因子的全局时空气象农灾预测方法
CN115598459A (zh) 一种配电网10kV馈线故障停电预测方法
CN113505850A (zh) 基于深度学习的锅炉故障预测方法
CN115757365A (zh) 多维时序数据异常检测方法、模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 830026 No. 107, Shanghai Road, Urumqi economic and Technological Development Zone, the Xinjiang Uygur Autonomous Region

Patentee after: Jinfeng Technology Co.,Ltd.

Address before: 830026 No. 107, Shanghai Road, Urumqi economic and Technological Development Zone, the Xinjiang Uygur Autonomous Region

Patentee before: XINJIANG GOLDWIND SCIENCE & TECHNOLOGY Co.,Ltd.