CN111881159B - 一种基于代价敏感极端随机森林的故障检测方法及装置 - Google Patents

一种基于代价敏感极端随机森林的故障检测方法及装置 Download PDF

Info

Publication number
CN111881159B
CN111881159B CN202010777335.XA CN202010777335A CN111881159B CN 111881159 B CN111881159 B CN 111881159B CN 202010777335 A CN202010777335 A CN 202010777335A CN 111881159 B CN111881159 B CN 111881159B
Authority
CN
China
Prior art keywords
node
cost
decision tree
sensitive
misclassification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010777335.XA
Other languages
English (en)
Other versions
CN111881159A (zh
Inventor
唐明珠
陈宇韬
付湘皖
陈荐
彭书豪
王馨逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202010777335.XA priority Critical patent/CN111881159B/zh
Publication of CN111881159A publication Critical patent/CN111881159A/zh
Application granted granted Critical
Publication of CN111881159B publication Critical patent/CN111881159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于代价敏感极端随机森林的故障检测方法及装置,提高了故障检测率及实时性。方法包括:获取风力发电机的历史数据,对历史数据进行特征提取,获得训练样本集;根据代价敏感极端随机决策树算法及训练样本集,构建得到代价敏感极端随机森林故障检测模型;获取风力发电机的待检测样本集;通过代价敏感极端随机森林故障检测模型及待检测样本集,检测得到风力发电机的故障检测结果。

Description

一种基于代价敏感极端随机森林的故障检测方法及装置
技术领域
本发明涉及风力发电领域,特别是涉及一种基于代价敏感极端随机森林的故障检测方法及装置。
背景技术
2019年全球风力发电的新装机容量为60.4GW,同比增长19%,运行维护费用约占总成本的15%~30%。发电机故障约占总故障的4%,风力发电机故障检测的实现对降低非计划故障具有重要意义。发电机是风力发电机组中最重要的部件之一,发电机的故障识别一直备受关注。对发电机进行故障检测能够有效维护发电机的正常运行,提高机组的运行效率,降低运营和维护的成本。然而,不规则的负荷模式、间歇性的运行条件和恶劣的天气对风力发电机的安全运行提出了挑战。
发电机故障检测可以分为基于模型的故障检测方法和基于数据的故障检测方法。基于模型的故障检测方法包括:参数估计法、状态估计法和等价空间法等。基于模型的故障检测方法可以深入动态系统的本质进行实时故障检测。但风力发电机结构复杂,特征参数较多。基于模型的故障检测方法难以获取精确的模型。基于数据的故障检测方法可以将其看作二分类问题。例如人工神经网络(Artificial Neural Networks,ANN)、支持向量机、决策树、Bagging、提升决策树(Boosting Decision Tree,Boosting)、随机森林(RandomForest,RF)等。基于数据的故障检测方法可以更有效的预测风力发电机的运行状态。
Teng Wei提出了一种基于深度神经网络(Deep Neural Networks,DNN)故障检测方法,用于检测风力发电机永磁体脱落故障。利用随机森林算法评估特征变量与目标变量之间的相关性,通过DNN故障检测模型实现发电机故障检测。但是,深度神经网络计算复杂度高,容易过拟合。Gao QW提出了一种基于积分延伸载荷均值分解多尺度熵和最小二乘支持向量机的故障诊断方法。通过积分延伸载荷均值分解多尺度熵方法对风力发电机振动信号进行处理,将特征参数输入最小二乘支持向量机进行故障检测。解决了风力发电机非平稳和非线性特性振动信号难以准确提取特征,故障检测精度低的问题。尽管支持向量机(Support Vector Machines,SVM)方法取得了较高故障检测性能,但在处理海量数据时计算实时性低。Rajendiran提出扰动属性投影(Nuisance attribute projection)与CART树相结合的方法,利用扰动属性投影提取电流信号的频域统计特征,CART树作为决策模型,实现同步发电机故障检测。因此,决策树具有结构简单,实时性强,可以处理海量数据的特点。决策树方法面临单一分类器不稳定的问题。Mengshi Li提出了基于随机森林的风力发电机故障检测方法,有效地检测恶劣环境下风力发电机的早期故障。该方法实现了残差生成器的短期记忆网络,并利用随机森林算法进行决策。随机森林模型通过集成的方式提高模型的泛化能力。Geurts P在随机森林算法的基础上提出极端随机森林算法。通过在节点分裂时加入随机扰动,使模型具有更强的泛化能力,降低计算复杂度。每个基分类器利用完整的训练数据集进行训练,降低了极端随机森林算法的方差。但是,在处理类别不平衡数据时极端随机森林方法的故障检测率低。
在风力发电机实际运行过程中,故障样本数远小于正常样本数,是典型的类别不平衡问题。针对类别不平衡问题,代价敏感学习将误分类代价和传统故障检测方法相结合。通过引入不同类型的代价函数来表征样本的重要性。将目标函数从最小化分类精度转化为最小化误分类代价。代价敏感决策树算法在工业控制过程和检测领域取得广泛的应用。Zhang SC针对代价敏感学习的测试成本和误分类成本往往是相同比例的问题,提出了误分类代价和测试代价相结合的多尺度代价敏感决策树算法。解决了代价敏感型学习中以相同代价定义多种代价的问题。Qi ZX针对数据集中劣质数据降低分类器性能且清洗成本高的问题,提出了融合数据清洗算法的代价敏感决策树算法。将劣质数据清洗代价与误分类代价和测试代价相结合,解决了劣质数据清洗代价高的问题。但是,单一的分类器在处理复杂的工业问题时容易导致过拟合现象,模型泛化能力低。
集成算法通过构建多个分类器,利用策略将多个分类器相结合,通常可以获得比单一分类器更优的性能。树集成算法可分为Boosting和Bagging两大类。Masnadi-Shirazi针对类别不平衡问题,提出了适用于AdaBoost、RealBoost和LogitBoost的代价敏感框架。Zelenkov针对误分类代价为定值且不依赖样本的问题,提出了基于样本的代价敏感AdaBoost算法。通过训练集修正样本的代价矩阵,提高算法的整体性能。由于Boosting算法采用串行依赖,难以并行训练数据,实时性较低。基于代价敏感的随机森林算法采用并行的方式,具有较强的泛化能力。Siers MJ针对类别不平衡问题,提出了一种基于决策树的代价敏感森林算法(Cost Sensitive Forest,CSForest)。Lu H针对旋转森林算法只关注分类准确性,不考虑分类代价的问题,提出了代价敏感旋转森林算法。在旋转森林算法中嵌入误分类代价、测试代价和拒绝代价,有效降低了算法的分类代价,提高算法的有效性。但是,代价敏感随机森林算法的计算复杂度高。
然而,在处理不平衡数据时,极端随机森林故障检测方法的故障检测率低。在风力发电机发电机的实际工作中,工作环境的复杂多变、设备磨损老化和传感器漂移等多种因素导致代价敏感决策树的泛化能力低,而且代价敏感随机森林通过集成的方式提高模型的泛化能力,但降低了模型的实时性。
发明内容
本发明的目的是提供一种基于代价敏感极端随机森林的故障检测方法及装置,提高了故障检测率及实时性。
本发明第一方面提供一种基于代价敏感极端随机森林的故障检测方法,包括:
获取风力发电机的历史数据,对历史数据进行特征提取,获得训练样本集;
根据代价敏感极端随机决策树算法及训练样本集,构建得到代价敏感极端随机森林故障检测模型;
获取风力发电机的待检测样本集;
通过代价敏感极端随机森林故障检测模型及待检测样本集,检测得到风力发电机的故障检测结果。
进一步的,根据代价敏感极端随机决策树算法及训练样本集,构建得到代价敏感极端随机森林故障检测模型,包括:
根据代价敏感极端随机决策树算法对训练样本集进行处理,构建得到代价敏感极端随机决策树,代价敏感极端随机决策树至少为两个,每一个代价敏感极端随机决策树对应一个训练样本特征集;
根据投票决策方法及代价敏感极端随机决策树,构建得到代价敏感极端随机森林故障检测模型。
进一步的,根据代价敏感极端随机决策树算法对训练样本集进行处理,构建得到代价敏感极端随机决策树,包括:
获取代价敏感学习的代价矩阵,代价矩阵用于表示对训练样本集进行错误分类引发的误分类代价;
根据训练样本集及代价矩阵,基于自顶向下的极端决策树构建原则,构建得到代价敏感极端随机决策树。
进一步的,根据训练样本集及代价矩阵,基于自顶向下的极端决策树构建原则,构建得到代价敏感极端随机决策树,包括:
将训练样本集作为根节点;
从根节点开始,基于自顶向下的极端决策树构建原则进行递归重复分裂处理;
判断当前节点的节点类型,节点类型包括叶节点和分支节点;
当当前节点为叶节点时,根据代价矩阵及当前节点的节点样本集,计算得到当前节点的误分类代价;
当当前节点为分支节点时,将当前节点的节点样本集中每一个特征的值分别作为分裂阈值,计算得到每一个特征的误分类代价增益,选择误分类代价增益最大的目标特征作为分裂特征,对当前节点进行分裂处理;
根据根节点、分支节点及叶节点,构建得到代价敏感极端随机决策树。
进一步的,将当前节点的节点样本集中每一个特征的值分别作为分裂阈值,计算得到每一个特征的误分类代价增益,选择误分类代价增益最大的目标特征作为分裂特征,对当前节点进行分裂处理,包括:
将当前节点作为父节点,计算得到父节点的误分类代价,从父节点的节点样本集中随机选择一个特征的值作为分裂阈值;
根据分裂阈值将父节点进行分裂处理得到左子节点和右子节点;
计算得到左子节点和右子节点的误分类代价;
将父节点的误分类代价减去左子节点和右子节点的误分类代价的加权和,得到误分类代价增益;
选择误分类代价增益最大的目标特征作为分裂特征;
将目标特征的值作为目标分裂阈值,根据目标分裂阈值和分类特征对父节点进行分裂处理。
本发明第二方面提供一种基于代价敏感极端随机森林的故障检测装置,包括:
获取模块,用于获取风力发电机的历史数据,对历史数据进行特征提取,获得训练样本集;
模型构建模块,用于根据代价敏感极端随机决策树算法及训练样本集,构建得到代价敏感极端随机森林故障检测模型;
获取模块,还用于获取风力发电机的待检测样本集;
故障检测模块,用于通过代价敏感极端随机森林故障检测模型及待检测样本集,检测得到风力发电机的故障检测结果。
进一步的,模型构建模块包括:
决策树构建单元,用于根据代价敏感极端随机决策树算法对训练样本集进行处理,构建得到代价敏感极端随机决策树,代价敏感极端随机决策树至少为两个,每一个代价敏感极端随机决策树对应一个训练样本特征集;
故障检测模型构建单元,用于根据投票决策方法及代价敏感极端随机决策树,构建得到代价敏感极端随机森林故障检测模型。
进一步的,
决策树构建单元,具体用于获取代价敏感学习的代价矩阵,代价矩阵用于表示对训练样本集进行错误分类引发的误分类代价;
决策树构建单元,还用于根据训练样本集及代价矩阵,基于自顶向下的极端决策树构建原则,构建得到代价敏感极端随机决策树。
进一步的,
决策树构建单元,还用于将训练样本集作为根节点;
决策树构建单元,还用于从根节点开始,基于自顶向下的极端决策树构建原则进行递归重复分裂处理;
决策树构建单元,还用于判断当前节点的节点类型,节点类型包括叶节点和分支节点;
决策树构建单元,还用于当当前节点为叶节点时,根据代价矩阵及当前节点的节点样本集,计算得到当前节点的误分类代价;
决策树构建单元,还用于当当前节点为分支节点时,将当前节点的节点样本集中每一个特征的值分别作为分裂阈值,计算得到每一个特征的误分类代价增益,选择误分类代价增益最大的目标特征作为分裂特征,对当前节点进行分裂处理;
决策树构建单元,还用于根据根节点、分支节点及叶节点,构建得到代价敏感极端随机决策树。
进一步的,
决策树构建单元,还用于将当前节点作为父节点,计算得到父节点的误分类代价,从父节点的节点样本集中随机选择一个特征的值作为分裂阈值;
决策树构建单元,还用于根据分裂阈值将父节点进行分裂处理得到左子节点和右子节点;
决策树构建单元,还用于计算得到左子节点和右子节点的误分类代价;
决策树构建单元,还用于将父节点的误分类代价减去左子节点和右子节点的误分类代价的加权和,得到误分类代价增益;
决策树构建单元,还用于选择误分类代价增益最大的目标特征作为分裂特征;
决策树构建单元,还用于将目标特征的值作为目标分裂阈值,根据目标分裂阈值和分类特征对父节点进行分裂处理。
由此可见,本发明的基于代价敏感极端随机森林的故障检测方法,先获取风力发电机的历史数据,对历史数据进行特征提取,获得训练样本集,根据代价敏感极端随机决策树算法及训练样本集,构建得到代价敏感极端随机森林故障检测模型,获取风力发电机的待检测样本集,通过代价敏感极端随机森林故障检测模型及待检测样本集,检测得到风力发电机的故障检测结果。与现有极端随机森林故障检测方法和代价敏感决策树相比,本发明中结合了代价敏感学习和极端随机决策树算法,有效的解决了极端随机森林故障检测方法在处理不平衡数据时故障检测率低的问题,并且能够提高故障检测的实时性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于代价敏感极端随机森林的故障检测方法的流程示意图;
图2为本发明提供的代价敏感极端随机决策树的构建流程示意图;
图3为本发明提供的代价敏感极端随机决策树的示意图;
图4为本发明提供的基于代价敏感极端随机森林的故障检测装置的一个实施例的结构示意图;
图5为本发明提供的基于代价敏感极端随机森林的故障检测装置的另一个实施例的结构示意图。
具体实施方式
本发明的核心是提供一种基于代价敏感极端随机森林的故障检测方法及装置,提高了故障检测率及实时性。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供一种基于代价敏感极端随机森林的故障检测方法,包括:
101、获取风力发电机的历史数据,对历史数据进行特征提取,获得训练样本集;
本实施例中,风力发电厂为了保障风力发电的正常运行和故障溯源,一般会为风力发电机配备数据采集与监视控制系统(Supervisory Control And Data Acquisition,SCADA),从而收集风力发电机在运行过程中的历史数据和当前数据,因此,可以从SCADA数据库中提取风力发电机的历史数据,假设每个样本包含213个特征变量,有正常状态和指定故障两种工况,这213个特征变量构成某一时刻的特征向量,根据时间序列组成数据集,并划分为训练集和测试集。但是,由于风力发电机数据采样点多、数据量大,采集和储存过程中容易发生局部数据丢失,因此,在风力发电机进行故障检测模型进行训练之前,还需要对数据样本进行数据清洗和归一化。清除数据集中含有缺失值和空值的样本,保障模型的正常运行。同时,清除数据集中特征值全为0的特征,降低特征空间维度和模型复杂度。最后,针对各个特征之间数量级和量纲的差异,对余下所有样本数据进行z-score归一化处理;
最小绝对收缩和选择算子(least absolute shrinkage and selectionoperator,Lasso)是一种变量选择和参数估计相结合的方法,利用最小二乘估计快速、有效地提取特征变量和类别之间的线性相关性,但Lasso方法不能分析非线性关系和特征间的冗余性。Makoto提出了一种非线性特征提取方法HSICLasso。HSICLasso算法通过引入高斯核函数、增量核函数和F-范数的方式,不仅提高了对非线性关系的处理能力,还可以挖掘特征之间的冗余变量。因此,本实施例中通过HSICLasso对z-score归一化处理后的历史数据进行特征提取,就能得到训练样本集。
102、根据代价敏感极端随机决策树算法及训练样本集,构建得到代价敏感极端随机森林故障检测模型;
本实施例中,代价敏感极端随机决策树算法是根据代价敏感学习和极端决策树算法得到的,极端决策树算法是以最小化分类误差为目标,在处理类别不平衡问题时故障检测率低,代价敏感学习以最小化误分类代价为目标。即将误分类代价引入到决策树的构建当中。根据代价敏感极端随机决策树算法及训练样本集,构建得到代价敏感极端随机决策树,多个代价敏感极端随机决策树就组成了代价敏感极端随机森林(Cost-sensitiveextremely randomized trees,CSERT),得到代价敏感极端随机森林故障检测模型。
CSERT集成多棵代价敏感极端随机决策树的分类结果,根据少数服从多数的方式决定类别:
Figure BDA0002618929200000091
式中,h(x,θm)是代价敏感极端随机决策树模型,y是基分类器的分类结果,I(·)是指数函数。
103、获取风力发电机的待检测样本集;
本实施例中,在代价敏感极端随机森林故障检测模型构建完成后,获取风力发电机的待检测数据,通过数据清洗和归一化处理,在进行HSICLasso特征提取之后,得到待检测样本集。
104、通过代价敏感极端随机森林故障检测模型及待检测样本集,检测得到风力发电机的故障检测结果。
本实施例中,利用代价敏感极端随机森林故障检测模型对待检测样本集进行故障检测,最终得到风力发电机的故障检测结果。
本发明实施例中,结合了代价敏感学习和极端随机决策树算法,有效的解决了极端随机森林故障检测方法在处理不平衡数据时故障检测率低的问题;并且由于在风力发电机发电机的实际工作中,工作环境的复杂多变、设备磨损老化和传感器漂移等多种因素导致代价敏感决策树的泛化能力低,因此,还能够解决代价敏感决策树的泛化能力低的问题。随机森林算法的计算复杂度为O(M(mn log n)),其中M表示基分类器个数,m表示特征个数,n表示样本个数,与随机森林相比,CSERT在树生长过程中引入了随机性,分支节点选择分裂特征时,对每个特征随机原则一个值作为该特征的分裂阈值,因此,由以上公式:
Figure BDA0002618929200000101
可知CS-ERT的计算复杂度为0(M(m log n))。根据计算复杂度可知,CS-ERT还具有更优的实时性,能够提高故障检测的实时性。
在以上图1所示的实施例中,步骤102中代价敏感极端随机森林故障检测模型只说明了需要根据代价敏感极端随机决策树算法及训练样本集进行构建,下面通过实施例进行具体说明:
可选的,本发明的一些实施例中,根据代价敏感极端随机决策树算法及训练样本集,构建得到代价敏感极端随机森林故障检测模型,包括:
根据代价敏感极端随机决策树算法对训练样本集进行处理,构建得到代价敏感极端随机决策树,代价敏感极端随机决策树至少为两个,每一个代价敏感极端随机决策树对应一个训练样本特征集;
根据投票决策方法及代价敏感极端随机决策树,构建得到代价敏感极端随机森林故障检测模型。
本发明实施例中,根据代价敏感极端随机决策树算法对训练样本集进行处理,构建得到代价敏感极端随机决策树,代价敏感极端随机决策树至少为两个,每一个代价敏感极端随机决策树对应一个训练样本特征集,根据投票决策方法及代价敏感极端随机决策树,构建得到代价敏感极端随机森林故障检测模型。
下面通过图2的实施例对代价敏感极端随机决策树的建立进行具体说明:
201、获取代价敏感学习的代价矩阵;
本实施例中,对于故障检测问题,代价敏感学习中一般用代价矩阵表示对训练样本集进行错误分类引发的误分类代价,如下表1所示,
表1代价矩阵
Figure BDA0002618929200000102
其中,CFN表示将故障样本预测为正常类的代价,CFP表示将正常样本预测为故障类的代价,CTN和CTP表示检测正确的代价。误分类代价参数越大表示该类别越重要。理论上,错误分类的代价通常远大于正确分类的代价。可以表示为CFP>CTN和CFN>CTP。在风力发电机实际工作中,故障样本数远少于正常样本数。漏检造成的经济损失远大于误报造成的经济损失。因此,故障类的误分类代价参数CFN大于正常类的误分类代价参数CFP(CFN>CFP)。通常将正确分类地代价参数看作零,即CFN>CFP>CTN=CTP=0。
202、根据训练样本集及代价矩阵,基于自顶向下的极端决策树构建原则,构建得到代价敏感极端随机决策树。
本实施例中,具体执行步骤如下:
1、将训练样本集作为根节点;
2、从根节点开始,基于自顶向下的极端决策树构建原则进行递归重复分裂处理;
如图3所示,基于自顶向下的极端决策树构建原则的执行原理是:假设具有5个节点,N0、N01、N02、N021、N022,从N0的特征A随机选择一个特征值a作为分类阈值,将valueA<a的划分到N01,将valueA≥a的划分到N02,N01是正常分类,而N02不能分类,那么从N02的特征B随机选择一个特征值b作为分类阈值,将valueB<b的划分到N021,将valueB≥b的划分到N022,N021是正常分类,而N022是故障分类,就不再需要向下分裂处理了。
3、判断当前节点的节点类型,节点类型包括叶节点和分支节点;
具体的判断可以依据,如果当前节点的节点样本集中都是相同的类别,那么表示该节点是叶节点,或者,如果当前节点的节点样本集中是不存在分裂阈值的,那么判断为叶节点;如果当前节点的节点样本集中存在分裂阈值,那么判断为分支节点;
4、当当前节点为叶节点时,根据代价矩阵及当前节点的节点样本集,计算得到当前节点的误分类代价;
在当前节点为叶节点时,叶节点node的误分类代价定义为:C(node)=CP+CN,其中CP表示在节点node处故障类的代价,CN表示在节点node处正常类的代价,
CP=CFP·NFP+CTP·NTP
CN=CFN·NFN+CTN·NTN
其中NFP表示误报样本数,NFN表示漏检样本数,NTP和NTN分别是故障类和正常类预测正确的样本数。根据以上的表1可知,CFN,CFPCTN,CTP为误分类代价参数。由于样本分布会影响到分支节点的选择。为减弱类别的不平衡性对误分类代价增益的影响,在误分类代价函数的计算中加入类分布。在工业上,通常将故障类和正常类分类正确代价看作零,即CTP=CTN=0。所以误分类代价函数的表达式修改为:
CP=pP·CFP·NFP
CN=PN·CFN·NFN
其中pP=NP/(NP+NN),表示节点node中故障样本所占的比例,pN=NN/(NP+NN)表示节点node中正常样本所占的比例,NP和NN分别表示故障类与正常类样本数。通过误分类代价判别叶节点的类别。根据贝叶斯定理,判定误分类代价函数最小的类别为该叶子结点的类,定义如下:
Figure BDA0002618929200000121
其中p(cj|x)表示样本x属于类别cj的后验概率,Cij表示将第i类样本分类为第j类的代价。
5、当当前节点为分支节点时,将当前节点的节点样本集中每一个特征的值分别作为分裂阈值,计算得到每一个特征的误分类代价增益,选择误分类代价增益最大的目标特征作为分裂特征,对当前节点进行分裂处理;
具体的细节为:将当前节点作为父节点,计算得到父节点的误分类代价C(parent_node),从父节点的节点样本集中随机选择一个特征Ai的值作为分裂阈值
Figure BDA0002618929200000122
根据分裂阈值
Figure BDA0002618929200000123
将父节点进行分裂处理得到左子节点和右子节点;
计算得到左子节点和右子节点的误分类代价C(left_child_node)和C(right_child_node);
将父节点的误分类代价减去左子节点和右子节点的误分类代价的加权和,得到误分类代价增益Gk
Figure BDA0002618929200000131
其中,NL表示左子节点的样本个数,NR表示右子节点的样本个数;
选择误分类代价增益Gk最大的目标特征作为分裂特征;
将目标特征的值作为目标分裂阈值,根据目标分裂阈值和分类特征对父节点进行分裂处理。
6、根据根节点、分支节点及叶节点,构建得到代价敏感极端随机决策树,代价敏感极端随机决策树的目标函数可以表示为:
Figure BDA0002618929200000132
其中C(node)表示叶节点的误分类代价,α|T|为正则项。
以上实施例中,具体说明了基于代价敏感极端随机森林的故障检测方法,下面通过实施例对应用故障检测方法的基于代价敏感极端随机森林的故障检测装置进行说明。
请参阅图4,本发明实施例提供一种基于代价敏感极端随机森林的故障检测装置,包括:
获取模块401,用于获取风力发电机的历史数据,对历史数据进行特征提取,获得训练样本集;
模型构建模块402,用于根据代价敏感极端随机决策树算法及训练样本集,构建得到代价敏感极端随机森林故障检测模型;
获取模块401,还用于获取风力发电机的待检测样本集;
故障检测模块403,用于通过代价敏感极端随机森林故障检测模型及待检测样本集,检测得到风力发电机的故障检测结果。
本发明实施例中,结合了代价敏感学习和极端随机决策树算法,有效的解决了极端随机森林故障检测方法在处理不平衡数据时故障检测率低的问题;并且由于在风力发电机发电机的实际工作中,工作环境的复杂多变、设备磨损老化和传感器漂移等多种因素导致代价敏感决策树的泛化能力低,因此,还能够解决代价敏感决策树的泛化能力低的问题。随机森林算法的计算复杂度为O(M(mn log n)),其中M表示基分类器个数,m表示特征个数,n表示样本个数,与随机森林相比,CSERT在树生长过程中引入了随机性,分支节点选择分裂特征时,对每个特征随机原则一个值作为该特征的分裂阈值,因此,由以上公式:
Figure BDA0002618929200000141
可知CS-ERT的计算复杂度为O(M(mlog n))。根据计算复杂度可知,CS-ERT还具有更优的实时性,能够提高故障检测的实时性。
可选的,结合图4所示的实施例,如图5所示,本发明的一些实施例中,模型构建模块402包括:
决策树构建单元4021,用于根据代价敏感极端随机决策树算法对训练样本集进行处理,构建得到代价敏感极端随机决策树,代价敏感极端随机决策树至少为两个,每一个代价敏感极端随机决策树对应一个训练样本特征集;
故障检测模型构建单元4022,用于根据投票决策方法及代价敏感极端随机决策树,构建得到代价敏感极端随机森林故障检测模型。
本发明实施例中,决策树构建单元4021根据代价敏感极端随机决策树算法对训练样本集进行处理,构建得到代价敏感极端随机决策树,代价敏感极端随机决策树至少为两个,每一个代价敏感极端随机决策树对应一个训练样本特征集,故障检测模型构建单元4022根据投票决策方法及代价敏感极端随机决策树,构建得到代价敏感极端随机森林故障检测模型。具体说明代价敏感极端随机森林故障检测模型如何先构建代价敏感极端随机决策树,在利用代价敏感极端随机决策树形成代价敏感极端决策森林,得到代价敏感极端随机森林故障检测模型。
可选的,结合图4所示的实施例,本发明的一些实施例中,
决策树构建单元4021,具体用于获取代价敏感学习的代价矩阵,代价矩阵用于表示对训练样本集进行错误分类引发的误分类代价;
决策树构建单元4021,还用于根据训练样本集及代价矩阵,基于自顶向下的极端决策树构建原则,构建得到代价敏感极端随机决策树。
本发明实施例中,对于故障检测问题,代价敏感学习中一般用代价矩阵表示对训练样本集进行错误分类引发的误分类代价,如图2所示实施例中的表1,表1中,CFN表示将故障样本预测为正常类的代价,CFP表示将正常样本预测为故障类的代价,CTN和CTP表示检测正确的代价。误分类代价参数越大表示该类别越重要。理论上,错误分类的代价通常远大于正确分类的代价。可以表示为CFP>CTN和CFN>CTP。在风力发电机实际工作中,故障样本数远少于正常样本数。漏检造成的经济损失远大于误报造成的经济损失。因此,故障类的误分类代价参数CFN大于正常类的误分类代价参数CFP(CFN>CFP)。通常将正确分类地代价参数看作零,即CFN>CFP>CTN=CTP=0。决策树构建单元4021根据训练样本集及代价矩阵,基于自顶向下的极端决策树构建原则,构建得到代价敏感极端随机决策树。
可选的,结合图4所示的实施例,本发明的一些实施例中,
决策树构建单元4021,还用于将训练样本集作为根节点;
决策树构建单元,还用于从根节点开始,基于自顶向下的极端决策树构建原则进行递归重复分裂处理;
决策树构建单元4021,还用于判断当前节点的节点类型,节点类型包括叶节点和分支节点;
决策树构建单元4021,还用于当当前节点为叶节点时,根据代价矩阵及当前节点的节点样本集,计算得到当前节点的误分类代价;
决策树构建单元4021,还用于当当前节点为分支节点时,将当前节点的节点样本集中每一个特征的值分别作为分裂阈值,计算得到每一个特征的误分类代价增益,选择误分类代价增益最大的目标特征作为分裂特征,对当前节点进行分裂处理;
决策树构建单元4021,还用于根据根节点、分支节点及叶节点,构建得到代价敏感极端随机决策树。
本发明实施例中,决策树构建单元4021具体的实施步骤如下:
1、将训练样本集作为根节点;
2、从根节点开始,基于自顶向下的极端决策树构建原则进行递归重复分裂处理;
如图3所示,基于自顶向下的极端决策树构建原则的执行原理是:假设具有5个节点,N0、N01、N02、N021、N022,从N0的特征A随机选择一个特征值a作为分类阈值,将valueA<a的划分到N01,将valueA≥a的划分到N02,N01是正常分类,而N02不能分类,那么从N02的特征B随机选择一个特征值b作为分类阈值,将valueB<b的划分到N021,将valueB≥b的划分到N022,N021是正常分类,而N022是故障分类,就不再需要向下分裂处理了。
3、判断当前节点的节点类型,节点类型包括叶节点和分支节点;
具体的判断可以依据,如果当前节点的节点样本集中都是相同的类别,那么表示该节点是叶节点,或者,如果当前节点的节点样本集中是不存在分裂阈值的,那么判断为叶节点;如果当前节点的节点样本集中存在分裂阈值,那么判断为分支节点;
4、当当前节点为叶节点时,根据代价矩阵及当前节点的节点样本集,计算得到当前节点的误分类代价;
在当前节点为叶节点时,叶节点node的误分类代价定义为:C(node)=CP+CN,其中CP表示在节点node处故障类的代价,CN表示在节点node处正常类的代价,
CP=CFP·NFP+CTP·NTP
CN=CFN·NFN+CTN·NTN
其中NFP表示误报样本数,NFN表示漏检样本数,NTP和NTN分别是故障类和正常类预测正确的样本数。根据以上的表1可知,CFN,CFPCTN,CTP为误分类代价参数。由于样本分布会影响到分支节点的选择。为减弱类别的不平衡性对误分类代价增益的影响,在误分类代价函数的计算中加入类分布。在工业上,通常将故障类和正常类分类正确代价看作零,即CTP=CTN=0。所以误分类代价函数的表达式修改为:
CP=pP·CFP·NFP
CN=PN·CFN·NFN
其中pP=NP/(NP+NN),表示节点node中故障样本所占的比例,pN=NN/(NP+NN)表示节点node中正常样本所占的比例,NP和NN分别表示故障类与正常类样本数。通过误分类代价判别叶节点的类别。根据贝叶斯定理,判定误分类代价函数最小的类别为该叶子结点的类,定义如下:
Figure BDA0002618929200000171
其中p(cj|x)表示样本x属于类别cj的后验概率,Cij表示将第i类样本分类为第j类的代价。
5、当当前节点为分支节点时,将当前节点的节点样本集中每一个特征的值分别作为分裂阈值,计算得到每一个特征的误分类代价增益,选择误分类代价增益最大的目标特征作为分裂特征,对当前节点进行分裂处理;
6、根据根节点、分支节点及叶节点,构建得到代价敏感极端随机决策树,代价敏感极端随机决策树的目标函数可以表示为:
Figure BDA0002618929200000172
其中C(node)表示叶节点的误分类代价,α|T|为正则项。
在以上实施例中,第5个步骤中,当前节点为分支节点时,将当前节点的节点样本集中每一个特征的值分别作为分裂阈值,计算得到每一个特征的误分类代价增益,选择误分类代价增益最大的目标特征作为分裂特征,对当前节点进行分裂处理,具体的执行如下:
可选的,结合图4所示的实施例,本发明的一些实施例中,
决策树构建单元4021,还用于将当前节点作为父节点,计算得到父节点的误分类代价,从父节点的节点样本集中随机选择一个特征的值作为分裂阈值;
决策树构建单元4021,还用于根据分裂阈值将父节点进行分裂处理得到左子节点和右子节点;
决策树构建单元4021,还用于计算得到左子节点和右子节点的误分类代价;
决策树构建单元4021,还用于将父节点的误分类代价减去左子节点和右子节点的误分类代价的加权和,得到误分类代价增益;
决策树构建单元4021,还用于选择误分类代价增益最大的目标特征作为分裂特征;
决策树构建单元4021,还用于将目标特征的值作为目标分裂阈值,根据目标分裂阈值和分类特征对父节点进行分裂处理。
本发明实施例汇总,决策树构建单元4021具体的执行细节为:将当前节点作为父节点,计算得到父节点的误分类代价C(parent_node),从父节点的节点样本集中随机选择一个特征Ai的值作为分裂阈值
Figure BDA0002618929200000182
根据分裂阈值
Figure BDA0002618929200000183
将父节点进行分裂处理得到左子节点和右子节点;
计算得到左子节点和右子节点的误分类代价C(left_child_node)和C(right_child_node);
将父节点的误分类代价减去左子节点和右子节点的误分类代价的加权和,得到误分类代价增益Gk
Figure BDA0002618929200000181
其中,NL表示左子节点的样本个数,NR表示右子节点的样本个数;
选择误分类代价增益Gk最大的目标特征作为分裂特征;
将目标特征的值作为目标分裂阈值,根据目标分裂阈值和分类特征对父节点进行分裂处理。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于代价敏感极端随机森林的故障检测方法,其特征在于,包括:
S1.获取风力发电机的历史数据,对所述历史数据进行特征提取,获得训练样本集;
S2.根据代价敏感极端随机决策树算法及训练样本集,构建得到代价敏感极端随机决策树,多个代价敏感极端随机决策树就组成了代价敏感极端随机森林,得到代价敏感极端随机森林故障检测模型,其中代价敏感极端随机森林集成多棵代价敏感极端随机决策树的分类结果,根据少数服从多数的方式决定类别
Figure FDA0003582375790000011
式中,h(x,θm)是代价敏感极端随机决策树模型,y是基分类器的分类结果,I(·)是指数函数;
其中,建立所述代价敏感极端随机决策树具体包括如下步骤:
A1.获取代价敏感学习的代价矩阵;
A2.根据训练样本集及代价矩阵,基于自顶向下的极端决策树构建原则,构建得到代价敏感极端随机决策树;
所述步骤A2具体包括如下步骤:
B1.将训练样本集作为根节点;
B2.从根节点开始,基于自顶向下的极端决策树构建原则进行递归重复分裂处理;
B3.判断当前节点的节点类型,所述节点类型包括叶节点和分支节点;
B41.当当前节点为叶节点时,根据代价矩阵及当前节点的节点样本集,计算得到当前节点的误分类代价;
B42.当当前节点为分支节点时,将当前节点的节点样本集中每一个特征的值分别作为分裂阈值,计算得到每一个特征的误分类代价增益,选择误分类代价增益最大的目标特征作为分裂特征,对当前节点进行分裂处理;
所述步骤B42具体为:
C1.将当前节点作为父节点,计算得到父节点的误分类代价C(parent_node),从父节点的节点样本集中随机选择一个特征Ai的值作为分裂阈值
Figure FDA0003582375790000012
C2.根据分裂阈值
Figure FDA0003582375790000013
将父节点进行分裂处理得到左子节点和右子节点;
C3.计算得到左子节点和右子节点的误分类代价C(left_child_node)和C(right_child_node);
C4.将父节点的误分类代价减去左子节点和右子节点的误分类代价的加权和,得到误分类代价增益Gk
Figure FDA0003582375790000021
Figure FDA0003582375790000022
其中,NL表示左子节点的样本个数,NR表示右子节点的样本个数;
C5.选择误分类代价增益Gk最大的目标特征作为分裂特征;
C6.将目标特征的值作为目标分裂阈值,根据目标分裂阈值和分类特征对父节点进行分裂处理;
C7.根据根节点、分支节点及叶节点,构建得到代价敏感极端随机决策树,代价敏感极端随机决策树的目标函数可以表示为:
Figure FDA0003582375790000023
Figure FDA0003582375790000024
其中C(node)表示叶节点的误分类代价,α|T|为正则项;
S3.获取所述风力发电机的待检测样本集;
S4.通过所述代价敏感极端随机森林故障检测模型及所述待检测样本集,检测得到所述风力发电机的故障检测结果,其中随机森林算法的计算复杂度为O(M(mn log n)),其中M表示基分类器个数,m表示特征个数,n表示样本个数,与随机森林相比,所述代价敏感极端随机森林在树生长过程中引入了随机性,分支节点选择分裂特征时,对每个特征随机原则一个值作为该特征的分裂阈值,因此,由以上公式:
Figure FDA0003582375790000025
可知,所述代价敏感极端随机森林的计算复杂度为O(M(m log n))。
2.根据权利要求1所述的方法,其特征在于,所述根据代价敏感极端随机决策树算法及所述训练样本集,构建得到代价敏感极端随机森林故障检测模型,包括:
根据代价敏感极端随机决策树算法对所述训练样本集进行处理,构建得到代价敏感极端随机决策树,所述代价敏感极端随机决策树至少为两个,每一个所述代价敏感极端随机决策树对应一个所述训练样本特征集;
根据投票决策方法及所述代价敏感极端随机决策树,构建得到代价敏感极端随机森林故障检测模型。
3.根据权利要求2所述的方法,其特征在于,所述根据代价敏感极端随机决策树算法对所述训练样本集进行处理,构建得到代价敏感极端随机决策树,包括:
获取所述代价敏感学习的代价矩阵,所述代价矩阵用于表示对所述训练样本集进行错误分类引发的误分类代价;
根据所述训练样本集及所述代价矩阵,基于自顶向下的极端决策树构建原则,构建得到代价敏感极端随机决策树。
4.根据权利要求3所述的方法,其特征在于,所述根据所述训练样本集及所述代价矩阵,基于自顶向下的极端决策树构建原则,构建得到代价敏感极端随机决策树,包括:
将所述训练样本集作为根节点;
从所述根节点开始,基于自顶向下的极端决策树构建原则进行递归重复分裂处理;
判断当前节点的节点类型,所述节点类型包括叶节点和分支节点;
当所述当前节点为叶节点时,根据所述代价矩阵及所述当前节点的节点样本集,计算得到所述当前节点的误分类代价;
当所述当前节点为分支节点时,将所述当前节点的节点样本集中每一个特征的值分别作为分裂阈值,计算得到每一个特征的误分类代价增益,选择误分类代价增益最大的目标特征作为分裂特征,对所述当前节点进行分裂处理;
根据所述根节点、所述分支节点及所述叶节点,构建得到代价敏感极端随机决策树。
5.根据权利要求4所述的方法,其特征在于,所述将所述当前节点的节点样本集中每一个特征的值分别作为分裂阈值,计算得到每一个特征的误分类代价增益,选择误分类代价增益最大的目标特征作为分裂特征,对所述当前节点进行分裂处理,包括:
将所述当前节点作为父节点,计算得到所述父节点的误分类代价,从所述父节点的节点样本集中随机选择一个特征的值作为分裂阈值;
根据所述分裂阈值将所述父节点进行分裂处理得到左子节点和右子节点;
计算得到所述左子节点和所述右子节点的误分类代价;
将所述父节点的误分类代价减去所述左子节点和所述右子节点的误分类代价的加权和,得到误分类代价增益;
选择误分类代价增益最大的目标特征作为分裂特征;
将所述目标特征的值作为目标分裂阈值,根据所述目标分裂阈值和所述分类特征对所述父节点进行分裂处理。
6.一种基于代价敏感极端随机森林的故障检测装置,其特征在于,包括:
获取模块,用于获取风力发电机的历史数据,对所述历史数据进行特征提取,获得训练样本集;
模型构建模块,用于根据代价敏感极端随机决策树算法及训练样本集,构建得到代价敏感极端随机决策树,多个代价敏感极端随机决策树就组成了代价敏感极端随机森林,得到代价敏感极端随机森林故障检测模型,具体为:代价敏感极端随机森林集成多棵代价敏感极端随机决策树的分类结果,根据少数服从多数的方式决定类别
Figure FDA0003582375790000041
式中,h(x,θm)是代价敏感极端随机决策树模型,y是基分类器的分类结果,I(·)是指数函数;
其中,建立所述代价敏感极端随机决策树具体包括如下步骤:
A1.获取代价敏感学习的代价矩阵;
A2.根据训练样本集及代价矩阵,基于自顶向下的极端决策树构建原则,构建得到代价敏感极端随机决策树;
所述步骤A2具体包括如下步骤:
B1.将训练样本集作为根节点;
B2.从根节点开始,基于自顶向下的极端决策树构建原则进行递归重复分裂处理;
B3.判断当前节点的节点类型,所述节点类型包括叶节点和分支节点;
B41.当当前节点为叶节点时,根据代价矩阵及当前节点的节点样本集,计算得到当前节点的误分类代价;
B42.当当前节点为分支节点时,将当前节点的节点样本集中每一个特征的值分别作为分裂阈值,计算得到每一个特征的误分类代价增益,选择误分类代价增益最大的目标特征作为分裂特征,对当前节点进行分裂处理;
所述步骤B42具体为:
C1.将当前节点作为父节点,计算得到父节点的误分类代价C(parent_node),从父节点的节点样本集中随机选择一个特征Ai的值作为分裂阈值
Figure FDA0003582375790000051
C2.根据分裂阈值
Figure FDA0003582375790000052
将父节点进行分裂处理得到左子节点和右子节点;
C3.计算得到左子节点和右子节点的误分类代价C(left_chid_node)和C(right_child_node);
C4.将父节点的误分类代价减去左子节点和右子节点的误分类代价的加权和,得到误分类代价增益Gk
Figure FDA0003582375790000053
Figure FDA0003582375790000054
其中,NL表示左子节点的样本个数,NR表示右子节点的样本个数;
C5.选择误分类代价增益Gk最大的目标特征作为分裂特征;
C6.将目标特征的值作为目标分裂阈值,根据目标分裂阈值和分类特征对父节点进行分裂处理;
C7.根据根节点、分支节点及叶节点,构建得到代价敏感极端随机决策树,代价敏感极端随机决策树的目标函数可以表示为:
Figure FDA0003582375790000055
Figure FDA0003582375790000056
其中C(node)表示叶节点的误分类代价,α|T|为正则项;
所述获取模块,还用于获取所述风力发电机的待检测样本集;
故障检测模块,用于通过所述代价敏感极端随机森林故障检测模型及所述待检测样本集,检测得到所述风力发电机的故障检测结果,具体为:随机森林算法的计算复杂度为O(M(mn log n)),其中M表示基分类器个数,m表示特征个数,n表示样本个数,与随机森林相比,所述代价敏感极端随机森林在树生长过程中引入了随机性,分支节点选择分裂特征时,对每个特征随机原则一个值作为该特征的分裂阈值,因此,由以上公式:
Figure FDA0003582375790000057
可知,所述代价敏感极端随机森林的计算复杂度为O(M(m log n))。
7.根据权利要求6所述的装置,其特征在于,所述模型构建模块包括:
决策树构建单元,用于根据代价敏感极端随机决策树算法对所述训练样本集进行处理,构建得到代价敏感极端随机决策树,所述代价敏感极端随机决策树至少为两个,每一个所述代价敏感极端随机决策树对应一个所述训练样本特征集;
故障检测模型构建单元,用于根据投票决策方法及所述代价敏感极端随机决策树,构建得到代价敏感极端随机森林故障检测模型。
8.根据权利要求7所述的装置,其特征在于,
所述决策树构建单元,具体用于获取所述代价敏感学习的代价矩阵,所述代价矩阵用于表示对所述训练样本集进行错误分类引发的误分类代价;
所述决策树构建单元,还用于根据所述训练样本集及所述代价矩阵,基于自顶向下的极端决策树构建原则,构建得到代价敏感极端随机决策树。
9.根据权利要求8所述的装置,其特征在于,
所述决策树构建单元,还用于将所述训练样本集作为根节点;
所述决策树构建单元,还用于从所述根节点开始,基于自顶向下的极端决策树构建原则进行递归重复分裂处理;
所述决策树构建单元,还用于判断当前节点的节点类型,所述节点类型包括叶节点和分支节点;
所述决策树构建单元,还用于当所述当前节点为叶节点时,根据所述代价矩阵及所述当前节点的节点样本集,计算得到所述当前节点的误分类代价;
所述决策树构建单元,还用于当所述当前节点为分支节点时,将所述当前节点的节点样本集中每一个特征的值分别作为分裂阈值,计算得到每一个特征的误分类代价增益,选择误分类代价增益最大的目标特征作为分裂特征,对所述当前节点进行分裂处理;
所述决策树构建单元,还用于根据所述根节点、所述分支节点及所述叶节点,构建得到代价敏感极端随机决策树。
10.根据权利要求9所述的装置,其特征在于,
所述决策树构建单元,还用于将所述当前节点作为父节点,计算得到所述父节点的误分类代价,从所述父节点的节点样本集中随机选择一个特征的值作为分裂阈值;
所述决策树构建单元,还用于根据所述分裂阈值将所述父节点进行分裂处理得到左子节点和右子节点;
所述决策树构建单元,还用于计算得到所述左子节点和所述右子节点的误分类代价;
所述决策树构建单元,还用于将所述父节点的误分类代价减去所述左子节点和所述右子节点的误分类代价的加权和,得到误分类代价增益;
所述决策树构建单元,还用于选择误分类代价增益最大的目标特征作为分裂特征;
所述决策树构建单元,还用于将所述目标特征的值作为目标分裂阈值,根据所述目标分裂阈值和所述分类特征对所述父节点进行分裂处理。
CN202010777335.XA 2020-08-05 2020-08-05 一种基于代价敏感极端随机森林的故障检测方法及装置 Active CN111881159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010777335.XA CN111881159B (zh) 2020-08-05 2020-08-05 一种基于代价敏感极端随机森林的故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010777335.XA CN111881159B (zh) 2020-08-05 2020-08-05 一种基于代价敏感极端随机森林的故障检测方法及装置

Publications (2)

Publication Number Publication Date
CN111881159A CN111881159A (zh) 2020-11-03
CN111881159B true CN111881159B (zh) 2022-05-31

Family

ID=73211711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010777335.XA Active CN111881159B (zh) 2020-08-05 2020-08-05 一种基于代价敏感极端随机森林的故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN111881159B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112682273B (zh) * 2020-12-31 2022-06-28 长沙理工大学 基于代价敏感轻量级梯度提升机的风电机组故障检测方法
CN113378884B (zh) * 2021-05-14 2024-01-19 山东科技大学 一种基于代价敏感与随机森林的软件缺陷预测方法
CN113723679B (zh) * 2021-08-27 2024-04-16 暨南大学 基于代价敏感深度级联森林的饮用水质预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197194A (zh) * 2019-04-12 2019-09-03 佛山科学技术学院 一种基于改进随机森林的轴承故障诊断方法及装置
CN110909977A (zh) * 2019-10-12 2020-03-24 郑州电力高等专科学校 基于adasyn-dhsd-et的电网故障诊断方法
CN111046931A (zh) * 2019-12-02 2020-04-21 北京交通大学 一种基于随机森林的道岔故障诊断方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10929383B2 (en) * 2017-08-11 2021-02-23 International Business Machines Corporation Method and system for improving training data understanding in natural language processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197194A (zh) * 2019-04-12 2019-09-03 佛山科学技术学院 一种基于改进随机森林的轴承故障诊断方法及装置
CN110909977A (zh) * 2019-10-12 2020-03-24 郑州电力高等专科学校 基于adasyn-dhsd-et的电网故障诊断方法
CN111046931A (zh) * 2019-12-02 2020-04-21 北京交通大学 一种基于随机森林的道岔故障诊断方法

Also Published As

Publication number Publication date
CN111881159A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111881159B (zh) 一种基于代价敏感极端随机森林的故障检测方法及装置
Zheng et al. Raw wind data preprocessing: a data-mining approach
CN105677791B (zh) 用于分析风力发电机组的运行数据的方法和系统
CN117034180B (zh) 电力通信设备数据异常检测方法、系统及存储介质
Li et al. Data-driven cyberattack detection for photovoltaic (PV) systems through analyzing micro-PMU data
CN106021771A (zh) 一种故障诊断方法及装置
CN114760098A (zh) 一种基于cnn-gru的电网虚假数据注入检测方法及装置
CN113901977A (zh) 一种基于深度学习的电力用户窃电识别方法及系统
CN109145948A (zh) 一种基于集成学习的注塑机堵料异常检测方法
CN110805534B (zh) 一种风力发电机的故障检测方法、装置及设备
CN113918367A (zh) 一种基于注意力机制的大规模系统日志异常检测方法
CN116400168A (zh) 一种基于深度特征聚类的电网故障诊断方法及系统
Manimegalai et al. A Novel approach for Data mining Classification using J48DT Classifier for Intrusion Detection System
Ranasinghe et al. Generating real-valued failure data for prognostics under the conditions of limited data availability
CN113067798A (zh) Ics入侵检测方法、装置、电子设备和存储介质
CN116720095A (zh) 一种基于遗传算法优化模糊c均值的电特性信号聚类方法
Takiddin et al. A graph neural network multi-task learning-based approach for detection and localization of cyberattacks in smart grids
CN118193954A (zh) 一种基于边缘计算的配电网异常数据检测方法及系统
Zhang et al. A Multi‐Index Generative Adversarial Network for Tool Wear Detection with Imbalanced Data
CN112016597B (zh) 一种机器学习中基于贝叶斯不平衡度量的深度采样方法
Iftikhar et al. Electricity theft detection in smart grid using machine learning
CN117150399A (zh) 一种基于流判别模型的新型故障识别方法和装置
Mallissery et al. Accuracy analysis of machine learning algorithms for intrusion detection system using nsl-kdd dataset
CN115600143A (zh) 储能锂电池故障诊断方法及装置
Liu et al. Adaptive robustness evaluation for complex system prognostics and health management software platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20201103

Assignee: LIAONING TUOXIN ELECTRIC POWER ELECTRONIC CO.,LTD.

Assignor: CHANGSHA University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2023980045727

Denomination of invention: A Fault Detection Method and Device Based on Cost Sensitive Extreme Random Forest

Granted publication date: 20220531

License type: Common License

Record date: 20231107

EE01 Entry into force of recordation of patent licensing contract