CN115081530A - 一种风机叶片结冰检测方法、系统、介质及设备 - Google Patents

一种风机叶片结冰检测方法、系统、介质及设备 Download PDF

Info

Publication number
CN115081530A
CN115081530A CN202210755770.1A CN202210755770A CN115081530A CN 115081530 A CN115081530 A CN 115081530A CN 202210755770 A CN202210755770 A CN 202210755770A CN 115081530 A CN115081530 A CN 115081530A
Authority
CN
China
Prior art keywords
model
data
features
training
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210755770.1A
Other languages
English (en)
Inventor
满君丰
王非凡
王靛
胡凯凯
陈亚楠
杨恒伏
傅红普
周文健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan First Normal University
Original Assignee
Hunan First Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan First Normal University filed Critical Hunan First Normal University
Priority to CN202210755770.1A priority Critical patent/CN115081530A/zh
Publication of CN115081530A publication Critical patent/CN115081530A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F03MACHINES OR ENGINES FOR LIQUIDS; WIND, SPRING, OR WEIGHT MOTORS; PRODUCING MECHANICAL POWER OR A REACTIVE PROPULSIVE THRUST, NOT OTHERWISE PROVIDED FOR
    • F03DWIND MOTORS
    • F03D80/00Details, components or accessories not provided for in groups F03D1/00 - F03D17/00
    • F03D80/40Ice detection; De-icing means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/70Wind energy
    • Y02E10/72Wind turbines with rotation axis in wind direction

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Sustainable Development (AREA)
  • Sustainable Energy (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于风力发电技术领域,公开了一种风机叶片结冰检测方法、系统、介质及设备,所述风机叶片结冰检测方法包括在XGBoost算法的基础上结合tri‑training三体训练法半监督学习算法,合理运用标签不准确的数据;根据专家知识在原有特征基础上构建新的特征,采用Pearson相关系数为模型进行特征筛选,选择Focal Loss作为算法迭代更新的损失函数。本发明通过剔除掉非结冰因素导致风机限功运行的样本点,提高了模型的准确率和泛化性能。本发明融合了新的特征,采用Pearson相关系数对特征进行降维,降低了模型复杂度,提升了叶片结冰识别效率。

Description

一种风机叶片结冰检测方法、系统、介质及设备
技术领域
本发明属于风力发电技术领域,尤其涉及一种风机叶片结冰检测方法、系统、介质及设备。
背景技术
目前,海拔高度1000米以下,海拔高度每升高100米,风速增加0.1m/s,风资源丰富的地区往往在寒冷的地区和高海拔地区。由于冷空气比暖空气密度大,高海拔寒冷地区的空气密度比较高,寒冷地区的潜在风资源比其他地区高了10%。因此,风场的选址通常也在这些地区。这些地区在冬季时期或者是气温较低的时期,容易出现风机叶片结冰的现象。风机叶片结冰是一个缓慢的过程,风机结冰这一问题的出现,与外界环境的多种因素相关联,如环境温度,风速以及空气湿度等。当风机叶片处于结冰状态下,会导致叶片的升力降低并且阻力增加,同时会导致叶片加重,容易发生叶片断裂,存在很大的安全隐患。叶片结冰运行最普遍的情况下,会影响风机发电的实际出力,气候恶劣的地区年发电效率会减少20%至50%。叶片结冰的早期诊断有利于减少发电量损失,提升机组运行的安全性。现有技术中主要分为基于机理模型的方法和基于数据驱动的方法。基于机理模型的方法依赖于专家经验的积累,由于风机运动部件多,风机系统的复杂性较高,风电行业整机产品更新迭代速度较快,专家建立机理模型难度很大。基于数据驱动的模型不依赖物理机理,但其需要的数据量大,且数据的分布必须合理,对于数据以及数据标签的质量要求高。风机SCADA系统解决了数据量的问题,然而结冰样本量较少,导致样本类别不平衡的问题依然存在。另外,叶片结冰样本标签需要人为标注,由于风机机组的地理位置相对分散、可达性差,叶片结冰样本存在标签不准确的问题。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有技术中基于机理模型的方法依赖于专家经验的积累,由于风机运动部件多,风机系统的复杂性较高,专家建立机理模型难度很大。
(2)现有技术中风机SCADA系统结冰样本量较少,导致样本类别不平衡的问题依然存在。另外,叶片结冰样本标签需要人为标注,由于风机机组的地理位置相对分散、可达性差,叶片结冰样本存在标签不准确的问题。
发明内容
针对现有技术存在的问题,本发明提供了一种风机叶片结冰检测方法、系统、介质及设备。
本发明是这样实现的,一种风机叶片结冰检测方法,所述风机叶片结冰检测方法包括:
在XGBoost算法的基础上结合tri-training三体训练法半监督学习算法,合理运用标签不准确的数据;根据专家知识在原有特征基础上构建新的特征,采用Pearson相关系数为模型进行特征筛选,选择Focal Loss作为算法迭代更新的损失函数。
进一步,所述风机叶片结冰检测方法具体过程为:
步骤一,训练集构建与数据预处理,从SCADA系统中获取数据,将原始数据划分为有标签样本和无标签样本,其中有标签样本包括结冰样本标记为1和正常样本标记为0。基于tri-XGBoost算法,设立相应的机制;在数据预处理阶段剔除掉非结冰导致风机限功运行的样本点;此步骤剔除了噪声数据,利于分类器自适应学习;
步骤二,特征工程与特征筛选,对原始数据现有的特征进行组合,选取三个新特征输入到模型中;采用Pearson相关系数对特征进行降维,筛选出相关性过高的特征并进行剔除;此步骤提升了分类器的学习效率,避免分类器学习到冗余的特征,结合领域专业知识,挖掘了新的特征用于提升模型的准确率;
步骤三,类别不平衡处理与模型训练,选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数;将有标签数据和无标签数据输入tri-XGBoost模型中进行协同训练;此步骤增强了模型正确分类少数类样本的能力,在最大化保留原始数据的情况下有效提升风机叶片结冰的检测准确率;
步骤四,参数优化与模型评估,选择网格搜索算法确定最优的超参数;利用处理好的测试集进行测试,验证模型分类效果。此步骤遍历给定的参数组合,从所有参数中找到在测试集上精度最高的参数,优化了模型的参数,进一步提升风机叶片结冰的检测准确率。
进一步,所述步骤一中,训练集构建与数据预处理具体过程为:
基于tri-XGBoost算法,设立机制;在原始SCADA数据中,将结冰数据前一段时间内的样本作为无标签样本,其余样本作为有标签样本;在数据预处理阶段剔除掉非结冰导致风机限功运行的样本点。
进一步,所述步骤二中,选取三个新特征输入到模型中具体过程为:
短滤波风速与有功功率的比值、短滤波风速与发电机转速的比值以及短滤波风速与有功功率、发电机转速的比值作为融合的三个新特征输入到模型中。
进一步,所述步骤三中,类别不平衡处理与模型训练具体过程为:
选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数;将有标签数据和无标签数据输入tri-XGBoost模型协同训练,对原始有标签数据进行Bootstrap采样获得三个有标签的训练集,利用三个有标签训练集分别训练好三个基分类器
Figure DEST_PATH_IMAGE001
Figure 885854DEST_PATH_IMAGE002
.,
Figure DEST_PATH_IMAGE003
.,将无标签样本输入到训练好的基分类器,单个分类器
Figure 772426DEST_PATH_IMAGE004
所获得的新标记样本都由其余两个分类器协作提供,如果其余两个分类器都对同一个无标签样本的预测相同,则该样本就被认为具有较高的置信度,将预测值作为该样本的伪标签,并将其加入到
Figure 901925DEST_PATH_IMAGE004
的有标签训练集中。不断迭代更新分类器,最终根据投票法得到分类模型。
进一步,所述步骤四中,参数优化与模型评估具体过程为:
选择网格搜索算法确定最优的超参数,将测试集作同样的数据预处理和特征工程,使特征维度相同,用处理好的测试集进行测试,验证模型分类效果。
本发明的另一目的在于提供一种实施所述风机叶片结冰检测方法的风机叶片结冰检测系统,所述风机叶片结冰检测系统包括:
训练集构建与数据预处理模块,从SCADA系统中获取数据,将原始数据划分为有标签样本和无标签样本,其中有标签样本包括结冰样本标记为1和正常样本标记为0。基于tri-XGBoost算法,设立相应的机制;在数据预处理阶段剔除掉非结冰导致风机限功运行的样本点;
特征工程与特征筛选模块,对原始数据现有的特征进行组合,选取三个新特征输入到模型中;采用Pearson相关系数对特征进行降维,筛选出相关性过高的特征并进行剔除;
类别不平衡处理与模型训练模块,选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数;将有标签数据和无标签数据输入tri-XGBoost模型中进行协同训练;
参数优化与模型评估模块,选择网格搜索算法确定最优的超参数;利用处理好的测试集进行测试,验证模型分类效果。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
步骤一,训练集构建与数据预处理,从SCADA系统中获取数据,将原始数据划分为有标签样本和无标签样本,其中有标签样本包括结冰样本标记为1和正常样本标记为0。基于tri-XGBoost算法,设立相应的机制;在数据预处理阶段剔除掉非结冰导致风机限功运行的样本点;
步骤二,特征工程与特征筛选,对原始数据现有的特征进行组合,选取三个新特征输入到模型中;采用Pearson相关系数对特征进行降维,筛选出相关性过高的特征并进行剔除;
步骤三,类别不平衡处理与模型训练,选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数;将有标签数据和无标签数据输入tri-XGBoost模型中进行协同训练;
步骤四,参数优化与模型评估,选择网格搜索算法确定最优的超参数;利用处理好的测试集进行测试,验证模型分类效果。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
步骤一,训练集构建与数据预处理,从SCADA系统中获取数据,将原始数据划分为有标签样本和无标签样本,其中有标签样本包括结冰样本标记为1和正常样本标记为0。基于tri-XGBoost算法,设立相应的机制;在数据预处理阶段剔除掉非结冰导致风机限功运行的样本点;
步骤二,特征工程与特征筛选,对原始数据现有的特征进行组合,选取三个新特征输入到模型中;采用Pearson相关系数对特征进行降维,筛选出相关性过高的特征并进行剔除;
步骤三,类别不平衡处理与模型训练,选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数;将有标签数据和无标签数据输入tri-XGBoost模型中进行协同训练;
步骤四,参数优化与模型评估,选择网格搜索算法确定最优的超参数;利用处理好的测试集进行测试,验证模型分类效果。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的风机叶片结冰检测方法。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明通过剔除掉非结冰因素导致风机限功运行的样本点,提高了模型的准确率和泛化性能。本发明融合了新的特征,采用Pearson相关系数对特征进行降维,降低了模型复杂度,提升了叶片结冰识别效率。本发明引入Focal Loss函数,尽可能保留原始数据的同时解决了类别不平衡的问题,提升了模型的分类性能;引入三体训练法,合理运用标签不准确的数据,使得模型在数据质量偏低的情况下仍然有较好的分类性能。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
本发明利用半监督学习结合集成学习方法强大的泛化能力,获得了最佳的分类性能。以低成本的方式解决了工程实际中标签缺失、标签不准确以及数据质量低的问题,增强了模型对早期结冰现象的诊断能力,保障了风电机组运行的安全性,大大减少风机发电量的损失。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:
本发明解决了风机SCADA数据由于网络通信断开、人工标注困难导致标签不准确的问题,引入无标签样本,有效提升了叶片结冰检测的准确率。算法关注少数类样本,在数据失衡状态下,利用半监督算法,对少量的有标签样本进行学习,用于无标签样本的伪标签标注。将无标签样本结合伪标签辅以加入模型训练,有效降低了风机运维的难度,减少风机发电量的损失,避免寒冷时期风机叶片产生断裂的风险。
附图说明
图1是本发明实施例提供的风机叶片结冰检测方法流程图;
图2是本发明实施例提供的风机叶片结冰检测系统结构示意图;
图3是本发明实施例提供的叶片结冰检测建模过程示意图;
图4是本发明实施例提供的新融合特征的波形图;
图中:1、训练集构建与数据预处理模块;2、特征工程与特征筛选模块;3、类别不平衡处理与模型训练模块;4、参数优化与模型评估模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例提供的风机叶片结冰检测方法包括:
S101:训练集构建与数据预处理,从SCADA系统中获取数据,将原始数据划分为有标签样本和无标签样本,其中有标签样本包括结冰样本标记为1和正常样本标记为0。基于tri-XGBoost算法,设立相应的机制;在数据预处理阶段剔除掉非结冰导致风机限功运行的样本点。
S102:特征工程与特征筛选,对原始数据现有的特征进行组合,选取三个新特征输入到模型中;采用Pearson相关系数对特征进行降维,筛选出相关性过高的特征并进行剔除。
S103:类别不平衡处理与模型训练,选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数;将有标签数据和无标签数据输入tri-XGBoost模型中进行协同训练。
S104:参数优化与模型评估,选择网格搜索算法确定最优的超参数;利用处理好的测试集进行测试,验证模型分类效果。
本发明实施例提供的S101中,训练集构建与数据预处理具体过程为:
基于tri-XGBoost算法,设立机制:在原始SCADA数据中,将结冰数据前一段时间内的样本作为无标签样本,其余样本作为有标签样本。在数据预处理阶段剔除掉这些非结冰导致风机限功运行的样本点。
本发明实施例提供的S102中,选取三个新特征输入到模型中具体过程为:
短滤波风速与有功功率的比值、短滤波风速与发电机转速的比值以及短滤波风速与有功功率、发电机转速的比值作为融合的三个新特征输入到模型中。
本发明实施例提供的S103中,类别不平衡处理与模型训练具体过程为:
选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数。将有标签数据和无标签数据输入tri-XGBoost模型协同训练,利用有标签数据初始化基分类器后,根据训练好的基分类器生成无标签数据的伪标签,不断迭代更新分类器,最终根据投票法得到分类模型。
本发明实施例提供的S104中,参数优化与模型评估具体过程为:
选择网格搜索算法确定最优的超参数,将测试集作同样的数据预处理和特征工程,保证特征维度相同,用处理好的测试集进行测试,验证模型分类效果。
如图2所示,本发明实施例提供的风机叶片结冰检测系统包括:
训练集构建与数据预处理模块1,基于tri-XGBoost算法,设立相应的机制;在数据预处理阶段剔除掉非结冰导致风机限功运行的样本点。
特征工程与特征筛选模块2,对原始数据现有的特征进行组合,选取三个新特征输入到模型中;采用Pearson相关系数对特征进行降维,筛选出相关性过高的特征并将其剔除。
类别不平衡处理与模型训练模块3,选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数;将有标签数据和无标签数据输入tri-XGBoost模型中进行协同训练。
参数优化与模型评估模块4,选择网格搜索算法确定最优的超参数;利用处理好的测试集进行测试,验证模型分类效果。
下面结合具体实施例对本发明的技术方案作详细的描述。
针对风机叶片结冰时间较少,数据集类别不平衡,人工标注数据存在标签不准确的问题,本发明实施例提出一种tri-XGBoost方法,在XGBoost算法的基础上结合tri-training(三体训练法)半监督学习算法,合理运用了标签不准确的数据,根据专家知识在原有特征基础上构建了新的特征,采用Pearson相关系数为模型进行特征筛选,选择FocalLoss作为算法迭代更新的损失函数,为解决叶片结冰检测中标签不准确、类别不平衡的问题提供了一种解决思路。
本发明实施例提供的风机叶片结冰检测过程为:
训练集构建与数据预处理。风机叶片结冰是一个缓慢演化的过程,通常叶片结冰的标注信息是由专业人员通过观察所得,但是由于观察存在不及时的情况,早期结冰的样本可能被误标记为正常样本,引入这些样本进入模型训练将会影响模型的准确率和泛化性能。本发明基于tri-XGBoost算法,设立如下机制:在原始SCADA数据中,将结冰数据前一段时间内的样本作为无标签样本,其余样本作为有标签样本。叶片结冰会导致风机限功运行,根据专家经验,导致风机限功运行的原因还有:电网调度限功,风速过高时,风场接入电网发送的电量难以存储;风机大部件出现问题需要人为限功,以免发生意外事故;风场距离居民区较近,夜晚期间为避免产生过大的噪音需要限功运行。因此,为了提高模型的准确率和泛化性能,在数据预处理阶段剔除掉这些非结冰导致风机限功运行的样本点。
特征工程与特征筛选。本发明实施例对原始数据现有的特征进行组合,选取短滤波风速与有功功率的比值、短滤波风速与发电机转速的比值、以及短滤波风速与有功功率、发电机转速的比值作为融合的三个新特征输入到模型中。采用Pearson相关系数对特征进行降维,筛选出相关性过高的特征并将其剔除。
类别不平衡处理与模型训练。处理类别不平衡的方法可以分为三个大类,分别为欠采样、过采样和代价敏感学习。为了尽可能保留原数据,本发明选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数。将有标签数据和无标签数据输入tri-XGBoost模型协同训练,利用有标签数据初始化基分类器后,根据训练好的基分类器生成无标签数据的伪标签,不断迭代更新分类器,最终根据投票法得到分类模型。
参数优化与模型评估。参数优化的方法包括网格搜索、随机搜索和贝叶斯优化。本发明实施例选择网格搜索算法确定最优的超参数。将测试集作同样的数据预处理和特征工程,保证特征维度相同,用处理好的测试集进行测试,验证模型分类效果。
本发明实施例提供的tri-training三体训练法具体过程为:
tri-training首先使用有标签数据训练三个分类器,然后根据训练好的分类器生成未标记数据的伪标签,伪标签数据和原始有标签数据用于迭代更新分类器,直到它们不再改变。需要注意的是,在每一轮迭代中,前一轮的伪标签样本都会作为未标记样本重新处理。最后根据简单的投票法将三个分类器融合成一个强分类器。
如果其余两个分类器分类错误,就会产生一个带有噪声的误分类样本,误分类样本加入到分类器
Figure DEST_PATH_IMAGE005
的训练集中之后,对于分类器的分类性能会造成影响。因此,新加入到分类器
Figure 464494DEST_PATH_IMAGE005
训练集的样本需要满足如下条件:
Figure 353952DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE007
表示其余两个分类器误分类率的上限,
Figure 951156DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
分别表示在第
Figure 209747DEST_PATH_IMAGE010
轮和第
Figure DEST_PATH_IMAGE011
轮加入到分类器
Figure 525190DEST_PATH_IMAGE005
训练集中的样本集。如果新加入训练集的样本不满足上述条件,就对
Figure 670870DEST_PATH_IMAGE012
进行随机下采样,删除
Figure DEST_PATH_IMAGE013
个样本。
Figure 857001DEST_PATH_IMAGE014
应该满足以下公式,使得训练集
Figure 79034DEST_PATH_IMAGE012
的大小在下采样后仍然大于
Figure DEST_PATH_IMAGE015
Figure 87966DEST_PATH_IMAGE016
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
获取风机运行时的SCADA数据,根据实际数据,结合人工观察的结冰情况,将数据划分为有标签样本和无标签样本,其中有标签样本包括结冰样本和正常样本,分别标记为1和0。构建有标签样本的风速-功率散点图,对有标签样本进行初步筛选,剔除异常值和缺失值。筛选叶片角度大于1.5且功率受限的正常样本,将其剔除,避免“脏数据”的存在影响后续的风机叶片结冰检测。选取前两台风机筛选过后的有标签样本和无标签样本作为tri-XGBoost的原始训练集,另外一台的数据不作打标签处理作为测试集。
将原始特征中短滤波风速、有功功率、发电机转速分别按照如下公式
Figure DEST_PATH_IMAGE017
Figure 240599DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
构建新的特征,训练集和测试集都要经过上述步骤,避免数据维度不同,造成分类器无法完成叶片结冰状态识别。对数据原始特征和新构建特征进行Pearson相关性分析,剔除Pearson相关系数超过0.9的特征,避免特征冗余导致模型分类准确率和泛化性能的下降。
将原始训练集输入到tri-XGBoost模型中,对有标签样本进行Bootstrap采样,分别对其训练,初始化三个基分类器
Figure 733766DEST_PATH_IMAGE001
Figure 657860DEST_PATH_IMAGE002
.,
Figure 741704DEST_PATH_IMAGE003
.,基分类器的损失函数自定义为Focal Loss,Focal Loss的定义如下:
Figure 245497DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE021
为预测标签为1的概率,
Figure 406220DEST_PATH_IMAGE022
是控制易分类样本和难分类样本损失函数权重的超参数,Focal Loss增加了难分类样本在损失函数中的权重,有助于提高难分样本分类的准确率。
误分类率上限
Figure DEST_PATH_IMAGE023
设置为0.5,新加入到分类器
Figure 360270DEST_PATH_IMAGE005
训练集中的样本集个数
Figure 934339DEST_PATH_IMAGE024
设置为0,迭代轮数初始化为0。新加入到分类器
Figure 100878DEST_PATH_IMAGE005
训练集的样本需要满足如下条件:
Figure 663578DEST_PATH_IMAGE006
如果新加入训练集的样本不满足上述条件,就对
Figure 384934DEST_PATH_IMAGE012
进行随机下采样,删除
Figure 931453DEST_PATH_IMAGE013
个样本。
Figure 26317DEST_PATH_IMAGE014
应该满足以下公式,使得训练集
Figure 833736DEST_PATH_IMAGE012
的大小在下采样后仍然大于
Figure 739375DEST_PATH_IMAGE015
Figure 756878DEST_PATH_IMAGE016
经过迭代三个基分类器的训练集,最终通过投票法得到一个由三个基分类器组成的强分类器。
将基分类器中的参数如learning_rate,n_estimators,eta,max_depth,min_child_weight,subsample进行网格搜索参数优化,设定参数的备选列表,通过穷举法计算出分类器最优的参数。得到最优参数后,对模型进行最终的评估,选取准确率(Accuracy )、查准率(Precision)、查全率(Recall)、查全率与查准率的调和平均数(F1)、马修斯相关系数(MCC)作为评估准则。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
实验数据采集自某省某风场的三台风电机组,选用某年10月1日——某年4月29日三台风电机组的SCADA数据进行数据分析和结冰检测建模预测,SCADA系统每隔1分钟采集一次数据。由于存在风机停机和SCADA系统通讯断线的情况,原始数据中有大量的无效样本点,为了避免影响模型的分类性能,应将无效样本点剔除。风机存在非叶片结冰原因导致的风机限功运行,因此需要将符合上述情况的样本点剔除。数据预处理后三台风机分别剩余177619、173451、170014个样本点。选取前两台风机的数据作为训练集,另外一台风机的数据作为测试集。将训练集分为有标签数据和无标签数据,无标签样本点为15840个,约占所有训练集的4.51%。有标签数据中叶片结冰样本点为67908个,约占所有训练集的19.34%。
数据的原始特征主要有短滤波风速、有功功率、叶片角度、舱外温度、发电机转速、机舱位置偏差、机舱位置、变桨速度、塔筒驱动方向加速度、塔筒非驱动方向加速度、机舱温度、风机出口有功功率、偏航速度等18个运行参数。根据专家知识和数据分析,融合三个新的特征
Figure 406165DEST_PATH_IMAGE017
Figure 192725DEST_PATH_IMAGE018
Figure 3686DEST_PATH_IMAGE019
,其中
Figure DEST_PATH_IMAGE025
为短滤波风速,
Figure 567873DEST_PATH_IMAGE026
为有功功率,
Figure DEST_PATH_IMAGE027
为发电机转速。如图4所示,融合的三个新特征在标签为1(即风机结冰)的时间范围内,三个特征值都有较为明显的上升。
考虑到叶片结冰数据存在类别不平衡的问题,选取以下五种评价指标用以评价模型性能:准确率(Accuracy )、查准率(Precision)、查全率(Recall)、查全率与查准率的调和平均数(F1)、马修斯相关系数(MCC)。
Figure 676643DEST_PATH_IMAGE028
为正样本预测正确个数,
Figure DEST_PATH_IMAGE029
为负样本预测正确个数,
Figure 786550DEST_PATH_IMAGE030
为正样本预测错误个数,
Figure DEST_PATH_IMAGE031
为负样本预测错误个数。
Figure 955363DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
Figure 494929DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
Figure 410320DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
是用于评估模型泛化性能的统计数据,是精度和召回率的加权平均值。在数据集不平衡的情况下,可以很好地评估模型的性能。
Figure 109155DEST_PATH_IMAGE037
值越高,分类器的性能越好。
Figure 776765DEST_PATH_IMAGE038
的值越接近1代表模型的鲁棒性越强。在相同实验条件下,对本发明所提算法与支持向量机(SVM)、逻辑回归(LR)、最近邻(KNN)、随机森林(RF)和极限梯度提升树(XGBoost)等常用分类方法进行性能对比测试,测试结果如表1所示。
表1不同检测方法结果对比
Figure DEST_PATH_IMAGE039
实验结果表明,本发明提出的tri-XGBoost算法在各项指标上的性能均优于其他分类算法。虽然LR、RF、XGboost的准确率也很高,但对于类别极度不平衡的数据集,准确率的参考价值并不大。对于二分类问题,针对数据集类别不平衡的情况,基于混淆矩阵的评价准则中,
Figure 928261DEST_PATH_IMAGE038
是最直观和简单的。准确率和
Figure 582096DEST_PATH_IMAGE037
在这种情况容易产生误导。本发明所提算法的
Figure 948487DEST_PATH_IMAGE038
值明显高于其他模型,对于风机叶片结冰检测表现很好的分类效果。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种风机叶片结冰检测方法,其特征在于,所述风机叶片结冰检测方法包括:
在XGBoost算法的基础上结合tri-training三体训练法半监督学习算法,合理运用标签不准确的数据;根据专家知识在原有特征基础上构建新的特征,采用Pearson相关系数为模型进行特征筛选,选择Focal Loss作为算法迭代更新的损失函数。
2.如权利要求1所述风机叶片结冰检测方法,其特征在于,所述风机叶片结冰检测方法具体过程为:
步骤一,训练集构建与数据预处理,基于tri-XGBoost算法,设立相应的机制;在数据预处理阶段剔除掉非结冰导致风机限功运行的样本点;
步骤二,特征工程与特征筛选,对原始数据现有的特征进行组合,选取三个新特征输入到模型中;采用Pearson相关系数对特征进行降维,筛选出相关性过高的特征并进行剔除;
步骤三,类别不平衡处理与模型训练,选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数;将有标签数据和无标签数据输入tri-XGBoost模型中进行协同训练;
步骤四,参数优化与模型评估,选择网格搜索算法确定最优的超参数;利用处理好的测试集进行测试,验证模型分类效果。
3.如权利要求2所述风机叶片结冰检测方法,其特征在于,所述步骤一中,训练集构建与数据预处理具体过程为:
基于tri-XGBoost算法,设立机制;在原始SCADA数据中,将结冰数据前一段时间内的样本作为无标签样本,其余样本作为有标签样本;在数据预处理阶段剔除掉非结冰导致风机限功运行的样本点。
4.如权利要求2所述风机叶片结冰检测方法,其特征在于,所述步骤二中,选取三个新特征输入到模型中具体过程为:
短滤波风速与有功功率的比值、短滤波风速与发电机转速的比值以及短滤波风速与有功功率、发电机转速的比值作为融合的三个新特征输入到模型中。
5.如权利要求2所述风机叶片结冰检测方法,其特征在于,所述步骤三中,类别不平衡处理与模型训练具体过程为:
选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数;将有标签数据和无标签数据输入tri-XGBoost模型协同训练,利用有标签数据初始化基分类器后,根据训练好的基分类器生成无标签数据的伪标签,不断迭代更新分类器,最终根据投票法得到分类模型。
6.如权利要求2所述风机叶片结冰检测方法,其特征在于,所述步骤四中,参数优化与模型评估具体过程为:
选择网格搜索算法确定最优的超参数,将测试集作同样的数据预处理和特征工程,使特征维度相同,用处理好的测试集进行测试,验证模型分类效果。
7.一种实施如权利要求1~6任意一项所述风机叶片结冰检测方法的风机叶片结冰检测系统,其特征在于,所述风机叶片结冰检测系统包括:
训练集构建与数据预处理模块,基于tri-XGBoost算法,设立相应的机制;在数据预处理阶段剔除掉非结冰导致风机限功运行的样本点;
特征工程与特征筛选模块,对原始数据现有的特征进行组合,选取三个新特征输入到模型中;采用Pearson相关系数对特征进行降维,筛选出相关性过高的特征并进行剔除;
类别不平衡处理与模型训练模块,选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数;将有标签数据和无标签数据输入tri-XGBoost模型中进行协同训练;
参数优化与模型评估模块,选择网格搜索算法确定最优的超参数;利用处理好的测试集进行测试,验证模型分类效果。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
步骤一,训练集构建与数据预处理,基于tri-XGBoost算法,设立相应的机制;在数据预处理阶段剔除掉非结冰导致风机限功运行的样本点;
步骤二,特征工程与特征筛选,对原始数据现有的特征进行组合,选取三个新特征输入到模型中;采用Pearson相关系数对特征进行降维,筛选出相关性过高的特征并进行剔除;
步骤三,类别不平衡处理与模型训练,选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数;将有标签数据和无标签数据输入tri-XGBoost模型中进行协同训练;
步骤四,参数优化与模型评估,选择网格搜索算法确定最优的超参数;利用处理好的测试集进行测试,验证模型分类效果。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
步骤一,训练集构建与数据预处理,基于tri-XGBoost算法,设立相应的机制;在数据预处理阶段剔除掉非结冰导致风机限功运行的样本点;
步骤二,特征工程与特征筛选,对原始数据现有的特征进行组合,选取三个新特征输入到模型中;采用Pearson相关系数对特征进行降维,筛选出相关性过高的特征并进行剔除;
步骤三,类别不平衡处理与模型训练,选择代价敏感学习方法,引入Focal Loss损失函数,替换XGBoost算法原有的损失函数;将有标签数据和无标签数据输入tri-XGBoost模型中进行协同训练;
步骤四,参数优化与模型评估,选择网格搜索算法确定最优的超参数;利用处理好的测试集进行测试,验证模型分类效果。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求1~6任意一项所述的风机叶片结冰检测方法。
CN202210755770.1A 2022-06-30 2022-06-30 一种风机叶片结冰检测方法、系统、介质及设备 Pending CN115081530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210755770.1A CN115081530A (zh) 2022-06-30 2022-06-30 一种风机叶片结冰检测方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210755770.1A CN115081530A (zh) 2022-06-30 2022-06-30 一种风机叶片结冰检测方法、系统、介质及设备

Publications (1)

Publication Number Publication Date
CN115081530A true CN115081530A (zh) 2022-09-20

Family

ID=83256465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210755770.1A Pending CN115081530A (zh) 2022-06-30 2022-06-30 一种风机叶片结冰检测方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN115081530A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892213A (zh) * 2024-03-18 2024-04-16 中国水利水电第十四工程局有限公司 一种风力发电机叶片覆冰侦测与预警的诊断方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892213A (zh) * 2024-03-18 2024-04-16 中国水利水电第十四工程局有限公司 一种风力发电机叶片覆冰侦测与预警的诊断方法

Similar Documents

Publication Publication Date Title
CN110968069B (zh) 风力发电机组的故障预测方法、相应的装置及电子设备
CN107526083B (zh) 一种基于天气雷达数据的强对流风力等级预测方法
CN109086793A (zh) 一种风力发电机的异常识别方法
Joshuva et al. A comparative study of Bayes classifiers for blade fault diagnosis in wind turbines through vibration signals
CN112800682B (zh) 一种反馈寻优的风机叶片故障监测方法
Gagne et al. Classification of convective areas using decision trees
Zhang et al. A hybrid learning framework for imbalanced stream classification
CN113822418A (zh) 一种风电场功率预测方法、系统、设备和存储介质
CN112682273B (zh) 基于代价敏感轻量级梯度提升机的风电机组故障检测方法
Joshuva et al. A study of various blade fault conditions on a wind turbine using vibration signals through histogram features
CN115081530A (zh) 一种风机叶片结冰检测方法、系统、介质及设备
CN113591948A (zh) 一种缺陷模式识别方法、装置、电子设备和存储介质
CN115859148A (zh) 风机叶片振动报警方法及装置
CN117150359A (zh) 基于模型无关元学习的小样本故障诊断方法、系统、装置及介质
CN115859099A (zh) 样本生成方法、装置、电子设备和存储介质
CN115036922A (zh) 一种分布式光伏发电电量预测方法及系统
Bai et al. Wind turbine blade icing diagnosis using RFECV-TSVM pseudo-sample processing
CN109325553B (zh) 一种风电齿轮箱故障检测方法、系统、设备及介质
CN117995027A (zh) 一种飞行计划备降场推荐方法、系统、设备及介质
CN113268929A (zh) 短期负荷区间预测方法及装置
CN115858725B (zh) 一种基于无监督式图神经网络的文本噪声筛选方法及系统
CN116894383A (zh) 全年天气场景的随机模拟方法及装置
CN115712860A (zh) 风机叶片振动报警方法及装置
CN115271242A (zh) 光伏发电功率预测模型的训练方法、预测方法、装置
CN114997475A (zh) 一种基于Kmeans的融合模型光伏发电短期预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination