CN114707706A - 一种基于不均衡数据的柴油发动机故障诊断方法 - Google Patents

一种基于不均衡数据的柴油发动机故障诊断方法 Download PDF

Info

Publication number
CN114707706A
CN114707706A CN202210262193.2A CN202210262193A CN114707706A CN 114707706 A CN114707706 A CN 114707706A CN 202210262193 A CN202210262193 A CN 202210262193A CN 114707706 A CN114707706 A CN 114707706A
Authority
CN
China
Prior art keywords
diesel engine
data
data set
fault diagnosis
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210262193.2A
Other languages
English (en)
Inventor
杨颖�
杨磊
刘旒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Guangxi Academy of Sciences
Original Assignee
Guangxi University
Guangxi Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University, Guangxi Academy of Sciences filed Critical Guangxi University
Priority to CN202210262193.2A priority Critical patent/CN114707706A/zh
Publication of CN114707706A publication Critical patent/CN114707706A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/08Thermal analysis or thermal optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/14Force analysis or force optimisation, e.g. static or dynamic forces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)

Abstract

本发明公开了一种基于不均衡数据的柴油发动机故障诊断方法,包括以下步骤:S1、分别采集若干个正常运行和故障运行的柴油发动机状态参数组成数据集;S2、对数据集进行预处理,得到预处理数据集;S3、对预处理数据集进行故障标记,得到训练集;S4、利用SMOTEENN混合采样算法对训练集进行处理,得到均衡化数据集;S5、基于Xgboost模型对均衡化数据集进行训练,并进行模型参数优化,即得到柴油发动机故障诊断模型;S6、将待诊断的柴油发动机真实数据输入柴油发动机故障诊断模型中,得到发动机的健康状态诊断结果。本发明提出的柴油发动机故障诊断方法,能有效提高数类故障样本诊断的准确性和有效性。

Description

一种基于不均衡数据的柴油发动机故障诊断方法
技术领域
本发明属于故障诊断技术领域,具体涉及一种基于不均衡数据的柴油发动机故障诊断方法。
背景技术
柴油发动机作为一种复杂的动力机械,其运行状态及机械性能的优劣直接影响到载具的性能和安全。柴油发动机的故障预测缺乏量化分析,当发动机在发生故障后,现阶段的故障数据没有结构化,维护人员很难针对可靠性数据、指标数据等的综合分析,进行明确的故障诊断,从而很难找到最优的故障诊断方法,使得柴油发动机维修成本增大,导致资源的浪费。
不平衡数据是指数据的不同类别的样本数量之间相差较大,现实生活中也存在大量不平衡数据预测,如网络异常流量预测、欺诈检测、病理诊断等。在故障诊断方面,主要有灰度模型、层次分析、神经网络和深度学习等,其中,灰色模型与层次分析需要人为设定的因素较多,主观性过强;人工神经网络、深度学习的模型较为复杂,训练时间长,且有过拟合的问题。准确的状态评估需要足够多的历史故障样本作为支撑,目前国内的柴油发动机可靠性较高,异常运行的样本较少,不均衡的数据集导致模型难以训练至理想水平,而传统算法在数据不均衡时会更倾向于多数类,使得在预测时大量少数类被预测为多数类,导致对少数类的学习效果很差,从而不能够对柴油发动机的故障进行很好的预测。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于不均衡数据的柴油发动机故障诊断方法,本方法通过SMOTEENN-XGBoost算法,改善数据不均衡和数据分布边缘化的问题,能有效对采油发动机参数中的异常进行检测。
为实现上述目的,本发明采用的技术方案是:
一种基于不均衡数据的柴油发动机故障诊断方法,包括以下步骤:
S1、分别采集若干个正常运行和故障运行的柴油发动机状态参数组成数据集;
S2、对步骤S1得到的数据集进行预处理,得到预处理数据集;
S3、对步骤S2得到的预处理数据集进行故障标记,得到不均衡训练集;
S4、利用SMOTEENN混合采样算法对步骤S3得到的训练集进行处理,得到均衡化数据集;
S5、基于Xgboost模型对步骤S4得到的均衡化数据集进行训练,在训练过程中采用K折交叉验证法与网格搜索算法进行模型参数优化,即得到柴油发动机故障诊断模型,所述柴油发动机故障诊断模型如下所示:
Figure BDA0003550941860000021
其中:
Figure BDA0003550941860000022
为预测值,t为树的数量,fk为第k棵独立的树,xi为第i个数据集样本;
S6、将待诊断的柴油发动机真实数据输入步骤S6得到的柴油发动机故障诊断模型中,发动机的健康状态诊断结果。
优选的,步骤S1中,所述柴油发动机状态参数包含进气总管温度、进气管压强、排气管温度、排气管压强、气缸温度、气缸压强、油冷却器入口温度、油冷却器出口温度、油冷却器出口压强、冷却水进口温度,冷却水出口温度、冷却水进口压强和冷却水出口压强。
优选的,步骤S2中,所述预处理包括以下步骤:将步骤S1得到的数据集去除异常值,采用中值滤波的方法进行数据去噪,采用同类均值插补方法进行缺失数据填补,对所采集的数据集进行归一化处理,得到预处理数据集,归一化公式如下:
Figure BDA0003550941860000023
其中:x*为归一化后的数据,x为原始数据,μ为所有样本的均值,σ为所有样本数据的标准差。
优选的,步骤S4中,所述均衡化数据集通过以下步骤得到:
S41、遍历步骤S3得到的训练集,设多数类样本集合为N,少数类为P,xi为P中的一个样本,通过KNN算法在整个训练集中搜索离样本xi最近的k个样本,k个样本中少数类记为ki
S42、若ki=0,即xi附近k个最近邻都是多数类,则认为xi是噪点,不做处理,若ki≥1/2k,则认为是内部点,也不做任何处理,若0<ki<1/2k,则认为xi是容易被错分的边界点,对xi执行第S33步骤;
S43、重复从xi的k的近邻中随机选择一个样本,在它们之间随机合成一个点作为新的少数类样本并添加到训练集中,得到新训练集,所采用的公式如下:
xn=xi+ξ(xi-ki)
其中,xn为,xi为少数类样本点,ki为xi的近邻,ξ为0到1之间的随机数;
S44、对新训练集使用KNN算法,去除预测结果与实际类别不符的样本点,减少生成的少数样本和多数样本重叠的概率,得到均衡化数据集。
优选的,步骤S5中,所述柴油发动机故障诊断模型通过以下步骤得到:
S51、输入特征数为m,样本数为n的步骤S4得到的均衡化数据集D={(xi,yi)|xi∈Rm,yi∈R},其预测值
Figure BDA0003550941860000031
为每棵树的打分累加和,
Figure BDA0003550941860000032
通过以下公式得到:
Figure BDA0003550941860000033
其中,t为数的数量,fk为第k棵独立的树,xi为第i个数据集样本;
加入正则化后的目标损失函数为:
Figure BDA0003550941860000034
正则化项为:
Figure BDA0003550941860000035
其中,
Figure BDA0003550941860000036
为第i个目标样本的预测值,yi为真实值,
Figure BDA0003550941860000037
为损失函数,wk为第k棵树的叶子节点权重,Ω(fk)为树复杂度,γ为惩罚项,Tk为第k棵树叶子节点的数量,λ为正则项系数;
S52、每颗树通过贪心算法选择不同的特征进行分裂,通过泰勒展开式计算分裂后的损失函数比单个叶子节点的增益,分裂的增益函数为:
Figure BDA0003550941860000041
其中,GR和GL为节点分裂后左右子树关于
Figure BDA0003550941860000042
的一阶导数和,HL和HR为左右子树关于
Figure BDA0003550941860000043
的二阶导数和,λ为正则项系数;
S53、不断重复步骤S52迭代生成新的CART树来拟合上一棵树的残差,当样本权重和小于设定阈值时,则停止建树;
S54、将步骤S53中所有生成树合并,即得到柴油发动机故障诊断模型。
6、根据权利要求5所述的基于不均衡数据的柴油发动机故障诊断方法,其特征在于,步骤S5中,所述参数优化包括以下步骤:
(1)选择0.3作为初始的学习速率,使用默认值作为集成参数初始值,在步骤S53中的每一次迭代中使用K-fold交叉验证,确定最优决策树数量;
(2)根据确定的学习速率与决策树数量,采用K折交叉验证法与网格搜索法进行决策树特定参数调优;
(3)基于已有数据,调整正则化参数,降低过拟合;
(4)降低学习速率,确定模型的最佳参数组合。
本发明与现有技术相比,其有益效果在于:
本发明提供的基于不均衡数据的柴油发动机故障诊断方法,通过SMOTEENN混合采样算法在现有的少数类样本的基础上合成新样本,并剔除噪声点,有效克服了传统过采样方法导致模型过拟合的缺点,对不均衡的发动机故障数据集进行均衡化,并将均衡后的数据集输入XGBoost集成学习算法训练得到故障诊断模型,有效提高了少数类故障样本诊断的准确性和有效性。
附图说明
图1为本发明实施例提供的基于不均衡数据的柴油发动机故障诊断方法的流程图;
图2为本发明实施例提供的数据集在均衡化处理之前的样本分布图;
图3为本发明实施例提供的数据集在均衡化处理之后的样本分布图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供的基于不均衡数据的柴油发动机故障诊断方法,具体包括以下步骤:
S1、分别采集若干个一定转速下的正常运行和故障运行的柴油发动机状态参数数据组成数据集;柴油发动机状态参数包含进气总管温度、进气管压强、排气管温度、排气管压强、气缸温度、气缸压强、油冷却器入口温度、油冷却器出口温度、油冷却器出口压强、冷却水进口温度,冷却水出口温度、冷却水进口压强和冷却水出口压强;
S2、对步骤S1得到的数据集进行预处理,得到预处理数据集;
其中,预处理过程具体包括以下步骤:将步骤S1得到的数据集去除异常值,采用中值滤波的方法进行数据去噪,采用同类均值插补方法进行缺失数据填补,对所采集的数据集进行归一化处理,其目的主要是将所有需要计算的数据都缩小到0-1之间,有效地简化计算,节约计算资源,然后得到预处理数据集,归一化公式如下:
Figure BDA0003550941860000051
其中,x*为归一化后的数据,x为原始数据,μ为所有样本的均值,σ为所有样本数据的标准差。
S3、对步骤S2得到的预处理数据集进行故障标记,得到训练集;
其中,0表示柴油发动机运行正常,1表示柴油发动机出现故障。
S4、利用SMOTEENN混合采样算法对步骤S3得到的训练集进行处理,增加故障数据样本个数,得到两种类别较为均衡的均衡化数据集;
其中,均衡化数据集具体通过以下步骤得到:
S41、遍历步骤S3得到的训练集,设多数类样本集合为N,少数类为P,xi为P中的一个样本,通过KNN算法在整个训练集中搜索离样本xi最近的k个样本,k个样本中少数类记为ki
S42、若ki=0,即xi附近k个最近邻都是多数类,则认为xi是噪点,不做处理,若ki≥1/2,则认为是内部点,也不做任何处理,若0<ki<1/2,则认为xi是容易被错分的边界点,对xi执行第S33步骤;
S43、重复从xi的k的近邻中随机选择一个样本,在它们之间随机合成一个点作为新的少数类样本并添加到训练集中,得到新训练集,所采用的公式如下:
xn=xi+ξ(xi-ki)
其中,xi为少数类样本点,ki为xi的近邻,ξ为0到1之间的随机数。
S44、对新训练集使用KNN算法,去除预测结果与实际类别不符的样本点,即得到均衡化数据集。
S5、基于Xgboost模型对步骤S4得到的均衡化数据集进行训练,在训练过程中采用K折交叉验证法与网格搜索算法进行模型参数优化,即得到柴油发动机故障诊断模型;
其中,柴油发动机故障诊断模型具体通过以下步骤得到:
S51、输入特征数为m,样本数为n的步骤S4得到的均衡化数据集D={(xi,yi)|xi∈Rm,yi∈R},其预测值
Figure BDA0003550941860000061
为每棵树的打分累加和,
Figure BDA0003550941860000062
通过以下公式得到:
Figure BDA0003550941860000071
其中,t为数的数量,fk为第k棵独立的树;
加入正则化后的目标损失函数为:
Figure BDA0003550941860000072
正则化项为:
Figure BDA0003550941860000073
其中,
Figure BDA0003550941860000074
为第i个目标样本的预测值,yi为真实值,
Figure BDA0003550941860000075
为损失函数,wk为第k棵树的叶子节点权重,Ω(fk)为树复杂度,γ为惩罚项,Tk为第k棵树叶子节点的数量;
S52、每颗树通过贪心算法选择不同的特征进行分裂,计算分裂后的损失函数比单个叶子节点的增益,分裂的增益函数为:
Figure BDA0003550941860000076
其中,GR和GL为节点分裂后左右子树关于
Figure BDA0003550941860000077
的一阶导数和,HL和HR为左右子树关于
Figure BDA0003550941860000078
的二阶导数和;
S53、不断重复步骤S52迭代生成新的CART树来拟合上一棵树的残差,当样本权重和小于设定阈值时,则停止建树;
XGBoost算法中包含了常规参数、树集成参数、任务参数等。其中,树集成参数控制每次迭代中树的生长方式;任务参数控制模型的复杂度,避免过拟合。参数的调整对XGBoost的分类效果具有直接影响,因此参数寻优十分必要。使用网格搜索算法(gridsearching,GS)和K折交叉验证来进行模型参数优化,xgboost优化的参数如下表1所示:
表1 xgboost优化的参数
Figure BDA0003550941860000081
参数优化具体包括以下步骤:
(1)选择0.3作为初始的学习速率,使用默认值作为集成参数初始值,在步骤S53中的每一次迭代中使用K-fold交叉验证,确定最优决策树数量;
(2)根据确定的学习速率与决策树数量,采用K折交叉验证法与网格搜索法进行决策树特定参数调优(max_depth,min_child_weight,gamma,subsample,colsample_bytree);
(3)基于已有数据,调整正则化参数,降低过拟合;
(4)降低学习速率,确定模型的最佳参数组合;
S54、将步骤S53中所有生成树合并,即得到柴油发动机故障诊断模型;
S6、将待诊断的柴油发动机真实数据输入步骤S6得到的柴油发动机故障诊断模型中,得到发动机的健康状态诊断结果。
下面通过仿真实例对训练完成的柴油发动机故障诊断模型的效果进行分析,对模型的有效性和有效性进行验证。
仿真数据集基于零维热力学模型的故障仿真模型。所采用的特征向量是从热力学模型中选取,在电机旋转频率为2500RPM的条件下,通过对气缸内进气总管温度、进气管压强、排气管温度、排气管压强、气缸温度、气缸压强、油冷却器入口温度、油冷却器出口温度、油冷却器出口压强、冷却水进口温度,冷却水出口温度、冷却水进口压强和冷却水出口压强的信号依次进行处理,得到一一对应的预处理后的数据f1-f13,如下表2所示:
表2预处理后的数据
Figure BDA0003550941860000091
并将上述预处理后的数据作为测试机的输入分别输入到本发明的SMOTEENN-Xgboost模型以及Xgboost模型和随机森林(RandomForest)模型中来进行预测和模型性能的评估。
为了综合评价比较各个算法的预测精度,采用准确率(accuracy)、召回率(recall)和AUC三项评价指标对各模型进行综合评价,如下表3所示:
表3不同诊断模型预测精度对比
Figure BDA0003550941860000101
通过表3的结果可以看出,与其他两种模型相比,本发明实施例提供的SMOTEENN-Xgboost模型在准确率、召回率以及auc值上均有较大的提升,证明了本发明实施例提供的诊断方法的有效性和准确性,因而,本发明提出的基于不均衡数据的柴油发动机故障诊断方法,能有效提高数类故障样本诊断的准确性和有效性。
图2为本发明实施例提供的数据集在均衡化处理之前的样本分布图,图3为本发明实施例提供的数据集在均衡化处理之后的样本分布图,通过图2可以看出故障样本点远远小于正常样本点,样本数据之间不均衡率较高,通过图3可以看出两种类型之间的采样数近似相等,样本数据之间的不均衡得到改善,说明均衡化处理可以避免了噪声点的产生,有效克服样本数据之间的不均衡与边缘化问题。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (6)

1.一种基于不均衡数据的柴油发动机故障诊断方法,其特征在于,包括以下步骤:
S1、分别采集若干个正常运行和故障运行的柴油发动机状态参数组成数据集;
S2、对步骤S1得到的数据集进行预处理,得到预处理数据集;
S3、对步骤S2得到的预处理数据集进行故障标记,得到训练集;
S4、利用SMOTEENN混合采样算法对步骤S3得到的训练集进行处理,得到均衡化数据集;
S5、基于Xgboost模型对步骤S4得到的均衡化数据集进行训练,在训练过程中采用K折交叉验证法与网格搜索算法进行模型参数优化,即得到柴油发动机故障诊断模型,所述柴油发动机故障诊断模型如下所示:
Figure FDA0003550941850000011
其中:
Figure FDA0003550941850000012
为预测值,t为树的数量,fk为第k棵独立的树,xi为第i个数据集样本;
S6、将待诊断的柴油发动机真实数据输入步骤S6得到的柴油发动机故障诊断模型中,得到发动机的健康状态诊断结果。
2.根据权利要求1所述的基于不均衡数据的柴油发动机故障诊断方法,其特征在于,步骤S1中,所述柴油发动机状态参数包含进气总管温度、进气管压强、排气管温度、排气管压强、气缸温度、气缸压强、油冷却器入口温度、油冷却器出口温度、油冷却器出口压强、冷却水进口温度,冷却水出口温度、冷却水进口压强和冷却水出口压强。
3.根据权利要求1所述的基于不均衡数据的柴油发动机故障诊断方法,其特征在于,步骤S2中,所述预处理包括以下步骤:将步骤S1得到的数据集去除异常值,采用中值滤波的方法进行数据去噪,采用同类均值插补方法进行缺失数据填补,对所采集的数据集进行归一化处理,得到预处理数据集,归一化公式如下:
Figure FDA0003550941850000021
其中:x*为归一化后的数据,x为原始数据,μ为所有样本的均值,σ为所有样本数据的标准差。
4.根据权利要求1所述的基于不均衡数据的柴油发动机故障诊断方法,其特征在于,步骤S4中,所述均衡化数据集通过以下步骤得到:
S41、遍历步骤S3得到的训练集,设多数类样本集合为N,少数类为P,xi为P中的一个样本,通过KNN算法在整个训练集中搜索离样本xi最近的k个样本,k个样本中少数类记为ki
S42、若ki=0,即xi附近k个最近邻都是多数类,则认为xi是噪点,不做处理,若ki≥1/2k,则认为是内部点,也不做任何处理,若0<ki<1/2k,则认为xi是容易被错分的边界点,对xi执行第S33步骤;
S43、重复从xi的k的近邻中随机选择一个样本,在它们之间随机合成一个点作为新的少数类样本并添加到训练集中,得到新训练集,所采用的公式如下:
xn=xi+ξ(xi-ki)
其中,xi为少数类样本点,ki为xi的近邻,ξ为0到1之间的随机数;
S44、对新训练集使用KNN算法,去除预测结果与实际类别不符的样本点,减少生成的少数样本和多数样本重叠的概率,得到均衡化数据集。
5.根据权利要求1所述的基于不均衡数据的柴油发动机故障诊断方法,其特征在于,步骤S5中,所述柴油发动机故障诊断模型通过以下步骤得到:
S51、输入特征数为m,样本数为n的步骤S4得到的均衡化数据集D={(xi,yi)|xi∈Rm,yi∈R},其预测值
Figure FDA0003550941850000031
为每棵树的打分累加和,
Figure FDA0003550941850000032
通过以下公式得到:
Figure FDA0003550941850000033
其中,t为数的数量,fk为第k棵独立的树,xi为第i个数据集样本;
加入正则化后的目标损失函数为:
Figure FDA0003550941850000034
正则化项为:
Figure FDA0003550941850000035
其中,
Figure FDA0003550941850000036
为第i个目标样本的预测值,yi为真实值,
Figure FDA0003550941850000037
为损失函数,wk为第k棵树的叶子节点权重,Ω(fk)为树复杂度,γ为惩罚项,Tk为第k棵树叶子节点的数量,λ为正则项系数;
S52、每颗树通过贪心算法选择不同的特征进行分裂,通过泰勒展开式计算分裂后的损失函数比单个叶子节点的增益,分裂的增益函数为:
Figure FDA0003550941850000038
其中,GR和GL为节点分裂后左右子树关于
Figure FDA0003550941850000039
的一阶导数和,HL和HR为左右子树关于
Figure FDA00035509418500000310
的二阶导数和,λ为正则项系数;
S53、不断重复步骤S52迭代生成新的CART树来拟合上一棵树的残差,当样本权重和小于设定阈值时,则停止建树;
S54、将步骤S53中所有生成树合并,即得到柴油发动机故障诊断模型。
6.根据权利要求5所述的基于不均衡数据的柴油发动机故障诊断方法,其特征在于,步骤S5中,所述参数优化包括以下步骤:
(1)选择0.3作为初始的学习速率,使用默认值作为集成参数初始值,在步骤S53中的每一次迭代中使用K-fold交叉验证,确定最优决策树数量;
(2)根据确定的学习速率与决策树数量,采用K折交叉验证法与网格搜索法进行决策树特定参数调优;
(3)基于已有数据,调整正则化参数,降低过拟合;
(4)降低学习速率,确定模型的最佳参数组合。
CN202210262193.2A 2022-03-17 2022-03-17 一种基于不均衡数据的柴油发动机故障诊断方法 Pending CN114707706A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210262193.2A CN114707706A (zh) 2022-03-17 2022-03-17 一种基于不均衡数据的柴油发动机故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210262193.2A CN114707706A (zh) 2022-03-17 2022-03-17 一种基于不均衡数据的柴油发动机故障诊断方法

Publications (1)

Publication Number Publication Date
CN114707706A true CN114707706A (zh) 2022-07-05

Family

ID=82168009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210262193.2A Pending CN114707706A (zh) 2022-03-17 2022-03-17 一种基于不均衡数据的柴油发动机故障诊断方法

Country Status (1)

Country Link
CN (1) CN114707706A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758897A (zh) * 2022-11-24 2023-03-07 天津华翼蓝天科技股份有限公司 一种基于机器学习的模拟机故障诊断方法
CN115810011A (zh) * 2023-02-07 2023-03-17 广东奥普特科技股份有限公司 异常检测网络的训练及异常检测方法、装置和设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334764A (zh) * 2019-07-04 2019-10-15 西安电子科技大学 基于集成深度自编码器的旋转机械智能故障诊断方法
CN110987439A (zh) * 2019-12-05 2020-04-10 山东超越数控电子股份有限公司 一种基于Logistics回归和Xgboost模型的航空发动机故障预测方法
CN111444940A (zh) * 2020-02-28 2020-07-24 山东大学 风机关键部位故障诊断方法
CN112380349A (zh) * 2020-12-04 2021-02-19 有米科技股份有限公司 商品性别分类方法、装置及电子设备
CN112766356A (zh) * 2021-01-14 2021-05-07 中山大学 一种基于动态权重D-XGBoost模型的预测方法及系统
CN113505639A (zh) * 2021-05-28 2021-10-15 北京化工大学 一种基于TPE-XGBoost的旋转机械多参数健康状态评估方法
CN113706285A (zh) * 2021-07-08 2021-11-26 长江大学 一种信用卡欺诈检测方法
CN113702728A (zh) * 2021-07-12 2021-11-26 广东工业大学 一种基于组合采样和LightGBM的变压器故障诊断方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334764A (zh) * 2019-07-04 2019-10-15 西安电子科技大学 基于集成深度自编码器的旋转机械智能故障诊断方法
CN110987439A (zh) * 2019-12-05 2020-04-10 山东超越数控电子股份有限公司 一种基于Logistics回归和Xgboost模型的航空发动机故障预测方法
CN111444940A (zh) * 2020-02-28 2020-07-24 山东大学 风机关键部位故障诊断方法
CN112380349A (zh) * 2020-12-04 2021-02-19 有米科技股份有限公司 商品性别分类方法、装置及电子设备
CN112766356A (zh) * 2021-01-14 2021-05-07 中山大学 一种基于动态权重D-XGBoost模型的预测方法及系统
CN113505639A (zh) * 2021-05-28 2021-10-15 北京化工大学 一种基于TPE-XGBoost的旋转机械多参数健康状态评估方法
CN113706285A (zh) * 2021-07-08 2021-11-26 长江大学 一种信用卡欺诈检测方法
CN113702728A (zh) * 2021-07-12 2021-11-26 广东工业大学 一种基于组合采样和LightGBM的变压器故障诊断方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758897A (zh) * 2022-11-24 2023-03-07 天津华翼蓝天科技股份有限公司 一种基于机器学习的模拟机故障诊断方法
CN115810011A (zh) * 2023-02-07 2023-03-17 广东奥普特科技股份有限公司 异常检测网络的训练及异常检测方法、装置和设备

Similar Documents

Publication Publication Date Title
CN110954312B (zh) 一种基于无键相整周期信号的往复机械故障诊断方法
CN109164343B (zh) 基于特征信息量化与加权knn的变压器故障诊断方法
CN114707706A (zh) 一种基于不均衡数据的柴油发动机故障诊断方法
CN111046945B (zh) 基于组合卷积神经网络的故障类型及损坏程度诊断方法
CN111458142B (zh) 基于生成对抗网络和卷积神经网络的滑动轴承故障诊断方法
CN112257530B (zh) 基于盲信号分离和支持向量机的滚动轴承故障诊断方法
CN109060398B (zh) 一种多源信息设备故障诊断方法
CN112052871B (zh) 一种基于支持向量机的火箭发动机健康诊断方法及系统
CN109000921B (zh) 一种风电机组主轴故障的诊断方法
CN111160457B (zh) 基于软一类极限学习机的涡轴发动机故障检测方法
CN112163640A (zh) 基于深度卷积迁移学习行星齿轮箱故障诊断方法及系统
CN110837223A (zh) 一种燃气轮机燃烧优化控制方法及系统
CN112729834B (zh) 一种轴承故障的诊断方法、装置和系统
CN115791174B (zh) 一种滚动轴承异常诊断方法、系统、电子设备及存储介质
CN114970628B (zh) 样本不均衡下基于生成对抗网络的转动部件故障诊断方法
CN116625686A (zh) 一种航空发动机轴承故障在线诊断方法
CN114441173B (zh) 基于改进深度残差收缩网络的滚动轴承故障诊断方法
CN115587290A (zh) 基于变分自编码生成对抗网络的航空发动机故障诊断方法
CN115204272A (zh) 基于多采样率数据的工业系统故障诊断方法与设备
CN113469252A (zh) 一种考虑不平衡样本的特高压换流阀运行状态评估方法
CN117232809A (zh) 基于dematel-anp-critic组合赋权的风机主轴故障预诊断方法
CN110826600B (zh) 基于自适应共振网络在线增量学习的发动机喘振预测方法
CN110826587B (zh) 基于改进的加权一类支持向量机的涡轴发动机故障检测方法
CN112380782A (zh) 一种基于混合指标和神经网络的旋转设备故障预测方法
CN110702438A (zh) 一种离心式冷水机组与新风系统联合故障诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination