CN110458204A - 基于信息增益和LightGBM模型的汽车故障预测方法 - Google Patents

基于信息增益和LightGBM模型的汽车故障预测方法 Download PDF

Info

Publication number
CN110458204A
CN110458204A CN201910664303.6A CN201910664303A CN110458204A CN 110458204 A CN110458204 A CN 110458204A CN 201910664303 A CN201910664303 A CN 201910664303A CN 110458204 A CN110458204 A CN 110458204A
Authority
CN
China
Prior art keywords
model
sample
classification
supply chain
lightgbm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910664303.6A
Other languages
English (en)
Inventor
朱平
颜诗旋
刘钊
刘灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910664303.6A priority Critical patent/CN110458204A/zh
Publication of CN110458204A publication Critical patent/CN110458204A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于信息增益和LightGBM模型的汽车故障预测方法,以信息增益值作为评价指标度量特征与类别间的相关程度进行特征选择和训练样本的生成,通过训练样本对LightGBM不平衡模型训练后,进一步采用分步网格搜索优化模型参数并将优化后的模型用于汽车故障预测;本发明提升模型效率的同时提高了故障查全率,从而显著增强了对汽车故障的预测能力。

Description

基于信息增益和LightGBM模型的汽车故障预测方法
技术领域
本发明涉及的是一种汽车制造领域的技术,具体是一种基于信息增益和LightGBM模型的汽车故障预测方法。
背景技术
汽车故障预测是指对于收集到的汽车故障数据集,建立机器学习模型,从而预测新的样本所属的类别,即故障或正常,从而对有故障的汽车及时进行检修,将汽车故障引起的交通事故防患于未然。
收集到的汽车故障数据集常呈现出特征维度高、类别不平衡的特点,而现有的汽车故障预测方法大多忽视了这两个特点,导致故障查全率较低。如何准确地量化特征与与类别的相关性以剔除掉不相关的特征,并增强对类别不平衡数据集的预测能力,是汽车故障预测中亟待解决的问题。
发明内容
本发明针对现有方法的不足,提出一种基于信息增益和LightGBM模型的汽车故障预测方法,使用信息增益衡量特征与与类别的相关性,进而剔除了不相关的特征;针对类别不平衡问题,建立了带有类别权重和L1、L2正则化项的LightGBM不平衡分类模型,提高了对故障的查全率。
本发明是通过以下技术方案实现的:
本发明涉及一种基于信息增益和LightGBM模型的汽车故障预测方法,以信息增益值作为评价指标度量特征与类别间的相关程度进行特征选择和训练样本的生成,使用训练样本对LightGBM不平衡分类模型训练后,进一步采用分步网格搜索优化模型参数并将优化后的模型用于汽车故障预测。
所述的信息增益(Information Gain,IG)是指:某特征所提供的类别可分性的信息,定义为先验熵H(F)与后验熵H(F|Y)的差值:IG(F;Y)=H(F)-H(F|Y),其中:特征F的先验熵H(F)=-∑iP(fi)log2(P(fi)),其中:P(f)为特征f的概率密度函数;特征F对类别Y的后验熵H(F|Y)=-∑jP(yj)∑iP(fi|yj)log2(P(fi|yj)),其中:P(f|y)为特征f对类别Y的条件概率密度函数。
所述的特征是指:样本在某方面的性质,包括但不限于汽车的速度、行驶里程等。
所述的类别是指:样本所属的类别,在汽车故障预测中类别为发生故障或状态正常。
所述的特征选择是指:计算出各特征的信息增益后,对各特征的信息增益按照从大到小进行降序排列,从而剔除掉排名靠后的特征,使用余下的特征送入模型进行训练。
所述的LightGBM不平衡分类模型是指:以决策树为基学习器的集成学习模型,通过使用直方图算法寻找决策树的最佳分裂结点,并使用带深度限制的叶子生长策略分裂结点,该模型在损失函数中引入了类别权重和L1、L2正则化项,具体为:修正损失函数 其中:类别权重系数出于放大少数类损失的目的,将少数类权重系数γ设置为一个大于1的整数,初始状态下设置为10,是单棵决策树对样本类别yi和预测类别的损失函数,α||ω||1为L1正则化项,为L2正则化项,ω为决策树的参数,在模型训练过程将由决策树算法自动设定,α、β为正则化项系数,初始状态下均设置为0.1。
所述的损失函数是指在模型训练过程中量化模型的预测类别与真实类别之间的差异的函数。对于标准的LightGBM模型,其损失函数为:yi为该样本的类别,为单棵决策树对第i个样本的预测类别,是单棵决策树对样本类别yi和预测类别的损失函数。
所述的LightGBM不平衡分类模型中的类别权重是为数据集中的少数类(有故障)样本、多数类(无故障)样本设置不同的重要性,使得少数类样本在模型训练过程中更为重要,达到放大少数类样本损失的目的,加强对少数类的学习。
所述的LightGBM不平衡分类模型中的L1正则化倾向于使得模型参数尽量稀疏,即非零分量个数尽量少,L2正则化倾向于使得模型参数尽量均衡,即非0参数个数尽量稠密。为了避免仅适用L1正则化使模型参数过于系数或仅适用L2正则化使模型参数过于稠密,因而在损失函数中同时引入L1、L2两个正则化项,以有效地控制模型复杂程度。
所述的LightGBM不平衡分类模型训练是指:模型的损失函数最小化的过程。对样本数量为m、特征维度为n的数据集D={(xi,yi)},其中:xi为第i个样本,yi为该样本的类别,yi=0为多数类(无故障),yi=1为少数类(有故障),在训练集上使用本发明的LightGBM模型训练时,以损失函数最小为目标进行迭代。
所述的分步网格搜索是指:先使用较广的搜索范围和较大的步长,寻找全局最优值,即L1正则化项系数α、L2正则化项系数β、少数类权重系数γ可能的位置,然后逐渐缩小搜索范围和步长,来寻找更精确的最优值。
本发明进一步优选在测试集上使用查全率评价预测性能,该查全率是指故障被机器模型能够成功预测到的概率,即其反映了模型对汽车故障样本的预测能力,其中:TP为被正确分类为有故障的样本数,即有故障的样本被成功预测为有故障;FP为被错误分类为有故障的样本数,即无故障的样本被误认为有故障;TN为被正确分类为无故障的样本数,即无故障的样本被成功预测为无故障;FN为被错误分类为无故障的样本数,即有故障的样本被误认为无故障。
技术效果
与现有技术相比,本发明使用信息增益评价特征与类别间的相关性,有效降低了特征维度;本发明建立了带有类别权重和L1、L2正则化项的LightGBM不平衡分类模型,并使用分步网格搜索给出参数的最优取值,提升模型效率的同时提高了故障查全率,从而增强了对汽车故障的预测能力。
附图说明
图1为本发明流程示意图;
图2为实施例中缺失值比例最高的20个特征的柱状图;
图3为实施例中信息增益最小的20个特征的柱状图。
具体实施方式
如图1所示,本实施例以斯堪尼亚卡车汽车故障预测数据集为例进行说明,具体包括以下步骤:
步骤1、读取数据:本实施例所采用的数据集特征维度为170维,记录了汽车速度、行驶里程、档位等信息。数据集共有60000个训练样本和16000个测试样本,各样本类别为有故障或无故障。其中在训练集的60000个样本中,有59000个样本的类别为无故障,仅有1000个样本的类别为有故障。
步骤2、用中位数补全缺失值:统计数据集中各特征的缺失值比例,缺失值比例最高的20个特征如图2所示,可见数据集中存在大量的缺失值,本发明使用各特征的中位数补全缺失值。
步骤3、类别编码:将类别编码为0、1,将无故障样本的类别编码为0,将有故障样本的类别编码为1。
步骤4、使用信息增益选择特征:使用信息增益IG统计各特征的重要程度,信息增益最小的20个特征如图3所示。考虑到信息增益小的特征所提供的类别可分性信息较少,本实施例中剔除掉信息增益最小的20个特征,使用余下的150个特征作为模型的训练样本。
步骤5、对带有类别权重和L1、L2正则化项的LightGBM不平衡分类模型进行训练:在训练集上,使用本方法所提出的带有类别权重和L1、L2正则化项的LightGBM不平衡分类模型作为学习器,按照5折交叉验证的方式训练模型。
步骤6、分步网格搜索优化:使用分步网格搜索的方法调整LightGBM不平衡分类模型的L1正则化项系数α、L2正则化项系数β、少数类权重系数γ等3个参数。
本实施例经上述优化后得到的参数为:α=0.01,β=0.005,γ=55。
步骤7、预测测试集样本类别:在测试集上使用训练好的LightGBM机器学习模型,预测16000个测试集样本的类别。
本实施例中对每个样本的分类阈值设置为0.05。
步骤8、模型评估:在测试集上通过混淆矩阵计算查全率。
表1混淆矩阵
根据表1可见,测试集中实际上共有375个样本的类别为有故障,本方法从中成功预测出了365个故障样本,对故障样本的查全率达97.33%,很好地完成了对汽车故障的预测。
为了进一步说明本方法的有效性,使用传统的GBM机器学习方法作为对比,分别计算各自的故障查全率Recall,并记录各方法的模型训练时间,以评价各方法的预测性能。本方法所得结果与GBM机器学习方法比较如表2所示。
表2本方法与GBM方法的结果对比
根据表2可见,本方法很好实现了预期的发明目的,故障查全率达97.3%,相比传统的GBM方法提高30.1%,增强了对汽车故障的预测能力;另一方面,本方法相比传统的GBM方法,大幅度降低了模型训练时长,提高了使用机器学习技术预测汽车故障的建模效率,降低了计算成本。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (5)

1.一种基于信息增益和LightGBM模型的汽车故障预测方法,其特征在于,以信息增益值作为评价指标度量特征与类别间的相关程度进行特征选择和训练样本的生成,通过训练样本对LightGBM不平衡模型训练后,进一步采用分步网格搜索优化模型参数并将优化后的模型用于汽车故障预测;
所述的LightGBM不平衡分类模型是指:以决策树为基学习器的集成学习模型,通过使用直方图算法寻找决策树的最佳分裂结点,并使用带深度限制的叶子生长策略分裂结点,该模型在损失函数中引入了类别权重和L1、L2正则化项,具体为:修正损失函数 其中:类别权重系数出于放大少数类损失的目的,将少数类权重系数γ设置为一个大于1的整数,是单棵决策树对样本类别yi和预测类别的损失函数,α||ω||1为L1正则化项,为L2正则化项,ω为决策树的参数,在模型训练过程将由决策树算法自动设定,α、β为正则化项系数。
2.根据权利要求1所述的汽车故障预测方法,其特征是,所述的信息增益是指:某特征所提供的类别可分性的信息,定义为先验熵H(F)与后验熵H(F|Y)的差值:IG(F;Y)=H(F)-H(F|Y),其中:特征F的先验熵H(F)=-∑iP(fi)log2(P(fi)),其中:P(f)为特征f的概率密度函数;特征F对类别Y的后验熵H(F|Y)=-∑jP(yj)∑iP(fi|yj)log2(P(fi|yj)),其中:P(f|y)为特征f对类别Y的条件概率密度函数;
在计算出各特征的信息增益后,对各特征的信息增益按照从大到小进行降序排列,从而剔除掉排名靠后的20个特征,使用余下的特征送入模型进行训练。
3.根据权利要求1所述的汽车故障预测方法,其特征是,所述的LightGBM不平衡分类模型训练是指:模型的损失函数最小化的过程,对样本数量为m、特征维度为n的数据集D={(xi,yi)},其中:xi为第i个样本,yi为该样本的类别,yi=0为无故障,yi=1为有故障,在训练集上使用LightGBM不平衡分类模型训练时,以损失函数最小为目标进行迭代。
4.根据权利要求1所述的汽车故障预测方法,其特征是,所述的分步网格搜索是指:先使用较广的搜索范围和较大的步长,寻找全局最优值,即L1正则化项系数α、L2正则化项系数β、少数类权重系数γ可能的位置,然后逐渐缩小搜索范围和步长,来寻找更精确的最优值。
5.根据权利要求1所述的汽车故障预测方法,其特征是,在测试集上使用查全率评价预测性能,该查全率是指故障被机器模型能够成功预测到的概率,即其反映了模型对汽车故障样本的预测能力,其中:TP为被正确分类为有故障的样本数,即有故障的样本被成功预测为有故障;FP为被错误分类为有故障的样本数,即无故障的样本被误认为有故障;TN为被正确分类为无故障的样本数,即无故障的样本被成功预测为无故障;FN为被错误分类为无故障的样本数,即有故障的样本被误认为无故障。
CN201910664303.6A 2019-07-23 2019-07-23 基于信息增益和LightGBM模型的汽车故障预测方法 Pending CN110458204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910664303.6A CN110458204A (zh) 2019-07-23 2019-07-23 基于信息增益和LightGBM模型的汽车故障预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910664303.6A CN110458204A (zh) 2019-07-23 2019-07-23 基于信息增益和LightGBM模型的汽车故障预测方法

Publications (1)

Publication Number Publication Date
CN110458204A true CN110458204A (zh) 2019-11-15

Family

ID=68483056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910664303.6A Pending CN110458204A (zh) 2019-07-23 2019-07-23 基于信息增益和LightGBM模型的汽车故障预测方法

Country Status (1)

Country Link
CN (1) CN110458204A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062517A (zh) * 2019-11-21 2020-04-24 上海航天智慧能源技术有限公司 一种基于GBDT的LightGBM模型的冷、热负荷预测方法
CN111523560A (zh) * 2020-03-18 2020-08-11 第四范式(北京)技术有限公司 到港货车数量预测模型训练方法、预测方法、装置及系统
CN113378908A (zh) * 2021-06-04 2021-09-10 浙江大学 基于LightGBM算法和网格搜索算法的暖通空调系统故障诊断方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239638A1 (en) * 2006-03-20 2007-10-11 Microsoft Corporation Text classification by weighted proximal support vector machine
JP2014194369A (ja) * 2013-03-28 2014-10-09 Fujitsu Ltd 部品故障発生予測方法、部品故障発生予測プログラムおよび部品故障発生予測装置
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN105373606A (zh) * 2015-11-11 2016-03-02 重庆邮电大学 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN105955233A (zh) * 2016-04-28 2016-09-21 郑州宇通客车股份有限公司 一种基于数据挖掘的车辆故障诊断方法及系统
CN108416373A (zh) * 2018-02-11 2018-08-17 华东理工大学 一种基于正则化Fisher阈值选择策略的不平衡数据分类系统
US20180276912A1 (en) * 2017-03-23 2018-09-27 Uber Technologies, Inc. Machine Learning for Triaging Failures in Autonomous Vehicles
CN109086412A (zh) * 2018-08-03 2018-12-25 北京邮电大学 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法
CN110009030A (zh) * 2019-03-29 2019-07-12 华南理工大学 基于stacking元学习策略的污水处理故障诊断方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239638A1 (en) * 2006-03-20 2007-10-11 Microsoft Corporation Text classification by weighted proximal support vector machine
JP2014194369A (ja) * 2013-03-28 2014-10-09 Fujitsu Ltd 部品故障発生予測方法、部品故障発生予測プログラムおよび部品故障発生予測装置
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN105373606A (zh) * 2015-11-11 2016-03-02 重庆邮电大学 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN105955233A (zh) * 2016-04-28 2016-09-21 郑州宇通客车股份有限公司 一种基于数据挖掘的车辆故障诊断方法及系统
US20180276912A1 (en) * 2017-03-23 2018-09-27 Uber Technologies, Inc. Machine Learning for Triaging Failures in Autonomous Vehicles
CN108416373A (zh) * 2018-02-11 2018-08-17 华东理工大学 一种基于正则化Fisher阈值选择策略的不平衡数据分类系统
CN109086412A (zh) * 2018-08-03 2018-12-25 北京邮电大学 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法
CN110009030A (zh) * 2019-03-29 2019-07-12 华南理工大学 基于stacking元学习策略的污水处理故障诊断方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUOLIN KE等: "LightGBM: A Highly Efficient Gradient Boosting Decision Tree", 《31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017)》 *
朱东阳等: "基于主动学习和加权支持向量机的工业故障识别", 《浙江大学学报(工学版)》 *
郭华平等: "面向类不平衡的逻辑回归方法", 《模式识别与人工智能》 *
魏金太等: "基于信息增益和随机森林分类器的入侵检测系统研究", 《中北大学学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062517A (zh) * 2019-11-21 2020-04-24 上海航天智慧能源技术有限公司 一种基于GBDT的LightGBM模型的冷、热负荷预测方法
CN111523560A (zh) * 2020-03-18 2020-08-11 第四范式(北京)技术有限公司 到港货车数量预测模型训练方法、预测方法、装置及系统
CN111523560B (zh) * 2020-03-18 2023-07-25 第四范式(北京)技术有限公司 到港货车数量预测模型训练方法、预测方法、装置及系统
CN113378908A (zh) * 2021-06-04 2021-09-10 浙江大学 基于LightGBM算法和网格搜索算法的暖通空调系统故障诊断方法

Similar Documents

Publication Publication Date Title
CN110458204A (zh) 基于信息增益和LightGBM模型的汽车故障预测方法
CN104134351B (zh) 一种短时交通流预测方法
CN105677791B (zh) 用于分析风力发电机组的运行数据的方法和系统
CN110222681A (zh) 一种基于卷积神经网络的铸件缺陷识别方法
Gyawali et al. Comparative analysis of multiple deep CNN models for waste classification
CN113362299B (zh) 一种基于改进YOLOv4的X光安检图像检测方法
CN103166830A (zh) 一种智能选择训练样本的垃圾邮件过滤系统和方法
CN111815056A (zh) 基于飞参数据的机务外场飞机燃油系统故障预测方法
CN1900937A (zh) 估计形式验证问题的难度级
CN107341508B (zh) 一种快速美食图片识别方法及系统
CN109086825A (zh) 一种基于模型自适应选择的多分类模型融合方法
CN111488911B (zh) 基于Mask R-CNN与GAN的图像实体抽取方法
CN114049305B (zh) 基于改进ALI和Faster-RCNN的配电线路销钉缺陷检测方法
CN112200225A (zh) 基于深度卷积神经网络的钢轨伤损b显图像识别方法
CN112651534B (zh) 一种预测资源供应链需求量的方法、装置及存储介质
CN106779086A (zh) 一种基于主动学习和模型剪枝的集成学习方法及装置
CN111461120A (zh) 一种基于区域的卷积神经网络物体表面缺陷检测方法
CN114186644A (zh) 一种基于优化随机森林的缺陷报告严重程度预测方法
CN114330120B (zh) 一种基于深度神经网络预测24小时pm2.5浓度的方法
CN113391938B (zh) 一种基于混合策略的快速序贯故障诊断方法
CN115828121A (zh) 基于邻接dbscan融合时变多图卷积网络的交通流预测方法
CN118038021A (zh) 基于改进yolov4的变电站作业现场异物入侵检测方法
CN117951576A (zh) 基于Transformer时序多模态特征的电力系统恶意流量检测方法
CN115984234A (zh) 一种基于改进Yolov5的桥梁裂缝检测分类方法
CN111523557A (zh) 基于大数据的风电智能化故障诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115