CN105955233B

CN105955233B - 一种基于数据挖掘的车辆故障诊断方法及系统

Info

Publication number: CN105955233B
Application number: CN201610279367.0A
Authority: CN
Inventors: 王亚松; 彭能岭; 李振山; 赵亚涛; 徐阳; 赵清; 陈爽; 张永瑞
Original assignee: Zhengzhou Yutong Bus Co Ltd
Current assignee: Yutong Bus Co Ltd
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2018-09-25
Anticipated expiration: 2036-04-28
Also published as: CN105955233A

Abstract

本发明涉及一种基于数据挖掘的车辆故障诊断方法及系统，属于车辆故障诊断技术领域。本发明从获取的大量车辆故障数据中，挖掘出各个数据参数值之间及参数属性值与故障类之间的隐藏关系，能够及时并有效地确定车辆发生故障的零部件，确定故障类型及故障原因，防止故障恶化而产生重大事故。同时，本发明采用组合分类的方法对车辆故障数据进行诊断，通过构建k个故障诊断模型对车辆故障进行诊断，与使用单个故障诊断模型相比，显著提高了故障诊断准确率。

Description

一种基于数据挖掘的车辆故障诊断方法及系统

技术领域

本发明涉及一种基于数据挖掘的车辆故障诊断方法及系统，属于车辆故障诊断技术领域。

背景技术

随着新能源客车上增加的电子设备越来越多，新能源客车出现的故障类型也随之增多。新能源客车的故障主要有发电机故障、动力电池故障、转向故障、空压机故障等。另外，发电机故障又包括电机过压、电机欠压、电机过温等，动力电池故障又包括电池过压故障、电池过温故障、绝缘电阻过低等故障。可见，新能源客车故障种类繁多，又由于其复杂的非线性性，故障发生时，难以判断发生故障的部位及确定故障的原因。然而现有的监控系统，不论是集中式还是基于云计算框架的，都仅仅通过人工定义的统计条件去分析故障产生的规律和原因，为新能源客车系统的改进和故障的预测只能提供有限的信息。一些隐藏在海量数据之中有价值的信息不能被挖掘出来，这些信息可能是有着意想不到的制约关系或规律，会对新能源客车系统的改进提供非常大的帮助。所以，提出一种基于数据挖掘的新能源汽车故障诊断方法尤为重要。

发明内容

本发明的目的是提供一种基于数据挖掘的车辆故障诊断方法及系统，以提高对车辆故障诊断的准确性。

本发明为解决上述技术问题而提供一种基于数据挖掘的车辆故障诊断方法，该诊断方法包括以下步骤：

步骤1.采集车辆故障数据，包括车辆发生故障时各零部件的相关参数数据，得到具有故障类标记的车辆故障数据集D，D中包含n个车辆故障数据样本{s₁,s₂,s₃,…s_n}；

步骤2.构建故障诊断模型：

2.1.初始化每个数据样本的权重为1/n；

2.2.根据数据样本的权重从D中有放回抽样，得到包含n个车辆故障数据样本的车辆故障数据集D_i；

2.3.在每个车辆故障数据集D_i上构建一个车辆故障诊断模型M_i(i＝1,2,…,k)，并计算M_i的错误率error(M_i)

其中，err(s_j)是数据样本s_j的误分类误差，如果s_j被误分类，则err(s_j)为1，否则它为0，w_i为数据样本s_j在第i次迭代的权重；

2.4.当error(M_i)大于设定值时，则转到步骤2.2重新构建车辆故障诊断模型；

2.5.当error(M_i)小于设定值，则对D_i中每个被正确分类的车辆故障数据样本的权重乘以error(M_i)/(1-error(M_i))；

2.6.将步骤2.2-2.5重复k次，以得到k个车辆故障诊断模型M_i(i＝1,2,…,k)；

步骤3.利用所构建的k个故障诊断模型对实时采集到的车辆故障数据采用组合投票的方法进行故障诊断。

所述步骤2.3采用决策树算法在每个车辆故障数据集D_i上构建一个车辆故障诊断模型M_i(i＝1,2,…,k)，过程如下：

A.创建节点S；

B.如果D_i(i＝1,2,…,k)中所有数据样本都属于同一车辆故障类A，则返回S作为叶节点，并标记为故障类型A；

C.否则，选择所有参数中具有最大增益率的参数t，将参数t做为节点S的测试参数；

D.对测试参数t的每个区间划分创建一个分支，并据此划分样本；

E.在每一个划分样本上，重复步骤A-D，递归地构建车辆故障诊断模型，直至给定节点的所有数据样本属于同一故障类型，或者没有剩余车辆零部件参数可以用来进一步划分样本，或者给定的分支没有数据样本。

所述步骤C中最大增益率参数t指的是对故障数据样本{s₁,s₂,s₃,…s_n}具有增大增益率的参数，参数t的增益率为：

GainRate(t)＝Gain(t)/SpliInfo_t(D_i)

其中GainRate(t)为参数t的增益率，Gain(t)为参数t的信息增益，SpliInfo_t(D_i)为参数t的分裂信息。

对于构建好的车辆故障诊断模型还需采用后剪枝方法进行处理，以消除数据中的噪声和孤立点带来的训练异常。

所述步骤3中组合投票故障诊断包括以下步骤：

a.将每个车辆故障诊断模型M_i的权重初始化为0；

b.计算每个车辆故障诊断模型M_i的权重W_i，

W_i＝log(error(M_i)/(1-error(M_i)))；

c.如果车辆故障诊断模型M_i对车辆故障数据样本s_i诊断为故障类型C_i，车辆故障数据样本s_i属于故障类型C_i的权重就为W_i；

d.k个车辆故障诊断模型M_i都对车辆故障数据样本s_i进行故障诊断，即组合投票，最后返回具有最大权重和的故障类。

步骤1还包括对采集到的车辆故障数据进行预处理的过程，包括使用数据清理方法消除故障数据噪声和处理空缺值；使用数据归约方法对车辆故障数据进行维归约，以减少随机变量和属性的个数。

本发明还提供了一种基于数据挖掘的车辆故障诊断系统，该故障诊断系统包括数据采集处理模块、故障诊断模型构建模块和评估预测模块，

所述数据采集处理模块用于采集车辆故障数据，包括车辆发生故障时各零部件的相关参数数据，以得到具有故障类标记的车辆故障数据集D，D中包含n个车辆故障数据样本{s₁,s₂,s₃,…s_n}；

所述故障诊断模型构建模块用于构建故障诊断模型，其构建过程如下：

A).初始化每个数据样本的权重为1/n；

B).根据数据样本的权重从D中有放回抽样，得到包含n个车辆故障数据样本的车辆故障数据集D_i；

C).在每个车辆故障数据集D_i上构建一个车辆故障诊断模型M_i(i＝1,2,…,k)，并计算M_i的错误率error(M_i)

其中，err(s_j)是数据样本s_j的误分类误差：如果s_j被误分类，则err(s_j)为1；否则它为0；w_i为数据样本s_j在第i次迭代的权重；

D).当error(M_i)大于设定值时，则转到B)重新构建车辆故障诊断模型；

E).当error(M_i)小于设定值，则对D_i中每个被正确分类的车辆故障数据样本的权重乘以error(M_i)/(1-error(M_i))；

F).将步骤A)-E)重复k次，以得到k个车辆故障诊断模型M_i(i＝1,2,…,k)；

所述的评估预测模块用于根据所构建的k个故障诊断模型对实时采集到的车辆故障数据采用组合投票的方法进行故障诊断。

所述的故障诊断模型构建模块采用决策树算法在每个车辆故障数据集D_i上构建一个车辆故障诊断模型M_i(i＝1,2,…,k)，过程如下：

A.创建节点S；

C.否则，选择所有参数中具有最大增益率的参数t，参数t成为节点S的“测试”参数；

所述评估检测模块采用组合投票进行故障诊断的过程如下：

a.将每个车辆故障诊断模型Mi的权重初始化为0；

b.计算每个每个车辆故障诊断模型Mi的权重W_i，

W_i＝log(error(M_i)/(1-error(M_i)))；

c.如果车辆故障诊断模型M_i对车辆故障数据样本s_i诊断为故障类型C_i，那么车辆故障数据样本s_i属于故障类型C_i的权重就为W_i；

所述采集处理模块还用于对采集到的车辆故障数据进行预处理，包括使用数据清理方法消除故障数据噪声和处理空缺值；使用数据归约方法对车辆故障数据进行维归约，以减少随机变量和属性的个数。

本发明的有益效果是:本发明从获取的大量车辆故障数据中，挖掘出各个数据参数值之间及参数属性值与故障类之间的隐藏关系，能够及时并有效地确定车辆发生故障的零部件，确定故障类型及故障原因，防止故障恶化而产生重大事故。同时，本发明采用组合分类的方法对车辆故障数据进行诊断，通过构建k个故障诊断模型对车辆故障进行诊断，与使用单个故障诊断模型相比，显著提高了故障诊断准确率。

附图说明

图1是本发明车辆故障诊断的流程图；

图2是本发明所采用的组合分类方法示意图；

图3-a是车辆故障数据样本为离散值的故障诊断数示意图；

图3-b是车辆故障数据样本为连续值的故障诊断树示意图；

图4是车辆信息采集终端结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的说明。

本发明的一种基于数据挖掘的车辆故障诊断方法的实施例

针对现有的车辆故障诊断系统不能较好地完成汽车上各个零部件故障诊断的任务，本发明采用数据挖掘的方法，对汽车的实时监测数据进行数据分析，判断汽车是否处于安全运行状态，对发生故障的汽车定位故障发生的部位，给出故障原因并报警，防止故障恶化。该方法的流程如图1所示，该方法的具体实施过程如下：

步骤1.采集新能源车辆故障数据，对采集到的新能源车辆故障数据进行数据预处理，得到具有故障类标记的车辆故障数据集D，D中包含n个车辆故障数据样本{s₁,s₂,s₃,…s_n}。

车辆故障数据包括车辆发生故障时各零部件的相关参数数据。如当发生动力电池过温故障时，动力电池、发动机、发电机、转向器等所有零部件的相关参数的数据集合。本实施例中的采集到的车辆故障数据来源于车辆信息采集终端，如图4所示，本实施例的车辆信息采集终端包括远程升级模块、信息处理模块以及分别与该信息处理模块相连的CAN总线通信模块、供电模块、信息显示模块、数据存储模块、USB模块；信息处理模块还连接有无线通信模块和模拟信号处理模块和GPS模块；CAN总线通讯模块通过CAN总线分别用于与发动机ECU、主电机控制器、ISG控制器、超级电容管理系统、电池管理系统、DC-DC管理系统、转向控制器、整车控制器、变速箱控制器、空调管理系统、ABS管理模块和仪表模块相连。该终端通过CAN总线与其他设备相连，遵循SAEJ1939CAN总线协议，实时采集CAN总线上传输的数据。SAEJ1939标准是美国汽车工程师协会发布的以CAN总线为核心的车辆网络串行通讯和控制协议，SAEJ1939协议以CAN2.0协议为基础，通讯速率最高可达250Kb/s。它对汽车内部ECU的地址配置。命名、通讯方式及报文发送优先级都给出明确规定，并且详细说明了汽车内部各个供体的ECU通讯。

为了使所购建的故障诊断模型更加准确，本发明还对采集到的车辆故障数据进行预处理，包括使用数据清理方法消除数据噪声和处理空缺值；使用数据归约方法中的小波变换、主成分分析PCA技术对原始数据进行维归约，以减少随机变量和属性的个数，从而达到以较少的变量个数获得较多的信息量的目的。

步骤2.对经过数据预处理的车辆故障数据采用数据挖掘技术中的组合分类方法构建故障诊断模型。

2.1.初始化每个数据样本的权重为1/n；

2.3.在每个车辆故障数据集D_i上构建一个车辆故障诊断模型M_i(i＝1,2,…,k)，并计算M_i的错误率error(M_i)；

2.4.如果error(M_i)>0.5(注：0.5为最佳值，非必选)，转步骤2重新构建车辆故障诊断模型；

2.5.否则，对D_i中每个被正确分类的车辆故障数据样本的权重乘以error(M_i)/(1-error(M_i))；

2.6.重复2.2、2.3、2.4、2.5，k次，得到k个车辆故障诊断模型M_i(i＝1,2,…,k)。

其中，err(s_j)是数据样本s_j的误分类误差：如果s_j被误分类，则err(s_j)为1；否则它为0；w_i为数据样本s_j在第i次迭代的权重。

步骤2.3中车辆故障诊断模型的构建可采用决策树算法、贝叶斯算法来实现，本实施例采用决策时算法来构建，具体的构建过程如下：

1、创建节点S；

2、如果D_i(i＝1,2,…,k)中所有数据样本都属于同一车辆故障类A，则返回S作为叶节点，并标记为故障类型A；

3、否则，选择所有参数中具有最大增益率的参数t，参数t成为节点S的测试参数；

4、对测试参数t的每个区间划分创建一个分支，并据此划分样本；

5、在每一个划分样本上，重复1,2,3,4，递归地构建车辆故障诊断模型；

6、递归构建车辆故障诊断模型仅当下列条件之一成立时停止：a给定节点的所有数据样本属于同一故障类型；b没有剩余车辆零部件参数可以用来进一步划分样本；c给定的分支没有数据样本。

7、对于创建好的车辆故障诊断模型，采用后剪枝方法以消除数据中的噪声和孤立点带来的训练异常。

其中决策树算法中选择所有参数中具有最大增益率的参数t方法如下：

设数据样本集合共有n个，分别为{s₁,s₂,s₃,…s_n}，故障类型共m种，分别为C₁，C₂，C₃，…C_m，属于不同故障类型的样本数据分别为q₁,q₂,q₃,…q_m,且满足∑q_i＝n。

其中，自助样本D_i是训练元组和它相应类标号的集合，即(s₁，C₁)，(s₂，C₂)，(s₃，C₃)……(s_m，C_m)。

假定，对于数据样本集合中的任一参数R的信息增益用Gain(R)表示；增益率用GainRate(R)表示；自助样本D_i上，参数R的分裂信息用SpliInfo_R(D_i)表示，则参数R的增益率：

GainRate(R)＝Gain(R)/SpliInfo_R(D_i)；

其中，Gain(R)＝Info(D_i)-Info_R(D_i)；

Info(D_i)＝-∑p_ilog₂(p_i)＝-∑(q_i/n)log₂(q_i/n)；

对数据样本集合{s₁,s₂,s₃,…s_n}的参数R，当R是离散值：设R包含v个不同值，R将D_i划分成v个子集{D_i1,D_i2,D_i3,…D_iv}。

分别统计属于{D_i1,D_i2,D_i3,…D_iv}样本中各故障类型的总数，分别记为r₁₁,r₁₂,r₁₃,…,r_1m；r₂₁,r₂₂,r₂₃,…,r_2m；r₃₁,r₃₂,r₃₃,…,r_3m；……r_v1,r_v2,r_v3,…,r_vm；

分别统计属于{D_i1,D_i2,D_i3,…D_iv}样本中对应的数据样本的总数，分别记为x₁,x₂,x₃,…,x_v；

对R的划分计算子集的期望信息：

Info_R(D_i)＝∑((x_i/n)*(-∑(r_1j/x_i)*log₂(r_1j/x_i)))；

对R的划分计算子集的分裂信息：

SpliInfo_R(D_i)＝-∑(x_i/n)*log₂(x_i/n)；

遍历所有参数，获得对集合{s₁,s₂,s₃,…s_n}具有最大增益率的参数t。

对数据样本集合{s₁,s₂,s₃,…s_n}的参数R，当R是连续值：构造集合R：{r₁,r₂,r₃,…,r_l}，其中l≦n；

用r^*＝(r_i+r_i+1)/2对集合作一个划分：R₁＝{r₁,r₂,r₃,…r_i},R₂＝{r_i+1,r_i+2,r_i+3,…,r_l}，使R₁中的元素均小于r^*，R₂中的元素大于等于r^*；

分别统计属于R₁、R₂的样本中各故障类型的总数，分别记为r₁₁，r₁₂,r₁₃,…,r_1m；r₂₁,r₂₂,r₂₃,…,r_2m；

分别统计属于R₁、R₂的样本中对应的数据样本的总数，分别记为x₁₁,x₁₂,x₁₃,…,x_1i；x₂₁,x₂₂,x₂₃,…,x_2l；

对r^*的划分计算子集的期望信息：

其中r₀₁＝∑r_1i，r₀₂＝∑r_2i，x₀₁＝∑x_1i，x₀₂＝∑x_2i；

对r^*的划分计算子集的分裂信息：

其中x₀₁＝∑x_1i，x₀₂＝∑x_2i；

遍历r^*＝(r_i+r_i+1)/2，i＝1,2,3,…,l-1.记使划分子集GainRate(r)最大的r^*为r^*0，此时，对用参数R的r^*0对集合{s₁,s₂,s₃,…s_s}进行划分，具有最大的增益率；

遍历所有参数，获得对集合{s₁,s₂,s₃,…s_s}具有最大增益率的参数t和划分点t^*0。

为了更清晰地说明车辆故障诊断模型的构建过程，现结合附图3-a和图3-b做进一步解释：

假设车辆故障数据样本中D包含参数A、B、C、E……；

如果参数的属性值是离散值，请参阅附图3-a，首先计算出各个参数的增益率，选择具有最大增益率的参数作为决策树的根结点。假定参数A的增益率最大，那么A作为决策树的根结点开始划分，设A有v个属性值{a₁,a₂,a₃,…a_v}，对A的每个已知值a_j创建一个分支，在每一个分支上，由a_j标记的所有的车辆故障数据样本D_j都具有相同的A值，所以在下一步划分中不需要考虑参数A，只需在D_j上继续计算除参数A外其他参数的增益率，再从中选择具有最大增益率的参数B作为下一个划分结点，依次按照同样的方法继续划分，直至D_j中所有车辆故障数据样本都属于同一故障类时停止。

如果参数的属性值是连续值，如图3-b所示，首先遍历所有参数，获得对车辆故障数据样本集合D具有最大增益率的参数t和划分点t^*。假定所有参数中，参数A在划分点a^*的增益率最大，那么A为决策树的根结点，A≤a^*和A﹥a^*为参数A的两个分支，两个分支分别对应的车辆故障数据样本为D₁和D₂。再在D₁和D₂中按照同样的方法依次划分，直至D₁和D₂中所有车辆故障数据样本都属于同一故障类时停止。

步骤3：评估预测

对实时采集到的新能源汽车车辆故障数据，重复步骤1，对处理后的数据利用步骤2创建的k个车辆故障模型M_i，使用组合投票的方法进行故障诊断：

1、初始化每个车辆故障诊断模型M_i的权重为0；

2、计算每个车辆故障诊断模型M_i的权重为W_i＝log(error(M_i)/(1-error(M_i)))；

3、如果车辆故障诊断模型M_i对车辆故障数据样本s_i诊断为故障类型C_i，那么车辆故障数据样本s_i属于故障类型C_i的权重就为W_i；

4、k个车辆故障诊断模型M_i都对车辆故障数据样本s_i进行故障诊断，即组合投票，最后返回具有最大权重和的故障类。

最后通过人机交互界面将采集到的某条车辆故障数据及其对应的故障类显示出现，技术人员根据这些数据可以判定哪台车哪个零部件已经发生故障或者即将发生故障，对于已经发生故障的车辆可以帮助售后人员定位故障位置；对于即将发生故障的车辆可以及时通知售后人员尽早处理，防止故障恶化而产生重大事故。从而保证了车辆的安全运营。例如，当采集到一条车辆故障数据，经过处理中心处理后，在人机交互界面上显示其被预测为电池过温故障，这时现场售后人员就可以及时检查下电池接线是否有问题，冷却系统是否有问题，避免了因问题未被及时发现而电池又持续过温工作导致电池着火、甚至车辆着火等安全事故的发生。

本发明的一种基于数据挖掘的车辆故障诊断系统的实施例

本实施例中故障诊断系统包括数据采集处理模块、故障诊断模型构建模块和评估预测模块，数据采集处理模块用于采集车辆故障数据，包括车辆发生故障时各零部件的相关参数数据，以得到具有故障类标记的车辆故障数据集D，D中包含n个车辆故障数据样本{s₁,s₂,s₃,…s_n}；故障诊断模型构建模块用于构建故障诊断模型；评估预测模块用于根据所构建的k个故障诊断模型对实时采集到的车辆故障数据采用组合投票的方法进行故障诊断。其中故障诊断模型构建模块的构建过程如下：

A).初始化每个数据样本的权重为1/n；

上述各模块的具体实施方式已在方法的实施例中进行了详细说明，这里不再赘述。

Claims

1.一种基于数据挖掘的车辆故障诊断方法，其特征在于，该诊断方法包括以下步骤：

步骤2.构建故障诊断模型：

2.1.初始化每个车辆故障数据样本的权重为1/n；

2.根据权利要求1所述的基于数据挖掘的车辆故障诊断方法，其特征在于，所述步骤2.3采用决策树算法在每个车辆故障数据集D_i上构建一个车辆故障诊断模型M_i(i＝1,2,…,k)，过程如下：

A.创建节点S；

3.根据权利要求2所述的基于数据挖掘的车辆故障诊断方法，其特征在于，所述步骤C中最大增益率参数t指的是对故障数据样本{s₁,s₂,s₃,…s_n}具有增大增益率的参数，参数t的增益率为：

GainRate(t)＝Gain(t)/SpliInfo_t(D_i)

4.根据权利要求3所述的基于数据挖掘的车辆故障诊断方法，其特征在于，对于构建好的车辆故障诊断模型还需采用后剪枝方法进行处理，以消除数据中的噪声和孤立点带来的训练异常。

5.根据权利要求1所述的基于数据挖掘的车辆故障诊断方法，其特征在于，所述步骤3中组合投票故障诊断包括以下步骤：

a.将每个车辆故障诊断模型M_i的权重初始化为0；

b.计算每个车辆故障诊断模型M_i的权重W_i，

W_i＝log(error(M_i)/(1-error(M_i)))；

6.根据权利要求1所述的基于数据挖掘的车辆故障诊断方法，其特征在于，步骤1还包括对采集到的车辆故障数据进行预处理的过程，包括使用数据清理方法消除故障数据噪声和处理空缺值；使用数据归约方法对车辆故障数据进行维归约，以减少随机变量和属性的个数。

7.一种基于数据挖掘的车辆故障诊断系统，其特征在于，该故障诊断系统包括数据采集处理模块、故障诊断模型构建模块和评估预测模块，

A).初始化每个数据样本的权重为1/n；

其中，err(s_j)是数据样本s_j的误分类误差，如果s_j被误分类，则err(s_j)为1；否则它为0，w_i为数据样本s_j在第i次迭代的权重；

8.根据权利要求7所述的基于数据挖掘的车辆故障诊断系统，其特征在于，所述的故障诊断模型构建模块采用决策树算法在每个车辆故障数据集D_i上构建一个车辆故障诊断模型M_i(i＝1,2,…,k)，过程如下：

A.创建节点S；

9.根据权利要求7所述的基于数据挖掘的车辆故障诊断系统，其特征在于，所述评估检测模块采用组合投票进行故障诊断的过程如下：

a.将每个车辆故障诊断模型Mi的权重初始化为0；

b.计算每个每个车辆故障诊断模型Mi的权重W_i，

W_i＝log(error(M_i)/(1-error(M_i)))；

10.根据权利要求7所述的基于数据挖掘的车辆故障诊断系统，其特征在于，所述采集处理模块还用于对采集到的车辆故障数据进行预处理，包括使用数据清理方法消除故障数据噪声和处理空缺值；使用数据归约方法对车辆故障数据进行维归约，以减少随机变量和属性的个数。