CN114371009A

CN114371009A - 基于改进随机森林的高速列车轴承故障诊断方法

Info

Publication number: CN114371009A
Application number: CN202210188865.XA
Authority: CN
Inventors: 马维纲; 王芝洋; 黑新宏; 谢国; 戴岳; 鲍金花; 刘一龙
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-04-19

Abstract

本发明公开了基于改进随机森林的高速列车轴承故障诊断方法，具体按照以下步骤实施：步骤1：挑选故障数据，并用Smote方法对数据进行扩充，得到数据分布均匀的数据集；步骤2：将含噪原始信号进行CEEMDAN分解得到17个IMF分量和1个Res余量；步骤3：计算每个IMF分量的均方根误差RMSE；步骤4：对高频IMF分量进行小波去噪处理；步骤5：将去完噪的IMF分量进行重构得到重构信号后进行特征提取；步骤6：将数据导入改进随机森林模型；根据改进随机森林模型检测故障特征，完成轴承故障的诊断。本发明基于改进随机森林的高速列车轴承故障诊断方法；可以快速定位出轴承可能存在的安全风险；本发明针对分布不均衡的数据，实时调整树的深度参数，能准确快速地诊断故障。

Description

基于改进随机森林的高速列车轴承故障诊断方法

技术领域

本发明涉及高速列车轴承故障诊断技术领域，具体涉及基于改进随机森林的高速列车轴承故障诊断方法。

背景技术

铁路是我国国民经济的大动脉，它担负着大部分的运输任务。轮对轴承是高速列车动力系统的核心部件之一，支撑着车轴并且承受轮对与车体之间的载荷，其运行工况对高速列车运行安全具有重要的影响。由于高速列车需要经历曲线、高速、严寒、高温等复杂运行工况，轮对轴承作为列车关键承载部件，在长期服役过程中承受各种冲击载荷，易出现疲劳损伤和多种性能退化情况。若不能及时、正确的检测轮对轴承的故障信息，就可能会导致热轴、燃轴、甚至切轴，从而诱发列车脱轨等重大安全事故。因此，开展轮对轴承故障检测方法研究对于发展高安全性与高可靠性服役的高速列车具有特别重要的意义。

由于在轴承全寿命数据中，正常数据较多，故障数据较少，所以导致了实验数据样本不均衡，故采用Smote数据处理技术对实验数据进行扩充。Smote(Synthetic MinorityOversampling Technique)是一种用于合成新的样本数据，并使用现有样本及其最近邻对少数类进行"过采样"的算法。

目前小波分解和完全自适应噪声集合经验模态分解(CEEMDAN)方法是两类常用于轮对轴承信号分解的方法。其中，完全自适应噪声集合经验模态分解方法(CEEMDAN)是针对经验模态分解(EMD)、集合经验模态分解(EEMD)和互补集合经验模态分解(CEEMD)算法的改进。EMD算法分解信号存在模态混叠问题，EEMD和CEEMD分解算法通过在待分解信号中加入成对正负高斯白噪声来减轻EMD分解的模态混叠现象，但是用这两种算法分解信号得到的本征模态分量中总会残留一定的白噪声，影响后续信号的分析和处理。CEEMDAN算法是针对EEMD算法分解过程中存在模态混叠现象而改进的一种信号分解方法，其原理是将复杂的原始信号分解成一系列本征模态分量(IMF)，每个IMF分量中包含不同的频率分量。它从两个方面解决了上述问题,第一:加入经EMD分解后含辅助噪声的IMF分量，而不是将高斯白噪声信号直接添加在原始信号中；第二:EEMD分解和CEEMD分解是将经验模态分解后得到的模态分量进行总体平均，CEEMDAN分解则在得到的第一阶IMF分量后就进行总体平均计算，得到最终的第一阶IMF分量，然后对残余部分重复进行如上操作，这样便有效地解决了白噪声从高频到低频的转移传递问题。采用CEEMDAN算法对信号进行去噪预处理，一般会依据不同准则来确定被分解的IMF分量中含噪声较多的分量，并通过舍弃含噪声较多的分量完成去噪，容易造成有效信息的缺失。

高速列车在行驶过程中产生的是非平稳、非线性的随机振动信号，因此采用常用的信号处理法对轴承振动信号进行分析存在一定的局限性。本发明将CEEMDAN算法与小波阈值去噪方法相结合，提出了CEEMDAN小波阈值联合去噪方法。该方法在去噪的过程中，只对含噪声多的高频IMF分量进行去噪处理而不是针对整个信号，因此在达到剔除噪声目的的同时，还能较好地保留信号中的有用特征,得到较为纯净的故障轴承振动信号。

发明内容：

本发明的目的是提供一种基于改进随机森林的高速列车轴承故障诊断方法，解决了传统随机森林模型因决策树深度难确定等原因造成的故障诊断效果不佳的问题。

本发明所采用的技术方案是基于改进随机森林的高速列车轴承故障诊断方法，包括以下步骤：

步骤1：挑选轴承振幅超过20g的故障数据，并用Smote方法对数据进行扩充，得到数据分布均匀的数据集；

步骤2：将含噪原始信号进行CEEMDAN分解得到17个IMF分量和1个Res余量，将17个IMF分量按高频到低频的顺序排布，IMF1频率最高，IMF17频率最低；

步骤3：计算步骤2中每个IMF分量的均方根误差RMSE；

步骤4：若步骤3计算出的IMF的RMSE值是先单调递减再单调递增的，则认为单调递减的IMF分量是高频且含有较多干扰信号，接着对高频IMF分量进行小波去噪处理，若为其他情况则为低频分量，不做处理；

步骤5：将经步骤4去噪后高频IMF分量和未作处理的低频分量进行线性相加得到重构信号后进行特征提取；

步骤6：将步骤5的重构信号导入改进随机森林模型；根据改进随机森林模型检测故障特征，完成对高速列车轴承故障的诊断。

本发明的特征还在于，步骤1具体流程为：

将轴承数据的训练集分为7类，1类为正常数据，标记为0，其余6类为不同类型的故障数据，分别标记为1-6；对故障数据采用Smote数据扩充方法进行扩充；根据样本的未平衡比例设置抽样比，确定抽样比N＝0.002；对于每个少量样本a，小于70的故障样本为少量样本，从其k个最近邻中随机选择一个样本数,经交叉验证取k＝50,并假定所选的最近邻为b；对于每个随机选择的邻域b，按照以下公式构建新的样本点x_new，其中x表示少数类别a中的一个样本点，

表示从k近邻中随机挑选的样本点,rand(0,1)表示生成0～1的随机数：

步骤4小波去噪的具体流程为：

信号通过小波变换后，信号产生的小波系数含有信号的重要信息，且噪声的小波系数要小于信号的小波系数，选取的阈值为0.5，大于此阈值的小波系数被认为是有用信号产生的，应予以保留，小于此阈值的小波系数则认为是噪声产生的，将它置为零从而达到去噪的目的。

步骤5具体流程为：

根据小波分解的第N层的低于设定阈值的低频系数和经过量化处理后的第1层到第N层的高于设定阈值的高频系数，进行信号的小波重构。

针对滚动轴承故障的特征提取，利用振动传感器采集滚动轴承的振动信号，然后提取时域特征作为轴承诊断的特征向量；从原始特征中找出有具有同类样本的不变性、不同样本的鉴别性、对噪声的鲁棒性这三种特性的特征，具体提取的特征有：

(1)有量纲的特征：均值、均方根值、方根幅值、绝对平均值、偏斜度、峭度、方差、最大值、最小值、峰峰值；

(2)无量纲的特征：波形指标、峰值指标、脉冲指标、裕度指标、偏斜度指标、峭度指标；

将这16个特征作为评测故障类型的评判指标，减少数据存储和输入数据的带宽。

步骤6具体流程为：

从原始训练集中使用Bootstraping方法随机有放回采样选出m个样本，共进行n_tree次采样，生成n_tree个训练集，对于n_tree个训练集，分别训练n_tree个决策树模型；每次分裂的根据是Gini系数，其中k表示样本集合中的类别，P_k表示选中的样本属于k类别的概率，此样本被分错的概率是(1-P_k)，Gini系数公式如下：

选择Gini系数最小的决策树进行分裂，每棵树都一直这样分裂下去，直到该节点的所有训练样例都属于同一类，在决策树的分裂过程中不需要剪枝，将生成的多棵决策树组成随机森林，对于本研究的故障分类问题，按多棵树分类器投票决定最终的故障分类结果；

改进随机森林针对不平衡样本问题，将不同决策树的数量分别设置为30、40、50、60、70和80，按照AUC指标，以精度最高的相应深度作为改进随机森林算法的深度参数，针对不同的深度参数生成差异随机森林模型，以模型精度较高、深度较小的深度值作为分类算法的参数，把最终性能最高，相似度最低的决策树作为新的随机森林诊断模型，通过实时调整树的深度参数来提高轴承故障诊断的准确性。

本发明的有益效果是：

(1)高速列车轴承数据集一般为全寿命数据集，其采集的轴承信息数据是从轴承开始工作到报废的全过程的数据，该数据极不均衡，正常数据较多，故障数据较少，本发明采用Smote数据扩充技术来得到均衡的数据集。

(2)采用CEEMDAN小波阈值联合去噪方法得到较为纯净的轴承故障信号，解决了使用现有信号分解方法提取的故障信号精度不高、随意丢弃部分信号使得信号不纯等现象。本发明中的信号去噪方法适用于非平稳、非线性的车轴随机振动信号。

(3)提供了一种基于改进随机森林方法的高速列车轴承故障检测方法，解决了传统随机森林模型因决策树深度难确定等原因造成的故障诊断效果不佳的现象。决策树是随机森林的基学习器，本发明将随机森林生成的每一棵决策树，通过接受者操作特征曲线值(AUC)比较，选取AUC值最高的决策树进行相似度比较，把最终性能最高，相似度最低的决策树作为新的随机森林诊断模型，改进随机森林方法实现了对高速列车轮对轴承故障的准确有效诊断。

(4)本方案对轴承全寿命数据中的故障数据进行了Smote数据扩充处理，在随机森林的基础上，选取AUC值最高的决策树进行相似度比较，把最终性能最高，相似度最低的决策树作为新的随机森林预测模型，并调整随机森林的深度参数，从而获得具有更高故障诊断精度的随机森林模型。因此，可以得出结论，在模型训练过程中，通过数据预处理和模型参数优化，可以更有效地提高故障分类模型的准确性。通过将传统随机森林和优化后的随机森林进行对比，经过优化后的随机森林可以提高轴承的故障诊断精度。

(5)本方案能够较为精确的对轴承是否故障以及故障类型进行诊断，为后续工作人员的检查和维修提供便利，以便能够提早进行必要的保障措施,避免更为严重的故障发生，节省人力物力和财力。

附图说明

图1是本发明故障诊断方法流程示意图；

图2是小波阈值去噪流程图；

图3是CEEMDAN分解后的时间序列；

图4是CEEMDAN分解后的瞬时频率；

图5是对原始信号进行小波阈值处理前后对比图；

图6是对IMF1分量进行小波阈值处理前后对比图。

具体实施方式

下面结合附图和具体实施步骤对本发明的基于CEEMDAN分解和改进随机森林作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施。

如图1所示，本发明基于改进随机森林的高速列车轴承故障诊断方法，包括以下步骤，

步骤1：挑选故障数据，并用Smote方法对数据进行扩充，得到数据分布均匀的数据集。

步骤2：将含噪原始信号进行CEEMDAN分解得到17个IMF分量和1个Res余量，17个分量按高频到低频的顺序分布，IMF1频率最高，IMF17频率最低，17个分量代表了信号被分解之后得到的各层信号分量，为下一步特征提取奠定基础，因轴承故障数据集往往不是均值为0的信号，其分解结束总会存在一个res余量，此余量也含有少量故障信息，故在去噪处理结束后将其加上一并进行特征提取。

步骤3：计算每个IMF分量的均方根误差(RMSE)。

步骤4：步骤3计算出前五个IMF的RMSE值是单调递减的，则认为其是高频且含有较多干扰信号，故对前5个高频IMF分量进行小波去噪处理，如图2所示。

步骤5：将去完噪的IMF分量进行重构得到重构信号后进行特征提取。

步骤6：将数据导入改进随机森林模型。根据改进随机森林模型检测故障特征，完成对高速列车轴承故障的诊断。

本发明的特征还在于：

步骤1具体流程为：

将轴承数据的训练集分为7类，1种正常数据标记为0，6种不同的故障数据分别标记为1-6，但发现故障数据远多于正常数据，数据分布呈现出不平衡现象，故对故障数据采用Smote数据扩充方法进行扩充。该算法的模拟过程采用了KNN技术，其思想原理如下：根据样本的未平衡比例设置抽样比，确定抽样比N。对于每个少量样本a，从其k个最近邻中随机选择一个样本数，并假定所选的最近邻为b。对于每个随机选择的邻域b，按照以下公式构建原始样本：

经Smote方法处理，故障样本的数量得到了极大的增加并且故障数据的总数已从2031条增加到18973条。

步骤2具体流程为：

如图3和图4所示，CEEMDAN算法是针对EEMD算法分解过程中存在模态混叠现象而改进的一种方法，能够完成更好的本征模态函数分离，精确地重构原始信号，而且具有比EEMD算法更低的运算成本。信号经CEEMDAN处理后，复杂的原始信号会分解成一系列本征模态分量(IMF)，每个IMF分量中包含不同的频率分量。所以采用CEEMDAN算法对信号进行去噪预处理能够将信号精确的分离开，数据经CEEMDAN分解之后得到17个IMF分量和1个res余量。

步骤3具体流程为：

均方根误差(RMSE)是观测值与真值偏差的平方和观测次数n比值的平方根，在实际测量中，观测次数n总是有限的，真值只能用最可信赖(最佳)值来代替。均方根误差对一组测量中的特大或特小误差反映非常敏感，所以，均方根误差能够很好地反映出计算的精密度。因此可观察均方根误差值的分布趋势来评定对哪几个IMF分量进行降噪处理。

步骤4具体流程为：

如图5和图6所示，小波阈值去噪的基本思想是：信号通过小波变换(采用Mallat算法)后，信号产生的小波系数含有信号的重要信息，将信号经小波分解后小波系数较大，噪声的小波系数较小，并且噪声的小波系数要小于信号的小波系数，通过选取一个合适的阈值，大于此阈值的小波系数被认为是有用信号产生的，应予以保留，小于此阈值的小波系数则认为是噪声产生的，将它置为零从而达到去噪的目的。

从信号学的角度看，小波去噪是一个信号滤波的问题。尽管在很大程度上小波去噪可以看成是低通滤波，但由于在去噪后，还能成功地保留信号特征，所以在这一点上又优于传统的低通滤波器；由此可见，小波去噪可以提取出较纯的故障信号。

步骤5具体流程为：

根据小波分解的第N层的低频系数和经过量化处理后的第1层到第N层的高频系数，进行信号的小波重构。

针对滚动轴承故障的特征提取，通常利用振动传感器采集滚动轴承的振动信号，然后提取时域特征、频域特征或时频特征作为轴承诊断的特征向量，本研究选择提取振动信号的时域特征；具体提取的特征有：有量纲：均值、均方根值、方根幅值、绝对平均值、偏斜度、峭度、方差、最大值、最小值、峰峰值；无量纲：波形指标、峰值指标、脉冲指标、裕度指标、偏斜度指标、峭度指标。

步骤6具体流程为：

从原始训练集中使用Bootstraping方法随机有放回采样选出m个样本，共进行n_tree次采样，生成n_tree个训练集；对于n_tree个训练集，我们分别训练n_tree个决策树模型，对于单个决策树模型，假设训练样本特征个数为n，每次分裂时根据基尼指数：

选择最好的特征进行分裂，每棵树都一直这样分裂下去，直到该节点的所有训练样例都属于同一类，在决策树的分裂过程中不需要剪枝，将生成的多棵决策树组成随机森林。对于本研究的故障分类问题，按多棵树分类器投票决定最终的故障分类结果。

步骤1：数据准备与扩充

如果数据存在严重的不平衡，分类得出的结论往往也是有偏差的，即分类结果会偏向于较多观测的类。对于这种问题，最简单粗暴的办法就是构造1:1的数据，要么将多的那一类砍掉一部分(即欠采样)，要么将少的那一类进行Bootstrap抽样(即过采样)；但这样做会存在问题：对于第一种方法，砍掉的数据会导致某些隐含信息的丢失，而第二种方法中，有放回的抽样形成的简单复制，又会使模型产生过拟合；为了解决数据的非平衡问题，Chawla提出了Smote算法，即合成少数过采样技术，它是基于随机过采样算法的一种改进方案；该技术是目前处理非平衡数据的常用手段，并受到学术界和工业界的一致认同，Smote算法的基本思想就是对少数类别样本进行分析和模拟，并将人工模拟的新样本添加到数据集中，进而使原始数据中的类别不再严重失衡；Smote算法步骤：先随机选定n个少类的样本，再找出初始扩展的少类样本，然后找出最靠近它的m个少类样本，再任选最临近的m个少类样本中的任意一点，Smote就是在少数类样本中用KNN方法合成了新样本，而不同于ROS方法随机复制成新样本，所以更具有代表性。

本发明将正常轴承数据的特征标记为0，从全寿命数据中找出故障数据，将轴承故障数据的"故障"标记划分，将外圈轻度故障轴承数据的特征标记为1，将外圈中度故障轴承数据的特征标记为2，将外圈严重故障轴承数据的特征标记为3，将内圈轻度故障轴承数据的特征标记为4，将内圈中度故障轴承数据的特征标记为5，将内圈严重故障轴承数据的特征标记为6；然而发现分类数据呈现出不平衡现象。在68817条数据中，正常轴承数据样本数为66786个，故障轴承样本数仅为2031条；正常和故障样本数量的差异太大，故当对样本数量不平衡的数据执行模型训练时，预测的少量样本会有偏差，导致模型的精度下降；因此，将通过Smote技术来处理一些样本分布不平衡问题，该算法的模拟过程采用了KNN技术，模拟生成新样本的步骤如下：

1：采样最邻近算法，计算出每个少数类样本的K个近邻；

2：从K个近邻中随机挑选N个样本进行随机线性插值；

3：构造新的少数类样本；

4：将新样本与原数据合成，产生新的训练集。

步骤2：数据预处理

2.1对原始数据进行CEEMDAN分解。设E_i为经过EMD分解后得到的第i个本征模态分量，CEEMDAN分解得到的第i个本征模态分量为

v^j为满足标准正态分布的高斯白噪声信号，j＝1,2…，N为加入白噪声的次数，ε为白噪声的标准表，y(t)为待分解信号。

CEEMDAN分解步骤如下：

2.1.1将高斯白噪声加入到待分解信号y(t)中可以得到新信号_y(t)+(-1)^qεv^j(t),其中q＝1，2……对新信号进行EMD分解，得到第一阶本征模态分量C₁，r^j为余量。

2.1.2对产生的N个模态分量进行总体平均就得到CEEMDAN分解的第1个本征模态分量：

2.1.3计算去除第一个模态分量后的残差：

2.1.4在r₁(t)中加入正负成对高斯白噪声得到新信号，以新信号为载体进行EMD分解，得到第一阶模态分量D₁，由此可以得CEEMDAN分解的第2个本征模态分量：

2.1.5计算去除第二个模态分量后的残差：

2.1.6重复上述步骤，直到获得的残差信号为单调函数，不能继续分解，算法结束。此时得到的本征模态分量数量为k，则原始信号y(t)被分解为：

2.2采用CEEMDAN算法对其进行分解，得到一系列IMF分量后，计算各个IMF分量的连续均方误差值(RMSE)，根据连续均方误差值的分布趋势来确定需要去噪处理的高频IMF分量；经计算可得，前5个IMF分量RMSE值逐渐递减，第6个IMF分量到最后的res分量的RMSE值逐渐递增，故取前5个IMF分量进行下一步的小波去噪处理。

2.3小波阈值去噪方法是一种多尺度的信号分析方法，首先采用小波阈值去噪方法将信号分解成一系列的小波系数；然后对分解得到的小波系数进行阈值化处理，并将阈值较小的小波系数作为噪声舍去；最后对处理后的小波系数进行小波逆变换得到去噪后的信号。

一个含噪的模型可以表示如下：

s(k)＝f(k)+ε*e(k) k＝0，1……n-1 (9)

其中，f(k)为有用信号，s(k)为含噪信号，e(k)为噪声，ε为噪声系数的标准偏差；小波去噪的原理是比较简单类，类似以往我们常见的低通滤波器的方法，但是由于小波去噪保留了特征提取的部分，所以性能上是优于传统的去噪方法的。

硬阈值量化和软阈值量化采用两种不同的方法，达到的效果是：硬阈值方法可以很好地保留信号边缘等局部特征，软阈值处理相对要平滑，但会造成边缘模糊等失真现象；为了保留信号边缘等局部特征，所以实验中采用硬阈值方法。

步骤3：改进随机森林模型效果与评价

3.1新随机森林的生成与参数选择

导入数据集并使用Smote方法为其添加一些类样本使样本平衡后，通过分析和比较不同的决策树深度，选择最佳深度值以完成参数调整；然后将每棵树的AUC按降序计算和排序，并选择最佳的2/3树以形成新的随机森林；之后，根据AUC值的降序设置阈值；从高AUC决策树开始，将它的值与后面的决策树依次进行相似性计算，若认为两棵树相似，则删除AUC值低的决策树，保留AUC高的决策树，形成新的随机森林。

在使用决策树时，会生成分类性能较差的决策树，这对模型的最终投票结果和预测性能产生了不良影响；因此，本发明将使用改进的随机森林方法；选取随机森林模型中分类性能好的决策树进行相似度计算，并根据不同相似度的决策树形成新的随机森林模型；在生成新的随机森林模型之前，比较了由不同深度的决策树组成的随机森林模型的精度，并以精度最高的相应深度作为改进随机森林算法的深度参数，最终实现对传统随机森林的改进，进而提高高速列车轴承故障的预测效果。

3.2随机森林优势及Bagging算法

经过调查研究，与基础预测模型相比，随机森林在预测问题中往往具有对性能更准确的分类精度，并且可以处理高维数据；随机森林是一种通过集成学习的思想集成多棵树的算法；它的基本单位是决策树；随机森林优势体现在两个方面：随机选择数据和随机选择待选择的特征。

Bagging算法是用来对原来的训练集进行K次放回随机抽样，从而得到K个训练子集，每个训练子集对应一棵树；在生成决策树的过程中，对于每个节点，每次都会从特征集中选择M个特征作为特征子集；分割要素时，将从要素子集中选择最佳要素作为e节点；生成的所有决策树都组合在一起形成一个随机森林；直观地说，每个决策树都是一个分类器，使用测试集数据测试每个决策树，然后N棵树将具有输入样本的N个分类结果；随机前序列集成所有分类投票结果，并将投票最多的类别指定为最终输出。

3.3改进随机森林分类效果及度量标准

虽然基于随机森林的改进很多，但很少有人关注使用随机森林算法对不平衡样本问题的研究；数据分类失衡是数据挖掘中常见的问题之一；因此，有必要有效提高不平衡样本的随机森林诊断率。

ROC是对分类器预测质量的一种度量，它比较并可视化模型的敏感性和特异性之间的关系；绘制时，ROC曲线在全局平均值和每个类别的基础上，在Y轴上显示真实的阳性率，在X轴上显示假的阳性率；因此理想点是图的左上角：假阳性为0，真阳性为1；ROC曲线的水平轴为反正例率(FPR)，垂直轴为真正例率(TPR)；真正例率(TPR)表示预测为正例且真实情况为正例的，占所有真实情况中正例的比率；反正例率表示预测为正例但真实情况为反例的，占所有真实情况中反例的比率；TPR越大，则表示挑出的越有可能是正确的，FPR越大，则表示越不可能(在挑选过程中，再挑新的出来，即再挑认为是正确的出来，越有可能挑的是错误的)；TPR与FPR呈反相关。

AUC是假阳性和真阳性之间关系的计算，AUC越高，模型通常越好；但是，检查曲线的“陡度”也很重要，因为这描述了真实阳性率的最大化，同时最小化了阳性率；AUC被定义为由坐标轴包围的ROC曲线下的面积，该值通常介于0.5和1之间；之所以将AUC值用作评估标准，是因为在很多情况下，ROC曲线不能清楚地表明哪个分类器具有更好的分类效果，而作为一个值，较高的AUC值表明分类具有更好的分类效果。

在实现改进随机森林模型的过程中需要计算每个决策树的AUC值，按降序对AUC进行排序，选择一些具有高AUC的决策树，并形成一个新的随机估计值；由于每个决策树生成的训练样本是随机的，节点特征的选择也是随机的，因此决策树之间存在一定的相关性；森林中任何两棵树之间的相关性越大，错误率就越高。

相关性是通过相似性获得的；本实验中相似度的计算方法如下：将每棵树都存储为字典结构，每个节点都有相应的索引值来表示特征和分区值；计算父节点和子节点的两个节点之间的向量内积并将其存储在列表中；通过比较两个列表中的相同数字，可以获得两棵树的相似性；内积计算公式如下，其中parent为父节点，child为子节点：

Inner product＝parent^T·child (10)

因此，通过设置阈值，如果它们在一定程度的相关性范围内，则认为它们是相似的；从两个类似的决策树中删除具有低AUC的树，并保留具有高AUC的树；这减少了树之间的相关性；最后，新的随机森林由剩余的树组成。

3.4决策树深度选择及诊断结果优化

决策树的深度有时会影响随机森林的模型；如果太大，很容易过拟合，如果太小，一些隐藏的特征信息将被忽略；同时，不同大小的样本数据集、特征子集和决策树的数量都会影响森林中树之间的关系，影响分类效果；因此，本发明通过实时调整树的深度参数来提高轴承故障诊断的准确性。

本发明采用的方法是在正式生成随机森林模型之前，选择树的最佳深度值作为最终深度值；换言之，采用传统的随机森林算法，针对不同的深度参数生成差异随机森林模型，并以模型精度较高、深度较小的深度值作为预测算法的参数；这可确保每次生成模型时使用的参数都是最佳的；构造树的基本思想是随着树深度的增加，节点的熵迅速的降低，熵降低的速度越快越好，这样有望得到一颗高度最矮的决策树。

其中p_i为事件发生的概率，n为事件总数；准确度是我们最常见的评价指标，一般来说，准确度越高，分类器效果越好；本发明选择的分类指标是准确率。

在实验过程中，将不同决策树的数量分别设置为30、40、50、60、70和80；本发明首先测试了传统的随机森林，然后测试了改进的随机森林；实验数据以图形表示，可以更直观地显示比较结果。对于轴承故障分类问题，通过比较正确率发现改进后的随机森林的正确率最高，分类性能最好。

本发明是一种基于改进随机森林的高速列车轴承故障诊断方法；其可以帮助铁路工作人员快速定位出轴承可能存在的安全风险；相比于传统方法而言，本发明的优势在于针对分布不均衡的数据，实时调整树的深度参数，能准确快速地预测故障，可以极大提高诊断效率，节省人力物力和财力。

Claims

1.基于改进随机森林的高速列车轴承故障诊断方法，其特征在于，具体按照以下步骤实施：

步骤3：计算步骤2中每个IMF分量的均方根误差RMSE；

2.根据权利要求1所述的基于改进随机森林的高速列车轴承故障诊断方法，其特征在于，所述步骤1具体流程为：

表示从k近邻中随机挑选的样本点,ran d(0,1)表示生成0～1的随机数：

3.根据权利要求1所述的基于改进随机森林的高速列车轴承故障诊断方法，其特征在于，所述步骤4小波去噪的具体流程为：

4.根据权利要求1所述的基于改进随机森林的高速列车轴承故障诊断方法，其特征在于，所述步骤5具体流程为：

5.根据权利要求1所述的基于改进随机森林的高速列车轴承故障诊断方法，其特征在于，所述步骤6具体流程为：

从原始训练集中使用Bootstraping方法随机有放回采样选出m个样本，共进行n_tree次采样，生成n_tree个训练集；对于n_tree个训练集，分别训练n_tree个决策树模型；每次分裂的根据是Gini系数，其中k表示样本集合中的类别，P_k表示选中的样本属于k类别的概率，此样本被分错的概率是(1-P_k)，Gini系数公式如下：：

选择Gini系数最小的决策树进行分裂，每棵树都一直这样分裂下去，直到该节点的所有训练样例都属于同一类，在决策树的分裂过程中不需要剪枝，将生成的多棵决策树组成随机森林，对于本研究的故障分类问题，按多棵树分类器投票决定最终的故障分类结果。

6.根据权利要求1所述的基于改进随机森林的高速列车轴承故障诊断方法，其特征在于，所述改进随机森林针对不平衡样本问题，将不同决策树的数量分别设置为30、40、50、60、70和80，按照AUC指标，以精度最高的相应深度作为改进随机森林算法的深度参数，针对不同的深度参数生成差异随机森林模型，以模型精度较高、深度较小的深度值作为分类算法的参数，把最终性能最高，相似度最低的决策树作为新的随机森林诊断模型，通过实时调整树的深度参数来提高轴承故障诊断的准确性。