CN111931601B

CN111931601B - 齿轮箱错误类别标签修正系统及方法

Info

Publication number: CN111931601B
Application number: CN202010708530.7A
Authority: CN
Inventors: 黄亦翔; 张旭
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2023-10-20
Anticipated expiration: 2040-07-22
Also published as: CN111931601A

Abstract

一种齿轮箱错误类别标签修正系统及方法，该系统包括：时域特征提取融合模块、样本权重赋予模块、错误标签筛选模块和错误标签修正模块，时域特征提取融合模块提取并拼接齿轮箱振动信号不同模态分量的时域统计特征，样本权重赋予模块通过堆栈自编码获得时域统计特征的降维特征后，使用孤立森林改变不同样本在堆栈自编码训练中的权重，并估计出错误标签的比例，错误标签筛选模块对降维特征通过聚类方法挑选出错误标签率低的样本，错误标签修正模块根据错误标签率低的样本以及权重进行分类器训练，获取所有样本的信息熵，根据信息熵阈值实现样本标签的修正。降低错误的标签对分类器训练的不良影响，提高错误标签修正的正确率。本发明能够将错误标签样本的比例降低到2.5％以内。

Description

齿轮箱错误类别标签修正系统及方法

技术领域

本发明涉及的是一种信息处理领域的技术，具体是一种基于堆栈自编码和孤立森林的错误类别标签修正系统及方法。

背景技术

随着物联网发展和机械检测设备的密布，利用大数据进行故障诊断成为现代工业发展的方向。监督学习中，正确的标签样本是诊断的基础，但标记错误的标签会对故障的诊断预测结果造成干扰，降低目标分类的精度和泛化能力。在实际工程中，错误标签的情况难以避免。齿轮箱数据采集后，实验工作人员会根据需要给采集的数据设置类别标签以便于存储和使用，而类别标签依赖于操作人员水平以及过程数据的准确性。齿轮箱健康类别包括故障的种类，故障的程度，这两部分的诊断会因为标准不同而造成标签不够准确，甚至错误。数据本身也会存在限制条件，如多故障的齿轮箱，因为裂纹而忽视其他故障；缓慢变化的故障在前期被认为是正常标本等。另外，在信号转换，通信传输，预处理中的程序错误也会造成错误标签的产生。这些现实存在的困难会导致齿轮箱类别标签出现错误，从而影响研究人员在数据分析中的准确性。因此对齿轮箱的类别标签进行修正是十分有必要的。

现有研究多认为具有错误标签的样本是一类数据中的异常点，常采用过滤式的方法剔除错误标签的样本，但这种方法会降低样本所包含的信息量。现有的机器学习算法，如决策树，AdaBoost等在处理错误标签样本时，容易受到错误标签的负面影响，深度学习的模型也会拟合错误的标签，从而影响结果的准确性。

发明内容

本发明针对现有技术存在的上述不足，提出一种齿轮箱错误类别标签修正系统及方法，降低错误的标签对分类器训练的不良影响，提高错误标签修正的正确率。

本发明是通过以下技术方案实现的：

本发明涉及一种基于堆栈自编码和孤立森林的错误类别标签修正系统，包括：时域特征提取融合模块、样本权重赋予模块、错误标签筛选模块和错误标签修正模块，其中：时域特征提取融合模块提取并拼接齿轮箱振动信号不同模态分量的时域统计特征，样本权重赋予模块通过堆栈自编码获得时域统计特征的降维特征后，使用孤立森林改变不同样本在堆栈自编码训练中的权重，并估计出错误标签的比例，错误标签筛选模块对降维特征通过聚类方法挑选出错误标签率低的样本，错误标签修正模块根据错误标签率低的样本以及权重进行分类器训练，获取所有样本的信息熵，根据信息熵阈值实现样本标签的修正。

所述的时域特征提取融合模块包括：信号分解单元和时域特征融合单元，其中：信号分解单元通过经验模态分解的方法获取振动信号的模态分量，时域特征融合单元计算所有内涵模态分量的均值、最大值、最小值、整流平均值、峰峰值、均方根、方差、标准差、峭度、偏度、冲击因子、脉冲因子、波形因子、峰值因子、根均方值、对数比、绝对冲击因子，将计算结果形成一维向量，作为样本的特征向量。

所述的样本权重赋予模块包括：特征向量缩减单元、伪标签赋予单元和样本权重更改单元，其中：特征向量缩减单元通过堆栈自编码中的编码器对样本的特征向量进行维度缩减，伪标签赋予单元通过孤立森林和错误标签比例估计方法对维度缩减后向量进行异常点检测，给样本赋予正确(True)和错误(False)的伪标签，样本权重更改单元根据伪标签调整解码器对样本的关注程度，从而实现堆栈自编码训练。

所述的错误标签筛选模块包括：样本聚类单元和标签判断单元，其中：样本聚类单元将孤立森林作为聚类方法，通过样本特征之间的欧式距离对堆栈自编码获得的缩减向量进行聚类，获得各个类别的样本个数及分布，标签判断单元利用聚类结果对样本的标签进行判断，将样本分为标记为True的样本，和标记为False的样本两类。

所述的错误标签比例估计方法是指：第一次对样本进行异常点检测时，设置孤立森林的异常点比例为0.05，之后计算前后两轮训练中伪标签为True样本的方差，若方差有增大，则异常点比例应根据前后方差的比例增加一定百分比；若方差有减少，则异常点比例应根据前后方差的比例减少一定百分比。

所述的错误标签修正模块包括：信息熵计算单元和标签修正单元，其中：信息熵计算单元通过轮次迭代模式得到样本的分类概率，获得所有样本的信息熵，标签修正单元通过对比单个样本信息熵与信息熵阈值的关系，决定是否对样本的标签进行修正。

所述的轮次迭代模式是指：第一次训练分类器时使用样本标签为True的样本，被预测的样本是标签为False的样本；在之后的训练中，将所有样本作为一个整体，使用5折交叉验证的方法得到样本的分类概率，获得所有样本的信息熵。

所述的分类器，优选为随机森林分类器。

技术效果

本发明整体解决齿轮箱故障诊断过程中，需要基于历史故障数据建立数学模型，而历史故障数据会因为数据采集，处理保存的问题出现样本标签和实际样本类别不匹配的情况。本发明结合齿轮运转中的实际情况，对原有的样本标签进行筛选，修正错误的样本标签，进而提高后期故障诊断的准确度。

现有标签修正方法需要一部分标签正确的样本作为参考，本发明可以不需要参考样本，直接找到错误标签的样本；现有方法在找到错误的标签样本后，常将错误样本剔出样本集，本发明能够根据样本数据对标签进行修正，可以最大限度的保留原有样本的信息；现有方法将错误标签比例估计与错误标签样本筛选两个模块分开，无法起到相辅相成的作用，本发明将错误标签的筛选和错误标签比例的估计结合，通过错误标签比例来筛选错误的样本标签，错误的样本标签会影响错误标签比例的变化；在含错误标签的齿轮箱数据中，即使原有错误标签样本比例为40％，本发明同样能够将错误标签样本的比例降低到2.5％以内。

本发明结合经验模态分解，堆栈自编码，孤立森林，信息熵，交叉验证的方法。由经验模态分解的方法获得原有振动数据的振动模态分量，将所有振动模态分量的时域特征进行拼接，获得样本的初步特征向量；使用堆栈自编码中的编码器对样本的初步特征向量进行降维映射，孤立森林根据样本映射结果给样本赋予伪标签，从而影响编码器对不同样本的注意程度，增加堆栈自编码训练样本的准确性，提高降维特征的表达能力；训练好堆栈自编码后，将所有数据输入堆栈自编码获得降维特征，利用孤立森林将其进行分为正确和错误两类；利用交叉验证方法获得样本的信息熵，更改信息熵大于阈值的样本标签，降低训练过程中错误标签样本对训练器的影响，提高错误标签修正的正确率。

附图说明

图1为本发明系统示意图；

图2为实施例方法流程图。

具体实施方式

如图1所示，涉及一种基于堆栈自编码和孤立森林的错误标签修正系统，包括：时域特征提取融合模块、样本权重赋予模块、错误标签筛选模块和错误标签修正模块，其中：时域特征提取融合模块用于提取并拼接振动信号不同模态分量的时域信息，样本权重赋予模块将时域特征提取融合模块的结果通过堆栈自编码获得更低维度的特征，同时使用孤立森林给降维中的样本赋予不同的权重，错误标签筛选模块对堆栈自编码获得的降维特征通过聚类方法挑选出错误标签率低的样本，错误标签修正模块使用错误标签率低的样本获取其他样本的信息熵，根据信息熵阈值对样本标签进行修正，以获得最终标签修正后的样本集。

所述的样本权重赋予模块包括：特征向量缩减单元、伪标签赋予单元、样本权重更改单元，其中：特征向量缩减单元通过堆栈自编码实现输入特征的维度缩减，伪标签赋予单元通过孤立森林和预估的错误标签比例来对维度缩减后向量进行异常点检测，将一部分样本视为是错误标签，给予False的伪标签，另外一部分样本视为正确的标签，给予True的伪标签，并计算标签为True样本的方差，根据上一轮的错误标签比例和方差来得到这一轮的错误标签比例；样本权重更改单元根据伪标签调整堆栈自编码中损失函数每个样本的权重，忽视标签为False样本所带来的损失，增大标签为True样本所带来的损失。

所述的错误标签修正模块包括：信息熵计算单元和标签修正单元，其中：信息熵计算单元通过轮次迭代模式得到样本的分类概率，从而获得样本的信息熵，标签修正单元通过对比单个样本信息熵和信息熵阈值的关系，来用分类概率中最大概率的类别对样本标签进行修正。

所述的错误标签估计方法是指：第一次对样本进行异常点检测时，设置孤立森林的异常点比例为0.05，之后计算前后两轮训练过程中伪标签为True样本的方差，若方差有增大，则异常点比例应根据前后方差的比例增加一定百分比；若方差有减少，则异常点比例应根据前后方差的比例维持不变或减少一定百分比。

所述的轮次迭代模式是指：第一次训练分类器时使用样本标签为True的样本，被预测的样本为标签为False的样本；在之后的训练中，将所有的样本作为一个整体，使用5折交叉验证的方法得到样本的分类概率，获得对应的信息熵。

如图2所示，为本实施例基于上述系统的堆栈自编码和孤立森林的错误标签修正方法，在获得齿轮箱输入轴平面的垂直方向振动信号后，其标签修正的步骤如下：

1)时域特征提取融合：剔除振动信号中齿轮箱转速波动的数据，对结果进行经验模态分解，获得振动信号分解后的内涵模态分量；计算所有内涵模态分量的时域统计特征，如前述的均值，最大值，最小值，整流平均值等，将计算结果组合成一维向量，作为样本的特征。

所述的经验模态分解是指：通过信号包络线和信号均值作差的方式将频率不规则的信号转为多个单一频率的信号与残波相结合的形式，分解出来的单一频率信号被称为内涵模态分量。

2)赋予样本不同的权重：堆栈自编码的输入特征长度设置为样本特征向量的长度120，设置输出向量长度为10；每一次循环中随机挑选一部分数据作为堆栈自编码的输入数据，获得维度缩减后的结果；每一次循环后，利用孤立森林结合错误标签比例估计结果对缩减维度后的特征进行异常点检测，并对异常点样本贴上False的伪标签，正常样本贴上True的伪标签；

所述的堆栈自编码具体是指：首先使用前述齿轮箱特征数据训练自编码网络，自编码网络由编码器和解码器组成，编码器将输入的120维特征利用一次函数和权重获得64维输出特征，解码器同样利用一次函数和权重通过64维输出特征获得120维特征，损失函数通过对比输入的120维特征与最终的120维特征之间的差距，更新一次函数和权重的数值，函数和权重的更新公式具体为θ,公式中θ为映射参数，包括全连接权重W，偏置b，激活函数等，f_θ(x)是编码器中将120维输入信号映射成为64维输出特征的函数，g_θ′(x)是解码器中将64维输出特征映射成120维特征的函数，L(x⁽ⁱ⁾,g_θ′(f_θ(x⁽ⁱ⁾)))为选用的损失函数，具体表达式为/>w_i为不同样本对应的权重，n为样本个数；其次，继续训练一个64维到10维的自编码网络；最后将第一个自编码网络的输出作为第二个自编码网络的输入，形成堆栈自编码，进而将120维特征变为10维特征。

所述的错误标签比例估计方法是指：在第一次使用孤立森林进行异常点检测时，使用0.05作为错误标签的比例，之后计算前后两轮训练中伪标签为True样本的平均方差，如果平均方差增大的比例大于5％，则认为应该增大错误标签的比例，平均方差σ(x)计算公式为其中/>错误标签比例应该增大/>其中σ_bef为前一次循环的平均方差，σ_cur为当前循环过程的平均方差；如果方差的比例减少5％以上，则认为应该减少错误标签的比例以获得更多正确的样本，所以错误标签比例应该减少/>

优选地，所述的堆栈自编码在计算前后误差的时候会将伪标签为False的样本带来的误差设为0，只计算伪标签为True样本所带来的误差，即False样本的权重w_i＝0。所述的步长d优选为0.002。

所述的孤立森林，基于隔离树的集成异常点检测，具体为：对于样本点的集合，隔离树通过随机划分切割平面，将数据集中的样本分到树结构中不同的节点中，利用节点与根节点之间的距离计算异常分数，异常分数表示为其中h(x)为样本x距离根节点的平均路径长度，E(h(x))为平均路径的计数，c(n)为n个样本的平均搜索路径长度。孤立森林结合多个隔离树的异常分数来对样本集中的异常点进行检测。

3)错误标签样本的筛选：在多次循环训练堆栈自编码后，获得堆栈自编码的稳定参数。将所有样本作为堆栈自编码的输入，获得其维度缩减后的特征。以堆栈自编码训练中最后5次的错误标签比例平均值作为孤立森林聚类的比例标准，对维度缩减后的特征进行聚类，将聚类比例和错误标签比例相同的样本视为标签为False的样本，剩下的样本视为标签为True的样本。

4)错误标签修正：将错误标签样本筛选中标签为True的样本作为训练数据，训练随机森林分类器；使用训练好的随机森林分类器预测标签为False的样本，多次训练获得多个分类结果，将分类结果出现次数最多的作为标签为False样本的实际标签；将所有的样本作为一个整体，通过随机森林为分类器的5折交叉验证来获得样本的分类概率，进而计算样本的信息熵。当信息熵大于预设信息熵阈值，不更改样本的标签，否则利用最大分类概率对应的标签作为样本的真实标签，从而实现错误标签修正。

所述的样本信息熵，通过计算x的信息熵对样本类别不确定性进行评估，其中：k为类别数，样本x属于类别i的概率为P_i(x)。

通过本实施例可以发现，本发明在进行错误标签修正中，对原始信号进行两次的特征提取，有效的降低信息的冗余度，提高之后诊断的速度，同时多次使用孤立森林对异常点进行检测以获得较低错误标签率的样本；分类器的训练则结合低错误标签率样本和交叉验证的方法，能够减少错误标签对分类器的影响并提高错误标签修正的准确度。因此此种错误标签修正方法能够降低数据分布和错误标签对特征提取过程，对分类器训练过程的影响。

本方法很好的解决传统错误标签修正方法所受到数据分布和错误标签比例的影响。具体的讲，通过孤立森林对样本赋予不同的权重，改变每个样本在堆栈自编码训练过程中的权重，从而降低错误标签样本对堆栈自编码的影响。同时，随着堆栈自编码的训练，错误标签比例也在不断计算，进而影响孤立森林对样本的判断，这些都能够通过多轮次的训练来降低原有数据样本对方法所造成的影响。另外，最终训练分类器的数据也是经过前期筛选过的，具有低错误标签率的样本，基于信息熵的交叉验证方法也通过概率来保证样本标签的修正都能够提高修正的准确率。

经过具体实际实验，在错误标签比例为40％的具体环境设置下，设置堆栈自编码由一层输入层，一层隐藏层，一层输出层组成，输入层节点数为120，隐藏层节点数为64，输出层节点数为10，选用作为激励函数，循环训练200次；设置孤立森林中原有错误标签比例为0.05，孤立森林中标签更新步长为0.002。以上述参数执行本发明的方法，预测的错误标签样本比例为41％，与实际错误标签比例接近；本发明最终将齿轮箱错误标签样本的比例降低到2.5％以下，利用标签修正后的数据进行故障诊断，在XGBoost分类器下，对齿轮箱故障诊断的精确度从72％提升到94％。

与现有技术相比，本方法不需要正确的标签样本作为参考，可以直接找到错误标签的样本，并修正样本的标签，最大限度的保留原有样本的信息。经过实验，在40％错误标签比例的情况下，本方法所估计的齿轮箱样本中错误标签的比例为41％，修正后错误标签样本的比例降低到2.5％以内，提高后期故障诊断的准确度，效果优于现有方法。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于堆栈自编码和孤立森林的错误类别标签修正系统，其特征在于，包括：时域特征提取融合模块、样本权重赋予模块、错误标签筛选模块和错误标签修正模块，其中：时域特征提取融合模块提取并拼接齿轮箱振动信号不同模态分量的时域统计特征，样本权重赋予模块通过堆栈自编码获得时域统计特征的降维特征后，使用孤立森林改变不同样本在堆栈自编码训练中的权重，并估计出错误标签的比例，错误标签筛选模块对降维特征通过聚类方法挑选出错误标签率低的样本，错误标签修正模块根据错误标签率低的样本以及权重进行分类器训练，获取所有样本的信息熵，根据信息熵阈值实现样本标签的修正；

所述的样本权重赋予模块包括：特征向量缩减单元、伪标签赋予单元和样本权重更改单元，其中：特征向量缩减单元通过堆栈自编码中的编码器对样本的特征向量进行维度缩减，伪标签赋予单元通过孤立森林和错误标签比例估计方法对维度缩减后向量进行异常点检测，给样本赋予正确和错误的伪标签，样本权重更改单元根据伪标签调整解码器对样本的关注程度，从而实现堆栈自编码训练。

2.根据权利要求1所述的错误类别标签修正系统，其特征是，所述的时域特征提取融合模块包括：信号分解单元和时域特征融合单元，其中：信号分解单元通过经验模态分解的方法获取振动信号的模态分量，时域特征融合单元计算所有内涵模态分量的均值、最大值、最小值、整流平均值、峰峰值、均方根、方差、标准差、峭度、偏度、冲击因子、脉冲因子、波形因子、峰值因子、根均方值、对数比、绝对冲击因子，将计算结果形成一维向量，作为样本的特征向量。

3.根据权利要求2所述的错误类别标签修正系统，其特征是，所述的经验模态分解是指：通过信号包络线和信号均值作差的方式将频率不规则的信号转为多个单一频率的信号与残波相结合的形式，分解出来的单一频率信号被称为内涵模态分量。

4.根据权利要求1所述的错误类别标签修正系统，其特征是，所述的错误标签筛选模块包括：样本聚类单元和标签判断单元，其中：样本聚类单元将孤立森林作为聚类方法，通过样本特征之间的欧式距离对堆栈自编码获得的缩减向量进行聚类，获得各个类别的样本个数及分布，标签判断单元利用聚类结果对样本的标签进行判断，将样本分为标记为正确的样本，和标记为错误的样本两类。

5.根据权利要求1所述的错误类别标签修正系统，其特征是，所述的错误标签比例估计方法是指：第一次对样本进行异常点检测时，设置孤立森林的异常点比例为0.05，之后计算前后两轮训练中伪标签为True样本的方差，若方差有增大，则异常点比例应根据前后方差的比例增加一定百分比；若方差有减少，则异常点比例应根据前后方差的比例减少一定百分比。

6.根据权利要求1所述的错误类别标签修正系统，其特征是，所述的错误标签修正模块包括：信息熵计算单元和标签修正单元，其中：信息熵计算单元通过轮次迭代模式得到样本的分类概率，获得所有样本的信息熵，标签修正单元通过对比单个样本信息熵与信息熵阈值的关系，决定是否对样本的标签进行修正。

7.根据权利要求6所述的错误类别标签修正系统，其特征是，所述的轮次迭代模式是指：第一次训练分类器时使用样本标签为正确的样本，被预测的样本是标签为错误的样本；在之后的训练中，将所有样本作为一个整体，使用5折交叉验证的方法得到样本的分类概率，获得所有样本的信息熵。

8.根据权利要求1或7所述的错误类别标签修正系统，其特征是，所述的分类器，为随机森林分类器。

9.根据权利要求1～8中任一所述系统的堆栈自编码和孤立森林的错误标签修正方法，其特征在于，在获得齿轮箱输入轴平面的垂直方向振动信号后，其标签修正的步骤如下：

1)时域特征提取融合：剔除振动信号中齿轮箱转速波动的数据，对结果进行经验模态分解，获得振动信号分解后的内涵模态分量；计算所有内涵模态分量的时域统计特征，如前述的均值，最大值，最小值，整流平均值，将计算结果组合成一维向量，作为样本的特征；

2)赋予样本不同的权重：堆栈自编码的输入特征长度设置为样本特征向量的长度120，设置输出向量长度为10；每一次循环中随机挑选一部分数据作为堆栈自编码的输入数据，获得维度缩减后的结果；每一次循环后，利用孤立森林结合错误标签比例估计结果对缩减维度后的特征进行异常点检测，并对异常点样本贴上错误的伪标签，正常样本贴上正确的伪标签；

3)错误标签样本的筛选：在多次循环训练堆栈自编码后，获得堆栈自编码的稳定参数，将所有样本作为堆栈自编码的输入，获得其维度缩减后的特征，以堆栈自编码训练中最后5次的错误标签比例平均值作为孤立森林聚类的比例标准，对维度缩减后的特征进行聚类，将聚类比例和错误标签比例相同的样本视为标签为错误的样本，剩下的样本视为标签为正确的样本；

4)错误标签修正：将错误标签样本筛选中标签为正确的样本作为训练数据，训练随机森林分类器；使用训练好的随机森林分类器预测标签为错误的样本，多次训练获得多个分类结果，将分类结果出现次数最多的作为标签为错误样本的实际标签；将所有的样本作为一个整体，通过随机森林为分类器的5折交叉验证来获得样本的分类概率，进而计算样本的信息熵，当信息熵大于预设信息熵阈值，不更改样本的标签，否则利用最大分类概率对应的标签作为样本的真实标签，从而实现错误标签修正。