CN114169539A

CN114169539A - 模型训练方法、训练装置、电子设备和计算机可读介质

Info

Publication number: CN114169539A
Application number: CN202210127454.XA
Authority: CN
Inventors: 陈曦; 王巍巍; 葛成; 王明
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2022-03-11
Also published as: WO2023151488A1

Abstract

提供一种模型训练方法、训练装置、电子设备和计算机可读介质。该方法包括：构建高频振动信号的初始数据集；对初始数据集进行筛选，以得到关键数据集；采用关键数据集进行模型训练，以得到故障分类模型，其中，初始数据集采用故障类别、样本和特征三个维度表征，则筛选包括：对于每个特征，在样本和故障类别两个维度分别进行平均距离计算，并基于平均距离得到每个特征的重要性的表征值；选择重要性的表征值大于第一阈值的特征组成关键数据集。本实施例基于样本和故障类别两个维度的平均距离计算确定每个特征的重要性的表征值，根据重要性的表征值对初始数据集进行筛选，采用筛选后的特征进行模型训练，以提高模型训练效率。

Description

模型训练方法、训练装置、电子设备和计算机可读介质

技术领域

本公开涉及人工智能与机器故障监测和诊断结合的领域，尤其涉及一种模型训练方法、训练装置、电子设备和计算机可读介质。

背景技术

由于转子、轴承、壳体、密封和基础等部分的结构及加工安装方面缺陷，或者由于外部作用等原因，大量工业设备运行时产生振动，过大的振动又往往是设备损坏的主要原因。据统计，对于工业中量大面广的旋转机械与往复机械运动，设备由于振动引起的故障占总故障率的60%以上。所以对机械设备的振动监测和分析非常重要，相较其它状态参数，比如润滑油或者内部流体的温度、压力、流量或电机的电流等，振动参数往往更能直接、快速、准确地反应机组运行状态，振动信号通常是对设备状态进行诊断的主要依据之一。

随着我国工业现代化的发展，大型旋转设备的应用越来越广泛，从钢铁、煤炭、电力、水泥，到地铁、飞机、火车、船舶等，都离不开旋转设备的身影，这些旋转设备的稳定运行对国民经济的发展越来越重要。设备在长期工作运行中，不可避免会发生各种故障，如果早期故障征兆发现不及时，随着其发展扩大，当到达一定的临界点后，设备容易发生突发性严重故障,导致大量的非计划性维护工作。这些故障轻则造成一定的经济损失,重则造成人员的伤亡。

工业旋转设备在工作中某一部分发生磨损、退化等轻微故障，由于宏观表征微弱，仅依靠人工辨识往往无法有效监测，而且费时费力。而振动信号随着机器的运转产生并持续，即使机器的运行状态较好，由于微小激励，也将产生振动。对于机械设备来说通常有两类性质不同的振源：一类是由于机械运动件的质量不平衡、几何轴线不对中、齿轮捏合不好、传动件配合失当、轴颈轴承间隙过大等引起的机械强迫振动，包括周期振动、冲击振动、随机振动等，同时也引起噪声；另一类振动是由于结构响应，自激励振动或环境振动引起的振动响应，比如：流体的喘激振动、轴承的油膜振动、部件本身的响应振动、结构的局部振动等。一旦出现早期故障，相应的振动情况和噪音的大小都会随之发生一系列变化。因此,采用科学的方法，通过对振动信号的监测与诊断对提高旋转设备的稳定运行有很重要的作用，建立在现代故障诊断技术的监测与诊断系统，可以实时监测设备的运行状态，通过对数据的处理与分析，可以发现设备故障的原因以及预测设备可能的故障，为预防事故、科学安排检修提供科学的依据，从而节约维修成本，提高设备的可靠性和安全性。

近年来，随着深度学习的兴起，研究者们将神经网络模型应用于机器故障监测和诊断并取得了重要进展。但在实践中，基于高频振动信号产生的数据集庞杂而繁多，如果直接使用这些数据集进行模型训练，无疑将耗费大量的资源且效率不高。

发明内容

有鉴于此，本公开旨在提供一种模型训练方法、训练装置、电子设备和计算机可读介质，以提高模型训练效率。

根据本公开的第一方面，提供一种模型训练方法，包括：

构建高频振动信号的初始数据集；

对所述初始数据集进行筛选，以得到关键数据集；

采用所述关键数据集进行模型训练，以得到故障分类模型，

其中，所述初始数据集采用故障类别、样本和特征三个维度表征，则所述筛选包括：

对于每个特征，在所述样本和所述故障类别两个维度分别进行平均距离计算，并基于两个维度的平均距离计算结果得到每个特征的重要性的表征值；以及

选择重要性的表征值大于第一阈值的特征组成所述关键数据集。

在一些实施例中，还包括：在所述关键数据集中，计算每个特征与其他特征的相关性并基于特征之间的相关性对所述关键数据集的特征进行筛选。

在一些实施例中，所述在所述关键数据集中，计算每个特征与其他特征的相关性并基于特征之间的相关性对所述关键数据集的特征进行筛选包括：

将所述关键数据集的特征按照重要性从大到小排序并将重要性最高的特征取出放入特征子集；

按照重要性排序，计算所述关键数据集中的每个特征与所述特征子集的方差膨胀因子；

将所述关键数据集中每个特征的方差膨胀因子与第二阈值进行比较，如果该特征的方差膨胀因子小于第二阈值，则将该特征放入到特征子集，

重复执行所述计算所述关键数据集中的每个特征与所述特征子集的方差膨胀因子和将所述关键数据集中每个特征的方差膨胀因子与第二阈值进行比较，如果该特征的方差膨胀因子小于第二阈值，则将该特征放入到特征子集的步骤，直到完成所述关键数据集的所有特征的处理。

在一些实施例中，对于每个特征，在所述样本维度进行平均距离计算包括：

计算每个特征在相同故障类别下不同样本间的平均距离；

基于每个特征在相同故障类别下不同样本间的平均距离，计算每个特征在多个故障类别的平均值，并将其记为第一平均距离；

对于每个特征，在所述故障类别维度进行平均距离计算包括：

计算相同故障类别下所有样本中每个特征的平均值；

基于相同故障类别下所有样本中每个特征的平均值，计算不同故障类别间每个特征平均值的平均距离，并将其记为第二平均距离。

在一些实施例中，所述并基于两个维度的平均距离计算结果得到每个特征的重要性的表征值包括：

计算每个特征的第一平均距离的方差因子，

计算每个特征的第二平均距离的方差因子；

基于每个特征的两个方差因子计算补偿因子；

基于每个特征的补偿因子、第一平均距离和第二平均距离得到每个特征的重要性的表征值。

在一些实施例中，所述计算每个特征在相同故障类别下不同样本间的平均距离采用公式（1）：

所述计算每个特征在多个故障类别的平均距离的平均值采用公式（2）：

其中，

代表第k种故障类别中第i个样本的第j个特征值，

是第k个故障类别的样本数量，K是故障类别数量，J是每个样本的特征数量。

在一些实施例中，所述计算相同故障类别下所有样本中每个特征的平均值采用公式（3）：

所述计算不同故障类别间每个特征的平均值的平均距离采用公式（4）：

其中，K是故障类别数量，

是第 k个故障类别的样本数量，J是每个样本的特征数量，

代表第k种故障类别中第i个样本的第j个特征值。

在一些实施例中，对于每个关键数据集中的每个特征，与所述特征子集的方差膨胀因子的计算步骤包括：代入到公式（5），以得到该特征的方差膨胀因子，

其中，

为所述特征子集的特征。

根据本公开的第二方面，提供一种模型训练装置，包括：

特征提取单元，用于构建高频振动信号的初始数据集；

特征筛选单元，用于对所述初始数据集进行筛选，以得到关键数据集；

模型训练单元，用于采用所述关键数据集进行模型训练，以得到故障分类模型，其中，所述初始数据集采用故障类别、样本和特征三个维度表征，则所述特征筛选单元包括：

根据本公开的第三方面，提供一种电子设备，包括存储器和处理器，所述存储器还存储有可由所述处理器执行的计算机指令，所述计算机指令被执行时，实现上述任一项所述的模型训练方法。

根据本公开的第四方面，提供一种计算机可读介质，所述计算机可读介质存储有可由电子设备执行的计算机指令，所述计算机指令被执行时，实现上述任一项所述的模型训练方法。

根据本公开实施例提供的模型训练方法，将数据集表征为故障类别、样本和特征三个维度，且在样本和故障类别两个维度分别进行平均距离计算，并基于两个平均距离计算结果得到每个特征的重要性的表征值，从而可根据重要性的表征值对初始数据集进行筛选，以获得优化的特征组合，进而采用优化的特征组合进行模型训练，能达到提高训练效率的目的。

附图说明

通过参考以下附图对本公开实施例的描述，本公开的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本公开实施例提供的模型训练方法的流程示意图；

图2是本公开实施例提供的结合重要性和相关度对初始数据集进行筛选的方法流程图；

图3是本公开实施例提供的模型训练装置的结构示意图；

图4是一个示例性的电子设备的结构示意图。

具体实施方式

以下基于实施例对本公开进行描述，但是本公开并不仅仅限于这些实施例。在下文对本公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本公开。为了避免混淆本公开的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

本公开实施例提供的模型训练方法的如图1所示。

步骤S11是构建高频振动信号的初始数据集。

步骤S12是对初始数据集进行筛选，以得到关键数据集，即对包含丰富特征的初始数据集进行特征筛选，过滤出对于高重要性低相关性的一组特征；

步骤S13是采用关键数据集进行模型训练以得到故障分类模型。也就是说，搭建故障分类模型（使用如支持向量机SVM、随机森林RF等的ML模型），将步骤S12筛选出的数据集提供给故障分类模型，对故障分类模型进行训练，并在训练中不断地优化故障分类模型的权重参数，直到损失函数达到预期才停止训练。

其中，高频振动信号通常来自震动传感器，通过震动传感器将模拟信号的高频振动信号转换为数字信号，然后采用各种方法对数字信号的高频振动信号进行特征提取。现有的特征提取技术多种多样，大体分为时域特征、频域特征、时频域特征以及针对一些特定场景提取的特征。时域特征最为直观，通常会计算以下指标：平均值、均方根、峰峰值、脉冲、裕度、峰度、峭度等。频域特征主要是将信号进行傅立叶变换，从另一个视角观察信号的频谱，提取频谱的各类特征，比如：均值、最大值、质心频率、谱峰度、谱功率等。时频域特征主要用于设备起停阶段，通过获得信号的时频谱观察信号频率随时间的变化，提取时变特征。所有提取出来的特征组成一个数据集，作为下一环节特征筛选的输入。

筛选步骤是从数据池中选择出一些优选特征以降低数据集维度的过程，是提高学习算法性能的一个重要手段，也是分类识别中关键的数据预处理步骤，经由筛选步骤能够获得能够使系统特定指标优化（比如模型识别精度）的特征组合。依据是否独立于后续的机器学习算法，筛选步骤采用的特征选择方法主要分为三大类：

（a）过滤式：与后续机器学习算法无关，一般直接利用所有训练数据的统计性能评估特征，使用多种评价准则来增强特征与类别的相关性，削减特征之间的相关性。常见的选择方法有：方差选择法，相关系数法，卡方检验法，互信息法等。

（b）封装式：将特征选择算法作为后续机器学习算法的一个组成部分，并且直接使用分类性能作为特征重要性程度的评价标准。它的依据是选择子集最终被用于构造分类模型。因此，在构造分类模型时，直接采用那些能取得较高分类性能的特征，从而能够获得一个分类性能较高的分类模型，这里的模型可以为各类机器学习算法。

（c）嵌入式：直接使用某种机器学习模型进行训练，得到各个特征的权值系数，根据系数从大到小作为特征的重要程度进行选择特征。

在本文中主要是针对过滤式的特征选择进行改进。首先，在构建初始数据集时，将初始数据集表征为故障类别、样本和特征三个维度的数据。具体来说，对于通过传感器输出的一段数字高频信号，将这段高频信号处理成一个包括多个特征的样本，所述多个特征中的每个特征可以是时域特征、时域特征或时频域特征，且该样本具有归属的故障类别。样本所属的故障类别可通过人工标注或已经训练好的故障分类模型得到，例如，对于已经训练好的故障分类模型，可将样本输入给该模型，以得到该样本对应的故障类别。

然后在样本和故障类别两个维度分别进行平均距离计算，以得到每个特征在样本维度的第一平均距离和在故障类别维度的第二平均距离。具体来说，对于第一平均距离，先计算每个特征在同一故障类别下的多个样本之间的平均距离，由此得到多个特征在多个故障类别下的多个平均距离，然后基于每个特征在多个故障类别下的多个平均距离计算出该特征在多个故障类别下的平均距离的平均值作为该特征的第一平均距离；对于第二平均距离，先计算每个特征在同一故障类别下所有样本的平均值，由此得到多个特征在多个故障类别下的多个平均值，然后基于每个特征在多个故障类别下的多个平均值计算出该特征在多个故障类别下的平均值的平均距离作为该特征的第二平均距离，然后基于每个特征的第一平均距离和第二平均距离得到该特征的重要性的表征值，由此得到所有特征的重要性的表征值，进而比较所有特征的重要性的表征值并根据比较结果从初始数据集中选出若干特征组成关键数据集（关键数据集同样表征为故障类别、样本和特征三个维度），例如只要某个特征的重要性的表征值大于设定阈值，即将该特征归属到关键数据集。

综上，对于每个特征，分别在样本和故障类别两个维度进行平均距离计算，得到每个特征在两个维度上的两个平均距离，并基于这两个平均距离得到评价每个特征的重要性的表征值，利用该表征值从数据集中选出特征组合以训练故障分类模型。

然而，通过以上距离评估方法选出的特征虽然具有较高的重要性，但彼此之间也可能存在较高的相关性，这样就会增加模型的复杂度，影响最终故障分类效果。因此在一些实施例中，继续计算每个特征与其他特征之间的相关度，并利用相关度继续进行筛选。

图2是本公开实施例提供的结合重要性和相关度对初始数据集进行筛选的方法流程图，具体包括以下步骤。

在步骤S121中，新建一个空的特征子集。

在步骤S122中，计算每个特征的第一平均距离和第二平均距离，并据此得到每个特征的重要性的表征值。

在步骤S123中，将重要性的表征值大于第一阈值的特征组成第一特征集合。

在步骤S124中，将第一特征集合的特征按照重要性从大到小排序并将重要性最高的特征取出放入特征子集。

在步骤S125中，按照重要性排序，逐个计算第一特征集合中的每个特征与特征子集中的方差膨胀因子。

在步骤S126中，判断该特征的方差膨胀因子是否小于第二阈值，如果是，则执行步骤S127，否则执行步骤S125。步骤S125至S127组成一个循环，该循环的重复次数为（N-1）次，N为第一特征集合包含的特征的数量。

在步骤S127中，将该特征放入到特征子集。

在步骤S128中，输出特征子集。

在本实施例中，根据上一实施例的计算方式计算出每个特征的第一平均距离和第二平均距离，并据此得到每个特征的重要性的表征值，然后以重要性的表征值大于第一阈值为筛选条件得到第一特征集合，将第一特征集合的特征按照重要性的表征值从大到小排序并将重要性的表征值最高的特征取出放入特征子集，然后按照重要性从大到小的排序，计算第一特征集合中的每个特征与特征子集的方差膨胀因子，并且将方差膨胀因子小于第二阈值的特征放入到特征子集中，这意味着，当一个特征与特征子集的方差膨胀因子小于第二阈值时，认为该特征与特征子集的相关性相对较小，因此可将该特征放入到特征子集中以作为特征子集中。应理解，特征子集中的特征数量随着循环次数增加而增加，即用来计算方差膨胀因子的特征数量逐渐增加，因此关键数据集中的特征与特征子集的方差膨胀因子计算的计算量和复杂度随着增加而增加。

下面结合公式，更具体介绍如何在样本和故障类别两个维度进行平均距离计算，得到每个特征的两个平均距离，并基于这两个平均距离得到评价每个特征的重要性的表征值。

初始数据集包含K种故障类别，即K是故障类别数量，

代表第k种故障类别中第i个样本的第j个特征值，I _k是第k个故障类别的样本数量，J是每个样本的特征数量。此外，

其中在样本和故障类别两个维度进行平均距离计算，得到每个特征的两个平均距离的具体操作步骤如下：

（1）计算相同故障类别下不同样本间的平均距离：

（2）然后计算每个特征在K个故障类别的平均距离的平均值：

（3）计算相同故障类别下所有样本不同特征各自的平均值：

（4）然后计算不同故障类别间各个特征平均值的平均距离：

其中公式（2）和（4）中的b和w只用于区分，没有具体含义。

然后基于以上两个计算结果得到评价每个特征的重要性的表征值的具体操作步骤如下：

（7）综合考虑两个方差因子定义补偿因子：

（8）计算考虑补偿因子后的系数：

（9）归一化得到特征重要性指标：

在一些实施例中，提出第j个特征的方差膨胀因子计算如下：

其中，

之外要进行相关性比对的其他特征。对应图2的实施例，

即是指特征子集。

下面依据图2的实施例再进行简单说明。首先最开始状态下，特征子集里只有一个重要性为最高的特征，然后从关键数据集中取出重要性次高的特征，并在该特征与特征子集里的重要性为最高的特征之间计算方差膨胀因子，如果方差膨胀因子小于第二阈值，则将该特征放入到特征子集中，然后从关键数据集中取出重要性为第三的特征，并计算该特征与特征子集中的重要性为最高和次高的两个特征的组合之间的方差膨胀因子，如果方差膨胀因子小于第二阈值，则将该特征放入到特征子集中，依次类推。

相应地，本公开实施例提供一种故障检测装置，如图3所示，包括特征提取单元301，特征筛选单元302和模型训练单元303。

特征提取单元301用于构建高频振动信号的初始数据集；

特征筛选单元302用于对初始数据集进行筛选，以得到关键数据集；

模型训练单元303用于采用关键数据集进行模型训练，以得到故障分类模型。其中，初始数据集采用故障类别、样本和特征三个维度表征，而模型训练单元303包括：对于每个特征，在样本和故障类别两个维度分别进行平均距离计算，并基于两个维度的平均距离计算结果得到每个特征的重要性的表征值，选择重要性的表征值大于第一阈值的特征组成关键数据集。

关于特征提取单元301，特征筛选单元302和模型训练单元303的更详细的说明，可参见上文描述。

图4是一个示例性的电子设备400的结构示意图。该电子设备可用于执行包含上文所述的故障分类模型的应用系统，同时该电子设备可用于对故障分类模型进行训练。如图上所示，电子设备400包括经由总线405耦接的调度器401、存储单元403、I/O接口404、多个模型加速单元402。

存储单元403可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）和/或高速缓存存储单元。存储单元403还可以包括非易失性存储单元形式的可读介质，例如，只读存储单元（ROM）、闪存存储器和各种磁盘存储器。

存储单元403可以存储各种程序模块和数据，各种程序模块包括操作系统、提供诸如文本处理、视频播放、软件编辑和编译等功能的应用程序。这些应用程序的可执行代码被调度器401从存储单元403中读出并执行，以实现这些程序模块预定的操作。调度器401一般为处理器（CPU）。特别地，存储单元403存储有基于上文所述的故障检测系统。

总线405可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400可以与一个或多个外部设备（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备400交互的设备通信，和/或与使得电子设备400能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口404进行。并且，电子设备400还可以通过网络适配器（未示出）与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。例如通过网络适配器，其他电子设备可访问电子设备400。应当明白，尽管图中未示出，基于电子设备400可使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

如图上所示，电子设备400包括多个模型加速单元402。传统的处理器架构设计，逻辑控制方面十分有效，而在大规模并行计算方面则效率不够，因此对模型计算并不高效。为此，开发出模型加速单元，不同模型可适配于不同的模型加速单元。模型加速单元例如为神经网络加速单元（NPU）。NPU采用数据驱动并行计算的架构，用于处理各神经网络节点的大量运算（例如卷积、池化等）的处理单元。再或者为图形处理单元（GPU），用于专门做图像和图形相关的运算工作，由于图形处理单元采用大量用于专门做图形计算的计算单元，使显卡减少了对CPU的依赖，承担了CPU原来承担的一些计算密集的图形图像处理工作，因此对于图像数据的处理效率大大提高。多个模型加速单元402接受调度器401的控制，通过调度器401的控制，多个模型加速单元402能够协同工作。

以本公开各个实施例为例，参考图1和图3，特征提取单元 301所对应的步骤S11和特征筛选单元302所对应的步骤S12可由调度器401执行，而模型训练单元 303所对应的S13则可以由调度器401和多个模型加速单元402协作完成，此时调度器401总控过程，将故障分类模型的执行放到多个模型加速单元402上并且汇总多个模型加速单元402的执行结果，多个模型加速单元402之间的数据交互可通过调度器401实现，也可由多个模型加速单元402直接进行数据交互。

应理解，本公开实施例提供的模型训练方法和模型训练装置是利用监督式的距离评估方法可以从数据集中选择出优化的特征组合以达到提高模型训练效率的目的。监督式的距离评估方法是指利用故障类别（给维度的数据需要标注或通过已经训练好的故障分类模型才能产生）维度的平均距离进行评估。

另外，本公开实施例还提供一个计算机可读介质，用于存储实现上述模型训练方法的计算机可读指令。

应该明白的是，本公开实施例提供的模型训练方法相比现有技术，采用监督式的距离评估方法从初始数据集中选出优化的特征组合进行模型训练从而可达到提高模型训练效率和节约计算资源的目的。因此该模型训练方法具有一定的实用价值和经济价值。

需要领会，以上所述仅为本公开的优选实施例，并不用于限制本公开，对于本领域技术人员而言，本说明书的实施例存在许多变型。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

应该理解，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

应该理解，上述对本说明书特定实施例进行了描述。其它实施例在权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

应该理解，本文用单数形式描述或者在附图中仅显示一个的元件并不代表将该元件的数量限于一个。此外，本文中被描述或示出为分开的模块或元件可被组合为单个模块或元件，且本文中被描述或示出为单个的模块或元件可被拆分为多个模块或元件。

还应理解，本文采用的术语和表述方式只是用于描述，本说明书的一个或多个实施例并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征，应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的，权利要求应视为覆盖所有这些等效物。