CN116720073A

CN116720073A - 一种基于分类器的异常检测提取方法与系统

Info

Publication number: CN116720073A
Application number: CN202311000015.3A
Authority: CN
Inventors: 杨波; 李福存; 王苏扬; 王雨澄; 卞雯雯; 林文辉; 杨爱玲; 马超
Original assignee: Jiangsu Jinheng Information Technology Co Ltd
Current assignee: Jiangsu Jinheng Information Technology Co Ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-09-08

Abstract

本申请提供一种基于分类器的异常检测提取方法与系统。所述方法采集目标检测设备的时间序列数据，将时间序列数据输入至分类器，以进行故障分类。分类器包括故障识别模型和故障分类模型。故障识别模型接收时间序列数据，可以得到待分类时间序列数据。故障分类模型接收待分类时间序列数据与目标检测设备的历史故障数据，输出目标检测设备的故障类型。基于机器学习的过程，通过故障识别模型和故障分类模型组成分类器，可以根据采集得到的时间序列数据先后提取故障信号以及故障信号关联的故障类型，缓解非线性数据不易提取特征的问题，提高故障类型识别的准确率。

Description

一种基于分类器的异常检测提取方法与系统

技术领域

本申请涉及故障检测技术领域，尤其涉及一种基于分类器的异常检测提取方法与系统。

背景技术

在工业生产中，可以通过采集生产设备的各类信号对生产设备的运行状态进行监控。以电机、风机等设备为例，在运行的过程中会产生一定振动，因此可以通过在生产设备周围、或生产设备上布置传感器采集振动信号，进而判断生产设备的运行状态。

对信号进行处理，可以从信号形成的数据波形中提取时域指标、频域指标，并结合经验、故障判断规则以及统计学原理对故障进行检测。其中，依靠经验判断故障的方式效率低下，有经验的操作人员不易出现在多个生产场景中。

还可以依靠故障判断规则与统计学原理互相结合对故障进行判断，例如利用均值分析、方差分析等统计手段结合历史数据，对一些规则进行识别，进而与故障关联，实现对故障类型的判断。但生产设备产生的数据包含大量的非线性数据，这种方式处理非线性数据时效果不佳。

发明内容

本申请提供一种基于分类器的异常检测提取方法与系统，以解决因生产设备产生的数据包含大量的非线性数据，利用统计学结合故障规则判断的方式处理非线性数据时效果不佳的问题。

第一方面，本申请提供一种基于分类器的异常检测提取方法，包括：

采集目标检测设备的时间序列数据，将所述时间序列数据输入至分类器；所述时间序列数据包括目标检测设备的正常运行数据与故障运行数据；所述分类器包括故障识别模型和故障分类模型；

将所述时间序列数据输入至故障识别模型，得到待分类时间序列数据，所述待分类时间序列数据中包括设有故障标签的关键信号；所述故障识别模型为基于时间卷积网络构建的模型；

将所述待分类时间序列数据与所述目标检测设备的历史故障数据输入至故障分类模型，输出所述目标检测设备的故障类型；所述故障分类模型为基于长短期记忆网络构建的模型。

在一些可行的实施例中，所述关键信号与所述待分类时间序列数据中的关键因子关联；所述关键信号包括冲击信号和磨损信号；所述关键因子包括峰值因子、脉冲因子、峭度因子、裕度因子；其中，所述冲击信号与所述峰值因子、脉冲因子、峭度因子关联；所述磨损信号与所述裕度因子关联。

在一些可行的实施例中，所述方法包括：

若所述峰值因子、脉冲因子、峭度因子中的任一个大于或等于冲击阈值，则为所述峰值因子、脉冲因子、峭度因子所在的时间序列数据段设置故障标签；所述时间序列数据段为所述时间序列数据中的一段数据，所述峰值因子、脉冲因子、峭度因子基于所述时间序列数据段计算得到；

若所述裕度因子大于或等于磨损阈值，则为所述磨损阈值所在的时间序列数据段设置故障标签。

在一些可行的实施例中，所述故障识别模型包括残差连接结构；每个所述残差连接结构包括第一层扩张因果卷积、第二层扩张因果卷积和非线性激活函数；第一层扩张因果卷积的输出端连接第一dropout层，所述第一dropout层的输出端连接第二层扩张因果卷积的输入端，所述第二层扩张因果卷积的输出端连接第二dropout层；其中，第二层扩张因果卷积通过非线性激活函数触发。

在一些可行的实施例中，所述方法还包括：

设置归一化权重，以及根据所述归一化权重对每层扩张因果卷积执行归一化处理。

在一些可行的实施例中，所述方法还包括：

对所述待分类时间序列数据和所述历史故障数据执行预处理；

将预处理后的待分类时间序列数据和历史故障数据输入至长短期记忆网络，所述长短期记忆网络与归一化层以残差连接的方式连接；所述残差连接的方式生成两通道残差信号；其中，残差值包括故障的预测值的残差与故障的实际值的残差。

在一些可行的实施例中，对所述待分类时间序列数据和所述历史故障数据执行预处理时，包括：

设置步长，以及对所述待分类时间序列数据和历史故障数据执行加窗处理；

设置采样间隔，基于采样间隔对加窗处理后的数据执行采样处理，以降低所述待分类时间序列数据和历史故障数据的数据维度。

在一些可行的实施例中，所述方法还包括：

将由时间序列数据组成的数据集划分为训练集与测试集；

使用训练集训练所述故障识别模型，以及使用测试集验证所述故障识别模型；其中，验证所述故障识别模型的次数与测试集的数量关联；

选用故障识别准确率最高的故障识别模型作为最优故障识别模型。

在一些可行的实施例中，所述方法还包括：

设置传感器的采样频率，以周期性获取所述时间序列数据；所述时间序列数据至少包括50个采样数据。

第二方面，本申请还提供一种基于分类器的异常检测提取系统，包括：采集模块、故障预测模块；

所述采集模块用于采集目标检测设备的时间序列数据，将所述时间序列数据输入至分类器；所述时间序列数据包括目标检测设备的正常运行数据与故障运行数据；所述分类器包括故障识别模型和故障分类模型；

所述故障预测模块用于将所述时间序列数据输入至故障识别模型，得到待分类时间序列数据，所述待分类时间序列数据中包括设有故障标签的关键信号；所述故障识别模型基于时间卷积网络构建得到；

所述故障预测模块用于将所述待分类时间序列数据与所述目标检测设备的历史故障数据输入至故障分类模型，输出所述目标检测设备的故障类型；所述故障分类模型基于长短期记忆网络构建得到。

由上述技术内容可知，本申请提供一种基于分类器的异常检测提取方法与系统。所述方法采集目标检测设备的时间序列数据，将时间序列数据输入至分类器，以进行故障分类。分类器包括故障识别模型和故障分类模型。故障识别模型接收时间序列数据，可以得到待分类时间序列数据。故障分类模型接收待分类时间序列数据与目标检测设备的历史故障数据，输出目标检测设备的故障类型。基于机器学习的过程，通过故障识别模型和故障分类模型组成分类器，可以根据采集得到的时间序列数据先后提取故障信号以及故障信号关联的故障类型，缓解非线性数据不易提取特征的问题，提高故障类型识别的准确率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于分类器的异常检测提取方法示意图；

图2为本申请实施例提供的关键因子与故障识别关系示意图；

图3为本申请实施例提供的故障识别模型网络结构连接示意图；

图4为本申请实施例提供的模型验证方法示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

钢铁行业因生产规模的扩大，生产设备的数量也随之增加。在生产过程中需要对生产设备的运行状态进行监控，以维持生产的正常运行。然而在一些生产环境下，生产设备出现故障会直接影响生产效率以及产品良品率，进而造成损失。

生产设备运行的过程中，振动信号会随生产阶段保持一定规律，例如在启动阶段，振动信号形成的数据波形具有一定规律，在稳定运行阶段，振动信号形成的数据波形以另一种规律呈现。因此在处理振动信号的数据时，可以根据振动信号形成的数据波形，提取其中的时域指标、频率指标对生产设备的运行状态进行分析。例如，在生产设备产生冲击故障时，振动信号的幅值会发生突变。

振动信号形成的数据可以称为时间序列数据，在根据时间序列数据检测生产设备的运行状态、或对生产设备的运行状态进行预测时，只根据当前采集的数据进行分析不利于故障类型的判断。在不清楚故障类型的基础上，停止生产以对生产设备进行维护，需要耗费较多的排查时间，影响维护效率和生产效率。

此外，可以采用统计学与故障判断规则结合的方式对故障类型进行判断。但生产设备运行时产生的数据包含了大量的非线性数据，例如均值分析、方差分析等统计学原理应用于非线性数据计算时，不易从中提取规律，进而难以与故障类型进行关联，导致故障类型识别困难。

鉴于上述问题，如图1所示，本申请提供一种基于分类器的异常检测提取方法，采集目标检测设备的时间序列数据，将所述时间序列数据输入至分类器；

所述时间序列数据包括目标检测设备的正常运行数据与故障运行数据。目标检测设备在运行的过程中，正常运行产生的数据与故障时产生的数据会具有较为明显的差异。在产生故障时，一些目标检测设备通过自适应调整可以对故障进行自行修复，并重新回归正常运行，此时产生的数据则变回正常运行数据。因此，目标检测设备产生的时序序列中可以包括正常运行数据，也可以包括故障运行数据。

S100：将时间序列数据输入到分类器中，分类器可以根据正常运行数据以及故障运行数据的信号特点进行学习，以辨识出时间序列中产生故障信号的位置。再通过结合故障类型的历史数据，还可以根据故障信号对故障类型进行判断。

所述分类器包括故障识别模型和故障分类模型。故障识别模型用于通过时间序列数据的平稳度、趋势、同环比差异等数据对产生故障信号的位置进行判断。故障分类模型用于根据时间序列数据以及历史故障数据对故障类型进行判断。

S200：将所述时间序列数据输入至故障识别模型，得到待分类时间序列数据。

所述待分类时间序列数据中包括设有故障标签的关键信号。所述故障识别模型基于时间卷积网络构建得到。关键信号可以是某一时刻的信号，也可以是某一时段的信号。关键信号可用于表示故障产生，例如在时间序列数据中某一时刻出现的信号，其幅值远大于正常运行时信号幅值，则可以判断这一时刻目标检测设备出现故障。

时间卷积网络的卷积层之间具有因果关系，因此不容易产生漏接历史数据或未来数据的情况。进而使得故障识别模型根据时间序列数据，判断故障是否产生时，具有更强的学习能能力。

S300：将所述待分类时间序列数据与所述目标检测设备的历史故障数据输入至故障分类模型，输出所述目标检测设备的故障类型；所述故障分类模型基于长短期记忆网络构建得到。

历史故障数据可以是标有故障类型的数据，例如磨损、冲击这类故障种类与数据之间一一对应。因此故障分类模型可以根据历史故障数据，以及目标检测设备的分类时间序列数据对故障类型与待分类时间序列数据之间的关系进行学习，进而可以根据待分类时间序列数据判断目标检测设备的故障类型。

长短期记忆网络，通过设置遗忘门、输入门、输出门使得故障分类模型对于时间排序靠前的数据也具有较好的记忆功能，以缓解其他网络在根据时间序列数据进行迭代学习时，容易遗忘排序靠前的数据，导致学习效率和精度不高的问题。

其中，遗忘门可以控制其所在的网络是否遗忘上一层的隐藏细胞状态，并且对遗忘的隐藏细胞状态的比例进行控制。以细胞状态C（t-1）为例，遗忘门可以通过调节sigmoid激活函数的值来调整遗忘C（t-1）的比例，当sigmoid=1时，表示以较高的比例保存C（t-1）；当sigmoid=0时，表示完全忘记C（t-1）。

输入门中一部分使用sigmoid激活函数，其输出可以表示为i（t）；另一部分使用tanh激活函数，其输出可以表示为a（t）；此外，遗忘门的输出可以表示为f（t）。

如公式所示：

C（t）=C（t-1）×f（t）+i（t）×a（t）。

细胞状态在进入输入门后，输入门可以根据细胞状态更新当前的细胞状态，即通过细胞上一刻的状态与遗忘门输出的乘积加两部分激活函数输出的乘积，得到当前的细胞状态。

输出门通过sigmoid函数以及tanh函数决定输出的当前细胞状态的比例。其中，sigmoid函数用于决定细胞状态中的需要被输出的部分，tanh函数在sigmoid函数处理的基础上，进一步确定需要被输出的部分。

通过遗忘门、输入门、输出门的配合，故障分类模型可以根据待分类时间序列数据以及历史故障数据，对目标检测设别的故障类型进行判断并输出。在学习的过程中，可以通过调整激活函数，以将数据中与故障类型关联较强的数据保留，并进行学习。有利于提高故障分类的学习效率和识别效率。可以理解的是，通过基于神经网络的机器学习的方法既适应于线性数据的应用场景，又适应于非线性数据的应用场景。通过反复迭代，可以充分提取数据中的特征，通过配置适合的核函数，可以有效应对非线性特征空间，进而解决非线性数据难以提取特征的问题。

在一些实施例中，训练得到的最优故障分类模型，可以同时采集多个生产设备的实时时间序列数据，以并行检测多个生产设备的运行状态，对故障类型进行识别。在信息传输条件允许的情况下，还可以根据异地生产设备产生的时间序列数据进行故障分类，具有即时性、空间跨越性。

如图2所示，所述关键信号与所述待分类时间序列数据中的关键因子关联；所述关键信号包括冲击信号和磨损信号；所述关键因子包括峰值因子、脉冲因子、峭度因子、裕度因子；其中，所述冲击信号与所述峰值因子、脉冲因子、峭度因子关联；所述磨损信号与所述裕度因子关联。

关键信号包括与时刻对应的信号情况，也包括与一段时间对应的信号情况。因此可以通过峰值因子、脉冲因子、峭度因子、裕度因子对信号进行描述，以便于对是否存在故障进行判断。其中，脉冲因子是信号峰值与整流平均值的比值；峰值因子是信号峰值与有效值的比值；裕度因子是信号峰值与方根幅值的比值；峭度因子可用于描述波形平缓程度。

对于上述因子，均可以通过设置阈值的方式，结合因子的具体数值对目标检测设备是否存在故障进行判断。以峭度因子为例，峭度因子表示时间序列数据波形的平缓程度，峭度阈值可以设置为3，在峭度因子的值大于3时，表示波形波动较大，即可判定为存在故障。

由于各类因子的求取公式不同，因此对于时间序列中故障判断的依据会具有一定区别。因此，通过与例如冲击、磨损等故障关联的多个因子共同对故障进行判断，可以提高故障判断的覆盖范围，进而提高故障发现率。因此在通过各类因子判断目标检测设备是否存在故障时包括：

若所述峰值因子、脉冲因子、峭度因子中的任一个大于或等于冲击阈值，则为所述峰值因子、脉冲因子、峭度因子所在的时间序列数据段设置故障标签。

所述时间序列数据段为所述时间序列数据中的一段数据，所述峰值因子、脉冲因子、峭度因子基于所述时间序列数据段计算得到。各类因子的计算方式上述内容已经进行说明，在此不再赘述。通过峰值因子、脉冲因子、峭度因子对冲击故障进行判断可以提升冲击故障判断的准确率，以适应于多类型的冲击故障，进而提高故障判断的准确率，有利于后续的故障分类。故障预测信号模型在对故障进行判定时，可以将时间序列数据分成若干段，并行判断以提升故障判断的效率。并在判断出故障后，对故障信号（关键信号）所在的时间序列数据段设置故障标签，以便于后续的故障类型识别。

如图3所示，所述故障识别模型包括残差连接结构；每个所述残差连接结构包括第一层扩张因果卷积、第二层扩张因果卷积和非线性激活函数；第一层扩张因果卷积的输出端连接第一dropout层，所述第一dropout层的输出端连接第二层扩张因果卷积的输入端，所述第二层扩张因果卷积的输出端连接第二dropout层；其中，第二层扩张因果卷积通过非线性激活函数触发。

基于上述网络结构，在一些实施例中，还包括设置归一化权重，以及根据所述归一化权重对每层扩张因果卷积执行归一化处理。

残差连接的方式可以使故障识别模型在训练的过程中，能够学习到恒等映射。进而可以加深网络结构，使得较为浅层的网络结构向深层网络结构转变，提升故障识别模型的学习能力，进而提升故障识别的准确性。

dropout层与归一化的设置可以正则化网络。故障识别模型具有深层网络结构，因此网络层中的参数很多。在参数很多的基础上，参数的取值范围依旧很大，会导致在模型训练的过程中产生过拟合现象。进而可以通过归一化限制参数的取值范围，并通过dropout层对过拟合现象进行优化，以提高训练效率。

在一些实施例中，待分类时间序列数据和历史故障数据可以生成两通道残差信号，用于故障分类模型的训练或识别，其步骤包括：

在一些实施例中，将待分类时间序列数据和历史故障数据输入至故障分类模型之前，需要对数据进行预处理以构建样本、降低数据维度，以便于模型进行学习，其步骤包括：

对所述待分类时间序列数据和所述历史故障数据执行预处理时，包括：

步长为加窗时需要设置的参数，可以控制窗口形成的数量。通过对待分类时间序列数据和历史故障数据加窗处理，相当于执行了滑动采样，以用于构建适合故障分类模型训练的样本数据。再基于设置的采样间隔，再次采样可以降低用于训练故障分类模型的数据维度，进而缓解在训练过程中产生的过拟合现象。数据维度降低也可以减少冗余特征，进而提升模型的训练速度。

如公式所示：

；

其中，和/>分别为第i种故障下预测值与实际值的残差，/>和/>分别为待分类时间序列数据，/>和/>分别为第i种故障下的历史故障数据。故障分类模型可以根据预测值与实际值的残差，进行迭代学习。可以理解的是，历史故障数据可以为标有故障类型的数据，因此故障分类模型根据历史故障数据中故障类型与数据之间的关系迭代学习，以具有故障分类的功能。

在一些实施例中，可以采用留一被试交叉法对故障识别模型和故障分类模型进行验证，以获取最优模型，其步骤包括：

将由时间序列数据组成的数据集划分为训练集与测试集；

通过采集目标检测设备得到的时间序列数据可以为多组数据。如图4所示，留一被试交叉法指的是，每次将由多组时间序列数据构成的数据集中的1组数据作为测试集，而其他组数据作为训练集，以对模型进行多次训练与测试。例如，共有50组时间序列数据，则可以划分出50组训练集与测试集的组合，也可以对模型进行50次训练与测试。在对50个模型进行训练后，可以通过测试集对模型进行测试，并得到每个模型的准确率/交叉损失等评估模型准确度的指标。选用准确率最高/交叉损失最少的模型作为最优模型。

留一被试交叉法在训练、选择模型的过程中，采用同类型的数据集训练模型更契合于模型的应用场景。也更便于在同类型的模型中，通过设置统一的评价指标筛选出最优模型。

在一些实施例中，对故障识别模型和故障分类模型进行训练时，或者利用故障识别模型和故障分类模型进行故障分类时，需要充足的样本数据或训练数据。因此，在采集目标检测设备的时间序列数据时，包括：设置传感器的采样频率，以周期性获取所述时间序列数据；所述时间序列数据至少包括50个采样数据。

每组时间序列数据中至少包括50个采样数据，但是用于训练或识别的时间序列的组数可以为多组。至少50个采样数据使得训练数据或样本数据更具有说服力。可以理解的是，每组时间序列数据中的采样数据的个数也可以与模型的学习能力相关。模型对于数据处理的能力越强，则可以增加每组采样数据的数量，以提升模型的学习能力和判断准确率。

本申请还提供一种基于分类器的异常检测提取系统，包括：采集模块、故障预测模块；

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种基于分类器的异常检测提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述关键信号与所述待分类时间序列数据中的关键因子关联；所述关键信号包括冲击信号和磨损信号；所述关键因子包括峰值因子、脉冲因子、峭度因子、裕度因子；其中，所述冲击信号与所述峰值因子、脉冲因子、峭度因子关联；所述磨损信号与所述裕度因子关联。

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，所述故障识别模型包括残差连接结构；每个所述残差连接结构包括第一层扩张因果卷积、第二层扩张因果卷积和非线性激活函数；第一层扩张因果卷积的输出端连接第一dropout层，所述第一dropout层的输出端连接第二层扩张因果卷积的输入端，所述第二层扩张因果卷积的输出端连接第二dropout层；其中，第二层扩张因果卷积通过非线性激活函数触发。

5.根据权利要求3所述的方法，其特征在于，还包括：

设置归一化权重；

根据所述归一化权重对每层扩张因果卷积执行归一化处理。

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，对所述待分类时间序列数据和所述历史故障数据执行预处理时，包括：

8.根据权利要求1所述的方法，其特征在于，训练所述故障识别模型时，采用留一被试交叉法对故障识别模型进行验证，其步骤包括：

将由时间序列数据组成的数据集划分为训练集与测试集；

9.根据权利要求1所述的方法，其特征在于，还包括：

10.一种基于分类器的异常检测提取系统，其特征在于，包括：采集模块、故障预测模块；