CN117290742B

CN117290742B - 一种基于动态聚类的信号时序数据故障诊断方法及系统

Info

Publication number: CN117290742B
Application number: CN202311585182.9A
Authority: CN
Inventors: 任磊; 成学军
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-03-29
Anticipated expiration: 2043-11-27
Also published as: CN117290742A

Abstract

本发明涉及一种基于动态聚类的信号时序数据故障诊断方法及系统，属于故障诊断技术领域，解决了现有带标签的信号时序数据极少时故障诊断正确率低的问题。包括：采集多种传感器信号，获取有标签的多维时序数据和无标签的多维时序数据；对无标签的多维时序数据提取信号特征构建特征数据集；构建训练任务对特征数据集进行动态聚类，根据聚类结果从无标签的多维时序数据中提取支撑集和查询集，对深度卷积神经网络进行训练，得到训练好的故障诊断模型；将有标签的多维时序数据和待识别的多维时序数据分别输入故障诊断模型，得到各标签嵌入向量和目标嵌入向量；根据与目标嵌入向量相似度最高的标签嵌入向量得到故障诊断结果。实现了准确的故障诊断。

Description

一种基于动态聚类的信号时序数据故障诊断方法及系统

技术领域

本发明涉及故障诊断技术领域，尤其涉及一种基于动态聚类的信号时序数据故障诊断方法及系统。

背景技术

工业设备的故障诊断通常需要监测各类仪表器械来判断各类故障类型，但是由于故障工况的复杂以及监测参数众多，导致不能得到及时有效的处理，所以通过人为巡检或监测各类仪表参数来诊断故障是一个非常困难的工作。比如在油田生产过程中，抽油机井分散、现场环境恶劣。巡井任务繁重，人员辛苦，且容易出现巡检不到位，漏检，或者不准时的情况；井下工作复杂、故障发生频繁。数据繁杂，人工识别心有余而力不足。抽油机及油井常见故障多达几十种，以往靠人识别，要结合分散的多种数据源，工作繁重、专业性要求高。因此建立一种及时有效的故障诊断模型，可以方便有效的监测各种工业故障问题，保证工业系统的正常运行。

通过工业设备上安装的传感器采集了大量无标签的信号时序数据，每一类故障可能只有1-2个样本，而且只知道是故障样本，并不知道是哪类故障。现有针对少标签的样本训练大多采用半监督学习的方法，而且一般直接利用信号特征生成模型。

现有的半监督学习方法先采用极少量的标签数据训练一个模型A，利用该模型对无标签的数据生成伪标签，然后再将伪标签的样本重新放入模型训练生成模型B作为最终模型。但当标签极少时，训练出来的模型效果A不佳，导致产生的伪标签偏差过大，从而最终生成的模型B效果不佳。直接利用哪些信号特征也依赖于专家经验，无法满足精度的要求。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于动态聚类的信号时序数据故障诊断方法及系统，用以解决现有带标签的信号时序数据极少时故障诊断正确率低的问题。

一方面，本发明实施例提供了一种基于动态聚类的信号时序数据故障诊断方法，包括以下步骤：

采集多种传感器信号，获取有标签的多维时序数据和无标签的多维时序数据；对无标签的多维时序数据提取出信号特征，构建特征数据集；

构建训练任务对特征数据集进行动态聚类，根据聚类结果从无标签的多维时序数据中提取出支撑集和查询集，对深度卷积神经网络进行训练，得到训练好的故障诊断模型；

将有标签的多维时序数据和待识别的多维时序数据分别输入故障诊断模型，得到各标签嵌入向量和目标嵌入向量；根据与目标嵌入向量相似度最高的标签嵌入向量，得到故障诊断结果。

基于上述方法的进一步改进，在每一次迭代训练中构建相同数量的多个训练任务，训练任务包括全量特征聚类任务和随机特征聚类任务；根据当前的迭代次数，获取全量特征聚类任务和随机特征聚类任务的数量。

基于上述方法的进一步改进，根据当前的迭代次数，通过以下公式获取随机特征聚类任务的数量：

，

其中，表示随机特征聚类任务的数量，/>表示每一次迭代训练中预置的训练任务总数量，step表示当前的迭代次数，/>表示预置的超参数，tanh(·)表示双曲正切函数。

基于上述方法的进一步改进，对无标签的多维时序数据提取出信号特征，包括：按预置时间窗滑动多维时间序列得到每组样本，根据时域和频域特征的各指标项，对每组样本分别按维度提取出各指标值，合并作为该组样本的信号特征。

基于上述方法的进一步改进，对特征数据集进行动态聚类，包括：

全量特征聚类任务是根据特征数据集中所有特征进行聚类；随机特征聚类任务是根据特征数据集中随机选择的多个信号特征进行聚类。

基于上述方法的进一步改进，根据特征数据集中随机的选择多个信号特征进行聚类，包括：

将时域和频域特征的各指标项构成指标向量；根据预置的概率，按照伯努利分布采样一个与指标向量相同长度的二进制向量，将二进制向量中1对应的指标项作为待聚类的指标项，从特征数据集中选择对应的信号特征进行聚类。

基于上述方法的进一步改进，根据聚类结果从无标签的多维时序数据中提取出支撑集和查询集，包括：

根据聚类结果对无标签的多维时序数据进行类别划分，按照N-way K-shot的模式，采集N类多维时序数据，每类随机选择K条多维时序数据作为支撑集，Q条多维时序数据作为查询集。

基于上述方法的进一步改进，将有标签的多维时序数据和待识别的多维时序数据分别输入故障诊断模型，得到各标签嵌入向量和目标嵌入向量，包括：

按标签类别分别将每类标签的多维时序数据传入故障诊断模型中，获取最后一层之前的向量均值，得到对应的标签嵌入向量；

将待识别的多维时序数据传入故障诊断模型中，获取最后一层之前的向量均值，得到目标嵌入向量。

另一方面，本发明实施例提供了一种基于动态聚类的信号时序数据故障诊断系统，包括：

信号采集模块，用于采集多种传感器信号，获取有标签的多维时序数据和无标签的多维时序数据；对无标签的多维时序数据提取出信号特征，构建特征数据集；

模型训练模块，用于构建训练任务对特征数据集进行动态聚类，根据聚类结果从无标签的多维时序数据中提取出支撑集和查询集，对深度卷积神经网络进行训练，得到训练好的故障诊断模型；

故障诊断模块，用于将有标签的多维时序数据和待识别的多维时序数据分别输入故障诊断模型，得到各标签嵌入向量和目标嵌入向量；根据与目标嵌入向量相似度最高的标签嵌入向量，得到故障诊断结果。

基于上述系统的进一步改进，在模型训练模块，每一次迭代训练中构建相同数量的多个训练任务，训练任务包括全量特征聚类任务和随机特征聚类任务；根据当前的迭代次数，获取全量特征聚类任务和随机特征聚类任务的数量。

与现有技术相比，本发明至少可实现如下有益效果之一：

1、直接利用大量的无标签的多维时序数据训练模型，避免利用极少量有标签数据训练模型而导致标签偏差大的问题；

2、通过构建两种类型的训练任务，随着迭代次数的增加，减少全量特征聚类任务的数据，增加随机特征聚类任务的数量，在训练任务中选择无标签数据的信号特征进行动态聚类，利用聚类结果对无标签数据进行分类从而构建训练样本，既避免陷入局部收敛，又增强了泛化能力，提高故障诊断的准确率。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件；

图1为本发明实施例1中一种基于动态聚类的信号时序数据故障诊断方法流程图；

图2为本发明实施例2中一种基于动态聚类的信号时序数据故障诊断系统结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

实施例1

本发明的一个具体实施例，公开了一种基于动态聚类的信号时序数据故障诊断方法，如图1所示，包括以下步骤：

S11、采集多种传感器信号，获取有标签的多维时序数据和无标签的多维时序数据；对无标签的多维时序数据提取出信号特征，构建特征数据集。

需要说明的是，工业系统中为了能监控工业设备的运行，都安装有各种传感器。比如：抽油机在油田生产过程中，通过传感器记录油泵往复运动时载荷随着位移变化规律的情况，其中，通过位移传感器采集位移时间序列信号，通过载荷传感器采集载荷时间序列信号，就得到二维的信号时序数据。

当工业设备发生故障时采集的信号时序数据，如果已知明确的故障类型，则直接采集到有标签的多维时序数据，但通常故障都是未知的，因此，采集到的是大量无标签的多维时序数据，只有极少量有标签的多维时序数据。

对无标签的多维时序数据提取出信号特征，也就是对一条多维时序数据中每一维时序数据均提取出信号特征，组合作为该条时序数据对应的特征数据，放入特征数据集中。

具体来说，基于信号处理技术，对时序数据提取的信号特征包括：按预置时间窗滑动多维时间序列得到每组样本，根据时域和频域特征的各指标项，对每组样本分别按维度提取出各指标值，合并作为该组样本的信号特征。其中时域特征包括：有效值、峰值、峰峰值、方差、偏斜度和峭度；频域特征包括：谱均值、谱中心、谱有效值、谱方差和谱峭度。

示例性地，时域和频域特征共有11个指标项，则对每组二维时序数据样本共提取出22个指标值作为该组样本的信号特征。

S12、构建训练任务对特征数据集进行动态聚类，根据聚类结果从无标签的多维时序数据中提取出支撑集和查询集，对深度卷积神经网络进行训练，得到训练好的故障诊断模型。

需要说明的是，本实施例的故障诊断模型是通过对深度卷积神经网络进行训练得到。优选地，深度卷积神经网络选择Inception网络模型，该网络模型包括多个Inception模块，每个Inception模块包括不同尺度的卷积层和池化层，通过多个并行的不同尺度的卷积层和池化层来同时捕捉输入的信号时序数据的不同尺度的特征，从而增强了网络对不同尺度特征的感知能力。在网络的顶部，还有全局平均池化层和最后的全连接层用于分类。

在每一次迭代训练中构建相同数量的多个训练任务，训练任务包括全量特征聚类任务和随机特征聚类任务。全量特征聚类任务是根据特征数据集中所有特征进行聚类；随机特征聚类任务是根据特征数据集中随机选择的多个信号特征进行聚类。

考虑到全量特征聚类任务的聚类结果比较稳定，用于提供模型训练的方向，因此，模型开始训练时基本都是全量特征聚类任务，随着模型不断训练，增大随机特征聚类任务的比重，同时减小全量特征聚类任务，提高模型的泛化能力，直至全部为随机特征聚类任务。

具体来说，本实施例根据当前的迭代次数，获取全量特征聚类任务和随机特征聚类任务的数量。其中，通过以下公式获取随机特征聚类任务的数量：

，

其中，表示随机特征聚类任务的数量，/>表示每一次迭代训练中预置的训练任务总数量，step表示当前的迭代次数，/>表示预置的超参数，tanh(·)表示双曲正切函数。则全量特征聚类任务的数量为/>。

在随机特征聚类任务中，根据特征数据集中随机选择的多个信号特征进行聚类，包括：

示例性地，预置的概率p为取1的概率，0<p<1。

接着，根据聚类结果从无标签的多维时序数据中提取出支撑集和查询集，包括：

根据聚类结果对无标签的多维时序数据进行类别划分，按照N-way K-shot的模式，采集N类多维时序数据，每类随机选择K条多维时序数据作为支撑集，Q条多维时序数据作为查询集。即每个任务具有N×K个训练样本，N×Q个测试样本。

需要说明的是，本实施例中全量特征聚类任务和随机特征聚类任务中的聚类得到的类别数量可以不同，而且，由于每次任务都是根据特征数据集动态聚类，任务之间的聚类结果很难完全一样，因此聚类的类别数量大于等于支撑集的N类即可。根据聚类结果对多维时序数据打上伪标签，该伪标签与真实的故障标签没有任何关联，只用于当前任务，在任务之间也没有关联。

现有技术中基于小样本学习采集的N-way K-shot样本，是从打上真实标签的训练集中采集，而且每次均从固定的已知标签类别中随机选择N类，已知标签类别的数量需要大于N，才能降低每次任务中构建的支撑集和查询集的类别与其它任务的重复率。

因此，与现有技术相比，本实施例无需对采集的多维时序数据花费太多的时间和成本进行人工标注标签，直接根据无标签的多维时序数据进行网络模型端到端的学习，训练过程中采用交叉熵损失函数，利用随机梯度下降算法更新深度神经网络模型参数，更容易得到全局最优解，训练结束，得到训练好的模型作为故障诊断模型。

S13、将有标签的多维时序数据和待识别的多维时序数据分别输入故障诊断模型，得到各标签嵌入向量和目标嵌入向量；根据与目标嵌入向量相似度最高的标签嵌入向量，得到故障诊断结果。

需要说明的是，故障诊断模型的最后一层是全连接层，用于输出分类结果。本实施例中并不直接获取模型的输出结果，而是根据输入至全连接层的向量进行识别。

具体来说，将有标签的多维时序数据和待识别的多维时序数据分别输入训练好的故障诊断模型，得到各标签嵌入向量和目标嵌入向量，包括：

最后，将目标嵌入向量分别与各标签嵌入向量进行相似度比较，其中相似度计算的方式很多，比如欧氏距离或者余弦相似度。根据相似度最高的标签嵌入向量对应的标签，识别出故障诊断结果。

与现有技术相比，本实施例提供的一种基于动态聚类的信号时序数据故障诊断方法直接利用大量的无标签的多维时序数据训练模型，避免利用极少量有标签数据训练模型而导致标签偏差大的问题；通过构建两种类型的训练任务，随着迭代次数的增加，减少全量特征聚类任务的数据，增加随机特征聚类任务的数量，在训练任务中选择无标签数据的信号特征进行动态聚类，利用聚类结果对无标签数据进行分类从而构建训练样本，既避免陷入局部收敛，又增强了泛化能力，提高故障诊断的准确率。

实施例2

本发明的另一个实施例，公开了一种基于动态聚类的信号时序数据故障诊断系统，从而实现实施例1中的一种基于动态聚类的信号时序数据故障诊断方法。各模块的具体实现方式参照实施例1中的相应描述。该系统包括：

信号采集模块101，用于采集多种传感器信号，获取有标签的多维时序数据和无标签的多维时序数据；对无标签的多维时序数据提取出信号特征，构建特征数据集；

模型训练模块102，用于构建训练任务对特征数据集进行动态聚类，根据聚类结果从无标签的多维时序数据中提取出支撑集和查询集，对深度卷积神经网络进行训练，得到训练好的故障诊断模型；

故障诊断模块103，用于将有标签的多维时序数据和待识别的多维时序数据分别输入故障诊断模型，得到各标签嵌入向量和目标嵌入向量；根据与目标嵌入向量相似度最高的标签嵌入向量，得到故障诊断结果。

进一步地，在模型训练模块，每一次迭代训练中构建相同数量的多个训练任务，训练任务包括全量特征聚类任务和随机特征聚类任务；根据当前的迭代次数，获取全量特征聚类任务和随机特征聚类任务的数量。

由于本实施例一种基于动态聚类的信号时序数据故障诊断系统与前述一种基于动态聚类的信号时序数据故障诊断方法相关之处可相互借鉴，此处为重复描述，故这里不再赘述。由于本系统实施例与上述方法实施例原理相同，所以本系统实施例也具有上述方法实施例相应的技术效果。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于动态聚类的信号时序数据故障诊断方法，其特征在于，包括以下步骤：

将有标签的多维时序数据和待识别的多维时序数据分别输入故障诊断模型，得到各标签嵌入向量和目标嵌入向量；根据与目标嵌入向量相似度最高的标签嵌入向量，得到故障诊断结果；

在每一次迭代训练中构建相同数量的多个训练任务，所述训练任务包括全量特征聚类任务和随机特征聚类任务；全量特征聚类任务是根据特征数据集中所有特征进行聚类；随机特征聚类任务是根据特征数据集中随机选择的多个信号特征进行聚类；

根据当前的迭代次数，通过以下公式获取随机特征聚类任务的数量：

，

其中，表示随机特征聚类任务的数量，/>表示每一次迭代训练中预置的训练任务总数量，step表示当前的迭代次数，/>表示预置的超参数，tanh(·)表示双曲正切函数；全量特征聚类任务的数量为/>；

将时域和频域特征的各指标项构成指标向量；根据预置的概率，按照伯努利分布采样一个与指标向量相同长度的二进制向量，将二进制向量中1对应的指标项作为待聚类的指标项，从特征数据集中选择对应的信号特征进行聚类；预置的概率p为取1的概率，0<p<1。

2.根据权利要求1所述的基于动态聚类的信号时序数据故障诊断方法，其特征在于，所述对无标签的多维时序数据提取出信号特征，包括：按预置时间窗滑动多维时间序列得到每组样本，根据时域和频域特征的各指标项，对每组样本分别按维度提取出各指标值，合并作为该组样本的信号特征。

3.根据权利要求1所述的基于动态聚类的信号时序数据故障诊断方法，其特征在于，所述根据聚类结果从无标签的多维时序数据中提取出支撑集和查询集，包括：

4.根据权利要求1所述的基于动态聚类的信号时序数据故障诊断方法，其特征在于，所述将有标签的多维时序数据和待识别的多维时序数据分别输入故障诊断模型，得到各标签嵌入向量和目标嵌入向量，包括：

5.一种基于动态聚类的信号时序数据故障诊断系统，其特征在于，包括：

故障诊断模块，用于将有标签的多维时序数据和待识别的多维时序数据分别输入故障诊断模型，得到各标签嵌入向量和目标嵌入向量；根据与目标嵌入向量相似度最高的标签嵌入向量，得到故障诊断结果；

模型训练模块，在每一次迭代训练中构建相同数量的多个训练任务，所述训练任务包括全量特征聚类任务和随机特征聚类任务；全量特征聚类任务是根据特征数据集中所有特征进行聚类；随机特征聚类任务是根据特征数据集中随机选择的多个信号特征进行聚类；

，