CN115186904A

CN115186904A - 基于Transformer的工业设备故障预测方法及装置

Info

Publication number: CN115186904A
Application number: CN202210827340.6A
Authority: CN
Inventors: 黄必清; 莫语
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-10-14

Abstract

本申请涉及数据驱动的工业设备故障预测技术领域，特别涉及一种基于Transformer的工业设备故障预测方法及装置，其中，方法包括：获取目标工业设备的健康状态对应的时序数据集；将时序数据集输入训练完成的故障预测模型，输出时序数据集的故障预测值，其中，故障预测模型基于携带有故障预测值标签的训练样本训练得到；在故障预测值大于故障阈值时，判定目标工业设备故障，否则判定目标工业设备运行正常。由此，本申请实施例可以在减少深度神经网络运算时间、减少计算资源的消耗的同时，提升故障预测的准确度；且本申请实施例可以有效避免循环神经网络的长期记忆损失的问题，以实现对设备健康状态的长周期预测。

Description

基于Transformer的工业设备故障预测方法及装置

技术领域

本申请涉及数据驱动的工业设备故障预测技术领域，特别涉及一种基于Transformer(编码器)深度神经网络的工业设备故障预测方法及装置。

背景技术

相关技术中，针对典型工业设备进行故障预测的方法主要分为基于物理模型的设备故障预测、基于传统机器学习的故障预测以及基于深度学习的故障预测。其中，基于物理模型的故障预测是通过对设备的物理状态进行建模分析，通过物理状态的直观改变来预测；基于传统机器学习的方法是通过一些简单的数学建模或者神经网络结构来拟合时序数据与故障发生时间之间的函数关系，包括支持向量机、蒙特卡洛方法等。

然而，虽然基于物理模型的故障预测和基于传统机器学习这两种预测方法应用十分简单，但是其预测精度有限，且在某些复杂工业环境下难以直接应用。

发明内容

本申请提供一种基于Transformer深度神经网络的工业设备故障预测方法、装置、电子设备及存储介质，可以使用一种端到端的故障预测方法，通过添加GCU(GatedConvolution Unit，门控卷积单元)来提高深度神经网络对局部区域的关注能力，能够在减少深度神经网络运算时间、减少计算资源的消耗的同时，提升故障预测的准确度；且本申请实施例可以有效避免循环神经网络的长期记忆损失的问题，以实现对设备健康状态的长周期预测。

本申请第一方面实施例提供一种基于Transformer深度神经网络的工业设备故障预测方法，包括以下步骤：获取目标工业设备的健康状态对应的时序数据集；将所述时序数据集输入训练完成的故障预测模型，输出所述时序数据集的故障预测值，其中，所述故障预测模型基于携带有故障预测值标签的训练样本训练得到；在所述故障预测值大于故障阈值时，判定所述目标工业设备故障，否则判定所述目标工业设备运行正常。

可选地，所述将所述时序数据集输入训练完成的故障预测模型，输出所述时序数据集的故障预测值，包括：将所述时序数据集输入GCU单元，输出所述时序数据集的特征数据；将所述特征数据输入第一线性层，对所述特征数据进行维度变换，并对所述特征数据进行位置编码，得到编码数据；将所述编码数据输入多头注意力层，对所述编码数据进行自注意特征计算，并将计算后的特征输入前馈层，并对数据进行残差连接和层标准化，得到目标维特征向量；将所述目标维度特征向量输入回归层，输出所述时序数据集的故障预测值。

可选地，在将所述时序数据集输入所述训练完成的故障预测模型之前，还包括：获取携带有故障预测值标签的训练样本和所述训练样本的实际预测值；随机初始化Transformer编码器深度神经网络的初始权重，将所述训练样本输入至初始化后的Transformer编码器深度神经网络，得到当前故障预测值；根据所述当前故障预测值和所述实际预测值计算实际准确率，在所述实际准确率小于或等于准确率阈值时，根据预设误差函数计算所述Transformer编码器深度神经网络训练的误差值，通过梯度反向传播调整所述Transformer编码器深度神经网络中各层的权重参数；基于权重参数调整后的Transformer编码器深度神经网络对所述训练样本进行重新预测，直到所述实际准确率大于所述准确率阈值，或者，训练迭代次数达到预设次数时，停止迭代训练，并得到所述故障预测模型。

可选地，在将所述时序数据集输入训练完成的故障预测模型之前，还包括：利用预设特征评判标准从所述时序数据集中筛选得到表示健康状态退化的传感器特征维度数据；对所述传感器特征维度数据进行数据预处理，得到所述传感器特征维度数据的特征向量。

本申请第二方面实施例提供一种基于Transformer深度神经网络的工业设备故障预测装置，包括：数据收集模块，用于获取目标工业设备的健康状态对应的时序数据集；输入模块，用于将所述时序数据集输入训练完成的故障预测模型，输出所述时序数据集的故障预测值，其中，所述故障预测模型基于携带有故障预测值标签的训练样本训练得到；判断模块，用于在所述故障预测值大于故障阈值时，判定所述目标工业设备故障，否则判定所述目标工业设备运行正常。

可选地，所述数据处理模块用于将所述时序数据集输入GCU单元，输出所述时序数据集的特征数据；将所述特征数据输入第一线性层，对所述特征数据进行维度变换，并对所述特征数据进行位置编码，得到编码数据；将所述编码数据输入多头注意力层，对所述编码数据进行自注意特征计算，并将计算后的特征输入前馈层，并对数据进行残差连接和层标准化，得到目标维特征向量；将所述目标维度特征向量输入回归层，输出所述时序数据集的故障预测值。

可选地，所述基于Transformer深度神经网络的工业设备故障预测装置还包括：获取模块，用于获取携带有故障预测值标签的训练样本和所述训练样本的实际预测值；预测模块，用于随机初始化Transformer编码器深度神经网络的初始权重，将所述训练样本输入至初始化后的Transformer编码器深度神经网络，得到当前故障预测值；计算模块，用于根据所述当前故障预测值和所述实际预测值计算实际准确率，在所述实际准确率小于或等于准确率阈值时，根据预设误差函数计算所述Transformer编码器深度神经网络训练的误差值，通过梯度反向传播调整所述Transformer编码器深度神经网络中各层的权重参数；生成模块，用于基于权重参数调整后的Transformer编码器深度神经网络对所述训练样本进行重新预测，直到所述实际准确率大于所述准确率阈值，或者，训练迭代次数达到预设次数时，停止迭代训练，并得到所述故障预测模型。

可选地，所述基于Transformer深度神经网络的工业设备故障预测装置还包括：筛选模块，用于利用预设特征评判标准从所述时序数据集中筛选得到表示健康状态退化的传感器特征维度数据；预处理模块，用于对所述传感器特征维度数据进行数据预处理，得到所述传感器特征维度数据的特征向量。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的基于Transformer深度神经网络的工业设备故障预测方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的基于Transformer深度神经网络的工业设备故障预测方法。

由此，本申请至少具有如下有益效果：

可以使用一种端到端的故障预测方法，通过添加GCU来提高深度神经网络对局部区域的关注能力，能够在减少深度神经网络运算时间、减少计算资源的消耗的同时，提升故障预测的准确度；且本申请实施例可以有效避免循环神经网络的长期记忆损失的问题，以实现对设备健康状态的长周期预测。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种基于Transformer深度神经网络的工业设备故障预测方法的流程图；

图2为根据本申请实施例提供的基于Transformer深度神经网络的工业设备故障预测方法的训练及使用流程图；

图3为根据本申请实施例提供的神经网络模型结构示意图；

图4为根据本申请实施例提供的基于Transformer深度神经网络的工业设备故障预测装置的示例图；

图5为根据本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

相关技术中，针对典型工业设备进行故障预测的方法主要分为基于物理模型的设备故障预测、基于传统机器学习的故障预测以及基于深度学习的故障预测。其中，基于物理模型的故障预测是通过对设备的物理状态进行建模分析，通过物理状态的直观改变来预测；基于传统机器学习的方法是通过一些简单的数学建模或者神经网络结构来拟合时序数据与故障发生时间之间的函数关系，包括支持向量机、蒙特卡洛方法等。然而，虽然基于物理模型的故障预测和基于传统机器学习这两种预测方法应用十分简单，但是其预测精度有限，且在某些复杂工业环境下难以直接应用。

而Google(谷歌)基于自然语言处理提出的Transformer网络，在自然语言处理(如翻译，语义理解等)领域有着十分显著的成就，因此，也证实了该网络在处理时序数据的可行性与先进性。该网络没有使用循环神经网络的结构，在计算时可以并行运算，使得网络运算具备很高效的并行化，由此，本申请可以使用基于Transformer编码器的深度神经网络来进行传感器时序数据的故障预测，其高效的并行化计算和快速收敛的能力能够满足时间敏感的典型工业设备的故障预测需求。

针对上述背景技术中提到的问题，本申请提供了一种基于Transformer深度神经网络的工业设备故障预测方法，在该方法中，可以使用一种端到端的故障预测方法，通过添加GCU来提高深度神经网络对局部区域的关注能力，能够在减少深度神经网络运算时间、减少计算资源的消耗的同时，提升故障预测的准确度；且本申请实施例可以有效避免循环神经网络的长期记忆损失的问题，以实现对设备健康状态的长周期预测。下面将参考附图描述本申请实施例的基于Transformer深度神经网络的工业设备故障预测方法、装置、电子设备及存储介质。

具体而言，图1为本申请实施例所提供的一种基于Transformer深度神经网络的工业设备故障预测方法的流程示意图。

如图1所示，该基于Transformer深度神经网络的工业设备故障预测方法包括以下步骤：

在步骤S101中，获取目标工业设备的健康状态对应的时序数据集。

其中，时序数据集可以包括收集从目标设备的生命周期开始到当前传感器记录时刻的传感器记录数据、工况记录数据、相关操作数据等原始时序数据；其中，原始时序数据包括压力传感器数据、压强传感器数据、温度传感器数据、转速传感器数据等能够反应设备状态的相关数据。

需要说明的是，本申请实施例可以使用至少一种方式获取目标工业设备的健康状态对应的时序数据集，比如，如图2所示，本申请实施例可以根据安装在工业设备上的不同物理量的传感器设备获取相关数据，其中，传感器可以有压强压力传感器等，数据可以包括压力、压强、温度和转速等。

可以理解的是，上述数据实时反应了工业设备的运行状况，因此本申请实施例可以从各种传感器中收集多类型的历史监控数据和实时检测数据，构建目标设备健康状态的时序数据集，以便于后续步骤中对工业设备故障的预测。

在步骤S102中，将时序数据集输入训练完成的故障预测模型，输出时序数据集的故障预测值，其中，故障预测模型基于携带有故障预测值标签的训练样本训练得到。

可以理解的是，本申请实施例可以在任意的时刻t，基于构建的特征向量数据集训练得到的模型，对工业设备进行故障预测。

具体而言，本申请实施例可以将时序数据整理成batch_size×seq_len×N_f维度的数据，其中，N_f为经过维度筛选后的数据维度，seq_len表示传感器数据维度包含了多长时间的数据；如果seq_len大于传感器记录的数据长度，则将无数据部分设置为0。batch_size是为了满足神经网络并行化运算的需求。使用训练后得到的Transformer编码器深度神经网络可以记为M(θ)，可以输出故障预测的输出结果y^*。

在本申请实施例中，将时序数据集输入训练完成的故障预测模型，输出时序数据集的故障预测值，包括：将时序数据集输入GCU单元，输出时序数据集的特征数据；将特征数据输入第一线性层，对特征数据进行维度变换，并对特征数据进行位置编码，得到编码数据；将编码数据输入多头注意力层，对编码数据进行自注意特征计算，并将计算后的特征输入前馈层，并对数据进行残差连接和层标准化，得到目标维特征向量；将目标维度特征向量输入回归层，输出时序数据集的故障预测值。

可以理解的是，本申请实施例可以对获取的反应设备退化状态的原始时序数据集进行处理，构建目标设备健康状态时序数据集，并通过特征筛选得到包含丰富退化信息的传感器数据维度，提出无关数据维度减少网络的计算量。在对这些传感器数据维度进行数据预处理和数据增强，得到的特征向量将成为Transformer编码器深度神经网络的训练输入数据。

具体而言，在本申请的一个实施例中，本申请实施例输入的数据矩阵维度为batch_size×seq_len×N_f，如图3所示，该数据矩阵首先将通过GCU门控卷积单元，这里的GCU实际上使用了两个卷积核，该门控机制主要是用来保护、传递和控制信息流，该门控机制主要体现在信息流更新门和重置门两个方面；其中，更新门和重置门的计算方式十分类似，其计算公式可以如下所示：

随后数据在通过一个线性层拓展数据维度后加入位置编码，再通过多头注意力层，在该层中数据首先根据head的个数进行维度变换，假设d_k＝d_model/head，那么在该层中的数据维度为batch_size×seq_len×h×d_k。该层的核心思想是自注意力机制，该机制会将历史数据统一计算并融合到当前的隐向量中，自注意力机制的计算方式如下所示：

其中，Q、K和V分别是查询向量、键向量和值向量。本申请实施例可以通过多头注意力层后进入到前馈层，将多个head的输出结果进行合并，则可以使多头注意力层的输入数据维度重新变换为batch_size×seq_len×d_model。本申请实施例的前馈层中其实包含了两个线性层，在第一个线性层本申请实施例将输入数据进行维度拓展，通过前馈层的第一个线性层变换后的输入数据维度变为batch_size×seq_len×d_ff；随后通过前馈层的第二个线性层，本申请实施例可以将数据维度重新变为batch_size×seq_len×d_model。在编码器的每一层中都有残差连接和层标准化，通过N层编码器结构后，编码器已经将输入的原始数据抽象为高维的特征向量，编码后的高维特征向量通过一个线性层和Sigmoid函数进行回归并将输出结果约束在0到1之间，输出的结果即为需要的设备剩余寿命的预测值y^*。

在本申请实施例中，在将时序数据集输入训练完成的故障预测模型之前，还包括：获取携带有故障预测值标签的训练样本和训练样本的实际预测值；随机初始化Transformer编码器深度神经网络的初始权重，将训练样本输入至初始化后的Transformer编码器深度神经网络，得到当前故障预测值；根据当前故障预测值和实际预测值计算实际准确率，在实际准确率小于或等于准确率阈值时，根据预设误差函数计算Transformer编码器深度神经网络训练的误差值，通过梯度反向传播调整Transformer编码器深度神经网络中各层的权重参数；基于权重参数调整后的Transformer编码器深度神经网络对训练样本进行重新预测，直到实际准确率大于准确率阈值，或者，训练迭代次数达到预设次数时，停止迭代训练，并得到故障预测模型。

可以理解的是，本申请实施例可以根据数据收集模块获取典型工业设备的传感器时序数据，构建目标设备健康状态时序数据集，该数据集中包含了从目标设备的生命周期开始到当前传感器记录时刻的传感器记录数据、工况记录数据、相关操作数据等原始时序数据，并利用特征评判标准从时序数据集中筛选能够反应目标设备健康状态退化的传感器维度；再对筛选得到的传感器特征维度进行数据预处理得到特征向量，形成特征向量数据集，基于Transformer编码器深度神经网络构建故障预测模型，根据的反映工业设备退化信息的特征向量数据集对基于Transformer编码器深度神经网络进行训练，得到针对典型基于Transformer深度神经网络的工业设备故障预测模型。

具体而言，本申请实施例可以使用在故障预测领域常用的RMSE(Root MeanSquared Error，均方根误差)来评估当前网络模型的预测效果，均方根误差是网络的预测值与真实值之间的偏差的平方和与样本数量m的比值的平方根，可以用来衡量预测值与真实值之间的偏差大小。假设m为样本数量，y^t为真实标签，y^*为预测标签，那么本申请实施例的损失函数可以如下所示：

上述实施例中，Transformer编码器深度神经网络训练包括：首先随机初始化Transformer编码器深度神经网络的初始权重，并根据初始化的参数权重得到当前的故障预测值y^，当模型的准确度仍不满足要求，或者当前的迭代此时还没有到达设定的最大训练轮次时，本申请实施例将通过误差函数计算误差值并通过反向传播算法，利用梯度下降的方式调整深度神经网络各层的权重参数。

当网络参数全部更新后再次进行故障预测得到新的预测值，这里仍然称为y^，并计算当前的准确度δ_est；若当前误差仍大于误差阈值δ_th，并且当前的迭代次数还没有达到最大训练轮次，则重复上述步骤。否则则Transformer编码器深度神经网络训练完毕，得到训练后的Transformer编码器深度神经网络M(θ)。

其中，本申请实施例的Transformer编码器深度神经网络训练的伪代码可以如下表1所示。

表1

在本申请实施例中，在将时序数据集输入训练完成的故障预测模型之前，还包括：利用预设特征评判标准从时序数据集中筛选得到表示健康状态退化的传感器特征维度数据；对传感器特征维度数据进行数据预处理，得到传感器特征维度数据的特征向量。

其中，特征评判标准可以包括传感器数据与时间的相关性指标、传感器数据的单调性指标等；数据预处理可以包括数据标准化和数据增强等；对此不做具体限定。

可以理解的是，本申请实施例可以利用特征评判标准从时序数据集中筛选能够反应目标设备健康状态退化的传感器维度，且可以将筛选得到的传感器特征维度进行数据预处理得到特征向量；下面将对本申请实施例的传感器维度数据筛选过程和数据预处理过程进行具体阐述：

(1)传感器维度数据筛选：

可以理解的是，传感器数据与时间有着强相关性和强单调性的特征包含了设备更加丰富的退化信息。如图2所示，特征筛选模型的目的是在于剔除部分无关或者干扰故障预测的传感器特征维度，筛选出包含退化信息最丰富的传感器维度。

具体而言，本申请实施例可以采用传感器特征与时间的相关性指标和单调性指标作为评判标准；其中，相关性指标反应了传感器数据变化与时间是否有相关性，无或者弱相关性的传感器维度将会被剔除；单调性指标反应了传感器数据随时间变化的整体趋势，对于某些在工业设备整个生命周期几乎没有什么变化波动的传感器数据将予以剔除。需要说明的是，本申请实施例筛选的特征维度没有限制，可以根据实际情况进行设置，对此不做具体限定。

(2)数据预处理：

可以理解的是，如图2所示，本申请实施例可以通过数据预处理加快深度神经网络的收敛速度，加快网络的优化速度，从而提高深度神经网络故障预测的准确性。为实现上述目标，本申请实施例可以采用一种Max-Min标准化的方式，其详细计算方式为：

其中，特征维度中数值最大的为x_max，数值最小的为x_min，标准化后的数据为x^*。

在本申请的一个实施例中，可以针对传感器收集的时序数据进行数据预处理；这种数据是以数值形式呈现的数据，具体方法为向不同的传感器数据维度中添加高斯噪声和均匀噪声，通过添加噪声提高故障预测模型的鲁棒性和泛化性。其中，添加高斯噪声得到方法是在数据标准化之前生成高斯噪声并直接附加到传感器数据上，添加均匀噪声的方法是在数据标准化之前添加当前传感器数值的基础上，随机添加/减少0％至10％当前传感器数值大小的噪声。

在步骤S103中，在故障预测值大于故障阈值时，判定目标工业设备故障，否则判定目标工业设备运行正常。

其中，故障阈值可以根据实际情况进行具体设置等，对此不做具体限定。

可以理解的是，本申请实施例可以在经过上述步骤S101-S102得到设备的故障预测值后，通过与故障阈值的对比，对该工业设备的故障状态进行判断；当故障预测值大于故障阈值时，可以认为该工业设备出现故障，当故障预测值小于故障阈值时，可以认为该工业设备正常工作。

综上，本申请实施例的基于Transformer深度神经网络的工业设备故障预测方法可以包括离线阶段和在线阶段。(1)离线阶段：收集工业设备的传感器数据，构建工业设备时序数据集；利用相关性指标和单调性指标筛选包含丰富退化信息的传感器数据维度，剔除无关数据维度。利用数据增强和数据标准化对筛选的传感器特征维度进行处理得到特征向量，更进一步处理成维度为batch_size×seq_len×N_f的输入数据矩阵。构建如图3所示的基于Transformer编码器深度神经网络模型，以上述输入数据矩阵使用端到端的训练方法训练上述网络，当准确度δ_est满足精度要求，或者训练次数达到最大轮次后，得到训练后的基于Transformer编码器深度神经网络模型M(θ)。

(2)在线阶段：对实时的传感器监测数据执行与离线阶段相同的数据处理方式，收集从目标设备的生命周期开始到当前传感器记录时刻的传感器记录数据、工况记录数据、相关操作数据等原始时序数据。处理后得到的特征向量输入到训练后的基于Transformer编码器深度神经网络模型M(θ)，得到预测值y^*。

根据本申请实施例提出的基于Transformer深度神经网络的工业设备故障预测方法，至少具有如下优点：

(1)可以兼顾长时依赖和局部关注对设备进行故障预测。本申请实施例可以克服传统神经网络中长期记忆退化的问题，提取得到工业设备长期发展过程中的隐藏特征，并辅助以门控卷积单元，加强其对局部快速退化区域的关注。

(2)可以提高对工业设备故障预测的准确度。本申请实施例使用了先进的时序建模模型Transformer，利用多头注意力综合长时和局部的时序特征，可以大大提高基于Transformer编码器深度神经网络故障预测的准确率。

(3)可以加快模型收敛速度，减少计算资源消耗。在进行故障预测时，相比于传统的循环神经网络，本申请实施例可以进行并行化计算，且相比传统卷积神经网络，本申请实施例不受卷积核大小即感受野的限制；由此，本申请实施例可以实现在并行化计算的同时快速收敛模型，减少模型计算量。

其次参照附图描述根据本申请实施例提出的基于Transformer深度神经网络的工业设备故障预测装置。

图4是本申请实施例的基于Transformer深度神经网络的工业设备故障预测装置的方框示意图。

如图4所示，该基于Transformer深度神经网络的工业设备故障预测装置10包括：数据收集模块100、数据处理模块200和判断模块300。

其中，数据收集模块100用于获取目标工业设备的健康状态对应的时序数据集；输入模块200用于将时序数据集输入训练完成的故障预测模型，输出时序数据集的故障预测值，其中，故障预测模型基于携带有故障预测值标签的训练样本训练得到；判断模块300用于在故障预测值大于故障阈值时，判定目标工业设备故障，否则判定目标工业设备运行正常。

在本申请实施例中，数据处理模块200用于：将时序数据集输入GCU单元，输出时序数据集的特征数据；将特征数据输入第一线性层，对特征数据进行维度变换，并对特征数据进行位置编码，得到编码数据；将编码数据输入多头注意力层，对编码数据进行自注意特征计算，并将计算后的特征输入前馈层，并对数据进行残差连接和层标准化，得到目标维特征向量；将目标维度特征向量输入回归层，输出时序数据集的故障预测值。

在本申请实施例中，基于Transformer深度神经网络的工业设备故障预测装置10还包括：获取模块、预测模块、计算模块和生成模块。

其中，获取模块用于获取携带有故障预测值标签的训练样本和训练样本的实际预测值；预测模块用于随机初始化Transformer编码器深度神经网络的初始权重，将训练样本输入至初始化后的Transformer编码器深度神经网络，得到当前故障预测值；计算模块用于根据当前故障预测值和实际预测值计算实际准确率，在实际准确率小于或等于准确率阈值时，根据预设误差函数计算Transformer编码器深度神经网络训练的误差值，通过梯度反向传播调整Transformer编码器深度神经网络中各层的权重参数；生成模块用于基于权重参数调整后的Transformer编码器深度神经网络对训练样本进行重新预测，直到实际准确率大于准确率阈值，或者，训练迭代次数达到预设次数时，停止迭代训练，并得到故障预测模型。

在本申请实施例中，基于Transformer深度神经网络的工业设备故障预测装置10还包括：筛选模块和预处理模块。

其中，筛选模块用于利用预设特征评判标准从时序数据集中筛选得到表示健康状态退化的传感器特征维度数据；预处理模块用于对传感器特征维度数据进行数据预处理，得到传感器特征维度数据的特征向量。

需要说明的是，前述对基于Transformer深度神经网络的工业设备故障预测方法实施例的解释说明也适用于该实施例的基于Transformer深度神经网络的工业设备故障预测装置，此处不再赘述。

根据本申请实施例提出的基于Transformer深度神经网络的工业设备故障预测装置，可以使用一种端到端的故障预测方法，能够在减少深度神经网络运算时间、减少计算资源的消耗的同时，提升故障预测的准确度；且本申请实施例可以有效避免循环神经网络的长期记忆损失的问题，以实现对设备健康状态的长周期预测。

图5为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。

处理器502执行程序时实现上述实施例中提供的基于Transformer深度神经网络的工业设备故障预测方法。

进一步地，电子设备还包括：

通信接口503，用于存储器501和处理器502之间的通信。

存储器501，用于存放可在处理器502上运行的计算机程序。

存储器501可能包含高速RAM(Random Access Memory，随机存取存储器)存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

如果存储器501、处理器502和通信接口503独立实现，则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral Component，外部设备互连)总线或EISA(Extended Industry Standard Architecture，扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器501、处理器502及通信接口503，集成在一块芯片上实现，则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。

处理器502可能是一个CPU(Central Processing Unit，中央处理器)，或者是ASIC(Application Specific Integrated Circuit，特定集成电路)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的基于Transformer深度神经网络的工业设备故障预测方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于Transformer深度神经网络的工业设备故障预测方法，其特征在于，包括以下步骤：

获取目标工业设备的健康状态对应的时序数据集；

将所述时序数据集输入训练完成的故障预测模型，输出所述时序数据集的故障预测值，其中，所述故障预测模型基于携带有故障预测值标签的训练样本训练得到；

在所述故障预测值大于故障阈值时，判定所述目标工业设备故障，否则判定所述目标工业设备运行正常。

2.根据权利要求1所述的方法，其特征在于，所述将所述时序数据集输入训练完成的故障预测模型，输出所述时序数据集的故障预测值，包括：

将所述时序数据集输入GCU单元，输出所述时序数据集的特征数据；

将所述特征数据输入第一线性层，对所述特征数据进行维度变换，并对所述特征数据进行位置编码，得到编码数据；

将所述编码数据输入多头注意力层，对所述编码数据进行自注意特征计算，并将计算后的特征输入前馈层，并对数据进行残差连接和层标准化，得到目标维特征向量；

将所述目标维度特征向量输入回归层，输出所述时序数据集的故障预测值。

3.根据权利要求1所述的方法，其特征在于，在将所述时序数据集输入所述训练完成的故障预测模型之前，还包括：

获取携带有故障预测值标签的训练样本和所述训练样本的实际预测值；

随机初始化Transformer编码器深度神经网络的初始权重，将所述训练样本输入至初始化后的Transformer编码器深度神经网络，得到当前故障预测值；

根据所述当前故障预测值和所述实际预测值计算实际准确率，在所述实际准确率小于或等于准确率阈值时，根据预设误差函数计算所述Transformer编码器深度神经网络训练的误差值，通过梯度反向传播调整所述Transformer编码器深度神经网络中各层的权重参数；

基于权重参数调整后的Transformer编码器深度神经网络对所述训练样本进行重新预测，直到所述实际准确率大于所述准确率阈值，或者，训练迭代次数达到预设次数时，停止迭代训练，并得到所述故障预测模型。

4.根据权利要求1-3任意一项所述的方法，其特征在于，在将所述时序数据集输入训练完成的故障预测模型之前，还包括：

利用预设特征评判标准从所述时序数据集中筛选得到表示健康状态退化的传感器特征维度数据；

对所述传感器特征维度数据进行数据预处理，得到所述传感器特征维度数据的特征向量。

5.一种基于Transformer深度神经网络的工业设备故障预测装置，其特征在于，包括：

数据收集模块，用于获取目标工业设备的健康状态对应的时序数据集；

输入模块，用于将所述时序数据集输入训练完成的故障预测模型，输出所述时序数据集的故障预测值，其中，所述故障预测模型基于携带有故障预测值标签的训练样本训练得到；

判断模块，用于在所述故障预测值大于故障阈值时，判定所述目标工业设备故障，否则判定所述目标工业设备运行正常。

6.根据权利要求5所述的装置，其特征在于，所述数据处理模块用于：

7.根据权利要求5所述的装置，其特征在于，还包括：

获取模块，用于获取携带有故障预测值标签的训练样本和所述训练样本的实际预测值；

预测模块，用于随机初始化Transformer编码器深度神经网络的初始权重，将所述训练样本输入至初始化后的Transformer编码器深度神经网络，得到当前故障预测值；

计算模块，用于根据所述当前故障预测值和所述实际预测值计算实际准确率，在所述实际准确率小于或等于准确率阈值时，根据预设误差函数计算所述Transformer编码器深度神经网络训练的误差值，通过梯度反向传播调整所述Transformer编码器深度神经网络中各层的权重参数；

生成模块，用于基于权重参数调整后的Transformer编码器深度神经网络对所述训练样本进行重新预测，直到所述实际准确率大于所述准确率阈值，或者，训练迭代次数达到预设次数时，停止迭代训练，并得到所述故障预测模型。

8.根据权利要求5-7任意一项所述的装置，其特征在于，还包括：

筛选模块，用于利用预设特征评判标准从所述时序数据集中筛选得到表示健康状态退化的传感器特征维度数据；

预处理模块，用于对所述传感器特征维度数据进行数据预处理，得到所述传感器特征维度数据的特征向量。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-4任一项所述的基于Transformer深度神经网络的工业设备故障预测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-4任一项所述的基于Transformer深度神经网络的工业设备故障预测方法。