CN112257263A

CN112257263A - 基于自注意力机制的设备剩余寿命预测系统

Info

Publication number: CN112257263A
Application number: CN202011139314.1A
Authority: CN
Inventors: 王欣刚; 刘元俊; 徐歆尧; 徐德
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-22
Anticipated expiration: 2040-10-22
Also published as: CN112257263B

Abstract

本发明属于现代工业故障预测与健康管理领域，具体涉及一种基于自注意力机制的设备剩余寿命预测系统，旨在为了解决现有RUL预估方法实时性效果不足的问题，本发明系统包括深度单元，基于前馈神经网络构建，配置为将输入数据消除时间维度后进行高维向量表示，得到第一向量；注意力单元，配置为将输入数据的时间序列映射到统一的向量空间，并将向量空间中对应的特征向量输入到自注意力模块，得到多个子空间的注意力向量并拼接为一个，得到第二向量；预测单元，配置为将第一向量、第二向量合并为第三向量，并通过前馈神经网络输出预测结果。本发明可以保持预测精度的基础上可以更好的并行化计算，提高了预测的实时性。

Description

基于自注意力机制的设备剩余寿命预测系统

技术领域

本发明属于现代工业故障预测与健康管理领域，具体涉及一种基于自注意力机制的设备剩余寿命预测系统。

背景技术

寿命预测与健康管理(Prognostic Health Management,PHM)技术是现代工业发展过程中最重要的核心技术之一。工程实践表明，PHM技术可有效降低设备发生故障的概率，减少维修维护费用，特别是在安全性及可靠性要求较高的领域，能显著减少系统宕机次数并提升任务成功率。PHM的核心问题是针对海量状态监测数据，准确地针对系统健康状况进行评估并预测设备的Remaining Useful Life(RUL)，同时在此基础上确定设备的最优维护时机，进一步达到预测性维护的目的。而在这一问题中，根据设备的传感器监测数据来预测RUL是实现预测性维护的关键。通常来说，RUL预测任务是在机器发生故障之前，通过监控系统获得的时间序列来预测剩余的运行时间。基于物理模型的方法需要对设备机理进行分析，建立准确的物理模型，这对于复杂的设备系统来说很难做到。而基于数据驱动的方法使用分布式传感器采集设备的性能退化数据，通过充分挖掘监测数据所包含的潜在信息，不需要建立复杂的物理模型，就能做到对设备的剩余使用寿命进行准确预测。

深度学习是机器学习的一个分支，通过堆叠深层次的神经网络，实现深层抽象特征提取和复杂非线性关系表达。这种方法在诸多领域取得了远远超过传统机器学习方法的效果。

在RUL预估领域，目前的方法大多都是基于LSTM(Long Short-Term Memory，长短期记忆网络)的改进。由于LSTM不适合并行计算，无法满足实时性要求很高的场景，限制了RUL技术在实际工厂环境的使用。

发明内容

为了解决现有技术中的上述问题，即为了解决现有RUL预估方法实时性效果不足的问题，本发明提出了一种基于自注意力机制的设备剩余寿命预测系统，该系统包括深度单元、注意力单元、预测单元；

所述深度单元，基于前馈神经网络构建，配置为将输入数据消除时间维度后进行高维向量表示，得到第一向量；

所述注意力单元，配置为将输入数据的时间序列映射到统一的向量空间，并将所述向量空间中对应的特征向量输入到自注意力模块，得到多个子空间的注意力向量并拼接为一个，得到第二向量；

所述预测单元，配置为将所述第一向量、所述第二向量合并为第三向量，并通过前馈神经网络输出预测结果。

在一些具体实施方式中，所述第一向量，其获取方法为：

将所述输入数据的多变量时间序列拉平以消除其时间维度；

将拉平处理后的输入数据通过多层堆叠的神经网络获取高维向量表示。

在一些具体实施方式中，所述深度单元的输出部分设置有Res-FFNN。

在一些具体实施方式中，所述注意力单元包括嵌入模块，所述嵌入模块用于将输入数据的时间序列映射到统一的向量空间；

所述嵌入模块包括两个CNN结构；第一个CNN结构为滤波器尺寸为3的单层CNN结构；第二个CNN结构包括两层滤波器尺寸为1的CNN层。

在一些具体实施方式中，所述注意力单元还包括多头自注意力模块；

所述多头自注意力模块包括自注意力模块；所述自注意力模块的输入为增加位置编码向量后的所述嵌入模块输出的向量空间中对应的特征向量；所述自注意力模块的输出为多个子空间的注意力向量拼接后的向量。

在一些具体实施方式中，所述注意力单元的输出部分设置有Res-FFNN。

在一些具体实施方式中，所述注意力单元中Res-FFNN之后设置有序列拼接层，用于将Res-FFNN输出的向量沿着时间维度展开并且拼接到一起。

在一些具体实施方式中，所述输入数据为前T_w次采集得到的数据；其中，T_w为预设次数。

在一些具体实施方式中，其训练时的训练样本中的RUL基于原始信号数据通过分段线性的方法生成。

在一些具体实施方式中，所述Res-FFNN的网络结构基于Resnet的结构进行设计。

本发明的有益效果：

本发明设计了深度单元和注意力单元，分别从不同的角度对数据进行建模。深度单元可以减少噪声的影响，对于采集到的包含噪声的数据更加鲁棒。注意力单元在保持预测精度的基础上可以更好的并行化计算，提高了预测的实时性，更适合对实时性要求高的工业场景。本发明将深度单元和注意力单元设计成两个独立的模块，在噪声较小的场景下可以去掉深度单元，只使用注意力单元，所以系统配置更加灵活，可以针对不同的场景进行模块的增减。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于自注意力机制的设备剩余寿命预测系统框架示意图；

图2是本发明一种实施例中深度单元结构示意图；

图3是本发明一种实施例中注意力单元结构示意图；

图4是本发明一种实施例的验证效果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种基于自注意力机制的设备剩余寿命预测系统，如图1所示，该系统包括深度单元、注意力单元、预测单元；

为了更清晰地对本发明系统进行说明，下面结合附图对本方发明方法一种实施例中各部分进行展开详述。

本发明一种实施例的基于自注意力机制的设备剩余寿命预测系统，包括深度单元(Deep部分)、注意力单元(Attention部分)、预测单元。

在进行技术方案的详细说明之前，先就输入数据和预估值进行简要描述：

单条输入数据表示为{x_i,y_i}，

为第i个样本的输入，y_i∈R为第i个样本的RUL值。通常来说，RUL预测任务需要预测某个时间点t_i的RUL值。所以x_i由t_i时刻最近的T_w个时刻的采样数据组成，表示为

其中f_input表示为特征数。RUL预估任务定义为

其中x_i为输入数据，

为RUL的预估值，函数F_RUL(x_i,{W_RUL})表示为映射函数。

1、深度单元

深度单元(Deep部分)，基于前馈神经网络构建，配置为将输入数据消除时间维度后进行高维向量表示，得到第一向量。

如图2所示，Deep部分是一个前馈神经网络，包括前馈神经网络、残差前馈神经网络、置零扰动层。首先将输入数据的多变量时间序列拉平得到

可以定义成

这步操作将时间序列的时间维度消除，从而弱化了噪声对于短期变换趋势的影响。之后将拉平处理后的输入数据输入到多层堆叠的神经网络中，得到Deep部分的高维向量表示。其中每层神经网络表示为：

h_l+1＝RELU(W_lh_l+b_l+h_l)

其中RELU(x)＝max(0,x)为非线性函数，W_l为第l层模型的权重参数，h_l为第l层的输入特征，b_l为第l层的偏置参数。

为了让深度单元在训练时更快的收敛，在该单元的输出部分引入了类似于Resnet的结构Res-FFNN。

2、注意力单元

注意力单元(Attention部分)，配置为将输入数据的时间序列映射到统一的向量空间，并将所述向量空间中对应的特征向量输入到自注意力模块，得到多个子空间的注意力向量并拼接为一个，得到第二向量。

如图3所示，注意力单元包括嵌入模块(Embedding Compenont)、多头自注意力模块(Multi-Head Self-Attention)、残差前馈神经网络、序列拼接层。

(1)嵌入模块

嵌入模块(Embedding Compenont)将输入的多变量时间序列x_i映射到更高维度的嵌入向量(Embedding)空间

从而得到不同特征之间的高阶语义表示。本发明采用多层1D convolutional layers(一维卷积层)在时间维度上滑动，从而得到了每个时刻t的高阶语义表示e_t。Embedding Component包括两种CNN(ConvolutionalNeural Network，卷积神经网络)结构。第一种是filter size(滤波器尺寸)为3的卷积层，这个结构为了改变每层输出Embedding的维度。第二种是类似于Resnet(残差网络)的CNNRes Block(残差卷积模块)，其中包括两层filter size为1的卷积层，这种结构可以保证在获取更高层语义的情况下让模型更快的收敛。为了让模型更快地收敛，在这里我们引入了类似Resnet的结构。Embedding Compenont作为Attention部分的第一层结构，在获得高阶语义表示的前提下很好地保留了数据的时间序列关系。

(2)多头自注意力模块

多头自注意力模块包括自注意力模块(Self-Attention)、置零扰动层、拼接层；所述自注意力模块的输入为增加位置编码向量(Positional Encoding)后的所述嵌入模块输出的向量空间中对应的特征向量；所述自注意力模块的输出为多个子空间的注意力向量拼接后的向量。注意力单元的输出部分设置有Res-FFNN(残差前馈神经网络)，Res-FFNN之后设置有flatten layer，用于将Res-FFNN输出的向量沿着时间维度展开并且拼接到一起。

Self-Attention对时间序列进行建模，并且可以捕捉特征长期的变化趋势。和LSTM相比，Self-Attention可以建模更长的时间序列，而且可以更好地并行化计算。在将embedding向量e_i输入到Self-Attention之前，我们将Positional Encoding加入到e_i，从而加入了不同embedding向量之间的时间信息。

通常来说，注意力函数可以被定义为：将一个查询向量和一组键值对向量映射为一个输出向量的函数。计算注意力函数输出向量时，我们首先通过查询向量和键向量之间内积的方式得到注意力权重。之后，我们用注意力权重对值向量进行加权求和，得到注意力函数输出向量。注意力函数如下所示：

其中，Q、K、V由e_i通过线性映射得到，定义为Q＝W^qe_i、K＝W^ke_i、V＝W^ve_i。d_k是K的维度，W^q为查询权重参数，q为查询向量，W^k为键权重参数，k为键向量，W^v为值权重参数，v为值向量。

Multi-Head Self-Attention(多头自注意力模块)计算多个子空间的注意力向量，然后将这些注意力向量拼接到一起。这种做法可以使本发明预测系统从多个角度对不同embedding的相关性进行系统构建，增强模型的表现能力。Multi-Head Self-Attention函数的定义如下：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)

其中，head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)，W_i ^Q为第i层的查询权重参数，W_i ^K为第i层的键权重参数，W_i ^V为第i层的值权重参数。

Embedding向量e_i经过MultiHead函数(多头注意力函数)得到注意力向量

(其中，a_t为第t时刻的注意力向量)之后，将注意力向量a_i输入到单层Res-FFNN得到

为第i个注意力隐向量，

函数定义如下：

其中，W_ffn为Res-FFNN的权重参数，b_ffn为Res-FFNN的偏置参数。

最后，我们将经过Res-FFNN得到的

在flatten layer沿着时间维度展开并且拼接到一起，得到Attention部分的最终输出。

3、预测单元

预测单元，配置为将所述第一向量、所述第二向量合并为第三向量，并通过一个前馈神经网络输出预测结果。基于输入数据向量通过前馈神经网络进行RUL预测的方法现有技术中已有诸多方案，此处不再展开论述。

基于上述的基于自注意力机制的设备剩余寿命预测系统，在训练阶段，将输入数据进行两次预处理，对于Deep部分，消除输入数据的时序依赖，公式表示为

对于Attention部分，需要保留数据的时序依赖，所以不做处理。在传统的RUL目标值预测中，RUL目标值随着时间线性地下降。但是在实际应用中，一个系统的衰退在刚开始使用的时候只有微小的变化，并且在末尾的时候忽然急速衰退。为了更好地使RUL值随着时间的变化，采用Piece-wise(分段线性函数)的方法生成RUL。如图4中的Piece-wise RUL所示，RUL的最大值被限制成一个常量R_e，并且在使用寿命小于这个最大值的时候开始线性的衰退，当寿命大于这个最大值的时候，RUL为R_e这个常数。

在应用阶段，仅使用前T_w次采集得到的数据，数据预处理方式与训练阶段基本相同，去掉了RUL生成的流程。结合训练阶段得到的基于自注意力机制的设备剩余寿命预测系统的模型参数，进行当前RUL值的预测。

为验证本发明所设计的基于自注意力机制的设备剩余寿命预测系统的有效性，我们采用涡轮发动机退化数据集进行实验验证。C-MAPSS选用数百组正常运作但有不同程度磨损的发动机进行实验。在设定的运行条件下，实验对正常运转中的发动机的5个旋转部件制造一种或两种故障。采用58个传感器对发动机从正常运行状态到发生故障，最后到完全故障状态的整个过程进行检测。其中，选取21个检测信号作为有效信号数据。

实验数据包括在不同运行条件和故障种类下的4个数据子集：FD001子集是仅有一个运行条件和一种故障种类；FD004子集最为复杂，有6个运行条件、2种故障模式，表1为各子集具体信息。每个子集又分为训练集和测试集，训练集中记录了发动机从一开始到最后完全退化的全部运行周期数据；测试集中数据记录到完全退化前的一个时刻，而剩余的运行周期数即为预测目标RUL。

表1

数据集	故障种类	运行条件	数据集长度
				FD001	1	1	100
FD002	1	6	260
				FD003	2	1	100
FD004	2	6	249

表2为本发明在四个子数据集上测试的结果，从表中可以看出，本发明在航空发动机剩余寿命预测方法中取得了较高的预测精度。并且因为本方法适合并行化计算，能够满足工业生产中实时性要求较高的场景。

表2

数据集	FD001	FD002	FD003	FD004
					RMSE	12.981521	17.043444	11.878059	19.540342
Score	282.32404	1386.6074	222.67238	2472.9224

图4表明了在模型中加入Deep部分的有效性：图4分别对比了RUL的真实值，本方法只采用Attention部分的预测值(注意力单元测试值)和本方法同时采用深度单元和注意力单元联合预测值，图4中横轴为时间步长、纵轴为剩余寿命。RUL值的变化分为两个阶段，第一个阶段是真实的RUL值大于R_e，这部分RUL值被处理成一个常数R_e，第二个阶段是真实的RUL值小于R_e，这部分RUL值随着时间线性地变化。从图中我们可以看到，加入Deep部分之后，模型可以在第二阶段表现出更好的结果。在实际应用中，我们更加关注机器快要损坏的时候模型的表现。所以加入Deep部分的模型在第二阶段得到更好的表现，符合实际应用中的具体要求。

需要说明的是，上述实施例提供的基于自注意力机制的设备剩余寿命预测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

特别地，根据本公开的实施例，上文系统可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于实现本发明系统的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的系统中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的系统功能的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于自注意力机制的设备剩余寿命预测系统，其特征在于，该系统包括深度单元、注意力单元、预测单元；

2.根据权利要求1所述的基于自注意力机制的设备剩余寿命预测系统，其特征在于，所述第一向量，其获取方法为：

将所述输入数据的多变量时间序列拉平以消除其时间维度；

3.根据权利要求3所述的基于自注意力机制的设备剩余寿命预测系统，其特征在于，所述深度单元的输出部分设置有Res-FFNN。

4.根据权利要求1所述的基于自注意力机制的设备剩余寿命预测系统，其特征在于，所述注意力单元包括嵌入模块，所述嵌入模块用于将输入数据的时间序列映射到统一的向量空间；

5.根据权利要求4所述的基于自注意力机制的设备剩余寿命预测系统，其特征在于，所述注意力单元还包括多头自注意力模块；

6.根据权利要求5所述的基于自注意力机制的设备剩余寿命预测系统，其特征在于，所述注意力单元的输出部分设置有Res-FFNN。

7.根据权利要求6所述的基于自注意力机制的设备剩余寿命预测系统，其特征在于，所述注意力单元中Res-FFNN之后设置有序列拼接层，用于将Res-FFNN输出的向量沿着时间维度展开并且拼接到一起。

8.根据权利要求1-7任一项所述的基于自注意力机制的设备剩余寿命预测系统，其特征在于，所述输入数据为前T_w次采集得到的数据；其中，T_w为预设次数。

9.根据权利要求1-7任一项所述的基于自注意力机制的设备剩余寿命预测系统，其特征在于，其训练时的训练样本中的RUL基于原始信号数据通过分段线性的方法生成。

10.根据权利要求3或6所述的基于自注意力机制的设备剩余寿命预测系统，其特征在于，所述Res-FFNN的网络结构基于Resnet的结构进行设计。