CN114781458A

CN114781458A - 基于自适应小波和注意力机制的时频记忆神经网络的配电网初期故障识别方法

Info

Publication number: CN114781458A
Application number: CN202210481128.9A
Authority: CN
Inventors: 李奇越; 罗欢; 樊智奇; 李帷韬; 孙伟; 刘鑫; 姜黄祺; 常文婧; 吴留兵; 李卫国; 王刘芳
Original assignee: Super High Voltage Branch Of State Grid Anhui Electric Power Co ltd; Hefei University of Technology
Current assignee: Super High Voltage Branch Of State Grid Anhui Electric Power Co ltd; Hefei University of Technology
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-07-22
Anticipated expiration: 2042-05-05
Also published as: CN114781458B

Abstract

本发明公开了一种基于自适应小波和注意力机制的时频记忆神经网络的配电网初期故障识别方法，包括：1、对采集到的电流和电压数据进行预处理并划分数据集；2、设计基于自适应小波变换的时频记忆递归神经网络核心结构；3、构建基于自适应小波变换和Attention机制的时频记忆递归神经网络；4、基于自适应小波和Attention机制的时频记忆递归神经网络得到测试集样本的输出结果。本发明通过基于自适应小波变换和Attention机制的时频记忆递归神经网络来提供时间序列的细粒度分析，可以动态的捕获数据在时域和频域上的特征，以提高初期故障的识别精度，满足了准确化快速化的实际需求。

Description

基于自适应小波和注意力机制的时频记忆神经网络的配电网初期故障识别方法

技术领域

本发明涉及小波变换技术，深度学习技术，Attention机制技术，具体涉及基于自适应小波变换和Attention机制的时频记忆递归神经网络进行初期故障识别方法，适用于主动配电系统中对初期故障进行实时检测。

背景技术

电网设备运行的状态可以分为正常状态和故障状态，而在实际中设备状态可细分为正常状态，初期故障状态和故障状态。设备的初期故障是以一种弱故障扰动，其故障信号微弱，持续时间短，可自行恢复，保护装置不会动作，因此初期故障容易对设备造成损害却未得到及时关注，最终将会演变成永久故障。检测初期故障有助于主动故障管理和预测性维护，使有缺陷的装置可以提前进行更换，对有效提高供电可靠性具有重要意义。

初期故障可以采用传统的故障识别的方法进行检测，传统方法通过对输入输出故障信号处理、状态估计、参数估计的方法，获得能够表征故障电压电流信号的特征量，通过对特征量分析计算，将分析结果与人工设定阈值比较，或根据特征量概率分布等规则，对初期故障进行辨识。这种通过人工选取特征再依据规则对初期故障辨识分类的方法对特征提取精度要求高，并且阈值设定和区分标准制定由经验确定，因此不适用于波形复杂的故障分类。

深度学习的兴起引起了人们的广泛关注，将神经网络应用到故障检测中取得了良好的识别效果。如利用LSTM与GRU构建深度递归神经网络架构对捕获的设备振动时间序列的隐藏信息进行故障分类；或者是先对故障特征信号做特征提取，再将提取的特征量作为神经网络输入进行故障分类；应用CNN处理通过测量设备获取的电压电流波形图像和放电电晕视频等。但因配电网初期故障是一种非平稳信号，直接运用神经网络对初期故障数据进行辨识，故障信号包含大量信息，会增加网络计算，且影响最终分类精度；先提取特征后再输入到神经网络中的方法需要解决提取特征与网络训练过程不同步带来误差；基于CNN的检测方法需要在配电网中额外布置大量测量设备，无法在工程上广泛应用。因此消除故障信号非平稳特性影响、解决特征提取误差对网络影响是应用深度学习对配电网初期故障辨识的难题。

云南民族大学信息工程学院王文凯提出了一种基于DAE-IPOS-SVM的电缆早期故障识别方法。该方法通多自降噪编码器对数据压缩和抽取特征，再将经过改进粒子群优化算法优化的支撑向量机作为分类器对特征提取的数据样本训练，最后用测试数据对模型进行测试。但是该方法对在不同配电网络的早期故障辨识时，需要重新调整模型参数，无法广泛应用。

四川大学电气工程学院汪颖提出了一种基于优化卷积神经网络的电缆早期故障分类识别(电力系统保护与控制,2020,48(07):10-18.)。该方法将小波变换与卷积神经网络结合，首先用小波变换对电流进行特征量提取，再利用优化后的卷积神经网络对特征量学习，经过训练得到分类器。但是该方法的精度与小波变换提取的特征量有关，小波提取的特征量之间存在冗余，一定程度上不能完全表征原始信号，这将影响最终检测精度。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于自适应小波和注意力机制的时频记忆神经网络的配电网初期故障识别方法，以期能通过自适应小波变换和Attention机制动态捕获时序数据在时域和频域上的特征并对不同信息加以不同权重，从而提高初期故障的识别精度和神经网络的训练速度，满足准确化快速化的识别需求。

本发明为解决技术问题采用如下技术方案：

本发明一种基于自适应小波和注意力机制的时频记忆神经网络的配电网初期故障识别方法的特点在于，是按如下步骤进行：

步骤1、构建网络的训练集T_r和测试集T_e；

步骤1.1、采集故障设备的三相电压和三相电流数据，并构建故障数据分类集合，记为F＝{U,I}，其中，U表示三相电压数据集，且U＝{U₁,U₂…U_k…U_K}，U_k表示第k条故障数据的三相电压数据，且U_k＝{u_k,a,u_k,b,u_k,c}，u_k,a表示第k条故障数据的A相电压数据，u_k,b表示第k条故障数据的B相电压数据，u_k,c表示第k条故障数据的C相电压数据；I表示三相电流数据集，且I＝{I₁,I₂…I_k…I_K}，I_k表示第k条故障数据的三相电流数据集，且I_k＝{i_k,a,i_k,b,i_k,c}，i_k,a表示A相电流数据，i_k,b表示B相电流数据，i_k,c表示C相电流数据；1≤k≤K；

步骤1.2、构建故障数据分类集合F的标签信息集合，记为Y＝{y_1,n,y_2,n…y_K,n…y_K,n}，其中，Y_k,n表示第k条故障数据的标签值为第n种故障，1≤n≤N，N为故障种类数；

步骤1.3、将带有标签的故障数据集T＝(F,Y)随机打乱顺序后，分为训练集T_r和测试集T_e；且T_r＝{x₁,x₂…x_k…x_K}，x_k表示第k条带有标签的故障数据，且x_k＝{x_k,1,x_k,2…x_k,t…x_k,T}，x_k,t表示第k条故障数据的第t个时间步长数据，1≤t≤T；T表示总时间步长；

步骤2、构建带有Attention机制的自适应小波变换时频记忆递归神经网络，包括：自适应小波变换的时频记忆递归层、Attention层和全连接层；

步骤2.1构建自适应小波变换的时频记忆递归层，包括：时频记忆遗忘部分、细胞更新单元；

其中，所述时频记忆遗忘部分包括：时域遗忘门、频域遗忘门、状态遗忘门；

所述细胞更新单元包括：输入门、自适应小波变换单元、输出门；

步骤2.1.1、所述第k条故障数据的第t个时间步长数据x_k,t输入自适应小波变换的时频记忆递归层中，所述时频记忆遗忘部分利用式(1)-式(3)进行选择性丢弃处理，得到第k条故障数据的第t个时间步长的时域遗忘门的输出f_k,t ^tim、第k条故障数据的第t个时间步长的频域遗忘门的输出f_k,t ^fre、第k条故障数据的第t个时间步长的状态遗忘门的输出f_k,t ^ste：

式(1)-式(3)中，h_k,t-1表示第k条故障数据的第t-1个时间步长的故障信息隐藏状态值；当t＝1时，令隐藏状态值h_k,t-1为零；sigmoid( )表示将变量映射到0和1之间的激活函数；W_tim和U_tim分别表示第k条故障数据的第t个时间步长数据x_k,t和第t-1个时间步长的故障信息隐藏状态值h_k,t-1在时域上的权重矩阵，b_tim表示时域上的偏差向量，

表示J维的实数向量，W_fre和U_fre分别表示第k条故障数据的第t个时间步长数据x_k,t和第t-1个时间步长的故障信息隐藏状态值h_k,t-1在频域上的权重矩阵，b_fre表示频域上的偏差向量，

表示Q维的实数向量，W_ste和U_ste分别表示第k条故障数据的第t个时间步长数据x_k,t和第t-1个时间步长的故障信息隐藏状态值h_k,t-1在状态上的权重矩阵，b_ste表示状态上的偏差向量，

表示D维的实数向量；

所述时频记忆遗忘部分利用式(4)得到第k条故障数据的第t个时间步长的输出集合F_k,t：

式(4)中，

表示外积运算；

步骤2.1.2、所述第k条故障数据的第t个时间步长数据x_k,t和第t-1个时间步长的故障信息隐藏状态值h_k,t-1输入所述细胞更新单元中，所述输入门利用式(5)-式(7)得到第k条故障数据的第t个时间步长的故障输入信息p_k,t和故障调制信息g_k,t；

p_k,t＝sigmoid(W_px_k,t+U_gh_k,t-1+b_p) (5)

g_k,t＝tanh(W_gx_k,t+U_gh_k,t-1+b_g) (6)

式(5)-式(7)中，

为所述输入门第t个时间步长的故障信息输出；W_p和U_p分别表示所述第k条故障数据的第t个时间步长数据x_k,t和第k条故障数据的第t-1个时间步长的故障信息隐藏状态值h_k,t-1的在输入时的权重矩阵，b_p表示输入门的偏差向量；W_g和U_g分别表示所述第k条故障数据的第t个时间步长数据x_k,t和第k条故障数据的第t-1个时间步长的故障信息隐藏状态值h_k,t-1在调制时的权重矩阵，b_g表示调制的偏差向量；

表示逐元素相乘运算；tanh()表示将小于0的变量变成0，大于0的变量保持不变的激活函数；

步骤2.1.3、所述自适应小波变换单元利用式(8)-式(10)对所述输入门的故障信息输出值

进行时频域分解，得到第k条故障数据的第t个时间步长的故障信息输出在第j级时域、第q级频域上的自适应小波系数w_t,k,j,q：

式(8)-式(10)中，w表示自适应Morlet小波的中心频率，b表示自适应Morlet小波的平移尺度；W_w表示输入门的故障信息输出值

获得小波中心频率时的权重矩阵，b_w表示获得小波中心频率的偏差向量；W_b表示输入门的故障信息输出值

在获得平移尺度时的权重矩阵，b_b表示所述平移尺度的偏差向量；i表示虚数单位，exp( )表示指数运算；j表示小波时域分解维度，q表示小波频域分解维度；

步骤2.1.4、所述输出门利用(11)得到第k条故障数据的第t个时间步长的内存状态S_k,t：

式(11)中，S_k,t-1表示第k条故障数据的第t-1个时间步长的内存状态；当t＝1时，令S_k,t-1为零；

表示D×J×Q维实数矩阵；

所述输出门利用式(12)得到第k条故障数据的第t个时间步长的内存状态S_k,t的幅值A_k,t：

式(12)中，Re和Im分别表示取实部和取虚部的函数；

所述输出门利用式(13)得到第k条故障数据的第t个时间步长的细胞状态c_k,t：

式(13)中，

表示第t个时间步长在第j级时域、第q级频域上细胞状态的权重矩阵，

表示第t个时间步长在第j级时域、第q级频域上细胞状态的幅值，

表示第t个时间步长在第j级时域、第q级频域上细胞状态的偏差向量；

所述输出门利用式(14)对第k条故障数据的第t个时间步长数据x_k,t和第k条故障数据的第t-1个时间步长的故障信息隐藏状态值h_k,t-1进行处理并得到第k条故障数据的第t个时间步长的复合信号o_k,t：

o_k,t＝sigmoid(W_ox_k,t+U_oh_k,t-1+b_o) (14)

式(14)中，W_o和U_o分别表示输出门对第k条故障数据的第t个时间步长数据x_k,t和第k条故障数据的第t-1个时间步长故障信息隐藏状态值h_k,t-1在输出时的权重矩阵，b_o表示输出门的偏差向量；

所述输出门利用式(15)得到第k条故障数据的第t个时间步长的故障信息隐藏状态值h_t，从而得到第k条故障所有时间步的故障信息隐藏状态H_k＝{h_k,1,h_k,2…h_k,t}：

步骤2.2、所述Attention层利用式(16)得到第k条故障所有时间步的故障信息隐藏状态H_k＝{h_k,1,h_k,2…h_k,t}的特征向量u_k＝{u_k,1,u_k,2…u_k,t}，其中，u_k,t表示第k条故障的第t时间步的特征向量；

u_k,t＝W_uH_k+b_u (16)

式(16)中，W_u和b_u分别表示特征向量的权重矩阵和偏差向量；

所述Attention层利用式(17)得到第k条故障的第t个时间步的特征向量u_k,t的标准化权重α_k,t：

式(17)中，

表示第k条故障的第t个时间步的特征向量u_k,t的转置，u_w是随机初始化的总体故障特征向量，并在网络训练过程中共同学习；

所述Attention层利用式(18)得到加权平均后的第k条故障特征向量V_k：

步骤2.3、利用加权平均后的故障特征向量V_k进行故障分类；

步骤2.3.1、所述故障特征向量V_k输入全连接层中，并利用式(19)得到第k条带有标签的故障数据x_k对应所有故障类型N的概率值P(x_k|N)；

P(x_k|N)＝softmax(W_pV_k+b_p) (19)

式(19)中，W_p和b_p分别表示加权平均后的故障特征向量V的权重矩阵和偏差向量；softmax表示激活函数；

步骤2.3.2、利用式(20)构建交叉熵损失函数L_log(y_k,n,P_k,n)：

式(20)中，P_k,n表示第k条故障数据预测为第n个标签的概率；

步骤2.3.3、基于所述训练集T_r，并利用反向传播和梯度下降法对所述损失函数L_log(y_k,n,P_k,n)进行训练，当训练轮次达到最大训练轮次Epoch时，或损失函数L_log达到最小时，停止训练，从而得到训练好的自适应小波变换时频记忆递归神经网络，用于对所输入的故障数据集合映射对应故障类别标签。

与已有技术相比，本发明的有益效果体现在：

1、本发明所提出的基于自适应小波变换和Attention机制的时频记忆递归神经网络结构，通过加入自适应Morlet小波变换系数，将时频记忆递归神经网络的内存状态分解为多个时域和频域分量，在每一时间步网络信息更新时，小波变换系数根据输入信号的频率自适应调整，充分突出不同故障信号的特征，能对时间频率局部化分析，自适应调整尺度对故障信号逐步进行多尺度细化，最终达到了高频处时间细分，低频处频率细分，适应时频故障信号分析的要求，从而可聚焦到故障信号的任意细节，实现了对故障信号的高精度分解，提升了故障识别精度。

2、本发明所提出的基于自适应小波变换和Attention机制的时频记忆递归神经网络结构，通过加入Attention机制将经过自适应小波变换时频记忆递归层输出的每一步隐藏信息依据隐藏信息包含的故障信息的重要程度，分配不同的关注度，并以每一步隐藏信息的关注度大小确定最终输出，提供了对网络隐藏信息的全局性分析；从而达到了高精度的故障识别。

附图说明

图1为本发明提出的自适应小波变换时频记忆递层的结构图；

图2为本发明提出的基于自适应小波变换和Attention机制的时频记忆递归神经网络的层级结构图。

具体实施方式

本实施例中，一种基于基于自适应小波和注意力机制的时频记忆神经网络的配电网初期故障识别方法，是利用深度学习网络框架，并综合考虑配电网早期故障的特征，使用自适应小波变换时频记忆递归层提取故障信号特征获得时间、频率、状态细分的故障信息隐藏状态值，最后通过Attention层和全连接层得到最终故障标签概率分布，确定故障种类。如图1所示，模型的输入为三相电压和三相电流数据，将三相电压和三相电流数据集传输到自适应小波变化时频记忆递归层，通过自适应小波时频记忆递归层得到故障信号数据所有时间步长的隐藏状态H_k；然后，将所有时间步长的隐藏状态H_k作为Attention层的输入，从而获得加权平均后的最终故障信息隐藏信息输出向量V_k；最后，通过全连接层来计算输入故障数据x_k对应所有故障类型N的概率值P(x_k|N)，得到故障标签，具体的说，是按如下步骤进行：

步骤1、构建网络的训练集T_r和测试集T_e；

步骤1.1、采集故障设备的三相电压和三相电流数据，通过对发生故障线路上电压电流数据进行采样，归一化处理后，并构建故障数据分类集合，删除三相电压和三相电流不完整的数据，记为F＝{U,I}，其中，U表示三相电压数据集，且U＝{U₁,U₂…U_k…U_K}，U_k表示第k条故障数据的三相电压数据，且U_k＝{u_k,a,u_k,b,u_k,c}，u_k,a表示第k条故障数据的A相电压数据，u_k,b表示第k条故障数据的B相电压数据，u_k,c表示第k条故障数据的C相电压数据；I表示三相电流数据集，且I＝{I₁,I₂…I_k…I_K}，I_k表示第k条故障数据的三相电流数据集，且I_k＝{i_k,a,i_k,b,i_k,c}，i_k,a表示A相电流数据，i_k,b表示B相电流数据，i_k,c表示C相电流数据；1≤k≤K；

步骤1.2、构建故障数据分类集合F的标签信息集合，删除频率过低的标签以及没有标签的数据，记为Y＝{y_1,n,y_2,n…y_k,n…y_K,n}，其中，Y_k,n表示第k条故障数据的标签值为第n种故障，1≤n≤N，N为故障种类数；

步骤1.3、将带有标签的故障数据集T＝(F,Y)随机打乱顺序后，分为训练集T_r和测试集T_e；且T_r＝{x₁,x₂…x_k…x_K}，x_k表示第k条带有标签的故障数据，且x_k＝{x_k,1,x_k,2…x_k,t…x_k,T}，x_k,t表示第k条故障数据的第t个采样点数据，在网络训练时，每个采样点代表一个时间步长，1≤t≤T；T表示总时间步长；

如图1所示，所述带有Attention机制的自适应小波变换时频记忆递归神经网络包括：自适应小波变换时频记忆递归层、Attention层和全连接层；

如图2所示，自适应小波变换的时频记忆递归层包括时频记忆遗忘部分、细胞更新单元；图2中，

表示sigmoid激活函数，○表示逐元素相乘运算，

表示外积运算；

步骤2.1.1、所述第k条故障数据的第t个时间步长数据x_k,t输入自适应小波变换的时频记忆递归层中，所述时频记忆遗忘部分的功能是决定应丢弃或保留哪些信息，利用式(1)-式(3)进行选择性丢弃处理，得到第k条故障数据的第t个时间步长的时域遗忘门的输出f_k,t ^tim、第k条故障数据的第t个时间步长的频域遗忘门的输出f_k,t ^fre、第k条故障数据的第t个时间步长的状态遗忘门的输出f_k,t ^ste：

表示J维的实数向量，J表示将数据在时域上分解成J维，W_fre和U_fre分别表示第k条故障数据的第t个时间步长数据x_k,t和第t-1个时间步长的故障信息隐藏状态值h_k,t-1在频域上的权重矩阵，b_fre表示频域上的偏差向量，

表示Q维的实数向量，Q表示将数据在频域上分解成Q维，W_ste和U_ste分别表示第k条故障数据的第t个时间步长数据x_k,t和第t-1个时间步长的故障信息隐藏状态值h_k,t-1在状态上的权重矩阵，b_ste表示状态上的偏差向量，

表示D维的实数向量，D表示将数据的状态分解成D维向量，在本实例中将数据在时域上分解成J＝4维，在频域上分解成K＝4维，状态上分解为D＝8维；

式(4)中，

表示外积运算；

步骤2.1.2、所述第k条故障数据的第t个时间步长数据x_k,t和第t-1个时间步长的故障信息隐藏状态值h_k,t-1输入所述细胞更新单元中，所述输入门的功能是输入将要自适应小波变换的故障数据，利用式(5)-式(7)得到第k条故障数据的第t个时间步长的故障输入信息p_k,t和故障调制信息g_k,t；

p_k,t＝sigmoid(W_px_k,t+U_ph_k,t-1+b_p) (5)

g_k,t＝tanh(W_gx_k,t+U_gh_k,t-1+b_g) (6)

式(5)-式(7)中，

步骤2.1.3、所述自适应小波变换单元的功能是根据输入门输入数据，自适应调整小波尺度，输出小波系数更新细胞状态，利用式(8)-式(10)对所述输入门的故障信息输出值

步骤2.1.4、所述输出门的功能是确定当前时间步隐藏状态的值，隐藏状态包含了先前输入的信息，利用(11)得到第k条故障数据的第t个时间步长的内存状态S_k,t：

表示D×J×Q维实数矩阵；本实施例中，S_t∈8×4×4；

式(12)中，Re和Im分别表示取实部和取虚部的函数；

式(13)中，

o_k,t＝sigmoid(W_ox_k,t+U_oh_k,t-1+b_o) (14)

式(14)中，W_o和U_o分别表示输出门对第j条故障数据的第t个时间步长数据x_k,t和第j条故障数据的第t-1个时间步长故障信息隐藏状态值h_k,t-1在输出时的权重矩阵，b_o表示输出门的偏差向量；

步骤2.2、所述Attention层功能是根据每一时间步隐藏状态所包含的故障信息程度，全局把控确定最终故障信息特征向量，利用式(16)得到第k条故障所有时间步的故障信息隐藏状态H_k＝{h_k,1,h_k,2…h_k,t}的特征向量u_k＝{u_k,1,u_k,2…u_k,t}，其中，u_k,t表示第k条故障的第t时间步的特征向量；

u_k,t＝W_uH_k+b_u (16)

式(16)中，W_u和b_u分别表示特征向量的权重矩阵和偏差向量；

式(17)中，

步骤2.3、利用加权平均后的第k条故障特征向量V_k进行故障分类；

步骤2.3.1、所述加权平均后的第k条故障特征向量V_k输入全连接层中，并利用式(19)得到第k条故障数据x_k对应所有故障类型N的概率值P(x_k|N)；

P(x_k|N)＝softmax(W_pV_k+b_p) (19)

步骤2.3.2、利用式(20)构建交叉熵损失函数L_log(y_k,n,P_k,n)：

式(20)中，P_k,n表示第k条故障数据预测为第n个标签的概率；

本实施例中，将早期故障数据集T按照8:2的比例划分为训练集和测试集，Epoch＝1000梯度下降法采用Adam优化算法，利用式(21)计算测试集上模型的精度Accuracy：

式(21)中，Nur_T表示测试集上模型预测正确标签的故障数，Nur表示测试集上故障总数。

Claims

1.一种基于自适应小波和注意力机制的时频记忆神经网络的配电网初期故障识别方法，其特征在于，是按如下步骤进行：

步骤1、构建网络的训练集T_r和测试集T_e；

步骤1.1、采集故障设备的三相电压和三相电流数据，并构建故障数据分类集合，记为F＝{U，I}，其中，U表示三相电压数据集，且U＝{U₁，U₂…U_k…U_K}，U_k表示第k条故障数据的三相电压数据，且U_k＝{u_k，a，u_k，b，u_k，c}，u_k，a表示第k条故障数据的A相电压数据，u_k，b表示第k条故障数据的B相电压数据，u_k，c表示第k条故障数据的C相电压数据；I表示三相电流数据集，且I＝{I₁，I₂…I_k…I_K}，I_k表示第k条故障数据的三相电流数据集，且I_k＝{i_k，a，i_k，b，i_k，c}，i_k，a表示A相电流数据，i_k，b表示B相电流数据，i_k，c表示C相电流数据；1≤k≤K；

步骤1.2、构建故障数据分类集合F的标签信息集合，记为Y＝{y_1，n，y_2，n…y_k，n…y_K，n}，其中，T_k，n表示第k条故障数据的标签值为第n种故障，1≤n≤N，N为故障种类数；

步骤1.3、将带有标签的故障数据集T＝(F，Y)随机打乱顺序后，分为训练集T_r和测试集T_e；且T_r＝{x₁，x₂…x_k…x_K}，x_k表示第k条带有标签的故障数据，且x_k＝{x_k，1，x_k，2…x_k，t…x_k，T}，x_k，t表示第k条故障数据的第t个时间步长数据，1≤t≤T；T表示总时间步长；

步骤2.1.1、所述第k条故障数据的第t个时间步长数据x_k，t输入自适应小波变换的时频记忆递归层中，所述时频记忆遗忘部分利用式(1)-式(3)进行选择性丢弃处理，得到第k条故障数据的第t个时间步长的时域遗忘门的输出f_k，t ^tim、第k条故障数据的第t个时间步长的频域遗忘门的输出f_k，t ^fre、第k条故障数据的第t个时间步长的状态遗忘门的输出f_k，t ^ste：

式(1)-式(3)中，h_k，t-1表示第k条故障数据的第t-1个时间步长的故障信息隐藏状态值；当t＝1时，令隐藏状态值h_k，t-1为零；sigmoid( )表示将变量映射到0和1之间的激活函数；W_tim和U_tim分别表示第k条故障数据的第t个时间步长数据x_k，t和第t-1个时间步长的故障信息隐藏状态值h_k，t-1在时域上的权重矩阵，b_tim表示时域上的偏差向量，

表示J维的实数向量，W_fre和U_fre分别表示第k条故障数据的第t个时间步长数据x_k，t和第t-1个时间步长的故障信息隐藏状态值h_k，t-1在频域上的权重矩阵，b_fre表示频域上的偏差向量，

表示Q维的实数向量，W_ste和U_ste分别表示第k条故障数据的第t个时间步长数据x_k，t和第t-1个时间步长的故障信息隐藏状态值h_k，t-1在状态上的权重矩阵，b_ste表示状态上的偏差向量，

表示D维的实数向量；

所述时频记忆遗忘部分利用式(4)得到第k条故障数据的第t个时间步长的输出集合F_k，t：

式(4)中，

表示外积运算；

步骤2.1.2、所述第k条故障数据的第t个时间步长数据x_k，t和第t-1个时间步长的故障信息隐藏状态值h_k，t-1输入所述细胞更新单元中，所述输入门利用式(5)-式(7)得到第k条故障数据的第t个时间步长的故障输入信息p_k，t和故障调制信息g_k，t；

p_k，t＝sigmoid(W_px_k，t+U_ph_k，t-1+b_p) (5)

g_k，t＝tanh(W_gx_k，t+U_gh_k，t-1+b_g) (6)

式(5)-式(7)中，

为所述输入门第t个时间步长的故障信息输出；W_p和U_p分别表示所述第k条故障数据的第t个时间步长数据x_k，t和第k条故障数据的第t-1个时间步长的故障信息隐藏状态值h_k，t-1的在输入时的权重矩阵，b_p表示输入门的偏差向量；W_g和U_g分别表示所述第k条故障数据的第t个时间步长数据x_k，t和第k条故障数据的第t-1个时间步长的故障信息隐藏状态值h_k，t-1在调制时的权重矩阵，b_g表示调制的偏差向量；

表示逐元素相乘运算；tanh( )表示将小于0的变量变成0，大于0的变量保持不变的激活函数；

进行时频域分解，得到第k条故障数据的第t个时间步长的故障信息输出在第j级时域、第q级频域上的自适应小波系数w_{t，k，j，q}：

步骤2.1.4、所述输出门利用(11)得到第k条故障数据的第t个时间步长的内存状态S_k，t：

式(11)中，S_k，t-1表示第k条故障数据的第t-1个时间步长的内存状态；当t＝1时，令S_k，t-1为零；

表示D×J×Q维实数矩阵；

所述输出门利用式(12)得到第k条故障数据的第t个时间步长的内存状态S_k，t的幅值A_k，t：

式(12)中，Re和Im分别表示取实部和取虚部的函数；

所述输出门利用式(13)得到第k条故障数据的第t个时间步长的细胞状态c_k，t；

式(13)中，

所述输出门利用式(14)对第k条故障数据的第t个时间步长数据x_k，t和第k条故障数据的第t-1个时间步长的故障信息隐藏状态值h_k，t-1进行处理并得到第k条故障数据的第t个时间步长的复合信号o_k，t：

o_k，t＝sigmoid(W_ox_k，t+U_oh_k，t-1+b_o) (14)

式(14)中，W_o和U_o分别表示输出门对第k条故障数据的第t个时间步长数据x_k，t和第k条故障数据的第t-1个时间步长故障信息隐藏状态值h_k，t-1在输出时的权重矩阵，b_o表示输出门的偏差向量；

所述输出门利用式(15)得到第k条故障数据的第t个时间步长的故障信息隐藏状态值h_t，从而得到第k条故障所有时间步的故障信息隐藏状态H_k＝{h_k，1，h_k，2…h_k，t}：

步骤2.2、所述Attention层利用式(16)得到第k条故障所有时间步的故障信息隐藏状态H_k＝{h_k，1，h_k，2…h_k，t}的特征向量u_k＝{u_k，1，u_k，2…u_k，t}，其中，u_k，t表示第k条故障的第t时间步的特征向量；

u_k，t＝W_uH_k+b_u (16)

式(16)中，W_u和b_u分别表示特征向量的权重矩阵和偏差向量；

所述Attention层利用式(17)得到第k条故障的第t个时间步的特征向量u_k，t的标准化权重α_k，t：

式(17)中，

表示第k条故障的第t个时间步的特征向量u_k，t的转置，u_w是随机初始化的总体故障特征向量，并在网络训练过程中共同学习；

步骤2.3、利用加权平均后的故障特征向量V_k进行故障分类；

P(x_k|N)＝softmax(W_pV_k+b_p) (19)

步骤2.3.2、利用式(20)构建交叉熵损失函数L_log(y_k，n，P_k，n)：

式(20)中，P_k，n表示第k条故障数据预测为第n个标签的概率；

步骤2.3.3、基于所述训练集T_r，并利用反向传播和梯度下降法对所述损失函数L_log(y_k，n，P_k，n)进行训练，当训练轮次达到最大训练轮次Epoch时，或损失函数L_log达到最小时，停止训练，从而得到训练好的自适应小波变换时频记忆递归神经网络，用于对所输入的故障数据集合映射对应故障类别标签。