CN109753872A

CN109753872A - 强化学习单元匹配循环神经网络系统及其训练和预测方法

Info

Publication number: CN109753872A
Application number: CN201811399079.4A
Authority: CN
Inventors: 李锋; 陈勇; 田大庆
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-05-14
Anticipated expiration: 2038-11-22
Also published as: CN109753872B

Abstract

本发明涉及一种强化学习单元匹配循环神经网络系统及其训练和预测方法，包括循环神经网络、强化学习单元和单调趋势识别器，循环神经网络包括输入、输出和多个隐层，隐层包括多个隐层节点，单调趋势识别器判断由输入构建的时间序列的趋势状态，强化学习单元为根据输入时间序列的趋势状态，选择一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络。本发明通过判断输入时间序列的趋势状态，用趋势状态和不同隐层层数及隐层节点数分别表示Q值集的状态与动作，根据更新后的Q值集来选择执行最优的动作，增强了RLUMRNN的泛化能力和收敛速度，本发明应用于旋转机械的剩余寿命预测的精度高。

Description

强化学习单元匹配循环神经网络系统及其训练和预测方法

技术领域

本发明涉及神经网络技术领域，尤其涉及一种强化学习单元匹配循环神经网络系统及其训练和预测方法。

背景技术

旋转机械是民用及国防领域的机械设备中应用最广泛的组件之一，在长期运行过程中旋转机械会逐渐退化，剩余寿命会逐步下降，故障的发生往往带来灾难性的事故，造成重大经济损失和严重的社会影响。对于旋转机械而言，经过设计和制造工艺的优化，设备的质量能够得到提高，但在服役过程中仍难以保证不出现故障。同类同型号的旋转机械设备即使在相同的工况下，由于运行环境各异、载荷作用复杂，其寿命数据具有较大的离散性，这给准确预测剩余寿命带来了困难。对于服役一段时间或到达设计寿命的旋转机械，盲目地维修或更换会造成不必要的资源浪费，剩余寿命评估可以为其维修决策的制定提供重要信息。目前工业企业对旋转机械的维护普遍采用视时维护制度，即无论设备是否发生故障，都对其进行定期检修，这样的检修制度虽然计划性强，但是时间和空间占用多，需要储备大量备品备件，消耗大批的资金，容易因检修周期间隔过长或过短造成旋转机械设备的欠维护或过维护。因此，有计划、有针对性地准确预测出旋转机械的剩余寿命,以便在旋转机械发生故障之前采取适当的措施以防止灾难性事故的发生，成为一个十分重要和紧迫的课题。

当前，基于数据驱动的旋转机械剩余寿命预测方法获得越来越多的关注和研究。基于数据驱动的旋转机械剩余寿命预测方法可分为三类：第一类是现代模型预测方法，如粒子滤波(Particle filter，PF)等；第二类是数值分析预测方法，如支持向量回归(Support Vector Regression，SVR)等；第三类是人工智能的预测方法，如神经网络和专家系统等。对于PF，重采样阶段会造成样本有效性和多样性的损失，导致样本贫化现象。由于SVR的核函数类型和核参数依然很难准确设定，导致预测结果也不确定。人工神经网络的隐层层数和节点数的选择没有成熟的理论指导，一般依据经验进行选取，导致模型的预测精度和计算效率不理想。

作为解决序贯决策的机器学习方法，强化学习采取持续的“交互-试错”机制，实现Agent与环境的不断交互，从而学得完成任务的最优策略，契合了人类提升智能的行为决策方式。针对神经网络隐层层数和节点数依据经验选取造成非线性逼近能力和泛化性能不可控的问题，结合强化学习在智能决策方面的优势，在循环神经网络(Recurrent neuralnetwork,RNN)的基础上，提出了强化学习单元匹配循环神经网络。。

发明内容

本发明所要解决的技术问题是提供一种泛化能力强，收敛速度快且能够精准预测旋转机械剩余使用寿命的强化学习单元匹配循环神经网络系统及其训练和预测方法。

为解决上述技术问题，本发明的技术方案是：

一种强化学习单元匹配循环神经网络系统，包括循环神经网络和强化学习单元，所述循环神经网络包括输入、输出和多个隐层，所述隐层包括多个隐层节点，还包括单调趋势识别器，所述单调趋势识别器判断由所述输入构建的时间序列的趋势状态，所述强化学习单元为根据输入时间序列的趋势状态，选择一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络，其中，所述输入时间序列的趋势状态包括多个状态，每个趋势状态对应一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络。

作为优选的技术方案，所述趋势状态包括上升趋势状态、下降趋势状态和平稳趋势状态。

作为优选的技术方案，所述单调趋势识别器将所述输入的时间序列x_t＝[x₁,x₂,…,x_t]^T在时域坐标系中构建出相对应的点坐标(1,x₁),(2,x₂),…,(t,x_t)，并将所述点坐标通过线性拟合，得出所述点坐标的线性拟合直线方程x＝ht+b，并求解出所述线性拟合方程的斜率h和截距b，则：

1)若则为下降趋势状态；

2)若则为上升趋势状态；

3)若λ＜arctan h＜μ，则为平稳趋势状态；

其中，λ是第一阈值，μ是第二阈值，λ＜0且μ＞0。

作为优选的技术方案，所述强化学习单元包括一个与隐层数和隐层节点数相对应的循环神经网络的的动作集、一个与所述趋势状态及其动作所对应的Q值；所述强化学习单元根据所述输入时间序列的趋势状态，从动作集中选择一个动作，再根据所述Q值集，以及所述趋势状态下的最优策略得到所述趋势状态下的动作，通过所述趋势状态下的动作在动作集中所对应的隐层数和隐层节点数，得到所述趋势状态下的时间序列所对应的循环神经网络，并计算出所述循环神经网络的最终输出。

一种强化学习单元匹配循环神经网络系统的训练方法，包括以下步骤：

根据当前时间序列所对应的趋势状态，所述趋势状态下执行的动作以及当前时间序列对应的循环神经网络，并计算出所述循环神经网络的最终输出；

计算最终输出与理想输出的误差，根据所述误差，更新Q值集中所述趋势状态下执行所述动作的Q值；

通过随机梯度下降法对当前时间序列对应的循环神经网络的各隐层的权值进行更新。

一种旋转机械剩余寿命的预测方法，包括以下步骤：对旋转机械的振动数据进行特征提取，获得所述旋转机械的奇异谱熵，并将其作为所述旋转机械的状态退化特征；

将所述奇异谱熵分解成多个训练样本，作为输入时间序列依次输入强化学习匹配循环神经网络系统中，通过单调趋势识别器判断所述输入时间系列的趋势状态，得到与所述趋势状态对应的循环神经网络，并对所述循环神经网络进行多次训练；

将最后一个训练样本通过单调趋势识别器判断其趋势状态，得到其对应的循环神经网络，通过所述循环神经网络得到第一个奇异谱熵预测值，将第一个奇异谱熵预测值与最后一个训练样本中的最后t-1个奇异谱熵值结合构建一个新的训练样本，将该新训练样本输入与其趋势状态对应的循环神经网络中，得到第二个奇异谱熵预测值，以此类推，得到t个奇异谱熵预测值，并将所述t个奇异谱熵预测值构建成第一个预测样本；

将第一个预测样本再通过单调趋势识别器判断其趋势状态后，输入与其趋势状态对应的循环神经网络中，得到第二个预测样本，以此类推得到V个由奇异谱熵预测值构建的预测样本，通过所述预测样本得到所述奇异谱熵预测值的曲线图；

观察所述奇异谱熵预测值的曲线图，所述曲线图中奇异谱熵开始急剧上升的阶段为所述旋转机械进入退化加剧阶段，在曲线图中获取所述退化加剧阶段中第一次出现的明显较高的奇异谱熵波峰，设定所述波峰对应的时间点为旋转机械运行的失效时间点，并根据所述失效时间点计算出所述旋转机械的剩余寿命。

由于采用了上述技术方案，本发明的有益效果是：本发明中，通过单调趋势识别器，来判断输入时间序列的趋势状态(上升，下降，平稳)，用这三种趋势状态和不同隐层层数及隐层节点数分别表示Q值集的状态与动作，Agent根据更新后的Q值集来选择执行最优的动作(即选择隐层层数和隐层节点数与每种序列趋势单元最匹配的循环神经网络)，增强了RLUMRNN的泛化能力，使所提出的预测方法具有较高的预测精度；另外，为了明确强化学习的学习目标(即i-RNN的输出误差E较小)，避免Agent在Q值集更新过程中的盲目搜索动作，通过输出误差计算奖励，避免了Agent的盲目搜索，提高了RLUMRNN的收敛速度，使所提出的预测方法具有较高的计算效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中强化学习单元的模型示意图；

图2是本发明实施例中单隐层循环神经网络模型的示意图；

图3是本发明实施例中强化学习单元匹配循环神经网络系统的模型示意图；

图4是本发明实施例中旋转机械剩余寿命预测方法的流程图；

图5是本发明实施例中旋转机械全寿命奇异谱熵曲线图；

图6是强化学习单元匹配循环神经网络预测的奇异谱熵曲线图；

图7是循环神经网络RNN预测的奇异谱熵曲线图；

图8是多核最小二乘支持向量机MK-LSSVM预测的奇异谱熵曲线图；

图9是遗传-BP网络GA-BP预测的奇异谱熵曲线图；

图10是极限学习机ELM预测的奇异谱熵曲线图；

图11是五种剩余寿命预测方法消耗时间的对比图。

具体实施方式

一种强化学习单元匹配循环神经网络系统，包括循环神经网络和强化学习单元，所述循环神经网络包括输入、输出和多个隐层，所述隐层包括多个隐层节点，还包括单调趋势识别器，单调趋势识别器判断由所述输入构建的时间序列的趋势状态，强化学习单元为根据输入时间序列的趋势状态，选择一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络，其中，输入时间序列的趋势状态包括多个状态，每个趋势状态对应一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络。

本实施例中，所述趋势状态包括上升趋势状态、下降趋势状态和平稳趋势状态。

单调趋势识别器将输入的时间序列x_t＝[x₁,x₂,…,x_t]^T在时域坐标系中构建出相对应的点坐标(1,x₁),(2,x₂),…,(t,x_t)，并将点坐标通过线性拟合，得出点坐标的线性拟合直线方程x＝ht+b，并求解出线性拟合方程的斜率h和截距b，则：

1)若则为下降趋势状态；

2)若则为上升趋势状态；

3)若λ＜arctan h＜μ，则为平稳趋势状态；

其中，λ是第一阈值，μ是第二阈值，λ＜0且μ＞0。

强化学习单元包括一个与隐层数和隐层节点数相对应的循环神经网络的的动作集、一个与趋势状态及其动作所对应的Q值，强化学习单元根据输入时间序列的趋势状态，从动作集中选择一个动作，再根据Q值集，以及趋势状态下的最优策略得到趋势状态下的动作，通过趋势状态下的动作在动作集中所对应的隐层数和隐层节点数，得到趋势状态下的时间序列所对应的循环神经网络，并计算出循环神经网络的最终输出。

根据当前时间序列所对应的趋势状态，趋势状态下执行的动作以及当前时间序列对应的循环神经网络，并计算出循环神经网络的最终输出；

计算最终输出与理想输出的误差，根据所述误差，更新Q值集中趋势状态下执行所述动作的Q值；

本实施例中，强化学习单元匹配循环神经网络系统的具体构建过程如下：

1.强化学习单元模型

如图1所示，强化学习单元是基于Markov决策过程(Markov Decision Process,MDP)的理论框架。在一个标准的强化学习单元模型中，主要有四个要素：动作、奖励、状态、环境。其目标是学习一个行为策略，使得Agent选择的动作最终能够获得环境最大的奖励。

记t时刻的状态为s_t，下一个时刻的状态为s_t+1，t时刻的状态和下一时刻状态下采取的动作分别为a_t和a_t+1。定义折扣累积奖励期望值表达式如下：

式中：γ为折扣因子，0＜γ＜1；π为策略空间；r_t为t时刻状态下采取动作a_t获得的奖励。

在每一次采取动作后，就通过贝尔曼方程对Q值进行迭代更新，其表达式如下：

Q(s_t+1,a_t+1)＝(1-α)Q(s_t,a_t)+α(r(s_t,a_t,s_t+1)+γV(s)) (2)

式中：α为调节系数；r(s_t,a_t,s_t+1)表示从状态s_t选择动作a_t达到状态s_t+1获得的奖励，状态s_t下的价值函数即为表达式：

在s_t状态下的最优策略即获得最大奖励的决策函数(即Agent)表达式如下：

2.循环神经网络模型

循环神经网络通过使用带有自反馈的神经元，能够处理任意长度(存在时间关联性)的序列；与传统的深度前馈神经网络相比，更符合生物神经元的连接方式。

单隐层的循环神经网络结构如图2所示。

设网络的输入为t时刻的输入为x_t，则其隐层状态h_t如下式：

h_t＝σ(Ux_t+Wh_t-1+b) (5)

其中，U为隐层输入权值；W为自反馈权值；b为隐层偏置。根据隐层输出计算网络的最终输出y_t如下式：

y_t＝σ(Vh_t+c) (6)

其中，V为输出层权值；c为输出层偏置。

3.强化学习单元匹配循环神经网络模型

强化学习单元匹配循环神经网络模型，简称为RLUMRNN模型，通过构造单调趋势识别器将时间序列分为三个基本的趋势单元(上升、下降、平稳)，并利用强化学习分别为每一个趋势单元选择一个隐层层数和节点数与其变化规律相适应的循环神经网络。其模型如图3所示。

RLUMRNN模型的详细思路如下：

(1)强化学习单元选择循环神经网络RNN的过程如下：

记时间序列为x_t＝[x₁,x₂,…,x_t]^T；在时域坐标里与x_t相对应的点坐标为(1,x₁),(2,x₂),…,(t,x_t)。首先构造最小二乘线性回归单调趋势识别器，并利用该识别器对点(1,x₁),(2,x₂),…,(t,x_t)进行线性拟合，设拟合的直线方程为：

x＝ht+b (7)

则平方拟合误差为：

为了求出最优的拟合方程，根据微积分求极值思想，则需满足如下条件：

由公式(9)解出线性拟合方程的斜率h和截距b。根据斜率h的取值可判别该时间序列的趋势状态，其具体判据如下：

1)若则为下降趋势状态，记作s₁；

2)若则为上升趋势状态，记作s₂；

3)若λ＜arctan h＜μ，则为平稳趋势状态，记作s₃；

其中，λ＜0且μ＞0。

将这三种趋势状态作为强化学习的环境状态，Agent根据当前的趋势状态，从动作集a里选择执行一个动作，动作集a如表一所示。

表1动作集a

在选择动作的过程中，采用由状态集s与动作集a构成的Q值集代替折扣累积奖励期望值，如表二所示。

表2Q值集

根据Q值集，采用决策函数(即Agent)为每一个状态选择一个对应的动作，决策函数的表达式如下：

其中，i∈1,2,3；a^*(s_i)∈a₁,a₂,…a_d表示在状态s_i下决策函数选择的动作。

得到状态s_i下的动作a^*(s_i)后，再通过a^*(s_i)表示的网络隐层数和节点数对一个多隐层的RNN进行设置，则得到一个与时间序列x_t(即趋势状态s_i)相对应的循环神经网络，记为i-RNN。

(2)计算网络输出过程：

将时间序列x_t＝[x₁,x₂,…,x_t]^T作为i-RNN的输入，若i-RNN隐层为一层，隐层节点为m个，则隐层状态和最终输出分别计算如下：

若i-RNN隐层为两层，隐层节点为m个，则第一隐层状态、第二隐层状态和最终输出分别计算如下：

其中，U¹为输入层权值；W²为自反馈权值；H¹为第一隐层和第二隐层连接权值；V²输出层权值；为简化更新过程，此处将各层的偏置简略。以此类推，若i-RNN隐层为n层，隐层节点为m个，则可计算出各隐层状态和最终输出

4.强化学习单元匹配循环神经网络系统的训练方法

强化学习单元匹配循环神经网络RLUMRNN的训练可分为两个步骤：通过强化学习单元对Q值集进行更新和对每个趋势状态对应的最终i-RNN权值进行更新。

(1)Q值集的更新

采用ε-贪婪策略对Q值集进行迭代更新：设ε＝[ε₁,ε₂,…,ε_P]为一个单调递减数列，且该数列的每个元素ε_ρ∈(0,1)。对Q值集进行P轮更新，并将ε₁,ε₂,…,ε_P分别依次作为每一轮的动作选择参考值(即第ρ轮的动作选择参考值为ε_ρ)。

在第ρ轮中又进行K_ρ次更新，每一次生成一个随机数χ_ρk∈(0,1)，比较χ_ρk与ε_ρ的大小：

若χ_ρk≤ε_ρ，则在状态s_i下随机选择执行动作；

若χ_ρk＞ε_ρ，则在状态s_i下根据式(10)选择执行动作。

然后，根据上文得到对应的i-RNN后，计算出i-RNN的输出

设理想输出为y_t，则输出误差函数如下：

结合输出误差，在状态s_i下，选择执行动作a得到的奖励r计算如下：

式中，e为自然指数。显然r∈(0,1)且与输出误差一范数||Eⁿ||成负相关(即误差越大，得到的奖励值越小)。

再根据得到的奖励和贝尔曼方程更新计算Q值集中在状态s_i下选择执行动作a的Q值：

式中，q(s_i,a)′表示Q值集中q(s_i,a)更新后的值，表示Q值集中在下一个状态s_i′下的最大Q值，而状态s_i′可通过y_t ⁿ输入到趋势状态识别器中进行判断。

(2)最终i-RNN权值的更新

采用随机梯度下降法对权值进行更新，若最终i-RNN隐层为一层，根据式(11-12)及链式求导法则，可分别计算各权值的梯度

和

同理，若最终i-RNN隐层为两层，则根据式(13-15)可分别计算各权值的梯度和

求得梯度后，分别依据如下公式进行更新：

式中W′、U′、V′和H′为更新后的权值，ψ为学习率。以此类推，若最终i-RNN隐层为n层，则可实现n层中各权值的更新。

如图4所示，一种旋转机械剩余寿命的预测方法，包括以下步骤：

对旋转机械的振动数据进行特征提取，获得旋转机械的奇异谱熵，对奇异谱熵进行滑动平均降噪处理，并将处理后的奇异谱熵作为旋转机械的状态退化特征；

将奇异谱熵分解成多个训练样本，作为输入时间序列依次输入强化学习匹配循环神经网络系统中，通过单调趋势识别器判断输入时间系列的趋势状态，得到与趋势状态对应的循环神经网络，并对循环神经网络进行多次训练；

将最后一个训练样本通过单调趋势识别器判断其趋势状态，得到其对应的循环神经网络，通过循环神经网络得到第一个奇异谱熵预测值，将第一个奇异谱熵预测值与最后一个训练样本中的最后t-1个奇异谱熵值结合构建一个新的训练样本，将该新训练样本输入与其趋势状态对应的循环神经网络中，得到第二个奇异谱熵预测值，以此类推，得到t个奇异谱熵预测值，并将所述t个奇异谱熵预测值构建成第一个预测样本；

将第一个预测样本再通过单调趋势识别器判断其趋势状态后，输入与其趋势状态对应的循环神经网络中，得到第二个预测样本，以此类推得到V个由奇异谱熵预测值构建的预测样本，通过预测样本得到奇异谱熵预测值的曲线图；

观察奇异谱熵预测值的曲线图，曲线图中奇异谱熵开始急剧上升的阶段为旋转机械进入退化加剧阶段，在曲线图中获取退化加剧阶段中第一次出现的明显较高的奇异谱熵波峰，设定该波峰对应的时间点为旋转机械运行的失效时间点，并根据失效时间点计算出所述旋转机械的剩余寿命。

具体预测过程如下：

取样一段奇异谱熵序列[x_b,x_b+1,…,x_b+(l+1)t-1]作为训练样本，并对该序列进行分解：

T₁＝[x_b,x_b+1,…,x_b+t-1]→T₁′＝[x_b+t,x_b+t+1,…,x_b+2t-1]

T₂＝[x_b+t,x_b+t+1,…,x_b+2t-1]→T₂′＝[x_b+2t,x_b+2t+1,…,x_b+3t-1]

T_l＝[x_b+(l-1)t,x_b+(l-1)t+1,…,x_b+lt-1]→T_l′＝[x_b+lt,x_b+lt+1,…,x_b+(l+1)t-1]

其中，b为取样起始点；T₁、T₂、…、T_l为训练输入样本；T′₁、T′₂、…、T′_l为训练输入样本对应的期望输出；l为训练样本组数；t为样本维数。

将样本依次输入RLUMRNN中，然后Q值集的更新过程以完成强化学习的训练，即：首先利用单调趋势识别器为l组训练样本判别趋势状态；接下来由强化学习依据最终训练更新好的Q值集选择执行最佳动作，为所判别的趋势状态选择对应的i-RNN(1-RNN、2-RNN、3-RNN)。

此后，采用随机梯度下降法分别对强化学习选择的i-RNN进行M次训练，即：每次训练前从状态s_i的训练样本中随机抽取一组样本(包括作为期望输出的样本)输入对应的i-RNN，再根据1.4节i-RNN的更新法则，完成i-RNN的一次训练；循环重复以上训练过程M次，就完成了i-RNN的M次训练，也即完成了RLUMRNN的完整训练过程。

RLUMRNN的预测过程如下：将训练集最后一组样本[x_b+lt,x_b+lt+1,…,x_b+(l+1)t-1]经由单调趋势识别器识别趋势之后输入到与趋势对应的i-RNN得到第b+(l+1)t点的预测值x′_b+(l+1)t，再将[x_b+lt+1,x_b+lt+2,…,x′_b+(l+1)t]输入到与之前相同的i-RNN得到x′_b+(l+1)t+1，以此类推进行t次预测得到[x′_b+(l+1)t,x′_b+(l+1)t+1,…,x′_b+(l+2)t-1]，记每t次预测为一个预测回合，则上述为第一回合，同第一回合预测过程一样，再将第一回合输出作为第二回合输入进行预测。以此类推，进行V回合预测，则有V×t个预测值，即得到V×t个奇异谱熵预测值之后，构建所预测的奇异谱熵的曲线，观察该曲线何时开始持续急剧上升，即旋转机械何时开始进入退化加剧阶段，并找到退化加剧阶段第一次出现的明显较高的奇异谱熵波峰，该波峰所对应的时间点即设定为轴承失效时间点，由此计算旋转机械剩余寿命：

L＝(Nt-Nt′+1)I (20)

其中，L为轴承剩余寿命；Nt为失效时间点；Nt′为起始预测时间点；I为相邻两时间点的时间间隔。至此，就得到了轴承剩余寿命的预测值。

本发明中提出的强化学习单元匹配神经网络不仅能够应用于旋转机械剩余寿命的预测，还能够应用于多种工作场景或设备运行过程的预测。

下面通过实例分析证明本发明所提出的强化学习匹配循环神经网络的优越性：

采用Cincinnati大学实测的滚动轴承退化数据验证所提出的剩余寿命预测方法。轴承实验台的转轴上安装四个Rexnord公司制造的ZA-2115双列滚子轴承，交流电机通过带传动以2000r/min的恒定转速带动转轴旋转，实验过程中轴承被施加6000lbs的径向载荷。采样频率为20kHz，采样长度为20480个点，每隔10min采集一次轴承的振动数据，轴承持续运行直到不能正常工作。在第一组实验中，实验台持续运行21560分钟后，轴承3出现内圈故障而失效。采用该组实验中采集到的轴承3的完整退化数据验证所提方法。

轴承3全寿命振动数据共计2156组，每组数据的长度为20480个点，分别从每一组数据中提取前10000个数据点进行矩阵重组得到维数1000×10的矩阵并计算奇异谱熵，对奇异谱熵序列进行滑动平均降噪处理得到降噪后的奇异谱熵序列，如图5所示从起始点至第200点奇异谱熵快速攀升，轴承处于跑合阶段；从第200点至1700点奇异谱熵变化速率缓慢，轴承处于稳定阶段；第1700点之后奇异谱熵开始持续急剧上升，轴承处于退化加剧阶段，并且在退化加剧阶段奇异谱熵第一次出现波峰时(即第1902点)轴承失效，因此，将此时作为实际失效时间点。由于轴承失效是故障逐渐恶化造成，所以在稳定阶段后期，轴承就处于故障产生初期。这里取轴承稳定阶段后期的第1301点至第1500点(共200个点)作为训练样本；RLUMRNN预测过程来预测最后656个点(即第1501点至2156点)的奇异谱熵，并观测预测的奇异谱熵何时达到失效时间点，由此来估计轴承的剩余寿命。

RLUMRNN各参数设置如下：单调趋势识别器临界值λ＝-7×10^-6，μ＝7×10^-6；强化学习过程训练轮数P＝5、动作选择参考值ε＝[0.9,0.7,0.5,0.3,0.1]以及每轮训练次数K_ρ＝100ε_ρ；动作集为可选隐层数[1,2,3]和可选隐层节点数3至10两两组合一共24种动作的集合；Q值集中各Q值初始数据为[0,1]的随机值；Q值更新折扣因子γ＝0.1，Q值更新调节系数α＝0.1；i-RNN学习率ψ＝0.001及训练次数M＝2000；训练样本组数l＝49；预测回合数V＝164及每回合预测次数(即样本维数，也即输入节点数)t＝4；输出节点数为1。预测的奇异谱熵如图6所示。从图中可知RLUMRNN预测的第1949点的奇异谱熵为第一个波峰，该点即为失效时间点，所以其预测的轴承剩余寿命为：

(Nt-Nt′+1)I＝(1949-1501+1)×10＝4490(分钟)，

而实际的轴承剩余寿命为：

(Nt-Nt′+1)I＝(1902-1501+1)×10＝4020(分钟)。

为验证提出的基于RLUMRNN的剩余寿命预测方法的优势，首先，分别用RNN、多核最小二乘支持向量机(Multiple kernel least squares support vector machines，MK-LSSVM)、遗传-BP网络(Genetic algorithm BP neural network，GA-BP)和极限学习机(Extreme Learning Machine，ELM)这四种模型的预测精度与所提方法进行比较。这四种模型的训练次数与RLUMRNN的总训练次数相同；RNN隐层数设为1层，隐层节点数设为8；GA-BP的隐层数设为3，隐层节点数设为8；RNN和GA-BP学习率都取ψ＝0.001；ELM隐层节点数设为10，激活函数采用sigmoid函数。四种模型预测的奇异谱熵如图7至图10所示，此次实验中MK-LSSVM和ELM预测的轴承剩余寿命分别为：5060分钟、5090分钟。而RNN和GA-BP在预测了656个点的奇异谱熵后依然没有出现波峰位置，即始终没有出现失效时间点，所以RNN和GA-BP预测的轴承剩余寿命分别至少为6560分钟。

为更好地评估模型预测效果，在RLUMRNN、RNN、MK-LSSVM、GA-BP和ELM参数设置保持不变的条件下，用这五种预测模型反复进行100次预测，并将这100次预测实验后的预测剩余寿命的方差(SD)、平均绝对误差(MAE)和均方根误差(RMSE)作为预测精度评价指标，即：

其中，N为实验次数；L_i′为每次预测的剩余寿命；L为实际的剩余寿命。对比结果如表3所示。

表3五种剩余寿命预测方法的预测效果对比

预测模型	SD	MAE	RMSE
				RLUMRNN	10.763	429.44	20.876
RNN	21.392	2122.96	47.021
				MK-LSSVM	14.256	791.27	28.182
GA-BP	13.886	984.31	31.798
				ELM	17.397	1746.53	41.018

结果表明：RLUMRNN的SD、MAE和RMSE都最小，说明RLUMRNN具有良好的非线性逼近能力和泛化性能，将其用于双列滚子轴承的剩余寿命预测，相较于RNN、MK-LSSVM、GA-BP和ELM可得到更高的预测精度。

最后，再用RNN、MK-LSSVM、GA-BP和ELM进行剩余寿命预测所耗用的计算时间(即训练时间与预测时间之和)与RLUMRNN所耗用的计算时间进行对比，结果如图11所示。RLUMRNN消耗的时间仅为10.739s，RNN消耗的时间为8.616s，MK-LSSVM消耗的时间为28.855s，GA-BP消耗的时间为33.514s，ELM消耗的时间为15.971s。显然，RLUMRNN的计算时间比MK-LSSVM、GA-BP、ELM都要短，仅比RNN稍长。以上比较结果表明：将RLUMRNN用于双列滚子轴承的剩余寿命预测，比MK-LSSVM、GA-BP和ELM具有更高的收敛速度和计算效率。

以上显示和描述了本发明的基本原理、主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种强化学习单元匹配循环神经网络系统，包括循环神经网络和强化学习单元，所述循环神经网络包括输入、输出和多个隐层，所述隐层包括多个隐层节点，其特征在于：还包括单调趋势识别器，所述单调趋势识别器判断由所述输入构建的时间序列的趋势状态，所述强化学习单元为根据输入时间序列的趋势状态，选择一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络，其中，所述输入时间序列的趋势状态包括多个状态，每个趋势状态对应一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络。

2.如权利要求1所述的一种强化学习单元匹配循环神经网络系统，其特征在于：所述趋势状态包括上升趋势状态、下降趋势状态和平稳趋势状态。

3.如权利要求2所述的一种强化学习单元匹配循环神经网络系统，其特征在于：所述单调趋势识别器将所述输入的时间序列x_t＝[x₁,x₂,…,x_t]^T在时域坐标系中构建出相对应的点坐标(1,x₁),(2,x₂),…,(t,x_t)，并将所述点坐标通过线性拟合，得出所述点坐标的线性拟合直线方程x＝ht+b，并求解出所述线性拟合方程的斜率h和截距b，则：

1)若则为下降趋势状态；

2)若则为上升趋势状态；

3)若λ＜arctanh＜μ，则为平稳趋势状态；

其中，λ是第一阈值，μ是第二阈值，λ＜0且μ＞0。

4.如权利要求1所述的一种强化学习单元匹配循环神经网络系统，其特征在于：所述强化学习单元包括一个与隐层数和隐层节点数相对应的循环神经网络的的动作集、一个与所述趋势状态及其动作所对应的Q值集；所述强化学习单元根据所述输入时间序列的趋势状态，从动作集中选择一个动作，再根据所述Q值集，以及所述趋势状态下的最优策略得到所述趋势状态下的动作，通过所述趋势状态下的动作在动作集中所对应的隐层数和隐层节点数，得到所述趋势状态下的时间序列所对应的循环神经网络，并计算出所述循环神经网络的最终输出。

5.一种强化学习单元匹配循环神经网络系统的训练方法，其特征在于，包括以下步骤：

6.一种应用如权利要求1至5任一项所述的强化学习单元匹配循环神经网络系统及其训练方法的旋转机械剩余寿命的预测方法，其特征在于，包括以下步骤：

对旋转机械的振动数据进行特征提取，获得所述旋转机械的奇异谱熵，并将其作为所述旋转机械的状态退化特征；