CN113031441B

CN113031441B - 基于强化学习的旋转机械诊断网络自动搜索方法

Info

Publication number: CN113031441B
Application number: CN202110234810.3A
Authority: CN
Inventors: 王艺玮; 周健; 郑联语
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2022-04-08
Anticipated expiration: 2041-03-03
Also published as: CN113031441A

Abstract

本发明公开了一种基于强化学习的旋转机械故障诊断网络自动搜索方法，基于给定的诊断任务控制器根据子模型当前状态对子模型进行设计，接着利用诊断数据训练验证子模型，其验证精度又参与到对控制器的训练。方法执行过程中，子模型和控制器交替训练，最终控制器能针对具体诊断任务搜索出高诊断性能的子模型。在子模型训练过程中，方法设置了权值共享，有着相同权值数量的网络层在不同子模型中可重用，降低训练时间提高了搜索效率；在控制器训练过程中，应用了贪心策略，给予空间让控制器自由探索降低陷入局部最优的概率，应用了经验重放，让控制器交替工作训练避免学习过程中参数的振荡和发散，还应用了迭代更新，使用副控制器来预测下一状态的奖励，降低了回报期望与未来收益的相关性，提高控制器的训练稳定性。以上特点使得本发明方法在针对不同的诊断任务时能够高效地搜索出具有高诊断性能的网络模型，有效解决旋转机械状态诊断问题。

Description

基于强化学习的旋转机械诊断网络自动搜索方法

技术领域

本发明属于旋转机械故障诊断网络结构自动搜索方法技术领域，具体涉及基于强化学习的旋转机械诊断网络自动搜索方法。

背景技术

旋转机械组件如轴承、齿轮、滚珠丝杠等作为传动部件的核心组成部分应用非常广泛，重要性也日益突出。近年来，关于旋转机械健康管理的研究也越来越成熟，特别是旋转机械的故障诊断方法，从开始的经典方法，发展到现在以数据驱动方法为主，就是因为数据驱动的方法特别是深度学习的方法能自动提取数据特征，应用快速便捷，对专业知识要求较低。不过在面对不同的旋转部件对象时需要重新训练，甚至需要重新设计创建神经网络。根据具体问题设计特定的神经网络模型能取得非常高的诊断精度，缺点是网络结构复杂，涉及到很多信号处理及深度学习建模相关的知识，需要高昂的时间和人力成本。

为了解决这个问题，研究者们开始研究神经结构的自动搜索，面对具体的诊断任务可自动设计出高性能的网络模型，摆脱对建模知识的依赖。神经结构搜索的逻辑过程是首先定义搜索空间，然后通过搜索策略找出候选网络结构，对这些候选网络进行评估，再根据反馈进行下一轮搜索，在这个过程中，搜索策略是核心，因此在NAS的发展过程中除了基础的随机搜索策略外，还有基于强化学习的搜索，基于进化算法的搜索和基于梯度的搜索策略。因为强化学习本身的良好发展，基于强化学习的搜索研究相对活跃。麻省理工学者提出MetaQNN，它将网络架构搜索建模成马尔可夫决策过程，使用Q-learning算法逐层决策选取网络层类型和相应参数来产生CNN架构；谷歌学者采用RNN网络作为控制器来采样生成描述网络结构的字符串，然后创建、训练并验证子网络模型，并将验证精度作为标签再训练优化控制器的参数，使之能产生更高准确率的网络结构。神经结构搜索的研究不多，旋转机械的诊断网络自动搜索则更少，西工大作者基于强化学习创建了卷积神经网络结构搜索方法，能根据当前状态设计选择网络层创建子模型，经过验证搜索出的子模型能达到不错的精度。

这些方法需要巨大的搜索空间，因此需要很高的计算成本。谷歌的研究者们又提出了基于块的网络生成方法，通过搜索定制化的块，再按照预定义重复堆叠成子模型而不是直接搜索整个网络结构。这样虽然可以一定程度上提升搜索效率，但是降低了子模型的自由度，影响了模型的性能。

发明内容

针对现有技术方法存在的不足，本发明的目的在于提供一种基于强化学习的旋转机械诊断网络自动搜索方法，该方法解决了针对不同诊断任务重新设计高精度诊断模型依赖建模专业知识、神经结构自动搜索方法消耗大量计算资源的问题。

为实现上述目的，本发明一种基于强化学习的旋转机械诊断网络自动搜索方法，具体包括以下步骤：

S1、定义包含六种网络层的操作空间，设计最大十二层的状态空间；

S2、创建控制器，根据子模型当前拓扑状态做出决策，逐层从操作空间选择网络层搭建子模型，利用给定数据训练验证子模型并保存精度；

S3、根据子模型验证精度得到当前奖励值，将奖励值转化为回报，保存子模型拓扑结构和回报值，强化训练控制器优化其参数；

S4、子模型和控制器交替训练，最终得到能针对具体问题高效搜索出具有良好诊断性能子模型的控制器，解决旋转机械状态诊断问题。

进一步，所述步骤S1中的操作空间有六种网络层供搜索，包括三种卷积网络层、最大池化层、随机失活层和全连接层。

进一步，所述步骤S1中的状态空间即子模型在搜索搭建过程中的结构变化。

进一步，所述步骤S2中的控制器由三层全连接网络层搭建而成。

进一步，所述步骤S2中的子模型拓扑状态即子模型12个网络层的操作类型。

进一步，所述步骤S2中的控制器决策是有限马尔科夫决策过程；

所述有限马尔科夫决策过程表示状态、动作和收益的集合(S,A和R)都只有有限个元素。在这种情况下，随机变量R_t和S_t具有定义明确的离散概率分布，并且只依赖于前继状态和动作，也就是说，给定前继状态和动作的值时，这些随机变量的特定值，s′∈S和r∈R，在t时刻出现的概率是：

其中s′,s∈S,r∈R,以及a∈A(s)。该函数p是有4个参数的确定性函数，定义了MDP的动态特性。

由上式可以推导出表征从状态s到状态s′的状态转移概率函数：

同样地“状态-动作”二元组的期望收益也可以上式推导出，并将其表示为一个双参数函数：

控制器的目标是最大化其收到的总收益，这意味着需要最大化的不是当前利益，而是长期的累积收益，那么目标可以归结为：最大化控制器接收到的收益累积和的概率期望值。因此至关重要的一点就是，设立收益的方式要能真正表明目标，在最简单的情况下，回报是收益的总和，控制器通过选择A_t获得当前时刻的回报，表示如下：

其中，R_t+1表示t+1时刻的收益，t时刻的回报G_t是后续收益的总和，T表示每个episode的终止时刻。在上式的基础上还需要引入一个折扣率的概念，表示如下：

其中0≤γ≤1。

折扣率γ决定了未来收益的现值，未来时刻k的收益值只有它的当前值的γ^k-1倍。极端情况，γ＝0，

表明控制器只关心如何采取行动最大化当前利益R_t+1，一般来说这会减少未来的收益，以至于总收益变少了。随着γ接近1，折后回报将更多考虑未来的收益，控制器变得更有远见。

由上式可得出邻接时刻回报的关系：

接着引入价值函数来评估当前控制器在给定状态下能获得多少未来预期的收益，即回报期望，是状态的函数，完全取决于控制器所选择的动作。因此价值函数是与特定的行为方式相关的，又可称之为策略。严格来说，策略是从状态到每个动作的选择概率之间的映射。如果控制器在时刻t选择了策略π，那么π(a|s)就是当S_t＝s时A_t＝a的概率。我们把策略π下状态s的价值函数记为v_π(s)，即从状态s开始，控制器按照策略π进行决策所获得的回报的概率期望值，对于马尔科夫决策过程，v_π可正式定义为：

上式称为策略π的状态价值函数，式中E_π[·]表示在给定策略π时回报的期望值。

类似于前面回报的递归公式，价值函数满足某种递归关系，对于策略π和状态s，s的价值与其可能的后继状态的价值之间存在以下关系：

其中动作a取自A(s)，下一时刻状态s′取自集合S，收益值r取自集合R。上式即为v_π的贝尔曼方程，表达了状态价值和后继状态价值之间的关系。从一个根节点状态出发，有一系列可能的动作及其产生的后继状态，贝尔曼方程对所有可能性利用其出现概率进行了加权平均，这也说明了起始状态的价值一定等于后继状态价值的折扣期望值加上对应收益的期望值。

进一步，所述步骤S2中的子模型搭建存在规则；

所述搭建规则为每轮搜索开始，控制器逐层进行搜索决策，当该层确定了操作类型后便添加输出层创建子模型。这里有两种情况，1)当搜索到全连接层，会在前面添加一个展平层将三维的中间张量降为二维，那么创建子模型时添加的输出层只需要一层全连接层即可，其神经元数同目标数据集的状态数，激活函数为Softmax；2)当搜索到其它层时，添加的输出层则包含展平层和全连接层。每轮搜索的终止条件为：1)搜索到了Dense；2)模型深度超过了12层。

进一步，所述步骤S2中的控制器输出为决策结果及其对应的回报值；

所述控制器输出如下：

式中π_i表示当前状态s下策略的第i个分量，总共有K个分量。s^FC表示控制器输出层的输入状态，w_i，b_i则表示输出层的参数，Relu为非线性激活函数其值域[0,+∞)。

进一步，所述步骤S2中子模型的训练过程中设置了权值共享；

所述权值共享即相同网络层在不同子模型训练过程中共享权值，网络层的权值数量与自身参数有关，也与输入张量有关。在子模型的训练过程中，对各网络层进行命名，将影响参数数量的因素考虑进去，格式为”类型_参数_激活函数_输入张量维度”。这样，在每次创建完子模型后，按照子模型各网络层的命名检索网络库，将同名网络层的权值参数赋予新创建的子模型，之后继续训练子模型。

进一步，所述步骤S2具体为：

S21、使用三层全连接网络层搭建控制器和副控制器，输出层的激活函数采用Relu；

S22、将子模型当前拓扑状态输入至控制器，预测子模型下一层网络类型及其回报值；

S23、根据预测结果从操作空间选择网络类型搭建新的子模型；

S24、用给定数据训练验证子模型并保存验证精度。

进一步，所述步骤S24具体为：

A1、按照子模型各网络层的命名检索网络库，将同名网络层的权值参数赋予新创建的子模型；

A2、训练验证子模型，并保存验证精度；

A3、对于网络库中已经存在的和子模型同名的网络层，更新其权值参数，对于子模型中新的网络层，将其保存至网络库。

进一步，所述步骤S3中的奖励值由子模型验证精度决定；

所述奖励值通过比较子模型验证精度确定，当验证精度与前一状态相比变大了时奖励值为1，变小了时奖励值为-1。

进一步，所述步骤S3中的回报为当前奖励值与未来回报折扣值的和；

所述未来回报值由副控制器根据保存的子模型拓扑结构预测得到。

进一步，所述副控制器与控制器网络结构相同，其权值定期与控制器权值保持一致，存在一定的周期延迟。

进一步，所述步骤S3具体为：

S31、比较子模型当前与上一状态验证精度，当精度变大时奖励值确定为1，当精度变小时奖励确定为-1；

S32、将保存的子模型拓扑结构输入至副控制器预测未来回报，对未来回报进行折扣处理，当前奖励值与未来回报折扣值相加得到回报值，保存子模型当前拓扑结构和回报；

S33、以子模型拓扑结构为输入，回报值为输出训练控制器，对损失求导优化其参数；

S34、定期更新副控制器参数，保持与控制器相同。

本发明的有益效果为：

本发明提出了基于强化学习的旋转机械故障诊断网络自动搜索方法，在所发明的方法中，利用神经网络搭建控制器基于给定的诊断任务根据子模型当前拓扑对子模型进行设计搭建，接着使用给定数据训练验证子模型，其验证精度又参与到对控制器的训练。在子模型训练过程中，设置了权值共享，有着相同权值数量的网络层在不同子模型中可重用，降低训练时间提高了搜索效率；在控制器训练过程中，应用了贪心策略，给予空间让控制器自由探索降低陷入局部最优的概率，应用了经验重放，让控制器交替工作训练避免学习过程中参数的振荡和发散，还应用了迭代更新，使用副控制器来预测下一状态的奖励，降低了回报期望与未来收益的相关性，提高控制器的训练稳定性。方法执行过程中，子模型和控制器交替训练，最终控制器能针对具体诊断任务搜索出高诊断性能的子模型。以上特点使得本发明方法在面对不同的旋转机械诊断任务时可以自动高效地创建高精度的诊断模型。

附图说明

图1为本发明提供的基于强化学习的旋转机械诊断网络自动搜索方法实现流程；

图2为本发明提供的方法的状态空间；

图3为本发明提供的子模型搭建过程及子模型训练过程中的权值共享；

图4为本发明提供的针对不同诊断任务搜索出的诊断网络；

图5为本发明提供的搜索出的不同诊断网络模型验证结果混淆矩阵；

图6为本发明提供的搜索出的不同诊断网络模型验证结果可视化；

图7为本发明提供的搜索出的不同诊断网络模型设置权值共享效率提升对比；

具体实施方式

如图1所示，本发明一种基于强化学习的旋转机械诊断网络自动搜索方法，包括以下步骤：

上述步骤S1中的操作空间有六种网络层供搜索，包括三种卷积网络层、最大池化层、随机失活层和全连接层，如表1所示。

表1操作空间

上述步骤S1中的状态空间即子模型在搜索搭建过程中的结构变化，如图2所示。

上述步骤S2中的控制器由三层全连接网络层搭建，子模型拓扑状态即子模型12层的操作类型。控制器决策是有限马尔科夫决策过程，表示状态、动作和收益的集合(S,A和R)都只有有限个元素。在这种情况下，随机变量R_t和S_t具有定义明确的离散概率分布，并且只依赖于前继状态和动作，也就是说，给定前继状态和动作的值时，这些随机变量的特定值，s′∈S和r∈R，在t时刻出现的概率如下：

由式(1)可以推导出表征从状态s到状态s′的状态转移概率函数，如下：

同样地“状态-动作”二元组的期望收益也可以式(1)推导出，并将其表示为一个双参数函数，如下：

式中，R_t+1表示t+1时刻的收益，t时刻的回报G_t是后续收益的总和，T表示每个episode的终止时刻。

在式(4)的基础上还需要引入一个折扣率的概念，表示如下：

式中0≤γ≤1。

由式(5)可得出邻接时刻回报的关系：

接着引入价值函数来评估当前控制器在给定状态下能获得多少未来预期的收益，即回报期望，是状态的函数，完全取决于控制器所选择的动作。因此价值函数是与特定的行为方式相关的，又可称之为策略。严格来说，策略是从状态到每个动作的选择概率之间的映射。如果控制器在时刻t选择了策略π，那么π(a|s)就是当S_t＝s时A_t＝a的概率。我们把策略π下状态s的价值函数记为v_π(s)，即从状态s开始，控制器按照策略π进行决策所获得的回报的概率期望值，对于马尔科夫决策过程，v_π可正式定义如下：

式(7)称为策略π的状态价值函数，式中E_π[·]表示在给定策略π时回报的期望值。类似于前面回报的递归公式，价值函数满足某种递归关系，对于策略π和状态s，s的价值与其可能的后继状态的价值之间存在以下关系：

式中动作a取自A(s)，下一时刻状态s′取自集合S，收益值r取自集合R。公式(8)即为v_π的贝尔曼方程，表达了状态价值和后继状态价值之间的关系。从一个根节点状态出发，有一系列可能的动作及其产生的后继状态，贝尔曼方程对所有可能性利用其出现概率进行了加权平均，这也说明了起始状态的价值一定等于后继状态价值的折扣期望值加上对应收益的期望值。

上述步骤S2中搭建子模型的搭建规则为每轮搜索开始，控制器逐层进行搜索决策，当该层确定了操作类型后便添加输出层创建子模型。这里有两种情况，1)当搜索到全连接层，会在前面添加一个展平层将三维的中间张量降为二维，那么创建子模型时添加的输出层只需要一层全连接层即可，其神经元数同目标数据集的状态数，激活函数为Softmax；2)当搜索到其它层时，添加的输出层则包含展平层和全连接层。每轮搜索的终止条件为：1)搜索到了Dense；2)模型深度超过了12层。

上述步骤S2中的控制器输出为决策结果及其对应的回报值，如下：

上述步骤S2中子模型的训练过程中设置了权值共享，相同网络层在不同子模型训练过程中共享权值。网络层的权值数量与自身参数有关，也与输入张量有关。对于决策空间中的卷积层，假设其输入张量为(b,s,d)，其自身核尺寸,卷积核数分别为k,f，那么其权值数量如下：

num_conv＝(k×dim+1)×f (10)

对于全连接层，假设其输入张量为(b,d)，神经元数为n，那么其参数数量如下：

num_dense＝(dim+1)×n (11)

在子模型的训练过程中，对各网络层进行命名，将影响参数数量的因素考虑进去，格式为”类型_参数_激活函数_输入张量维度”。这样，在每次创建完子模型后，按照子模型各网络层的命名检索网络库，将同名网络层的权值参数赋予新创建的子模型，之后继续训练子模型.

上述步骤S2具体为：

S24、用给定数据训练验证子模型并保存验证精度。

上述步骤S24具体为：

A2、训练验证子模型，并保存验证精度；

如图3所示，子模型搜索过程中保存至网络库中的模型即绿色覆盖的网络层，在后续搜索周期中可以共享权值。

上述步骤A2中，子模型训练过程中的损失函数如下：

式中

表示agent在状态s下策略的实际回报，而v_π(s)则是理想策略下的理想回报。

采用Adam优化函数对agent参数θ进行优化，如下：

式中δ为学习率，

表示损失梯度，f_Adam,d()表示Adam函数对损失梯度求取一阶矩、二阶矩的运算。

上述步骤S3中的奖励值由子模型验证精度决定，通过比较子模型验证精度确定，当验证精度与前一状态相比变大了时奖励值为1，变小了时奖励值为-1。

上述步骤S3中的回报为当前奖励值与未来回报折扣值的和，未来回报值由副控制器根据保存的子模型拓扑结构预测得到。副控制器与控制器网络结构相同，其权值定期与控制器权值保持一致，存在一定的周期延迟。

上述步骤S3具体为：

S34、定期更新副控制器参数，保持与控制器相同。

在本发明的实施例中，提供了采用本发明方法自动搜索诊断网络模型完成旋转机械故障诊断任务的实验过程：

1.实验装置：

验证用到了五个不同的轴承数据集，包括CWRU bearing、PHM2009 gearbox、IMSbearing，HOUDE bearing和NANLG screw，其中前三者为公开数据集，后两者为自采数据集。这五组数据集涵盖了旋转组件中的轴承，齿轮和滚珠丝杠，其中NANLG screw是润滑状态数据集。IMS是一个全寿命数据集，在后期几组试验件分别发生了不同的故障，因此将这些故障数据取出来创建了轴承故障数据集，那么这个数据集中试验件的故障与CWRU和HOUDE数据集电火花加工上去不同，是自然运行损耗导致的。另外，CWRU是轴承的单一故障，但是考虑了故障的尺寸，不同尺寸的相同故障也被认为是不同状态；HOUDE数据集中既有单一故障又有复合故障。与其它数据集单一旋转组件的故障不同，PHM2009 gearbox数据集是齿轮箱的复合故障数据集，齿轮箱两级传动，包括轴、齿轮和轴承等多个组件，其复合故障由不同的组件故障组合而成。

NANLG滚珠丝杠润滑状态数据集数采实验在自行设计的滚珠丝杠摩擦力矩测试台上进行，驱动系统驱动螺母沿着螺丝前后移动，分别通过润滑脂润滑滚珠丝杠、润滑油润滑滚珠丝杠以及去除滚珠丝杠润滑油，模拟了滚珠丝杠3种润滑状态。

IMS为滚动轴承全寿命数据集，经过全寿命运行测试后，三个测试轴承分别发生了OF、IF和BF。在验证中使用的故障数据是从采集的数据中分割出来的，包含4种状态。

HOUDE轴承状态数据集采自一个自行开发的轴承故障测试台，采用电火花加工的方式在测试轴承上引入了三种故障状态，即OF、IF和BF。数据采集实验在1500rpm，2000rpm和2500rpm三种转速下进行。数据集包含7种状态。

PHM2009数据挑战赛提供的直齿轮箱混合故障数据集。试验齿轮箱是一种通用的工业齿轮箱，包含3个轴，4个齿轮和6个轴承。齿轮箱的不同状态由齿轮，轴和轴承的组合故障组成，详细描述如下。如表2所示包含8种状态。

表2直齿轮箱故障模式

CWRU轴承公开数据集用电火花加工的方式分别在试验轴承上引入了三种故障状况：外圈故障(OF)、内圈故障(IF)、滚动体故障(BF)，加上正常状态(NC)共四种，在3种转速(1772、1750和1730rpm)下以48kHz的采样频率进行实验采集数据。数据集共有10种不同状态。

2.实验方案

实验设计方案如下：给定上述五个不同的诊断任务，基于给定数据利用本发明提出的网络自动搜索方法分别进行诊断网络模型的训练搜索，在方法执行过程中对比权值共享对搜索效率的提升，最后验证模型的诊断性能。

具体地，从各个数据集中取出状态数据，以(6400,1)大小划分样本，然后将总样本按照4:1比例随机划分为训练数据和测试数据。各数据集包含的状态数、总样本数、训练和测试样本数如表3所示。

表3各数据集状态和样本数量

3.实验输出

针对上述五种旋转机械状态诊断任务，本方明方法搜索出五种不同结构的神经网络模型，如图4所示。其中针对NAHLG滚珠丝杠不同润滑状态诊断任务，方法搜索出的网络拓扑结构为(1,1,1,1,3,3,0)，加上输出为九层结构的网络模型；针对IMS轴承故障诊断任务，方法搜索出的网络拓扑结构为(2,1,3,4,1,0,5)，加上输出也为九层结构的网络模型；针对HOUDE轴承混合故障诊断任务，方法搜索出的网络拓扑结构为(0,0,2,5)，加上输出为六层结构的网络模型；针对PHM直齿轮箱复合故障诊断任务和CWRU轴承故障诊断任务，方法分别搜索出拓扑结构为(3,0,1,1,1,0,2)和(1,3,2,3,0,3,4,0,4,0)的九层和十二层结构的网络模型。

以上五种诊断网络模型，经过测试数据验证都达到了100％的诊断精度。为了更清晰地展示验证结果，用混淆矩阵表示如图5。测试数据随机划分，因此各状态样本数不尽相同。

对应上面的混淆矩阵，利用TSNE降维算法将五种诊断任务的测试结果可视化，如图6所示。图中不同颜色与数字对应，代表不同状态，相同颜色的数字个数则表示该状态下的样本数，如上行第三个图中2和3明显更少，这是因为存在重叠的情况。五个任务的状态数递增，CWRU数据集中状态数最多达10种，因此图中分别由十种不同颜色的0-9数字表示不同状态。五种验证的可视化结果表明，各颜色数字内有着不同程度的聚合，各不同数字间也有着一定的分离度，这进一步证明了100％验证精度的可靠性。

4.性能对比

神经网络的自动搜索方法能摆脱对专业知识的依赖，提高针对具体问题设计创建神经网络的效率，这里对本发明提出方法的搜索效率进行量化。

方法中权值共享被设置用来提升子模型的训练速度，进而提升方法的搜索效率。为了验证权值共享设置的合理性和有效性，针对五个诊断任务，分别利用设置了权值共享和没有设置权值共享的方法进行诊断网络的搜索，如图7所示。可以看到，设置权值共享的方法最终都能搜索到100％诊断精度的子模型，而未设置权值共享的方法则不一定，特别是针对前面提到的三个相对困难的诊断任务CWRU、NANLG Screw和PHM Gearbox最终搜索到的子模型精度没有达到100％。此外，未设置权值共享的方法在相同精度水平下所花的搜索时间更长，如IMS、HOUDE和CWRU诊断任务，未设置权值共享方法的曲线完全在权值共享方法曲线的右下方，但NAHLG和PHM诊断任务中，两者的曲线存在交叉的情况，在部分区间未设置权值共享方法曲线在左上，不过最终还是设置权值共享的方法曲线回到左上。综合来说，权值共享对方法有两点改进，1)提升了搜索效率；2)提升了子模型的诊断精度。

本发明的有益效果为：

本发明提出了基于强化学习的旋转机械故障诊断网络自动搜索方法，在所发明的方法中，利用神经网络搭建控制器基于给定的诊断任务根据子模型当前拓扑对子模型进行设计搭建，接着使用给定数据训练验证子模型，其验证精度又参与到对控制器的训练。在子模型训练过程中，设置了权值共享，有着相同权值数量的网络层在不同子模型中可重用，降低训练时间提高了搜索效率；在控制器训练过程中，应用了贪心策略，给予空间让控制器自由探索降低陷入局部最优的概率，应用了经验重放，让控制器交替工作训练避免学习过程中参数的振荡和发散，还应用了迭代更新，使用副控制器来预测下一状态的奖励，降低了回报期望与未来收益的相关性，提高控制器的训练稳定性。方法执行过程中，子模型和控制器交替训练，最终控制器能针对具体诊断任务搜索出高诊断性能的子模型。以上特点使得本发明方法在针对不同的诊断任务时能够高效地搜索出具有高诊断性能的网络模型，有效解决旋转机械状态诊断问题。

Claims

1.基于强化学习的旋转机械诊断网络自动搜索方法，其特征在于，包括以下步骤：

所述步骤S2中的子模型搭建存在规则；

所述子模型搭建规则为每轮搜索开始，控制器逐层进行搜索决策，当该层确定了操作类型后便添加输出层创建子模型，这里有两种情况，1)当搜索到全连接层，会在前面添加一个展平层将三维的中间张量降为二维，那么创建子模型时添加的输出层只需要一层全连接层即可，其神经元数同目标数据集的状态数，激活函数为Softmax；2)当搜索到其它层时，添加的输出层则包含展平层和全连接层，每轮搜索的终止条件为：1)搜索到了Dense；2)模型深度超过了12层；

所述步骤S2中子模型的训练过程中设置了权值共享；

所述权值共享即相同网络层在不同子模型训练过程中共享权值，网络层的权值数量与自身参数有关，也与输入张量有关，在子模型的训练过程中，对各网络层进行命名，将影响参数数量的因素考虑进去，格式为”类型_参数_激活函数_输入张量维度”，这样，在每次创建完子模型后，按照子模型各网络层的命名检索网络库，将同名网络层的权值参数赋予新创建的子模型，之后继续训练子模型；

所述步骤S2具体为：

S24、用给定数据训练验证子模型并保存验证精度；

2.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法，其特征在于，所述步骤S1中的操作空间有六种网络层供搜索，包括三种卷积网络层、最大池化层、随机失活层和全连接层。

3.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法，其特征在于，所述步骤S1中的状态空间即子模型在搜索搭建过程中的结构变化。

4.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法，其特征在于所述步骤S2中的控制器由三层全连接网络层搭建。

5.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法，其特征在于所述步骤S2中的子模型拓扑状态即子模型12层的操作类型。

6.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法，其特征在于所述步骤S2中的控制器决策是有限马尔科夫决策过程；

所述有限马尔科夫决策过程表示状态的集合S、动作的集合A和收益的集合R都只有有限个元素，在这种情况下，随机变量R_t和S_t具有定义明确的离散概率分布，并且只依赖于前继状态和动作，也就是说，给定前继状态和动作的值时，这些随机变量的特定值，s′∈S和r∈R，在t时刻出现的概率是：

其中s′，s∈S，r∈R，以及a∈A(s)，函数p是由4个参数的确定性函数，定义了MDP的动态特性，

同样地“状态-动作”二元组的期望收益也可由上式推导出，并将其表示为一个双参数函数：

控制器的目标是最大化其收到的总收益，这意味着需要最大化的不是当前利益，而是长期的累积收益，那么目标可以归结为：最大化控制器接收到的收益累积和的概率期望值，因此至关重要的一点就是，设立收益的方式要能真正表明目标，在最简单的情况下，回报是收益的总和，控制器通过选择A_t获得当前时刻的回报，表示如下：

其中，R_t+1表示t+1时刻的收益，t时刻的回报G_t是后续收益的总和，T表示每个episode的终止时刻，在上式的基础上还需要引入一个折扣率的概念，表示如下：

其中0≤γ≤1，

折扣率γ决定了未来收益的现值，未来时刻k的收益值只有它的当前值的γ^k-1倍，极端情况，γ＝0，

表明控制器只关心如何采取行动最大化当前利益R_t+1，一般来说这会减少未来的收益，以至于总收益变少了，随着γ接近1，折后回报将更多考虑未来的收益，控制器变得更有远见，

由上式可得出邻接时刻回报的关系：

接着引入价值函数来评估当前控制器在给定状态下能获得多少未来预期的收益，即回报期望，是状态的函数，完全取决于控制器所选择的动作，因此价值函数是与特定的行为方式相关的，又可称之为策略，严格来说，策略是从状态到每个动作的选择概率之间的映射，如果控制器在时刻t选择了策略π，那么π(a|s)就是当S_t＝s时A_t＝a的概率，我们把策略π下状态s的价值函数记为v_π(s)，即从状态s开始，控制器按照策略π进行决策所获得的回报的概率期望值，对于马尔科夫决策过程，v_π可正式定义为：

上式称为策略π的状态价值函数，式中E_π[·]表示在给定策略π时回报的期望值，

其中动作a取自A(s)，下一时刻状态s′取自集合S，收益值r取自集合R，上式即为v_π的贝尔曼方程，表达了状态价值和后继状态价值之间的关系，从一个根节点状态出发，有一系列可能的动作及其产生的后继状态，贝尔曼方程对所有可能性利用其出现概率进行了加权平均，这也说明了起始状态的价值一定等于后继状态价值的折扣期望值加上对应收益的期望值。

7.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法，其特征在于所述步骤S2中的控制器输出为决策结果及其对应的回报值；

所述控制器输出如下：

式中π_i表示当前状态s下策略的第i个分量，总共有K个分量，s^FC表示控制器输出层的输入状态，w_i，b_i则表示输出层的参数，Relu为非线性激活函数其值域[0，+∞)。

8.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法，其特征在于所述步骤S24具体为：

A2、训练验证子模型，并保存验证精度；

9.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法，其特征在于所述步骤S3中的奖励值由子模型验证精度决定；

10.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法，其特征在于所述步骤S3中的回报为当前奖励值与未来回报折扣值的和；

所述未来回报折扣值由副控制器根据保存的子模型拓扑结构预测得到。

11.如权利要求10所述的基于强化学习的旋转机械诊断网络自动搜索方法，其特征在于所述副控制器与控制器网络结构相同，其权值定期与控制器权值保持一致，存在一定的周期延迟。

12.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法，其特征在于所述步骤S3具体为：

S34、定期更新副控制器参数，保持与控制器相同。