CN116561517A

CN116561517A - 基于奖励优化深度强化学习不平衡智能故障定量诊断方法

Info

Publication number: CN116561517A
Application number: CN202310590618.7A
Authority: CN
Inventors: 何水龙; 崔倩文; 冯焕秦; 胡超凡; 朱良玉
Original assignee: Nanning Guidian Electronic Technology Research Institute Co ltd; Guilin University of Electronic Technology
Current assignee: Nanning Guidian Electronic Technology Research Institute Co ltd; Guilin University of Electronic Technology
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-08-08

Abstract

本发明公开了基于奖励优化深度强化学习不平衡智能故障定量诊断方法，通过同步压缩小波变换(简称SWT)获得多通道时频表示(TFRs)以避免原始振动信号的非平稳性。引入ResNet构建表演者网络，用于提取有代表性的深层故障特征，以提高故障诊断的准确性；同时利用AlexNet构建批评者网络，根据评价机制引导表演者向正确方向训练。该模型基于不平衡比巧妙设计了合理实用的奖励函数，并将各类中心之间的最小距离作为奖励的实时反馈，进一步提高模型的稳健性。优化的状态转移函数提高了少数类的学习频率。通过SQ滚动轴承数据集的验证，ResDPG能够独立自主地实现准确的故障定量识别，具有很高的稳定性。

Description

基于奖励优化深度强化学习不平衡智能故障定量诊断方法

技术领域

本发明属于滚动轴承故障定量诊断领域，具体涉及一种基于奖励优化深度强化学习不平衡智能故障定量诊断方法。

背景技术

准确、及时地识别机械设备运行中的故障，对确保其安全运行、避免经济损失和重大灾难性事故具有重要意义。智能制造的成功发展，带来了大量工业过程数据记录。海量数据给故障诊断领域带来了巨大的机遇和挑战，使得基于灵活、易用、低成本的智能数据驱动的故障诊断越来越受到工程界和学术界的广泛研究。

一般来说，现有的轴承诊断技术研究可以分为两类：定性诊断和定量诊断。机械定性诊断是定量诊断的重要基础，而机械故障的定量诊断是定性诊断的延伸。近年来，滚动轴承故障严重程度的定量分析已经引起了全球学者的广泛关注，国内外已经取得了较多的研究成果，然而上述成果大部分都是基于信号处理和故障机理，通过深度学习模型进行定量诊断目前研究较少。

一般来说，工业数据的分布是偏斜的。通常情况下，它面临的故障数据非常少，尤其是灾难性或突发性的机械故障，这对数据驱动的故障诊断是一个巨大的挑战。近年来，关于不平衡故障诊断的研究受到了学术界的广泛关注，对工业数据处理具有极大的应用价值和意义。为了改善故障诊断领域的数据不足和样本不平衡的问题，目前的研究分为三类：基于数据增强的策略、基于特征学习的策略和基于分类器设计的策略。

采用了基于数据增强的策略，通过生成合成样本、对现有样本进行过采样和对样本进行重新加权来扩展有限的数据集，以提高诊断模型性能。基于特征学习的策略直接从有限的故障数据中学习故障特征，并使用特征自适应或设计正则化神经网络进行故障诊断。基于分类器设计的策略通过设计小规模和不平衡数据的故障分类器对机器的健康状态进行分类，而不需要进行数据扩展或设计特征提取模型。虽然这些解决方案在一定程度上缓解了数据不平衡的问题，但它们也有局限性。在基于数据增强的策略中，当只有少量样本可供训练时，生成的故障样本质量太低，无法准确显示数据的真实分布，这往往导致生成的模型训练困难。由于少量的故障数据所提供的故障信息是有限的，因此基于特征学习的学习模型所提高的诊断性能也是非常有限的。基于分类器设计的策略一般需要手工设计和专家知识，因此很难达到最佳效果。

发明内容

本发明所要解决的技术问题是：提供一种基于奖励优化深度强化学习不平衡智能故障定量诊断方法，解决了现有技术中故障样本和正常样本数量不平衡严重影响了智能故障诊断模型性能的问题。

本发明为解决上述技术问题采用以下技术方案：

基于奖励优化深度强化学习不平衡智能故障定量诊断方法，包括如下步骤：

S1、信号采集与预处理，获得滚动轴承在不同的健康状况下的原始振动数据，并对所述振动数据以无重叠方式进行分割，构建初始训练样本及测试样本；

S2、时频表示生成，将所述初始训练样本以及测试样本进行同步压缩小波变换，获得二维时频表示，并将其进行标准化处理，通过随机删减样本构建不平衡分布的训练集及测试集；

S3、建立基于奖励优化深度强化学习智能定量诊断模型，所述基于奖励优化深度强化学习包括表演者网络、批评者网络、奖励函数以及状态转移函数；表演者网络包括在线表演者网络、目标表演者网络，批评者网络包括在线批评者网络、目标批评者网络，引入ResNet替代原始CNN构建表演者网络，用于提取代表性的深层故障特征；引入AlexNet替代原始CNN构建批评者网络，根据评价机制引导表演者网络进行正确训练；构建基于任务的奖励函数，状态转移函数按照样本类别顺序随机给出状态；

S4、基于训练集构建博弈环境，通过智能体与博弈环境循环交互，获得智能定量诊断模型；

S5、应用测试集对智能故障定量诊断模型进行验证。

所述S3中，所述基于奖励优化深度强化学习智能定量诊断模型包括状态空间S，动作空间A，奖励函数R，其中，t为训练基于奖励优化深度强化学习智能定量诊断模型的时间步长；所述状态空间S表示为所述多通道时频表示所构建的不平衡分布训练集，每个环境状态s_t对应一个训练样本；所述动作空间A对应于滚动轴承健康状态的K种类别，A＝{0,1,2,…K-1}，其中，K表示分类类别数量；所述基于任务优化的奖励函数R为：

其中，ρ为不平衡比，|D_F|代表所有故障样本的数量，|D_N|代表所有正确样本的数量，D_F代表所有的故障样本，D_N代表正常样本，a_t是智能体的预测行动，y_t是状态s_t的真实标签，FB是奖励函数的反馈。

所述奖励函数以各类中心之间最小距离作为实时反馈，采用如下公式计算：

式中，FB代表奖励函数的反馈，d_min是一个维度与分类类别数量相同的向量，包含每个类别的类中心到其余类别的类中心的最短距离，代表第i个故障类别的最小类间距，/>是所有最小类间距中的最大距离。

所述S4包括以下步骤:

S4.1：设置最大自主训练迭代次数Episode，每次自主训练，博弈环境会发起T个诊断请求，每个诊断请求对应一个环境状态s_t；

S4.2：博弈环境随机发起一次诊断请求，当前状态s_t∈S，将s_t输入在线表演者网络，智能体根据动态ε-贪心算法选择当前动作a_t∈A，博弈环境根据基于任务的奖励函数返回智能体一个量化奖励r_t∈R，并随机发起下一次诊断请求，即根据状态转移函数转到下一个状态s_t+1，将上述产生的经验数据e_t＝{s_t,a_t,r_t,s_t+1}以元组形式存储至重放缓冲区；

S4.3：重复执行S4.2，直至此轮T次诊断请求结束，输出此轮迭代获得累计奖励；

S4.4：重放缓冲区存满之后，从重放缓冲区中随机采样分批次经验数据E＝{e₀,e₁,e₂,…,e_n-1}，基于经验数据E，采用梯度下降法对在线表演者网络和在线批评者网络进行更新，采用软更新方式以更新幅度τ对目标表演者网络和目标批评者网络进行更新；

S4.5：开始下一轮自主训练过程，重复执行S4.2至S4.4，直至达到最大自主训练轮次，自主训练过程结束；

S4.6：保存在自主训练过程中每轮诊断请求获得累计奖励高于某一阈值的模型参数，作为智能体所学习到的最优智能定量诊断模型。

所述S4.2包括以下步骤：

S4.2.1：初始化ε＝1，衰减率ε_decay＝0.998，最小值ε_min＝0.02；

S4.2.2：发出预测动作a_t前，智能定量诊断模型随机生成一个[0，1]之间的随机数，若该随机数属于[0，ε]之间，从动作空间A中随机选择一个预测动作a_t；若该随机数属于(ε，1]之间，根据当前表演者网络输出的最大化Q值对应的预测动作为执行动作a_t；

S4.2.3：每次诊断请求结束后，动态迭代更新ε值，如果ε小于ε_min，ε＝ε_min，否则ε＝ε×ε_decay。

所述S1中，样本分割所述原始振动信号构建初始训练样本和测试样本，每个样本长度包含2048个数据点。

为了进一步解决在实际应用中会遇到故障检测的问题，本发明还提供一种不平衡智能故障定量诊断系统，具体的技术方案如下：

不平衡智能故障定量诊断系统，包括数据获取单元、数据传输单元、数据处理单元、显示终端；其中，数据获取单元用于获取原始样本数据集合，通过数据传输单元将原始样本数据发送至数据处理单元；所述数据处理单元应用所述故障定量诊断方法，对接收到的原始样本数据进行处理，获取故障类型、故障程度、故障性质信息；并输出至显示终端。

所述数据获取单元包括设置在滚动轴承上的振动数据采集仪器，所述振动数据采集仪器采集滚动轴承的振动数据并发送至数据处理单元。

所述数据获取单元为故障模拟实验平台，通过模拟实验平台获取滚动轴承的实验振动数据，并发送至数据处理单元。

计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时用于执行所述方法的全部或部分步骤。

与现有技术相比，本发明具有以下有益效果：

1、深度强化学习作为人工智能的前沿方向，充分整合了深度学习的感知能力和强化学习的决策优势，在计算机游戏、控制系统、推荐系统、自动驾驶、通信等方面取得了创新性的突破。

2、该模型基于不平衡比巧妙设计了合理实用的奖励函数，并将各类中心之间的最小距离作为奖励的实时反馈，进一步提高模型的稳健性。

3、引入ResNet构建表演者网络，用于提取有代表性的深层故障特征，以提高故障诊断的准确性；同时利用AlexNet构建批评者网络，根据评价机制引导表演者向正确方向训练。

4、优化的状态转移函数提高了少数类的学习频率。通过SQ(spectral quest，SQ)滚动轴承数据集的验证，ResDPG能够独立自主地实现准确的故障定量识别，具有很高的稳定性。

附图说明

图1为本发明方法的模型框架结构。

图2为本发明方法的故障定量诊断流程图。

图3SQ诊断数据集F1-score的箱线图。

图4所提方法在SQ数据集的归一化混淆矩阵。

图5不平衡工况下SQ数据集输入ResDPG后t-SNE特征可视化结果。

具体实施方式

下面结合附图对本发明的结构及工作过程作进一步说明。

故障样本和正常样本数量不平衡严重影响了智能故障诊断模型性能。为了解决上述问题，我们提出一种基于表演者—批评者结构的改进型深度确定性策略梯度算法(DDPGwith ResNet简称ResDPG)。在ResDPG中，通过同步压缩小波变换(synchrosqueezedwavelet transform，简称SWT)获得多通道时频表示(time-frequency representations，TFRs)以避免原始振动信号的非平稳性。引入ResNet构建表演者网络，用于提取有代表性的深层故障特征，以提高故障诊断的准确性；同时利用AlexNet构建批评者网络，根据评价机制引导表演者向正确方向训练。该模型基于不平衡比巧妙设计了合理实用的奖励函数，并将各类中心之间的最小距离作为奖励的实时反馈，进一步提高模型的稳健性。优化的状态转移函数提高了少数类的学习频率。通过SQ滚动轴承数据集的验证，ResDPG能够独立自主地实现准确的故障定量识别，具有很高的稳定性。

S5、应用测试集对智能故障定量诊断模型进行验证。

具体实施例，如图1至图5所示，

不平衡分布下基于奖励优化深度强化学习智能故障定量诊断方法的流程图，包括如下步骤：

离线训练：

1)数据预处理

为了使分割后的样本符合原始的不平衡数据分布，原始振动信号在无重叠情况下进行分割。为了进一步提高振动信号的平稳性，对原始信号进行同步压缩小波变换以获得高平稳TFRs。然后，对获得的TFRs进行标准化处理，以进一步地提高模型的准确性。通过随机删除一定数量的故障样本来构建不平衡数据集。最后，获得的不平衡数据集被分为训练集、测试集。测试集被用作在线数据集。样本分割所述原始振动信号构建初始训练样本和测试样本，每个样本长度包含2048个数据点。

2)预训练ResDPG。

在预训练阶段，通过基于不平衡训练集的加权交叉熵损失函数确定ResDPG表演者网络的初始超参数，网络的输出是输入样本的预测类别。

3)智能体自主训练。

在自主训练中，初始化模拟环境，将不平衡故障诊断问题并转化为一个序列决策问题。状态是训练集中的所有样本，包括TFRs和样本标签。表演者对训练集中的所有样本类进行诊断。在每一步，表演者与环境互动，通过在不断试错中学习，环境产生一个状态，表演者并根据当前状态和策略产生相对应的行动。批评者根据状态和行动进行评估，引导智能体向正确累计奖励大的方向发展。环境根据行动的正确性给予及时奖励，并根据状态转换函数给出下一个状态。状态转换函数是根据样本顺序进行设计。ResDPG将上述数据存入重放缓冲区，并在重放缓冲区满后随机分批学习数据。这样可以打破数据之间的关联性，使数据满足独立同分布，提高模型的准确性和稳定性。ResDPG通过经验回放进行学习，逐步更新和优化网络参数，并通过软更新来更新目标网络。ResDPG诊断模型经过不断训练，直到网络收敛，然后将最优表演者网络超参数和网络结构保存为最佳诊断策略，用于在线测试。具体包括以下步骤:

所述S4.2包括以下步骤：

强化学习(reinforcement learning，RL)目的是最大限度地正确识别训练样本，并通过最大化累积的折扣奖励R来实现其目标G_t。当智能体代理执行一系列的行动时，折现因子γ以衰减方式累积现在和未来的奖励，以量化每个行动的质量。

其中k表示模型在第k步之后获得预期奖励R，γ决定了未来奖励的重要性。下面的方程表示贝尔曼方程，它表示当前奖励和未来奖励之间的递归关系，同时，状态s_t下的预期奖励可以用公式(2)表示：

V(s)＝E(G_t|s_t＝s)＝E[R_t+1+γR_t+2+γ²R_t+3+…]

＝E[R_t+1+γ(R_t+2+γ²R_t+3+…)]＝E[R_t+1+γV(s_t+1)] (2)

DDPG是一种基于连续状态和连续行动空间的策略梯度算法。智能体根据确定策略μ和状态s_t采取行动a_t，以实现更高的预期收益。因此，如下文所述，Q函数被用来实现上述过程。

在自主训练中，给定状态s_t，智能体代理根据表演者在线网络与探索噪声选择一个确定行动a_t来与环境互动如公式(4)所示：

然后，智能体代理收到环境返回的奖励r_t和下一个状态s_t+1。智能体代理将上述数据以元组形式存储到重放缓冲区。重放缓冲区存满后，代理从重放缓冲区中随机选择小批次数据，然后分别送入表演者网络和批评者网络。智能体代理使用表演者目标网络来计算下一个状态的行动，并将其发送到批评者目标网络，以类似于DQN方式进行更新。使用贝尔曼方程和批评者目标网络计算最佳Q值，表述为公式(5)：

批评者在线网络计算状态和行动的评估值。评估值和最优值之间的损失由梯度下降算法来最小化，可表述为公式(6)，用来更新批评者在线网络。

表演者在线网络的更新是使用确定的政策行动梯度来进行随机梯度上升，其计算结果如公式(7)所示：

在DDPG中，由于神经网络不容易适应动作值函数，所以对两个目标网络采用了软更新方法，以减慢更新速度，提高模型稳定性。目标网络不参与实际行动决策。两个目标网络的参数更新是通过设置更新幅度τ来实现的。

θ^Q′←τθ^Q+(1-τ)θ^Q′ (8)

θ^μ′←τθ^μ+(1-τ)θ^μ′ (9)

3-1)奖励函数设计

在强化学习中，智能体代理与环境的持续互动中学习最佳行为策略，通过最大化累积奖励来实现训练目标。在学习过程中，智能体代理无法从输入信号中分辨出样本学习效果的好坏。这样的机制迫使智能体代理发现故障模式之间的内在差异，这使得诊断模型更加稳健。为了更好地识别少数类的样本，如果代理遇到少数类，代理应该给予更多的关注并获得更大的奖励或惩罚。奖励函数设计如下。

3-1-1)由于在不平衡数据集中很难正确识别少数类，所以设计了基于不平衡比ρ的奖励函数。

式中，|D_F|代表所有故障样本的数量，|D_N|代表所有正确样本的数量。

3-1-2)为了进一步扩大最小类间中心距离，提高分类效果，在分类效果比较明显的基础上，采用t-SNE将提取的高维抽象特征重新缩放到二维空间。各故障类的类中心最小距离用欧氏度量法计算。如果某类的类间中心最小距离较小，说明分类效果不好，因此在下一次迭代中给予负反馈，如公式(11)所示：

所述基于奖励优化深度强化学习智能定量诊断模型包括状态空间S，动作空间A，奖励函数R，其中，t为训练基于奖励优化深度强化学习智能定量诊断模型的时间步长；所述状态空间S表示为所述多通道时频表示所构建的不平衡分布训练集，每个环境状态s_t对应一个训练样本；所述动作空间A对应于滚动轴承健康状态的K种类别，A＝{0,1,2,…K-1}，其中，K表示分类类别数量；所述基于任务优化的奖励函数R的总体设置如下式(12)所示：

式中：D_F代表所有的故障样本，D_N代表正常样本，a_t是智能体代理的预测行动，y_t是状态s_t的真实标签，FB是奖励函数的反馈。

3-2)网络设置

ResDPG由两部分组成：表演者网络和批评者网络。原始模型中，表演者和批评者的初始网络相对简单。为了更好地从不平衡数据中学习深度抽象特征，引入了ResNet-18，它易于训练、优化，并且在构建表演者网络时具有较高的准确性。表演者网络的输入是环境提供的状态，输出是表演者网络根据当前策略选择的行动。为了提高批评者网络的稳定性，我们引入了AlexNet来构建批评者网络。批评者网络的输入是状态和行动，而输出是该状态和行动所对应的Q值。表演者网络和批评者网络的具体设置见表1。

表1表演者网络和批评者网络的基本配置

在线测试：

4)获得在线诊断模型

ResDPG最佳诊断策略被用于在线故障诊断，它与离线故障诊断模型解耦。在不平衡轴承数据上训练的离线故障诊断模型可以被用来识别在线样本的故障类型。

5)在线故障诊断

当一个新样本到来时，在线故障诊断模型可以直接应用于在线诊断任务，以确定新样本的故障类别。

为了进一步说明该方案，下面通过滚动轴承的故障定性定量诊断的仿真实验来进行详细的说明。

实验装置：

为了研究不平衡分布下智能故障定量诊断中的有效性和可行性，本实验选择了SQ(Spectral Quest,SQ)滚动轴承振动数据集。测试平台包括转子系统、交流电机、速度控制器和多个加速度计。数字采集系统安装在驱动器端，以25.6kHz的采样频率采集原始振动信号。实验的轴承类型是NSK 6203。为了模拟滚动轴承的不同失效模式，制作了六个具有不同程度的单点缺陷滚动轴承。测量的振动信号包括两种不同的故障状态：内滚道故障IF(inner raceway failure，IF)和外滚道故障OF(outer raceway failure,OF)，每种故障程度包含三种程度(轻微、中度和严重)。此外，健康的轴承被测试为正常状态。上面的轴承数据被标记为内滚道失效IF-1、IF-2、IF-3、OF-1、OF-2、OF-3和Normal。

二、数据处理与实验设置：

为了提取隐藏的有效抽象特征，原始振动信号经过同步压缩小波变换SWT(synchrosqueezed wavelet transform，SWT)处理，然后经过图像标准化处理，得到形状为224×224×3的时频表示TFRs(time frequency respresentation，TFRs)，与原始信号相比，TFRs携带了更多的潜在故障信息，增强了模型的鲁棒性，将这些TFRs作为提出的智能故障定量诊断模型的博弈环境。滚动轴承的旋转速度越慢，固定长度的样本包含的信息就越少。为了证明该方法的有效性，实验中使用了低速轴承数据，电机转速控制在523rpm。为了符合原始不平衡数据分布，根据原始数据点的数量来划分不平衡率，采用非重叠采样法来划分样本。采集的原始振动信号按2048个数据点进行划分。损坏程度相同的每个类别的样本数为187，7个标签共获得1309个样本。从每个类别中选择50个样本作为测试集，其余的样本作为训练集。

为了验证所提出模型在小样本和不平衡数据情况下的性能，通过随机删除故障样本来构建不平衡的数据集，如表2所示。ResDPG的表演者和批评者的学习率分别设置为0.0001和0.0001，折扣系数设置为0.25，重放缓冲区的容量设置为200。使用了125个循环，以确保模型的良好准确性，同时节省计算资源，因为过度训练会导致模型的过度拟合。

表2SQ不平衡数据集的设置

为了客观地测试所提出ResDPG方法在不平衡分布下定量诊断的优越性，我们进行对比实验。对比策略如下：CLUSTER、ResNet、SMOTE、Focal Loss和DQN。CLUSTER是一种欠采样方法，它通过随机丢弃多数类的样本来获得平衡数据集。SMOTE属于过采样方法，它通过生成少数类样本得到平衡数据集。ResNet采用的是ResNet-18网络结构。Focal loss通过重塑标准交叉熵损失，减少分配给分类良好的类别损失权重来解决类不平衡问题，模型参数为：α＝0.25，γ＝2。DQN采用原始结构，用不平衡率改进奖励函数，DCNN作为其他策略的基分类器。本文选择F1-score作为实验的评价指标，它更能反映出不平衡数据的分类精度。此外，为了保证对模型性能的全面评价，还采用了准确率(accuracy，简称ACC)作为辅助评价指标。为了克服样本太少造成的实验随机性，使实验结果更具说服力，所有实验都重复了10次。训练集通过分层三折交叉验证。

三、实验结果及分析：

为了充分验证ResDPG在不平衡数据下的优越性，进行对比试验。表3显示了所有策略10次独立重复实验的平均值。从表3可以看出，可以发现所有基于策略的方法的诊断性能随着不平衡的加剧而下降，尤其是CLUSTER和ResNet，在不平衡率为1:10时，F1-score分别下降到31.51％和56.75％。可以看出，如果从多数类中删除相对较多的样本，最有价值的信息可能会被删除，数据集的分布也会改变。这导致了故障定量诊断模型的准确性下降，在处理这种高度不平衡的数据时，FocalLoss有部分改善。SMOTE的精度比ResNet有更大的提高，这说明生成的数据可以有效提高诊断模型的精度，但提高的程度有限。DQN在所有比较方法中表现最好，但仍不如所提方法。通过对比实验发现，ResDPG具有良好的故障识别能力和数据适应能力，但它比其他对比方法消耗的时间更多。

表3不同方法在SQ诊断数据集中的诊断表现

如图3所示，箱型图用来对比10次对比实验中F1-score的分布变化。在10次独立重复实验中，提出的ResDPG方法的数据最集中，表现出最好的稳定性能。SMOTE在1:10的情况下有明显的波动，说明生成数据的质量不高，影响了模型的稳定性。ResNet在1:10的情况下有较多的离群值，这说明在样本较少、数据极不均匀的情况下，该算法有明显的波动。

在所有故障数据占总数据的0.09的情况下，各故障类别的分类情况通过混淆矩阵直观地表现出来，如图4所示。实验结果验证了所提方法在预测所有类别的优异表现，所提方法不仅可以识别同一故障类别的不同损伤程度，还可以准确区分不同损伤程度造成的不同故障类别的混淆。这进一步证明了ResDPG在极不平衡的数据情况下进行智能故障定量诊断的优越性。

四、特征可视化：

为了更直观地说明所提出的方法在数据分布极不平衡的情况下(以训练集C为例)具有更有效的特征分类性能，采用了能够捕捉高维数据复杂流动结构的t-SNE技术，将从模型最后一个隐藏层提取的高维特征以降维的方式可视化，如图5所示。如图所示，ResDPG具有清晰的决策边界，没有分类错误，在同一类别中非常紧凑，在不同类别也相对分散。这说明所提出的方法所提取的隐藏特征具有很强的可辨识性，进而证明该方法具有很好的特征提取能力，能够区分不同健康状况的样本。

本领域技术人员应该理解，本领域技术人员在结合现有技术以及上述实施例可以实现变化例，这样的变化例并不影响本方案的实质内容，在此不予赘述。

需要理解的是，本方案并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本方案技术方案范围情况下，都可利用上述揭示的方法和技术内容对本方案技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本方案的实质内容。因此，凡是未脱离本方案技术方案的内容，依据本方案的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本方案技术方案保护的范围。

Claims

1.基于奖励优化深度强化学习不平衡智能故障定量诊断方法，其特征在于：包括如下步骤：

S5、应用测试集对智能故障定量诊断模型进行验证。

2.根据权利要求1所述的基于奖励优化深度强化学习不平衡智能故障定量诊断方法，其特征在于：

3.根据权利要求2所述的基于奖励优化深度强化学习不平衡智能故障定量诊断方法，其特征在于：所述奖励函数以各类中心之间最小距离作为实时反馈，采用如下公式计算：

式中，FB代表奖励函数的反馈，d_min是一个维度与分类类别数量相同的向量，包含每个类别的类中心到其余类别的类中心的最短距离，代表第i个故障类别的最小类间距，是所有最小类间距中的最大距离。

4.根据权利要求1所述的基于奖励优化深度强化学习不平衡智能故障定量诊断方法，其特征在于：所述S4包括以下步骤:

5.根据权利要求4所述的基于奖励优化深度强化学习不平衡智能故障定量诊断方法，其特征在于：所述S4.2包括以下步骤：

6.根据权利要求1所述的基于奖励优化深度强化学习不平衡智能故障定量诊断方法，其特征在于，所述S1中，样本分割所述原始振动信号构建初始训练样本和测试样本，每个样本长度包含2048个数据点。

7.不平衡智能故障定量诊断系统，其特征在于：包括数据获取单元、数据传输单元、数据处理单元、显示终端；其中，数据获取单元用于获取原始样本数据集合，通过数据传输单元将原始样本数据发送至数据处理单元；所述数据处理单元应用权利要求1至6中任一项所述故障定量诊断方法，对接收到的原始样本数据进行处理，获取故障类型、故障程度、故障性质信息；并输出至显示终端。

8.根据权利要求7所述的不平衡智能故障定量诊断系统，其特征在于：所述数据获取单元包括设置在滚动轴承上的振动数据采集仪器，所述振动数据采集仪器采集滚动轴承的振动数据并发送至数据处理单元。

9.根据权利要求7所述的不平衡智能故障定量诊断系统，其特征在于：所述数据获取单元为故障模拟实验平台，通过模拟实验平台获取滚动轴承的实验振动数据，并发送至数据处理单元。

10.计算机存储介质，其特征在于：所述计算机存储介质存储有计算机指令，所述计算机指令被调用时用于执行权利要求1至6中任一项所述方法的全部或部分步骤。