CN117078236B

CN117078236B - 复杂装备智能维护方法、装置、电子设备及存储介质

Info

Publication number: CN117078236B
Application number: CN202311346391.8A
Authority: CN
Inventors: 邓耀华; 唐佳敏
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-02-02
Anticipated expiration: 2043-10-18
Also published as: CN117078236A

Abstract

本发明公开了一种复杂装备智能维护方法、装置、电子设备及存储介质，用于解决现有的复杂装备维护方法不够智能、适用性以及泛化性受限等问题。所述方法应用于基于多尺度残差Q网络的智能维护系统，所述智能维护系统包括决策环境、决策智能体，所述方法包括：获取待测复杂装备的全生命周期数据；将全生命周期数据输入至决策环境先进行标签化处理，再随机打乱，输出待测环境状态至决策智能体，决策智能体对应最优维护策略；根据最优维护策略，结合决策智能体以及决策环境对待测环境状态进行多尺度残差特征提取处理，输出待测环境状态对应的最优维护动作，最优维护动作用于对待测复杂装备进行维护。

Description

复杂装备智能维护方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种复杂装备智能维护方法、装置、电子设备及存储介质。

背景技术

随着科学技术的快速发展，现代社会的不断推进越来越离不开各类复杂装备，其中，复杂装备是指装备组成关系复杂、行为复杂、系统的子系统间以及系统与其环境之间交互关系复杂和能量交换复杂的装备，在实际应用中，一旦发生装备失效情况，轻则影响生产效率，重则很有可能导致人员伤亡，因此，在复杂装备的使用过程中，合理安排装备全寿命阶段的维护策略，提高装备的可靠性非常有必要。

对于复杂装备的维护策略，现有的维修方式主要以预防性的定期维修为主，即按照设备的使用寿命、时间或固定周期制定维修计划，但实际上，复杂设备的故障和寿命与时间并不一定直接相关，因此，采用定期维修方式可能会出现维修不足或维修过剩情况，同时极有可能出现难以预防的与时间无关的故障等问题，而随着基于环境状态的视情维修发展，人们亟需一种智能化的维修决策工具。

人工神经网络，特别是基于深度学习的方法，被广泛应用于装备的智能维护。虽然这些方法在一定程度上可以解决装备智能维护问题，但上述方法在装备智能维护中的应用仍存在两个不足之处：第一，无法直接建立原始数据与维护决策之间的映射；第二，神经网络参数的优化需要大量人工修改以及专家经验，限制了方法的适用性以及泛化性。

发明内容

本发明提供了一种复杂装备智能维护方法、装置、电子设备及存储介质，用于解决或部分解决现有的复杂装备维护方法不够智能、适用性以及泛化性受限等技术问题。

本发明提供的一种复杂装备智能维护方法，应用于基于多尺度残差Q网络的智能维护系统，所述智能维护系统包括决策环境、决策智能体，所述方法包括：

获取待测复杂装备的全生命周期数据；

将所述全生命周期数据输入至所述决策环境先进行标签化处理，再随机打乱，输出待测环境状态至所述决策智能体，所述决策智能体对应最优维护策略；

根据所述最优维护策略，结合所述决策智能体以及所述决策环境对所述待测环境状态进行多尺度残差特征提取处理，输出所述待测环境状态对应的最优维护动作，所述最优维护动作用于对所述待测复杂装备进行维护。

可选地，所述将所述全生命周期数据输入至所述决策环境先进行标签化处理，再随机打乱，输出待测环境状态至所述决策智能体，包括：

将所述全生命周期数据输入至所述决策环境，通过标签化处理提取所述全生命周期数据的环境状态数据，再对所述环境状态数据进行随机打乱处理，获得初始环境状态；

按时间先后顺序排列所述初始环境状态，获得待测环境状态，并输出所述待测环境状态至所述决策智能体。

可选地，所述决策智能体包括基于多尺度残差Q网络的评估网络模型以及目标网络模型，所述待测环境状态包括当前环境状态以及下一时刻环境状态，所述最优维护策略表征带有模型参数的决策智能体，所述根据所述最优维护策略，结合所述决策智能体以及所述决策环境对所述待测环境状态进行多尺度残差特征提取处理，输出所述待测环境状态对应的最优维护动作，包括：

步骤S01：将所述当前环境状态输入至所述评估网络模型进行多层次残差特征提取，输出评估状态函数，所述评估状态函数对应当前预测维护动作；

步骤S02：将所述下一时刻环境状态输入至所述目标网络模型进行多层次残差特征提取，输出目标状态函数，所述评估状态函数对应下一时刻预测维护动作；

步骤S03：根据所述最优维护策略，列出所述决策环境执行所述当前预测维护动作的执行概率，通过所述决策环境结合所述执行概率以及预设奖励策略计算环境评估奖励，并将所述环境评估奖励反馈回所述决策智能体；

步骤S04：列出所述评估状态函数对应的带参评估状态函数，所述带参评估状态函数对应第一网络参数；

步骤S05：列出所述目标状态函数对应的带参目标状态函数，所述带参目标状态函数对应第二网络参数；

步骤S06：根据所述带参评估状态函数、所述带参目标状态函数以及所述环境评估奖励，列出状态损失函数；

步骤S07：根据所述状态损失函数对所述第一网络参数进行随机梯度下降求解，并根据求解结果对所述第一网络参数进行参数更新，根据异步更新策略，采用更新后的第一网络参数对所述第二网络参数进行参数更新；

步骤S08：基于对第一网络参数以及第二网络参数的更新，更新所述最优维护策略对应的模型参数；

步骤S09：重复执行步骤S03至S08，直至所述决策环境与所述决策智能体之间达到最大交互步数，使得更新后的模型参数达到最优解，通过所述决策智能体输出最优维护动作。

可选地，所述多尺度残差Q网络包括多尺度残差网络，所述多尺度残差网络包括级联多尺度残差块，多层次特征融合模块以及全连接层，则在所述评估网络模型或所述目标网络模型中进行多层次残差特征提取的处理步骤，包括：

对所述多尺度残差网络的输入特征进行特征提取，获得浅层特征，并将所述浅层特征输入至所述级联多尺度残差块进行深层特征提取，获得多个不同层次的深层特征；

通过所述多层次特征融合模块对所述多个不同层次的深层特征进行自适应特征提取融合，输出多层次融合特征；

采用长跳跃特征融合方式将所述浅层特征与所述多层次融合特征进行特征融合，输出融合特征图；

将所述融合特征图输入至所述全连接层进行全连接操作，获得每类维护动作的状态函数。

可选地，所述级联多尺度残差块包括若干个以串联方式连接的多尺度残差块，所述将所述浅层特征输入至所述级联多尺度残差块进行深层特征提取，获得多个不同层次的深层特征，包括：

步骤S11：将所述浅层特征输入至第一多尺度残差块，先对所述浅层特征进行并行尺度卷积处理，输出第一多尺度融合特征，接着采用所述浅层特征对所述第一多尺度融合特征进行残差学习，获得所述第一多尺度残差块对应的第一深层特征；

步骤S12：将所述第一深层特征输入至第二多尺度残差块，先对所述第一深层特征进行并行尺度卷积处理，输出第二多尺度融合特征，接着采用所述第一深层特征对所述第二多尺度融合特征进行残差学习，获得所述第二多尺度残差块对应的第二深层特征；

步骤S13：重复执行步骤S12，直至最后一个多尺度残差块完成特征提取流程，输出每个多尺度残差块对应的深层特征。

可选地，所述级联多尺度残差块中的每一多尺度残差块均包括一个1×1卷积层，与所述1×1卷积层并行连接的第一支路卷积块以及第二支路卷积块，与所述第一支路卷积块以及所述第二支路卷积块并行连接的特征堆叠降维块，则在每一所述多尺度残差块进行并行尺度卷积处理的步骤，包括：

对输入至所述1×1卷积层的待处理特征进行降维处理，获得输入降维特征；

将所述输入降维特征分别输入至所述第一支路卷积块以及所述第二支路卷积块进行卷积处理，获得所述第一支路卷积块对应的第一支路输出特征，以及所述第二支路卷积块对应的第二支路输出特征；

通过所述特征堆叠降维块对所述第一支路输出特征以及所述第二支路输出特征进行特征堆叠以及降维处理，输出所述多尺度残差块对应的多尺度融合特征。

可选地，所述方法还包括：

获取复杂装备的历史检测数据集，并在对所述历史检测数据集进行数据预处理之后进行数据划分，获得维护训练集以及维护测试集；

搭建决策环境，并定义所述决策环境的环境相关变量，所述环境相关变量包括环境状态集、维护动作集、奖励策略以及状态转移概率，其中，所述环境状态集包含决策环境的所有状态，所述维护动作集包含决策智能体可执行的所有维护动作，所述奖励策略用于当决策智能体根据当前环境状态输出当前预测维护动作后决策环境给予的奖励反馈，所述状态转移概率表示在输出当前环境状态对应的当前预测维护动作之后，依据所述环境状态集中的顺序转至下一时刻环境状态；

构建两个包含级联多尺度残差块的多尺度残差网络，同时结合深度Q网络构建对应的多尺度残差Q网络，将其中一个多尺度残差Q网络作为评估网络模型，将另一个多尺度残差Q网络作为目标网络模型；

结合所述评估网络模型以及所述目标网络模型，构建基于多尺度残差Q网络的决策智能体；

基于所述决策环境以及所述决策智能体，构建基于多尺度残差Q网络的智能维护系统；

将所述维护训练集输入至所述智能维护系统，以对所述决策环境以及所述决策智能体进行交互试错训练，在训练过程中不断更新所述决策智能体的模型参数，并在训练结束后保存所述决策智能体的最优维护策略；

采用所述维护测试集对训练后的决策智能体进行测试，并基于测试结果对智能维护系统进行模型评价。

本发明还提供了一种复杂装备智能维护装置，应用于基于多尺度残差Q网络的智能维护系统，所述智能维护系统包括决策环境、决策智能体，所述装置包括：

全生命周期数据获取模块，用于获取待测复杂装备的全生命周期数据；

标签化处理模块，用于将所述全生命周期数据输入至所述决策环境先进行标签化处理，再随机打乱，输出待测环境状态至所述决策智能体，所述决策智能体对应最优维护策略；

最优维护动作输出模块，用于根据所述最优维护策略，结合所述决策智能体以及所述决策环境对所述待测环境状态进行多尺度残差特征提取处理，输出所述待测环境状态对应的最优维护动作，所述最优维护动作用于对所述待测复杂装备进行维护。

本发明还提供了一种电子设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如上任一项所述的复杂装备智能维护方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如上任一项所述的复杂装备智能维护方法。

从以上技术方案可以看出，本发明具有以下优点：提供了一种适用于智能维护系统的多尺度残差Q网络学习算法，在该算法中，通过多尺度残差并行网络对环境状态的特征进行多尺度提取，并将其作为深度Q网络模型的动作值函数，输出维护动作的Q值估计，通过基于多尺度残差Q网络的决策智能体与决策环境之间的不断交互试错，并依据决策环境反馈的奖励，能够实现最佳决策策略的自主学习，从而完成对复杂装备的全生命周期智能维护。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种复杂装备智能维护系统的总体结构示意图；

图2为本发明实施例提供的一种多尺度残差Q网络的结构示意图；

图3为本发明实施例提供的一种多尺度残差块的结构示意图；

图4为本发明实施例提供的一种基于多尺度残差Q网络的决策智能体的构建原理示意图；

图5为本发明实施例提供的一种复杂装备智能维护方法的步骤流程图；

图6为本发明实施例提供的一种复杂装备智能维护系统的构建训练整体流程示意图；

图7为本发明实施例提供的一种复杂装备智能维护装置的结构框图。

具体实施方式

本发明实施例提供了一种复杂装备智能维护方法、装置、电子设备及存储介质，用于解决或部分解决现有的复杂装备维护方法不够智能、适用性以及泛化性受限等技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

作为一种示例，对于复杂装备的维护策略，现有的维修方式主要以预防性的定期维修为主，即按照设备的使用寿命、时间或固定周期制定维修计划，但实际上，复杂设备的故障和寿命与时间并不一定直接相关，因此，采用定期维修方式可能会出现维修不足或维修过剩情况，同时极有可能出现难以预防的与时间无关的故障等问题，而随着基于环境状态的视情维修发展，人们亟需一种智能化的维修决策工具。

近年来，作为人工智能领域研究的显著突破，深度强化学习为上述缺点提供了启示以及方向，深度强化学习在复杂装备智能维护方面的应用受到越来越多的关注，利用深度强化学习构建端到端的智能决策模型，能够使复杂设备的可用性以及性能达到最大化，并使复杂设备的维护成本以及停机时间达到最小化。

因此，本发明实施例的核心发明点之一在于：首先，提供一种基于多尺度残差Q网络的复杂装备智能维护系统，通过该智能维护系统，可以根据复杂装备的正常运行以及故障状态数据，利用多尺度残差Q网络最大限度地提取装备状态特征信息，并能快速、准确地输出装备维护操作指令，缩短复杂装备的停机时间并提高装备的可靠性以及生产效率；其次，提供一种适用于智能维护系统的多尺度残差Q网络学习算法，在该算法中，通过多尺度残差并行网络对环境状态的特征进行多尺度提取，并将其作为深度Q网络模型的动作值函数，输出维护动作的Q值估计，通过基于多尺度残差Q网络的决策智能体与决策环境之间的不断交互试错，并依据决策环境反馈的奖励，能够实现最佳决策策略的自主学习，从而完成对复杂装备的全生命周期智能维护。

在本发明实施例中，主要结合深度学习算法的自动特征提取以及强化学习算法的交互学习的优点，提出一种多尺度残差网络与深度Q网络相结合的深度强化学习算法，而为了将该多尺度残差Q网络算法应用到复杂装备的智能维护中，同步还搭建了一种基于多尺度残差Q网络的复杂装备智能维护系统，下面将结合智能维护系统以及多尺度残差Q网络算法作进一步详细说明。

参照图1，示出了本发明实施例提供的一种复杂装备智能维护系统的总体结构示意图。

结合图1，本发明实施例所提供的复杂装备智能维护系统的总体设计构思大致可以分为三个部分，分别为：数据获取与处理、模型自主学习阶段以及模型测试阶段。

首先针对数据获取与处理部分，可以获取复杂装备的历史检测数据集，并在对历史检测数据集进行数据预处理之后进行数据划分，获得维护训练集以及维护测试集，具体地，可以通过复杂装备实验台获取原始振动信号，并在进行数据归一化、标签化等数据预处理过程之后，获得全生命周期数据集，并将标签化的全生命周期数据集划分为训练集以及测试集。

接着可以设计一个决策诊断模拟环境（以下简称为决策环境），将标签化的训练集数据输入至决策环境中，随机打乱之后获得包含n个时刻的环境状态集S，同时可以对环境状态集S进行顺序排列，获得。

在相关技术中，环境状态指的是环境结构及其运动变化的外在表现形态，环境状态因环境所处位置及时间不同而不同，可以看作是时间与空间位置的函数。环境状态所表现的环境结构及其宏观特性可以用环境状态参数（即环境参数）进行刻画，虽然环境系统内部的物质以及能量处于不断运动变化状态，但在有限时段内，其显示出来的宏观特性是不变的，因此环境状态参数在这个时段内保持常值，意味着环境状态是稳定的，否则是不稳定的。

在具体的实现中，可以搭建决策环境，并定义决策环境的环境相关变量，环境相关变量包括环境状态集、维护动作集、奖励策略以及状态转移概率，其中，环境状态集包含决策环境的所有状态，维护动作集包含决策智能体可执行的所有维护动作，奖励策略用于当决策智能体根据当前环境状态输出当前预测维护动作后决策环境给予的奖励反馈，状态转移概率表示在输出当前环境状态对应的当前预测维护动作之后，依据环境状态集中的顺序转至下一时刻环境状态。

结合图1，本发明实施例所搭建的决策环境平台主要由元素构成，其中，S表示环境状态集，A表示维护动作集，R表示奖励策略，P表示状态转移概率。

示例性地，假设复杂装备全生命周期训练数据集为，其中，表示复杂装备全生命周期的第i个样本，则是样本所对应的装备退化阶段标签，每一类标签都对应着不同的维护动作，n为样本总量。

进一步地，决策环境中的上述相关变量具体定义如下：

环境状态集S：包含决策环境所有的状态，以表示，每个环境状态s取决于中测试集样本x，例如：步长的状态对应于样本。

维护动作集A：决策智能体可执行的所有维护动作，表示为，其中Ｋ为中标签的类别数，中的每一类标签都对应着不同的维护动作，动作是智能体在接受当前环境给予的环境状态时，判别输出的拥有最大Q值的维护动作。

奖励策略R：也可以称为奖励函数R，奖励是对应当前环境状态，决策智能体输出维护动作后决策环境给予的反馈，即。决策智能体输出维护动作的类别与标签类别一致时，决策环境返回决策智能体一个正奖励，当不一致时则返回一个负奖励，奖励函数R可以定义为：

；

转移概率P：状态转移概率P可以表示为，在本发明实施例所搭建的模拟环境中，转移状态是确定的，表示为决策智能体在环境状态为时输出维护动作后，环境状态会依据S中的顺序转至下一时刻状态。

通过上述步骤，构建了一个复杂装备全生命周期的决策环境，通过模拟环境与决策智能体之间的不断交互，可以训练决策智能体自主学习最优的决策策略，做出正确的维护决策动作。

从而，接着可以设计一个决策智能体，然后将顺序排列后的环境状态集输入至决策智能体中，决策智能体可以根据复杂装备当前的环境状态（即t时刻对应的环境状态），决策复杂装备是否送修以及返回具体的维护动作（即在t时刻所对应的维护动作）至决策环境。

然后决策环境执行维护动作并根据设置的奖励机制R反馈奖励至决策智能体，接着将环境状态转移至下一个环境状态，重复执行上述决策步骤，从而决策环境可以通过与决策智能体之间不断的交互试错，产生多个四元组经验数据，并将其存储至经验存储池M中。

智能体（Agent）可以理解为具有智能的实体，以云为基础，以AI（ArtificialIntelligence，人工智能）为核心，构建一个立体感知、全域协同、精准判断、持续进化、开放的智能系统。

本发明实施例所提出的基于多尺度残差Q网络搭建的决策智能体中，通过采用多尺度残差Q网络（Multi-Scale Residual Q-Network，MSRQN）模型作为评估/目标网络，从而实现提取决策环境中的不同尺度信息，增强对环境状态的感知能力。

在具体的实现中，可以构建两个包含级联多尺度残差块的多尺度残差网络，同时结合深度Q网络构建对应的多尺度残差Q网络，然后将其中一个多尺度残差Q网络作为评估网络模型，将另一个多尺度残差Q网络作为目标网络模型。

其中，多尺度残差网络（Multi-Scale Residual Network，MSRN）主要由两个部分组成，一个是特征提取模块，另一个是重建模块。特征提取模块主要包含了一个浅层的卷积神经网络（Convolutional Neural Networks，CNN）提取层，以及若干个级联的多尺度残差块（Multi-scale Residual Block，MSRB），每个多尺度残差块的输出都被用作全局特征融合的分层特征，接着将所有这些分层特征输入至重建模块（即本发明实施例中的多层次特征融合模块）中进行融合重建。

深度Q网络（Deep Q-network，DQN）是指基于深度学习的Q学习算法，主要结合了值函数近似与神经网络技术，并采用了目标网络以及经历回放的方法进行网络训练。

为更好地进行说明，参照图2，示出了本发明实施例提供的一种多尺度残差Q网络的结构示意图。

结合图2，首先将环境状态S输入至多尺度残差网络中，并利用卷积层提取输入环境状态S的浅层特征：

；

其中，表示浅层特征提取函数，在提取到浅层特征后，进一步地，可以将其输入到至级联的多尺度残差块MSRB中进行深度特征提取。

通过多尺度残差块MSRB可以将多尺度特征融合以及局部残差学习相结合，多尺度残差块MSRB主要可以由两部分构成，即多尺度特征融合以及局部残差学习，具体地，可以用不同大小的卷积核对不同规模的图像特征进行自适应性检测。

在多尺度残差块MSRB中，在真正进行特征提取前，采用了卷积核大小为1×1的卷积层1×1Conv进行降维处理，采用这种方式具有两个作用，一个是降低网络的参数，另一个是可以联合卷积核大小为3×3的卷积层3×3Conv以及卷积核大小为5×5的卷积层5×5Conv，获取多尺度的特征信息，而采用局部残差学习法则可以使得神经网络的特征处理更加高效。

针对多尺度残差块MSRB的多尺度特征融合，采用双支路并行的卷积层连接，即采用卷积核大小为3×3的卷积层3×3Conv联合激活函数作为一条支路，采用卷积核大小为5×5的卷积层5×5Conv联合激活函数作为另一条并行支路，每个支路堆叠了不同尺度的卷积，从而能够检测出不同尺度的输入特征。

其中，1×1卷积能够起到维度升降的作用，令3×3卷积以及5×5卷积的信息输入维度较低，缩短运算时间。而残差部分的加入，则让梯度在反向传播过程中不仅可以通过残差部分逐层进行反向传播，还可以通过输入与输出之间的跳跃式连接实现信息的跨层传递，避免出现梯度消失情况。

进一步地，图3为本发明实施例提供的一种多尺度残差块的结构示意图。

结合图3，当输入特征为时，多尺度残差块MSRB中不同支路的输出定义如下：

；

其中，S ₁为3×3卷积层所在支路的输出特征，S ₂为5×5卷积层所在支路的输出特征，表示卷积运算函数，为激活函数，本发明实施例中选择ReLU函数作为激活函数，w为权重参数，权重参数w的上标则表示在该层中所使用卷积核大小，即w ^3×3表示卷积核大小为3×3的卷积层所对应的权重参数，w ^5×5表示卷积核大小为5×5的卷积层所对应的权重参数。

此外，为了解决不同支路维度不匹配的问题，在进行特征堆叠连接时，除了采用特征堆叠块Concat进行特征堆叠连接，还引入卷积核大小为1×1的卷积层进行特征融合，则多尺度融合特征可以表示为：

；

其中，表示特征堆叠连接操作。

在完成多尺度特征融合之后，接着可以对每个多尺度残差块MSRB都采用残差学习，则多尺度残差块MSRB的输出深层特征可以描述为：

；

当通过多个多尺度残差块MSRB获得多个不同层次的深层特征之后，可以引入多层次特征融合模块（Multi-Level Feature Fusion，MLFF），即卷积核大小为1×1的卷积层，自适应地从这些分层特征中提取有用信息。假设有N个多尺度残差块MSRB模块，则多层次特征融合模块的输出M _MLFF可表示为：

；

其中，为多层次特征融合模块的特征融合函数，表示第l个多尺度残差块MSRB的输出，表示连接操作。

接下来可以通过长跳跃将提取的多层次融合特征M _MLFF与浅层特征M ₀融合，获得融合特征图M：

；

最后，将融合特征图M经过全连接层F进行全连接操作，可以获得每类维护动作的Q值，即状态函数。

进一步地，针对搭建的决策智能体，评估网络主要用于帮助决策智能体选择输出具有最大价值的维护动作，而目标网络则主要用于计算未来奖励值的期望，决策智能体可以通过经验回放技术从经验存储池M中随机采取小批量经验数据，通过最小化评估网络的预测Q值与目标网络的期望Q值的均方误差（即损失函数），不断更新决策智能体的模型参数，逐步提升评估/目标网络的预测能力，从而使决策智能体自主完成诊断策略的学习，准确地选择维护动作，完成复杂装备全生命周期智能维护。

具体地，当通过上述方式构建基于多尺度残差Q网络的评估网络模型以及目标网络模型之后，可以结合评估网络模型以及目标网络模型，构建基于多尺度残差Q网络的决策智能体，进一步可以基于决策环境以及决策智能体，构建基于多尺度残差Q网络的智能维护系统；然后将维护训练集输入至智能维护系统，以对决策环境以及决策智能体进行交互试错训练，在训练过程中不断更新决策智能体的模型参数，并在训练结束后保存决策智能体的最优维护策略。

参照图4，示出了本发明实施例提供的一种基于多尺度残差Q网络的决策智能体的构建原理示意图。

在深度Q网络中，决策智能体可以通过与决策环境的不断交互，从而学习到最优的维护策略，也就是说，最优维护策略实际上指的是带参数的决策智能体。

针对最优维护策略，在决策智能体与决策环境的不断交互中，最优策略函数可以根据当前环境状态，通过如下公式计算决策环境执行维护动作的概率：

；

其中，为基于最优策略函数计算出的决策环境在当前环境状态下执行维护动作的概率，P（*）指概率计算。

决策智能体执行上述步骤的目的是在最优策略函数的指导下准确地选择维护动作，当计算出执行概率之后，可以通过决策环境结合执行概率以及前述实施例中的预设奖励策略R计算得出环境评估奖励，并将环境评估奖励反馈回决策智能体，若决策智能体选择正确，则决策智能体可以获得正奖励，若错误，则会获得负奖励。

进一步地，可以通过累计奖励来衡量最优策略函数的优劣，累计奖励具体可表示为：

；

其中，代表在t时刻决策智能体输出维护决策动作时，决策环境给予的奖励，为加权值，决定了未来回报的重要程度，当时，决策智能体在作出决策时只关注当前利益，当时，决策智能体在作出决策时更关注长远利益。

在判断累计奖励大小的过程中可通过累计奖励的期望来反映决策智能体在环境状态下执行维护动作的好坏程度，该期望也可以称为状态动作值函数，具体表达如下：

；

其中，E[*]指期望值计算。

针对好坏程度的定义，在对复杂装备的每一次维护中，每一次选择正确的维护动作，决策智能体都能获得正奖励，此时累计奖励是最大的，因此，本发明实施例中对决策智能体进行训练的目的是确保每一次的维护，模型都能选择正确的维护动作，以得到最优的累计奖励。因此，可以通过得到的奖励判断维护动作的好坏，也就是说，当选择正确维护动作时定义为“好”，当选择错误维护动作时则定义为“坏”。

进一步地，基于贝尔曼方程，状态动作值函数可变换为：

；

其中，E _π[*]也是期望值计算，为与前面公式区分，因此书写成E _π[*]，奖励是对应当前环境状态，决策智能体输出维护动作后决策环境给予的反馈，为与前面的区分，因此书写成，指t+1时刻（即t时刻的下一个时刻）决策智能体的状态动作值函数。

其中，贝尔曼方程是关于未知函数（目标函数）的函数方程组，函数方程法指的是应用最优化原理以及嵌入原理建立函数方程组的方法。在实际运用中，通常需要按照具体问题寻求特殊解法，如发明实施例中对于状态动作值函数的求解，因此引入贝尔曼方程进行方程求解。

通常而言，最优的状态动作值函数决定了决策智能体在维护决策过程中的最优表现，其计算公式如下：

；

其中，表示最优状态动作值函数，表示与最优状态动作值函数对应的、t+1时刻决策智能体的状态动作值函数，表示取累计奖励期望值的最大值。

由上面分析可知，此时最优维护策略π*可由最优动作值函数确定，即为：

；

进一步地，由于本发明实施例采用带有参数的多尺度残差Q网络模型作为评估/目标网络，则可以通过多尺度残差Q网络实现对前述内容中状态函数进行参数拟合，即。

其中，参数拟合是指在已知实验或者真实数据，寻找一个模型对其规律进行模拟的过程中，对模型中未知参数进行求取的一个过程。

由于网络在训练过程中采用的是异步更新策略（即每隔一定时间步长C就将评估网络的网络参数复制给目标网络），因此，评估网络以及目标网络的网络参数值并不相同。

如图4所示，本发明实施例中用、分别表示评估网络模型（决策智能体虚线框中左边的MSRQN模型）以及目标网络模型（决策智能体虚线框中右边的MSRQN模型）的网络参数。

在模型训练过程中，决策智能体通过采用经验回放技术从经验池M中随机采样小批量数据，实现对模型的训练与参数更新，在此过程中，损失函数的计算公式如下：

；

其中，为目标估计值，如下式所示：

；

上述公式中，指当前时刻的环境状态，指当前时刻的维护动作，指当前时刻的奖励反馈，分别为下一时刻的环境状态和维护动作，为评估网络对应的带参评估状态函数，为目标网络对应的带参目标状态函数，表示求取带参目标状态函数的最大值。

接着可以根据损失函数，通过下述公式对网络参数进行梯度求解，完成对网络参数的更新，并每隔时间步长C将复制给，完成目标网络的更新：

；

以及均为梯度求解函数。

从而通过执行上述相关步骤，经过不断地迭代更新，决策智能体对复杂装备维护动作的选择将会越来越精准。

当对智能维护系统中相关模型进行训练之后，可以采用维护测试集对训练后的决策智能体进行测试，并基于测试结果对智能维护系统进行模型评价。

具体地，对于模型测试阶段，可以将测试集以及标签输入至训练好的决策智能体，基于决策智能体经过训练后获得的最佳维护策略（即带参状态函数Q）进行维护动作决策处理，输出维护动作，并将输出的维护动作与标签进行比较，获得判断结果，通过判断结果可以判定模型输出的决策是否准确，经过多次测试之后，可以获得一个总的测试结果，测试结果则可以用于对智能维护系统进行模型评价，如评价模型的预测准确度、计算效率等等。

在本发明实施例中，提供了一种基于多尺度残差Q网络的复杂装备智能维护系统，通过该智能维护系统，可以根据复杂装备的正常运行以及故障状态数据，利用多尺度残差Q网络最大限度地提取装备状态特征信息，并能快速、准确地输出装备维护操作指令，缩短复杂装备的停机时间并提高装备的可靠性以及生产效率。

接下来将结合前述实施例内容，从实际应用场景出发，对复杂装备智能维护系统所对应的智能维护方法进行说明。

参照图5，示出了本发明实施例提供的一种复杂装备智能维护方法的步骤流程图，所述方法应用于基于多尺度残差Q网络的智能维护系统，所述智能维护系统包括决策环境、决策智能体，所述方法具体可以包括以下步骤：

步骤501，获取待测复杂装备的全生命周期数据；

当需要采用智能维护系统对复杂装备进行智能维护时，可以获取待测复杂装备的全生命周期数据。

步骤502，将所述全生命周期数据输入至所述决策环境先进行标签化处理，再随机打乱，输出待测环境状态至所述决策智能体，所述决策智能体对应最优维护策略；

进一步地，结合前述实施例中决策环境的数据处理流程，将全生命周期数据输入至决策环境先进行标签化处理，再随机打乱，输出待测环境状态至决策智能体，具体可以为：首先将全生命周期数据输入至决策环境，通过标签化处理提取全生命周期数据的环境状态数据，再对环境状态数据进行随机打乱处理，获得初始环境状态；接着按时间先后顺序排列初始环境状态，获得待测环境状态，并输出待测环境状态至决策智能体。

步骤503，根据所述最优维护策略，结合所述决策智能体以及所述决策环境对所述待测环境状态进行多尺度残差特征提取处理，输出所述待测环境状态对应的最优维护动作，所述最优维护动作用于对所述待测复杂装备进行维护。

由前述内容可知，决策智能体可以包括基于多尺度残差Q网络的评估网络模型以及目标网络模型，最优维护策略表征带有模型参数的决策智能体，从实际应用角度出发来看，待测环境状态并不是仅对应了一个时刻的环境状态，而是可以看作是一个包含多个时刻的环境状态的集合，从时序上来看，待测环境状态可以包括当前环境状态以及下一时刻环境状态，从而进一步地，根据最优维护策略，结合决策智能体以及决策环境对待测环境状态进行多尺度残差特征提取处理，输出待测环境状态对应的最优维护动作，可以包括如下步骤：

步骤S01：将当前环境状态输入至评估网络模型进行多层次残差特征提取，输出评估状态函数，评估状态函数对应当前预测维护动作；

步骤S02：将下一时刻环境状态输入至目标网络模型进行多层次残差特征提取，输出目标状态函数，评估状态函数对应下一时刻预测维护动作；

作为一种可选实施例，多尺度残差Q网络可以包括多尺度残差网络，多尺度残差网络可以包括级联多尺度残差块，多层次特征融合模块以及全连接层，则在评估网络模型或目标网络模型中进行多层次残差特征提取的处理步骤，可以包括：

首先对多尺度残差网络的输入特征进行特征提取，获得浅层特征，并将浅层特征输入至级联多尺度残差块进行深层特征提取，获得多个不同层次的深层特征；

接着通过多层次特征融合模块对多个不同层次的深层特征进行自适应特征提取融合，输出多层次融合特征；

然后采用长跳跃特征融合方式将浅层特征与多层次融合特征进行特征融合，输出融合特征图；

最后将融合特征图输入至全连接层进行全连接操作，获得每类维护动作的状态函数。

进一步地，级联多尺度残差块可以包括若干个以串联方式连接的多尺度残差块，则将浅层特征输入至级联多尺度残差块进行深层特征提取，获得多个不同层次的深层特征的步骤，具体可以包括：

步骤S11：将浅层特征输入至第一多尺度残差块，先对浅层特征进行并行尺度卷积处理，输出第一多尺度融合特征，接着采用浅层特征对第一多尺度融合特征进行残差学习，获得第一多尺度残差块对应的第一深层特征；

步骤S12：将第一深层特征输入至第二多尺度残差块，先对第一深层特征进行并行尺度卷积处理，输出第二多尺度融合特征，接着采用第一深层特征对第二多尺度融合特征进行残差学习，获得第二多尺度残差块对应的第二深层特征；

再进一步地，结合前述实施例，级联多尺度残差块中的每一多尺度残差块均可以包括一个1×1卷积层，与1×1卷积层并行连接的第一支路卷积块（卷积核大小为3×3的卷积层以及激活函数）以及第二支路卷积块（卷积核大小为5×5的卷积层以及激活函数），与第一支路卷积块以及第二支路卷积块并行连接的特征堆叠降维块，则在每一多尺度残差块进行并行尺度卷积处理的步骤，可以包括：

首先对输入至1×1卷积层的待处理特征进行降维处理，获得输入降维特征；

接着将输入降维特征分别输入至第一支路卷积块以及第二支路卷积块进行卷积处理，获得第一支路卷积块对应的第一支路输出特征，以及第二支路卷积块对应的第二支路输出特征；

然后通过特征堆叠降维块对第一支路输出特征以及第二支路输出特征进行特征堆叠以及降维处理，输出多尺度残差块对应的多尺度融合特征。

步骤S03：根据最优维护策略，列出决策环境执行当前预测维护动作的执行概率，通过决策环境结合执行概率以及预设奖励策略计算环境评估奖励，并将环境评估奖励反馈回决策智能体；

步骤S04：列出评估状态函数对应的带参评估状态函数，带参评估状态函数对应第一网络参数；

步骤S05：列出目标状态函数对应的带参目标状态函数，带参目标状态函数对应第二网络参数；

步骤S06：根据带参评估状态函数、带参目标状态函数以及环境评估奖励，列出状态损失函数；

步骤S07：根据状态损失函数对第一网络参数进行随机梯度下降求解，并根据求解结果对第一网络参数进行参数更新，根据异步更新策略，采用更新后的第一网络参数对第二网络参数进行参数更新；

步骤S08：基于对第一网络参数以及第二网络参数的更新，更新最优维护策略对应的模型参数；

步骤S09：重复执行步骤S03至S08，直至决策环境与决策智能体之间达到最大交互步数，使得更新后的模型参数达到最优解，通过决策智能体输出最优维护动作。

在本发明实施例中，从实际应用场景出发，提供了一种适用于智能维护系统的多尺度残差Q网络学习算法，在该算法中，通过多尺度残差并行网络对环境状态的特征进行多尺度提取，并将其作为深度Q网络模型的动作值函数，输出维护动作的Q值估计，通过基于多尺度残差Q网络的决策智能体与决策环境之间的不断交互试错，并依据决策环境反馈的奖励，能够实现最佳决策策略的自主学习，从而完成对复杂装备的全生命周期智能维护。

为了更好地进行说明，结合前述实施例以及图1，参照图6，示出了本发明实施例提供的一种复杂装备智能维护系统的构建训练整体流程示意图，需要指出的是，本示例仅对复杂装备智能维护系统的构建训练大致流程进行简要说明，相关步骤的细节参照前述实施例中相关内容即可，可以理解的是，本发明对此不作限制。

1）对复杂装备的全生命周期数据进行处理，并将其划分为训练集与测试集；

2）构建基于多尺度残差Q网络的决策智能体，以及搭建模拟交互决策环境平台（即决策环境）；

3）通过决策环境随机打乱训练集中的样本数据并进行重新排序，将得到的排序后样本数据作为模拟环境状态，输入决策智能体；

4）决策智能体根据当前的环境状态, 选择维护动作返回决策环境；

5）决策环境执行维护动作，并根据奖励函数R，给予奖励，接着根据状态转移策略P得到下一状态。

6）将上述得到的当前环境状态、维护动作，奖励，以及下一状态作为一个四元组，并回放缓存至经验池M中。

7）当经验池M中的数据存储到一定数量时，随机从经验池M中采用小批量数据作为智能决策模型的训练数据；

8）计算MSE（mean square error，均方误差）损失函数（即状态损失函数），并采用随机梯度下降求解的方法更新模型参数；

9）判断训练次数是否达到最大交互步数，若是，则执行步骤10）；若否，则跳回执行步骤 4）；

10）判断训练轮数是否达到定义的最大回合数，若是，则执行步骤11）；若否，则跳转执行步骤 3）；

11）模型训练完成，保存模型参数，将测试集中的样本数据输入至模型中进行测试，并基于测试结果评估模型性能。

参照图7，示出了本发明实施例提供的一种复杂装备智能维护装置的结构框图，应用于基于多尺度残差Q网络的智能维护系统，所述智能维护系统包括决策环境、决策智能体，所述装置具体可以包括：

全生命周期数据获取模块701，用于获取待测复杂装备的全生命周期数据；

标签化处理模块702，用于将所述全生命周期数据输入至所述决策环境先进行标签化处理，再随机打乱，输出待测环境状态至所述决策智能体，所述决策智能体对应最优维护策略；

最优维护动作输出模块703，用于根据所述最优维护策略，结合所述决策智能体以及所述决策环境对所述待测环境状态进行多尺度残差特征提取处理，输出所述待测环境状态对应的最优维护动作，所述最优维护动作用于对所述待测复杂装备进行维护。

在一种可选实施例中，所述标签化处理模块702包括：

环境状态数据提取模块，用于将所述全生命周期数据输入至所述决策环境，通过标签化处理提取所述全生命周期数据的环境状态数据，再对所述环境状态数据进行随机打乱处理，获得初始环境状态；

待测环境状态排序模块，用于按时间先后顺序排列所述初始环境状态，获得待测环境状态，并输出所述待测环境状态至所述决策智能体。

在一种可选实施例中，所述决策智能体包括基于多尺度残差Q网络的评估网络模型以及目标网络模型，所述待测环境状态包括当前环境状态以及下一时刻环境状态，所述最优维护策略表征带有模型参数的决策智能体，所述最优维护动作输出模块703包括：

多层次残差特征第一提取模块，用于执行步骤S01：将所述当前环境状态输入至所述评估网络模型进行多层次残差特征提取，输出评估状态函数，所述评估状态函数对应当前预测维护动作；

多层次残差特征第二提取模块，用于执行步骤S02：将所述下一时刻环境状态输入至所述目标网络模型进行多层次残差特征提取，输出目标状态函数，所述评估状态函数对应下一时刻预测维护动作；

环境评估奖励计算模块，用于执行步骤S03：根据所述最优维护策略，列出所述决策环境执行所述当前预测维护动作的执行概率，通过所述决策环境结合所述执行概率以及预设奖励策略计算环境评估奖励，并将所述环境评估奖励反馈回所述决策智能体；

带参评估状态函数列写模块，用于执行步骤S04：列出所述评估状态函数对应的带参评估状态函数，所述带参评估状态函数对应第一网络参数；

带参目标状态函数列写模块，用于执行步骤S05：列出所述目标状态函数对应的带参目标状态函数，所述带参目标状态函数对应第二网络参数；

状态损失函数列写模块，用于执行步骤S06：根据所述带参评估状态函数、所述带参目标状态函数以及所述环境评估奖励，列出状态损失函数；

随机梯度下降求解模块，用于执行步骤S07：根据所述状态损失函数对所述第一网络参数进行随机梯度下降求解，并根据求解结果对所述第一网络参数进行参数更新，根据异步更新策略，采用更新后的第一网络参数对所述第二网络参数进行参数更新；

模型参数更新模块，用于执行步骤S08：基于对第一网络参数以及第二网络参数的更新，更新所述最优维护策略对应的模型参数；

最优维护动作输出子模块，用于执行步骤S09：重复执行步骤S03至S08，直至所述决策环境与所述决策智能体之间达到最大交互步数，使得更新后的模型参数达到最优解，通过所述决策智能体输出最优维护动作。

在一种可选实施例中，所述多尺度残差Q网络包括多尺度残差网络，所述多尺度残差网络包括级联多尺度残差块，多层次特征融合模块以及全连接层，则所述多层次残差特征第一提取模块或多层次残差特征第二提取模块包括：

深层特征提取模块，用于对所述多尺度残差网络的输入特征进行特征提取，获得浅层特征，并将所述浅层特征输入至所述级联多尺度残差块进行深层特征提取，获得多个不同层次的深层特征；

多层次融合特征输出模块，用于通过所述多层次特征融合模块对所述多个不同层次的深层特征进行自适应特征提取融合，输出多层次融合特征；

融合特征图输出模块，用于采用长跳跃特征融合方式将所述浅层特征与所述多层次融合特征进行特征融合，输出融合特征图；

状态函数输出模块，用于将所述融合特征图输入至所述全连接层进行全连接操作，获得每类维护动作的状态函数。

在一种可选实施例中，所述级联多尺度残差块包括若干个以串联方式连接的多尺度残差块，所述深层特征提取模块包括：

第一深层特征生成模块，用于执行步骤S11：将所述浅层特征输入至第一多尺度残差块，先对所述浅层特征进行并行尺度卷积处理，输出第一多尺度融合特征，接着采用所述浅层特征对所述第一多尺度融合特征进行残差学习，获得所述第一多尺度残差块对应的第一深层特征；

第二深层特征生成模块，用于执行步骤S12：将所述第一深层特征输入至第二多尺度残差块，先对所述第一深层特征进行并行尺度卷积处理，输出第二多尺度融合特征，接着采用所述第一深层特征对所述第二多尺度融合特征进行残差学习，获得所述第二多尺度残差块对应的第二深层特征；

不同层次深层特征输出模块，用于执行步骤S13：重复执行步骤S12，直至最后一个多尺度残差块完成特征提取流程，输出每个多尺度残差块对应的深层特征。

在一种可选实施例中，所述级联多尺度残差块中的每一多尺度残差块均包括一个1×1卷积层，与所述1×1卷积层并行连接的第一支路卷积块以及第二支路卷积块，与所述第一支路卷积块以及所述第二支路卷积块并行连接的特征堆叠降维块，则所述装置还包括并行尺度卷积处理模块，所述并行尺度卷积处理模块具体用于：

在一种可选实施例中，所述装置还包括：

历史检测数据集获取模块，用于获取复杂装备的历史检测数据集，并在对所述历史检测数据集进行数据预处理之后进行数据划分，获得维护训练集以及维护测试集；

决策环境搭建模块，用于搭建决策环境，并定义所述决策环境的环境相关变量，所述环境相关变量包括环境状态集、维护动作集、奖励策略以及状态转移概率，其中，所述环境状态集包含决策环境的所有状态，所述维护动作集包含决策智能体可执行的所有维护动作，所述奖励策略用于当决策智能体根据当前环境状态输出当前预测维护动作后决策环境给予的奖励反馈，所述状态转移概率表示在输出当前环境状态对应的当前预测维护动作之后，依据所述环境状态集中的顺序转至下一时刻环境状态；

多尺度残差Q网络搭建模块，用于构建两个包含级联多尺度残差块的多尺度残差网络，同时结合深度Q网络构建对应的多尺度残差Q网络，将其中一个多尺度残差Q网络作为评估网络模型，将另一个多尺度残差Q网络作为目标网络模型；

决策智能体构建模块，用于结合所述评估网络模型以及所述目标网络模型，构建基于多尺度残差Q网络的决策智能体；

智能维护系统构建模块，用于基于所述决策环境以及所述决策智能体，构建基于多尺度残差Q网络的智能维护系统；

交互试错训练模块，用于将所述维护训练集输入至所述智能维护系统，以对所述决策环境以及所述决策智能体进行交互试错训练，在训练过程中不断更新所述决策智能体的模型参数，并在训练结束后保存所述决策智能体的最优维护策略；

决策智能体测试模块，用于采用所述维护测试集对训练后的决策智能体进行测试，并基于测试结果对智能维护系统进行模型评价。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见前述方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行本发明任一实施例的复杂装备智能维护方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行本发明任一实施例的复杂装备智能维护方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种复杂装备智能维护方法，其特征在于，应用于基于多尺度残差Q网络的智能维护系统，所述智能维护系统包括决策环境、决策智能体，所述决策智能体包括基于多尺度残差Q网络的评估网络模型以及目标网络模型，所述方法包括：

获取待测复杂装备的全生命周期数据；

将所述全生命周期数据输入至所述决策环境先进行标签化处理，随机打乱后再进行排序，输出待测环境状态至所述决策智能体，所述决策智能体对应最优维护策略；

结合所述最优维护策略，通过所述评估网络模型、所述目标网络模型以及所述决策环境对所述待测环境状态进行多尺度残差特征提取处理，输出所述待测环境状态对应的最优维护动作，所述最优维护动作用于对所述待测复杂装备进行维护；

其中，所述多尺度残差Q网络包括多尺度残差网络，所述多尺度残差网络包括级联多尺度残差块，多层次特征融合模块以及全连接层，在所述评估网络模型或所述目标网络模型中进行多层次残差特征提取的处理步骤，包括：

将所述融合特征图输入至所述全连接层进行全连接操作，获得每类维护动作的状态函数；

其中，所述级联多尺度残差块包括若干个以串联方式连接的多尺度残差块，所述将所述浅层特征输入至所述级联多尺度残差块进行深层特征提取，获得多个不同层次的深层特征，包括：

2.根据权利要求1所述的复杂装备智能维护方法，其特征在于，所述将所述全生命周期数据输入至所述决策环境先进行标签化处理，随机打乱后再进行排序，输出待测环境状态至所述决策智能体，包括：

3.根据权利要求1所述的复杂装备智能维护方法，其特征在于，所述待测环境状态包括当前环境状态以及下一时刻环境状态，所述最优维护策略表征带有模型参数的决策智能体，所述结合所述最优维护策略，通过所述评估网络模型、所述目标网络模型以及所述决策环境对所述待测环境状态进行多尺度残差特征提取处理，输出所述待测环境状态对应的最优维护动作，包括：

步骤S02：将所述下一时刻环境状态输入至所述目标网络模型进行多层次残差特征提取，输出目标状态函数，所述目标状态函数对应下一时刻预测维护动作；

4.根据权利要求1所述的复杂装备智能维护方法，其特征在于，所述级联多尺度残差块中的每一多尺度残差块均包括一个1×1卷积层，与所述1×1卷积层相连接的卷积块，与所述卷积块相连接的特征堆叠降维块，其中，所述卷积块为并行连接的第一支路卷积块与第二支路卷积块，在每一所述多尺度残差块进行并行尺度卷积处理的步骤，包括：

5.根据权利要求1至4任一项所述的复杂装备智能维护方法，其特征在于，还包括：

6.一种复杂装备智能维护装置，其特征在于，应用于基于多尺度残差Q网络的智能维护系统，所述智能维护系统包括决策环境、决策智能体，所述决策智能体包括基于多尺度残差Q网络的评估网络模型以及目标网络模型，所述装置包括：

标签化处理模块，用于将所述全生命周期数据输入至所述决策环境先进行标签化处理，随机打乱后再进行排序，输出待测环境状态至所述决策智能体，所述决策智能体对应最优维护策略；

最优维护动作输出模块，用于结合所述最优维护策略，通过所述评估网络模型、所述目标网络模型以及所述决策环境对所述待测环境状态进行多尺度残差特征提取处理，输出所述待测环境状态对应的最优维护动作，所述最优维护动作用于对所述待测复杂装备进行维护；

其中，所述多尺度残差Q网络包括多尺度残差网络，所述多尺度残差网络包括级联多尺度残差块，多层次特征融合模块以及全连接层，所述装置还包括：

状态函数输出模块，用于将所述融合特征图输入至所述全连接层进行全连接操作，获得每类维护动作的状态函数；

其中，所述级联多尺度残差块包括若干个以串联方式连接的多尺度残差块，所述深层特征提取模块包括：

7.一种电子设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的复杂装备智能维护方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-5任一项所述的复杂装备智能维护方法。