CN115700632A - 一种船舶电子信息系统维修保障措施决策方法及装置 - Google Patents

一种船舶电子信息系统维修保障措施决策方法及装置 Download PDF

Info

Publication number
CN115700632A
CN115700632A CN202211373765.0A CN202211373765A CN115700632A CN 115700632 A CN115700632 A CN 115700632A CN 202211373765 A CN202211373765 A CN 202211373765A CN 115700632 A CN115700632 A CN 115700632A
Authority
CN
China
Prior art keywords
maintenance
state
target network
electronic information
information system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211373765.0A
Other languages
English (en)
Inventor
吴心怡
吴鹏飞
李恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
709th Research Institute of CSSC
Original Assignee
709th Research Institute of CSSC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 709th Research Institute of CSSC filed Critical 709th Research Institute of CSSC
Priority to CN202211373765.0A priority Critical patent/CN115700632A/zh
Publication of CN115700632A publication Critical patent/CN115700632A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种船舶电子信息系统维修保障措施决策方法及装置,包括:确定训练好的目标网络;目标网络为状态与行为的函数,状态对应船舶电子信息系统的不同工作状态,行为对应任意两种工作状态之间转移所采用的维修保障措施;目标网络用于表示船舶电子信息系统在任一状态下执行某一维修保障措施后的累计奖励;船舶电子信息系统的不同工作状态包括:初始状态、完全失效状态以及不同程度的退化状态;将船舶电子信息系统当前的工作状态输入到训练好的目标网络,并采用贪心策略决策得到当前工作状态下最优的维修保障措施,以将船舶电子信息系统的工作状态调整到最优状态。本发明通过设计合理的奖励函数,提高自主化维修决策的可靠性。

Description

一种船舶电子信息系统维修保障措施决策方法及装置
技术领域
本发明属于船舶维修领域,更具体地,涉及一种船舶电子信息系统维修保障措施决策方法及装置。
背景技术
船舶电子信息系统往往需要在其全寿命周期内进行多次维修保障,良好的维修决策能够对维修保障时机、维修程度、是否更换备件等因素进行综合考量,达到以最小的维修成本保障系统最长工作时间的目标
目前常用的船舶电子信息系统维修保障决策方法主要是在故障发生前规划各种维修措施的施行时间,或在故障发生时依据维修人员经验施行维修措施,优点是应用简单方便,具有一定的经济效益,但没有充分考虑系统生命周期内不同退化状态之间的关联,无法统筹安排最佳维修保障时机和维修保障方式,导致系统在其生命周期内出现维修不足或维修过程的情况,增加了维修保障成本。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种船舶电子信息系统维修措施决策方法及装置,旨在解决船舶电子信息系统过度维修导致的成本增加与资源浪费的问题。
为实现上述目的,第一方面,本发明提供了一种船舶电子信息系统维修保障措施决策方法,包括如下步骤:
确定训练好的目标网络;所述目标网络为状态与行为的函数,所述状态对应船舶电子信息系统的不同工作状态,所述行为对应任意两种工作状态之间转移所采用的维修保障措施;所述目标网络用于表示船舶电子信息系统在任一状态下执行某一维修保障措施后的累计奖励,其基于深度强化学习方式采用不同维修保障措施对船舶电子信息系统工作状态影响的历史经验数据进行训练;所述船舶电子信息系统的不同工作状态包括:初始状态、完全失效状态以及不同程度的退化状态;
将船舶电子信息系统当前的工作状态输入到训练好的目标网络,并采用贪心策略决策得到当前工作状态下最优的维修保障措施,以将船舶电子信息系统的工作状态调整到最优状态。
在一个可选的示例中,所述目标网络的训练过程如下:
根据船舶电子信息系统的性能参数将其划分为多个工作状态,建立所有可能存在工作状态的空间集合S={sn|n=0,1,2,...,N},sn表示第n种工作状态,N表示工作状态总数;其中,不同工作状态对应的性能参数不同;
建立船舶电子信息系统的维修保障措施集为A={am|m=0,1,2,...,M},am表示第m种维修保障措施,M表示维修保障措施的总数;以及确定执行每一种维修保障措施am后产生的奖励函数Rm;Rm=-μmcmmtm,其中,cm为维修费用成本,um为cm对系统的工作状态影响权重,tm为在系统停机保障期间产生的停机成本,βm为tm对系统的工作状态影响权重;
对系统工作状态与维修保障措施的累计影响进行建模,得到目标网络;其中目标网络使用基于状态与行为的函数Q(sn,am)表示在工作状态sn下执行维修保障措施am后的累计奖励;
对不同工作状态下函数Q(sn,am)进行更新,使用深度学习神经网络对函数Q(sn,am)进行拟合,完成对目标网络的训练。
在一个可选的示例中,使用深度学习神经网络对函数Q(sn,am)进行拟合,具体为:
随机初始化目标网络的权值θ,将维修保障措施对系统工作状态影响的经验数据(sn,am,θ,di)存储到经验池,并进行随机采样;di指示系统是否达到最终工作状态,di=1为系统达到最终工作状态,di=0为系统未达到最终工作状态;所述最终工作状态指完全失效状态;
构造损失函数,并通过梯度下降法评估目标网络权值;
判断sn+1是否为最终工作状态,若不为最终工作状态,则每隔一段时间将评估的目标网络权值赋值给目标网络,并继续通过梯度下降法更新并得到最终的目标网络权值。
在一个可选的示例中,构造损失函数,并通过梯度下降法评估目标网络权值,具体为:
构造损失函数Loss:
Loss=ym-Q(sn,am;θ)2
其中,
Figure BDA0003925989730000031
ym表示训练标签,b为学习率,γ为回报折扣率;
所述梯度下降法为:
Q(sn+1,am+1)←Q(sn,am)+b[Rm+γmaxb Q(sn,am)]。
在一个可选的示例中,采用贪心策略决策得到当前工作状态下最优的维修保障措施,具体为:
根据系统当前工作状态si,与训练好的目标网络权值θ′,采用贪心策略,通过argmaxb Q(si,am;θ′)得出当前工作状态si下的最优维修保障措施ai
第二方面,本发明提供了一种船舶电子信息系统维修保障措施决策装置,包括:
目标网络确定单元,用于确定训练好的目标网络;所述目标网络为状态与行为的函数,所述状态对应船舶电子信息系统的不同工作状态,所述行为对应任意两种工作状态之间转移所采用的维修保障措施;所述目标网络用于表示船舶电子信息系统在任一状态下执行某一维修保障措施后的累计奖励,其基于深度强化学习方式采用不同维修保障措施对船舶电子信息系统工作状态影响的历史经验数据进行训练;所述船舶电子信息系统的不同工作状态包括:初始状态、完全失效状态以及不同程度的退化状态;
维修保障措施决策单元,用于将船舶电子信息系统当前的工作状态输入到训练好的目标网络,并采用贪心策略决策得到当前工作状态下最优的维修保障措施,以将船舶电子信息系统的工作状态调整到最优状态。
在一个可选的示例中,该装置还包括:
目标网络训练单元,用于根据船舶电子信息系统的性能参数将其划分为多个工作状态,建立所有可能存在工作状态的空间集合S={sn|n=0,1,2,...,N},sn表示第n种工作状态,N表示工作状态总数;其中,不同工作状态对应的性能参数不同;建立船舶电子信息系统的维修保障措施集为A={am|m=0,1,2,...,M},am表示第m种维修保障措施,M表示维修保障措施的总数;以及确定执行每一种维修保障措施am后产生的奖励函数Rm;Rm=-μmcmmtm,其中,cm为维修费用成本,um为cm对系统的工作状态影响权重,tm为在系统停机保障期间产生的停机成本,βm为tm对系统的工作状态影响权重;对系统工作状态与维修保障措施的累计影响进行建模,得到目标网络;其中目标网络使用基于状态与行为的函数Q(sn,am)表示在工作状态sn下执行维修保障措施am后的累计奖励;以及对不同工作状态下函数Q(sn,am)进行更新,使用深度学习神经网络对函数Q(sn,am)进行拟合,完成对目标网络的训练。
在一个可选的示例中,所述目标网络训练单元使用深度学习神经网络对函数Q(sn,am)进行拟合,具体为:随机初始化目标网络的权值θ,将维修保障措施对系统工作状态影响的经验数据(sn,am,θ,di)存储到经验池,并进行随机采样;di指示系统是否达到最终工作状态,di=1为系统达到最终工作状态,di=0为系统未达到最终工作状态;所述最终工作状态指完全失效状态;构造损失函数,并通过梯度下降法评估目标网络权值;判断sn+1是否为最终工作状态,若不为最终工作状态,则每隔一段时间将评估的目标网络权值赋值给目标网络,并继续通过梯度下降法更新并得到最终的目标网络权值。
第三方面,本发明提供了一种船舶电子信息系统维修保障措施决策装置,包括:存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现上述第一方面提供的方法。
第四方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述第一方面提供的方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供一种船舶电子信息系统维修措施决策方法及装置,对船舶电子信息系统的不同状态以及不同维修保障行为进行量化,将船舶电子信息系统状态划分为无任何故障现象的初始状态、不同中间状态、完全失效停机的状态;将维修保障措施划分为无维保行为、不同程度维修行为、更换备件、返厂维修等,通过深度强化学习网络对量化后的数据进行学习训练,推理得出不同系统状态下的最优维保措施。
本发明提供一种船舶电子信息系统维修措施决策方法及装置,设计一种基于影响权重因子的强化学习奖励函数,根据不同维修保障措施的费用成本和时间成本,分别对船舶电子信息系统的影响程度,赋予相应的影响权重因子,作为训练标签的一部分送入深度强化学习网络进行训练。
本发明提供一种船舶电子信息系统维修措施决策方法及装置,能够通过量化船舶电子信息系统的状态库以及维修保障措施库,结合深度强化学习技术,解决基于状态的传统建模方法存在的维度灾难问题,同时通过设计合理的奖励函数,提高自主化维修决策的可靠性,解决船舶电子信息系统过度维修导致的成本增加与资源浪费的问题。
附图说明
图1是本发明实施例提供的一种船舶电子信息系统维修措施决策方法流程图;
图2是本发明实施例提供的又一种船舶电子信息系统维修保障措施决策流程图;
图3是本发明实施例提供的船舶电子信息系统维修保障措施决策原理图;
图4是本发明实施例提供的船舶电子信息系统维修措施决策装置架构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明旨在提供一种基于深度强化学习的船舶电子信息系统维修决策方法,通过对船舶电子信息系统的设备健康状态库与相应维修保障过程进行建模,结合深度强化学习技术,提供基于船舶电子信息系统全寿命周期的自主化维修决策方案,解决船舶电子信息系统过度维修导致的成本增加与资源浪费的问题。
图1是本发明实施例提供的船舶电子信息系统维修措施决策方法流程图;如图1所示,包括如下步骤:
S101,确定训练好的目标网络;所述目标网络为状态与行为的函数,所述状态对应船舶电子信息系统的不同工作状态,所述行为对应任意两种工作状态之间转移所采用的维修保障措施;所述目标网络用于表示船舶电子信息系统在任一状态下执行某一维修保障措施后的累计奖励,其基于深度强化学习方式采用不同维修保障措施对船舶电子信息系统工作状态影响的历史经验数据进行训练;所述船舶电子信息系统的不同工作状态包括:初始状态、完全失效状态以及不同程度的退化状态;
S102,将船舶电子信息系统当前的工作状态输入到训练好的目标网络,并采用贪心策略决策得到当前工作状态下最优的维修保障措施,以将船舶电子信息系统的工作状态调整到最优状态。
在一个具体的实施例中,如图2所示,本发明提供的决策方法包括如下步骤:
步骤1:针对船舶电子信息系统的各个组成模块、设备等,实时监测其性能参数,对船舶电子信息系统的所有可能状态,以及维修保障措施进行建模。
步骤1.1:对于步骤1,具体地,将系统划分为多个不同的退化状态,当监测到各模块性能参数处在某一系统状态的数值范围内,判定系统处于该状态,建立系统所有可能存在的状态空间集合S={sn|n=0,1,2,...,N},包括系统初始状态(即没有任何故障现象)、完全失效状态,以及不同退化程度的中间状态等。
步骤1.2:对于步骤1,具体地,船舶电子信息系统从一种状态转移到另一种状态所执行的维修保障措施集为A={am|m=0,1,2,...,M},包括不进行维修、不同程度维修,以及更换备件等,产生的相应维修费用成本为cm,其对系统的状态影响权重为um,在系统停机保障期间产生的停机成本为tm,其对系统的状态影响权重为βm,如图3所示,则执行维修保障措施am后产生的奖励函数Rm为:
Rm=-μmcmmtm (1)
步骤2:对系统状态与维修保障措施的累计影响进行建模,使用基于状态-行为的函数Q(s,a)表示系统在状态下执行维修保障措施后a的累计奖励;对不同系统状态下函数Q进行更新,使用深度学习神经网络实现对Q函数的拟合,训练标签ym为奖励函数Rm与Q函数值,训练样本为维修保障措施对系统状态影响的历史经验数据,训练Q函数评估网络和Q函数目标网络。
步骤2.1:对于步骤2,具体的,Q(sn,am)为状态-行为值函数,随机初始化评估网络权值θ,采用维修保障措施对系统状态影响的经验数据(sn,am,θ,di)存储到经验池,并进行随机采样,构造损失函数Loss如下,b为学习率,γ为回报折扣率,θ为评估网络权值,di=1为系统达到最终状态,di=0为系统未达到最终状态,通过梯度更新方法更新评估网络权值θ。
Q(sn+1,am+1)←Q(sn,am)+b[Rm+γmaxb Q(sn,am)] (2)
Loss=(ym-Q(sn,am;θ)2) (3)
Figure BDA0003925989730000081
步骤2.2:判断系统sn+1状态是否为终止状态,若不为终止状态,则每隔一段时间N将评估网络权值θ赋值给目标评估网络权值θ′,通过构造函数的梯度下降更新并得到最终的θ′。
步骤3:根据系统当前状态si,通过已经训练好的目标网络权重求推理当前状态下的最优维修保障决策ai
步骤3.1:对于步骤3,具体的,根据系统当前状态si,与训练好的目标网络权值θ′,采用贪心策略,通过arg maxb Q(si,am;θ′)得出当前状态下的最优维修保障决策ai
图4是本发明实施例提供的船舶电子信息系统维修措施决策装置架构图,如图4所示,包括:
目标网络确定单元410,用于确定训练好的目标网络;所述目标网络为状态与行为的函数,所述状态对应船舶电子信息系统的不同工作状态,所述行为对应任意两种工作状态之间转移所采用的维修保障措施;所述目标网络用于表示船舶电子信息系统在任一状态下执行某一维修保障措施后的累计奖励,其基于深度强化学习方式采用不同维修保障措施对船舶电子信息系统工作状态影响的历史经验数据进行训练;所述船舶电子信息系统的不同工作状态包括:初始状态、完全失效状态以及不同程度的退化状态;
维修保障措施决策单元420,用于将船舶电子信息系统当前的工作状态输入到训练好的目标网络,并采用贪心策略决策得到当前工作状态下最优的维修保障措施,以将船舶电子信息系统的工作状态调整到最优状态。
目标网络训练单元430,用于根据船舶电子信息系统的性能参数将其划分为多个工作状态,建立所有可能存在工作状态的空间集合S={sn|n=0,1,2,...,N},sn表示第n种工作状态,N表示工作状态总数;其中,不同工作状态对应的性能参数不同;建立船舶电子信息系统的维修保障措施集为A={am|m=0,1,2,...,M},am表示第m种维修保障措施,M表示维修保障措施的总数;以及确定执行每一种维修保障措施am后产生的奖励函数Rm;Rm=-μmcmmtm,其中,cm为维修费用成本,um为cm对系统的工作状态影响权重,tm为在系统停机保障期间产生的停机成本,βm为tm对系统的工作状态影响权重;对系统工作状态与维修保障措施的累计影响进行建模,得到目标网络;其中目标网络使用基于状态与行为的函数Q(sn,am)表示在工作状态sn下执行维修保障措施am后的累计奖励;以及对不同工作状态下函数Q(sn,am)进行更新,使用深度学习神经网络对函数Q(sn,am)进行拟合,完成对目标网络的训练。
可以理解的是,上述各个单元的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
另外,本发明实施例提供了另一种船舶电子信息系统维修措施决策装置,其包括:存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现上述实施例中的方法。
此外,本发明还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述实施例中的方法。
基于上述实施例中的方法,本发明实施例提供了一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行上述实施例中的方法。
基于上述实施例中的方法,本发明实施例还提供了一种芯片,包括一个或多个处理器以及接口电路。可选的,芯片还可以包含总线。其中:
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字通信器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该理器也可以是任何常规的处理器等。
接口电路可以用于数据、指令或者信息的发送或者接收,处理器可以利用接口电路接收的数据、指令或者其它信息,进行加工,可以将加工完成信息通过接口电路发送出去。
可选的,芯片还包括存储器,存储器可以包括只读存储器和随机存取存储器,并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(NVRAM)。
可选的,存储器存储了可执行软件模块或者数据结构,处理器可以通过调用存储器存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。
可选的,接口电路可用于输出处理器的执行结果。
需要说明的,处理器、接口电路各自对应的功能既可以通过硬件设计实现,也可以通过软件设计来实现,还可以通过软硬件结合的方式来实现,这里不作限制。
应理解,上述方法实施例的各步骤可以通过处理器中的硬件形式的逻辑电路或者软件形式的指令完成。
可以理解的是,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。此外,在一些可能的实现方式中,上述实施例中的各步骤可以根据实际情况选择性执行,可以部分执行,也可以全部执行,此处不做限定。
可以理解的是,本申请的实施例中的处理器可以是中央处理单元(cen tralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种船舶电子信息系统维修保障措施决策方法,其特征在于,包括如下步骤:
确定训练好的目标网络;所述目标网络为状态与行为的函数,所述状态对应船舶电子信息系统的不同工作状态,所述行为对应任意两种工作状态之间转移所采用的维修保障措施;所述目标网络用于表示船舶电子信息系统在任一状态下执行某一维修保障措施后的累计奖励,其基于深度强化学习方式采用不同维修保障措施对船舶电子信息系统工作状态影响的历史经验数据进行训练;所述船舶电子信息系统的不同工作状态包括:初始状态、完全失效状态以及不同程度的退化状态;
将船舶电子信息系统当前的工作状态输入到训练好的目标网络,并采用贪心策略决策得到当前工作状态下最优的维修保障措施,以将船舶电子信息系统的工作状态调整到最优状态。
2.根据权利要求1所述的方法,其特征在于,所述目标网络的训练过程如下:
根据船舶电子信息系统的性能参数将其划分为多个工作状态,建立所有可能存在工作状态的空间集合S={sn|n=0,1,2,...,N},sn表示第n种工作状态,N表示工作状态总数;其中,不同工作状态对应的性能参数不同;
建立船舶电子信息系统的维修保障措施集为A={am|m=0,1,2,...,M},am表示第m种维修保障措施,M表示维修保障措施的总数;以及确定执行每一种维修保障措施am后产生的奖励函数Rm;Rm=-μmcmmtm,其中,cm为维修费用成本,um为cm对系统的工作状态影响权重,tm为在系统停机保障期间产生的停机成本,βm为tm对系统的工作状态影响权重;
对系统工作状态与维修保障措施的累计影响进行建模,得到目标网络;其中目标网络使用基于状态与行为的函数Q(sn,am)表示在工作状态sn下执行维修保障措施am后的累计奖励;
对不同工作状态下函数Q(sn,am)进行更新,使用深度学习神经网络对函数Q(sn,am)进行拟合,完成对目标网络的训练。
3.根据权利要求2所述的方法,其特征在于,使用深度学习神经网络对函数Q(sn,am)进行拟合,具体为:
随机初始化目标网络的权值θ,将维修保障措施对系统工作状态影响的经验数据(sn,am,θ,di)存储到经验池,并进行随机采样;di指示系统是否达到最终工作状态,di=1为系统达到最终工作状态,di=0为系统未达到最终工作状态;所述最终工作状态指完全失效状态;
构造损失函数,并通过梯度下降法评估目标网络权值;
判断sn+1是否为最终工作状态,若不为最终工作状态,则每隔一段时间将评估的目标网络权值赋值给目标网络,并继续通过梯度下降法更新并得到最终的目标网络权值。
4.根据权利要求3所述的方法,其特征在于,构造损失函数,并通过梯度下降法评估目标网络权值,具体为:
构造损失函数Loss:
Loss=ym-Q(sn,am;θ)2
其中,
Figure FDA0003925989720000021
ym表示训练标签,b为学习率,γ为回报折扣率;
所述梯度下降法为:
Q(sn+1,am+1)←Q(sn,am)+b[Rm+γmaxbQ(sn,am)]。
5.根据权利要求3所述的方法,其特征在于,采用贪心策略决策得到当前工作状态下最优的维修保障措施,具体为:
根据系统当前工作状态si,与训练好的目标网络权值θ′,采用贪心策略,通过arg maxbQ(si,am;θ′)得出当前工作状态si下的最优维修保障措施ai
6.一种船舶电子信息系统维修保障措施决策装置,其特征在于,包括:
目标网络确定单元,用于确定训练好的目标网络;所述目标网络为状态与行为的函数,所述状态对应船舶电子信息系统的不同工作状态,所述行为对应任意两种工作状态之间转移所采用的维修保障措施;所述目标网络用于表示船舶电子信息系统在任一状态下执行某一维修保障措施后的累计奖励,其基于深度强化学习方式采用不同维修保障措施对船舶电子信息系统工作状态影响的历史经验数据进行训练;所述船舶电子信息系统的不同工作状态包括:初始状态、完全失效状态以及不同程度的退化状态;
维修保障措施决策单元,用于将船舶电子信息系统当前的工作状态输入到训练好的目标网络,并采用贪心策略决策得到当前工作状态下最优的维修保障措施,以将船舶电子信息系统的工作状态调整到最优状态。
7.根据权利要求6所述的装置,其特征在于,还包括:
目标网络训练单元,用于根据船舶电子信息系统的性能参数将其划分为多个工作状态,建立所有可能存在工作状态的空间集合S={sn|n=0,1,2,...,N},sn表示第n种工作状态,N表示工作状态总数;其中,不同工作状态对应的性能参数不同;建立船舶电子信息系统的维修保障措施集为A={am|m=0,1,2,...,M},am表示第m种维修保障措施,M表示维修保障措施的总数;以及确定执行每一种维修保障措施am后产生的奖励函数Rm;Rm=-μmcmmtm,其中,cm为维修费用成本,um为cm对系统的工作状态影响权重,tm为在系统停机保障期间产生的停机成本,βm为tm对系统的工作状态影响权重;对系统工作状态与维修保障措施的累计影响进行建模,得到目标网络;其中目标网络使用基于状态与行为的函数Q(sn,am)表示在工作状态sn下执行维修保障措施am后的累计奖励;以及对不同工作状态下函数Q(sn,am)进行更新,使用深度学习神经网络对函数Q(sn,am)进行拟合,完成对目标网络的训练。
8.根据权利要求7所述的装置,其特征在于,所述目标网络训练单元使用深度学习神经网络对函数Q(sn,am)进行拟合,具体为:随机初始化目标网络的权值θ,将维修保障措施对系统工作状态影响的经验数据(sn,am,θ,di)存储到经验池,并进行随机采样;di指示系统是否达到最终工作状态,di=1为系统达到最终工作状态,di=0为系统未达到最终工作状态;所述最终工作状态指完全失效状态;构造损失函数,并通过梯度下降法评估目标网络权值;判断sn+1是否为最终工作状态,若不为最终工作状态,则每隔一段时间将评估的目标网络权值赋值给目标网络,并继续通过梯度下降法更新并得到最终的目标网络权值。
9.一种船舶电子信息系统维修保障措施决策装置,其特征在于,包括:存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-5任一项所述的方法。
CN202211373765.0A 2022-11-04 2022-11-04 一种船舶电子信息系统维修保障措施决策方法及装置 Pending CN115700632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211373765.0A CN115700632A (zh) 2022-11-04 2022-11-04 一种船舶电子信息系统维修保障措施决策方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211373765.0A CN115700632A (zh) 2022-11-04 2022-11-04 一种船舶电子信息系统维修保障措施决策方法及装置

Publications (1)

Publication Number Publication Date
CN115700632A true CN115700632A (zh) 2023-02-07

Family

ID=85121107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211373765.0A Pending CN115700632A (zh) 2022-11-04 2022-11-04 一种船舶电子信息系统维修保障措施决策方法及装置

Country Status (1)

Country Link
CN (1) CN115700632A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116976865A (zh) * 2023-09-22 2023-10-31 中国船舶集团有限公司第七一九研究所 基于大数据分析的船舶维修器件调配管理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116976865A (zh) * 2023-09-22 2023-10-31 中国船舶集团有限公司第七一九研究所 基于大数据分析的船舶维修器件调配管理系统
CN116976865B (zh) * 2023-09-22 2023-12-19 中国船舶集团有限公司第七一九研究所 基于大数据分析的船舶维修器件调配管理系统

Similar Documents

Publication Publication Date Title
WO2021109578A1 (zh) 业务运维中告警的预测方法、装置与电子设备
US11107182B2 (en) Translation of artificial intelligence representations
US20190005198A1 (en) Managing bundled claims adjudication using predictive analytics
CN105989441A (zh) 模型参数调整方法和装置
CN108681496A (zh) 磁盘故障的预测方法、装置及电子设备
CN109740689B (zh) 一种图像语义分割的错误标注数据筛选方法及系统
CN115700632A (zh) 一种船舶电子信息系统维修保障措施决策方法及装置
CN111967655A (zh) 一种短期负荷预测方法及系统
WO2022009010A1 (en) Model fidelity monitoring and regeneration for manufacturing process decision support
US20150088596A1 (en) Supply chain management using problem and remediation propagation modeling
CN109272165B (zh) 注册概率预估方法、装置、存储介质及电子设备
CN112800037B (zh) 工程造价数据处理的优化方法及装置
CN116185584A (zh) 一种基于深度强化学习的多租户数据库资源规划与调度方法
CN109344047B (zh) 系统回归测试方法、计算机可读存储介质和终端设备
US11481267B2 (en) Reinforcement learning approach to root cause analysis
CN111190800B (zh) 预测主机的批量运行时长的方法、系统、装置及存储介质
Ho et al. Application of Gorilla Troops’ Social Intelligence in Damage Detection for a Girder Bridge
CN113033826B (zh) 基于区块链的模型联合训练方法、装置、设备和介质
Guan et al. Constructing interdependent risks network of project portfolio based on bayesian network
CN113935031B (zh) 文件特征提取范围配置及静态恶意软件识别的方法、系统
CN112257863B (zh) 网络参数确定方法、装置、区块链的节点及存储介质
WO2023095240A1 (ja) 支援装置、支援方法、および支援プログラム
EP4184328A1 (en) Medical imaging device fault handling
CN117194234A (zh) 软件测试方法、装置、设备及存储介质
Botelho et al. Strategic Review of Models: Model Assessment Framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination