CN110909465B

CN110909465B - 一种基于智能体学习的合作博弈集群视情维修方法

Info

Publication number: CN110909465B
Application number: CN201911140228.XA
Authority: CN
Inventors: 冯强; 海星朔; 任羿; 王自力; 孙博; 杨德真
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2021-08-31
Anticipated expiration: 2039-11-20
Also published as: CN110909465A

Abstract

本发明公开了一种基于智能体学习的合作博弈集群视情维修方法。步骤如下：1.选择任务执行对象，制定初始维修策略。2.计算收益，若满足任务和维修限制要求，则进入步骤八；否则，进入步骤三。3.计算每一轮学习中的学习信号。4.调整策略，选择博弈参与者。5.剔除不符合优化方向的策略，生成策略减少空间。6.选择策略减少空间，构成编队层次的维修策略，建立博弈矩阵。7.计算当前动作集合下的收益。若收益值大于等于零，则为可行解策略；若有多种可行解策略，则选择最大收益值策略作为帕累托平衡解，并进入到下一步骤。8.输出方案收益，判断是否满足退火收敛条件，若满足，则终止博弈并输出最优方案；否则，进入下一轮博弈。

Description

一种基于智能体学习的合作博弈集群视情维修方法

所属技术领域

本发明提供了一种基于智能体学习的合作博弈集群视情维修方法，尤其使用了一种基于智能体学习的合作博弈方法，能够支持在多层次上的集群维修，属于可靠性工程领域。

背景技术

面向任务可靠性的装备集群维修是一个多层次的维修决策过程，维修决策需要在多个层次上制定。在装备集群和设备层次上的可靠性模型是非常复杂的，从而对制定多层次的维修策略带来巨大挑战。所以基于装备状态的视情维修在装备集群编队的任务过程中被广泛应用，是维持和保证装备集群的任务成功所必要的手段。采用基于装备状态的视情维修可以在保证任务可靠性的同时降低维修损耗，节约维修成本。当前针对装备集群的视情维修通常只是在的特定组件、单元或模块进行，缺少面向装备集群进行多层次的维修，无法有效综合编队、装备、分系统(或组件)多层次状态提出更加合理的维修策略。装备集群的视情维修应该在满足任务可靠性的基础上，通过合理的建立维修模型，选择合适的维修策略，从而在保证任务可靠性基础上有效的降低维修成本，减少资源消耗，提高维修效率。在此类问题中既需要考虑装备编队、装备对象、装备组件的状态以及任务可靠性，还需要综合考虑维修费用、维修时间、维修资源等约束，本质上这类问题属于多约束条件下的维修策略选择决策问题。

本发明针对考虑装备集群多层次的视情维修的维修规划问题，根据智能体学习的思想提出了一种合作博弈的集群维修策略制定方法，可以为具有以上特征的集群维修问题提供支撑。

发明内容

本发明旨在为装备的集群维修提供一种基于智能体学习的合作博弈方法，该方法能够有效针对装备集群的多层次维修的特征，从而为集群的视情维修提供技术支持。

本方法的目的是提出一种基于智能体学习的合作博弈集群视情维修方法，该方法主要包括以下几个步骤。

步骤一：制定初始的维修策略。

在装备集群任务前，根据任务要求以及装备对象的状态，选择任务执行对象，并制定初始的维修策略。

步骤二：判断初始维修策略下的收益。

根据初始的维修策略，计算在该策略下的维修收益，如果能够满足任务要求和维修限制要求，则进入步骤八；如果没有达到则进入到合作博弈算法流程，进入步骤三。

步骤三：计算装备对象的学习信号。

确定学习信号是为了有效减少维修策略的博弈空间，提高找到最优维修策略的可能性。每个装备作为博弈参与者都有四种状态，在学习过程中需要根据装备的四种状态来确定在第r轮博弈中中装备i的学习信号A_i(r)，根据状态可以得到3种学习信号。

步骤四：选择需要改变维修策略的博弈参与者。

在下一轮博弈中，所有的装备对象都会有三种学习信号，根据学习信号做出相应的策略调整，必须要调整策略的装备记为Ad₁,Ad₂,...,Ad_h，需要调整的博弈参与者的数量不能超过4。

步骤五：生成博弈者的策略减少空间。

在下一轮的博弈时，装备i在第r+1轮博弈中的初始维修策略空间SS_i(r+1)包含的策略数量总是2ⁿ(n为非零自然数)，为了提高博弈效率，需要在进入下一轮博弈之前根据博弈算法与学习信号，将不符合优化方向的策略剔除出初始策略空间并形成策略减少空间SS′_r(r+1)。

步骤六：建立博弈矩阵。

在第r+1轮博弈中，如果从每个需要进行策略调整的装备Ad_i的策略减少空间SS′_r(r+1)中选择一个策略，则这些策略将构成编队层次的维修策略。如果SS′_r(r+1)的策略数量是n_i，则博弈矩阵中的元素数量为

步骤七：计算动作集合的收益并找到帕累托平衡解。

在第r+1轮博弈中每个博弈者选择维修策略之后则构成一个动作集合A{k₁,k₂,...,k_h}，根据每个博弈者的收益可以计算得到当前动作集合下的收益

如果采取的动作集合下的收益

则当前的动作下的策略可以视为可行性策略，如果有多种可行解策略，则需选择收益最大的动作策略作为帕累托平衡解，并进入到下一步骤判断。

步骤八：根据退火算法判断是否结束循环。

每一轮博弈后会得到一个帕累托平衡解，并输出方案收益。进一步判断是否满足退火收敛，如果满足则终止博弈流程并将此轮平衡解方案最为最优方案；如果没有满足则重新进入下一轮博弈。

附图说明

图1多层次装备维修决策过程示意

图2基于智能体学习的合作博弈基本流程

图3智能体学习博弈的基本过程原理

具体实施方式

为使本发明的技术方案、特征及优点得到更清楚的了解，以下结合附图，作详细说明。

本发明提供了一种基于智能体学习的合作博弈装备集群视情维修决策方法，能够在如图1所示的多层次上的集群维修决策上提供支持。

本发明的整体架构，见图2所示，下面以实例进一步说明本发明的实质内容，但本发明的内容并不限于此。

步骤一：制定初始的维修策略。

在装备集群任务前根据任务要求以及装备对象的状态，选择任务执行对象，并制定初始的维修策略，如图1所示，装备的现场可更换模块(LRM)的寿命状态可以分成三种：必须维修状态、随机维修状态、不需要维修状态。

装备i的第j个LRM的维修状态可以使用u_ij表示，u_ij＝1表示该LRM是维修状态，u_ij＝0表示该LRM没有处于维修状态。

例1，某机群包含15架飞机，每个飞机包含6个关键LRM，每个LRM的寿命服从正态分布N(μ,σ²)，机群的任务可靠度的门限值R_m为(1-10^-9)，每次任务出动8架飞机，每次任务时长2小时，任务出动选择状态较好的8架(2，3，4，8，10，12，13，15)飞机执行任务，但是任务可靠度为0.9999187621没有满足任务可靠度要求，所以制定了初始的维修方案：[0,0,0,1,0,0]^T,[0,0,0,0,0,0]^T,[0,0,0,0,0,0]^T,[0,0,0,1,0,0]^T,[0,1,0,0,0,0]^T,[0,1,0,0,0,0]^T,[0,0,0,0,0,1]^T,[0,0,1,0,0,0]^T。

步骤二：判断初始维修策略下的收益。

根据初始的维修策略，计算在该策略下的维修收益，如果能够满足任务要求和维修限制要求，则直接结束；如果没有达到则进入到合作博弈算法流程，进入步骤三。

例2，接例1。当根据初始的维修策略进行维修后，经过仿真计算可以得到维修后的任务可靠度R_f为0.9999792129，花费11400，虽然任务可靠度提升但是仍然没有满足任务可靠度要求，所以需要进入到和合作博弈环节寻找优化解。

步骤三：计算装备对象的学习信号。

确定学习信号是为了有效减少维修策略的博弈空间，提高找到最优维修策略的可能性，每个装备作为博弈参与者都有四种状态，在学习过程中需要根据装备的四种状态来确定在第r轮博弈中装备i的学习信号A_i(r)，根据状态可以得到3种学习信号。

根据学习信号可以减少在博弈过程中的选择策略的数量，在本算法中装备i的学习信号A_i(r)的值分别是1，0，-1。当A_i(r)＝1时表示智能体的学习方向应该是向降低维修成本方向学习；当A_i(r)＝-1时表示智能体的学习方向应该是向提高和保证任务可靠性的学习；其余情况下A_i(r)＝0表示智能体保持当前的策略，基于智能体的学习基本过程如图3所示。

智能体的学习的方向应该根据维修策略后编队总收益和装备的状态进行调整。根据图装备的状态可以分成四种：不维修且待机状态，维修并待机状态，不维修并任务状态，维修并且任务状态。装备维修策略变化后，编队的总收益W>0，此时应该向提高W的方向进行学习；当W＝0时，此时的学习的方向应该向保证编队任务可靠度的方向进行学习。

例3，接例2.当编队的任务可靠度没有达到任务可靠度的门限值时，此时W＝0，智能体学习的方向应该向保证编队任务可靠度的方向进行学习，例如在调整维修策略时可以增加装备维修的分系统数量。

步骤四：选择需要改变维修策略的博弈参与者

例4，接例2。根据机群15架飞机的状态，选择出状态较好的8架(2，3，4，8，10，12，13，15)飞机执行任务，在初始维修成策略下不能满足任务要求，在进入到博弈学习的环节中，可以选择2，4，8，12作为博弈参与者并记为Ad₂,Ad₄,Ad₈,Ad₁₀。

步骤五：生成博弈者的策略减少空间

在第r+1轮博弈中，装备i的初始维修策略空间SS_i(r+1)包含的策略数量总是2ⁿ(为n非零自然数)，为了提高博弈效率，需要在进入下一轮博弈之前根据博弈算法与学习信号，将不符合优化方向的策略剔除出初始策略空间并形成装备i在第r+1轮博弈中的策略减少空间SS′_i(r+1)。

首先为了提高博弈效率，可以采用多次小博弈来减少SS_i(r+1)。规定装备i在第r轮博弈的初始策略S_i(r)在每次变化中只调整一个元素，则SS_i(r+1)中包含的策略数量减少为n+1,SS_i(r+1)可以表示为：

SS_i(r+1)＝[S_i(r),S_i(r+1)¹,S_i(r+1)²,...,S_i(r+1)^k,...,S_i(r+1)ⁿ]

其中，S_i(r+1)^k(k为小于n的非零自然数)表示在下一轮博弈中初始维修策略只调整第i个元素。

当选择在SS_i(r+1)中维修策略S_i(r+1)^k后，应该计算对应的维修花费和风险，该策略下的花费和风险分别为：

其中，

是装备i在维修策略S_i(r+1)^k下的可靠度，可以根据装备的可靠性框图来计算。

如果学习信号A_i(r)＝1，当ΔC_ik≤0时，S_i(r+1)^k是可行性的策略；如果A_i(r)＝-1，当ΔR_ik≥0时，S_i(r+1)^k是可行性的策略，装备i的装备策略减少空间SS′_i(r+1)是由所有的可行性策略组成的。

例5，如果某装备的维修初始策略是S_i(r)是[0,0,0,1]^T，则SS_i(r+1)是{[0,0,0,1]^T，[1,0,0,0]^T，[0,1,0,0]^T，[0,0,1,0]^T，[0,0,0,0]^T}。当A_i(r)＝1时，[1,0,0,0]^T和0,0,1,0]^T对应的ΔC_ik≤0；当A_i(r)＝-1时，[0,0,0,0]^T对应的ΔR_ik≥0；此时这三个策略构成SS′_i(r+1)。

步骤六：建立博弈矩阵

在第r+1轮博弈中，如果从每个需要进行策略调整的博弈参与者Ad_i的策略减少空间SS′_i(r+1)中选择一个策略，则这些策略将构成编队层次的维修策略。如果SS′_i(r+1)的策略数量是n_i(n_i为非零自然数)，则博弈矩阵中的元素数量为

例6，在某机群中包含5架飞机，其中两架飞机需要调整维修策略，剩下的保持原有的维修策略。需要调整的飞机Ad₁和Ad₂的策略减少空间分别是{S_A,S_B}和{S_C,S_D,S_E},剩下的3架飞机的维修策略是S_X,S_Y和S_Z，则博弈矩阵中的元素数量为6，分别是{S_A,S_C,S_X,S_Y,S_Z}、{S_B,S_C,S_X,S_Y,S_Z}、{S_A,S_D,S_X,S_Y,S_Z}、{S_B,S_D,S_X,S_Y,S_Z}、{S_A,S_E,S_X,S_Y,S_Z}、{S_B,S_E,S_X,S_Y,S_Z}。

步骤七：计算动作集合的收益并找到帕累托平衡解

如果采取的动作集合下的收益

则当前的动作下的策略可以视为可行性策略，如果有多种可行解策略，则需选择收益最大的动作策略作为帕累托平衡解，并进入到下一步骤进行判断。

装备i的收益可以计算为：

其中，s是切换因子，当R_f在第r+1轮博弈中大于R_m，s＝1，否则s＝0；g是惩罚因子，当在第r轮博弈中维修策略满足可靠性要求但是在第r+1轮中不满足时，此时g＝-1，否则g＝0。

当在当作集合A{k₁,k₂,...,k_h}，根据每个博弈者的收益可以计算得到当前动作集合下的收益：

则帕累托平衡解可以表达为：

例7，接例1-4。经过博弈过程的仿真计算，选择出的最佳方案为：飞机出动的变成1，3，4，5，7，8，10，对应的维修策略分别是[0,0,0,1,0,0]^T,[0,0,0,0,0,0]^T,[0,0,0,0,0,0]^T,[1,0,0,0,0,0]^T,[0,0,0,1,0,0]^T,[0,0,1,0,0,0]^T,[0,0,0,1,0,0]^T,[0,0,0,0,0,1]^T，并且满足任务可靠性要求以及维修时间限制要求。

步骤八：根据退火算法判断是否结束循环

每一轮博弈后会得到一个帕累托平衡解，并输出方案收益。进一步判断是否满足退火收敛，如果满足，则终止博弈流程并将此轮平衡解方案最为最优方案；如果没有满足，则重新进入下一轮博弈。

根据退出博弈参数λ来决定是否退出合作博弈算法，否退出合作博弈算法，当λ<δ时(δ∈(0,0.0001])，结束博弈。采用模拟退火的方式，令博弈的概率随时间降低。博弈参数可表示为

其中，W_r是在第r轮博弈中工作装备的任务总收益，Tc_k是退火温度，并随退火次数k降低。

退火温度在算法中的表示为：

Tc_k+1＝γTc_k

其中，γ是退火系数。

例8，接例1-4。设此时的δ是0.001，退火系数γ＝0.7。根据仿真计算结果，当进行了22次博弈合作之后收益不再变化，经过连续退火8次操作可以得到最终的优化解，此时λ＝0.000202小于0.001，满足收敛条件，退出合作博弈。

Claims

1.基于智能体学习的合作博弈集群视情维修方法，其特征在于，它包含以下步骤：

第一步：制定初始维修策略：根据任务要求和装备对象的现场可更换模块(LRM)的三种寿命状态，即必须维修状态、随机维修状态、不需要维修状态以及LRM的维修状态，选择任务执行对象，并制定初始的维修策略；

第二步：判断初始维修策略下的收益：根据初始的维修策略，计算在该策略下的维修收益，如果能够满足任务要求和维修限制要求，则进入第八步；如果没有达到，则进入到合作博弈算法流程，进入第四步；

第三步：计算装备对象的学习信号：根据装备的四种状态来确定其三种学习信号，根据学习信号可以减少在博弈过程中的选择策略的数量，可初步确定三种学习方向，再根据维修后集群总收益和装备的状态对学习方向进行调整；

第四步：选择需要改变维修策略的博弈参与者：根据装备的三种学习信号作出相应的策略调整，其中需要调整的博弈参与者的数量不能超过4；

第五步：生成博弈者的策略减少空间：在进入下一轮博弈前，根据博弈算法，减少初始维修策略空间；规定装备初始策略在每次变化中只调整一个元素，计算对应的维修花费和风险，将不符合优化方向的策略剔除出初始策略空间；根据学习信号，形成由所有可行性策略组成的策略减少空间；

第六步：建立博弈矩阵：在下一轮博弈中，从每个需要进行策略调整的博弈参与者的策略减少空间中选择一个策略，构成编队层次的维修策略，根据策略减少空间中策略数量计算博弈矩阵中的元素数量；

第七步：计算动作集合的收益并找到帕累托平衡解：选择维修策略构成动作集合，根据每个博弈者的收益计算得到当前动作集合下的收益；根据收益值和可行解策略数量，判断当前的动作下的可行性策略，并选择收益最大的动作策略作为帕累托平衡解；

第八步：根据退火算法判断是否结束循环：根据每一轮博弈后会得到一个帕累托平衡解和收益，进一步判断是否满足退火收敛条件，如果满足，则终止博弈流程并将此轮平衡解方案最为最优方案；如果不满足，则重新进入下一轮博弈。

2.根据权利要求1所述的基于智能体学习的合作博弈集群视情维修方法，其特征在于：在第一步中所述的“制定初始维修策略”中，用u_ij表示装备i的第j个现场可更换模块(LRM)的维修状态可以使用，u_ij＝1表示该LRM是维修状态，u_ij＝0表示该LRM没有处于维修状态；装备的LRM的寿命状态可以分成三种：必须维修状态、随机维修状态、不需要维修状态；在装备集群任务前，根据任务要求以及装备对象的状态，选择任务执行对象，制定初始的维修策略。

3.根据权利要求1所述的基于智能体学习的合作博弈集群视情维修方法，其特征在于：在第二步中所述的“判断初始维修策略下的收益”中，根据初始的维修策略，计算在该策略下的维修收益，如果能够满足任务要求和维修限制要求，则进入第八步；如果没有达到则进入到合作博弈算法流程，进入第四步。

4.根据权利要求1所述的基于智能体学习的合作博弈集群视情维修方法，其特征在于：在第三步中所述的“计算装备对象的学习信号”中，在学习过程中需要根据每个装备作为博弈参与者的四种状态，即不维修且待机、维修并待机、不维修并且任务、维修并且任务状态，确定在第r轮学习中装备i的学习信号A_i(r)；根据状态可以得到三种学习信号值分别为1，0，-1，根据与学习信号可以减少在博弈过程中的选择策略的数量，可确定智能体的学习方向为向降低维修成本方向学习、向提高和保证任务可靠性方向学习和保持当前策略；根据维修后的集群总收益和装备的状态对学习方向进行调整，若编队的总收益W>0，应向提高W的方向进行学习；若W＝0，应向保证集群任务可靠度的方向进行学习。

5.根据权利要求1所述的基于智能体学习的合作博弈集群视情维修方法，其特征在于：在第四步中所述的“选择需要改变维修策略的博弈参与者”中，在下一轮博弈中，集群中的装备对象作为博弈参与者均有三种学习信号，根据学习信号作出相应维修策略调整，必须要调整策略的参与者记为Ad₁,Ad₂,...,Ad_h，需要调整的博弈参与者的数量不能超过4。

6.根据权利要求1所述的基于智能体学习的合作博弈集群视情维修方法，其特征在于：在第五步中所述的“生成博弈者的策略减少空间”中，在进入第r+1轮博弈之前，根据博弈算法，采用提升博弈效率的多次小博弈，减少装备i的初始维修策略空间SS_i(r+1)；规定装备i的在第r轮博弈的初始策略S_i(r)在每次变化中只调整一个元素，则SS_i(r+1)中包含的策略数量减少为n+1(n为不为零的自然数)；当选择在SS_i(r+1)中的第k个维修策略S_i(r+1)^k(k为小于n的非零自然数)后，计算对应的维修花费ΔC_ik和风险ΔR_ik，将不符合要求的策略剔除出初始策略空间；再综合学习信号A_i(r)、维修花费ΔC_ik、维修风险ΔR_ik的取值，形成由所有可行性策略组成策略减少空间SS′_i(r+1)。

7.根据权利要求1所述的基于智能体学习的合作博弈集群视情维修方法，其特征在于：在第六步中所述的“建立博弈矩阵”中，在第r+1轮博弈中，从每个需要进行策略调整的博弈参与者Ad_i的策略减少空间SS′_r(r+1)中选择一个策略，构成编队层次的维修策略；如果策略减少空间SS′_r(r+1)的策略数量是n_i，则博弈矩阵中的元素数量为

8.根据权利要求1所述的基于智能体学习的合作博弈集群视情维修方法，其特征在于：在第七步中所述的“计算动作集合的收益并找到帕累托平衡解”中，在下一轮博弈中，每个博弈参与者选择维修策略之后则构成一个动作集合A{k₁,k₂,...,k_h}，根据每个博弈者的收益可以计算得到当前动作集合下的收益

如果

则当前动作下的策略可以视为可行性策略，如果有多种可行解策略，则需选择收益最大的动作策略作为帕累托平衡解，并进入第八步进行判断。

9.根据权利要求1所述的基于智能体学习的合作博弈集群视情维修方法，其特征在于：在第八步中所述的“根据退火算法判断是否结束循环”中，根据每一轮博弈后得到的帕累托平衡解和收益，进一步判断是否满足退火收敛，若满足博弈参数λ<δ(δ∈(0,0.0001])，则终止博弈流程并将此轮平衡解方案作为最优方案；若不满足，则重新进入下一轮博弈。