CN113296413A

CN113296413A - 基于深度强化学习的多阶段装备发展规划方法及系统

Info

Publication number: CN113296413A
Application number: CN202110616596.8A
Authority: CN
Inventors: 刘鹏; 李际超; 夏博远; 杨克巍; 姜江; 葛冰峰; 杨志伟
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-08-24
Anticipated expiration: 2041-06-02
Also published as: CN113296413B

Abstract

本发明公开了一种基于深度强化学习的多阶段装备发展规划方法及系统，该方法包括：构建多阶段装备发展规划模型，该多阶段装备发展规划模型用于评估装备发展方案在面向每阶段投资预算和最终能力需求两种不确定条件的能力评价值；根据多阶段装备发展规划模型中的不确定条件构建对应的强化学习框架；基于DQN思想和强化学习框架，构建多阶段装备发展规划优化算法；基于多阶段装备发展规划优化算法，生成最优的多阶段装备发展方案。本发明针对由深度不确定条件下的任意一种随机环境，无需对算法做出任何调整即可快速响应，得到近似最优的多阶段装备发展方案。

Description

基于深度强化学习的多阶段装备发展规划方法及系统

技术领域

本发明属于装备发展规划技术领域，具体是涉及到一种基于深度强化学习的多阶段装备发展规划方法及系统。

背景技术

在装备发展规划过程中，受到现有技术和费用制约，装备难以一步达到最终规划能力，往往需要采取分阶段多周期发展满足能力需求。同时，随着外部各国军事力量的不断增强，军事任务复杂性不断增加，作战能力需求也在不断递增演化，需要装备不断发展以持续满足不断演化的能力需求。并且，在装备整个发展周期过程中，各阶段的能力水平均紧密关联，即对装备任一阶段的费用和时间等资源投入，都会影响到后期各个阶段的能力发展。由此可见，装备需要分阶段发展逐步满足能力需求，能力需求又在不断演化，装备组合的各阶段规划能力之间联系紧密，装备组合的体系贡献率呈现成动态演化的特性，这一系列因素均需要从多阶段视觉统筹考虑装备组合的规划发展。

此外，装备发展面临一系列不确定性。装备发展是以提高装备体系作战能力或作战效能为最终目标，这种不确定性来自于世界格局变化，以及全球威胁情景、国家安全战略调整和国土防御重点战略方向不可预测的变化等。这种不确定性造成装备发展过程中每阶段的能力需求、投资金额出现与预期不同的变化，同时造成整个体系演化过程中装备组合体系贡献率的不确定性。因此，要求在装备发展规划时需要在整个计划周期内对发展规划进行动态优化，以便在任意可能出现的未来环境中，所选组合装备对体系贡献率最大，能最大化满足相应的能力需求。

传统的面向未来不确定性的多阶段发展规划方法，一般分为两种。一种是基于概率的多阶段不确定决策方法，如马尔科夫决策过程、期望值规划等，需要对未来可能出现的场景赋予一定的概率，一般只产生一个最优解，一旦环境做出改变之后，需要重新耗时进行优化。另一种是随机规划方法，通过情景树不确定描述技术建模不确定信息的可能情景，并针对每种可能情景均产生一组可行规划方案，但无法保证所有情景下均是最优的。两种方法都需要预先基于历史数据或者专家经验等对不确定信息进行了解，然而在军事领域，对手经常采用出其不意的招数以达到期望效果，导致对未来场景的预测十分困难。但当今国防环境剧烈变化，这种高度复杂不确定的国防环境已经成为不可预测的对象，一旦未来实际情况不在预想的场景列表中，则必然产生一定影响甚至十分严重的后果。

发明内容

针对装备发展规划的深度不确定性和多阶段发展的特征，本发明提供一种基于深度强化学习的多阶段装备发展规划方法及系统。

第一方面，本发明实施例提供一种基于深度强化学习的多阶段装备发展规划方法，包括：

构建多阶段装备发展规划模型，所述多阶段装备发展规划模型用于评估装备发展方案在面向不确定条件的能力评价值；其中，所述不确定条件包括每阶段投资预算和最终能力需求；

根据所述多阶段装备发展规划模型中的所述不确定条件构建对应的强化学习框架；

基于DQN思想和强化学习框架，构建多阶段装备发展规划优化算法；

基于所述多阶段装备发展规划优化算法，生成最优的多阶段装备发展方案。

优选地，所述构建多阶段装备发展规划模型，包括：

根据每阶段投资预算判断装备发展方案是否为有效方案；

在所述装备发展方案为有效方案时，确定所述装备发展方案中所有待发展装备的已发展年份；

根据所述待发展装备的投资状态、所述已发展年份和预计发展年限确定待发展装备的发展状态；

根据待发展装备的发展状态和预期能力，获取多阶段结束后投资装备组合的实际能力；

根据最终能力需求和所述实际能力获取所述投资装备组合的体系贡献率，并将其标记为装备发展的能力评价值；

以所述装备发展方案、所述每阶段投资预算和所述最终能力需求为输入参数，并以所述能力评价值为输出参数构建多阶段装备发展规划模型；

其中，所述多阶段装备发展规划模型表示为：

max Q＝f(X,B,Rβ)，

where:

X＝[x_ij]_m×t,x_ij∈{0,1}；

B＝[b_i]_1×t；

Rβ＝[rβ_i]_1×n,rβ_i∈[1,9]；

其中，X＝[x_ij]_m×t为所述装备发展方案，m为待发展装备总量，t为阶段数量，x_ij为第j个阶段是否投资第i个待发展装备w_i，若x_ij＝1，则投资，若x_ij＝0，则不投资；B＝[b_i]_1×t为所述每阶段投资预算，b_i为第i个阶段的投资预算；Rβ＝[rβ_i]_1×n为最终能力需求，n为关心能力数量，rβ_i为第i项能力a_i的最终能力需求，

为每阶段的投资装备组合成本。

优选地，所述待发展装备的发展状态包括未发展状态、发展中状态和发展成功状态；所述根据所述待发展装备的投资状态、所述已发展年份和预计发展年限确定待发展装备的发展状态，包括：

判断所述待发展装备的是否已投资；

若未投资，则确定所述待发展装备处于未发展状态；

若已投资，则判断所述待发展装备的已发展年份是否大于等于预计发展年份；

若所述待发展装备的已发展年份小于预计发展年份，则所述待发展装备处于发展中状态；

若所述待发展装备的已发展年份大于等于预计发展年份，则所述待发展装备处于发展成功状态。

优选地，所述根据最终能力需求和所述实际能力获取所述投资装备组合的体系贡献率，并将其标记为装备发展的能力评价值，包括：

获取初始装备组合体系，并根据所述装备发展方案确定投资装备组合；

获取未加入所述投资装备组合之前所述初始装备组合体系的总体能力，并获取加入所述投资装备组合之后初始装备组合体系的总体能力；

根据加入所述投资装备组合前后所述初始装备组合体系的总体能力获取所述投资装备组合的体系贡献率，并将所述投资装备组合的体系贡献率记录为装备发展的能力评价值；

其中，所述投资装备组合的体系贡献率的计算公式为：

其中，

为所述投资装备组合V_x的体系贡献率，也即能力评价值Q；

为所述初始装备组合体系加入所述投资装备组合V_x后的总体能力，若任一项能力a_i的实际能力rα_i未达到a_i项能力的最终能力需求rβ_i，则

为0，若全部能力的实际能力rα_i均达到对应的最终能力需求rβ_i，则超过最终能力需求rβ_i越多，

越大；C_S为所述初始装备组合体系未加入所述投资装备组合V_x前的总体能力；

优选地，所述根据所述多阶段装备发展规划模型中的所述不确定条件构建对应的强化学习框架，包括：

基于所述多阶段装备发展规划模型构建多阶段发展规划环境，所述多阶段发展规划环境包含自定义环境、观测状态、动作和奖励；

构建记忆知识库，所述记忆知识库中包含当前阶段的观测状态、动作、下个阶段的观测状态以及即使奖励。

构建智能体，所述智能体包含神经网络、神经网络参数和损失函数。

优选地，所述基于所述多阶段装备发展规划模型构建多阶段发展规划环境，包括：

根据多阶段装备发展规划中的待发展装备总量、待发展装备成本、预计发展年限、关系能力数量、预期能力和最终能力需求构建自定义环境；

根据多阶段装备发展规划中的当前阶段、当前阶段的投资预算、待发展装备的已发展年份、发展状态构建每个阶段的观测状态；

根据每个阶段是否投资待发展装备的结果构建动作；

构建每个动作的即时奖励，并构建阶段结束后的回合奖励；

其中，所述每个动作的即时奖励为：

其中，reward[stage]为所述每个动作的即时奖励；reward[0]为初始奖励；δ[k,stage]为第k个装备的奖励分值，且奖励分值δ[k,stage]由当前阶段stage第k个装备的发展状态确定；invest[stage]为所述投资装备组合成本；b[stage]为投资预算；

所述阶段结束后的回合奖励为：

R_stage＝γ^t-stageQ，

其中，R_stage为当前阶段stage的分配奖励；γ^t-stage为当前阶段stage的折扣因子；Q为所述能力评价值。

优选地，所述神经网络包含预测神经网络和目标神经网络，所述神经网络参数包含网络层数和节点数；所述构建智能体，包括：

确定状态输入信息以及动作输出信息；所述状态输入信息包含当前阶段、当前阶段的装备发展状态、装备已发展年份、当前阶段的投资预算以及最终能力需求；所述动作输出信息为所述每个动作的价值；

根据所述神经网络参数、所述状态输入信息以及所述动作输出信息构建具有输入层、隐藏层和输出层的预测神经网络和目标神经网络；

构建损失函数，所述损失函数为：

其中，N为动作的数量；y_ti为所述目标神经网络输出的第i个动作a_i的实际价值；y_pi为所述预测神经网络输出的第i个动作a_i的预测价值。

优选地，所述多阶段装备发展规划优化算法包括多阶段发展规划环境与智能体的交互过程和智能体中神经网络的训练过程；所述多阶段发展规划环境与智能体的交互过程包括：

获取初始观测状态，将初始观测状态输入所述预测神经网络，并获得所述预测神经网络输出的当前阶段每个动作的预测价值；

根据ε-贪心策略选择目标动作；

将所述目标动作作用于所述自定义环境获得新观测状态，并计算所述目标动作的即时奖励；

将所述初始观测状态、所述目标动作、所述新观测状态以及所述即时奖励存储至所述记忆知识库中；

检测所述当前阶段是否为最后阶段，若是，则计算回合奖励，并根据预设的奖励分配机制对回合奖励进行再分配，得到每个阶段的分配奖励；否则使用所述新观测状态对所述初始观测状态进行状态更新，并返回步骤：将初始观测状态输入所述预测神经网络，并获得所述预测神经网络输出的当前阶段每个动作的预测价值；

所述智能体中神经网络的训练过程包括：

从所述记忆知识库中获取预设数量的记录样本作为训练样本构建训练集；

将所述训练集中的每一个所述训练样本输入所述预测神经网络和所述目标神经网络，获取所述预测神经网络输出的每个动作的预测价值，并获取所述目标神经网络输出的每个动作的真实价值；其中，所述每个动作的预测价值均对应一个真实价值；

根据所述每个动作的预测价值和真实价值获取每个动作的误差值，根据每个动作的误差值对预测神经网络进行迭代训练，每预设步使用所述预测神经网络对所述目标神经网络进行替换，直至达到迭代结束条件，输出最终的所述目标神经网络，同时提示迭代训练完成。

第二方面，本发明实施例提供一种基于深度强化学习的多阶段装备发展规划系统，包括：

模型构建模块，用于构建多阶段装备发展规划模型，所述多阶段装备发展规划模型用于评估装备发展方案在面向不确定条件的能力评价值；

学习框架构建模块，用于根据所述多阶段装备发展规划模型中的所述不确定条件构建对应的强化学习框架；

算法构建模块，用于基于DQN思想和强化学习框架，构建多阶段装备发展规划优化算法；

方案生成模块，用于基于所述多阶段装备发展规划优化算法，生成最优的多阶段装备发展方案。

优选地，所述模型构建模块包括：

方案有效检测单元，用于根据每阶段投资预算判断装备发展方案是否为有效方案；

年份确定单元，用于在所述装备发展方案为有效方案时，确定所述装备发展方案中所有待发展装备的已发展年份；

发展状态确定单元，用于根据所述待发展装备的投资状态、所述已发展年份和预计发展年限获取待发展装备的发展状态；

能力确定单元，用于根据待发展装备的发展状态和预期能力，获取多阶段结束后投资装备组合的实际能力；

价值评价单元，用于根据最终能力需求和所述实际能力获取所述投资装备组合的体系贡献率，并将其标记为装备发展的能力评价值；

模型构建单元，用于以所述装备发展方案、所述每阶段投资预算和所述最终能力需求为输入参数，并以所述能力评价值为输出参数构建多阶段装备发展规划模型；

其中，所述多阶段装备发展规划模型表示为：

max Q＝f(X,B,Rβ)，

where:

X＝[x_ij]_m×t,x_ij∈{0,1}；

B＝[b_i]_1×t；

Rβ＝[rβ_i]_1×n,rβ_i∈[1,9]；

为每阶段的投资装备组合成本。

由上述可知，本发明提出了一种基于深度强化学习的多阶段装备发展规划方法及系统，首先针对多阶段装备发展规划问题进行建模，并面向最终能力需求和每阶段投资预算这两种不确定条件构建对应的强化学习框架，进而基于DQN思想和强化学习框架构建多阶段装备发展规划规划算法，生成能力评价值最优的多阶段装备发展方案。本发明针对由深度不确定条件下的任意一种随机环境，无需对算法做出任何调整即可快速响应，得到近似最优的多阶段装备发展方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中基于深度强化学习的多阶段装备发展规划方法的流程图；

图2为本发明一实施例中基于深度强化学习的多阶段装备发展规划方法的步骤S10的流程图；

图3为本发明一实施例中多阶段发展规划环境与智能体的交互过程的示意图；

图4为本发明一实施例中智能体中神经网络的训练过程的示意图；

图5为本发明一实施例中收敛过程图；

图6为本发明一实施例中深度强化学习过程中的能力评价值图；

图7为本发明一实施例中基于深度强化学习的多阶段装备发展规划系统的结构示意图；

图8为本发明一实施例中基于深度强化学习的多阶段装备发展规划系统的模型构建模块的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，本发明一实施例提供了一种基于深度强化学习的多阶段装备发展规划方法，具体包括如下步骤：

步骤S10，构建多阶段装备发展规划模型，该多阶段装备发展规划模型用于评价装备发展方案面向不确定条件的能力评价值。

在本实施例中，装备发展方案为每个阶段投资了哪些装备，可以表示为X＝[x_ij]_m×t,x_ij∈{0,1}，其中，m为待发展装备总量，t为阶段数量，x_ij为第j个阶段是否投资第i个待发展装备w_i，若x_ij＝1，则待发展装备w_i为投资状态，若x_ij＝0，则待发展装备w_i为不投资状态。

不确定条件包含每阶段投资预算和最终能力需求。每阶段投资预算为每个阶段分别投资了多少预算金额，可以表示B＝[b_i]_1×t，其中，b_i为第i个阶段的投资预算。最终能力需求定义为多阶段规划结束后在各项能力上的需求能力等级，可以表示为Rβ＝[rβ_i]_1×n，其中，n为关心能力数量，rβ_i为第i项能力a_i的最终能力需求。可选地，需求能力等级设置为Z个能力等级，例如需求能力等级设置为9个能力等级，也即Z＝9，则rβ_i的取值范围为[1,9]。

能力评价值定义为根据装备发展方案所确定的装备组合的体系贡献率，也即深度强化学习过程中动作的价值。

作为优选，如图2所示，步骤S10具体包括以下步骤：

步骤S101，根据每阶段投资预算判断装备发展方案是否为有效方案。

也即，先确定装备发展方案中每阶段的投资装备组合成本，再判断每阶段的投资装备组合成本是否小于等于每阶段的投资预算，若是，则确定装备发展方案为有效方案，否则确定装备发展方案为无效方案。

其中，每阶段的投资装备组合成本可以表示为

e_i为第i个待发展装备w_i的成本，lα_i为第i个待发展装备w_i的预期发展年限。

步骤S102，在装备发展方案为有效方案时，确定装备发展方案中所有待发展装备的已发展年份。

其中，待发展装备的已发展年份可以表示为Lβ＝[lβ_i]_1×m，lβ_i为第i个待发展装备w_i的已发展年份。

步骤S103，根据待发展装备的投资状态、已发展年份和预计发展年限获取待发展装备的发展状态。

其中，待发展装备的预期发展年份可以表示为Lα＝[lα_i]_1×m，lα_i为第i个待发展装备w_i的预计发展年限。

待发展装备的发展状态可以表示为S＝[s_i]_1×m，s_i为第i个待发展装备w_i的发展状态，具体取值如下：

公式(1)，若s_i＝0，则待发展装备w_i为未发展状态，若s_i＝1，则待发展装备w_i为发展中状态，若s_i＝2，则待发展装备w_i为发展成功状态。

也即，首先判断待发展装备w_i是否已投资，若否，则直接确定待发展装备w_i处于未发展状态，若是，则进一步根据待发展装备w_i的已发展年份lβ_i和预计发展年份lα_i判断待发展装备w_i是否发展成功，也即判断待发展装备w_i的已发展年份lβ_i是否大于等于预计发展年份lα_i，若否，则确定待发展装备w_i处于发展中状态，否则待发展装备w_i处于发展成功状态。需要说明的是，处于发展中状态的待发展装备w_i，已经过至少一轮投资，但其已发展年份lβ_i小于已发展年份lα_i。

步骤S104，根据待发展装备的发展状态和预期能力，获取多阶段结束后投资装备组合的实际能力。

其中，待发展装备的预期能力为待发展装备发展成功后在各项能力上的预期能力级别，可以表示为C＝[c_ij]_m×n，c_ij为第i个待发展装备w_i在第j项能力a_j上的预期能力级别。可选地，预期能力级别可以设置为Z个能力等级，例如Z个能力等级为9个能力等级，相应地，c_ij的取值范围为[1,9]。

多阶段结束后投资装备组合的实际能力为投资装备组合在各项能力上能够达到的能力级别，可以表示为Rα＝[rα_j]_1×n，rα_j为投资装备组合在第j项能力a_j上可以达到的能力级别，且rα_j的取值范围为[0,9]。

在步骤S104中，首先对于一个投资装备组合，包含k个成功发展装备和m-k个未成功发展装备，将投资装备组合中每个成功发展装备对应的预期能力得到保留，以及将投资装备组合中每个未成功发展装备对应的预期能力置为0；其次对于关系能力集合A＝{a₁,a₂,…,a_j,…,a_n}中的每一项能力a_j，获取所有成功发展装备的能力最大值，也即，在多个成功发展装备同时具有a₁项能力，则获取最大值作为a₁项能力的最终值，此时有

其中，s_i为第i个待发展装备w_i的发展状态，C_i×j为待发展装备w_i在a_j项能力上的预期能力等级。

步骤S105，根据最终能力需求和实际能力获取投资装备组合的体系贡献率，并将其标记为装备发展的能力评价值。

作为优选，首先获取初始装备组合体系，并根据装备发展方案确定投资装备组合；然后获取未加入投资装备组合之前初始装备组合体系的总体能力，并获取加入投资装备组合之后初始装备组合体系的总体能力；最后根据加入投资装备组合前后初始装备组合体系的总体能力获取投资装备组合的体系贡献率，并将投资装备组合的体系贡献率记录为装备发展的能力评价值，且在后续的深度强化学习中，将作为动作的价值。需要说明的是，投资装备组合中只有成功发展的装备才具备其对应的能力。

其中，投资装备组合的体系贡献率的计算公式为：

公式(2)中，

为投资装备组合V_x的体系贡献率，也即能力评价值Q；

为初始装备组合体系加入投资装备组合V_x后的总体能力，若任一项能力a_i的实际能力rα_i未达到a_i项能力的最终能力需求rβ_i，则

越大；C_S为初始装备组合体系未加入投资装备组合V_x前的总体能力。

步骤S106，以装备发展方案、每阶段投资预算和最终能力需求为输入参数，并以能力评价值为输出参数构建多阶段装备发展规划模型。

通过步骤S101至步骤S105可知，在描述多阶段装备发展规划中，针对不同的每阶段投资预算和最终能力需求，同一种装备发展方案将会产生不同的结果，最终构建的多阶段装备发展规划模型为：

max Q＝f(X,B,Rβ)

where:

X＝[x_ij]_m×t,x_ij∈{0,1}；

B＝[b_i]_1×t；

Rβ＝[rβ_i]_1×n,rβ_i∈[1,9]；

公式(3)中，每阶段的投资装备组合成本

小于等于每阶段的投资预算b_j。

步骤S20，根据多阶段装备发展规划模型中的不确定条件构建对应的强化学习框架。

在本实施例中，强化学习框架包含多阶段发展规划环境、记忆知识库和智能体。多阶段发展规划环境包含自定义环境、状态、动作和奖励，智能体包括神经网络、神经网络参数和损失函数。作为优选，步骤S20包括以下步骤：

步骤S201，基于多阶段装备发展规划模型构建多阶段发展规划环境，该多阶段发展规划环境包含自定义环境、观测状态、动作和奖励。

(1)自定义环境构建：根据多阶段装备发展规划中的待发展装备总量、待发展装备成本、预计发展年限、关系能力数量、预期能力和最终能力需求等信息构建自定义环境，自定义环境可以表示为：scene＝{m,E,Lα,n,C,Rβ}，除最终能力需求为自定义环境的可变因素之外，其他因素均为固定因素。

其中，scene为自定义环境；m为待发展装备总量；E为待发展装备成本，可以表示为E＝[e_i]_1×m，e_i为第i个待发展装备w_i的成本；Lα为待发展装备w_i的预计发展年限，可以表示为Lα＝[lα_i]_1×m，lα_i为第i个待发展装备w_i的预计发展年限；n为关系能力数量；C为待发展装备的预期能力可以表示为C＝[c_ij]_m×n，c_ij为第i个待发展装备w_i在第j项能力a_j上的预期能力等级；Rβ为最终能力需求，可以表示为Rβ＝[rβ_i]_1×n，rβ_i为多阶段发展规划结束后在第i项能力a_i上的需求能力等级。可选地，预期能力等级设置为Z个能力等级，例如，Z＝9，相应的rβ_i的取值范围为[1,9]。

(2)观测状态构建：根据多阶段装备发展规划中的当前阶段、当前阶段的投资预算、待发展装备的已发展年份、发展状态等信息构建每个阶段的观测状态，每个阶段的观测状态可以表示为：obser＝{b^stage,Lβ^stage,S^stage}。

其中，obser为观测状态；b_stage为当前阶段stage＝1,2,…,t下的投资预算；Lβ^stage为待发展装备的已发展年份，可以表示为Lβ＝[lβ_i]_1×m，lβ_i为第i个待发展装备w_i的已发展年份；S^stage为待发展装备的发展状态，可以表示为S＝[s_i]_1×m,s_i∈{0,1,2}，s_i为第i个待发展装备w_i的发展状态，若s_i＝0，则确定待发展装备w_i为未发展，若s_i＝1，则确定待发展装备w_i为发展中，若s_i＝2，则确定待发展装备w_i为发展成功。

在多阶段装备发展规划中，根据当前阶段的观测状态，通过学习确定采取何种动作才能达到最终能力需求。

(3)动作构建，根据每个阶段是否投资待发展装备的结果构建动作，动作可以表示为：

其中，action^stage为每个阶段stage＝1,2,…,t下的动作；

为第j个阶段stage_j是否投资装备w_i，若

则投资，若

则不投资。所有阶段的动作组成一个多阶段装备发展方案。

进一步地，根据当前阶段的观测状态和动作进行状态更新，得到下个阶段的观测状态。假设在当前阶段stage＝1,2,…,t-1时的观测状态为obser^stage，在行动action^stage下，可以得到下个阶段的观测状态obser^stage+1，可以表示为：

where:

Lβ^stage+1＝Lβ^stage+action^stage；

公式(4)中，通过状态更新得到的下个阶段的观测状态分为两种情形，一种情形是当前阶段的行动成本超出投资预算(即当前阶段投资的装备组合成本大于投资预算)，对于该种情况，在深度强化学习过程中，若当前阶段的行动成本超出投资预算，则确定当前阶段的投资行动无效，以让AI理解超出投资预算的投资行动是不值得奖励的。另一种情形是当前阶段的行动成本未超出投资预算(即当前阶段投资的装备组合成本小于等于投资预算)，状态更新过程受到当前阶段的行动影响，被投资的装备已发展年份增加一个阶段的时间，若达到预设发展年限，则该装备成功发展，但剩余的投资预算不再转入下个阶段，以使AI最大限度地利用每个阶段的投资预算。

(4)奖励构建，构建每个动作的即时奖励，并构建阶段结束后的回合奖励。其中，每个动作的即时奖励可以表示为：

公式(5)中，reward[stage]为每个动作的即时奖励；reward[0]为初始奖励；δ[k,stage]为第k个装备的奖励分值；invest[stage]为投资的装备组合成本；b[stage]为投资预算。奖励分值取决于当前阶段stage第k个装备的发展状态，也即取决于当前阶段是否投资第k个装备，投资的第k个装备的已发展年份是否大于预期发展年限以及当前阶段stage是否对已发展成功的第k个装备进行再投资。可选地，对于第k个装备的奖励分值δ[k,stage]，若第k个装备处于未投资状态，则δ[k,stage]为0；若第k个装备处于发展中状态，则δ[k,stage]为0.5；若第k个装备处于发展成功状态，则δ[k,stage]为1；若第k个装备处于二次投资状态，也即，对已发展成功的第k个装备进行再投资，则δ[k,stage]为-1，也即，δ[k,stage]＝{0,0.5,1,-1}。

阶段结束后的回合奖励可以表示为：

R_stage＝γ^t-stageQ (6)

公式(6)中，R_stage为当前阶段stage的分配奖励；γ^t-stage为当前阶段stage的折扣因子；Q为装备发展的能力评价值。

步骤S202，构建记忆知识库，该记忆知识库中包含当前阶段的观测状态、动作、下个阶段的观测状态以及即使奖励。

也即，将当前阶段的观测状态(也即初始观测状态)、选择的动作、该动作的即使奖励以及该动作作用于自定义环境之后产生的下个阶段的观测状态(也即新观测状态)作为一条记录存储至记忆知识库，从而完成记忆知识库的构建。

步骤S203，构建智能体，该智能体包含神经网络、神经网络参数和损失函数。

在该步骤中，神经网络包含预测神经网络和目标神经网络，神经网络参数包含网络层数和节点数。需要说明的是，预测神经网络和目标神经网络的参数相同，也即预测神经网络和目标神经网络的网络结构相同。

首先，确定状态输入信息以及动作输出信息。其中，该状态输入信息包含当前阶段、当前阶段的装备发展状态(包括未发展、发展中以及发展成功这三种状态)、装备已发展年份、当前阶段的投资预算以及最终能力需求这五种信息，针对这五种信息，根据不同的信息类型进行归一化处理，得到处理后的状态输入信息。该动作输出信息为每个动作的价值(即每种装备组合的能力评价值)，针对每个阶段，m个装备共有2^m种投资装备组合方式，每一种投资装备组合方式对应一个动作的价值。

其次，根据神经网络参数、状态输入信息以及动作输出信息构建具有输入层、隐藏层和输出层的预测神经网络和目标神经网络，预测神经网络和目标神经网络的输入层节点和输出层节点分别对应每阶段的状态输入和动作输出，隐藏层节点的数量根据具体情况设置。

最后，构建损失函数，该损失函数可以表示为：

公式(7)中，N为动作的数量，即训练样本的数量；y_ti为目标神经网络输出的第i个动作a_i的实际价值；y_pi为预测神经网络输出的第i个动作a_i的预测价值。该实际价值y_ti根据每个阶段每个动作的即时奖励以及每个回合结束后的分配奖励确定，具体表示为：

公式(8)中，J为最大迭代次数；j为当前迭代次数；r_i ^j为第j次迭代的第i个动作a_i的即时奖励；γmax_a′Q′(φ_j+1,a′；θ^-)为第j次迭代的分配奖励，γ为折扣因子，Q′(φ_j+1,a′；θ^-)为能力评价值，且能力评价值Q由状态φ以及动作a确定；θ^-为目标神经网络的参数。

预测价值y_pi仅由能力评价值Q确定，具体表示为：

y_p＝Q(φ_j,a_j；θ) (9)

公式(9)中，θ为预测神经网络的参数。

步骤S30，基于DQN思想和强化学习框架，构建多阶段装备发展规划优化算法。

在本实施例中，多阶段装备发展规划优化算法包括多阶段发展规划环境与智能体的交互过程和智能体中神经网络的训练过程。

如图3所示，多阶段发展规划环境与智能体的交互过程包括以下步骤：

步骤S301，获取初始观测状态obser，将初始观测状态obser输入预测神经网络，并获得预测神经网络输出的当前阶段stage每个动作

的预测价值y_p。

步骤S302，根据ε-贪心策略选择目标动作action。具体的，ε-贪心策略选择目标动作是指以ε的概率选择价值最大的动作，以及以1-ε的概率随机选择动作。

步骤S303，将目标动作action作用于自定义环境scene获得新观测状态obser^stage ⁺¹，并计算目标动作的即时奖励reward。

步骤S304，将初始观测状态obser、目标动作action、新观测状态obser^stage+1以及即时奖励reward存储至记忆知识库中。

步骤S306，检测当前阶段是否为最后阶段，若是，则计算回合奖励，并根据预设的奖励分配机制对回合奖励进行再分配，得到每个阶段的分配奖励R；否则使用新观测状态obser^stage+1对初始观测状态obser进行状态更新，并返回步骤S301。

可理解的，在多阶段发展规划环境与智能体的交互过程中，一个回合包含t个阶段，每个阶段可以得到一组包含观测状态obser、目标动作action、新观测状态obser^stage+1以及即时奖励reward的记录样本。

如图4所示，智能体中神经网络的训练过程包括以下步骤：

步骤S307，从记忆知识库中获取预设数量的记录样本作为训练样本构建训练集。

步骤S308，将训练集中的每一个训练样本输入预测神经网络和目标神经网络，获取预测神经网络输出的每个动作的预测价值y_p，并获取目标神经网络输出的每个动作的真实价值y_t。其中，每个动作的预测价值y_p均对应一个真实价值y_t。

步骤S309，根据每个动作的预测价值y_p和真实价值y_t获取每个动作的误差值，根据每个动作的误差值对预测神经网络进行迭代训练，每预设步(每x步)使用预测神经网络对目标神经网络进行替换，直至达到迭代结束条件，输出最终的目标神经网络，同时提示迭代训练完成。可选地，达到迭代结束条件是指当前迭代次数达到最大迭代次数或者根据误差值和公式(7)所示的损失函数计算得到的损失值小于等于预设损失阈值。其中，预设步可以根据需求进行设置，例如100步。

可理解的，基于DQN思想和强化学习框架构建的多阶段装备发展规划优化算法，具体如下：

步骤S40，基于多阶段装备发展规划优化算法，生成最优的多阶段装备发展方案。

也即，基于步骤S30的多阶段装备发展规划优化算法，可以得到一个用于多阶段装备发展规划的神经网络，并将其标记为多阶段发展规划网络，针对两种不确定条件(包括每阶段投资金额和最终能力需求)确定的任意一种随机环境，可以通过多阶段发展规划网络得到一个能力评价值最优对应的多阶段装备发展方案。

综上可知，本实施例针对装备发展规划的深度不确定性和多阶段发展的特征，提出了一种基于深度强化学习的多阶段装备发展规划方法，首先针对多阶段装备发展规划问题进行建模，并面向最终能力需求和每阶段投资预算这两种不确定条件构建对应的强化学习框架，进而基于DQN思想和强化学习框架构建多阶段装备发展规划规划算法，生成能力评价值最优的多阶段装备发展方案。本实施例的基于深度强化学习的多阶段装备发展规划方法，针对由深度不确定条件下的任意一种随机环境，无需对算法做出任何调整即可快速响应，得到近似最优的多阶段装备发展方案。

示例说明如下：

本部分示例包含10个类型的待发展装备，考虑发展规划时长为10年，以每年为一个阶段，针对每个阶段进行装备发展决策，同时考虑最终能力需求为10种，以最后一个阶段完成后的成功发展装备满足能力需求的程度来评价多阶段装备发展方案。其中，装备的相关参数是固定，其成本和预计发展年限如表1所示，其发展成功后在10项能力上预计达到的能力等级如表2所示，最终能力需求和每阶段的投资金额是不确定的，仅能确定其取值范围。

表1待发展装备及其装备成本和预计发展年限

表2装备预计达到的能力等级

针对两种不确定条件，设置最终能力需求的取值范围为[0,3]，每阶段投资金额的取值范围为[50,80]，由于没有关于两种不确定因素的历史经验，其不确定条件是完全随机的。

进一步地，构建两种结构相同的神经网络，其中，输入层具有52个节点，隐藏层具有1500个阶段以及输出层有1024(2¹⁰)个节点，利用10个不同类型的待发展装备及其相关参数(预计发展年限、装备成本、预计能力等级)和两个不确定条件(最终能力需求和每阶段投资金额)对神经网络进行迭代训练，如图6所示的收敛过程图，可以看出在1万次训练之后损失值可以收敛到一个极小值τ(0＜τ＜＜0.05)。此外，如图7所示的强化学习过程能力评价值图，可以看出在1.5万次训练之后，能力评价值不再出现负值，能够学到满足所有能力需求的有效方案。

如表3所示的一种随机环境，针对该种随机环境，利用上述训练完成后的神经网络得到最优能力评价值对应的多阶段装备发展方案如表4所示，表4中，s_i所在列为装备的发展状态(0：未发展；1：发展中；2：成功发展)，a_i所在列为在s_i状态下做出的阶段决策，也即选择投资哪些装备(●：投资装备；○：不投资装备)。

表3

阶段	1	2	3	4	5	6	7	8	9	10
											阶段投资金额(千元)	71	59	60	63	68	73	63	79	70	/
能力需求	4	3	4	3	4	5	4	3	6	3

表4多阶段装备发展方案

在表3所示的环境下，上述方案可以成功发展装备为w1、w2、w3、w4、w5、w6、w8、w9，发展后的各项能力分别为9、8、7、7、8、7、8、8、8、9，能够全部满足相应的能力需求。

通过上述示例可以验证基于多阶段装备发展规划优化算法生成近似最优的多阶段装备发展方案是可行有效的。

此外，本发明实施例还提供一种基于深度强化学习的多阶段装备发展规划系统，该基于深度强化学习的多阶段装备发展规划系统与上述实施例中的基于深度强化学习的多阶段装备发展规划方法一一对应。如图7所示，该基于深度强化学习的多阶段装备发展规划系统包括模型构建模块110、学习框架构建模块120、算法构建模块130、方案生成模块140，各功能模块的详细说明如下：

模型构建模块110，用于构建多阶段装备发展规划模型，多阶段装备发展规划模型用于评估装备发展方案在面向不确定条件的能力评价值；

学习框架构建模块120，用于根据多阶段装备发展规划模型中的不确定条件构建对应的强化学习框架；

算法构建模块130，用于基于DQN思想和强化学习框架，构建多阶段装备发展规划优化算法；

方案生成模块140，用于基于多阶段装备发展规划优化算法，生成最优的多阶段装备发展方案。

进一步地，如图8所示，所述模型构建模块110包括方案有效检测单元111、年份确定单元112、发展状态确定单元113、能力确定单元114、价值评价单元115和模型构建单元116，各功能单元的详细说明如下：

方案有效检测单元111，用于根据每阶段投资预算判断装备发展方案是否为有效方案；

年份确定单元112，用于在装备发展方案为有效方案时，确定装备发展方案中所有待发展装备的已发展年份；

发展状态确定单元113，用于根据待发展装备的投资状态、已发展年份和预计发展年限获取待发展装备的发展状态；

能力确定单元114，用于根据待发展装备的发展状态和预期能力，获取多阶段结束后投资装备组合的实际能力；

价值评价单元115，用于根据最终能力需求和实际能力获取投资装备组合的体系贡献率，并将其标记为装备发展的能力评价值；

模型构建单元116，用于以装备发展方案、每阶段投资预算和最终能力需求为输入参数，并以能力评价值为输出参数构建多阶段装备发展规划模型。

进一步地，所述学习框架构建模块120包括环境构建单元、知识库构建单元和智能体构建单元，各功能单元的详细说明如下：

环境构建单元，用于基于多阶段装备发展规划模型构建多阶段发展规划环境，多阶段发展规划环境包含自定义环境、观测状态、动作和奖励；

知识库构建单元，用于构建记忆知识库，记忆知识库中包含当前阶段的观测状态、动作、下个阶段的观测状态以及即使奖励；

智能体构建单元，用于构建智能体，智能体包含神经网络、神经网络参数和损失函数。

进一步地，所述算法构建模块130包括交互模块，该交互模块包括价值预测单元、动作选择单元、存储单元和状态更新单元，各功能单元的详细说明如下：

价值预测单元，用于获取初始观测状态，将初始观测状态输入预测神经网络，并获得预测神经网络输出的当前阶段每个动作的预测价值；

动作选择单元，用于根据ε-贪心策略选择目标动作；

奖励计算单元，用于将目标动作作用于自定义环境获得新观测状态，并计算目标动作的即时奖励；

存储单元，用于将初始观测状态、目标动作、新观测状态以及即时奖励存储至记忆知识库中；

状态更新单元，检测当前阶段是否为最后阶段，若是，则计算回合奖励，并根据预设的奖励分配机制对回合奖励进行再分配，得到每个阶段的分配奖励；否则使用新观测状态对初始观测状态进行状态更新，并返回步骤：将初始观测状态输入预测神经网络，并获得预测神经网络输出的当前阶段每个动作的预测价值；

进一步地，所述算法构建模块130还包括训练模块，该训练模块包括数据采集单元、价值评估单元和迭代训练单元，各功能单元的详细说明如下：

数据采集单元，用于从记忆知识库中获取预设数量的记录样本作为训练样本构建训练集；

价值评估单元，用于将训练集中的每一个训练样本输入预测神经网络和目标神经网络，获取预测神经网络输出的每个动作的预测价值，并获取目标神经网络输出的每个动作的真实价值；其中，每个动作的预测价值均对应一个真实价值；

迭代训练单元，用于根据每个动作的预测价值和真实价值获取每个动作的误差值，根据每个动作的误差值对预测神经网络进行迭代训练，每预设步使用预测神经网络对目标神经网络进行替换，直至达到迭代结束条件，输出最终的目标神经网络，同时提示迭代训练完成。

本实施例的基于逻辑推理和图卷积的复杂网络链接预测系统用于执行如图1所示的基于逻辑推理和图卷积的复杂网络链接预测方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。