CN110989343A

CN110989343A - 一种基于强化学习的多阶段装备组合规划方法

Info

Publication number: CN110989343A
Application number: CN201911165682.0A
Authority: CN
Inventors: 张骁雄; 李明浩; 丁鲲; 夏博远; 张慧
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-04-10
Anticipated expiration: 2039-11-25
Also published as: CN110989343B

Abstract

本发明公开了一种基于强化学习的多阶段装备组合规划方法，属于装备发展规划技术领域。该方法首先根据装备发展的需求确定所需输入参数；然后构建组合优化模型，构建组合优化模型时首先构建单阶段多场景的优化模型，再建立多阶段多场景的组合优化模型；然后基于强化学习中的Q‑Learning方法，构建优化求解算法。该求解算法首先采用NSGA算法或MOEA算法求解当前阶段的Pareto解集，然后借助Q‑Learning方法获得最优的组合方案；最后输入参数，并求解得到最终组合方案。本发明的方法能够针对多场景、多阶段的复杂环境，能够快速、高效地得到最优的装备组合规划方案，为决策者提供参考，从而使决策者快速地响应，做出准确的决策。

Description

一种基于强化学习的多阶段装备组合规划方法

技术领域

本发明属于装备发展规划技术领域，具体涉及一种基于强化学习的多阶段装备组合规划方法。

背景技术

装备组合规划是在进行武器装备选型及发展时所面临的重大问题，是指在发展战略的指导下，对一定规划期内装备的具体建设进行总体设计和规划选择。当前战争形态的变化，要求决策者们更多关注装备组合作为一个整体发挥的效能，而不再局限于单一装备的性能，同时，在考虑涉及多个阶段的装备组合方面，任何单一阶段的最优装备组合无法保证整个规划周期内的最优性。因此，需要合理权衡规划不同阶段、不同周期的装备组合发展和选择问题，从而形成科学有效的装备组合规划方案，支撑顶层决策。

装备组合选择源于项目组合选择问题，H.Markowitz最早提出了组合的概念来处理投资组合问题，旨在最大化投资收益的同时降低投资的市场风险，奠定了金融领域的投资组合理论(Markowitz H.Portfolio selection.Journal of Finance,1952,7(1):77-91.)。后来该理论又逐渐被应用到项目管理中辅助组合方案的比较和选型。不同学者已经对军事领域的组合选择问题进行了广泛的尝试和探索，比较常用的方法包括多准则决策分析、专家评审法、价值分析法、风险分析法和资源分配方法等。例如，Kangaspunta等在考虑装备之间相互关联的条件下，提出了一种费用-效能分析方法，辅助装备组合选型(Kangaspunta J,

J,Salo A.Cost-efficiency analysis of weapon systemportfolios.European Journal of Operational Research,2012,223:264-275.)；Yang等对复杂军事大数据环境下的武器装备组合选择优化问题进行了建模，并设计了一种自适应的遗传算法对模型进行求解(Yang S,Yang M,Wang S,Huang K.Adaptive immune geneticalgorithm for weapon system portfolio optimization in military big dataenvironment.Cluster Computing,2016,19(3):1359-1372.)；Li等基于能力规划的思想，提出了一种基于异质网络模型的高端装备组合选择方法(Li J,Ge B,Jiang J,Yang K,Chen Y.High-end weapon equipment portfolio selection based on a heterogeneousnetwork model.Journal of Global Optimization,2018,doi:10.1007/s10898-018-0687-1.)；Dou等提出了一种基于偏好基线值的方法，对装备组合中冗余装备的取舍进行了研究(Dou Y,Zhou Z,Xu X,Lu Y.System portfolio selection with decision-makingpreference baseline Value for system of systems construction.Expert Systemswith Applications,2019,123:345-356.)；王孟等运用epoch-era思想，构建了区间型需求下的装备组合多阶段随机规划模型(王孟,张怀强,蒋铁军.区间型需求下基于epoch-era思想的武器装备组合规划模型.海军工程大学学报,2018,30(6):36-41.)；孙盛智等提出了面向作战需求的卫星装备组合优化算法，对不同装备组合的作战效能进行了评估(孙盛智,侯妍,裴春宝.面向作战需求的卫星应用装备组合优化研究.电光与控制,2018,25(5):7-16.)。

此外，还有一些比较流行的概念和方法论，被用来指导武器装备组合选择与优化，包括美国国防部提出的基于能力的规划(Capability Based Planning,CBP)(DavisPK.Analytic architecture for capabilities-based planning,mission-systemanalysis,and transformation:RAND NATIONAL DEFENSE RESEARCH INST SANTA MONICACA；2002.)、麻省理工学院提出的多属性权衡空间探索(Multi-Attribute TradespaceExploration,MATE)方法(Qiao L,Efatmaneshnik M,Ryan M.A combinatorial approachto tradespace exploration of complex systems:A cubesat case study.INCOSEInternational Symposium；2017,27(1):763-779.)、美国军方提出的将费用当作独立变量的(Cost as An Independent Variable,CAIV)方法(Shen Y,Li A.Research onapplication of CAIV in armament demonstration.Procedia Computer Science,2015,55:870-875.)等。同时，装备组合选择与评估优化问题也引起了国内如军事科学院、国防大学、国防科技大学等高校与研究机构的广泛关注，并取得了一定的研究成果(卜广志.武器装备建设方案的组合分析方法.火力与指挥控制,2011,36(3):154-159.//胡晓峰,张昱,李仁见,杨镜宇.网络化体系能力评估问题.系统工程理论与实践,2015,35(5):1317-1323.//王飞,司光亚.武器装备体系能力贡献度的解析与度量方法.军事运筹与系统工程,2016,30(3):10-15.//豆亚杰.武器系统组合选择问题与决策方法研究.国防科技大学,长沙,2016.//Zhao Q,Li S,Dou Y,Wang X,Yang K.An approach for weapon system-of-systems scheme generation based on asupernetwork granular analysis.IEEESystems Journal,2017,11(4):1971-1982.)。

不同研究人员对军事领域的组合选择进行了不同的探索和尝试，然而现实中这种建模对数据要求较高，因此普遍缺少比较定量的规划模型和算法，难以真正支撑武器装备体系的顶层规划和决策。同时，随着规划的装备数目、规划周期的增多，传统的数学方法或多目标优化法在求解效率上往往捉襟见肘，例如，对于一个具有K个场景和T个周期的规划问题来说，决策者需要至少同时考虑K*T个优化目标，大大增加了求解难度。

因此，综上分析，目前针对多阶段、多场景的武器装备组合规划技术，依然存在着选择难、规划难的问题，目前的方法难以满足复杂多变的需求。

发明内容

技术问题：本发明提供一种基于强化学习的多阶段装备组合规划方法，该方法能够快速、高效地对多阶段多场景装备进行综合权衡和组合规划，支撑顶层决策。

技术方案：本发明的基于强化学习的多阶段装备组合规划方法，包括以下步骤：

S1：确定输入参数

所述参数包括：装备项目数量、场景数量、场景信息、阶段规划区间、总经费以及预算违背阈值，所述场景信息包括装备的效能和成本；

S2：构建组合优化模型

首先，针对单阶段装备组合优化问题，考虑多个可能场景，构建单阶段多场景组合优化模型；然后，根据武器装备发展规划周期，并基于所述单阶段多场景组合优化模型，构建多阶段多场景组合优化模型；

S3：构建优化求解算法

基于强化学习中的Q-Learning方法，搭建求解步骤S2中组合优化模型的优化求解算法；

S4：确定最终组合规划方案

将参数输入到组合优化模型中，并采用步骤S3所构建的优化求解算法进行求解，得到最优组合规划方案。

进一步地，所述步骤S3的优化求解算法，包括以下步骤：

S3.1：在每个阶段，基于之前所有阶段的装备组合发展方案，生成该阶段的待选装备集合；

S3.2：针对K+1个目标的优化问题，采用非支配排序遗传算法NSGA或多目标进化算法MOEA求解当前阶段装备发展的Pareto解集，其中K是场景数量；

S3.3：基于上个阶段优化过程获得的Pareto解集，采用探索或者利用模式选择一个装备组合方案，并更新当前阶段下选择该装备组合方案的Q值；

S3.4：迭代上述步骤，直到达到停止标准。

进一步地，所述步骤S3.3中，具体选择探索或者利用模式，由参数控制的随机概率决定，所述探索模式，允许从Pareto中随机选择一个方案；所述利用模式，是求解Pareto解中的每一个装备组合方案对应的Q值，选择Q值最大的作为当前阶段的装备组合方案。

进一步地，所述步骤S3.3中，更新当前阶段下选择该装备组合方案的Q值，包括以下子步骤：

S3.3.1：构建回报函数，计算当前阶段选择的不同装备组合方案的回报值；

S3.3.2：根据步骤S3.3.1得到回报值，通过标准的Q-Learning公式对Q值进行更新。

进一步地，所述步骤S3.3.1中，计算回报值的回报函数为：

R_t＝w₁R_E+w₂R_C，

式中，R_t代表回报值，R_E代表当前所选装备组合方案效能相关回报，R_C代表装备组合方案成本相关回报，w₁和w₂是针对两个优化目标的权重，t表示阶段序号。

进一步地，所述R_E采用如下公式度量：

式中，K代表场景的个数，上式等号右边括号中前半部分代表当前所选择装备组合a在K个场景中效能的加和平均，

表示装备组合a在场景k中的效能，后半部分代表下一阶段所有可能装备组合a’在K个场景中效能的加和平均，

表示装备组合a’在场景k中的效能，P_t+1为下一阶段的最优Pareto解集，

代表Pareto解集中解的个数。

进一步地，所述R_C采用如下公式度量：

式中，C_a表示当前阶段装备组合a的成本，C_a'表示下一阶段装备组合a’的成本，B_t表示阶段t的经费预算，B_t+1表示下一阶段的经费预算，P_t+1表示下一阶段的最优Pareto解集，

表示Pareto解集中解的个数。

进一步地，所述非支配排序遗传算法采用NSGA-III算法，所述多目标进化算法采用MOEA/D算法。

进一步地，所述单阶段多场景模型以最大化装备组合效能和最小化装备组合成本为目标，目标函数为：

x_i∈{0,1}

式中，k∈[1,K]表示一个场景，K代表场景的总数，B代表给定的经费预算，δ代表预算违背阈值，x_i∈X代表当前装备清单X中第i个装备，c_i代表装备x_i对应的开发成本，r_i ^k表示场景k下装备项目x_i的效能，i表示装备序号。

进一步地，所述多阶段多场景模型以整个规划时间段内最大化装备组合效能和最小化装备组合成本为目标，目标函数为：

x_it∈{0,1}

式中，

表示阶段t、场景k下装备项目x_i的效能，c_it为装备x_i在阶段t下的开发成本，x_it为装备x_i在阶段t下的选择位，B_t为阶段t下的经费预算，δ_t为阶段t下的预算违背阈值。

有益效果：本发明与现有技术相比，具有以下优点：

(1)本发明根据所能获取的装备信息，首先建立了多阶段装备组合优化模型，相比于传统的单阶段装备组合规划，横向上突出了面向不同场景的优化，纵向上突出时间的维度，而并非将单阶段单场景下的装备组合方案进行简单叠加，并且在建模过程中考虑了装备更替、环境变化等因素，从而使模型更加贴近真实情况。随着规划的装备数目、规划周期的增多，现有的多目标优化方法难以满足需求，而强化学习是一种处理未来多个阶段多个场景不确定情形下策略的有效方法，其通过将问题拆分，每次仅考虑单个阶段下多个场景的优化目标，并不断更新在每个阶段采用不同策略的回报，学习选择策略的规则，从而可以在持续学习之后，形成在任何阶段、任何场景下的最优策略选择规则，因此采用强化学习中的Q-Learning思想构建求解模型的优化算法。通过所建立的组合优化模型和优化算法，可以高效、准确、简单、迅速地得出装备组合规划方案，为决策者提供参考，从而使决策者在面对复杂的场景时，迅速地做出正确的决策。

(2)本发明在构建优化求解算法时，借助了非支配排序遗传算法NSGA或多目标进化算法MOEA，尤其是采用了NSGA算法系列中的NSGA-III或MOEA算法系列中的MOEA/D，通过上述算法中的任一种，与Q-Learning组合，得到本发明的优化求解算法。无论是NSGA-III算法还是MOEA/D算法在求解多目标优化问题时，都具有较好的全局搜索能力，从而极大地提高了算法的效率，因此在使用本发明的方法进行装备组合规划时，更加迅速地得到规划方案，使选择和规划变得容易，从而使决策者能够更加方便、快速地对复杂的场景做出反应，进行准确地决策。

附图说明

图1为本发明的方法整体流程图；

图2为本发明构建的优化求解算法的流程图；

图3为实施例1的装备效能和成本分布图；

图4为实施例1中规划方案对应的各阶段Q值向量曲线图；

图5为实施例1中各阶段Q值对应的装备发展方案图；

图6为实施例2的装备效能和成本分布图；

图7为实施例2中规划方案对应的各阶段Q值向量曲线图；

图8为实施例2中各阶段Q值对应的装备发展方案图；

图9为实施例3的装备效能和成本分布图；

图10为实施例3中规划方案对应的各阶段Q值向量曲线图；

图11为实施例3中各阶段Q值对应的装备发展方案图；

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。

结合图1所示，本发明的基于强化学习的多阶段装备组合规划方法，包括以下步骤：

S1：确定输入参数

在进行多阶段装备组合规划时，首要任务是确定能获得的各种信息数据，并将这些信息数据参数化，然后作为输入参数。本发明的方法需要如下参数：(1)装备项目数量，包括初始的装备项目数量(N)以及后续每个阶段增加的装备项目数量；(2)场景数量(K)，因为本发明针对的是多场景的问题，因此需要给定场景数量作为输入参数；(3)场景信息，场景信息包括装备在不同场景下具备的效能和成本；(4)阶段规划区间(T)，该参数需要考虑装备发展规划区间，但实际处理时可根据规划需求确定；(5)总经费(S)；(6)预算违背阈值(δ)。

S2：构建组合优化模型

当确定了输入参数后，需要建立组合优化模型，从而将复杂的实际问题通过数学形式表示出来。由于本发明针对的多阶段装备组合规划问题，并同时考虑多个可能的作战场景。相比于传统的单阶段装备组合规划，横向上突出面向不同场景的优化，纵向上突出时间维度，并非将单阶段单场景下的装备组合方案进行简单叠加。多阶段装备组合规划，类似于迷宫路径寻优问题，之前阶段做出的决策(走过的路线)影响之后阶段的解空间(将要出现的路线)，阶段之间相互关联，即之前阶段发展的装备在之后阶段不能重复发展。本发明中分两步完成数学建模：首先针对单阶段装备组合优化问题，考虑多个可能场景，构建单阶段多场景组合优化模型；然后，根据武器装备发展规划周期，并基于所述单阶段多场景组合优化模型，构建多阶段多场景组合优化模型。

构建单阶段多场景组合优化模型时，首先忽略时间维度，只关注单一时间维度中多个目标的优化。令x_i∈X代表当前装备清单X中第i个装备，装备x_i对应的开发成本为c_i，i表示装备序号。假定装备的组合发展需要同时考虑和应对K个不同的场景。受限于不同的地理环境等外界因素，装备在不同场景下会发挥不同的效能。因此，令r_i ^k表示场景k下装备项目x_i所具备的效能。

使用二分类概念，决策变量x_i定义如下：

基于上述分析，针对单一阶段的装备组合优化问题，需要同时考虑K个可能场景，从当前可选装备集合中选取合适的装备组合，达到最大化装备组合效能以及最小化装备组合成本的目标。由此，可构建如下目标函数：

其中k∈[1,K]表示一个场景，K代表场景的总数。因此，优化目标由K+1个目标组成，r_i ^k表示场景k下装备项目x_i的效能，c_i代表装备x_i对应的开发成本，B代表给定的经费预算，δ代表预算违背阈值，一般来说，0<δ<0.1。不等式约束限制了选中装备组合的总成本。

武器装备发展规划需要对一定周期内的装备进行统筹安排，并考虑装备的更替、环境的变化等因素，因此将上述优化问题扩展到多个阶段，这意味着决策者需要选择一个能够在整个规划时间段内最小化装备组合成本、最大化装备组合效能的方案。形式上，决策变量x_it被定义为：

其中，X_t代表阶段t可选装备集合，t表示阶段序号。

此时，目标函数在多阶段背景下变更为：

其中，

表示阶段t、场景k下装备项目x_i所具备的效能，c_it为装备x_i在阶段t下的开发成本，x_it为装备x_i在阶段t下的选择位，B_t为阶段t下的经费预算，δ_t为阶段t下的预算违背阈值。

在此说明的是，由于场景的复杂化，很难建立完全一致的数学模型，因此在进行数学建模和求解的过程，需要做出一定的假设，在本发明中，做出如下假设：

(1)当前待开发装备项目清单是已知的，同时允许在未来任一阶段增加新的装备，以描述现实中装备的更新交替；

(2)不同场景下每个装备的效能未知，服从一定的分布；

(3)装备之间没有相互依存关系，即所有装备可并行发展；

(4)一旦装备项目被纳入规划，则不能从装备清单中删除直至完成。

S3：构建优化求解算法

在进行建模的过程中，是通过两步完成建模工作，针对第一步，可以理解为是一个多目标优化问题，获取每个阶段Pareto解。但当面对多阶段的装备组合选择问题，任何单一阶段的最优选择未必是整个决策周期里的最优选择，同时，当前阶段的选择又直接影响着下一个阶段的决策空间和最优选择。因此本发明基于强化学习中的Q-Learning方法，构建用于求解组合优化模型的求解算法，可按如下步骤：

S3.1：在每个阶段，基于之前所有阶段的装备组合发展方案，生成该阶段的待选装备集合。生成策略取决于在所有之前阶段选择发展的装备和新增加的待发展装备，即删除已经决定发展的装备，增加新型待发展装备，并更新下一阶段装备的属性值(效能、成本)。

S3.2：针对K+1个目标的优化问题，采用非支配排序遗传算法NSGA或多目标进化算法MOEA求解当前阶段装备发展的Pareto解集，其中K是场景数量。本步骤中，如果采用的是非支配排序遗传算法NSGA，优选的是NSGA-III，关于NSGA-III算法，详细内容可参见文章Anevolutionary many-objective optimization algorithm using reference-pointbased non-dominated sorting approach(Deb K,Jain H.An evolutionary many-objective optimization algorithm using reference-point based non-dominatedsorting approach,Part I:solving problems with box constraints.IEEETransaction on Evolutionary Computation,2014,18(4):577-601.)

如果采用MOEA算法，优选的是MOEA/D算法，关于MOEA/D算法，具体可参照文章MOEA/D:a multiobjective evolutionary algorithm based on decomposition.(QingfuZhang,Hui Li.MOEA/D:a multiobjective evolutionary algorithm based ondecomposition.IEEE Transactions on Evolutionary Computation,2007,11(6),712-731.)

S3.3：基于上个阶段优化过程获得的Pareto解集，采用探索或者利用模式选择一个最优装备组合方案，并更新当前阶段下选择该装备组合方案的Q值。具体选择探索或者利用模式，由参数控制的随机概率决定，所述探索模式，允许从Pareto解集中随机选择一个方案；所述利用模式，是求解Pareto解集中的每一个装备组合方案对应的Q值，选择Q值最大的作为当前阶段的装备组合方案。

S3.4：迭代上述步骤，直到达到停止标准。

对于构建的求解优化算法，详细的算法流程如图2所示。值得说明的是，由于每年会增加一些新的待选装备，而之前已经被选中发展的装备在未来规划阶段内不能作为待选装备出现，因此需要对每个阶段的可选装备组合进行更新。

在每一次的迭代计算中，通过计算单阶段的多目标优化问题生成非劣解，并从该非劣解中选取一个装备组合。由于t＝0处所需信息是已知且不变的，因此在t＝0时从待选装备列表中获得的非支配集合是固定不变的。基于探索或利用的策略，从非支配集合中随机或选择Q值最高的装备组合，即Q-Learning行为。具体选择哪种策略由参数控制的随机概率决定，该方式为决策者提供了探索和利用两种模式之间的平衡。在最简单的策略中，将概率设置为0.5，即允许在探索和利用之间进行随机选择。在t＝0处进行选择之后，然后根据所选动作生成下一个状态(S_t+1)。这样做的原因是下一个阶段的可用装备项目列表取决于上个阶段所选的装备组合。

在步骤S3.3中，更新当前阶段下选择该装备组合方案的Q值，可按如下步骤：

S3.3.1构建回报函数，计算当前阶段选择的装备组合方案的回报值；

构建回报函数，是衡量和计算非劣解中方案Q值的重要依据。对于阶段t某个方案的回报值R_t可以通过式(5)计算：

R_t＝w₁R_E+w₂R_C (5)

其中，R_E代表装备组合效能相关回报，R_C代表装备组合成本相关回报，w₁和w₂是针对两个优化目标的权重，可以权衡两个优化目标之间的重要程度，可以将w₁和w₂都设置为0.5。

具体来说，R_E与当前所选择装备组合a以及下一阶段可能选择装备组合a’的效能息息相关，采用式(6)进行度量：

表示装备组合a’在场景k中的效能，P_t+1为下一阶段的最优Pareto解集，即阶段t的下一阶段，

代表Pareto解集中解的个数。

对于R_C，决策者希望在阶段t所选择的装备组合a的成本能尽可能贴近当前阶段的预算约束B_t，同时下一阶段非劣解中每个装备组合方案的成本也尽可能与下阶段的预算约束相近，由此，给出式子(7)来衡量与成本相关的回报。

式中，C_a表示当前阶段装备组合a的成本，C_a'表示下一阶段装备组合a’的成本，B_t表示阶段t的经费预算，B_t+1为下一阶段的经费预算，P_t+1为下一阶段的最优Pareto解集，即阶段t的下一阶段，

代表Pareto解集中解的个数。

式(7)中等号右边前半部分对当前阶段的选择进行了衡量，后半部分则对未来阶段的可能性进行了衡量，以此来凸显当前选择对未来存在的可能影响。由于决策者希望任一阶段的装备组合成本更加贴近给定的预算，即与给定预算之间的差值越小越好，因此对两边的加和进行取反操作，以保证R_C越大越好。

一旦选中的组合方案的回报值R_t被计算出来，则可以通过标准的Q-Learning公式(8)对Q值进行更新：

其中，Q(S_t,a_t)代表在阶段t对应的状态S_t下，选择方案a_t的Q值，如果当前阶段为t，则方案a_t对应装备组合a，方案a_t+1对应a’，装备组合a’是下一阶段任一可选装备组合，α∈[0,1]是学习率，用于决定新信息被采用的程度，α＝0代表不学习新信息，α＝1代表只学习最近更新的信息。通常在随机环境下，会选择一个较小的α值。γ∈[0,1]代表折算率，决定长期回报被采用的程度。公式(8)评估了在某个特定状态采取某个特定行动的价值。

实施例1

设定如下输入参数：(1)装备项目数量(N)：初始装备项目数量(N)设置为50个，然后在每个后续阶段新增5个装备项目；

(2)场景数量(K)：场景数量(K)设置为3个；

(3)阶段规划区间(T)：10年；

(4)场景信息：效能(r_i ^k)与成本(c_i)，使用抽象场景对真实场景进行简化，仅通过定义装备效能代表在不同场景下装备的表现，而不具体描述场景细节，根据一定的概率分布生成，概率分布源于正太分布函数，本实施例中，假设装备成本不随场景变化，因此认为服从同一正态分布。假设每个场景装备效能服从的正态分布分别为：r_i ¹～N(0.8,0.08)、r_i ²～N(0.7,0.1)、r_i ³～N(0.9,0.05)；不同场景下，装备成本服从的正态分布均为：c_i～N(0.5,0.05)。

概率分布图如图3所示。初始场景信息采用蒙特卡洛方法，根据给定的分布分别生成初始场景的装备效能和成本，见表1。

(5)总经费(S)：S＝25亿元；

(6)经费违背阈值(δ)：δ＝0.1，一般情形下保证年度经费分配相对平均，并允许在δ范围内波动，即每年的经费年度经费波动范围为[S/T*(1-δ)，S/T*(1+δ)]；

(7)Q-Learning公式中学习率α＝0.1，折算率γ＝0.9。

表1初始场景效能与成本

基于本发明的方法，进行100次运行，每个运行周期包括10个规划年度，每个规划年度包含一个多目标问题，本实施例中采用NSGA-III算法求解当前阶段的Pareto解集，NSGA-III算法的种群规模设置为100，迭代次数设为100，交叉概率设为0.2，变异概率0.02。

经过100次学习，可以获得100组Q值矩阵，Q值矩阵中每个元素的Q值，都由选择发展一个对应的装备组合行为而产生，对应不同的装备组合方案，选取总体效能最大的方案，各个年度对应装备组合的Q值如图4所示。

图4中，第1、4、7以及第10阶段，采用随机的方式选取装备组合方案，其他年度按Q值最大值选取装备组合方案。总的规划周期内，各个规划阶段的装备组合选择方案如图5所示。图5中，黑色部分为选择发展的装备，可以看出，随着每年待选装备的增加，会从原来的未发展装备与新增待发展装备中选择装备进行发展。得益于每年新装备的加入，此次方案一共选择发展58个装备，每年装备投入的成本也相对均衡，满足现实约束的需要。

实施例2

(2)场景数量(K)：场景数量(K)设置为3个；

(3)阶段规划区间(T)：10年；

(4)场景信息：效能(r_i ^k)与成本(c_i)。使用抽象场景对真实场景进行简化，仅通过定义装备效能代表在不同场景下装备的表现，而不具体描述场景细节，根据一定的概率分布生成，概率分布源于正太分布函数，该实施例中，假设装备成本随场景变化，因此认为每个场景的成本服从不同正态分布。其中装备效能服从的分布为：r_i ¹～N(0.8,0.05)，r_i ²～N(0.7,0.04)，r_i ³～N(0.6,0.03)；为了区分不同场景下装备成本的分布，本实施例中将成本另用

表示，k代表场景，在不同场景下，装备成本服从如下分布：

概率分布如图6所示。采用蒙特卡洛方法，根据给定的分布分别生成初始场景下的装备效能和成本列表，见表2。

(5)总经费(S)：S＝75亿元；

(7)Q-Learning公式中学习率α＝0.1，折算率γ＝0.9。

表2初始场景效能与成本

对示例进行300次运行，每个运行周期包括10个规划年度，每个规划年度包含一个多目标问题，本实施例中采用MOEA/D算法求解当前阶段的Pareto解集，MOEA/D算法的种群数量设为100，进化100代，因此，每次模拟运行包括300×10×100×100＝3×10⁷个目标函数评估。在其他重要的参数设置中，交叉率设定为0.95，而变异因子在[0.04，0.095]区间内随机均匀选择。

经过300次运行，可以获得300组Q值矩阵，Q值矩阵中每个元素的Q值，都由选择发展一个对应的装备组合行为而产生，对应不同的装备组合方案，选取总体效能最大的方案，各个年度对应装备组合的Q值如图7所示。

总的规划周期内，各个规划阶段Q值对应的装备组合方案如图8所示。图8中，黑色部分为选择发展的装备，可以看出，随着每年待选装备的增加，会从原来的未发展装备与新增待发展装备中选择装备进行发展。

实施例3

设定如下输入参数：(1)装备项目数量(N)：初始装备项目数量(N)设置为50个，然后在每个后续阶段新增4个装备项目；

(2)场景数量(K)：场景数量(K)设置为4个；

(3)阶段规划区间(T)：15年；

(4)场景信息：效能(r_i ^k)与成本(c_i)，使用抽象场景对真实场景进行简化，仅通过定义装备效能代表在不同场景下装备的表现，而不具体描述场景细节，根据一定的概率分布生成，概率分布源于正太分布函数，本实施例中，假设装备成本不随场景变化，因此认为服从同一正态分布。假设每个场景效能服从的正态分布分别为：r_i ¹～N(0.8,0.08)，r_i ²～N(0.7,0.1)，r_i ³～N(0.9,0.05)，r_i ⁴～N(0.65,0.1)；不同场景下，成本服从的正态分布为：c_i～N(0.5,0.05)。

概率分布图如图9所示。初始场景信息采用蒙特卡洛方法，根据给定的分布分别生成初始场景的装备效能和成本，见表3。

(5)总经费(S)：S＝27.5亿元；

(7)Q-Learning公式中学习率α＝0.1，折算率γ＝0.9。

表3初始场景效能与成本

基于本发明的方法，进行100次运行，每个运行周期包括15个规划年度，每个规划年度包含一个多目标问题，本实施例中采用NSGA-III算法求解当前阶段的Pareto解集，NSGA-III算法的种群规模设置为100，迭代次数设为100，交叉概率设为0.2，变异概率0.02。

经过100次学习，可以获得100组Q值矩阵，每个元素的Q值，都由选择发展一个对应的装备组合行为而产生，对应不同的装备组合方案。选取总体效能最大的方案，各个年度对应装备组合的Q值如图10所示。

图10中，第1、6、10以及第12阶段，采用随机的方式选取装备组合方案，其他年度按Q值最大值选取装备组合方案。总的规划周期内，各个规划阶段的装备组合选择方案如图11所示。图11中，黑色部分为选择发展的装备。可以看出，随着每年待选装备的增加，会从原来的未发展装备与新增待发展装备中选择装备进行发展。得益于每年新装备的加入，此次方案一共选择发展64个装备，每一年发展装备数目相对平均，都选择发展了4个装备，且每年装备投入的成本也相对均衡，满足现实约束的需要。

采用本发明的方法，在单个阶段仅仅优化较少目标，通过强化学习指导每个阶段的策略选择，从而生成多个阶段下的装备组合方案，为决策者提供参考，使得决策者能够快速、方便、高效地做出反应，在复杂的场景中，做出准确的决策。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于强化学习的多阶段装备组合规划方法，其特征在于，包括以下步骤：

S1：确定输入参数

所述输入参数包括：装备项目数量、场景数量、场景信息、阶段规划区间、总经费以及预算违背阈值，所述场景信息包括装备的效能和成本；

S2：构建组合优化模型

S3：构建优化求解算法

S4：确定最终组合规划方案

2.根据权利要求1所述的一种基于强化学习的多阶段装备组合规划方法，其特征在于，所述步骤S3的优化求解算法，包括以下步骤：

S3.4：迭代上述步骤，直到达到停止标准。

3.根据权利要求2所述的一种基于强化学习的多阶段装备组合规划方法，其特征在于，所述步骤S3.3中，具体选择探索或者利用模式，由参数控制的随机概率决定，所述探索模式，允许从Pareto解集中随机选择一个方案；所述利用模式，是求解Pareto解中的每一个装备组合方案对应的Q值，选择Q值最大的作为当前阶段的装备组合方案。

4.根据权利要求3所述的一种基于强化学习的多阶段装备组合规划方法，其特征在于，所述步骤S3.3中，更新当前阶段选择该装备组合方案的Q值，包括以下子步骤：

S3.3.1：构建回报函数，计算当前阶段选择不同装备组合方案的回报值；

5.根据权利要求4所述的一种基于强化学习的多阶段装备组合规划方法，其特征在于，所述步骤S3.3.1中，计算回报值的回报函数为：

R_t＝w₁R_E+w₂R_C，

式中，R_t代表回报值，R_E代表当前所选装备组合方案效能相关回报，R_C代表所选装备组合方案成本相关回报，w₁和w₂是针对两个优化目标的权重，t表示阶段序号。

6.根据权利要求5所述的一种基于强化学习的多阶段装备组合规划方法，其特征在于，所述R_E采用如下公式度量：

代表Pareto解集中解的个数。

7.根据权利要求5所述的一种基于强化学习的多阶段装备组合规划方法，其特征在于，所述R_C采用如下公式度量：

表示Pareto解集中解的个数。

8.根据权利要求2所述的一种基于强化学习的多阶段装备组合规划方法，其特征在于，所述非支配排序遗传算法采用NSGA-III算法，所述多目标进化算法采用MOEA/D算法。

9.根据权利要求1～8任一项所述的一种基于强化学习的多阶段装备组合规划方法，其特征在于，所述单阶段多场景模型以最大化装备组合效能和最小化装备组合成本为目标，目标函数为：

x_i∈{0,1}

10.根据权利要求1～8任一项所述的一种基于强化学习的多阶段装备组合规划方法，其特征在于，所述多阶段多场景模型以整个规划周期内最大化装备组合效能和最小化装备组合成本为目标，目标函数为：

x_it∈{0,1}

式中，

表示阶段t、场景k下装备项目x_i的效能，c_it为装备x_i在阶段t下的开发成本，x_it为装备x_i在阶段t下的选择位，B_t为阶段t下的经费预算，δ_t代表阶段t下的预算违背阈值。