CN110781614A

CN110781614A - 基于深度强化学习的舰载机出动回收在线调度方法

Info

Publication number: CN110781614A
Application number: CN201911237528.XA
Authority: CN
Inventors: 于彤彤; 董婷婷; 肖创柏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-02-11
Anticipated expiration: 2039-12-06
Also published as: CN110781614B

Abstract

基于深度强化学习的舰载机出动回收在线调度方法涉及舰载机出动回收调度领域，解决航母甲板上的大规模舰载机出动回收在线调度问题。本发明通过将出动回收过程抽象为马尔可夫决策过程，将舰载机群当前状态作为输入，调度的行为作为输出，建立带权重的特征向量作为奖赏函数，构造出舰载机出动回收调度模型。为得到安全高效的调度策略，确立多目标调度策略，以舰载机舰面位移、任务调度时间、舰面冲突次数和设备利用率作为目标，利用深度Q学习网络训练调度模型。经过实验测试结果表明，该算法在遇到突发状况时能迅速处理并且对后续任务执行不产生影响，同时得到安全性和灵活性都较高的调度策略。

Description

基于深度强化学习的舰载机出动回收在线调度方法

技术领域

本发明涉及舰载机出动回收调度领域，主要是涉及一种对于解决大规模舰载机在线调度问题，在考虑多种约束和突发状况时，应用深度强化学习算法优化的调度决策方法。

背景技术

航空母舰体现了一个国家航海作战的能力，航母的作战能力则主要取决于航母上舰载机的出动能力，但由于航空母舰体量大、航母甲板环境复杂、设备操作困难和航母上无人设备逐渐增多等原因，导致舰载机出动和回收过程是在空间有限并充满危险的环境下进行，因此需要依靠弹射器、着舰跑道和操作人员等受限制的资源高速工作来完成。如何在恶劣作业环境下合理利用有限甲板空间和保障资源，安全且高效地出动舰载机执行作战任务，一直是世界各国航母研制的关键问题和航母作战指挥的关键技术。

一个可靠的任务动作决策者需要为任务中的每一个舰载机规划可行的调度方案，这包括了从飞机出动前保障到着舰回收后停机的整个调度过程，实现在不确定的环境下能够安全并且高效地操作。舰载机调度问题的研究经历了从人工调度逐渐转变为计算机辅助调度，发展到现在的人工智能决策调度。由于人工调度决策在复杂约束情况下处理信息和创造细节计划能力与自动系统相比是受限制的，单纯依靠人工操作最终会限制舰载机调度的表现，因此需要利用智能优化算法辅助人工调度。目前国内外学者大多是采用传统的人工智能算法解决舰载机调度问题，如遗传算法、粒子群算法、混合差分算法等。这类算法将提前制定固定批次大小的任务放入算法模型中，通过计算得到对应该批次任务的指定调度方案。由于启发式算法计算量大，大多数国内外学者都只研究了小批量舰载机群的调度问题，这在实际的作战过程中是不合理的。同时，在飞行甲板操作规划和调度的使用过程中，例如舰载机不能按时起飞，弹射器或牵引设备无法工作，保障任务无法及时完成等不可预知的状况发生时，如果没有及时给出新的调度策略，将会导致十分严重的后果。因此决策方法必须具有灵活快速地解决实时状况的能力，而传统的启发式算法不仅在调度计算中会花费大量的时间，并且缺乏实时性，在线调度能力差。

强化学习的过程是通过智能体与环境不断交互学习，最终得到在指定状态下能够采取最优动作的策略，强化学习在线下学习到状态对应动作的策略后，可以应用在在线调度问题中。Sutton提出时间差分算法，该方法是一种无模型的强化学习算法，无需预先已知模型动态，可以用于非情景任务，典型的时间差分算法有Q学习和SARSA。深度强化学习是结合了深度学习神经网络和强化学习方法，近年来，深度强化学习在调度领域取得了较好的效果。里海大学利用DQN网络建立多智能体模型对库存和供应链调度进行优化；王等利用Google DeepMind团队提出的A3C(Asynchronous Advantage Actor-Critic)算法解决了卫星规模化的在线调度，并解决了分布式状态下多智能体的强化学习问题；Lin等将调度策略作为执行的行为，利用DQN网络解决复杂的生产车间调度问题。

发明内容

为了能够得到大规模舰载机在航母甲板上出动回收过程的安全高效的在线调度策略，本发明首次提出利用深度强化学习算法解决该调度问题。目标是实现在高峰出动情况下，考虑尽量缩短舰载机甲板移动距离、减少舰载机舰面会遇次数并避免舰载机坠毁，同时优化各设备使用的利用率、稳定作业周期。根据实际任务情况，将舰载机出动回收调度构建为马尔科夫决策过程，考虑多种约束和突发状况，针对当前模型利用优化的深度Q网络(Deep Q-learning Network,DQN)网络对模型进行深度强化学习训练。

本发明能够实现舰载机多目标在线调度过程，面临突发状况时可以迅速解决并不影响后续任务的执行，体现了强化学习算法的实时性和灵活性。同时验证深度强化学习网络在该问题上能够近似收敛，本发明在平衡多目标函数优化时能得到较好的效果，获得较安全高效的调度策略。

基于深度强化学习的舰载机出动回收多在线调度方法主要包括以下步骤：

1、环境建模，通过将问题转化为马尔可夫决策过程，实现多目标的舰载机在线调度。

1.1建立航母甲板的平面直角坐标系，按照实际比例设置各机位和跑道的点位坐标，计算求得各点间转移位移。

1.2通过衡量调度算法的安全性和高效性来衡量舰载机的出动回收能力，这是一个多目标优化的调度问题。因此设目标函数f如式(1)所示，设计为最小化舰载机甲板移动总距离T_Dis，最小化舰载机舰面冲突次数T_Conf，以及通过最小化各保障机位资源利用量的标准差σ(B_tn)与各弹射器利用量的标准差σ(T_tn)之和，来最大化各保障机位和弹射机位的利用率T_Balan。

f＝min(T_Dis)||min(T_Conf)||max(T_Balan) (1)

1.3由于舰载机出动回收调度不能根据当前状态来确定最终整体的调度效果，因此属于随机性环境；调度的过程是在任何时候都可以被确定的，因此属于完全可观测环境；状态转移的行为状态是有限个数的，因此归属于离散环境；由于执行的所有行为都是相关的，当前的行为会影响到今后的行为，因此属于非情景环境；该问题选用单智能体环境，即环境中只有一个智能体，本模型中的智能体确定为调度的决策者。

以调度决策者为智能体，依照马尔可夫决策过程构建状态空间s_space如式(3)所示。

s_space＝

{′E₀′：op，...，′E_m′：op，′A₀′：[op，fuel，pos_l]，...，′A_n′：[op，fuel，pos_l]} (3)

设备组表示为[E₀，E₁，...，E_m]，包括了保障区域保障设备组以及弹射器；舰载机群表示为[A₀，A₁，…，A_n]；设备及舰载机可用状态表示为op，用布尔值表示可用或不可用；舰载机所剩油量fuel可以离散的划分为0～3四个等级；当前位置表示为[pos₀，pos₁，...，pos_l]，包括停机位、位置不同并互相影响的弹射起飞位、着舰跑道、着舰渐进航线、作战的空域和机库。

动作集定义为某一舰载机移动到某一位置的集合，动作空间a_space表示如式(4)所示。

a_space＝[[A₀，P₀]，[A₀，P₁]，...，[A_n-1，P_m-1]]

(4)

A＝[0，1，2，…，n-1]为舰载机集合，P＝[0，1，2，...，m-1]为位置集合，动作空间大小为m×n。

状态转移是指智能体从当前状态执行动作转移到下一状态的过程。在本调度问题中需要考虑几项约束，详见式(5-9)。

式(5)是油量约束，A_i表示舰载机，S表示保障机位集合，F_i表示油量等级，P_i表示舰载机当前位置，即舰载机油量等级为0时，若此舰载机不位于保障机位上，则该舰载机坠亡；式(6)是技术约束，T是按照执行顺序排列的任务集合，ST是任务开始时间，ET是任务结束时间。舰载机任务必须按照“保障—>弹射—>作战—>渐进航线—>着舰—>保障/停机/维修”的顺序执行，并且必须在完成上一任务后才能进入下一任务；式(7)是互斥约束，T_ij是舰载机i在停机位j的时间戳，T_kj是舰载机k在停机位j的时间戳，对于任意的两个舰载机都不能共用停机位，也就是各舰载机在同一停机位的时间戳不能重合；式(8)是空间约束，T_L/T_T3/T_T4分别是着舰跑道和3号、4号弹射器被使用的时间戳集合，由于甲板空间狭小，着舰跑道和跑道附近的弹射器不能同时使用，设这两个弹射器标号为3号和4号；式(9)是任务约束，P是任务优先级集合，舰载机舰面会遇时按照当前舰载机任务优先级决定通过顺序。

本发明所解决的问题是一个多目标问题，目标函数由多个影响因素构成，因此将奖赏函数线性化表示。根据目标函数，将奖赏函数定义成一个权重向量的转置和当前状态s下的特征向量φ(s)的乘积。当前状态s的单步奖赏R(s)表示为式(10)。

其中权重向量

中的各个数值根据对应的特征向量中包含的因素对于目标回报影响的程度进行设置。状态特征向量定义为以下7个特征值：1号特征值为濒临坠亡的舰载机数量(舰载机位于空中油量小于满油量的五分之一或舰载机位于渐近线油量小于满油量的十分之一)；2号特征值为坠毁的舰载机数量；3号特征值为完成目标任务的舰载机数量；4号特征值为舰面冲突次数；5号特征值为成功弹射起飞的舰载机数量；6号特征值为舰载机舰面位移值；7号特征值为各保障组使用频次的标准差与弹射器使用频次的标准差之和。

2、本方法利用深度神经网络强大的感知能力结合强化学习的决策能力，采用深度Q学习算法(Deep Q-learning Network,DQN)来解决舰载机出动回收在线多目标调度问题。强化学习是通过选择最大的Q值得到动作策略，并通过不断更新Q值达到最优策略。算法更新流程具体步骤如下：

2.1构造两个结构相同的神经网络，分别为目标网络Target-Net和实际网络Eval-Net。将环境模型中的状态向量作为输入，执行的动作作为网络的输出，设置隐藏层层数为[5,10]。输入层神经元个数与输入状态维度相同，输出层神经元个数与动作空间的大小相同，隐藏层神经元个数取输入和输出层个数区间内的任一值即可。

2.2将当前状态s转换为一维向量输入实际网络中，本发明考虑用一种叫做批归一化(Batch-Normalization，BN)的方法对数据进行归一化，通过对每一批输入数据归一化，来使数据间差距减小，避免梯度爆炸。在神经网络的每一层使用激励函数之前先做BN，然后使用ReLU激励函数将数据线性化。并对策略进行剪裁，控制梯度上限，来进一步优化学习过程。

2.3输出当前状态下的动作集值向量，选择动作执行，动作执行后得到下一状态和当前状态动作的奖赏值。

2.4为了降低数据间的相关性，提升神经网络效率，建立用于存储先前经验<s,a,r,s'>的经验回放记忆库。其中s为当前状态，a为执行动作，r为当前状态奖励，s'为下一状态。记忆库最大容量应设置在[10000,20000]，每次从经验库中随机采样进行网络的训练，采样批次大小取2n，n取[5,8]之间的数即可。

2.5首先判断是否达到目标网络参数更替步数周期，步数周期一般设置为[100,200]。若达到，则将实际网络参数赋给目标网络参数。网络参数更新首先要更新Q值，在DQN中Q值的更新公式如式(11)所示。神经网络的学习率α设置范围为[10^-10，10^-3]。其中s为当前状态，a为执行动作，r为当前状态奖励，s′为下一状态。由于目标是使最终总奖赏最大，因此强化学习的折扣因子γ可以取[0.9,0.99]范围内的数值，Q(s′)是s′输入目标网络后输出的Q值矩阵，Q(s，a)是在状态s下执行动作a时实际网络的Q值，r+γmaxQ(s′)是目标值，Q(s，a)是预测值,Q′(s，a)是更新后的状态s下执行动作a的Q值。

Q′(s，a)＝Q(s，a)+α(r+γmaxQ(s′)-Q(s，a)) (11)

定义一个损失函数loss表示为目标值和预测值的均方差，如式(12)所示。

loss＝((r+γmaxQ(s'))-Q(s))² (12)

2.6若损失loss收敛，则停止循环。

2.7将收敛的神经网络模型存储，用于测试算法调度决策效果。

本专利通过优化深度强化学习算法和神经网络结构，将该算法顺利应用于大规模舰载机出动回收调度模型上，解决了该背景下多目标在线调度问题。该过程构建为马尔可夫决策过程，实验结果表明，这一做法能够实现舰载机在线调度过程，面临突发状况时可以迅速解决并不影响后续任务的执行，体现了强化学习算法的实时性和灵活性。同时验证深度强化学习网络在该问题上能够近似收敛，与调度规则方法对比，该算法在平衡多目标函数优化时能得到较好的效果，获得较安全高效的调度策略。本论文方法促进了深度强化学习算法在多目标调度问题优化领域有意义的探索和创新。

附图说明

图1为航母甲板平面图

图2为出动回收流程图

图3为本发明算法流程图

图4为本发明算法更新图

图5为贪婪策略图

图6为神经网络图

图7-1为10架舰载机误差loss曲线图

图7-2为20架舰载机误差loss曲线图

图7-3为30架舰载机误差loss曲线图

图8-1为10架舰载机回报reward曲线图

图8-2为20架舰载机回报reward曲线图

图8-3为30架舰载机回报reward曲线图

图9-1为无突发状况调度甘特图

图9-2为有突发状况调度甘特图

图10-1为算法舰面冲突次数对比箱线图

图10-2为算法舰面总移动位移对比箱线图

图10-3为算法设备利用次数标准差总和对比箱线图

图10-4为算法任务完成时间对比箱线图

具体实施方式

步骤1、环境建模

舰载机在出动前必须进行常规的保障任务，目前比较先进的是一站式保障，即每个机位都在所需的各种保障资源覆盖范围内，只需要保障组移动即可，这种保障方式大大降低了事故风险系数。福特级航母就采用这种一站式保障，加油站，充电站等固定保障设备分布在保障机位周围，保障停机区内每一个保障机位都能进行一站式保障。同时甲板上还包括以下设施：四个起飞位，起飞位上有弹射器，用于舰载机起飞，由于跑道附近的起飞位的起飞点冲突并与降落跑道有重合，因此设置这两个起飞位为3号、4号弹射器，它们和降落跑道不能同时使用，由于舰艏有部分停机位与一个起飞位起飞跑道重合，因此设该起飞位为2号，该起飞位的弹射器一般不使用；着舰跑道，用于飞机着舰，有三个阻拦装置用于阻拦舰载机使其着舰，若阻拦失败就要快速复飞；两个升降机，用于将需要维修的舰载机传送到机库，并将接收指令参与作战的舰载机传送到甲板；除了固定的机位和设备，还有移动的保障组、用于牵引舰载机在甲板上移动的牵引车等移动设备。需对航母甲板各位置编号，建议可以对甲板的18个保障机位、4个起飞位、2个升降机和1个跑道进行编号，构建简化的甲板环境如图1，建立平面直角坐标，按照实际比例设置各机位和跑道的坐标以得到转移距离矩阵。各位置中心点坐标如表1所示。

表1舰载机甲板各位置中心点坐标

步骤二、出动回收流程确定

若某舰载机当前位于机库内，先由升降机传送到甲板，并滑到指定保障停机位；完成保障任务后，再滑至指定起飞位；当满足起飞条件时，舰载机由弹射器助力在起飞跑道上进行短距离滑行后起飞；舰载机在空中完成任务后进入空域的渐进航线，距离甲板最近的航线的舰载机准备着舰；若舰载机成功在阻拦设备的帮助下着舰，就可以由着舰跑道移动到停机区域，若阻拦失败，舰载机就需要重新返回到空域中的渐进航线，等待下次着舰；着舰后的舰载机如有复飞任务应滑至保障机位保障，若需维修则由升降机运送至机库进行维修。舰载机出动回收流程图如图2所示。

步骤三、考虑不确定性因素和规划调度目标函数

舰载机出动回收过程中，会产生很多不确定性因素。例如起飞时，弹射器可能由于某些机械性原因无法使用，导致舰载机无法按计划起飞；由于保障组人员车辆需要在狭窄的甲板上快速移动，这个过程中的不确定性也会导致舰载机保障时间受到影响；着舰时，阻拦装置出现状况会导致舰载机着舰失败，着舰跑道也会被舰面移动的舰载机或保障组占用暂时无法使用；在作战过程中，舰载机可能会被敌方击中导致损坏坠亡。

因此，调度规划必须在规定的任务时间内完成并且能够在突发状况发生时合理的调度甲板上的设备和资源。本方法通过衡量调度算法的安全性和高效性来衡量舰载机的出动回收能力，这是一个多目标优化的调度问题。因此设目标函数f如式(1)所示，设计为最小化舰载机甲板移动总距离T_Dis，最小化舰载机舰面冲突次数T_Conf，以及通过最小化各保障机位资源利用量的标准差σ(B_tn)与各弹射器利用量的标准差σ(T_tn)之和，来最大化各保障机位和弹射机位的利用率T_Balan。

f＝min(T_Dis)||min(T_Conf)||max(T_Balan) (1)

步骤四、马尔可夫决策过程建模

(1)环境和智能体

由于舰载机出动回收调度不能根据当前状态来确定结果，因此属于随机性环境；调度的过程是在任何时候都可以被确定的，因此属于完全可观测环境；状态转移的行为状态是有限个数的，因此归属于离散环境；由于执行的所有行为都是相关的，当前的行为会影响到今后的行为，因此属于非情景环境；建议将选用单智能体环境，即环境中只有一个智能体，本方法中的智能体确定为调度的决策者。

(2)状态集

以调度决策者为智能体，依照马尔可夫决策过程构建状态空间s_space如式(3)。

s_sPace＝

设备组表示为[E₀，E₁，...，E_m]，包括了保障区域保障设备组以及弹射器；舰载机群表示为[A₀，A₁，...，A_n]；设备及舰载机可用状态表示为op，用布尔值表示可用或不可用；舰载机所剩油量fuel可以离散的划分为0～3四个等级；当前位置表示为[pos₀，pos₁，...，pos_l]，包括停机位、位置不同并互相影响的弹射起飞位、着舰跑道、着舰渐进航线、作战的空域和机库。

(3)动作集

a-space＝[[A₀，P₀]，[A₀，P₁]，...，[A_n-1，P_m-1]]

(4)

A＝[0，1，2，…，n-1]为舰载机集合，P＝[0，1，2，…，m-1]为位置集合，动作空间大小为m×n。

(4)状态转移

(5)回报函数

本发明所解决的问题是一个多目标问题，目标函数由多个影响因素构成，因此将奖赏函数线性化表示。根据目标函数，将奖赏函数定义成一个权重向量

的转置

和当前状态s下的特征向量φ(s)的乘积。当前状态s的单步奖赏R(s)表示为式(10)。

特征向量中的每一个特征值都影响调度算法获得最优的策略。其中权重向量的值由用户定义，状态特征向量定义为以下7个特征值：1号特征值为濒临坠亡的舰载机数量(舰载机位于空中油量小于满油量的五分之一或舰载机位于渐近线油量小于满油量的十分之一)；2号特征值为坠毁的舰载机数量；3号特征值为完成目标任务的舰载机数量；4号特征值为舰面冲突次数；5号特征值为成功弹射起飞的舰载机数量；6号特征值为舰载机舰面位移值；7号特征值为各保障组使用频次的标准差与弹射器使用频次的标准差之和。

本方法强化学习马尔可夫过程执行步骤如下。

(1)甲板环境舰载机状态初始化，利用均匀随机分布原则将舰载机分组，根据实际情况可以分2-3组，各组舰载机分别位于不同的初始位置。舰载机和设备初始状态下均可用。根据舰载机所处位置设置当前各架舰载机的初始油量等级，如表1所示。初始化突发事件，包括事件的类型和事件的产生时间。突发事件分为以下四种：固定设备损坏、移动保障组或保障资源延迟、舰载机损坏和阻拦着舰失败。

表1舰载机初始位置对应油量

(2)更新可执行动作集，从可执行动作集中选取动作执行。为了解决强化学习的探索利用平衡问题，应用ε-贪婪策略来选择动作。在概率ε下，随机探索不同动作，并以概率1-ε选择具有最大值的行为。初始设置ε＝1，随着时间推移，智能体的学习能力越来越强，更新得到的状态动作值越来越好，因此设置一个折扣率β＝[0.8,0.9996]，使ε衰减至0.1，输出当前状态下动作值集合中值最大的行为。

(3)得到执行动作后的下一状态，计算上一状态动作对产生的奖励值。

步骤5、深度强化学习算法设计

舰载机出动回收在线调度问题的状态解空间巨大，因此如果要应用传统的强化学习算法将会花费大量的时间。深度神经网络是有效处理大量数据的工具，因此考虑到利用深度神经网络结合强化学习，也就是深度强化学习方法来解决该问题。本发明采用DQN算法来解决舰载机出动回收在线多目标调度问题。

Q函数是模型在某一状态下某行为的最优值，Q-Learning算法通过建立一个Q表来存储所有可能的状态—行为对的Q函数，每次选择Q值最大的动作执行，通过不断更新Q函数来最终使算法结果收敛，得到最优策略。DQN算法用参数θ来近似Q-Learning中的Q函数，即有Q(s,a；θ)≈Q*(s,a)，利用一个权重为θ的神经网络近似每个状态下发生动作的Q值。在Q-Learning中Q值的更新公式如式(12)所示。其中r+γmaxQ(s')是目标值，Q(s,a)是预测值,Q′(s，a)是更新后的状态s下执行动作a的Q值。

Q′(s，a)＝Q(s，a)+α(r+γmaxQ(s′)-Q(s，a)) (11)

在DQN中，定义一个损失函数作为目标值和预测值的均方差，如式(12)所示。通过梯度下降的方法更新神经网络参数权重θ来最小化损失，使神经网络预测的Q值逐渐逼近目标值。DQN算法实施流程如图3所示。

loss＝((r+γmaxQ(s'))-Q(s，a))² (12)

DQN算法与传统的将神经网络与强化学习结合的方法相比，有两个开创性的优势。首先，是建立了用于存储之前经验<s,a,r,s'>的经验回放记忆库，由于Q-Learning是离散学习的方法，既可以学习当前的经历也可以学习过去的经验，因此在DQN网络更新的时候可以从记忆库中随机抽取指定大小批次的经验进行学习，这样的做法打乱了经验之间的相关性，同时达到降低神经网络过拟合的目的。除此之外，DQN通过建立两个结构相同的神经网络来使训练过程更为稳定。用于预测Q值的实际Q网络使通过梯度下降来学习正确的权重，而用于计算目标Q值的目标网络在滞后若干时间后再通过复制实际Q网络中的参数更新。修改损失函数公式为式(13)。其中θ'为目标网络的参数，θ为实际网络的参数。DQN网络更新流程如图4所示。

loss＝((r+γmaxQ(s′；θ′))-Q(s，a；θ))² (13)

在强化学习的过程中，每次会选择利用Q值最大的动作，这就是通常称为贪婪策略的动作选择策略。但在大部分强化学习问题的最初阶段并不能掌握状态-动作对的Q值，因此需要通过随机的方式来探索选择未知的动作，在经历过一段时间的学习后，就能够掌握一定量的Q值。但此时应该继续探索未知动作还是利用当前Q值最大的动作，这就是强化学习的探索利用平衡问题。为了解决这个问题，应用ε-贪婪策略来选择动作，如图5所示。初始设置一个非0概率ε，在概率ε下，随机探索不同动作，并以概率1-ε选择具有最大值的行为。当ε为0的时候，不会进行探索，当ε为1的时候，只进行探索。随着时间推移，智能体的学习能力越来越强，更新得到的状态动作值越来越好，此时应该逐渐降低ε的值，更多的利用学到的Q值选择最优行为。

由于强化学习是一个不断试错的过程，又由于本发明问题数据量巨大，用来训练的数据之间差距有时会较大，因此在训练的过程中容易出现梯度爆炸的情况。解决梯度爆炸的方法有很多，最简单的方式是降低学习率。但是强化学习与我们常见的监督学习不同，训练不确定性和随机性导致学习率只有降低到10^-7甚至更低的时候才能避免梯度爆炸，设置这种级别的学习率需要利用很长的训练时间才能得到收敛的策略。此时，考虑用一种叫做批归一化(Batch-Normalization，BN)的方法对数据进行归一化，通过对每一批输入数据归一化，来使数据间差距减小。神经网络结构如图6所示。

在神经网络的每一层的使用激励函数之前先做BN，然后使用ReLU激励函数将数据线性化。同时还可以对策略剪裁，控制梯度上限，来进一步优化学习过程。

步骤6、仿真实验

本发明可行性的验证将提出算法应用在不同规模舰载机调度问题上，并利用所得策略验证在线调度方法效果。由于解决的是大规模舰载机在线调度问题，不能利用启发式智能算法比较验证，因此将所得策略与调度规则结果分析对比。

实验举例如下：

本实验将舰载机规模分为3类，舰载机数量为n＝[10,20,30]，保障机位设置为18个，标号为[0,1,2…17]。训练过程中，由于舰载机是编队作战，因此每轮训练的初始状态将舰载机分为三组，各组舰载机分别位于保障位、渐近线和空中。设置一轮训练结束的标志为所有舰载机都经历至少一次出动—回收过程，同时设置随机时间区间内会产生随机的一种突发情况。突发情况分为以下四种：固定设备损坏、移动保障组和资源延迟、舰载机损坏和阻拦着舰失败。

提出的算法将应用Python 3.7在JetBrains Pycharm平台上调用TensorFlow库编码实现，运行于3.60GHZ Intel i7处理器Windows x64系统。参照OpenAI的gym编写的舰载机甲板出动回收环境类，编写包括构造、重置、执行等方法仿真调度过程；利用TensorFlow构造深度神经网络，对仿真模型进行训练。

参数设置是根据一般性原则，经过多次实验调整选取最优结果。由于目标是使最终总回报最大，因此折扣因子γ越大越好，本实验中设置γ＝0.97；用ε-贪婪策略实现探索利用平衡，在训练的初始阶段充分探索策略，最终阶段选取学习到的最优策略，因此初始设置ε＝1，并以0.9996的折扣率衰减至ε＝0.1；将学习率设置为α＝0.001，记忆库最大容量为N＝20000，采样批次大小为batch_size＝32。神经网络隐藏层神经元个数设为400，参数初始化采用随机策略。总训练次数为2500次。

步骤7、实验结果分析

航母按照指定周期进行作业，舰载机空中任务周期分为单周期和双周期，单周期任务舰载机在空中停留一个周期后返回甲板，双周期任务舰载机在空中停留两个周期后返回甲板。本实验中采用双周期空中作战，其中一个周期的时间设置为3600秒，在模型训练阶段将一次任务设计四个周期。得到的结果将从以下三个方面对算法效果进行分析评估。

(1)判断神经网络是否学习到了策略，并且学到的策略是否是最优策略。设计三种规模的舰载机群分别利用深度强化学习学得的网络误差曲线，如图7-1、图7-2、图7-3所示。由于强化学习是不断探索试错的过程，每经历一步就有可能探索到新的策略，因此不可能使误差loss收敛成一个平滑的曲线，能得到处于一直波动但总体下降的loss曲线即是好的强化学习网络。可以看出，三种规模均能学习到loss收敛的网路，可以认为学到了好的策略。

对比总回报函数的变化曲线如图8-1、图8-2、图8-3所示。可以看出规模越小的舰载机调度问题其回报函数增长的趋势越大，说明该深度强化学习算法对于小规模舰载机调度问题处理的比大规模要更好。

(2)将学到的规模为30架舰载机的网络模型重新加载，测试在面临突发状况时模型的处理能力。无突发状况调度甘特图如图9-1所示，遇到突发状况的调度甘特图如图9-2所示。图9-2中所示的实验突发状况设计为在任务进行到第1420秒时24号舰载机坠亡，此时从机库调度一架舰载机重新编号为24号，此舰载机移动至保障位开始保障，等待出动。由调度甘特图可以看出之后的调度并没有受到突发状况的影响，可以继续执行任务，因此该算法模型能够很好地解决在线调度问题。

(3)在调度规模为30架舰载机的情况下，分别应用深度强化学习DQN算法、SJF方法和Rand方法对20个不同初始环境执行调度策略，并在每个初始环境中添加指定时间发生突发事件，得到舰面移动位移、舰面冲突次数、设备利用标准差值和完成任务总时间的箱线图分别如图10-1、图10-2、图10-3和图10-4所示。

可以看出，DQN算法在实验中得到的舰面冲突次数结果与SJF方法接近，都优于Rand方法，但是DQN算法在某些初始状态下能够得到更少的冲突次数；在舰面总位移的对比中，能够看到SJF算法的结果最好且最稳定，由于该方法就是要选择最短时间也就是移动位移最短的动作，而DQN得到的结果也比较好，并能够稳定在位移总值较低的区域；DQN方法在设备利用次数衡量上优于SJF，说明各个设备的使用较为均衡，Rand方法由于是均匀分布，所以设备使用率基本相同，各设备的使用次数标准差较小；任务完成总时间上三种方法的平均值接近，但是SJF和Rand都出现了某次实验完成时间过长，是由于这两种算法对于突发状况没有较快的反应和处理能力，影响了后续任务的执行，这里再次体现了DQN算法在解决在线调度上的优势。

Claims

1.基于深度强化学习的舰载机出动回收在线调度方法，其特征在于，包括以下步骤：

1.1环境建模，通过将问题转化为马尔可夫决策过程，实现多目标的舰载机在线调度；

(1.1.1)建立航母甲板的平面直角坐标系，按照实际比例设置各机位和跑道的点位坐标，计算求得各点间转移位移；

(1.1.2)设目标函数f如式(1)所示，设计为最小化舰载机甲板移动总距离T_Dis，最小化舰载机舰面冲突次数T_Conf，以及通过最小化各保障机位资源利用量的标准差σ(B_tn)与各弹射器利用量的标准差σ(T_tn)之和，来最大化各保障机位和弹射机位的利用率T_Balan；

f＝min(T_Dis)||min(T_Conf)||max(T_Balan) (1)

(1.1.3)以调度决策者为智能体，依照马尔可夫决策过程构建状态空间s_space如式(3)所示；

s_space＝{′E₀′：op，...，′E_m′：op，′A₀′：[op，fuel，pos_l]，...，′A_n′：[op，fuel，pos_l]} (3)

设备组表示为[E₀，E₁，...，E_m]，包括了保障区域保障设备组以及弹射器；舰载机群表示为[A₀，A₁，...，A_n]；设备及舰载机可用状态表示为op，用布尔值表示可用或不可用；舰载机所剩油量fuel离散的划分为0～3四个等级；当前位置表示为[pos₀，pos₁，...，pos_l]，包括停机位、位置不同并互相影响的弹射起飞位、着舰跑道、着舰渐进航线、作战的空域和机库；

动作集定义为某一舰载机移动到某一位置的集合，动作空间a_space表示如式(4)所示；

a_space＝[[A₀，P₀]，[A₀，P₁]，...，[A_n-1，P_m-1]] (4)

A＝[0，1，2，...，n-1]为舰载机集合，P＝[0，1，2，...，m-1]为位置集合，动作空间大小为m×n；

状态转移是指智能体从当前状态通过执行动作转移到下一状态的过程，在本调度问题中需要考虑几项约束，详见式(5-9)；

式(5)是油量约束，A_i表示舰载机，S表示保障机位集合，F_i表示油量等级，P_i表示舰载机当前位置，即舰载机油量等级为0时，若此舰载机不位于保障机位上，则该舰载机坠亡；式(6)是技术约束，T是按照执行顺序排列的任务集合，ST是任务开始时间，ET是任务结束时间，舰载机任务必须按照“保障—>弹射—>作战—>进入渐近线—>着舰—>保障/停机/维修”的顺序执行，并且必须在完成上一任务后才能进入下一任务；式(7)是互斥约束，T_ij是舰载机i在停机位j的时间戳，T_kj是舰载机k在停机位j的时间戳，对于任意的两个舰载机都不能共用停机位，也就是各舰载机在同一停机位的时间戳不能重合；式(8)是空间约束，T_L/T_T3/T_T4分别是着舰跑道和3号、4号弹射器被使用的时间戳集合，由于甲板空间狭小，着舰跑道和跑道附近的弹射器不能同时使用，设这两个弹射器标号为3号和4号；式(9)是任务约束，P是任务优先级集合，舰载机舰面会遇时按照当前舰载机任务优先级决定通过顺序；

目标函数由多个影响因素构成，奖赏函数用线性化方法表示；根据目标函数，将奖赏函数定义成一个权重向量的转置

与当前状态s下的特征向量φ(s)的乘积；当前状态s的单步奖赏R(s)表示为式(10)；

其中权重向量

中的各个数值根据对应的特征向量中包含的因素对于目标回报影响的程度进行设置；状态特征向量定义为以下7个特征值：1号特征值为濒临坠亡的舰载机数量即舰载机位于空中油量小于满油量的五分之一或舰载机位于渐近线油量小于满油量的十分之一；2号特征值为坠毁的舰载机数量；3号特征值为完成目标任务的舰载机数量；4号特征值为舰面冲突次数；5号特征值为成功弹射起飞的舰载机数量；6号特征值为舰载机舰面位移值；7号特征值为各保障组利用率的标准差与各弹射器利用率的标准差之和；

1.2强化学习马尔可夫过程执行步骤如下：

1)甲板环境和舰载机状态初始化，利用均匀随机分布原则将舰载机分为2-3组，各组舰载机分别位于不同的初始位置；舰载机和设备初始状态下均可用；根据舰载机所处位置设置当前各架舰载机的初始油量等级，如表1所示；初始化突发事件，包括事件的类型和事件的产生时间；突发事件分为以下四种：固定设备损坏、移动保障组或保障资源延迟、舰载机损坏和阻拦着舰失败；

表1舰载机初始位置对应油量

2)更新可执行动作集，从可执行动作集中选取动作执行；用ε-贪婪策略来选择动作；在概率ε下，随机探索不同动作，并以概率1-ε选择具有最大值的行为；初始设置ε＝1，随着时间推移，智能体的学习能力越来越强，更新得到的状态动作值越来越好，因此设置一个折扣率β＝[0.8,0.9996]，使ε衰减至0.1，输出当前状态下动作值集合中值最大的行为；

3)得到执行动作后的下一状态，计算上一状态动作对产生的奖励值；

1.3利用深度神经网络强大的感知能力结合强化学习的决策能力，采用深度Q学习算法来解决舰载机出动回收在线调度问题；强化学习是通过选择最大的Q值得到动作策略，并通过不断更新Q值得到最优策略；算法更新流程具体步骤如下：

(1)构造两个结构相同的神经网络，分别为目标网络Target-Net和实际网络Eval-Net；将环境模型中的状态向量作为神经网络输入，执行的动作作为神经网络的输出，设置隐藏层层数为[5,10]；输入层神经元个数与输入状态维度相同，输出层神经元个数与动作空间的大小相同，隐藏层神经元个数取输入和输出层个数区间内的任一值；

(2)将当前状态s转换为一维向量输入实际网络中，在神经网络的每一层使用激励函数之前先做批归一化BN，然后使用ReLU激励函数将数据线性化；

(3)输出当前状态下的动作集值向量，选择动作执行，动作执行后得到下一状态和当前状态动作的奖赏值；

(4)建立用于存储先前经验<s,a,r,s′>的经验回放记忆库；其中s为当前状态，a为执行动作，r为当前状态奖励，s′为下一状态；记忆库最大容量设置为[1000,20000]，每次从经验库中随机采样进行网络的训练，采样批次大小取2n，n取[5,8]之间的数；

(5)判断是否达到目标网络参数更替步数周期，步数周期设置为[100,200]；若达到，则将实际网络参数赋给目标网络参数；网络参数更新首先要更新Q值，在DQN中Q值的更新公式如式(11)所示；神经网络的学习率α设置范围为[10^-10，10^-3]；目标是使总奖赏最大，强化学习的折扣因子γ取[0.9,0.99]范围内的数值，Q(s′)是s′输入目标网络后输出的Q值矩阵，Q(x，a)是在状态s下执行动作a时实际网络的Q值，r+γmaxQ(x′)是目标值，Q(s，a)是预测值,Q′(s，a)是更新后的状态s下执行动作a的Q值；

Q′(s，a)＝Q(s，a)+α(r+γmaxQ(s′)-Q(s，a)) (11)

定义一个损失函数loss表示为目标值和预测值的均方差，如式(12)所示；

loss＝((r+γmax Q(s′))-Q(s))² (12)

(6)若损失loss收敛，停止循环；

(7)将收敛的神经网络模型存储。