CN115334165B

CN115334165B - 一种基于深度强化学习的水下多无人平台调度方法及系统

Info

Publication number: CN115334165B
Application number: CN202210809602.6A
Authority: CN
Inventors: 刘妹琴; 郑林垚; 陈霸东; 兰剑
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2023-10-17
Anticipated expiration: 2042-07-11
Also published as: CN115334165A

Abstract

本发明公开了一种基于深度强化学习的水下多无人平台调度方法及系统，所述基于深度强化学习的水下多无人平台调度方法包括以下步骤：通过动态分簇的方法搭建水下多无人平台协同框架；基于所述水下多无人平台协同框架，利用强化学习将水下多无人平台的动态调度问题建模为马尔可夫决策过程模型；基于所述马尔可夫决策过程模型，利用D3QN算法学习调度策略，构建基于深度Q网络的智能调度方法；基于所述智能调度方法实现所述水下多无人平台的调度。本发明可解决复杂水下环境和能量受限情况下的多无人平台动态调度的技术问题。

Description

一种基于深度强化学习的水下多无人平台调度方法及系统

技术领域

本发明属于水下多传感器调度技术领域，特别涉及一种基于深度强化学习的水下多无人平台调度方法及系统。

背景技术

海洋蕴含着丰富的生物资源和矿产资源，是社会实现可持续发展的重要基地。近年来，水下这一深层海洋空间成为了大国博弈的新战场，为了进一步提升对水下目标的检测及跟踪、资源深度开发、安全防卫等能力，以无人潜航器(Unmanned UnderwaterVehicle，UUV)为代表的水下无人平台正被更加广泛的使用在这一领域。

水下无人平台具有自主航行能力，配备多种传感器设备，可自主完成海洋环境信息获取、目标探测、识别、定位与跟踪以及区域警戒等任务。相较于采用固定式浮标、潜标平台的传统水下目标跟踪系统而言，通过多个水下无人平台组网构成的水下多无人平台协同跟踪系统一方面具备自组网能力，能够合理配置网络各节点的覆盖区域与拓扑结构，能以较少的节点实现对目标区域的连续探测覆盖，提高水下网络的整体效率；另一方面可以实时传输传感器所获得的数据，在线监测目标区域情况，提高水下环境安全问题的及时应对能力。

水下多无人平台系统在有着上述优势的同时，也存在着较大的限制，主要包括：在正常的情况下，水下无人平台普遍采用电池供电，在复杂的水下环境下难以进行实时更换或维护，水下多无人平台系统的寿命严重依赖于系统中的水下无人平台的使用寿命；此外，水下通信需要更多的能量发送声波信号，进一步加大了水下多无人平台系统的能量消耗速度。

综上，如何合理调度水下多无人平台系统的能源资源，在满足任务需求的情况下延长系统的使用寿命是水下多无人平台系统面临的重要问题。

发明内容

本发明的目的在于提供一种基于深度强化学习的水下多无人平台调度方法及系统，以解决复杂水下环境和能量受限情况下的多无人平台动态调度的技术问题。

为达到上述目的，本发明采用以下技术方案：

本发明提供的一种基于深度强化学习的水下多无人平台调度方法，包括以下步骤：

基于待调度的水下多无人平台，通过动态分簇的方法搭建水下多无人平台协同框架；

基于所述水下多无人平台协同框架，利用强化学习将水下多无人平台的动态调度问题建模为马尔可夫决策过程模型；

基于所述马尔可夫决策过程模型，利用D3QN算法学习调度策略，构建基于深度Q网络的智能调度方法；基于所述智能调度方法实现所述水下多无人平台的调度。

本发明方法的进一步改进在于，所述通过动态分簇的方法搭建水下多无人平台协同框架的步骤包括：

通过先验条件构建的约束条件，选出构建簇头-簇成员式协同框架的候选无人平台集合；

通过无人平台与目标的预测位置的相对距离、无人平台与其他无人平台的相对距离关系、无人平台当前剩余能量选出簇头；其中，所述簇头用于执行调度簇成员的任务。

本发明方法的进一步改进在于，所述通过先验条件构建的约束条件，选出构建簇头-簇成员式协同框架的候选无人平台集合的步骤包括：

定义在k时刻，候选簇成员为集合E_k，候选簇成员个数为N_p，候选簇成员集合中的水下无人平台为P_i，i＝1,...,N_p；候选簇头为集合F_k，候选簇头个数为N_FC，候选簇头集合中的水下无人平台为P_j，i＝1,...,N_FC；

E_k和F_k分别满足如下条件：

式中，I_i为候选簇成员接收的声强，I_{P_th}为水下无人平台成为候选簇成员的接收声强门限值；E_i为候选簇成员的能量水平，水下无人平台成为候选簇成员所需的能量门限；I_j为候选簇头接收的声强，I_{FC_th}为水下无人平台成为候选簇头的接收声强门限值；E_j为候选簇头的能量水平，/>水下无人平台成为候选簇头所需的能量门限。

本发明方法的进一步改进在于，所述通过无人平台与目标的预测位置的相对距离、无人平台与其他无人平台的相对距离关系、无人平台当前剩余能量选出簇头的过程中，

定义k时刻簇头为FC_k，表示为，

式中，FC_k-1为k-1时刻所选出的簇头，P_j为候选簇头，dis(P_j,FC_k-1)为FC_k-1与P_j之间的距离；dis(P_j,P_i∈E_k)为候选簇头P_j与中候选簇成员P_i之间的距离，r_c为簇头最大探测半径；

式中，q₁+q₂+q₃＝1；和/>分别表示由FC_k-1到P_j的向量和由FC_k-1到目标预测位置的向量；/>为/>和/>的夹角θ的余弦值；/>表征FC_k-1与P_j距离的关系；E_j,k-1和E_j,k分别表示候选簇头k时刻本身具有的能量和将消耗的能量。

本发明方法的进一步改进在于，所述马尔可夫决策过程模型包括状态空间、动作空间、奖励函数及调度策略；

所述状态空间中，簇头在k时刻对簇成员进行的调度是从簇成员候选集合E_k优选出N^*个簇成员组成的子集来使水下多无人平台的能效最优；状态空间/>设定为优选簇成员组成的子集/>表示为/>

所述动作空间中，簇头的动作A_FC设定为从候选集合E_k选择子集在k时刻，簇头在执行调度任务时的动作/>表示为/>

所述奖励函数R包括日常奖励r_k和结算奖励表示为，

R＝ar_k+br_k ^End；

式中，a和b为切换系数，用于日常奖励与结算奖励的切换，表示为，

式中，T_end为簇头完成调度任务的时刻；

式中，λ为调整成本函数与效用函数两部分比例的联合因子；

式中，表示N^*个水下无人平台构成的集合，/>表示k时刻由集合/>中无人平台得到的费舍尔信息矩阵，其由最大似然估计的克拉美罗下界(CRLB)构建，表示为，

式中，x,y,z分别为目标预测位置在直角坐标系中X方向、Y方向、Z方向上的坐标，Z_k为水下无人平台系统在k时刻所获得的目标量测信息；

式中，和/>分别代表候选簇成员在动态簇建立和簇头与簇成员通信的能量消耗；

式中，d_i表示簇头与第i个簇成员之间的距离，r_c为簇头最大探测半径；表示节点接收长度为l_bc的簇头发布的信息需要消耗的能量；/>表示节点发送长度为l_rec的回复需要消耗的能量；/>表示簇成员向簇头发送长度为l_local的本地信息需要消耗的能量；表示簇成员接收簇头发送的长度为l_c的信息需要消耗的能量；P_r为所需的最低信号接收功率；A_di和A_rc分别为簇成员之间和簇成员与簇头之间水声通信所需的增幅系数；

式中，N_e为算法训练次数，d_goal为精度目标，E_goal为能效目标；为每次训练后，系统消耗的能量；κ,μ为平衡目标跟踪精度和系统能效两部分比例的联合因子；/>表示第i次训练的目标跟踪精度；

式中，T为目标跟踪时间；为I个水下无人平台得到的k时刻的虚拟量测和真实量测/>偏差；/>为k时刻真实量测和虚拟量测之间的马氏距离；/>为k时刻量测一步预测值；

定义簇头的在k时刻的动作选择策略π_k(s_k)为，

式中，R为奖励，s_k-1表示k-1时刻的状态，s_k表示k时刻的状态，a_k表示当前执行动作；P(s_k-1,a_k,s_k)代表簇头对簇成员进行调度时从上一状态s_k-1执行动作a_k后进入下一状态s_k的概率，V_k(s_k)为状态价值函数；

动作选择策略π_k(s_k)通过状态价值函数V_k(s_k)构建，定义为π_k(s_k)≈V_k(s_k)；

状态价值函数V_k(s_k)通过簇头在k时刻的动作价值函数Q_k(s_k,a_k)构建，定义为

Q_k(s_k,a_k)定义为：Q_k(s_k,a_k)＝(1-β)Q_k(s_k-1,a_k-1)+β[r_k(s_k)+γV_k(s_k)]；

式中，r_k(s_k)∈R代表延迟奖励；γ∈[0,1]代表折扣系数，β∈[0,1]代表学习率。

本发明方法的进一步改进在于，所述基于所述马尔可夫决策过程模型，利用D3QN算法学习调度策略，构建基于深度Q网络的智能调度方法中，D3QN由评估网络和目标网络组成，评估网络和目标网络为参数不同但结构相同的Q网络；Q网络由一个输入层、两个128层的全连接层、一个输出层构成；评估网络的参数为θ，目标网络的参数为θ′；

D3QN在k时刻的Q网络均由价值函数和优势函数两个部分构成，表示为，

式中，为k时刻的所有可以采取的动作，V_k(s_k,a_k；θ,q)为价值函数，A(·)为优势函数，N_A为动作个数，p和q分别为优势函数和价值函数的网络参数；

D3QN通过不断缩小损失函数进行更新。

本发明方法的进一步改进在于，所述D3QN通过不断缩小损失函数进行更新的过程中，

损失函数L(θ)定义为目标网络的当前输出与评估网络的当前输出的均方差，表示为，

式中，r为执行动作后所获得的奖励，s_k+1表示下一时刻的状态，a′_k表示在状态s_k+1下需要执行动作；

利用随机梯度下降法求解损失函数，得到

进而实现D3QN的网络更新。

本发明提供的一种基于深度强化学习的水下多无人平台调度系统，包括：

协同框架获取模块，用于基于待调度的水下多无人平台，通过动态分簇的方法搭建水下多无人平台协同框架；

马尔可夫决策过程模型获取模块，用于基于所述水下多无人平台协同框架，利用强化学习将水下多无人平台的动态调度问题建模为马尔可夫决策过程模型；

调度实现模块，用于基于所述马尔可夫决策过程模型，利用D3QN算法学习调度策略，构建基于深度Q网络的智能调度方法；基于所述智能调度方法实现所述水下多无人平台的调度。

本发明系统的进一步改进在于，所述马尔可夫决策过程模型包括状态空间、动作空间、奖励函数及调度策略；

所述奖励函数R包括日常奖励r_k和结算奖励表示为，

式中，T_end为簇头完成调度任务的时刻；

式中，d_i表示簇头与第i个簇成员之间的距离，r_c为簇头最大探测半径；表示节点接收长度为l_bc的簇头发布的信息需要消耗的能量；/>表示节点发送长度为l_rec的回复需要消耗的能量；/>表示簇成员向簇头发送长度为l_local的本地信息需要消耗的能量；E_s ^c表示簇成员接收簇头发送的长度为l_c的信息需要消耗的能量；P_r为所需的最低信号接收功率；/>和/>分别为簇成员之间和簇成员与簇头之间水声通信所需的增幅系数；

定义簇头的在k时刻的动作选择策略π_k(s_k)为，

本发明系统的进一步改进在于，所述基于所述马尔可夫决策过程模型，利用D3QN算法学习调度策略，构建基于深度Q网络的智能调度方法中，D3QN由评估网络和目标网络组成，评估网络和目标网络为参数不同但结构相同的Q网络；Q网络由一个输入层、两个128层的全连接层、一个输出层构成；评估网络的参数为θ，目标网络的参数为θ′；

D3QN通过不断缩小损失函数进行更新；

其中，损失函数L(θ)定义为目标网络的当前输出与评估网络的当前输出的均方差，表示为，式中，r为执行动作后所获得的奖励，s_k+1表示下一时刻的状态，a′_k表示在状态s_k+1下需要执行动作；利用随机梯度下降法求解损失函数，得到/>进而实现D3QN的网络更新。

与现有技术相比，本发明具有以下有益效果：

本发明提供的基于深度强化学习的水下多无人平台调度方法中，通过动态分簇方法构建簇头-簇成员式的协同框架，从而可以根据任务需求控制参与协同的无人平台数量，提升多节点协同效率，优化无人平台资源分配；引入深度强化学习构建的智能调度算法，可以有效解决传统的水下多传感器调度方法难以解决的动态调度问题，实现系统与水下复杂环境的实时交互，进一步优化系统的能量资源分配和无人平台协同策略，从而提升水下多无人平台系统的目标跟踪精度，并降低系统能耗。综上，本发明能够实现水下多无人平台系统的能量资源的合理调度，在显著提升系统跟踪性能的同时，有效减缓系统的能量消耗速度，进一步延长系统在复杂水下环境下的使用寿命。

本发明中，使用强化学习将簇头和簇成员之间的调度问题建模为马尔可夫决策过程，结合水下多无人平台调度任务的特点，设计状态空间、动作空间、调度策略、奖励函数；利用D3QN学习调度策略，构建基于深度Q网络的智能调度方法，利用实时环境反馈，判断当前调度策略的有效性，进而确定当前环境下的最优调度策略，有效提升目标跟踪精度与系统能效。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于深度强化学习的水下多无人平台调度方法的流程示意图；

图2是本发明实施例中，构建的簇头-簇成员式水下多无人平台协同框架示意图；

图3是本发明实施例中，构建的D3QN结构示意图；

图4是本发明实施例中，使用的基于深度Q网络的智能调度方法流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

本发明实施例公开了一种基于深度强化学习的水下多无人平台调度方法，包括：通过动态分簇方法，构建簇头-簇成员式的水下多无人平台协同框架；在上述协同框架下，使用强化学习将簇头和簇成员之间的协同策略问题建模为马尔可夫决策过程，使用D3QN(Dueling Double Deep Q Network，D3QN)学习调度策略，构建基于深度Q网络的智能调度方法。该发明可以有效提升水下多无人平台协同跟踪精度并降低协同跟踪过程中水下多无人平台的能量消耗。

请参阅图1，本发明实施例的一种基于深度强化学习的水下多无人平台调度方法，该方法包括以下步骤：

步骤S101，利用动态分簇方法构建水下多无人平台协同框架。

具体的，作为一个实施例，由动态分簇方法的基本理论，从构建动态簇候选成员集合以及簇头优选方案设计两个方面构建簇头-簇成员式的水下多无人平台协同框架，包括：

(1)构建动态簇候选成员集合

定义在k时刻，候选簇成员为集合E_k，候选簇成员个数为N_p，候选簇成员集合中的水下无人平台为P_i(i＝1,...,N_p)；候选簇头为集合F_k，候选簇头个数为N_FC，候选簇头集合中的水下无人平台为P_j(i＝1,...,N_FC)；

E_k和F_k分别满足如下条件：

式中，I_i为候选簇成员接收的声强，I_{P_th}为水下无人平台成为候选簇成员的接收声强门限值；E_i为候选簇成员的能量水平，水下无人平台成为候选簇成员所需的能量门限；I_j为候选簇头接收的声强，I_{FC_th}为水下无人平台成为候选簇头的接收声强门限值；E_j为候选簇头的能量水平，/>水下无人平台成为候选簇头所需的能量门限；I_{P_th}，I_{FC_th}，的具体取值由任务需求确定。

(2)簇头优选方案设计

由于簇头需要承担协同与融合任务，相较于簇成员耗能更大，因此选择簇头主要从能量消耗、平台剩余能量以及候选平台与目标预测位置之间的关系。根据目标状态的融合估计预测目标在k时刻的位置，并根据预测信息完成k时刻簇头的选择。

本发明实施例采用的簇头的选择方案为：

定义k时刻簇头为FC_k，表示如下

式中，FC_k-1为k-1时刻所选出的簇头，P_j为候选簇头，dis(P_j,FC_k-1)为FC_k-1与P_j之间的距离；同理，dis(P_j,P_i∈E_k)为候选簇头P_j与中候选簇成员P_i之间的距离，r_c为簇头最大探测半径；。

其中，q₁+q₂+q₃＝1，按实际任务情况进行调节；和/>分别表示由FC_k-1到P_j的向量与由FC_k-1到目标预测位置的向量；/>为/>和/>的夹角θ的余弦值，表征候选簇头与目标预测位置之间的几何关系，其值越大，候选簇头越靠近目标移动方向，所获得的量测信息也会越精准；/>表征了FC_k-1与P_j距离的关系，其值越大，簇头切换频率越低，能量消耗越小。E_j,k-1和E_j,k分别表示候选簇头k时刻本身具有的能量和将消耗的能量，一般选择剩余能量较多的无人平台作为下一时刻的簇头。当簇头选择成功后，将在簇头-簇成员式协同架构下进行水下多无人平台调度。

请参阅图2，当簇头选择成功后，可以构建如图2所示的簇头-簇成员式水下多无人平台协同框架，包括以下步骤：

步骤S102，基于利用强化学习将水下多无人平台的动态调度问题(也即将簇头-簇成员之间的协同策略问题)建模为马尔可夫决策过程模型。

具体的，作为一个实施例，利用强化学习方法，将水下多无人平台中的簇头与簇成员之间的调度问题建模为马尔可夫决策过程模型，其主要由四部分组成：状态空间，动作空间，奖励函数及动作选择策略。由此，具体建模方法按状态空间、动作空间、以及奖励函数，动作选择策略的顺序进行说明。

(1)状态空间建模

具体的，作为一个实施例，簇头在k时刻对簇成员进行的调度就是从簇成员候选集合E_k优选出N^*个簇成员组成的子集来使水下多无人平台的能效最优。在此基础上，结合强化学习基本理论，状态空间/>设定为优选簇成员组成的子集/>从而有：

(2)动作空间建模

具体的，作为一个实施例，簇头的动作A_FC设定为：从候选集合E_k选择子集即在k时刻，簇头在执行调度任务时的动作/>为：/>

(3)奖励函数设计

具体的，作为一个实施例，奖励函数由日常奖励和结算奖励两部分构成。

日常奖励为智能体在每次行动后得到的奖励，用于评估当前时刻的策略效果。在簇头-簇成员调度的场景下，日常奖励的设计需要考虑簇成员所能带来的信息、簇成员进行网络通信的能量消耗以及簇成员的剩余能量三个要素。因此，日常奖励由效用函数和成本函数两部分构成。

利用由候选簇成员的位置和目标预测位置计算得到的费舍尔信息矩阵可建立如下效用函数：/>

式中，表示N^*个无人平台构成的集合，/>表示k时刻由集合/>中无人平台得到的费舍尔信息矩阵，其由最大似然估计的CRLB构建，表示如下，

式中，x,y,z分别为目标预测位置在直角坐标系中X方向、Y方向、Z方向上的坐标，Z_k为水下无人平台系统在k时刻所获得的目标量测信息。

由水下能耗模型可知，候选簇成员在k时刻需要消耗的总能量如下，

式中，d_i表示簇头与第i个簇成员之间的距离，r_c为簇头最大探测半径；表示节点接收长度为l_bc的簇头发布的信息需要消耗的能量；/>表示节点发送长度为l_rec的回复需要消耗的能量；/>表示簇成员向簇头发送长度为l_local的本地信息需要消耗的能量；表示簇成员接收簇头发送的长度为l_c的信息需要消耗的能量；P_r为所需的最低信号接收功率；/>和/>分别为簇成员之间和簇成员与簇头之间水声通信所需的增幅系数，上述参数的取值均由任务实际情况确定；

在此基础上，可以建立如下成本函数：

由成本函数与效用函数，可以构造日常奖励如下：

式中，λ为调整成本函数与效用函数两部分比例的联合因子；按照实际需求来取值。当选择的λ较大时，可获得较高的跟踪精度，当λ较小时，获得较高的系统能效。

结算奖励为每一轮训练结束后，根据该轮训练效果给与智能体的奖励。在当前场景中，每轮训练效果可以由跟踪性能与系统能效体现。在水下目标跟踪中，非合作目标的真实轨迹往往难以得到，通过目标真值进行评跟踪性能的方法难以适用。针对这一问题，引入虚拟数据的方法，通过衡量通过结合估计值和量测噪声产生的虚拟量测和真实量测偏差来评估跟踪性能。

这里，假设通过估计值和量测噪声信息产生的虚拟量测服从高斯分布，所以有

式中，h(·)为已知的量测函数，为k时刻量测一步预测值，δ为量测噪声协方差。

结合上式，可以通过真实量测与虚拟量测分布之间的距离构造，如下式所示，

其中，为I个水下无人平台得到的k时刻的虚拟量测和真实量测/>之间的偏差，/>为k时刻真实量测和虚拟量测之间的马氏距离(无量纲)。

由此，假设目标跟踪时间为T，第i次训练的目标跟踪精度可以由表示，其为：

由此，结算奖励构造如下：

式中，N_e为训练次数，d_goal为精度目标，E_goal为能效目标，由任务需求决定；为每次训练系统消耗的能量，κ,μ为平衡目标跟踪精度和系统能效两部分比例的联合因子，按照实际任务情况来取值。当κ较大时，结算奖励的大小着重取决于目标跟踪精度，当μ较大时，结算奖励的大小着重取决于系统能效。

所述奖励函数R包括日常奖励r_k和结算奖励r_k ^End，表示为，

R＝ar_k+br_k ^End；

式中，T_end为簇头完成调度任务的时刻，

(4)构建动作选择策略

具体的，作为一个实施例，定义簇头的在k时刻的动作选择策略π_k(s_k)如下：

其中，R为奖励，s_k-1表示k-1时刻的状态，s_k表示k时刻的状态，a_k表示当前执行动作。P(s_k-1,a_k,s_k)代表簇头对簇成员进行调度时从前一状态s_k-1执行动作a_k后进入后一状态s_k的概率，V_k(s_k)为状态价值函数。

由于R和P(s_k-1,a_k,s_k)在复杂的动态环境中难以得到，动作选择策略π_k(s_k)一般通过状态价值函数V_k(s_k)构建，即有：π_k(s_k)≈V_k(s_k)；状态价值函数V_k(s_k)则通过簇头在k时刻的动作价值函数Q_k(s_k,a_k)构建，其定义为其中，Q_k(s_k,a_k)定义为：Q_k(s_k,a_k)＝(1-β)Q_k(s_k-1,a_k-1)+β[r_k(s_k)+γV_k(s_k)]；式中，r_k(s_k)∈R代表延迟奖励，在执行动作a_k后，即时刻获得；γ∈[0,1]代表折扣系数，β∈[0,1]代表学习率，均为强化学习超参数，由任务实际需求定义。

请参阅图3，步骤S103，基于建模获得的马尔可夫决策过程模型，利用D3QN学习调度策略，构建基于深度Q网络的智能调度方法。利用所述智能调度方法实现所述水下多无人平台的调度。

结合所建立的马尔可夫决策过程模型，引入D3QN用于调度策略学习。D3QN由评估网络和目标网络组成，两者为参数不同但结构相同的Q网络，均由一个输入层、两个128层的全连接层、一个输出层构成，如图3所示。评估网络的参数为θ，目标网络的参数为θ′。

D3QN在k时刻的Q网络均由价值函数和优势函数两个部分构成，即

式中，为k时刻的所有可以采取的动作，V_k(s_k,a_k；θ,q)为价值函数，A(·)为优势函数，N_A为动作个数，p和q分别为优势函数和价值函数的网络参数；通过这样的竞争架构，D3QN能够有效避免传统的DQN(Deep Q Network，DQN)算法存在的“过估计”问题，具有更快的收敛速度和更稳定的算法性能。

D3QN通过不断缩小损失函数进行更新。损失函数L(θ)定义为目标网络的当前输出与评估网络的当前输出的均方差，其表示为，

式中，r为执行动作后所获得的奖励，s_k+1表示下一时刻的状态，a′_k表示在状态s_k+1下需要执行动作。为了实现损失函数最小化，利用随机梯度下降法求解损失函数，可以得到

进而实现D3QN的网络更新。

请参阅图4，结合上述D3QN方法，可以构建基于深度Q网络的调度方法如图4所示，具体流程如下：

(1)初始化：初始化容量为N的记忆库，初始化状态行动价值函数Q_i和参数θ_i，初始化目标网络Q_i′和参数θ_i′，初始化价值函数参数p和优势函数参数q，初始化迭代次数M等超参数；

(2)采用贪心策略选择动作a_k：

以概率ε选择随机任务a_i；

以概率1-ε选择当前最优动作a^*＝max_ai(Q_i(s_k,a_i|θ_i,p,q))；

(3)执行动作a_k，得到新一轮状态s_k+1和奖励r_k；

(4)预处理得到转移信息<a_k,s_k,r_k,s_k+1>存储至记忆库中，并从中随机采样一批转移信息，计算损失函数；

利用梯度下降法求解损失函数，以实现损失最小化：

(5)

(6)将解得的实际网络参数θ_i复制给目标网络参数θ_i′；

(7)重复第二步至第六步M次。

本发明实施例利用D3QN算法学习调度策略，构建基于深度Q网络的智能调度方法；结合构建的马尔可夫决策过程模型，引入深度强化学习中的D3QN算法对调度策略进行学习，优化训练效率，并通过环境的反馈，评估当前策略的有效性，确定当前环境下的最优调度策略。

本发明实施例原理解释性的，由于水下环境具有高复杂性、高动态性的特点，水下多无人平台调度问题是一类无先验知识的动态调度问题，传统的调度方法受限于系统先验知识，仅适用于静态调度，难以找到动态环境下的最优调度策略。深度强化学习作为一种智能算法，对于环境的动态变化、水下无人平台间的交互协同具有更强大的感知和协调控制能力，更适用于解决这类动态调度问题。本发明实施例具体提出了一种基于深度强化学习的水下多无人平台调度方法，该方法通过在水下多无人平台调度的过程中利用动态分簇方法，搭建簇头-簇成员式的无人平台协同框架，从而有效控制参与协同跟踪的无人平台数量，提升协同效率，优化系统资源分配；引入深度强化学习方法，利用D3QN构建基于深度Q网络的智能调度方法，实时环境反馈进一步优化系统能量资源分配和协同跟踪策略，从而在降低系统能量资源消耗的情况下，进一步提升协同跟踪精度。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

本发明再一实施例中，提供一种基于深度强化学习的水下多无人平台调度系统，包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于深度强化学习的水下多无人平台调度方法，其特征在于，包括以下步骤：

基于所述马尔可夫决策过程模型，利用D3QN算法学习调度策略，构建基于深度Q网络的智能调度方法；基于所述智能调度方法实现所述水下多无人平台的调度；

其中，

所述马尔可夫决策过程模型包括状态空间、动作空间、奖励函数及调度策略；

所述奖励函数R包括日常奖励r_k和结算奖励r_k ^End，表示为，

R＝ar_k+br_k ^End；

式中，T_end为簇头完成调度任务的时刻；

式中，d_i表示簇头与第i个簇成员之间的距离，r_c为簇头最大探测半径；表示节点接收长度为l_bc的簇头发布的信息需要消耗的能量；/>表示节点发送长度为l_rec的回复需要消耗的能量；/>表示簇成员向簇头发送长度为l_local的本地信息需要消耗的能量；/>表示簇成员接收簇头发送的长度为l_c的信息需要消耗的能量；P_r为所需的最低信号接收功率；和/>分别为簇成员之间和簇成员与簇头之间水声通信所需的增幅系数；

定义簇头的在k时刻的动作选择策略π_k(s_k)为，

式中，r_k(s_k)∈R代表延迟奖励；γ∈[0,1]代表折扣系数，β∈[0,1]代表学习率；

所述基于所述马尔可夫决策过程模型，利用D3QN算法学习调度策略，构建基于深度Q网络的智能调度方法中，D3QN由评估网络和目标网络组成，评估网络和目标网络为参数不同但结构相同的Q网络；Q网络由一个输入层、两个128层的全连接层、一个输出层构成；评估网络的参数为θ，目标网络的参数为θ′；

D3QN通过不断缩小损失函数进行更新；所述D3QN通过不断缩小损失函数进行更新的过程中，

利用随机梯度下降法求解损失函数，得到

进而实现D3QN的网络更新。

2.根据权利要求1所述的一种基于深度强化学习的水下多无人平台调度方法，其特征在于，所述通过动态分簇的方法搭建水下多无人平台协同框架的步骤包括：

3.根据权利要求2所述的一种基于深度强化学习的水下多无人平台调度方法，其特征在于，所述通过先验条件构建的约束条件，选出构建簇头-簇成员式协同框架的候选无人平台集合的步骤包括：

E_k和F_k分别满足如下条件：

4.根据权利要求2所述的一种基于深度强化学习的水下多无人平台调度方法，其特征在于，所述通过无人平台与目标的预测位置的相对距离、无人平台与其他无人平台的相对距离关系、无人平台当前剩余能量选出簇头的过程中，

定义k时刻簇头为FC_k，表示为，

5.一种基于深度强化学习的水下多无人平台调度系统，其特征在于，包括：

调度实现模块，用于基于所述马尔可夫决策过程模型，利用D3QN算法学习调度策略，构建基于深度Q网络的智能调度方法；基于所述智能调度方法实现所述水下多无人平台的调度；

其中，

所述奖励函数R包括日常奖励r_k和结算奖励r_k ^End，表示为，

R＝ar_k+br_k ^End；

式中，T_end为簇头完成调度任务的时刻；

定义簇头的在k时刻的动作选择策略π_k(s_k)为，

D3QN通过不断缩小损失函数进行更新；