CN115334165B - 一种基于深度强化学习的水下多无人平台调度方法及系统 - Google Patents
一种基于深度强化学习的水下多无人平台调度方法及系统 Download PDFInfo
- Publication number
- CN115334165B CN115334165B CN202210809602.6A CN202210809602A CN115334165B CN 115334165 B CN115334165 B CN 115334165B CN 202210809602 A CN202210809602 A CN 202210809602A CN 115334165 B CN115334165 B CN 115334165B
- Authority
- CN
- China
- Prior art keywords
- cluster
- cluster head
- unmanned platform
- underwater
- scheduling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 159
- 230000002787 reinforcement Effects 0.000 title claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 50
- 241000854291 Dianthus carthusianorum Species 0.000 claims description 131
- 230000006870 function Effects 0.000 claims description 108
- 230000009471 action Effects 0.000 claims description 75
- 238000005259 measurement Methods 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 18
- 238000005265 energy consumption Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 10
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 3
- 241000135164 Timea Species 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 238000013468 resource allocation Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B13/00—Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
- H04B13/02—Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/46—Cluster building
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
- Earth Drilling (AREA)
Abstract
本发明公开了一种基于深度强化学习的水下多无人平台调度方法及系统,所述基于深度强化学习的水下多无人平台调度方法包括以下步骤:通过动态分簇的方法搭建水下多无人平台协同框架;基于所述水下多无人平台协同框架,利用强化学习将水下多无人平台的动态调度问题建模为马尔可夫决策过程模型;基于所述马尔可夫决策过程模型,利用D3QN算法学习调度策略,构建基于深度Q网络的智能调度方法;基于所述智能调度方法实现所述水下多无人平台的调度。本发明可解决复杂水下环境和能量受限情况下的多无人平台动态调度的技术问题。
Description
技术领域
本发明属于水下多传感器调度技术领域,特别涉及一种基于深度强化学习的水下多无人平台调度方法及系统。
背景技术
海洋蕴含着丰富的生物资源和矿产资源,是社会实现可持续发展的重要基地。近年来,水下这一深层海洋空间成为了大国博弈的新战场,为了进一步提升对水下目标的检测及跟踪、资源深度开发、安全防卫等能力,以无人潜航器(Unmanned UnderwaterVehicle,UUV)为代表的水下无人平台正被更加广泛的使用在这一领域。
水下无人平台具有自主航行能力,配备多种传感器设备,可自主完成海洋环境信息获取、目标探测、识别、定位与跟踪以及区域警戒等任务。相较于采用固定式浮标、潜标平台的传统水下目标跟踪系统而言,通过多个水下无人平台组网构成的水下多无人平台协同跟踪系统一方面具备自组网能力,能够合理配置网络各节点的覆盖区域与拓扑结构,能以较少的节点实现对目标区域的连续探测覆盖,提高水下网络的整体效率;另一方面可以实时传输传感器所获得的数据,在线监测目标区域情况,提高水下环境安全问题的及时应对能力。
水下多无人平台系统在有着上述优势的同时,也存在着较大的限制,主要包括:在正常的情况下,水下无人平台普遍采用电池供电,在复杂的水下环境下难以进行实时更换或维护,水下多无人平台系统的寿命严重依赖于系统中的水下无人平台的使用寿命;此外,水下通信需要更多的能量发送声波信号,进一步加大了水下多无人平台系统的能量消耗速度。
综上,如何合理调度水下多无人平台系统的能源资源,在满足任务需求的情况下延长系统的使用寿命是水下多无人平台系统面临的重要问题。
发明内容
本发明的目的在于提供一种基于深度强化学习的水下多无人平台调度方法及系统,以解决复杂水下环境和能量受限情况下的多无人平台动态调度的技术问题。
为达到上述目的,本发明采用以下技术方案:
本发明提供的一种基于深度强化学习的水下多无人平台调度方法,包括以下步骤:
基于待调度的水下多无人平台,通过动态分簇的方法搭建水下多无人平台协同框架;
基于所述水下多无人平台协同框架,利用强化学习将水下多无人平台的动态调度问题建模为马尔可夫决策过程模型;
基于所述马尔可夫决策过程模型,利用D3QN算法学习调度策略,构建基于深度Q网络的智能调度方法;基于所述智能调度方法实现所述水下多无人平台的调度。
本发明方法的进一步改进在于,所述通过动态分簇的方法搭建水下多无人平台协同框架的步骤包括:
通过先验条件构建的约束条件,选出构建簇头-簇成员式协同框架的候选无人平台集合;
通过无人平台与目标的预测位置的相对距离、无人平台与其他无人平台的相对距离关系、无人平台当前剩余能量选出簇头;其中,所述簇头用于执行调度簇成员的任务。
本发明方法的进一步改进在于,所述通过先验条件构建的约束条件,选出构建簇头-簇成员式协同框架的候选无人平台集合的步骤包括:
定义在k时刻,候选簇成员为集合Ek,候选簇成员个数为Np,候选簇成员集合中的水下无人平台为Pi,i=1,...,Np;候选簇头为集合Fk,候选簇头个数为NFC,候选簇头集合中的水下无人平台为Pj,i=1,...,NFC;
Ek和Fk分别满足如下条件:
式中,Ii为候选簇成员接收的声强,IP_th为水下无人平台成为候选簇成员的接收声强门限值;Ei为候选簇成员的能量水平,水下无人平台成为候选簇成员所需的能量门限;Ij为候选簇头接收的声强,IFC_th为水下无人平台成为候选簇头的接收声强门限值;Ej为候选簇头的能量水平,/>水下无人平台成为候选簇头所需的能量门限。
本发明方法的进一步改进在于,所述通过无人平台与目标的预测位置的相对距离、无人平台与其他无人平台的相对距离关系、无人平台当前剩余能量选出簇头的过程中,
定义k时刻簇头为FCk,表示为,
式中,FCk-1为k-1时刻所选出的簇头,Pj为候选簇头,dis(Pj,FCk-1)为FCk-1与Pj之间的距离;dis(Pj,Pi∈Ek)为候选簇头Pj与中候选簇成员Pi之间的距离,rc为簇头最大探测半径;
式中,q1+q2+q3=1;和/>分别表示由FCk-1到Pj的向量和由FCk-1到目标预测位置的向量;/>为/>和/>的夹角θ的余弦值;/>表征FCk-1与Pj距离的关系;Ej,k-1和Ej,k分别表示候选簇头k时刻本身具有的能量和将消耗的能量。
本发明方法的进一步改进在于,所述马尔可夫决策过程模型包括状态空间、动作空间、奖励函数及调度策略;
所述状态空间中,簇头在k时刻对簇成员进行的调度是从簇成员候选集合Ek优选出N*个簇成员组成的子集来使水下多无人平台的能效最优;状态空间/>设定为优选簇成员组成的子集/>表示为/>
所述动作空间中,簇头的动作AFC设定为从候选集合Ek选择子集在k时刻,簇头在执行调度任务时的动作/>表示为/>
所述奖励函数R包括日常奖励rk和结算奖励表示为,
R=ark+brk End;
式中,a和b为切换系数,用于日常奖励与结算奖励的切换,表示为,
式中,Tend为簇头完成调度任务的时刻;
式中,λ为调整成本函数与效用函数两部分比例的联合因子;
式中,表示N*个水下无人平台构成的集合,/>表示k时刻由集合/>中无人平台得到的费舍尔信息矩阵,其由最大似然估计的克拉美罗下界(CRLB)构建,表示为,
式中,x,y,z分别为目标预测位置在直角坐标系中X方向、Y方向、Z方向上的坐标,Zk为水下无人平台系统在k时刻所获得的目标量测信息;
式中,和/>分别代表候选簇成员在动态簇建立和簇头与簇成员通信的能量消耗;
式中,di表示簇头与第i个簇成员之间的距离,rc为簇头最大探测半径;表示节点接收长度为lbc的簇头发布的信息需要消耗的能量;/>表示节点发送长度为lrec的回复需要消耗的能量;/>表示簇成员向簇头发送长度为llocal的本地信息需要消耗的能量;表示簇成员接收簇头发送的长度为lc的信息需要消耗的能量;Pr为所需的最低信号接收功率;Adi和Arc分别为簇成员之间和簇成员与簇头之间水声通信所需的增幅系数;
式中,Ne为算法训练次数,dgoal为精度目标,Egoal为能效目标;为每次训练后,系统消耗的能量;κ,μ为平衡目标跟踪精度和系统能效两部分比例的联合因子;/>表示第i次训练的目标跟踪精度;
式中,T为目标跟踪时间;为I个水下无人平台得到的k时刻的虚拟量测和真实量测/>偏差;/>为k时刻真实量测和虚拟量测之间的马氏距离;/>为k时刻量测一步预测值;
定义簇头的在k时刻的动作选择策略πk(sk)为,
式中,R为奖励,sk-1表示k-1时刻的状态,sk表示k时刻的状态,ak表示当前执行动作;P(sk-1,ak,sk)代表簇头对簇成员进行调度时从上一状态sk-1执行动作ak后进入下一状态sk的概率,Vk(sk)为状态价值函数;
动作选择策略πk(sk)通过状态价值函数Vk(sk)构建,定义为πk(sk)≈Vk(sk);
状态价值函数Vk(sk)通过簇头在k时刻的动作价值函数Qk(sk,ak)构建,定义为
Qk(sk,ak)定义为:Qk(sk,ak)=(1-β)Qk(sk-1,ak-1)+β[rk(sk)+γVk(sk)];
式中,rk(sk)∈R代表延迟奖励;γ∈[0,1]代表折扣系数,β∈[0,1]代表学习率。
本发明方法的进一步改进在于,所述基于所述马尔可夫决策过程模型,利用D3QN算法学习调度策略,构建基于深度Q网络的智能调度方法中,D3QN由评估网络和目标网络组成,评估网络和目标网络为参数不同但结构相同的Q网络;Q网络由一个输入层、两个128层的全连接层、一个输出层构成;评估网络的参数为θ,目标网络的参数为θ′;
D3QN在k时刻的Q网络均由价值函数和优势函数两个部分构成,表示为,
式中,为k时刻的所有可以采取的动作,Vk(sk,ak;θ,q)为价值函数,A(·)为优势函数,NA为动作个数,p和q分别为优势函数和价值函数的网络参数;
D3QN通过不断缩小损失函数进行更新。
本发明方法的进一步改进在于,所述D3QN通过不断缩小损失函数进行更新的过程中,
损失函数L(θ)定义为目标网络的当前输出与评估网络的当前输出的均方差,表示为,
式中,r为执行动作后所获得的奖励,sk+1表示下一时刻的状态,a′k表示在状态sk+1下需要执行动作;
利用随机梯度下降法求解损失函数,得到
进而实现D3QN的网络更新。
本发明提供的一种基于深度强化学习的水下多无人平台调度系统,包括:
协同框架获取模块,用于基于待调度的水下多无人平台,通过动态分簇的方法搭建水下多无人平台协同框架;
马尔可夫决策过程模型获取模块,用于基于所述水下多无人平台协同框架,利用强化学习将水下多无人平台的动态调度问题建模为马尔可夫决策过程模型;
调度实现模块,用于基于所述马尔可夫决策过程模型,利用D3QN算法学习调度策略,构建基于深度Q网络的智能调度方法;基于所述智能调度方法实现所述水下多无人平台的调度。
本发明系统的进一步改进在于,所述马尔可夫决策过程模型包括状态空间、动作空间、奖励函数及调度策略;
所述状态空间中,簇头在k时刻对簇成员进行的调度是从簇成员候选集合Ek优选出N*个簇成员组成的子集来使水下多无人平台的能效最优;状态空间/>设定为优选簇成员组成的子集/>表示为/>
所述动作空间中,簇头的动作AFC设定为从候选集合Ek选择子集在k时刻,簇头在执行调度任务时的动作/>表示为/>
所述奖励函数R包括日常奖励rk和结算奖励表示为,
式中,a和b为切换系数,用于日常奖励与结算奖励的切换,表示为,
式中,Tend为簇头完成调度任务的时刻;
式中,λ为调整成本函数与效用函数两部分比例的联合因子;
式中,表示N*个水下无人平台构成的集合,/>表示k时刻由集合/>中无人平台得到的费舍尔信息矩阵,其由最大似然估计的克拉美罗下界(CRLB)构建,表示为,
式中,x,y,z分别为目标预测位置在直角坐标系中X方向、Y方向、Z方向上的坐标,Zk为水下无人平台系统在k时刻所获得的目标量测信息;
式中,和/>分别代表候选簇成员在动态簇建立和簇头与簇成员通信的能量消耗;
式中,di表示簇头与第i个簇成员之间的距离,rc为簇头最大探测半径;表示节点接收长度为lbc的簇头发布的信息需要消耗的能量;/>表示节点发送长度为lrec的回复需要消耗的能量;/>表示簇成员向簇头发送长度为llocal的本地信息需要消耗的能量;Es c表示簇成员接收簇头发送的长度为lc的信息需要消耗的能量;Pr为所需的最低信号接收功率;/>和/>分别为簇成员之间和簇成员与簇头之间水声通信所需的增幅系数;
式中,Ne为算法训练次数,dgoal为精度目标,Egoal为能效目标;为每次训练后,系统消耗的能量;κ,μ为平衡目标跟踪精度和系统能效两部分比例的联合因子;/>表示第i次训练的目标跟踪精度;
式中,T为目标跟踪时间;为I个水下无人平台得到的k时刻的虚拟量测和真实量测/>偏差;/>为k时刻真实量测和虚拟量测之间的马氏距离;/>为k时刻量测一步预测值;
定义簇头的在k时刻的动作选择策略πk(sk)为,
式中,R为奖励,sk-1表示k-1时刻的状态,sk表示k时刻的状态,ak表示当前执行动作;P(sk-1,ak,sk)代表簇头对簇成员进行调度时从上一状态sk-1执行动作ak后进入下一状态sk的概率,Vk(sk)为状态价值函数;
动作选择策略πk(sk)通过状态价值函数Vk(sk)构建,定义为πk(sk)≈Vk(sk);
状态价值函数Vk(sk)通过簇头在k时刻的动作价值函数Qk(sk,ak)构建,定义为
Qk(sk,ak)定义为:Qk(sk,ak)=(1-β)Qk(sk-1,ak-1)+β[rk(sk)+γVk(sk)];
式中,rk(sk)∈R代表延迟奖励;γ∈[0,1]代表折扣系数,β∈[0,1]代表学习率。
本发明系统的进一步改进在于,所述基于所述马尔可夫决策过程模型,利用D3QN算法学习调度策略,构建基于深度Q网络的智能调度方法中,D3QN由评估网络和目标网络组成,评估网络和目标网络为参数不同但结构相同的Q网络;Q网络由一个输入层、两个128层的全连接层、一个输出层构成;评估网络的参数为θ,目标网络的参数为θ′;
D3QN在k时刻的Q网络均由价值函数和优势函数两个部分构成,表示为,
式中,为k时刻的所有可以采取的动作,Vk(sk,ak;θ,q)为价值函数,A(·)为优势函数,NA为动作个数,p和q分别为优势函数和价值函数的网络参数;
D3QN通过不断缩小损失函数进行更新;
其中,损失函数L(θ)定义为目标网络的当前输出与评估网络的当前输出的均方差,表示为,式中,r为执行动作后所获得的奖励,sk+1表示下一时刻的状态,a′k表示在状态sk+1下需要执行动作;利用随机梯度下降法求解损失函数,得到/>进而实现D3QN的网络更新。
与现有技术相比,本发明具有以下有益效果:
本发明提供的基于深度强化学习的水下多无人平台调度方法中,通过动态分簇方法构建簇头-簇成员式的协同框架,从而可以根据任务需求控制参与协同的无人平台数量,提升多节点协同效率,优化无人平台资源分配;引入深度强化学习构建的智能调度算法,可以有效解决传统的水下多传感器调度方法难以解决的动态调度问题,实现系统与水下复杂环境的实时交互,进一步优化系统的能量资源分配和无人平台协同策略,从而提升水下多无人平台系统的目标跟踪精度,并降低系统能耗。综上,本发明能够实现水下多无人平台系统的能量资源的合理调度,在显著提升系统跟踪性能的同时,有效减缓系统的能量消耗速度,进一步延长系统在复杂水下环境下的使用寿命。
本发明中,使用强化学习将簇头和簇成员之间的调度问题建模为马尔可夫决策过程,结合水下多无人平台调度任务的特点,设计状态空间、动作空间、调度策略、奖励函数;利用D3QN学习调度策略,构建基于深度Q网络的智能调度方法,利用实时环境反馈,判断当前调度策略的有效性,进而确定当前环境下的最优调度策略,有效提升目标跟踪精度与系统能效。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于深度强化学习的水下多无人平台调度方法的流程示意图;
图2是本发明实施例中,构建的簇头-簇成员式水下多无人平台协同框架示意图;
图3是本发明实施例中,构建的D3QN结构示意图;
图4是本发明实施例中,使用的基于深度Q网络的智能调度方法流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
本发明实施例公开了一种基于深度强化学习的水下多无人平台调度方法,包括:通过动态分簇方法,构建簇头-簇成员式的水下多无人平台协同框架;在上述协同框架下,使用强化学习将簇头和簇成员之间的协同策略问题建模为马尔可夫决策过程,使用D3QN(Dueling Double Deep Q Network,D3QN)学习调度策略,构建基于深度Q网络的智能调度方法。该发明可以有效提升水下多无人平台协同跟踪精度并降低协同跟踪过程中水下多无人平台的能量消耗。
请参阅图1,本发明实施例的一种基于深度强化学习的水下多无人平台调度方法,该方法包括以下步骤:
步骤S101,利用动态分簇方法构建水下多无人平台协同框架。
具体的,作为一个实施例,由动态分簇方法的基本理论,从构建动态簇候选成员集合以及簇头优选方案设计两个方面构建簇头-簇成员式的水下多无人平台协同框架,包括:
(1)构建动态簇候选成员集合
定义在k时刻,候选簇成员为集合Ek,候选簇成员个数为Np,候选簇成员集合中的水下无人平台为Pi(i=1,...,Np);候选簇头为集合Fk,候选簇头个数为NFC,候选簇头集合中的水下无人平台为Pj(i=1,...,NFC);
Ek和Fk分别满足如下条件:
式中,Ii为候选簇成员接收的声强,IP_th为水下无人平台成为候选簇成员的接收声强门限值;Ei为候选簇成员的能量水平,水下无人平台成为候选簇成员所需的能量门限;Ij为候选簇头接收的声强,IFC_th为水下无人平台成为候选簇头的接收声强门限值;Ej为候选簇头的能量水平,/>水下无人平台成为候选簇头所需的能量门限;IP_th,IFC_th,的具体取值由任务需求确定。
(2)簇头优选方案设计
由于簇头需要承担协同与融合任务,相较于簇成员耗能更大,因此选择簇头主要从能量消耗、平台剩余能量以及候选平台与目标预测位置之间的关系。根据目标状态的融合估计预测目标在k时刻的位置,并根据预测信息完成k时刻簇头的选择。
本发明实施例采用的簇头的选择方案为:
定义k时刻簇头为FCk,表示如下
式中,FCk-1为k-1时刻所选出的簇头,Pj为候选簇头,dis(Pj,FCk-1)为FCk-1与Pj之间的距离;同理,dis(Pj,Pi∈Ek)为候选簇头Pj与中候选簇成员Pi之间的距离,rc为簇头最大探测半径;。
其中,q1+q2+q3=1,按实际任务情况进行调节;和/>分别表示由FCk-1到Pj的向量与由FCk-1到目标预测位置的向量;/>为/>和/>的夹角θ的余弦值,表征候选簇头与目标预测位置之间的几何关系,其值越大,候选簇头越靠近目标移动方向,所获得的量测信息也会越精准;/>表征了FCk-1与Pj距离的关系,其值越大,簇头切换频率越低,能量消耗越小。Ej,k-1和Ej,k分别表示候选簇头k时刻本身具有的能量和将消耗的能量,一般选择剩余能量较多的无人平台作为下一时刻的簇头。当簇头选择成功后,将在簇头-簇成员式协同架构下进行水下多无人平台调度。
请参阅图2,当簇头选择成功后,可以构建如图2所示的簇头-簇成员式水下多无人平台协同框架,包括以下步骤:
步骤S102,基于利用强化学习将水下多无人平台的动态调度问题(也即将簇头-簇成员之间的协同策略问题)建模为马尔可夫决策过程模型。
具体的,作为一个实施例,利用强化学习方法,将水下多无人平台中的簇头与簇成员之间的调度问题建模为马尔可夫决策过程模型,其主要由四部分组成:状态空间,动作空间,奖励函数及动作选择策略。由此,具体建模方法按状态空间、动作空间、以及奖励函数,动作选择策略的顺序进行说明。
(1)状态空间建模
具体的,作为一个实施例,簇头在k时刻对簇成员进行的调度就是从簇成员候选集合Ek优选出N*个簇成员组成的子集来使水下多无人平台的能效最优。在此基础上,结合强化学习基本理论,状态空间/>设定为优选簇成员组成的子集/>从而有:
(2)动作空间建模
具体的,作为一个实施例,簇头的动作AFC设定为:从候选集合Ek选择子集即在k时刻,簇头在执行调度任务时的动作/>为:/>
(3)奖励函数设计
具体的,作为一个实施例,奖励函数由日常奖励和结算奖励两部分构成。
日常奖励为智能体在每次行动后得到的奖励,用于评估当前时刻的策略效果。在簇头-簇成员调度的场景下,日常奖励的设计需要考虑簇成员所能带来的信息、簇成员进行网络通信的能量消耗以及簇成员的剩余能量三个要素。因此,日常奖励由效用函数和成本函数两部分构成。
利用由候选簇成员的位置和目标预测位置计算得到的费舍尔信息矩阵可建立如下效用函数:/>
式中,表示N*个无人平台构成的集合,/>表示k时刻由集合/>中无人平台得到的费舍尔信息矩阵,其由最大似然估计的CRLB构建,表示如下,
式中,x,y,z分别为目标预测位置在直角坐标系中X方向、Y方向、Z方向上的坐标,Zk为水下无人平台系统在k时刻所获得的目标量测信息。
由水下能耗模型可知,候选簇成员在k时刻需要消耗的总能量如下,
式中,和/>分别代表候选簇成员在动态簇建立和簇头与簇成员通信的能量消耗;
式中,di表示簇头与第i个簇成员之间的距离,rc为簇头最大探测半径;表示节点接收长度为lbc的簇头发布的信息需要消耗的能量;/>表示节点发送长度为lrec的回复需要消耗的能量;/>表示簇成员向簇头发送长度为llocal的本地信息需要消耗的能量;表示簇成员接收簇头发送的长度为lc的信息需要消耗的能量;Pr为所需的最低信号接收功率;/>和/>分别为簇成员之间和簇成员与簇头之间水声通信所需的增幅系数,上述参数的取值均由任务实际情况确定;
在此基础上,可以建立如下成本函数:
由成本函数与效用函数,可以构造日常奖励如下:
式中,λ为调整成本函数与效用函数两部分比例的联合因子;按照实际需求来取值。当选择的λ较大时,可获得较高的跟踪精度,当λ较小时,获得较高的系统能效。
结算奖励为每一轮训练结束后,根据该轮训练效果给与智能体的奖励。在当前场景中,每轮训练效果可以由跟踪性能与系统能效体现。在水下目标跟踪中,非合作目标的真实轨迹往往难以得到,通过目标真值进行评跟踪性能的方法难以适用。针对这一问题,引入虚拟数据的方法,通过衡量通过结合估计值和量测噪声产生的虚拟量测和真实量测偏差来评估跟踪性能。
这里,假设通过估计值和量测噪声信息产生的虚拟量测服从高斯分布,所以有
式中,h(·)为已知的量测函数,为k时刻量测一步预测值,δ为量测噪声协方差。
结合上式,可以通过真实量测与虚拟量测分布之间的距离构造,如下式所示,
其中,为I个水下无人平台得到的k时刻的虚拟量测和真实量测/>之间的偏差,/>为k时刻真实量测和虚拟量测之间的马氏距离(无量纲)。
由此,假设目标跟踪时间为T,第i次训练的目标跟踪精度可以由表示,其为:
由此,结算奖励构造如下:
式中,Ne为训练次数,dgoal为精度目标,Egoal为能效目标,由任务需求决定;为每次训练系统消耗的能量,κ,μ为平衡目标跟踪精度和系统能效两部分比例的联合因子,按照实际任务情况来取值。当κ较大时,结算奖励的大小着重取决于目标跟踪精度,当μ较大时,结算奖励的大小着重取决于系统能效。
所述奖励函数R包括日常奖励rk和结算奖励rk End,表示为,
R=ark+brk End;
式中,a和b为切换系数,用于日常奖励与结算奖励的切换,表示为,
式中,Tend为簇头完成调度任务的时刻,
(4)构建动作选择策略
具体的,作为一个实施例,定义簇头的在k时刻的动作选择策略πk(sk)如下:
其中,R为奖励,sk-1表示k-1时刻的状态,sk表示k时刻的状态,ak表示当前执行动作。P(sk-1,ak,sk)代表簇头对簇成员进行调度时从前一状态sk-1执行动作ak后进入后一状态sk的概率,Vk(sk)为状态价值函数。
由于R和P(sk-1,ak,sk)在复杂的动态环境中难以得到,动作选择策略πk(sk)一般通过状态价值函数Vk(sk)构建,即有:πk(sk)≈Vk(sk);状态价值函数Vk(sk)则通过簇头在k时刻的动作价值函数Qk(sk,ak)构建,其定义为其中,Qk(sk,ak)定义为:Qk(sk,ak)=(1-β)Qk(sk-1,ak-1)+β[rk(sk)+γVk(sk)];式中,rk(sk)∈R代表延迟奖励,在执行动作ak后,即时刻获得;γ∈[0,1]代表折扣系数,β∈[0,1]代表学习率,均为强化学习超参数,由任务实际需求定义。
请参阅图3,步骤S103,基于建模获得的马尔可夫决策过程模型,利用D3QN学习调度策略,构建基于深度Q网络的智能调度方法。利用所述智能调度方法实现所述水下多无人平台的调度。
结合所建立的马尔可夫决策过程模型,引入D3QN用于调度策略学习。D3QN由评估网络和目标网络组成,两者为参数不同但结构相同的Q网络,均由一个输入层、两个128层的全连接层、一个输出层构成,如图3所示。评估网络的参数为θ,目标网络的参数为θ′。
D3QN在k时刻的Q网络均由价值函数和优势函数两个部分构成,即
式中,为k时刻的所有可以采取的动作,Vk(sk,ak;θ,q)为价值函数,A(·)为优势函数,NA为动作个数,p和q分别为优势函数和价值函数的网络参数;通过这样的竞争架构,D3QN能够有效避免传统的DQN(Deep Q Network,DQN)算法存在的“过估计”问题,具有更快的收敛速度和更稳定的算法性能。
D3QN通过不断缩小损失函数进行更新。损失函数L(θ)定义为目标网络的当前输出与评估网络的当前输出的均方差,其表示为,
式中,r为执行动作后所获得的奖励,sk+1表示下一时刻的状态,a′k表示在状态sk+1下需要执行动作。为了实现损失函数最小化,利用随机梯度下降法求解损失函数,可以得到
进而实现D3QN的网络更新。
请参阅图4,结合上述D3QN方法,可以构建基于深度Q网络的调度方法如图4所示,具体流程如下:
(1)初始化:初始化容量为N的记忆库,初始化状态行动价值函数Qi和参数θi,初始化目标网络Qi′和参数θi′,初始化价值函数参数p和优势函数参数q,初始化迭代次数M等超参数;
(2)采用贪心策略选择动作ak:
以概率ε选择随机任务ai;
以概率1-ε选择当前最优动作a*=maxai(Qi(sk,ai|θi,p,q));
(3)执行动作ak,得到新一轮状态sk+1和奖励rk;
(4)预处理得到转移信息<ak,sk,rk,sk+1>存储至记忆库中,并从中随机采样一批转移信息,计算损失函数;
利用梯度下降法求解损失函数,以实现损失最小化:
(5)
(6)将解得的实际网络参数θi复制给目标网络参数θi′;
(7)重复第二步至第六步M次。
本发明实施例利用D3QN算法学习调度策略,构建基于深度Q网络的智能调度方法;结合构建的马尔可夫决策过程模型,引入深度强化学习中的D3QN算法对调度策略进行学习,优化训练效率,并通过环境的反馈,评估当前策略的有效性,确定当前环境下的最优调度策略。
本发明实施例原理解释性的,由于水下环境具有高复杂性、高动态性的特点,水下多无人平台调度问题是一类无先验知识的动态调度问题,传统的调度方法受限于系统先验知识,仅适用于静态调度,难以找到动态环境下的最优调度策略。深度强化学习作为一种智能算法,对于环境的动态变化、水下无人平台间的交互协同具有更强大的感知和协调控制能力,更适用于解决这类动态调度问题。本发明实施例具体提出了一种基于深度强化学习的水下多无人平台调度方法,该方法通过在水下多无人平台调度的过程中利用动态分簇方法,搭建簇头-簇成员式的无人平台协同框架,从而有效控制参与协同跟踪的无人平台数量,提升协同效率,优化系统资源分配;引入深度强化学习方法,利用D3QN构建基于深度Q网络的智能调度方法,实时环境反馈进一步优化系统能量资源分配和协同跟踪策略,从而在降低系统能量资源消耗的情况下,进一步提升协同跟踪精度。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。
本发明再一实施例中,提供一种基于深度强化学习的水下多无人平台调度系统,包括:
协同框架获取模块,用于基于待调度的水下多无人平台,通过动态分簇的方法搭建水下多无人平台协同框架;
马尔可夫决策过程模型获取模块,用于基于所述水下多无人平台协同框架,利用强化学习将水下多无人平台的动态调度问题建模为马尔可夫决策过程模型;
调度实现模块,用于基于所述马尔可夫决策过程模型,利用D3QN算法学习调度策略,构建基于深度Q网络的智能调度方法;基于所述智能调度方法实现所述水下多无人平台的调度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (5)
1.一种基于深度强化学习的水下多无人平台调度方法,其特征在于,包括以下步骤:
基于待调度的水下多无人平台,通过动态分簇的方法搭建水下多无人平台协同框架;
基于所述水下多无人平台协同框架,利用强化学习将水下多无人平台的动态调度问题建模为马尔可夫决策过程模型;
基于所述马尔可夫决策过程模型,利用D3QN算法学习调度策略,构建基于深度Q网络的智能调度方法;基于所述智能调度方法实现所述水下多无人平台的调度;
其中,
所述马尔可夫决策过程模型包括状态空间、动作空间、奖励函数及调度策略;
所述状态空间中,簇头在k时刻对簇成员进行的调度是从簇成员候选集合Ek优选出N*个簇成员组成的子集来使水下多无人平台的能效最优;状态空间/>设定为优选簇成员组成的子集/>表示为/>
所述动作空间中,簇头的动作AFC设定为从候选集合Ek选择子集在k时刻,簇头在执行调度任务时的动作/>表示为/>
所述奖励函数R包括日常奖励rk和结算奖励rk End,表示为,
R=ark+brk End;
式中,a和b为切换系数,用于日常奖励与结算奖励的切换,表示为,
式中,Tend为簇头完成调度任务的时刻;
式中,λ为调整成本函数与效用函数两部分比例的联合因子;
式中,表示N*个水下无人平台构成的集合,/>表示k时刻由集合/>中无人平台得到的费舍尔信息矩阵,其由最大似然估计的克拉美罗下界(CRLB)构建,表示为,
式中,x,y,z分别为目标预测位置在直角坐标系中X方向、Y方向、Z方向上的坐标,Zk为水下无人平台系统在k时刻所获得的目标量测信息;
式中,和/>分别代表候选簇成员在动态簇建立和簇头与簇成员通信的能量消耗;
式中,di表示簇头与第i个簇成员之间的距离,rc为簇头最大探测半径;表示节点接收长度为lbc的簇头发布的信息需要消耗的能量;/>表示节点发送长度为lrec的回复需要消耗的能量;/>表示簇成员向簇头发送长度为llocal的本地信息需要消耗的能量;/>表示簇成员接收簇头发送的长度为lc的信息需要消耗的能量;Pr为所需的最低信号接收功率;和/>分别为簇成员之间和簇成员与簇头之间水声通信所需的增幅系数;
式中,Ne为算法训练次数,dgoal为精度目标,Egoal为能效目标;为每次训练后,系统消耗的能量;κ,μ为平衡目标跟踪精度和系统能效两部分比例的联合因子;/>表示第i次训练的目标跟踪精度;
式中,T为目标跟踪时间;为I个水下无人平台得到的k时刻的虚拟量测和真实量测/>偏差;/>为k时刻真实量测和虚拟量测之间的马氏距离;/>为k时刻量测一步预测值;
定义簇头的在k时刻的动作选择策略πk(sk)为,
式中,R为奖励,sk-1表示k-1时刻的状态,sk表示k时刻的状态,ak表示当前执行动作;P(sk-1,ak,sk)代表簇头对簇成员进行调度时从上一状态sk-1执行动作ak后进入下一状态sk的概率,Vk(sk)为状态价值函数;
动作选择策略πk(sk)通过状态价值函数Vk(sk)构建,定义为πk(sk)≈Vk(sk);
状态价值函数Vk(sk)通过簇头在k时刻的动作价值函数Qk(sk,ak)构建,定义为
Qk(sk,ak)定义为:Qk(sk,ak)=(1-β)Qk(sk-1,ak-1)+β[rk(sk)+γVk(sk)];
式中,rk(sk)∈R代表延迟奖励;γ∈[0,1]代表折扣系数,β∈[0,1]代表学习率;
所述基于所述马尔可夫决策过程模型,利用D3QN算法学习调度策略,构建基于深度Q网络的智能调度方法中,D3QN由评估网络和目标网络组成,评估网络和目标网络为参数不同但结构相同的Q网络;Q网络由一个输入层、两个128层的全连接层、一个输出层构成;评估网络的参数为θ,目标网络的参数为θ′;
D3QN在k时刻的Q网络均由价值函数和优势函数两个部分构成,表示为,
式中,为k时刻的所有可以采取的动作,Vk(sk,ak;θ,q)为价值函数,A(·)为优势函数,NA为动作个数,p和q分别为优势函数和价值函数的网络参数;
D3QN通过不断缩小损失函数进行更新;所述D3QN通过不断缩小损失函数进行更新的过程中,
损失函数L(θ)定义为目标网络的当前输出与评估网络的当前输出的均方差,表示为,
式中,r为执行动作后所获得的奖励,sk+1表示下一时刻的状态,a′k表示在状态sk+1下需要执行动作;
利用随机梯度下降法求解损失函数,得到
进而实现D3QN的网络更新。
2.根据权利要求1所述的一种基于深度强化学习的水下多无人平台调度方法,其特征在于,所述通过动态分簇的方法搭建水下多无人平台协同框架的步骤包括:
通过先验条件构建的约束条件,选出构建簇头-簇成员式协同框架的候选无人平台集合;
通过无人平台与目标的预测位置的相对距离、无人平台与其他无人平台的相对距离关系、无人平台当前剩余能量选出簇头;其中,所述簇头用于执行调度簇成员的任务。
3.根据权利要求2所述的一种基于深度强化学习的水下多无人平台调度方法,其特征在于,所述通过先验条件构建的约束条件,选出构建簇头-簇成员式协同框架的候选无人平台集合的步骤包括:
定义在k时刻,候选簇成员为集合Ek,候选簇成员个数为Np,候选簇成员集合中的水下无人平台为Pi,i=1,...,Np;候选簇头为集合Fk,候选簇头个数为NFC,候选簇头集合中的水下无人平台为Pj,i=1,...,NFC;
Ek和Fk分别满足如下条件:
式中,Ii为候选簇成员接收的声强,IP_th为水下无人平台成为候选簇成员的接收声强门限值;Ei为候选簇成员的能量水平,水下无人平台成为候选簇成员所需的能量门限;Ij为候选簇头接收的声强,IFC_th为水下无人平台成为候选簇头的接收声强门限值;Ej为候选簇头的能量水平,/>水下无人平台成为候选簇头所需的能量门限。
4.根据权利要求2所述的一种基于深度强化学习的水下多无人平台调度方法,其特征在于,所述通过无人平台与目标的预测位置的相对距离、无人平台与其他无人平台的相对距离关系、无人平台当前剩余能量选出簇头的过程中,
定义k时刻簇头为FCk,表示为,
式中,FCk-1为k-1时刻所选出的簇头,Pj为候选簇头,dis(Pj,FCk-1)为FCk-1与Pj之间的距离;dis(Pj,Pi∈Ek)为候选簇头Pj与中候选簇成员Pi之间的距离,rc为簇头最大探测半径;
式中,q1+q2+q3=1;和/>分别表示由FCk-1到Pj的向量和由FCk-1到目标预测位置的向量;/>为/>和/>的夹角θ的余弦值;/>表征FCk-1与Pj距离的关系;Ej,k-1和Ej,k分别表示候选簇头k时刻本身具有的能量和将消耗的能量。
5.一种基于深度强化学习的水下多无人平台调度系统,其特征在于,包括:
协同框架获取模块,用于基于待调度的水下多无人平台,通过动态分簇的方法搭建水下多无人平台协同框架;
马尔可夫决策过程模型获取模块,用于基于所述水下多无人平台协同框架,利用强化学习将水下多无人平台的动态调度问题建模为马尔可夫决策过程模型;
调度实现模块,用于基于所述马尔可夫决策过程模型,利用D3QN算法学习调度策略,构建基于深度Q网络的智能调度方法;基于所述智能调度方法实现所述水下多无人平台的调度;
其中,
所述马尔可夫决策过程模型包括状态空间、动作空间、奖励函数及调度策略;
所述状态空间中,簇头在k时刻对簇成员进行的调度是从簇成员候选集合Ek优选出N*个簇成员组成的子集来使水下多无人平台的能效最优;状态空间/>设定为优选簇成员组成的子集/>表示为/>
所述动作空间中,簇头的动作AFC设定为从候选集合Ek选择子集在k时刻,簇头在执行调度任务时的动作/>表示为/>
所述奖励函数R包括日常奖励rk和结算奖励rk End,表示为,
R=ark+brk End;
式中,a和b为切换系数,用于日常奖励与结算奖励的切换,表示为,
式中,Tend为簇头完成调度任务的时刻;
式中,λ为调整成本函数与效用函数两部分比例的联合因子;
式中,表示N*个水下无人平台构成的集合,/>表示k时刻由集合/>中无人平台得到的费舍尔信息矩阵,其由最大似然估计的克拉美罗下界(CRLB)构建,表示为,
式中,x,y,z分别为目标预测位置在直角坐标系中X方向、Y方向、Z方向上的坐标,Zk为水下无人平台系统在k时刻所获得的目标量测信息;
式中,和/>分别代表候选簇成员在动态簇建立和簇头与簇成员通信的能量消耗;
式中,di表示簇头与第i个簇成员之间的距离,rc为簇头最大探测半径;表示节点接收长度为lbc的簇头发布的信息需要消耗的能量;/>表示节点发送长度为lrec的回复需要消耗的能量;/>表示簇成员向簇头发送长度为llocal的本地信息需要消耗的能量;/>表示簇成员接收簇头发送的长度为lc的信息需要消耗的能量;Pr为所需的最低信号接收功率;和/>分别为簇成员之间和簇成员与簇头之间水声通信所需的增幅系数;
式中,Ne为算法训练次数,dgoal为精度目标,Egoal为能效目标;为每次训练后,系统消耗的能量;κ,μ为平衡目标跟踪精度和系统能效两部分比例的联合因子;/>表示第i次训练的目标跟踪精度;
式中,T为目标跟踪时间;为I个水下无人平台得到的k时刻的虚拟量测和真实量测/>偏差;/>为k时刻真实量测和虚拟量测之间的马氏距离;/>为k时刻量测一步预测值;
定义簇头的在k时刻的动作选择策略πk(sk)为,
式中,R为奖励,sk-1表示k-1时刻的状态,sk表示k时刻的状态,ak表示当前执行动作;P(sk-1,ak,sk)代表簇头对簇成员进行调度时从上一状态sk-1执行动作ak后进入下一状态sk的概率,Vk(sk)为状态价值函数;
动作选择策略πk(sk)通过状态价值函数Vk(sk)构建,定义为πk(sk)≈Vk(sk);
状态价值函数Vk(sk)通过簇头在k时刻的动作价值函数Qk(sk,ak)构建,定义为
Qk(sk,ak)定义为:Qk(sk,ak)=(1-β)Qk(sk-1,ak-1)+β[rk(sk)+γVk(sk)];
式中,rk(sk)∈R代表延迟奖励;γ∈[0,1]代表折扣系数,β∈[0,1]代表学习率;
所述基于所述马尔可夫决策过程模型,利用D3QN算法学习调度策略,构建基于深度Q网络的智能调度方法中,D3QN由评估网络和目标网络组成,评估网络和目标网络为参数不同但结构相同的Q网络;Q网络由一个输入层、两个128层的全连接层、一个输出层构成;评估网络的参数为θ,目标网络的参数为θ′;
D3QN在k时刻的Q网络均由价值函数和优势函数两个部分构成,表示为,
式中,为k时刻的所有可以采取的动作,Vk(sk,ak;θ,q)为价值函数,A(·)为优势函数,NA为动作个数,p和q分别为优势函数和价值函数的网络参数;
D3QN通过不断缩小损失函数进行更新;
其中,损失函数L(θ)定义为目标网络的当前输出与评估网络的当前输出的均方差,表示为,式中,r为执行动作后所获得的奖励,sk+1表示下一时刻的状态,a′k表示在状态sk+1下需要执行动作;利用随机梯度下降法求解损失函数,得到/>进而实现D3QN的网络更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210809602.6A CN115334165B (zh) | 2022-07-11 | 2022-07-11 | 一种基于深度强化学习的水下多无人平台调度方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210809602.6A CN115334165B (zh) | 2022-07-11 | 2022-07-11 | 一种基于深度强化学习的水下多无人平台调度方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115334165A CN115334165A (zh) | 2022-11-11 |
CN115334165B true CN115334165B (zh) | 2023-10-17 |
Family
ID=83917361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210809602.6A Active CN115334165B (zh) | 2022-07-11 | 2022-07-11 | 一种基于深度强化学习的水下多无人平台调度方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115334165B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117093010B (zh) * | 2023-10-20 | 2024-01-19 | 清华大学 | 水下多智能体路径规划方法、装置、计算机设备和介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614009A (zh) * | 2020-12-07 | 2021-04-06 | 国网四川省电力公司电力科学研究院 | 一种基于深度期望q-学习的电网能量管理方法及系统 |
CN113254197A (zh) * | 2021-04-30 | 2021-08-13 | 西安电子科技大学 | 一种基于深度强化学习的网络资源调度方法及系统 |
CN113900445A (zh) * | 2021-10-13 | 2022-01-07 | 厦门渊亭信息科技有限公司 | 基于多智能体强化学习的无人机协同控制训练方法及系统 |
CN113937829A (zh) * | 2021-11-16 | 2022-01-14 | 华北电力大学 | 一种基于d3qn的主动配电网多目标无功控制方法 |
CN114169234A (zh) * | 2021-11-30 | 2022-03-11 | 广东工业大学 | 一种无人机辅助移动边缘计算的调度优化方法及系统 |
CN114362810A (zh) * | 2022-01-11 | 2022-04-15 | 重庆邮电大学 | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 |
CN114706678A (zh) * | 2022-03-22 | 2022-07-05 | 中南大学 | 一种边缘智能服务器神经网络推断任务调度方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019190476A1 (en) * | 2018-03-27 | 2019-10-03 | Nokia Solutions And Networks Oy | Method and apparatus for facilitating resource pairing using a deep q-network |
-
2022
- 2022-07-11 CN CN202210809602.6A patent/CN115334165B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614009A (zh) * | 2020-12-07 | 2021-04-06 | 国网四川省电力公司电力科学研究院 | 一种基于深度期望q-学习的电网能量管理方法及系统 |
CN113254197A (zh) * | 2021-04-30 | 2021-08-13 | 西安电子科技大学 | 一种基于深度强化学习的网络资源调度方法及系统 |
CN113900445A (zh) * | 2021-10-13 | 2022-01-07 | 厦门渊亭信息科技有限公司 | 基于多智能体强化学习的无人机协同控制训练方法及系统 |
CN113937829A (zh) * | 2021-11-16 | 2022-01-14 | 华北电力大学 | 一种基于d3qn的主动配电网多目标无功控制方法 |
CN114169234A (zh) * | 2021-11-30 | 2022-03-11 | 广东工业大学 | 一种无人机辅助移动边缘计算的调度优化方法及系统 |
CN114362810A (zh) * | 2022-01-11 | 2022-04-15 | 重庆邮电大学 | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 |
CN114706678A (zh) * | 2022-03-22 | 2022-07-05 | 中南大学 | 一种边缘智能服务器神经网络推断任务调度方法 |
Non-Patent Citations (5)
Title |
---|
Wasiq Ali ; Et ALL.State Estimation of an Underwater Markov Chain Maneuvering Target Using Intelligent Computing.《National Library of Medicine》.2021,全文. * |
Yan Li ; Meiqin ; Et All.Node Dynamic Localization and Prediction Algorithm for Internet of Underwater Things.《IEEE Internet of Things Journal》.2021,全文. * |
Yan Li ; Meiqin Liu ; Senlin Zhang ; Ronghao Zheng ; Jian Lan ; Shanling Dong.Particle System-Based Ordinary Nodes Localization With Delay Compensation in UWSNs.《IEEE Sensors Journal ( Volume: 22, Issue: 7, 01 April 2022)》.2022,全文. * |
一种基于深度强化学习的调度优化方法;邓志龙;张琦玮;曹皓;谷志阳;;《西北工业大学学报》(06);全文 * |
何翌 ; 郑荣濠 ; 张森林 ; 刘妹琴.基于多个自主水下航行器的分布式协同流场估计.《控制理论与应用》.2022,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN115334165A (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Intelligent multi-task allocation and planning for multiple unmanned surface vehicles (USVs) using self-organising maps and fast marching method | |
CN111563188B (zh) | 一种移动多智能体协同目标搜索方法 | |
Russell et al. | Q-decomposition for reinforcement learning agents | |
CN110244759B (zh) | 一种基于区间优化的水下机器人时间最优路径规划方法 | |
CN111641930A (zh) | 应用于海洋信息网络的分层式数据采集系统及方法 | |
Wu et al. | Mobility-aware deep reinforcement learning with glimpse mobility prediction in edge computing | |
CN114625151A (zh) | 一种基于强化学习的水下机器人避障路径规划方法 | |
CN115334165B (zh) | 一种基于深度强化学习的水下多无人平台调度方法及系统 | |
CN106022471A (zh) | 基于粒子群优化算法的小波神经网络模型船舶横摇实时预测方法 | |
CN113722980A (zh) | 海洋浪高预测方法、系统、计算机设备、存储介质、终端 | |
Dong et al. | Double ant colony algorithm based on dynamic feedback for energy-saving route planning for ships | |
CN114995989A (zh) | 基于自组织神经网络的多水下机器人任务分配方法及系统 | |
CN112070328B (zh) | 环境信息部分已知的多水面无人搜救艇任务分配方法 | |
CN114980160A (zh) | 一种无人机辅助的太赫兹通信网络联合优化方法和装置 | |
Wang et al. | An adaptive distributed auction algorithm and its application to multi-AUV task assignment | |
Zhang et al. | A Collaborative Path Planning Method for Heterogeneous Autonomous Marine Vehicles | |
Ma et al. | Solving heterogeneous USV scheduling problems by problem-specific knowledge based meta-heuristics with Q-learning | |
CN116523154B (zh) | 模型训练方法、航线规划方法及相关装置 | |
CN117035549A (zh) | 一种评估城市供水管网方案的造价算法的方法 | |
Barshandeh et al. | A learning-based metaheuristic administered positioning model for 3D IoT networks | |
CN110658833B (zh) | 一种水下环境中多auv实时营救任务分配算法 | |
Yu et al. | A cooperative mission planning method considering environmental factors for UUV swarm to search multiple underwater targets | |
CN117032247B (zh) | 海上救援搜索路径规划方法、装置及设备 | |
CN117528657B (zh) | 一种电力物联网任务卸载方法、系统、设备及介质 | |
CN116718198B (zh) | 基于时序知识图谱的无人机集群的路径规划方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |