CN110958680B - 面向能量效率的无人机群多智能体深度强化学习优化方法 - Google Patents

面向能量效率的无人机群多智能体深度强化学习优化方法 Download PDF

Info

Publication number
CN110958680B
CN110958680B CN201911252410.4A CN201911252410A CN110958680B CN 110958680 B CN110958680 B CN 110958680B CN 201911252410 A CN201911252410 A CN 201911252410A CN 110958680 B CN110958680 B CN 110958680B
Authority
CN
China
Prior art keywords
agent
unmanned aerial
aerial vehicle
vehicle cluster
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911252410.4A
Other languages
English (en)
Other versions
CN110958680A (zh
Inventor
姚昌华
党随虎
李松柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze Normal University
Original Assignee
Yangtze Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze Normal University filed Critical Yangtze Normal University
Priority to CN201911252410.4A priority Critical patent/CN110958680B/zh
Publication of CN110958680A publication Critical patent/CN110958680A/zh
Application granted granted Critical
Publication of CN110958680B publication Critical patent/CN110958680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/242TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account path loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/08Trunked mobile radio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了面向能量效率的无人机群多智能体深度强化学习优化方法,包括:采用基于Q学习的改进DQN深度强化学习方法,利用无人机集群历史信息对每个智能体的神经网络进行训练更新,得到无人机集群各智能体的信道选择及功率选择决策,训练过程中采用短时经验回放机制训练神经网络,每个神经网络的优化目标为最大化对应智能体的能量效率值。本发明采用分布式多智能体深度强化学方法,设置短时经验回放机制训练神经网络来挖掘动态网络环境蕴含的变化规律,解决传统强化学习面临的大状态空间无法得到收敛解的难题,实现多智能体分布式协同学习,提升无人机集群通信的能量效率,提高无人机集群的生命周期,增强无人机集群通信网络动态适应能力。

Description

面向能量效率的无人机群多智能体深度强化学习优化方法
技术领域
本发明涉及无人机集群通信网络接入技术领域,具体涉及面向能量效率的无人机群多智能体深度强化学习优化方法。
背景技术
当前,无人机技术的快速发展和应用推广是前沿和热点问题之一,受到广泛关注。其中,以无人机集群的研究最为引人注目。无人机集群能以低成本无人机按不同角色组成群体,发挥协同动作的巨大效用。
但是,无人机集群发挥协同效用的关键在于其健壮的通信网络。没有一个支撑无人机集群内部成员之间的通信系统,其协同动作无从谈起。
同时,小型无人机,尤其是电池供电无人机,其能量消耗的优化至关重要。无人机集群的通信网络构建与优化一方面要满足通信需求,另外一方面还要密切关注其能量消耗,两者必须同时兼顾优化。因此,需要研究无人机集群通信网络的通信能量效率问题。
然而,由于其动态性的存在,无人机集群通信能量效率优化决策面临大决策空间的严峻挑战。采用传统的强化学习方法,会遇到由于大决策空间而造成算法无法收敛或者收敛速度过慢的问题。因此,拟采用深度强化学习的方法,利用深度神经网络的函数拟合能力,解决收敛速度问题。同时,由于无人机集群个体成员的智能性,需要考虑多个智能体的协同学习问题。
综上所述,如何提升无人机集群通信的能量效率,提高无人机集群的生命周期,增强无人机集群通信网络动态适应能力成为了本领域技术人员急需解决的问题。
发明内容
针对现有技术存在的上述不足,本发明实际需要解决的问题是:如何提升无人机集群通信的能量效率,提高无人机集群的生命周期,增强无人机集群通信网络动态适应能力。
本发明采用了如下的技术方案:
面向能量效率的无人机群多智能体深度强化学习优化方法,包括如下步骤:
S1、获取无人机集群当前状态信息;
S2、获取无人机集群历史信息,所述历史信息包括历史状态信息及历史决策信息;
S3、采用基于Q学习的改进DQN深度强化学习方法,利用无人机集群历史信息对每个智能体的神经网络进行训练更新,得到无人机集群各智能体的信道选择及功率选择决策,训练过程中采用短时经验回放机制训练神经网络,每个神经网络的优化目标为最大化对应智能体的能量效率值;
S4、基于所述无人机集群中链路的信道及功率决策信息控制无人机集群进行数据传输。
优选地,步骤S3中,链路合集为L,对任一神经网络,智能体集合为Lm,非智能体的集合为Ls,Ls=L-Lm,步骤S3包括:
S301、初始化回放空间,设置回放空间大小及回放空间清空周期;
S302、初始化智能体的DQN网络参数,智能体的目标Q值网络参数,设置智能体的学习速率和折扣系数;
S303、获取无人机集群中的无人机坐标集合、离散功率集及正交信道集合;
S304、设t=1;
S305、利用目标无人机群在t时隙对应的状态信息,基于ε-greedy算法和DQN网络得到智能体决策并执行,得到回报值以及执行后所有链路可能达到的状态信息,将与t对应的状态信息、回报值以及执行后所有链路可能达到的状态信息作为样本存入回放空间;
S306、从回放空间随机采样训练数据集,训练数据集样本数为k;
S307、从训练数据集中采集一个样本,设样本编号interation=1;
S308、将样本对应的执行后所有链路可能达到的状态信息输入至神经网络,得到新的Q值,取最大的Q值对应的决策作为智能体t时隙的决策;
S309、利用随机梯度下降法根据损失函数
Figure BDA0002309396730000021
更新DQN网络参数集
Figure BDA0002309396730000022
式中,Q()为Q值函数,
Figure BDA0002309396730000023
表示非智能体t时刻的状态信息,
Figure BDA0002309396730000024
表示表示智能体t时刻的状态信息,
Figure BDA0002309396730000025
表示第i个智能体在t时隙的决策,
Figure BDA0002309396730000026
表示第i个智能体在t时隙的网络参数,γ表示折扣系数,
Figure BDA0002309396730000027
表示
Figure BDA0002309396730000028
对应的决策下可能到达的所有状态的集合,
Figure BDA0002309396730000029
表示
Figure BDA00023093967300000210
对应的决策下可能到达的所有状态的集合,
Figure BDA00023093967300000211
表示第i个智能体在t时刻采用不同于的
Figure BDA00023093967300000212
其他决策,ΔI表示参数更新周期;
S310、当t%ΔI==0时,
Figure BDA00023093967300000213
Figure BDA00023093967300000214
表示第i个智能体在t时隙的Q值网络参数;
S311、当样本编号等于k且t=T时,结束;当样本编号等于k且t<T时,使t的值加1并返回执行S305;当样本编号小于k时,使样本编号的值加1并返回执行步骤S308。
优选地,
Figure BDA0002309396730000031
式中,
Figure BDA0002309396730000032
表示第i个智能体在t时隙的决策的回报值,
Figure BDA0002309396730000033
表示第i个智能体在t时隙的决策,Bi表示第i个智能体在t时隙的信道带宽,
Figure BDA0002309396730000034
表示第i个智能体在t时隙的接收节点通信信噪比,
Figure BDA0002309396730000035
表示
Figure BDA0002309396730000036
对应的通信阈值,接收节点通信信噪比小于通信阈值这表示不能通信,
Figure BDA0002309396730000037
表示第i个智能体在t时隙的发送节点传输功率,
Figure BDA0002309396730000038
Figure BDA0002309396730000039
表示第i个智能体在t时隙的链路增益,
Figure BDA00023093967300000310
表示第i个智能体在t时隙的接收节点的干扰强度,σ表示干扰噪音,
Figure BDA00023093967300000311
表示t时隙第j条链路对第i个智能体的增益,当第j条链路与第i个智能体使用同一信道,
Figure BDA00023093967300000312
di表示第i个智能体的收发节点之间的距离,
Figure BDA00023093967300000313
dij表示第j条链路的接收节点与第i个智能体的发送节点之间的距离,δ表示路径衰减因子,
Figure BDA00023093967300000314
表示第j条链路的接收节点与第i个智能体的发送节点之间的在t时隙的接收功率。
优选地,任意一条链路任意时隙的状态信息包括了对应的信道向量、发送节点传输功率、接收节点坐标向量及发送节点坐标向量。
综上所述,与现有技术相比,本发明具有以下有益效果:本发明提出面向能量效率的无人机群多智能体深度强化学习优化方法,着眼实现无人机集群通信能量效率的提升,采用分布式多智能体深度强化学方法,设计基于环境状态信息分解的深度神经网络,设置短时经验回放机制训练神经网络来挖掘动态网络环境蕴含的变化规律,解决传统强化学习面临的大状态空间无法得到收敛解的难题,实现多智能体分布式协同学习,提升无人机集群通信的能量效率,提高无人机集群的生命周期,增强无人机集群通信网络动态适应能力。
附图说明
图1为通信网络拓扑示意图;
图2为多智能体强化学习模型示意图;
图3为本发明公开的面向能量效率的无人机群多智能体深度强化学习优化方法的一种具体实施方式的流程图;
图4为本发明具体实例中智能体Ao1算法性能对比曲线图;
图5为本发明具体实例中智能体Ao2算法性能对比曲线图;
图6为本发明具体实例中智能体Ao3算法性能对比曲线图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述说明。
如图3所示,本发明公开了面向能量效率的无人机群多智能体深度强化学习优化方法,包括如下步骤:
S1、获取无人机集群当前状态信息;
S2、获取无人机集群历史信息,所述历史信息包括历史状态信息及历史决策信息;
对于每一个时隙,都采集多个之前时隙的历史信息作为神经网络进行学习的输入,从而得到当前时隙的决策信息。
S3、采用基于Q学习的改进DQN深度强化学习方法,利用无人机集群历史信息对每个智能体的神经网络进行训练更新,得到无人机集群各智能体的信道选择及功率选择决策,训练过程中采用短时经验回放机制训练神经网络,每个神经网络的优化目标为最大化对应智能体的能量效率值;
本发明中,每一个无人机可视为集群通信网络中的一个节点,每一条链路包括一个发送节点和一个接收节点,其链路的信道选择和功率选择视为该链路的决策。本发明中可以将每一条链路都视为一个可训练学习的智能体。本发明以每个智能体为主体分别进行神经网络的训练。
S4、基于所述无人机集群中链路的信道及功率决策信息控制无人机集群进行数据传输。
如图1所示,在本发明中,N表示无人机网络通信节点集,N={v1,v2,v3,…vu},u表示通信节点个数,vu表示第u个通信节点;L表示通信节点之间的通信链路集,L={l1,l2,l3,…,ln},n表示通信链路数量,ln表示第n条通信链路;
Figure BDA0002309396730000041
表示发送节点x方向坐标向量,
Figure BDA0002309396730000042
Figure BDA0002309396730000043
表示第n条通信链路的发送节点x方向坐标,
Figure BDA0002309396730000044
表示发送节点y方向坐标向量,
Figure BDA0002309396730000045
Figure BDA0002309396730000046
表示第n条通信链路的发送节点y方向坐标,
Figure BDA0002309396730000047
表示接收节点x方向坐标向量,
Figure BDA0002309396730000051
Figure BDA0002309396730000052
表示第n条通信链路的接收节点x方向坐标,
Figure BDA0002309396730000053
表示接收节点y方向坐标向量,
Figure BDA0002309396730000054
Figure BDA0002309396730000055
表示第n条通信链路的接收节点y方向坐标;C表示正交信道集合,C={c1,c2,…,ck},k表示正交信道数量,ck表示第k条正交信道;P表示离散功率集合,m表示通信节点的可选传输功率等级数,pm表示第m个可选功率等级;
Figure BDA0002309396730000056
表示在t时隙的发送节点发射功率向量,
Figure BDA0002309396730000057
Figure BDA0002309396730000058
为在t时隙第n条通信链路的发送节点的传输功率,
Figure BDA0002309396730000059
表示信道向量,
Figure BDA00023093967300000510
Figure BDA00023093967300000511
为在t时隙第n条通信链路信道的信道。
无人机集群的能量效率优化问题,事关集群工作的效率和生命期,对于能量有限的小型无人机来说,能量瓶颈问题是制约其功效发挥的核心问题之一。对于无人机集群通信优化中的能量效率提升问题,传统的强化学习等方法面临大决策空间挑战,难以实现算法的收敛。
本发明提出面向能量效率的无人机群多智能体深度强化学习优化方法,着眼实现无人机集群通信能量效率的提升,采用分布式多智能体深度强化学方法,设计基于环境状态信息分解的深度神经网络,设置短时经验回放机制训练神经网络来挖掘动态网络环境蕴含的变化规律,解决传统强化学习面临的大状态空间无法得到收敛解的难题,实现多智能体分布式协同学习,提升无人机集群通信的能量效率,提高无人机集群的生命周期,增强无人机集群通信网络动态适应能力。
具体实施时,步骤S3中,链路合集为L,对任一神经网络,智能体集合为Lm,非智能体的集合为Ls,Ls=L-Lm,步骤S3包括:
S301、初始化回放空间,设置回放空间大小及回放空间清空周期;
S302、初始化智能体的DQN网络参数,智能体的目标Q值网络参数,设置智能体的学习速率和折扣系数;
S303、获取无人机集群中的无人机坐标集合、离散功率集及正交信道集合;
S304、设t=1;
S305、利用目标无人机群在t时隙对应的状态信息,基于ε-greedy算法和DQN网络得到智能体决策并执行,得到回报值以及执行后所有链路可能达到的状态信息,将与t对应的状态信息、回报值以及执行后所有链路可能达到的状态信息作为样本存入回放空间;
S306、从回放空间随机采样训练数据集,训练数据集样本数为k;
S307、从训练数据集中采集一个样本,设样本编号interation=1;
S308、将样本对应的执行后所有链路可能达到的状态信息输入至神经网络,得到新的Q值,取最大的Q值对应的决策作为智能体t时隙的决策;
S309、利用随机梯度下降法根据损失函数
Figure BDA0002309396730000061
更新DQN网络参数集
Figure BDA0002309396730000062
式中,Q()为Q值函数,
Figure BDA0002309396730000063
表示非智能体t时刻的状态信息,
Figure BDA0002309396730000064
表示表示智能体t时刻的状态信息,
Figure BDA0002309396730000065
表示第i个智能体在t时隙的决策,
Figure BDA0002309396730000066
表示第i个智能体在t时隙的网络参数,γ表示折扣系数,
Figure BDA0002309396730000067
表示
Figure BDA0002309396730000068
对应的决策下可能到达的所有状态的集合,
Figure BDA0002309396730000069
表示
Figure BDA00023093967300000610
对应的决策下可能到达的所有状态的集合,
Figure BDA00023093967300000611
表示第i个智能体在t时刻采用不同于的
Figure BDA00023093967300000612
其他决策,ΔI表示参数更新周期;
S310、当t%ΔI==0时,
Figure BDA00023093967300000613
Figure BDA00023093967300000614
表示第i个智能体在t时隙的Q值网络参数;
S311、当样本编号等于k且t=T时,结束;当样本编号等于k且t<T时,使t的值加1并返回执行S305;当样本编号小于k时,使样本编号的值加1并返回执行步骤S308。
在每个时隙,各智能体根据状态信息和各自决策策略做出发送节点功率和信道选择的联合决策,从而提高链路数据传输能量效率。多智能体深度强化学习过程如图2所示。相关概述如下:强化学习(RL)是机器学习的一大分支,其中,Q学习是一种广为应用的强化学习方法,用来解决马尔可夫决策问题。DeepMind公司的研究人员提出了一种深度Q学习网络(DQN),该方法利用了深度学习的优势学习最优决策策略的抽象表示,DQN将深度卷积神经网络与强化学习中的Q-learning相结合。本发明使用的方法也是基于Q学习的改进DQN深度强化学习方法。
马尔可夫决策过程是一个离散时序随机控制过程,它具有马尔可夫性质:过程的未来只取决于目前的观察状态。
在本发明中,每个时隙,根据智能体的状态信息做出决策,执行at后,基于新的状态信息得到对应的回报值。通过不断地基于状态信息进行学习,智能体朝着任务目标学习决策策略。通过定义值函数
Figure BDA00023093967300000615
式中,式中,Eπ[]表示求期望,
Figure BDA0002309396730000071
表示第i个智能体在0时刻的状态。
为了找到最优策略,定义Q函数为状态决策对的值函数,Q函数为每对状态-决策对匹配一个Q值,并将所有Q值存储在一个Q值表中。
Q值的计算公式如下:
Figure BDA0002309396730000072
在每个时隙t,智能体根据更新公式对Q值表进行更新,这体现了智能体的学习过程。更新公式如下:
Figure BDA0002309396730000073
式中,γ∈[0,1]为折扣系数。
在本发明中,多智能体强化学习用多元组<L,S,A,R,Z,O,γ>其中,L为智能体集合;S为状态空间;A为所有智能体的动作空间;R表示奖励函数;Z是状态转换概率集合;O表示所有智能体的观测集,即所有智能体能观测到周围其他智能体的信息的集合。
在神经网络的构建过程中,本发明深度神经网络(DQN)的输入数据为一段回溯时间内智能体及非智能体的状态信息,其中ΔT为历史回溯时间长度。最终将两部分状态信息合并,逼近Q函数。由于智能体的决策策略在改变,智能体的参数集更新方式为动态更新方式,即
Figure BDA0002309396730000074
其中k为更新轮次(从样本空间提取的样本数),
Figure BDA0002309396730000075
为各智能体人为设定的参数更新步长。这么做是为了防止不确定性的动态变化环境下的Q值过估计。
具体实施时,
Figure BDA0002309396730000076
式中,
Figure BDA0002309396730000077
表示第i个智能体在t时隙的决策的回报值,
Figure BDA0002309396730000078
表示第i个智能体在t时隙的决策,Bi表示第i个智能体在t时隙的信道带宽,
Figure BDA0002309396730000079
表示第i个智能体在t时隙的接收节点通信信噪比,
Figure BDA00023093967300000710
表示
Figure BDA00023093967300000711
对应的通信阈值,接收节点通信信噪比小于通信阈值这表示不能通信,
Figure BDA00023093967300000712
表示第i个智能体在t时隙的发送节点传输功率,
Figure BDA00023093967300000713
Figure BDA00023093967300000714
表示第i个智能体在t时隙的链路增益,
Figure BDA00023093967300000715
表示第i个智能体在t时隙的接收节点的干扰强度,σ表示干扰噪音,
Figure BDA0002309396730000081
表示t时隙第j条链路对第i个智能体的增益,当第j条链路与第i个智能体使用同一信道,
Figure BDA0002309396730000082
di表示第i个智能体的收发节点之间的距离,
Figure BDA0002309396730000083
dij表示第j条链路的接收节点与第i个智能体的发送节点之间的距离,δ表示路径衰减因子,
Figure BDA0002309396730000084
表示第j条链路的接收节点与第i个智能体的发送节点之间的在t时隙的接收功率。
根据香农公式,链路的通信速率可表示为
Figure BDA0002309396730000085
链路的能量效率值可定义为
Figure BDA0002309396730000086
对于每个时隙,每个智能体对应的神经网络的优化目标为最大化链路的能量效率值,即
Figure BDA0002309396730000087
具体实施时,任意一条链路任意时隙的状态信息包括了对应的信道向量、发送节点传输功率、接收节点坐标向量及发送节点坐标向量。
下面通过仿真实例来验证本发明的有效性。
实验软件环境:UBUNTU16.04LTS操作系统、Python3.6+TensorFlow 1.12深度学习框架。
仿真场景设置:将分布式无人机集群通信网络中的20条通信链路分布在一个面积为1000m*1000m的正方形场地中,通信可用信道数为3,节点传输功率等级为离散的,数目同样为3,网络输出层的输出个数为9。将500个时隙作为一个Episode,每个Episode的链路EE值为500个时隙的链路能效均值,具体参数见表1及表2。
将选择网络中的三条链路分别作为智能体分别编号为lo1、lo2和lo3,每条链路拥有的智能体编号为Ao2、Ao2和Ao3
实验结果及分析:算法性能指标为链路的能量效率值。图4、图5和图6分别展示了智能体Ao1 Ao2和Ao3的算法性能对比曲线。从图中的结果可以看出,本发明所提方法均取得了较好的效果。这说明本发明的方法能根据网络的动态变化情况,通过神经网络训练,得出当前状态下的优化决策,获得更好的信道选择和功率参数优化结果,获得更高的能量效率。
表1网络场景设置表
参数
信道带宽 1Mbps
链路数量 20
可用功率值 (3,5,10)mw
信道噪声 -30dBm
路径损失系数δ 2
最大传输距离 300m
可用信道数目 3
表2算法参数设置
参数
学习策略探索值ε 0.95-0.05
折扣系数γ 0.85
卷积核大小 6*6
池化操作 Max
全连接层神经元个数 256
激励函数 ReLU
批训练数据大小 32
输入大小 120*120
回放空间大小 80000
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims (3)

1.面向能量效率的无人机群多智能体深度强化学习优化方法,其特征在于,包括如下步骤:
S1、获取无人机集群当前状态信息;
S2、获取无人机集群历史信息,所述历史信息包括历史状态信息及历史决策信息;
S3、采用基于Q学习的改进DQN深度强化学习方法,利用无人机集群历史信息对每个智能体的神经网络进行训练更新,得到无人机集群各智能体的信道选择及功率选择决策,训练过程中采用短时经验回放机制训练神经网络,每个神经网络的优化目标为最大化对应智能体的能量效率值;其中,链路合集为L,对任一神经网络,智能体集合为Lm,非智能体的集合为Ls,Ls=L-Lm,步骤S3包括:
S301、初始化回放空间,设置回放空间大小及回放空间清空周期;
S302、初始化智能体的DQN网络参数,智能体的目标Q值网络参数,设置智能体的学习速率和折扣系数;
S303、获取无人机集群中的无人机坐标集合、离散功率集及正交信道集合;
S304、设t=1;
S305、利用目标无人机群在t时隙对应的状态信息,基于ε-greedy算法和DQN网络得到智能体决策并执行,得到回报值以及执行后所有链路可能达到的状态信息,将与t对应的状态信息、回报值以及执行后所有链路可能达到的状态信息作为样本存入回放空间;
S306、从回放空间随机采样训练数据集,训练数据集样本数为k;
S307、从训练数据集中采集一个样本,设样本编号interation=1;
S308、将样本对应的执行后所有链路可能达到的状态信息输入至神经网络,得到新的Q值,取最大的Q值对应的决策作为智能体t时隙的决策;
S309、利用随机梯度下降法根据损失函数
Figure FDA0003786746170000011
更新DQN网络参数集
Figure FDA0003786746170000012
式中,Q()为Q值函数,
Figure FDA0003786746170000013
表示非智能体t时刻的状态信息,
Figure FDA0003786746170000014
表示智能体t时刻的状态信息,
Figure FDA0003786746170000015
表示第i个智能体在t时隙的决策,
Figure FDA0003786746170000016
表示第i个智能体在t时隙的网络参数,γ表示折扣系数,
Figure FDA0003786746170000017
表示
Figure FDA0003786746170000018
对应的决策下可能到达的所有状态的集合,
Figure FDA0003786746170000019
表示
Figure FDA00037867461700000110
对应的决策下可能到达的所有状态的集合,
Figure FDA00037867461700000111
表示第i个智能体在t时刻采用不同于的
Figure FDA00037867461700000112
其他决策,ΔI表示参数更新周期;
S310、当t%ΔI==0时,
Figure FDA0003786746170000021
Figure FDA0003786746170000022
表示第i个智能体在t时隙的Q值网络参数;
S311、当样本编号等于k且t=T时,结束;当样本编号等于k且t<T时,使t的值加1并返回执行S305;当样本编号小于k时,使样本编号的值加1并返回执行步骤S308;
S4、基于所述无人机集群中链路的信道及功率决策信息控制无人机集群进行数据传输。
2.如权利要求1所述的面向能量效率的无人机群多智能体深度强化学习优化方法,其特征在于,
Figure FDA0003786746170000023
式中,
Figure FDA0003786746170000024
表示第i个智能体在t时隙的决策的回报值,
Figure FDA0003786746170000025
表示第i个智能体在t时隙的决策,Bi表示第i个智能体在t时隙的信道带宽,
Figure FDA0003786746170000026
表示第i个智能体在t时隙的接收节点通信信噪比,
Figure FDA0003786746170000027
表示
Figure FDA0003786746170000028
对应的通信阈值,接收节点通信信噪比小于通信阈值这表示不能通信,
Figure FDA0003786746170000029
表示第i个智能体在t时隙的发送节点传输功率,
Figure FDA00037867461700000210
Figure FDA00037867461700000211
表示第i个智能体在t时隙的链路增益,
Figure FDA00037867461700000212
表示第i个智能体在t时隙的接收节点的干扰强度,σ表示干扰噪音,
Figure FDA00037867461700000213
表示t时隙第j条链路对第i个智能体的增益,当第j条链路与第i个智能体使用同一信道,
Figure FDA00037867461700000214
di表示第i个智能体的收发节点之间的距离,
Figure FDA00037867461700000215
dij表示第j条链路的接收节点与第i个智能体的发送节点之间的距离,δ表示路径衰减因子,
Figure FDA00037867461700000216
表示第j条链路的接收节点与第i个智能体的发送节点之间的在t时隙的接收功率。
3.如权利要求1所述的面向能量效率的无人机群多智能体深度强化学习优化方法,其特征在于,任意一条链路任意时隙的状态信息包括了对应的信道向量、发送节点传输功率、接收节点坐标向量及发送节点坐标向量。
CN201911252410.4A 2019-12-09 2019-12-09 面向能量效率的无人机群多智能体深度强化学习优化方法 Active CN110958680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911252410.4A CN110958680B (zh) 2019-12-09 2019-12-09 面向能量效率的无人机群多智能体深度强化学习优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911252410.4A CN110958680B (zh) 2019-12-09 2019-12-09 面向能量效率的无人机群多智能体深度强化学习优化方法

Publications (2)

Publication Number Publication Date
CN110958680A CN110958680A (zh) 2020-04-03
CN110958680B true CN110958680B (zh) 2022-09-13

Family

ID=69980469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911252410.4A Active CN110958680B (zh) 2019-12-09 2019-12-09 面向能量效率的无人机群多智能体深度强化学习优化方法

Country Status (1)

Country Link
CN (1) CN110958680B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112180967B (zh) * 2020-04-26 2022-08-19 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN113568425B (zh) * 2020-04-28 2024-05-14 北京理工大学 一种基于神经网络学习的集群协同制导方法
CN111600676A (zh) * 2020-06-05 2020-08-28 上海特金无线技术有限公司 Q值表确定方法、抗干扰方法、装置及设备
CN111683409B (zh) * 2020-06-05 2024-02-20 上海特金无线技术有限公司 多无人机协同通信q值表的学习方法、调度方法及装置
CN111783224B (zh) * 2020-06-22 2024-01-02 中国人民解放军军事科学院国防科技创新研究院 一种深度强化学习模型无人机部署试验方法和系统
CN113840306B (zh) * 2020-06-24 2023-07-21 中国人民解放军陆军工程大学 基于网络局部信息交互的分布式无线网络接入决策方法
CN111950873B (zh) * 2020-07-30 2022-11-15 上海卫星工程研究所 基于深度强化学习的卫星实时引导任务规划方法及系统
CN112215364B (zh) * 2020-09-17 2023-11-17 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的敌-友深度确定性策略方法及系统
CN112199154B (zh) * 2020-09-27 2024-06-11 南京星耀智能科技有限公司 一种基于分布式协同采样中心式优化的强化学习训练系统及方法
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN112261725B (zh) * 2020-10-23 2022-03-18 安徽理工大学 一种基于深度强化学习的数据包传输智能决策方法
CN112465664B (zh) * 2020-11-12 2022-05-03 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112616126B (zh) * 2020-12-10 2022-04-12 天津(滨海)人工智能军民融合创新中心 一种基于分布式协作的传感器信息处理方法
CN112818788B (zh) * 2021-01-25 2022-05-03 电子科技大学 一种基于无人机集群的分布式卷积神经网络分层匹配方法
CN112947575B (zh) * 2021-03-17 2023-05-16 中国人民解放军国防科技大学 基于深度强化学习的无人机集群多目标搜索方法及系统
CN113300890B (zh) * 2021-05-24 2022-06-14 同济大学 一种网络化机器学习系统的自适应通信方法
CN113469125B (zh) * 2021-07-20 2022-07-19 中国人民解放军国防科技大学 多无人机协同信号识别方法及识别系统
CN113776531B (zh) * 2021-07-21 2024-07-19 电子科技大学长三角研究院(湖州) 无线自供电通信网络的多无人机自主导航及任务分配算法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN114142912B (zh) * 2021-11-26 2023-01-06 西安电子科技大学 高动态空中网络时间覆盖连续性保障的资源管控方法
CN115167506B (zh) * 2022-06-27 2024-06-28 华南师范大学 无人机飞行航线更新规划的方法、装置、设备及存储介质
CN115412992A (zh) * 2022-07-25 2022-11-29 电子科技大学长三角研究院(衢州) 一种分布式协同进化方法、uav及其智能路由方法、装置
CN115811788B (zh) * 2022-11-23 2023-07-18 齐齐哈尔大学 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法
CN116156516B (zh) * 2023-02-27 2024-07-30 北京理工大学 基于叠加传输的无人机蜂群神经网络传输方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106487011A (zh) * 2016-11-28 2017-03-08 东南大学 一种基于q学习的户用微电网能量优化方法
US9754221B1 (en) * 2017-03-09 2017-09-05 Alphaics Corporation Processor for implementing reinforcement learning operations
CN108833049A (zh) * 2018-06-12 2018-11-16 北京邮电大学 一种无人机网络中基于认知的欺骗式抗干扰方法及装置
CN109740839A (zh) * 2018-11-23 2019-05-10 北京交通大学 一种突发事件下的列车动态调整方法及系统
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018226954A1 (en) * 2017-06-07 2018-12-13 Ethertronics, Inc. Power control method for systems with altitude changing objects
US20190220737A1 (en) * 2018-01-17 2019-07-18 Hengshuai Yao Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106487011A (zh) * 2016-11-28 2017-03-08 东南大学 一种基于q学习的户用微电网能量优化方法
US9754221B1 (en) * 2017-03-09 2017-09-05 Alphaics Corporation Processor for implementing reinforcement learning operations
CN108833049A (zh) * 2018-06-12 2018-11-16 北京邮电大学 一种无人机网络中基于认知的欺骗式抗干扰方法及装置
CN109740839A (zh) * 2018-11-23 2019-05-10 北京交通大学 一种突发事件下的列车动态调整方法及系统
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《计算机工程》2009年(第35卷)总目次;《计算机工程》2009年(第35卷)总目次;《计算机工程》;20091220(第24期);全文 *
D2D通信中基于Q学习的联合资源分配与功率控制算法;王倩等;《南京大学学报(自然科学)》;20181130(第06期);全文 *
基于深度增强学习的自动游戏方法;袁月等;《长江大学学报(自科版)》;20171110(第21期);全文 *
多智能体强化学习在城市交通网络信号控制方法中的应用综述;杨文臣等;《计算机应用研究》;20180612(第06期);全文 *
新一代人工智能在智能电网中的应用研究综述;戴彦等;《电力建设》;20181001(第10期);全文 *

Also Published As

Publication number Publication date
CN110958680A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN110958680B (zh) 面向能量效率的无人机群多智能体深度强化学习优化方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN111867139B (zh) 基于q学习的深度神经网络自适应退避策略实现方法及系统
CN109729528A (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN113132943B (zh) 一种车联网中车边协同的任务卸载调度及资源分配方法
CN112261725B (zh) 一种基于深度强化学习的数据包传输智能决策方法
CN111628855A (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
CN111367657A (zh) 一种基于深度强化学习的计算资源协同合作方法
CN112492686B (zh) 一种基于深度双q网络的蜂窝网络功率分配方法
CN112929900B (zh) 水声网络中基于深度强化学习实现时域干扰对齐的mac协议
CN114449482B (zh) 基于多智能体深度强化学习的异构车联网用户关联方法
CN108401254A (zh) 一种基于强化学习的无线网络资源分配方法
CN112492691A (zh) 一种深度确定性策略梯度的下行noma功率分配方法
CN109769119A (zh) 一种低复杂度视频信号编码处理方法
CN115065728B (zh) 一种基于多策略强化学习的多目标内容存储方法
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
CN114126021B (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN117750509A (zh) 一种多无人机网络下基于深度强化学习的时隙分配方法
Wang et al. Multi-granularity fusion resource allocation algorithm based on dual-attention deep reinforcement learning and lifelong learning architecture in heterogeneous IIoT
CN116755046B (zh) 一种不完美专家策略的多功能雷达干扰决策方法
CN113902087A (zh) 一种多Agent深度强化学习算法
CN109743780A (zh) 信道选择和传输时间联合优化的分层强化学习抗干扰算法
CN116506918A (zh) 一种基于缓存区预测的中继选择方法
CN113691334B (zh) 一种基于次用户群体协作的认知无线电动态功率分配方法
CN116340737A (zh) 基于多智能体强化学习的异构集群零通信目标分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB03 Change of inventor or designer information

Inventor after: Yao Changhua

Inventor after: Dang Suihu

Inventor after: Li Songbai

Inventor before: Yao Changhua

Inventor before: Wang Xiulai

Inventor before: Dang Suihu

Inventor before: Li Songbai

Inventor before: Ruan Lang

Inventor before: Tian Hui

Inventor before: Fan Haoren

Inventor before: Zhang Haibo

CB03 Change of inventor or designer information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant