CN113316239B - 一种基于强化学习的无人机网络发射功率分配方法及装置 - Google Patents

一种基于强化学习的无人机网络发射功率分配方法及装置 Download PDF

Info

Publication number
CN113316239B
CN113316239B CN202110505367.9A CN202110505367A CN113316239B CN 113316239 B CN113316239 B CN 113316239B CN 202110505367 A CN202110505367 A CN 202110505367A CN 113316239 B CN113316239 B CN 113316239B
Authority
CN
China
Prior art keywords
value
network
unmanned aerial
aerial vehicle
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110505367.9A
Other languages
English (en)
Other versions
CN113316239A (zh
Inventor
张海君
李亚博
唐书和
唐睿卿
隆克平
高鹏
李福昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202110505367.9A priority Critical patent/CN113316239B/zh
Publication of CN113316239A publication Critical patent/CN113316239A/zh
Application granted granted Critical
Publication of CN113316239B publication Critical patent/CN113316239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/38TPC being performed in particular situations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/06Airborne or Satellite Networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于强化学习的无人机网络发射功率分配方法及装置,所述方法包括:初始化无人机以及用户的状态,定义动作空间以及神经网络的参数;初始化价值函数和当前网络状态的Q值;与环境交互接收奖励反馈并计算采取当前动作的Q值;根据反馈得到的奖励的最大值选取最优动作;更新系统的下一状态并存储至经验池中;判断经验数量是否达到预期值,若达到则开始进行深度强化学习,若未达到则继续循环;根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习,以长期奖励函数最大化为目标进行强化学习;判断长期奖励函数的值是否趋于收敛,当趋于收敛时终止学习,此时已完成无人机无线自组网的资源分配最优化。

Description

一种基于强化学习的无人机网络发射功率分配方法及装置
技术领域
本发明涉及基于无人机的无线通信网络技术领域,特别涉及一种面向多无人机的无线自组网网络场景下的基于强化学习的无人机网络发射功率分配方法及装置。
背景技术
无人机(UAV)由于其灵活可控、高移动性以及良好的空对地视距链路等特征,而成为无线通信技术领域当中提供有效无线连接服务的重要合作伙伴,为当今社会构建应急、海量等通信场景提供了高效的解决方案。UAV可作为可移动的空中基站,为地面上的用户提供高质量通信,提高无线网络的容量。同传统的地面通信系统相比,灵活、时间成本低是UAV系统的优势所在。借助UAV,可以建立LOS通信链路,由于其高机动性,可以进行实时的动态调整来适应环境以为地面上的用户提供稳定高质量的通信服务。事实上,UAV无线通信为人们提供了一种具有成本和能源效益的解决方案,可用于没有任何基础通信设施的场景。然而,传统的技术存在项目资源分配机制浪费信道资源、分配效率低等弊端,这也是一直以来无线通信网络中所需攻破的难题,尤其是功率分配有着举足轻重的作用。
强化学习是一种解决动态决策问题时的可靠方式,近年来被广泛用于无线通信领域。基于强化学习(RL)的方法能够解决空中无线资源管理方面的问题,但是传统的RL算法在状态过多时收敛速度太慢,在此,我们引入深度学习,二者结合为DRL,以解决复杂的资源管理问题。之前很多RL算法依赖于手工选取的特征和线性函数逼近,但这些系统都依赖于特征的选取质量。如何在拓扑动态变化的无人机无线网络中进行合理、有效、绿色的无线资源分配是值得被关注的热点。
发明内容
本发明的目的在于提供一种基于强化学习的无人机网络发射功率分配方法及装置,解决当前无人机无线自组网中资源分配机制中浪费信道资源,功率分配效率低下等问题,构建基于人工智能的无人机无线网络资源分配方案。
为解决上述技术问题,本发明的实施例提供如下方案:
一方面,提供了一种基于强化学习的无人机网络发射功率分配方法,包括以下步骤:
S1、初始化无人机以及用户的状态,定义动作空间以及神经网络的参数;
S2、初始化价值函数和当前网络状态的Q值;
S3、与环境交互接收奖励反馈并计算采取当前动作的Q值;
S4、根据反馈得到的奖励的最大值选取最优动作;
S5、更新系统的下一状态并存储至经验池中;
S6、判断经验数量是否达到预期值,若达到则开始进行深度强化学习,若未达到则继续循环;
S7、根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习,以长期奖励函数最大化为目标进行强化学习;
S8、判断长期奖励函数的值是否趋于收敛,当趋于收敛时终止学习,此时已完成无人机无线自组网的资源分配最优化。
优选地,所述步骤S1包括:
初始化无人机、用户以及神经网络的各项参数以及无人机的最大发射功率Pmax,网络参数θ和θ′,智能体动作、状态、重放经验池
Figure BDA0003058159720000021
优选地,所述步骤S2包括:
定义Q值函数为:Q(I(z),D(z),θ),其中I(z),D(z),θ分别表示当前网络系统的状态,当前选取的动作和当前网络系统的权重参数;
根据无人机网络当前状态的资源分配策略所产生的Q值大小开始进行动作选取环节;
在Q-learning中,Q值的更新策略为:
Figure BDA0003058159720000022
其中Q'表示下一个状态的Q值,γn表示第n次的折损因子,rz表示无人机网络中第z个用户对中用户的速率回报;而对于θ,则定义功率损失为:
Lii)=E(Q'(I(z),D(z);θi)-Q(I(z),D(z);θi))2
其中,将满足使得Lii)最小化的θi更新为θi+1
优选地,所述步骤S3包括:
根据香农公式,第k个用户的信道容量为:
Rk=Wlog2(1+SINRk)
其中W表示在无人机网络里的用户带宽,是一个常量,SINRk表示第k个用户的信噪比,表示如下:
Figure BDA0003058159720000031
其中pk表示第k个用户的功率分配系数,wk表示第k个用户的信道增益,其遵循无人机的常用LoS信道模型,σk表示第k个用户的加性白高斯噪声功率,αk表示相应的噪声功率系数;
则系统的能效即目标函数值为:
Figure BDA0003058159720000032
优选地,所述步骤S4包括:
系统获取即时奖励并更新参数,系统获得即时奖励的约束:
所有用户的功率和小于无人机发射的最大功率Pmax
对于约束条件:只需判断无人机的最大功率与它服务的所有用户的总功率之和之间的大小即可:
Figure BDA0003058159720000033
第k个用户的即时奖励为:
Figure BDA0003058159720000034
优选地,所述步骤S5包括:
系统获得的总即时奖励为:
Figure BDA0003058159720000035
根据即时奖励的最大值选取对应的动作d(k),并循环进行积累经验。
优选地,所述步骤S6包括:
根据存储的经验数量判断是否进行深度强化学习,若存储的经验数量满足预期值,则开始进行深度强化学习。
优选地,所述步骤S7包括:
由贝尔曼方程得到即时奖励,并展开深度强化学习,使用DPPO算法,通过副网络在不同的环境中收集数据,然后交给主网络来更新参数;
深度强化学习算法的表达式为:
yDPPO=r+γQ(I',argmaxQ(I',d;θ);θ’)
其中yDPPO表示目标值即实际值,r表示反馈的即时奖励,γ表示折扣因子,I'表示系统的下一状态,d表选取的动作,θ表示主神经网络的参数,θ’表示目标神经网络的参数。
优选地,所述步骤S8包括:
在深度强化学习的过程中,无人机网络的目标函数值会不断上升,当长期奖励函数的值趋于收敛,即长期奖励函数在一定范围内不再发生明显变化时,得到最优资源分配方案,此时终止学习。
一方面,提供了一种基于强化学习的无人机网络发射功率分配装置,包括:
第一初始化模块,用于初始化无人机以及用户的状态,定义动作空间以及神经网络的参数;
第二初始化模块,用于初始化价值函数和当前网络状态的Q值;
交互反馈模块,用于与环境交互接收奖励反馈并计算采取当前动作的Q值;
选取模块,用于根据反馈得到的奖励的最大值选取最优动作;
更新模块,用于更新系统的下一状态并存储至经验池中;
第一判断模块,用于判断经验数量是否达到预期值,若达到则开始进行深度强化学习,若未达到则继续循环;
深度学习模块,用于根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习,以长期奖励函数最大化为目标进行强化学习;
第二判断模块,用于判断长期奖励函数的值是否趋于收敛,当趋于收敛时终止学习,此时已完成无人机无线自组网的资源分配最优化。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,通过将深度学习的概念引入RL,结合为DRL,能够解决复杂的资源管理问题;通过建立用户与无人机之间的信息交互模型,能够实时获取当前的状态参量,并通过DPPO算法进行深度强化学习,完成功率资源的最佳分配,从而最大限度地提高系统能效,并实现频谱共享。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于强化学习的无人机网络发射功率分配方法的流程图;
图2是本发明实施例提供的一种基于强化学习的无人机网络发射功率分配装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明的实施例提供了一种基于强化学习的无人机网络发射功率分配方法,如图1所示,所述方法包括以下步骤:
S1、初始化无人机以及用户的状态,定义动作空间以及神经网络的参数;
S2、初始化价值函数和当前网络状态的Q值;
S3、与环境交互接收奖励反馈并计算采取当前动作的Q值;
S4、根据反馈得到的奖励的最大值选取最优动作;
S5、更新系统的下一状态并存储至经验池中;
S6、判断经验数量是否达到预期值,若达到则开始进行深度强化学习,若未达到则继续循环;
S7、根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习,以长期奖励函数最大化为目标进行强化学习;
S8、判断长期奖励函数的值是否趋于收敛,当趋于收敛时终止学习,此时已完成无人机无线自组网的资源分配最优化。
本发明实施例中,通过将深度学习的概念引入RL,结合为DRL,能够解决复杂的资源管理问题;通过建立用户与无人机之间的信息交互模型,能够实时获取当前的状态参量,并通过DPPO算法进行深度强化学习,完成功率资源的最佳分配,从而最大限度地提高系统能效,并实现频谱共享。
具体地,本发明所述方法的详细流程如下:
步骤S1中,初始化无人机、用户以及神经网络的各项参数以及无人机的最大发射功率Pmax,网络参数θ和θ′,智能体动作、状态、重放经验池
Figure BDA0003058159720000061
等。
步骤S2中,定义Q值函数为:Q(I(z),D(z),θ),其中I(z),D(z),θ分别表示当前网络系统的状态,当前选取的动作和当前网络系统的权重参数;
根据无人机网络当前状态的资源分配策略所产生的Q值大小开始进行动作选取环节;
在Q-learning中,Q值的更新策略为:
Figure BDA0003058159720000062
其中Q'表示下一个状态的Q值,γn表示第n次的折损因子,rz表示无人机网络中第z个用户对中用户的速率回报;而对于θ,则定义功率损失为:
Lii)=E(Q'(I(z),D(z);θi)-Q(I(z),D(z);θi))2
其中,将满足使得Lii)最小化的θi更新为θi+1
步骤S3中,根据香农公式,第k个用户的信道容量为:
Rk=Wlog2(1+SINRk)
其中W表示在无人机网络里的用户带宽,是一个常量,SINRk表示第k个用户的信噪比,表示如下:
Figure BDA0003058159720000063
其中pk表示第k个用户的功率分配系数,wk表示第k个用户的信道增益,其遵循无人机的常用LoS信道模型,σk表示第k个用户的加性白高斯噪声功率,αk表示相应的噪声功率系数;
则系统的能效即目标函数值为:
Figure BDA0003058159720000064
步骤S4中,系统获取即时奖励并更新参数,系统获得即时奖励的约束:
所有用户的功率和小于无人机发射的最大功率Pmax
对于约束条件:只需判断无人机的最大功率与它服务的所有用户的总功率之和之间的大小即可:
Figure BDA0003058159720000071
第k个用户的即时奖励为:
Figure BDA0003058159720000072
步骤S5中,系统获得的总即时奖励为:
Figure BDA0003058159720000073
根据即时奖励的最大值选取对应的动作d(k),并循环进行积累经验。
步骤S6中,根据存储的经验数量判断是否进行深度强化学习,若存储的经验数量满足预期值,则开始进行深度强化学习。
步骤S7中,由贝尔曼方程得到即时奖励,并展开深度强化学习,使用DPPO算法,通过副网络在不同的环境中收集数据,然后交给主网络来更新参数;这种方式节省了时空开销,同时解决了DQN中存在的过高估计问题;
深度强化学习算法的表达式为:
yDPPO=r+γQ(I',argmaxQ(I',d;θ);θ’)
其中yDPPO表示目标值即实际值,r表示反馈的即时奖励,γ表示折扣因子,I'表示系统的下一状态,d表选取的动作,θ表示主神经网络的参数,θ’表示目标神经网络的参数。
步骤S8中,在深度强化学习的过程中,无人机网络的目标函数值会不断上升,当长期奖励函数的值趋于收敛,即长期奖励函数在一定范围内不再发生明显变化时,得到最优资源分配方案,此时终止学习。
相应地,本发明的实施例还提供了一种基于强化学习的无人机网络发射功率分配装置,如图2所示,所述装置包括:
第一初始化模块,用于初始化无人机以及用户的状态,定义动作空间以及神经网络的参数;
第二初始化模块,用于初始化价值函数和当前网络状态的Q值;
交互反馈模块,用于与环境交互接收奖励反馈并计算采取当前动作的Q值;
选取模块,用于根据反馈得到的奖励的最大值选取最优动作;
更新模块,用于更新系统的下一状态并存储至经验池中;
第一判断模块,用于判断经验数量是否达到预期值,若达到则开始进行深度强化学习,若未达到则继续循环;
深度学习模块,用于根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习,以长期奖励函数最大化为目标进行强化学习;
第二判断模块,用于判断长期奖励函数的值是否趋于收敛,当趋于收敛时终止学习,此时已完成无人机无线自组网的资源分配最优化。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在本发明中,将深度学习的概念引入RL,结合为DRL,以此来解决复杂的资源管理问题;通过建立用户与无人机之间的信息交互模型,实时获取当前动作,状态及策略,以此调节功率。本发明的DRL系统框架中,通过DPPO算法来进行深度强化学习,其目的是达到长期奖励函数最大化,即确保用户功率总和不超过无人机发射最大功率,最终实现功率的最优分配,达到系统能效最大化的目的。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于强化学习的无人机网络发射功率分配方法,其特征在于,包括以下步骤:
S1、初始化无人机以及用户的状态,定义动作空间以及神经网络的参数;
所述步骤S1包括:
初始化无人机、用户以及神经网络的各项参数以及无人机的最大发射功率Pmax,网络参数θ和θ′,用户动作、状态、重放经验池D;
S2、初始化价值函数和当前网络状态的Q值;
所述步骤S2包括:
定义Q值函数为:Q(I(z),D(z),θ),其中I(z),D(z),θ分别表示当前网络系统的状态,当前选取的动作和当前网络系统的权重参数;
根据无人机网络当前状态的资源分配策略所产生的Q值大小开始进行动作选取环节;
在Q-learning中,Q值的更新策略为:
Figure FDA0003656773350000011
其中Q'表示下一个状态的Q值,γn表示第n次的折损因子,rz表示无人机网络中第z个状态中对用户的速率回报;而对于θ,则定义功率损失为:
Lii)=E(Q'(I(z),D(z);θi)-Q(I(z),D(z);θi))2
其中,将满足使得Lii)最小化的θi更新为θi+1
S3、与环境交互接收奖励反馈并计算采取当前动作的Q值;
所述步骤S3包括:
根据香农公式,第k个用户的信道容量为:
Rk=Wlog2(1+SINRk)
其中W表示在无人机网络里的用户带宽,是一个常量,SINRk表示第k个用户的信噪比,表示如下:
Figure FDA0003656773350000012
其中pk表示第k个用户的功率分配系数,wk表示第k个用户的信道增益,其遵循无人机的常用LoS信道模型,σk表示第k个用户的加性白高斯噪声功率,αk表示相应的噪声功率系数;
则系统的能效即目标函数值为:
Figure FDA0003656773350000021
S4、根据反馈得到的奖励的最大值选取最优动作;
所述步骤S4包括:
系统获取即时奖励并更新参数,系统获得即时奖励的约束:
所有用户的功率和小于无人机发射的最大功率Pmax
对于约束条件:只需判断无人机的最大功率与它服务的所有用户的总功率之和之间的大小即可:
Figure FDA0003656773350000022
第k个用户的即时奖励为:
Figure FDA0003656773350000023
S5、更新系统的下一状态并存储至经验池中;
所述步骤S5包括:
系统获得的总即时奖励为:
Figure FDA0003656773350000024
根据即时奖励的最大值选取对应的动作d(k),并循环进行积累经验;
S6、判断经验数量是否达到预期值,若达到则开始进行深度强化学习,若未达到则继续循环;
所述步骤S6包括:
根据存储的经验数量判断是否进行深度强化学习,若存储的经验数量满足预期值,则开始进行深度强化学习;
S7、根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习,以长期奖励函数最大化为目标进行强化学习;
所述步骤S7包括:
由贝尔曼方程得到即时奖励,并展开深度强化学习,使用DPPO算法,通过副网络在不同的环境中收集数据,然后交给主网络来更新参数;
深度强化学习算法的表达式为:
yDPPO=r+γQ(I',argmaxQ(I',d;θ);θ’)
其中yDPPO表示目标值即实际值,r表示反馈的即时奖励,γ表示折扣因子,I'表示系统的下一状态,d表选取的动作,θ表示主神经网络的参数,θ’表示目标神经网络的参数;
S8、判断长期奖励函数的值是否趋于收敛,当趋于收敛时终止学习,此时已完成无人机无线自组网的资源分配最优化;
所述步骤S8包括:
在深度强化学习的过程中,无人机网络的目标函数值会不断上升,当长期奖励函数的值趋于收敛,即长期奖励函数在一定范围内不再发生明显变化时,得到最优资源分配方案,此时终止学习。
2.一种基于强化学习的无人机网络发射功率分配装置,其特征在于,包括:
第一初始化模块,用于初始化无人机以及用户的状态,定义动作空间以及神经网络的参数;
所述第一初始化模块具体用于:
初始化无人机、用户以及神经网络的各项参数以及无人机的最大发射功率Pmax,网络参数θ和θ′,用户动作、状态、重放经验池D;
第二初始化模块,用于初始化价值函数和当前网络状态的Q值;
所述第二初始化模块具体用于:
定义Q值函数为:Q(I(z),D(z),θ),其中I(z),D(z),θ分别表示当前网络系统的状态,当前选取的动作和当前网络系统的权重参数;
根据无人机网络当前状态的资源分配策略所产生的Q值大小开始进行动作选取环节;
在Q-learning中,Q值的更新策略为:
Figure FDA0003656773350000031
其中Q'表示下一个状态的Q值,γn表示第n次的折损因子,rz表示无人机网络中第z个状态中对用户的速率回报;而对于θ,则定义功率损失为:
Lii)=E(Q'(I(z),D(z);θi)-Q(I(z),D(z);θi))2
其中,将满足使得Lii)最小化的θi更新为θi+1
交互反馈模块,用于与环境交互接收奖励反馈并计算采取当前动作的Q值;
所述交互反馈模块具体用于:
根据香农公式,第k个用户的信道容量为:
Rk=Wlog2(1+SINRk)
其中W表示在无人机网络里的用户带宽,是一个常量,SINRk表示第k个用户的信噪比,表示如下:
Figure FDA0003656773350000041
其中pk表示第k个用户的功率分配系数,wk表示第k个用户的信道增益,其遵循无人机的常用LoS信道模型,σk表示第k个用户的加性白高斯噪声功率,αk表示相应的噪声功率系数;
则系统的能效即目标函数值为:
Figure FDA0003656773350000042
选取模块,用于根据反馈得到的奖励的最大值选取最优动作;
所述选取模块具体用于:
系统获取即时奖励并更新参数,系统获得即时奖励的约束:
所有用户的功率和小于无人机发射的最大功率Pmax
对于约束条件:只需判断无人机的最大功率与它服务的所有用户的总功率之和之间的大小即可:
Figure FDA0003656773350000043
第k个用户的即时奖励为:
Figure FDA0003656773350000044
更新模块,用于更新系统的下一状态并存储至经验池中;
所述更新模块具体用于:
系统获得的总即时奖励为:
Figure FDA0003656773350000045
根据即时奖励的最大值选取对应的动作d(k),并循环进行积累经验;
第一判断模块,用于判断经验数量是否达到预期值,若达到则开始进行深度强化学习,若未达到则继续循环;
所述第一判断模块具体用于:
根据存储的经验数量判断是否进行深度强化学习,若存储的经验数量满足预期值,则开始进行深度强化学习;
深度学习模块,用于根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习,以长期奖励函数最大化为目标进行强化学习;
所述深度学习模块具体用于:
由贝尔曼方程得到即时奖励,并展开深度强化学习,使用DPPO算法,通过副网络在不同的环境中收集数据,然后交给主网络来更新参数;
深度强化学习算法的表达式为:
yDPPO=r+γQ(I',argmaxQ(I',d;θ);θ’)
其中yDPPO表示目标值即实际值,r表示反馈的即时奖励,γ表示折扣因子,I'表示系统的下一状态,d表选取的动作,θ表示主神经网络的参数,θ’表示目标神经网络的参数;
第二判断模块,用于判断长期奖励函数的值是否趋于收敛,当趋于收敛时终止学习,此时已完成无人机无线自组网的资源分配最优化;
所述第二判断模块具体用于:
在深度强化学习的过程中,无人机网络的目标函数值会不断上升,当长期奖励函数的值趋于收敛,即长期奖励函数在一定范围内不再发生明显变化时,得到最优资源分配方案,此时终止学习。
CN202110505367.9A 2021-05-10 2021-05-10 一种基于强化学习的无人机网络发射功率分配方法及装置 Active CN113316239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110505367.9A CN113316239B (zh) 2021-05-10 2021-05-10 一种基于强化学习的无人机网络发射功率分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110505367.9A CN113316239B (zh) 2021-05-10 2021-05-10 一种基于强化学习的无人机网络发射功率分配方法及装置

Publications (2)

Publication Number Publication Date
CN113316239A CN113316239A (zh) 2021-08-27
CN113316239B true CN113316239B (zh) 2022-07-08

Family

ID=77372813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110505367.9A Active CN113316239B (zh) 2021-05-10 2021-05-10 一种基于强化学习的无人机网络发射功率分配方法及装置

Country Status (1)

Country Link
CN (1) CN113316239B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114142908B (zh) * 2021-09-17 2022-12-09 北京航空航天大学 一种面向覆盖侦察任务的多无人机通信资源分配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110025959A (zh) * 2019-01-25 2019-07-19 清华大学 用于控制智能体的方法和设备
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111144728A (zh) * 2019-12-18 2020-05-12 东南大学 基于深度强化学习的热电联产系统经济调度方法
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537906B2 (en) * 2018-07-12 2022-12-27 The Regents Of The University Of California Machine learning based target localization for autonomous unmanned vehicles

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110025959A (zh) * 2019-01-25 2019-07-19 清华大学 用于控制智能体的方法和设备
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111144728A (zh) * 2019-12-18 2020-05-12 东南大学 基于深度强化学习的热电联产系统经济调度方法
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Power Control Based on Deep Reinforcement Learning for Spectrum Sharing;Haijun Zhang等;《IEEE Transactions on Wireless Communications 》;20200610;第19卷(第6期);4209-4217页 *
基于深度学习的无线资源管理与安全研究;杨宁;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20210115(第01期);48-82页 *

Also Published As

Publication number Publication date
CN113316239A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN109474980B (zh) 一种基于深度增强学习的无线网络资源分配方法
CN112737837B (zh) 一种高动态网络拓扑下无人机群带宽资源分配方法
CN110392350B (zh) 一种基于Backhaul容量感知的用户为中心无人机群组构建方法
Yang et al. Energy-efficient joint scheduling and resource management for UAV-enabled multicell networks
Cao et al. Deep reinforcement learning for channel and power allocation in UAV-enabled IoT systems
CN114025330B (zh) 一种空地协同的自组织网络数据传输方法
Elsayed et al. Deep reinforcement learning for reducing latency in mission critical services
Wu et al. 3D aerial base station position planning based on deep Q-network for capacity enhancement
CN106454920A (zh) 一种lte与d2d混合网络中基于时延保证的资源分配优化算法
Diamanti et al. Energy efficient multi-user communications aided by reconfigurable intelligent surfaces and UAVs
Chen et al. A stackelberg game-based energy trading scheme for power beacon-assisted wireless-powered communication
CN105813189B (zh) 一种蜂窝网中的d2d分布式功率优化方法
CN113316239B (zh) 一种基于强化学习的无人机网络发射功率分配方法及装置
Du et al. Maddpg-based joint service placement and task offloading in MEC empowered air-ground integrated networks
CN114867030A (zh) 双时间尺度智能无线接入网切片方法
CN104581918B (zh) 基于非合作博弈的卫星跨层联合优化功率分配方法
CN116113025A (zh) 一种无人机协能通信网络中轨迹设计和功率分配方法
CN114980126A (zh) 基于深度确定性策略梯度算法的无人机中继通信系统的实现方法
CN109272167B (zh) 一种基于uudn和q神经网络的绿色能量合作方法
CN109787737B (zh) 一种基于混合能量采集的多用户资源优化方法
CN113453358B (zh) 一种无线携能d2d网络的联合资源分配方法
CN112887314B (zh) 一种时延感知的云雾协作视频分发方法
CN111491315B (zh) 基于扩展无人机网络中的延时与能耗折中模型的系统
CN116073924B (zh) 基于Stackelberg博弈的抗干扰信道分配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant