CN113255218B - 无线自供电通信网络的无人机自主导航及资源调度方法 - Google Patents

无线自供电通信网络的无人机自主导航及资源调度方法 Download PDF

Info

Publication number
CN113255218B
CN113255218B CN202110582074.0A CN202110582074A CN113255218B CN 113255218 B CN113255218 B CN 113255218B CN 202110582074 A CN202110582074 A CN 202110582074A CN 113255218 B CN113255218 B CN 113255218B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
network
neural network
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110582074.0A
Other languages
English (en)
Other versions
CN113255218A (zh
Inventor
胡杰
李雨婷
于秦
杨鲲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110582074.0A priority Critical patent/CN113255218B/zh
Publication of CN113255218A publication Critical patent/CN113255218A/zh
Application granted granted Critical
Publication of CN113255218B publication Critical patent/CN113255218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0226Traffic management, e.g. flow control or congestion control based on location or mobility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/06Optimizing the usage of the radio link, e.g. header compression, information sizing, discarding information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/02CAD in a network environment, e.g. collaborative CAD or distributed simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种无线自供电通信网络的无人机自主导航及资源调度方法,包括以下步骤:S1、确定网络模型、通信方式及信道模型;S2、对下行无线功率传输和上行无线信息传输进行建模,并确定优化目标表达式及其约束条件;S3、分析优化问题,将优化问题建模为马尔科夫过程;S4、确定网络通信协议及无人机飞行决策模型;S5、定义神经网络输入状态、无人机输出动作以及奖励函数;S6、根据深度强化学习算法求解优化问题。本发明通过联合设计无线自供电通信网络中无人机的飞行轨迹、地面设备的选择以及与地面设备的通信模式三个部分,不仅实现了对地面多个设备的能量供应,同时还兼顾了无线自供电通信网络中多个设备的平均数据量最大化。

Description

无线自供电通信网络的无人机自主导航及资源调度方法
技术领域
本发明属于无人机供能通信网络技术领域,具体涉及一种无线自供电通信网络的无人机自主导航及资源调度方法。
背景技术
无线传感器网络(WSN)可以用于收集周围环境的信息。通常无线传感网络中设备的电量是有限的,当它电量耗尽时,通过人为的方式或者传统的地面通信网络为传感器充电效率很低。而基于射频(RF)的能量收集(EH)可以被视为延长能源受限的传感器设备使用寿命的一种预期方案。通过RF辐射进行的无线功率传输(WPT)可以为低功率物联网设备,提供方便、可靠的能源供应。并且能够在更长的范围内运行,即使在移动的多个无线设备下也能同时对其充电。无线供能通信网络(WPCN)因此被提出。它集成了无线功率传输(WPT)和无线信息传输(WIT),为能源约束物联网设备提供了一种可行的解决方案。
UAV(无人驾驶飞机Unmanned Aerial Vehicle)凭借其高机动性和低成本的特点,由于较少的信号阻塞和阴影效应,它可以支持空中和地面终端之间更好的通信链接。与传统的固定基站相比,通过大大缩短其到用户的距离,它可以提供更高的视线(LoS)信道概率和更好的连接性。UAV作为空中基站,可用于克服传统固定基地站无线供能网络中“双重远-近”问题导致的用户不公平问题,并通过灵活地减小UAV与地面设备之间的信号传播距离来提高数据速率。
然而在目前的技术中,通常都是基于地面设备位置已知的情况下,未考虑过无人机在未知环境下的能量传输和数据收集任务。
发明内容
本发明的目的在于克服现有技术的不足,提供一种通过联合设计无线自供电通信网络中无人机的飞行轨迹、地面设备的选择以及与地面设备的通信模式三个部分,不仅实现了对地面多个设备的能量供应,同时还兼顾了无线自供电通信网络中多个设备的平均数据量最大化的无线自供电通信网络的无人机自主导航及资源调度方法。
本发明的目的是通过以下技术方案来实现的:无线自供电通信网络的无人机自主导航及资源调度方法,包括以下步骤:
S1、确定网络模型、通信方式及信道模型;
S2、对下行无线功率传输和上行无线信息传输进行建模,并确定优化目标表达式及其约束条件;
S3、分析优化问题,将优化问题建模为马尔科夫过程;
S4、确定网络通信协议及无人机飞行决策模型;
S5、定义神经网络输入状态、无人机输出动作以及奖励函数;
S6、根据深度强化学习算法求解优化问题。
进一步地,所述网络模型由一个无人机及多个地面无源设备组成;
通信方式为:无人机通过射频链路向地面无源设备传输能量,地面无源设备通过收割的能量向无人机发送数据;
所述信道模型为Los信道。
进一步地,所述步骤S2具体包括以下分步骤:
S21、对于下行无线功率传输,确定地面无源设备所收割到的能量;
S22、对于上行无线信息传输,当无人机选择某一地面无源设备进行通信时,确定上行传输数据量;
S23、确定优化目标表达式及其约束条件。
进一步地,所述步骤S5具体包括以下分步骤:
S51、确定网络状态集合:定义网络状态为S={ei(t),ζi,q(t),hi(t)},ei(t)表示覆盖范围内t时刻第i个无源设备的电池电量等级,ζi表示无源设备i累积上传数据量,q(t)表示无人机在t时刻的位置,hi(t)表示无源设备i与无人机在t时刻的信道增益;
S52、确定输出的无人机动作集合A为:A={i,ρ(t),α(t),vUAV(t)},其中,ρ(t)表示无人机的通信模式,ρ(t)=1表示下行传输模式,ρ(t)=0表示上行传输模;α(t)表示无人机转向角;vUAV(t)表示无人机的飞行速度;
S53、确定奖励机制:定义奖励函数r=rdata+rpenalty
Figure BDA0003086322640000021
表示网络平均数据量的变化量,一旦约束条件中的任一约束不满足时,将执行相应的惩罚rpenalty,I表示无源设备的总数量。
进一步地,所述步骤S6具体包括以下分步骤:
S61、初始化网络参数:初始化所有的状态和动作对应的价值Q,初始化当前神经网络的所有参数ω,目标神经网络的参数ω′=ω,清空经验回放的集合D;
S62、初始化st为当前状态,得到当前状态的特征向量φ(st);
S63、在神经网络中使用φ(st)作为输入,得到神经网络的所有状态对应的价值Q,用ε-贪婪法在当前价值Q中选择对应的动作at
S64、在状态st执行当前动作at,得到新状态st+1,以及新状态对应的特征向量φ(st+1)和当前状态的奖励rt,将{φ(st),at,rt,φ(st+1)}这个四元组存入经验回放集合D;
S65、令t=t+1,则st=st+1,判断新状态st+1是否为终止飞行状态,若否则返回步骤S63;若是,则继续判断迭代轮数t+1是否大于T,若是,则结束迭代,反之返回步骤S63;
S66、从经验回放集合D中采样m个样本{φ(sj),aj,rj,φ(sj+1)},j=1,...,m,根据以下公式计算当前目标状态-动作的价值yj
Figure BDA0003086322640000031
Q′(sj+1,aj+1;ω′)表示下一个状态的价值,是通过目标神经网络计算得到的;
S67、计算均方差损失函数
Figure BDA0003086322640000032
通过神经网络的梯度反向传播来更新神经网络的所有参数ω,使得均方差损失函数最小化;yj表示在状态sj时通过S66的公式计算得到的价值,
Figure BDA0003086322640000033
表示在状态sj时通过当前神经网络直接输出的价值;
S68、如果t%目标神经网络参数更新频率=1,则更新目标神经网络参数ω′=ω,否则不更新目标神经网络参数;
S69、更新无人机坐标,计算无源设备的电池电量等级,无源设备累积上传数据量,无源设备与无人机在的信道增益。
本发明的有益效果是:本发明通过联合设计无线自供电通信网络中无人机的飞行轨迹、地面设备的选择以及与地面设备的通信模式三个部分,以达到最大限度地提高系统用户平均上行传输数据量的目的,并通过深度强化学习算法进行优化求解,将系统状态输入到神经网络,以输出无人机最佳动作。本发明充分考虑了无人机对于地面设备位置不具备先验知识的问题,不仅实现了对地面多个设备的能量供应,同时还兼顾了无线自供电通信网络中多个设备的平均数据量最大化。
附图说明
图1为本发明的无人机自主导航及资源调度方法的流程图;
图2为本发明实施例的无线自供电通信网络模型示意图;
图3为本发明深度强化学习算法模型示意图。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种无线自供电通信网络的无人机自主导航及资源调度方法,包括以下步骤:
S1、确定网络模型、通信方式及信道模型;
所述网络模型由一个无人机及多个地面无源设备组成;假设WPCN网络中有一个无人机作为空中基站,地面有I个无源(传感器)设备,记为
Figure BDA0003086322640000041
Figure BDA0003086322640000042
表示二维空间。无人机被派往收集该区域内I个无源设备的数据。为了简化网络模型,假设无人机飞行高度不变,固定为H。其中,无人机在t时刻的位置记为q(t)=(x(t),y(t)),飞行速度为vUAV(t),无人机的载波信号发射功率为PUAV,信道噪声功率为σ2,在t时刻,无人机与各个无源设备间的距离为
Figure BDA0003086322640000043
其中||·||表示一对向量之间的欧氏距离,wi表示的是第i个无源设备的位置。无源设备的能量转换效率系数为η,信号发射功率为Ptr。基于无人机的通信网络模型如图2所示。
通信方式为:无人机通过射频链路向地面无源设备传输能量,地面无源设备通过收割的能量向无人机发送数据;无人机既作为能量的发射者也作为信息的接收者。地面无源设备采用“先收割后传输”的协议,即从无人机下行射频链路收割到足够的能量后,再通过上行链路向无人机传输数据。无人机总工作时间为T,在每一时刻t,无人机会确定通信模式,使用ρ(t)∈{0,1}来表示。其中,ρ(t)=1表示下行传输模式,无人机向地面无源设备广播能量;ρ(t)=0表示上行传输模,无人机选择某一特定无源设备来接收它的上传的数据信息,此时只允许一个设备上传。
所述信道模型为Los信道;在t时刻,无人机的二维坐标为q(t)=(x(t),y(t))。假设无人机与地面无源设备之间为Los信道,路径损耗指数为2。无源设备i与无人机在t时刻的信道增益为
Figure BDA0003086322640000044
β0表示参考距离为1米时的信道增益。
S2、对下行无线功率传输和上行无线信息传输进行建模,并确定优化目标表达式及其约束条件;具体包括以下分步骤:
S21、对于下行无线功率传输,确定地面无源设备所收割到的能量,得到能量约束条件;假设无人机处于下行传输模式,则无源设备i在t时刻所接受到的相应功率为
Figure BDA0003086322640000051
其中PUAV表示无人机的发射功率,η为无源设备的能量转换效率系数。假设在
Figure BDA0003086322640000052
时间内,无人机一直处于下行通信模式,则无源设备i上的电池能量为
Figure BDA0003086322640000053
比较无源设备剩余的电池电量与能量阈值,判断无源设备剩余电量是否大于能量阈值,若是则规定无源设备电量等级为1,否则规定无源设备电量等级为0,将所有无源设备的电池电量离散化为高低电平ei(t)∈{0,1}。
S22、对于上行无线信息传输,当无人机选择某一地面无源设备进行通信时,确定上行传输数据量,得到服务质量约束条件;假设无人机处于上行传输模式,此时无源设备i被选中向无人机传输数据,则t时刻无源设备i的吞吐量为
Figure BDA0003086322640000054
其中B为系统带宽,Ptr为无源设备的发射功率,
Figure BDA0003086322640000055
为参考信噪比(SNR)。假设在
Figure BDA0003086322640000056
时间内,无源设备i一直被选中向无人机发送数据,则无源设备i累积上传数据量为
Figure BDA0003086322640000057
S23、确定优化目标表达式及其约束条件,系统平均数据量最大化的目标问题列为:
Figure BDA0003086322640000058
Figure BDA0003086322640000059
q(0)=q(T)
Figure BDA00030863226400000510
Figure BDA00030863226400000511
Figure BDA00030863226400000512
Figure BDA00030863226400000513
其中,P1表示优化问题P1,即通过调整无人机位置,速度和通信模式,来最大化所有设备的平均吞吐量;
Figure BDA00030863226400000514
表示无人机的平均飞行速度,τ表示无人机当前飞行时间;q(0)表示无人机在t=0时刻的位置,q(T)表示无人机在t=T时刻的位置,T是事先规定的无人机飞行时间,q(0)=q(T)表示在T时刻无人机必须回到起始位置。ζQoS表示QoS标准,即每个传感器最低上传数据量的约束,也代表无人机需要遍历所有传感器。
S3、分析优化问题,将优化问题建模为马尔科夫过程;马尔科夫过程由4元组<S,A,R,P>定义,其中S是状态集;A是所有可能动作的集合,R是采取动作时的报酬,P表示从一种状态到另一种状态的转移概率。具体来说,无人机作为智能体观察环境并获得状态st∈S。无人机在t时刻选择在动作at∈A,然后根据观察和下一个状态st+1获得回报rt∈R。
S4、确定网络通信协议及无人机飞行决策模型;为了解决无人机对于无源设备位置无先验知识的问题,我们为无人机定义了一个覆盖区域,只有覆盖区域中的无源设备才能与无人机通信。当无人机处于WPT模式时,无人机向覆盖区域中的所有无源设备广播能量。在时隙结束时,接收能量的无源设备将向无人机发送短信标状态消息,包括电池电量,信道信息和累积的数据量。在下一个时隙,无人机将根据接收到的一些无源设备的状态信息,确定下一个动作,即转向角,无源设备选择和通信模式。在飞行过程中,无人机的覆盖区域会发生变化,无人机将自动导航到最佳位置,以接收更多的无源设备状态信息,以最大程度地提高平均数据量,并在满足无源设备能量约束的同时合理地规划航迹。
S5、定义神经网络输入状态、无人机输出动作以及奖励函数;通过以下分步骤实现:
S51、确定网络状态集合:定义网络状态为S={ei(t),ζi,q(t),hi(t)},ei(t)表示覆盖范围内t时刻第i个无源设备的电池电量等级,ζi表示无源设备i累积上传数据量,q(t)表示无人机在t时刻的位置,hi(t)表示无源设备i与无人机在t时刻的信道增益;
S52、确定输出的无人机动作集合A为:A={i,ρ(t),α(t),vUAV(t)},其中,ρ(t)表示无人机的通信模式,ρ(t)=1表示下行传输模式,ρ(t)=0表示上行传输模;α(t)表示无人机转向角,α(t)∈{0°,45°,90°,135°,180°,225°,270°,325°};vUAV(t)表示无人机的飞行速度,vUAV(t)∈{0m/s,5m/s,10m/s};
S53、确定奖励机制:定义奖励函数r=rdata+rpenalty
Figure BDA0003086322640000061
表示网络平均数据量的变化量,一旦约束条件中的任一约束不满足时,将执行相应的惩罚rpenalty,I表示无源设备的总数量。
S6、根据深度强化学习算法求解优化问题;
深度强化学习算法如图3所示,深度强化学习算法可以获取最佳策略π,以最大化长期预期累积奖励。神经网络输出的每个状态-动作对的预期累积奖励可以定义为
Figure BDA0003086322640000071
其中γ表示折扣因子。通过选择最佳动作
Figure BDA0003086322640000072
可以得到最优动作-值函数
Figure BDA0003086322640000073
其中
Figure BDA0003086322640000074
表示学习率。
深度强化学习算法中有两个神经网络,一个是当前神经网络,用来计算当前状态下的价值Q,一个是目标神经网络,用来计算下一个状态下的价值Q。
输入:迭代轮数F,状态特征维度n,动作集A,衰减因子γ,探索率ε,学习率
Figure BDA0003086322640000075
Q网络结构,批量梯度下降的样本数m,目标Q网络参数更新频率。
具体包括以下分步骤:
S61、初始化网络参数:初始化所有的状态和动作对应的价值Q,初始化当前神经网络的所有参数ω,目标神经网络的参数ω′=ω,清空经验回放的集合D;
S62、初始化st为当前状态,得到当前状态的特征向量φ(st);
S63、在神经网络中使用φ(st)作为输入,得到神经网络的所有状态对应的价值Q,用ε-贪婪法在当前价值Q中选择对应的动作at
S64、在状态st执行当前动作at,得到新状态st+1,以及新状态对应的特征向量φ(st+1)和当前状态的奖励rt,将{φ(st),at,rt,φ(st+1)}这个四元组存入经验回放集合D;
S65、令t=t+1,则st=st+1,判断新状态st+1是否为终止飞行状态,若否则返回步骤S63;若是,则继续判断迭代轮数t+1是否大于T,若是,则结束迭代,反之返回步骤S63;
S66、从经验回放集合D中采样m个样本{φ(sj),aj,rj,φ(sj+1)},j=1,...,m,根据以下公式计算当前目标状态-动作的价值yj
Figure BDA0003086322640000076
Q′(sj+1,aj+1;ω′)表示下一个状态的价值,是通过目标神经网络计算得到的,而不是通过当前神经网络得到的,这样可以避免用当前神经网络去训练神经网络,避免耦合太强。
yt代表的是由上述的公式所计算出来的Q值,它是计算得到的,而不是直接通过神经网络输出的;前面所提到的Q值才相当于真实的Q值,是直接将状态输入到Q网络中所得到的。本发明的目标就是训练神经网络,用神经网络输出的价值Q去逼近通过上式计算得到的价值yt,让他们之间的均方差损失函数最小化,使神经网络最后能够完美的模拟出目标价值Q。
S67、计算均方差损失函数
Figure BDA0003086322640000081
通过神经网络的梯度反向传播来更新神经网络的所有参数ω,使得均方差损失函数最小化;yj表示在状态sj时通过S66的公式计算得到的价值,
Figure BDA0003086322640000082
表示在状态sj时通过当前神经网络直接输出的价值;
S68、如果t%目标神经网络参数更新频率=1,则更新目标神经网络参数ω′=ω(即目标神经网络参数是间隔更新频率时间才更新一次),否则不更新目标神经网络参数;
S69、更新无人机坐标,计算无源设备的电池电量等级,无源设备累积上传数据量,无源设备与无人机在的信道增益。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (3)

1.无线自供电通信网络的无人机自主导航及资源调度方法,其特征在于,包括以下步骤:
S1、确定网络模型、通信方式及信道模型;
S2、对下行无线功率传输和上行无线信息传输进行建模,并确定优化目标表达式及其约束条件;
S3、分析优化问题,将优化问题建模为马尔科夫过程;
S4、确定网络通信协议及无人机飞行决策模型;
S5、定义神经网络输入状态、无人机输出动作以及奖励函数;具体实现方法为:
S51、确定网络状态集合:定义网络状态为S={ei(t),ζi,q(t),hi(t)},ei(t)表示覆盖范围内t时刻第i个无源设备的电池电量等级,ζi表示无源设备i累积上传数据量,q(t)表示无人机在t时刻的位置,hi(t)表示无源设备i与无人机在t时刻的信道增益;
S52、确定输出的无人机动作集合A为:A={i,ρ(t),α(t),vUAV(t)},其中,ρ(t)表示无人机的通信模式,ρ(t)=1表示下行传输模式,ρ(t)=0表示上行传输模;α(t)表示无人机转向角;vUAV(t)表示无人机的飞行速度;
S53、确定奖励机制:定义奖励函数r=rdata+rpenalty
Figure FDA0003602461710000011
表示网络平均数据量的变化量,一旦约束条件中的任一约束不满足时,将执行相应的惩罚rpenalty,I表示无源设备的总数量;
S6、根据深度强化学习算法求解优化问题;具体包括以下分步骤:
S61、初始化网络参数:初始化所有的状态和动作对应的价值Q,初始化当前神经网络的所有参数ω,目标神经网络的参数ω′=ω,清空经验回放的集合D;
S62、初始化st为当前状态,得到当前状态的特征向量φ(st);
S63、在神经网络中使用φ(st)作为输入,得到神经网络的所有状态对应的价值Q,用ε-贪婪法在当前价值Q中选择对应的动作at
S64、在状态st执行当前动作at,得到新状态st+1,以及新状态对应的特征向量φ(st+1)和当前状态的奖励rt,将{φ(st),at,rt,φ(st+1)}这个四元组存入经验回放集合D;
S65、令t=t+1,则st=st+1,判断新状态st+1是否为终止飞行状态,若否则返回步骤S63;若是,则继续判断迭代轮数t+1是否大于T,若是,则结束迭代,反之返回步骤S63;
S66、从经验回放集合D中采样m个样本{φ(sj),aj,rj,φ(sj+1)},j=1,...,m,根据以下公式计算当前目标状态-动作的价值yj
Figure FDA0003602461710000021
Q′(sj+1,aj+1;ω′)表示下一个状态的价值,是通过目标神经网络计算得到的;γ表示折扣因子;
S67、计算均方差损失函数
Figure FDA0003602461710000022
通过神经网络的梯度反向传播来更新神经网络的所有参数ω,使得均方差损失函数最小化;yj表示在状态sj时通过S66的公式计算得到的价值,
Figure FDA0003602461710000023
表示在状态sj时通过当前神经网络直接输出的价值;
S68、如果t%目标神经网络参数更新频率=1,则更新目标神经网络参数ω′=ω,否则不更新目标神经网络参数;
S69、更新无人机坐标,计算无源设备的电池电量等级,无源设备累积上传数据量,无源设备与无人机在的信道增益。
2.根据权利要求1所述的无线自供电通信网络的无人机自主导航及资源调度方法,其特征在于,所述网络模型由一个无人机及多个地面无源设备组成;
通信方式为:无人机通过射频链路向地面无源设备传输能量,地面无源设备通过收割的能量向无人机发送数据;
所述信道模型为Los信道。
3.根据权利要求1所述的无线自供电通信网络的无人机自主导航及资源调度方法,其特征在于,所述步骤S2具体包括以下分步骤:
S21、对于下行无线功率传输,确定地面无源设备所收割到的能量;
S22、对于上行无线信息传输,当无人机选择某一地面无源设备进行通信时,确定上行传输数据量;
S23、确定优化目标表达式及其约束条件,系统平均数据量最大化的目标问题列为:
(P1):
Figure FDA0003602461710000031
s.t.ρ(t)∈{0,1},
Figure FDA0003602461710000032
q(0)=q(T)
Pi≥Ptr,
Figure FDA0003602461710000033
ζi≥ζQoS,
Figure FDA0003602461710000034
Figure FDA0003602461710000035
Figure FDA0003602461710000036
其中,P1表示优化问题P1,即通过调整无人机位置,速度和通信模式,来最大化所有设备的平均吞吐量;
Figure FDA0003602461710000037
表示无人机的平均飞行速度,τ表示无人机当前飞行时间;q(0)表示无人机在t=0时刻的位置,q(T)表示无人机在t=T时刻的位置,T是事先规定的无人机飞行时间,q(0)=q(T)表示在T时刻无人机必须回到起始位置;ζQoS表示QoS标准,即每个传感器最低上传数据量的约束,也代表无人机需要遍历所有传感器;Pi表示无源设备i上的电池能量,Ptr为无源设备的发射功率,
Figure FDA0003602461710000038
为无源设备i一直被选中向无人机发送数据的时间。
CN202110582074.0A 2021-05-27 2021-05-27 无线自供电通信网络的无人机自主导航及资源调度方法 Active CN113255218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110582074.0A CN113255218B (zh) 2021-05-27 2021-05-27 无线自供电通信网络的无人机自主导航及资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110582074.0A CN113255218B (zh) 2021-05-27 2021-05-27 无线自供电通信网络的无人机自主导航及资源调度方法

Publications (2)

Publication Number Publication Date
CN113255218A CN113255218A (zh) 2021-08-13
CN113255218B true CN113255218B (zh) 2022-05-31

Family

ID=77184662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110582074.0A Active CN113255218B (zh) 2021-05-27 2021-05-27 无线自供电通信网络的无人机自主导航及资源调度方法

Country Status (1)

Country Link
CN (1) CN113255218B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114061589B (zh) * 2021-11-16 2023-05-26 中山大学 端边协同的多无人机自主导航方法
CN115470894B (zh) * 2022-10-31 2023-01-31 中国人民解放军国防科技大学 基于强化学习的无人机知识模型分时调用方法及装置
CN116502547A (zh) * 2023-06-29 2023-07-28 深圳大学 一种基于图强化学习的多无人机无线能量传输方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428115A (zh) * 2019-08-13 2019-11-08 南京理工大学 基于深度强化学习的动态环境下的最大化系统效益方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
WO2020079702A1 (en) * 2018-10-18 2020-04-23 Telefonaktiebolaget Lm Ericsson (Publ) Formation flight of unmanned aerial vehicles
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN112468205A (zh) * 2020-01-09 2021-03-09 电子科技大学中山学院 一种适用于无人机的反向散射安全通信方法
CN112711271A (zh) * 2020-12-16 2021-04-27 中山大学 基于深度强化学习的自主导航无人机功率优化方法
CN112817327A (zh) * 2020-12-30 2021-05-18 北京航空航天大学 一种通信约束下的多无人机协同搜索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020079702A1 (en) * 2018-10-18 2020-04-23 Telefonaktiebolaget Lm Ericsson (Publ) Formation flight of unmanned aerial vehicles
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110428115A (zh) * 2019-08-13 2019-11-08 南京理工大学 基于深度强化学习的动态环境下的最大化系统效益方法
CN112468205A (zh) * 2020-01-09 2021-03-09 电子科技大学中山学院 一种适用于无人机的反向散射安全通信方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN112711271A (zh) * 2020-12-16 2021-04-27 中山大学 基于深度强化学习的自主导航无人机功率优化方法
CN112817327A (zh) * 2020-12-30 2021-05-18 北京航空航天大学 一种通信约束下的多无人机协同搜索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Jie Hu 等.Joint Trajectory and Scheduling Design for UAV Aided Secure Backscatter Communications.《IEEE Wireless Communications Letters》.2020,第9卷(第12期),2168-2172. *
Kai Li 等.Deep Reinforcement Learning for Real-Time Trajectory Planning in UAV Networks.《2020 International Wireless Communications and Mobile Computing (IWCMC)》.2020,958-963. *
伍芸荻.无人机通信系统中信息和能量传输优化研究.《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》.2019,(第8期),C031-66. *
杨鲲 等.无线数能一体化通信网络及其数能联合接入控制协议设计.《吉林师范大学学报(自然科学版)》.2019,第40卷(第1期),106-114. *

Also Published As

Publication number Publication date
CN113255218A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113255218B (zh) 无线自供电通信网络的无人机自主导航及资源调度方法
CN108880662B (zh) 一种基于无人机的无线信息和能量传输的优化方法
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN110730028B (zh) 一种无人机辅助反向散射通信装置以及资源分配控制方法
CN105025547A (zh) 能量采集节点网络的中继选择和功率分配方法
CN114389679B (zh) 基于信息年龄最小化的多天线无人机感知和传输优化方法
CN115494732B (zh) 一种基于近端策略优化的无人机轨迹设计和功率分配方法
CN112887993B (zh) 基于时隙优先级的全双工无人机基站安全能效优化方法
CN115696211A (zh) 一种基于信息年龄的无人机轨迹自适应优化方法
Li et al. Deep reinforcement learning for real-time trajectory planning in UAV networks
Zhang et al. Trajectory planning of UAV in wireless powered IoT system based on deep reinforcement learning
CN113776531A (zh) 无线自供电通信网络的多无人机自主导航及任务分配算法
Cui et al. Joint trajectory and power optimization for energy efficient UAV communication using deep reinforcement learning
CN108337024B (zh) 一种基于能量采集的大规模mimo系统能效优化方法
Shi et al. Age of information optimization with heterogeneous uavs based on deep reinforcement learning
Zhang et al. Multi-objective optimization for UAV-enabled wireless powered IoT networks: an LSTM-based deep reinforcement learning approach
CN116847460A (zh) 一种无人机辅助的通感一体化系统资源调度方法
CN116882270A (zh) 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统
Wei et al. An energy efficient cooperation design for multi-UAVs enabled wireless powered communication networks
Ouamri et al. Joint Energy Efficiency and Throughput Optimization for UAV-WPT Integrated Ground Network using DDPG
Zhou et al. Model-based machine learning for energy-efficient UAV placement
Chen et al. Deep Reinforcement Learning Based Data Offloading in Multi-Layer Ka/Q Band LEO Satellite-Terrestrial Networks
Zhang et al. AoI-Minimal Power and Trajectory Optimization for UAV-Assisted Wireless Networks
Chen et al. Deep reinforcement learning assisted uav trajectory and resource optimization for noma networks
Khodaparast et al. Deep reinforcement learning based data collection in IoT networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant