CN113255218B

CN113255218B - 无线自供电通信网络的无人机自主导航及资源调度方法

Info

Publication number: CN113255218B
Application number: CN202110582074.0A
Authority: CN
Inventors: 胡杰; 李雨婷; 于秦; 杨鲲
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-05-31
Anticipated expiration: 2041-05-27
Also published as: CN113255218A

Abstract

本发明公开了一种无线自供电通信网络的无人机自主导航及资源调度方法，包括以下步骤：S1、确定网络模型、通信方式及信道模型；S2、对下行无线功率传输和上行无线信息传输进行建模，并确定优化目标表达式及其约束条件；S3、分析优化问题，将优化问题建模为马尔科夫过程；S4、确定网络通信协议及无人机飞行决策模型；S5、定义神经网络输入状态、无人机输出动作以及奖励函数；S6、根据深度强化学习算法求解优化问题。本发明通过联合设计无线自供电通信网络中无人机的飞行轨迹、地面设备的选择以及与地面设备的通信模式三个部分，不仅实现了对地面多个设备的能量供应，同时还兼顾了无线自供电通信网络中多个设备的平均数据量最大化。

Description

无线自供电通信网络的无人机自主导航及资源调度方法

技术领域

本发明属于无人机供能通信网络技术领域，具体涉及一种无线自供电通信网络的无人机自主导航及资源调度方法。

背景技术

无线传感器网络(WSN)可以用于收集周围环境的信息。通常无线传感网络中设备的电量是有限的，当它电量耗尽时，通过人为的方式或者传统的地面通信网络为传感器充电效率很低。而基于射频(RF)的能量收集(EH)可以被视为延长能源受限的传感器设备使用寿命的一种预期方案。通过RF辐射进行的无线功率传输(WPT)可以为低功率物联网设备，提供方便、可靠的能源供应。并且能够在更长的范围内运行，即使在移动的多个无线设备下也能同时对其充电。无线供能通信网络(WPCN)因此被提出。它集成了无线功率传输(WPT)和无线信息传输(WIT)，为能源约束物联网设备提供了一种可行的解决方案。

UAV(无人驾驶飞机Unmanned Aerial Vehicle)凭借其高机动性和低成本的特点，由于较少的信号阻塞和阴影效应，它可以支持空中和地面终端之间更好的通信链接。与传统的固定基站相比，通过大大缩短其到用户的距离，它可以提供更高的视线(LoS)信道概率和更好的连接性。UAV作为空中基站，可用于克服传统固定基地站无线供能网络中“双重远-近”问题导致的用户不公平问题，并通过灵活地减小UAV与地面设备之间的信号传播距离来提高数据速率。

然而在目前的技术中，通常都是基于地面设备位置已知的情况下，未考虑过无人机在未知环境下的能量传输和数据收集任务。

发明内容

本发明的目的在于克服现有技术的不足，提供一种通过联合设计无线自供电通信网络中无人机的飞行轨迹、地面设备的选择以及与地面设备的通信模式三个部分，不仅实现了对地面多个设备的能量供应，同时还兼顾了无线自供电通信网络中多个设备的平均数据量最大化的无线自供电通信网络的无人机自主导航及资源调度方法。

本发明的目的是通过以下技术方案来实现的：无线自供电通信网络的无人机自主导航及资源调度方法，包括以下步骤：

S1、确定网络模型、通信方式及信道模型；

S2、对下行无线功率传输和上行无线信息传输进行建模，并确定优化目标表达式及其约束条件；

S3、分析优化问题，将优化问题建模为马尔科夫过程；

S4、确定网络通信协议及无人机飞行决策模型；

S5、定义神经网络输入状态、无人机输出动作以及奖励函数；

S6、根据深度强化学习算法求解优化问题。

进一步地，所述网络模型由一个无人机及多个地面无源设备组成；

通信方式为：无人机通过射频链路向地面无源设备传输能量，地面无源设备通过收割的能量向无人机发送数据；

所述信道模型为Los信道。

进一步地，所述步骤S2具体包括以下分步骤：

S21、对于下行无线功率传输，确定地面无源设备所收割到的能量；

S22、对于上行无线信息传输，当无人机选择某一地面无源设备进行通信时，确定上行传输数据量；

S23、确定优化目标表达式及其约束条件。

进一步地，所述步骤S5具体包括以下分步骤：

S51、确定网络状态集合：定义网络状态为S＝{e_i(t),ζ_i,q(t),h_i(t)}，e_i(t)表示覆盖范围内t时刻第i个无源设备的电池电量等级，ζ_i表示无源设备i累积上传数据量，q(t)表示无人机在t时刻的位置，h_i(t)表示无源设备i与无人机在t时刻的信道增益；

S52、确定输出的无人机动作集合A为：A＝{i,ρ(t),α(t),v_UAV(t)}，其中，ρ(t)表示无人机的通信模式，ρ(t)＝1表示下行传输模式，ρ(t)＝0表示上行传输模；α(t)表示无人机转向角；v_UAV(t)表示无人机的飞行速度；

S53、确定奖励机制：定义奖励函数r＝r_data+r_penalty，

表示网络平均数据量的变化量，一旦约束条件中的任一约束不满足时，将执行相应的惩罚r_penalty，I表示无源设备的总数量。

进一步地，所述步骤S6具体包括以下分步骤：

S61、初始化网络参数：初始化所有的状态和动作对应的价值Q，初始化当前神经网络的所有参数ω，目标神经网络的参数ω′＝ω，清空经验回放的集合D；

S62、初始化s_t为当前状态，得到当前状态的特征向量φ(s_t)；

S63、在神经网络中使用φ(s_t)作为输入，得到神经网络的所有状态对应的价值Q，用ε-贪婪法在当前价值Q中选择对应的动作a_t；

S64、在状态s_t执行当前动作a_t，得到新状态s_t+1，以及新状态对应的特征向量φ(s_t+1)和当前状态的奖励r_t，将{φ(s_t),a_t,r_t,φ(s_t+1)}这个四元组存入经验回放集合D；

S65、令t＝t+1，则s_t＝s_t+1，判断新状态s_t+1是否为终止飞行状态，若否则返回步骤S63；若是，则继续判断迭代轮数t+1是否大于T，若是，则结束迭代，反之返回步骤S63；

S66、从经验回放集合D中采样m个样本{φ(s_j),a_j,r_j,φ(s_j+1)},j＝1,...,m，根据以下公式计算当前目标状态-动作的价值y_j：

Q′(s_j+1,a_j+1；ω′)表示下一个状态的价值，是通过目标神经网络计算得到的；

S67、计算均方差损失函数

通过神经网络的梯度反向传播来更新神经网络的所有参数ω，使得均方差损失函数最小化；y_j表示在状态s_j时通过S66的公式计算得到的价值，

表示在状态s_j时通过当前神经网络直接输出的价值；

S68、如果t％目标神经网络参数更新频率＝1，则更新目标神经网络参数ω′＝ω，否则不更新目标神经网络参数；

S69、更新无人机坐标，计算无源设备的电池电量等级，无源设备累积上传数据量，无源设备与无人机在的信道增益。

本发明的有益效果是：本发明通过联合设计无线自供电通信网络中无人机的飞行轨迹、地面设备的选择以及与地面设备的通信模式三个部分，以达到最大限度地提高系统用户平均上行传输数据量的目的，并通过深度强化学习算法进行优化求解，将系统状态输入到神经网络，以输出无人机最佳动作。本发明充分考虑了无人机对于地面设备位置不具备先验知识的问题，不仅实现了对地面多个设备的能量供应，同时还兼顾了无线自供电通信网络中多个设备的平均数据量最大化。

附图说明

图1为本发明的无人机自主导航及资源调度方法的流程图；

图2为本发明实施例的无线自供电通信网络模型示意图；

图3为本发明深度强化学习算法模型示意图。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

如图1所示，本发明的一种无线自供电通信网络的无人机自主导航及资源调度方法，包括以下步骤：

S1、确定网络模型、通信方式及信道模型；

所述网络模型由一个无人机及多个地面无源设备组成；假设WPCN网络中有一个无人机作为空中基站，地面有I个无源(传感器)设备，记为

表示二维空间。无人机被派往收集该区域内I个无源设备的数据。为了简化网络模型，假设无人机飞行高度不变，固定为H。其中，无人机在t时刻的位置记为q(t)＝(x(t),y(t))，飞行速度为v_UAV(t)，无人机的载波信号发射功率为P_UAV，信道噪声功率为σ²，在t时刻，无人机与各个无源设备间的距离为

其中||·||表示一对向量之间的欧氏距离，w_i表示的是第i个无源设备的位置。无源设备的能量转换效率系数为η，信号发射功率为P_tr。基于无人机的通信网络模型如图2所示。

通信方式为：无人机通过射频链路向地面无源设备传输能量，地面无源设备通过收割的能量向无人机发送数据；无人机既作为能量的发射者也作为信息的接收者。地面无源设备采用“先收割后传输”的协议，即从无人机下行射频链路收割到足够的能量后，再通过上行链路向无人机传输数据。无人机总工作时间为T，在每一时刻t，无人机会确定通信模式，使用ρ(t)∈{0,1}来表示。其中，ρ(t)＝1表示下行传输模式，无人机向地面无源设备广播能量；ρ(t)＝0表示上行传输模，无人机选择某一特定无源设备来接收它的上传的数据信息，此时只允许一个设备上传。

所述信道模型为Los信道；在t时刻，无人机的二维坐标为q(t)＝(x(t),y(t))。假设无人机与地面无源设备之间为Los信道，路径损耗指数为2。无源设备i与无人机在t时刻的信道增益为

β₀表示参考距离为1米时的信道增益。

S2、对下行无线功率传输和上行无线信息传输进行建模，并确定优化目标表达式及其约束条件；具体包括以下分步骤：

S21、对于下行无线功率传输，确定地面无源设备所收割到的能量，得到能量约束条件；假设无人机处于下行传输模式，则无源设备i在t时刻所接受到的相应功率为

其中P_UAV表示无人机的发射功率，η为无源设备的能量转换效率系数。假设在

时间内，无人机一直处于下行通信模式，则无源设备i上的电池能量为

比较无源设备剩余的电池电量与能量阈值，判断无源设备剩余电量是否大于能量阈值，若是则规定无源设备电量等级为1，否则规定无源设备电量等级为0，将所有无源设备的电池电量离散化为高低电平e_i(t)∈{0,1}。

S22、对于上行无线信息传输，当无人机选择某一地面无源设备进行通信时，确定上行传输数据量，得到服务质量约束条件；假设无人机处于上行传输模式，此时无源设备i被选中向无人机传输数据，则t时刻无源设备i的吞吐量为

其中B为系统带宽，P_tr为无源设备的发射功率，

为参考信噪比(SNR)。假设在

时间内，无源设备i一直被选中向无人机发送数据，则无源设备i累积上传数据量为

S23、确定优化目标表达式及其约束条件，系统平均数据量最大化的目标问题列为：

q(0)＝q(T)

其中，P1表示优化问题P1，即通过调整无人机位置，速度和通信模式，来最大化所有设备的平均吞吐量；

表示无人机的平均飞行速度，τ表示无人机当前飞行时间；q(0)表示无人机在t＝0时刻的位置，q(T)表示无人机在t＝T时刻的位置，T是事先规定的无人机飞行时间，q(0)＝q(T)表示在T时刻无人机必须回到起始位置。ζ_QoS表示QoS标准，即每个传感器最低上传数据量的约束，也代表无人机需要遍历所有传感器。

S3、分析优化问题，将优化问题建模为马尔科夫过程；马尔科夫过程由4元组<S,A,R,P>定义，其中S是状态集；A是所有可能动作的集合，R是采取动作时的报酬，P表示从一种状态到另一种状态的转移概率。具体来说，无人机作为智能体观察环境并获得状态s_t∈S。无人机在t时刻选择在动作a_t∈A，然后根据观察和下一个状态s_t+1获得回报r_t∈R。

S4、确定网络通信协议及无人机飞行决策模型；为了解决无人机对于无源设备位置无先验知识的问题，我们为无人机定义了一个覆盖区域，只有覆盖区域中的无源设备才能与无人机通信。当无人机处于WPT模式时，无人机向覆盖区域中的所有无源设备广播能量。在时隙结束时，接收能量的无源设备将向无人机发送短信标状态消息，包括电池电量，信道信息和累积的数据量。在下一个时隙，无人机将根据接收到的一些无源设备的状态信息，确定下一个动作，即转向角，无源设备选择和通信模式。在飞行过程中，无人机的覆盖区域会发生变化，无人机将自动导航到最佳位置，以接收更多的无源设备状态信息，以最大程度地提高平均数据量，并在满足无源设备能量约束的同时合理地规划航迹。

S5、定义神经网络输入状态、无人机输出动作以及奖励函数；通过以下分步骤实现：

S52、确定输出的无人机动作集合A为：A＝{i,ρ(t),α(t),v_UAV(t)}，其中，ρ(t)表示无人机的通信模式，ρ(t)＝1表示下行传输模式，ρ(t)＝0表示上行传输模；α(t)表示无人机转向角，α(t)∈{0°,45°,90°,135°,180°,225°,270°,325°}；v_UAV(t)表示无人机的飞行速度，v_UAV(t)∈{0m/s,5m/s,10m/s}；

S53、确定奖励机制：定义奖励函数r＝r_data+r_penalty，

S6、根据深度强化学习算法求解优化问题；

深度强化学习算法如图3所示，深度强化学习算法可以获取最佳策略π，以最大化长期预期累积奖励。神经网络输出的每个状态-动作对的预期累积奖励可以定义为

其中γ表示折扣因子。通过选择最佳动作

可以得到最优动作-值函数

其中

表示学习率。

深度强化学习算法中有两个神经网络，一个是当前神经网络，用来计算当前状态下的价值Q，一个是目标神经网络，用来计算下一个状态下的价值Q。

输入：迭代轮数F，状态特征维度n，动作集A，衰减因子γ，探索率ε，学习率

Q网络结构，批量梯度下降的样本数m，目标Q网络参数更新频率。

具体包括以下分步骤：

S62、初始化s_t为当前状态，得到当前状态的特征向量φ(s_t)；

Q′(s_j+1,a_j+1；ω′)表示下一个状态的价值，是通过目标神经网络计算得到的，而不是通过当前神经网络得到的，这样可以避免用当前神经网络去训练神经网络，避免耦合太强。

y_t代表的是由上述的公式所计算出来的Q值，它是计算得到的，而不是直接通过神经网络输出的；前面所提到的Q值才相当于真实的Q值，是直接将状态输入到Q网络中所得到的。本发明的目标就是训练神经网络，用神经网络输出的价值Q去逼近通过上式计算得到的价值y_t，让他们之间的均方差损失函数最小化，使神经网络最后能够完美的模拟出目标价值Q。

S67、计算均方差损失函数

表示在状态s_j时通过当前神经网络直接输出的价值；

S68、如果t％目标神经网络参数更新频率＝1，则更新目标神经网络参数ω′＝ω(即目标神经网络参数是间隔更新频率时间才更新一次)，否则不更新目标神经网络参数；

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.无线自供电通信网络的无人机自主导航及资源调度方法，其特征在于，包括以下步骤：

S1、确定网络模型、通信方式及信道模型；

S3、分析优化问题，将优化问题建模为马尔科夫过程；

S4、确定网络通信协议及无人机飞行决策模型；

S5、定义神经网络输入状态、无人机输出动作以及奖励函数；具体实现方法为：

S53、确定奖励机制：定义奖励函数r＝r_data+r_penalty，

表示网络平均数据量的变化量，一旦约束条件中的任一约束不满足时，将执行相应的惩罚r_penalty，I表示无源设备的总数量；

S6、根据深度强化学习算法求解优化问题；具体包括以下分步骤：

S62、初始化s_t为当前状态，得到当前状态的特征向量φ(s_t)；

Q′(s_j+1,a_j+1；ω′)表示下一个状态的价值，是通过目标神经网络计算得到的；γ表示折扣因子；

S67、计算均方差损失函数

表示在状态s_j时通过当前神经网络直接输出的价值；

2.根据权利要求1所述的无线自供电通信网络的无人机自主导航及资源调度方法，其特征在于，所述网络模型由一个无人机及多个地面无源设备组成；

所述信道模型为Los信道。

3.根据权利要求1所述的无线自供电通信网络的无人机自主导航及资源调度方法，其特征在于，所述步骤S2具体包括以下分步骤：

(P1):

s.t.ρ(t)∈{0,1},

q(0)＝q(T)

P_i≥P_tr,

ζ_i≥ζ_QoS,

表示无人机的平均飞行速度，τ表示无人机当前飞行时间；q(0)表示无人机在t＝0时刻的位置，q(T)表示无人机在t＝T时刻的位置，T是事先规定的无人机飞行时间，q(0)＝q(T)表示在T时刻无人机必须回到起始位置；ζ_QoS表示QoS标准，即每个传感器最低上传数据量的约束，也代表无人机需要遍历所有传感器；P_i表示无源设备i上的电池能量，P_tr为无源设备的发射功率，

为无源设备i一直被选中向无人机发送数据的时间。