CN113194488B

CN113194488B - 一种无人机轨迹和智能反射面相移联合优化方法及系统

Info

Publication number: CN113194488B
Application number: CN202110352631.XA
Authority: CN
Inventors: 张超; 亓乾月
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2023-03-31
Anticipated expiration: 2041-03-31
Also published as: CN113194488A

Abstract

本发明公开了一种无人机轨迹和智能反射面相移联合优化方法及系统，建立基于无人机和智能反射面辅助的无线通信系统模型并计算系统的能量效率；利用优先级经验回放TD3方法确定无人机的位置，由无人机和智能反射面辅助与基站进行通信的用户，信息传输阶段第一个时隙中智能反射面被激活的反射元件及被激活反射元件的相移，然后利用基于LSTM的优先级经验回放TD3方法，得到整个信息传输阶段所有时隙的智能反射面被激活反射元件及被激活反射元件的相移，根据通信环境自适应地调整无人机的轨迹和智能反射面的相移，完成无人机轨迹和智能反射面相移的联合优化。解决无人机轨迹以及智能反射面相移的离线优化方法在通信环境不断变化的情况下难以求解的问题。

Description

一种无人机轨迹和智能反射面相移联合优化方法及系统

技术领域

本发明属于无线通信技术领域，具体涉及一种无人机轨迹和智能反射面相移联合优化方法及系统。

背景技术

无人机可以作为移动通信站灵活地部署在高低空中，摆脱了距离、地形等不利因素的限制，方便地与基站、地面用户以及通信网络中的其他设备建立起视距传播链路，进一步扩大网络的覆盖范围，提升通信质量。虽然无人机的使用会带来很多好处，但是，由于无人机在飞行过程中只能依靠自身携带的电池提供能量，功耗问题将会成为限制无人机性能的瓶颈。

另一方面，随着5G时代的到来，无线通信系统的性能大幅度提升，5G技术的性能目标是提高系统容量、降低功耗和延迟，大规模设备连接，为了实现这些目标，不可避免地要用到大规模MIMO，毫米波等关键技术。然而这些技术也存在一些缺陷：使用更多的天线必然会消耗更多的能量及占用更大的空间，而毫米波频段的信号在传输过程中有很大的路径损耗，并且不能穿透障碍物。为了克服以上缺点，智能反射面技术应运而生。智能反射面装有大量低成本无源反射元件，由集成电子器件进行控制，每个反射元件都能独立地调整入射到反射面上的信号的相位和/或幅度。当发射机和接收机之间有障碍物的阻挡而无法实现视距传输时，智能反射面可以通过将信号进行反射创建出视距传输路径，从而扩大毫米波通信的覆盖范围。另外，由于智能反射面无需使用任何有源器件，因此比现有的中继技术所需消耗的能量要少得多。

为了充分发挥无人机和智能表面的优势，可以考虑将这两种技术结合起来，形成基于智能反射面和无人机辅助的无线通信系统。由于智能反射面非常轻薄，并且只是被动地反射信号而不需要有源元件，所以可以减轻无人机的负载及降低功耗。另外，搭载在无人机上的智能反射面可以灵活地部署在任意位置，更加方便地在发射机和接收机之间创建视距传播链路。

现有的关于智能反射面和无人机辅助的无线通信系统的工作主要是使用传统的数学计算的方法，这种做法存在很明显的缺点，即需要精确的建模，难以适应复杂多变的通信环境，而且需要大量的计算。尤其是在本发明的通信场景中，无人机的飞行轨迹具有很大的灵活性，即时获得精确的信道信息非常困难。此外，智能反射面上反射元件的数量通常非常多，为大量的反射元件计算相移无疑会增加无人机的计算负载，这对于能量储备和计算资源有限的无人机来说是一个严重的挑战。而强化学习这一工具就很好地克服了这些缺点。强化学习不依赖于精确的数学模型，也不需要大量的训练数据，能在与环境不停的交互过程中进行学习，即使环境发生了较大的变化，也能迅速调整自身的策略以适应环境，有很强的健壮性。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种无人机轨迹和智能反射面相移联合优化方法及系统，解决现有的无人机轨迹以及智能反射面相移的离线优化方法在通信环境不断变化的情况下难以求解的问题。

本发明采用以下技术方案：

一种无人机轨迹和智能反射面相移联合优化方法，包括以下步骤：

S1、建立基于无人机和智能反射面辅助的无线通信系统模型，用户向基站传输信息，确定无线通信系统模型中受多普勒效应影响的信道模型以及无人机和智能反射面的能量消耗模型，计算无线通信系统模型的能量效率；

S2、基于步骤S1分析的受多普勒效应影响的信道模型以及无人机和智能反射面的能量消耗模型，利用优先级经验回放TD3方法确定无人机的位置，由无人机和智能反射面辅助与基站进行通信的用户，信息传输阶段第一个时隙中智能反射面被激活的反射元件及被激活反射元件的相移，然后利用基于LSTM的优先级经验回放TD3方法，得到整个信息传输阶段所有时隙的智能反射面被激活反射元件及被激活反射元件的相移，根据通信环境自适应地调整无人机的轨迹和智能反射面的相移，完成无人机轨迹和智能反射面相移的联合优化。

具体的，步骤S1中，基于无人机和智能反射面辅助的无线通信系统模型包括N个地面用户，一个安装有智能反射面的无人机和一个基站；N个用户随机分布在D×D的矩形区域内，第n个用户的三维坐标为

基站的坐标为(x_BS,y_BS,z_BS)；无人机的坐标为(x_UAV,y_UAV,z_UAV)，0≤x_UAV,y_UAV≤D,z_min≤z_UAV≤z_max，z_min和z_max分别表示无人机的最低高度和最高高度，无人机飞行的最大线速度为v_max；智能反射面配备一个由M个无源反射元件组成的均匀平面阵，每个无源反射元件的相移由集成控制器调整，在t时刻，智能反射面的相移矩阵M_θ(t)为：

其中，θ_m是智能反射面第m个反射元件的相移，取值范围是[0,π]。

具体的，步骤S1中，用户向基站传输信息分三个阶段，具体为：

决策阶段：无人机选择与哪个用户进行通信，并选择进行信息传输的位置，智能反射面选择在信息传输阶段的第一个时隙中被激活的反射元件及其相移；

飞行阶段：无人机以速度v沿直线飞向在决策阶段中选择的信息传输位置；

信息传输阶段：无人机到达规定的位置之后悬停，在决策阶段中被选中的用户向智能反射面发送信号，智能反射面的激活反射元件以对应的相位偏移将用户发送过来的信号反射到基站。

具体的，步骤S1中，将用户和智能反射面之间、智能反射面和基站之间的信道建模为莱斯信道，在信息传输阶段的第l个时隙内，考虑多普勒频移对信道的影响，第n个用户和智能反射面第m个反射元件之间的信道h₁(l,m)和智能反射面第m个反射元件和基站之间的信道h₂(l,m)具体为：

/>

从用户到智能反射面再到基站总的上行链路信道增益H(l)为：

其中，δ_m表示智能反射面的第m个反射元件是否激活，θ_m为智能反射面第m个反射元件的相移，e是自然指数，j是虚数单位，ρ为参考距离1m处的路径损耗，k₁是路径损耗指数，

为第n个用户和智能反射面之间的欧几里得距离，/>

为智能反射面和基站之间的欧几里得距离，β为莱斯衰落因子，/>

和/>

为非视距传播分量，建模成具有零均值和单位方差的循环对称复高斯变量，/>

和/>

为阵列响应，其中λ表示载波的波长，m表示智能反射面的第m个反射元件，d表示天线间距，

为信号到达智能反射面的角度的余弦值，

为信号到达基站的角度的余弦值，/>

为自相关系数。

具体的，步骤S1中，能量消耗包括无人机飞行消耗的能量和智能反射面被激活的反射元件消耗的能量，无人机飞到指定位置消耗的能量E_UAV为：

E_UAV＝P_UAVt_UAV

系统的能量效率为吞吐量除以无人机和智能反射面消耗的总能量EE为：

其中，E_UAV为无人机飞到指定位置消耗的能量，G_d为整个信息传输阶段的吞吐量，E_IRS为智能反射面消耗的能量，P_UAV为旋翼无人机的推进功率，t_UAV为无人机飞到指定位置需要的时间。

具体的，步骤S2中，优先级经验回放TD3方法的状态s是代理所能观测到的所有环境状态，包括上一时刻无人机的位置

以及与基站进行通信的用户的位置/>

行为a的维度为(3+N+2*M)，包括：当前时刻无人机的位置/>

当前时刻与基站进行通信的被激活用户向量

每一个元素的取值为0或1，取值为0表示相对应的用户不激活，取值为1表示激活，并且每一个时刻只有一个用户被激活；信息传输阶段第一个时隙中智能反射面的被激活元件向量/>

每一个元素的取值为0或1，取值为0表示相对应的反射元件不激活，取值为1表示激活；信息传输阶段第一个时隙中的相移向量/>

每一个元素表示相对应的反射元件的相移，取值范围为[0,π]；

奖励r(s,a)定义为系统的能量效率，r(s,a)＝EE。

具体的，步骤S2中，优先级经验回放TD3方法包括训练策略网络，目标策略网络，第一训练价值网络，第二训练价值网络，第一目标价值网络和第二目标价值网络；

在每个时刻内，无人机作为代理，与环境进行交互代理首先观测上一时刻无人机的位置以及与基站进行通信的用户的位置作为状态s，训练策略网络的参数为θ，训练策略网络将状态s作为输入，输出当前时刻无人机的位置，与基站进行通信的被激活用户向量，信息传输阶段第一个时隙中智能反射面的被激活元件向量以及相移向量作为行为a，第一训练价值网络和第二训练价值网络的参数分别为ω₁和ω₂，第一训练价值网络和第二训练价值网络将状态s和行为a作为输入，分别输出状态行为对(s,a)的价值Q₁(s,a,ω₁)和Q₂(s,a,ω₂)，评估在状态为s时采取行为a的收益；

然后利用基于LSTM的优先级经验回放TD3方法得到信息传输阶段剩余的所有时隙中智能反射面的被激活元件向量以及相移向量，计算整个信息传输阶段的能量效率作为奖励r，代理继续观测下一时刻无人机的位置以及与基站进行通行的用户的位置作为状态s'；

目标策略网络将下一个状态s'作为输入，输出下一个行为a'，根据训练策略网络的参数θ更新目标策略网络的参数θ'；第一目标价值网络和第二目标价值网络输入下一个状态-行为对(s',a')，分别输出Q'₁(s',a',ω'₁)和Q'₂(s',a',ω'₂)，根据训练价值网络的参数更新目标价值网络的参数；

将{s,a,r,s'}作为一条经验存储在经验存储器中，当经验存储器达到最大存储容量时，利用优先级经验回放的方法从中抽取小批量经验进行训练，更新训练策略网络和训练价值网络的参数。

进一步的，使用策略梯度法更新训练策略网络的参数θ：

其中，K为从经验存储器中小批量抽取经验的数量，J(θ)是策略目标函数，用来衡量一个策略的好坏，沿着可以使价值Q增大的方向更新训练策略网络的参数θ，以使J(θ)取得最大值，

表示梯度算符，π_θ是强化学习代理学习到的策略，s_j为利用优先级经验回放方法抽样的第j条经验中的状态，a_j为第j条经验中的行为；

第一训练价值网络的参数ω₁和第二训练价值网络的参数ω₂通过神经网络的梯度反向传播来更新，定义第一训练价值网络的损失函数为：

定义第二训练价值网络的损失函数为：

其中，w_j为重要性抽样权重，Q₁(s_j,a_j,ω₁)和Q₂(s_j,a_j,ω₂)分别为第一训练价值网络和第二训练价值网络输出的第j条经验中状态行为对(s_j,a_j)的价值，TargetQ_j表示目标Q值；

采用软更新方式更新优先级经验回放TD3方法的目标策略网络的参数θ'，第一目标价值网络的参数ω'₁和第二目标价值网络的参数ω'₂，具体为：

θ'←αθ+(1-α)θ'

ω'₁←αω₁+(1-α)ω'₁

ω'₂←αω₂+(1-α)ω'₂

其中，α是更新系数。

具体的，步骤S2中，基于LSTM的优先级经验回放TD3方法具体为：

将信息传输阶段划分成L个时隙，每个时隙的持续时间为τ，状态

包括两部分，分别是上一时隙智能反射面的被激活元件向量/>

以及相移向量

这里的起始状态，即信息传输阶段第二个时隙的状态由优先级经验回放TD3算法的行为的最后两个分量给出；行为/>

是当前时隙智能反射面的被激活元件向量/>

以及相移向量

奖励/>

是智能反射面在一个时隙中的能量效率ee_IRS，计算过程如下：智能反射面在一个时隙中消耗的能量为e_IRS＝τP_IRS，吞吐量为g_d＝τR_d(l)，则能量效率ee_IRS＝g_d/e_IRS；

A：初始化目标网络参数的更新频率C，最大实验次数Epi，一次实验的最大时刻数T，经验存储器的大小E，小批量抽样的大小K，随机初始化训练策略网络的参数

第一训练价值网络的参数/>

和第二训练价值网络的参数/>

初始化目标策略网络的参数/>

第一目标价值网络的参数/>

和第二目标价值网络的参数/>

B：执行以下循环，直到达到最大实验次数结束；

B1：将状态

初始化为当前状态序列的第一个状态；

B2：执行以下循环，直到达到最大时刻数结束；

B21：将状态

输入基于LSTM的优先级经验回放TD3方法的训练策略网络，得到行为/>

计算出信息传输阶段一个时隙中智能反射面的能量效率ee_IRS作为奖励/>

B22：将经验

存入经验存储器；

B23：使用优先经验回放的方法从经验存储器中随机抽样小批量样本，数量为K，

B24：计算目标Q值，

B25：计算损失函数，

/>

通过神经网络的梯度反向传播更新价值网络的参数；

B26：根据策略梯度

更新训练策略网络的参数/>

B27：若T％C＝1，用软更新的方式更新目标策略网络的参数

目标价值网络的参数/>

和第二目标价值网络的参数/>

B28：将下一状态设为当前状态

本发明的另一技术方案是，一种无人机轨迹和智能反射面相移联合优化系统，包括：

分析模块，建立基于无人机和智能反射面辅助的无线通信系统模型，用户向基站传输信息，分别讨论无线通信系统模型中受多普勒效应影响的信道以及无人机和智能反射面消耗的能量，并计算系统的能量效率；

优化模块，基于分析模块分析的受多普勒效应影响的信道模型以及无人机和智能反射面的能量消耗模型，利用优先级经验回放TD3方法确定无人机的位置，由无人机和智能反射面辅助与基站进行通信的用户，信息传输阶段第一个时隙中智能反射面被激活的反射元件及被激活反射元件的相移，然后利用基于LSTM的优先级经验回放TD3方法，得到整个信息传输阶段所有时隙的智能反射面被激活反射元件及被激活反射元件的相移，根据通信环境自适应地调整无人机的轨迹和智能反射面的相移，完成无人机轨迹和智能反射面相移的联合优化。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种无人机轨迹和智能反射面相移联合优化方法，使用基于优先级经验回放TD3方法解决无人机轨迹和智能反射面相移联合优化的问题，不需要精确的建模和大量的训练数据，能迅速调整策略以适应复杂多变的通信环境，有很强的健壮性。使用优先级经验回放可以更加频繁地从有价值的经验中学习，提高了学习效率。使用双延迟深度确定性策略梯度方法可以解决Q值被过高估计的问题。受多普勒效应的影响，不同时隙的信道之间彼此不同又具有相关性，将长短期记忆网络与双延迟深度确定性策略梯度方法结合可以使代理从过去的经验中学习以适应不断变化的信道，从而提高系统的能量效率。现有的关于智能反射面和无人机辅助的无线通信系统的工作主要是使用传统的数学计算的方法，这种做法不仅计算量大，且难以适应动态变化的通信环境。而强化学习这一工具就很好地克服了这些缺点，即使环境不断变化，也能迅速调整自身的策略以适应环境

进一步的，智能反射面搭载在无人机上，可以灵活地部署在任意位置，更加方便地在用户和基站之间创建视距传播链路，扩大毫米波通信的覆盖范围。并且智能反射面只是被动地反射信号，不需要有源元件，从而可以降低无人机的功耗。

进一步的，在决策阶段中，无人机选择与哪个用户进行通信，并选择进行信息传输的位置，智能反射面选择在信息传输阶段的第一个时隙中被激活的反射元件及其相移；在飞行阶段中，无人机以速度v沿直线飞向在决策阶段中选择的信息传输位置；在信息传输阶段中，无人机到达规定的位置之后悬停，在决策阶段中被选中的用户向智能反射面发送信号，智能反射面的激活反射元件以对应的相位偏移将用户发送过来的信号反射到基站。

进一步的，由于无人机在悬停的时候无法保持绝对静止而是在不断振动，并且无人机螺旋桨的旋转会对信号造成周期性阻挡，在对用户和智能反射面之间的信道以及智能反射面和基站之间的信道建模时考虑无人机振动机和螺旋桨旋转带来的多普勒效应的影响会更加符合实际情况。

进一步的，基于智能反射面和无人机辅助的无线通信系统中的能量消耗包括两部分，分别是无人机消耗的能量和智能反射面消耗的能量，建立准确的能量消耗模型是计算能量效率的关键步骤。将系统的能量效率作为优化目标，设计无人机轨迹和智能反射面相移的目的是获得较大的能量效率。

进一步的，优先级经验回放TD3方法可以处理连续的状态空间和连续的行为空间，无人机可以根据环境状态自适应地部署在任意位置，智能反射面也可以实现相移的连续调整，具有很大的灵活性。通过引入优先级经验回放的方法对经验进行抽样，可以使强化学习代理更加频繁地回放学习价值高的经验，从而提高学习效率。

进一步的，优先级经验回放TD3方法的训练策略网络根据当前状态s选择当前行为a，并通过策略梯度法更新训练策略网络的参数θ；目标策略网络根据经验存储器中抽样的下一状态s′选择最优的下一行为a′，定期使用软更新的方式更新目标策略网络的参数θ'；第一训练价值网络负责计算当前状态行为对(s,a)的价值Q₁(s,a,ω₁)，并通过梯度下降法更新第一训练价值网络的参数ω₁；第一目标价值网络负责计算下一状态行为对(s',a')的价值Q₁'(s',a',ω'₁)，定期使用软更新的方式更新目标价值网络的参数ω'₁；第二训练价值网络也负责计算当前状态行为对(s,a)的价值Q₂(s,a,ω₂)，并通过梯度下降法更新第二训练价值网络的参数ω₂；第二目标价值网络负责计算下一状态行为对(s',a')的价值Q₂'(s',a',ω'₂)，定期使用软更新的方式更新目标价值网络的参数ω'₂。由于策略网络的目的是输出Q值最大的行为，这种做法会导致某些并不能带来很大回报的行为被赋予了过高的Q值，通过设置两个训练价值网络和两个目标价值网络，从Q₁'(s',a',ω'₁)和Q₂'(s',a',ω'₂)中选择较小的一个计算目标Q值，可以避免Q值被高估的问题。

进一步的，通过对策略目标函数求梯度，使训练策略网络的参数θ沿着Q值增大的方向更新，当参数θ调整到可以使策略目标函数取得最大值时，说明此时的训练策略网络找到了可以将状态映射到最优行为的策略。损失函数表示训练价值网络输出的Q值与目标Q值之间的差距，使用梯度下降法更新训练价值网络的参数使损失函数最小，则第一训练价值网络和第二训练价值网络输出的Q值会非常接近目标Q值，从而能使第一训练价值网络和第二训练价值网络对状态行为对的价值做出准确的评估。

进一步的，由于无人机的振动以及螺旋桨的旋转造成的多普勒效应，信息传输阶段的信道并不是一成不变的，如果在整个信息传输阶段智能反射面的相移始终保持不变，则信息传输速率将会受到影响，为了获得令人满意的信息传输速率，需要将信息传输阶段划分为若干时隙并假设在每个时隙中信道保持不变，智能反射面需要在每个时隙内根据信道状态调节被激活的反射元件及其相移。由于不同时隙的信道之间具有相关性，可以将LSTM网络和优先级经验回放TD3算法结合起来，通过学习过去的信道状态，更快地建立环境模型，从而适应高度动态的信道环境。

综上所述，本发明在基于无人机和智能反射面辅助的无线通信系统中，搭载在无人机上的智能反射面可以灵活地部署在任意位置，更加方便地在用户和基站之间创建视距传播链路，扩大毫米波通信的覆盖范围。通过使用强化学习这一工具，即使环境不断变化，无人机和智能反射面也能迅速调整自身的策略以适应环境，有很强的健壮性。进一步的，使用优先级经验回放可以更加频繁地从有价值的经验中学习，提高了学习效率。受多普勒效应的影响，信息传输阶段不同时隙的信道之间彼此不同又具有相关性，将长短期记忆网络与深度确定性策略梯度方法结合可以使强化学习代理从过去的经验中学习以适应不断变化的信道，从而提高系统的能量效率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的系统模型图；

图2为本发明中用户向基站传输信息过程的示意图；

图3为本发明中优先级经验回放TD3算法的原理图；

图4为本发明中强化学习代理与环境的交互过程；

图5为本发明中基于LSTM的优先级经验回放TD3算法策略网络结构图；

图6为本发明中实验次数与能量效率的关系。

具体实施方式

本发明提供了一种无人机轨迹和智能反射面相移联合优化方法，首先建立基于无人机和智能反射面辅助的无线通信系统模型，其次，针对轨迹和相移优化问题的非凸性，提出了基于深度确定性策略梯度算法的方法，实现了无人机轨迹和智能反射面相移联合的联合优化。

本发明一种无人机轨迹和智能反射面相移联合优化方法，包括以下步骤：

S1、建立基于无人机和智能反射面辅助的无线通信系统模型，然后分别讨论了受多普勒效应影响的信道以及无人机和智能反射面消耗的能量；

通信模型如图1所示，包括N个地面用户，一个安装有智能反射面的无人机以及一个基站。假设N个用户随机分布在D×D的矩形区域内，第n个用户的三维坐标为

基站的坐标为(x_BS,y_BS,z_BS)；无人机的坐标为(x_UAV,y_UAV,z_UAV)，(0≤x_UAV,y_UAV≤D,z_min≤z_UAV≤z_max)，其中，z_min和z_max分别表示无人机的最低高度和最高高度，无人机飞行的最大线速度为v_max；智能反射面配备了一个由M个无源反射元件组成的均匀平面阵，每个元件的相移都由集成控制器来调整。假设把无人机和智能反射面都看成质点，则两者的三维坐标相同，即x_IRS＝x_UAV，y_IRS＝y_UAV，z_IRS＝z_UAV。在t时刻，智能反射面的相移矩阵为：

请参阅图2，用户向基站传输信息的过程分为三个阶段，具体为：

1)决策阶段：无人机选择与哪个用户进行通信，并选择进行信息传输的位置，智能反射面选择在信息传输阶段的第一个时隙中被激活的反射元件及其相移。

2)飞行阶段：无人机以速度v沿直线飞向在决策阶段中选择的信息传输位置。

3)信息传输阶段：无人机到达规定的位置之后在该位置悬停，在决策阶段中被选中的用户向智能反射面发送信号，智能反射面的激活反射元件以一定的相位偏移将用户发送过来的信号反射到基站。

但是由于无人机的抖动以及螺旋桨的旋转带来的多普勒效应，信息传输阶段的信道是不断变化的，将该阶段划分成L个时隙，假设信道在每个时隙内保持不变，且每个时隙的信道与之前所经历时隙的信道相关。为了适应不断变化的信道，在每个时隙内智能反射面都需要调整被激活的反射元件以及激活元件的相移，以获得良好的能量效率。

将用户和智能反射面之间，智能反射面和基站之间的信道建模为莱斯信道，假设在信息传输阶段的第l个时隙内，第n个用户和智能反射面第m个反射元件之间的信道为h₁(l,m)：

其中，ρ表示参考距离d₀＝1m处的路径损耗，k₁是路径损耗指数，β是莱斯衰落因子，d₁是第n个用户和智能反射面之间的欧几里得距离：

其中，

表示非视距传播分量，建模成具有零均值和单位方差的循环对称复高斯变量，/>

表示阵列响应，其中，λ表示载波的波长，m表示智能反射面的第m个反射元件，d表示天线间距，/>

是信号到达智能反射面的角度的余弦值：

智能反射面第m个反射元件和基站之间的信道为h₂(l,m)：

其中，d₂表示智能反射面和基站之间的欧几里得距离：

同样地，

表示非视距传播分量，/>

表示阵列响应，/>

是信号到达基站的角度的余弦值：

信息传输阶段的中每个时隙的信道与之前经历的若干个时隙的信道相关，这种现象称为信道衰老。通过信道的二阶统计量，即自相关函数来近似表征：

R(l)＝J₀(2πf_n|l|) (8)

其中，J₀(·)是第一类零阶贝塞尔函数，f_n＝f_dT_sυ是归一化的多普勒频移，f_d是最大多普勒频移，T_s是采样持续时间，υ是相干间隔中的样本数。

受无人机抖动及螺旋桨旋转带来的多普勒效应的影响，假设第l个时隙的信道与之前B个时隙的信道有关，将小尺度衰落建模为：

ω(l)是复高斯白噪声向量，均值是零，方差是

是自相关系数，由下式计算得出：

a＝-R^-1w (11)

a＝[a₁,…,a_b,…,a_B]^T (12)

w＝[R(1),…,R(b),…,R(B)]^T (14)

其中，R(l)＝R(-l)，R(0)＝1。

在考虑了多普勒频移对信道的影响后，式(2)和式(5)改写成：

从用户到智能反射面再到基站总的上行链路信道增益为：

δ_m表示智能反射面的第m个反射元件是否激活：

能量消耗包括两部分，分别是无人机飞行消耗的能量和智能反射面被激活的反射元件消耗的能量。旋翼无人机的推进功率表示为

/>

其中，v是无人机的飞行速度，U_tip是无人机转子叶片尖端的速度，v₀是悬停期间转子的平均诱导速度，χ是机身阻力比，κ是空气密度，u是转子实度，A是转子圆盘面积。P₀和P₁是悬停状态下的两个常数参数，分别由式(20)和式(21)计算得出：

其中，

是剖面阻力系数，Ω是叶片角速度，Υ是转子半径，ψ是诱导功率的增量相关系数，W是无人机的重量。

无人机从上一时刻的位置飞到当前时刻的位置所经历的路程为：

设无人机的速度为v，则飞行所消耗的时间为：

旋翼无人机的推进功率P_UAV由式(19)计算得出，则无人机飞到指定位置消耗的能量为：

E_UAV＝P_UAVt_UAV (24)

为了适应信息传输阶段不断变化的信道，需要调整每个时隙中智能反射面被激活的反射元件以及激活元件的相移。在得到所有时隙的被激活元件向量和相移向量后，计算出智能反射面消耗的能量。

设p_IRS表示每一个反射元件消耗的功率，则在第l个时隙内，整个智能反射面消耗的功率为：

将信息传输阶段划分为L个时隙，每个时隙的持续时间为τ，则智能反射面消耗的能量为：

设用户的发送功率为P_UE，则在第l个时隙内，信息传输速率为：

整个信息传输阶段的吞吐量为：

系统的能量效率为吞吐量除以无人机和智能反射面消耗的总能量：

S2、基于步骤S1中的信道模型和能量消耗模型，利用优先级经验回放TD3方法确定无人机的位置，由无人机和智能反射面辅助与基站进行通信的用户，信息传输阶段第一个时隙智能反射面被激活的反射元件及其相移，然后利用基于LSTM的优先级经验回放TD3方法，得到整个信息传输阶段所有时隙的智能反射面被激活反射元件及其相移，从而完成无人机轨迹和智能反射面相移的联合优化。

将无人机轨迹和智能反射面相移联合优化问题建模为马尔可夫决策过程，对其中的状态空间，行为空间，奖励，策略进行建模，并利用优先级经验回放TD3方法以及基于LSTM的优先级经验回放TD3方法求解出最优策略，从而获得令人满意的能量效率。与深度确定性策略梯度算法相比，该算法可以解决Q值被过高估计的问题。具体说明如下：

优先级经验回放TD3方法的状态s是代理所能观测到的所有环境状态，包括上一时刻无人机的位置

以及与基站进行通信的用户的位置

行为a的维度为(3+N+2*M)，包括：

①当前时刻无人机的位置

②当前时刻与基站进行通信的被激活用户向量

其中，每一个元素的取值为0或1，取值为0表示相对应的用户不激活，取值为1表示激活，并且每一个时刻只有一个用户被激活；

③信息传输阶段第一个时隙中智能反射面的被激活元件向量

其中的每一个元素的取值为0或1，取值为0表示相对应的反射元件不激活，取值为1表示激活；

④信息传输阶段第一个时隙中的相移向量

其中的每一个元素表示相对应的反射元件的相移，取值范围为[0,π]；/>

奖励r(s,a)定义为系统的能量效率，r(s,a)＝EE。

在这里，能量效率的计算依赖于两个算法，首先需要优先级经验回放TD3方法得到无人机的位置，与基站进行通信的用户，信息传输阶段第一个时隙智能反射面被激活的反射元件及其相移，从而得到无人机消耗的能量，信息传输阶段第一个时隙智能反射面消耗的能量以及传输的数据量；然后需要基于LSTM的优先级经验回放TD3方法得到信息传输阶段剩余的所有时隙中智能反射面的被激活元件向量以及相移向量，计算出信息传输阶段所有时隙智能反射面消耗的能量以及传输的数据量，从而计算出整个系统的能量效率作为奖励。

优先级经验回放TD3方法包含六个神经网络，训练策略网络，目标策略网络，第一训练价值网络，第二训练价值网络，第一目标价值网络和第二目标价值网络，算法原理如图3所示。在每个时刻内，无人机充当代理，与环境进行交互的过程如图4所示，代理首先观测上一时刻无人机的位置以及与基站进行通行的用户的位置作为状态s，训练策略网络的参数为θ，该网络将s作为输入，输出当前时刻无人机的位置，与基站进行通信的被激活用户向量，信息传输阶段第一个时隙中智能反射面的被激活元件向量以及相移向量作为行为a，第一训练价值网络和第二训练价值网络的参数分别为ω₁和ω₂，这两个网络将状态s和行为a作为输入，分别输出状态行为对(s,a)的价值Q₁(s,a,ω₁)和Q₂(s,a,ω₂)，用来评估在状态为s时采取行为a是否能获得良好的收益。然后利用基于LSTM的优先级经验回放TD3方法得到信息传输阶段剩余的所有时隙中智能反射面的被激活元件向量以及相移向量，从而计算出整个信息传输阶段的能量效率作为奖励r，代理继续观测下一时刻无人机的位置以及与基站进行通行的用户的位置作为状态s'。目标策略网络将下一个状态s'作为输入，输出下一个行为a'，定期根据训练策略网络的参数θ更新目标策略网络的参数θ'。第一目标价值网络和第二目标价值网络输入下一个状态-行为对(s',a')，分别输出Q'₁(s',a',ω'₁)和Q'₂(s',a',ω'₂)，定期根据训练价值网络的参数更新目标价值网络的参数。将{s,a,r,s'}作为一条经验存储在经验存储器中，当经验存储器达到最大存储容量时，利用优先级经验回放的方法从中抽取小批量经验进行训练，更新训练策略网络和训练价值网络的参数。

经验j被抽样的概率为：

其中，γ表示优先级的重要程度，如果γ＝0表示均匀抽样，K表示从经验存储器中小批量抽取经验的数量，D_j＝1/rank(j)＞0，将经验存储器中的经验按照学习价值排序，rank(j)是第j条经验的排名。

采用优先级经验回放后，优先级高的经验被抽中的概率升高，在训练神经网络的过程中会导致过拟合，可以通过重要性采样来克服这一缺点，重要性抽样权重由下式计算得出：

其中，E是经验存储器中存储经验的数量，ξ是抽样权重系数。

训练策略网络的参数θ使用策略梯度法更新：

其中，π_θ是强化学习代理学习到的策略。由于训练策略网络的目的是找出使Q值最大的行为，不关心Q值是否被高估的问题，因此在计算策略梯度

时使用Q₁(s,a,ω₁)或Q₂(s,a,ω₂)都可以。

第一训练价值网络的参数ω₁和第二训练价值网络的参数ω₂通过神经网络的梯度反向传播来更新，以达到使损失函数最小的目的，考虑了优先级经验回放后，第一训练价值网络的损失函数定义为：

第二训练价值网络的损失函数定义为：

TargetQ_j表示目标Q值，由奖励r_j加上Q'_min(s'_j,a'_j)＝min(Q'₁(s'_j,a'_j,ω'₁),Q'₂(s'_j,a'_j,ω'₂))再乘以折扣因子η得到，由于策略网络倾向于选择Q值最大的行为，会导致某些并不能带来很大回报的行为被赋予了过高的Q值，取Q'₁和Q'₂中小的一个来计算TargetQ可以避免Q值被高估的问题：

TargetQ_j＝r_j+ηQ'_min(s'_j,a'_j) (35)

优先级经验回放TD3方法的目标策略网络的参数θ'，第一目标价值网络的参数ω'₁和第二目标价值网络的参数ω'₂的更新方式采用软更新，即每次只更新一小部分，这种做法可以提高学习的稳定性。

θ'←αθ+(1-α)θ' (36)

ω'₁←αω₁+(1-α)ω'₁ (37)

ω'₂←αω₂+(1-α)ω'₂ (38)

其中，α是更新系数。

当训练完成后，训练策略网络可以将当前的状态s映射到能获得较大能量效率的行为a。

受多普勒效应的影响，信息传输阶段不同时隙的信道之间彼此不同又具有相关性，为了更好地从过去的经历中学习以适应动态变化的环境，可以使用基于LSTM的优先级经验回放TD3方法。同样地，将信息传输阶段第一个时隙之后的智能反射面被激活反射元件及其相移的优化问题建模成马尔可夫决策过程，将信息传输阶段划分成L个时隙，每个时隙的持续时间为τ，状态

包括两部分，分别是上一时隙智能反射面的被激活元件向量

以及相移向量/>

这里的起始状态，即信息传输阶段第二个时隙的状态由优先级经验回放TD3方法的行为的最后两个分量给出；行为/>

是当前时隙智能反射面的被激活元件向量/>

以及相移向量/>

奖励/>

是智能反射面在一个时隙中的能量效率ee_IRS，计算过程如下：智能反射面在一个时隙中消耗的能量为e_IRS＝τP_IRS，吞吐量为g_d＝τR_d(l)，则能量效率ee_IRS＝g_d/e_IRS。

与优先级经验回放TD3方法相比，基于LSTM的优先级经验回放TD3方法的策略网络在输入层和隐含层之间加了一个LSTM层，如图5所示，神经网络的训练方式不变。

无人机轨迹和智能反射面相移的优化算法如下：

A：初始化目标网络参数的更新频率C，最大实验次数Epi，一次实验的最大时刻数T，经验存储器的大小E，小批量抽样的大小K，随机初始化训练策略网络的参数θ，第一训练价值网络的参数ω₁和第二训练价值网络的参数ω₂，初始化目标策略网络的参数θ'，第一目标价值网络的参数ω'₁和第二目标价值网络的参数ω'₂，θ←θ'，ω₁←ω'₁，ω₂←ω'₂；

B：执行以下循环，直到达到最大实验次数结束：

B1：将状态s初始化为当前状态序列的第一个状态

B2：执行以下循环，直到达到最大时刻数结束：

B21：将状态

输入优先级经验回放TD3方法的训练策略网络，得到行为/>

B22：调用基于LSTM的优先级经验回放TD3方法，获得信息传输阶段所有时隙的智能反射面被激活元件向量以及相移向量，并由此计算出系统的能量效率作为奖励r

B23：将经验{s,a,r,s'}存入经验存储器

B24：使用优先经验回放的方法从经验存储器中抽样小批量样本，数量为K，{s_j,a_j,r_j,s'_j},j＝1,2,…,K；

B25：计算目标Q值，TargetQ_j＝r_j+ηmin_i＝1,2Q'_i(s'_j,a'_j,ω'_i)；

B26：计算损失函数，

通过神经网络的梯度反向传播来更新价值网络的参数；

B27：根据策略梯度

更新训练策略网络的参数θ；

B28：若T％C＝1，则用软更新方式更新目标策略网络的参数θ'，第一目标价值网络的参数ω'₁，第二目标价值网络的参数ω'₂，θ'←αθ+(1-α)θ'，ω'₁←αω₁+(1-α)ω'₁，ω'₂←αω₂+(1-α)ω'₂

B29：将下一状态设为当前状态s←s'；

基于LSTM的优先级经验回放TD3方法过程如下：

第一训练价值网络的参数/>

和第二训练价值网络的参数/>

初始化目标策略网络的参数/>

第一目标价值网络的参数/>

和第二目标价值网络的参数/>

B：执行以下循环，直到达到最大实验次数结束；

B1：将状态

初始化为当前状态序列的第一个状态；

B2：执行以下循环，直到达到最大时刻数结束；

B21：将状态

B22：将经验

存入经验存储器；

/>

B24：计算目标Q值，

B25：计算损失函数，

通过神经网络的梯度反向传播来更新价值网络的参数；

B26：根据策略梯度

更新训练策略网络的参数/>

B27：若T％C＝1，用软更新的方式更新目标策略网络的参数

目标价值网络的参数/>

和第二目标价值网络的参数/>

B28：将下一状态设为当前状态

通过使用优先级经验回放TD3方法和基于LSTM的优先级经验回放TD3方法，可以实现无人机轨迹和智能反射面相移的联合优化，从而获得良好的能量效率。

本发明再一个实施例中，提供一种无人机轨迹和智能反射面相移联合优化系统，该系统能够用于实现上述无人机轨迹和智能反射面相移联合优化方法，具体的，该无人机轨迹和智能反射面相移联合优化系统包括分析模块以及优化模块。

其中，分析模块，建立基于无人机和智能反射面辅助的无线通信系统模型，用户向基站传输信息，分别讨论无线通信系统模型中受多普勒效应影响的信道以及无人机和智能反射面消耗的能量，并计算系统的能量效率；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于无人机轨迹和智能反射面相移联合优化方法的操作，包括：

建立基于无人机和智能反射面辅助的无线通信系统模型，用户向基站传输信息，分别讨论无线通信系统模型中受多普勒效应影响的信道以及无人机和智能反射面消耗的能量，并计算系统的能量效率；基于分析的受多普勒效应影响的信道模型以及无人机和智能反射面的能量消耗模型，利用优先级经验回放TD3方法确定无人机的位置，由无人机和智能反射面辅助与基站进行通信的用户，信息传输阶段第一个时隙中智能反射面被激活的反射元件及被激活反射元件的相移，然后利用基于LSTM的优先级经验回放TD3方法，得到整个信息传输阶段所有时隙的智能反射面被激活反射元件及被激活反射元件的相移，根据通信环境自适应地调整无人机的轨迹和智能反射面的相移，完成无人机轨迹和智能反射面相移的联合优化。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关无人机轨迹和智能反射面相移联合优化方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

数值验证

仿真参数设置如下：

请参阅图6，为采用优先级经验回放TD3算法和TD3算法时，系统的能量效率随仿真次数的变化。从图中可以看出，当实验次数达到20次以上时，能量效率趋于稳定。当算法收敛后，采用优先级经验回放TD3算法时的能量效率比采用TD3算法时高，这是因为使用优先级经验回放对经验进行抽样能使强化学习代理频繁地从更由价值的经验中进行学习，可以提高学习效率。

综上所述，本发明一种无人机轨迹和智能反射面相移联合优化方法，在基于无人机和智能反射面辅助的无线通信系统中，搭载在无人机上的智能反射面可以灵活地部署在任意位置，更加方便地在用户和基站之间创建视距传播链路，扩大毫米波通信的覆盖范围。现有的关于无人机和智能反射面辅助的无线通信系统的工作主要是使用传统的数学计算的方法，这种做法不仅计算量大，且难以适应复杂多变的通信环境。而强化学习这一工具就很好地克服了这些缺点，即使环境不断变化，也能迅速调整自身的策略以适应环境，有很强的健壮性。进一步的，使用优先级经验回放可以更加频繁地从有价值的经验中学习，提高了学习效率。受多普勒效应的影响，信息传输阶段不同时隙的信道之间彼此不同又具有相关性，将长短期记忆网络与深度确定性策略梯度方法结合可以使强化学习代理从过去的经验中学习以适应不断变化的信道，从而提高系统的能量效率。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种无人机轨迹和智能反射面相移联合优化方法，其特征在于，包括以下步骤：

S2、基于步骤S1分析的受多普勒效应影响的信道模型以及无人机和智能反射面的能量消耗模型，利用优先级经验回放TD3方法确定无人机的位置，由无人机和智能反射面辅助与基站进行通信的用户，信息传输阶段第一个时隙中智能反射面被激活的反射元件及被激活反射元件的相移，然后利用基于LSTM的优先级经验回放TD3方法，得到整个信息传输阶段所有时隙的智能反射面被激活反射元件及被激活反射元件的相移，根据通信环境自适应地调整无人机的轨迹和智能反射面的相移，完成无人机轨迹和智能反射面相移的联合优化；

优先级经验回放TD3方法包括训练策略网络，目标策略网络，第一训练价值网络，第二训练价值网络，第一目标价值网络和第二目标价值网络；

将{s,a,r,s'}作为一条经验存储在经验存储器中，当经验存储器达到最大存储容量时，利用优先级经验回放的方法从中抽取小批量经验进行训练，更新训练策略网络和训练价值网络的参数；

基于LSTM的优先级经验回放TD3方法具体为：

以及相移向量

是当前时隙智能反射面的被激活元件向量/>

以及相移向量

奖励/>

第一训练价值网络的参数/>

和第二训练价值网络的参数/>

初始化目标策略网络的参数/>

第一目标价值网络的参数/>

和第二目标价值网络的参数/>

B：执行以下循环，直到达到最大实验次数结束；

B1：将状态

初始化为当前状态序列的第一个状态；

B2：执行以下循环，直到达到最大时刻数结束；

B21：将状态

计算出信息传输阶段一个时隙中智能反射面的能量效率ee_IRS作为奖励

B22：将经验

存入经验存储器；

B24：计算目标Q值，

B25：计算损失函数，

通过神经网络的梯度反向传播更新价值网络的参数；

B26：根据策略梯度

更新训练策略网络的参数/>

B27：若T％C＝1，用软更新的方式更新目标策略网络的参数

目标价值网络的参数

和第二目标价值网络的参数/>

B28：将下一状态设为当前状态

2.根据权利要求1所述的方法，其特征在于，步骤S1中，基于无人机和智能反射面辅助的无线通信系统模型包括N个地面用户，一个安装有智能反射面的无人机和一个基站；N个用户随机分布在D×D的矩形区域内，第n个用户的三维坐标为

1≤n≤N,/>

3.根据权利要求1所述的方法，其特征在于，步骤S1中，用户向基站传输信息分三个阶段，具体为：

4.根据权利要求1所述的方法，其特征在于，步骤S1中，将用户和智能反射面之间、智能反射面和基站之间的信道建模为莱斯信道，在信息传输阶段的第l个时隙内，考虑多普勒频移对信道的影响，第n个用户和智能反射面第m个反射元件之间的信道h₁(l,m)和智能反射面第m个反射元件和基站之间的信道h₂(l,m)具体为：

从用户到智能反射面再到基站总的上行链路信道增益H(l)为：

为第n个用户和智能反射面之间的欧几里得距离，/>

和/>

和/>

为信号到达智能反射面的角度的余弦值，

为信号到达基站的角度的余弦值，/>

为自相关系数。

5.根据权利要求1所述的方法，其特征在于，步骤S1中，能量消耗包括无人机飞行消耗的能量和智能反射面被激活的反射元件消耗的能量，无人机飞到指定位置消耗的能量E_UAV为：

E_UAV＝P_UAVt_UAV

6.根据权利要求1所述的方法，其特征在于，步骤S2中，优先级经验回放TD3方法的状态s是代理所能观测到的所有环境状态，包括上一时刻无人机的位置

以及与基站进行通信的用户的位置/>

行为a的维度为(3+N+2*M)，包括：当前时刻无人机的位置/>

当前时刻与基站进行通信的被激活用户向量/>

每一个元素表示相对应的反射元件的相移，取值范围为[0,π]；/>

奖励r(s,a)定义为系统的能量效率，r(s,a)＝EE。

7.根据权利要求1所述的方法，其特征在于，步骤S2中，使用策略梯度法更新训练策略网络的参数θ：

定义第二训练价值网络的损失函数为：

θ'←αθ+(1-α)θ'

ω'₁←αω₁+(1-α)ω'₁

ω'₂←αω₂+(1-α)ω'₂

其中，α是更新系数。

8.一种无人机轨迹和智能反射面相移联合优化系统，其特征在于，包括：

优化模块，基于分析模块分析的受多普勒效应影响的信道模型以及无人机和智能反射面的能量消耗模型，利用优先级经验回放TD3方法确定无人机的位置，由无人机和智能反射面辅助与基站进行通信的用户，信息传输阶段第一个时隙中智能反射面被激活的反射元件及被激活反射元件的相移，然后利用基于LSTM的优先级经验回放TD3方法，得到整个信息传输阶段所有时隙的智能反射面被激活反射元件及被激活反射元件的相移，根据通信环境自适应地调整无人机的轨迹和智能反射面的相移，完成无人机轨迹和智能反射面相移的联合优化；