CN114422363B

CN114422363B - 一种无人机搭载ris辅助通信系统容量优化方法及装置

Info

Publication number: CN114422363B
Application number: CN202210028582.9A
Authority: CN
Inventors: 张海君; 黄庙林; 王先梅; 隆克平; 王健全; 李卫; 云翔
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2023-04-21
Anticipated expiration: 2042-01-11
Also published as: CN114422363A

Abstract

本发明公开了一种无人机搭载RIS辅助通信系统容量优化方法及装置，该通信系统容量优化方法包括：以无人机UAV搭载RIS充当中继，构建UAV搭载RIS辅助通信系统；将UAV搭载RIS辅助通信系统的系统容量优化问题转化为具有用户速率保障和UAV能量消耗约束的UAV轨迹和RIS波束赋形矩阵优化问题；基于深度强化学习算法，获取最优UAV轨迹和最优RIS波束赋形矩阵，在满足用户最低目标数据速率和UAV能量消耗约束下实现系统容量最大化。本发明在解决轨迹和相移问题的同时，可在能耗约束下，实现系统容量最大化。

Description

一种无人机搭载RIS辅助通信系统容量优化方法及装置

技术领域

本发明涉及移动通信技术领域，特别涉及一种无人机搭载智能反射表面(RIS)辅助通信系统容量优化方法及装置。

背景技术

RIS是一种应用于无线通信的创新传输技术。RIS被认为是一种廉价的自适应薄复合材料薄片，可通过编程来修改无线电波。它可以部署在墙壁或建筑物等场景。由于它的可编程性，在无线环境中部署RIS之后，它可以被重新配置。通常，RIS是一个平面阵列，其表面由许多超材料成分组成。每个元件都是可重新配置的，可以独立地改变相移。通过对每个元素的相位进行调整，优化RIS接收到的信号向目标方向的收敛，从而增加了接收端信号能量，提高了用户速率。同时，与传统的放大转发中继不同，RIS通过无源组件反射到达它的信号，因此具有低功耗。此外，RIS本身价格低廉，没有传输模块，实现成本低，所以在一个成熟的无线通信系统中，它被认为是一个折衷的有效和绿色的解决方案。

另一方面，无人机(UAV)辅助无线通信网络被认为是未来无线通信的又一项有前途的技术，UAV在无线通信中得到了越来越广泛的应用，UAV既可以作为机载用户加入蜂窝网络，也可以作为机载基站/机载中继。UAV作为基站/中继是提高蜂窝网络性能的一种潜在的解决方案，它可以快速部署到合适的位置进行数据传输，通过建立视距通信可以进一步扩大系统覆盖范围。

得益于RIS和UAV的潜在优势，RIS在UAV辅助通信网络中的应用和性能引起了广泛关注。两者的结合使用可以简单地分为固定RIS和移动RIS。在固定RIS场景下，UAV可作为基站供有视距阻碍的用户使用，在RIS的帮助下建立视距。UAV也可以作为一个中继，其中信号被RIS反射然后通过UAV转发。在移动RIS场景中，主要使用方式UAV搭载RIS飞行，与固定位置RIS的UAV辅助网络相比，该场景下的RIS更加灵活，借助UAV的机动性，RIS可以快速部署到更适合辅助通信的位置，以提高UAV辅助网络的系统容量。但是，目前针对UAV搭载RIS辅助通信系统的系统容量优化问题，还没有完善的解决方案。

发明内容

本发明提供了一种无人机搭载RIS辅助通信系统容量优化方法及装置，以解决针对UAV搭载RIS辅助通信系统的系统容量优化问题，目前还没有完善的解决方案的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种无人机搭载RIS辅助通信系统容量优化方法，该无人机搭载RIS辅助通信系统容量优化方法包括：

以无人机UAV搭载RIS充当中继，构建UAV搭载RIS辅助通信系统；

将UAV搭载RIS辅助通信系统的系统容量优化问题转化为具有用户速率保障和UAV能量消耗约束的UAV轨迹和RIS波束赋形矩阵优化问题；

基于深度强化学习算法，获取最优UAV轨迹和最优RIS波束赋形矩阵，以在满足用户最低目标数据速率和UAV能量消耗约束下，实现系统容量最大化。

进一步地，在所述UAV搭载RIS辅助通信系统中，接收端采用连续干扰技术解码期望信号，以消除用户对间的同信道干扰。

进一步地，基于深度强化学习算法，获取最优UAV轨迹和最优RIS波束赋形矩阵，包括：

以最大化系统容量为目标，通信系统充当环境，搭载RIS的UAV充当智能体，利用深度强化学习算法训练智能体，获取所述智能体的最优动作；其中，所述智能体的动作包括：RIS波束赋形矩阵相移偏转和UAV轨迹移动。

进一步地，在采用深度强化学习算法进行UAV轨迹和RIS波束赋形矩阵设计时，针对真实环境下系统状态的动态变化，将系统状态建模为有限状态马尔可夫模型。

进一步地，以最大化系统容量为目标，通信系统充当环境，搭载RIS的UAV充当智能体，利用深度强化学习算法训练智能体获取智能体的最优动作，包括：

S1，初始化无线设备、用户、深度神经网络参数以及智能体环境信息；其中，所述深度神经网络参数包括：评估网络的参数和目标网络的参数；所述智能体环境信息包括：智能体动作空间、状态空间以及经验缓存空间；

S2，计算信道状态信息，智能体获取当前信道状态信息，根据行为策略选择动作并执行，执行动作后，根据与环境的交互，返回奖励以及新的状态；

S3，将状态转化过程放入经验缓存空间；判断经验缓存空间中缓存的经验数量是否达到要求，若达到要求，则执行S4，进行深度强化学习；

S4，在经验缓存空间中采样预设数量的状态转移数据作为训练深度神经网络的训练数据，以对深度神经网络进行训练；

S5，计算评估网络目标值，计算损失函数值，更新评估网络参数；

S6，更新目标网络参数；

S7，在算法收敛或达到最大迭代次数时，算法终止，获取智能体最优动作。

进一步地，所述深度神经网络为深度强化学习DRL中双重深度Q网络DDQN。

进一步地，在所述S2中，智能体根据当前状态和决策策略，将当前状态输入到主网络中，输出每个动作对应的Q值，进行比较，依据ε-贪婪算法在动作空间中选择动作；其中，动作的选取需要借助所构建的DNN，所述DNN为双重Q网络，包括评估网络和目标网络两个神经网络，两者结构相同而参数不同。

进一步地，在所述S2中，即时奖励的获取需要满足三个条件：每个用户在每个时隙是否达到最低用户速率；RIS波束赋形矩阵设计是否满足无源发射；UAV总能耗是否满足能量限制；其中，即时奖励的表达式为：

r_t＝αR(t)+βE_UAV(t)

式中，r_t表示所获取的即时奖励，R(t)表示所服务用户速率之和，E_UAV(t)表示UAV能量消耗值，α,β表示权重系数。

进一步地，在所述S5中，采用均方误差损失函数更新评估网络参数；在所述S6中，每隔预设步对目标网络参数进行更新，以保证目标网络参数的稳定性。

另一方面，本发明还提供了一种无人机搭载RIS辅助通信系统容量优化装置，该无人机搭载RIS辅助通信系统容量优化装置包括：

通信系统建模模块，用于以无人机UAV搭载RIS充当中继，构建UAV搭载RIS辅助通信系统；

问题描述模块，用于将UAV搭载RIS辅助通信系统的系统容量优化问题转化为具有用户速率保障和UAV能量消耗约束的UAV轨迹和RIS波束赋形矩阵优化问题；

深度强化学习模块，用于基于深度强化学习算法，获取最优UAV轨迹和最优RIS波束赋形矩阵，以在满足用户最低目标数据速率和UAV能量消耗约束下，实现系统容量最大化。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明以最大化系统容量为目标，基于深度强化学习提出了一种UAV搭载RIS辅助通信的通信系统容量优化方法。将UAV-RIS辅助NOMA场景中的系统容量优化问题转化为具有用户速率保障和能量消耗约束的UAV轨迹和RIS波束赋形矩阵优化问题。借助深度神经网络(DNN)的参数化功能，通过深度强化学习(DRL)中双重深度Q网络(DDQN)算法训练智能体，根据环境状态和奖励，获取相应的动作及策略，通过经验回放的方式来存储智能体的环境状态、动作、回报等信息以实现无模型训练。通过迭代循环证明基于DDQN的UAV轨迹和RIS相移矩阵联合优化方法的独特性，最终实现UAV-RIS辅助NOMA网络系统容量优化的整体经济效益。从而通过优化UAV轨迹和RIS波束赋形矩阵，在解决轨迹和相移问题的同时，可在能耗约束下，实现系统容量最大化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的无人机搭载RIS辅助通信系统容量优化方法的执行流程示意图；

图2是本发明实施例提供的UAV搭载RIS辅助NOMA网络架构图；

图3是本发明实施例提供的基于深度强化学习算法获取最优UAV轨迹和最优RIS波束赋形矩阵的算法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种无人机搭载RIS辅助通信系统容量优化方法，主要是用于无人机(UAV)搭载智能反射表面(RIS)辅助的非正交多址接入(NOMA)下行链路场景下，目的在于改变传统的UAV辅助通信的轨迹优化和能量限制问题，引入前沿的RIS技术，提供一种基于深度强化学习的UAV搭载RIS辅助通信的UAV轨迹和RIS波束赋形矩阵优化的方法。主要是在采用UAV搭载RIS进行辅助通信的场景下，通过同时优化UAV轨迹和RIS波束赋形矩阵，并使用深度强化学习(DRL)中双重深度Q网络(DDQN)算法进行学习，从而达到满足小区内用户最低目标数据速率，在能耗约束下实现系统容量最大化。

本方法的主要思想是，对于基站信号覆盖受阻碍的区域，通过UAV搭载RIS建立虚拟视距增强网络覆盖，在接收端采用连续干扰技术解码期望信号，消除用户对间的同信道干扰，也即消除小区内簇内干扰；并采用深度强化学习对UAV轨迹和RIS的波束赋形矩阵进行优化，保证用户最低速率，在UAV能效消耗约束下，最大化系统容量。从而提高网络覆盖和系统容量。

本实施例的无人机搭载RIS辅助通信系统容量优化方法可以由电子设备实现，该方法的执行流程如图1所示，包括以下步骤：

S1，以无人机UAV搭载RIS充当中继，构建UAV搭载RIS辅助通信系统；

具体地，在本实施例中，UAV搭载RIS辅助NOMA网络架构如图2所示，单天线基站服务L个簇的用户，UAV搭载IRS充当中继，RIS具有N个元件进行相移，每个簇内有两个单天线用户，用户接收到的信号分为两部分，分别来自基站和RIS反射，而且在用户对间采用连续干扰消除技术，消除同信道干扰。

S2，将UAV搭载RIS辅助通信系统的系统容量优化问题转化为具有用户速率保障和UAV能量消耗约束的UAV轨迹和RIS波束赋形矩阵优化问题；

S3，基于深度强化学习算法，获取最优UAV轨迹和最优RIS波束赋形矩阵，以在满足用户最低目标数据速率和UAV能量消耗约束下，实现系统容量最大化。

具体地，在本实施例中，上述S3为：以最大化系统容量为目标，通信系统充当环境，搭载RIS的UAV充当智能体，利用深度强化学习算法训练智能体，获取所述智能体的最优动作；其中，所述智能体的动作包括：RIS波束赋形矩阵相移偏转和UAV轨迹移动。其中，需要说明的是，在采用深度强化学习算法进行UAV轨迹和RIS波束赋形矩阵设计的过程中，考虑到真实环境下系统状态的动态变化，本实施例将系统状态建模为一阶马尔可夫决策模型。其中，评估网络用于估计状态动作值，将选择的动作和转化的下一状态代入目标网络进行求解。评估网络和目标网络具有相同的网络结构，但是其参数设置不同。通信系统充当环境，UAV-RIS充当智能体。采用的深度神经网络为深度强化学习DRL中双重深度Q网络DDQN。算法具体步骤如图3所示，包括以下步骤：

S31，初始化无线设备、用户、深度神经网络内的各项参数以及智能体环境信息；其中，深度神经网络参数包括评估网络和目标网络的参数θ和θ′；智能体环境信息包括智能体动作空间A、状态空间S以及经验缓存空间D等；

具体地，本实施例将用户设备、UAV轨迹，RIS波束赋形矩阵及信道状态资源建模为有限状态马尔可夫模型，同时该系统是一个离散时隙系统。在同一时刻内，系统状态不发生变化。下一时刻系统由智能体基于行为策略产生。同时创建一个评估神经网络拷贝作为目标神经网络用于网络学习及参数更新。

此外，为了不失一般性，RIS的每个元件初始相移从[0,2π]随机选择。

S32，在每一次迭代，首先计算信道状态信息，智能体获取当前信道状态信息，根据行为策略选择动作a_t并执行，动作包括RIS波束赋形矩阵相移偏转和UAV轨迹移动；执行动作后，根据与环境的交互，返回奖励r_t以及新的状态s_t+1；

具体地，在本实施例中，智能体根据当前状态和决策策略，将当前状态输入到主网络中，输出每个动作对应的Q值。进行比较，依据ε-贪婪算法在动作空间中选择动作，包括UAV位置的移动和RIS波束赋形矩阵的调整。其中，动作的选取需要借助所构建的DNN，该DNN为双重Q网络，包括评估网络和目标网络两个神经网络，两者结构相同而参数不同。

其中，即时奖励的获取需要进行以下三大条件的判断：

1)每个用户在每个时隙是否达到最低用户速率；

2)RIS波束赋形矩阵设计是否满足无源发射；

3)UAV总能耗是否满足能量限制。

根据环境获得即时奖励，即时奖励表达式为：

r_t＝αR(t)+βE_UAV(t)

对于约束条件1，需要计算

其中，SINR_l,i(t)由以下公式计算：

其中，

表示第l个簇的第i个用户的信道增益，RIS波束赋形矩阵为

θ_n∈[0,2π]，β_n∈[0,1]，

为加性高斯白噪声。具体地：

分别表示用户和基站之间的信道增益、基站和UAV-RIS之间的信道增益、UAV-RIS和用户之间的信道增益，其中包含单位参考路径损耗ρ₀、莱斯因子K、视距与非视距分量和各项距离d。

对于约束条件2，需满足

保证RIS进行无源反射。

对于约束条件3，需满足E_UAV≤E_MAX，E_MAX为UAV最大能耗，E_UAV为UAV当前能耗。

S33，将状态转化过程(s_t,a_t,r_t,s_t+1,end_j)放入经验缓存空间D；判断缓存的经验数量是否达到要求，若达到要求，则执行S4，即进行深度强化学习；

S34，在经验缓存空间中采样N_b个小批量组的状态转移数据{s_j,a_j,r_j,s′_j,end_j}作为训练深度神经网络的训练数据，以对深度神经网络进行训练；

具体地，在本实施例中，从经验缓存空间中随机抽取小批量的经验样本，作为训练深度神经网络的训练数据，用作评估网络和目标网络的训练。

S35，计算评估网络目标值，通过最小化均方误差损失函数更新评估网络参数；

具体地，在本实施例中，Q网络的LOSS定义为：

其中，θ_i为评估网络参数，

r为即时奖励，γ为折扣因子。

S36，更新目标网络参数；

具体地，在本实施例中，每隔N_r步对目标网络参数进行更新，以保证目标网络参数的稳定性。更新方式为将评估网络参数传递给目标网络。

S37，获取最优UAV轨迹和最优RIS波束赋形矩阵；

具体地，每次迭代周期，算法收敛或者达到最大迭代次数，算法终止。最优UAV轨迹和最优RIS波束赋形矩阵由具有最优长期奖励的动作组得。

综上，本实施例针对NOMA网络下行链路系统容量进行优化，利用UAV搭载RIS进行辅助通信，根据通信服务需求，进行信道估计计算产生对应UAV轨迹移动以及RIS波束赋形矩阵，通过灵活控制UAV轨迹移动和RIS波束赋形矩阵相移偏转，同时通过DDQN算法进行UAV轨迹和RIS波束赋形矩阵的最优设计。本实施例方法的重点是利用UAV搭载RIS辅助NOMA网络下行链路通信，同时采用深度强化学习设计UAV轨迹和RIS波束赋形矩阵优化算法，保证小区用户最低数据速率，在能耗约束下实现系统容量最大化。

第二实施例

本实施例提供了一种无人机搭载RIS辅助通信系统容量优化装置，该无人机搭载RIS辅助通信系统容量优化装置包括以下模块：

本实施例的无人机搭载RIS辅助通信系统容量优化装置与上述第一实施例的无人机搭载RIS辅助通信系统容量优化方法相对应；其中，本无人机搭载RIS辅助通信系统容量优化装置中的各功能模块所实现的功能与上述无人机搭载RIS辅助通信系统容量优化方法中的各流程步骤一一对应；故，在此不再赘述。

第三实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种无人机搭载RIS辅助通信系统容量优化方法，其特征在于，包括：

以无人机UAV搭载RIS充当中继，构建UAV搭载RIS辅助通信系统；

基于深度强化学习算法，获取最优UAV轨迹和最优RIS波束赋形矩阵，以在满足用户最低目标数据速率和UAV能量消耗约束下，实现系统容量最大化；

在所述UAV搭载RIS辅助通信系统中，接收端采用连续干扰技术解码期望信号，以消除用户对间的同信道干扰；

基于深度强化学习算法，获取最优UAV轨迹和最优RIS波束赋形矩阵，包括：

以最大化系统容量为目标，通信系统充当环境，搭载RIS的UAV充当智能体，利用深度强化学习算法训练智能体，获取所述智能体的最优动作；其中，所述智能体的动作包括：RIS波束赋形矩阵相移偏转和UAV轨迹移动；

在采用深度强化学习算法进行UAV轨迹和RIS波束赋形矩阵设计时，针对真实环境下系统状态的动态变化，将系统状态建模为有限状态马尔可夫模型；

以最大化系统容量为目标，通信系统充当环境，搭载RIS的UAV充当智能体，利用深度强化学习算法训练智能体，获取所述智能体的最优动作，包括：

S6，更新目标网络参数；

S7，在算法收敛或达到最大迭代次数时，算法终止，获取智能体最优动作；

所述深度神经网络为深度强化学习DRL中双重深度Q网络DDQN；

在所述S2中，智能体根据当前状态和决策策略，将当前状态输入到主网络中，输出每个动作对应的Q值，进行比较，依据ε-贪婪算法在动作空间中选择动作；其中，动作的选取需要借助所构建的DNN，所述DNN为双重Q网络，包括评估网络和目标网络两个神经网络，两者结构相同而参数不同；

在所述S2中，即时奖励的获取需要满足三个条件：每个用户在每个时隙是否达到最低用户速率；RIS波束赋形矩阵设计是否满足无源发射；UAV总能耗是否满足能量限制；其中，即时奖励的表达式为：

r_t＝αR(t)+βE_UAV(t)

式中，r_t表示所获取的即时奖励，R(t)表示所服务用户速率之和，E_UAV(t)表示UAV能量消耗值，α,β表示权重系数；

在所述S5中，采用均方误差损失函数更新评估网络参数；在所述S6中，每隔预设步对目标网络参数进行更新，以保证目标网络参数的稳定性。

2.一种无人机搭载RIS辅助通信系统容量优化装置，其特征在于，包括：

深度强化学习模块，用于基于深度强化学习算法，获取最优UAV轨迹和最优RIS波束赋形矩阵，以在满足用户最低目标数据速率和UAV能量消耗约束下，实现系统容量最大化；

S6，更新目标网络参数；

所述深度神经网络为深度强化学习DRL中双重深度Q网络DDQN；

r_t＝αR(t)+βE_UAV(t)