CN112019249A

CN112019249A - 一种基于深度强化学习的智能反射面调控方法及装置

Info

Publication number: CN112019249A
Application number: CN202011135884.3A
Authority: CN
Inventors: 龚世民; 陈希雨; 林嘉烨; 谭源正
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2020-12-01
Anticipated expiration: 2040-10-22
Also published as: CN112019249B

Abstract

本发明提供了一种基于深度强化学习的智能反射面调控方法及装置，其中方法包括：策略网络根据第一状态生成第一动作；将幅值固定并输入优化模块，更新第一动作得到第二动作，同时得到第一目标值；将第二动作作用于无线环境得到第二状态，得到一个新样本并存入经验池；策略网络和价值网络根据样本进行DDPG训练，执行者利用策略梯度方法更新其参数；根据第一目标值和目标Q网络产生的第二目标值确定第三目标值，根据第三目标值训练在线Q网络的DNN并更新其参数；重复执行上述步骤直至发射功率的变化幅度小于预设的阈值，得到最小化AP发射功率的网络参数并输出。本发明能在更短的时间内实现稳定且高效地学习，可以更快地收敛到最优目标。

Description

一种基于深度强化学习的智能反射面调控方法及装置

技术领域

本发明涉及无线通信网络技术领域，尤其是涉及一种基于深度强化学习的智能反射面的调控方法及装置。

背景技术

目前，IRS被认为是一种非常具有潜力和发展前景的技术，IRS由大量无源反射元件组成，这些元件相互连接并由嵌入式IRS控制器进行控制它可以用于提高无线通信的能量和频谱效率。通过对所有反射元件的复反射系数进行联合控制，即被动波束成形，增强接收器的信号强度。IRS的被动波束成形技术以及收发器的传输控制技术可以进一步提高网络性能。IRS已应用于各种场景中，其在无线通信中扮演着不同的角色，例如环境反射器，信号发送器甚至接收器。IRS的使用旨在提高信噪比（SNR）或频谱效率，改善功耗或能量效率以及增强安全性。IRS还可用于增强无线功率传输、移动边缘计算和车辆通信等。

现有技术通常基于交替优化（AO）框架，并保证收敛至次优解决方案。在AO框架的每次迭代中，通常需要使用半定松弛（SDR）或凸近似来优化主动或被动波束成形。作为一种启发式方法，我们无法准确知道AO方法的性能损失，并且难以准确地进行表征。此外，优化方法还存在一些实际困难。随着IRS散射元素的尺寸变大，AO方法的计算复杂度可能会显著增加，这使得相关技术在动态环境中难以实施。同时，基于机器学习的技术虽也有应用，尽管DRL方法可以从头开始学习最佳策略，但通常收敛速度慢。

发明内容

本发明的目的是提供一种基于深度强化学习的智能反射面的调控方法及装置，以解决传统的深度强化学习方法学习效率较低、稳定性较差的技术问题。

本发明的目的，可以通过如下技术方案实现：

一种基于深度强化学习的智能反射面调控方法，包括：

S1：策略网络根据无线环境的状态即第一状态生成第一动作；其中，所述第一动作包括发射端的波束成形策略、反射元的反射相位及反射元的幅值；

S2：将所述幅值固定并输入基于模型的优化模块，更新所述第一动作得到第二动作，同时得到第一目标值；其中，所述第一目标值为优化模块确定的优化问题目标值的下界；

S3：将所述第二动作作用于无线环境得到第二状态，得到一个新的样本并存入经验池；其中，所述样本由所述第一状态、所述第二动作、第二动作的即时奖励及所述第二状态组成；

S4：策略网络根据所述经验池的样本进行DDPG训练，当前执行者利用策略梯度方法更新其参数；

S5：价值网络根据所述经验池的样本进行DDPG训练，根据所述第一目标值和第二目标值确定第三目标值，根据所述第三目标值训练在线Q网络的DNN并更新其参数；其中，第二目标值为目标Q网络产生的优化问题目标值；

S6：重复执行S1-S5直至发射端发射功率的变化幅度小于预设的阈值，得到满足用户特定信噪比约束的前提下，最小化AP发射功率的网络参数，输出当前状态的波束成形策略、反射元的反射相位及反射元的幅值。

可选地，还包括：发射端通过下行控制信道将波束成形策略、反射元的反射相位及反射元的幅值发送至网络设备。

可选地，步骤S2中更新所述第一动作得到第二动作具体为：通过优化模块更新第一动作中的波束成形策略及反射元的反射相位得到第二动作；其中，所述第一动作和所述第二动作的幅值相同。

可选地，S5中根据所述第一目标值和第二目标值确定第三目标值具体为：选择所述第一目标值和第二目标值中的较大值作为第三目标值。

可选地，还包括：所述智能反射面利用集成的射频能量收集器，从发射端发射的波束成形信号中获取射频能量，所述能量驱动智能反射面的控制功能。

本发明还提供了一种基于深度强化学习的智能反射面调控装置，包括：

第一动作生成模块，用于策略网络根据无线环境的状态即第一状态生成第一动作；其中，所述第一动作包括发射端的波束成形策略、反射元的反射相位及反射元的幅值；

动作更新模块，用于将所述幅值固定并输入基于模型的优化模块，更新所述第一动作得到第二动作，同时得到第一目标值；其中，所述第一目标值为优化模块确定的优化问题目标值的下界；

样本更新模块，将所述第二动作作用于无线环境得到第二状态，得到一个新的样本并存入经验池；其中，所述样本由所述第一状态、所述第二动作、第二动作的即时奖励及所述第二状态组成；

策略网络训练模块，用于策略网络根据所述经验池的样本进行DDPG训练，当前执行者利用策略梯度方法更新其参数；

价值网络训练模块，用于价值网络根据所述经验池的样本进行DDPG训练，根据所述第一目标值和第二目标值确定第三目标值，根据所述第三目标值训练在线Q网络的DNN并更新其参数；其中，第二目标值为目标Q网络产生的优化问题目标值；

重复执行及输出模块，重复执行直至发射端发射功率的变化幅度小于预设的阈值，得到满足用户特定信噪比约束的前提下，最小化AP发射功率的网络参数，输出当前状态的波束成形策略、反射元的反射相位及反射元的幅值。

可选地，还包括：

网络参数发送模块，用于发射端通过下行控制信道将波束成形策略、反射元的反射相位及反射元的幅值发送至网络设备。

可选地，所述动作更新模块更新所述第一动作得到第二动作具体为：通过优化模块更新第一动作中的波束成形策略及反射元的反射相位得到第二动作；其中，所述第一动作和所述第二动作的幅值相同。

可选地，价值网络训练模块根据所述第一目标值和第二目标值确定第三目标值具体为：选择所述第一目标值和第二目标值中的较大值作为第三目标值。

可选地，还包括：射频能量收集模块，用于所述智能反射面利用集成的射频能量收集器，从发射端发射的波束成形信号中获取射频能量，所述能量驱动智能反射面的控制功能。

本发明提供了一种基于深度强化学习的智能反射面调控方法及装置，其中，方法包括：S1：策略网络根据无线环境的状态即第一状态生成第一动作；其中，所述第一动作包括发射端的波束成形策略、反射元的反射相位及反射元的幅值；S2：将所述幅值固定并输入基于模型的优化模块，更新所述第一动作得到第二动作，同时得到第一目标值；其中，所述第一目标值为优化模块确定的优化问题目标值的下界；S3：将所述第二动作作用于无线环境得到第二状态，得到一个新的样本并存入经验池；其中，所述样本由所述第一状态、所述第二动作、第二动作的即时奖励及所述第二状态组成；S4：策略网络根据所述经验池的样本进行DDPG训练，当前执行者利用策略梯度方法更新其参数；S5：价值网络根据所述经验池的样本进行DDPG训练，根据所述第一目标值和第二目标值确定第三目标值，根据所述第三目标值训练在线Q网络的DNN并更新其参数；其中，第二目标值为目标Q网络产生的优化问题目标值；S6：重复执行S1-S5直至发射端发射功率的变化幅度小于预设的阈值，得到满足用户特定信噪比约束的前提下，最小化AP发射功率的网络参数，输出当前状态的波束成形策略、反射元的反射相位及反射元的幅值。

本发明提供的基于深度强化学习的智能反射面调控方法及装置，带来的有益效果是：

通过优化驱动的深度强化学习方法，学习效率有了较为显著的提升，同时能够获得更优的传输功率、更加稳定的学习性能和更快的收敛速度；优化驱动的深度强化学习方法，能在更短的时间内实现稳定且高效地学习，可以更快的收敛到最优目标。

附图说明

图1为传统DQN算法的示意图；

图2为本发明一种无线网络的智能反射面调控方法及装置的优化驱动的DQN算法的示意图；

图3为传统DDPG算法的示意图；

图4为本发明一种无线网络的智能反射面调控方法及装置的优化驱动的DDPG算法的示意图；

图5为本发明一种无线网络的智能反射面调控方法及装置的反射面调控算法的流程示意图；

图6为本发明一种无线网络的智能反射面调控方法及装置的IRS辅助的多输入单输出系统的结构示意图；

图7为本发明一种无线网络的智能反射面调控方法及装置的两种算法仿真例性能对比示意图1；

图8为本发明一种无线网络的智能反射面调控方法及装置的两种算法仿真例性能对比示意图2；

图9为本发明一种无线网络的智能反射面调控方法及装置的两种算法仿真例性能对比示意图3。

具体实施方式

本发明实施例提供了一种基于深度强化学习的智能反射面的调控方法及装置，以解决传统的深度强化学习方法学习效率较低、稳定性较差的技术问题。

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

即将到来的第五代（5G）无线网络已实现了1000倍网络容量增加和至少1000亿个设备的普遍无线连接目标。然而，所需的高复杂度和硬件成本以及增加的能耗仍然是关键问题。因此，研究如何为无线网络找到创新、节能且经济高效的解决方案势在必行。5G物理层技术通常能够适应空间和时间变化的无线环境，但信号传播本质上是随机的，在很大程度上是不可控制的。基于上述原因，智能反射面（IRS）被认为是一种很有前途的新技术。

IRS辅助的无线通信系统中，关键设计问题通常表述为主动和被动波束成形的联合优化，但由于问题结构的非凸性，相关的解决方法通常基于交替优化（AO）框架，能够保证收敛至次优解决方案。在AO框架的每次迭代中，通常需要使用半定松弛（SDR）或凸近似来优化主动或被动波束成形。作为一种启发式方法，很难准确预估AO方法的性能损失，并且难以准确地进行表征。

随着IRS散射元素的尺寸变大，AO方法的计算复杂度可能会显著增加，这使得相关技术在动态环境中难以实施。其次，相关方法实际上是基于不精确的系统建模来进行波束成形优化的，问题的重新形成或近似进一步导致了所得结果与最佳方案之间的偏差。与优化方法不同，机器学习方法对不确定的系统模型具有更强的鲁棒性，并且已被应用于IRS辅助的无线系统中以实现IRS的相位控制。

对于IRS辅助无线通信系统的优化，需要联合主动波束成形和被动波束成形。由于信道条件存在有不确定性，并且所求解的问题非凸，因此常规的交替优化（AO）框架性能表现不佳。

现有的深度强化学习框架收敛速度较慢且容易收敛至局部最优解。传统的深度强化学习方法采用深度神经网络(DNN)来估计目标Q值，为了确保更好的收敛性能，目标Q网络（Target Q-network）是根据以下规则从在线Q网络（Online Q-network）进化而来：

，

其中，

表示在线Q网络的DNN的参数，

是一个小的步长。这意味着在线Q网络和目标Q网络之间存在很强的耦合。在学习的早期阶段，在线Q网络和目标Q网络被随机初始化，容易偏离其最优值，从而误导学习过程。参数复制中的如何选择参数

也至关重要，较小的

可以稳定学习，但会减缓学习，而较大的

表明在线Q网络和目标Q网络之间有很强的相关性，导致学习性能波动甚至发散。

现有技术没有充分考虑深度强化学习在IRS辅助无线通信中的应用。为了提高学习性能，本发明提供的基于深度强化学习的智能反射面调控方法，是一种优化驱动的深度强化学习（DRL）方法，将高效的优化方法集成到传统的深度强化学习框架中，能够提高学习效率，从而形成了一种全新的优化驱动的深度强化学习方法，可以根据过去的经验来调整波束成形策略。

以下为本发明一种基于深度强化学习的智能反射面调控方法的实施例，包括：

S101：策略网络根据无线环境的状态即第一状态生成第一动作；其中，所述第一动作包括发射端的波束成形策略、反射元的反射相位及反射元的幅值；

S102：将所述幅值固定并输入基于模型的优化模块，更新所述第一动作得到第二动作，同时得到第一目标值；其中，所述第一目标值为优化模块确定的优化问题目标值的下界；

S103：将所述第二动作作用于无线环境得到第二状态，得到一个新的样本并存入经验池；其中，所述样本由所述第一状态、所述第二动作、第二动作的即时奖励及所述第二状态组成；

S104：策略网络根据所述经验池的样本进行DDPG训练，当前执行者利用策略梯度方法更新其参数；

S105：价值网络根据所述经验池的样本进行DDPG训练，根据所述第一目标值和第二目标值确定第三目标值，根据所述第三目标值训练在线Q网络的DNN并更新其参数；其中，第二目标值为目标Q网络产生的优化问题目标值；

S106：重复执行S1-S5直至发射端发射功率的变化幅度小于预设的阈值，得到满足用户特定信噪比约束的前提下，最小化AP发射功率的网络参数，输出当前状态的波束成形策略、反射元的反射相位及反射元的幅值。

具体的，本实施例提供的基于深度强化学习的智能反射面调控方法，其中，优化驱动的强化学习算法的基本思想是，对复杂控制问题进行的分而治之（Divide andconquer）。将复杂耦合的调控变量划分成两部分，一部分变量采用外层的强化学习机制获取，另一部分基于优化得到。给定外层变量，内层变量通过近似优化问题快速求解；近似问题的目标函数值可用于提供一个新的目标参考值，用于指导外层深度强化学习算法的迭代更新。

例如，IRS的控制需要联合优化波束成形策略

、IRS反射元的相位

以及每个反射元的反射系数

。优化过程中参数耦合，增加了求解的难度，本实施例提出的算法将凸逼近作为鲁棒问题的下界，将其集成到DRL框架中，从而形成一种新颖的优化驱动的深度确定性策略梯度（DDPG）方法。

具体的，actor和critic网络首先独立地生成动作和价值评估。actor生成动作

，然后，算法将action中

固定，将其输入基于模型的优化模块。

就是外层变量，

和

是内层变量，通过优化模块，得到新的波束成形策略

和新的反射元的反射相位

，此时action得以更新参数，即

。

同时，优化模块评估优化问题的下界

，采用两个目标值

和

中较大的目标值作为强化学习的参考值，即本实施例中使用

和

中较大的值作为DNN训练的目标值。这种机制可以帮助DDPG算法在早期更快地适应。

此外，优化驱动的目标值

是独立于critic网络的，这说明在线Q网络训练过程中，目标值

比目标Q网络输出

更稳定。这种在线Q网络与目标解耦的方法可以减少训练中的性能波动，从而在更短的时间内实现稳定且高效地学习。

由于高维控制变量同时存在离散和连续变量，实际中难以最优求解，通常采用现有的商用软件包，依赖于很强的计算能力。当变量数量增加时，传统优化方法计算复杂度急剧提升，耗时增加。本实施例中，针对复杂的混合整数变量控制问题，将离散变量剥离，采用外层DQN算法，内层针对连续变量采用DDPG算法。本实施例通过变量分离及层叠式架构，有效降低变量搜索空间，提高学习效率。

请参阅图1-图2，传统DQN算法结构如图1所示，优化驱动的DQN算法结构如图2所示。在线Q网络在获得检测的环境状态变量

后，产生离散动作变量

，

属于外层变量，然后将

输入到基于模型的优化模块，由于优化模块是基于模型的，所以能够快速地根据模型中的变量关系或约束得到另外的变量

，即连续变量，将离散变量

和连续变量

混合就得到实际执行的动作变量

。动作作用于环境，使得状态产生变化，就能得到一个新的样本，将新样本收录到经验回放池里。

具体的，新的样本包括检测的环境状态变量

、实际执行的动作变量

、动作变量的即时奖励

和更新后的环境状态变量

，组成向量

存入经验池中，若经验池中的样本数量达到容量上限，则新增加的样本取代经验池中最早的一条记录。

值得说明的是，优化驱动的DQN算法中的奖励函数基于系统状态以及对应执行的动作，对目标值进行价值评估，用于指导动作的整体走势。算法的最终目的在于根据奖励函数，找到最大化奖励的一个策略。

步骤S104中，策略网络从所述经验池中随机采样小批量的样本进行DDPG训练，当前actor采用策略梯度方法更新其参数。

步骤S105中，价值网络从所述经验池中随机采样小批量的样本进行DDPG训练；目标Q网络根据样本产生优化问题目标值作为第二目标值，根据所述第一目标值和目标Q网络得到的第二目标值以一定的规则确定第三目标值，根据所述第三目标值训练在线Q网络的DNN并更新其参数。

具体的，

是由优化模块确定的目标Q值的下界，目标Q网络生成的目标Q值是

，两者比较大小，选取较大的值作为最终目标值

，这体现在图2中目标值区域，最终目标值

用于DNN训练，并用于更新在线Q网络参数。结果是优化驱动的DQN比无模型的DQN算法收敛得更快，并且在AP的发射功率方面取得了显著的性能改进。

由于复杂问题的控制变量通常是高维的，通过经典的优化方法计算是非常复杂的。然而，给定一部分决策变量，另一部分可以很容易地通过利用它们的结构连接在一个近似问题中进行优化。因此，本实施例中，主要设计原则是将控制变量分成两部分，第一部分通过在外环ML方法中学习，例如DQN或DDPG算法，可以减小搜索空间；而另一部分则是通过基于模型的优化方法可以立即求解得到。

本实施例中通过以更多的物理信息（例如，从经验上或理论近似中得到的数学模型）和独立的计算方式（即通过解耦在线Q网络和目标Q网络）估计目标Q值来稳定和加快学习过程。优化驱动的目标

与在线Q网络无关，是优化模块在原始问题上提供的一个可实现的下界，所以它比来自目标Q网络的输出

更稳定。这种在线和目标Q网络之间的解耦再加上目标Q值比较生成最终目标值这一环节，这可以减少训练中的性能波动，从而可在较短的训练时间内稳定学习并提高学习效率。

具体的，本实施例将控制变量中的离散变量剥离，从而分成两部分变量，第一部分变量在外层的在线Q网络中就可得到，因为外层处理的控制变量的维度减少，所以降低了变量搜索空间，而剩余变量问题在优化模块解决。由于优化模块是基于现有数学模型的，通过求解优化问题可以快速给出优化后的动作变量。基于上述两方面的设计，优化驱动的DQN算法（Optimization-driven DQN）可以有效降低变量搜索空间，提高学习效率。

值得说明的是，对于内层的连续变量优化问题，同样存在复杂度高的问题，难以通过强化学习收敛到最优目标。本实施例针对高维的连续变量控制问题，同样对内层优化子问题采用分而治之的思想，将连续控制变量分成2组。第一组变量用于DDPG的学习，另一组变量则基于近似优化方法获取。在给定第一组变量的条件下，通过变量之间的物理关联，构建能够有效求解的优化问题，通过求解优化问题，一次性获取最优的第二组控制变量。

具体的，请参阅图3和图4，物理关联指通过信道质量约束、用户信噪比约束等各类特定场景下的模型约束，对于第二组变量进行建模分析。基于对应的使用场景，选择需要进行优化的变量。传统DDPG算法结构如图3所示，优化驱动的DDPG算法结构如图4所示。优化驱动的DDPG算法中，actor和critic网络首先独立地生成动作和价值评估。actor生成动作

，

然后，算法将action中

固定，将其输入基于模型的优化模块。

就是外层变量，通过优化模块，得到新的波束成形策略

，

和

是内层变量，此时action得以更新参数，即

。动作作用于环境，使得状态产生变化，就能得到一个新的样本，新样本会收录到经验回放池里。

同时，优化模块评估优化问题的下界

，目标Q网络生成的目标Q值

，采用两个目标值

和

中较大的目标值作为强化学习的参考值，即我们使用

和

中较大的值作为在线Q网络的DNN训练的目标值，并更新其参数。优化的目的和优化驱动的DQN一样，这种变量分层和内层基于模型优化机制可以帮助DDPG算法在早期更快地适应。

此外，优化驱动的目标值

是独立于critic网络的，这说明在线Q网络训练过程中，目标值

比目标Q网络输出

更稳定。这种在线Q网络与目标解耦的方法可以减少训练中的性能波动，从而在更短的时间内实现稳定且高效地学习，可以更快的收敛到最优目标。

请参阅图5，本实施例提供了基于深度强化学习的反射面调控算法，针对智能反射面通信网络，其设计目标在于，基于信道条件自适应调整IRS反射元的相移

和幅值

以及AP的波束成形策略

，在满足用户特定的接收信噪比的前提下，最小化AP的发射功率。

具体的，本实施例基于深度强化学习算法，在迭代过程中不断根据过去的经验和当前的信道条件，在可行域内对IRS的相移、幅值以及AP的波束成形策略进行随机取值。然后在第

次迭代中，固定IRS的幅值

，基于优化模块产生

和

，以及目标参考值

。将优化模块得到的值作为深度强化学习随机取值的一个参考，从而避免盲目搜索的困境。随着迭代的进行，AP的发射功率将会不断降低，最后收敛至一个稳定值。当AP的发射功率的变化值小于一个极小值时，迭代更新结束，得到最后的结果。

具体的，请参阅图5，图5中的箭头分别表示下列意义：

(1):将信道条件作为状态

输入到策略网络当中，算法开始执行。

⑵：算法中的actor生成对应的动作，分别为IRS反射元的相移

、幅值

以及AP的波束成形策略

。在第

次迭代中，固定IRS的幅值

，将其作为优化模块的输入值。

⑶：基于固定的IRS的幅值

，输入到优化模块。

⑷：基于模型的优化模块利用控制变量之间的物理关联在得到

后快速求解，产生

和

，以及目标参考值

。

⑸：将优化模块得到的值

作为深度强化学习随机取值的一个参考，待与

进行比较，比较后得到更适合训练网络的目标Q值。

⑹：优化模块产生的新的

和

与⑶中所述固定的幅值

组合，从而更新了最终执行的动作。

⑺：基于更新后的动作产生新的信道条件，更新状态空间。

⑻：将⑴中状态、⑵中动作、⑵中动作的即时奖励、⑺中新的状态组成一个样本存入经验池中。若经验池中的样本数量达到容量上限，则新增加的样本取代经验池中最早的一条记录。

⑼：从经验池中随机采样指定数量的样本进行DDPG训练。

⑽：策略网络用⑼中取出的样本训练actor。

⑾：价值网络用⑼中取出的样本训练在线Q网络和目标Q网络。

⑿：目标Q网络通过采样的样本训练得到

。

⒀：取目标参考值

和目标Q网络生成的目标值

中的较大值作为最终目标值

，

用于在线Q网络DNN训练和更新其网络参数，避免训练过程出现盲目搜索的困境。

⒁：actor用策略梯度方法更新其参数。

⒂：深度强化学习需要在满足用户信噪比约束的前提下，尽可能最小化AP的发射功率。当获得的发射功率的变化量小于一个极小值之后，迭代过程结束。判断AP的发射功率的变化值是否小于极小值，若是，则网络收敛，完成训练，输出网络参数和⑴中状态下的最优动作；若否，则需继续训练，返回到与环境交互检测当前的状态继续执行⑴-⒂。

为了进一步进行说明，本发明还提供了一种智能反射面（IRS）辅助的多输入单输出（Multiple-input Single-output, MISO）下行通信系统，如图6所示。IRS有N个反射单元，多天线接入点（Access Point, AP）有M个发射天线，用于向单天线接收机发送数据。为了方便模型的建立，仅考虑单用户的情况。通过对不同用户设置不同的信噪比约束，就可以将模型扩展到多用户的场景中。

具体的，假设IRS中反射单元的数量远大于AP天线的数量。令

表示IRS的被动波束成形，其中

表示对角矩阵，对角向量由

给出，故可以将从AP到接收器的等效信道重写为

，其中

表示从多天线接入点(AP)到IRS的信道矩阵。深度强化学习中的智能体基于经验池中的信道条件，给出对应的行动，从而调整IRS反射元的相移

、幅值

以及AP的波束成形策略

。

具体的，由于信号传输过程存在约束并且需要考虑未知的信道条件，因此建立鲁棒优化模型，进行质量评估和信道估计。将用户接收到的信噪比、信号传输过程中的能量消耗等作为约束，在保证信号质量的前提下实现发射功率的最小化。

同时，基于信道的平均估计以及误差边界给出相应的信道估计。将优化的结果作为深度强化学习中网络目标值的一个参考,提高训练过程的收敛速度。如图6右侧所示，AP发射的发射信号，一部分直接传输给接收器，另一部分传输给IRS。通过IRS中的微控制器执行上述优化驱动的深度强化学习算法的结果，进行功率的分割，保证IRS有足够的能量供给自身的无源工作，并且增加接收器收到的信号质量，实现反向散射的预期目标。

具体的，图6中的箭头分别表示下列意义：

①：DRL中的智能体基于经验池中的信道条件，给出对应的行动，做出基于模型的优化估计。

②：算法需要满足用户的信噪比要求，并且尝试最小化AP的输出功率，因此随机修改IRS反射元的相移

、幅值

以及AP的波束成形策略

。AP发射的信号，一部分直接传输给接收器，另一部分传输给IRS。通过IRS中的微控制器执行上述优化驱动的深度强化学习算法的结果，进行功率的分割，保证IRS有足够的能量供给自身的无源工作，并且增加接收器收到的信号质量。

③：由于信号传输过程存在约束并且需要考虑未知的信道条件，因此建立鲁棒优化模型，进行质量评估和信道估计。将用户接收到的信噪比、信号传输过程中的能量消耗等作为约束，在保证信号质量的前提下实现发射功率的最小化。同时，基于信道的平均估计以及误差边界给出相应的信道估计。

④：将优化的结果作为深度强化学习中网络目标值的一个参考,提高训练过程的收敛速度。

⑤：基于新的动作得出新的状态，将其存入经验库中，为后续的迭代提供帮助。

IRS辅助的多输入单输出(MISO)下行通信系统，其调控目标为：用

表示AP采用的波束成形向量，将噪声的方差归一。该系统联合调控的目标即是最大化接收信噪比(SNR)：

。

下行通信系统的约束条件为：IRS集成了一个射频能量收集器，能够从AP发射的波束成形信号中获取射频能量。在给定初始反射系数以及可控的变化范围后，通过深度学习的方法在可行域内进行随机探索，从而筛选出反射单元的最优反射系数

,一部分

的入射信号功率被反射到接收机，同时另一部分

被能量收集器转化为直流电。为了维持IRS的运行，收集的总能量必须满足IRS的总功耗：

，其中

表示功率收集系数，

表示AP到第n个反射元的信道向量的共轭转置，

表示IRS中反射元的总数量，

表示每个反射单元的功耗。

具体的，IRS辅助的多输入单输出(MISO)下行通信系统，该问题的调控变量为三个高维向量：

。其中

表示第

次迭代中AP的主动波束成形策略，

和

分别表示第

次迭代中IRS反射元的反射幅值以及对应的相位，三个变量均为连续变量，故采用针对高维连续变量的分而治之方法。actor和critic网络首先独立地生成动作和价值评估。然后，算法将

固定在action中，将其输入基于模型的优化模块。优化模块评估优化问题的下界

，采用两个目标值

（目标网络生成的目标值）和

中较大的目标值作为强化学习的参考值，即使用

作为DNN训练的目标值。同时在action中更新波束成形策略

和反射元的反射相位

，即

。这种机制可以帮助DDPG算法在早期更快地适应。

此外，优化驱动的目标值

是独立于critic网络的，这说明在线Q网络训练过程中，目标值

比目标Q网络输出

两个目标值

和

可以基于不同原则进行合并，例如：

ⅰ最大合并原则：当

时，则使用

作为DDPG训练的目标值，同时更新动作

；当有

时，遵循传统DDPG算法的输出。

ⅱ概率合并原则：当

时，将以更大概率采用

作为DDPG训练的目标值，相应更新动作

。

本实施例中，针对混合整数控制问题的变量划分方法：将离散变量剥离，采用外层DQN算法，内层针对连续变量采用DDPG算法；通过变量分离及层叠式架构，降低变量搜索空间，提高学习效率。

针对高维连续控制问题的变量划分方法：将连续控制变量分成2组：第一组变量用于深度强化学习，另一组变量则基于近似优化方法获取。在给定第一组变量的条件下，通过变量之间的物理关联，构建能够有效求解的优化问题，获取最优的第二组控制变量。

针对IRS通信系统提出的基于深度强化学习的调控方法：算法部署在AP端，通过AP与用户的数据传输，获取无线网络的状态信息，依据上述深度强化学习方法调控变量，再通过下行控制信道，AP将控制变量分发到不同网络设备。

针对IRS提出了能量收集模型：IRS集成有射频能量收集模块，通过控制反射单元的反射信号相位与幅度，同时实现部分信号的反射与能量的收集。收集的能量用于驱动IRS的控制功能。

本实施例提供的基于深度强化学习的智能反射面调控方法，通过优化驱动的深度强化学习方法，学习效率有了较为显著的提升，同时能够获得更优的传输功率、更加稳定的学习性能和更快的收敛速度；优化驱动的深度强化学习方法，能在更短的时间内实现稳定且高效地学习，可以更快的收敛到最优目标。

本实施例的先进性已在仿真实验中得到验证。在仿真中，我们考虑如图6所示网络，以米为单位，节点之间的距离分别设置为

，

，

；信号传播满足对数距离模型，参考点处的路径损耗为

，路径损耗指数为2；设能量收集效率为

；与传统的DDPG算法相比，优化驱动的DDPG算法可以显著提升学习效率和性能表现。

请参阅图7-图9，本实施例提供的方法具有更好的性能（Reward），如图7所示，在两种算法中，AP的传输功率在训练过程中逐渐减小，最终收敛于两个稳定的值。优化驱动的DDPG收敛速度比无模型的DDPG算法有了较为显著提升，同时能够获得更低的传输功率，更快的收敛速度。

本实施例提供的方法具有更稳定的学习性能，图8中记录了两种算法在学习过程中的性能方差指标，方差越大代表性能波动越大，越不稳定。明显可见，优化驱动的深度强化学习方法能获得更加稳定的学习性能，更快的收敛速度。

本实施例提供的方法具有更高效的学习性能，图9显示了优化驱动的深度强化学习方法与传统优化方法的耗时对比，其中M、N分别代表AP天线以及IRS反射单元的数目。随着优化问题维度的增加，传统优化方法的复杂度快速提升，而优化驱动的深度强化学习方法复杂度较为稳定，运行时间维持在较低水平，复杂度显著降低。

本发明还提供了一种基于深度强化学习的智能反射面调控装置的实施例，包括：

还包括：网络参数发送模块，用于发射端通过下行控制信道将波束成形策略、反射元的反射相位及反射元的幅值发送至网络设备。

具体的，所述动作更新模块更新所述第一动作得到第二动作具体为：通过优化模块更新第一动作中的波束成形策略及反射元的反射相位得到第二动作；其中，所述第一动作和所述第二动作的幅值相同。

具体的价值网络训练模块根据所述第一目标值和第二目标值确定第三目标值具体为：选择所述第一目标值和第二目标值中的较大值作为第三目标值。

还包括：射频能量收集模块，用于所述智能反射面利用集成的射频能量收集器，从发射端发射的波束成形信号中获取射频能量，所述能量驱动智能反射面的控制功能。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度强化学习的智能反射面调控方法，其特征在于，包括：

S6：重复执行S1-S5直至发射端发射功率的变化幅度小于预设的阈值，得到满足用户特定信噪比约束的前提下，最小化AP发射功率的网络参数，输出当前状态下的波束成形策略、反射元的反射相位及反射元的幅值。

2.根据权利要求1所述的基于深度强化学习的智能反射面调控方法，其特征在于，还包括：发射端通过下行控制信道将波束成形策略、反射元的反射相位及反射元的幅值发送至网络设备。

3.根据权利要求2所述的基于深度强化学习的智能反射面调控方法，其特征在于，步骤S2中更新所述第一动作得到第二动作具体为：通过优化模块更新第一动作中的波束成形策略及反射元的反射相位得到第二动作；其中，所述第一动作和所述第二动作的幅值相同。

4.根据权利要求3所述的基于深度强化学习的智能反射面调控方法，其特征在于，S5中根据所述第一目标值和第二目标值确定第三目标值具体为：选择所述第一目标值和第二目标值中的较大值作为第三目标值。

5.根据权利要求4所述的基于深度强化学习的智能反射面调控方法，其特征在于，还包括：所述智能反射面利用集成的射频能量收集器，从发射端发射的波束成形信号中获取射频能量，所述能量驱动智能反射面的控制功能。

6.一种基于深度强化学习的智能反射面调控装置，其特征在于，包括：

7.根据权利要求6所述的基于深度强化学习的智能反射面调控装置，其特征在于，还包括：

8.根据权利要求7所述的基于深度强化学习的智能反射面调控装置，其特征在于，所述动作更新模块更新所述第一动作得到第二动作具体为：通过优化模块更新第一动作中的波束成形策略及反射元的反射相位得到第二动作；其中，所述第一动作和所述第二动作的幅值相同。

9.根据权利要求8所述的基于深度强化学习的智能反射面调控装置，其特征在于，价值网络训练模块根据所述第一目标值和第二目标值确定第三目标值具体为：选择所述第一目标值和第二目标值中的较大值作为第三目标值。

10.根据权利要求9所述的基于深度强化学习的智能反射面调控装置，其特征在于，还包括：射频能量收集模块，用于所述智能反射面利用集成的射频能量收集器，从发射端发射的波束成形信号中获取射频能量，所述能量驱动智能反射面的控制功能。