CN112019249A - 一种基于深度强化学习的智能反射面调控方法及装置 - Google Patents

一种基于深度强化学习的智能反射面调控方法及装置 Download PDF

Info

Publication number
CN112019249A
CN112019249A CN202011135884.3A CN202011135884A CN112019249A CN 112019249 A CN112019249 A CN 112019249A CN 202011135884 A CN202011135884 A CN 202011135884A CN 112019249 A CN112019249 A CN 112019249A
Authority
CN
China
Prior art keywords
target value
action
network
value
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011135884.3A
Other languages
English (en)
Other versions
CN112019249B (zh
Inventor
龚世民
陈希雨
林嘉烨
谭源正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN202011135884.3A priority Critical patent/CN112019249B/zh
Publication of CN112019249A publication Critical patent/CN112019249A/zh
Application granted granted Critical
Publication of CN112019249B publication Critical patent/CN112019249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/04013Intelligent reflective surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种基于深度强化学习的智能反射面调控方法及装置,其中方法包括:策略网络根据第一状态生成第一动作;将幅值固定并输入优化模块,更新第一动作得到第二动作,同时得到第一目标值;将第二动作作用于无线环境得到第二状态,得到一个新样本并存入经验池;策略网络和价值网络根据样本进行DDPG训练,执行者利用策略梯度方法更新其参数;根据第一目标值和目标Q网络产生的第二目标值确定第三目标值,根据第三目标值训练在线Q网络的DNN并更新其参数;重复执行上述步骤直至发射功率的变化幅度小于预设的阈值,得到最小化AP发射功率的网络参数并输出。本发明能在更短的时间内实现稳定且高效地学习,可以更快地收敛到最优目标。

Description

一种基于深度强化学习的智能反射面调控方法及装置
技术领域
本发明涉及无线通信网络技术领域,尤其是涉及一种基于深度强化学习的智能反射面的调控方法及装置。
背景技术
目前,IRS被认为是一种非常具有潜力和发展前景的技术,IRS由大量无源反射元件组成,这些元件相互连接并由嵌入式IRS控制器进行控制它可以用于提高无线通信的能量和频谱效率。通过对所有反射元件的复反射系数进行联合控制,即被动波束成形,增强接收器的信号强度。IRS的被动波束成形技术以及收发器的传输控制技术可以进一步提高网络性能。IRS已应用于各种场景中,其在无线通信中扮演着不同的角色,例如环境反射器,信号发送器甚至接收器。IRS的使用旨在提高信噪比(SNR)或频谱效率,改善功耗或能量效率以及增强安全性。IRS还可用于增强无线功率传输、移动边缘计算和车辆通信等。
现有技术通常基于交替优化(AO)框架,并保证收敛至次优解决方案。在AO框架的每次迭代中,通常需要使用半定松弛(SDR)或凸近似来优化主动或被动波束成形。作为一种启发式方法,我们无法准确知道AO方法的性能损失,并且难以准确地进行表征。此外,优化方法还存在一些实际困难。随着IRS散射元素的尺寸变大,AO方法的计算复杂度可能会显著增加,这使得相关技术在动态环境中难以实施。同时,基于机器学习的技术虽也有应用,尽管DRL方法可以从头开始学习最佳策略,但通常收敛速度慢。
发明内容
本发明的目的是提供一种基于深度强化学习的智能反射面的调控方法及装置,以解决传统的深度强化学习方法学习效率较低、稳定性较差的技术问题。
本发明的目的,可以通过如下技术方案实现:
一种基于深度强化学习的智能反射面调控方法,包括:
S1:策略网络根据无线环境的状态即第一状态生成第一动作;其中,所述第一动作包括发射端的波束成形策略、反射元的反射相位及反射元的幅值;
S2:将所述幅值固定并输入基于模型的优化模块,更新所述第一动作得到第二动作,同时得到第一目标值;其中,所述第一目标值为优化模块确定的优化问题目标值的下界;
S3:将所述第二动作作用于无线环境得到第二状态, 得到一个新的样本并存入经验池;其中,所述样本由所述第一状态、所述第二动作、第二动作的即时奖励及所述第二状态组成;
S4:策略网络根据所述经验池的样本进行DDPG训练,当前执行者利用策略梯度方法更新其参数;
S5:价值网络根据所述经验池的样本进行DDPG训练,根据所述第一目标值和第二目标值确定第三目标值,根据所述第三目标值训练在线Q网络的DNN并更新其参数;其中,第二目标值为目标Q网络产生的优化问题目标值;
S6:重复执行S1-S5直至发射端发射功率的变化幅度小于预设的阈值,得到满足用户特定信噪比约束的前提下,最小化AP发射功率的网络参数,输出当前状态的波束成形策略、反射元的反射相位及反射元的幅值。
可选地,还包括:发射端通过下行控制信道将波束成形策略、反射元的反射相位及反射元的幅值发送至网络设备。
可选地,步骤S2中更新所述第一动作得到第二动作具体为:通过优化模块更新第一动作中的波束成形策略及反射元的反射相位得到第二动作;其中,所述第一动作和所述第二动作的幅值相同。
可选地,S5中根据所述第一目标值和第二目标值确定第三目标值具体为:选择所述第一目标值和第二目标值中的较大值作为第三目标值。
可选地,还包括:所述智能反射面利用集成的射频能量收集器,从发射端发射的波束成形信号中获取射频能量,所述能量驱动智能反射面的控制功能。
本发明还提供了一种基于深度强化学习的智能反射面调控装置,包括:
第一动作生成模块,用于策略网络根据无线环境的状态即第一状态生成第一动作;其中,所述第一动作包括发射端的波束成形策略、反射元的反射相位及反射元的幅值;
动作更新模块,用于将所述幅值固定并输入基于模型的优化模块,更新所述第一动作得到第二动作,同时得到第一目标值;其中,所述第一目标值为优化模块确定的优化问题目标值的下界;
样本更新模块,将所述第二动作作用于无线环境得到第二状态, 得到一个新的样本并存入经验池;其中,所述样本由所述第一状态、所述第二动作、第二动作的即时奖励及所述第二状态组成;
策略网络训练模块,用于策略网络根据所述经验池的样本进行DDPG训练,当前执行者利用策略梯度方法更新其参数;
价值网络训练模块,用于价值网络根据所述经验池的样本进行DDPG训练,根据所述第一目标值和第二目标值确定第三目标值,根据所述第三目标值训练在线Q网络的DNN并更新其参数;其中,第二目标值为目标Q网络产生的优化问题目标值;
重复执行及输出模块,重复执行直至发射端发射功率的变化幅度小于预设的阈值,得到满足用户特定信噪比约束的前提下,最小化AP发射功率的网络参数,输出当前状态的波束成形策略、反射元的反射相位及反射元的幅值。
可选地,还包括:
网络参数发送模块,用于发射端通过下行控制信道将波束成形策略、反射元的反射相位及反射元的幅值发送至网络设备。
可选地,所述动作更新模块更新所述第一动作得到第二动作具体为:通过优化模块更新第一动作中的波束成形策略及反射元的反射相位得到第二动作;其中,所述第一动作和所述第二动作的幅值相同。
可选地,价值网络训练模块根据所述第一目标值和第二目标值确定第三目标值具体为:选择所述第一目标值和第二目标值中的较大值作为第三目标值。
可选地,还包括:射频能量收集模块,用于所述智能反射面利用集成的射频能量收集器,从发射端发射的波束成形信号中获取射频能量,所述能量驱动智能反射面的控制功能。
本发明提供了一种基于深度强化学习的智能反射面调控方法及装置,其中,方法包括:S1:策略网络根据无线环境的状态即第一状态生成第一动作;其中,所述第一动作包括发射端的波束成形策略、反射元的反射相位及反射元的幅值;S2:将所述幅值固定并输入基于模型的优化模块,更新所述第一动作得到第二动作,同时得到第一目标值;其中,所述第一目标值为优化模块确定的优化问题目标值的下界;S3:将所述第二动作作用于无线环境得到第二状态, 得到一个新的样本并存入经验池;其中,所述样本由所述第一状态、所述第二动作、第二动作的即时奖励及所述第二状态组成;S4:策略网络根据所述经验池的样本进行DDPG训练,当前执行者利用策略梯度方法更新其参数;S5:价值网络根据所述经验池的样本进行DDPG训练,根据所述第一目标值和第二目标值确定第三目标值,根据所述第三目标值训练在线Q网络的DNN并更新其参数;其中,第二目标值为目标Q网络产生的优化问题目标值;S6:重复执行S1-S5直至发射端发射功率的变化幅度小于预设的阈值,得到满足用户特定信噪比约束的前提下,最小化AP发射功率的网络参数,输出当前状态的波束成形策略、反射元的反射相位及反射元的幅值。
本发明提供的基于深度强化学习的智能反射面调控方法及装置,带来的有益效果是:
通过优化驱动的深度强化学习方法,学习效率有了较为显著的提升,同时能够获得更优的传输功率、更加稳定的学习性能和更快的收敛速度;优化驱动的深度强化学习方法,能在更短的时间内实现稳定且高效地学习,可以更快的收敛到最优目标。
附图说明
图1为传统DQN算法的示意图;
图2为本发明一种无线网络的智能反射面调控方法及装置的优化驱动的DQN算法的示意图;
图3为传统DDPG算法的示意图;
图4为本发明一种无线网络的智能反射面调控方法及装置的优化驱动的DDPG算法的示意图;
图5为本发明一种无线网络的智能反射面调控方法及装置的反射面调控算法的流程示意图;
图6为本发明一种无线网络的智能反射面调控方法及装置的IRS辅助的多输入单输出系统的结构示意图;
图7为本发明一种无线网络的智能反射面调控方法及装置的两种算法仿真例性能对比示意图1;
图8为本发明一种无线网络的智能反射面调控方法及装置的两种算法仿真例性能对比示意图2;
图9为本发明一种无线网络的智能反射面调控方法及装置的两种算法仿真例性能对比示意图3。
具体实施方式
本发明实施例提供了一种基于深度强化学习的智能反射面的调控方法及装置,以解决传统的深度强化学习方法学习效率较低、稳定性较差的技术问题。
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
即将到来的第五代(5G)无线网络已实现了1000倍网络容量增加和至少1000亿个设备的普遍无线连接目标。然而,所需的高复杂度和硬件成本以及增加的能耗仍然是关键问题。因此,研究如何为无线网络找到创新、节能且经济高效的解决方案势在必行。5G物理层技术通常能够适应空间和时间变化的无线环境,但信号传播本质上是随机的,在很大程度上是不可控制的。基于上述原因,智能反射面(IRS)被认为是一种很有前途的新技术。
IRS辅助的无线通信系统中,关键设计问题通常表述为主动和被动波束成形的联合优化,但由于问题结构的非凸性,相关的解决方法通常基于交替优化(AO)框架,能够保证收敛至次优解决方案。在AO框架的每次迭代中,通常需要使用半定松弛(SDR)或凸近似来优化主动或被动波束成形。作为一种启发式方法,很难准确预估AO方法的性能损失,并且难以准确地进行表征。
随着IRS散射元素的尺寸变大,AO方法的计算复杂度可能会显著增加,这使得相关技术在动态环境中难以实施。其次,相关方法实际上是基于不精确的系统建模来进行波束成形优化的,问题的重新形成或近似进一步导致了所得结果与最佳方案之间的偏差。与优化方法不同,机器学习方法对不确定的系统模型具有更强的鲁棒性,并且已被应用于IRS辅助的无线系统中以实现IRS的相位控制。
对于IRS辅助无线通信系统的优化,需要联合主动波束成形和被动波束成形。由于信道条件存在有不确定性,并且所求解的问题非凸,因此常规的交替优化(AO)框架性能表现不佳。
现有的深度强化学习框架收敛速度较慢且容易收敛至局部最优解。传统的深度强化学习方法采用深度神经网络(DNN)来估计目标Q值,为了确保更好的收敛性能,目标Q网络(Target Q-network)是根据以下规则从在线Q网络(Online Q-network)进化而来:
Figure 660336DEST_PATH_IMAGE001
其中,
Figure 16624DEST_PATH_IMAGE002
表示在线Q网络的DNN的参数,
Figure 734044DEST_PATH_IMAGE003
是一个小的步长。这意味着在线Q网络和 目标Q网络之间存在很强的耦合。在学习的早期阶段,在线Q网络和目标Q网络被随机初始 化,容易偏离其最优值,从而误导学习过程。参数复制中的如何选择参数
Figure 129254DEST_PATH_IMAGE004
也至关重要,较 小的
Figure 881309DEST_PATH_IMAGE005
可以稳定学习,但会减缓学习,而较大的
Figure 641455DEST_PATH_IMAGE006
表明在线Q网络和目标Q网络之间有很强的 相关性,导致学习性能波动甚至发散。
现有技术没有充分考虑深度强化学习在IRS辅助无线通信中的应用。为了提高学习性能,本发明提供的基于深度强化学习的智能反射面调控方法, 是一种优化驱动的深度强化学习(DRL)方法,将高效的优化方法集成到传统的深度强化学习框架中,能够提高学习效率,从而形成了一种全新的优化驱动的深度强化学习方法,可以根据过去的经验来调整波束成形策略。
以下为本发明一种基于深度强化学习的智能反射面调控方法的实施例,包括:
S101:策略网络根据无线环境的状态即第一状态生成第一动作;其中,所述第一动作包括发射端的波束成形策略、反射元的反射相位及反射元的幅值;
S102:将所述幅值固定并输入基于模型的优化模块,更新所述第一动作得到第二动作,同时得到第一目标值;其中,所述第一目标值为优化模块确定的优化问题目标值的下界;
S103:将所述第二动作作用于无线环境得到第二状态, 得到一个新的样本并存入经验池;其中,所述样本由所述第一状态、所述第二动作、第二动作的即时奖励及所述第二状态组成;
S104:策略网络根据所述经验池的样本进行DDPG训练,当前执行者利用策略梯度方法更新其参数;
S105:价值网络根据所述经验池的样本进行DDPG训练,根据所述第一目标值和第二目标值确定第三目标值,根据所述第三目标值训练在线Q网络的DNN并更新其参数;其中,第二目标值为目标Q网络产生的优化问题目标值;
S106:重复执行S1-S5直至发射端发射功率的变化幅度小于预设的阈值,得到满足用户特定信噪比约束的前提下,最小化AP发射功率的网络参数,输出当前状态的波束成形策略、反射元的反射相位及反射元的幅值。
具体的,本实施例提供的基于深度强化学习的智能反射面调控方法,其中,优化驱动的强化学习算法的基本思想是,对复杂控制问题进行的分而治之(Divide andconquer)。将复杂耦合的调控变量划分成两部分,一部分变量采用外层的强化学习机制获取,另一部分基于优化得到。给定外层变量,内层变量通过近似优化问题快速求解;近似问题的目标函数值可用于提供一个新的目标参考值,用于指导外层深度强化学习算法的迭代更新。
例如,IRS的控制需要联合优化波束成形策略
Figure 908488DEST_PATH_IMAGE007
、IRS反射元的相位
Figure 543606DEST_PATH_IMAGE008
以及每个 反射元的反射系数
Figure 150168DEST_PATH_IMAGE009
。优化过程中参数耦合,增加了求解的难度,本实施例提出的算法将 凸逼近作为鲁棒问题的下界,将其集成到DRL框架中,从而形成一种新颖的优化驱动的深度 确定性策略梯度(DDPG)方法。
具体的,actor和critic网络首先独立地生成动作和价值评估。actor生成动作
Figure 143532DEST_PATH_IMAGE010
,然后,算法将action中
Figure 835544DEST_PATH_IMAGE011
固定,将其输入基于模型的优化模块。
Figure 572556DEST_PATH_IMAGE012
就是外层变量,
Figure 33625DEST_PATH_IMAGE013
Figure 463469DEST_PATH_IMAGE014
是内层变量,通过优化模块,得到新的波束成形策略
Figure 132524DEST_PATH_IMAGE015
和 新的反射元的反射相位
Figure 407647DEST_PATH_IMAGE016
,此时action得以更新参数,即
Figure 988801DEST_PATH_IMAGE017
同时,优化模块评估优化问题的下界
Figure 323968DEST_PATH_IMAGE018
,采用两个目标值
Figure 990572DEST_PATH_IMAGE019
Figure 7070DEST_PATH_IMAGE020
中较大的目 标值作为强化学习的参考值,即本实施例中使用
Figure 505047DEST_PATH_IMAGE021
Figure 712912DEST_PATH_IMAGE019
中较大的值作为DNN训练的目标 值。这种机制可以帮助DDPG算法在早期更快地适应。
此外,优化驱动的目标值
Figure 663551DEST_PATH_IMAGE022
是独立于critic网络的,这说明在线Q网络训练过程 中,目标值
Figure 483739DEST_PATH_IMAGE023
比目标Q网络输出
Figure 773906DEST_PATH_IMAGE024
更稳定。这种在线Q网络与目标解耦的方法可以减少训 练中的性能波动,从而在更短的时间内实现稳定且高效地学习。
由于高维控制变量同时存在离散和连续变量,实际中难以最优求解,通常采用现有的商用软件包,依赖于很强的计算能力。当变量数量增加时,传统优化方法计算复杂度急剧提升,耗时增加。本实施例中,针对复杂的混合整数变量控制问题,将离散变量剥离,采用外层DQN算法,内层针对连续变量采用DDPG算法。本实施例通过变量分离及层叠式架构,有效降低变量搜索空间,提高学习效率。
请参阅图1-图2,传统DQN算法结构如图1所示,优化驱动的DQN算法结构如图2所 示。在线Q网络在获得检测的环境状态变量
Figure 716455DEST_PATH_IMAGE025
后,产生离散动作变量
Figure 92072DEST_PATH_IMAGE026
Figure 512689DEST_PATH_IMAGE027
属于外层变量, 然后将
Figure 424407DEST_PATH_IMAGE026
输入到基于模型的优化模块,由于优化模块是基于模型的,所以能够快速地根据 模型中的变量关系或约束得到另外的变量
Figure 537856DEST_PATH_IMAGE028
,即连续变量,将离散变量
Figure 400770DEST_PATH_IMAGE029
和连续变量
Figure 562761DEST_PATH_IMAGE030
混合就得到实际执行的动作变量
Figure 624258DEST_PATH_IMAGE031
。动作作用于环境,使得状态产生变化, 就能得到一个新的样本,将新样本收录到经验回放池里。
具体的,新的样本包括检测的环境状态变量
Figure 846292DEST_PATH_IMAGE032
、实际执行的动作变量
Figure 258819DEST_PATH_IMAGE033
、动作变 量的即时奖励
Figure 723036DEST_PATH_IMAGE034
和更新后的环境状态变量
Figure 904619DEST_PATH_IMAGE035
,组成向量
Figure 31975DEST_PATH_IMAGE036
存入 经验池中,若经验池中的样本数量达到容量上限,则新增加的样本取代经验池中最早的一 条记录。
值得说明的是,优化驱动的DQN算法中的奖励函数基于系统状态以及对应执行的动作,对目标值进行价值评估,用于指导动作的整体走势。算法的最终目的在于根据奖励函数,找到最大化奖励的一个策略。
步骤S104中,策略网络从所述经验池中随机采样小批量的样本进行DDPG训练,当前actor采用策略梯度方法更新其参数。
步骤S105中,价值网络从所述经验池中随机采样小批量的样本进行DDPG训练;目标Q网络根据样本产生优化问题目标值作为第二目标值,根据所述第一目标值和目标Q网络得到的第二目标值以一定的规则确定第三目标值,根据所述第三目标值训练在线Q网络的DNN并更新其参数。
具体的,
Figure 931798DEST_PATH_IMAGE037
是由优化模块确定的目标Q值的下界,目标Q网络生成的目标Q值是
Figure 435591DEST_PATH_IMAGE038
,两者比较大小,选取较大的值作为最终目标值
Figure 737260DEST_PATH_IMAGE039
,这体现在图2中目标值区域,最终目标 值
Figure 35517DEST_PATH_IMAGE040
用于DNN训练,并用于更新在线Q网络参数。结果是优化驱动的DQN比无模型的DQN算法 收敛得更快,并且在AP的发射功率方面取得了显著的性能改进。
由于复杂问题的控制变量通常是高维的,通过经典的优化方法计算是非常复杂的。然而,给定一部分决策变量,另一部分可以很容易地通过利用它们的结构连接在一个近似问题中进行优化。因此,本实施例中,主要设计原则是将控制变量分成两部分,第一部分通过在外环ML方法中学习,例如DQN或DDPG算法,可以减小搜索空间;而另一部分则是通过基于模型的优化方法可以立即求解得到。
本实施例中通过以更多的物理信息(例如,从经验上或理论近似中得到的数学模 型)和独立的计算方式(即通过解耦在线Q网络和目标Q网络)估计目标Q值来稳定和加快学 习过程。优化驱动的目标
Figure 861784DEST_PATH_IMAGE041
与在线Q网络无关,是优化模块在原始问题上提供的一个可实现 的下界,所以它比来自目标Q网络的输出
Figure 231585DEST_PATH_IMAGE038
更稳定。这种在线和目标Q网络之间的解耦再 加上目标Q值比较生成最终目标值这一环节,这可以减少训练中的性能波动,从而可在较短 的训练时间内稳定学习并提高学习效率。
具体的,本实施例将控制变量中的离散变量剥离,从而分成两部分变量,第一部分变量在外层的在线Q网络中就可得到,因为外层处理的控制变量的维度减少,所以降低了变量搜索空间,而剩余变量问题在优化模块解决。由于优化模块是基于现有数学模型的,通过求解优化问题可以快速给出优化后的动作变量。基于上述两方面的设计,优化驱动的DQN算法(Optimization-driven DQN)可以有效降低变量搜索空间,提高学习效率。
值得说明的是,对于内层的连续变量优化问题,同样存在复杂度高的问题,难以通过强化学习收敛到最优目标。本实施例针对高维的连续变量控制问题,同样对内层优化子问题采用分而治之的思想,将连续控制变量分成2组。第一组变量用于DDPG的学习,另一组变量则基于近似优化方法获取。在给定第一组变量的条件下,通过变量之间的物理关联,构建能够有效求解的优化问题,通过求解优化问题,一次性获取最优的第二组控制变量。
具体的,请参阅图3和图4,物理关联指通过信道质量约束、用户信噪比约束等各类 特定场景下的模型约束,对于第二组变量进行建模分析。基于对应的使用场景,选择需要进 行优化的变量。传统DDPG算法结构如图3所示,优化驱动的DDPG算法结构如图4所示。优化驱 动的DDPG算法中,actor和critic网络首先独立地生成动作和价值评估。actor生成动作
Figure 59864DEST_PATH_IMAGE042
然后,算法将action中
Figure 794602DEST_PATH_IMAGE043
固定,将其输入基于模型的优化模块。
Figure 403438DEST_PATH_IMAGE044
就是外层变量,通 过优化模块,得到新的波束成形策略
Figure 514613DEST_PATH_IMAGE045
Figure 961513DEST_PATH_IMAGE046
Figure 929469DEST_PATH_IMAGE047
是内层变量,此时action得以更新参 数,即
Figure 963284DEST_PATH_IMAGE048
。动作作用于环境,使得状态产生变化,就能得到一个新的样本, 新样本会收录到经验回放池里。
同时,优化模块评估优化问题的下界
Figure 674888DEST_PATH_IMAGE041
,目标Q网络生成的目标Q值
Figure 477759DEST_PATH_IMAGE049
,采用两 个目标值
Figure 554299DEST_PATH_IMAGE050
Figure 137727DEST_PATH_IMAGE051
中较大的目标值作为强化学习的参考值,即我们使用
Figure 826591DEST_PATH_IMAGE037
Figure 811865DEST_PATH_IMAGE038
中较大的 值作为在线Q网络的DNN训练的目标值,并更新其参数。优化的目的和优化驱动的DQN一样, 这种变量分层和内层基于模型优化机制可以帮助DDPG算法在早期更快地适应。
此外,优化驱动的目标值
Figure 59306DEST_PATH_IMAGE052
是独立于critic网络的,这说明在线Q网络训练过程 中,目标值
Figure 130030DEST_PATH_IMAGE020
比目标Q网络输出
Figure 121120DEST_PATH_IMAGE053
更稳定。这种在线Q网络与目标解耦的方法可以减少训 练中的性能波动,从而在更短的时间内实现稳定且高效地学习,可以更快的收敛到最优目 标。
请参阅图5,本实施例提供了基于深度强化学习的反射面调控算法,针对智能反射 面通信网络,其设计目标在于,基于信道条件自适应调整IRS反射元的相移
Figure 898583DEST_PATH_IMAGE054
和幅值
Figure 379243DEST_PATH_IMAGE055
以及AP的波束成形策略
Figure 107903DEST_PATH_IMAGE056
,在满足用户特定的接收信噪比的前提下, 最小化AP的发射功率。
具体的,本实施例基于深度强化学习算法,在迭代过程中不断根据过去的经验和 当前的信道条件,在可行域内对IRS的相移、幅值以及AP的波束成形策略进行随机取值。然 后在第
Figure 902683DEST_PATH_IMAGE057
次迭代中,固定IRS的幅值
Figure 534653DEST_PATH_IMAGE058
,基于优化模块产生
Figure 186214DEST_PATH_IMAGE059
Figure 620080DEST_PATH_IMAGE060
,以及目标参考值
Figure 952973DEST_PATH_IMAGE061
。将优化模块得到的值作为深度强化学习随机取值的一个参考,从而避免盲目搜索的 困境。随着迭代的进行,AP的发射功率将会不断降低,最后收敛至一个稳定值。当AP的发射 功率的变化值小于一个极小值时,迭代更新结束,得到最后的结果。
具体的,请参阅图5,图5中的箭头分别表示下列意义:
(1):将信道条件作为状态
Figure 501766DEST_PATH_IMAGE062
输入到策略网络当中,算法开始执行。
⑵:算法中的actor生成对应的动作,分别为IRS反射元的相移
Figure 527490DEST_PATH_IMAGE063
、幅值
Figure 732207DEST_PATH_IMAGE064
以及AP的波束成形策略
Figure 931107DEST_PATH_IMAGE065
。在第
Figure 770625DEST_PATH_IMAGE066
次迭代中,固定IRS的幅值
Figure 967251DEST_PATH_IMAGE067
,将其作为优 化模块的输入值。
⑶:基于固定的IRS的幅值
Figure 721580DEST_PATH_IMAGE068
,输入到优化模块。
⑷:基于模型的优化模块利用控制变量之间的物理关联在得到
Figure 396275DEST_PATH_IMAGE069
后快速求解, 产生
Figure 919661DEST_PATH_IMAGE070
Figure 287188DEST_PATH_IMAGE071
,以及目标参考值
Figure 263234DEST_PATH_IMAGE021
⑸:将优化模块得到的值
Figure 243085DEST_PATH_IMAGE072
作为深度强化学习随机取值的一个参考,待与
Figure 886556DEST_PATH_IMAGE073
进 行比较,比较后得到更适合训练网络的目标Q值。
⑹:优化模块产生的新的
Figure 159405DEST_PATH_IMAGE074
Figure 826010DEST_PATH_IMAGE071
与⑶中所述固定的幅值
Figure 842508DEST_PATH_IMAGE067
组合,从而更新了 最终执行的动作。
⑺:基于更新后的动作产生新的信道条件,更新状态空间。
⑻:将⑴中状态、⑵中动作、⑵中动作的即时奖励、⑺中新的状态组成一个样本存入经验池中。若经验池中的样本数量达到容量上限,则新增加的样本取代经验池中最早的一条记录。
⑼:从经验池中随机采样指定数量的样本进行DDPG训练。
⑽:策略网络用⑼中取出的样本训练actor。
⑾:价值网络用⑼中取出的样本训练在线Q网络和目标Q网络。
⑿:目标Q网络通过采样的样本训练得到
Figure 340485DEST_PATH_IMAGE049
⒀:取目标参考值
Figure 282771DEST_PATH_IMAGE075
和目标Q网络生成的目标值
Figure 498989DEST_PATH_IMAGE076
中的较大值作为最终目标值
Figure 319177DEST_PATH_IMAGE077
Figure 671661DEST_PATH_IMAGE078
用于在线Q网络DNN训练和更新其网络参数,避免训练过程出现盲目搜索的困境。
⒁:actor用策略梯度方法更新其参数。
⒂:深度强化学习需要在满足用户信噪比约束的前提下,尽可能最小化AP的发射功率。当获得的发射功率的变化量小于一个极小值之后,迭代过程结束。判断AP的发射功率的变化值是否小于极小值,若是,则网络收敛,完成训练,输出网络参数和⑴中状态下的最优动作;若否,则需继续训练,返回到与环境交互检测当前的状态继续执行⑴-⒂。
为了进一步进行说明,本发明还提供了一种智能反射面(IRS)辅助的多输入单输出(Multiple-input Single-output, MISO)下行通信系统,如图6所示。IRS有N个反射单元,多天线接入点(Access Point, AP)有M个发射天线,用于向单天线接收机发送数据。为了方便模型的建立,仅考虑单用户的情况。通过对不同用户设置不同的信噪比约束,就可以将模型扩展到多用户的场景中。
具体的,假设IRS中反射单元的数量远大于AP天线的数量。令
Figure 551892DEST_PATH_IMAGE079
表示IRS的被动波束成形,其中
Figure 927510DEST_PATH_IMAGE080
表示对角 矩阵,对角向量由
Figure 348127DEST_PATH_IMAGE081
给出,故可以将从AP到接收器的等效信道重写为
Figure 259845DEST_PATH_IMAGE082
,其 中
Figure 107715DEST_PATH_IMAGE083
表示从多天线接入点(AP)到IRS的信道矩阵。深度强化学习中的智能 体基于经验池中的信道条件,给出对应的行动,从而调整IRS反射元的相移
Figure 970629DEST_PATH_IMAGE084
、幅值
Figure 132620DEST_PATH_IMAGE085
以及AP的波束成形策略
Figure 459696DEST_PATH_IMAGE086
具体的,由于信号传输过程存在约束并且需要考虑未知的信道条件,因此建立鲁棒优化模型,进行质量评估和信道估计。将用户接收到的信噪比、信号传输过程中的能量消耗等作为约束,在保证信号质量的前提下实现发射功率的最小化。
同时,基于信道的平均估计以及误差边界给出相应的信道估计。将优化的结果作为深度强化学习中网络目标值的一个参考,提高训练过程的收敛速度。如图6右侧所示,AP发射的发射信号,一部分直接传输给接收器,另一部分传输给IRS。通过IRS中的微控制器执行上述优化驱动的深度强化学习算法的结果,进行功率的分割,保证IRS有足够的能量供给自身的无源工作,并且增加接收器收到的信号质量,实现反向散射的预期目标。
具体的,图6中的箭头分别表示下列意义:
①:DRL中的智能体基于经验池中的信道条件,给出对应的行动,做出基于模型的优化估计。
②:算法需要满足用户的信噪比要求,并且尝试最小化AP的输出功率,因此随机修 改IRS反射元的相移
Figure 681730DEST_PATH_IMAGE087
、幅值
Figure 530475DEST_PATH_IMAGE088
以及AP的波束成形策略
Figure 292895DEST_PATH_IMAGE065
。AP发射的信号,一 部分直接传输给接收器,另一部分传输给IRS。通过IRS中的微控制器执行上述优化驱动的 深度强化学习算法的结果,进行功率的分割,保证IRS有足够的能量供给自身的无源工作, 并且增加接收器收到的信号质量。
③:由于信号传输过程存在约束并且需要考虑未知的信道条件,因此建立鲁棒优化模型,进行质量评估和信道估计。将用户接收到的信噪比、信号传输过程中的能量消耗等作为约束,在保证信号质量的前提下实现发射功率的最小化。同时,基于信道的平均估计以及误差边界给出相应的信道估计。
④:将优化的结果作为深度强化学习中网络目标值的一个参考,提高训练过程的收敛速度。
⑤:基于新的动作得出新的状态,将其存入经验库中,为后续的迭代提供帮助。
IRS辅助的多输入单输出(MISO)下行通信系统,其调控目标为:用
Figure 412160DEST_PATH_IMAGE089
表示AP采用的波束成形向量,将噪声的方差归一。该系统联合调控的目标即是最大化接收 信噪比(SNR):
Figure 867412DEST_PATH_IMAGE090
下行通信系统的约束条件为:IRS集成了一个射频能量收集器,能够从AP发射的波 束成形信号中获取射频能量。在给定初始反射系数以及可控的变化范围后,通过深度学习 的方法在可行域内进行随机探索,从而筛选出反射单元的最优反射系数
Figure 704918DEST_PATH_IMAGE091
,一部分
Figure 271029DEST_PATH_IMAGE092
的入射信号功率被反射到接收机,同时另一部分
Figure 244801DEST_PATH_IMAGE093
被能量收集器转化为直流 电。为了维持IRS的运行,收集的总能量必须满足IRS的总功耗:
Figure 310103DEST_PATH_IMAGE094
,其中
Figure 697222DEST_PATH_IMAGE095
表示功率收集系数,
Figure 739127DEST_PATH_IMAGE096
表示AP到第n个反 射元的信道向量的共轭转置,
Figure 895302DEST_PATH_IMAGE097
表示IRS中反射元的总数量,
Figure 630040DEST_PATH_IMAGE098
表示每个反射单元的功 耗。
具体的,IRS辅助的多输入单输出(MISO)下行通信系统,该问题的调控变量为三个 高维向量:
Figure 176559DEST_PATH_IMAGE099
。其中
Figure 350051DEST_PATH_IMAGE100
表示第
Figure 796951DEST_PATH_IMAGE101
次迭代中AP的主动波束成形策略,
Figure 702590DEST_PATH_IMAGE102
Figure 798722DEST_PATH_IMAGE103
分别表示第
Figure 182430DEST_PATH_IMAGE104
次迭代中IRS反射元的反射幅值以及对应的相位,三个变量均为 连续变量,故采用针对高维连续变量的分而治之方法。actor和critic网络首先独立地生成 动作和价值评估。然后,算法将
Figure 313197DEST_PATH_IMAGE105
固定在action中,将其输入基于模型的优化模块。优化模 块评估优化问题的下界
Figure 389737DEST_PATH_IMAGE106
,采用两个目标值
Figure 400594DEST_PATH_IMAGE049
(目标网络生成的目标值)和
Figure 587993DEST_PATH_IMAGE051
中较大 的目标值作为强化学习的参考值,即使用
Figure 573267DEST_PATH_IMAGE107
作为DNN训练的目标值。同时在action中更 新波束成形策略
Figure 820708DEST_PATH_IMAGE108
和反射元的反射相位
Figure 891433DEST_PATH_IMAGE071
,即
Figure 882522DEST_PATH_IMAGE109
。这种机制可 以帮助DDPG算法在早期更快地适应。
此外,优化驱动的目标值
Figure 158521DEST_PATH_IMAGE022
是独立于critic网络的,这说明在线Q网络训练过程 中,目标值
Figure 639181DEST_PATH_IMAGE110
比目标Q网络输出
Figure 869305DEST_PATH_IMAGE111
更稳定。这种在线Q网络与目标解耦的方法可以减少 训练中的性能波动,从而在更短的时间内实现稳定且高效地学习。
两个目标值
Figure 664085DEST_PATH_IMAGE112
Figure 296055DEST_PATH_IMAGE113
可以基于不同原则进行合并,例如:
ⅰ最大合并原则:当
Figure 947616DEST_PATH_IMAGE114
时,则使用
Figure 432081DEST_PATH_IMAGE115
作为DDPG训练的目标值,同时更新动作
Figure 764973DEST_PATH_IMAGE116
;当有
Figure 313766DEST_PATH_IMAGE118
时,遵循传统DDPG算法的输出。
ⅱ概率合并原则:当
Figure 339491DEST_PATH_IMAGE119
时,将以更大概率采用
Figure 544207DEST_PATH_IMAGE120
作为DDPG训练的目标 值,相应更新动作
Figure 477528DEST_PATH_IMAGE121
本实施例中,针对混合整数控制问题的变量划分方法:将离散变量剥离,采用外层DQN算法,内层针对连续变量采用DDPG算法;通过变量分离及层叠式架构,降低变量搜索空间,提高学习效率。
针对高维连续控制问题的变量划分方法:将连续控制变量分成2组:第一组变量用于深度强化学习,另一组变量则基于近似优化方法获取。在给定第一组变量的条件下,通过变量之间的物理关联,构建能够有效求解的优化问题,获取最优的第二组控制变量。
针对IRS通信系统提出的基于深度强化学习的调控方法:算法部署在AP端,通过AP与用户的数据传输,获取无线网络的状态信息,依据上述深度强化学习方法调控变量,再通过下行控制信道,AP将控制变量分发到不同网络设备。
针对IRS提出了能量收集模型:IRS集成有射频能量收集模块,通过控制反射单元的反射信号相位与幅度,同时实现部分信号的反射与能量的收集。收集的能量用于驱动IRS的控制功能。
本实施例提供的基于深度强化学习的智能反射面调控方法,通过优化驱动的深度强化学习方法,学习效率有了较为显著的提升,同时能够获得更优的传输功率、更加稳定的学习性能和更快的收敛速度;优化驱动的深度强化学习方法,能在更短的时间内实现稳定且高效地学习,可以更快的收敛到最优目标。
本实施例的先进性已在仿真实验中得到验证。在仿真中,我们考虑如图6所示网 络,以米为单位,节点之间的距离分别设置为
Figure 582625DEST_PATH_IMAGE122
Figure 779251DEST_PATH_IMAGE123
Figure 268001DEST_PATH_IMAGE124
;信号传播满足对数距离模型,参考点处的路径损耗为
Figure 208276DEST_PATH_IMAGE125
,路径损耗指数为2;设能 量收集效率为
Figure 731661DEST_PATH_IMAGE126
;与传统的DDPG算法相比,优化驱动的DDPG算法可以显著提升学习 效率和性能表现。
请参阅图7-图9,本实施例提供的方法具有更好的性能(Reward),如图7所示,在两种算法中,AP的传输功率在训练过程中逐渐减小,最终收敛于两个稳定的值。优化驱动的DDPG收敛速度比无模型的DDPG算法有了较为显著提升,同时能够获得更低的传输功率,更快的收敛速度。
本实施例提供的方法具有更稳定的学习性能,图8中记录了两种算法在学习过程中的性能方差指标,方差越大代表性能波动越大,越不稳定。明显可见,优化驱动的深度强化学习方法能获得更加稳定的学习性能,更快的收敛速度。
本实施例提供的方法具有更高效的学习性能,图9显示了优化驱动的深度强化学习方法与传统优化方法的耗时对比,其中M、N分别代表AP天线以及IRS反射单元的数目。随着优化问题维度的增加,传统优化方法的复杂度快速提升,而优化驱动的深度强化学习方法复杂度较为稳定,运行时间维持在较低水平,复杂度显著降低。
本发明还提供了一种基于深度强化学习的智能反射面调控装置的实施例,包括:
第一动作生成模块,用于策略网络根据无线环境的状态即第一状态生成第一动作;其中,所述第一动作包括发射端的波束成形策略、反射元的反射相位及反射元的幅值;
动作更新模块,用于将所述幅值固定并输入基于模型的优化模块,更新所述第一动作得到第二动作,同时得到第一目标值;其中,所述第一目标值为优化模块确定的优化问题目标值的下界;
样本更新模块,将所述第二动作作用于无线环境得到第二状态, 得到一个新的样本并存入经验池;其中,所述样本由所述第一状态、所述第二动作、第二动作的即时奖励及所述第二状态组成;
策略网络训练模块,用于策略网络根据所述经验池的样本进行DDPG训练,当前执行者利用策略梯度方法更新其参数;
价值网络训练模块,用于价值网络根据所述经验池的样本进行DDPG训练,根据所述第一目标值和第二目标值确定第三目标值,根据所述第三目标值训练在线Q网络的DNN并更新其参数;其中,第二目标值为目标Q网络产生的优化问题目标值;
重复执行及输出模块,重复执行直至发射端发射功率的变化幅度小于预设的阈值,得到满足用户特定信噪比约束的前提下,最小化AP发射功率的网络参数,输出当前状态的波束成形策略、反射元的反射相位及反射元的幅值。
还包括:网络参数发送模块,用于发射端通过下行控制信道将波束成形策略、反射元的反射相位及反射元的幅值发送至网络设备。
具体的,所述动作更新模块更新所述第一动作得到第二动作具体为:通过优化模块更新第一动作中的波束成形策略及反射元的反射相位得到第二动作;其中,所述第一动作和所述第二动作的幅值相同。
具体的价值网络训练模块根据所述第一目标值和第二目标值确定第三目标值具体为:选择所述第一目标值和第二目标值中的较大值作为第三目标值。
还包括:射频能量收集模块,用于所述智能反射面利用集成的射频能量收集器,从发射端发射的波束成形信号中获取射频能量,所述能量驱动智能反射面的控制功能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度强化学习的智能反射面调控方法,其特征在于,包括:
S1:策略网络根据无线环境的状态即第一状态生成第一动作;其中,所述第一动作包括发射端的波束成形策略、反射元的反射相位及反射元的幅值;
S2:将所述幅值固定并输入基于模型的优化模块,更新所述第一动作得到第二动作,同时得到第一目标值;其中,所述第一目标值为优化模块确定的优化问题目标值的下界;
S3:将所述第二动作作用于无线环境得到第二状态, 得到一个新的样本并存入经验池;其中,所述样本由所述第一状态、所述第二动作、第二动作的即时奖励及所述第二状态组成;
S4:策略网络根据所述经验池的样本进行DDPG训练,当前执行者利用策略梯度方法更新其参数;
S5:价值网络根据所述经验池的样本进行DDPG训练,根据所述第一目标值和第二目标值确定第三目标值,根据所述第三目标值训练在线Q网络的DNN并更新其参数;其中,第二目标值为目标Q网络产生的优化问题目标值;
S6:重复执行S1-S5直至发射端发射功率的变化幅度小于预设的阈值,得到满足用户特定信噪比约束的前提下,最小化AP发射功率的网络参数,输出当前状态下的波束成形策略、反射元的反射相位及反射元的幅值。
2.根据权利要求1所述的基于深度强化学习的智能反射面调控方法,其特征在于,还包括:发射端通过下行控制信道将波束成形策略、反射元的反射相位及反射元的幅值发送至网络设备。
3.根据权利要求2所述的基于深度强化学习的智能反射面调控方法,其特征在于,步骤S2中更新所述第一动作得到第二动作具体为:通过优化模块更新第一动作中的波束成形策略及反射元的反射相位得到第二动作;其中,所述第一动作和所述第二动作的幅值相同。
4.根据权利要求3所述的基于深度强化学习的智能反射面调控方法,其特征在于,S5中根据所述第一目标值和第二目标值确定第三目标值具体为:选择所述第一目标值和第二目标值中的较大值作为第三目标值。
5.根据权利要求4所述的基于深度强化学习的智能反射面调控方法,其特征在于,还包括:所述智能反射面利用集成的射频能量收集器,从发射端发射的波束成形信号中获取射频能量,所述能量驱动智能反射面的控制功能。
6.一种基于深度强化学习的智能反射面调控装置,其特征在于,包括:
第一动作生成模块,用于策略网络根据无线环境的状态即第一状态生成第一动作;其中,所述第一动作包括发射端的波束成形策略、反射元的反射相位及反射元的幅值;
动作更新模块,用于将所述幅值固定并输入基于模型的优化模块,更新所述第一动作得到第二动作,同时得到第一目标值;其中,所述第一目标值为优化模块确定的优化问题目标值的下界;
样本更新模块,将所述第二动作作用于无线环境得到第二状态, 得到一个新的样本并存入经验池;其中,所述样本由所述第一状态、所述第二动作、第二动作的即时奖励及所述第二状态组成;
策略网络训练模块,用于策略网络根据所述经验池的样本进行DDPG训练,当前执行者利用策略梯度方法更新其参数;
价值网络训练模块,用于价值网络根据所述经验池的样本进行DDPG训练,根据所述第一目标值和第二目标值确定第三目标值,根据所述第三目标值训练在线Q网络的DNN并更新其参数;其中,第二目标值为目标Q网络产生的优化问题目标值;
重复执行及输出模块,重复执行直至发射端发射功率的变化幅度小于预设的阈值,得到满足用户特定信噪比约束的前提下,最小化AP发射功率的网络参数,输出当前状态的波束成形策略、反射元的反射相位及反射元的幅值。
7.根据权利要求6所述的基于深度强化学习的智能反射面调控装置,其特征在于,还包括:
网络参数发送模块,用于发射端通过下行控制信道将波束成形策略、反射元的反射相位及反射元的幅值发送至网络设备。
8.根据权利要求7所述的基于深度强化学习的智能反射面调控装置,其特征在于,所述动作更新模块更新所述第一动作得到第二动作具体为:通过优化模块更新第一动作中的波束成形策略及反射元的反射相位得到第二动作;其中,所述第一动作和所述第二动作的幅值相同。
9.根据权利要求8所述的基于深度强化学习的智能反射面调控装置,其特征在于,价值网络训练模块根据所述第一目标值和第二目标值确定第三目标值具体为:选择所述第一目标值和第二目标值中的较大值作为第三目标值。
10.根据权利要求9所述的基于深度强化学习的智能反射面调控装置,其特征在于,还包括:射频能量收集模块,用于所述智能反射面利用集成的射频能量收集器,从发射端发射的波束成形信号中获取射频能量,所述能量驱动智能反射面的控制功能。
CN202011135884.3A 2020-10-22 2020-10-22 一种基于深度强化学习的智能反射面调控方法及装置 Active CN112019249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011135884.3A CN112019249B (zh) 2020-10-22 2020-10-22 一种基于深度强化学习的智能反射面调控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011135884.3A CN112019249B (zh) 2020-10-22 2020-10-22 一种基于深度强化学习的智能反射面调控方法及装置

Publications (2)

Publication Number Publication Date
CN112019249A true CN112019249A (zh) 2020-12-01
CN112019249B CN112019249B (zh) 2021-02-19

Family

ID=73527773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011135884.3A Active CN112019249B (zh) 2020-10-22 2020-10-22 一种基于深度强化学习的智能反射面调控方法及装置

Country Status (1)

Country Link
CN (1) CN112019249B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113472402A (zh) * 2021-06-30 2021-10-01 东南大学 一种mimo智能反射面传输系统中的参数调整方法
CN113543176A (zh) * 2021-07-08 2021-10-22 中国科学院深圳先进技术研究院 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN113595606A (zh) * 2021-07-29 2021-11-02 东南大学 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法
CN113743583A (zh) * 2021-08-07 2021-12-03 中国航空工业集团公司沈阳飞机设计研究所 一种基于强化学习的智能体无效行为切换抑制方法
CN114841098A (zh) * 2022-04-13 2022-08-02 广东工业大学 基于稀疏表示驱动的深度强化学习北斗导航芯片设计方法
WO2023020080A1 (zh) * 2021-08-18 2023-02-23 深圳大学 一种智能反射面辅助的无线通信系统
CN116405944A (zh) * 2023-03-03 2023-07-07 中山大学 一种网络覆盖容量优化方法、系统、装置及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198854A1 (en) * 2001-03-30 2002-12-26 Berenji Hamid R. Convergent actor critic-based fuzzy reinforcement learning apparatus and method
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110278149A (zh) * 2019-06-20 2019-09-24 南京大学 基于深度强化学习的多路径传输控制协议数据包调度方法
CN110609474A (zh) * 2019-09-09 2019-12-24 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法
US20200034701A1 (en) * 2018-07-26 2020-01-30 Sap Se Dynamic, automated fulfillment of computer-based resource request provisioning using deep reinforcement learning
CN110806756A (zh) * 2019-09-10 2020-02-18 西北工业大学 基于ddpg的无人机自主引导控制方法
CN111181618A (zh) * 2020-01-03 2020-05-19 东南大学 一种基于深度强化学习的智能反射表面相位优化方法
CN111294095A (zh) * 2020-02-17 2020-06-16 南京邮电大学 基于统计csi的irs辅助大规模mimo无线传输方法
US20200279162A1 (en) * 2015-12-01 2020-09-03 Deepmind Technologies Limited Selecting action slates using reinforcement learning
CN111766782A (zh) * 2020-06-28 2020-10-13 浙江大学 基于深度强化学习中Actor-Critic框架的策略选择方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198854A1 (en) * 2001-03-30 2002-12-26 Berenji Hamid R. Convergent actor critic-based fuzzy reinforcement learning apparatus and method
US20200279162A1 (en) * 2015-12-01 2020-09-03 Deepmind Technologies Limited Selecting action slates using reinforcement learning
US20200034701A1 (en) * 2018-07-26 2020-01-30 Sap Se Dynamic, automated fulfillment of computer-based resource request provisioning using deep reinforcement learning
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110278149A (zh) * 2019-06-20 2019-09-24 南京大学 基于深度强化学习的多路径传输控制协议数据包调度方法
CN110609474A (zh) * 2019-09-09 2019-12-24 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法
CN110806756A (zh) * 2019-09-10 2020-02-18 西北工业大学 基于ddpg的无人机自主引导控制方法
CN111181618A (zh) * 2020-01-03 2020-05-19 东南大学 一种基于深度强化学习的智能反射表面相位优化方法
CN111294095A (zh) * 2020-02-17 2020-06-16 南京邮电大学 基于统计csi的irs辅助大规模mimo无线传输方法
CN111766782A (zh) * 2020-06-28 2020-10-13 浙江大学 基于深度强化学习中Actor-Critic框架的策略选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHONGWEN HUANG等: "Reconfigurable Intelligent Surface Assisted Multiuser MISO Systems Exploiting Deep Reinforcement Learning", 《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》 *
YUZE ZOU等: "Wireless Powered Intelligent Reflecting Surfaces for Enhancing Wireless Communications", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113472402A (zh) * 2021-06-30 2021-10-01 东南大学 一种mimo智能反射面传输系统中的参数调整方法
CN113543176A (zh) * 2021-07-08 2021-10-22 中国科学院深圳先进技术研究院 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN113543176B (zh) * 2021-07-08 2023-06-27 中国科学院深圳先进技术研究院 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN113595606A (zh) * 2021-07-29 2021-11-02 东南大学 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法
CN113743583A (zh) * 2021-08-07 2021-12-03 中国航空工业集团公司沈阳飞机设计研究所 一种基于强化学习的智能体无效行为切换抑制方法
CN113743583B (zh) * 2021-08-07 2024-02-02 中国航空工业集团公司沈阳飞机设计研究所 一种基于强化学习的智能体无效行为切换抑制方法
WO2023020080A1 (zh) * 2021-08-18 2023-02-23 深圳大学 一种智能反射面辅助的无线通信系统
CN114841098A (zh) * 2022-04-13 2022-08-02 广东工业大学 基于稀疏表示驱动的深度强化学习北斗导航芯片设计方法
CN114841098B (zh) * 2022-04-13 2023-04-18 广东工业大学 基于稀疏表示驱动的深度强化学习北斗导航芯片设计方法
CN116405944A (zh) * 2023-03-03 2023-07-07 中山大学 一种网络覆盖容量优化方法、系统、装置及存储介质
CN116405944B (zh) * 2023-03-03 2024-02-06 中山大学 一种网络覆盖容量优化方法、系统、装置及存储介质

Also Published As

Publication number Publication date
CN112019249B (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN112019249B (zh) 一种基于深度强化学习的智能反射面调控方法及装置
CN111901862B (zh) 一种基于深度q网络的用户分簇与功率分配方法、设备和介质
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN110488861A (zh) 基于深度强化学习的无人机轨迹优化方法、装置和无人机
Lin et al. Deep reinforcement learning for robust beamforming in IRS-assisted wireless communications
CN111491358B (zh) 基于能量采集的自适应调制和功率控制系统与优化方法
CN111464465A (zh) 一种基于集成神经网络模型的信道估计方法
US10931360B2 (en) System and method for providing multiple input multiple output (MIMO) detector selection with reinforced learning neural network
US20220222493A1 (en) Device and method to improve reinforcement learning with synthetic environment
Ding et al. Averaged soft actor-critic for deep reinforcement learning
Chien et al. Exploring state transition uncertainty in variational reinforcement learning
CN113472402B (zh) 一种mimo智能反射面传输系统中的参数调整方法
Zhang et al. Universal value iteration networks: When spatially-invariant is not universal
CN113259944B (zh) 一种基于深度强化学习的ris辅助频谱共享方法
Zhao et al. Efficient online estimation of empowerment for reinforcement learning
CN113747386A (zh) 认知无线电网络频谱共享中的智能功率控制方法
Lin et al. Optimization-driven deep reinforcement learning for robust beamforming in IRS-assisted wireless communications
Li et al. Piecewise-DRL: Joint Beamforming Optimization for RIS-assisted MU-MISO Communication System
CN112765892A (zh) 一种异构车联网中的智能切换判决方法
Li et al. CoAxNN: Optimizing on-device deep learning with conditional approximate neural networks
Sledge et al. Trading utility and uncertainty: Applying the value of information to resolve the exploration–exploitation dilemma in reinforcement learning
Hu et al. AI-Empowered RIS-Assisted Networks: CV-Enabled RIS Selection and DNN-Enabled Transmission
Bergman Karlsson Using search based methods for beamforming
Zhou A Vehicle Service Migration Strategy Algorithm in 5G NR-V2X
CN118054828A (zh) 面向智能超表面的波束赋形方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant