CN113904704A - 一种基于多智能体深度强化学习的波束预测方法 - Google Patents

一种基于多智能体深度强化学习的波束预测方法 Download PDF

Info

Publication number
CN113904704A
CN113904704A CN202111132541.6A CN202111132541A CN113904704A CN 113904704 A CN113904704 A CN 113904704A CN 202111132541 A CN202111132541 A CN 202111132541A CN 113904704 A CN113904704 A CN 113904704A
Authority
CN
China
Prior art keywords
agent
action
formula
channel
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111132541.6A
Other languages
English (en)
Other versions
CN113904704B (zh
Inventor
姜静
岳志宇
梁彦霞
何华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN202111132541.6A priority Critical patent/CN113904704B/zh
Publication of CN113904704A publication Critical patent/CN113904704A/zh
Application granted granted Critical
Publication of CN113904704B publication Critical patent/CN113904704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0426Power distribution
    • H04B7/043Power distribution using best eigenmode, e.g. beam forming or beam steering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0456Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Power Engineering (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本公开实施例是关于一种基于多智能体深度强化学习的波束预测方法。该基于多智能体深度强化学习的波束预测方法包括:深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性;Q网络利用所述深度神经网络输出估计动作‑值函数,计算网络参数梯度,并让每个智能体依次做出下一次波束预测;利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态用户的精准波束预测。本公开实施例利用深度神经网络获取多个能反映信道特征的关键值,使多天线(MIMO)系统的波束预测更符合动态用户信道的时变特性,提高波束切换成功率,减小大规模多天线(MIMO)系统的反馈开销,从而提高和速率。

Description

一种基于多智能体深度强化学习的波束预测方法
技术领域
本公开实施例涉及无线通讯技术领域,尤其涉及一种基于多智能体 深度强化学习的波束预测方法。
背景技术
大规模多天线(Massive Multi-Input Multi-Output,MIMO)系统作为 5G移动通信的关键技术之一,通过部署大规模天线阵列获得高信道增 益,并结合精准波束成形等技术实现多用户空间复用以获得干扰抑制增 益,使得小区总频谱效率和边缘用户的频谱效率得到了极大的提升。
5G将频谱扩展到毫米波波段,在带来了极宽的带宽同时波束在大气 中的传播衰减十分严重;毫米波系统的用户高速移动时受多普勒效应影 响波束切换更加频繁,切换失败率更高。传统的波束预测方法通常为求 解一个基于模型的动态规划问题,这类问题通常为NP-hard (non-deterministic polynomial-time hard),计算复杂度高且易陷入局部最优解。另外,用户在移动过程中,信道难以通过单一模型来建模,使 用传统波束预测算法会导致预测误差较大,通信质量下降。
因此,有必要改善上述相关技术方案中存在的一个或者多个问题。
需要注意的是,本部分旨在为权利要求书中陈述的本公开的技术方 案提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有 技术。
发明内容
本公开实施例的目的在于提供一种基于多智能体深度强化学习的波 束预测方法,进而至少在一定程度上克服由于相关技术的限制和缺陷而 导致的一个或者多个问题。
根据本公开实施例提供的一种基于多智能体深度强化学习的波束预 测方法,该方法包括:
深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特 性;
Q网络利用所述深度神经网络输出估计动作-值函数,计算网络参数 梯度,并让每个智能体依次做出下一次波束预测;
利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态 用户的精准波束预测。
本公开的一实施例中,所述瞬时信道状态信息获取为所述智能体根 据数字基带参数获取角度信息,并构建信道样本;
所述智能体设置M根天线,同时与K个单天线用户进行通信,所述 智能体与所述用户间的信道为:
H=[h1,h2,...hK] (1)
其中,hk,k∈{1,2,…,K}为所述用户与所述智能体间的信道,所述用户 与所述智能体间的信道公式为:
Figure BDA0003280922730000021
其中,
Figure BDA0003280922730000022
表示导向向量,gk表示所述智能体与用户k之间的空间信 道向量;
所述导向向量
Figure BDA0003280922730000023
公式为:
Figure BDA0003280922730000024
其中,i为波束索引,Γ表示波束索引集合,
Figure BDA0003280922730000025
为波束方向;
所述智能体与所述用户k之间的空间信道向量gk公式为:
Figure BDA0003280922730000026
其中,ρLOS
Figure BDA0003280922730000027
分别表示视线传输(LOS)和非视线传输(NLOS) 信道的增益系数;φLOS
Figure BDA0003280922730000028
分别为视线传输(LOS)和非视线传输 (NLOS)的离去角。
本公开的一实施例中,将所述信道样本作为所述深度神经网络的输 入,得到接收信号功率,所述接收信号功率归一化满足
Figure BDA0003280922730000031
其中E[·] 是期望运算符,I是单位矩阵;所述接收功率为||y||2,其中,y为用户接 收信号;
用户接收信号公式为:
y=HGPq+n (5)
其中,G为波束选择矩阵,所述波束选择矩阵G元素为0或1,
Figure BDA0003280922730000032
是具有独立同分布(i.i.d)的加性高斯白噪声,H为波束信 道矩阵,P为预编码矩阵,且||P||2=1,q为智能体向用户发送的下行信号。
本公开的一实施例中,将信道矩阵和波束索引矩阵设置为同等大小, 同时设置适当的学习率,并用随机参数初始化动作-值函数和概率矩阵, 每个所述智能体的初始化参数都是相互独立的。
本公开的一实施例中,根据目标函数寻得当前迭代的最优动作,以 概率1-ε执行,随机选择一个动作at,并以概率ε执行,执行动作后得到 奖励函数rt,预测准确的波束会在每次迭代过程中强化动作;
所述奖励函数为最大化用户和速率,公式为:
Figure BDA0003280922730000033
其中,σ2表示噪声的功率;
所述智能体的转移概率ε公式为:
Figure BDA0003280922730000034
其中,1(·)为指示函数,
Figure RE-GDA0003327680840000034
为波束i的估计值。
本公开的一实施例中,所述动作-值函数为所述智能体在状态s时采 取动作a的奖励;
所述值函数公式为:
Figure BDA0003280922730000037
则所述动作-值函数公式为:
Figure BDA0003280922730000041
最优策略通过贝尔曼等式获得,所述最优策略公式为:
Figure BDA0003280922730000042
其中,π表示状态st映射到动作at的策略,s0为初始状态,γt表示第t 步的折现系数,
Figure BDA0003280922730000043
表示累计折现奖励。
本公开的一实施例中,获得当前迭代的动作、状态和奖励函数后观察下一状态st+1,将所有智能体数据保存在经验缓存池中。
本公开的一实施例中,从所述经验缓存池中选取最小批尺寸的数据输入
Figure BDA0003280922730000044
计算损失函数,并更新训练参数,在所述Q网络训练 中,采用所述Q网络估计动作-值函数;
所述损失函数公式为:
L(θ)=E{(yt-Q(st+1,a;θ))2} (11)
其中,θ表示所述深度神经网络的参数;
则第t次迭代的目标输出公式为:
Figure BDA0003280922730000045
其中,θ1和θ2分别表示两层所述深度神经网络的不同参数。
本公开的一实施例中,基于所述损失函数,利用随机梯度下降法来 更新权值θ,所述损失函数的梯度表示为:
Figure BDA0003280922730000046
其中,L(θ)为所述损失函数。
本公开的一实施例中,在下一迭代中选取动作at+1,并和状态、训练 参数共同作为输入根据式(9)求解估计动作-值函数,同时依据式(10) 和功率约束条件
Figure BDA0003280922730000047
其中Pthreshold表示智能体功率阈值,超 过该值表明移动用户需要进行切换,得到最优策略(动作-值映射)和式 (13)后可得到权值并返回所述深度神经网络进行更新。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开的实施例中,通过上述方法,利用深度神经网络获取多个能 反映信道特征的关键值,使多天线(MIMO)系统的波束预测更符合动态 用户信道的时变特性,提高波束切换成功率,减小大规模多天线(MIMO) 系统的反馈开销,从而提高和速率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合 本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地, 下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人 员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
图1示出本公开示例性实施例中基于多智能体深度强化学习流程图;
图2示出本公开示例性实施例中动态用户波束预测示意图;
图3示出本公开示例性实施例中基于多智能体深度强化学习示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式 能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提 供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构 思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以 任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开实施例的示意性图解,并非一定是按比例绘 制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的 重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或 逻辑上独立的实体相对应。
本示例实施方式中首先提供了一种基于多智能体深度强化学习的波 束预测方法,参考图1中所示,该方法可以包括:步骤S101~步骤S103。
步骤S101:深度神经网络利用瞬时信道状态信息学习无线信道的关 键传播特性;
步骤S102:Q网络利用所述深度神经网络输出估计动作-值函数,计 算网络参数梯度,并让每个智能体依次做出下一次波束预测;
步骤S103:利用所述Q网络输出参数更新所述深度神经网络权值, 实现对动态用户的精准波束预测。
通过上述方法,利用深度神经网络获取多个能反映信道特征的关键 值,使多天线(MIMO)系统的波束预测更符合动态用户信道的时变特性, 提高波束切换成功率,减小大规模多天线(MIMO)系统的反馈开销,从 而提高和速率。
下面,将参考图1至图3对本示例实施方式中的上述基于多智能体 深度强化学习的波束预测方法的各个步骤进行更详细的说明。
在步骤S101中,深度神经网络利用瞬时信道状态信息学习无线信道 的关键传播特性;
具体的,首先获取瞬时信道状态信息,每个基站根据各自的数字基 带参数获取角度信息
Figure BDA0003280922730000061
并构建信道样本
Figure BDA0003280922730000062
将其作为DNN的输入,接收信号功率为||y||2
考虑大规模MIMO系统的下行通信,配备M根天线的基站(BS)同 时与K个单天线用户进行通信。在二维平面内,基站与用户间的信道可 以表示为:
H=[h1,h2,...hK] (1)
其中,hk,k∈{1,2,…,K}为所述用户与所述智能体间的信道,所述用户 与所述智能体间的信道公式为:
Figure BDA0003280922730000063
其中,
Figure BDA0003280922730000064
表示导向向量,gk表示所述智能体与用户k之间的空间信 道向量;
所述导向向量
Figure BDA0003280922730000065
公式为:
Figure BDA0003280922730000066
其中,i为波束,j表示与第k个用户之外的其他用户索引,Γ表示波 束索引集合,
Figure BDA0003280922730000071
为波束方向;
所述智能体与所述用户k之间的空间信道向量gk公式为:
Figure BDA0003280922730000072
其中,ρLOS
Figure BDA0003280922730000073
分别表示视线传输(LOS)和非视线传输(NLOS) 信道的增益系数;φLOS
Figure BDA0003280922730000074
分别为视线传输(LOS)和非视线传输 (NLOS)的离去角。
假设信号功率归一化满足
Figure BDA0003280922730000075
其中E[·]是期望运算符,I是单 位矩阵,则用户接收信号y表示为:
y=HGPq+n (5)
其中,G为波束选择矩阵,所述波束选择矩阵G元素为0或1,
Figure BDA0003280922730000076
是具有独立同分布(i.i.d)的加性高斯白噪声,H为波束信 道矩阵,P为预编码矩阵,且||P||2=1,q为智能体向用户发送的下行信号, 接收信号功率为||y||2
步骤S102中,Q网络利用所述深度神经网络输出估计动作-值函数, 计算网络参数梯度,并让每个智能体依次做出下一次波束预测;
具体的,将信道矩阵和波束索引矩阵设置为同等大小,同时设置适 当的学习率,并用随机参数初始化动作-值函数Qπ(s,a)和概率矩阵,每个 基站的初始化参数都是相互独立的;对于多智能体深度强化学习,本发 明视基站为智能体,其状态用st表示,状态空间S可以表示为波束信道矩 阵H和波束索引矩阵组成的张量并用1或0分别表示信道的好坏。智能 体的动作at为选择波束的过程,动作空间A可以表示为在波束选择矩阵中 选择具有最大接收功率的波束,并且每次迭代时最多只选择一个波束。
根据目标函数寻得当前迭代的最优工作,以概率at执行,随机选择 一个动作at,并以概率ε执行。执行动作后得到奖励函数rt,预测准确的 波束会在每次迭代过程中强化动作。
奖励函数rt为最大化用户和速率,公式为:
Figure BDA0003280922730000081
其中,j表示与第k个用户之外的其他用户索引,σ2表示噪声的功率;
所述智能体的转移概率ε公式为:
Figure BDA0003280922730000082
其中,1(·)为指示函数,
Figure RE-GDA0003327680840000083
为波束i的估计值。
所述动作-值函数为所述智能体在状态s时采取动作a的奖励;
所述值函数公式为:
Figure BDA0003280922730000085
其中,π表示状态st到动作at的策略,s0为初始状态,γt表示第t步的 折现系数,
Figure BDA0003280922730000086
表示累计折现奖励;
则所述动作-值函数公式为:
Figure BDA0003280922730000087
最优策略通过贝尔曼等式获得,所述最优策略公式为:
Figure BDA0003280922730000088
步骤S103:利用所述Q网络输出参数更新所述深度神经网络权值, 实现对动态用户的精准波束预测。
具体的,先获得当前迭代的动作、状态和奖励函数后观察下一状态 st+1,将所有基站数据保存在经验缓存池(Experience Buffer Replay)中;
从经验缓存池中选取最小批尺寸的数据输入
Figure BDA0003280922730000089
计算损失函 数,并更新训练参数θ。在线训练阶段中,采用深度Q网络估计动作-值 函数;Q网络旨在最小化损失函数:
L(θ)=E{(yt-Q(st+1,a;θ))2} (11)
其中,θ表示所述深度神经网络的参数;
则第t次迭代的目标输出公式为:
Figure BDA0003280922730000091
其中,θ1和θ2分别表示两层所述深度神经网络的不同参数。
基于所述损失函数L(θ),利用随机梯度下降法来更新权值θ,所述损 失函数的梯度可以表示为:
Figure BDA0003280922730000092
然后在下一迭代中选取动作at+1,并和状态、训练参数共同作为输入 根据式(9)求解估计动作-值函数,同时依据式(10)和功率约束条件
Figure BDA0003280922730000093
其中Pthreshold表示基站功率阈值,超过该值表明移动用 户需要进行切换;得到最优策略(动作-值映射)和式(13)后可得到权 值并返回DNN进行更新。
通过上述方法,利用深度神经网络获取多个能反映信道特征的关键 值,使多天线(MIMO)系统的波束预测更符合动态用户信道的时变特性, 提高波束切换成功率,减小大规模多天线(MIMO)系统的反馈开销,从 而提高和速率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体 特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在 本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示 例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多 个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想 到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或 者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原 理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说 明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权 利要求指出。

Claims (10)

1.一种基于多智能体深度强化学习的波束预测方法,其特征在于,该方法包括:
深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性;
Q网络利用所述深度神经网络输出估计动作-值函数,计算网络参数梯度,并让每个智能体依次做出下一次波束预测;
利用所述Q网络输出参数更新所述深度神经网络权值,实现对动态用户的精准波束预测。
2.根据权利要求1所述基于多智能体深度强化学习的波束预测方法,其特征在于,所述瞬时信道状态信息获取为所述智能体根据数字基带参数获取角度信息,并构建信道样本;
所述智能体设置M根天线,同时与K个单天线用户进行通信,所述智能体与所述用户间的信道为:
H=[h1,h2,...hK] (1)
其中,hk,k∈{1,2,…,K}为所述用户与所述智能体间的信道,所述用户与所述智能体间的信道公式为:
Figure FDA0003280922720000011
其中,
Figure FDA0003280922720000012
表示导向向量,gk表示所述智能体与用户k之间的空间信道向量;
所述导向向量
Figure FDA0003280922720000013
公式为:
Figure FDA0003280922720000014
其中,i为波束索引,Γ表示波束索引集合,
Figure FDA0003280922720000015
为波束方向;
所述智能体与所述用户k之间的空间信道向量gk公式为:
Figure FDA0003280922720000016
其中,ρLOS
Figure FDA0003280922720000017
分别表示视线传输(LOS)和非视线传输(NLOS)信道的增益系数;φLOS
Figure FDA0003280922720000018
分别为视线传输(LOS)和非视线传输(NLOS)的离去角。
3.根据权利要求2所述基于多智能体深度强化学习的波束预测方法,其特征在于,将所述信道样本作为所述深度神经网络的输入,得到接收信号功率,所述接收信号功率归一化满足
Figure FDA0003280922720000021
其中E[·]是期望运算符,I是单位矩阵;所述接收功率为||y||2,其中,y为用户接收信号;
用户接收信号公式为:
y=HGPq+n (5)
其中,G为波束选择矩阵,所述波束选择矩阵G元素为0或1,
Figure FDA0003280922720000022
是具有独立同分布(i.i.d)的加性高斯白噪声,H为波束信道矩阵,P为预编码矩阵,且||P||2=1,q为智能体向用户发送的下行信号。
4.根据权利要求1所述基于多智能体深度强化学习的波束预测方法,其特征在于,将信道矩阵和波束索引矩阵设置为同等大小,同时设置适当的学习率,并用随机参数初始化动作-值函数和概率矩阵,每个所述智能体的初始化参数都是相互独立的。
5.根据权利要求4所述基于多智能体深度强化学习的波束预测方法,其特征在于,根据目标函数寻得当前迭代的最优动作,以概率1-ε执行,随机选择一个动作at,并以概率ε执行,执行动作后得到奖励函数rt,预测准确的波束会在每次迭代过程中强化动作;
所述奖励函数为最大化用户和速率,公式为:
Figure RE-FDA0003327680830000023
其中,σ2表示噪声的功率;
所述智能体的转移概率ε公式为:
Figure RE-FDA0003327680830000024
其中,1(·)为指示函数,
Figure RE-FDA0003327680830000025
为波束i的估计值。
6.根据权利要求1所述基于多智能体深度强化学习的波束预测方法,其特征在于,所述动作-值函数为所述智能体在状态s时采取动作a的奖励;
所述值函数公式为:
Figure FDA0003280922720000031
则所述动作-值函数公式为:
Figure FDA0003280922720000032
最优策略通过贝尔曼等式获得,所述最优策略公式为:
Figure FDA0003280922720000033
其中,π表示状态st映射到动作at的策略,s0为初始状态,γt表示第t步的折现系数,
Figure FDA0003280922720000034
表示累计折现奖励。
7.根据权利要求6所述基于多智能体深度强化学习的波束预测方法,其特征在于,获得当前迭代的动作、状态和奖励函数后观察下一状态st+1,将所有智能体数据保存在经验缓存池中。
8.根据权利要求7所述基于多智能体深度强化学习的波束预测方法,其特征在于,从所述经验缓存池中选取最小批尺寸的数据输入
Figure FDA0003280922720000035
计算损失函数,并更新训练参数,在所述Q网络训练中,采用所述Q网络估计动作-值函数;
所述损失函数公式为:
L(θ)=E{(yt-Q(st+1,a;θ))2} (11)
其中,θ表示所述深度神经网络的参数;
则第t次迭代的目标输出公式为:
Figure FDA0003280922720000036
其中,θ1和θ2分别表示两层所述深度神经网络的不同参数。
9.根据权利要求8所述基于多智能体深度强化学习的波束预测方法,其特征在于,基于所述损失函数,利用随机梯度下降法来更新权值θ,所述损失函数的梯度表示为:
Figure FDA0003280922720000037
其中,L(θ)为所述损失函数。
10.根据权利要求9所述基于多智能体深度强化学习的波束预测方法,其特征在于,在下一迭代中选取动作at+1,并和状态、训练参数共同作为输入根据式(9)求解估计动作-值函数,同时依据式(10)和功率约束条件
Figure FDA0003280922720000041
其中Pthreshold表示智能体功率阈值,超过该值表明移动用户需要进行切换,得到最优策略(动作-值映射)和式(13)后可得到权值并返回所述深度神经网络进行更新。
CN202111132541.6A 2021-09-27 2021-09-27 一种基于多智能体深度强化学习的波束预测方法 Active CN113904704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111132541.6A CN113904704B (zh) 2021-09-27 2021-09-27 一种基于多智能体深度强化学习的波束预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111132541.6A CN113904704B (zh) 2021-09-27 2021-09-27 一种基于多智能体深度强化学习的波束预测方法

Publications (2)

Publication Number Publication Date
CN113904704A true CN113904704A (zh) 2022-01-07
CN113904704B CN113904704B (zh) 2023-04-07

Family

ID=79029426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111132541.6A Active CN113904704B (zh) 2021-09-27 2021-09-27 一种基于多智能体深度强化学习的波束预测方法

Country Status (1)

Country Link
CN (1) CN113904704B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899524A (zh) * 2017-03-21 2017-06-27 电子科技大学 基于信道预测和用户QoS的安全接入方法
CN109617584A (zh) * 2019-01-08 2019-04-12 南京邮电大学 一种基于深度学习的mimo系统波束成形矩阵设计方法
CN110417444A (zh) * 2019-07-08 2019-11-05 东南大学 一种基于深度学习的毫米波信道波束训练方法
US20190356516A1 (en) * 2018-05-18 2019-11-21 Parallel Wireless, Inc. Machine Learning for Channel Estimation
CN111181619A (zh) * 2020-01-03 2020-05-19 东南大学 基于深度强化学习的毫米波混合波束成形设计方法
CN111543012A (zh) * 2017-12-15 2020-08-14 高通股份有限公司 用于动态波束对确定的方法和设备
WO2020213964A1 (en) * 2019-04-16 2020-10-22 Samsung Electronics Co., Ltd. Method and apparatus for reporting channel state information
CN112368950A (zh) * 2018-06-28 2021-02-12 诺基亚技术有限公司 使用深度学习的多用户多输入多输出波束选择和用户配对的方法和装置
CN113261016A (zh) * 2018-11-05 2021-08-13 诺基亚通信公司 使用基于强化学习的深度q网络(dqn)的单发多用户多输入多输出(mu-mimo)资源配对
CN113411110A (zh) * 2021-06-04 2021-09-17 东南大学 一种基于深度强化学习的毫米波通信波束训练方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106899524A (zh) * 2017-03-21 2017-06-27 电子科技大学 基于信道预测和用户QoS的安全接入方法
CN111543012A (zh) * 2017-12-15 2020-08-14 高通股份有限公司 用于动态波束对确定的方法和设备
US20190356516A1 (en) * 2018-05-18 2019-11-21 Parallel Wireless, Inc. Machine Learning for Channel Estimation
CN112368950A (zh) * 2018-06-28 2021-02-12 诺基亚技术有限公司 使用深度学习的多用户多输入多输出波束选择和用户配对的方法和装置
CN113261016A (zh) * 2018-11-05 2021-08-13 诺基亚通信公司 使用基于强化学习的深度q网络(dqn)的单发多用户多输入多输出(mu-mimo)资源配对
CN109617584A (zh) * 2019-01-08 2019-04-12 南京邮电大学 一种基于深度学习的mimo系统波束成形矩阵设计方法
WO2020213964A1 (en) * 2019-04-16 2020-10-22 Samsung Electronics Co., Ltd. Method and apparatus for reporting channel state information
CN110417444A (zh) * 2019-07-08 2019-11-05 东南大学 一种基于深度学习的毫米波信道波束训练方法
CN111181619A (zh) * 2020-01-03 2020-05-19 东南大学 基于深度强化学习的毫米波混合波束成形设计方法
CN113411110A (zh) * 2021-06-04 2021-09-17 东南大学 一种基于深度强化学习的毫米波通信波束训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HE HUA; JIANG JING; LIANG YANXIA: "Nested Beam Selection Algorithm in Beamspace Millimeter Wave Massive MIMO System", 《2020 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS IN CHINA (ICCC WORKSHOPS)》 *
KE MA; PEIYAO ZHAO; ZHAOCHENG WANG: "Deep Learning Assisted Beam Prediction Using Out-of-Band Information", 《2020 IEEE 91ST VEHICULAR TECHNOLOGY CONFERENCE (VTC2020-SPRING)》 *
王森: "基于深度学习的毫米波信道估计与预编码研究", 《信息科技》 *

Also Published As

Publication number Publication date
CN113904704B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Ge et al. Deep reinforcement learning for distributed dynamic MISO downlink-beamforming coordination
CN113411110B (zh) 一种基于深度强化学习的毫米波通信波束训练方法
JP5649661B2 (ja) マルチセルマルチユーザ基盤のプリコーディング方法及び通信装置
CN103763782B (zh) 一种mu‑mimo下行链路基于加权用户相关的公平调度方法
Kim et al. Multi-IRS-assisted multi-cell uplink MIMO communications under imperfect CSI: A deep reinforcement learning approach
Zhang et al. Learning based user scheduling in reconfigurable intelligent surface assisted multiuser downlink
Shen et al. Design and implementation for deep learning based adjustable beamforming training for millimeter wave communication systems
CN113438002B (zh) 基于lstm的模拟波束切换方法、装置、设备及介质
US11546033B2 (en) Method of performing beam training based on reinforcement learning and wireless communication device performing the same
CN113783593A (zh) 一种基于深度强化学习的波束选择方法和系统
CN116321466A (zh) 去蜂窝大规模mimo中无人机通信的频谱效率优化方法
US6734822B2 (en) Transmission system and method on a forward link
CN114302487B (zh) 基于自适应粒子群功率分配的能效优化方法、装置及设备
CN113437999B (zh) 一种抑制毫米波通信系统中波束漂移效应的自适应波束宽度调制方法
Waqar et al. Opportunistic Fluid Antenna Multiple Access via Team-Inspired Reinforcement Learning
CN114268348A (zh) 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法
CN113904704B (zh) 一种基于多智能体深度强化学习的波束预测方法
Eskandari et al. Statistical CSI-based Beamforming for RIS-Aided Multiuser MISO Systems using Deep Reinforcement Learning
CN117176218A (zh) 基于深度强化学习的ris联合波束赋形方法及通信系统
Kim et al. Learning-Based Adaptive User Selection in Millimeter Wave Hybrid Beamforming Systems
Akbarpour-Kasgari et al. Deep Reinforcement Learning in mmW-NOMA: Joint Power Allocation and Hybrid Beamforming
Li et al. Optimization of Broadcast Beams in Massive MIMO: Learning from A Digital Twin
He et al. CNN-enabled joint active and passive beamforming for RIS-assisted MU-MIMO systems
CN113472472B (zh) 基于分布式强化学习的多小区协同波束赋形方法
Thang et al. Joint beamforming and user association with reduced CSI signaling in mobile environments: A Deep Q-learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant