CN114268348A - 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法 - Google Patents

一种基于深度强化学习的无蜂窝大规模mimo功率分配方法 Download PDF

Info

Publication number
CN114268348A
CN114268348A CN202111569023.0A CN202111569023A CN114268348A CN 114268348 A CN114268348 A CN 114268348A CN 202111569023 A CN202111569023 A CN 202111569023A CN 114268348 A CN114268348 A CN 114268348A
Authority
CN
China
Prior art keywords
power control
network
reinforcement learning
control coefficient
power distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111569023.0A
Other languages
English (en)
Inventor
李春国
孙希茜
徐澍
王东明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202111569023.0A priority Critical patent/CN114268348A/zh
Publication of CN114268348A publication Critical patent/CN114268348A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,包括:构建无蜂窝大规模MIMO系统,以AP与UE之间的功率控制系数为优化参数,提出下行链路功率分配的优化问题;将优化问题建模为一个马尔可夫决策过程,并构建可以与强化学习模型交互的无蜂窝大规模MIMO环境;建立DDQN网络拟合用于评价功率控制系数的Q函数,与无蜂窝大规模MIMO环境交互,训练Dueling DDQN网络,使得MDP问题的累积收益最大,最终得到各个AP与UE之间的功率控制系数。与传统的基于优化的算法相比,本方法通过建立环境,让强化学习模型与之交互的方式获得优解,而无需针对问题建立精确的模型。

Description

一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法
技术领域
本发明涉及无蜂窝大规模MIMO功率分配领域,特别是涉及一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法。
背景技术
随着无线通信网络的快速发展,网络的覆盖率成为了衡量国家科学技术发展程度的重要指标之一。从无人驾驶、无人机等工业领域到智慧医疗、网络教育等生活领域,无线网络渗透在人类生活的方方面面,提高用户服务的质量也成为了无线网络领域的首要任务。在5G网络的建设中,主要通过增强网络部署的密集性来提高用户传输速率,具体方法包括缩小蜂窝规模与增加基站的天线数目。无蜂窝大规模MIMO系统是一种具有大量发射/接收天线的基站的通信技术,与传统MIMO系统相比,无蜂窝大规模MIMO系统中取消了蜂窝的划分,所有的AP利用相同的时间-频率资源同时服务所有的用户。由于信号处理复杂度较低,且为用户提供的服务质量几乎相同,无蜂窝大规模MIMO系统被普遍视为一种很有潜力的无线网络架构。在上行链路传输中,所有用户在相同的时频资源上向AP传输数据。AP利用信道估计将所需信号从接收信号中分离出来。在下行链路传输中,AP用相同的时频资源为用户提供服务,并结合预编码、功率分配技术改善用户服务质量。
在无蜂窝大规模MIMO系统中,功率分配策略是抑制用户间干扰、提高用户传输速率的重要途径。功率分配策略在中央处理单元(Central Processing Unit,CPU)处进行,CPU为AP指定发送给UE信号的功率,合适的发送功率有助于系统中的用户获得较高的通信质量。现有的功率分配方法主要是基于优化或迭代算法的,这类算法通常需要大量的计算资源与时间成本。目前,随着深度学习领域的发展,也出现了许多基于学习的功率分配算法。有监督学习方法通常以传统优化算法,如二分法等的功率分配结果作为训练的标签,用深度神经网络获得次优的功率分配策略。这类算法依赖于大量数据样本,算法性能取决于采用的功率分配标签,并不能得到最优解。时间复杂度与算法性能之间的权衡成为了功率分配优化问题中关键。
为了在降低时间复杂度的同时获得较好的用户服务质量,本发明基于DuelingDDQN提出了一种功率控制系数的选择算法。本方法无需使用传统算法产生标签,而是用强化学习算法训练网络,得出功率分配的策略,在减少计算时间的同时,保证了用户的服务质量。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,用以解决背景技术中提及的技术问题。本发明针对无蜂窝大规模MIMO场景中下行链路数据传输阶段,基于Dueling DDQN模型的强化学习功率分配方法。经过信道建模、建立MDP模型、训练Dueling DDQN网络后,最终得到无蜂窝大规模MIMO的功率控制系数。
为了实现上述目的,本发明采用如下技术方案:
一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,包括如下步骤:
步骤S1、构建无蜂窝大规模MIMO系统,再以该无蜂窝大规模MIMO系统中的下行链路功率控制系数为优化对象,以及以最大化用户下行链路速率之和为目标,构建优化问题;
步骤S2、将所述优化问题建模为一个马尔可夫决策过程,并且构建无蜂窝大规模MIMO环境;
步骤S3、利用Dueling DDQN算法框架构建功率分配模型,该功率分配模型包括交互环境模块和深度强化学习模块,所述交互环境模块用于模拟步骤S2中构建的基于马尔可夫决策过程的无蜂窝大规模MIMO环境,所述深度强化学习模块包括缓存区、Dueling DDQN网络以及动作选择策略子模块;
步骤S4、首先以当前系统状态作为所述Dueling DDQN网络的输入,再以此状态下对应AP的功率控制系数的Q值,作为网络输出,然后再基于网络输出的Q值与探索策略,为当前AP选择功率控制系数,最后利用强化学习算法训练Dueling DDQN网络,使得马尔可夫决策问题的累积收益最大化。
进一步的,在所述步骤S1中,所述构建无蜂窝大规模MIMO系统具体包括:
步骤S101、首先设定AP和UE的个数,以及相应的分布范围,然后再对AP与UE之间的通信信道进行建模,确定大尺度衰落与小尺度衰落模型,最后设定无蜂窝大规模MIMO系统以时分复用的方式进行工作,其中,所述无蜂窝大规模MIMO系统的工作过程包括:上行链路训练、下行链路数据传输与上行链路数据传输三个阶段;
步骤S102、对上行链路训练阶段进行建模,具体包括:
首先为UE确定上行导频序列,然后AP端根据接收数据对信道系数进行最小均方误差估计;
步骤S103、对下行链路数据传输阶段建模,具体包括:
首先AP端基于信道估计对待传输数据进行预编码,然后再引入功率控制系数,通过该功率控制系数对数据进行加权,再同时发送至各个UE端;
步骤S104、对上行链路数据传输阶段建模,具体包括:
首先在UE端用功率控制系数对待发送数据进行加权,然后同时发送至各个AP端,AP端将接收的数据转发至CPU进行解码。
进一步的,在所述步骤S1中,通过用户下行链路信噪比和传输速率的表达式,以及功率限制条件,来构建所述优化问题。
进一步的,所述用户下行链路信噪比的表达式为:
Figure BDA0003422904410000031
公式中,
Figure BDA0003422904410000032
表示每个导频符号的归一化信噪比,ηmk表示为功率控制系数,并且m=1,…,M,k=1,…K,其中,K表示为该系统中有K个用户,M表示为该系统中有M个无线接入点;
Figure BDA0003422904410000033
表示为导频序列,βmk表示大尺度衰落。
进一步的,所述传输速率的表达式为:
Figure BDA0003422904410000034
公式中,
Figure BDA0003422904410000035
表示为第k个UE的传输速率,SINRk表示为k个UE的下行链路信噪比。
进一步的,所述优化问题的表达式为:
Figure BDA0003422904410000036
ηmk≥0,k=1,…,K,m=1,…,M。
进一步的,所述步骤S2具体包括:
步骤S201、设定状态空间,其表示为每一个时刻的系统状态,并且每一个时刻的系统状态都由用户信噪比与当前AP索引值组成;
步骤S202、设定动作空间,其为功率控制系数取值的有限集合;
步骤S203、设定状态转移概率,其为采取动作后,系统转移到某一新状态的概率,取值范围为[0,1];
步骤S204、设定收益信息,其为状态转移前后用户速率之和的增益;
步骤S205、设定折扣因子,其取值为[0,1]的数。
进一步的,所述状态空间的表达式为:st=[SINR,c]∈S,其中,SINR表示为用户信噪比,其具体表达式为:
Figure BDA0003422904410000041
其为K维矢量,表示K个UE的信号与干扰加噪声比;c表示为AP索引值,其具体表达式为:
Figure BDA0003422904410000042
其为one-hot编码,其中em的第m维为1,其余维均为0,表示在此状态下要为第m个AP更新功率控制系数;
所述动作空间取值为at=(ηm1m2,…,ηmK),其中,功率控制系数取值为ηmk∈{0.7,0.8,0.9,1.0}。
进一步的,所述步骤S4具体包括:
步骤S401、初始化Dueling DDQN网络的网络参数,并且初始化交互环境模块和缓存区;
步骤S402、首先以当前时刻的系统状态作为所述Dueling DDQN网络的输入,再将网络输出的Q值输入至所述动作选择策略子模块中,所述动作选择策略子模块根据接收的Q值进行动作选择,然后再将选择得到的功率控制系数传输至所述交互环境模块中进行环境交互,从而得到状态转移参数,最后再将该状态转移参数传输至所述缓存区中,当所述缓存区中数据量达到某一设定值时,进行下一步,其中,该状态转移参数包括:当前时刻的系统状态、当前时刻系统可采取的动作、下一时刻的系统状态、当前时刻的收益信息;
步骤S403、从所述缓存区中随机抽取一批状态转移参数,将其用于网络训练,训练时,将每轮训练划分为多个时间步,每一步更新一个AP与所有UE之间的功率控制系数;
步骤S404、基于当前选择的功率控制系数,计算累积收益与期望值之间的均方误差,再利用反向传播算法更新所述Dueling DDQN网络的网络参数,当系统的收益收敛至某一值时,停止更新。
本发明的有益效果是:
本发明基于深度强化学习算法设计无蜂窝大规模MIMO系统中的功率分配系数,与传统的基于优化的算法相比,大大降低了算法的时间复杂度,可以在有限的计算资源下,为无蜂窝大规模MIMO系统进动态功率分配。
附图说明
图1为实施例1中提供的一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法的流程示意图;
图2为实施例1中提供的功率分配模型的框架示意图;
图3为实施例1中提供的无蜂窝大规模MIMO模型建立的流程图;
图4为实施例1中提供的无蜂窝大规模MIMO系统的示意图;
图5为实施例1中提供的利用强化学习算法训练Dueling DDQN网络的流程示意图;
图6为实施例1中提供的Dueling DDQN网络训练曲线图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1-图6,本实施例提供一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,具体如图1所示,该方法包括如下步骤:
步骤S1、构建无蜂窝大规模MIMO系统,具体包括:
首先确定AP、UE的个数与分布范围以及信道的大尺度衰落与小尺度衰落模型;
然后AP端根据上行链路训练阶段的导频信号估计信道参数;
接着下行链路数据传输阶段AP利用相同的时频资源为UE提供服务;
最后上行链路数据传输阶段AP将接收到的来自UE的信号转发给CPU,CPU从中检测出有用信号。
基于上述过程提出无蜂窝大规模MIMO系统中的功率分配优化问题。将系统中下行链路功率控制系数作为优化对象,以最大化用户下行链路速率之和为目标,提出优化问题。
步骤S2、将上一步中的功率分配优化问题建模为马尔可夫决策过程,并据此建立无蜂窝大规模MIMO环境。建立MDP模型包括确定MDP问题中的五元组
Figure BDA0003422904410000051
即状态空间S、动作空间
Figure BDA0003422904410000052
状态转移概率
Figure BDA0003422904410000053
收益
Figure BDA0003422904410000054
以及折扣因子γ。具体如下:
1、状态空间S,其由信噪比SINR与索引值c两个部分组成,st=[SINR,c]∈S,其中,
Figure BDA0003422904410000055
表示K个UE的信号与干扰加噪声比,它是一个K维矢量;
Figure BDA0003422904410000056
是M维的one-hot编码,其中em的第m维为1,其余维均为0,表示在此状态下要为第m个AP更新动作,即更新功率控制系数(ηm1m2,…,ηmK)。
2、动作空间
Figure BDA0003422904410000057
是系统可采取动作的有限集合。
在本实施例中,设置功率系数取值为ηmk∈{0.7,0.8,0.9,1.0},因此动作的取值可表示为at=(ηm1m2,…,ηmK)。
3、状态间的转移概率
Figure BDA0003422904410000061
的取值为[0,1]。
在本实施例中,设处于状态st=[SINR,ct]的智能体通过更新功率控制系数(ηm1m2,…,ηmK)与环境交互,并转移到状态st+1=[SINR′,ct+1]。
4、收益信息
Figure BDA0003422904410000062
在本实施例中,表示为
Figure BDA0003422904410000063
即状态转移前后所获得的用户速率之和的增益。
5、折扣因子γ,在本实施例中设为0.9。
步骤S3、利用Dueling DDQN算法框架构建功率分配模型,该功率分配模型包括交互环境模块和深度强化学习模块,所述交互环境模块用于模拟步骤S2中构建的基于尔可夫决策过程的无蜂窝大规模MIMO环境,所述深度强化学习模块包括缓存区、Dueling DDQN网络以及动作选择策略子模块;
步骤S4、首先以当前系统状态作为所述Dueling DDQN网络的输入,再以此状态下对应AP的功率控制系数的Q值,作为网络输出,然后再基于网络输出的Q值与探索策略,为当前AP选择功率控制系数,最后利用强化学习算法训练Dueling DDQN网络,使得马尔可夫决策问题的累积收益最大化。
具体的说,在本实施例中,该功率分配模型的具体结构如图2所示,更具体的说,该功率分配模型包括:
交互环境模块:模拟了本实施例提出的MDP模型中的无蜂窝大规模MINO系统,包括在当前功率控制系数下系统状态的转移方式,以及不同的功率控制系数获得的收益。
深度强化学习模块:包括缓存区、Dueling DDQN网络及动作选择策略。网络基于当前采样的系统用户信噪比计算不同功率控制系数的Q值,并为当前AP选择功率控制系数。
具体的说,在本实施例中提供了一个具体的无蜂窝大规模MIMO系统,其模型的建立流程如图3所示,其模型的结构如图4所示,更具体的说,该无蜂窝大规模MIMO系统通过如下步骤进行建立:
步骤S101、考虑一个1km×1km的矩形区域,在该区域内随机分布K个用户与M个无线接入点,如图3所示。所有的AP与UE仅有单根天线,各个AP之间通过一个理想回传网络与CPU相连。图4中gmk表示第m个AP与第k个UE之间的信道系数,由下式定义:
Figure BDA0003422904410000071
公式中,hmk表示小尺度衰落,服从独立同复高斯分布;βmk表示大尺度衰落。
步骤S102、在上行链路训练阶段对信道系数进行估计。首先CPU为K个UE随机分配导频序列;然后K个UE同时发送导频序列,AP便接收到了来自K个UE的导频序列;最后AP根据接收的信号基于最小均方误差准则估计与每个UE之间的信道系数,即
Figure BDA0003422904410000072
具体表达式为:
Figure BDA0003422904410000073
Figure BDA0003422904410000074
公式中,
Figure BDA0003422904410000075
是第m个AP的接收信号yp,m在第k个UE的导频
Figure BDA0003422904410000076
上的投影,τc表示表示一个相干间隔内上行训练样本数,
Figure BDA0003422904410000077
是每个导频符号的归一化信噪比,k′表示从1,2……K中除去k的其他索引。
步骤S103、在下行链路数据传输阶段,AP向UE发送数据。首先基于上一步的信道估计使用共轭波束成形技术对传输数据编码,接着对AP与UE之间的每一信道设计功率控制系数,即ηmk,m=1,...,M,k=1,...K。最后,用户从接收信号中对AP发送的符号进行估计。在UE端,第k个UE的接收信号可表示为:
Figure BDA0003422904410000078
公式中,qk表示发给第k个UE的符号,且满足
Figure BDA0003422904410000079
不同的符号间相互独立,且独立于噪声、信道系数,wd,k是加性复高斯噪声,
Figure BDA00034229044100000710
ηmk,m=1,...,M,k=1,...K是功率控制系数,且满足以下限制条件:
Figure BDA00034229044100000711
公式中,
Figure BDA0003422904410000081
步骤S104、在上行链路数据传输阶段,UE向AP发送数据。UE使用特定的功率控制系数对发送给不同AP的数据进行加权,然后同时发送给各个AP。AP在收到信号后,通过回传链路将数据转发给CPU。CPU收到的数据可表示为:
Figure BDA0003422904410000082
公式中,qk表示第k个UE发送的符号,wu,k是加性复高斯噪声,
Figure BDA0003422904410000083
ηk,k=1,...K是功率控制系数。CPU将从ru,k中检测qk
步骤S105、将无蜂窝大规模MIMO系统下行功率分配问题写为:
Figure BDA0003422904410000084
ηmk≥0,k=1,...,K,m=1,...,M
公式中,
Figure BDA0003422904410000085
表示第k个UE的传输速率,其中信噪比(SINR)可表示为:
Figure BDA0003422904410000086
具体的说,在本实施例中,图5展示了通过强化学习算法来训练Dueling DDQN网络的具体流程,进一步展示了交互环境模块与深度强化学习模块在训练阶段的交互细节。包括:
步骤S401、初始化Q网络参数与目标网络参数,初始化环境状态及缓存,根据当前网络输出的Q值选择功率控制系数,送入无蜂窝大规模MIMO环境交互,从而得到状态转移参数,将其存入缓存中。直到缓存中数据量达到2000时,进行下一步骤。
步骤S402、从缓存中随机抽取一批状态转移参数,用于网络训练,网络输出为当前信噪比下采取各功率控制系数的Q值。基于网络输出Q值与探索策略选择功率控制系数,环境根据当前选择的功率控制系数更新用户信噪比及增益,并将此次状态转移存入缓存。
步骤S403、计算累积收益与期望值之间的均方误差,利用反向传播算法更新Q网络及目标网络的参数。判断训练步数是否达到10000步,若已经达到10000步,则结束网络训练。
具体的说,在本实施例中,用强化学习算法训练Dueling DDQN网络的累积收益曲线如图6所示。图6的横轴表示训练的轮数,纵坐标表示这一轮获得的奖励。从图中可以看到,随着训练轮数的增加,得到的奖励也在增加,在训练到700轮左右时,奖励值基本收敛到了8.3。这说明本实施例提出的功率分配算法在降低动作空间维数的同时能够得到较好的功率分配策略,有效地控制了用户间干扰,提高了无蜂窝大规模通信系统的用户和速率。
综上所述,本发明实现了一种基于深度强化学习的无蜂窝大规模MIMO系统中的功率分配方法。通过将该功率分配的优化问题建模为一个马尔可夫决策过程,并建立DuelingDDQN网络进行训练,使得MDP问题的累积收益最大,最终得到各个AP与UE之间的功率控制系数。本发明基于深度强化学习算法设计无蜂窝大规模MIMO系统中的功率分配系数,与传统的基于优化的算法相比,大大降低了算法的时间复杂度,可以在有限的计算资源下,为无蜂窝大规模MIMO系统进动态功率分配。在实际应用中,为问题建立精确的模型通常成本高昂,本方法在降低代价的同时实现了无蜂窝大规模MIMO系统的功率分配。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (9)

1.一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,其特征在于,包括如下步骤:
步骤S1、构建无蜂窝大规模MIMO系统,再以该无蜂窝大规模MIMO系统中的下行链路功率控制系数为优化对象,以及以最大化用户下行链路速率之和为目标,构建优化问题;
步骤S2、将所述优化问题建模为一个马尔可夫决策过程,并且构建无蜂窝大规模MIMO环境;
步骤S3、利用Dueling DDQN算法框架构建功率分配模型,该功率分配模型包括交互环境模块和深度强化学习模块,所述交互环境模块用于模拟步骤S2中构建的基于马尔可夫决策过程的无蜂窝大规模MIMO环境,所述深度强化学习模块包括缓存区、Dueling DDQN网络以及动作选择策略子模块;
步骤S4、首先以当前系统状态作为所述Dueling DDQN网络的输入,再以此状态下对应AP的功率控制系数的Q值,作为网络输出,然后再基于网络输出的Q值与探索策略,为当前AP选择功率控制系数,最后利用强化学习算法训练Dueling DDQN网络,使得马尔可夫决策问题的累积收益最大化。
2.根据权利要求1所述的一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,其特征在于,在所述步骤S1中,所述构建无蜂窝大规模MIMO系统具体包括:
步骤S101、首先设定AP和UE的个数,以及相应的分布范围,然后再对AP与UE之间的通信信道进行建模,确定大尺度衰落与小尺度衰落模型,最后设定无蜂窝大规模MIMO系统以时分复用的方式进行工作,其中,所述无蜂窝大规模MIMO系统的工作过程包括:上行链路训练、下行链路数据传输与上行链路数据传输三个阶段;
步骤S102、对上行链路训练阶段进行建模,具体包括:
首先为UE确定上行导频序列,然后AP端根据接收数据对信道系数进行最小均方误差估计;
步骤S103、对下行链路数据传输阶段建模,具体包括:
首先AP端基于信道估计对待传输数据进行预编码,然后再引入功率控制系数,通过该功率控制系数对数据进行加权,再同时发送至各个UE端;
步骤S104、对上行链路数据传输阶段建模,具体包括:
首先在UE端用功率控制系数对待发送数据进行加权,然后同时发送至各个AP端,AP端将接收的数据转发至CPU进行解码。
3.根据权利要求2所述的一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,其特征在于,在所述步骤S1中,通过用户下行链路信噪比和传输速率的表达式,以及功率限制条件,来构建所述优化问题。
4.根据权利要求3所述的一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,其特征在于,所述用户下行链路信噪比的表达式为:
Figure FDA0003422904400000021
公式中,
Figure FDA0003422904400000022
表示每个导频符号的归一化信噪比,ηmk表示为功率控制系数,并且m=1,…,M,k=1,…K,其中,K表示为该系统中有K个用户,M表示为该系统中有M个无线接入点;
Figure FDA0003422904400000023
表示为导频序列,βmk表示大尺度衰落。
5.根据权利要求4所述的一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,其特征在于,所述传输速率的表达式为:
Figure FDA0003422904400000024
公式中,
Figure FDA0003422904400000025
表示为第k个UE的传输速率,SINRk表示为k个UE的下行链路信噪比。
6.根据权利要求5所述的一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,其特征在于,所述优化问题的表达式为:
Figure FDA0003422904400000026
ηmk≥0,k=1,…,K,m=1,…,M。
7.根据权利要求6所述的一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,其特征在于,所述步骤S2具体包括:
步骤S201、设定状态空间,其表示为每一个时刻的系统状态,并且每一个时刻的系统状态都由用户信噪比与当前AP索引值组成;
步骤S202、设定动作空间,其为功率控制系数取值的有限集合;
步骤S203、设定状态转移概率,其为采取动作后,系统转移到某一新状态的概率,取值范围为[0,1];
步骤S204、设定收益信息,其为状态转移前后用户速率之和的增益;
步骤S205、设定折扣因子,其取值为[0,1]的数。
8.根据权利要求7所述的一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,其特征在于,所述状态空间的表达式为:st=[SINR,c]∈S,其中,SINR表示为用户信噪比,其具体表达式为:
Figure FDA0003422904400000031
其为K维矢量,表示K个UE的信号与干扰加噪声比;c表示为AP索引值,其具体表达式为:
Figure FDA0003422904400000032
其为one-hot编码,其中em的第m维为1,其余维均为0,表示在此状态下要为第m个AP更新功率控制系数;
所述动作空间取值为at=(ηm1m2,…,ηmK),其中,功率控制系数取值为ηmk∈{0.7,0.8,0.9,1.0}。
9.根据权利要求8所述的一种基于深度强化学习的无蜂窝大规模MIMO功率分配方法,其特征在于,所述步骤S4具体包括:
步骤S401、初始化Dueling DDQN网络的网络参数,并且初始化交互环境模块和缓存区;
步骤S402、首先以当前时刻的系统状态作为所述Dueling DDQN网络的输入,再将网络输出的Q值输入至所述动作选择策略子模块中,所述动作选择策略子模块根据接收的Q值进行动作选择,然后再将选择得到的功率控制系数传输至所述交互环境模块中进行环境交互,从而得到状态转移参数,最后再将该状态转移参数传输至所述缓存区中,当所述缓存区中数据量达到某一设定值时,进行下一步,其中,该状态转移参数包括:当前时刻的系统状态、当前时刻系统可采取的动作、下一时刻的系统状态、当前时刻的收益信息;
步骤S403、从所述缓存区中随机抽取一批状态转移参数,将其用于网络训练,训练时,将每轮训练划分为多个时间步,每一步更新一个AP与所有UE之间的功率控制系数;
步骤S404、基于当前选择的功率控制系数,计算累积收益与期望值之间的均方误差,再利用反向传播算法更新所述Dueling DDQN网络的网络参数,当系统的收益收敛至某一值时,停止更新。
CN202111569023.0A 2021-12-21 2021-12-21 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法 Pending CN114268348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111569023.0A CN114268348A (zh) 2021-12-21 2021-12-21 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111569023.0A CN114268348A (zh) 2021-12-21 2021-12-21 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法

Publications (1)

Publication Number Publication Date
CN114268348A true CN114268348A (zh) 2022-04-01

Family

ID=80828453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111569023.0A Pending CN114268348A (zh) 2021-12-21 2021-12-21 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法

Country Status (1)

Country Link
CN (1) CN114268348A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114980332A (zh) * 2022-05-17 2022-08-30 清华大学 去蜂窝大规模mimo系统下行功率分配方法及装置
CN115412134A (zh) * 2022-08-31 2022-11-29 东南大学 基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112566253A (zh) * 2020-11-10 2021-03-26 北京科技大学 一种无线资源分配联合优化方法及装置
US20210241090A1 (en) * 2020-01-31 2021-08-05 At&T Intellectual Property I, L.P. Radio access network control with deep reinforcement learning
US20210326695A1 (en) * 2020-04-21 2021-10-21 Caci, Inc. - Federal Method and apparatus employing distributed sensing and deep learning for dynamic spectrum access and spectrum sharing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210241090A1 (en) * 2020-01-31 2021-08-05 At&T Intellectual Property I, L.P. Radio access network control with deep reinforcement learning
US20210326695A1 (en) * 2020-04-21 2021-10-21 Caci, Inc. - Federal Method and apparatus employing distributed sensing and deep learning for dynamic spectrum access and spectrum sharing
CN112566253A (zh) * 2020-11-10 2021-03-26 北京科技大学 一种无线资源分配联合优化方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
章嘉懿;: "去蜂窝大规模MIMO系统研究进展与发展趋势", 重庆邮电大学学报(自然科学版), no. 03, 15 June 2019 (2019-06-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114980332A (zh) * 2022-05-17 2022-08-30 清华大学 去蜂窝大规模mimo系统下行功率分配方法及装置
CN114980332B (zh) * 2022-05-17 2023-04-07 清华大学 去蜂窝大规模mimo系统下行功率分配方法及装置
CN115412134A (zh) * 2022-08-31 2022-11-29 东南大学 基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
Hamdi et al. Federated learning over energy harvesting wireless networks
CN103763782B (zh) 一种mu‑mimo下行链路基于加权用户相关的公平调度方法
CN109743210B (zh) 基于深度强化学习的无人机网络多用户接入控制方法
CN114268348A (zh) 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法
KR102510513B1 (ko) 심층 학습 기반의 빔포밍 방법 및 이를 위한 장치
CN111526592B (zh) 一种用于无线干扰信道中的非协作多智能体功率控制方法
CN110167176A (zh) 一种基于分布式机器学习的无线网络资源分配方法
CN115412134A (zh) 基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法
CN112911608A (zh) 一种面向边缘智能网络的大规模接入方法
WO2023125660A1 (zh) 一种通信方法及装置
CN109995403A (zh) 大规模mimo系统中基于模拟退火思想改进的las检测算法
CN114727318A (zh) 一种基于maddpg的多ris通信网络速率提升方法
Lei et al. Joint beam training and data transmission control for mmWave delay-sensitive communications: A parallel reinforcement learning approach
CN113038583B (zh) 小区间下行链路干扰控制方法、装置和系统
Shao et al. Semantic-Aware Spectrum Sharing in Internet of Vehicles Based on Deep Reinforcement Learning
CN117560043A (zh) 一种基于图神经网络的无蜂窝网络功率控制方法
Chen et al. iPAS: A deep Monte Carlo Tree Search-based intelligent pilot-power allocation scheme for massive MIMO system
CN111741483B (zh) 移动通信系统的中断概率性能预测方法
CN114710187B (zh) 一种用户数动态变换场景下多小区大规模mimo智能通信的功率分配方法
CN114698045B (zh) 大规模leo卫星网络下的串行q学习分布式切换方法及系统
CN115623575A (zh) 一种cr-noma场景下的功率分配方法
KR20230099221A (ko) 통신 시스템에서 데이터 수신 성능 향상을 위한 방법 및 장치
CN114867123A (zh) 一种基于强化学习的5g物联网系统多用户调度方法与系统
CN116801367A (zh) 一种交叉链路干扰抑制方法、网络节点及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240920