CN113660062A - 无蜂窝大规模分布式mimo系统中基于深度强化学习的低精度adc量化比特数分配方法 - Google Patents

无蜂窝大规模分布式mimo系统中基于深度强化学习的低精度adc量化比特数分配方法 Download PDF

Info

Publication number
CN113660062A
CN113660062A CN202110917174.4A CN202110917174A CN113660062A CN 113660062 A CN113660062 A CN 113660062A CN 202110917174 A CN202110917174 A CN 202110917174A CN 113660062 A CN113660062 A CN 113660062A
Authority
CN
China
Prior art keywords
representing
rau
reinforcement learning
quantization
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110917174.4A
Other languages
English (en)
Other versions
CN113660062B (zh
Inventor
李佳珉
汪晗
朱鹏程
王东明
尤肖虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110917174.4A priority Critical patent/CN113660062B/zh
Publication of CN113660062A publication Critical patent/CN113660062A/zh
Application granted granted Critical
Publication of CN113660062B publication Critical patent/CN113660062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0006Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the transmission format
    • H04L1/0007Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the transmission format by modifying the frame length
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/02Details ; arrangements for supplying electrical power along data transmission lines
    • H04L25/0202Channel estimation
    • H04L25/0204Channel estimation of multiple channels
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Power Engineering (AREA)
  • Radio Transmission System (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法,包括以下步骤:步骤一,建立系统频谱效率和能量效率联合最大化问题;步骤二,通过深度强化学习算法,迭代求解步骤一建立的问题。本发明将一个多目标优化问题转化为单目标优化问题,利用深度强化学习,将复杂的数学求解问题转化为神经网络参数优化问题,所提出算法能够快速求解出联合优化系统频谱效率和能量效率的RAU量化比特分配方案,且具有大尺度信息的自适应性,获得比等精度量化比特分配更优的性能。

Description

无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度 ADC量化比特数分配方法
技术领域
本发明涉及一种无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法,属于移动通信技术领域。
背景技术
在无蜂窝大规模分布式MIMO系统中,大量的RAU连接到中心处理单元上,并分布在广阔的区域内联合服务用户。因此在无蜂窝大规模分布式MIMO的架构能大大提高系统性能。
然而,由于RAU规模巨大,硬件复杂度、ADC器件的能量消耗以及RAU和CPU间回传链路的容量需求随着ADC的量化比特数的增加而线性增加。使用低精度ADC,可以减少能量消耗、硬件代价和回传链路的负载,但低精度ADC将带来频谱效率的降低。因此需要通过RAU量化比特分配方法联合优化该场景下的频谱效率和能量效率。
最简单的量化比特分配方式是等精度分配,即考虑RAU和用户之间信道的质量,给每个RAU分配相同的量化比特数。这种分配方式虽然简便易行,但在各RAU与用户的通信信道质量相差较大时效果不理想。为此,需要考虑具有自适应性的量化比特分配方法。但大多数量化比特分配方法仅考虑频谱效率和能量效率一者,着眼于其的表达式,使用数据工具从数学上获得最佳的量化比特分配方式。为了联合优化频谱效率和能量效率,快速获得RAU上量化比特分配矢量,有必要结合深度学习、强化学习等智能算法对量化比特进行优化。
发明内容
本发明针对无蜂窝大规模分布式MIMO系统中联合优化频谱效率和能量效率的低精度ADC量化比特分配问题,在上行服务质量约束以及量化比特总数的约束下,提出一种无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法,以联合优化频谱效率和能量效率。
为实现上述目的,本发明采用的技术方案为:
一种无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法,其特征在于:包括以下步骤:
步骤一,建立系统频谱效率和能量效率联合最大化问题;
步骤二,通过深度强化学习算法,迭代求解步骤一建立的问题。
所述步骤一具体为:
设定频谱效率最大化目标函数:
Figure BDA0003206048930000021
其中,
Figure BDA0003206048930000022
Rj(b)是第j个用户的上行传输速率,
Figure BDA0003206048930000023
表示求随机变量、随机矢量或者随机矩阵的数学期望,b=[b1,b2,…bM]T表示所有RAU上量化比特数构成的量化比特向量,
Figure BDA0003206048930000024
表示第k个用户信号的接收机矢量,(·)H表示矩阵或向量的共轭转置,M表示RAU数,N表示每个RAU上的天线数,K表示用户总数,
Figure BDA0003206048930000025
表示行数为MN,列数为MN的复矩阵或向量,
Figure BDA0003206048930000026
表示与低精度量化精度相关的对角矩阵,αm表示第m个RAU的ADC精度参数,IN表示维度为N×N的单位矩阵,
Figure BDA0003206048930000027
表示第k个用户和所有RAU间的信道估计向量,
Figure BDA0003206048930000028
表示第k个用户和所有RAU间的信道估计误差向量,pu表示每个用户的发送功率,σ2表示高斯信道零均值加性噪声的方差,
Figure BDA0003206048930000029
表示量化噪声的相关矩阵,nq表示低精度ADC的量化噪声,
Figure BDA00032060489300000210
表示总的信道矩阵;
建立能量效率最大化目标函数:
Figure BDA00032060489300000211
其中,
Figure BDA00032060489300000212
B表示带宽,b=[b1,b2,…bM]T表示所有RAU上量化比特数构成的量化比特向量,Rk(b)是第k个用户的上行传输速率,
Figure BDA0003206048930000031
表示系统总的消耗功率,
Figure BDA0003206048930000032
表示第k个用户消耗的功率,ξ表示放大器效率,N0表示噪声功率,Ptc,k表示第k个用户电路元件消耗的能量,Pm(bm)=N(2cmPAGC,m+2PADC,m(bm)+Pres,m)+PLO,m表示第m个RAU消耗的功率,PAGC,m
Figure BDA0003206048930000033
Pres,m、PLO,m分别表示第m个RAU上的AGC(automatic gain control,自动增益控制)、ADC、保留电路单元以及本地晶振消耗的功率,cm是与bm相关的函数,bm=1时cm等于0,其它情况cm等于1,FOWW表示品质系数,fs表示奈奎斯特采样频率,
Figure BDA0003206048930000034
表示第m个RAU和CPU间回传链路消耗的能量,P0,m是每一条回传链路消耗的固定功率,Pbt,m是与通信流量无关的功率消耗,PCPU=MPBB表示CPU用于RAU基带处理的功率消耗,M表示RAU数,PBB表示CPU用于每一个RAU基带处理的功率消耗;
联合最大化问题目标函数为:
maximize f=[f1(b),f2(b)]T (4)
所述联合最大化问题目标函数具有以下约束条件:
(1)上行链路频谱效率QoS(quality of service,服务质量)需求约束:
Figure BDA0003206048930000035
式中,
Figure BDA0003206048930000036
为第k个用户的上行频谱效率,
Figure BDA0003206048930000037
表示第k个用户的最小上行谱效;
(2)比特总数约束:
Figure BDA0003206048930000038
式中,N表示每个RAU上的天线数,bm表示第m个RAU上的天线数,btotal表示所有RAU上最大ADC量化比特总数。
所述步骤二中,通过深度强化学习算法,分两步迭代求解问题:
第一步:根据频谱效率和能量效率之间的关系,将两者联合优化问题转化为单目标优化问题,对能量效率的数量级进行处理,得到总的目标函数为:
Figure BDA0003206048930000041
式中,
Figure BDA0003206048930000042
表示一个和频谱效率和能量效率有关的常量;
第二步:利用强化学习工具,结合深度学习,求解RAU的比特数分配联合最大化频谱效率和能量效率问题;神经网络用于获取每一步所有动作对应的Q值,将比特数作为神经网络的输入,Q值作为神经网络的输出;在强化学习中,将每一步的RAU比特分配矢量b作为强化学习第t步的状态st,将比特分配矢量的变化量作为每一步的动作at,每一步只能改变比特分配矢量中的一个比特位,且该比特位的只能在合理范围内加一或者减一,将联合最大化问题目标函数(7)作为强化学习的奖赏评价学习的好坏;在每一步的动作选择中,根据贪婪策略,以概率ε随机选择动作,而以概率(1-ε)选择Q值最大的动作;在每次迭代中,应用梯度下降法更新神经网络的节点的权值:
Figure BDA0003206048930000043
式(8)是神经网络输出的小均方误差,其中rt代表第t步神经网络动作选择的奖赏,γ代表折扣因子,Q(st,at)代表在状态st选择动作at的Q值,
Figure BDA0003206048930000044
表示在下一个状态s'神经网络输出的最大Q值;对该式求导更新神经网络参数。
所述步骤一中,通过引入辅助变量{αmm,kkk},再使用伽马定理,若考虑MRC(maximal ratio combining,最大比合并)接收机,将频谱效率转化为:
Figure BDA0003206048930000045
式中,
Figure BDA0003206048930000046
Figure BDA0003206048930000047
Figure BDA0003206048930000048
Ψk=pumjtmβm,kλm,j (13)
tm=αm(1-αm) (14)
若考虑ZF(zero forcing,迫零)接收机,则将频谱效率转化为:
Figure BDA0003206048930000051
式中,
Figure BDA0003206048930000052
Figure BDA0003206048930000053
Ξk=pumjtmλm,j, (18)
tm=αm(1-αm) (19)
以上式中,pu表示每个用户的发送功率,βm,k表示第m个RAU和第k个用户间估计的大尺度,λm,j表示第m个RAU和第j个用户间真实的大尺度,ηm,j表示第m个RAU和第j个用户间大尺度估计误差,αm表示第m个RAU上和比特数相关的量化参数,αm=1-ρm,ρm和第m个RAU上的比特数bm的关系为:当bm≤5时,ρm的值如表1所示,bm>5时,
Figure BDA0003206048930000054
表1ρm和bm的关系
b<sub>m</sub> 1 2 3 4 5
ρ<sub>m</sub> 0.3634 0.1175 0.03454 0.009497 0.002499
所述步骤二中,深度强化学习算法包括以下步骤:
(1)将多目标优化问题转化为单目标优化问题;
(2)初始化神经网络参数,初始化量化比特分配矢量b作为状态s0,设置最大迭代次数tmax
(3)在每一次迭代中,根据神经网络输出的Q值选择下一步动作;
(4)根据当前状态st和选择的动作at获得下一个状态s';
(5)根据式(7)计算当前状态选择动作的奖励值rt
(6)存储at,st和rt,当存储数据达到设定量时,根据式(8)进行神经网络参数更新;
(7)迭代次数加一;
(8)循环步骤(3)到(7),直到跌倒次数达到最大迭代次数;
(9)返回具有最大奖励值rmax的状态作为优化的RAU量化比特分配。
有益效果:本发明将一个多目标优化问题转化为单目标优化问题,利用深度强化学习,将复杂的数学求解问题转化为神经网络参数优化问题,所提出算法能够快速求解出联合优化系统频谱效率和能量效率的RAU量化比特分配方案,且具有大尺度信息的自适应性,获得比等精度量化比特分配更优的性能。
附图说明
图1为不同天线数时等精度量化比特分配(EQBA)和基于深度强化学习(DQN)的量化比特优化方法对比。
具体实施方式
下面结合附图及实施例对本发明作更进一步的说明。
设一个网络辅助全双工系统有M=20个RAU,位于半径为1000m的圆形区域,每个RAU有N根天线。该区域有K=5个用户,假定这些用户都配备一个天线,并且是均匀且独立分布的。路径损耗模型为
Figure BDA0003206048930000061
dm,k为第m个RAU和第k个用户间的距离,l=3.7是路径衰落指数。假设上行导频长度和用户数量相等,相干时间为T=196。功率消耗参数如下:pu=0.02W,N0=290×κ×B×NF,κ=1.381×10-23J/K,B=1MHz,NF=9dB,ξ=0.4,Ptc,k=100mW,PAGC,m=2mW,Pres,m=20mW,PLO,m=22.5mW,FOMW=15fJ/conversion-step,P0,m=200mW,Pbt,m=0.25W/(Gbits/s),PBB=200mW。
本发明在该系统的实现方法具体如下:
步骤一,建立系统频谱效率和能量效率联合最大化问题;
设定频谱效率最大化目标函数:
Figure BDA0003206048930000071
其中,
Figure BDA0003206048930000072
Rj(b)是第j个用户的上行传输速率,
Figure BDA0003206048930000073
表示求随机变量、随机矢量或者随机矩阵的数学期望,b=[b1,b2,…bM]T表示所有RAU上量化比特数构成的量化比特向量,
Figure BDA0003206048930000074
表示第k个用户信号的接收机矢量,(·)H表示矩阵或向量的共轭转置,M表示RAU数,N表示每个RAU上的天线数,K表示用户总数,
Figure BDA0003206048930000075
表示行数为MN,列数为MN的复矩阵或向量,
Figure BDA0003206048930000076
表示与低精度量化精度相关的对角矩阵,αm表示第m个RAU的ADC精度参数,IN表示维度为N×N的单位矩阵,
Figure BDA0003206048930000077
表示第k个用户和所有RAU间的信道估计向量,
Figure BDA0003206048930000078
表示第k个用户和所有RAU间的信道估计误差向量,pu表示每个用户的发送功率,σ2表示高斯信道零均值加性噪声的方差,
Figure BDA0003206048930000079
表示量化噪声的相关矩阵,nq表示低精度ADC的量化噪声,
Figure BDA00032060489300000710
表示总的信道矩阵;
建立能量效率最大化目标函数:
Figure BDA00032060489300000711
其中,
Figure BDA00032060489300000712
B表示带宽,b=[b1,b2,…bM]T表示所有RAU上量化比特数构成的量化比特向量,Rk(b)是第k个用户的上行传输速率,
Figure BDA0003206048930000081
表示系统总的消耗功率,表示第k个用户消耗的功率,ξ表示放大器效率,N0表示噪声功率,Ptc,k表示第k个用户电路元件消耗的能量,Pm(bm)=N(2cmPAGC,m+2PADC,m(bm)+Pres,m)+PLO,m表示第m个RAU消耗的功率,PAGC,m
Figure BDA0003206048930000082
Pres,m、PLO,m分别表示第m个RAU上的AGC(automatic gain control,自动增益控制)、ADC、保留电路单元以及本地晶振消耗的功率,cm是与bm相关的函数,bm=1时cm等于0,其它情况cm等于1,FOWW表示品质系数,fs表示奈奎斯特采样频率,
Figure BDA0003206048930000083
表示第m个RAU和CPU间回传链路消耗的能量,P0,m是每一条回传链路消耗的固定功率,Pbt,m是与通信流量无关的功率消耗,PCPU=MPBB表示CPU用于RAU基带处理的功率消耗,M表示RAU数,PBB表示CPU用于每一个RAU基带处理的功率消耗;
联合最大化问题目标函数为:
maximize f=[f1(b),f2(b)]T (4)
联合最大化问题目标函数具有以下约束条件:
(1)上行链路频谱效率QoS(quality of service,服务质量)需求约束:
Figure BDA0003206048930000084
式中,
Figure BDA0003206048930000085
为第k个用户的上行频谱效率,表达式同式(1),
Figure BDA0003206048930000086
表示第k个用户的最小上行谱效;
(2)比特总数约束:
Figure BDA0003206048930000087
式中,N表示每个RAU上的天线数,bm表示第m个RAU上的天线数,btotal表示所有RAU上最大ADC量化比特总数。
其中,通过引入辅助变量{αmm,kkk},再使用伽马定理,若考虑MRC(maximalratio combining,最大比合并)接收机,将频谱效率转化为:
Figure BDA0003206048930000091
式中,
Figure BDA0003206048930000092
Figure BDA0003206048930000093
Figure BDA0003206048930000094
Ψk=pumjtmβm,kλm,j (13)
tm=αm(1-αm) (14)
若考虑ZF(zero forcing,迫零)接收机,则将频谱效率转化为:
Figure BDA0003206048930000095
式中,
Figure BDA0003206048930000096
Figure BDA0003206048930000097
Ξk=pumjtmλm,j, (18)
tm=αm(1-αm) (19)
以上式中,pu表示每个用户的发送功率,βm,k表示第m个RAU和第k个用户间估计的大尺度,λm,j表示第m个RAU和第j个用户间真实的大尺度,ηm,j表示第m个RAU和第j个用户间大尺度估计误差,αm表示第m个RAU上和比特数相关的量化参数,αm=1-ρm,ρm和第m个RAU上的比特数bm的关系为:当bm≤5时,ρm的值如表1所示,bm>5时,
Figure BDA0003206048930000101
表1ρm和bm的关系
b<sub>m</sub> 1 2 3 4 5
ρ<sub>m</sub> 0.3634 0.1175 0.03454 0.009497 0.002499
步骤二,通过深度强化学习算法,分两步迭代求解问题:
第一步:根据频谱效率和能量效率之间的关系,将两者联合优化问题转化为单目标优化问题,对能量效率的数量级进行处理,得到总的目标函数为:
Figure BDA0003206048930000104
式中,
Figure BDA0003206048930000105
表示一个和频谱效率和能量效率有关的常量;
第二步:利用强化学习工具,结合深度学习,求解RAU的比特数分配联合最大化频谱效率和能量效率问题;神经网络用于获取每一步所有动作对应的Q值,将比特数作为神经网络的输入,Q值作为神经网络的输出;在强化学习中,将每一步的RAU比特分配矢量b作为强化学习第t步的状态st,将比特分配矢量的变化量作为每一步的动作at,每一步只能改变比特分配矢量中的一个比特位,且该比特位的只能在合理范围内加一或者减一,将联合最大化问题目标函数(7)作为强化学习的奖赏评价学习的好坏;在每一步的动作选择中,根据贪婪策略,以概率ε随机选择动作,而以概率(1-ε)选择Q值最大的动作;在每次迭代中,应用梯度下降法更新神经网络的节点的权值:
Figure BDA0003206048930000102
式(8)是神经网络输出的小均方误差,其中rt代表第t步神经网络动作选择的奖赏,γ代表折扣因子,Q(st,at)代表在状态st选择动作at的Q值,
Figure BDA0003206048930000103
表示在下一个状态s'神经网络输出的最大Q值;对该式求导更新神经网络参数。
深度强化学习算法包括以下步骤:
(1)将多目标优化问题转化为单目标优化问题如式(7);
(2)初始化神经网络参数,初始化量化比特分配矢量b作为状态s0,设置最大迭代次数tmax
(3)在每一次迭代中,根据神经网络输出的Q值选择下一步动作;
(4)根据当前状态st和选择的动作at获得下一个状态s';
(5)根据式(7)计算当前状态选择动作的奖励值rt
(6)存储at,st和rt,当存储数据达到一定量时,根据式(8)进行神经网络参数更新;
(7)迭代次数加一;
(8)循环步骤(3)到(7),直到跌倒次数达到最大迭代次数;
(9)返回具有最大奖励值rmax的状态作为优化的RAU量化比特分配。
图1显示出了不同天线数时等精度量化比特分配(EQBA)和基于深度强化学习(DQN)的量化比特分配方法对比。基于深度强化学习的量化比特分配实现了总量化比特少,但频谱效率和能量效率均优于等精度量化比特分配,这证明了在无蜂窝分布式大规模MIMO系统中,应在信道质量好的RAU上使用精度更高的ADC,而在信道质量较差的RAU上可以使用精度更低的ADC,这样不仅可以减少总量化比特数,而且可以同时提高频谱效率和能量效率。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法,其特征在于:包括以下步骤:
步骤一,建立系统频谱效率和能量效率联合最大化问题;
步骤二,通过深度强化学习算法,迭代求解步骤一建立的问题。
2.根据权利要求1所述的无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法,其特征在于:所述步骤一具体为:
设定频谱效率最大化目标函数:
Figure FDA0003206048920000011
其中,
Figure FDA0003206048920000012
Rj(b)是第j个用户的上行传输速率,
Figure FDA0003206048920000013
表示求随机变量、随机矢量或者随机矩阵的数学期望,b=[b1,b2,…bM]T表示所有RAU上量化比特数构成的量化比特向量,
Figure FDA0003206048920000014
表示第k个用户信号的接收机矢量,(·)H表示矩阵或向量的共轭转置,M表示RAU数,N表示每个RAU上的天线数,K表示用户总数,
Figure FDA0003206048920000015
表示行数为MN,列数为MN的复矩阵或向量,
Figure FDA0003206048920000016
表示与低精度量化精度相关的对角矩阵,αm表示第m个RAU的ADC精度参数,IN表示维度为N×N的单位矩阵,
Figure FDA0003206048920000017
表示第k个用户和所有RAU间的信道估计向量,
Figure FDA0003206048920000018
表示第k个用户和所有RAU间的信道估计误差向量,pu表示每个用户的发送功率,σ2表示高斯信道零均值加性噪声的方差,
Figure FDA0003206048920000019
表示量化噪声的相关矩阵,nq表示低精度ADC的量化噪声,
Figure FDA00032060489200000110
表示总的信道矩阵;
建立能量效率最大化目标函数:
Figure FDA00032060489200000111
其中,
Figure FDA0003206048920000021
B表示带宽,b=[b1,b2,…bM]T表示所有RAU上量化比特数构成的量化比特向量,Rk(b)是第k个用户的上行传输速率,
Figure FDA0003206048920000022
表示系统总的消耗功率,
Figure FDA0003206048920000023
表示第k个用户消耗的功率,ξ表示放大器效率,N0表示噪声功率,Ptc,k表示第k个用户电路元件消耗的能量,Pm(bm)=N(2cmPAGC,m+2PADC,m(bm)+Pres,m)+PLO,m表示第m个RAU消耗的功率,PAGC,m
Figure FDA0003206048920000024
Pres,m、PLO,m分别表示第m个RAU上的AGC、ADC、保留电路单元以及本地晶振消耗的功率,cm是与bm相关的函数,bm=1时cm等于0,其它情况cm等于1,FOWW表示品质系数,fs表示奈奎斯特采样频率,
Figure FDA0003206048920000025
表示第m个RAU和CPU间回传链路消耗的能量,P0,m是每一条回传链路消耗的固定功率,Pbt,m是与通信流量无关的功率消耗,PCPU=MPBB表示CPU用于RAU基带处理的功率消耗,M表示RAU数,PBB表示CPU用于每一个RAU基带处理的功率消耗;
联合最大化问题目标函数为:
maximize f=[f1(b),f2(b)]T (4)
所述联合最大化问题目标函数具有以下约束条件:
(1)上行链路频谱效率QoS需求约束:
Figure FDA0003206048920000026
式中,
Figure FDA0003206048920000027
为第k个用户的上行频谱效率,
Figure FDA0003206048920000028
表示第k个用户的最小上行谱效;
(2)比特总数约束:
Figure FDA0003206048920000029
式中,N表示每个RAU上的天线数,bm表示第m个RAU上的天线数,btotal表示所有RAU上最大ADC量化比特总数。
3.根据权利要求1所述的无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法,其特征在于:所述步骤二中,通过深度强化学习算法,分两步迭代求解问题:
第一步:根据频谱效率和能量效率之间的关系,将两者联合优化问题转化为单目标优化问题,对能量效率的数量级进行处理,得到总的目标函数为:
Figure FDA0003206048920000031
式中,
Figure FDA0003206048920000032
表示一个和频谱效率和能量效率有关的常量;
第二步:利用强化学习工具,结合深度学习,求解RAU的比特数分配联合最大化频谱效率和能量效率问题;神经网络用于获取每一步所有动作对应的Q值,将比特数作为神经网络的输入,Q值作为神经网络的输出;在强化学习中,将每一步的RAU比特分配矢量b作为强化学习第t步的状态st,将比特分配矢量的变化量作为每一步的动作at,每一步只能改变比特分配矢量中的一个比特位,且该比特位的只能在合理范围内加一或者减一,将联合最大化问题目标函数(7)作为强化学习的奖赏评价学习的好坏;在每一步的动作选择中,根据贪婪策略,以概率ε随机选择动作,而以概率(1-ε)选择Q值最大的动作;在每次迭代中,应用梯度下降法更新神经网络的节点的权值:
Figure FDA0003206048920000033
式(8)是神经网络输出的小均方误差,其中rt代表第t步神经网络动作选择的奖赏,γ代表折扣因子,Q(st,at)代表在状态st选择动作at的Q值,
Figure FDA0003206048920000034
表示在下一个状态s'神经网络输出的最大Q值;对该式求导更新神经网络参数。
4.根据权利要求2所述的无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法,其特征在于:所述步骤一中,通过引入辅助变量{αmm,kkk},再使用伽马定理,若考虑MRC接收机,将频谱效率转化为:
Figure FDA0003206048920000041
式中,
Figure FDA0003206048920000042
Figure FDA0003206048920000043
Figure FDA0003206048920000044
Ψk=pumjtmβm,kλm,j (13)
tm=αm(1-αm) (14)
若考虑ZF接收机,则将频谱效率转化为:
Figure FDA0003206048920000045
式中,
Figure FDA0003206048920000046
Figure FDA0003206048920000047
Ξk=pumjtmλm,j, (18)
tm=αm(1-αm) (19)
以上式中,pu表示每个用户的发送功率,βm,k表示第m个RAU和第k个用户间估计的大尺度,λm,j表示第m个RAU和第j个用户间真实的大尺度,ηm,j表示第m个RAU和第j个用户间大尺度估计误差,αm表示第m个RAU上和比特数相关的量化参数,αm=1-ρm,ρm和第m个RAU上的比特数bm的关系为:当bm≤5时,ρm的值如表1所示,bm>5时,
Figure FDA0003206048920000048
表1 ρm和bm的关系
b<sub>m</sub> 1 2 3 4 5 ρ<sub>m</sub> 0.3634 0.ii75 0.03454 0.009497 0.002499
5.根据权利要求1或3所述的无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法,其特征在于:所述步骤二中,深度强化学习算法包括以下步骤:
(1)将多目标优化问题转化为单目标优化问题;
(2)初始化神经网络参数,初始化量化比特分配矢量b作为状态s0,设置最大迭代次数tmax
(3)在每一次迭代中,根据神经网络输出的Q值选择下一步动作;
(4)根据当前状态st和选择的动作at获得下一个状态s';
(5)根据式(7)计算当前状态选择动作的奖励值rt
(6)存储at,st和rt,当存储数据达到设定量时,根据式(8)进行神经网络参数更新;
(7)迭代次数加一;
(8)循环步骤(3)到(7),直到跌倒次数达到最大迭代次数;
(9)返回具有最大奖励值rmax的状态作为优化的RAU量化比特分配。
CN202110917174.4A 2021-08-11 2021-08-11 无蜂窝大规模分布式mimo系统中基于深度强化学习的低精度adc量化比特数分配方法 Active CN113660062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110917174.4A CN113660062B (zh) 2021-08-11 2021-08-11 无蜂窝大规模分布式mimo系统中基于深度强化学习的低精度adc量化比特数分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110917174.4A CN113660062B (zh) 2021-08-11 2021-08-11 无蜂窝大规模分布式mimo系统中基于深度强化学习的低精度adc量化比特数分配方法

Publications (2)

Publication Number Publication Date
CN113660062A true CN113660062A (zh) 2021-11-16
CN113660062B CN113660062B (zh) 2022-07-12

Family

ID=78491356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110917174.4A Active CN113660062B (zh) 2021-08-11 2021-08-11 无蜂窝大规模分布式mimo系统中基于深度强化学习的低精度adc量化比特数分配方法

Country Status (1)

Country Link
CN (1) CN113660062B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115801072A (zh) * 2022-11-23 2023-03-14 东南大学 一种网络辅助全双工系统的模数转换器精度分配方法
WO2023236609A1 (zh) * 2022-06-06 2023-12-14 网络通信与安全紫金山实验室 一种自动混合精度量化方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639377A (zh) * 2018-12-13 2019-04-16 西安电子科技大学 基于深度强化学习的频谱资源管理方法
CN110099017A (zh) * 2019-05-22 2019-08-06 东南大学 基于深度神经网络的混合量化系统的信道估计方法
CN110190879A (zh) * 2019-04-30 2019-08-30 杭州电子科技大学 基于低精度adc大规模mimo系统的能效优化方法
WO2019190036A1 (ko) * 2018-03-27 2019-10-03 경상대학교산학협력단 무선 통신 시스템에서 신경망 기반의 송신전력 제어 방법 및 장치
CN110536321A (zh) * 2019-08-26 2019-12-03 重庆三峡学院 5g iot通信中权衡能量效率和频谱效率的优化方法
CN112702094A (zh) * 2020-12-21 2021-04-23 杭州电子科技大学 基于可调精度adc的大规模mimo系统能效优化方法
CN113078930A (zh) * 2021-03-23 2021-07-06 南京邮电大学 一种下行去蜂窝大规模mimo系统的建立方法
CN113179109A (zh) * 2021-04-26 2021-07-27 南京盛航海运股份有限公司 一种去蜂窝大规模mimo上行频谱效率优化方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019190036A1 (ko) * 2018-03-27 2019-10-03 경상대학교산학협력단 무선 통신 시스템에서 신경망 기반의 송신전력 제어 방법 및 장치
CN109639377A (zh) * 2018-12-13 2019-04-16 西安电子科技大学 基于深度强化学习的频谱资源管理方法
CN110190879A (zh) * 2019-04-30 2019-08-30 杭州电子科技大学 基于低精度adc大规模mimo系统的能效优化方法
CN110099017A (zh) * 2019-05-22 2019-08-06 东南大学 基于深度神经网络的混合量化系统的信道估计方法
CN110536321A (zh) * 2019-08-26 2019-12-03 重庆三峡学院 5g iot通信中权衡能量效率和频谱效率的优化方法
CN112702094A (zh) * 2020-12-21 2021-04-23 杭州电子科技大学 基于可调精度adc的大规模mimo系统能效优化方法
CN113078930A (zh) * 2021-03-23 2021-07-06 南京邮电大学 一种下行去蜂窝大规模mimo系统的建立方法
CN113179109A (zh) * 2021-04-26 2021-07-27 南京盛航海运股份有限公司 一种去蜂窝大规模mimo上行频谱效率优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XINJIANG XIA 等: "Joint User Selection and Transceiver Design for Cell-Free with Network-Assisted Full Duplexing", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》 *
张沛等: "基于深度增强学习和多目标优化改进的卫星资源分配算法", 《通信学报》 *
曹海燕等: "低精度ADC大规模MIMO系统的能效联合优化算法", 《电信科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023236609A1 (zh) * 2022-06-06 2023-12-14 网络通信与安全紫金山实验室 一种自动混合精度量化方法及装置
CN115801072A (zh) * 2022-11-23 2023-03-14 东南大学 一种网络辅助全双工系统的模数转换器精度分配方法
CN115801072B (zh) * 2022-11-23 2024-04-02 东南大学 一种网络辅助全双工系统的模数转换器精度分配方法

Also Published As

Publication number Publication date
CN113660062B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN113014295B (zh) 一种去蜂窝大规模mimo系统上行联合接收方法
CN110190879B (zh) 基于低精度adc大规模mimo系统的能效优化方法
CN113660062B (zh) 无蜂窝大规模分布式mimo系统中基于深度强化学习的低精度adc量化比特数分配方法
CN106060950B (zh) 一种基于机会干扰对齐的蜂窝下行信道中数据传输方法
CN110190881B (zh) 权重速率最优的下行mimo-noma功率分配方法
CN108063634B (zh) 一种低精度量化大规模mimo中最优正则预编码方法
CN105680920B (zh) 一种多用户多天线数能一体化通信网络吞吐量优化方法
CN110505643B (zh) 基于模拟退火算法的大规模mimo系统上行能效优化方法
Bashar et al. On the energy efficiency of limited-backhaul cell-free massive MIMO
CN101340218A (zh) 多输入多输出系统中通信方法及装置
CN108832977A (zh) 大规模mimo空域稀疏非正交接入实现方法
CN109905917B (zh) 基于无线携能的noma通信系统中无线资源分配方法
CN107086886A (zh) 大规模mimo系统融合迫零与泰勒级数展开的双层预编码设计
CN112702094A (zh) 基于可调精度adc的大规模mimo系统能效优化方法
CN114337976A (zh) 一种联合ap选择与导频分配的传输方法
CN102104451A (zh) 多输入多输出系统中多用户收发联合预编码的方法及装置
CN103873205B (zh) 基于mmse预编码与模拟退火算法的mimo用户选择算法
CN107087279B (zh) 一种基于稳定接入关系的基站激活和波束成形方法
CN108667498A (zh) 反馈受限下多天线传输的有效容量优化方法
Wang et al. Joint optimization of spectral efficiency and energy efficiency with low-precision ADCs in cell-free massive MIMO systems
Almasaoodi et al. New Quantum Strategy for MIMO System Optimization.
CN110149130A (zh) 一种基于pso的大规模mimo系统上行能量效率优化方法
CN108064070B (zh) 一种用于大规模mimo多小区网络的用户接入方法
CN107733488B (zh) 一种大规模mimo系统中注水功率分配改进方法及系统
Zhang et al. Near-optimal user clustering and power control for uplink MISO-NOMA networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant