CN113660062A

CN113660062A - 无蜂窝大规模分布式mimo系统中基于深度强化学习的低精度adc量化比特数分配方法

Info

Publication number: CN113660062A
Application number: CN202110917174.4A
Authority: CN
Inventors: 李佳珉; 汪晗; 朱鹏程; 王东明; 尤肖虎
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-11-16
Anticipated expiration: 2041-08-11
Also published as: CN113660062B

Abstract

本发明公开了一种无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法，包括以下步骤：步骤一，建立系统频谱效率和能量效率联合最大化问题；步骤二，通过深度强化学习算法，迭代求解步骤一建立的问题。本发明将一个多目标优化问题转化为单目标优化问题，利用深度强化学习，将复杂的数学求解问题转化为神经网络参数优化问题，所提出算法能够快速求解出联合优化系统频谱效率和能量效率的RAU量化比特分配方案，且具有大尺度信息的自适应性，获得比等精度量化比特分配更优的性能。

Description

无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度 ADC量化比特数分配方法

技术领域

本发明涉及一种无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法，属于移动通信技术领域。

背景技术

在无蜂窝大规模分布式MIMO系统中，大量的RAU连接到中心处理单元上，并分布在广阔的区域内联合服务用户。因此在无蜂窝大规模分布式MIMO的架构能大大提高系统性能。

然而，由于RAU规模巨大，硬件复杂度、ADC器件的能量消耗以及RAU和CPU间回传链路的容量需求随着ADC的量化比特数的增加而线性增加。使用低精度ADC，可以减少能量消耗、硬件代价和回传链路的负载，但低精度ADC将带来频谱效率的降低。因此需要通过RAU量化比特分配方法联合优化该场景下的频谱效率和能量效率。

最简单的量化比特分配方式是等精度分配，即考虑RAU和用户之间信道的质量，给每个RAU分配相同的量化比特数。这种分配方式虽然简便易行，但在各RAU与用户的通信信道质量相差较大时效果不理想。为此，需要考虑具有自适应性的量化比特分配方法。但大多数量化比特分配方法仅考虑频谱效率和能量效率一者，着眼于其的表达式，使用数据工具从数学上获得最佳的量化比特分配方式。为了联合优化频谱效率和能量效率，快速获得RAU上量化比特分配矢量，有必要结合深度学习、强化学习等智能算法对量化比特进行优化。

发明内容

本发明针对无蜂窝大规模分布式MIMO系统中联合优化频谱效率和能量效率的低精度ADC量化比特分配问题，在上行服务质量约束以及量化比特总数的约束下，提出一种无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法，以联合优化频谱效率和能量效率。

为实现上述目的，本发明采用的技术方案为：

一种无蜂窝大规模分布式MIMO系统中基于深度强化学习的低精度ADC量化比特数分配方法，其特征在于：包括以下步骤：

步骤一，建立系统频谱效率和能量效率联合最大化问题；

步骤二，通过深度强化学习算法，迭代求解步骤一建立的问题。

所述步骤一具体为：

设定频谱效率最大化目标函数：

其中，

R_j(b)是第j个用户的上行传输速率，

表示求随机变量、随机矢量或者随机矩阵的数学期望，b＝[b₁,b₂,…b_M]^T表示所有RAU上量化比特数构成的量化比特向量，

表示第k个用户信号的接收机矢量，(·)^H表示矩阵或向量的共轭转置，M表示RAU数，N表示每个RAU上的天线数，K表示用户总数，

表示行数为MN，列数为MN的复矩阵或向量，

表示与低精度量化精度相关的对角矩阵，α_m表示第m个RAU的ADC精度参数，I_N表示维度为N×N的单位矩阵，

表示第k个用户和所有RAU间的信道估计向量，

表示第k个用户和所有RAU间的信道估计误差向量，p_u表示每个用户的发送功率，σ²表示高斯信道零均值加性噪声的方差，

表示量化噪声的相关矩阵，n_q表示低精度ADC的量化噪声，

表示总的信道矩阵；

建立能量效率最大化目标函数：

其中，

B表示带宽，b＝[b₁,b₂,…b_M]^T表示所有RAU上量化比特数构成的量化比特向量，R_k(b)是第k个用户的上行传输速率，

表示系统总的消耗功率，

表示第k个用户消耗的功率，ξ表示放大器效率，N₀表示噪声功率，P_tc,k表示第k个用户电路元件消耗的能量，P_m(b_m)＝N(2c_mP_AGC,m+2P_ADC,m(b_m)+P_res,m)+P_LO,m表示第m个RAU消耗的功率，P_AGC,m、

P_res,m、P_LO,m分别表示第m个RAU上的AGC(automatic gain control,自动增益控制)、ADC、保留电路单元以及本地晶振消耗的功率，c_m是与b_m相关的函数，b_m＝1时c_m等于0，其它情况c_m等于1，FOW_W表示品质系数，f_s表示奈奎斯特采样频率，

表示第m个RAU和CPU间回传链路消耗的能量，P_0,m是每一条回传链路消耗的固定功率，P_bt,m是与通信流量无关的功率消耗，P_CPU＝MP_BB表示CPU用于RAU基带处理的功率消耗，M表示RAU数，P_BB表示CPU用于每一个RAU基带处理的功率消耗；

联合最大化问题目标函数为：

maximize f＝[f₁(b),f₂(b)]^T (4)

所述联合最大化问题目标函数具有以下约束条件：

(1)上行链路频谱效率QoS(quality of service，服务质量)需求约束：

式中，

为第k个用户的上行频谱效率，

表示第k个用户的最小上行谱效；

(2)比特总数约束：

式中，N表示每个RAU上的天线数，b_m表示第m个RAU上的天线数，b_total表示所有RAU上最大ADC量化比特总数。

所述步骤二中，通过深度强化学习算法，分两步迭代求解问题：

第一步：根据频谱效率和能量效率之间的关系，将两者联合优化问题转化为单目标优化问题，对能量效率的数量级进行处理，得到总的目标函数为：

式中，

表示一个和频谱效率和能量效率有关的常量；

第二步：利用强化学习工具，结合深度学习，求解RAU的比特数分配联合最大化频谱效率和能量效率问题；神经网络用于获取每一步所有动作对应的Q值，将比特数作为神经网络的输入，Q值作为神经网络的输出；在强化学习中，将每一步的RAU比特分配矢量b作为强化学习第t步的状态s_t，将比特分配矢量的变化量作为每一步的动作a_t，每一步只能改变比特分配矢量中的一个比特位，且该比特位的只能在合理范围内加一或者减一，将联合最大化问题目标函数(7)作为强化学习的奖赏评价学习的好坏；在每一步的动作选择中，根据贪婪策略，以概率ε随机选择动作，而以概率(1-ε)选择Q值最大的动作；在每次迭代中，应用梯度下降法更新神经网络的节点的权值：

式(8)是神经网络输出的小均方误差，其中r_t代表第t步神经网络动作选择的奖赏，γ代表折扣因子，Q(s_t,a_t)代表在状态s_t选择动作a_t的Q值，

表示在下一个状态s'神经网络输出的最大Q值；对该式求导更新神经网络参数。

所述步骤一中，通过引入辅助变量{α_m,β_m,k,η_k,λ_k}，再使用伽马定理，若考虑MRC(maximal ratio combining,最大比合并)接收机，将频谱效率转化为：

式中，

Ψ_k＝p_u∑_m∑_jt_mβ_m,kλ_m,j (13)

t_m＝α_m(1-α_m) (14)

若考虑ZF(zero forcing,迫零)接收机，则将频谱效率转化为：

式中，

Ξ_k＝p_u∑_m∑_jt_mλ_m,j， (18)

t_m＝α_m(1-α_m) (19)

以上式中，p_u表示每个用户的发送功率，β_m,k表示第m个RAU和第k个用户间估计的大尺度，λ_m,j表示第m个RAU和第j个用户间真实的大尺度，η_m,j表示第m个RAU和第j个用户间大尺度估计误差，α_m表示第m个RAU上和比特数相关的量化参数，α_m＝1-ρ_m，ρ_m和第m个RAU上的比特数b_m的关系为：当b_m≤5时，ρ_m的值如表1所示，b_m＞5时，

表1ρ_m和b_m的关系

b<sub>m</sub>	1	2	3	4	5
						ρ<sub>m</sub>	0.3634	0.1175	0.03454	0.009497	0.002499

。

所述步骤二中，深度强化学习算法包括以下步骤：

(1)将多目标优化问题转化为单目标优化问题；

(2)初始化神经网络参数，初始化量化比特分配矢量b作为状态s₀，设置最大迭代次数t_max；

(3)在每一次迭代中，根据神经网络输出的Q值选择下一步动作；

(4)根据当前状态s_t和选择的动作a_t获得下一个状态s'；

(5)根据式(7)计算当前状态选择动作的奖励值r_t；

(6)存储a_t,s_t和r_t，当存储数据达到设定量时，根据式(8)进行神经网络参数更新；

(7)迭代次数加一；

(8)循环步骤(3)到(7)，直到跌倒次数达到最大迭代次数；

(9)返回具有最大奖励值r_max的状态作为优化的RAU量化比特分配。

有益效果：本发明将一个多目标优化问题转化为单目标优化问题，利用深度强化学习，将复杂的数学求解问题转化为神经网络参数优化问题，所提出算法能够快速求解出联合优化系统频谱效率和能量效率的RAU量化比特分配方案，且具有大尺度信息的自适应性，获得比等精度量化比特分配更优的性能。

附图说明

图1为不同天线数时等精度量化比特分配(EQBA)和基于深度强化学习(DQN)的量化比特优化方法对比。

具体实施方式

下面结合附图及实施例对本发明作更进一步的说明。

设一个网络辅助全双工系统有M＝20个RAU，位于半径为1000m的圆形区域，每个RAU有N根天线。该区域有K＝5个用户，假定这些用户都配备一个天线，并且是均匀且独立分布的。路径损耗模型为

d_m,k为第m个RAU和第k个用户间的距离，l＝3.7是路径衰落指数。假设上行导频长度和用户数量相等，相干时间为T＝196。功率消耗参数如下：p_u＝0.02W，N₀＝290×κ×B×NF，κ＝1.381×10^-23J/K，B＝1MHz，NF＝9dB，ξ＝0.4，P_tc,k＝100mW，P_AGC,m＝2mW，P_res,m＝20mW，P_LO,m＝22.5mW，FOM_W＝15fJ/conversion-step，P_0,m＝200mW，P_bt,m＝0.25W/(Gbits/s)，P_BB＝200mW。

本发明在该系统的实现方法具体如下：

步骤一，建立系统频谱效率和能量效率联合最大化问题；

设定频谱效率最大化目标函数：

其中，

R_j(b)是第j个用户的上行传输速率，

表示行数为MN，列数为MN的复矩阵或向量，

表示第k个用户和所有RAU间的信道估计向量，

表示量化噪声的相关矩阵，n_q表示低精度ADC的量化噪声，

表示总的信道矩阵；

建立能量效率最大化目标函数：

其中，

表示系统总的消耗功率，表示第k个用户消耗的功率，ξ表示放大器效率，N₀表示噪声功率，P_tc,k表示第k个用户电路元件消耗的能量，P_m(b_m)＝N(2c_mP_AGC,m+2P_ADC,m(b_m)+P_res,m)+P_LO,m表示第m个RAU消耗的功率，P_AGC,m、

联合最大化问题目标函数为：

maximize f＝[f₁(b),f₂(b)]^T (4)

联合最大化问题目标函数具有以下约束条件：

式中，

为第k个用户的上行频谱效率，表达式同式(1)，

表示第k个用户的最小上行谱效；

(2)比特总数约束：

其中，通过引入辅助变量{α_m,β_m,k,η_k,λ_k}，再使用伽马定理，若考虑MRC(maximalratio combining,最大比合并)接收机，将频谱效率转化为：

式中，

Ψ_k＝p_u∑_m∑_jt_mβ_m,kλ_m,j (13)

t_m＝α_m(1-α_m) (14)

若考虑ZF(zero forcing,迫零)接收机，则将频谱效率转化为：

式中，

Ξ_k＝p_u∑_m∑_jt_mλ_m,j， (18)

t_m＝α_m(1-α_m) (19)

表1ρ_m和b_m的关系

b<sub>m</sub>	1	2	3	4	5
						ρ<sub>m</sub>	0.3634	0.1175	0.03454	0.009497	0.002499

步骤二，通过深度强化学习算法，分两步迭代求解问题：

式中，

表示一个和频谱效率和能量效率有关的常量；

深度强化学习算法包括以下步骤：

(1)将多目标优化问题转化为单目标优化问题如式(7)；

(4)根据当前状态s_t和选择的动作a_t获得下一个状态s'；

(5)根据式(7)计算当前状态选择动作的奖励值r_t；

(6)存储a_t,s_t和r_t，当存储数据达到一定量时，根据式(8)进行神经网络参数更新；

(7)迭代次数加一；

(8)循环步骤(3)到(7)，直到跌倒次数达到最大迭代次数；

图1显示出了不同天线数时等精度量化比特分配(EQBA)和基于深度强化学习(DQN)的量化比特分配方法对比。基于深度强化学习的量化比特分配实现了总量化比特少，但频谱效率和能量效率均优于等精度量化比特分配，这证明了在无蜂窝分布式大规模MIMO系统中，应在信道质量好的RAU上使用精度更高的ADC，而在信道质量较差的RAU上可以使用精度更低的ADC，这样不仅可以减少总量化比特数，而且可以同时提高频谱效率和能量效率。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。