CN105407535B

CN105407535B - 一种基于约束马尔可夫决策过程的高能效资源优化方法

Info

Publication number: CN105407535B
Application number: CN201510698436.7A
Authority: CN
Inventors: 蒋雁翔; 李鹏; 郑福春; 高西奇; 尤肖虎
Original assignee: Southeast University
Current assignee: White Box Shanghai Microelectronics Technology Co ltd
Priority date: 2015-10-22
Filing date: 2015-10-22
Publication date: 2019-04-09
Anticipated expiration: 2035-10-22
Also published as: CN105407535A

Abstract

本发明公开了一种大规模天线系统中基于约束马尔可夫决策过程的高能效资源优化方法，基于约束马尔可夫决策过程的建模；通过拉格朗日乘子法将原优化问题转化为无约束形式；利用改进值迭代算法得到最优资源配置策略。本发明解决了在大规模天线系统中，多小区场景中干扰严重(多变量耦合)的情况下资源优化求解困难的问题，所设计算法易实施、收敛快，可以在保证用户数据传输速率的服务质量前提下，有效提升大规模天线系统的能效。

Description

一种基于约束马尔可夫决策过程的高能效资源优化方法

技术领域

本发明涉及一种大规模天线系统中基于约束马尔可夫决策过程的高能效资源优化方法，属于移动通信系统中的资源分配技术。

背景技术

大规模天线技术以其高谱效、高能效的特点而成为未来移动通信中的关键技术。但是随着天线数量的增加，整体的天线固定功率消耗也会急剧增加，功率模型需要重建，同时，常规的波束赋型操作如迫零、最小均方误差等技术的计算复杂度会急剧上升，但幸运的是，大规模天线系统的特点使得最为简单的最大混合比波束赋型即可实现优良的性能，然而，最大混合比波束赋型却无法抑制用户间与小区间的干扰，进而造成能效表达式中的多变量耦合问题。

尽管大规模天线系统具有高能效的潜在优势，但是从绿色通信的角度而言，大规模天线系统中的高能效资源分配方法仍然是亟需的。在考虑了大规模天线系统中的诸多问题之后，本发明提供了一种高能效资源分配优化方法。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种大规模天线系统中基于约束马尔可夫决策过程的高能效资源优化方法，解决在多小区场景中干扰严重(多变量耦合)的情况下资源优化求解困难的问题，本发明方法易实施、收敛快，可以在保证用户数据传输速率的服务质量前提下，有效提升大规模天线系统的能效。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种大规模天线系统中基于约束马尔可夫决策过程的高能效资源优化方法，包括如下步骤：

(1)对无线通信场景建立基于约束马尔可夫决策过程的数学模型；

(2)初始化拉格朗日算子向量与回报效用函数；

(3)利用改进值迭代算法处理优化问题，获得最优资源配置策略。

所述步骤(1)中，建立基于约束马尔可夫决策过程的数学模型，具体包括如下步骤：

(11)设定信道增益的量化段数QS与用户发射功率的量化段数QA，并对信道增益和用户发射功率p_lk进行均匀量化，得到近似信道增益ψ_likκ和近似用户发射功率a_lk，将近似信道增益ψ_likκ称作无线通信场景中第l小区内的第k用户与第i小区内的第κ用户之间的状态，将近似用户发射功率a_lk称作无线通信场景中第l小区内的第k用户的行动；其中：g_llk为第l小区内基站与第l小区内的第k用户之间的信道传输向量，为g_llk的共轭转置形式，g_liκ为第l小区内基站与第i小区内的第κ用户之间的信道传输向量，p_lk为配置给第l小区内的第k用户的发射功率；

(12)将近似信道增益ψ_likκ的所有可能取值表述为状态集合s_c，将近似用户发射功率a_lk的所有可能取值表述为动作集合a_c；

(13)计算约束马尔可夫决策过程的状态转移概率矩阵P；

(14)设定回报效用函数与约束效用函数的折扣因子参数λ；

(15)构造回报函数R(s_c,a_c)和约束函数C_lk(s_c,a_c)；其中：C_lk(s_c,a_c)为对第l小区内的第k用户的约束函数。

所述步骤(11)中：信道增益采用阈值组合进行均匀量化，若则近似信道增益ψ_likκ处于第b项，为信道增益量化阈值组合的第b+1项；用户发射功率p_lk采用阈值组合进行均匀量化，若则近似用户发射功率a_lk处于第c项，为用户发射功率量化阈值组合的第c+1项，为用户最大可发射功率。

所述步骤(13)中，计算约束马尔可夫决策过程的状态转移概率矩阵P，针对每个可能状态，根据下述公式进行状态转移概率计算：

其中：α为信道增益平均值，f为规格化后的最大多普勒频率；然后再构造QS×QS的状态转移概率矩阵P，状态转移概率矩阵P中第b行第b'列的元素，记P(b,b′)＝p{b′|b}。

所述步骤(15)中，构造回报函数R(s_c,a_c)和约束函数C_lk(s_c,a_c)，分别为：

其中：p_c为无线通信场景中分摊给每个用户的电路固定功耗，为信道高斯白噪声方差。

所述步骤(2)中，初始化拉格朗日算子向量为ρ₀＝[ρ_lk,0|l＝1,…,L,k＝1,…,K]^T，初始化回报效用函数为其中：ρ_lk,0为针对第l小区内的第k用户的传输速率约束的初始拉格朗日算子；L为无线通信场景中总的小区数目，K为每个小区中总的用户数目。

所述步骤(3)中，改进值迭代算法具体实施过程为：

(31)对回报效用函数的值进行迭代，具体步骤如下：

①构造Bellman表达式：

其中：ρ_lk为针对第l小区内的第k用户的传输速率约束的拉格朗日算子，p{s′_c|s_c}为状态转移矩阵的元素P(s_c,s′_c)，为回报效用函数的第i′次迭代时对状态s′_c的值；

②遍历动作集合a_c，获得使Bellman表达式值最大的动作组合将该动作组合称为功率配置策略π^*；

③将功率配置策略π^*带入Bellman表达式，得到Bellman表达式的最大值，将该最大值记为并以此更新回报效用函数

④判断回报效用函数是否收敛：若收敛，则回报效用函数迭代过程结束，继续执行后续步骤；若不收敛，则返回步骤①继续执行；

(32)计算约束效用函数：

其中：n为无线通信场景中的第n个相干周期的开始时刻，为无线通信场景中第n个相干周期的开始时刻的状态集合，为无线通信场景中第n个相干周期的开始时刻的动作集合；

(33)更新拉格朗日算子向量：

其中：j′为拉格朗日算子更新步数，r_min为无线通信场景中对用户设置的最低传输速率约束；

(34)判断拉格朗日算子向量是否收敛：若收敛，则拉格朗日算子向量迭代过程结束，继续执行后续步骤；若不收敛，则返回步骤(31)继续执行；

(35)单独执行一次回报效用函数的值迭代程序。

所述步骤(31)中，判断回报效用函数是否收敛的方法为：对给定的正常数ε(量级在10^-2之内)，若则判断回报效用函数收敛；符号|| ||表示矩阵的2-范数。

所述步骤(34)中，判断拉格朗日算子向量是否收敛的方法为：对给定的正常数ε(量级在10^-2之内)，若||ρ_j+1-ρ_j||≤ε，则判断拉格朗日算子向量收敛；符号|| ||表示矩阵的2-范数。

有益效果：本发明提供的大规模天线系统中基于约束马尔可夫决策过程的高能效资源优化方法，利用约束马尔可夫决策过程对大规模天线系统进行建模，有效地避免了繁琐的公式推导与化简计算流程，利用值迭代算法可以快速地迭代出最优资源配置策略；同时，本方法通过拉格朗日乘子法处理传输速率约束条件，使得原问题能够转化为无约束的马尔可夫决策问题，从而极大简化了资源分配的分析求解过程；另外，通过值迭代算法和增强学习算法，在保证得到资源分配的全局最优策略基础上，其离线运算性质还可以大大缩减实际应用中基站处理信息进行资源配置的速度；此外，通过扩大状态集合与动作集合可以大大提高最优策略的精度，实现扩展式资源优化方法。

附图说明

图1为大规模天线系统的多小区场景示意图；

图2为大规模天线系统中的高能效资源优化方法的流程示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

考虑大规模天线系统的上行链路，无线通信场景中含有L个小区，每个小区有一个配置M根天线的基站和K个单天线的用户；假设系统内通信为窄带通信过程，基站端采用线性接收检测方式，且用户发射功率受限，用户传输速率需满足服务质量要求。大规模天线系统中基于约束马尔可夫决策过程的高能效资源优化方法的实现过程如下。

一、对无线通信场景建立基于约束马尔可夫决策过程的数学模型

(11)设定信道增益的量化段数QS与用户发射功率的量化段数QA，并对信道增益和用户发射功率p_lk进行均匀量化，得到近似信道增益ψ_likκ和近似用户发射功率a_lk，将近似信道增益ψ_likκ称作无线通信场景中第l小区内的第k用户与第i小区内的第κ用户之间的状态，将近似用户发射功率a_lk称作无线通信场景中第l小区内的第k用户的行动；其中：g_llk为第l小区内基站与第l小区内的第k用户之间的信道传输向量，为g_llk的共轭转置形式，g_liκ为第l小区内基站与第i小区内的第κ用户之间的信道传输向量，p_lk为配置给第l小区内的第k用户的发射功率。

具体来说，信道增益采用阈值组合进行均匀量化，若则近似信道增益ψ_likκ处于第b项，为信道增益量化阈值组合的第b+1项；用户发射功率p_lk采用阈值组合进行均匀量化，若则近似用户发射功率a_lk处于第c项，为用户发射功率量化阈值组合的第c+1项，为用户最大可发射功率。

(12)将近似信道增益ψ_likκ的所有可能取值表述为状态集合s_c，将近似用户发射功率a_lk的所有可能取值表述为动作集合a_c。

(13)计算约束马尔可夫决策过程的状态转移概率矩阵P，针对每个可能状态，根据下述公式进行状态转移概率计算：

其中：α为信道增益平均值，f为规格化后的最大多普勒频率；然后再构造QS×QS的状态转移概率矩阵P，将状态转移概率矩阵P中第b行第b'列的元素，记P(b,b′)＝p{b′|b}。

(14)设定回报效用函数与约束效用函数的折扣因子参数λ。

(15)构造回报函数R(s_c,a_c)和约束函数C_lk(s_c,a_c)，分别为：

二、初始化拉格朗日算子向量与回报效用函数

初始化拉格朗日算子向量为ρ₀＝[ρ_lk,0|l＝1,…,L,k＝1,…,K]^T，初始化回报效用函数为其中：ρ_lk,0为针对第l小区内的第k用户的传输速率约束的初始拉格朗日算子；L为无线通信场景中总的小区数目，K为每个小区中总的用户数目。

三、利用改进值迭代算法处理优化问题，获得最优资源配置策略

(31)对回报效用函数的值进行迭代，具体步骤如下：

①构造Bellman表达式：

④判断回报效用函数是否收敛：若收敛，则回报效用函数迭代过程结束，继续执行后续步骤；若不收敛，则返回步骤①继续执行。

判断回报效用函数是否收敛的方法为：对给定的正常数ε(量级在10^-2之内)，若则判断回报效用函数收敛；符号|| ||表示矩阵的2-范数。

(32)计算约束效用函数：

其中：n为无线通信场景中的第n个相干周期的开始时刻，为无线通信场景中第n个相干周期的开始时刻的状态集合，为无线通信场景中第n个相干周期的开始时刻的动作集合。

(33)更新拉格朗日算子向量：

其中：j′为拉格朗日算子更新步数，r_min为无线通信场景中对用户设置的最低传输速率约束。

(34)判断拉格朗日算子向量是否收敛：若收敛，则拉格朗日算子向量迭代过程结束，继续执行后续步骤；若不收敛，则返回步骤(31)继续执行。

判断拉格朗日算子向量是否收敛的方法为：对给定的正常数ε(量级在10^-2之内)，若||ρ_j′+1-ρ_j||≤ε，则判断拉格朗日算子向量收敛；符号|| ||表示矩阵的2-范数。

(35)单独执行一次回报效用函数的值迭代程序。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种大规模天线系统中基于约束马尔可夫决策过程的高能效资源优化方法，其特征在于：包括如下步骤：

(1)对无线通信场景建立基于约束马尔可夫决策过程的数学模型；具体包括如下步骤：

信道增益采用阈值组合进行均匀量化，若则近似信道增益ψ_likκ处于第b项，为信道增益量化阈值组合的第b+1项；用户发射功率p_lk采用阈值组合进行均匀量化，若则近似用户发射功率a_lk处于第c项，为用户发射功率量化阈值组合的第c+1项，为用户最大可发射功率；

(13)计算约束马尔可夫决策过程的状态转移概率矩阵P；

计算约束马尔可夫决策过程的状态转移概率矩阵P，针对每个可能状态，根据下述公式进行状态转移概率计算：

其中：α为信道增益平均值，f为规格化后的最大多普勒频率；然后再构造QS×QS的状态转移概率矩阵P，状态转移概率矩阵P中第b行第b'列的元素记P(b,b′)＝p{b′|b}；

(14)设定回报效用函数与约束效用函数的折扣因子参数λ；

(15)构造回报函数R(s_c,a_c)和约束函数C_lk(s_c,a_c)；其中：C_lk(s_c,a_c)为对第l小区内的第k用户的约束函数；

构造回报函数R(s_c,a_c)和约束函数C_lk(s_c,a_c)，分别为：

其中：p_c为无线通信场景中分摊给每个用户的电路固定功耗，为信道高斯白噪声方差；L为无线通信场景中总的小区数目，K为每个小区中总的用户数目；

(2)初始化拉格朗日算子向量与回报效用函数；

初始化拉格朗日算子向量为ρ₀＝[ρ_lk,0|l＝1,…,L,k＝1,…,K]^T，初始化回报效用函数为其中：ρ_lk,0为针对第l小区内的第k用户的传输速率约束的初始拉格朗日算子；

(3)利用改进值迭代算法处理优化问题，获得最优资源配置策略；

改进值迭代算法具体实施过程为：

(31)对回报效用函数的值进行迭代，具体步骤如下：

①构造Bellman表达式：

其中：ρ_lk为针对第l小区内的第k用户的传输速率约束的拉格朗日算子，p{ s_c′|s_c}为状态转移矩阵的元素P(s_c,s_c′)，为回报效用函数的第i′次迭代时对状态s_c′的值；

(32)计算约束效用函数：

(33)更新拉格朗日算子向量：

(35)单独执行一次回报效用函数的值迭代程序。

2.根据权利要求1所述的大规模天线系统中基于约束马尔可夫决策过程的高能效资源优化方法，其特征在于：所述步骤(31)中，判断回报效用函数是否收敛的方法为：对给定的正常数ε，若则判断回报效用函数收敛；符号|| ||表示矩阵的2-范数。

3.根据权利要求1所述的大规模天线系统中基于约束马尔可夫决策过程的高能效资源优化方法，其特征在于：所述步骤(34)中，判断拉格朗日算子向量是否收敛的方法为：对给定的正常数ε，若||ρ_j′+1-ρ_j||≤ε，则判断拉格朗日算子向量收敛；符号|| ||表示矩阵的2-范数。