CN113795049B

CN113795049B - 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法

Info

Publication number: CN113795049B
Application number: CN202111079364.XA
Authority: CN
Inventors: 郭伟; 汪玉冰; 郭晓明; 张丰丰; 徐煜
Original assignee: Maanshan College
Current assignee: Maanshan College
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2024-02-02
Anticipated expiration: 2041-09-15
Also published as: CN113795049A

Abstract

本发明公开了一种基于深度强化学习的Femtocell异构网络功率自适应优化方法。本发明包括如下步骤：步骤S1、建立Femtocell异构网络系统模型，并进行问题建模；步骤S2、将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP，设计其状态空间、动作空间以及奖励函数；步骤S3、深度强化学习算法DDPG搭建；步骤S4、模型训练。深度强化学习利用智能体与环境的不断交互，从环境的反馈中进行自我优化，提升自身策略，可快速实现在复杂网络环境中的自适应学习与决策制定，用来求解Femtocell异构网络中的干扰抑制问题。

Description

一种基于深度强化学习的Femtocell异构网络功率自适应优化方法

技术领域

本发明涉及无线通信网络资源自适应优化领域，尤其涉及使用机器学习方法的资源优化方法。

背景技术

随着无线移动通信技术的飞速发展，移动用户以及移动设备的数量正在急剧增加。Femtocell作为一种小型移动基站，或称为家庭基站，以其体积小、即插即用、低成本、低功耗等优点，可实现在信号有效覆盖范围内为室内用户提供高速率的无线信号接入，是解决无线信号室内覆盖问题的重要手段。由传统的Macrocell层和Femtocell层构成Femtocell异构网络。由于频谱资源的稀缺性，往往Macrocell层和Femtocell层部署在同一频段，因此会导致在Femtocell异构网络中产生严重干扰，同时Femtocell基站的大量、随机部署会加剧网间干扰，也使得网络拓扑具有很强的随机特性，因此如何进行有效的干扰抑制是Femtocell异构网络大规模推广使用面临的重要技术难题。

功率资源是重要的无线网络通信资源，功率控制主要是指基站通过反馈得到的网络信息进行发射功率调整，旨在避免发射信号受到严重干扰，通过对发射功率的自适应调整可有效满足网络中移动用户高质量的通信需求，从而达到充分利用网络资源，提升网络性能的目的，功率控制是Femtocell异构网络干扰抑制中最重要的方式。

现阶段针对Femtocell异构网络干扰抑制的研究如凸优化、博弈论等离线迭代优化算法仅仅适用于一些静态网络模型，网络节点难以实现自组织、自优化，同时依赖准确的网络模型，对于无法刻画出准确网络模型的业务通常采用简化方式进行建模，导致优化结果与实际系统用于差别很大。

为了解决上述的问题，经检索，中国专利CN201910909800.8公开了一种基于深度学习的功率分配方法及分配装置，其中方法包括：获取用户的信道矩阵；对信道矩阵进行奇异值分解处理，得到等效信道特征值以及左酉矩阵；基于等效信道特征值以及用户的预设功率限制参数，生成用户的信道特征信息；将信道特征信息输入预先训练好的全连接神经网络模型中，得到用户的数据流数；基于用户的数据流数，等效信道特征值，以及左酉矩阵，构建用户的功率分配协方差矩阵；基于用户的功率分配协方差矩阵，为用户分配传输功率。

再如中国专利CN202110226156.1公开了一种基于深度学习的认知无线电功率控制方法，包括以下步骤：改进传统的WMMSE算法，得到满足主用户可容忍的干扰阈值并保证次用户通信质量的WMMSE算法；将改进的WMMSE算法的输入与输出作为训练集，利用深度学习模型得到主用户和次用户的功率分配。该专利能够保证主用户和次用户的通信质量的同时，还可以大大减少算法时间，提高系统的实时性。

再如中国专利CN202110149569.4公开了一种虚拟无线网络中吞吐量最大化的功率分配方法及装置，该方法应用在虚拟无线网络中，方法步骤如下：首先，针对吞吐量最大化功率分配策略建立一个系统模型，从而找到系统模型中的资源分配问题；其次，基于深度神经网络定义状态集、行动集、奖励三个变量；在定义的状态中，执行定义的行动并获得相应的奖励，从而进入下一个状态；这个周期被重复，直到达到吞吐量最大化的功率分配。

上述的专利均是为了提高网络质量而进行的研究，但仍有待进一步的改进和提升。

发明内容

1.发明要解决的技术问题

为了解决上述的问题，本发明的目的是提供一种基于深度强化学习的Femtocell异构网络功率自适应优化方法，该方法可以有效地在动态网络环境中实现Femtocell异构网络干扰抑制，提高网络通信容量，保证用户的网络质量。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的基于深度强化学习的Femtocell异构网络功率自适应优化方法，包括如下步骤：

步骤S1、建立Femtocell异构网络系统模型，并进行问题建模：

具体为设计Femtocell异构网络中基站类型、数量、服务的用户数量、干扰的类型以及系统实现的目标，并就以上系统元素以及系统目标建立数学优化模型。

步骤S2、将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP(Markov Decision Process)，设计其状态空间、动作空间以及奖励函数：

将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP(Markov Decision Process)，设计其MDP元组元素，具体为一个基本的MDP模型通常是由＜S，a，P，R，γ＞五元组构成，其中S表示环境中的状态集合，a表示环境中可采取的动作集合，P是状态转移概率矩阵P(s′|s，a)表示在智能体状态S时执行动作a后转移到状态s′的概率，其中P(s′|s，a)＝P(s_t+1＝s′|s_t＝s，a_t＝a)∈[0，1]，R是回报函数，R^a(s→s′)表示智能体在状态s时执行动作a后转移到状态s′时环境反馈回的回报值，γ为折扣系数，0≤γ≤1。该系统模型中智能体智状态的描述者，动作的执行者即femtocell基站FBS(Femtocell BaseStation)。强化学习框架求解问题要求问题具有马尔科夫性质，通过上述MDP建模过程即可利用强化学习框架进行任务求解。状态集是对智能体即FBS的一种属性描述，如距离、数量等。动作集合是对智能体FBS的资源描述，如功率资源、时间资源等。奖励函数反映系统目标，是智能体FBS学习的目标。

步骤S3、深度强化学习算法DDPG(Deep Deterministic Policy Gradient)搭建：

深度强化学习算法DDPG搭建，具体为设计DDPG算法中的Actor网络和Critic网络，其中Actor和Critic网络均具有当前策略网络和目标策略网络。

其中Actor当前策略网络μ负责策略网络参数θ的迭代更新，根据当前智能体感知的状态S选择当前动作A。

其中Actor目标网络μ′负责根据经验回放池中采用的下一状态S′选择动作A′，网络参数θ′定期从θ复制。

其中Critic当前策略网络Q负责网络参数ω的迭代更新，负责计算当前状态S、动作A的Q值Q(S，A，ω)。

其中Critic目标网络Q′负责计算下一状态S′、下一动作A′的Q′值Q′(S′，A′，ω′)，网络参数ω′定期从ω复制。

主要包括各网络的具体结构、激活函数等。

步骤S4、模型训练：

具体为通过智能体利用Actor当前策略网络μ感知当前状态并产生执行动作，获得环境反馈的奖励以及下一状态，将上述信息存入经验回放池。

Actor当前策略网络参数μ的训练使用损失梯度

Critic当前策略网络参数ω的训练使用均方损失函数进行反向传播更新参数，其中y_j＝r_j+γQ′(S′，A′，ω′)。

3.有益效果

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

本发明的基于深度强化学习的异构网络功率自适应优化方法，深度强化学习利用智能体与环境的不断交互，从环境的反馈中进行自我优化，提升自身策略，在Femtocell异构网络的动态网络环境进行策略求解，并且深度强化学习是一种在线学习算法，可快速实现在复杂网络环境中的自适应学习与决策制定，用来求解Femtocell异构网络中的干扰抑制问题，提高网络通信容量，保证用户的网络质量。

附图说明

图1是本发明的方法中Femtocell异构网络系统模型。

图2是本发明的方法中模型训练流程图。

具体实施方式

为进一步了解本发明的内容，结合附图对本发明作详细描述。

实施例1

步骤S1、建立Femtocell异构网络系统模型，并进行问题建模：如图1所示的Femtocell异构网络系统模型所示，整个系统模型中设计的主体有宏基站MBS(Macro BaseStation)以及N个同频部署的Femtocell基站FBS。在同一时刻，MBS为覆盖范围内的1个活跃用户MUE进行服务，FBS为覆盖范围内的M个用户FUE提供信息服务。

其中，MBS--Macro Base Station Macrocell基站；

MUE--Macro User Equipment Macrocell基站用户；

FBS--Femto Base Station Femtocell基站；

FUE--Femto User Equipment Femtocell基站用户。

在该系统模型中，由于Femtocell与Macrocell同频部署，所以MBS对FUE存在网间干扰、FBS对MUE存在网间干扰、FBS对其他FBS用户存在同网干扰。系统的目标即优化目标是通过自适应的为每一个FBS基站分配合理的发射功率来最大化Femtocell基站群信息总容量，同时满足宏基站用户MUE以及femtocell基站用户FUE的信息容量QoS约束。

由香农公式可知，MUE信息容量为C_MUE＝log₂(1+SINR_MUE)，其中其中P_MBS表示MBS发射功率，P_i表示第i个FBS发射功率，h_MBS，MUE表示MBS与MUE之间的信道增益，/>表示第i个FBS与MUE之间的信道增益，σ²表示加性高斯白噪声功率。

第i个FUE信息容量为其中表示第i个FBS与其对应的FUE之间的信道增益，/>表示MBS与第i个FUE之间的信道增益，/>表示第j个FBS与第i个FUE之间的信道增益。

由上可得问题建模描述如下：

s.t.P_min≤P_i≤P_max，i＝1，...，N (1)

C_MUE≥l_MUE (2)

其中为Femtocell基站群选择的发射功率集合，式(1)表示FBS发射功率约束，式(2)、式(3)分别表示MUE、FUE信息约束。

基于步骤S1中建立的系统模型，建立MDP过程，智能体为每一个Femtocell基站，即FBS_i，i∈{1，...，N}；动作集合设计为智能体FBS允许分配的发射功率，DDPG算法可在连续合法功率取值空间中进行功率决策，即每一个FBS都将从动作集合P_min≤a∈A≤P_max中选择一个发射功率；状态集合定义主要考虑到距离因素和阈值约束因素，对于第i个智能体FBS，在时刻t定义其状态s∈S为其中/>表示MUE在时刻t的信息容量是否超过了指定阈值l_MUE，即/>状态/>表示FUE在时刻t信息容量是否超过设定阈值/>即/> 表示在时刻t第i个FBS与MUE之间距离/> 可取0、1、2、3四个值，当/>取0时说明第i个FBS与MUE距离很近，同理/>取3时说明距两者相距较远，即/>类似的，/>表示在时刻t第i个FBS与MBS之间距离可取0、1、2、3四个值，即/>奖励函数的设计主要考虑到网络容量和约束关系，每一个智能体FBS选择、执行完动作级发射功率后获得的奖励

Actor、Critic网络架构采用三层隐藏层架构，其中各层神经元个数分别为400、300、300；隐藏层激活函数使用Relu激活函数，Actor网络输出层为了映射动作空间使用Sigmoid函数；各层参数初始化使用均匀分布初始化，参数更新使用Adam方法。

步骤S4、模型训练：

如图2所示，模型训练的过程如下：(1)Actor当前策略网络μ感知当前智能体状态s_i，输出动作选择a_i，智能体执行动作a_i，返回奖励r_i和智能体下一状态s_i+1，将元组＜s_i，a_i，r_i，s_i+1＞存入经验回放池中作为训练数据集；(2)当经验回放池数据量达到预定阈值，从经验回放池中取出N个元组数据；(3)Actor目标网络μ′接受输入s_i+1，输出新状态下选择的动作a_i+1；(4)Critic当前策略网络Q接受输入s_i，a_i，输出对该状态下动作选择的评价值；(5)Critic目标网络Q′接受输入s_i+1，a_i+1，输出对该状态下动作选择的评价值；(6)利用均方损失函数对Cirtic当前策略网络ω反向传播更新参数，其中y_j＝r_i+γQ′(s_i+1，a_i+1，ω′)；(7)利用梯度损失/>对Actor当前策略网络参数μ进行更新；(8)Actor目标网络μ′和Critic目标网络ω′的参数更新使用参数软更新；(9)重复上述过程直到达到训练次数。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种基于深度强化学习的Femtocell异构网络功率自适应优化方法，其特征在于：包括如下步骤：

步骤S1、建立Femtocell异构网络系统模型，并进行问题建模

设计Femtocell异构网络中基站类型、数量、服务的用户数量、干扰的类型以及系统实现的目标，并就以上系统元素以及系统目标建立数学优化模型；

步骤S2、将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP，设计其状态空间、动作空间以及奖励函数

设计其MDP元组元素，具体为一个基本的MDP模型通常是由<S，a，P，R，γ>五元组构成，其中S表示环境中的状态集合，a表示环境中可采取的动作集合，P是状态转移概率矩阵P(s′|s，a)表示在智能体状态s时执行动作a后转移到状态s′的概率，其中P(s′|s，a)＝P(s_t+1＝s′|s_t＝s，a_t＝a)∈[0，1]，R是回报函数，R^a(s→s′)表示智能体在状态s时执行动作a后转移到状态s′时环境反馈回的回报值，γ为折扣系数，0≤γ≤1；

步骤S3、深度强化学习算法DDPG搭建

设计DDPG算法中的Actor网络和Critic网络，其中Actor和Critic网络均具有当前策略网络和目标策略网络；

其中Actor当前策略网络μ负责策略网络参数θ的迭代更新，根据当前智能体感知的状态S选择当前动作A；

其中Actor目标网络μ′负责根据经验回放池中采用的下一状态S′选择动作A′，网络参数θ′定期从θ复制；

其中Critic当前策略网络Q负责网络参数ω的迭代更新，负责计算当前状态S、动作A的Q值Q(S，A，ω)；

其中Critic目标网络Q′负责计算下一状态S′、下一动作A′的Q′值Q′(S′，A′，ω′)，网络参数ω′定期从ω复制；

步骤S4、模型训练

通过利用Actor当前策略网络μ感知当前状态并产生执行动作，获得环境反馈的奖励以及下一状态，将上述信息存入经验回放池；

Actor当前策略网络参数μ的训练使用损失梯度

2.根据权利要求1所述的基于深度强化学习的Femtocell异构网络功率自适应优化方法，其特征在于：问题建模的问题模型描述如下：

s.t.P_min≤P_i≤P_max，i＝1，...，N (1)

C_MUE≥l_MUE (2)

3.根据权利要求2所述的基于深度强化学习的Femtocell异构网络功率自适应优化方法，其特征在于：

在步骤S2中，基于步骤S1中建立的系统模型，建立MDP过程，智能体为每一个Femtocell基站，即FBSi，i∈{1，...，N}；动作集合设计为智能体FBS允许分配的发射功率，DDPG算法可在连续合法功率取值空间中进行功率决策，即每一个FBS都将从动作集合P_min≤a∈A≤P_max中选择一个发射功率；状态集合定义考虑到距离因素和阈值约束因素，对于第i个智能体FBS，在时刻t定义其状态s∈S为其中/>表示MUE在时刻t的信息容量是否超过了指定阈值l_MUE，即/>状态/>表示FUE在时刻t信息容量是否超过设定阈值/>即/>表示在时刻t第i个FBS与MUE之间距离/> 可取0、1、2、3四个值，当/>取0时说明第i个FBS与MUE距离很近，同理/>取3时说明距两者相距较远，即/>类似的，/>表示在时刻t第i个FBS与MBS之间距离/>可取0、1、2、3四个值，即/>奖励函数的设计主要考虑到网络容量和约束关系，每一个智能体FBS选择、执行完动作级发射功率后获得的奖励

4.根据权利要求3所述的基于深度强化学习的Femtocell异构网络功率自适应优化方法，其特征在于：所述Actor、Critic网络架构采用三层隐藏层架构，其中各层神经元个数分别为400、300、300；隐藏层激活函数使用Relu激活函数，Actor网络输出层为了映射动作空间使用Sigmoid激活函数；各层参数初始化使用均匀分布初始化，参数更新使用Adam方法。

5.根据权利要求4所述的基于深度强化学习的Femtocell异构网络功率自适应优化方法，其特征在于：训练过程如下：(1)Actor当前策略网络μ感知当前智能体状态s_i，输出动作选择a_i，智能体执行动作a_i，返回奖励r_i和智能体下一状态s_i+1，将元组<s_i，a_i，r_i，s_i+1>存入经验回放池中作为训练数据集；(2)当经验回放池数据量达到预定阈值，从经验回放池中取出N个元组数据；(3)Actor目标网络μ′接受输入s_i+1，输出新状态下选择的动作a_i+1；(4)Critic当前策略网络Q接受输入s_i，a_i，输出对该状态下动作选择的评价值；(5)Critic目标网络Q′接受输入s_i+1，a_i+1，输出对该状态下动作选择的评价值；(6)利用均方损失函数对Cirtic当前策略网络ω反向传播更新参数，其中y_j＝r_i+γQ′(s_i+1，a_i+1，ω′)；(7)利用梯度损失/>对Actor当前策略网络参数μ进行更新；(8)Actor目标网络μ′和Critic目标网络ω′的参数更新使用参数软更新；(9)重复上述过程直到达到训练次数。/>