CN114585004B - 一种基于Actor-Critic算法的多智能体异构网络资源优化方法 - Google Patents

一种基于Actor-Critic算法的多智能体异构网络资源优化方法 Download PDF

Info

Publication number
CN114585004B
CN114585004B CN202210202761.XA CN202210202761A CN114585004B CN 114585004 B CN114585004 B CN 114585004B CN 202210202761 A CN202210202761 A CN 202210202761A CN 114585004 B CN114585004 B CN 114585004B
Authority
CN
China
Prior art keywords
base station
small base
network
state
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210202761.XA
Other languages
English (en)
Other versions
CN114585004A (zh
Inventor
张茜茜
李君�
刘子怡
于心远
沈国丽
刘兴鑫
朱明浩
仲星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210202761.XA priority Critical patent/CN114585004B/zh
Publication of CN114585004A publication Critical patent/CN114585004A/zh
Application granted granted Critical
Publication of CN114585004B publication Critical patent/CN114585004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/20Selecting an access point
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/24Cell structures
    • H04W16/32Hierarchical cell structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于Actor‑Critic算法的多智能体异构网络能效优化方法,把异构网络中各个小基站看作为一个智能体,令每个小基站基于Actor‑Critic算法中actor网络根据当前异构网络环境和智能体状态选择合适的动作,通过Critic网络采用策略梯度方法更新其网络参数,对智能体传入动作返回q值给出评价并传递给atcor网络,不断学习更新其网络参数选取最优动作,扩展小基站的连接覆盖范围,使用户能连接到最近的小基站,并将当前时刻的状态信息传递给宏基站,在宏基站覆盖范围内重复部署小基站,使宏基站覆盖盲点的设备连接到相应的小基站以获得更好的信道,还可以将连接到宏基站的一部分设备卸载到相应的小基站,在实现网络负载均衡的同时还能增大网络的系统容量。

Description

一种基于Actor-Critic算法的多智能体异构网络资源优化方法
技术领域
本发明属于通信系统物理层技术领域,涉及到异构网络资源分配技术,尤其涉及一种基于强化学习中Actor-Critic算法的多智能体异构网络资源优化方法。
背景技术
研究表明,现如今大量的通信业务主要产生在室内环境,为了使在室内情况下也能得到高质量的数据服务,网络运行商提出了在传统网络中加入小基站的方法。在宏蜂窝的范围内大量的部署小基站,小基站含有宏基站的基本功能,与宏基站的区别在于具有较小的信号发射功率。因此,小基站的服务范围相对较小,在10米至200米范围内。微蜂窝(Microcell)与微微蜂窝(Picocell)相对功率略高,主要用于在流量密度大的局部提供有效服务,如一些商场、大型室外活动场所等。家庭蜂窝(Femtocell)的发射功率更小一些,主要是由用户自己部署,用于满足家庭等小规模用户群的服务质量的节点。
随着移动网络的飞速发展,小基站在LTE网络建设中的地位越来越重要。小基站的部署增加了空间频谱复用,增强了网络覆盖范围,并减少了宏基站的负载,将宏基站的负载卸载到小基站中,适当的降低宏基站的功率,减小跨层干扰的影响。之前的研究中,常会忽略网络的动态变化,在有些文章中,虽然考虑到动态变化,但是过于的依赖情境的启发机制,当场景变换时,会出现不适用于该场景的情形。增强型小区干扰协调(enhanced InterCell Interference Coordination(eICIC))由3GPP在版本10(LTE-A)中引入,在该异构蜂窝网络的场景中,每个用户只接入一个基站:宏基站或小基站,但同时会受到来自所有其他基站信号的干扰。在传统的单层网络中,默认的用户接入选择策略是根据最大参考信号接收功率(Maximum Reference Signal Recived Power,Max-RSRP)来选择接入基站。在异构网络中沿用这一策略会引发负载不平衡,因为异构网中基站间的发射功率相差巨大。在异构网中,用户应该被更积极地卸载到小基站上。为达到这一目的,CRE被提出。通过在小基站的RSRP上添加一个正偏置,CRE可以扩展小基站的覆盖范围,使更多的用户卸载到小基站。
近年来,机器学习技术逐渐被应用到很多领域,例如大数据分析,广告精准投放,图像分类等。现在很多学者将机器学习技术引入到通信系统做资源优化研究,主要是以深度学习和强化学习为主。
发明内容
为了解决上述背景技术提到的技术问题,本发明提出了一种基于Actor-Critic算法的多智能体异构网络资源优化方法。
为了实现上述技术目的,本发明的技术方案为:
一种基于Actor-Critic算法的多智能体异构网络资源优化方法,包括以下步骤:
(1)建立异构网络的系统模型,在宏基站覆盖范围内随机部署小基站,用户随机进入系统之后选择距离最近的基站进行交互;
(2)将单个小基站看作为一个智能体,建立马尔可夫过程,确定状态空间、动作空间和奖励函数;
(3)各个智能体根据Actor-Critic算法训练学习选取最优动作:CRE参数,允许小基站通过增加一个偏执到各自的参考信号接收功率来扩展它们的连接覆盖范围使位于小基站附近的用户尽可能连接到最近的智能体,各个智能体将所选取最优动作作为状态信息传递给宏基站;
(4)宏基站根据状态信息在宏基站覆盖范围内重新部署小基站位置,获取最优小基站部署策略。
优选地,所述步骤(2)中状态空间具体为:将小基站用户在时刻t的位置信息和其它小基站最优CRE标为状态st=s。
优选地,所述步骤(2)中动作空间具体为:将CRE配置参数α设置为动作at=(α)作为状态st选取的动作。
优选地,所述步骤(2)中奖励函数具体为:将奖励函数设置为系统能效的负倒数,即r=-1/EE,其中EE是系统能效函数;强化学习的目标累计奖励函数是期望最大的策略,如下式所示:
Figure BDA0003530149590000021
式中,折扣因子γt表示未来状态对当前状态的影响程度,r(st,at,st+1)是指在状态st下,选择动作at然后转移到下一个状态st+1产生的奖励。
优选地,所述步骤(3)具体包括:
(1)小基站用户和环境交互随机获取状态信息s,将状态信息s传递至Actor网络,Actor网络根据当前环境状态和智能体自身状态选择合适动作a,获得即时奖励r和当前状态信息s’;
(2)将所得信息集合(s,a,r,s’)传递给Critic网络,Critic网络对智能体采取的动作返回q值;
(3)将所得信息集合(s,a,q)传递给Actor网络,根据策略梯度的方式更新动作选择概率,最大化奖励。
采用上述技术方案带来的有益效果:
本发明提出了一种基于Actor-Critic算法的多智能体异构网络资源优化方法,该方法将单个小基站看作为一个智能体,根据与异构网络环境交互所得状态选取最优动作参数,并将其作为状态信息传递给宏基站,将奖励函数设置为系统能效的负倒数。该发明能够让系统网络根据实时情况进行动态的调整网络的各项的参数分配情况,具有及时性,智能化;利用相对简单的模型结构训练出系统函数,将其放入到复杂系统中,该算法会根据系统中的数据智能调整系统函数,优化参数配置,使系统性能达到最佳;采用多智能体协作的方法,很大程度上解决了强化学习中的动作空间过大的问题。
附图说明
图1为异构网络系统模型图;
图2为本发明流程构造图;
图3为基于Actor-Critic算法能效优化流程框图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
图1为异构网络系统模型图。本发明所考虑的是一个两层异构网络场景,其中一个小区内包含宏基站和小基站,小基站在宏基站的覆盖范围内随机部署。根据用户连接到基站的类型,用户可以被分为小基站用户和宏基站用户。通常连接到宏基站的用户数量远高于连接到小基站的用户数量,为了均衡系统负载,提升系统容量,CRE的提出有效的增加了小基站的扩展范围,本发明通过优化偏置参数,使用户与小基站连接时的最大参考信号接收功率增加,由此以来,位于小基站覆盖范围边缘外侧的用户也能连接到相应的小基站上面。
如图2所示为本发明流程构造图。首先建立异构网络的系统模型,根据宏基站与小基站的数量与分布情况确定小基站用户位置。
将单个小基站看作为一个智能体,建立马尔可夫过程,确定状态空间、动作空间和奖励函数。算法具体流程图如图3所示。
在本发明中,状态空间被设置为小基站用户在时刻t的位置信息和其它小基站最优CRE标为状态st=s;将CRE配置参数α设置为动作at=(α)作为状态st选取的动作;将奖励函数设置为系统能效的负倒数,即r=-1/EE,其中EE是系统能效函数。
小基站用户和环境交互随机获取状态s,将状态信息传递至Actor网络,Actor网络根据当前环境状态和智能体自身状态选择合适动作a,获得即时奖励r和当前状态s’。
将动作信息(s,a,r,s’)传递给Critic网络,Critic网络对智能体采取的动作获取q值,采用TD error(即时序差分学习方法中估计值和现有值之间的偏差)方法,最小化损失函数对其网络参数进行更新,损失函数表示为:Loss=〖[(r+γ*q^')-q]〗^2,其中γ为折扣因子。
将(s,a,q)传递给Actor网络,根据策略梯度的方式更新动作选择概率,最大化奖励。
将各个小基站学习所获得最优动作作为状态信息传递给宏基站,通过宏基站覆盖范围内重复部署小基站,获取最优小基站部署策略,使位于宏基站覆盖盲点的设备连接到相应的小基站以获得更好的信道,以达到整体异构网络系统的优化。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (1)

1.一种基于Actor-Critic算法的多智能体异构网络资源优化方法,其特征在于,包括以下步骤:
(1)建立异构网络的系统模型,在宏基站覆盖范围内随机部署小基站,用户随机进入系统之后选择距离最近的宏基站或小基站进行交互;
(2)将单个小基站看作为一个智能体,建立马尔可夫过程,确定状态空间、动作空间和奖励函数;
所述步骤(2)中状态空间具体为:将小基站用户在时刻t的位置信息和其它小基站最优CRE标为状态st=s;
所述步骤(2)中动作空间具体为:将小区间范围扩展参数参数α设置为动作at=(α)作为状态st选取的动作;
所述步骤(2)中奖励函数具体为:将奖励函数设置为系统能效的负倒数,即r=-1/EE,其中EE是系统能效函数;设强化学习的目标累计奖励函数为期望最大的策略,如下式所示:
Figure FDA0004141594070000011
式中,折扣因子γt表示未来状态对当前状态的影响程度,r(st,at,st+1)是指在状态st下,选择动作at然后转移到下一个状态st+1产生的奖励;
(3)各个智能体根据Actor-Critic算法训练学习选取最优动作:小区间范围扩展参数,允许小基站通过增加一个偏执到各自的参考信号接收功率来扩展它们的连接覆盖范围使位于小基站附近的用户连接到最近的智能体,各个智能体将所选取最优动作作为状态信息传递给宏基站;
所述步骤(3)具体包括:
(1)小基站用户和环境交互随机获取状态信息s,将状态信息s传递至Actor网络,Actor网络根据当前环境状态和智能体自身状态选择合适动作a,获得即时奖励r和当前状态信息s’;
(2)将所得信息集合(s,a,r,s’)传递给Critic网络,Critic网络对智能体采取的动作返回q值;
(3)将所得信息集合(s,a,q)传递给Actor网络,根据策略梯度的方式更新动作选择概率,最大化奖励;
(4)宏基站根据状态信息在宏基站覆盖范围内重新部署小基站位置,获取最优小基站部署策略。
CN202210202761.XA 2022-03-03 2022-03-03 一种基于Actor-Critic算法的多智能体异构网络资源优化方法 Active CN114585004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210202761.XA CN114585004B (zh) 2022-03-03 2022-03-03 一种基于Actor-Critic算法的多智能体异构网络资源优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210202761.XA CN114585004B (zh) 2022-03-03 2022-03-03 一种基于Actor-Critic算法的多智能体异构网络资源优化方法

Publications (2)

Publication Number Publication Date
CN114585004A CN114585004A (zh) 2022-06-03
CN114585004B true CN114585004B (zh) 2023-04-25

Family

ID=81771135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210202761.XA Active CN114585004B (zh) 2022-03-03 2022-03-03 一种基于Actor-Critic算法的多智能体异构网络资源优化方法

Country Status (1)

Country Link
CN (1) CN114585004B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
WO2020056299A1 (en) * 2018-09-14 2020-03-19 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
CN113115451A (zh) * 2021-02-23 2021-07-13 北京邮电大学 基于多智能体深度强化学习的干扰管理和资源分配方案

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100916B (zh) * 2020-09-10 2023-07-25 北京百度网讯科技有限公司 用于构建强化学习模型的方法、装置、电子设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020056299A1 (en) * 2018-09-14 2020-03-19 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
CN113115451A (zh) * 2021-02-23 2021-07-13 北京邮电大学 基于多智能体深度强化学习的干扰管理和资源分配方案

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡洋 ; .基于深度学习的SDN虚拟蜜网路由优化.计算机系统应用.2020,(第10期),全文. *

Also Published As

Publication number Publication date
CN114585004A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
Yang et al. Cooperation for spectral and energy efficiency in ultra-dense small cell networks
Hoydis et al. Green small-cell networks
Ashraf et al. Distributed radio coverage optimization in enterprise femtocell networks
CN107948983B (zh) 一种基于联盟博弈的能量采集小基站资源分配方法
Elshaer et al. Load & backhaul aware decoupled downlink/uplink access in 5G systems
CN108322938B (zh) 超密集组网下基于双层非合作博弈理论的功率分配方法及其建模方法
CN105813129A (zh) 一种基于d2d分簇的资源分配方法
CN104378772B (zh) 一种蜂窝网络中面向小区无定形覆盖的小基站部署方法
JP6570620B2 (ja) マルチセルビームフォーミング方法および装置
Wang et al. QoS-aware cell association in 5G heterogeneous networks with massive MIMO
CN106792764B (zh) 一种配电终端通信接入网无线基站规划方法
CN104854895A (zh) 用于无线通信系统中的无缝切换操作的方法和装置
Niu et al. A cross-layer design for a software-defined millimeter-wave mobile broadband system
CN106788812B (zh) 一种两层网络中基于分簇的干扰对齐方法
Wang et al. Traffic-aware graph-based dynamic frequency reuse for heterogeneous Cloud-RAN
Li et al. An energy-effective network deployment scheme for 5G Cloud Radio Access Networks
Madelkhanova et al. Optimization of cell individual offset for handover of flying base stations and users
Lu et al. Power control based time-domain inter-cell interference coordination scheme in DSCNs
Marshoud et al. Macrocell–femtocells resource allocation with hybrid access motivational model
CN109618405B (zh) 基于gossip算法的小基站分布式网络同步方法
CN114585004B (zh) 一种基于Actor-Critic算法的多智能体异构网络资源优化方法
CN104581910B (zh) 面向小区无定形覆盖的协作簇内小基站异步功率控制方法
CN110012509B (zh) 一种5g小蜂窝网络中基于用户移动性的资源分配方法
CN114423070B (zh) 一种基于d2d的异构无线网络功率分配方法及系统
CN108834158B (zh) 一种用于超密集组网的干扰管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant