CN114205899B - 一种基于深度强化学习的异构网高能效功率控制方法 - Google Patents

一种基于深度强化学习的异构网高能效功率控制方法 Download PDF

Info

Publication number
CN114205899B
CN114205899B CN202210054001.9A CN202210054001A CN114205899B CN 114205899 B CN114205899 B CN 114205899B CN 202210054001 A CN202210054001 A CN 202210054001A CN 114205899 B CN114205899 B CN 114205899B
Authority
CN
China
Prior art keywords
deep neural
neural network
edge
base station
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210054001.9A
Other languages
English (en)
Other versions
CN114205899A (zh
Inventor
张蔺
彭剑豪
郑嘉宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210054001.9A priority Critical patent/CN114205899B/zh
Publication of CN114205899A publication Critical patent/CN114205899A/zh
Application granted granted Critical
Publication of CN114205899B publication Critical patent/CN114205899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/243TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
    • H04W52/244Interferences in heterogeneous networks, e.g. among macro and femto or pico cells or other sector / system interference [OSI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/08Access point devices
    • H04W88/10Access point devices adapted for operation in multiple networks, e.g. multi-mode access points
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于无线通信和深度学习技术领域,具体涉及一种基于深度强化学习的异构网高能效功率控制方法。本发明设定目标为优化每个微基站的发射功率并最大化每个时隙的全局能量效率,并建立了目标模型,基于目标模型,采用深度强化学习让每个微基站根据本地信息确定发射功率,同时根据云端的数据来更新神经网络的参数。利用本发明提出的方法,基站在配置发射功率时仅需要局部状态信息,不需要获取即时的全局信道信息;基站在配置发射功率时不需要与其他基站进行通信协作,可以实现独立工作;同时本发明提出的方法的计算复杂度将比基于迭代优化的算法复杂度低。

Description

一种基于深度强化学习的异构网高能效功率控制方法
技术领域
本发明属于无线通信和深度学习技术领域,具体涉及一种基于深度强化学习的异构网高能效功率控制方法。
背景技术
随着移动通信的快速发展,无线数据流量呈现出了爆炸式增长的趋势,因而传统蜂窝网络已经难以适应不断增长的数据流量。异构网络作为一种灵活、经济的无线网络架构,通过部署小型基站作为对传统宏基站的补充,缩短了基站和用户之间的距离,以此给用户提供更高的传输速率和更好的服务质量。然而,更多的基站将导致更高的能量消耗和二氧化碳排放量,这给异构网络技术的发展带来了压力。
当前绿色通信的主题已经受到了广泛关注,能量效率已经成为未来绿色通信的设计准则,因此,在满足用户需求的前提下,如何有效利用网络现有的频谱资源,降低网络能量开销,提高网络的能量效率,是下一代无线网络优化设计中亟待解决的问题。
异构网络通过部署大量微基站来增加网络的吞吐量,但部署大量的微基站将造成较高的能量损耗,因此,在满足用户服务需求的前提下,提高网络的能量效率是不容忽视的关键问题。传统的分数规划理论可以有效地解决基站和用户之间单个通信链路的能量效率最大化问题,然而,当异构网络中存在多个基站-用户链路,并且所有的链路重复使用相同的无线信道为彼此造成干扰时,能量效率的最大化问题将变得十分复杂。现有的能量效率功率控制方法可以大致分为三类:基于迭代优化的方法、基于深度学习的方法、基于深度强化学习的方法。
(1)基于迭代优化的方法包括基于序贯分式规划(sequential fractionalprogramming,SFP)和基于分支定界的算法,两种算法都需要收集即时的全局信道状态信息,并利用其来迭代求解优化问题的边界,最终可通过优化发射功率来提高网络能量效率;
(2)基于深度学习的方法通过利用已有的优化算法生成数据集,并使用这些数据集训练人工神经网络进行功率控制,最终使用有效训练后的人工神经网络可以实现接近最优的全局能量效率性能;
(3)基于深度强化学习方法可以减少生成数据集的步骤,智能体采用试错的方式不断与环境交互,并通过利用历史交互经验来更新自己的功率控制策略,以逐渐提高网络的能量效率性能,最终在算法收敛后,利用训练好的模型可以快速配置发射功率。
但是上述方法都需要先收集即时的全局信道状态信息,然后利用全局信道状态信息来优化发射功率。然而,在实际情况下,获取即时的全局信道状态信息具有较大的挑战性。假设有即时的全局信道状态信息可以利用,并且具有较高的时间复杂度,而现有的基于深度强化学习算法假设基站之间需要相互协作,使其无法直接应用于典型的蜂窝异构网络中。
发明内容
针对上述问题,本发明通过扩展现有的基于策略的深度强化学习算法,即深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,为宏基站和微基站设计一种智能功率控制方法。利用本发明所提出的方法,每个基站可以仅基于本地信息独立地确定发射功率。
A问题描述
如图1所示,本发明考虑一个下行异构网络,其中宏基站负责为整个宏小区提供无线服务,并部署N个微基站以加强小范围区域内无线信号的覆盖。其中,宏基站和微基站复用相同的频段并会给彼此造成干扰。分别将基站及其服务的用户记为基站n和用户n,
Figure BDA0003475450620000021
下面,提供系统模型和问题描述。
基站和用户之间的无线信道由大尺度衰落(路径损耗和阴影)和小尺度块状瑞利衰落组成。其中,大尺度衰落与基站和用户的位置高度相关,而小尺度块状瑞利衰落是一个随机变量,它通常在单个时隙内保持恒定而在不同时隙之间变化。将基站n到用户k之间的大尺度衰落表示为φn,k,小尺度块状瑞利衰落表示为hn,k,相应的信道增益可以表示为gn,k=φn,k|hn,k|2
将时隙t时基站n的发射功率表示为pn(t),则在用户n处测得的信干噪比(signalto interference and noise ratio,SINR)表示为
Figure BDA0003475450620000022
其中σ2是用户处存在的噪声功率。那么,在时隙t时从基站n到用户n的下行链路速率为
rn(t)=Blog2(1+γn(t)),    (2)
其中B是频谱带宽。因此,时隙t时异构网络的全局能量效率可以表示为
Figure BDA0003475450620000031
其中ψn是基站n的功率放大器效率的倒数,pc是总电路的功率。
从(3)可知,全局能量效率与每个基站的发射功率高度相关。目标是优化每个基站的发射功率并最大化每个时隙的全局能量效率,即
Figure BDA0003475450620000032
其中,pn,max是基站n的最大发射功率约束。需要注意的是,在典型的异构网络中,不同的基站可能具有不同的最大发射功率限制。
B高能效功率控制方法框架
本发明考虑到云端中的核心网络具有整个异构网络的冗余历史数据,边缘中的基站可以利用有效的历史数据实时配置发射功率,因此,为了充分利用云端和边缘的优势,本发明设计了一个云端边缘协作框架,如图2所示。通过该框架,云端可以利用整个异构网络的历史数据为边缘基站训练高能效功率控制模型,然后借助训练有效的模型,边缘基站可以仅根据本地信息确定合适的发射功率,以提高全局能量效率。同时,每个边缘基站不需要与其他边缘基站交换即时信息而可以独立配置其发射功率。
基于上述原理,本发明将每个基站作为一个智能体并配备一个深度神经网络,即边缘深度神经网络,负责根据本地信息为基站确定合适的发射功率。因此,边缘深度神经网络的输入和输出分别是本地信息和相应的发射功率。为了在云端实现在线训练,每个边缘基站在每个时隙通过回程链路将边缘经验上传到云端。通过自动整合边缘经验,云端可以构建全局经验并将其存储在全局经验回放缓存中,该缓存中以先进先出的方式调度全局经验。
需要注意的是,不同的边缘基站可能具有独特的特征,因此不同的边缘深度神经网络可能具有不同的最优参数。为了训练得到不同边缘深度神经网络的最优参数,需要在云端建立与边缘深度神经网络相对应的行动者深度神经网络,并且具有相同的结构(例如,输入端口数、网络层数与输出端口数)。同时,在云端建立了一个评判家深度神经网络,该网络将根据全局能量效率评估整个异构网络发射功率配置的优劣,并分别指导每个行动者深度神经网络进行训练。这样,每个行动者深度神经网络可以将训练后的网络参数传输到对应的边缘基站上,直接替换对应边缘深度神经网络的参数。由于评判家深度神经网络的评估包含整个异构网络的信息,因此使用评判家深度神经网络的评估来指导每个行动者深度神经网络的训练,可以使行动者深度神经网络的参数收敛到全局最优。因此,评判家深度神经网络的输入包括整个异构网络的历史状态数据和相应的发射功率,输出的是长期全局能量效率。
C高能效功率控制方法设计
1)边缘网络:
边缘状态设计:在时隙t,第n个边缘深度神经网络的系统状态为:
Figure BDA0003475450620000041
其中,gn,n(t-1)为前一个时隙微基站n和用户n之间的信道增益,pn(t-1)为微基站n的发射功率,
Figure BDA0003475450620000042
为接收干扰,γn(t-1)为接收信号干扰噪声比,rn(t-1)为微基站n到用户n的速率,gn,n(t)为当前时隙中微基站n和用户n之间的信道增益,
Figure BDA0003475450620000043
为在配置发射功率前的接收干扰,ψn为微基站的功率放大器倒数;
边缘动作设计:每个微基站仅根据本地信息确定发射功率,因此时隙t中边缘深度神经网络n的动作为an=pn
边缘经验:微基站n在时隙t的边缘经验为当前时隙下的状态-动作对的集合:
en(t)={sn(t),an(t)}。    (5)
边缘/行动者深度神经网络设计:边缘深度神经网络与云端中的行动者深度神经网络具有相同的结构,将其设计为一个全连接的神经网络,如图3所示,其中输入层有八个端口对应于设计状态的八个元素,输出层有一个端口对应于设计的动作。
2)云端网络:
云端状态:定义从边缘到云端的数据传输存在的延迟为Td,因此将云端中的全局状态设计为:
s(t)={s0(t-Td),...,sN(t-Td),sg(t-Td)},    (6)
其中,sg(t-Td)构建为异构网络中微基站与用户之间的距离矩阵;由于每个微基站都可以获取到对应用户的位置坐标,因此每个微基站将其与用户的位置坐标共同上传到云端中,云端获取所有微基站与用户的位置坐标,最终在云端完成距离矩阵的构建;
云端动作:时隙t时云端的全局动作为:
a(t)={a0(t-Td),...,aN(t-Td)}。     (7)
云端奖励:将时隙t时云端的全局奖励设计为全局能量效率的函数:
R(t)=f(GEE(t-Td)),     (8)
其中,f(·)是一个递增函数,用于放大全局能量效率的奖励,使得微小的能量效率改进也能得到奖励;
云端全局经验:将时隙t时云端的全局经验构建为时隙t-1-Td时的全局状态-动作-奖励对和时隙时t-Td的全局状态的集合:
E(t)={s(t-1-Td),a(t-1-Td),R(t-1-Td),s(t-Td)}。    (9)
评判家深度神经网络设计:评判家深度神经网络的结构如图4所示。该神经网络的输入由三个全连接的神经网络模块组成,即全局状态模块、全局动作模块和全局状态-动作处理模块。全局状态模块输入全局状态s,全局动作模块输入全局动作a,全局状态和动作模块的最后一层连接在一起作为全局状态-动作处理模块的第一层,全局状态-动作处理模块输出对全局状态-动作对的评估(Q值)。
C高能效功率控制方法训练过程
在深度神经网络的训练中,为了稳定评判家深度神经网络和行动者深度神经网络的训练,为评判家深度神经网络建立一个目标评判家深度神经网络,为每个行动者深度神经网络建立一个目标行动者深度神经网络,则,评判家深度神经网络、行动者深度神经网络和边缘深度神经网络的参数向量将在训练开始时随机初始化,然后评判家深度神经网络和行动者深度神经网络的参数向量将用于初始化对应的目标评判家深度神经网络和目标行动者深度神经网络。
根据上述分析,在边缘有N+1个边缘深度神经网络需要训练,在云端则有N+1个行动者深度神经网络和一个评判家深度神经网络需要训练。本发明将评判家深度神经网络、行动者深度神经网络和边缘深度神经网络分别表示为Q(s,a;θ(c))、
Figure BDA0003475450620000061
以及
Figure BDA0003475450620000062
其中θ(c)
Figure BDA0003475450620000063
Figure BDA0003475450620000064
分别是评判家深度神经网络、行动者深度神经网络和边缘深度神经网络的参数向量。为了稳定评判家深度神经网络和行动者深度神经网络的训练,为评判家深度神经网络建立了一个目标评判家深度神经网络,并将其表示为Q-(s,a;θ(c-)),同时,为每个行动者深度神经网络建立一个目标行动者深度神经网络,并将它们表示为
Figure BDA0003475450620000065
定义云端需要积累D个全局经验才能开始训练,因此所有微基站在每个时隙t的开始为下行链路随机选择发射功率,当边缘深度神经网络的参数向量被更新,边缘基站就使用边缘深度神经网络产生发射功率,即
Figure BDA0003475450620000066
其中
Figure BDA0003475450620000067
是零均值动作噪声,用于在训练阶段探索更好的发射功率。通过这种方式,每个边缘基站可以仅根据本地信息不断获得新的边缘经验并将其上传到云端。我们将动作噪声方差ζ设计为随时隙的增加以速率λ衰减的形式,因此在时隙t时的动作噪声方差可以表示为
ζ=ζend+(ζiniend)e-λt,      (11)
其中ζini和ζend分别是初始值和结束值。
在云端网络的训练中,每次从全局经验池中抽取D个样本,用于更新评判家深度神经网络和行动者深度神经网络的参数向量,具体为:
1)训练评判家深度神经网络:
将第i个采样的全局经验表示为Ei={si,ai,Ri,s′i},其中s′i表示下一时隙的全局状态信息,将第i个样本的目标Q值
Figure BDA0003475450620000068
表示成时序差分的形式,即
Figure BDA0003475450620000069
其中,η∈[0,1]是是折扣因子,θ(c-)是目标评判家深度神经网络的参数向量,通过使用均方误差的方法来评估预期的长期全局能量效率与采样的D个全局经验的目标Q值之间的损失,表示为:
Figure BDA0003475450620000071
采用梯度下降法更新评判家深度神经网络的参数向量θ(c)并最小化损失函数。
2)训练行动者深度神经网络:
由于每个边缘深度神经网络的输出发射功率旨在最大化整个异构网络的全局能量效率,因此每个行动者深度神经网络的训练设计为在最大化期望Q值的方向上更新其参数向量,表示为:
Figure BDA0003475450620000072
相应地,行动者深度神经网络参数向量
Figure BDA0003475450620000073
的更新规则为:
Figure BDA0003475450620000074
其中
Figure BDA0003475450620000075
是期望Q值对
Figure BDA0003475450620000076
的偏导,表示为:
Figure BDA0003475450620000077
3)训练目标评判家深度神经网络和目标行动者深度神经网络:
采用软更新方法更新目标评判家深度神经网络和目标行动者深度神经网络,更新如下:
θ(c-)←τ(c)θ(c)+(1-τ(c)(c-),        (17)
Figure BDA0003475450620000078
最后边缘深度神经网络的参数向量被相应的行动者深度神经网络的参数向量替换。
为了减少通信开销,设计每隔Tu个时隙更新边缘深度神经网络的参数向量,直到收敛。
本发明的有益效果是:本发明的方法基站在配置发射功率时仅需要局部状态信息,不需要获取即时的全局信道信息;基站在配置发射功率时不需要与其他基站进行通信协作,可以实现独立工作;同时本发明提出的方法的计算复杂度将比基于迭代优化的算法复杂度低。
附图说明
图1为典型下行异构网络结构示意图。
图2为本发明的原理框架示意图。
图3为边缘/行动者深度神经网络结构示意图。
图4为评判家深度神经网络结构示意图。
图5为仿真模型的两层异构蜂窝网络场景示意。
图6为平均全局能量效率性能比较示意图,(a)为训练阶段,(b)为测试阶段;
图7为本发明与SFP平均时间复杂度比较示意。
具体实施方式
下面结合仿真示例和附图来说明本发明的实用性,首先提供系统模型设置和仿真参数,然后提供仿真结果来评估本发明所提出算法的性能。同时,将所提出算法与现有的SFP算法、随机功率算法和全功率算法进行比较。
如图5所示,仿真考虑了一个两层异构网络场景,其中部署了五个基站。第一层仅包含基站0,它位于坐标(0,0),最大发射功率约束为30dBm,覆盖最小半径为10米,最大半径为1000米的圆盘区域。基站1到基站4分布在第二层,分别位于坐标(500,0),(0,500),(-500,0)和(0,-500),每个基站的最大发射功率限制为23dBm,分别覆盖最小半径为10米和最大半径为200米的圆盘区域。每个用户随机分布在相应基站的覆盖范围内。
此外,将所有基站的功率放大器倒数ψn设置为10,总电路功率pc设置为30dbm,带宽B=10MHz。路径损耗建模为120.9+37.6log10(d),单位为dB,其中d代表距离(以千米为单位),对数正态阴影标准偏差为8dB,噪声功率为σ2=-114dBm。此外,将云端和边缘之间的传输延迟设置为Td=50个时隙,并将边缘深度神经网络的参数向量更新周期设置为Tu=100时隙。
接下来提供深度神经网络的训练超参数。每个边缘/行动者深度神经网络有四个全连接层,包括一个具有八个神经元的输入层,对应于状态设计中的八个元素,以及两个隐藏层,每个隐藏层有100神经元,以及一个具有一个神经元的输出层,对应每个边缘基站的动作。此外,网络优化器的学习率设置为0.00004,噪声方差的初始值为ζini=1,结束值为ζend=0.4,衰减率λ=0.00125。
评判家深度神经网络的设计与参数设置如下。全局状态模块具有三个全连接层,首先包括一个含有8(N+1)+(N+1)2个神经元的输入层,神经元的个数对应于全局状态设计中的元素个数,另外还包括两个隐藏层,每个隐藏层有200个神经元。全局动作模块有两层,包括一个含有N+1个神经元的输入层,神经元的个数对应全局动作中的元素个数,另外包括一个具有200个神经元的隐藏层。全局状态-动作处理模块具有三个全连接层,分别对应具有400个神经元的输入层、具有200个神经元的隐藏层以及1个对应Q值的输出层。此外,网络优化器的学习率设置为0.0004,批量大小D=128,折扣因子γ=0.4。
图6和图7展示了实验的仿真结果,其中每条数据曲线是10次独立实验的平均值。
图6提供了四种算法的全局能量效率性能。图6-(a)显示了训练阶段的平均全局能量效率性能,可以观察到,所提出算法的性能在大约300时隙后开始提高,并且超过了随机功率和全功率算法的性能。同时,所提出的算法收敛速度很快,在3000个时隙后可以接近SFP算法的性能。图6-(b)显示了测试阶段的性能比较,其中所有深度神经网络的参数向量在收敛后是固定的,每个边缘基站利用相应的边缘神经网络独立地配置其发射功率。从图中可以看出,所提出的算法优于SFP算法、随机功率算法和全功率算法。
图7显示了所提出算法和SFP算法计算一次发射功率的平均时间复杂度,可以看出,所提出的算法平均需要大约8ms,而SFP算法平均需要大约133ms来优化发射功率。由图6和图7可以得出结论,本发明所提出的算法在全局能量效率性能和时间复杂度方面都优于SFP算法。

Claims (1)

1.一种基于深度强化学习的异构网高能效功率控制方法,异构网包括一个宏基站和N个微基站,宏基站和微基站共用相同的频带,定义微基站及其服务的用户为微基站n和用户n,
Figure FDA0004043865030000011
其特征在于,所述功率控制方法为:
设定目标为优化每个微基站的发射功率并最大化每个时隙的全局能量效率,建立目标模型为:
Figure FDA0004043865030000012
Figure FDA0004043865030000013
其中,pn(t)是时隙t时基站n的发射功率,pn,max是微基站n的最大发射功率约束;
基于目标模型,采用深度强化学习让每个微基站根据本地信息确定发射功率,具体为:
设定整个异构网络的冗余历史数据存储在云端的核心网络中,边缘中的基站能利用有效的历史数据实时配置发射功率,因此,通过云端利用整个异构网络的历史数据为边缘基站训练高能效功率控制模型,从而边缘基站可以仅根据本地信息确定合适的发射功率,以提高全局能量效率;
将每个微基站作为一个智能体并配备一个深度神经网络,定义为边缘深度神经网络,负责根据本地信息为微基站确定合适的发射功率,边缘深度神经网络的输入和输出分别是本地信息和相应的发射功率;为了在云端实现在线训练,每个边缘基站在每个时隙通过回程链路将边缘经验上传到云端,通过整合边缘经验,云端构建全局经验并将其存储在全局经验回放缓存中,该缓存中以先进先出的方式调度全局经验;
为了训练得到不同边缘深度神经网络的最优参数,需要在云端建立与边缘深度神经网络相对应的行动者深度神经网络,并且边缘深度神经网络和行动者深度神经网络具有相同的结构,同时,在云端建立了一个评判家深度神经网络,该网络将根据全局能量效率评估整个异构网络发射功率配置的优劣,并分别指导每个行动者深度神经网络进行训练;每个行动者深度神经网络将训练后的网络参数传输到对应的边缘深度神经网络,直接替换对应边缘深度神经网络的参数;所述评判家深度神经网络的评估包含整个异构网络的信息,因此使用评判家深度神经网络的评估来指导每个行动者深度神经网络的训练,使行动者深度神经网络的参数收敛到全局最优;评判家深度神经网络的输入包括整个异构网络的历史状态数据和相应的发射功率,输出的是长期全局能量效率;
具体训练过程为:
定义在边缘有N+1个边缘深度神经网络需要训练,在云端则有N+1个行动者深度神经网络和一个评判家深度神经网络需要训练;将评判家深度神经网络、行动者深度神经网络和边缘深度神经网络分别表示为Q(s,a;θ(c))、
Figure FDA0004043865030000021
以及
Figure FDA0004043865030000022
其中θ(c)
Figure FDA0004043865030000023
Figure FDA0004043865030000024
分别是评判家深度神经网络、行动者深度神经网络和边缘深度神经网络的参数向量;为了稳定评判家深度神经网络和行动者深度神经网络的训练,为评判家深度神经网络建立一个目标评判家深度神经网络,并将其表示为Q-(s,a;θ(c-)),同时,为每个行动者深度神经网络建立一个目标行动者深度神经网络,并将它们表示为
Figure FDA0004043865030000025
定义云端需要积累D个全局经验才能开始训练,因此所有微基站在每个时隙t的开始为下行链路随机选择发射功率,当边缘深度神经网络的参数向量被更新,边缘基站就使用边缘深度神经网络产生发射功率:
Figure FDA0004043865030000026
其中
Figure FDA0004043865030000027
是零均值动作噪声,用于在训练阶段探索更好的发射功率;通过这种方式,每个边缘基站根据本地信息不断获得新的边缘经验并将其上传到云端;将动作噪声方差ζ设计为随时隙的增加以速率λ衰减的形式,因此在时隙t时的动作噪声方差表示为:
ζ=ζend+(ζiniend)e-λt
其中ζini和ζend分别是初始值和结束值;
在云端网络的训练中,每次从全局经验池中抽取D个样本,用于更新评判家深度神经网络和行动者深度神经网络的参数向量,具体为:
1)训练评判家深度神经网络:
将第i个采样的全局经验表示为Ei={si,ai,Ri,s′i},其中s′i表示下一时隙的全局状态信息,将第i个样本的目标Q值
Figure FDA0004043865030000028
表示成时序差分的形式,即
Figure FDA0004043865030000029
其中,η∈[0,1]是折扣因子,θ(c-)是目标评判家深度神经网络的参数向量,通过使用均方误差的方法来评估预期的长期全局能量效率与采样的D个全局经验的目标Q值之间的损失,表示为:
Figure FDA0004043865030000031
采用梯度下降法更新评判家深度神经网络的参数向量θ(c)并最小化损失函数;
2)训练行动者深度神经网络:
由于每个边缘深度神经网络的输出发射功率旨在最大化整个异构网络的全局能量效率,因此每个行动者深度神经网络的训练设计为在最大化期望Q值的方向上更新其参数向量,表示为:
Figure FDA0004043865030000032
相应地,行动者深度神经网络参数向量
Figure FDA0004043865030000033
的更新规则为:
Figure FDA0004043865030000034
其中
Figure FDA0004043865030000035
是期望Q值对
Figure FDA0004043865030000036
的偏导,表示为:
Figure FDA0004043865030000037
3)训练目标评判家深度神经网络和目标行动者深度神经网络:
采用软更新方法更新目标评判家深度神经网络和目标行动者深度神经网络,更新如下:
θ(c-)←τ(c)θ(c)+(1-τ(c)(c-)
Figure FDA0004043865030000038
最后边缘深度神经网络的参数向量被相应的行动者深度神经网络的参数向量替换;
深度强化学习的实现包括边缘网络和云端网络两个部分,具体设计如下:
1)边缘网络:
边缘状态设计:在时隙t,第n个边缘深度神经网络的系统状态为:
Figure FDA0004043865030000039
其中,gn,n(t-1)为前一个时隙微基站n和用户n之间的信道增益,pn(t-1)为微基站n的发射功率,
Figure FDA0004043865030000041
为接收干扰,γn(t-1)为接收信号干扰噪声比,rn(t-1)为微基站n到用户n的速率,gn,n(t)为当前时隙中微基站n和用户n之间的信道增益,
Figure FDA0004043865030000042
为在配置发射功率前的接收干扰,ψn为微基站的功率放大器倒数;
边缘动作设计:每个微基站仅根据本地信息确定发射功率,因此时隙t中边缘深度神经网络n的动作为an=pn
边缘经验设计:微基站n在时隙t的边缘经验为当前时隙下的状态-动作对的集合:
en(t)={sn(t),an(t)}
2)云端网络:
云端状态设计:定义从边缘到云端的数据传输存在的延迟为Td,因此将云端中的全局状态设计为:
s(t)={s0(t-Td),...,sN(t-Td),sg(t-Td)}
其中,sg(t-Td)构建为异构网络中微基站与用户之间的距离矩阵;由于每个微基站都可以获取到对应用户的位置坐标,因此每个微基站将其与用户的位置坐标共同上传到云端中,云端获取所有微基站与用户的位置坐标,最终在云端完成距离矩阵的构建;
云端动作设计:时隙t时云端的全局动作为:
a(t)={a0(t-Td),...,aN(t-Td)}
云端奖励设计:将时隙t时云端的全局奖励设计为全局能量效率的函数:
R(t)=f(GEE(t-Td))
其中,f(·)是一个递增函数,用于放大全局能量效率的奖励,使得微小的能量效率改进也能得到奖励;
云端全局经验设计:将时隙t时云端的全局经验构建为时隙t-1-Td时的全局状态-动作-奖励对和时隙时t-Td的全局状态的集合:
E(t)={s(t-1-Td),a(t-1-Td),R(t-1-Td),s(t-Td)}。
CN202210054001.9A 2022-01-18 2022-01-18 一种基于深度强化学习的异构网高能效功率控制方法 Active CN114205899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210054001.9A CN114205899B (zh) 2022-01-18 2022-01-18 一种基于深度强化学习的异构网高能效功率控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210054001.9A CN114205899B (zh) 2022-01-18 2022-01-18 一种基于深度强化学习的异构网高能效功率控制方法

Publications (2)

Publication Number Publication Date
CN114205899A CN114205899A (zh) 2022-03-18
CN114205899B true CN114205899B (zh) 2023-04-07

Family

ID=80658582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210054001.9A Active CN114205899B (zh) 2022-01-18 2022-01-18 一种基于深度强化学习的异构网高能效功率控制方法

Country Status (1)

Country Link
CN (1) CN114205899B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112351433A (zh) * 2021-01-05 2021-02-09 南京邮电大学 一种基于强化学习的异构网络资源分配方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11805485B2 (en) * 2018-09-27 2023-10-31 Lg Electronics Inc. Method for controlling transmission power by terminal in narrowband wireless communication system, and terminal
CN111245651B (zh) * 2020-01-08 2022-03-29 上海交通大学 一种基于功率控制和资源分配的任务卸载方法
CN111526592B (zh) * 2020-04-14 2022-04-08 电子科技大学 一种用于无线干扰信道中的非协作多智能体功率控制方法
KR20210145514A (ko) * 2020-05-25 2021-12-02 삼성전자주식회사 네트워크 에너지 최적화를 위한 전력 제어 방법 및 장치
CN112307703B (zh) * 2020-10-27 2022-08-26 电子科技大学 一种边缘计算智能功率模块

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112351433A (zh) * 2021-01-05 2021-02-09 南京邮电大学 一种基于强化学习的异构网络资源分配方法

Also Published As

Publication number Publication date
CN114205899A (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
KR102034955B1 (ko) 무선 통신 시스템에서 신경망 기반의 송신전력 제어 방법 및 장치
CN114189888B (zh) 基于数字孪生的5g融合网架构下多模终端接入系统及方法
Liu et al. Wireless distributed learning: A new hybrid split and federated learning approach
CN111526592B (zh) 一种用于无线干扰信道中的非协作多智能体功率控制方法
CN110380776B (zh) 一种基于无人机的物联网系统数据收集方法
CN109743210A (zh) 基于深度强化学习的无人机网络多用户接入控制方法
CN108834049B (zh) 无线供能通信网络及确定其工作状态的方法、装置
CN112153616A (zh) 一种基于深度学习的毫米波通信系统中的功率控制方法
CN104394535A (zh) 面向协作通信的基站规划方法
CN114980169A (zh) 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
Sun et al. Learning to continuously optimize wireless resource in episodically dynamic environment
CN114885340B (zh) 一种基于深度迁移学习的超密集无线网络功率分配方法
CN116866974A (zh) 一种基于深度强化学习的联邦学习客户选择方法
CN110753367B (zh) 移动通信系统的安全性能预测方法
CN109104734B (zh) 一种集能型无线中继网络吞吐量最大化方法
Luo et al. SRCON: A data-driven network performance simulator for real-world wireless networks
CN114205899B (zh) 一种基于深度强化学习的异构网高能效功率控制方法
CN105979589A (zh) 异构网络的能量有效资源分配方法及系统
Chen et al. iPAS: A deep Monte Carlo Tree Search-based intelligent pilot-power allocation scheme for massive MIMO system
CN116847446A (zh) 一种基于智能云边协同的异构网高能效功率控制方法
CN111741483B (zh) 移动通信系统的中断概率性能预测方法
Dridi et al. Reinforcement Learning Vs ILP Optimization in IoT support of Drone assisted Cellular Networks
CN103945388B (zh) 一种异构网络中基于遗传算法的用户接入网络方法
Zhao et al. RIS-assisted air-to-ground communications with non-orthogonal multiple access
CN114745032A (zh) 一种无蜂窝大规模mimo智能分布式波束选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant