CN115696581A - 基于约束强化学习的无线网络资源分配方法 - Google Patents
基于约束强化学习的无线网络资源分配方法 Download PDFInfo
- Publication number
- CN115696581A CN115696581A CN202211052231.8A CN202211052231A CN115696581A CN 115696581 A CN115696581 A CN 115696581A CN 202211052231 A CN202211052231 A CN 202211052231A CN 115696581 A CN115696581 A CN 115696581A
- Authority
- CN
- China
- Prior art keywords
- base station
- network
- wireless network
- devices
- bandwidth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种基于约束强化学习的无线网络资源分配方法,包括以下步骤:步骤S1:将5G无线网络系统分为增强移动宽带切片、海量机器类通信切片和超可靠低时延通信切片三个网络切片;步骤S2:基于增广拉格朗日的方法,将5G无线网络系统优化问题转化为增广拉格朗日的问题;步骤S3:结合增广拉格朗日与SAC算法,构建基于增广拉格朗日强化学习的资源分配的算法模型,并求解增广拉格朗日的问题,得到最优的分配方案。本发明实现在有限带宽资源下最大化吞吐量。
Description
技术领域
本发明涉及无线通信领域和计算机技术领域,具体涉及一种基于约束强化学习的无线网络资源分配方法。
背景技术
随着工业物联网(IIoT)和5G的发展,越来越多的设备连接到网络中,这些设备会在短时间内产生海量数据。当前,国际电信联盟(ITU)制定了5G的三大应用场景:增强移动带宽(enhanced Mobile Broadband,eMBB)、高可靠低延时通信(Ultra-Reliable LowLatency Communications,URLLC)、海量机器类通信(massive Machine TypeCommunication,mMTC)。不同的应用场景有不同的网络性能要求,使用网络切片来解决不同场景下的数据是提高网络利用率的一大发展方向。网络切片是利用软件定义网络和网络功能虚拟化技术将单个物理网络划分为多个独立的逻辑(虚拟)网络的过程。切片之间是相互隔离的,只需要一张网络就可以针对不同的场景提供相应的网络切片。在电力行业中,智能电网在发电、输电、变电、配电以及用电的过程中,需要用到各类设备,需要使用网络切片来提高网络性能。
发明内容
有鉴于此,本发明的目的在于提供一种基于约束强化学习的无线网络资源分配方法,不仅对分配的带宽进行了约束,又满足最大的吞吐量。
为实现上述目的,本发明采用如下技术方案:
一种基于约束强化学习的无线网络资源分配方法,包括以下步骤:
步骤S1:将5G无线网络系统分为增强移动宽带切片、海量机器类通信切片和超可靠低时延通信切片三个网络切片;
步骤S2:基于增广拉格朗日的方法,将5G无线网络系统优化问题转化为增广拉格朗日的问题;
步骤S3:结合增广拉格朗日与SAC算法,构建基于增广拉格朗日SAC算法模型,并求解增广拉格朗日的问题,得到最优的分配方案。
进一步的,所述步骤S1具体为:设5G无线网络系统中每种类型的设备都被分配到一个指定的切片中;
其中增强移动宽带切片中的设备需要一个具有超高吞吐量的网络,并用集合表示;海量机器类通信切片中的设备需要一个具有大规模终端的网络,用集合表示;而超可靠低时延通信切片中的设备需要一个具有超低延迟的网络,用集合表示;
然后,用和表示设备集合和基站集合;对于不同类型的设备,每个基站保留一定的带宽,在第m个基站中可用的带宽用Bm表示,用bum表示分配给第u个设备的带宽,考虑到与第u个设备相关的第m个BS,用Pu表示发射功率,用hum表示连接到第m个基站的设备的信道多路径效应引起的功率增益。进一步的,所述5G无线网络系统中设备的速率要求如下:
进一步的,所述步骤S2具体为:
使用二进制向量xum来表示用户的归属,给定设备连接到基站的最小功率P0要求,以及第m个基站的发射功率为Pm,当基站和设备之间的距离dum大于某个值,基站和用户不能立即连接,即xum=0,这时当距离dum小于一定值时,即当的时候,基站和设备可以被连接;
第u个设备的情况表示为:
由第m个基站分配的总带宽计算为:
为了衡量整个系统中设备之间的比例公平性,我们将每一类设备的总速率表示为"对数(速率)"。而且,由于三个网络切片的速率要求不同,还采用了加权效用函数来平衡它们对总体效用的贡献。因此,设目标优化公式表示为:
结合拉格朗日乘数向量λ={λ1,…,λM}和惩罚项μ,构建问题增强拉格朗日的无约束的优化问题为
进一步的,所述基于增广拉格朗日SAC算法包括值网络、Q网络和策略网络,三种网络的参数分别设置为φ,ψ,θ,并增加了若干Q网络用来更新拉格朗日乘子向量λ和惩罚项μ,然后用于更新策略网络,最后在满足带宽约束的情况下达到最大的吞吐量,具体如下:
(1)初始化所有网络的参数,以及拉格朗日乘子向量λ和惩罚项μ;
(2)对于每个episode;
a)观察环境,将状态输入策略网络;
b)策略网络选择动作,并执行;
c)计算奖励,以及分配的总带宽;
d)更新经验回放库;
(3)对于每一次梯度下降的步骤;
a)从经验回放库中随机选择若干样本;
b)更新参数φ,ψ,θ,λ;
c)更新目标值网络参数;
d)带宽约束若不满足,则需要增大;
(4)循环(2)-(3)至满足预设要求。
本发明与现有技术相比具有以下有益效果:
本发明在网络切片系统中,设计了混合动作空间、状态空间以及奖励函数,并将增广拉格朗日与SAC算法相结合,实现对分配的带宽进行了约束,又满足最大的吞吐量。
附图说明
图1是本发明实施例中网络切片系统模型结构示意图;
图2是本发明实施例中所提出的ALM-SAC算法的示意图;
图3是本发明实施例中所提出算法不同带宽约束下的奖励性能对比图;
图4是本发明实施例中所提出算法在不同带宽约束下的约束情况图;
图5是本发明实例中的所提出算法与基准算法的性能对比图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于约束强化学习的无线网络资源分配方法,其特征在于,包括以下步骤:
步骤S1:将5G无线网络系统的设备分为三种典型的网络切片:增强移动宽带切片、海量机器类通信切片和超可靠低时延通信切片;
在本实施中,5G无线网络系统包含用于摄像头、VR、无人驾驶、智能电表和智能分布式配电自动化等设备。
在网络切片系统中,我们假设每种类型的设备都被分配到一个指定的切片中,其中增强移动宽带切片中的设备需要一个具有超高吞吐量的网络,并用集合表示;海量机器类通信切片部分的设备需要一个具有大规模终端的网络,用集合表示;而超可靠低时延通信切片部分的设备需要一个具有超低延迟的网络,用集合表示。然后,我们用和表示设备集合和基站集合。在这项工作中,对于不同类型的设备,每个基站保留一定的带宽,在第m个基站中可用的带宽用Bm表示,分配给第u设备的带宽用bum表示,考虑到与第u个设备相关的第m个BS,用Pu表示发射功率,用hum表示连接到第m个基站的设备的信道多路径效应引起的功率增益。因此,对于上述不同的网络切片,三个设备的速率要求如下
3)在超可靠低时延通信切片下的设备在这些切片中,这些设备需要实现对配电网的监测、控制和快速故障隔离,因此对延迟的要求比较高,设备的速率要求可以表示为其中L表示设备在中发送单个数据包的长度,T0表示设备发送单个数据包可允许的最大传输延迟。
步骤S2:为实现在有限带宽资源下最大化吞吐量,制定优化目标。然后,将原优化问题转化为增广拉格朗日的问题。针对以上的网络切片系统,定义整个系统的状态空间和混合动作空间,以及基于优化目标设计的奖励函数;
在本实施例中,使用二进制向量xum来表示用户的归属。给定设备连接到基站的最小功率P0要求,以及第m个基站的发射功率为Pm,当基站和设备之间的距离dum大于某个值,基站和用户不能立即连接,即xum=0,这时当距离dum小于一定值时,即当 的时候,基站和设备可以被连接。由于设备一次只能与一个基站连接,上述第u个设备的情况可以表示为: 此外,由第m个基站分配的总带宽可以计算为其中表示为第m个基站所可以服务的设备集合;。
为了衡量整个系统中设备之间的比例公平性,将每一类设备的总速率表示为"Log(rate)"。对于集合中的第u个用户,速率可以计算为在本实施例中,目标是在满足三类设备的网络要求的同时,使总速率最大化。由于每种类型的设备对网络有不同的要求,为不同类型的设备的速率添加相应的权重,以进一步确保公平性。另外,为了衡量整个系统中设备之间的比例公平性,我们将每一类设备的总速率表示为"对数(速率)"。优化公式表示为
结合拉格朗日乘数向量λ={λ1,…,λM}和惩罚项的参数项μ,我们构建问题增强拉格朗日的无约束的优化问题为
步骤S3:结合增广拉格朗日与SAC算法,构建基于增广拉格朗日SAC算法模型,并求解增广拉格朗日的问题,得到最优的分配方案。
在本实施例中,参考图2,提供一种基于增广拉格朗日SAC算法,考虑三种网络:
1)值网络,用于输出状态的价值;
2)Q网络,用于动作状态对价值的估计;
3)策略网络,用于输出动作概率分布。
这三种网络的参数分别设置为φ,ψ,θ。为了约束带宽,我们额外增加了多个Q网络用来更新λ,μ参数,然后用于更新策略网络,最后在满足带宽约束的情况下达到最大的吞吐量。以上提出的基于增广拉格朗日SAC算法具体流程如下:
1)初始化所有网络的参数,以及拉格朗日乘子向量λ和惩罚项μ;
2)对于每一次迭代;
3)对于每个episode;
a)观察环境,将状态输入策略网络;
b)策略网络选择动作,并执行;
c)计算奖励,以及分配的总带宽;
d)更新经验回放库;
4)对于每一次梯度下降的步骤;
a)从经验回放库中随机选择一堆样本;
b)更新参数φ,ψ,θ,λ;
c)更新目标值网络参数;
d)带宽约束若不满足,则需要增大μ;
5)结束。
参考图2,优选的,LM-SAC算法的架构包括参数为φ的软状态值网络Vφ、参数为ψR的软Q值网络以及参数为θ的策略网络πθ。为了估计分配的带宽,我们还开发了多个软Q值网络参数为 在s的状态下,网络切片系统会根据策略网络选择行动。在采取了a的行动后,每个基站中的奖励和约束可以分别计算,然后得到下个状态,最后将这些存于经验回放库中,用于后面的更新迭代。
参考图3,在本实施例中,分别绘制了在BSs中可用的最大带宽10、12.5、15MHz下的奖励。从图中可以看出,带宽为15MHz的ALM-SAC由于有更多的带宽资源,可以获得更多的吞吐量,从而获得更多的奖励。此外,动作空间的大小与可用于分配的带宽有关,因此ALM-SAC算法在带宽为15MHz时的稳定性会降低。
如图4所示,是本发明实例中的算法在不同层数下的帕累托前沿对比图。
显示了在基站中可用的最大带宽10、12.5、15MHz下的带宽约束。可以清楚地看到,所提出的ALM-SAC在100步数后可以满足带宽要求。这也表明,所提出的算法可以为约束性RL问题提供有效的解决方案。
在本实施例中,如图5所示,是不同算法的奖励性能和约束情况对比图。
将所提出的ALM-SAC算法与DDPG算法以及Random算法进行比较。从图中可以看出,由于ALM-SAC算法在处理离散和连续行动空间方面有很强的能力,所以它的性能明显优于DDPG算法和Random。总的来说,所提出的ALM-SAC算法不仅可以满足有限的带宽,还可以更好的找到合理的带宽分配策略。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (6)
1.一种基于约束强化学习的无线网络资源分配方法,其特征在于,包括以下步骤:
步骤S1:将5G无线网络系统分为增强移动宽带切片、海量机器类通信切片和超可靠低时延通信切片三个网络切片;
步骤S2:基于增广拉格朗日的方法,将5G无线网络系统优化问题转化为增广拉格朗日的问题;
步骤S3:结合增广拉格朗日与SAC算法,构建基于增广拉格朗日SAC算法模型,并求解增广拉格朗日的问题,得到最优的分配方案。
2.根据权利要求1所述的基于约束强化学习的无线网络资源分配方法,其特征在于,所述步骤S1具体为:设5G无线网络系统中每种类型的设备都被分配到一个指定的切片中;
其中增强移动宽带切片中的设备需要一个具有超高吞吐量的网络,并用集合表示;海量机器类通信切片中的设备需要一个具有大规模终端的网络,用集合表示;而超可靠低时延通信切片中的设备需要一个具有超低延迟的网络,用集合表示;
4.根据权利要求1所述的基于约束强化学习的无线网络资源分配方法,其特征在于,所述步骤S2具体为:
使用二进制向量xum来表示用户的归属,给定设备连接到基站的最小功率P0要求,以及第m个基站的发射功率为Pm,当基站和设备之间的距离dum大于某个值,基站和用户不能立即连接,即xum=0,这时当距离dum小于一定值时,即当的时候,基站和设备可以被连接;
第u个设备的情况表示为:
由第m个基站分配的总带宽计算为:
设目标优化公式表示为:
结合拉格朗日乘数向量λ={λ1,…,λM}和惩罚项μ,构建问题增强拉格朗日的无约束的优化问题为
6.根据权利要求1所述的基于约束强化学习的无线网络资源分配方法,其特征在于,所述基于增广拉格朗日SAC算法包括值网络、Q网络和策略网络,三种网络的参数分别设置为φ,ψ,θ,并增加了若干Q网络用来更新拉格朗日乘子向量λ和惩罚项μ,然后用于更新策略网络,最后在满足带宽约束的情况下达到最大的吞吐量,具体如下:
(1)初始化所有网络的参数,以及拉格朗日乘子向量λ和惩罚项μ;
(2)对于每个episode;
a)观察环境,将状态输入策略网络;
b)策略网络选择动作,并执行;
c)计算奖励,以及分配的总带宽;
d)更新经验回放库;
(3)对于每一次梯度下降的步骤;
a)从经验回放库中随机选择若干样本;
b)更新参数φ,ψ,θ,λ;
c)更新目标值网络参数;
d)带宽约束若不满足,则需要增大μ;
(4)循环(2)-(3)至满足预设要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211052231.8A CN115696581A (zh) | 2022-08-30 | 2022-08-30 | 基于约束强化学习的无线网络资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211052231.8A CN115696581A (zh) | 2022-08-30 | 2022-08-30 | 基于约束强化学习的无线网络资源分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115696581A true CN115696581A (zh) | 2023-02-03 |
Family
ID=85061094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211052231.8A Pending CN115696581A (zh) | 2022-08-30 | 2022-08-30 | 基于约束强化学习的无线网络资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115696581A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116743584A (zh) * | 2023-08-09 | 2023-09-12 | 山东科技大学 | 一种基于信息感知及联合计算缓存的动态ran切片方法 |
CN116936033A (zh) * | 2023-09-18 | 2023-10-24 | 海杰亚(北京)医疗器械有限公司 | 一种经皮消融手术规划方法、装置、介质及设备 |
-
2022
- 2022-08-30 CN CN202211052231.8A patent/CN115696581A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116743584A (zh) * | 2023-08-09 | 2023-09-12 | 山东科技大学 | 一种基于信息感知及联合计算缓存的动态ran切片方法 |
CN116743584B (zh) * | 2023-08-09 | 2023-10-27 | 山东科技大学 | 一种基于信息感知及联合计算缓存的动态ran切片方法 |
CN116936033A (zh) * | 2023-09-18 | 2023-10-24 | 海杰亚(北京)医疗器械有限公司 | 一种经皮消融手术规划方法、装置、介质及设备 |
CN116936033B (zh) * | 2023-09-18 | 2023-11-17 | 海杰亚(北京)医疗器械有限公司 | 一种经皮消融手术规划方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110418416B (zh) | 移动边缘计算系统中基于多智能体强化学习的资源分配方法 | |
CN109413724B (zh) | 一种基于mec的任务卸载和资源分配方案 | |
CN108920279B (zh) | 一种多用户场景下的移动边缘计算任务卸载方法 | |
CN108541027B (zh) | 一种基于边缘云网络的通信计算资源置换方法 | |
CN111093203B (zh) | 一种基于环境感知的服务功能链低成本智能部署方法 | |
CN115696581A (zh) | 基于约束强化学习的无线网络资源分配方法 | |
CN111246586B (zh) | 一种基于遗传算法的分配智能电网资源的方法及系统 | |
CN112148380B (zh) | 一种移动边缘计算任务卸载中的资源优化方法及电子设备 | |
CN111372314A (zh) | 基于移动边缘计算场景下的任务卸载方法及任务卸载装置 | |
CN113038616B (zh) | 一种基于联邦学习的频谱资源管理分配方法 | |
CN111628855A (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
WO2023179010A1 (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
CN110121212B (zh) | 一种面向周期类urllc业务的上行传输方法 | |
Chen et al. | Resource management for wireless virtual reality: Machine learning meets multi-attribute utility | |
CN113590279B (zh) | 一种面向多核边缘计算服务器的任务调度和资源分配方法 | |
CN114697333B (zh) | 一种能量队列均衡的边缘计算方法 | |
TWI698111B (zh) | 功能分割無線前端通訊下品質體驗導向的跨層資料存取控制與波束分配之通訊系統 | |
CN114885418A (zh) | 5g超密集网络中任务卸载及资源分配的联合优化方法、装置及介质 | |
CN112188551A (zh) | 一种计算迁移方法、计算终端设备及边缘服务器设备 | |
CN112512070A (zh) | 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 | |
CN114867030A (zh) | 双时间尺度智能无线接入网切片方法 | |
CN113573363A (zh) | 基于深度强化学习的mec计算卸载与资源分配方法 | |
CN115866787A (zh) | 融合终端直传通信和多接入边缘计算的网络资源分配方法 | |
CN114885422A (zh) | 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法 | |
CN108777857B (zh) | 一种URLLC和mMTC共存场景下的接入控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |