CN112512070A - 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 - Google Patents
一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 Download PDFInfo
- Publication number
- CN112512070A CN112512070A CN202110157176.8A CN202110157176A CN112512070A CN 112512070 A CN112512070 A CN 112512070A CN 202110157176 A CN202110157176 A CN 202110157176A CN 112512070 A CN112512070 A CN 112512070A
- Authority
- CN
- China
- Prior art keywords
- network
- resource allocation
- algorithm
- value
- network structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013468 resource allocation Methods 0.000 title claims abstract description 39
- 230000007246 mechanism Effects 0.000 title claims abstract description 37
- 230000002787 reinforcement Effects 0.000 title claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 42
- 230000009471 action Effects 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 10
- 230000001965 increasing effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000009827 uniform distribution Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract description 4
- 241001181114 Neta Species 0.000 abstract 1
- 230000002068 genetic effect Effects 0.000 abstract 1
- 230000003595 spectral effect Effects 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
Description
技术领域
本发明涉及多基站协同网络资源分配方法以及强化学习领域,更具体地,涉及基于图注意力机制强化学习的多基站协同无线网络资源分配方法,属于无线通信技术领域。
背景技术
面对飞速增长的移动数据流量,第五代(5G)移动通信网络需要为来自不同订阅者的多样化业务场景提供不同性能的网络服务,其中核心的三大应用场景分别是:(a) 增强型移动宽带(enhanced mobile broadband,eMBB),用于为用户提供稳定和高峰值的数据传输率,以满足4k/8k高清、AR/VR、全息图像等典型服务;(b) 海量机器通信(massivemachine-type communications,mMTC),用于为大规模的低传输性能要求的用户提供服务,为物联网场景提供通信保障;(c) 超可靠低时延通信(ultrareliable and low-latencycommunications, URLLC),用于为自动驾驶,远程医疗等应用提供技术保证。
如何在移动数据流量需求巨大的情况下,通过合理的资源调配策略,最大化利用通信网络资源,为不同类型的用户提供最优质的服务,是当下迫切需要解决的问题。如果使用传统的网络架构,为每一种场景构建一套专用的网络去满足不同企业客户的需求,这并不能满足5G架构的灵活性目标,同样会造成巨大的部署成本。因此,研究人员提出了网络切片(network slicing,NS)技术。网络切片技术可以依据不同用户需求灵活的分配现有的网络资源。与单一的网络相比,它可以提供更高性能的逻辑网络,灵活分配有限的带宽资源,并且各个网络资源之间合理配置,互不干扰,具有较高的可靠性和安全性。为了迎合不断变化的用户需求以及用户移动性导致的基站间的频繁切换,如何优化部署和实时调整网络切片的资源分配是当前5G业务商用面临的一个重大的挑战。其技术关键指标在于:在尽可能满足切片订阅者的服务水平协议(Service Level Agreement,SLA)以提高用户服务满意率(SSR)的同时,最大化频谱效率(Spectrum Efficiency,SE)以降低资源成本,满足更多订阅者的需求。
传统的专用资源分配方案以及基于优化算法和启发式算法的资源分配策略,往往有严格的限定条件和复杂的推导形成特定的优化问题,这样的方法缺乏灵活性和可扩展性,当用户特征以及各种性能用户的比例发生变化,这些算法都无法良好的应对。因此,有必要根据用户的服务请求动态地智能地将频谱资源分配给不同切片,以便在保证基础SSR的同时最大化SE。
强化学习通过不断地与环境进行交互,捕捉环境中的状态信息,并据此做出动作选择,以试错的方式来学习使收益最大化的最优行为策略。传统的强化学习很难处理连续或者高维的状态空间情况,因此将深度学习的预测方法引入强化学习,用深度神经网络代表状态价值函数,提出深度强化学习算法预测较大状态空间的最优动作选择策略。典型的深度强化学习代表有Deep Q Network(DQN)、Actor-Critic(A2C)等。
尽管卷积神经网络在处理结构化信息方面取得了很大的成果,但很多有趣的任务所涉及的数据无法用网格状结构表示,而是位于一个不规则的域中,这时候人们就倾向于用图去表示这种结构。人们对将卷积推广到图域的兴趣越来越大,图卷积神经网络由此不断地发展。图注意力机制作为一种代表性的图卷积神经网络机制,引入多头掩蔽注意力机制,赋予邻居节点不同的影响权重,不但可以增强图中节点的协同合作,信息聚合,同时对邻居节点的噪声更为鲁棒。
发明内容
针对上述背景问题,本发明提出一种基于图注意力机制强化学习的多基站协同无线资源分配方法。相较于传统的优化算法和启发式算法,本发明提出的方法具有更好的灵活性和可扩展性;对比其他强化学习算法,本发明提出的方法可以加强基站之间的协同合作预测数据包的变化趋势,以降低用户移动性导致的基站内用户数量变化对状态动作值函数预测的负面影响。因此,采用图注意力机制强化学习算法进行多基站协同无线网络资源分配预测,可以提高预测准确率,从而大幅提高无线网络性能。
为了实现上述目的,本发明采用如下技术方案:
一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,该方法具有以下步骤:
S2、执行资源分配;
作为优选,所述步骤S1包含以下子步骤:
S11、将算法网络结构G分为状态向量编码网络Embed、图注意力机制网络GAT和深度Q网络DQN;
S12、其中状态向量编码网络Embed由多层全连接网络构成,记作
S13、将当前主体m及其在有向图中相邻节点上的主体经过编码后的向量和作为图注意力机制网络GAT的输入向量,计算注意力影响系数,并对注意力影响系数进行归一化处理,其中表示当前主体m在有向图中的相邻节点上的主体集合;将归一化后的注意力影响系数与输入向量相乘,计算图注意力机制网络GAT的第一层输出;将所述注意力影响系数、归一化处理、第一层输出进行分装表示,,所述图注意力机制网络GAT的第二层输出为;
S14、深度Q网络DQN是由多层全连接网络组成的,将通过上述两层图注意力机制网络GAT处理过后的输出向量作为深度Q网络DQN的输入,输出当前状态下执行不同动作的回报值,选取并执行回报最高的动作与环境交互;
作为优选,所述步骤S2包含以下子步骤:
S21、无线资源管理器获取当前t时刻各个基站的网络状态向量,基站数量为M,无线资源管理器从(0,1)均匀分布中获取一个随机数,若该随机数大于,则无线资源管理器为每一个基站随机选择一个有效的动作;若随机数小于或者等于则无线资源管理器将输入步骤S1中的网络G,每个基站将会获得一个回报值最大的动作;执行动作,无线资源管理器将会接收到系统回报值,并观察到下一时刻的网络状态向量;
作为优选,所述步骤S3包含以下过程:从缓存区F中选取p个四元组作为训练样本,将样本中的p个网络状态向量组合成矩阵,并将其输入到步骤S1中构建的算法网络结构G中,得到p个状态下执行不同动作产生的回报值,分别选取对应的回报值,记作当前网络参数下预测到的回报值,将样本中的p个网络状态向量组合成矩阵,并将其输入到步骤S1中构建的目标网络中,得到p个状态下执行不同动作产生的回报值,选取最大的回报值,记作,算法网络结构G的损失函数为:
作为优选,所述步骤S5包含以下过程:无线资源管理器将当前网络状态向量输入算法网络结构G中,算法网络结构G为每个基站主体输出每个动作对应的回报值,选取最大的回报值对应的动作作为当前基站的分配策略,并执行。
作为优选,所述四元组个数p为32或者64。
作为优选,所述批梯度下降法为Adam,学习率为0.001。
与现有技术相比,本发明的有益效果是:
(1)本发明利用图注意力机制对状态向量进行预处理,在通信条件有限的情况下,加强了基站之间的协同合作。通过网络训练,获取周围基站对当前基站的影响权重,增大有效变量的正面影响,减少噪声带来的负面影响,增强系统的鲁棒性。
(2)本发明利用深度强化学习方法对状态动作值函数进行估计,选择最优的资源分配策略,强化学习算法可以通过与环境交互产生训练所需要的样本数据,不需要任何经验假设以及对于状态动作函数分布的先验假设,可以适应更多更复杂的场景,有更好的灵活性。
(3)本发明得到通过多基站协同获得的无线资源分配策略相较于传统均分资源以及数值分析算法,能得到更高的系统回报值,即在保证基本的用户服务满意率的同时提高频谱资源利用率,从而提升用户体验。
附图说明
图1为本发明图注意力机制强化学习的多基站协同无线网络资源分配方法的流程图;
图2显示了当用下文实施例中具体参数时,本发明方法与DQN的资源分配算法以及平均分配方法的系统回报值在无线资源分配过程中的变化情况。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,下面结合附图详予说明。
参阅图1,为本发明基于图注意力机制强化学习的多基站协同无线网络资源分配方法的流程图,具体包括以下步骤:
S11、该方法的算法网络结构G包括状态向量编码网络(Embed)、图注意力机制网络(GAT)以及深度Q网络(DQN)三个部分。
S12、其中状态向量编码网络由两层全连接网络构成,记作
S13、将当前主体m及其在有向图中相邻节点上的主体经过编码后的向量和(其中表示当前主体m在有向图中的相邻节点上的主体集合,用欧式距离作为有向图构建的标准)作为图注意力机制网络的输入向量,用于计算注意力影响系数,并对注意力影响系数进行归一化处理,
将归一化后的注意力影响系数与输入向量相乘,通过公式(4)计算图注意力机制网络的第一层输出,多头注意力机制参数K的取值为2~20。
将以上计算注意力影响系数、归一化、计算输出等三个步骤用如下公式进行分装表示,
图注意力机制网络一共有两层,第二层的结构和第一层基本相同,用如下公式表示,
S2、执行资源分配,具体包括以下子步骤:
S21、无线资源管理器获取当前t时刻各个基站的网络状态向量,基站数量为M。无线资源管理器从(0,1)均匀分布中获取一个随机数,如果该随机数大于,则无线资源管理器为每一个基站随机选择一个有效的动作。如果随机数小于或者等于则无线资源管理器将输入步骤S1中的网络G,每个基站将会获得一个回报值最大的动作。执行动作,无线资源管理器将会接收到系统回报值,并观察到下一时刻的网络状态向量。初始值为0,每运行一步就会依据进行增加,其中取值为0.85~0.95,train_step是当前时刻训练步数,decay_step的取值为2000~4000。
从缓存区F中选取p个四元组作为训练样本,p取32或者64。将样本中的p个网络状态向量组合成矩阵,并将其输入到步骤S1中构建的算法网络结构G中,得到p个状态下执行不同动作产生的回报值,分别选取对应的回报值,记作当前网络参数下预测到的回报值
G网络的损失函数为:
S5、步骤S3执行次后,的取值为1000~5000,完成算法网络结构G的训练过程。无线资源管理器将当前网络状态向量输入算法网络结构G中,算法网络结构G输出为每个基站主体输出每个动作对应的回报值,选取最大的回报值对应的动作作为当前基站的分配策略,并执行。
在配置如表1所示的服务器上,采用Python语言编写了仿真环境,用keras搭建网络框架,并以3种不同类型服务(通话、视频和超可靠低延时服务)为例进行测试。系统中共有19个基站,即M=19,呈蜂窝状排布,每个基站的总带宽为10M,分配的颗粒度设置为0.5M,所以总共有171种分配策略,即有效动作的数量为171。设置折扣因子为0.9,多头注意力系数K=8。此外,取值为0.95,decay_step的取值为2000。缓存区的大小为5000,的取值为2000,的取值为2000。训练算法网络结构G所使用的批梯度下降算法中的优化器为Adam,学习率均为0.001。其他参数情况如下:
表1系统测试平台参数
将本发明的方法与基于DQN的资源分配算法、均分法进行比较:图2显示了三种方法得到的系统回报值在无线资源分配过程中的变化,其中系统回报值表示的是19个基站的平均回报值。图中阴影部分表示实际每一次迭代的系统回报值,为便于分析,取每50步的中值绘制曲线。分析图中的曲线得出,在前4000步由于DQN网络和本发明均需要进行网络参数训练,导致回报值较均分法波动相对来说更大且中值回报更低。当网络训练结束,也就是4000步之后,DQN和本发明较均分法的系统回报值有明显提升,且本方法的更胜一筹,具有更好的系统稳定性以及更高的系统回报值。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。
Claims (10)
2.如权利要求1所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述步骤S1包含以下子步骤:
S11、将算法网络结构G分为状态向量编码网络Embed、图注意力机制网络GAT和深度Q网络DQN;
S12、其中状态向量编码网络Embed由多层全连接网络构成,记作
S13、将当前主体m及其在有向图中相邻节点上的主体经过编码后的向量和作为图注意力机制网络GAT的输入向量,计算注意力影响系数,并对注意力影响系数进行归一化处理,其中表示当前主体m在有向图中的相邻节点上的主体集合;将归一化后的注意力影响系数与输入向量相乘,计算图注意力机制网络GAT的第一层输出;将所述注意力影响系数、归一化处理、第一层输出进行分装表示,,所述图注意力机制网络GAT的第二层输出为;
S14、深度Q网络DQN是由多层全连接网络组成的,将通过上述两层图注意力机制网络GAT处理过后的输出向量作为深度Q网络DQN的输入,输出当前状态下执行不同动作的回报值,选取并执行回报最高的动作与环境交互;
4.如权利要求1所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述步骤S2包含以下子步骤:
S21、无线资源管理器获取当前t时刻各个基站的网络状态向量,基站数量为M,无线资源管理器从(0,1)均匀分布中获取一个随机数,若该随机数大于,则无线资源管理器为每一个基站随机选择一个有效的动作;若随机数小于或者等于则无线资源管理器将输入步骤S1中的网络G,每个基站将会获得一个回报值最大的动作;执行动作,无线资源管理器将会接收到系统回报值,并观察到下一时刻的网络状态向量;
5.如权利要求4所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述步骤S3包含以下过程:从缓存区F中选取p个四元组作为训练样本,将样本中的p个网络状态向量组合成矩阵,并将其输入到步骤S1中构建的算法网络结构G中,得到p个状态下执行不同动作产生的回报值,分别选取对应的回报值,记作当前网络参数下预测到的回报值,将样本中的p个网络状态向量组合成矩阵,并将其输入到步骤S1中构建的目标网络中,得到p个状态下执行不同动作产生的回报值,选取最大的回报值,记作,算法网络结构G的损失函数为:
8.如权利要求5所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述四元组个数p为32或者64。
9.如权利要求5所述的一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法,其特征在于:所述批梯度下降法为Adam,学习率为0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157176.8A CN112512070B (zh) | 2021-02-05 | 2021-02-05 | 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157176.8A CN112512070B (zh) | 2021-02-05 | 2021-02-05 | 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112512070A true CN112512070A (zh) | 2021-03-16 |
CN112512070B CN112512070B (zh) | 2021-05-11 |
Family
ID=74952582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110157176.8A Active CN112512070B (zh) | 2021-02-05 | 2021-02-05 | 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112512070B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283169A (zh) * | 2021-05-24 | 2021-08-20 | 北京理工大学 | 一种基于多头注意力异步强化学习的三维群体探索方法 |
CN113811009A (zh) * | 2021-09-24 | 2021-12-17 | 之江实验室 | 一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法 |
CN113965945A (zh) * | 2021-09-28 | 2022-01-21 | 北京工业大学 | 端到端网络切片的切换方法及系统 |
CN115660324A (zh) * | 2022-10-09 | 2023-01-31 | 浙江大学 | 基于图强化学习的电网多断面越限调控方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111182637A (zh) * | 2019-12-24 | 2020-05-19 | 浙江大学 | 一种基于生成对抗强化学习的无线网络资源分配方法 |
WO2020228796A1 (en) * | 2019-05-15 | 2020-11-19 | Huawei Technologies Co., Ltd. | Systems and methods for wireless signal configuration by a neural network |
CN112291793A (zh) * | 2020-12-29 | 2021-01-29 | 北京邮电大学 | 网络接入设备的资源分配方法和装置 |
-
2021
- 2021-02-05 CN CN202110157176.8A patent/CN112512070B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020228796A1 (en) * | 2019-05-15 | 2020-11-19 | Huawei Technologies Co., Ltd. | Systems and methods for wireless signal configuration by a neural network |
CN111182637A (zh) * | 2019-12-24 | 2020-05-19 | 浙江大学 | 一种基于生成对抗强化学习的无线网络资源分配方法 |
CN112291793A (zh) * | 2020-12-29 | 2021-01-29 | 北京邮电大学 | 网络接入设备的资源分配方法和装置 |
Non-Patent Citations (2)
Title |
---|
ZHIYONG LIU,ET AL.: "Deep Reinforcement Learning Based Dynamic Resource Allocation in 5G Ultra-Dense Networks", 《IEEE XPLORE》 * |
陈前斌,等: "基于深度强化学习的异构云无线接入网自适应无线资源分配算法", 《电子与信息学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283169A (zh) * | 2021-05-24 | 2021-08-20 | 北京理工大学 | 一种基于多头注意力异步强化学习的三维群体探索方法 |
CN113283169B (zh) * | 2021-05-24 | 2022-04-26 | 北京理工大学 | 一种基于多头注意力异步强化学习的三维群体探索方法 |
CN113811009A (zh) * | 2021-09-24 | 2021-12-17 | 之江实验室 | 一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法 |
CN113965945A (zh) * | 2021-09-28 | 2022-01-21 | 北京工业大学 | 端到端网络切片的切换方法及系统 |
CN115660324A (zh) * | 2022-10-09 | 2023-01-31 | 浙江大学 | 基于图强化学习的电网多断面越限调控方法和系统 |
CN115660324B (zh) * | 2022-10-09 | 2023-06-13 | 浙江大学 | 基于图强化学习的电网多断面越限调控方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112512070B (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112512070B (zh) | 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN113242568A (zh) | 一种不确定网络环境中的任务卸载和资源分配方法 | |
Tumuluru et al. | Channel status prediction for cognitive radio networks | |
CN112181666A (zh) | 一种基于边缘智能的设备评估和联邦学习重要性聚合方法、系统、设备和可读存储介质 | |
Wei et al. | Deep Q-Learning Based Computation Offloading Strategy for Mobile Edge Computing. | |
He et al. | Edge-aided computing and transmission scheduling for LTE-U-enabled IoT | |
CN113811009B (zh) | 一种基于时空特征提取的多基站网络资源智能分配方法 | |
Hossain et al. | A deep-tree-model-based radio resource distribution for 5G networks | |
Zhang et al. | Optimization of image transmission in cooperative semantic communication networks | |
Hudson et al. | QoS-aware placement of deep learning services on the edge with multiple service implementations | |
CN112860337B (zh) | 在多接入边缘计算中卸载依赖任务的方法及系统 | |
Yang et al. | Deep reinforcement learning based wireless network optimization: A comparative study | |
Eisen et al. | Large scale wireless power allocation with graph neural networks | |
CN114095940A (zh) | 混合接入认知无线网络切片资源分配方法及设备 | |
CN114885422A (zh) | 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法 | |
Asheralieva et al. | Optimizing age of information and security of the next-generation internet of everything systems | |
CN113590279A (zh) | 一种面向多核边缘计算服务器的任务调度和资源分配方法 | |
Hlophe et al. | AI meets CRNs: A prospective review on the application of deep architectures in spectrum management | |
Cui et al. | Multi-agent deep reinforcement learning-based interdependent computing for mobile edge computing-assisted robot teams | |
CN115696581A (zh) | 基于约束强化学习的无线网络资源分配方法 | |
CN116820621A (zh) | 一种基于图论和小样本近端策略优化的计算任务卸载方法 | |
Sun et al. | A resource allocation scheme for edge computing network in smart city based on attention mechanism | |
CN111813538B (zh) | 一种边缘计算资源分配方法 | |
CN114219074A (zh) | 一种按需动态调整的无线通信网络资源分配算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |