CN115665878A - 一种基于强化学习的多智能体的空口频谱效率提升方法 - Google Patents

一种基于强化学习的多智能体的空口频谱效率提升方法 Download PDF

Info

Publication number
CN115665878A
CN115665878A CN202211271648.3A CN202211271648A CN115665878A CN 115665878 A CN115665878 A CN 115665878A CN 202211271648 A CN202211271648 A CN 202211271648A CN 115665878 A CN115665878 A CN 115665878A
Authority
CN
China
Prior art keywords
user
resource allocation
reinforcement learning
network
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211271648.3A
Other languages
English (en)
Inventor
禹航
衣龙腾
冯瑄
董赞扬
秦鹏飞
戚凯强
张程
周业军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Space Technology CAST
Original Assignee
China Academy of Space Technology CAST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Space Technology CAST filed Critical China Academy of Space Technology CAST
Priority to CN202211271648.3A priority Critical patent/CN115665878A/zh
Publication of CN115665878A publication Critical patent/CN115665878A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于强化学习的多智能体的空口频谱效率提升方法,涉及高通量通信系统技术领域,利用Transformer结构中的注意力机制解决基于深度强化学习的无线资源分配方案中存在的数据维度爆炸、样本效率低的问题。本发明中,通过采用深度强化学习技术,并结合Transformer结构中的注意力机制,可以挖掘和分析多用户蜂窝网络中用户位置分布的相关性与各个资源之间的分配关系,在一定程度上避免了同频干扰的产生,不仅实现系统频谱效率的提升,还解决了基于深度强化学习的资源分配方案中存在的数据维度爆炸、样本效率低的问题。

Description

一种基于强化学习的多智能体的空口频谱效率提升方法
技术领域
本发明涉及高通量通信系统技术领域,尤其涉及一种基于强化学习的多智能体的空口频谱效率提升方法。
背景技术
为避免相邻波束的干扰,传统的多波束卫星可利用四色定理来分配各个波束的频率范围,保证相邻波束不使用相同的频率,减小同频干扰。为了实现吉比特高通量卫星系统,最大化可用数据速率和频谱利用率,可采用全频率复用方案,但这种方案会带来严重的同频干扰问题。动态地进行资源分配被认为是干扰管理的有效途径。当前,在多波束卫星通信中主要存在以下资源分配方法:
(1)传统的基站级无线资源分配方法。该方法的中心思想是将小区划分为中心区域和边缘区域,并且将特定的无线资源分配给相应的区域。例如,软频率复用和部分频率复用方法通过调整副载波与主载波的功率门限比来更好地适应业务在小区内部和边缘的分布。这种方案虽然提高了小区边缘用户的吞吐量,但是在业务分布变化之后需要重新调整功率门限比值,难以适应动态的无线网络环境。
(2)传统的用户级无线资源分配方法,包括轮询算法、最大载干比算法和比例公平算法。轮询算法是一种追求公平最大化的算法,按照一定的顺序周期性地将资源分配给用户,该方法实现简单,但未考虑业务特性和用户优先级等因素;最大载干比算法是一种追求性能最大化的算法,在调度周期内把所有资源分配给信号质量最好的用户,该方法的资源利用率最高,但是完全没有考虑公平性因素;比例公平算法是轮询和最大载干比这两种算法之间的一种折衷,该方法综合考虑了公平性和系统性能,但是需要跟踪信道状态,算法复杂度较高。
(3)基于深度强化学习的无线资源分配方法。深度强化学习融合了深度学习的感知能力与强化学习的决策能力,解决了传统资源分配方法中存在的动态性与智能性不足的问题。深度强化学习技术将无线资源分配问题建模为智能体与无线网络环境之间的持续性动态交互,通过环境给予的反馈信息来学习无线环境的动力学知识,从而能够作出最优的资源分配决策。但是,该方法通常存在数据爆炸、数据需求量大等问题,所以在用户数较多、业务复杂的情况下难以发挥理想的效果。
虽然现有的无线资源分配方法可以在一定程度上避免干扰的产生进而提高了系统的频谱效率,但是依然存在一些不足之处:
(1)传统的资源分配方法优化过程的计算复杂度高,迭代算法所花费的时间长,动态性与智能性不足,无法适应动态的无线网络环境。
(2)基于深度强化学习的资源分配方法依赖于大量的交互数据,在大规模网络下可能引发维数诅咒和数据爆炸等问题。
本发明的目的是要解决基于深度强化学习的无线资源分配方案中存在的数据维度爆炸、样本效率低的问题。
发明内容
本发明的目的在于:为了解决上述问题,而提出的一种基于强化学习的多智能体的空口频谱效率提升方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于强化学习的多智能体的空口频谱效率提升方法,将多用户蜂窝网络中的资源分配问题建模为一个双序列决策过程,并采用深度强化学习工具结合Transformer加以解决,包括:
利用Transformer结构中的注意力机制挖掘用户位置分布的相关性与各个资源之间的分配关系,得到单个传输时间间隔内的多用户资源分配决策;
还包括:
利用深度强化学习中智能体与蜂窝网络环境之间的动态交互进行策略学习,得到连续多个传输时间间隔上的资源分配方案。
优选地,基于Transformer结构的深度强化学习的无线资源分配方法包括以下步骤:
S1:构建基于Transformer结构的深度强化学习的资源分配策略模型;
S2:智能体收集多用户蜂窝网络中的观测状态;
S3:将用户的多维请求信息映射为一维的用户标签;
S4:由用户标签所构成的用户序列被输入到Transformer网络中,输出各个资源块的分配决策;
S5:执行资源分配决策,并从多用户蜂窝网络中获取反馈的奖励信息;
S6:智能体评估当前环境状态与资源分配动作的价值;
S7:重复上述步骤S2至步骤S6,收集数据并计算优势;
S8:利用所收集的数据离线训练资源分配策略网络模型;
S9:对上述步骤S8中训练好的策略网络模型进行微调;
S10:基于后续时刻的状态输出最优的资源分配方案。
优选地,所述步骤S1中在中央控制器处构建基于Transformer结构的深度强化学习的资源分配策略模型,将在单个传输时间间隔内,搭建基于Transformer结构的资源分配模型;对于连续多个传输时间间隔来说,搭建基于深度强化学习的资源分配模型。
优选地,所述步骤S2中将中央控制器作为智能体,收集多用户蜂窝网络中的观测状态,主要包括各个用户的状态,各个资源块的状态以及各用户的请求信息,这些信息共同作为多用户蜂窝网络的状态,并表示为:
Figure BDA0003895179690000031
优选地,所述步骤S3中,从用户请求中选择部分信息作为影响资源分配效果的关键因素,并从中提取出用户标签,以避免资源分配问题陷入维数诅咒,用户的标签集合构成了用户序列,被输入到Transformer网络中。
优选地,所述步骤S4中基于Transformer网络生成资源分配动作:将用户标签集合输入到Transformer结构的编码器中,同时将资源分配的起始位输入到Transformer结构的解码器中,利用注意力机制来挖掘用户请求与资源分配之间的相关性,经过采样输出第一个资源的分配结果
Figure BDA0003895179690000041
然后,起始位联合
Figure BDA0003895179690000042
共同作为解码器的输入,得到第二个资源的分配结果
Figure BDA0003895179690000043
如此往复循环,直至得到所有资源块的分配情况,并将其表示为
Figure BDA0003895179690000044
Figure BDA0003895179690000045
优选地,所述步骤S5根据步骤S4给出的资源分配方案,用户在给定的资源块上以一定的功率传输数据,得到关于系统频谱效率与用户公平性的奖励信息为
Figure BDA0003895179690000046
其中,Ψt是系统的频谱效率,Ψmax是系统频谱效率的理论界值,而Γt代表用户的公平性,α1和α2分别是给予两者的权重系数。
优选地,所述步骤S6中基于Critic网络,评估所观测状态的价值为V(st),步骤S7中,收集多条{st,at,rt,V(st)}训练数据,并存到数据缓存中,同时可计算得到优势函数为
Figure BDA0003895179690000047
优选地,所述步骤S8中利用数据缓存中的训练数据,更新网络参数使得资源分配策略逐步收敛至最优,Actor网络和Critic网络的损失函数分别为:
Actor网络的损失函数为:
Figure BDA0003895179690000048
其中,θ1代表的是Actor网络的参数,ρt1)是新旧策略概率之比,clip(·)函数的具体形式为clip(ρt1),1-∈,1+∈);
Critic网络的损失函数为:
Figure BDA0003895179690000049
其中θ2代表的是Critic网络的参数。
优选地,所述步骤S9中将训练好的策略模型与多用户蜂窝网络继续进行交互,每隔一段时间,利用新收集的数据对资源分配策略模型进行在线微调,以保证得到实时最优的资源分配策略;步骤S10中央控制器收集后续时刻的状态信息,并输入到步骤S9中的策略模型中,得到最优的资源分配方案。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本申请将多小区多用户蜂窝网络中的资源分配问题建模为一个双序列决策过程,不仅考虑分配过程中的时序相关性,还分析了资源之间的分配相关性,在一定程度上避免了同频干扰现象的产生,同时能够加快资源分配策略模型的学习速度与收敛速度。
2、考虑分配过程中的时序相关性,本申请采用了深度强化学习技术将资源分配问题建模为马尔可夫过程决策过程,通过智能体与多用户蜂窝网络之间的交互与学习,增强了资源分配策略的智能性与远见性,实现了提升系统频谱效率的目标。
3、为了避免同频干扰的产生,本申请采用了一种用户序列到资源序列的Transformer结构,并利用其中的注意力机制分析用户位置分布的相关性与资源之间的分配关系,同时Transformer这种序列结构能够解决数据爆炸和维度诅咒问题,在一定程度上加强了资源分配策略模型的泛化能力。
附图说明
图1示出了根据本发明实施例提供的基于Transformer的深度强化学习的无线资源分配流程示意图;
图2示出了根据本发明实施例提供的基于Transformer的深度强化学习的无线资源分配方法示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:
一种基于强化学习的多智能体的空口频谱效率提升方法,将多用户蜂窝网络中的资源分配问题建模为一个双序列决策过程,并采用深度强化学习工具结合Transformer加以解决,包括:
利用Transformer结构中的注意力机制挖掘用户位置分布的相关性与各个资源之间的分配关系,得到单个传输时间间隔内的多用户资源分配决策;
还包括:
利用深度强化学习中智能体与蜂窝网络环境之间的动态交互进行策略学习,得到连续多个传输时间间隔上的资源分配方案。
具体的,如图1和图2所示,基于Transformer结构的深度强化学习的无线资源分配方法包括以下步骤:
S1:构建基于Transformer结构的深度强化学习的资源分配策略模型;
S2:智能体收集多用户蜂窝网络中的观测状态;
S3:将用户的多维请求信息映射为一维的用户标签;
S4:由用户标签所构成的用户序列被输入到Transformer网络中,输出各个资源块的分配决策;
S5:执行资源分配决策,并从多用户蜂窝网络中获取反馈的奖励信息;
S6:智能体评估当前环境状态与资源分配动作的价值;
S7:重复上述步骤S2至步骤S6,收集数据并计算优势;
S8:利用所收集的数据离线训练资源分配策略网络模型;
S9:对上述步骤S8中训练好的策略网络模型进行微调;
S10:基于后续时刻的状态输出最优的资源分配方案。
在多小区多用户蜂窝网络中,假设存在一个虚拟的中央控制器负责管理以下信息:
(1)多用户蜂窝网络中部署有B个基站,U个用户和C个资源块;
(2)用户有活跃/非活跃状态,资源有可用/不可用状态;
(3)同一小区中的用户被服务于正交资源块上,且每个用户可以占用多个资源,任何一个小区中的所有资源均可被相邻小区复用。
具体的,如图1和图2所示,步骤S1基于上述多用户蜂窝网络环境,在中央控制器处构建基于Transformer结构的深度强化学习的资源分配策略模型,将在单个传输时间间隔内,搭建基于Transformer结构的资源分配模型:主要由编码器和解码器两部分组成,编码器用来捕捉输入序列中用户之间的位置相关性,解码器用来表征输出序列中资源之间的分配关系,并且结合编码器生成的隐藏表示来预测可用资源的分配情况;对于连续多个传输时间间隔来说,搭建基于深度强化学习的资源分配模型:主要由Actor网络和Critic网络构成,Actor网络主要负责生成动作的概率分布,并依据此分布选择所执行的资源分配动作,Critic网络则基于Actor网络选择的行为进行评判并估计其价值;
步骤S2中将中央控制器作为智能体,收集多用户蜂窝网络中的观测状态,主要包括各个用户的状态,各个资源块的状态以及各用户的请求信息,请求信息包括:请求ID、用户标识、用户的所属基站、用户到基站的距离、传输时延、请求的队列长度、新到达的字节数、上个传输时间间隔已传输的字节数、平均吞吐量、资源块的需求量、宽带CQI和子带CQI。这些信息共同作为多用户蜂窝网络的状态,并表示为:
Figure BDA0003895179690000071
步骤S3中,从用户请求中选择部分信息作为影响资源分配效果的关键因素,例如选择用户的所属基站、用户到基站的距离、请求的队列长度、信道质量和传输时延,并从中提取出用户标签,以避免资源分配问题陷入维数诅咒,用户的标签集合构成了用户序列,被输入到Transformer网络中;
步骤S4中基于Transformer网络生成资源分配动作:将用户标签集合输入到Transformer结构的编码器中,同时将资源分配的起始位输入到Transformer结构的解码器中,利用注意力机制来挖掘用户请求与资源分配之间的相关性,经过采样输出第一个资源的分配结果
Figure BDA0003895179690000072
然后,起始位联合
Figure BDA0003895179690000073
共同作为解码器的输入,得到第二个资源的分配结果
Figure BDA0003895179690000074
如此往复循环,直至得到所有资源块的分配情况,并将其表示为
Figure BDA0003895179690000081
步骤S5根据步骤S4给出的资源分配方案,用户在给定的资源块上以一定的功率传输数据,得到关于系统频谱效率与用户公平性的奖励信息为
Figure BDA0003895179690000082
其中,Ψt是系统的频谱效率,Ψmax是系统频谱效率的理论界值,而Γt代表用户的公平性,α1和α2分别是给予两者的权重系数;
步骤S6中基于Critic网络,评估所观测状态的价值为V(st),步骤S7中智能体与多用户蜂窝网络之间进行多次交互,收集数据并计算优势,收集多条{st,at,rt,V(st)}训练数据,并存到数据缓存中,同时可计算得到优势函数为
Figure BDA0003895179690000083
步骤S8中利用数据缓存中的训练数据,更新网络参数使得资源分配策略逐步收敛至最优,Actor网络和Critic网络的损失函数分别为:
Actor网络的损失函数为:
Figure BDA0003895179690000084
其中,θ1代表的是Actor网络的参数,ρt1)是新旧策略概率之比,clip(·)函数的具体形式为clip(ρt1),1-∈,1+∈);
Critic网络的损失函数为:
Figure BDA0003895179690000085
其中θ2代表的是Critic网络的参数;
步骤S9中将训练好的策略模型与多用户蜂窝网络继续进行交互,每隔一段时间,利用新收集的数据对资源分配策略模型进行在线微调,以保证得到实时最优的资源分配策略;步骤S10中央控制器收集后续时刻的状态信息,并输入到步骤S9中的策略模型中,得到最优的资源分配方案。
本发明的关键环节是根据多用户资源分配这个双序列决策过程,构建基于Transformer结构的深度强化学习的资源分配策略模型,利用与多用户蜂窝网络环境之间的交互数据,通过离线训练与在线微调的方式进行最优资源分配策略的学习。
Transformer结构可替换为循环神经网络,两者均以序列数据为输入,在序列的演进方向进行递归,以表征输入与输出之间存在的关系;深度强化学习技术可替换为元学习技术,两者均通过收集数据获取经验或者知识,以完成特定的目标或者任务。
实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,将多用户蜂窝网络中的资源分配问题建模为一个双序列决策过程,并采用深度强化学习工具结合Transformer加以解决,包括:
利用Transformer结构中的注意力机制挖掘用户位置分布的相关性与各个资源之间的分配关系,得到单个传输时间间隔内的多用户资源分配决策;
还包括:
利用深度强化学习中智能体与蜂窝网络环境之间的动态交互进行策略学习,得到连续多个传输时间间隔上的资源分配方案。
2.根据权利要求1所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,基于Transformer结构的深度强化学习的无线资源分配方法包括以下步骤:
S1:构建基于Transformer结构的深度强化学习的资源分配策略模型;
S2:智能体收集多用户蜂窝网络中的观测状态;
S3:将用户的多维请求信息映射为一维的用户标签;
S4:由用户标签所构成的用户序列被输入到Transformer网络中,输出各个资源块的分配决策;
S5:执行资源分配决策,并从多用户蜂窝网络中获取反馈的奖励信息;
S6:智能体评估当前环境状态与资源分配动作的价值;
S7:重复上述步骤S2至步骤S6,收集数据并计算优势;
S8:利用所收集的数据离线训练资源分配策略网络模型;
S9:对上述步骤S8中训练好的策略网络模型进行微调;
S10:基于后续时刻的状态输出最优的资源分配方案。
3.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S1中在中央控制器处构建基于Transformer结构的深度强化学习的资源分配策略模型,将在单个传输时间间隔内,搭建基于Transformer结构的资源分配模型;对于连续多个传输时间间隔来说,搭建基于深度强化学习的资源分配模型。
4.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S2中将中央控制器作为智能体,收集多用户蜂窝网络中的观测状态,主要包括各个用户的状态,各个资源块的状态以及各用户的请求信息,这些信息共同作为多用户蜂窝网络的状态,并表示为:
Figure FDA0003895179680000021
5.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S3中,从用户请求中选择部分信息作为影响资源分配效果的关键因素,并从中提取出用户标签,以避免资源分配问题陷入维数诅咒,用户的标签集合构成了用户序列,被输入到Transformer网络中。
6.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S4中基于Transformer网络生成资源分配动作:将用户标签集合输入到Transformer结构的编码器中,同时将资源分配的起始位输入到Transformer结构的解码器中,利用注意力机制来挖掘用户请求与资源分配之间的相关性,经过采样输出第一个资源的分配结果
Figure FDA0003895179680000022
然后,起始位联合
Figure FDA0003895179680000023
共同作为解码器的输入,得到第二个资源的分配结果
Figure FDA0003895179680000024
如此往复循环,直至得到所有资源块的分配情况,并将其表示为
Figure FDA0003895179680000025
7.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S5根据步骤S4给出的资源分配方案,用户在给定的资源块上以一定的功率传输数据,得到关于系统频谱效率与用户公平性的奖励信息为
Figure FDA0003895179680000026
其中,Ψt是系统的频谱效率,Ψmax是系统频谱效率的理论界值,而Γt代表用户的公平性,α1和α2分别是给予两者的权重系数。
8.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S6中基于Critic网络,评估所观测状态的价值为V(st),步骤S7中,收集多条{st,at,rt,V(st)}训练数据,并存到数据缓存中,同时可计算得到优势函数为At=∑t′>tγt′-trt′-V(st)。
9.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S8中利用数据缓存中的训练数据,更新网络参数使得资源分配策略逐步收敛至最优,Actor网络和Critic网络的损失函数分别为:
Actor网络的损失函数为:
Figure FDA0003895179680000031
其中,θ1代表的是Actor网络的参数,ρt1)是新旧策略概率之比,clip(·)函数的具体形式为clip(ρt1),1-∈,1+∈);
Critic网络的损失函数为:
Figure FDA0003895179680000032
其中θ2代表的是Critic网络的参数。
10.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S9中将训练好的策略模型与多用户蜂窝网络继续进行交互,每隔一段时间,利用新收集的数据对资源分配策略模型进行在线微调,以保证得到实时最优的资源分配策略;步骤S10中央控制器收集后续时刻的状态信息,并输入到步骤S9中的策略模型中,得到最优的资源分配方案。
CN202211271648.3A 2022-10-18 2022-10-18 一种基于强化学习的多智能体的空口频谱效率提升方法 Pending CN115665878A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211271648.3A CN115665878A (zh) 2022-10-18 2022-10-18 一种基于强化学习的多智能体的空口频谱效率提升方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211271648.3A CN115665878A (zh) 2022-10-18 2022-10-18 一种基于强化学习的多智能体的空口频谱效率提升方法

Publications (1)

Publication Number Publication Date
CN115665878A true CN115665878A (zh) 2023-01-31

Family

ID=84988818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211271648.3A Pending CN115665878A (zh) 2022-10-18 2022-10-18 一种基于强化学习的多智能体的空口频谱效率提升方法

Country Status (1)

Country Link
CN (1) CN115665878A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117279019A (zh) * 2023-11-23 2023-12-22 深圳市大数据研究院 频谱效率的预测方法、装置、电子设备及存储介质
CN117875407A (zh) * 2024-03-11 2024-04-12 中国兵器装备集团自动化研究所有限公司 一种多模态持续学习方法、装置、设备及存储介质
CN118233312A (zh) * 2024-03-20 2024-06-21 同济大学 一种深度强化学习和转化器结合的自适应宽带资源分配方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117279019A (zh) * 2023-11-23 2023-12-22 深圳市大数据研究院 频谱效率的预测方法、装置、电子设备及存储介质
CN117279019B (zh) * 2023-11-23 2024-02-23 深圳市大数据研究院 频谱效率的预测方法、装置、电子设备及存储介质
CN117875407A (zh) * 2024-03-11 2024-04-12 中国兵器装备集团自动化研究所有限公司 一种多模态持续学习方法、装置、设备及存储介质
CN117875407B (zh) * 2024-03-11 2024-06-04 中国兵器装备集团自动化研究所有限公司 一种多模态持续学习方法、装置、设备及存储介质
CN118233312A (zh) * 2024-03-20 2024-06-21 同济大学 一种深度强化学习和转化器结合的自适应宽带资源分配方法

Similar Documents

Publication Publication Date Title
CN115665878A (zh) 一种基于强化学习的多智能体的空口频谱效率提升方法
US9077491B2 (en) Three layer cascade adaptive neural fuzzy inference system (ANFIS) based intelligent controller scheme and device
CN102098684B (zh) 认知无线网络中跨层资源分配系统及方法
CN110505644B (zh) 用户任务卸载与资源分配联合优化方法
CN113596785B (zh) 基于深度q网络的d2d-noma通信系统资源分配方法
CN112235836A (zh) 一种工业边缘网络系统架构和资源调度方法
CN105262521B (zh) 一种多波束卫星通信系统中的功率分配算法
CN107682935B (zh) 一种基于系统稳定性的无线自回传资源调度方法
CN110233755B (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
US11961409B1 (en) Air-ground joint trajectory planning and offloading scheduling method and system for distributed multiple objectives
CN112566261A (zh) 一种基于深度强化学习的上行noma资源分配方法
CN114650228A (zh) 一种异构网络中基于计算卸载的联邦学习调度方法
CN114980339A (zh) 基于可变时隙调度的c-v2x多业务下行资源分配方法
Ye et al. Learning-based computing task offloading for autonomous driving: A load balancing perspective
Salameh et al. Intelligent drone-base-station placement for improved revenue in b5g/6g systems under uncertain fluctuated demands
CN116261224A (zh) 一种无线网络资源分配方法及系统
CN113873658A (zh) 一种以用户服务权重增益为目标函数的跳波束资源分配方法
CN117715221B (zh) 基于超图的智能信息物理交通系统资源管理方法及系统
CN113316156B (zh) 免授权频段上的一种智能共存方法
US20240224063A1 (en) Determining allocation of unmanned aerial vehicle base stations in a wireless network
Mei et al. An energy consumption minimization optimization scheme for HAP-satellites edge computing
CN115915454A (zh) Swipt辅助的下行资源分配方法及装置
Kumar et al. Cooperative evolution of SVM-based resource allocation for 5G cloud-radio access network system with D2D communication
Li et al. Age of information optimization in UAV-enabled intelligent transportation system via deep reinforcement learning
Giannakas et al. Fast and accurate edge resource scaling for 5G/6G networks with distributed deep neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination