CN112468265A - 基于强化学习的无线局域网调制编码自适应选择方法及无线设备 - Google Patents

基于强化学习的无线局域网调制编码自适应选择方法及无线设备 Download PDF

Info

Publication number
CN112468265A
CN112468265A CN202011250663.0A CN202011250663A CN112468265A CN 112468265 A CN112468265 A CN 112468265A CN 202011250663 A CN202011250663 A CN 202011250663A CN 112468265 A CN112468265 A CN 112468265A
Authority
CN
China
Prior art keywords
value
throughput
local area
area network
packet loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011250663.0A
Other languages
English (en)
Other versions
CN112468265B (zh
Inventor
王健
谢锐明
高博文
潘璠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202011250663.0A priority Critical patent/CN112468265B/zh
Publication of CN112468265A publication Critical patent/CN112468265A/zh
Application granted granted Critical
Publication of CN112468265B publication Critical patent/CN112468265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0002Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the transmission rate
    • H04L1/0003Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the transmission rate by switching between different modulation schemes

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出基于强化学习的无线局域网调制编码自适应选择方法及无线设备,该方法在无线设备内训练一张关于当前链路信噪比SNR和所有支持的MCS索引值的Q值表;在训练Q值表的过程中,无线设备根据学习策略在Q表中选择MCS索引值,并根据搭建的外部环境反馈的吞吐量和丢包率计算奖励值,通过更新策略更新Q表。最终训练完成的Q表可获得特定SNR下一定丢包率范围内吞吐量最大的MCS索引值,无线设备实时通过带宽测试得到无线局域网络的吞吐量和丢包率数据,然后自适应地从训练好的Q值表中选择预设丢包率范围内预计获得最大网络吞吐量的最优MCS索引值,并执行相应调制编码方案,保证了传输的可靠性和有效性,同时避免了抽样探测带来的网络性能浪费问题。

Description

基于强化学习的无线局域网调制编码自适应选择方法及无线 设备
技术领域
本发明涉及无线通信技术领域,具体涉及一种基于强化学习的无线局域网调制编码自适应选择方法及无线设备。
背景技术
IEEE802.11标准下的无线局域网(Wireless Local Area Network,WLAN)已成为解决家庭无线设备接入,中大型企业和商业设施网络部署的主要方式。在WLAN系统中,由于无线信道衰落的特征,为了保证传输的可靠性和有效性,无线接入点(Access Point,AP)通常会采用不同的调制编码(Modulation and Coding Scheme,MCS)方式以应对不同的信道状况。
IEEE802.11标准并没有定义不同调制编码方式间的选择方式,MCS的自适应算法主要由硬件厂商在设备驱动中定义。当前主流的MCS自适应算法包括Minstrel算法,ath9k算法和MiRA算法等。上述算法均采用了按一定顺序对设备支持的所有MCS索引值进行抽样探测,得到不同MCS下的吞吐量和丢包率,再进行门限值比较判别的方法来选择最优的MCS。在网络环境复杂,信道状况不稳定时,基于抽样的算法存在算法即时性不够的问题,同时其中的抽样过程对网络性能均会造成一定的浪费。
发明内容
发明目的:为克服现有的基于抽样的MCS自适应算法的不足,本发明提出一种基于Q学习的无线局域网调制编码自适应选择方法。
技术方案:强化学习(Reinforcement Learnmg,RL)是机器学习的一个分支,主要用于描述和解决智能体与环境的交互过程中通过一定的学习策略得到最大化的回报的问题,其不要求预先给定任何数据,而是通过智能体接收环境对所采取的动作反馈回的奖励值更新模型参数。相比于传统无线技术,强化学习方法可使得网络性能得到一定的提升。Q学习是强化学习算法中一种基于价值的算法。本发明基于Q学习原理设计了无线局域网调制编码自适应选择机制,并提出了一种基于强化学习的无线局域网调制编码自适应选择方法,该方法由无线设备实现,包括以下步骤:
(1)在无线设备内构建一张关于当前链路信噪比SNR和所有支持的MCS索引值的Q值表;所述Q值表的回报函数R(t)为:
Figure BDA0002769824150000021
其中,TP为通过带宽测试得到的无线局域网络的吞吐量,t表示时间节点;PLR为通过带宽测试得到的无线局域网的丢包率;m为序列窗口值,表示前m次带宽测试得到的吞吐量数据;k1,k2和k3为参数系数,用于调参以便R(t)在训练过程中的收敛;
Q值更新策略如下:
Figure BDA0002769824150000022
其中,s为当前信噪比和MCS状态;a为由当前MCS索引值切换为下一个MCS索引值的行为;α为学习效率;r为通过回报函数计算出的奖励值;γ为未来奖励的衰减系数;
(2)训练所述Q值表至R(t)收敛;
(3)无线设备实时通过带宽测试得到无线局域网络的吞吐量和丢包率数据,然后自适应地从训练好的Q值表中选择预设丢包率范围内预计获得最大网络吞吐量的最优MCS索引值,并执行相应调制编码方案。
进一步的,在训练所述Q值表之前,还搭建具备衰落特征并且信道衰落幅度随时间不断变化的无线信道作为外部环境,所述无线设备在外部环境中获得随时间变化的信噪比SNR,并不断进行带宽测试,每隔一段时间反馈当前网络吞吐量和丢包率数据。
进一步的,所述外部环境的搭建通过将处在一定移动状态的无线设备接入空气信道或将无线设备接入支持衰落调整的信道模拟器实现。
进一步的,训练所述Q值表的具体步骤为:
1)初始化Q值表中的Q值以及回报函数和Q值更新策略的参数系数;
2)根据决策系数从Q值表中选择奖励值最高的MCS索引值或随机选择MCS索引值;
3)根据步骤2)选择的MCS索引值进行数据发送;
4)外部环境反馈一定时间窗口内的网络吞吐量和丢包率数据;
5)根据反馈回的网络吞吐量和丢包率,结合本地记录的过去一段时间的吞吐量和丢包率序列,通过回报函数计算此次MCS选择行为的奖励值;
6)根据计算出的奖励值,通过Q值更新策略更新当前Q值表;
7)不断重复第2)至第6)步的过程,直至R(t)收敛。
本发明还提出一种无线设备,所述无线设备内置MCS自适应选择模块,以实现所述基于强化学习的无线局域网调制编码自适应选择方法的具体步骤。
有益效果:与现有技术相比,本发明具有以下优势:
相比于现行的基于抽样探测的MCS自适应算法,通过强化学习的Q学习算法,为无线AP在不同信道状况下自适应地选择一定丢包率范围内传输能力最大的调制编码方式,保证了传输的可靠性和有效性,同时避免了抽样探测带来的网络性能浪费问题,同时在一定程度上提高了MCS自适应切换的即时性,使得无线AP能够更好地适应信道状况复杂多变的网络环境。
附图说明
图1是实施例涉及的基于强化学习的无线局域网调制编码自适应选择方法的阶段流程图;
图2是实施例涉及的强化学习基本模型和原理图;
图3是实施例涉及的Q学习算法训练过程流程图
图4是实施例涉及的基于强化学习的无线局域网调制编码自适应选择方法的应用系统架构图。
具体实施方式
下面结合附图和具体实施例对本发明作更进一步的说明。
本实施例所涉及的基于强化学习的无线局域网调制编码自适应选择方法主要分为四个阶段:算法加入-环境搭建-模型训练-结果应用,附图1是基于强化学习的无线局域网调制编码自适应选择方法阶段流程图。
算法加入阶段:为WLAN中的无线设备加入基于强化学习的MCS自适应算法模块,并屏蔽设备原本的MCS选择算法,避免造成冲突;
环境搭建阶段:搭建本发明采用的强化学习的Q学习算法模型训练所需外部环境,并预设模型和算法参数;
模型训练阶段:对于训练设备开启训练模式,并基于外部环境和预设参数对Q学习算法模型进行训练;
结果应用阶段:将训练完成的模型导入应用设备中的MCS自适应算法训练模块,将算法实际应用于设备的MCS选择;
最后,用户可自行选择是否对于应用设备开启训练模式继续进行模型训练。
为了便于理解本实施例涉及的强化学习的Q学习算法相关技术,首先对强化学习和Q学习算法的技术原理进行简要描述。强化学习(Reinforcement Learning,RL)是机器学习的一个分支,主要用于描述和解决智能体与环境的交互过程中通过一定的学习策略得到最大化的回报的问题,属于马尔可夫决策过程(Markov Decision Process,MDP)。其不要求预先给定任何数据,而是通过智能体接收环境对所采取的动作反馈回的奖励值更新模型参数。
附图2是本实施例涉及的强化学习基本模型和原理图,如图2所示,智能体选择一个行为At,外部环境接收该行为后由状态St变成St+1,同时产生一个奖励值Rt+1反馈给智能体,而智能体根据反馈回的奖励值和当前状态,通过学习策略再次选择下一个行为At+1,策略的原则是使得下一个行为受到的奖励值增大。
Q学习算法是一种基于价值的强化学习分支算法,通过引进期望的延迟奖励,找到获得最大奖励的策略。Q学习算法的核心是建立并维护一张关于状态S和行为A的Q值表Q(st,at),智能体每一次行为都会根据一定的策略系数ε在Q表中选择奖励值最大的行为或是随机选择行为(即智能体有ε%的行为从Q值表中选择最高奖励值的行为,而(1-ε)%随机选择行为),再根据外部环境反馈的奖励值更新Q值表。
具体到本实施例,无线设备中加入的MCS自适应选择模块作为智能体,在其内部维护一张关于当前链路信噪比SNR和所有支持的MCS索引值的Q值表,Q值表在训练过程开始时被初始化为全0。无线设备所处的具备衰落特征,并且信道衰落幅度随时间不断变化的无线信道构成了本实施例的外部环境,无线设备在外部环境中获得随时间变化的信噪比SNR,并不断进行带宽测试,每隔一段时间反馈当前网络吞吐量和丢包率数据。外部环境的搭建可以通过将处在一定移动状态的无线设备接入空气信道或将无线设备接入支持衰落调整的信道模拟器实现。奖励值的计算由MCS自适应选择模块根据反馈回的吞吐量和丢包率数据,结合本地记录的过去一段时间的吞吐量和丢包率序列,通过回报函数计算完成。
本实施例采用的计算奖励值reward的回报函数R(t)定义如下:
Figure BDA0002769824150000051
其中,TP为测试软件反馈的吞吐量;PLR为反馈的丢包率;m为序列窗口值,表示前m次回报的吞吐量数据;k1,k2和k3为参数系数,用于调参以便R(t)在训练过程中的收敛。
本实施例采用的Q学习算法的Q值更新策略如下式所示:
Figure BDA0002769824150000052
其中,s为当前信噪比和MCS状态;a为由当前MCS索引值切换为下一个MCS索引值的行为;α为学习效率(为一个0~1之间的数);r为通过回报函数计算出的奖励值;γ为未来奖励的衰减系数,系数越大,算法越偏向于最近时刻的期望;下标t和t+1分别表示此轮状态/行为和下一轮状态/行为。
每一次Q值的更新,都由Q值表中预估奖励值最大的Q值乘上未来奖励衰减系数,加上计算出的奖励值再减去上一次的Q值,最后乘以学习效率再加上上一次的Q值来完成。Q表中的状态s和行为a都由矩阵形式存储,策略系数ε,学习效率d和未来奖励衰减系数γ都由用户预先设定,并可由用户自行调整更改,以面向不同信道状况的网络场景进行Q学习算法的调参。
本实施例涉及的基于强化学习的MCS自适应选择方法在实际应用前首先需在训练设备上进行算法的模型训练过程。附图3是本发明涉及的Q学习算法训练过程流程图。
如附图3所示,每一轮训练过程的步骤如下:
S1、首先对于训练设备开启训练模式,并初始化训练设备中的基于强化学习的MCS自适应选择算法模块维护的Q值表和Q值更新策略中的各个参数;
S2、MCS自适应选择模块根据决策系数,按ε的概率从Q表中选择最高奖励值的MCS索引值或是从Q表中随机选择MCS索引值;
S3、训练设备采用MCS自适应选择模块选择的MCS索引值,调用网卡驱动和物理层设备发送数据包;
S4、训练设备不断进行带宽测试,MCS自适应选择模块根据外部环境反馈回的网络吞吐量和丢包率数据,再结合本地记录的过去一段窗口时间的吞吐量和丢包率序列,通过回报函数R(t)计算此次MCS切换行为的奖励值r。在网络环境和信道状况变化不是非常频繁和剧烈的情况下,可以认为极短时间内的网络吞吐量和丢包率数据可以近似地表征当前时刻的网络信道状态。窗口值可由用户在在算法参数中手动设置;
S5、MCS自适应选择模块根据上一步计算出的奖励值,通过Q值更新策略更新当前Q表;
S6、训练设备内部将重复上述步骤,直至用户手动结束本轮训练过程。
附图4是本实施例涉及的基于强化学习的MCS自适应选择方法的应用系统架构图。如附图4所示,训练设备通过与外部环境的交互完成内部维护的Q学习算法的Q表的训练过程。
在一次训练完成后,将训练好的Q表从训练设备中导出,并导入实际应用的无线设备中的MCS自适应算法模块(在此之前需为应用设备加入本发明涉及的基于强化学习的MCS自适应算法模块,并屏蔽设备原本的MCS选择算法)。
优选的,本实施例还提出一种无线设备,所述无线设备内置MCS自适应选择模块,以实现所述基于强化学习的无线局域网调制编码自适应选择方法的具体步骤。
本实例提出的无线设备架构由用户程序,系统内核,网卡驱动和物理层设备等组成。实际数据收发应用中,基于强化学习的MCS自适应算法模块位于系统内核,默认不开启训练模式。算法模块接收网卡驱动和物理层设备提供的链路信噪比SNR信息,将自适应地从Q表中选择一定丢包率范围内预计获得最大网络吞吐量的最优MCS索引值,提供给系统内核中的数据收发模块进行数据发送。用户可在用户程序中对MCS自适应算法模块进行参数配置。
对于导入完成的应用设备,用户在用户程序中可自行配置决定是否再次开启训练模式,即进行在线训练过程。需注意,由于正常使用状态下无线设备不可能长时间保持以最大发送能力发送数据,外部环境反馈的吞吐量和丢包率不能准确表征当前网络信道状态,为了保证算法有效性,不推荐在应用设备中开启训练模式。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.基于强化学习的无线局域网调制编码自适应选择方法,该方法由无线设备实现,其特征在于,包括以下步骤:
(1)在无线设备内构建一张关于当前链路信噪比SNR和所有支持的MCS索引值的Q值表;所述Q值表的回报函数R(t)为:
Figure FDA0002769824140000011
其中,TP为通过带宽测试得到的无线局域网络的吞吐量,t表示时间节点;PLR为通过带宽测试得到的无线局域网的丢包率;m为序列窗口值,表示前m次带宽测试得到的吞吐量数据;k1,k2和k3为参数系数,用于调参以便R(t)在训练过程中的收敛;
Q值更新策略如下:
Figure FDA0002769824140000012
其中,s为当前信噪比和MCS状态;a为由当前MCS索引值切换为下一个MCS索引值的行为;α为学习效率;r为通过回报函数计算出的奖励值;γ为未来奖励的衰减系数;
(2)训练所述Q值表至R(t)收敛;
(3)无线设备实时通过带宽测试得到无线局域网络的吞吐量和丢包率数据,然后自适应地从训练好的Q值表中选择预设丢包率范围内预计获得最大网络吞吐量的最优MCS索引值,并执行相应调制编码方案。
2.根据权利要求1所述的基于强化学习的无线局域网调制编码自适应选择方法,其特征在于,在训练所述Q值表之前,还搭建具备衰落特征并且信道衰落幅度随时间不断变化的无线信道作为外部环境,所述无线设备在外部环境中获得随时间变化的信噪比SNR,并不断进行带宽测试,每隔一段时间反馈当前网络吞吐量和丢包率数据。
3.根据权利要求2所述的基于强化学习的无线局域网调制编码自适应选择方法,其特征在于,所述外部环境的搭建通过将处在一定移动状态的无线设备接入空气信道或将无线设备接入支持衰落调整的信道模拟器实现。
4.根据权利要求所述的基于强化学习的无线局域网调制编码自适应选择方法,其特征在于,训练所述Q值表的具体步骤为:
1)初始化Q值表中的Q值以及回报函数和Q值更新策略的参数系数;
2)根据决策系数从Q值表中选择奖励值最高的MCS索引值或随机选择MCS索引值;
3)根据步骤2)选择的MCS索引值进行数据发送;
4)外部环境反馈一定时间窗口内的网络吞吐量和丢包率数据;
5)根据反馈回的网络吞吐量和丢包率,结合本地记录的过去一段时间的吞吐量和丢包率序列,通过回报函数计算此次MCS选择行为的奖励值;
6)根据计算出的奖励值,通过Q值更新策略更新当前Q值表;
7)不断重复第2)至第6)步的过程,直至R(t)收敛。
5.一种无线设备,其特征在于,所述无线设备内置MCS自适应选择模块以实现权利要求1至4任意一项所述基于强化学习的无线局域网调制编码自适应选择方法的具体步骤。
CN202011250663.0A 2020-11-10 2020-11-10 基于强化学习的无线局域网调制编码自适应选择方法及无线设备 Active CN112468265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011250663.0A CN112468265B (zh) 2020-11-10 2020-11-10 基于强化学习的无线局域网调制编码自适应选择方法及无线设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011250663.0A CN112468265B (zh) 2020-11-10 2020-11-10 基于强化学习的无线局域网调制编码自适应选择方法及无线设备

Publications (2)

Publication Number Publication Date
CN112468265A true CN112468265A (zh) 2021-03-09
CN112468265B CN112468265B (zh) 2022-04-22

Family

ID=74826403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011250663.0A Active CN112468265B (zh) 2020-11-10 2020-11-10 基于强化学习的无线局域网调制编码自适应选择方法及无线设备

Country Status (1)

Country Link
CN (1) CN112468265B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115642967A (zh) * 2022-10-14 2023-01-24 中国科学技术大学 基于小样本信标帧的无线局域网吞吐量预测方法及系统
CN116074661A (zh) * 2022-12-22 2023-05-05 北京邮电大学 基于q学习的自适应路由方法及相关设备
CN116170354A (zh) * 2023-02-28 2023-05-26 重庆长安汽车股份有限公司 网络性能测试方法、装置、设备及介质
CN116506965A (zh) * 2023-06-20 2023-07-28 南方科技大学 一种多无人机通信资源分配方法及终端
WO2024152190A1 (en) * 2023-01-17 2024-07-25 Huawei Technologies Co., Ltd. System and method for spatial frequency reuse in wireless communication

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108462517A (zh) * 2018-03-06 2018-08-28 东南大学 一种基于机器学习的mimo链路自适应传输方法
CN110324116A (zh) * 2019-08-06 2019-10-11 青岛国海通讯科技有限公司 一种扩大水下通信节点吞吐量的方法
CN110519013A (zh) * 2019-08-30 2019-11-29 西安科技大学 一种基于强化学习的水声通信自适应调制方法
CN110581808A (zh) * 2019-08-22 2019-12-17 武汉大学 一种基于深度强化学习的拥塞控制方法及系统
CN111698789A (zh) * 2019-03-15 2020-09-22 华为技术有限公司 通信系统中的调度方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108462517A (zh) * 2018-03-06 2018-08-28 东南大学 一种基于机器学习的mimo链路自适应传输方法
CN111698789A (zh) * 2019-03-15 2020-09-22 华为技术有限公司 通信系统中的调度方法、装置及存储介质
CN110324116A (zh) * 2019-08-06 2019-10-11 青岛国海通讯科技有限公司 一种扩大水下通信节点吞吐量的方法
CN110581808A (zh) * 2019-08-22 2019-12-17 武汉大学 一种基于深度强化学习的拥塞控制方法及系统
CN110519013A (zh) * 2019-08-30 2019-11-29 西安科技大学 一种基于强化学习的水声通信自适应调制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MATEUS P. MOTA,等: "Adaptive Modulation and Coding Based on Reinforcement Learning for 5G Networks", 《2019 IEEE GLOBECOM WORKSHOPS (GC WKSHPS)》 *
李程坤: "基于强化学习的自适应调制编码技术的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王安义等: "基于SARSA算法的水声通信自适应调制", 《科学技术与工程》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115642967A (zh) * 2022-10-14 2023-01-24 中国科学技术大学 基于小样本信标帧的无线局域网吞吐量预测方法及系统
CN116074661A (zh) * 2022-12-22 2023-05-05 北京邮电大学 基于q学习的自适应路由方法及相关设备
CN116074661B (zh) * 2022-12-22 2023-08-22 北京邮电大学 基于q学习的自适应路由方法及相关设备
US11855689B1 (en) 2022-12-22 2023-12-26 Beijing University Of Posts And Telecommunications Routing method and related device
WO2024152190A1 (en) * 2023-01-17 2024-07-25 Huawei Technologies Co., Ltd. System and method for spatial frequency reuse in wireless communication
CN116170354A (zh) * 2023-02-28 2023-05-26 重庆长安汽车股份有限公司 网络性能测试方法、装置、设备及介质
CN116170354B (zh) * 2023-02-28 2024-05-14 重庆长安汽车股份有限公司 网络性能测试方法、装置、设备及介质
CN116506965A (zh) * 2023-06-20 2023-07-28 南方科技大学 一种多无人机通信资源分配方法及终端
CN116506965B (zh) * 2023-06-20 2023-09-19 南方科技大学 一种多无人机通信资源分配方法及终端

Also Published As

Publication number Publication date
CN112468265B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN112468265B (zh) 基于强化学习的无线局域网调制编码自适应选择方法及无线设备
CN110267338B (zh) 一种d2d通信中联合资源分配和功率控制方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
EP2578016B1 (en) Dynamic channel and transmission rate selection
De Bast et al. Deep reinforcement learning for dynamic network slicing in IEEE 802.11 networks
CN109348484B (zh) 一种多用户短波通信网络模型及信道探测方法
CN110336620B (zh) 一种基于mac层公平接入的ql-uacw退避方法
CN113438315B (zh) 基于双网络深度强化学习的物联网信息新鲜度优化方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN113423110A (zh) 基于深度强化学习的多用户多信道动态频谱接入方法
CN113795050A (zh) 一种基于Sum tree采样的深度双Q网络动态功率控制方法
CN109951239B (zh) 基于贝叶斯分类器的能量采集中继系统自适应调制方法
CN115315005A (zh) 一种短数据包通信条件下导频辅助的状态更新方法
CN113923743A (zh) 电力地下管廊的路由选择方法、装置、终端及存储介质
CN115426635B (zh) 一种不可靠传输场景下无人机通信网络推断方法及系统
Keshtiarast et al. ML Framework for Wireless MAC Protocol Design
CN111526527A (zh) 一种无线通信中性能切换与用户服务质量联合优化方法
CN115361734B (zh) 基于信息时效性的功率和irs相移联合优化方法及装置
CN115987406A (zh) 一种基于深度强化学习的水声通信链路自适应方法
CN111130715B (zh) 一种Lora无线网络及其参数优化、传输方法及装置
Chincoli et al. Predictive power control in wireless sensor networks
Zhao et al. Deep Reinforcement Learning for the Joint AoI and Throughput Optimization of the Random Access System
CN111835545B (zh) 一种网络的自适应配置方法和装置
CN113163426B (zh) 高密度ap分布场景gcn-ddpg无线局域网络参数调优方法和系统
CN115665867B (zh) 一种车联网的频谱管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant