CN112188539B - 一种基于深度强化学习的干扰抵消调度码设计方法 - Google Patents

一种基于深度强化学习的干扰抵消调度码设计方法 Download PDF

Info

Publication number
CN112188539B
CN112188539B CN202011076918.6A CN202011076918A CN112188539B CN 112188539 B CN112188539 B CN 112188539B CN 202011076918 A CN202011076918 A CN 202011076918A CN 112188539 B CN112188539 B CN 112188539B
Authority
CN
China
Prior art keywords
code
node
neural network
scheduling
scheduling code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011076918.6A
Other languages
English (en)
Other versions
CN112188539A (zh
Inventor
俞汉清
石泽
康雅洁
邵郁林
林艳
张一晋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202011076918.6A priority Critical patent/CN112188539B/zh
Publication of CN112188539A publication Critical patent/CN112188539A/zh
Application granted granted Critical
Publication of CN112188539B publication Critical patent/CN112188539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/20Control channels or signalling for resource management
    • H04W72/23Control channels or signalling for resource management in the downlink direction of a wireless link, i.e. towards a terminal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Noise Elimination (AREA)

Abstract

本发明公开了一种基于深度强化学习的干扰抵消调度码设计方法,包括初始化方法,调度码的构造方式,评价及奖励函数,神经网络的训练方式。本发明可以针对各种超帧长度、总用户数、最大活跃用户数的多址接入情形,设计相应码长、码字数和码强度的干扰抵消调度码,从而在物理层连续干扰消除技术下保障短时间内接入的超高可靠性。

Description

一种基于深度强化学习的干扰抵消调度码设计方法
技术领域
本发明属于无线通信技术领域,具体为一种基于深度强化学习的干扰抵消调度码设计方法。
背景技术
超高可靠低时延通信(Ultra-Reliable Low-Latency Communication,URLLC)作为5G系统的三大应用场景之一,广泛存在于工业控制、智能交通、远程医疗等各种行业。针对URLLC,3GPP R16制定了各用户无需进行接入请求和等待接入授权,而是直接选择通信单元进行信道接入的免授权接入机制。借助所设计的各用户调度码之间的特殊数学性质,确定性免授权接入可以用于保障短时间内的超高可靠性,因此能够有效应对5G超高可靠低时延通信这一重大挑战。近年来,针对物理层连续干扰消除技术提出的干扰抵消调度码成为确定性接入的研究热点,但其难以使用数学工具构造,也难以使用传统搜索算法获得。
发明内容
本发明旨在提供一种基于深度强化学习的干扰抵消调度码设计方法,可以获得以往算法难以搜索的干扰抵消调度码,摆脱数学工具的构造限制,同时也能优化通信网络的接入性能,保障短时间内的超高可靠性。实现本发明目的的技术方案为:基于深度强化学习的干扰抵消调度码设计方法,具体步骤为:
步骤1:初始化,设置调度码及算法的参数,所述参数包括:码长n(n≥1)、码字数N(N≥2)、码强度M(M≤N)、构造步长l(取值4~6)、更新周期G(取值100~400)、蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)模拟次数q(取值400~1600)、最大回合限制gmax(取值8000~20000);
步骤2:智能体基于MCTS与深度神经网络(Deep Neural Network,DNN)构造调度码
Figure GDA0003853301310000011
步骤3:根据评价及奖励函数计算奖励
Figure GDA0003853301310000012
步骤4:根据之前构造完成的
Figure GDA0003853301310000013
所有中间状态和最终状态、相应的MCTS输出π以及奖励
Figure GDA0003853301310000014
训练DNN;
步骤5:重复步骤2、步骤3和步骤4,直到超出最大回合限制gmax
本发明与现有技术相比,其显著优点为:通过本发明能够设计出不同参数下的干扰抵消调度码,能保障系统中用户通信的超高可靠性,比现有搜索方法更高效。
附图说明
图1示出了本发明的方法设计流程图。
图2示出了本发明设计的干扰抵消调度码的接入性能,其中n=11,N=23,M=4。
具体实施方式
标识用于确定性接入的构造完成的调度码为
Figure GDA00038533013100000220
包含N个长度为n的码字,即
Figure GDA0003853301310000021
标识
Figure GDA0003853301310000022
中的第i个码字为
Figure GDA0003853301310000023
对任意一个长为n的码字ci,定义其特征集为:
Figure GDA0003853301310000024
可见,
Figure GDA0003853301310000025
中共包含有nN个位置,每个位置可用0或1表示。另外,设定尚未构造的
Figure GDA0003853301310000026
全部位置取值为-1,需要在构造过程中不断将其取值为0或1。本发明提供了一种基于深度强化学习的干扰抵消调度码构造方法,在构造过程中按逐个码字逐个位置的顺序根据MCTS给出的概率分布π确定正在构造的
Figure GDA0003853301310000027
的每个位置的0或1取值(一次确定l个取值)。在本发明中,智能体将构造多个调度码
Figure GDA0003853301310000028
通过不断试错最终构造出满足要求的干扰抵消调度码。构造一个调度码
Figure GDA0003853301310000029
的过程称作一个回合,回合中确定l个位置取值称作一个时间步,可见,一个回合共包含了
Figure GDA00038533013100000210
个时间步。本方法的具体步骤如下:
步骤1:初始化,设置调度码及算法的参数,所述参数包括:码长n(n≥1)、码字数N(N≥2)、码强度M(M≤N)、构造步长l(取值4~6)、更新周期G(取值100~400)、蒙特卡洛树搜索模拟次数q(取值400~1600)、最大回合限制gmax(取值8000~20000);
步骤1-1:初始化神经网络参数θ,设置当前回合g=0;
步骤1-2:根据参数决定DNN结构。DNN的输入为一个n×N×3的矩阵,由三个特征平面组成。特征平面X1表示了正在构造的码
Figure GDA00038533013100000211
中1的位置,当ci[j]=1时,Xi(i,j)=1;否则Xi(i,j)=0。特征平面X2表示正在构造的码
Figure GDA00038533013100000212
中-1的位置,特征平面X3表示正在构造的码
Figure GDA00038533013100000213
中0的位置。DNN的输出是基于正在构造的码
Figure GDA00038533013100000214
和神经网络参数θ得到的奖励估计r'和概率分布P,记为(P,r′),其中P={P(j):j=0,1,2,...,2l-1}。
步骤2:智能体基于MCTS与DNN构造调度码
Figure GDA00038533013100000215
具体步骤如下:
步骤2-1:执行当前回合,开始构造一个码长n、码字数N的调度码
Figure GDA00038533013100000216
设置其所有位置的初始值为-1;
步骤2-2:智能体在当前回合的每个时间步通过MCTS确定下一步动作的概率分布π,并根据π执行下一步动作,即在
Figure GDA00038533013100000217
中确定l个位置的取值。若
Figure GDA00038533013100000218
中的所有-1都被0和1替换,则当前回合结束,即调度码
Figure GDA00038533013100000219
构造完成。通过MCTS确定下一步动作的概率分布π的具体步骤如下:
步骤2-2-1:构建一个搜索树,将
Figure GDA0003853301310000031
的当前状态作为该树的根节点,初始时搜索树只有该根节点。树中的每个中间节点都将有2l条边,每条边对应的Q值为:
Figure GDA0003853301310000032
其中vi是第i个节点,aj是第j个动作,(vi,aj)表示在节点vi执行动作aj所对应的边,W(vi,aj)是沿该边搜索获得的累计奖励,K(vi,aj)是该边的访问次数;
步骤2-2-2:执行q次步骤2-2-3到步骤2-2-5;
步骤2-2-3、节点选择:从根节点开始,根据(3)式不断选择要访问的边j*,沿着边j*访问下一个节点,直到未访问过的节点;
Figure GDA0003853301310000033
其中,cp是用于权衡探索与利用的常数,取值为0.5~2,P(vi,aj)为DNN输出P(j);
步骤2-2-4、节点扩展与评估:当访问到未访问过的节点vL时,使用DNN评估vL,获得DNN输出(PL,rL′),其中,PL={PL(j):j=0,1,2,...,2l-1}。将节点vL加入搜索树中,并初始化节点vL对应的所有边的数据,即令K(vL,aj)=0,W(vL,aj)=0,P(vL,aj)=PL(j),其中j=0,1,2,...,2l-1;
步骤2-2-5、更新:从vL开始,返回根节点,根据(4)式和(5)式更新路径上所有边的信息;
K(vi,aj)=K(vi,aj)+1 (4)
W(vi,aj)=W(vi,aj)+r′ (5)
步骤2-2-6:根据(6)式计算从根节点v0开始的下一步动作的概率分布π;
Figure GDA0003853301310000034
其中,τ是温度参数,在前三分之一的时间步中,τ=1;在之后的时间步中,τ=10-4
步骤3:根据评价及奖励函数计算奖励
Figure GDA0003853301310000035
步骤3-1:计算此回合构造完成的调度码
Figure GDA0003853301310000036
的评价函数
Figure GDA0003853301310000037
过程如下:
步骤3-1-1:设置迭代参数s=1,设置
Figure GDA0003853301310000038
的初始值为0;
步骤3-1-2:从
Figure GDA0003853301310000039
中取出s个码字的所有组合,即存在
Figure GDA00038533013100000310
个组合,每种组合中的元素为
Figure GDA00038533013100000311
步骤3-1-3:遍历每种组合,若式(7)在该组合中的码字
Figure GDA00038533013100000312
中不成立,则令
Figure GDA00038533013100000313
加一;
Figure GDA0003853301310000041
步骤3-1-4:设置s=s+1,若s≤M,返回步骤3-1-2;否则停止迭代,
Figure GDA0003853301310000042
计算完成;
步骤3-2:根据(8)式计算r(C):
Figure GDA00038533013100000415
其中mu是评价函数
Figure GDA0003853301310000045
的允许取值上限。开始训练时,将mu设置得较大,使
Figure GDA0003853301310000046
随着
Figure GDA0003853301310000047
增加的下降速率较小;随着训练的进行,将mu设置得较小,使
Figure GDA0003853301310000048
随着
Figure GDA0003853301310000049
增加的下降速率较大。按此不断增加此下降速率,可以有效地加速训练,从而更高效地获得干扰抵消调度码;
步骤3-3:存储此回合构造完成的
Figure GDA00038533013100000410
所有中间状态和最终状态、MCTS输出π以及
Figure GDA00038533013100000411
用于训练DNN;
步骤3-4:设置g=g+1,若g mod G=0,跳转至步骤4,反之跳转到步骤2-1构造下一个调度码。
步骤4:根据之前构造完成的
Figure GDA00038533013100000412
所有中间状态和最终状态、相应的MCTS输出π以及奖励
Figure GDA00038533013100000413
训练DNN;
步骤4-1:神经网络根据如式(9)所示损失函数更新参数θ。
Figure GDA00038533013100000414
步骤5:若g<gmax,跳转到步骤2-1进行下一个回合,否则构造结束。
实施例1
本发明采用Python和C++软件对所述方法进行实施,设置码长n=11,码字数N=23,码强度M=4,构造步长l=5,更新周期G=200,MCTS模拟次数q=800,最大回合限制gmax=10000,采用本发明可搜索出如下所示的干扰抵消调度码,其中的第i行代表码字ci
c1=0 0 1 1 0 0 0 1 0 0 1,
c2=1 1 0 0 0 1 0 0 0 0 0,
c3=0 0 1 0 0 1 1 1 0 0 0,
c4=0 0 0 0 1 0 0 1 0 0 0,
c5=0 0 0 0 0 0 0 1 1 1 0,
c6=0 0 0 1 1 0 1 1 0 1 1,
c7=1 0 0 0 1 1 1 0 1 1 0,
c8=1 0 0 1 1 0 1 0 0 0 0,
c9=0 0 0 0 0 0 0 0 0 1 0,
c10=0 1 0 0 0 1 1 0 1 0 1,
c11=0 0 1 0 1 0 0 0 1 1 0,
c12=1 0 0 1 0 0 1 0 0 1 0,
c13=0 1 0 0 1 0 1 0 0 0 1,
c14=1 1 0 0 0 1 1 1 0 0 0,
c15=1 1 0 1 0 0 1 0 1 0 0,
c16=0 1 1 0 1 0 0 1 0 0 1,
c17=0 0 1 0 0 1 0 0 1 0 0,
c18=1 0 0 1 0 0 0 0 0 0 0,
c19=0 0 0 0 0 0 1 0 0 0 1,
c20=1 0 0 0 0 0 0 0 0 0 0,
c21=0 0 0 0 0 0 0 0 0 0 1,
c22=0 0 0 0 0 1 0 0 0 1 0,
c23=0 0 1 1 0 0 0 0 0 0 0。
仿真场景考虑无线网络中存在23个用户需要向可以使用干扰抵消技术对数据包进行迭代解码的中央基站发送数据。将上述干扰抵消调度码的码字ci分配给用户i。信道时间划分为若干个超帧,每个超帧由11个时隙组成。每个用户与中央基站均能够保持时钟同步,在每个超帧的开始时刻服从泊松到达过程产生一个占时为1时隙的数据包的发送需求。如果一个用户在一个超帧开始时刻产生一个待发送数据包,则在此超帧的第t个时隙,当且仅当ci[t]=1,用户i重复发送此数据包。为了达到公平比较,假设随机接入要求用户在一个超帧内平均且独立地选择最优相同数目的时隙发送相同的数据包以达到最低传输失败率。对上述示例的干扰抵消调度码与随机接入的传输失败率进行比较,如图2所示,可见使用本发明设计的干扰抵消调度码可以在物理层干扰抵消技术下明显改善通信的可靠性。

Claims (1)

1.一种基于深度强化学习的干扰抵消调度码设计方法,其特征在于,具体步骤为:
步骤1:初始化,设置调度码及算法的参数,所述参数包括:码长n,n≥1、码字数N,N≥2、码强度M,M≤N、构造步长l,取值4~6、更新周期G,取值100~400、蒙特卡洛树搜索模拟次数q,取值400~1600、最大回合限制gmax,取值8000~20000;
步骤1-1:初始化神经网络参数θ,设置当前回合g=0;
步骤1-2:标识用于确定性接入的构造完成的调度码为
Figure FDA0003853301300000011
包含N个长度为n的码字,即
Figure FDA0003853301300000012
标识
Figure FDA0003853301300000013
中的第i个码字为
Figure FDA0003853301300000014
对任意一个长为n的码字ci,定义其特征集为:
Figure FDA0003853301300000015
其中,
Figure FDA0003853301300000016
步骤1-3:根据参数决定神经网络结构;神经网络的输入为一个n×N×3的矩阵,由三个特征平面组成;特征平面X1表示了正在构造的调度码
Figure FDA0003853301300000017
中1的位置,当ci[j]=1时,Xi(i,j)=1;否则Xi(i,j)=0;特征平面X2表示正在构造的调度码
Figure FDA0003853301300000018
中-1的位置,特征平面X3表示正在构造的调度码
Figure FDA0003853301300000019
中0的位置;神经网络的输出是基于正在构造的调度码
Figure FDA00038533013000000110
和神经网络参数θ得到的奖励估计r'和概率分布P,记为(P,r′),其中P={P(j):j=0,1,2,...,2l-1};
步骤2:智能体基于蒙特卡洛树搜索与深度神经网络构造调度码
Figure FDA00038533013000000111
步骤2-1:执行当前回合,开始构造一个码长n、码字数N的调度码
Figure FDA00038533013000000112
设置其所有位置的初始值为-1;
步骤2-2:智能体在当前回合的每个时间步通过蒙特卡洛树搜索确定下一步动作的概率分布π,并根据π执行下一步动作,即在
Figure FDA00038533013000000113
中确定l个位置的取值;若
Figure FDA00038533013000000114
中的所有-1都被0和1替换,则当前回合结束,即调度码
Figure FDA00038533013000000115
构造完成;通过蒙特卡洛树搜索确定下一步动作的概率分布π的具体步骤如下:
步骤2-2-1:构建一个搜索树,将
Figure FDA00038533013000000116
的当前状态作为该树的根节点,初始时搜索树只有该根节点;树中的每个中间节点都将有2l条边,每条边对应的Q值为
Figure FDA00038533013000000117
其中vi是第i个节点,aj是第j个动作,(vi,aj)表示在节点vi执行动作aj所对应的边,W(vi,aj)是沿该边搜索获得的累计奖励,K(vi,aj)是该边的访问次数;
步骤2-2-2:执行q次步骤2-2-3到步骤2-2-5;
步骤2-2-3:进行节点选择,从根节点开始,根据(3)式不断选择要访问的边j*,沿着边j*访问下一个节点,直到未访问过的节点;
Figure FDA0003853301300000021
其中,cp是用于权衡探索与利用的常数,取值为0.5~2,P(vi,aj)为神经网络输出P(j);
步骤2-2-4:对节点进行扩展与评估,当访问到未访问过的节点vL时,使用神经网络评估vL,获得神经网络输出(PL,r′L),其中,PL={PL(j):j=0,1,2,...,2l-1},r′L是当前状态的估计奖励;将节点vL加入搜索树中,并初始化节点vL对应的所有边的数据,即令K(vL,aj)=0,W(vL,aj)=0,P(vL,aj)=PL(j),其中j=0,1,2,...,2l-1;
步骤2-2-5:进行更新,从vL开始,返回根节点,根据(4)式和(5)式更新路径上所有边的信息;
K(vi,aj)=K(vi,aj)+1 (4)
W(vi,aj)=W(vi,aj)+r′ (5)
步骤2-2-6:根据(6)式计算从根节点v0开始的下一步动作的概率分布π;
Figure FDA0003853301300000022
其中,τ是温度参数,在前三分之一的时间步中,τ=1;在之后的时间步中,τ=10-4
步骤3:根据评价及奖励函数计算奖励
Figure FDA0003853301300000023
步骤3-1:计算此回合构造完成的调度码
Figure FDA0003853301300000024
的评价函数
Figure FDA0003853301300000025
过程如下:
步骤3-1-1:设置迭代参数s=1,设置
Figure FDA0003853301300000026
的初始值为0;
步骤3-1-2:从
Figure FDA0003853301300000027
中取出s个码字的所有组合,即存在
Figure FDA0003853301300000028
个组合,每种组合中的元素为
Figure FDA0003853301300000029
步骤3-1-3:遍历每种组合,若式(7)在该组合中的码字
Figure FDA00038533013000000210
中不成立,则令
Figure FDA00038533013000000211
加一;
Figure FDA00038533013000000212
步骤3-1-4:设置s=s+1,若s≤M,返回步骤3-1-2;否则停止迭代,
Figure FDA00038533013000000213
计算完成;
步骤3-2:根据(8)式计算
Figure FDA00038533013000000214
Figure FDA00038533013000000215
其中mu是评价函数
Figure FDA0003853301300000031
的允许取值上限;开始训练时,将mu设置得较大,使
Figure FDA0003853301300000032
随着
Figure FDA0003853301300000033
增加的下降速率较小;随着训练的进行,将mu设置得较小,使
Figure FDA0003853301300000034
随着
Figure FDA0003853301300000035
增加的下降速率较大;
步骤3-3:存储此回合构造完成的
Figure FDA00038533013000000310
所有中间状态和最终状态、蒙特卡洛树搜索输出π以及
Figure FDA0003853301300000036
用于训练神经网络;
步骤3-4:设置g=g+1,若g mod G=0,跳转至步骤4,否则跳转到步骤2-1构造下一个调度码;
步骤4:根据之前构造完成的
Figure FDA0003853301300000037
所有中间状态和最终状态、相应的蒙特卡洛树搜索输出π以及奖励
Figure FDA0003853301300000038
训练神经网络;根据式(9)所示损失函数更新神经网络参数θ
Figure FDA0003853301300000039
其中a是控制L2正则化的权重;
步骤5:重复步骤2、步骤3和步骤4,若g<gmax,跳转到步骤2-1,否则构造结束。
CN202011076918.6A 2020-10-10 2020-10-10 一种基于深度强化学习的干扰抵消调度码设计方法 Active CN112188539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011076918.6A CN112188539B (zh) 2020-10-10 2020-10-10 一种基于深度强化学习的干扰抵消调度码设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011076918.6A CN112188539B (zh) 2020-10-10 2020-10-10 一种基于深度强化学习的干扰抵消调度码设计方法

Publications (2)

Publication Number Publication Date
CN112188539A CN112188539A (zh) 2021-01-05
CN112188539B true CN112188539B (zh) 2022-11-11

Family

ID=73948049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011076918.6A Active CN112188539B (zh) 2020-10-10 2020-10-10 一种基于深度强化学习的干扰抵消调度码设计方法

Country Status (1)

Country Link
CN (1) CN112188539B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113766669B (zh) * 2021-11-10 2021-12-31 香港中文大学(深圳) 一种基于深度学习网络的大规模随机接入方法
CN114362773B (zh) * 2021-12-29 2022-12-06 西南交通大学 一种面向光学射频对消的实时自适应追踪决策方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110691422B (zh) * 2019-10-06 2021-07-13 湖北工业大学 一种基于深度强化学习的多信道智能接入方法
CN111182644B (zh) * 2019-12-24 2022-02-08 北京邮电大学 基于深度强化学习的联合重传urllc资源调度方法

Also Published As

Publication number Publication date
CN112188539A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112188539B (zh) 一种基于深度强化学习的干扰抵消调度码设计方法
CN111867139B (zh) 基于q学习的深度神经网络自适应退避策略实现方法及系统
Cui et al. A game-theoretic framework for medium access control
CN112491818B (zh) 基于多智能体深度强化学习的电网输电线路防御方法
CN113543176A (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
Yu et al. Asynchronous hybrid reinforcement learning for latency and reliability optimization in the metaverse over wireless communications
Hao et al. Efficient and robust emergence of norms through heuristic collective learning
CN116744311B (zh) 基于per-ddqn的用户组频谱接入方法
Li et al. GASTO: A fast adaptive graph learning framework for edge computing empowered task offloading
CN117098189A (zh) 一种基于gat混合动作多智能体强化学习的计算卸载和资源分配方法
CN114158105B (zh) 应用于综合能源系统的无线传感器网络的路由方法及装置
CN115134778A (zh) 一种基于多用户博弈与联邦学习的车联网计算卸载方法
CN112672359B (zh) 基于双向长短时记忆网络的动态频谱接入方法
CN114599115A (zh) 一种无人机自组织网络信道接入方法
KR102308799B1 (ko) 사물 인터넷 네트워크 환경에서 mac 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법, 이를 수행하기 위한 기록 매체 및 장치
Song et al. Analysis of EIED backoff algorithm for the IEEE 802.11 DCF
CN110505681B (zh) 基于遗传方法的非正交多址接入场景用户配对方法
Wu et al. Solving optimum TDMA broadcast scheduling in mobile ad hoc networks: a competent permutation genetic algorithm approach
CN109561129B (zh) 一种基于光纤-无线网络的协同计算卸载方法
Sharma et al. Feel-enhanced edge computing in energy constrained uav-aided iot networks
CN101335538A (zh) 一种扩频序列生成的方法和装置
Kabashima et al. A BP-based algorithm for performing Bayesian inference in large perceptron-type networks
Li et al. Dynamic multi-channel access in wireless system with deep reinforcement learning
Wang et al. Multi-granularity fusion resource allocation algorithm based on dual-attention deep reinforcement learning and lifelong learning architecture in heterogeneous IIoT
Horák et al. Dynamic programming for one-sided partially observable pursuit-evasion games

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant