CN114599116A - 一种非授权频段公平共存接入方法及系统 - Google Patents

一种非授权频段公平共存接入方法及系统 Download PDF

Info

Publication number
CN114599116A
CN114599116A CN202210197667.XA CN202210197667A CN114599116A CN 114599116 A CN114599116 A CN 114599116A CN 202210197667 A CN202210197667 A CN 202210197667A CN 114599116 A CN114599116 A CN 114599116A
Authority
CN
China
Prior art keywords
experience
action
updating
agent
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210197667.XA
Other languages
English (en)
Inventor
孙兴华
许浩维
詹文
王玺钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210197667.XA priority Critical patent/CN114599116A/zh
Publication of CN114599116A publication Critical patent/CN114599116A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0833Random access procedures, e.g. with 4-step access
    • H04W74/0841Random access procedures, e.g. with 4-step access with collision treatment
    • H04W74/085Random access procedures, e.g. with 4-step access with collision treatment collision avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种非授权频段公平共存接入方法及系统,该方法包括:将新接入非授权频段的节点定义为智能体,并进行网络初始化;智能体根据当前状态决策并执行动作,得到对应的经验;将经验存入经验池,并基于经验回放机制对智能体的深度Q网络进行训练更新;生成虚拟经验并对智能体进行训练更新;按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新;循环更新步骤。该系统包括:初始化模块、执行动作模块、第一更新模块、第二更新模块、第三更新模块和循环模块。通过使用本发明,能够使新接入非授权频段的节点根据环境调整接入策略,从而更加快速且平稳地实现在非授权频段中的公平共存。本发明可广泛应用于无线通信领域。

Description

一种非授权频段公平共存接入方法及系统
技术领域
本发明涉及无线通信领域,尤其涉及一种非授权频段公平共存接入方法及系统。
背景技术
在无线通信领域中,非授权频段作为授权频段的补充,允许4G、5G等蜂窝网络设备接入到非授权频段中进行传输。考虑到新接入节点需要与非授权频段中原本存在的其他MAC节点(如WiFi节点)共存,因此如何保证非授权频段中不同MAC节点之间的公平性接入成为了当前的一个研究热点。
目前基于数据驱动的无模型强化学习算法是解决多址接入问题的热门方法,但是受限于其边训练边执行的方式,数据量不足将导致算法收敛速度慢或者无法在有限时间内收敛到最优解。尤其是在当前以及未来的无线网络中,网络环境往往变化较快,同时网络中有着大量的数据传输,这就要求接入算法能够快速有效地收敛到最优接入策略。因此如何充分利用有限的真实数据,或者如何快速扩充智能体训练所需的数据样本,从而提高智能体的拟合速度,成为了目前急需解决的技术问题。
发明内容
为了解决上述技术问题,本发明的目的是提供一种非授权频段公平共存接入方法及系统,能够快速产生大量的虚拟数据,使智能体的收敛效果得到有效提升。
本发明所采用的第一技术方案是:一种非授权频段公平共存接入方法,包括以下步骤:
S1、将新接入非授权频段的节点定义为智能体,并进行网络初始化;
S2、智能体根据当前状态决策并执行动作,得到对应的经验;
S3、将经验存入经验池,并基于经验回放机制对智能体的深度Q网络进行训练更新;
S4、生成虚拟经验并对智能体进行训练更新;
S5、按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新;
S6、循环步骤S2-S5直至达到预设的迭代步数。
进一步,所述网络初始化包括智能体的深度Q网络初始化和虚拟多址接入环境模型的深度神经网络初始化,所述深度Q网络包括策略网络和目标网络,所述虚拟多址接入环境模型包括状态模型和奖励模型。
进一步,所述智能体根据当前状态决策并执行动作中决策策略的公式表示如下:
Figure BDA0003526549620000021
上式中,fα表示α公平性局部效用函数,1-∈表示选择一个当前策略下的最优动作的概率,∈表示选择一个随机动作的概率,N表示节点数量,Q(i)(st,a)表示节点i所对应的“状态-动作对”的价值,st表示环境状态,a表示动作,random action表示随机动作。
进一步,所述得到对应的经验的表达式如下:
et={ct,at,rt,ct+1}
上式中,et表示经验,ct表示在时间步t时的信道状态,at表示智能体选择的动作,rt表示智能体所获得的奖励,ct+1表示智能体在信道状态ct执行动作at后转移到的下一个信道状态。
进一步,深度Q网络的更新公式表示如下:
Figure BDA0003526549620000022
上式中,γ表示折扣因子,θ和θ-表示深度Q网络的参数,N表示节点数量,E表示经验池中经验样本,a′表示环境状态为st+1时智能体在当前策略下的最优动作。
进一步,所述生成虚拟经验并对智能体进行训练更新这一步骤,其具体包括:
基于虚拟多址接入环境模型从经验池中选择输入状态,并以对应动作的相反动作为输入动作,生成输出值,得到虚拟经验;
基于虚拟经验对智能体的深度Q网络进行训练更新。
进一步,所述按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新这一步骤,其具体包括:
按照预设时间间隔从经验池取出经验,以经验中的状态和动作作为输入,以对应下一个信道状态和奖励分别作为状态模型和奖励模型的标签,训练虚拟多址接入环境模型并更新神经网络参数。
本发明所采用的第二技术方案是:一种非授权频段公平共存接入系统,包括:
初始化模块,用于将新接入非授权频段的节点定义为智能体,并进行网络初始化;
执行动作模块,智能体根据当前状态决策并执行动作,得到对应的经验;
第一更新模块,用于将经验存入经验池,并基于经验回放机制对智能体的深度Q网络进行训练更新;
第二更新模块,用于生成虚拟经验并对智能体进行训练更新;
第三更新模块,用于按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新;
循环模块,用于执行循环步骤。
本发明方法及系统的有益效果是:本发明将基于模型的Dyna框架应用到无线通信领域来解决多址接入问题。通过搭建虚拟多址接入环境模型,使其可以产生大量虚拟经验辅助智能体的训练,解决了无模型深度强化学习算法中因为数据量缺乏而无法有效收敛的问题,同时在虚拟网络环境进行虚拟经验采样时,通过设计一定的采样策略,选择与智能体相反的动作,达到了帮助智能体进行状态空间探索的目的,也加快了智能体收敛的速度,使得本方案更加适用于对算法收敛延迟要求较高的无线通信场景。
附图说明
图1是本发明一种非授权频段公平共存接入方法的步骤流程图;
图2是本发明具体实施例方法框架图;
图3是本发明一种非授权频段公平共存接入系统的结构框图;
图4是本发明具体实施例通信场景示意图;
图5是本发明具体实施例智能体的深度Q网络结构图;
图6是本发明具体实施例虚拟多址接入环境模型中状态模型的DNN结构图;
图7是本发明具体实施例虚拟多址接入环境模型中奖励模型的DNN结构图;
图8是具体实施例仿真实验结果图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
图4为本发明所考虑的非授权频段多址接入系统,系统中包括运行于非授权频段的若干个WiFi节点,以及新接入该频段的其他通信节点。该通信场景的优化目标是达到系统中所有节点之间的α公平性接入。
参照图1和图2,本发明提供了一种非授权频段公平共存接入方法方法,使得新接入的其他通信节点应用这种算法(称为Dyna节点),与原有的WiFi节点达到α公平性共存,该方法包括以下步骤:
S1、将新接入非授权频段的节点视为智能体,与该频段中原有的WiFi节点竞争接入同一个信道,并初始化智能体的深度Q网络和虚拟多址接入环境模型的深度神经网络(DNN);
具体地,参照图5,搭建并初始化智能体的深度Q网络,包含一层长短期记忆网络(LSTM)层,一层全连接(FC)层以及输出层;参照图6和图7,搭建并初始化虚拟多址接入环境模型的DNN,其中状态模型和奖励模型的区别仅在于输出层的维度。
S2、智能体在每个时间步t决策自己的动作,即决策是否接入信道进行传输;
具体地,智能体根据使得所有N个节点的局部效用函数最大化的准则来选择动作,具体地可以选择∈-贪婪策略:
Figure BDA0003526549620000041
其中fα为α公平性局部效用函数,N表示节点数量,Q(i)(st,a)表示节点i所对应的“状态-动作对”的价值,st表示环境状态,a表示动作,random action表示随机动作。智能体以概率1-∈选择一个当前策略下的最优动作,而以概率∈选择一个随机动作,选择随机动作的意义是让智能体保持探索整个状态空间的能力,避免陷入局部最优解。
S3、智能体执行动作,并在执行动作后获取对应的经验et={ct,at,rt,ct+1},其中ct表示在时间步t时的信道状态,at表示智能体选择的动作,rt表示智能体所获得的奖励,ct+1表示智能体在信道状态ct执行动作at后转移到的下一个信道状态;
具体地,信道状态可以定义为ct={at-1,ot-1},其中at-1表示智能体的动作,包括进行传输或等待;ot-1表示智能体对于信道的观测结果,包括传输成功与否和信道空闲与否。奖励rt为一个向量,向量中的每一位对应网络中的每一个节点,当节点i在该时间步进行了一次成功传输,则rt i=1,否则rt i=0。
S4、将经验存入真实经验池,如果经验池容量已满则移出最早放入的一条数据,之后使用经验回放机制对智能体进行批量训练;
具体地,智能体可以采用如下损失函数,对深度Q网络以批量梯度下降方式进行参数更新:
Figure BDA0003526549620000042
其中,,γ表示折扣因子,θ和θ-表示深度Q网络的参数,N表示节点数量,E表示经验池中经验样本,a′表示环境状态为st+1时智能体在当前策略下的最优动作。θ每经过200次训练后,将θ-的值替换为最新的θ值。
S5、使用虚拟多址接入环境模型产生一批虚拟经验,同样对智能体进行批量训练;
具体地,虚拟多址接入环境模型首先从智能体的真实经验中随机选出一个批次的真实状态作为输入状态sτ;而将智能体在真实状态sτ所选动作的相反动作作为输入动作aτ,起到帮助智能体进行状态空间探索的作用。模型输入值sτ,aτ与输出值
Figure BDA0003526549620000051
一起构成了一个虚拟经验。通过不断随机选择输入状态和动作,得到输出状态和奖励,可以在短时间内得到大量的虚拟经历,从而与真实经验一起对智能体的深度Q网络进行批量训练。
S6,每隔一段固定时间,从真实经验池中取出批量真实经验对虚拟多址接入环境模型进行训练更新;
具体地,将真实经验中的状态sτ和动作aτ作为虚拟多址接入环境模型的输入,而下一个信道状态cτ+1和奖励rτ分别作为状态模型和奖励模型的标签,从而对两个模型中的神经网络参数按照如下损失函数进行批量梯度下降:
Figure BDA0003526549620000052
Figure BDA0003526549620000053
其中
Figure BDA0003526549620000054
Figure BDA0003526549620000055
分别表示状态模型和奖励模型的神经网络参数。
S7、重复步骤S2-S6,直到第100000个时隙结束。
具体地,通过循环迭代这些过程,智能体最终实现了与非授权频段中原有节点之间的公平共存。
S8、分别统计系统中WiFi节点和Dyna节点的吞吐量,以横轴表示时间,纵轴表示吞吐量,画出吞吐量随时间的变化情况。同时,作为对比,我们还进行了无模型的DRL节点与WiFi节点共存的实验,在其他条件均与Dyna节点相同的情况下,同样画出DRL节点和WiFi节点吞吐量随时间的变化曲线。
如图8所示,MF-DRL和MF-WiFi分别表示应用无模型的DRL算法时,DRL节点与WiFi节点的吞吐量;Dyna和Dyna-WiFi分别表示应用基于模型的深度Dyna-Q算法时,Dyna节点和WiFi节点的吞吐量;Benchmark表示理论上的最优吞吐量。通过图8我们可以看到深度Dyna-Q算法不仅收敛速度要快于无模型的DRL算法,而且其收敛效果也更优,曲线波动更平稳。
如图3所示,一种非授权频段公平共存接入系统,包括:
初始化模块,用于将新接入非授权频段的节点定义为智能体,并进行网络初始化;
执行动作模块,智能体根据当前状态决策并执行动作,得到对应的经验;
第一更新模块,用于将经验存入经验池,并基于经验回放机制对智能体的深度Q网络进行训练更新;
第二更新模块,用于生成虚拟经验并对智能体进行训练更新;
第三更新模块,用于按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新;
循环模块,用于执行循环步骤。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种非授权频段公平共存接入装置:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种非授权频段公平共存接入方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如上所述一种非授权频段公平共存接入方法。
上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种非授权频段公平共存接入方法,其特征在于,包括以下步骤:
S1、将新接入非授权频段的节点定义为智能体,并进行网络初始化;
S2、智能体根据当前状态决策并执行动作,得到对应的经验;
S3、将经验存入经验池,并基于经验回放机制对智能体的深度Q网络进行训练更新;
S4、生成虚拟经验并对智能体进行训练更新;
S5、按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新;
S6、循环步骤S2-S5直至达到预设的迭代步数。
2.根据权利要求1所述一种非授权频段公平共存接入方法,其特征在于,所述网络初始化包括智能体的深度Q网络初始化和虚拟多址接入环境模型的深度神经网络初始化,所述深度Q网络包括策略网络和目标网络,所述虚拟多址接入环境模型包括状态模型和奖励模型。
3.根据权利要求2所述一种非授权频段公平共存接入方法,其特征在于,所述智能体根据当前状态决策并执行动作中决策策略的公式表示如下:
Figure FDA0003526549610000011
上式中,fα表示α公平性局部效用函数,1-∈表示选择一个当前策略下的最优动作的概率,∈表示选择一个随机动作的概率,N表示节点数量,Q(i)(st,a)表示节点i所对应的“状态-动作对”的价值,st表示环境状态,a表示动作,random action表示随机动作。
4.根据权利要求3所述一种非授权频段公平共存接入方法,其特征在于,所述得到对应的经验的表达式如下:
et={ct,at,rt,ct+1}
上式中,et表示经验,ct表示在时间步t时的信道状态,at表示智能体选择的动作,rt表示智能体所获得的奖励,ct+1表示智能体在信道状态ct执行动作at后转移到的下一个信道状态。
5.根据权利要求4所述一种非授权频段公平共存接入方法,其特征在于,深度Q网络的更新公式表示如下:
Figure FDA0003526549610000012
上式中,γ表示折扣因子,θ和θ-表示深度Q网络的参数,N表示节点数量,E表示经验池中经验样本,a'表示环境状态为st+1时智能体在当前策略下的最优动作。
6.根据权利要求5所述一种非授权频段公平共存接入方法,其特征在于,所述生成虚拟经验并对智能体进行训练更新这一步骤,其具体包括:
基于虚拟多址接入环境模型从经验池中选择输入状态,并以经验池中对应动作的相反动作为输入动作,生成输出值,得到虚拟经验;
基于虚拟经验对智能体的深度Q网络进行训练更新。
7.根据权利要求6所述一种非授权频段公平共存接入,其特征在于,所述按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新这一步骤,其具体包括:
按照预设时间间隔从经验池取出经验,以经验中的状态和动作作为输入,以对应下一个信道状态和奖励分别作为状态模型和奖励模型的标签,训练虚拟多址接入环境模型并更新神经网络参数。
8.一种非授权频段公平共存接入系统,其特征在于,包括:
初始化模块,用于将新接入非授权频段的节点定义为智能体,并进行网络初始化;
执行动作模块,智能体根据当前状态决策并执行动作,得到对应的经验;
第一更新模块,用于将经验存入经验池,并基于经验回放机制对智能体的深度Q网络进行训练更新;
第二更新模块,用于生成虚拟经验并对智能体进行训练更新;
第三更新模块,用于按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新;
循环模块,用于执行循环步骤。
CN202210197667.XA 2022-03-01 2022-03-01 一种非授权频段公平共存接入方法及系统 Pending CN114599116A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210197667.XA CN114599116A (zh) 2022-03-01 2022-03-01 一种非授权频段公平共存接入方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210197667.XA CN114599116A (zh) 2022-03-01 2022-03-01 一种非授权频段公平共存接入方法及系统

Publications (1)

Publication Number Publication Date
CN114599116A true CN114599116A (zh) 2022-06-07

Family

ID=81807951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210197667.XA Pending CN114599116A (zh) 2022-03-01 2022-03-01 一种非授权频段公平共存接入方法及系统

Country Status (1)

Country Link
CN (1) CN114599116A (zh)

Similar Documents

Publication Publication Date Title
CN110168578B (zh) 具有任务特定路径的多任务神经网络
CN110691422B (zh) 一种基于深度强化学习的多信道智能接入方法
CN111726811B (zh) 一种用于认知无线网络的切片资源分配方法及系统
CN113098714B (zh) 基于强化学习的低时延网络切片方法
CN110809306A (zh) 一种基于深度强化学习的终端接入选择方法
CN110336620B (zh) 一种基于mac层公平接入的ql-uacw退避方法
CN114390057B (zh) Mec环境下基于强化学习的多接口自适应数据卸载方法
Jia et al. Lyapunov optimization based mobile edge computing for Internet of Vehicles systems
CN114375066B (zh) 一种基于多智能体强化学习的分布式信道竞争方法
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
CN116456493A (zh) 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
Chua et al. Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach
CN114840021A (zh) 一种无人机收集数据的轨迹规划方法、装置、设备及介质
CN114090108B (zh) 算力任务执行方法、装置、电子设备及存储介质
CN114449584B (zh) 基于深度强化学习的分布式计算卸载方法及装置
CN113613332B (zh) 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统
CN116938323B (zh) 一种基于强化学习的卫星转发器资源分配方法
Karras et al. Download speed optimization in p2p networks using decision making and adaptive learning
CN114599116A (zh) 一种非授权频段公平共存接入方法及系统
CN113890653B (zh) 面向多用户利益的多智能体强化学习功率分配方法
CN112445617B (zh) 一种基于移动边缘计算的负载策略选择方法及系统
CN114707636A (zh) 神经网络架构搜索方法、装置、电子设备及存储介质
Hmedoush et al. A regret minimization approach to frameless irregular repetition slotted aloha: Irsa-rm
Omland Deep Reinforcement Learning for Computation Offloading in Mobile Edge Computing
Xu et al. Optimal transmission strategy for multiple Markovian fading channels: Existence, structure, and approximation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination