CN109474960A - 一种基于q学习的双连接流量分配方法 - Google Patents

一种基于q学习的双连接流量分配方法 Download PDF

Info

Publication number
CN109474960A
CN109474960A CN201811354642.6A CN201811354642A CN109474960A CN 109474960 A CN109474960 A CN 109474960A CN 201811354642 A CN201811354642 A CN 201811354642A CN 109474960 A CN109474960 A CN 109474960A
Authority
CN
China
Prior art keywords
base station
value
master
movement
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811354642.6A
Other languages
English (en)
Other versions
CN109474960B (zh
Inventor
陈美娟
管明锋
姚娟娟
谭琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201811354642.6A priority Critical patent/CN109474960B/zh
Publication of CN109474960A publication Critical patent/CN109474960A/zh
Application granted granted Critical
Publication of CN109474960B publication Critical patent/CN109474960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出了一种基于Q学习的双连接流量控制方法。该方法在用户同时和主、从基站连接的情况下,以数据传输的业务时延最小为目的,采用Q学习方法得到网络发送给用户的业务流量在两个网络间进行分配的最优策略。系统状态空间为三维数组S={sm,ss,sa},sm和ss分别代表主基站队列和从基站队列中包括正在接收的分组在内的所有分组的数目,sa代表到达流量的分组数目。动作集合定义为A,不同动作分别表示有多少分组分配给主基站和从基站。回报函数定义为两条支路时延差值的函数,差值越小回报函数越大。利用训练好的Q矩阵可以很容易从任意状态出发快速找到双连接的最佳流量分配策略,实现了多网络间系统资源的优化使用,达到了时延敏感业务的QOS要求。

Description

一种基于Q学习的双连接流量分配方法
技术领域
本发明涉及移动通信网络中的双连接技术领域,尤其是一种基于Q学习的双连接流量分配方法。
背景技术
双连接(DC,Dual-Connectivity)是3GPPRelease-12版本引入的重要技术。通过双连接技术,LTE宏基站和小基站可以利用现有的非理想回传(backhaul)接口实现载波聚合,从而为用户提供更高的速率,以及利用宏/微组网提高频谱效率和负载平衡。支持双连接的终端可以同时连接两个LTE基站,增加单用户的吞吐量。
在5G网络的部署过程中,5G小区既可以作为宏覆盖独立组网,也可以作为小站对现有的LTE网络进行覆盖和容量增强。无论采用哪种组网方式,双连接技术都可以用来实现LTE和5G系统的互连,从而提高整个移动网络系统的无线资源利用率,降低系统切换的时延,提高用户和系统性能。
3GPP Release-14在LTE双连接技术基础上,定义了LTE和5G的双连接技术。LTE/5G双连接是运营商实现LTE和5G融合组网、灵活部署场景的关键技术。在5G早期可以基于现有的LTE核心网实现快速部署,后期可以通过LTE和5G的联合组网来实现全面的网络覆盖,提高整个网络系统的无线资源利用率、降低系统切换时延以及提高用户和系统性能。
5G核心网的部署,一种可能的LTE和5G融合方式是将演进的LTE(eLTE,enhancedLTE)eNB连接到5G核心网上。这种场景下,根据MeNB是eLTE eNB还是5G gNB,3GPP定义了两种不同的LTE/5G双连接模式。一种模式是5G gNB作为MeNB,称为模式4/4a。另一种模式是以eLTE eNB作为MeNB,称为模式7/7a/7x。双连接模式7/7a/7x和双连接模式3/3a/3x在协议架构上很相似,区别在于核心网是5G核心网还是LTE核心网。
在LTE/5G双连接下,上行用户面数据总是通过MeNB来传输。作为MeNB的基站会建立一个分离式承载,用于下行用户面数据路由和转发,下行用户面数据路由和转发的工作由PDCP层完成。分离式承载下的PDCP层会决定将下行PDCP PDU发给本地的RLC层,还是通过回程接口转发给从基站。分离式承载下的PDCP层的数据路由和转发主要实现两个功能:一是时延估计和数据发送路径选择;二是流量控制。其目标是尽量让通过不同路径发送出去的PDU经历相同的时延,从而减少终端侧PDCP层的分组重排序来提升TCP性能。
3GPP仅仅对各种不同模式下的LTE/5G双连接的协议架构进行了定义,要真正实现LTE和5G双连接还有许多关键性技术需要突破,回程接口的流量控制就是需要解决的一个重要问题。
近年以来,强化学习在人工智能所充当的角色越来越重要了,很多研究机构和高校都采用强化学习实现高性能的系统。
强化学习(Reinforcement Learning,RL)可以从延迟的回报中获取最优的控制策略。一个可学习的智能体,它可以观察环境的状态并能做出一组动作改变这些状态,学习的任务是获得一个控制策略,以选择能达到目的的行为。RL因其自适应性和灵活性,被广泛地应用于机器人和自动控制领域,并被引入到解决移动通信网络的资源优化问题。
强化学习的基本原理是若智能体(Agent)的某个动作策略导致环境产生正的奖赏(强化信号),那么Agent以后采取这个动作策略的趋势便会加强,反之采取这个动作策略的趋势就会减弱,这和生理学中的条件反射原理是接近的。
基本的强化学习模型是由反映当前环境情况的状态集合S={s1,s2,…,sn},学习者可执行的动作集合S={a1,a2,…,an},回报函数(强化信号)r和学习者的策略π:S→A等基本要素构成。
Q学习是强化学习中最典型的一个算法。Q函数Q(s,a)表示在状态s下执行动作a,以及采取后续策略的折扣奖赏和的期望。该定义当前状态和动作的Q值包含了所有需要的信息,以确定在状态s下选择动作a时,将来会获得的折扣累积回报。Q值函数的学习是通过Q值迭代来完成的。每次迭代更新一个Q(s,a),为了能更新所有的Q(s,a),Agent需要不断地与环境交互。当Q值函数经过多次迭代后,所有的Q值都不再发生较大的变化时,即可认为Q值函数收敛,Q学习结束。它在每一次的迭代中,首先感知当前的环境状态s∈S,并查找相应的所有Q值,根据当前的策略π选择动作a作用于环境,a∈A;环境状态会由此变化为s′∈S,同时根据所执行动作的效果获得一个强化信号(称为“回报函数”)r(s,a);学习者便据此按照下式更新其策略,并进入下一次迭代:
其中,α为学习率,α∈[0,1)。随着t→∞,若每对(s,a)的Q值能够经历无穷多次更新,且α递减至0,则Qt(s,a)将以概率1收敛到最优值Q*(s,a)。如此循环下去,通过不断地“试错”学习,最终目标是找到每个状态的最佳策略π*(s)∈A,以最大化期望的长期累积回报。
此时,最优策略π*可以由下式得到。
在迭代时用到的是后继动作值函数中的最大值,跟当前选择动作的策略无关,因此Q学习被认为是离策略的算法,Q学习的收敛性并不依赖于动作空间的探索方法。
发明内容
发明目的:为解决移动通信网络中用户和主基站、从基站双连接的情况下,网络发送给一个用户的业务流量如何在两个网络间进行分配,从而实现在双连接同时传输的情况下业务时延最小的技术问题,本发明提出一种基于Q学习的双连接流量分配方法。
技术方案:本发明提出的技术方案为:一种基于Q学习的双连接流量分配方法,该方法在用户同时和主、从基站连接的情况下,以数据传输的业务时延最小为目的,采用Q学习方法得到网络发送给用户的业务流量在两个网络间进行分配的最优策略,包括步骤:
(1)参数设置:记主、从基站中可用资源块的数目分别为Nm和Ns,设置学习率α、折扣因子γ、动作选择的探索概率ε和迭代次数t;构建系统的状态空间S、动作集合A和回报函数r;状态空间S通过三维数组{sm,ss,sa}描述系统所有状态,其中,sm和ss分别表示已分配给主、从基站的分组的数目,sa代表待分配表示的分组的数目;动作集合A的表达式为A={a0,a1,a2…,an},a0,a1,a2…,an分别表示不同的分配方案,n为分配方案的总数;回报函数r的表达式为:Dm表示主基站支路时延,Ds表示从基站本身的时延,Db表示从基站回程链路的时延;
(2)初始化Q值表,使Q值表中的每一个元素Q(s,a)都为零或者随机值,s为系统的一个状态,s∈S;初始化α=α0、γ=γ0、ε=ε0;α0、γ0、ε0为符合系统要求的常数;
(3)获取系统当前状态s;根据当前时刻的系统的状态,采用探索概率ε,从动作集合中选取动作a并从Q值表中查找相应的Q值Q(s,a);
(4)执行动作a,计算执行动作a后获得的回报值rt(a);根据动作a执行的结果得到下一状态s′,从Q值表中找到状态s′的动作值函数的最大值maxQt(s',a'),a'∈A,a′为maxQt(s',a')对应的动作;
更新动作函数值为:
其中,t表示当前时刻,t+1表示下一时刻;
(5)步骤(4)结束后,更新α和γ,α和γ均为负指数函数,随时间增大逐渐减小;
(6)更新Q值表中相应的动作函数值;根据更新后的Q值表,找到状态s的动作值函数的最大值计算最优的Q值为:
(7)重复执行步骤(3)至(6),直至最优的Q值Q*(s,a)收敛,然后输出各个状态s的最优动作,即
进一步的,所述动作集合A中的各个分配方案的含义为:a0表示拒绝所有的分组在主、从基站之间分配;ai表示将n-i个分组分给主基站,将i-1个分组分给从基站,i=1,2,…,n。
进一步的,所述主基站支路时延Dm的计算方法为:
Dm=D1+D2
其中,y1=sm,y4=Nm,y7为执行动作a后分给主基站的分组数,μm为主基站资源块服务速率。
进一步的,所述从基站本身的时延Ds的计算方法为:
Ds=D3+D4
其中,y2=ss,y5=Ns,y8为执行动作a后分给从基站的分组数,μs为从基站资源块服务速率。
有益效果:与现有技术相比,本发明具有以下优势:
本发明将人工智能应用到双连接场景的流量控制问题,能够提高决策效率,可以最大程度提高主基站和从基站的资源利用率,同时实现了分流后的两条支路时延差最小化。是一种有效的网络资源分配方法。
附图说明
图1本发明系统模型图;
图2为回报函数的计算流程图;
图3为主基站支路延时的计算流程图;
图4为从基站支路延时的计算流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,基于Q学习的多连接流量控制问题解决方案有如下特点:
(1)问题建模:把双连接流量分配问题建模为两个M/M/n队列,n对应基站可用的资源块的数目。因此,主基站的队列为M/M/Nm,从基站的队列为M/M/Ns
(2)Q学习中状态空间的定义:根据每个队列中分数的数目和系统到来的突发分组数目,建立状态空间S,S通过三维数组{sm,ss,sa}描述系统所有状态,即每个状态s用一组三维数字表示;其中,sm和ss分别表示已分配给主、从基站的分组的数目,sa代表待分配表示的分组的数目。例如s={5,3,4}表示主基站队列有5个分组,从基站队列有3个分组,进入系统的分组有4个。
(3)Q学习中动作集合的定义:动作集合定义为A={0,1,2,...,n},不同动作分别表示有多少分组分配给主基站和从基站。n=sa+1,sa代表到达系统的分组数目。a=0表示拒绝所有的分组;a=1表示sa个分组全部分配给主基站;a=2表示sa-1个分组分配给主基站、1个分组分配给从基站;a=3表示sa-2个分组分配给主基站、2个分组分配给从基站;以此类推,a=n表示sa个分组全部分配给从基站。例如:sa=3,a=2,则分配2个分组给主基站,分配1个分组给从基站。
(4)Q学习中回报函数的定义:回报函数定义为主基站支路时延和从基站支路时延的函数。从基站支路的时延包括从基站本身的时延和回程链路的时延。设回报函数为r,符号Dm、Ds和Db分别表示主基站、从基站和回程链路的时延,则回报函数采用式(1)计算,为两个支路时延差的倒数。因此,时延差越小,则回报函数越大,保证了分流的结果使得两个支路的时延最接近,减少了终端对分组的排序时间。
(5)本发明中各支路时延的计算:主基站和从基站的时延由进入系统的最后一个分组的响应时间来决定,一个分组的响应时间包括排队时延和服务时延。设当前系统状态为S={y1,y2,y3},主基站系统的资源数为Nm=y4,从基站系统的资源数为Ns=y5。设动作y3分配给主基站的分组数为y7,分配给从基站的分组数为y8。则Dm(y1)=D1+D2,D1为等待时间,D2为服务时间。同理则Ds(y2)=D3+D4+Db,D3为等待时间,D4为服务时间。Dm和Ds的计算方法见图2、图3、图4所示:
主基站支路时延Dm的计算方法为:
Dm=D1+D2
其中,y1=sm,y4=Nm,y7为执行动作a后分给主基站的分组数,μm为主基站资源块服务速率。
从基站本身的时延Ds的计算方法为:
Ds=D3+D4
其中,y2=ss,y5=Ns,y8为执行动作a后分给从基站的分组数,μs为从基站资源块服务速率。
例如,设系统的Nm=8,Ns=3,队列长度N=8,当前系统状态为s={5,3,4}。若采取了动作a=2,则分配1个分组给从基站、分配3个分组给主基站,从而系统的下一状态为:sa=0,sm=8,ss=4。因此相关的时延分别为:Dm(5)~exp(1(μm)),Ds(3)~exp(1(3μs))+exp(1/(μs))。这两部分的时延均包括等待时间和服务时间,主基站因为系统资源数为8,则不没有等待时间,分组到来后直接服务,服务时间服从exp(1/(μm))分布;从基站因此资源数为3,分配来的分组需要等待前面3个分组服务结束后才能得到服务,因此从基站支路的等待时间服从exp(1/(3μs))分布、服务时间服从exp(1/(μs))分布。
(6)主基站系统和从基站系统中每个窗口的服务率用μm和μs表示,统一为μi,i∈{m,s}。μi采用式(2)计算。
式中,1/μ'是分组信息的平均长度,单位为比特/分组,Ci是链路i的容量或速率,单位为比特/秒。
(7)链路i的容量Ci可以采用香农公式计算,如式(3)所示。fi为该链路的频段宽度,不同系统(5G、4G)中链路的频带宽度可能会不一样。SINRi为该链路的信号干扰噪声比。如果主基站和各从基站的频率使用各不相同,则SINRi主要考虑信道增益。信道增益可以使用WINNER公式来计算,WINNER B1描述了城市中宏小区与小小区之间的信道模型,WINNER C2描述了城市中宏小区之间的信道模型。
Ci=filog2(1+SINRi),i∈{m,s} (3)
(8)基于Q学习的双连接流量分配方法步骤如下:
1)初始化Q(s,a)。初始化Q值表,可以令Q值表中每一个元素都为零或者是利用随机函数产生的值,设定初始学习率α和折扣因子γ,设定动作选择算法中的初始探索概率ε。初始概率的选择本实施例中采用Boltzmann搜索方法。
2)获取系统当前状态s。获取当前主基站队列中的分组数、从基站队列中的分组数和进入系统的分组数,从而判断系统当前所处的状态。
3)选择执行的动作a。
在每一个决策时刻,控制器根据当前系统状态采取一个动作使得系统变化到另外一个状态的概率值是确定的。设v(s1,s2)表示当前状态为s={s1,s2,j}时系统总的业务到达和离开率,则v(s1,s2)取值如式(4)所示,λ是业务到达速率。
v(s1,s2)=λ+min(sm,s1m+min(ss,s2s (4)
设Pss'(a)表示从状态s采取动作a后转移到状态s'的概率,则从状态s=(sm,ss,-)采取动作a后到达状态s'=(sm',ss',-)的概率如式(5)所示。
当系统总的到达和离开率给定后,给定当前状态S={sm,ss,sa}和采取的动作a,则状态转移表1所示:
表1状态转移表
4)观察动作集合A={0,1,2,...,n},根据当前时刻系统的状态,观察系统执行此动作后的动作函数值Qt(s,a),按式(4)给出Boltzmann搜索方法的概率来选择动作a,并执行该动作。该搜索方法中对状态-动作对的探索是由参数T控制的,T为温度系数,随迭代逐渐降为0。T越小,不同Q值导致的选择概率的差异就越大(Q值越大选择相应系统的概率就越高);T越大,动作的选择就越不受Q值影响,所有动作就会采取几乎相等的概率被选择。
5)获取回报(奖赏)r和下一时刻的系统状态s'。根据动作执行的结果,按照式(3)计算获得的当前回报值r,并找到下一状态的动作值函数的最大值根据式(7)更新Qt+1(s,a)。
6)系统参数更新。每轮迭代结束后,更新学习率和探索概率。为了满足Q学习的收敛性要求,可以设置它们以负指数规律随着学习的过程逐渐减少为0。
7)更新Q值表,最后找到最优的Q值。按式(8)计算,得到最优的Q值。
其中,为状态s的动作值函数的最大值;
重复执行步骤3)至6),直至最优的Q值Q*(s,a)收敛,然后输出各个状态s的最优动作,即
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于Q学习的双连接流量分配方法,其特征在于,该方法在用户同时和主、从基站连接的情况下,以数据传输的业务时延最小为目的,采用Q学习方法得到网络发送给用户的业务流量在两个网络间进行分配的最优策略,包括步骤:
(1)参数设置:记主、从基站中可用资源块的数目分别为Nm和Ns,设置学习率α、折扣因子γ、动作选择的探索概率ε和迭代次数t;构建系统的状态空间S、动作集合A和回报函数r;状态空间S通过三维数组{sm,ss,sa}描述系统所有状态,其中,sm和ss分别表示已分配给主、从基站的分组的数目,sa代表待分配表示的分组的数目;动作集合A的表达式为A={a0,a1,a2…,an},a0,a1,a2…,an分别表示不同的分配方案,n为分配方案的总数;回报函数r的表达式为:Dm表示主基站支路时延,Ds表示从基站本身的时延,Db表示从基站回程链路的时延;
(2)初始化Q值表,使Q值表中的每一个元素Q(s,a)都为零或者随机值,s为系统的一个状态,s∈S;初始化α=α0、γ=γ0、ε=ε0;α0、γ0、ε0为符合系统要求的常数;
(3)获取系统当前状态s;根据当前时刻的系统的状态,采用探索概率ε,从动作集合中选取动作a并从Q值表中查找相应的Q值Q(s,a);
(4)执行动作a,计算执行动作a后获得的回报值rt(a);根据动作a执行的结果得到下一状态s′,从Q值表中找到状态s′的动作值函数的最大值maxQt(s',a'),a'∈A,a′为maxQt(s',a')对应的动作;
更新动作函数值为:
其中,t表示当前时刻,t+1表示下一时刻;
(5)步骤(4)结束后,更新α和γ,α和γ均为负指数函数,随时间增大逐渐减小;
(6)更新Q值表中相应的动作函数值;根据更新后的Q值表,找到状态s的动作值函数的最大值计算最优的Q值为:
(7)重复执行步骤(3)至(6),直至最优的Q值Q*(s,a)收敛,然后输出各个状态s的最优动作,即
2.根据权利要求1所述的一种基于Q学习的双连接流量分配方法,其特征在于,所述动作集合A中的各个分配方案的含义为:a0表示拒绝所有的分组在主、从基站之间分配;ai表示将n-i个分组分给主基站,将i-1个分组分给从基站,i=1,2,…,n。
3.根据权利要求1所述的一种基于Q学习的双连接流量分配方法,其特征在于,所述主基站支路时延Dm的计算方法为:
Dm=D1+D2
其中,y1=sm,y4=Nm,y7为执行动作a后分给主基站的分组数,μm为主基站资源块服务速率。
4.根据权利要求3所述的一种基于Q学习的双连接流量分配方法,其特征在于,所述从基站本身的时延Ds的计算方法为:
Ds=D3+D4
其中,y2=ss,y5=Ns,y8为执行动作a后分给从基站的分组数,μs为从基站资源块服务速率。
CN201811354642.6A 2018-11-14 2018-11-14 一种基于q学习的双连接流量分配方法 Active CN109474960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811354642.6A CN109474960B (zh) 2018-11-14 2018-11-14 一种基于q学习的双连接流量分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811354642.6A CN109474960B (zh) 2018-11-14 2018-11-14 一种基于q学习的双连接流量分配方法

Publications (2)

Publication Number Publication Date
CN109474960A true CN109474960A (zh) 2019-03-15
CN109474960B CN109474960B (zh) 2022-04-29

Family

ID=65672761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811354642.6A Active CN109474960B (zh) 2018-11-14 2018-11-14 一种基于q学习的双连接流量分配方法

Country Status (1)

Country Link
CN (1) CN109474960B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110768906A (zh) * 2019-11-05 2020-02-07 重庆邮电大学 一种面向sdn网络基于q学习的节能路由方法
CN110958654A (zh) * 2019-10-17 2020-04-03 苏州大学 基于强化学习的lte-r切换参数选择方法
CN111311996A (zh) * 2020-03-27 2020-06-19 湖南有色金属职业技术学院 基于大数据的线上教育信息化教学系统
CN111736461A (zh) * 2020-06-30 2020-10-02 西安电子科技大学 基于q学习的无人机任务协同分配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102238631A (zh) * 2011-08-17 2011-11-09 南京邮电大学 基于强化学习的异构网络资源管理方法
WO2017091115A1 (en) * 2015-11-24 2017-06-01 Telefonaktiebolaget Lm Ericsson (Publ) Method and control node for configuring carrier aggregation for a wireless device
CN107690176A (zh) * 2017-09-30 2018-02-13 南京南瑞集团公司 一种基于q学习算法的网络选择方法
US20180049112A1 (en) * 2016-08-09 2018-02-15 Samsung Electronics Co., Ltd. Small cell discovery in a communication network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102238631A (zh) * 2011-08-17 2011-11-09 南京邮电大学 基于强化学习的异构网络资源管理方法
WO2017091115A1 (en) * 2015-11-24 2017-06-01 Telefonaktiebolaget Lm Ericsson (Publ) Method and control node for configuring carrier aggregation for a wireless device
US20180049112A1 (en) * 2016-08-09 2018-02-15 Samsung Electronics Co., Ltd. Small cell discovery in a communication network
CN107690176A (zh) * 2017-09-30 2018-02-13 南京南瑞集团公司 一种基于q学习算法的网络选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王倩等: "密集异构网络中基于强化学习的流量卸载算法", 《计算机研究与发展》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110958654A (zh) * 2019-10-17 2020-04-03 苏州大学 基于强化学习的lte-r切换参数选择方法
CN110958654B (zh) * 2019-10-17 2021-08-27 苏州大学 基于强化学习的lte-r切换参数选择方法
CN110768906A (zh) * 2019-11-05 2020-02-07 重庆邮电大学 一种面向sdn网络基于q学习的节能路由方法
CN110768906B (zh) * 2019-11-05 2022-08-30 重庆邮电大学 一种面向sdn网络基于q学习的节能路由方法
CN111311996A (zh) * 2020-03-27 2020-06-19 湖南有色金属职业技术学院 基于大数据的线上教育信息化教学系统
CN111736461A (zh) * 2020-06-30 2020-10-02 西安电子科技大学 基于q学习的无人机任务协同分配方法
CN111736461B (zh) * 2020-06-30 2021-05-04 西安电子科技大学 基于q学习的无人机任务协同分配方法

Also Published As

Publication number Publication date
CN109474960B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN109474960A (zh) 一种基于q学习的双连接流量分配方法
CN112737837B (zh) 一种高动态网络拓扑下无人机群带宽资源分配方法
CN110234127B (zh) 一种基于sdn的雾网络任务卸载方法
CN106936892A (zh) 一种自组织云多对多计算迁移方法及系统
CN107846714A (zh) 一种可见光通信与WiFi异构系统的切换方法及设备
CN110784366B (zh) Sdn中基于immac算法的交换机迁移方法
CN106789744A (zh) 基于融合网络虚拟化带有时延感知的高吞吐资源调度方法
Mehbodniya et al. A fuzzy extension of VIKOR for target network selection in heterogeneous wireless environments
Tang et al. Federated learning for intelligent transmission with space-air-ground integrated network (SAGIN) toward 6G
CN109451462A (zh) 一种基于半马尔科夫链的车载网络频谱资源分配方法
Murudkar et al. Optimal-capacity, shortest path routing in self-organizing 5G networks using machine learning
Xu et al. Fuzzy Q-learning based vertical handoff control for vehicular heterogeneous wireless network
Liang et al. Particle swarm based service migration scheme in the edge computing environment
CN105657758A (zh) 一种基于Markov模型的多AP自适应切换方法
CN105813189B (zh) 一种蜂窝网中的d2d分布式功率优化方法
CN106604284A (zh) 一种异构网络资源分配方法和装置
Zhou et al. Joint multi-objective optimization for radio access network slicing using multi-agent deep reinforcement learning
Lotfi et al. Evolutionary deep reinforcement learning for dynamic slice management in O-RAN
Dai et al. Multi-objective intelligent handover in satellite-terrestrial integrated networks
CN105517120A (zh) 小基站开关的控制方法及装置
Mohanavel et al. Deep Reinforcement Learning for Energy Efficient Routing and Throughput Maximization in Various Networks
CN106028453A (zh) 基于排队论的无线虚拟网络资源跨层调度映射方法
Wang et al. Multi-access edge computing based vehicular network: Joint task scheduling and resource allocation strategy
Park et al. A learning-based distributed algorithm for scheduling in multi-hop wireless networks
WO2023226183A1 (zh) 一种基于多智能体协作的多基站排队式前导码分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant