CN108966352B - 基于深度增强学习的动态波束调度方法 - Google Patents

基于深度增强学习的动态波束调度方法 Download PDF

Info

Publication number
CN108966352B
CN108966352B CN201810734324.6A CN201810734324A CN108966352B CN 108966352 B CN108966352 B CN 108966352B CN 201810734324 A CN201810734324 A CN 201810734324A CN 108966352 B CN108966352 B CN 108966352B
Authority
CN
China
Prior art keywords
network
matrix
value
state
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810734324.6A
Other languages
English (en)
Other versions
CN108966352A (zh
Inventor
胡欣
王艺鹏
李秀华
王卫东
刘帅军
张雨晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201810734324.6A priority Critical patent/CN108966352B/zh
Publication of CN108966352A publication Critical patent/CN108966352A/zh
Application granted granted Critical
Publication of CN108966352B publication Critical patent/CN108966352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/046Wireless resource allocation based on the type of the allocated resource the resource being in the space domain, e.g. beams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/12Wireless traffic scheduling
    • H04W72/1263Mapping of traffic onto schedule, e.g. scheduled allocation or multiplexing of flows

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明提供了一种基于深度增强学习的动态波束调度方法,属于多波束卫星通信系统领域。本方法首先将动态波束调度问题建模为马尔科夫决策过程,每个时隙的状态包括卫星缓存器中的数据矩阵、时延矩阵和信道容量矩阵,动作表示动态波束调度策略,目标是长期减小所有数据包的累计等待时延,然后利用深度增强学习算法求解最佳动作策略,建立CNN+DNN结构的Q网络,训练Q网络,利用训练好的Q网络来进行动作决策,获得最佳动作策略。本发明通过大量的自主学习,使得卫星根据此刻的环境状态直接输出当前的波束调度结果,长期最大化系统的综合性能,在保持系统吞吐量几乎不变的同时,大大减小数据包的传输等待时延。

Description

基于深度增强学习的动态波束调度方法
技术领域
本发明属于多波束卫星通信系统领域,涉及一种基于深度增强学习的动态波束调度方法。
背景技术
卫星通信系统作为对地面通信网络基础结构的一种补充,以其全球覆盖能力强、通信距离远、系统容量高、抗重大自然灾害能力强、可提供固定及移动通信业务等优点,受到了研究人员的重视及国家的支持。随着对其容量需求的不断增加以及频谱资源的持续消耗,多波束卫星通信系统被提了出来,它采用了多个高增益的窄波束共同覆盖较大的区域,能有效提高系统性能。然而,一个卫星提供的点波束越多,所需的发射机就越多,而配备星载发射机的代价是十分昂贵的,如一个需要覆盖美国的GEO(地球同步轨道,geostationaryearth orbit)卫星需要的波束个数多达5200个[1,2],这显然是不可能的。
对于上述问题,以时分复用的方式利用少量波束覆盖多个小区可以有效解决,但在每一时刻需要调度所有波束到指定小区,而不同的调度策略会影响数据传输时延、系统公平性及吞吐量等,因此,亟需一种动态波束调度技术提高系统的整体性能。针对多波束卫星通信系统中的动态波束调度问题,大多数研究者根据此刻的队长分布[3,4]或场景快照[5-9]进行动态波束调度,这些贪心类的算法均忽略了决策之间内在的相关性,得到的仅仅是当前时刻的最优结果,以至于系统吞吐量、传输时延及公平性等仍有很大的优化空间。
因而在多波束卫星通信系统中,动态波束调度应综合考虑信道容量大小、星上缓存分布、以及当前波束调度结果对后一种波束调度策略的影响等,如何准确建模这种相关性,并通过波束调度长期最大限度的提高系统性能,一直以来都是研究的难点。因此,多波束卫星通信系统的动态波束调度问题是处于复杂环境中的序贯决策问题。
参考文献如下:
[1]R.C.Johnson,Antenna Engineering Handbook,3rd ed.McGraw-Hill,1993.
[2]J.Goodman,Introduction to Fourier Optics,3rd ed.Roberts&Company,2005.
[3]Neely M J,Modiano E,Rohrs C E.Power and server allocation in amulti-beam satellite with time varying channels[C]//Joint Conference of theIEEE Computer and Communications Societies IEEE,2002:1451-1460vol.3.
[4]Neely M J,Modiano E,Rohrs C E.Power allocation and routing inmultibeam satellites with time-varying channels[J].IEEE/ACM Transactions onNetworking,2003,11(1):138-152.
[5]Choi J P,Chan V W S.Satellite multibeam allocation and congestioncontrol with delay constraints[C]//IEEE International Conference onCommunications,2004:3309-3315 Vol.6.
[6]Choi J P,Chan V W S.Resource management for advanced transmissionantenna satellites[J].IEEE Transactions on Wireless Communications,2009,8(3):1308-1321.
[7]Liu H,Yang Z,Cao Z.Max-Min Rate Control on Traffic in BroadbandMultibeam Satellite Communications Systems[J].IEEE Communications Letters,2013,17(7):1396-1399.
[8]Montesinos J,Besson O,Tournemine C L D.Adaptive beamforming forlarge arrays in satellite communications systems with dispersed coverage[J].Iet Communications,2011,5(3):350-361.
[9]Han H,Ying L,Ll K.An efficient beam scheduling policy in satellitecommunication system[C]//IEEE International Conference on Advanced InfocommTechnology,2015:245-251.
发明内容
本发明针对多波束卫星通信系统的动态波束调度问题,设计了一种基于深度增强学习的动态波束调度方法(Deep Reinforcement Learning Dynamic Beam Scheduling,DRL-DBS),它利用深度学习的感知能力及强化学习的决策特点,通过大量的自主学习,使得卫星根据此刻的环境状态直接输出当前的波束调度结果,长期最大化系统的综合性能,如吞吐量、数据传输时延和公平性。
本发明的一种基于深度增强学习的动态波束调度方法,实现步骤包括:
首先,将动态波束调度问题建模为马尔科夫决策过程,具体如下:
时隙t的状态st=(D,W,C);其中,D为对应时隙卫星缓存器中的数据矩阵,矩阵中的每行对应一个小区,对应小区请求的数据记录在对应的行中,矩阵中每个元素的取值代表数据长度;W为对应矩阵D的时延矩阵,矩阵W中元素的取值为矩阵D中对应数据的等待时延;C为信道容量矩阵;
时隙t的动作表示为at,表示在时隙t的动态波束调度策略;
状态st的奖励值rt,取值是将执行at后的状态的矩阵D和W对应元素相乘后再对矩阵中相乘后的所有元素累加得到;
目标是长期减小所有数据包的累计等待时延,表示为:找到一个最佳动作策略π*来最大化Q值,如下:
其中,为状态集合,为动作集合;γ是折扣因子,γ∈[0,1];π为一个动作策略。
然后,利用深度增强学习算法求解最佳动作策略π*,具体如下:
设计Q网络为CNN+DNN的结构,先利用卷积神经网络CNN提取数据矩阵D与时延矩阵W的特征,再利用深度神经网络DNN拟合出从输入状态到输出动作的Q值的函数;
训练Q网络:利用权值为θ的Q(s,a;θ)网络将输入状态映射到输出动作的Q值,在每个时隙生成一个由当前状态st,动作at,奖励值rt及下一个状态st+1组成的四元组存储到经验池U中;设计具有权值θ-的目标网络Q-(s,a;θ-),目标网络与Q网络结构相同,每G步从Q(s,a;θ)网络中拷贝所有参数;从经验池U中随机抽取一批数据,利用目标网络Q-计算出标签值后,通过随机梯度下降算法Adam训练Q网络;
利用训练好的Q网络来进行动作决策,获得最佳动作策略π*
所述的利用目标网络Q-计算出标签值yt,如下:
其中,at+1为时隙t+1的动作,st+1为时隙t+1的状态。
通过随机梯度下降算法Adam训练Q网络,目的是最小化损失函数L(θ),损失函数L(θ)采用最小均方误差计算,如下:
L(θ)=E[(yt-Q(st,at;θ))2]。
所述的训练Q网络时,还采用了ε-贪婪算法,在每个时隙以概率1-ε利用最大估计的Q值选择动作,以概率ε随机选择一个动作。
本发明与现有技术相比,具有以下明显优势:
(1)本发明适用于动态场景,能根据当前的实时环境做出具体的波束调度动作;
(2)本发明具有在线学习功能,能根据历史环境数据,不断学习并改进策略;
(3)本发明与现有其它方法相比,在保持系统吞吐量几乎不变的同时,大大减小数据包的传输等待时延。
附图说明
图1为本发明方法的应用场景示意图;
图2为卫星缓存器中存储的数据包随时隙变化的示意图;
图3为马尔科夫决策过程的模型示意图;
图4为本发明缓存器中存储的数据矩阵与时延矩阵示意图;
图5为本发明方法的整体实现示意图;
图6为本发明Q网络架构示意图;
图7为利用本发明方法的数据包平均等待时延的一个示意图;
图8为利用本发明方法的系统吞吐量的一个示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明作进一步的详细描述。
如图1,为本发明基于深度增强学习的动态波束调度方法的应用场景示意图,卫星提供K个波束,波束集合k为波束编号,K个波束的覆盖范围下有N个小区,小区集合n为小区编号,卫星通过快速切换K个波束,以时分复用的方式覆盖N个小区,其中K<N。
在每个时隙,所有小区向卫星请求数据包,这些数据包将存储在卫星缓存器上,然后通过动态波束调度方法将K个波束分配给相应的小区,并向这些小区发送数据包,之后缓存器中剩余的数据包将等待下一个时隙。如图2所示,为缓存器中存储的数据包随时隙的变化情况,为了便于描述与仿真验证,本发明实施例以4小区2波束为例来说明。在第一个时隙初,各小区请求数据包,存储在缓存器上;在第一个时隙末,根据当前信道容量与波束调度结果传输数据;在第二个时隙初,各小区请求数据包,存储在缓存器上;在第二个时隙末,根据当前信道容量与波束调度结果传输数据,如此往复循环。图2中的缓存器处对应的数字代表了数据的大小,例如6代表长度为6的数据包,同样,信道容量处标记的数据也为数据的大小,波束调度中对4个小区分别以0表示未给对应小区分配波束,以1表示给小区分配了波束。
由图2可知,当前时隙卫星缓存器的存储状态仅与上一时隙波束调度策略有关,而与上一时隙之前的时隙无关,因此该动态波束调度问题是典型的序贯决策问题,并具有马尔科夫性,此动态波束调度过程是一个马尔科夫决策过程。
如图3所示为马尔科夫决策过程模型。马尔科夫决策过程是指决策者周期地或连续地观察具有马尔科夫性的随机动态系统,序贯地作出决策,一般用五元组来描述,其中S表示有限个状态集合,S={s1,s2,…,st},t表示状态个数;表示有限个动作集合,p表示状态转移概率,如p(st+1|st,at)表示在状态st下,执行at动作后状态转移到st+1的概率;γ表示折扣因子,γ∈[0,1],γ越大表示当前决策对未来奖励的重视程度越大;r为奖励值,表示当前状态的优劣。决策者根据时隙t观察到的状态st∈S,从可用的动作集合中选出一个动作执行,马尔科夫性的随机动态系统根据状态转移概率p(st+1|st,at)转移到状态st+1,并获得奖励rt,决策者根据新的状态,再做出新的决策,依此反复地进行。
本发明将动态波束调度问题建模为马尔科夫决策过程,其状态、动作、奖励及目标的具体设计如下。
(1)状态S。状态是从环境中抽象出来的,有时也称为环境状态,可为智能体提供决策的依据,本发明中的智能体主要指卫星。对于动态波束调度,为了最小化数据等待时延,智能体需要获得缓存器中数据包的个数、对应数据包的等待时延以及信道容量等信息以做出决策。本发明实施例中将缓存器中存储的数据包抽象成数据矩阵并用将对应数据包的等待时延抽象成时延矩阵将图2中时隙3末缓存器中存储的数据包抽象成数据矩阵D与对应数据包的等待时延抽象成时延矩阵W的示例如图4所示。
数据矩阵D中,每行对应一个小区,对应小区请求的数据包记录在对应的行中,矩阵D中元素的取值数据代表数据包的长度,即请求的数据的大小。
如图4所示,将缓存器中存储的数据包抽象成4*20维的数据矩阵D,数据包的等待时延抽象成时延矩阵W;数据矩阵D记录从存入缓存器到当前时隙所有的数据包,时延矩阵W记录数据包从存入缓存器到当前时隙所等待的时隙总长,数据矩阵与时延矩阵点乘的结果即为当前时隙缓存器中所有数据包的累积等待时隙总长。在抽象为数据矩阵时,若列数超出20,则认为缓存器溢出,清零并重新开始。
信道容量矩阵为表示当前时隙的信道容量。因此状态st定义为公式(1)。
st=(D,W,C) (1)
其中,D为数据矩阵;W为时延矩阵;C为信道容量矩阵;st表示时隙t的状态。
(2)动作动态波束调度策略即为动作,因此动作集合定义为公式(2)。
其中,xn表示小区n分配到的波束,N为小区总数,xn=0表示小区n未分配到波束,反之,xn≠0表示小区n获得了波束。表示N个小区中有且仅有K个小区获得了波束,此即为动作集合at表示时隙t的动作,应满足
(3)奖励值r。为了使缓存器中所有的数据包均快速发送给各个小区,即所有数据包的累计等待时延最小,所以当智能体进行一次波束调度并传输数据后,如果缓存器中所有数据包的累计等待时延越小,获得的奖励应该越多,因此时隙t的状态st的奖励值rt定义为公式(3),如下:
rt=sum(sum(-D.*W)) (3)
其中,“.*”代表矩阵D和W的对应元素的数字相乘,得到一个结果矩阵,再通过两个sum表示将结果矩阵中所有元素累加。
(4)目标。动态波束调度的目标是长期减小所有数据包的累计等待时延,假设智能体在时隙t,观察环境状态st,然后根据某个动作策略π做出决策,并获得一系列奖励值rt,rt+1,rt+2,rt+3,……。如果智能体的目标是在一个时隙t内减小数据包的累计等待时延,那么直接选择一个动作以最大化(3)式中定义的即时奖励值rt即可,由于智能体的目标是长期减小所有数据包的累计等待时延,因此智能体需要找到一个最佳动作策略π*,以最大化长期累积奖励值,长期累积奖励值也称为Q值,如式(4)所示。
其中,π为动作策略;γ是折扣因子,γ∈[0,1];γ反映了智能体对未来奖励的重视程度:γ=0意味着智能体仅考虑即时奖励rt,γ接近1意味着智能体更有远见,更看重未来的奖励。代表求取期望,st=s,at=a,π表示当前时隙t的状态为s,在动作策略π下,执行动作a。智能体最终需要找到一个最佳动作策略π*来最大化Q值,即满足式(5)。
其中,π*为最佳动作策略。
本发明中利用深度增强学习算法可以有效解决序贯决策问题,它强大的深度神经网络可以近似拟合出从输入状态到输出Q值的函数,而不需要马尔科夫性的随机动态系统状态转移概率p,并有效避免了维数灾难问题。主要过程是将多波束卫星当作智能体,根据当前所处的环境,利用深度神经网络输出动作的Q值来做出最佳决策,能输出Q值的网络也称为Q网络。本发明提供的基于深度增强学习的动态波束调度方法整体如图5所示。
如图5所示,为DRL-DBS架构图,其中状态st,动作at以及奖励值rt,状态中的数据矩阵D与时延矩阵W类似于灰度图像的像素值矩阵,可充分利用卷积神经CNN网络进行特征提取。具有参数θ的Q(s,a;θ)网络负责将输入状态映射到输出动作的Q值,数值越大表示执行此动作的长期收益越大。具有参数θ-的目标网络Q-(s,a;θ-),与Q网络结构相同,且每G步从Q网络中拷贝所有参数。在每个时隙,Q网络生成一个由当前状态st,动作at,奖励值rt及下一个状态st+1组成的四元组,并将其存储到经验池U中,接着,从经验池U中随机抽取一批数据,利用目标网络Q-计算出标签值后,通过随机梯度下降算法Adam训练Q网络。
首先,说明本发明所使用的Q网络结构。由于输入状态被构建为像素值矩阵,因此将Q网络设计为CNN+DNN的结构,先利用CNN提取像素矩阵的特征,再利用深度神经网络DNN拟合出从输入状态到输出动作Q值的函数。如图6所示,为本发明实施例针对4小区2波束所设计的Q网络架构图,输入的数据矩阵D与时延矩阵W经过两层卷积层提取特征后,展开为全连接层,与信道容量矩阵C合并在一起,再经过三层全连接神经网络,最后输出动作Q值。其中每一层的具体参数如表1所示。
表1仿真参数设置
输入 卷积核尺寸,个数 滑动步距(s1,s2) 激活函数 输出
卷积层1 4*20*1 1*10*1,32个 1,2 ReLu 4*10*32
卷积层2 4*10*32 1*5*32,64个 1,2 ReLu 4*5*64
全连接层1 2564 ReLu 512
全连接层2 512 ReLu 64
全连接层3 64 ReLu 4
在实际应用中,根据实际的小区和波束设计合适的CNN和DNN,设计原理都是通过CNN对两个矩阵D和W进行特征提取,展开为全连接层与信道容量矩阵C合并一起,再经过深度神经网络,最后输出动作的Q值。
其次,说明对Q网络的训练。
当使用神经网络等非线性函数逼近器来表示从输入状态到输出动作Q值的函数时,由于训练序列中存在着相关性,且训练标签随着Q网络的更新而不稳定,导致传统的增强学习难以收敛甚至发散。为了解决这个问题,本发明采用了经验池U和目标网络Q-来提高Q网络的稳定性。
首先,在初始化阶段清空容量为Uep的经验池U,然后,在训练过程中,将新生成的四元组(st,at,rt,st+1)堆积到U中,一旦存储的四元组数量达到Ust,Ust表示初始训练数,开始训练Q网络。在训练期间,从U中随机采样大小为Umb的一批数据,用目标网络Q-计算标签值yt,并训练Q网络,损失函数L(θ)采用最小均方误差计算,具体见公式(6)。
L(θ)=E[(yt-Q(st,at;θ))2] (6)
其中,yt是标签值;L(θ)表示损失函数值;yt的计算公式为式(7),如下:
其中,Q(st,at;θ)表示Q(s,a;θ)网络在输入状态st和输出动作at的Q值;Q-(st+1,at+1;θ-)表示目标网络Q-(s,a;θ-)在输入状态st+1和输出动作at+1的Q值。
本发明采用随机梯度下降算法Adam对Q网络进行训练,以最小化损失函数L(θ)。在训练过程中,采用批量归一化(batch normal,BN)技术来降低数据离散程度以加速算法收敛。
理想情况下,智能体经过训练之后,它将输出最佳的Q值并采取相应的动作策略。然而,在实际中,由于智能体可能仅经历了有限的状态,而不是整个状态空间,所以对于未输入的状态,难以输出最佳的Q值,此外,状态空间本身可能会受环境影响不断变化,使当前估计的Q值失效。因此,智能体始终面临一个权衡的问题:是否“利用”已学习的Q值,可能不准确或者过时,并选择具有最大Q值的动作作为策略,或者“探索”其它可能的动作来改善Q值并最终改进策略。
针对上述问题,本发明采用一种简单而有效的权衡方法:ε-贪婪算法。按照这种算法,智能体在每个时隙,以概率1-ε“利用”最大估计的Q值选择动作,以概率ε“探索”新的动作,即随机选择一个动作。此外,随着迭代次数的增多,“利用”的效果会越来越好,相应的,在训练期间,从初始到最终线性的减少“探索”的概率。
最终本发明DRL-DBS的整体实现伪代码如表2所示。
表2 DRL-DBS
从上表中可得到本发明动态波束调度方法的实现流程包括:
步骤1,初始化:用随机权值θ初始化Q网络,设置权值θ-=θ,初始化Q-网络;初始化经验池U的容量为Uep,经验池U初始为空;初始化所需要的相关参数,包括:初始贪婪因子εi,终止贪婪因子εj,训练网络的周期数Nepochs,折扣因子γ,时隙数Ntimes,初始训练数量Ust,采样大小Umb,迭代步数G。
步骤2,设置循环周期episode初始为1。每执行一遍下面循环过程,循环周期episode的计数增1,直到循环Nepochs次停止。每轮循环过程包括下面步骤3~步骤8。
步骤3,设置本轮的贪婪因子ε=ε-(εij)/Nepochs;ε的初始值由用户设置。
步骤4,设置当前时隙t=1,继续步骤5;
步骤5,在时隙t,卫星观察当前状态st,以概率1-ε选择Q值最大的动作,或以概率ε随机选择动作,本发明实施例中以概率1-ε选择Q值最大的两小区作为动作at或以概率ε随机选择动作作为at。根据动作at进行数据传输,获得新的状态st+1。依据公式(3)计算状态st的即时奖励rt。将(st,at,rt,st+1)四元组存储到经验池U中,若经验池U的容量超过Uep,则丢弃最早的四元组。
步骤6,当循环周期episode满足条件:(episode-1)*Ntimes+t>Ust时,从经验池U中随机抽取Umb个样本,根据公式(7)计算标签值yt,根据公式(6)计算损失值L(θ),以Adam优化算法训练Q网络并更新参数θ。
步骤7,当mod(t,G)=0时,利用θ-=θ更新目标网络Q-
步骤8,更新当前时隙t的计数增1,若t>Ntimes,停止本轮循环,执行步骤9,否则继续转步骤5执行。
步骤9,更新循环周期episode的计数增1,若episode>Nepochs,停止循环,输出训练好的Q网络来进行动作决策;否则,继续转步骤3执行。
通过实验仿真验证DRL-DBS算法的有效性,以表明该算法确实在训练过程中学习到了有效减小数据传输时延的波束调度策略,从而减小流量拥塞并提高系统吞吐量,并且该算法在做出决策时是稳定的,即不在好的和坏的策略之间振荡。
如图7所示,为所有数据包在传输期间累计等待时延的平均值,从图中可以看出,随着智能体训练周期的增加,所有数据包累计等待时延的平均值迅速下降,最终减小到一个较小的值,这表明智能体确实通过DRL-DBS算法学习到了良好的调度策略。从图8的系统吞吐量图中也可以观察到类似的规律。图7与图8也显示出当训练周期达到约430次后,数据包时延与系统吞吐量均收敛到一个良好的值,表明利用本发明方法所选择的策略是稳定的,也说明了经验池与目标网络在有效的工作。
本发明在多波束卫星通信系统中提出了一种基于深度增强学习的动态波束调度方法,以减小数据传输总时延并提高系统公平性。本发明方法使用深度卷积神经CNN网络可以从卫星通信场景中自动提取有用特征,进而学习最优的动态波束调度策略,并通过经验池与目标网络提高动作决策的稳定性。仿真结果表明,本发明方法能提高系统吞吐量,减小数据传输时延,并且学习了一个公平的波束调度策略,使任何小区的数据传输时延都不会太大。

Claims (4)

1.一种基于深度增强学习的动态波束调度方法,其特征在于,包括:
首先,将动态波束调度问题建模为马尔科夫决策过程,具体如下:
时隙t的状态st=(D,W,C);其中,D为对应时隙卫星缓存器中的数据矩阵,矩阵中的每行对应一个小区,对应小区请求的数据记录在对应的行中,矩阵中每个元素的取值代表数据长度;W为对应矩阵D的时延矩阵,矩阵W中元素的取值为矩阵D中对应数据的等待时延;C为信道容量矩阵;
时隙t的动作表示为at,表示在时隙t的动态波束调度策略;
状态st的奖励值rt,是将状态st中矩阵D和W对应元素相乘后再对相乘后的所有元素累加得到;
目标是长期减小所有数据包的累计等待时延,表示为:找到一个最佳动作策略π*来最大化Q值,如下:
其中,为状态集合,为动作集合;γ是折扣因子,γ∈[0,1];π为一个动作策略;
然后,利用深度增强学习算法求解最佳动作策略π*,具体如下:
设计Q网络为CNN+DNN的结构,先利用卷积神经网络CNN提取数据矩阵D与时延矩阵W的特征,再利用深度神经网络DNN拟合出从输入状态到输出动作的Q值的函数;
训练Q网络:利用权值为θ的Q(s,a;θ)网络将输入状态映射到输出动作的Q值,在每个时隙生成一个由当前状态st,动作at,奖励值rt及下一个状态st+1组成的四元组存储到经验池U中;设计具有权值θ-的目标网络Q-(s,a;θ-),目标网络与Q网络结构相同,每G步从Q(s,a;θ)网络中拷贝所有参数;从经验池U中随机抽取一批数据,利用目标网络Q-计算出标签值yt,如下:
其中,at+1为时隙t+1的动作,st+1为时隙t+1的状态;
利用目标网络Q-计算出标签值后,通过随机梯度下降算法Adam训练Q网络;
利用训练好的Q网络来进行动作决策,获得最佳动作策略π*,实现步骤包括:
步骤1,初始化:用随机权值θ初始化Q网络,设置权值θ-=θ,初始化Q-网络;初始化经验池U的容量为Uep,经验池U初始为空;初始化所需要的相关参数,包括:初始贪婪因子εi,终止贪婪因子εj,训练网络的周期数Nepochs,折扣因子γ,时隙数Ntimes,初始训练数量Ust,采样大小Umb,迭代步数G;
步骤2,设置循环周期episode初始为1;
步骤3,设置本轮的贪婪因子ε=ε-(εij)/Nepochs
步骤4,设置当前时隙t=1,继续步骤5;
步骤5,在时隙t,卫星观察当前状态st,以概率1-ε选择Q值最大的动作at,或以概率ε随机选择动作at;根据动作at进行数据传输,获得新的状态st+1;计算状态st的即时奖励rt;将(st,at,rt,st+1)四元组存储到经验池U中,若经验池U的容量超过Uep,则丢弃最早的四元组;
步骤6,当循环周期episode满足条件:(episode-1)*Ntimes+t>Ust时,从经验池U中随机抽取Umb个样本,计算标签值yt和损失值L(θ),以Adam优化算法训练Q网络并更新参数θ;
步骤7,当mod(t,G)=0时,利用θ-=θ更新目标网络Q-
步骤8,更新当前时隙t的计数增1,若t>Ntimes,停止本轮循环,执行步骤9;否则继续转步骤5执行;
步骤9,更新循环周期episode的计数增1,若episode>Nepochs,停止循环,输出训练好的Q网络来进行动作决策;否则,继续转步骤3执行。
2.根据权利要求1所述的基于深度增强学习的动态波束调度方法,其特征在于,所述的Q网络中,通过CNN对矩阵D和W进行特征提取,然后展开为全连接层,再与信道容量矩阵C合并一起,再经过深度神经网络,最后输出动作的Q值。
3.根据权利要求1所述的基于深度增强学习的动态波束调度方法,其特征在于,所述的训练Q网络时,通过随机梯度下降算法Adam训练Q网络,目的是最小化损失函数L(θ),损失函数L(θ)采用最小均方误差计算,如下:
L(θ)=E[(yt-Q(st,at;θ))2]
其中,yt为标签值。
4.根据权利要求1所述的基于深度增强学习的动态波束调度方法,其特征在于,所述的训练Q网络时,还采用了ε-贪婪算法,在每个时隙以概率1-ε利用最大估计的Q值选择动作,以概率ε随机选择一个动作。
CN201810734324.6A 2018-07-06 2018-07-06 基于深度增强学习的动态波束调度方法 Active CN108966352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810734324.6A CN108966352B (zh) 2018-07-06 2018-07-06 基于深度增强学习的动态波束调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810734324.6A CN108966352B (zh) 2018-07-06 2018-07-06 基于深度增强学习的动态波束调度方法

Publications (2)

Publication Number Publication Date
CN108966352A CN108966352A (zh) 2018-12-07
CN108966352B true CN108966352B (zh) 2019-09-27

Family

ID=64484280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810734324.6A Active CN108966352B (zh) 2018-07-06 2018-07-06 基于深度增强学习的动态波束调度方法

Country Status (1)

Country Link
CN (1) CN108966352B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11804894B2 (en) 2020-10-16 2023-10-31 Cognitive Space System and method for facilitating autonomous satellite level communications

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109743735A (zh) * 2018-12-18 2019-05-10 北京邮电大学 一种卫星通信系统中基于深度增强学习的动态信道分配方法
CN109753751B (zh) * 2019-01-20 2023-04-18 北京工业大学 一种基于机器学习的mec随机任务迁移方法
CN109932905B (zh) * 2019-03-08 2021-11-09 辽宁石油化工大学 一种基于非策略的观测器状态反馈的优化控制方法
GB2582165B (en) 2019-03-13 2023-04-05 Airbus Defence & Space Ltd Managing satellite bearer resources
CN109976909B (zh) * 2019-03-18 2022-11-08 中南大学 边缘计算网络中基于学习的低延时任务调度方法
CN109778941B (zh) * 2019-03-25 2021-05-07 江苏徐工工程机械研究院有限公司 一种基于强化学习的半自主挖掘系统和方法
EP3725471A1 (en) * 2019-04-16 2020-10-21 Robert Bosch GmbH Configuring a system which interacts with an environment
WO2020227859A1 (en) * 2019-05-10 2020-11-19 Telefonaktiebolaget Lm Ericsson (Publ) Methods and devices for radio beam determination
CN110517329B (zh) * 2019-08-12 2021-05-14 北京邮电大学 一种基于语义分析的深度学习图像压缩方法
CN110533244B (zh) * 2019-08-28 2023-04-18 重庆大学 一种梯级水坝优化调度方法、系统与计算机可读存储介质
CN111160755B (zh) * 2019-12-26 2023-08-18 西北工业大学 一种基于dqn的飞机大修车间实时调度方法
CN111211831A (zh) * 2020-01-13 2020-05-29 东方红卫星移动通信有限公司 一种多波束低轨卫星智能动态信道资源分配方法
CN111262619B (zh) * 2020-01-20 2021-04-06 中国科学院计算技术研究所 一种多波束卫星资源分配方法及系统
CN113286374B (zh) * 2020-02-19 2023-05-09 华为技术有限公司 调度方法、调度算法的训练方法及相关系统、存储介质
CN111629380B (zh) * 2020-05-09 2023-07-18 中国科学院沈阳自动化研究所 面向高并发多业务工业5g网络的动态资源分配方法
CN111835407B (zh) * 2020-07-09 2021-05-28 北京邮电大学 一种低轨卫星网络流量优化方法和装置
CN111867104B (zh) * 2020-07-15 2022-11-29 中国科学院上海微系统与信息技术研究所 一种低轨卫星下行链路的功率分配方法及功率分配装置
CN112039767B (zh) * 2020-08-11 2021-08-31 山东大学 基于强化学习的多数据中心节能路由方法及系统
CN111970047B (zh) * 2020-08-25 2022-03-25 桂林电子科技大学 一种基于强化学习的leo卫星信道分配方法
CN112188503B (zh) * 2020-09-30 2021-06-22 南京爱而赢科技有限公司 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
CN112261725B (zh) * 2020-10-23 2022-03-18 安徽理工大学 一种基于深度强化学习的数据包传输智能决策方法
CN112543049B (zh) * 2020-11-16 2021-10-29 北京科技大学 一种集成地面卫星网络的能效优化方法及装置
CN113068146B (zh) * 2021-03-22 2021-11-02 天津大学 一种密集型毫米波车辆网络中的多基站波束联合选择方法
CN113258988B (zh) * 2021-05-13 2022-05-20 重庆邮电大学 一种基于dqn的多业务低轨卫星资源分配方法
CN113285740B (zh) * 2021-05-20 2023-02-14 东南大学 一种基于强化学习的波束训练方法
CN113572517B (zh) * 2021-07-30 2022-06-24 哈尔滨工业大学 基于深度强化学习的跳波束资源分配方法、系统、存储介质及设备
CN113613301B (zh) * 2021-08-04 2022-05-13 北京航空航天大学 一种基于dqn的空天地一体化网络智能切换方法
CN113746532B (zh) * 2021-09-06 2022-10-04 天地信息网络研究院(安徽)有限公司 一种基于用户分布先验知识的卫星信令波束调度方法
CN113506048A (zh) * 2021-09-09 2021-10-15 宁波帅特龙集团有限公司 一种柔性作业车间的调度方法
CN114362810B (zh) * 2022-01-11 2023-07-21 重庆邮电大学 一种基于迁移深度强化学习的低轨卫星跳波束优化方法
CN114900897B (zh) * 2022-05-17 2023-04-07 中国人民解放军国防科技大学 多波束卫星资源分配方法及系统
CN115173923B (zh) * 2022-07-04 2023-07-04 重庆邮电大学 一种低轨卫星网络能效感知路由优化方法和系统
CN115483960B (zh) * 2022-08-23 2023-08-29 爱浦路网络技术(南京)有限公司 低轨卫星的跳波束调度方法、系统、装置及存储介质
CN115483959B (zh) * 2022-08-23 2023-08-29 爱浦路网络技术(南京)有限公司 低轨卫星星座的选择方法、系统、装置和存储介质
CN115499852A (zh) * 2022-09-15 2022-12-20 西安邮电大学 基于机器学习的毫米波网络覆盖容量自优化方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105897322A (zh) * 2015-02-17 2016-08-24 财团法人工业技术研究院 毫米波通信的波束形成方法及其基站与用户设备
CN106850036A (zh) * 2016-12-15 2017-06-13 中国空间技术研究院 一种基于优先级的中轨卫星系统可移动点波束调度方法
CN107171705A (zh) * 2017-05-08 2017-09-15 东南大学 数模混合通信中的联合模拟波束及用户调度方法
CN107247253A (zh) * 2017-06-27 2017-10-13 中国电子科技集团公司第三十八研究所 一种相控阵雷达波束调度信息的可视化系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105897322A (zh) * 2015-02-17 2016-08-24 财团法人工业技术研究院 毫米波通信的波束形成方法及其基站与用户设备
CN106850036A (zh) * 2016-12-15 2017-06-13 中国空间技术研究院 一种基于优先级的中轨卫星系统可移动点波束调度方法
CN107171705A (zh) * 2017-05-08 2017-09-15 东南大学 数模混合通信中的联合模拟波束及用户调度方法
CN107247253A (zh) * 2017-06-27 2017-10-13 中国电子科技集团公司第三十八研究所 一种相控阵雷达波束调度信息的可视化系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11804894B2 (en) 2020-10-16 2023-10-31 Cognitive Space System and method for facilitating autonomous satellite level communications

Also Published As

Publication number Publication date
CN108966352A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108966352B (zh) 基于深度增强学习的动态波束调度方法
CN114362810B (zh) 一种基于迁移深度强化学习的低轨卫星跳波束优化方法
CN110427261A (zh) 一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法
CN111367657B (zh) 一种基于深度强化学习的计算资源协同合作方法
CN112995913A (zh) 一种无人机轨迹、用户关联和资源分配联合优化方法
Lim et al. UAV-assisted communication efficient federated learning in the era of the artificial intelligence of things
CN110197270A (zh) 集成电路芯片装置及相关产品
CN113794494B (zh) 一种面向低轨卫星网络的边缘计算系统及计算卸载优化方法
CN107343025A (zh) 分布式卫星云雾网络架构及能耗约束下的时延优化方法
CN112469047A (zh) 一种天地一体化智能网络卫星节点部署方法
CN108418858A (zh) 一种面向Geo-distributed云存储的数据副本放置方法
Zhang et al. Deep reinforcement learning-based offloading decision optimization in mobile edge computing
CN112379985A (zh) 一种云边缘计算环境下的计算任务分配方法及装置
Hwang et al. Decentralized computation offloading with cooperative UAVs: Multi-agent deep reinforcement learning perspective
Zhang et al. DeepMECagent: multi-agent computing resource allocation for UAV-assisted mobile edge computing in distributed IoT system
Mattia et al. On real-time scheduling in Fog computing: A Reinforcement Learning algorithm with application to smart cities
CN116939866A (zh) 一种基于协同计算和资源分配联合优化的无线联邦学习效率提升方法
CN115514769B (zh) 卫星弹性互联网资源调度方法、系统、计算机设备及介质
CN115499875B (zh) 一种卫星互联网任务卸载方法、系统以及可读存储介质
Zhu et al. Satellite-assisted edge computing management based on deep reinforcement learning in industrial internet of things
CN114217881B (zh) 任务卸载方法及相关装置
He et al. A DDPG Hybrid of Graph Attention Network and Action Branching for Multi-Scale End-Edge-Cloud Vehicular Orchestrated Task Offloading
CN115361453A (zh) 一种面向边缘服务网络的负载公平卸载与迁移方法
Sani et al. Deep Reinforcement Learning for Energy-Efficient Data Dissemination Through UAV Networks
CN113157344A (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant