CN108966352A

CN108966352A - 基于深度增强学习的动态波束调度方法

Info

Publication number: CN108966352A
Application number: CN201810734324.6A
Authority: CN
Inventors: 胡欣; 王艺鹏; 李秀华; 王卫东; 刘帅军; 张雨晨
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2018-12-07
Anticipated expiration: 2038-07-06
Also published as: CN108966352B

Abstract

本发明提供了一种基于深度增强学习的动态波束调度方法，属于多波束卫星通信系统领域。本方法首先将动态波束调度问题建模为马尔科夫决策过程，每个时隙的状态包括卫星缓存器中的数据矩阵、时延矩阵和信道容量矩阵，动作表示动态波束调度策略，目标是长期减小所有数据包的累计等待时延，然后利用深度增强学习算法求解最佳动作策略，建立CNN+DNN结构的Q网络，训练Q网络，利用训练好的Q网络来进行动作决策，获得最佳动作策略。本发明通过大量的自主学习，使得卫星根据此刻的环境状态直接输出当前的波束调度结果，长期最大化系统的综合性能，在保持系统吞吐量几乎不变的同时，大大减小数据包的传输等待时延。

Description

基于深度增强学习的动态波束调度方法

技术领域

本发明属于多波束卫星通信系统领域，涉及一种基于深度增强学习的动态波束调度方法。

背景技术

卫星通信系统作为对地面通信网络基础结构的一种补充，以其全球覆盖能力强、通信距离远、系统容量高、抗重大自然灾害能力强、可提供固定及移动通信业务等优点，受到了研究人员的重视及国家的支持。随着对其容量需求的不断增加以及频谱资源的持续消耗，多波束卫星通信系统被提了出来，它采用了多个高增益的窄波束共同覆盖较大的区域，能有效提高系统性能。然而，一个卫星提供的点波束越多，所需的发射机就越多，而配备星载发射机的代价是十分昂贵的，如一个需要覆盖美国的GEO(地球同步轨道，geostationaryearth orbit)卫星需要的波束个数多达5200个[1,2]，这显然是不可能的。

对于上述问题，以时分复用的方式利用少量波束覆盖多个小区可以有效解决，但在每一时刻需要调度所有波束到指定小区，而不同的调度策略会影响数据传输时延、系统公平性及吞吐量等，因此，亟需一种动态波束调度技术提高系统的整体性能。针对多波束卫星通信系统中的动态波束调度问题，大多数研究者根据此刻的队长分布[3,4]或场景快照[5-9]进行动态波束调度，这些贪心类的算法均忽略了决策之间内在的相关性，得到的仅仅是当前时刻的最优结果，以至于系统吞吐量、传输时延及公平性等仍有很大的优化空间。

因而在多波束卫星通信系统中，动态波束调度应综合考虑信道容量大小、星上缓存分布、以及当前波束调度结果对后一种波束调度策略的影响等，如何准确建模这种相关性，并通过波束调度长期最大限度的提高系统性能，一直以来都是研究的难点。因此，多波束卫星通信系统的动态波束调度问题是处于复杂环境中的序贯决策问题。

参考文献如下：

[1]R.C.Johnson,Antenna Engineering Handbook,3rd ed.McGraw-Hill,1993.

[2]J.Goodman,Introduction to Fourier Optics,3rd ed.Roberts&Company,2005.

[3]Neely M J,Modiano E,Rohrs C E.Power and server allocation in amulti-beam satellite with time varying channels[C]//Joint Conference of theIEEE Computer and Communications Societies IEEE,2002:1451-1460vol.3.

[4]Neely M J,Modiano E,Rohrs C E.Power allocation and routing inmultibeam satellites with time-varying channels[J].IEEE/ACM Transactions onNetworking,2003,11(1):138-152.

[5]Choi J P,Chan V W S.Satellite multibeam allocation and congestioncontrol with delay constraints[C]//IEEE International Conference onCommunications,2004:3309-3315 Vol.6.

[6]Choi J P,Chan V W S.Resource management for advanced transmissionantenna satellites[J].IEEE Transactions on Wireless Communications,2009,8(3):1308-1321.

[7]Liu H,Yang Z,Cao Z.Max-Min Rate Control on Traffic in BroadbandMultibeam Satellite Communications Systems[J].IEEE Communications Letters,2013,17(7):1396-1399.

[8]Montesinos J,Besson O,Tournemine C L D.Adaptive beamforming forlarge arrays in satellite communications systems with dispersed coverage[J].Iet Communications,2011,5(3):350-361.

[9]Han H,Ying L,Ll K.An efficient beam scheduling policy in satellitecommunication system[C]//IEEE International Conference on Advanced InfocommTechnology,2015:245-251.

发明内容

本发明针对多波束卫星通信系统的动态波束调度问题，设计了一种基于深度增强学习的动态波束调度方法(Deep Reinforcement Learning Dynamic Beam Scheduling,DRL-DBS)，它利用深度学习的感知能力及强化学习的决策特点，通过大量的自主学习，使得卫星根据此刻的环境状态直接输出当前的波束调度结果，长期最大化系统的综合性能，如吞吐量、数据传输时延和公平性。

本发明的一种基于深度增强学习的动态波束调度方法，实现步骤包括：

首先，将动态波束调度问题建模为马尔科夫决策过程，具体如下：

时隙t的状态s_t＝(D,W,C)；其中，D为对应时隙卫星缓存器中的数据矩阵，矩阵中的每行对应一个小区，对应小区请求的数据记录在对应的行中，矩阵中每个元素的取值代表数据长度；W为对应矩阵D的时延矩阵，矩阵W中元素的取值为矩阵D中对应数据的等待时延；C为信道容量矩阵；

时隙t的动作表示为a_t，表示在时隙t的动态波束调度策略；

状态s_t的奖励值r_t，取值是将执行a_t后的状态的矩阵D和W对应元素相乘后再对矩阵中相乘后的所有元素累加得到；

目标是长期减小所有数据包的累计等待时延，表示为：找到一个最佳动作策略π^*来最大化Q值，如下：

其中，为状态集合，为动作集合；γ是折扣因子，γ∈[0,1]；π为一个动作策略。

然后，利用深度增强学习算法求解最佳动作策略π^*，具体如下：

设计Q网络为CNN+DNN的结构，先利用卷积神经网络CNN提取数据矩阵D与时延矩阵W的特征，再利用深度神经网络DNN拟合出从输入状态到输出动作的Q值的函数；

训练Q网络：利用权值为θ的Q(s,a；θ)网络将输入状态映射到输出动作的Q值，在每个时隙生成一个由当前状态s_t，动作a_t，奖励值r_t及下一个状态s_t+1组成的四元组存储到经验池U中；设计具有权值θ^-的目标网络Q^-(s,a；θ^-)，目标网络与Q网络结构相同，每G步从Q(s,a；θ)网络中拷贝所有参数；从经验池U中随机抽取一批数据，利用目标网络Q^-计算出标签值后，通过随机梯度下降算法Adam训练Q网络；

利用训练好的Q网络来进行动作决策，获得最佳动作策略π^*。

所述的利用目标网络Q^-计算出标签值y_t，如下：

其中，a_t+1为时隙t+1的动作，s_t+1为时隙t+1的状态。

通过随机梯度下降算法Adam训练Q网络，目的是最小化损失函数L(θ)，损失函数L(θ)采用最小均方误差计算，如下：

L(θ)＝E[(y_t-Q(s_t,a_t；θ))²]。

所述的训练Q网络时，还采用了ε-贪婪算法，在每个时隙以概率1-ε利用最大估计的Q值选择动作，以概率ε随机选择一个动作。

本发明与现有技术相比，具有以下明显优势：

(1)本发明适用于动态场景，能根据当前的实时环境做出具体的波束调度动作；

(2)本发明具有在线学习功能，能根据历史环境数据，不断学习并改进策略；

(3)本发明与现有其它方法相比，在保持系统吞吐量几乎不变的同时，大大减小数据包的传输等待时延。

附图说明

图1为本发明方法的应用场景示意图；

图2为卫星缓存器中存储的数据包随时隙变化的示意图；

图3为马尔科夫决策过程的模型示意图；

图4为本发明缓存器中存储的数据矩阵与时延矩阵示意图；

图5为本发明方法的整体实现示意图；

图6为本发明Q网络架构示意图；

图7为利用本发明方法的数据包平均等待时延的一个示意图；

图8为利用本发明方法的系统吞吐量的一个示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细描述。

如图1，为本发明基于深度增强学习的动态波束调度方法的应用场景示意图，卫星提供K个波束，波束集合k为波束编号，K个波束的覆盖范围下有N个小区，小区集合n为小区编号，卫星通过快速切换K个波束，以时分复用的方式覆盖N个小区，其中K<N。

在每个时隙，所有小区向卫星请求数据包，这些数据包将存储在卫星缓存器上，然后通过动态波束调度方法将K个波束分配给相应的小区，并向这些小区发送数据包，之后缓存器中剩余的数据包将等待下一个时隙。如图2所示，为缓存器中存储的数据包随时隙的变化情况，为了便于描述与仿真验证，本发明实施例以4小区2波束为例来说明。在第一个时隙初，各小区请求数据包，存储在缓存器上；在第一个时隙末，根据当前信道容量与波束调度结果传输数据；在第二个时隙初，各小区请求数据包，存储在缓存器上；在第二个时隙末，根据当前信道容量与波束调度结果传输数据，如此往复循环。图2中的缓存器处对应的数字代表了数据的大小，例如6代表长度为6的数据包，同样，信道容量处标记的数据也为数据的大小，波束调度中对4个小区分别以0表示未给对应小区分配波束，以1表示给小区分配了波束。

由图2可知，当前时隙卫星缓存器的存储状态仅与上一时隙波束调度策略有关，而与上一时隙之前的时隙无关，因此该动态波束调度问题是典型的序贯决策问题，并具有马尔科夫性，此动态波束调度过程是一个马尔科夫决策过程。

如图3所示为马尔科夫决策过程模型。马尔科夫决策过程是指决策者周期地或连续地观察具有马尔科夫性的随机动态系统，序贯地作出决策，一般用五元组来描述，其中S表示有限个状态集合，S＝{s₁,s₂,…,s_t}，t表示状态个数；表示有限个动作集合，p表示状态转移概率，如p(s_t+1|s_t,a_t)表示在状态s_t下，执行a_t动作后状态转移到s_t+1的概率；γ表示折扣因子，γ∈[0,1]，γ越大表示当前决策对未来奖励的重视程度越大；r为奖励值，表示当前状态的优劣。决策者根据时隙t观察到的状态s_t∈S，从可用的动作集合中选出一个动作执行，马尔科夫性的随机动态系统根据状态转移概率p(s_t+1|s_t,a_t)转移到状态s_t+1，并获得奖励r_t，决策者根据新的状态，再做出新的决策，依此反复地进行。

本发明将动态波束调度问题建模为马尔科夫决策过程，其状态、动作、奖励及目标的具体设计如下。

(1)状态S。状态是从环境中抽象出来的，有时也称为环境状态，可为智能体提供决策的依据，本发明中的智能体主要指卫星。对于动态波束调度，为了最小化数据等待时延，智能体需要获得缓存器中数据包的个数、对应数据包的等待时延以及信道容量等信息以做出决策。本发明实施例中将缓存器中存储的数据包抽象成数据矩阵并用将对应数据包的等待时延抽象成时延矩阵将图2中时隙3末缓存器中存储的数据包抽象成数据矩阵D与对应数据包的等待时延抽象成时延矩阵W的示例如图4所示。

数据矩阵D中，每行对应一个小区，对应小区请求的数据包记录在对应的行中，矩阵D中元素的取值数据代表数据包的长度，即请求的数据的大小。

如图4所示，将缓存器中存储的数据包抽象成4*20维的数据矩阵D，数据包的等待时延抽象成时延矩阵W；数据矩阵D记录从存入缓存器到当前时隙所有的数据包，时延矩阵W记录数据包从存入缓存器到当前时隙所等待的时隙总长，数据矩阵与时延矩阵点乘的结果即为当前时隙缓存器中所有数据包的累积等待时隙总长。在抽象为数据矩阵时，若列数超出20，则认为缓存器溢出，清零并重新开始。

信道容量矩阵为表示当前时隙的信道容量。因此状态s_t定义为公式(1)。

s_t＝(D,W,C) (1)

其中，D为数据矩阵；W为时延矩阵；C为信道容量矩阵；s_t表示时隙t的状态。

(2)动作动态波束调度策略即为动作，因此动作集合定义为公式(2)。

其中，x_n表示小区n分配到的波束，N为小区总数，x_n＝0表示小区n未分配到波束，反之，x_n≠0表示小区n获得了波束。表示N个小区中有且仅有K个小区获得了波束，此即为动作集合a_t表示时隙t的动作，应满足

(3)奖励值r。为了使缓存器中所有的数据包均快速发送给各个小区，即所有数据包的累计等待时延最小，所以当智能体进行一次波束调度并传输数据后，如果缓存器中所有数据包的累计等待时延越小，获得的奖励应该越多，因此时隙t的状态s_t的奖励值r_t定义为公式(3)，如下：

r_t＝sum(sum(-D.*W)) (3)

其中，“.*”代表矩阵D和W的对应元素的数字相乘，得到一个结果矩阵，再通过两个sum表示将结果矩阵中所有元素累加。

(4)目标。动态波束调度的目标是长期减小所有数据包的累计等待时延，假设智能体在时隙t，观察环境状态s_t，然后根据某个动作策略π做出决策，并获得一系列奖励值r_t，r_t+1，r_t+2，r_t+3，……。如果智能体的目标是在一个时隙t内减小数据包的累计等待时延，那么直接选择一个动作以最大化(3)式中定义的即时奖励值r_t即可，由于智能体的目标是长期减小所有数据包的累计等待时延，因此智能体需要找到一个最佳动作策略π^*，以最大化长期累积奖励值，长期累积奖励值也称为Q值，如式(4)所示。

其中，π为动作策略；γ是折扣因子，γ∈[0,1]；γ反映了智能体对未来奖励的重视程度：γ＝0意味着智能体仅考虑即时奖励r_t，γ接近1意味着智能体更有远见，更看重未来的奖励。代表求取期望，s_t＝s,a_t＝a,π表示当前时隙t的状态为s，在动作策略π下，执行动作a。智能体最终需要找到一个最佳动作策略π^*来最大化Q值，即满足式(5)。

其中，π^*为最佳动作策略。

本发明中利用深度增强学习算法可以有效解决序贯决策问题，它强大的深度神经网络可以近似拟合出从输入状态到输出Q值的函数，而不需要马尔科夫性的随机动态系统状态转移概率p，并有效避免了维数灾难问题。主要过程是将多波束卫星当作智能体，根据当前所处的环境，利用深度神经网络输出动作的Q值来做出最佳决策，能输出Q值的网络也称为Q网络。本发明提供的基于深度增强学习的动态波束调度方法整体如图5所示。

如图5所示，为DRL-DBS架构图，其中状态s_t，动作a_t以及奖励值r_t，状态中的数据矩阵D与时延矩阵W类似于灰度图像的像素值矩阵，可充分利用卷积神经CNN网络进行特征提取。具有参数θ的Q(s,a；θ)网络负责将输入状态映射到输出动作的Q值，数值越大表示执行此动作的长期收益越大。具有参数θ^-的目标网络Q^-(s,a；θ^-)，与Q网络结构相同，且每G步从Q网络中拷贝所有参数。在每个时隙，Q网络生成一个由当前状态s_t，动作a_t，奖励值r_t及下一个状态s_t+1组成的四元组，并将其存储到经验池U中，接着，从经验池U中随机抽取一批数据，利用目标网络Q^-计算出标签值后，通过随机梯度下降算法Adam训练Q网络。

首先，说明本发明所使用的Q网络结构。由于输入状态被构建为像素值矩阵，因此将Q网络设计为CNN+DNN的结构，先利用CNN提取像素矩阵的特征，再利用深度神经网络DNN拟合出从输入状态到输出动作Q值的函数。如图6所示，为本发明实施例针对4小区2波束所设计的Q网络架构图，输入的数据矩阵D与时延矩阵W经过两层卷积层提取特征后，展开为全连接层，与信道容量矩阵C合并在一起，再经过三层全连接神经网络，最后输出动作Q值。其中每一层的具体参数如表1所示。

表1仿真参数设置

	输入	卷积核尺寸，个数	滑动步距(s1,s2)	激活函数	输出
						卷积层1	4201	1101,32个	1,2	ReLu	41032
卷积层2	41032	1532,64个	1,2	ReLu	4564
						全连接层1	2564	无	无	ReLu	512
全连接层2	512	无	无	ReLu	64
						全连接层3	64	无	无	ReLu	4

在实际应用中，根据实际的小区和波束设计合适的CNN和DNN，设计原理都是通过CNN对两个矩阵D和W进行特征提取，展开为全连接层与信道容量矩阵C合并一起，再经过深度神经网络，最后输出动作的Q值。

其次，说明对Q网络的训练。

当使用神经网络等非线性函数逼近器来表示从输入状态到输出动作Q值的函数时，由于训练序列中存在着相关性，且训练标签随着Q网络的更新而不稳定，导致传统的增强学习难以收敛甚至发散。为了解决这个问题，本发明采用了经验池U和目标网络Q^-来提高Q网络的稳定性。

首先，在初始化阶段清空容量为U_ep的经验池U，然后，在训练过程中，将新生成的四元组(s_t，a_t，r_t，s_t+1)堆积到U中，一旦存储的四元组数量达到U_st，U_st表示初始训练数，开始训练Q网络。在训练期间，从U中随机采样大小为U_mb的一批数据，用目标网络Q^-计算标签值y_t，并训练Q网络，损失函数L(θ)采用最小均方误差计算，具体见公式(6)。

L(θ)＝E[(y_t-Q(s_t,a_t；θ))²] (6)

其中，y_t是标签值；L(θ)表示损失函数值；y_t的计算公式为式(7)，如下：

其中，Q(s_t,a_t；θ)表示Q(s,a；θ)网络在输入状态s_t和输出动作a_t的Q值；Q^-(s_t+1,a_t+1；θ^-)表示目标网络Q^-(s,a；θ^-)在输入状态s_t+1和输出动作a_t+1的Q值。

本发明采用随机梯度下降算法Adam对Q网络进行训练，以最小化损失函数L(θ)。在训练过程中，采用批量归一化(batch normal，BN)技术来降低数据离散程度以加速算法收敛。

理想情况下，智能体经过训练之后，它将输出最佳的Q值并采取相应的动作策略。然而，在实际中，由于智能体可能仅经历了有限的状态，而不是整个状态空间，所以对于未输入的状态，难以输出最佳的Q值，此外，状态空间本身可能会受环境影响不断变化，使当前估计的Q值失效。因此，智能体始终面临一个权衡的问题：是否“利用”已学习的Q值，可能不准确或者过时，并选择具有最大Q值的动作作为策略，或者“探索”其它可能的动作来改善Q值并最终改进策略。

针对上述问题，本发明采用一种简单而有效的权衡方法：ε-贪婪算法。按照这种算法，智能体在每个时隙，以概率1-ε“利用”最大估计的Q值选择动作，以概率ε“探索”新的动作，即随机选择一个动作。此外，随着迭代次数的增多，“利用”的效果会越来越好，相应的，在训练期间，从初始到最终线性的减少“探索”的概率。

最终本发明DRL-DBS的整体实现伪代码如表2所示。

表2 DRL-DBS

从上表中可得到本发明动态波束调度方法的实现流程包括：

步骤1，初始化：用随机权值θ初始化Q网络，设置权值θ^-＝θ，初始化Q^-网络；初始化经验池U的容量为U_ep，经验池U初始为空；初始化所需要的相关参数，包括：初始贪婪因子ε_i，终止贪婪因子ε_j，训练网络的周期数N_epochs，折扣因子γ，时隙数N_times，初始训练数量U_st，采样大小U_mb，迭代步数G。

步骤2，设置循环周期episode初始为1。每执行一遍下面循环过程，循环周期episode的计数增1，直到循环N_epochs次停止。每轮循环过程包括下面步骤3～步骤8。

步骤3，设置本轮的贪婪因子ε＝ε-(ε_i-ε_j)/N_epochs；ε的初始值由用户设置。

步骤4，设置当前时隙t＝1，继续步骤5；

步骤5，在时隙t，卫星观察当前状态s_t，以概率1-ε选择Q值最大的动作，或以概率ε随机选择动作，本发明实施例中以概率1-ε选择Q值最大的两小区作为动作a_t或以概率ε随机选择动作作为a_t。根据动作a_t进行数据传输，获得新的状态s_t+1。依据公式(3)计算状态s_t的即时奖励r_t。将(s_t，a_t，r_t，s_t+1)四元组存储到经验池U中，若经验池U的容量超过U_ep，则丢弃最早的四元组。

步骤6，当循环周期episode满足条件：(episode-1)*N_times+t>U_st时，从经验池U中随机抽取U_mb个样本，根据公式(7)计算标签值y_t，根据公式(6)计算损失值L(θ)，以Adam优化算法训练Q网络并更新参数θ。

步骤7，当mod(t,G)＝0时，利用θ^-＝θ更新目标网络Q^-。

步骤8，更新当前时隙t的计数增1，若t>N_times，停止本轮循环，执行步骤9，否则继续转步骤5执行。

步骤9，更新循环周期episode的计数增1，若episode>N_epochs，停止循环，输出训练好的Q网络来进行动作决策；否则，继续转步骤3执行。

通过实验仿真验证DRL-DBS算法的有效性，以表明该算法确实在训练过程中学习到了有效减小数据传输时延的波束调度策略，从而减小流量拥塞并提高系统吞吐量，并且该算法在做出决策时是稳定的，即不在好的和坏的策略之间振荡。

如图7所示，为所有数据包在传输期间累计等待时延的平均值，从图中可以看出，随着智能体训练周期的增加，所有数据包累计等待时延的平均值迅速下降，最终减小到一个较小的值，这表明智能体确实通过DRL-DBS算法学习到了良好的调度策略。从图8的系统吞吐量图中也可以观察到类似的规律。图7与图8也显示出当训练周期达到约430次后，数据包时延与系统吞吐量均收敛到一个良好的值，表明利用本发明方法所选择的策略是稳定的，也说明了经验池与目标网络在有效的工作。

本发明在多波束卫星通信系统中提出了一种基于深度增强学习的动态波束调度方法，以减小数据传输总时延并提高系统公平性。本发明方法使用深度卷积神经CNN网络可以从卫星通信场景中自动提取有用特征，进而学习最优的动态波束调度策略，并通过经验池与目标网络提高动作决策的稳定性。仿真结果表明，本发明方法能提高系统吞吐量，减小数据传输时延，并且学习了一个公平的波束调度策略，使任何小区的数据传输时延都不会太大。

Claims

1.一种基于深度增强学习的动态波束调度方法，其特征在于，包括：

时隙t的动作表示为a_t，表示在时隙t的动态波束调度策略；

状态s_t的奖励值r_t，是将状态s_t中矩阵D和W对应元素相乘后再对相乘后的所有元素累加得到；

其中，为状态集合，为动作集合；γ是折扣因子，γ∈[0,1]；π为一个动作策略；

2.根据权利要求1所述的基于深度增强学习的动态波束调度方法，其特征在于，所述的Q网络中，通过CNN对矩阵D和W进行特征提取，然后展开为全连接层，再与信道容量矩阵C合并一起，再经过深度神经网络，最后输出动作的Q值。

3.根据权利要求1所述的基于深度增强学习的动态波束调度方法，其特征在于，所述的训练Q网络时，从经验池U中随机抽取一批数据，利用目标网络Q^-计算出标签值y_t，如下：

其中，a_t+1为时隙t+1的动作，s_t+1为时隙t+1的状态。

4.根据权利要求1或3所述的基于深度增强学习的动态波束调度方法，其特征在于，所述的训练Q网络时，通过随机梯度下降算法Adam训练Q网络，目的是最小化损失函数L(θ)，损失函数L(θ)采用最小均方误差计算，如下：

L(θ)＝E[(y_t-Q(s_t,a_t；θ))²]

其中，y_t为标签值。

5.根据权利要求1所述的基于深度增强学习的动态波束调度方法，其特征在于，所述的训练Q网络时，还采用了ε-贪婪算法，在每个时隙以概率1-ε利用最大估计的Q值选择动作，以概率ε随机选择一个动作。

6.根据权利要求1或3或4所述的基于深度增强学习的动态波束调度方法，其特征在于，所述的利用深度增强学习算法求解最佳动作策略，实现步骤包括：

步骤1，初始化：用随机权值θ初始化Q网络，设置权值θ^-＝θ，初始化Q^-网络；初始化经验池U的容量为U_ep，经验池U初始为空；初始化所需要的相关参数，包括：初始贪婪因子ε_i，终止贪婪因子ε_j，训练网络的周期数N_epochs，折扣因子γ，时隙数N_times，初始训练数量U_st，采样大小U_mb，迭代步数G；

步骤2，设置循环周期episode初始为1；

步骤3，设置本轮的贪婪因子ε＝ε-(ε_i-ε_j)/N_epochs；

步骤4，设置当前时隙t＝1，继续步骤5；

步骤5，在时隙t，卫星观察当前状态s_t，以概率1-ε选择Q值最大的动作a_t，或以概率ε随机选择动作a_t；根据动作a_t进行数据传输，获得新的状态s_t+1；计算状态s_t的即时奖励r_t；将(s_t，a_t，r_t，s_t+1)四元组存储到经验池U中，若经验池U的容量超过U_ep，则丢弃最早的四元组；

步骤6，当循环周期episode满足条件：(episode-1)*N_times+t>U_st时，从经验池U中随机抽取U_mb个样本，计算标签值y_t和损失值L(θ)，以Adam优化算法训练Q网络并更新参数θ；

步骤7，当mod(t,G)＝0时，利用θ^-＝θ更新目标网络Q^-；

步骤8，更新当前时隙t的计数增1，若t>N_times，停止本轮循环，执行步骤9；否则继续转步骤5执行；