CN114268963A

CN114268963A - 一种面向通信覆盖的无人机网络自主部署方法

Info

Publication number: CN114268963A
Application number: CN202111598691.6A
Authority: CN
Inventors: 赵中亮; 肖猛; 曹先彬
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-01
Anticipated expiration: 2041-12-24
Also published as: CN114268963B

Abstract

本发明是一种面向通信覆盖的无人机网络自主部署方法，属于通信技术领域。本发明将无人机网络的自主部署问题转化为无人机与地面用户匹配、无人机带宽分配和无人机拓扑控制联合优化问题；提出了基于深度强化学习的无人机网络自主部署策略，其中奖励函数的设计考虑总的数据传输速率、无人机的能耗、通信覆盖的公平性、无人机飞出三维空域的惩罚、无人机之间发生碰撞的惩罚；以无人机充当智能体，采用考虑局部选择性通信的多智能体深度强化学习算法训练智能体，避免广播通信的资源浪费。本发明实现了无人机带宽分配、移动控制的优化，提升了用户设备受到服务的公平性、无人机网络的能耗有效性，实现无人机网络对地面通信覆盖的完全自主服务。

Description

一种面向通信覆盖的无人机网络自主部署方法

技术领域

本发明涉及通信技术领域，具体涉及一种面向通信覆盖的无人机网络自主部署方法。

背景技术

我国是世界上自然灾害最严重的几个国家之一。自然灾害具有种类多、分布地域广、频率高、人财损失严重等特点。台风、地震、洪涝等自然灾害可能会造成地面基础通信设施的严重损毁，使通信大规模中断，为应急救援等工作造成极大的困难。同时，我国人口众多，当节假日或举办大型活动时，公园，赛事场馆等处往往有较强的人的集群现象。据国家旅游局统计，2021年国庆期间国内旅游人数达5.15亿人次。当大量人群短时间聚集在某个区域时，该区域可能会产生短时突发业务，蜂窝网系统难以满足骤然增加的通信需求，极易造成网络拥塞甚至瘫痪。

自然灾害的发生和人群的聚集具有突发性或临时性，这就导致自然灾害发生后建设地面基础设施提供通信覆盖服务在经济和时间上不可行，需要一种临时性的通信系统为应急救援或者缓解热点区域网络拥塞提供保障。无人机网络具有部署灵活、通信服务恢复快等优势，同时，与单无人机相比，无人机网络具有花费小，服务能力强，可扩展性强，生存能力强等优势。因此，利用无人机网络对地面用户提供快速的通信服务是一个行之有效的方案。近年来也陆续有无人机用于灾后通信恢复，如翼龙无人机在河南暴雨灾害中为米河镇提供了五小时的公网通信服务。然而，无人机网络用于通信服务还存在很多具有挑战性的问题亟需解决，其中一个关键问题就是无人机网络的部署问题。探究无人机基站网络的部署方法，可以有效地控制无人机基站网络的移动与连接关系，满足地面用户设备的通信需求，支持灾后救援工作开展和大型活动进行，从而有效降低网络中断或拥塞带来的人财损失。

发明内容

本发明的目的是提供一种面向通信覆盖的无人机网络自主部署方法，主要用于无人机搭载通信基站为地面用户设备提供灾后通信恢复场景下，以解决现有技术中无人机网络通信覆盖不公平、工作时间有限的技术问题，实现无人机平台的动态自适应部署。

本发明提供的一种面向通信覆盖的无人机网络自主部署方法，包括如下步骤：

(一)构建采用无人机网络搭载通信基站为地面用户设备提供下行通信服务的系统模型；其中，所述系统模型中，每架无人机搭载一个通信基站充当空中基站；

(二)基于构建的通信系统模型，将无人机网络的轨迹设计问题转化为用户与无人机匹配，无人机的带宽分配和无人机的移动控制问题；

(三)提出了基于深度强化学习的无人机网络自主部署策略，其中奖励函数的设计考虑总的数据传输速率、无人机的能耗、通信覆盖的公平性、无人机飞出三维空域的惩罚、无人机之间发生碰撞的惩罚；

(四)以最大化奖励函数为目标，以无人机充当智能体，采用多智能体深度强化学习算法来训练智能体，实现无人机带宽分配、移动控制的优化，以提升用户设备受到服务的公平性、无人机网络的能耗有效性。

进一步地，所述(四)中，多智能体深度强化学习算法为考虑局部选择性通信的多智能体深度强化学习算法(SCMA,multi-agent deep reinforcement learning withselective local communication)。所述的SCMA包括决策网络(Actor)、评价网络(Critic)、推断网络(Inference)和编码网络(Encoder)。

Actor以全连接网络(FC)为基本结构，将智能体的观察输入网络，计算输出无人机的动作；Critic以全连接网络(FC)为基本结构，将全局状态输入网络，输出Q值，用于更新其他网络；Inference以全连接网络(FC)为基本结构，控制智能体之间的信息交互，避免不必要通信带来的资源浪费；Encoder以长短时记忆网络(LSTM)为基本结构，用于对接收到的其他智能体传来的信息进行处理，提取对自身有用的特征。

其中，无人机的观察包括地面用户设备的位置和通信速率需求；无人机的动作包括移动距离、俯仰角、方位角和带宽分配比例，其中带宽分配比例之和为1；全局状态包括所有无人机的位置、所有用户的位置和通信速率需求。

进一步地，推断网络的输入是无人机的观察以及是否通信的邻居无人机位置，输出为决定无人机是否向邻居无人机进行信息请求的结果。推断网络的输出层包含两个神经元，输出一个1×2的向量，通过Softmax层后比较向量中两个数的大小，决定是否进行信息请求。

进一步地，所述(四)中，通过集中式训练-分布式执行的方式，智能体通过与环境进行交互，智能体之间通信协作完成任务。其中，决策网络、编码网络和评价网络采用强化学习的训练方式，推断网络采用有监督学习的训练方式。

进一步地，所述(四)中，推断网络有监督学习的标签通过KL散度进行计算，衡量有无邻居智能体给本智能体决策带来的影响，从而决定本智能体是否需要与邻居智能体通信。如果KL散度大于预设的阈值，则请求信息交互，反之不请求。

相对于现有技术，本发明的优点与积极效果在于：(1)本发明将无人机基站网络内部通信引入强化学习算法，提升各个智能体即无人机基站的协作性；(2)本发明设计了推断网络和编码网络来模拟通信系统中“请求-回复”的通信机制，避免广播通信的资源浪费；(3)本发明设计了新的决策网络，将无人机的移动和带宽分配联合求解，以实现无人机系统的动态自适应部署；(4)本发明提供的无人机网络自主部署方法，利用一种新的考虑局部选择性通信的多智能体强化学习算法计算无人机的运动与带宽分配，提升通信覆盖的公平性、无人机能耗有效性。

附图说明

图1是本发明提供的无人机网络部署场景示意图；

图2是本发明提供的多智能体强化学习算法结构示意图；

图3是本发明实施例提供的决策网络结构示意图；

图4是本发明实施例提供的评价网络结构示意图；

图5是本发明实施例提供的推断网络结构示意图；

图6是本发明实施例提供的编码网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步的详细描述。通过上述附图，已示出本公开明确的实施例，下面将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

如图1所示，本发明实施例提供的一种面向通信覆盖的无人机网络自主部署方法的应用场景包括：一组地面用户设备和一组无人机群，其中无人机群中每架无人机搭载一个通信基站，无人机群组成无人机网络为异质地面用户设备提供下行通信服务，其中异质地面用户设备是指它们具有不同的通信速率需求。本发明实施例建模场景具体如下：

针对某一区域{(x,y)|x_l≤x≤x_u,y_l≤y≤y_u}的通信覆盖任务，定义U个地面用户设备的分布、运动和通信需求情况：用户设备在区域内随机分布或来自实际数据集，运动模型为静止或二维随机游走模型或来自实际轨迹数据，通信需求为从通信速率集合中随机抽取得到，其中，

表示用户i在时刻t的位置，

表示用户设备的通信速率需求；x_l、x_u分别表示研究区域的最小和最大x坐标，y_l、y_u分别表示研究区域的最小和最大y坐标；在地平面建立x-y坐标，垂直地平面建立z坐标。

定义M个无人机的运动模型和能耗模型：无人机在一定范围的三维空域内运动，

表示无人机j在时刻t的位置，

为无人机j在时刻t的高度；

无人机运动模型用移动距离

俯仰角

方位角

来表示。z_l、z_u分别表示无人机的最低和最高飞行高度。

无人机基站传输信号的能耗远小于移动带来的能耗，因此忽略不计。无人机能耗利用线性模型进行计算：设无人机在一个时间步内悬停所消耗的能量为e_h，无人机竖直上升单位距离所消耗的能量为e_a，竖直下降单位距离所消耗的能量为e_d，在水平方向移动单位距离所消耗的能量为e_m。

为了实现地面用户的能量有效性覆盖，同时保证通信服务的公平性，使用局部选择性通信的多智能体深度强化学习算法(SCMA)对无人机网络进行控制。SCMA算法架构如图2所示。多智能体强化学习算法SCMA包括决策网络(Actor)、评价网络(Critic)、推断网络(Inference)和编码网络(Encoder)。Actor以全连接网络(FC)为基本结构，将智能体的观察输入网络，计算输出无人机的动作。Critic以全连接网络为基本结构，将全局状态输入网络，输出Q值用于更新其他网络。Inference以全连接网络为基本结构，控制智能体之间的信息交互，避免不必要通信带来的资源浪费。Encoder以长短时记忆网络(LSTM)为基本结构，用于对接收到的其他智能体传来的信息进行处理，提取对自身有用的特征。

无人机的观察包括地面用户设备的位置和通信速率需求；

无人机的动作包括移动距离、俯仰角、方位角和带宽分配比例，其中带宽分配比例之和为1；

系统的状态包括所有无人机的位置、所有用户的位置和通信速率需求；

本发明的奖励函数综合考虑了公平性系数、用户和速率、无人机网络移动总能耗和无人机碰撞，考虑因素更全面，更适合于实际应用。具体地，

总的数据传输速率R_t表示为：

其中，b_t,i为在t时刻分配给用户i的带宽，SINR_t,i为用户i的信干比。R_t,i在t时刻用户i的数据传输速率；U代表用户数量。

无人机能耗E_t表示为：

其中，M代表无人机数量，m_t,j代表无人机j在t时刻的移动距离，e_t,j(m_t,j)代表无人机j在t时刻的能耗。

公平性系数f_t为：

出界惩罚p_t为：

其中，p_t,j为无人机j在t时刻的出界惩罚；α为惩罚系数，Δx_t,j，Δy_t,j，Δz_t,j计算如下：

abs()为计算绝对值的函数。

碰撞惩罚c_t为：

综上，每个时间步的奖励r_t为：

进一步地，细化说明各个网络的具体结构：

如图3所示，本实施例中，Actor网络由四层全连接网络构成，各层间使用ReLU激活层连接，输出层使用Sigmoid函数使输出在[0,1]之间，其中输出向量前三位分别代表归一化的无人机的移动距离、俯仰角、方位角，输出向量其他位作归一化后代表无人机对关联用户的带宽分配比例。

如图4所示，本实施例中，Critic网络由四层全连接网络构成，各层间使用ReLU激活层连接，输出Q值。

如图5所示，本实施例中，Inference网络由四层全连接网络构成，各层间使用ReLU激活层连接，输出一个包含两个数的一维向量，通过两个数的大小比较决策是否进行信息请求。具体的，最大数对应的索引为0则不请求，反之发送请求。Inference网络的输入是无人机的观察以及是否通信的邻居无人机位置，根据Inference网络输出结果，无人机决定是否向该邻居无人机发送请求。

Inference网络的训练方式采用有监督训练，标签生成通过KL散度进行计算，目的就是为了衡量有无邻居无人机给本无人机决策带来的影响，从而决定是否需要通信。具体地，邻居无人机i对无人机j的信息可用度的衡量方法如下：

其中，a_i表示无人机i的动作，

表示除无人机i外其他无人机动作集合，

表示除无人机i和j外其他无人机动作集合，

表示所有无人机观察集合。

分别为无人机i动作的Softmax分布概率，无人机i和j动作的Softmax边际分布概率。如果KL散度

大于某一个预设的阈值，则标签

意为应该请求信息交互，反之

如图6所示，本实施例中，Encoder网络由多层长短时记忆网络和单层全连接网络构成，可以保证输出向量的维度不受邻居个数的影响。Encoder网络的输入是邻居无人机的观察，输出无人机对邻居无人机传来信息的编码，与无人机自身观察相连输入Actor网络。

本发明中的Inference网络和Encoder网络模拟了通信系统中的“请求-回复”机制，通过决策本无人机对邻居无人机是否请求信息，若“请求”则获取邻居“回复”的编码，不需要邻居无人机广播信息，避免了采用广播通信方式造成的资源浪费。

设置如2所示的同样的网络结构作为目标网络，即目标网络包括目标决策网络(Target Actor)、目标评价网络(Target Critic)、目标推断网络(Target Inference)和目标编码网络(Target Encoder)，目标网络用于保存上一时间步原网络的模型参数，经过每个时间步的训练学习之后，通过系数τ更新模型参数，具体的：

para′＝τ*para+(1-τ)*para_tar

其中，para_tar为目标网络的模型参数，para和para′分别为更新前后的网络模型参数。

对本发明的网络集中式训练。环境运行次数为M_t，每次运行开始时先初始化，每次运行包含T个时间步。训练开始前，无人机群执行网络计算得到的动作并获得新的系统状态和奖励，并存入经验回放单元中，训练开始后，每次从经验回放单元取出一批数据进行网络训练，利用Adam优化算法进行反向传播，更新网络参数。

本实例中，采用的Adam算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率更新所有的权重，学习率在训练过程中并不会改变。而Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率，可以更快收敛到最优解；同时，为了保证网络得到足够的数量进行训练，对网络重复训练N_e次，每次包括T个时间步，每次训练开始前对场景进行随机初始化。

在获得训练后的网络后，分布式执行。去掉评价网络，各个无人机仅通过训练好的决策网络、推断网络和编码网络的计算结果执行动作，完成区域通信覆盖任务。分布式执行过程仅进行前向传播计算，不进行反向传播。

本实例中，神经网络深度、宽度均较少，在网络训练结束之后实际分布式执行中，现有的无人机平台计算能力完全可以支撑实时计算任务，实现覆盖任务的快速响应。

本发明利用考虑局部选择性通信的多智能体深度强化学习算法训练无人机智能体，实现无人机带宽分配和移动控制的优化，其中对网络的一个具体训练过程包括如下步骤1～12。

步骤1：初始化系统的状态空间、动作空间、观察空间、总经验回放单元、推断网络经验回放单元以及深度神经网络参数；

其中，初始化系统的状态空间、动作空间、观察空间、经验回放单元及深度神经网络参数，包括：将无人机网络服务地面用户设备建模为部分观察马尔可夫模型；为推断网络、编码网络、决策网络、评价网络各创建两个神经网络拷贝用于网络学习及参数更新。所创建的两个多智能体深度强化学习的神经网络一个作为当前网络，一个作为目标网络，目标网络用来更新网络模型参数。

步骤2：利用基于盖尔-沙普利算法(Gale-Shapley algorithm)的双向匹配算法，以用户的通信需求与无人机的容纳能力作为排序依据，将用户分组分配给各个无人机。

本发明实施例中，无人机对用户的喜好按照用户所需要的带宽大小升序排序，用户对无人机的喜好按照频谱效率大小降序排序，利用基于盖尔-沙普利算法的双向匹配算法将用户分组分配给各无人机。

步骤3：将无人机观测范围内的用户状态和无人机自身状态构成一个一维向量，作为无人机的观察值；用户状态包括：用户位置、用户的通信速率需求；无人机自身状态包括无人机位置。

步骤4：将无人机通信范围内的其他无人机定义为邻居无人机，从邻居无人机中随机选出N_a个，将这N_a个无人机的状态，包括：无人机位置，构成一个N_a×3的二维向量。依次取出二维向量的每一行与无人机的观察值连接输入推断网络，输出是否对该邻居无人机进行信息请求。

步骤5：无人机将收到的邻居无人机的观察构成一个N_a×3的二维向量，作为编码网络的输入，其中如无人机未对邻居无人机进行信息请求，则二维向量中对应的行的值均为0。编码网络输出编码后的信息。

步骤6：无人机将自身观察值与编码信息送入决策网络，输出动作并执行；

无人机根据网络计算选择动作，包括：无人机根据决策网络的输出选择无人机移动距离、俯仰角、方位角和无人机对用户的带宽分配比例。无人机执行动作后，返回奖励。

步骤7：将无人机的动作(移动和带宽分配)及整个系统的状态，包括所有无人机的位置、所有用户的位置和通信速率需求，构成一个一维向量，作为评价网络的输入，计算输出Q值。

步骤8：无人机执行动作后，返回奖励以及新的状态和观察，将无人机之前的观察和状态、新的观察、新的状态、动作、奖励存入经验回放单元。

步骤9：在经验回放单元中采样预设数量的数据，并计算推断网络的标签，存入推断网络经验回放单元，作为推断网络的数据。

步骤10：在经验回放单元中采样预设数量的数据，作为训练决策网络、评价网络、编码网络的训练数据。

步骤11：计算训练决策网络、评价网络、编码网络、推断网络的梯度，并利用目标网络更新当前网络的模型参数。

采用Adam优化算法进行反向传播，计算训练决策网络、评价网络和编码网络的模型参数。同时，采用有监督方式训练推断网络。

步骤12：目标网络复制当前网络的模型参数。然后继续转步骤2执行，直到完成当前次所设定的训练次数。

步骤13：共对当前网络重复上面训练过程N_e个轮次，每轮次包括T个时间步，即每轮次执行上面步骤2～12共T次。每轮次训练开始前对场景进行随机初始化，然后执行上面步骤1～12，在步骤1中复制上次获得的当前网络为初始网络。

通过上面实施例，本发明实现针对为异质地面用户设备提供下行通信服务的任务，利用所提出的SCMA算法控制无人机网络的移动、带宽分配，保证了对地通信服务的公平性覆盖，同时降低了无人机能耗，提升了能耗有效性。

Claims

1.一种面向通信覆盖的无人机网络自主部署方法，其特征在于，包括：

步骤1，构建采用无人机网络搭载通信基站为地面用户设备提供下行通信服务的系统模型；所述系统模型中，每架无人机搭载一个通信基站充当空中基站；

步骤2，基于所构建的系统模型，将无人机网络的轨迹设计问题转化为用户与无人机匹配，无人机的带宽分配和无人机的移动控制问题；

步骤3，提出了基于深度强化学习的无人机网络自主部署策略，其中奖励函数的设计考虑总的数据传输速率、无人机的能耗、通信覆盖的公平性、无人机飞出三维空域的惩罚以及无人机之间发生碰撞的惩罚；

步骤4，以最大化奖励函数为目标，以无人机充当智能体，采用考虑局部选择性通信的多智能体深度强化学习算法来训练智能体，利用训练好的智能体进行无人机的带宽分配和移动控制；

其中，所述多智能体深度强化学习算法包括决策网络、评价网络、推断网络和编码网络；

决策网络以全连接网络为基本结构，将智能体的观察输入网络，计算输出无人机的动作；无人机的观察包括地面用户设备的位置和通信速率需求；无人机的动作包括移动距离、俯仰角、方位角和带宽分配比例，其中带宽分配比例之和为1；

评价网络以全连接网络为基本结构，输入为全局状态和无人机动作，输出Q值；全局状态包括所有无人机的位置、所有用户的位置和通信速率需求；

推断网络以全连接网络为基本结构，控制智能体之间的信息交互；推断网络的输入是无人机的观察以及是否通信的邻居无人机位置，输出为决定无人机是否向邻居无人机进行信息请求的结果；

编码网络以长短时记忆网络为基本结构，用于对接收到的邻居无人机的观测编码，再与本无人机的观察相连输入决策网络。

2.根据权利要求1所述的方法，其特征在于，所述的步骤4中，所述推断网络的输出层包含两个神经元，输出一个1×2的向量，通过Softmax层后比较输出向量中两个数的大小，决定无人机是否向邻居无人机进行信息请求；当两个数中的最大数对应的索引为0则不进行信息请求，反之进行信息请求。

3.根据权利要求1或2所述的方法，其特征在于，所述的步骤4中，对推断网络进行有监督学习的训练，标签通过KL散度进行计算，衡量有无邻居无人机给本无人机决策带来的影响，从而决定是否需要通信；如果KL散度大于某一个预设的阈值，则请求信息交互，反之不请求。

4.根据权利要求3所述的方法，其特征在于，所述的步骤4中，邻居无人机i对无人机j的标签计算如下：

先计算无人机i对无人机j的KL散度标签

如下：

其中，a_i表示无人机i的动作，

表示除无人机i外其他无人机动作集合，

表示除无人机i和j外其他无人机动作集合，

表示所有无人机观察集合；

为无人机i动作的Softmax分布概率，

为无人机i和j动作的Softmax边际分布概率；

如果KL散度

大于预设阈值，则设置标签

表示请求信息交互，反之设置标签

5.根据权利要求1或2所述的方法，其特征在于，所述的步骤4中，决策网络由四层全连接网络构成，各层间使用ReLU激活层连接，输出层使用Sigmoid函数使输出在[0,1]之间，其中，输出向量的前三位分别代表归一化的无人机的移动距离、俯仰角和方位角，输出向量的剩余位代表归一化后的无人机对关联用户的带宽分配比例。

6.根据权利要求1或2所述的方法，其特征在于，所述的步骤4中，对无人机智能体采用集中式训练-分布式执行的方式，在训练时，决策网络、编码网络和评价网络采用强化学习的训练方式，推断网络采用有监督学习的训练方式。

7.根据权利要求1所述的方法，其特征在于，所述的步骤3中，设计的奖励函数如下：

在t时刻的奖励r_t为：

其中，collision表示无人机发生碰撞的情况，R_t表示t时刻用户总的数据传输速率，E_t表示t时刻无人机的能耗，f_t表示t时刻的公平性系数，p_t为t时刻的出界惩罚；

其中，公平性系数

U代表用户数量，R_t,i为在t时刻用户i的数据传输速率。

8.根据权利要求1所述的方法，其特征在于，所述的步骤3中，利用基于盖尔-沙普利算法的双向匹配算法，以用户的通信需求与无人机的容纳能力作为排序依据，将用户分组分配给各个无人机。

9.根据权利要求1所述的方法，其特征在于，所述的步骤4，在对决策网络、评价网络、推断网络和编码网络进行训练后，去掉评价网络，各个无人机仅通过训练好的决策网络、推断网络和编码网络的计算结果执行动作。

10.根据权利要求1或2所述的方法，其特征在于，所述的步骤4中，训练智能体的一个实现过程如下：

将推断网络、编码网络、决策网络和评价网络组成当前网络，复制当前网络作为目标网络；

步骤2：基于盖尔-沙普利算法的双向匹配算法，将用户分组分配给各个无人机；

步骤3：将无人机观测范围内的用户状态和无人机的状态构成一个一维向量，作为无人机的观察；用户状态包括用户位置和用户的通信速率需求；无人机的状态包括无人机位置；

步骤4：将无人机通信范围内的其他无人机定义为邻居无人机，从邻居无人机中随机选出N_a个，将所选出的N_a个邻居无人机的状态构成一个N_a×3的二维向量；依次取出二维向量的每一行与无人机的观察连接输入推断网络，输出无人机是否对邻居无人机进行信息请求的结果；

步骤5：无人机将收到的邻居无人机的观察构成一个N_a×3的二维向量，作为编码网络的输入，若无人机未对邻居无人机进行信息请求，则二维向量对应行的值均为0；编码网络输出编码后的信息；

步骤6：无人机将自身观察与编码信息送入决策网络，输出动作并执行；

步骤7：将整个系统的状态，包括所有无人机的位置和动作，所有用户的位置和通信速率需求，构成一个一维向量，作为评价网络的输入，计算输出Q值；

步骤8：无人机执行动作后，返回奖励以及新的状态和观察，并将之前无人机的观察和状态、新的状态和观察、无人机的动作以及奖励存入经验回放单元；

步骤9：在经验回放单元中采样预设数量的数据，计算推断网络的标签，存入推断网络经验回放单元；

步骤10：在经验回放单元中采样预设数量的数据，作为训练决策网络、评价网络、编码网络的训练数据；

步骤11：采用Adam优化算法进行反向传播，更新当前网络的模型参数；

步骤12：目标网络复制当前网络的模型参数，然后继续转步骤2执行，直到完成设定的训练次数。