CN115333961B

CN115333961B - 基于深度强化学习的无线通信网络管控方法及相关设备

Info

Publication number: CN115333961B
Application number: CN202210772369.9A
Authority: CN
Inventors: 王鲁晗; 牛海文; 杜科良; 路兆铭; 温向明
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2023-10-13
Anticipated expiration: 2042-06-30
Also published as: CN115333961A

Abstract

本申请提供一种基于深度强化学习的无线通信网络管控方法及相关设备，该方法可以应用于包括智能化网元的无线通信网络管控，其中，该智能化网元可以包括状态‑动作‑奖励的强化学习架构，该方法能够根据不同控制器中的不同经验数据集将状态采集器获取的状态数据转化为增强状态数据，实现了延迟马尔可夫过程到标准马尔可夫过程的转化，避免了通信网络中状态和动作的时延对多个控制器中数据优化过程的影响，提高了控制器的优化效率。

Description

基于深度强化学习的无线通信网络管控方法及相关设备

技术领域

本申请涉及数据管理技术领域，尤其涉及一种基于深度强化学习的无线通信网络管控方法及相关设备。

背景技术

5G(5th Generation Mobile Communication Technology，第五代移动通信技术)的发展使得一切设备拥有了接入无线通信网络的可能，但庞大的接入终端数量使得无线通信网络规模越来越大，通过深度强化学习算法对无线通信网络进行自动化管控可以帮助运营商降低无线通信网络运营成本，提高收益。

在3GPP(3rd Generation Partnership Project，第三代合作伙伴计划)标准化中，5G引入了智能化网元NWDAF(Network Data Analytics Function，网络数据分析功能)，通过智能数据采集、分布式智能，机器学习，强化学习，知识图谱等技术来进行网络故障定位，无线通信资源/计算资源管理，从而提升服务质量，改进客户体验。但是，无线通信网络中存在的通信时延会影响NWDAF 中的深度强化学习算法对无线通信网络状态的感知能力，进而导致NWDAF的深度强化学习算法性能退化。

发明内容

有鉴于此，本申请的目的在于提出一种基于深度强化学习的无线通信网络管控方法及相关设备，用以解决或部分解决上述技术问题。

基于上述目的，本申请提供了一种基于深度强化学习的无线通信网络管控方法，所述方法应用于通信网络控制系统，所述系统包括多个控制器、多个状态采集器和多个动作执行器，所述多个控制器之间相互连接，所述控制器分别与所述状态采集器和所述动作执行器连接；所述方法包括：

所述状态采集器获取通信网络的状态数据和所述状态数据对应的获取时间戳，并将所述状态数据发送到所述控制器；

所述控制器获取当前时间戳，并根据预先存储的经验数据集对所述状态数据进行动作增强，得到所述当前时间戳对应的增强状态数据，其中，所述当前时间戳和所述获取时间戳之间为随机时延；

所述控制器根据所述状态数据中的状态个数确定所述增强状态数据对应的奖励值；

所述控制器利用预先训练好的时序关联模型对所述增强状态数据进行关联提取，得到关联表示；

所述控制器采用预先训练好的预测模型根据所述经验数据集进行时间戳预测，得到预测动作时延数据并根据所述时间循环神经网络中的损失函数确定所述预测时延数据对应的损失函数值，其中，所述多个控制器中的经验数据集之间相互同步；

所述控制器控制预先训练好的智能体模型根据所述增强状态数据、所述奖励值、所述关联表示和所述损失函数值通过联合优化得到动作执行数据，并将所述动作执行数据发送到所述动作执行器；

所述动作执行器根据所述动作执行数据控制所述通信网络。

本申请的第二方面提供一种基于深度强化学习的无线通信网络管控装置，包括：

获取模块，被配置为所述状态采集器获取通信网络的状态数据和所述状态数据对应的获取时间戳，并将所述状态数据发送到所述控制器；

增强模块，被配置为所述控制器获取当前时间戳，并根据预先存储的经验数据集对所述状态数据进行动作增强，得到所述当前时间戳对应的增强状态数据，其中，所述当前时间戳和所述获取时间戳之间为随机时延；

确定模块，被配置为所述控制器根据所述状态数据中的状态个数确定所述增强状态数据对应的奖励值；

提取模块，被配置为所述控制器利用预先训练好的时序关联模型对所述增强状态数据进行关联提取，得到关联表示；

预测模块，被配置为所述控制器采用预先训练好的预测模型根据所述经验数据集进行时间戳预测，得到预测动作时延数据并根据所述时间循环神经网络中的损失函数确定所述预测时延数据对应的损失函数值，其中，所述多个控制器中的经验数据集之间相互同步；

优化模块，被配置为所述控制器控制预先训练好的智能体模型根据所述增强状态数据、所述奖励值、所述关联表示和所述损失函数值通过联合优化得到动作执行数据，并将所述动作执行数据发送到所述动作执行器；

执行模块，被配置为所述动作执行器根据所述动作执行数据控制所述通信网络。

本申请的第三方面提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的方法。

本申请的第四方面提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行如第一方面所述方法。

从上面所述可以看出，本申请提供的基于深度强化学习的无线通信网络管控方法及相关设备，根据不同控制器中的不同经验数据集将状态采集器获取的状态数据转化为增强状态数据，实现了延迟马尔可夫过程到标准马尔可夫过程的转化，进而通过该增强状态数据采用智能体模型完成动作执行数据的生成，避免了通信网络中状态和动作的时延对多个控制器中数据优化过程的影响，提高了控制器的优化效率。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例的通信网络控制系统的结构示意图；

图1b为本申请实施例的基于深度强化学习的无线通信网络管控方法的流程示意图；

图1c为步骤104的步骤展开示意图；

图2为本申请实施例的基于深度强化学习的无线通信网络管控装置的结构示意图；

图3为本申请实施例的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如背景技术所述，如图1a所示，通信网络控制系统包括多个控制器(例如，图1a中所示的控制器1和控制器2)、多个状态采集器(例如，图1a中所示的状态采集器1和状态采集器2)和多个动作执行器(例如，图1a中所示的动作执行器1和动作执行器2)，所述多个控制器之间相互连接(例如，图 1a中所示的控制器1和控制器2之间相互连接)，所述控制器分别与所述状态采集器和所述动作执行器连接(例如，图1a中控制器1与状态采集器1和动作执行器1连接，控制器2与状态采集器2和动作执行器2连接)。

状态采集器对通信网络中状态数据的进行采集后将状态数据发送到控制器，控制器利用深度强化学习算法的灵活性通过适当的环境建模生成最优的动作执行数据并发送到动作执行器，动作执行器根据动作执行数据控制通信网络。但是，深度强化学习等相关智能算法目前应用到真实通信网络中还存在很多挑战。由于通信网络环境状态的时变性以及由于控制器、状态采集器和动作执行器之间通信所造成的交互时延，控制器得到的状态数据具有时滞性。即在某一时间点，控制器得到的状态数据与通信网络的状态数据存在差异，这个差异与通信时延大小、环境变化剧烈程度有关，在动作执行器的执行过程中同样存在相同问题。

这样带来的问题有：通信时延的存在会导致控制器中深度强化学习算法的性能退化，并增大该算法的收敛时间。

因此，需要提供一种能够克服通信时延对智能算法性能影响的方法来实现通信网络的实时管理。

可以理解的是，本申请虽然以无线通信网络为方法应用的对象，但是本申请的基于深度强化学习的无线通信网络管控方法也可以应用于其他包括随机时延的通信网络管控。

可以理解的是，本申请的基于深度强化学习的无线通信网络管控方法虽然采用基于动作-状态-奖励模型的深度强化学习模型进行说明，但是，本申请也可以采用其他基于动作-状态-奖励模型的智能算法模型。

如图1b所示，本实施例的方法包括：

步骤101，所述状态采集器获取通信网络的状态数据和所述状态数据对应的获取时间戳，并将所述状态数据发送到所述控制器。

在该步骤中，状态采集器指的是具有获取数据、获取数据对应时间戳以及发送数据功能的采集器，本实施例优选的状态采集器可以是获取通信网络的状态数据和状态数据对应的获取时间戳，并将状态数据发送到控制器的采集器。状态数据指的是状态信息和奖励信息，本实施例优选的状态数据可以是通信网络的状态、通信网络执行动作后的奖励值。获取时间戳指的是状态采集器获取状态数据的时间戳，本实施例优选的获取时间戳可以是状态采集器获取通信网络的状态数据的时间戳。这样，状态数据为后续增强状态的计算提供数据基础，获取时间戳为后续时延的计算提供时间戳基础。

步骤102，所述控制器获取当前时间戳，并根据预先存储的经验数据集对所述状态数据进行动作增强，得到所述当前时间戳对应的增强状态数据，其中，所述当前时间戳和所述获取时间戳之差为随机时延。

在该步骤中，控制器指的是根据状态数据生成动作执行数据的模块，本实施例优选的控制器可以是根据状态采集器发送的状态数据生成动作执行数据的模块。当前时间戳指的是控制器接收状态数据的时间戳，本实施例优选的当前时间戳可以是控制器接收通信网络状态数据的时间戳。经验数据集指的是控制器中的数据和数据对应的时间戳，本实施例优选的经验数据集可以是控制器中的状态数据、动作数据、增强状态数据、奖励值和联合奖励值和数据对应的时间戳。

具体的，在t时刻，状态采集器采集到的通信网络的状态数据为o_n(t)，由于控制器与状态采集器之间存在通信链路，所以状态数据和动作执行数据的传输存在交互时延，即随机时延。定义t时刻，状态采集器向控制器发送当前通信网络状态的随机时延为则在时刻/>时，控制器接收到状态数据o_n(t)。在状态采集器发送状态数据时，状态数据对应的获取时间戳为/>控制器接收状态数据的当前时间戳为/>则可以计算出随机时延/>如下：

具体的，在时刻时，控制器对状态数据进行动作增强，即将延时马尔可夫过程转化为标准马尔可夫过程。在/>时刻，控制器要生成动作执行数据作用于时刻的通信网络，因此需要通过/> 时刻接收的状态数据o_n(t)去逼近/>时刻的通信网络的真实状态。在上述逼近过程中，本实施例可以采用如下公式对状态数据进行等效：

o_n(t)+Δo_n(t)≠o_n(t)

其中Δo_n(t)为时刻通信网络自发改变所带来的状态变化因子，为时刻t由于动作执行所造成的状态变化因子。即：若t时刻动作执行器执行动作，那么此时通信网络的变化均考虑为由动作造成的，不考虑通信网络自发的改变。即，/>

在单个控制器中，通过增强型状态来将延迟马尔可夫过程中转化为标准马尔可夫过程(S_n,A_n,r_n,P'_n,γ_n)。其中λ为t时刻所执行动作的下发时延，该下发时延可以通过状态数据进行获取。 O_n为通信网络的状态数据所构成的空间，A_n为控制器的动作执行数据所构成的空间，S_n为控制器的增强状态数据所构成的空间，r_n为奖励函数，P_n为随机时延马尔可夫过程的状态转移概率，P'_n为转化后标准马尔可夫过程的转移概率，γ_n为折扣因子，/>分别是控制器中的状态数据上传最大容忍时延，动作执行数据下发最大容忍时延。

这样，根据不同控制器中的不同经验数据集将状态采集器获取的状态数据转化为增强状态数据，实现了延迟马尔可夫过程到标准马尔可夫过程的转化，提高了控制器的优化效率

步骤103，所述控制器根据所述状态数据中的状态个数确定所述增强状态数据对应的奖励值。

在该步骤中，奖励值指的是动作执行后增强状态数据对应的值，本实施例优选的奖励值可以是动作执行器中的动作执行后增强状态数据对应的值。这样，为后续智能体模型的输入提供数据基础。

步骤104，所述控制器利用预先训练好的时序关联模型对所述增强状态数据进行关联提取，得到关联表示。

在该步骤中，时序关联模型指的是基于多头注意力的序列到序列模型，本实施例优选的时序关联模型可以是控制器中的transformer(一种开源深度学习模型)模型，关联表示指的是不同时刻增强状态数据之间的关联矩阵表示，本实施例优选的关联表示可以是控制器中的不同时刻增强状态数据之间的关联矩阵表示。这样，为后续智能体模型的输入提供数据基础。

步骤105，所述控制器采用预先训练好的预测模型根据所述经验数据集进行时间戳预测，得到预测动作时延数据并根据所述时间循环神经网络中的损失函数确定所述预测时延数据对应的损失函数值，其中，所述多个控制器中的经验数据集之间相互同步。

在该步骤中，预测模型指的是根据LSTM(Long Short-Term Memory，长短期记忆人工神经网络)构建的模型，本实施例中优选的预测模型可以是控制器中的LSTM。

具体的，LSTM从控制器中经验数据集中采样出一段连续的动作执行数据对应的下发时延数据，且该段时延数据的最后一个数据需为最新的动作执行数据的下发时延信息，将其输入至LSTM中，得到预测动作时延数据，并计算其损失函数值，即为其中L_n(t-λ) 为LSTM计算t时刻动作执行器执行动作执行数据的下发延迟对应的损失函数值。

具体的，多个控制器之间可以通过RESTFUL(Representational State Transfer，表征状态转移)接口，不同的控制器之间可以通过经验数据集的同步以达到多智能体模型联合优化的效果。每个控制器根据其他控制器的包括时间戳信息的经验数据集，将同一时间下的信息联合存储，即将不同控制器的状态数据、动作执行数据和联合奖励值组合形成经验数据，进而形成多控制器增强联合状态即：s(t)＝(s₁(t),s₂(t),……,s_N(t))，动作执行数据为a(t)＝ (a₁(t),……,a_N(t))。将(s(t),a(t),s(t+1),r(t))存储至经验数据集中，以供时序关联模型、预测模型和智能体模型优化使用。这样，为后续智能体模型的输入提供数据基础，多个控制器中的经验数据集之间能够同步，避免了通信网络中状态和动作的时延对多个控制器中数据优化过程的影响

步骤106，所述控制器控制预先训练好的智能体模型根据所述增强状态数据、所述奖励值、所述关联表示、所述预测动作时延数据和所述损失函数值通过联合优化得到动作执行数据，并将所述动作执行数据发送到所述动作执行器。

在该步骤中，智能体模型指的是深度强化学习相关算法模型，本实施例优选的智能体模型可以是确定性深度强化学习算法。动作执行数据指的是改变状态数据的动作，本实施例优选的动作执行数据可以是动作执行器改变状态数据的动作。

具体的，将关联表示、增强状态数据、奖励值与损失函数值结合成为联合状态信息作为智能体模型的输入，智能体模型的输出作为动作执行数据，动作执行数据的计算公式如下所示：

其中，ξ是一个随机噪声。这样，控制器计算得到的动作执行数据，并将该动作执行数据发送到动作执行器。

步骤107，所述动作执行器根据所述动作执行数据控制所述通信网络。

在该步骤中，动作执行器在接收到动作执行数据后，首先进行下列步骤：由于随机时延的存在，在某一时刻t时，动作执行器接收到的动作执行数据中的动作个数有以下情况：

(1)未接受到动作，则由于通信网络自发的改变，t+1时刻的状态数据可以描述为o_n(t+1)＝o_n(t)+Δo_n(t)；

(2)当接收到一个动作时，t+1时刻的状态数据可以描述为

(3)当接收到多个动作时，记此动作集合为动作集合中每个动作对应的时间戳为τ＝{τ₁,τ₂,…τ_m}，假设多个动作中离时刻t最近的时间戳为τ_i，即τ_i≥τ_j,/>则t时刻动作执行器需要执行的动作为a_n(τ_i)。

这样，动作执行器根据动作执行数据，改变通信网络的某些参量，并且状态采集器获取即时奖励值和下一时刻状态数据。

通过上述方案，根据不同控制器中的不同经验数据集将状态采集器获取的状态数据转化为增强状态数据，实现了延迟马尔可夫过程到标准马尔可夫过程的转化，避免了通信网络中状态和动作的时延对多个控制器中数据优化过程的影响，提高了控制器的优化效率。

在一些实施例中，所述经验数据包括所有历史时间戳对应的动作执行数据、增强状态信息和根据所述奖励值确定的联合奖励值，其中，所述历史时间戳为所述当前时间戳之前的时间戳；所述状态数据包括所述状态个数、状态奖励值和状态折扣因子；步骤103具体包括：

响应于确定所述状态数据中的状态个数为0，所述控制器将所述增强状态数据对应的奖励值设置为0，根据如下公式计算增强状态数据s_n(t)：s_n(t)＝ s_n(t-1)∪a_n(t-1)，其中，s_n(t)为第n个增强状态数据，t为所述当前时间戳， s_n(t-1)为所述经验数据集中上一个时间戳的第n个增强状态数据，a_n(t-1) 为所述经验数据集中上一个时间戳的第n个动作数据；

响应于确定所述状态数据中的状态个数等于1，所述控制器将所述增强状态数据对应的奖励值设置为所述状态数据中的状态奖励值，根据如下公式计算增强状态数据s_n(t)：其中，s_n(t)为t时刻的第n个增强状态数据，/>为/>时刻包含1个状态的状态数据，/>为所述随机时延，/>为所述经验数据集中/>时刻的第n个动作数据，λ为动作时延，a_n(t-1)为所述经验数据集t-1时刻的第n个动作数据；

响应于确定所述状态数据中的状态个数大于1，所述控制器根据所述状态数据中的状态折扣因子和所述状态奖励确定所述增强状态数据对应的奖励值，多个状态对应的时间戳集为τ＝{τ₁,τ₂,…τ_m}，所述时间戳集中，离所述当前时间戳最近的状态时间戳为τ_i，即τ_i≥τ_j,根据如下公式计算增强状态数据s_n(t)：其中，o_n(τ)为包含多个状态的状态数据，a_n(τ-λ+1)为所述经验数据集中所述动作时延对应的第n个动作数据；根据如下公式计算所述奖励值：/>其中， r_n(t-1)为t-1时刻的奖励值，为时间戳τ_i-τ_j对应的折扣因子，r_n(τ_i)为时间戳τ_i对应的第n个奖励值。

在上述方案中，响应于确定所述状态数据中的状态个数为0：增强状态数据s_n(t)＝s_n(t-1)∪a_n(t-1)，设置t-1时刻的即时奖励值r_n(t-1)＝0。当状态数据对应的获取时间戳满足/>时，控制器不生成动作执行数据直到接收到某一时刻状态数据，即a_n(t)＝NULL。

响应于确定所述状态数据中的状态个数为1，记状态数据为增强状态数据为/>设置 t-1时刻的奖励值/>

响应于确定所述状态数据中的状态个数大于1，记随机时延中控制器接收到的状态数据为其中携带多个状态信息，奖励信息以及状态数据对应的获取时间戳τ＝{τ₁,τ₂,…τ_m}。记多个状态信息中离时刻t最近的获取时间戳为τ_i，即τ_i≥τ_j,/>则此时的增强状态数据s_n(t)＝ (o_n(τ),a_n(τ-λ+1),…,a_n(t-1))，计算t-1时刻的奖励值为

通过上述方案，为后续通过增强状态数据实现延迟马尔可夫过程到标准马尔可夫过程的转化提供数据基础，减少了控制器中优化过程的变量，提高了控制器的优化效率。

在一些实施例中，如图1c所示，步骤104具体包括：

步骤1041，所述控制器将所述增强状态数据转化为包括状态动作关系对的时序表示，其中，根据如下公式计算所述时序表示：

其中，o_n(t)为t时刻的第n个状态数据，a_n(t-λ+1)为t-λ+1时刻的第n个动作数据，λ为所述动作时延，为/>时刻的第n个动作数据，/>为所述随机时延，n为正整数；

步骤1042，所述控制器利用所述时序关联模型提取所述时序表示的前后相关依赖关系，得到所述关联表示。

在上述方案中，时序关联模型包括编码器与解码器两部分，在本实施例中，提取关联表示可以使用到Transformer的编码器部分。在时刻，控制器得到的增强状态数据为/> 将/>首先转化为以下时序表示：

上述时序表示为Transformer-encoder的输入，将上述时序表示输入到Transformer-encoder中提取序列的前后相关依赖关系，得到编码输出即关联表示为

通过上述方案，得到增强状态数据对应的关联表示，为后续智能体模型的输入提供数据基础。

在一些实施例中，所述方法还包括：所述多个控制器将所述当前时间戳对应的动作执行数据、增强状态信息和根据所述奖励值确定的联合奖励值加入所述经验数据。

在上述方案中，多个控制器之间可以通过RESTFUL(Representational StateTransfer，表征状态转移)接口，不同的控制器之间可以通过经验数据集的同步以达到多智能体模型联合优化的效果。每个控制器根据其他控制器的包括时间戳信息的经验数据集，将同一时间下的信息联合存储，即将不同控制器的状态数据、动作执行数据和联合奖励值组合形成经验数据，进而形成多控制器增强联合状态即：s(t)＝(s₁(t),s₂(t),……,s_N(t))，动作执行数据为a(t)＝ (a₁(t),……,a_N(t))。将(s(t),a(t),s(t+1),r(t))存储至经验数据集中，以供时序关联模型、预测模型和智能体模型优化使用。

通过上述方案，为后续智能体模型的输入提供数据基础，多个控制器中的经验数据集之间能够同步，避免了通信网络中状态和动作的时延对多个控制器中数据优化过程的影响

在一些实施例中，所述时序关联模型的训练过程包括：

获取训练增强状态数据集；

根据序列到序列模型构建初始时序关联模型；

利用所述初始时序关联模型对所述训练状态数据集中的数据进行关联提取，得到训练关联表示；

根据所述训练关联表示与所述训练增强状态数据通过对数似然法进行条件概率计算，得到第一训练损失函数值；

根据所述第一训练损失函数值确定所述初始时序关联模型中的第一参数集；

响应于确定所述训练增强状态数据集中的数据全部训练完成，将包括所述第一参数集的所述初始时序关联模型作为所述时序关联模型。

在上述方案中，时序关联模型的训练可以采用MAF(Masked AutoregressiveFlow，掩膜自回归流)，从经验数据集中获取历史真实状态数据与增强状态数据作为训练增强状态数据集，并将编码后的训练增强状态数据集输入MAF，以时刻为例，在此时，初始时序关联模型得到了时刻的真实状态数据/> 则通过MAF将得到/> 进而可以将训练增强状态数据集中的增强状态数据与真实状态数据之间的条件概率分布由MAF的输出表示，如下所示，其中基密度函数在这里可选为标准的高斯分布：

其中为标准的高斯分布。则在进行时序关联模型的训练过程优化目标为最小化真实概率分布与估计概率分布之间的KL(Kullback-Leibler，相对熵) 散度，KL散度的表达式为：

第一训练损失函数可以用对数似然法来进行获取，如下式所示，之后进行误差反向传播优化第一参数集即可。

通过上述方案，完成了对时序关联模型的训练，为后续关联表示的输出提供模型基础。

在一些实施例中，所述预测模型的训练过程包括：

获取训练经验数据集；

根据时间循环神经网络模型构建初始预测模型；

采用初始预测模型对所述训练经验数据集中的数据子集进行数据预测，得到训练时延数据；

根据所述训练时延数据与所述训练经验数据集中的真实时延数据进行平方差计算，得到第二训练损失函数值；

根据所述第一训练损失函数值确定所述预测模型中的第二参数集；

响应于确定所述训练经验数据集中的数据子集全部训练完成，将包括所述第二参数集的所述初始预测模型作为所述预测模型。

在上述方案中，可以从经验数据集中获取时间戳来构建训练经验数据集，初始预测模型的训练中的第二训练损失函数可以如下式所示：

其中，Y_pre为预测时延数据，Y为真实时延数据。在第二参数集更新时，本实施例可以通过最小化第二训练损失函数进行误差反向传播来对预测模型进行优化。

通过上述方案，完成了对预测模型的训练，为后续损失函数值的输出提供模型基础。

在一些实施例中，所述智能体模型的训练过程包括：

获取训练数据集；

根据强化学习模型构建初始智能体模型；

采用初始智能体模型对所述训练数据集中的数据进行联合，得到训练动作执行数据；

根据所述训练执行数据与所述训练数据集中的目标动作数据进行平方差计算，得到第三训练损失函数值；

根据所述第三训练损失函数值确定所述智能体模型中的第三参数集；

响应于确定所述训练数据集中的数据全部训练完成，将包括所述第三参数集的所述初始智能体模型作为所述智能体模型。

在上述方案中，本实施例可以从经验数据集获取增强状态数据、奖励值、关联表示和损失函数值作为训练数据集，本实施例可以采用MATD3(一种确定性深度强化学习算法)构建初始智能体模型，训练过程中需要设置Actor (MATD3中的子模型)网络与三个目标网络的更新间隔。在每一次生成动作执行数据后，可以通过最小化第三训练损失函数值的方式更新两个源Critic (MATD3中的子模型)网络参数第三训练损失函数值如下所示：

其中M_b为向经验数据集采样的轨迹大小，y_j表示目标价值。两个源Critic 网络参数每更新k次，再对于Actor网络与三个目标网络进行更新，即为了减少一些错误的更新。Actor网络的梯度策略更新方式如下所示：

网络的第三参数集采用软更新的方式，即在每次更新的时候不使用计算得到的新网络参数完全替代原有网络参数，采用部分更新的方式，如下所示：

μ'_n＝τμ_n+(1-τ)μ'_n

μ_n，μ'_n为源Actor，目标Actor网络的参数，代表目标Critic网络的参数。

通过上述方案，完成了对智能体模型的训练，为后续动作执行数据的输出提供模型基础。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种基于深度强化学习的无线通信网络管控装置。

参考图2，所述基于深度强化学习的无线通信网络管控装置，包括：

获取模块201，被配置为所述状态采集器获取通信网络的状态数据和所述状态数据对应的获取时间戳，并将所述状态数据发送到所述控制器；

增强模块202，被配置为所述控制器获取当前时间戳，并根据预先存储的经验数据集对所述状态数据进行动作增强，得到所述当前时间戳对应的增强状态数据，其中，所述当前时间戳和所述获取时间戳之间为随机时延；

确定模块203，被配置为所述控制器根据所述状态数据中的状态个数确定所述增强状态数据对应的奖励值；

提取模块204，被配置为所述控制器利用预先训练好的时序关联模型对所述增强状态数据进行关联提取，得到关联表示；

预测模块205，被配置为所述控制器采用预先训练好的预测模型根据所述经验数据集进行时间戳预测，得到预测动作时延数据并根据所述时间循环神经网络中的损失函数确定所述预测时延数据对应的损失函数值，其中，所述多个控制器中的经验数据集之间相互同步；

优化模块206，被配置为所述控制器控制预先训练好的智能体模型根据所述增强状态数据、所述奖励值、所述关联表示和所述损失函数值通过联合优化得到动作执行数据，并将所述动作执行数据发送到所述动作执行器；

执行模块207，被配置为所述动作执行器根据所述动作执行数据控制所述通信网络。

在一些实施例中，确定模块203具体被配置为：

响应于确定所述状态数据中的状态个数为0，所述控制器将所述增强状态数据对应的奖励值设置为0，根据如下公式计算增强状态数据s_n(t)：s_n(t)＝ s_n(t-1)∪a_n(t-1)，其中，s_n(t)为第n个增强状态数据，t为所述当前时间戳，s_n(t-1)为所述经验数据集中上一个时间戳的第n个增强状态数据，an₍t- 1)为所述经验数据集中上一个时间戳的第n个动作数据；

响应于确定所述状态数据中的状态个数等于1，所述控制器将所述增强状态数据对应的奖励值设置为所述状态数据中的状态奖励值，根据如下公式计算增强状态数据s_n(t)：其中，s_n(t)为t时刻的第n个增强状态数据，/>为/>时刻包含1 个状态的状态数据，/>为所述随机时延，/>为所述经验数据集中/>时刻的第n个动作数据，λ为动作时延，a_n(t-1)为所述经验数据集t-1时刻的第n个动作数据；

响应于确定所述状态数据中的状态个数大于1，所述控制器根据所述状态数据中的状态折扣因子和所述状态奖励确定所述增强状态数据对应的奖励值，多个状态对应的时间戳集为τ＝{τ₁,τ₂,…τ_m}，所述时间戳集中，离所述当前时间戳最近的状态时间戳为τ_i，即τ_i≥τ_j,根据如下公式计算增强状态数据s_n(t)：其中，o_n(τ)为包含多个状态的状态数据，a_n(τ-λ+1)为所述经验数据集中所述动作时延对应的第n 个动作数据；根据如下公式计算所述奖励值：/>其中，r_n(t-1)为t-1时刻的奖励值，/>为时间戳τ_i-τ_j对应的折扣因子，r_n(τ_i) 为时间戳τ_i对应的第n个奖励值。/>

在一些实施例中，关联模块204具体被配置为：

所述控制器将所述增强状态数据转化为包括状态动作关系对的时序表示，其中，根据如下公式计算所述时序表示：

所述控制器利用所述时序关联模型提取所述时序表示的前后相关依赖关系，得到所述关联表示。

在一些实施例中，所述装置还包括：

更新模块，被配置为所述多个控制器将所述当前时间戳对应的动作执行数据、增强状态信息和根据所述奖励值确定的联合奖励值加入所述经验数据。

在一些实施例中，关联模块204中的时序关联模型的训练过程包括：

获取训练增强状态数据集；

根据序列到序列模型构建初始时序关联模型；

在一些实施例中，预测模块205中的预测模型的训练过程包括：

获取训练经验数据集；

根据时间循环神经网络模型构建初始预测模型；

在一些实施例中，优化模块206中的智能体模型的训练过程包括：

获取训练数据集；

根据强化学习模型构建初始智能体模型；

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的基于深度强化学习的无线通信网络管控方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于深度强化学习的无线通信网络管控方法。

图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口 1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM (Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/ 输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于深度强化学习的无线通信网络管控方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于深度强化学习的无线通信网络管控方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于深度强化学习的无线通信网络管控方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

需要说明的是，本申请的实施例还可以以下方式进一步描述：

步骤1，状态获取：在时刻t(对应于本申请实施例中的获取时间戳)，网络环境中状态上报模块(对应于本申请实施例中的状态采集器)通过采集所负责的部分环境状态信息以及上一时刻动作执行奖励信息，将其按照统一化数据格式包装后通过RESTFUL接口进行上传。

具体的，在t时刻，环境向中的智能体(对应于本申请实施例中的控制器) 反馈当前智能体下的环境信息为o_n(t)(对应于本申请实施例中的状态数据)，由于智能体与环境之间存在通信链路，故存在交互时延。定义t时刻，环境向智能体反馈当前环境状态的时延为则在时刻/>(对应于本申请实施例中的当前时间戳)，智能体接收到观测状态o_n(t)。在状态发送时，发送时间戳为/>智能体所接收到的时间戳为/>则可以计算出时延/>如下：

步骤2：状态增强：NWDAF(对应于本申请实施例中的控制器)在时刻接收到环境上报的状态信息和奖励信息，状态增强模块对于此过时的状态信息进行增强，得到增强后的状态信息(对应于本申请实施例中的增强状态数据)即：

由于RESTFUL接口固有特性，可以很容易为状态、奖励、动作在生成/ 接受时均会打上生成细粒度时间戳。上述字符中，/>为t时刻状态信息的上报时延，λ为t时刻动作执行的下发时延，在时刻/>均为已知量。

具体的，时刻时，需要对于所收集状态信息进行增强，将延时马尔可夫过程转化为标准马尔可夫过程，在/>时刻，智能体要生成动作作用于时刻的环境，因此需要通过/>时刻所观测到的状态信息o_n(t)去逼近/>环境的真实状态。在这个过程中，本实施例作出假设如下：

o_n(t)+Δo_n(t)≠o_n(t)

其中Δo_n(t)为时刻t环境自发改变所带来的状态变化因子，为时刻t 由于动作执行所造成的状态变化因子。即：若t时刻环境执行动作，那么此时环境的变化均考虑为由动作造成的，不考虑环境自发的改变。/>

从单智能体的角度上，通过增强型状态来将延迟马尔可夫过程中转化为标准马尔可夫过程(S_n,A_n,r_n,P'_n,γ_n)。其中λ为t时刻所执行动作的下发时延，为已知量。O_n为环境的状态空间，A_n为智能体的动作空间，S_n为智能体侧的增强型状态空间，r_n为奖励函数，P_n为随机延迟马尔可夫过程的状态转移概率，P'_n为转化后标准马尔可夫过程的转移概率，γ_n为折扣因子，/>分别是智能体设置的状态上传最大容忍时延，动作下发最大容忍时延。由于智能体与环境之间的交互上下行时延为一随机变量，故在某一时刻t单智能体接受到的状态个数分别有以下情况：

(1)未接收到状态信息：此时s_n(t)＝s_n(t-1)∪a_n(t-1)，此时设置t-1 时刻的即时奖励值r_n(t-1)＝0。当增强状态中观测状态时间戳满足/> 时，智能体不做任何动作直到接收到某一时刻状态信息，即a_n(t)＝ NULL。

(2)接收到一个状态信息则增强型状态信息为/> 此时设置t-1时刻的即时奖励值

(3)接收到多个状态信息，此时由于随机时延接收到了状态信息集合其中携带多个状态信息，奖励信息以及对应的状态生成时间戳τ＝{τ₁,τ₂,…τ_m}。假设多个状态信息中离时刻t最近的状态时间戳为τ_i，即τ_i≥τ_j,/>则此时的增强型状态信息s_n(t)＝(o_n(τ),a_n(τ-λ+1),…,a_n(t-1))，则置t-1时刻的即时奖励值

步骤3：时序关联信息提取：将状态增强后的状态信息输入至时序关联信息提取模块(对应于本申请实施例中的时序关联模型)，先将增强型状态信息转化为时序数据对，再从其中提取出不同时刻状态之间的关联矩阵表示。

具体的，Transformer(转化层)是一个基于多头注意力的序列到序列模型，包含编码器与解码器两部分，在本发明中，时序关联信息提取模块只涉及使用到Transformer的编码器部分。假设时刻，智能体得到的增强型状态为将首先转化为以下时序格式：

上述时序格式为Transformer-encoder(转化编码器)的输入，将上述时序格式送入到Transformer-encoder中提取序列的前后相关依赖关系，得到编码输出为

步骤4：动作下发时延预测：预测模块(对应于本申请实施例中的预测模型)根据缓冲区(对应于本申请实施例中的经验数据集)中存储的历史动作下发时延信息预测得到时刻的动作下发时延信息和对应的损失函数值，损失函数值作为预测时延信息的置信度数据表示。

具体的，预测模块中LSTM(Long Short-Term Memory，长短期记忆网络) 从时延数据缓冲区中采样出一段连续的动作下发时延数据，且该段时延数据的最后一个数据需为最新的动作下发时延信息，将其输入至预测模块LSTM中，得到预测的动作下发时延信息，并计算其损失函数值，即为其中L_n(t-λ)为LSTM计算t时刻环境所执行动作的下发延迟的损失函数值。

步骤5：智能体模块生成最优动作：将状态增强模块、预测模块、时许关联信息提取模块的输出进行联合作为智能体算法(对应本申请实施例中的智能体模型)的输入，智能体算法根据所输入的信息，得到最优的动作策略(对应本申请实施例中的动作执行数据)。

具体的，将编码信息、增强型状态与预测模块的输出结合成为联合状态信息作为TD3 算法的状态输入，每一个智能体根据TD3算法策略选择动作，如下所示：

ξ是一个随机噪声。在智能体计算出动作后，将其下发至环境进行执行。

步骤6：动作下发：数据采集、发送模块将智能体生成的动作矩阵以 RESTFUL接口的形式发送至对应的环境。

具体的，每一个智能体生成动作矩阵需要依据标准化 RESTFUL接口下发至对应的环境。

步骤7：动作执行：位于环境中的动作执行模块在接收到动作后，根据动作的指示，去对应的调整相应的参数，进行优化。

具体的，位于环境中的动作执行模块在接收到动作后，首先做出以下推理：由于随机延迟的存在，在某一时刻t时，环境接收到的动作个数有以下可能，对于环境来讲：

(1)未接受到动作，则由于环境自发的改变，t+1时刻的状态信息可以描述为o_n(t+1)＝o_n(t)+Δo_n(t)

(2)当接收到一个动作时，t+1时刻的状态信息可以描述为

(3)当接收到多个动作时，设此动作集合为其中对应时间戳为τ＝ {τ₁,τ₂,…τ_m}，假设多个动作中离时刻t最近的状态时间戳为τ_i，即τ_i≥τ_j,/>则t时刻智能体需要执行的动作为a_n(τ_i)。

在确定待执行的某一个动作后，根据动作指示，改变环境的某些参量，并得到即时奖励值和下一时刻状态。

步骤8：网络数据分析服务簇(对应本申请实施例中的多个控制器)进行经验池信息存储与同步：通过RESTFUL接口，不同的NWDAF实例之间需要进行经验池信息的同步以达到多智能体联合优化的效果，将不同智能体的观测状态、执行动作和整体奖励信息组合形成多智能体信息即：s(t)＝ (s₁(t),s₂(t),……,s_N(t))，联合动作为a(t)＝(a₁(t),……,a_N(t))，N为系统中的多智能体个数。将(s(t),a(t),s(t+1),r(t))存储至经验缓冲区中，其中r(t)为多智能体联合回报值。

具体的，通过RESTFUL接口，不同的NWDAF实例之间需要进行经验池信息的同步以达到多智能体联合优化的效果。每个WDAF根据其他NWDAF 的经验池信息以及携带的时间戳信息，将同一时间下的信息联合存储，即将不同智能体的观测状态、执行动作和整体奖励信息组合形成多智能体信息即，进而形成多智能体增强联合状态即：s(t)＝(s₁(t),s₂(t),……,s_N(t))，联合动作为 a(t)＝(a₁(t),……,a_N(t))。将(s(t),a(t),s(t+1),r(t))存储至经验缓冲区中，以供智能体算法优化使用。

步骤9：系统参数更新：系统中需要进行迭代更新的模块有时许关联信息提取模块，预测模块与智能体模块，在训练阶段需要进行模型参数的更新。

具体的，针对于智能体算法MATD3来讲，需要设置Actor网络与三个目标网络的更新间隔。首先在每一次动作执行后，均需要通过最小化损失值的方式更新两个源Critic网络参数损失函数(对应本申请实施例中的第三损失函数值)如下所示：

其中M_b为向缓冲区采样的轨迹大小，y_j表示目标价值。两个源Critic网络参数每更新k次，再对于Actor网络与三个目标网络进行更新，即为了减少一些错误的更新。Actor网络的梯度策略更新方式如下所示：

/>

网络的参数(对应本申请实施例中的第三参数集)采用软更新的方式，即在每次更新的时候不使用计算得到的新网络参数完全替代原有网络参数，采用部分更新的方式，如下所示：

μ'_n＝τμ_n+(1-τ)μ'_n

针对于预测模块来讲，本实施例使用平方差作为优化LSTM的损失函数 (对应本申请实施例中的第二损失函数值)，如下所示，在参数更新时，通过最小化损失函数进行误差反向传播来对时序模块进行优化：

其中，Y_pre为预测时延数据，Y为真实时延数据。

针对于时序关联信息提取模块(Transformer-encoder)，可引入掩膜自回归流(MAF)来对于时序关联信息提取模块进行优化，从经验池中采出历史真实状态数据与增强型状态数据的编码数据同时输入MAF，以时刻为例，在此时，智能体得到了/> 时刻的真实状态信息/>则通过MAF将得到进而可以将增强型状态空间与真实状态之间的条件概率分布由MAF的输出表示，如下所示，其中基密度函数在这里可选为标准的高斯分布。

其中为标准的高斯分布。则在进行Transformer-encoder的优化目标与评价Transformer-encoder的优化目标为最小化真实概率分布与估计概率分布之间的KL散度，损失函数值(对应本申请实施例中的第一损失函数值)可以用对数似然法来进行近似，如下文所示，之后进行误差反向传播优化相应参数即可。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于深度强化学习的无线通信网络管控方法，其特征在于，所述方法应用于通信网络控制系统，所述系统包括多个控制器、多个状态采集器和多个动作执行器，所述多个控制器之间相互连接，所述控制器分别与所述状态采集器和所述动作执行器连接；所述方法包括：

所述控制器获取当前时间戳，并根据预先存储的经验数据集对所述状态数据进行动作增强，得到所述当前时间戳对应的增强状态数据，其中，所述当前时间戳和所述获取时间戳之差为随机时延；其中，所述经验数据包括所有历史时间戳对应的动作执行数据、增强状态数据和根据奖励值确定的联合奖励值，其中，所述历史时间戳为所述当前时间戳之前的时间戳；所述状态数据包括状态个数、状态奖励值和状态折扣因子；

所述控制器根据所述状态数据中的状态个数确定所述增强状态数据对应的奖励值；包括：

响应于确定所述状态数据中的状态个数为0，所述控制器将所述增强状态数据对应的奖励值设置为0，根据如下公式计算增强状态数据s_n(t)：s_n(t)＝s_n(t-1)∪a_n(t-1)，其中，s_n(t)为第n个增强状态数据，t为所述当前时间戳，s_n(t-1)为所述经验数据集中上一个时间戳的第n个增强状态数据，a_n(t-1)为所述经验数据集中上一个时间戳的第n个动作数据，n为正整数；

响应于确定所述状态数据中的状态个数大于1，所述控制器根据所述状态数据中的状态折扣因子和所述状态奖励确定所述增强状态数据对应的奖励值，多个状态对应的时间戳集为τ＝{τ₁,τ₂,…τ_m}，所述时间戳集中，离所述当前时间戳最近的状态时间戳为τ_i，即根据如下公式计算增强状态数据s_n(t)：s_n(t)＝(o_n(τ),a_n(τ-λ+1),…,a_n(t-1))，其中，o_n(τ)为包含多个状态的状态数据，a_n(τ-λ+1)为所述经验数据集中所述动作时延对应的第n个动作数据；根据如下公式计算所述奖励值：其中，r_n(t-1)为t-1时刻的奖励值，/>为时间戳τ_i-τ_j对应的折扣因子，r_n(τ_i)为时间戳τ_i对应的第n个奖励值；

所述控制器利用预先训练好的时序关联模型对所述增强状态数据进行关联提取，得到关联表示；包括：

所述控制器利用所述时序关联模型提取所述时序表示的前后相关依赖关系，得到所述关联表示；

所述控制器采用预先训练好的预测模型根据所述经验数据集进行时间戳预测，得到预测动作时延数据并根据时间循环神经网络中的损失函数确定所述预测动作时延数据对应的损失函数值，其中，所述多个控制器中的经验数据集之间相互同步；

所述控制器控制预先训练好的智能体模型根据所述增强状态数据、所述奖励值、所述关联表示、所述预测动作时延数据和所述损失函数值通过联合优化得到动作执行数据，并将所述动作执行数据发送到所述动作执行器；

所述动作执行器根据所述动作执行数据控制所述通信网络。

2.根据权利要求1所述的方法，其特征在于，在所述动作执行器根据所述动作执行数据控制所述通信网络之后，所述方法还包括：

所述多个控制器将所述当前时间戳对应的动作执行数据、增强状态信息和根据所述奖励值确定的联合奖励值加入所述经验数据。

3.根据权利要求1所述的方法，其特征在于，所述时序关联模型的训练过程包括：

获取训练增强状态数据集；

根据序列到序列模型构建初始时序关联模型；

利用所述初始时序关联模型对所述训练增强状态数据集中的数据进行关联提取，得到训练关联表示；

4.根据权利要求3所述的方法，其特征在于，所述预测模型的训练过程包括：

获取训练经验数据集；

根据时间循环神经网络模型构建初始预测模型；

5.根据权利要求1所述的方法，其特征在于，所述智能体模型的训练过程包括：

获取训练数据集；

根据强化学习模型构建初始智能体模型；

根据所述训练动作执行数据与所述训练数据集中的目标动作数据进行平方差计算，得到第三训练损失函数值；

6.一种基于深度强化学习的无线通信网络管控装置，其特征在于，所述装置应用于通信网络控制系统，所述系统包括多个控制器、多个状态采集器和多个动作执行器，所述多个控制器之间相互连接，所述控制器分别与所述状态采集器和所述动作执行器连接；所述装置包括：

增强模块，被配置为所述控制器获取当前时间戳，并根据预先存储的经验数据集对所述状态数据进行动作增强，得到所述当前时间戳对应的增强状态数据，其中，所述当前时间戳和所述获取时间戳之间为随机时延；其中，所述经验数据包括所有历史时间戳对应的动作执行数据、增强状态数据和根据奖励值确定的联合奖励值，其中，所述历史时间戳为所述当前时间戳之前的时间戳；所述状态数据包括状态个数、状态奖励值和状态折扣因子；

确定模块，被配置为所述控制器根据所述状态数据中的状态个数确定所述增强状态数据对应的奖励值；包括：

响应于确定所述状态数据中的状态个数大于1，所述控制器根据所述状态数据中的状态折扣因子和所述状态奖励确定所述增强状态数据对应的奖励值，多个状态对应的时间戳集为τ＝{τ₁,τ₂,…τ_m}，所述时间戳集中，离所述当前时间戳最近的状态时间戳为τ_i，即根据如下公式计算增强状态数据s_n(t)：s_n(t)＝(o_n(τ)，a_n(τ-λ+1)，...，a_n(t-1))，其中，o_n(τ)为包含多个状态的状态数据，a_n(τ-λ+1)为所述经验数据集中所述动作时延对应的第n个动作数据；根据如下公式计算所述奖励值：其中，r_n(t-1)为t-1时刻的奖励值，/>为时间戳τ_i-τ_j对应的折扣因子，r_n(τ_i)为时间戳τ_i对应的第n个奖励值；

提取模块，被配置为所述控制器利用预先训练好的时序关联模型对所述增强状态数据进行关联提取，得到关联表示；包括：

预测模块，被配置为所述控制器采用预先训练好的预测模型根据所述经验数据集进行时间戳预测，得到预测动作时延数据并根据时间循环神经网络中的损失函数确定所述预测动作时延数据对应的损失函数值，其中，所述多个控制器中的经验数据集之间相互同步；

7.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至5任一所述方法。