CN115720341A

CN115720341A - 一种用于5g通道关断的方法、介质及装置

Info

Publication number: CN115720341A
Application number: CN202110969641.8A
Authority: CN
Inventors: 王迎; 杨博; 李时宇; 张乐; 章军
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2023-02-28

Abstract

本公开提供一种用于5G通道关断的方法、介质及装置。提供了一种训练用于5G通道关断的模型的方法，所述方法包括：将t时刻的状态s_t输入到t时刻的模型，以得到t时刻的关断动作a_t；将关断动作a_t输入到环境模拟器，以得到t+1时刻的状态s_t+1和t时刻的奖赏r_t；将状态s_t、奖赏r_t、关断动作a_t、状态s_t+1存入到记忆库中；以及基于从记忆库中抽取样本来训练模型，其中，状态s包括：描述当前时刻的网络状态的特征、描述历史通道关断时长和KPI劣化情况的特征、描述已选择的关断动作的频次的特征。

Description

一种用于5G通道关断的方法、介质及装置

技术领域

本公开涉及通信领域，具体而言涉及一种用于5G通道关断的方法、介质及装置。

背景技术

5G网络目前已进入商用阶段，作为新基建重要领域，5G基站也已经掀起大规模建设热潮。在网络部署初期，5G基站的功耗可以是4G基站的2-3倍。与此同时，5G商用频段相比于4G更高。因此，5G网络部署所需的站点也相对于4G网络有所增加。电费支出将随之增加，这给运营商的成本带来了极大的挑战。另一方面，在世界范围内绿色低碳发展的大背景下，节能降耗、提升网络能效是未来移动通信行业可持续发展的必经之路。

利用基站的通道关断技术，可以节约电能。现有技术的缺陷主要包括：

1)目前业界对通道关断的基站节能方法通常是针对特定场景，如铁路基站场景。通过获取铁路沿线的用户通信数据，结合空间拓扑结构，在铁路移动通信系统中，列车进入基站覆盖范围时，唤醒基站，当列车离开时，休眠基站。但对其它通道关断的节能场景，缺乏通用性。

2)基站通道关断节能技术通常为固定时段关断或者通过监督学习的方法预测基站不同时段的负载情况，人工设置负载门限，如PRB(Physical Resource Block，物理资源块)利用率门限。这种方法为保障用户感知，门限设置相对保守，节能效果有限，灵活性及实时性差。

发明内容

根据本公开的第一方面，提供了一种训练用于5G通道关断的模型的方法，所述方法包括：将t时刻的状态s_t输入到t时刻的模型，以得到t时刻的关断动作a_t；将关断动作a_t输入到环境模拟器，以得到t+1时刻的状态s_t+1和t时刻的奖赏r_t；将状态s_t、奖赏r_t、关断动作a_t、状态s_t+1存入到记忆库中；以及基于从记忆库中抽取样本来训练模型，其中，状态s包括：描述当前时刻的网络状态的特征、描述历史通道关断时长和KPI(Key PerformanceIndicator，关键性能指标)劣化情况的特征、描述已选择的关断动作的频次的特征。

根据本公开的第二方面，提供了一种更新用于5G通道关断的模型的方法，所述方法包括：将基于根据本公开的第一方面所述的方法得到的模型得到的关断动作下发到小区；将所述关断动作下在实际环境中得到的数据作为样本来训练当前值网络EvalNet，以得到更新的模型，其中，所述训练的损失函数基于t时刻的当前值网络EvalNet的输出、奖赏r_t和目标值网络TargetNet的输出。

根据本公开的第三方面，提供了一种用于5G通道关断的方法，包括：基于根据本公开的第一方面或第二方面所述的方法得到的模型，得到通道的关断动作。

根据本公开的第四方面，提供了一种用于5G通道关断的模型的装置，所述装置包括：智能体，所述智能体被配置为：将t时刻的状态s_t输入到t时刻的模型，以得到t时刻的关断动作a_t，将状态s_t、奖赏r_t、关断动作a_t、状态s_t+1存入到记忆库中，以及基于从记忆库中抽取样本来训练模型；环境模拟器，所述环境模拟器被配置为将关断动作a_t输入到环境模拟器，以得到t+1时刻的状态s_t+1和t时刻的奖赏r_t；其中，状态s包括：描述当前时刻的网络状态的特征、描述历史通道关断时长和KPI劣化情况的特征、描述已选择的关断动作的频次的特征。

根据本公开的第五方面，提供了一种用于5G通道关断的装置，包括根据本公开的第四方面所述的装置，所述装置被配置为基于模型得到通道的关断动作。

根据本公开的第六方面，提供了一种非暂态计算机可读存储介质，其上存储有程序，其特征在于，当所述程序由计算机执行时，使所述计算机执行根据本公开的第一方面、第二方面或第三方面所述的方法。

根据本公开的第七方面，提供了一种用于5G通道关断的装置，包括存储器和处理器，所述存储器与所述处理器通信耦合，所述存储器中存储有程序，所述程序当由处理器执行时，使得所述处理器执行根据本公开的第一方面、第二方面或第三方面所述的方法。

根据本公开的第八方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现根据本公开的第一方面、第二方面或第三方面所述的方法。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得更为清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是图示根据本公开的实施例的装置的示意图；

图2是图示根据本公开的实施例的方法的流程图；

图3示出了可以实现根据本公开的实施例的计算设备的示例性配置。

具体实施方式

下面将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。也就是说，本文中的结构及方法是以示例性的方式示出，来说明本公开中的结构和方法的不同实施例。然而，本领域技术人员将会理解，它们仅仅说明可以用来实施的本公开的示例性方式，而不是穷尽的方式。此外，附图不必按比例绘制，一些特征可能被放大以示出具体组件的细节。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

针对以上问题，本发明提出一种基于深度强化学习的5G通道关断方法、装置与系统，可以针对不同小区在不同的时间段的负载情况及无线KPI指标提供不同颗粒度的通道关断方案，以预防通道关断带来的用户性能感知劣化；同时，在维持KPI指标稳定的情况下，通过深度强化学习的方法，定时与网管交互，自动寻优关断阈值，优化模型参数，调整通道关断方案，从而使节约能耗最大化。

图1是图示根据本公开的实施例的基于深度强化学习的装置的示意图。该装置可以包括智能体(Agent)和环境模拟器(Environment)，构成基于智能体与环境模拟器的交互训练模型。其中，智能体可以包括神经网络模型，可用于基于经训练的该模型得到5G通道的关断动作。具体而言，智能体可以包括记忆库(memory)、当前值网络EvalNet、目标值网络TargetNet以及用于训练的损失函数。环境模拟器可以被配置为模拟真实的小区，可用于基于t时刻的关断动作a_t模拟得到下一步的t+1时刻的状态s_t+1和t时刻的奖赏r_t。

利用如图1所示的装置进行5G通道的关断的方法可以包括如下步骤。

步骤1：每隔一段时间(作为非限制性示例，每隔一周)通过网管下发不同的通道关断动作，通过网管查询或采集每种通道关断动作下的数据，并存储该数据。

作为非限制性示例，在根据本公开的实施例中，通道关断动作可以包括：不关断、关断16通道、关断24通道、关断48通道。在根据本公开的实施例中，数据可以存储在装置本地的数据库中，也可以存储在不在装置本地的其他存储装置中。在根据本公开的实施例中，数据可以包括KPI数据、负载数据与关断时长数据，诸如，基站小区ID、采集时间(小时粒度)、RF通道关断时长、上行PRB平均利用率、下行PRB平均利用率、平均RRC连接数、最大RRC连接数、CQI0～6占比等，其中，上行PRB平均利用率、下行PRB平均利用率、平均RRC连接数、最大RRC连接数、CQI0～6占比属于KPI数据。

步骤2：进行离线的深度强化学习，以得到用于5G通道关断的模型。

1.结合通道关断的基站节能场景，构造离散策略的MDP(Markov DecisionProcess，马尔可夫决策过程)四元组：<状态S，动作A，状态转移概率P，奖赏函数R>。

1)奖赏函数R(Reward)：

奖赏函数R中的正向反馈是根据小区通道关断时长(oft_t)设计的，负向反馈是根据KPI劣化情况(cqi_t)设计的，其中，t时刻的KPI劣化判断可以如下式：

其中，kpi_det_t是描述t时刻的KPI劣化情况的特征；cqi_t代表t时刻的信道质量情况，其数值越高，则表明KPI越差；avg(cqi)和std(cqi)分别为cqi历史数据的均值和标准差。如果cqi_t超过cqi历史数据的均值超过3-sigma(标准差)，则判断KPI劣化，将kpi_det_t设置为1；否则，判断KPI未劣化，将kpi_det_t设置为0。

奖赏函数R_t可以如下式：

R_t＝W_oftoft_t-W_kpikpi_det_t，

其中，W_oft为通道关断时长的权重，W_kpi为KPI劣化的权重。

2)动作A(Action)：

通道关断可以通过网管设置不同的颗粒度的通道关断动作以实现节能。在根据本公开的实施例中，可以设置4个动作：<不关断、关断16通道、关断24通道、关断48通道>，分别记为<0,1,2,3>。应注意的是，可以设置的动作不限于此，而是可以根据需要灵活设置。

3)状态S(Status)：

为提高模型收敛速度，状态S的特征设计主要包含三个维度：①当前时刻网络状态的描述特征，诸如，t-1时刻的平均RRC连接数、过去一天平均RRC连接数的均值等等；②围绕奖赏函数R_t的公式，基于历史数据的通道关断时长和KPI劣化情况等的特征，诸如，过去一天的通道关断时长均值、过去一周相同时刻的kpi_det均值等等；③记录已选择的每种动作的次数，诸如，不关断频次、关断24通道频次等等。

4)状态转移概率P(Probability)：

借鉴ε-greedy的思想，每次尝试时：以ε的概率进行探索，以均匀概率随机选取动作作为下一步的动作；以1-ε的概率选取当前的神经网络的输出作为下一步的动作。t时刻的状态转移概率P的公式可以如下式：

其中，NET标识当前的神经网络模型，θ_t为NET模型的模型参数，rand为取值范围在[0，1]之间的随机数。

在不同关断动作下采集KPI数据与关断时长数据，以模拟现网环境生成环境模拟器，使得在提供当前状态与当前动作后，环境模拟器可以提供小区的下一步状态。

2.生成环境模拟器，t时刻，小区当前状态为s_t，关断动作为a_t，将s_t与a_t输入到环境模拟器，环境模拟器模拟真实小区的状态，输出小区执行关断动作a_t后在t+1时刻的小区的状态s_t+1与执行关断动作a_t产生的奖赏r_t，即：

s_t+1,r_t＝Environment(s_t,a_t)。

具体方法为：选定时间周期，通过网管对相同范围的小区下发不同的关断动作，采集得到不同动作下的网络状态集，根据智能体(Agent)输出的动作a_t，找到对应的网络状态集，提取当前动作a_t对应的通道关断时长与cqi_t生成t时刻的奖赏r_t，并根据步骤1中状态Status的特征向量创建方法，生成下一步状态特征向量s_t+1。

3.训练离线的深度强化学习的模型RLNet，深度强化学习模型通过Agent与Environment之间的持续交互优化网络参数。参见图1，Agent中包含两个结构相同但参数不同的神经网络：目标值网络(TargetNet)与当前值网络(EvalNet)，其中，EvalNet具有最新的参数，TargetNet的参数相对滞后。每隔一定步数后，将EvalNet的参数全部施加到TargetNet中。在记忆库(Memory)中记录(s_t,r_t,a_t,s_t+1)。在根据本公开的实施例中，可以定时删除旧的记忆记录。神经网络基于从Memory中读取Mini-Batch的记录进行训练。

这种切断记忆相关性的方法可以使得神经网络能够更有效率地进行学习。结合基于通道关断的节能场景，由于离线强化学习的中的s_t+1来自小区的环境模拟器，而非真实的现网环境，因此在计算损失函数时得以切断下一步动作的带来的影响，仅考虑当前动作的奖惩。离线神经网络的训练损失函数可以如下式：

多次迭代后，可以取最新的EvalNet的参数作为当前的模型RLNet的参数。

4.将一部分数据作为训练集，另一部分数据作为测试集，迭代训练模型。作为非限制性示例，可以将周一至周五的数据作为训练集，将周六的数据作为测试集；设置迭代次数＝10*24，用两周中的10天的数据来训练模型，用两周中的2天的数据来测试模型。模型训练的迭代过程如下：

Loop{

a_t＝RLNet(s_t；θ_t)

s_t+1,r_t＝Evironment(a_t)

Memmory.add([s_t,a_t,r_t,s_t+1])

RLNet.learn(Memmory)

}。

即，根据t时刻的RLNet模型，输入t时刻的状态向量s_t，RLNet模型输出对应的t时刻的动作a_t；环境根据t时刻的动作输出该动作对应对奖惩以及t+1时刻的状态；将(s_t,r_t,a_t,s_t+1)存入记忆库；每隔k步，RLNet模型从记忆库中抽取样本训练神经网络。

步骤3：根据深度神经网络模型输出的每个小区通道关断动作，通过网管将通道关断动作下发至gNB基站小区以生效。

步骤4：经过一段时间后，将该段时间在下发通道关断动作后采集得到的数据存入数据库。数据可以包括例如小区负载、KPI、关断时长等数据，包含字段：基站小区ID、采集时间(小时粒度)、RF通道关断时长、上行PRB平均利用率、下行PRB平均利用率、平均RRC连接数、最大RRC连接数、CQI0～6占比、通道关断动作等。

步骤5：进行在线的模型更新。模型更新可以包括如下步骤：离线深度强化学习模型读取步骤4中的数据，随时间生成状态向量s_t，输出对应的动作a_t；再通过网管下发通道关断动作a_t后，重复步骤4，计算相应的奖赏r_t，并基于这些数据以离线神经网络参数为基础，增量优化深度强化学习模型，其中，当前的Environment是现网环境的实际网络，而非环境模拟器。可以在损失函数中增加下一步状态s_t+1的奖惩情况，故用于模型更新的损失函数可以如下式：

其中，γ为衰减因子，表示TargetNet的奖励会随着时间而逐渐衰减。

图2是图示根据本公开的实施例的方法的流程图。如图2所示，在S201处，可以将t时刻的状态s_t输入到t时刻的模型RLNet，以得到t时刻的关断动作a_t；在S202处，可以将关断动作a_t输入到环境模拟器，以得到t+1时刻的状态s_t+1和t时刻的奖赏r_t；在S203处，可以将状态s_t、奖赏r_t、关断动作a_t、状态s_t+1存入到记忆库中；以及在S204处，可以基于从记忆库中抽取样本来训练模型RLNet。

图3示出了能够实现根据本公开的实施例的计算设备300的示例性配置。

计算设备300是能够应用本公开的上述方面的硬件设备的实例。计算设备300可以是被配置为执行处理和/或计算的任何机器。计算设备300可以是但不限制于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数据助手(PDA)、智能电话、车载计算机或以上组合。

如图3所示，计算设备300可以包括可以经由一个或多个接口与总线302连接或通信的一个或多个元件。总线302可以包括但不限于，工业标准架构(Industry StandardArchitecture，ISA)总线、微通道架构(Micro Channel Architecture，MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及外设组件互连(PCI)总线等。计算设备300可以包括例如一个或多个处理器304。一个或多个处理器304可以是任何种类的处理器，并且可以包括但不限于一个或多个通用处理器或专用处理器(诸如专用处理芯片)。处理器例如可以被配置为实现如前文所述的方法。

计算设备300还可以包括或被连接至非暂态存储设备314，该非暂态存储设备314可以是任何非暂态的并且可以实现数据存储的存储设备，并且可以包括但不限于盘驱动器、光存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁性介质、压缩盘或任何其他光学介质、缓存存储器和/或任何其他存储芯片或模块、和/或计算机可以从其中读取数据、指令和/或代码的其他任何介质。计算设备300还可以包括随机存取存储器(RAM)310和只读存储器(ROM)312。ROM 312可以以非易失性方式存储待执行的程序、实用程序或进程。RAM 310可提供易失性数据存储，并存储与计算设备300的操作相关的指令。可单独地或以任何组合方式来使用前述实施方案的各个方面、实施方案、具体实施或特征。可由软件、硬件或硬件与软件的组合来实现前述实施方案的各个方面。

例如，前述实施方案可体现为计算机可读介质上的计算机可读代码。计算机可读介质为可存储数据的任何数据存储设备，所述数据其后可由计算机系统读取。计算机可读介质的示例包括只读存储器、随机存取存储器、CD-ROM、DVD、磁带、硬盘驱动器、固态驱动器和光学数据存储设备。计算机可读介质还可分布在网络耦接的计算机系统中使得计算机可读代码以分布式方式来存储和执行。

例如，前述实施方案可采用硬件电路的形式。硬件电路可以包括组合式逻辑电路、时钟存储设备(诸如软盘、触发器、锁存器等)、有限状态机、诸如静态随机存取存储器或嵌入式动态随机存取存储器的存储器、定制设计电路、可编程逻辑阵列等的任意组合。

在一个实施方案中，可以通过用诸如Verilog或VHDL的硬件描述语言(HDL)编码和设计一个或多个集成电路或者结合使用离散电路来实现根据本公开的硬件电路。

综上所述，根据本公开的第一方面，提供了一种训练用于5G通道关断的模型的方法，所述方法包括：将t时刻的状态s_t输入到t时刻的模型，以得到t时刻的关断动作a_t；将关断动作a_t输入到环境模拟器，以得到t+1时刻的状态s_t+1和t时刻的奖赏r_t；将状态s_t、奖赏r_t、关断动作a_t、状态s_t+1存入到记忆库中；以及基于从记忆库中抽取样本来训练模型，其中，状态s包括：描述当前时刻的网络状态的特征、描述历史通道关断时长和KPI劣化情况的特征、描述已选择的关断动作的频次的特征。

在根据本公开的实施例中，智能体包括当前值网络EvalNet；并且所述训练包括基于从记忆库中抽取样本来训练当前值网络EvalNet，其中，t时刻的模型的参数更新为t时刻的当前值网络EvalNet的参数。

在根据本公开的实施例中，所述智能体还包括目标值网络TargetNet，其中，所述目标值网络TargetNet与所述当前值网络EvalNet结构相同；并且每隔一定步数将目标值网络TargetNet的参数更新为当前值网络EvalNet的参数。

在根据本公开的实施例中，所述训练的损失函数仅基于t时刻的当前值网络EvalNet的输出和奖赏r_t。

在根据本公开的实施例中，所述智能体包括当前值网络EvalNet；并且所述训练包括基于从记忆库中抽取样本来训练当前值网络EvalNet，其中，t时刻的模型的参数更新为t时刻的当前值网络EvalNet的参数。

在根据本公开的实施例中，所述智能体还包括目标值网络TargetNet，其中，所述目标值网络TargetNet与所述当前值网络EvalNet结构相同；并且所述智能体还被配置为每隔一定步数将目标值网络TargetNet的参数更新为当前值网络EvalNet的参数。

在根据本公开的实施例中，所述装置被配置为：将基于模型得到的关断动作下发到小区；将所述关断动作下在实际环境中得到的数据作为样本来训练当前值网络EvalNet，以得到更新的模型，其中，所述训练的损失函数基于t时刻的当前值网络EvalNet的输出、奖赏r_t和目标值网络TargetNet的输出。

本公开首先对接网管，下发不同的通道关断命令，查询或采集不同的KPI数据、负载数据与关断时长数据，存入数据库；然后实现离线深度强化模型，根据不同策略下采集到的KPI数据与关断时长数据模拟现网环境，设计强化学习四元组与小区环境模拟器，并训练深度强化学习离线模型，使模型误差稳定在一个确定区间为止；生成离线模型后，从网管获取小区当前网络数据，生成状态向量，传入离线强化学习模型，得到当前每个小区的通道关断动作策略，下发至基站生效；每隔一段时间采集一次小区的最新的负载数据、KPI数据与关断时长数据，更新至数据库，从而基于已有的深度网络增量优化更新深度强化学习模型。

和现有技术相比，根据本公开的方法和装置的优势包括：针对不同小区在不同的时间段的负载情况及无线KPI指标，提供不同颗粒度的通道关断方案，预防通道关断带来的的用户性能感知劣化；在维持KPI指标稳定的情况下，通过深度强化学习的方法，定时与网管交互，自动寻优关断阈值，优化模型参数，调整通道关断方案，使节约能耗最大化。

本公开基于通道关断基站节能场景，提供了通用的解决方案。可以分别提供在离线状态下以及在线状态下，通道关断的基站节能场景与深度强化学习的模型参数的训练方法及系统设计，能够根据现网环境变化不断迭代优化，并在节能效果与KPI指标中逐渐寻找平衡，使KPI在稳定状态下，最优化节能效果。

虽然已通过示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意图是说明性的而不限制本发明的范围。应该认识到的是，前述方法中的一些步骤不一定按照图示的顺序执行，而是它们可以被同时、以不同顺序或以重叠方式执行。此外，本领域技术人员可以根据需要增加一些步骤或省略一些步骤。前述系统中的一些部件不是必须按照图示的布置，本领域技术人员可以根据需要增加一些部件或省略一些部件。本领域技术人员应该理解，上述实施例可以在不脱离本发明的范围和实质的情况下被修改。本发明的范围是通过所附的权利要求限定的。

Claims

1.一种训练用于5G通道关断的模型的方法，所述方法包括：

将t时刻的状态s_t输入到t时刻的模型，以得到t时刻的关断动作a_t；

将关断动作a_t输入到环境模拟器，以得到t+1时刻的状态s_t+1和t时刻的奖赏r_t；

将状态s_t、奖赏r_t、关断动作a_t、状态s_t+1存入到记忆库中；以及

基于从记忆库中抽取样本来训练模型，

其中，状态s包括：描述当前时刻的网络状态的特征、描述历史通道关断时长和KPI劣化情况的特征、描述已选择的关断动作的频次的特征。

2.根据权利要求1所述的方法，其中：

智能体包括当前值网络EvalNet；并且

所述训练包括基于从记忆库中抽取样本来训练当前值网络EvalNet，

其中，t时刻的模型的参数更新为t时刻的当前值网络EvalNet的参数。

3.根据权利要求2所述的方法，其中：

所述智能体还包括目标值网络TargetNet，其中，所述目标值网络TargetNet与所述当前值网络EvalNet结构相同；并且

每隔一定步数将目标值网络TargetNet的参数更新为当前值网络EvalNet的参数。

4.根据权利要求2所述的方法，其中，

所述训练的损失函数仅基于t时刻的当前值网络EvalNet的输出和奖赏r_t。

5.一种更新用于5G通道关断的模型的方法，所述方法包括：

将基于根据权利要求1-4中任一项所述的方法得到的模型得到的关断动作下发到小区；

将所述关断动作下在实际环境中得到的数据作为样本来训练当前值网络EvalNet，以得到更新的模型，

其中，所述训练的损失函数基于t时刻的当前值网络EvalNet的输出、奖赏r_t和目标值网络TargetNet的输出。

6.一种用于5G通道关断的方法，包括：基于根据权利要求1-5中任一项所述的方法得到的模型，得到通道的关断动作。

7.一种用于5G通道关断的模型的装置，所述装置包括：

智能体，所述智能体被配置为：

将t时刻的状态s_t输入到t时刻的模型，以得到t时刻的关断动作a_t，

将状态s_t、奖赏r_t、关断动作a_t、状态s_t+1存入到记忆库中，以及

基于从记忆库中抽取样本来训练模型；

环境模拟器，所述环境模拟器被配置为将关断动作a_t输入到环境模拟器，以得到t+1时刻的状态s_t+1和t时刻的奖赏r_t；

8.根据权利要求7所述的装置，其中，

所述智能体包括当前值网络EvalNet；并且

9.根据权利要求8所述的装置，其中：

所述智能体还被配置为每隔一定步数将目标值网络TargetNet的参数更新为当前值网络EvalNet的参数。

10.根据权利要求8所述的装置，其中，

11.根据权利要求7-10中的任一项所述的装置，所述装置被配置为：

将基于模型得到的关断动作下发到小区；

12.一种用于5G通道关断的装置，包括根据权利要求7-11中任一项所述的装置，所述装置被配置为基于模型得到通道的关断动作。

13.一种非暂态计算机可读存储介质，其上存储有程序，其特征在于，当所述程序由计算机执行时，使所述计算机执行根据权利要求1-6中的任一项所述的方法。

14.一种用于5G通道关断的装置，包括存储器和处理器，所述存储器与所述处理器通信耦合，所述存储器中存储有程序，所述程序当由处理器执行时，使得所述处理器执行根据权利要求1-6中的任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现根据权利要求1-6中的任一项所述的方法。