CN114697974B

CN114697974B - 网络覆盖优化方法、装置、电子设备及存储介质

Info

Publication number: CN114697974B
Application number: CN202011565398.5A
Authority: CN
Inventors: 常世元; 李高盛; 徐溪明; 李玉诗; 张斌
Original assignee: Datang Mobile Communications Equipment Co Ltd
Current assignee: Datang Mobile Communications Equipment Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2024-03-08
Anticipated expiration: 2040-12-25
Also published as: CN114697974A

Abstract

本申请实施例提供了一种网络覆盖优化方法、装置、电子设备及存储介质，涉及网络通信技术领域。该方法包括：获取至少一个小区的天馈参数；将天馈参数输入至预先训练的网络覆盖优化模型，获得网络覆盖优化模型输出的天馈参数的增量；根据天馈参数的增量对天馈参数进行调整；其中，网络覆盖优化模型通过DDPG深度确定性策略梯度算法，以至少一个样本小区的天馈参数作为状态值、以至少一个样本小区的天馈参数的增量作为动作值以及以网络覆盖质量为奖励值训练而成。本申请实施例能够复杂度小，并且能够支持多小区多种天馈参数同时调整以达到通信网络最优化。

Description

网络覆盖优化方法、装置、电子设备及存储介质

技术领域

本申请涉及网络通信技术领域，具体而言，本申请涉及一种网络覆盖优化方法、装置、电子设备及存储介质。

背景技术

在移动通信系统中，采用多基站、多小区共同组网解决连续覆盖的问题，不仅要求最小化弱覆盖和重叠覆盖对通信系统造成的影响，而且要求最小化网络结构干扰。从基站小区的角度，影响网络覆盖和干扰的主要因素包括天馈参数中的小区方向角、下倾角以及发射功率等。目前采用的主要方案有如下几种：

1、以专家经验为主对天馈参数进行反复调整，期望达到预期效果，首先，此种方法以经验为基础调整天馈参数完成干扰及覆盖优化成本高，且不一定能达到预期效果。

2、使用如遗传算法，粒子群算法等启发式算法进行天馈参数的优化，此种方法复杂度高，搜索速度慢，且不一定能够找到全局最优解；最后使用粒子群算法完成干扰及覆盖优化，容易陷入局部最优，导致效果差，精度低。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的网络覆盖优化方法、装置、电子设备及存储介质。

第一方面，提供了一种网络覆盖优化方法，该方法包括：

获取至少一个小区的天馈参数；

将天馈参数输入至预先训练的网络覆盖优化模型，获得网络覆盖优化模型输出的天馈参数的增量；

根据天馈参数的增量对天馈参数进行调整；

其中，网络覆盖优化模型通过DDPG深度确定性策略梯度算法，以至少一个样本小区的天馈参数作为状态值、以至少一个样本小区的天馈参数的增量作为动作值以及以网络覆盖质量为奖励值训练而成，网络覆盖质量为利用动作值调整状态值后，至少一个小区的网络覆盖质量。

在一个可能的实现方式中，训练完成前的网络覆盖优化模型包括动作子模型和评价子模型；

网络覆盖优化模型的训练方法包括，通过DDPG深度确定性策略梯度算法对网络覆盖优化模型进行迭代训练：

对于任意一次迭代，获取当前时刻的初始状态值，根据初始状态值生成样本集，样本集中的每个样本包括对应时刻的状态值、动作值、奖励值以及对应时刻的下一时刻的状态值；

将预设数量的样本中包括的状态值和动作值输入至当前迭代的评价子网络，获得评价子网络输出的样本对应时刻的期望奖励值；

根据预设数量的样本对应的期望奖励值更新动作子模型中的参数，根据预设数量的样本中的奖励值和对应时刻的期望奖励值更新评价子模型中的参数，直至迭代次数达到预设阈值或网络覆盖优化模型中的参数迭代至收敛；

保留训练完成后的网络覆盖优化模型中的动作子模型，作为预先训练的网络覆盖优化模型；

其中，对应时刻的动作值由将对应时刻的状态值输入至当前迭代的动作子模型后，动作子模型的输出获得；对应时刻的下一时刻的状态值为根据对应时刻的动作值调整对应时刻的状态值后的状态值；对应时刻的奖励值为将对应时刻的下一时刻的状态值输入至环境仿真平台后，环境仿真平台的输出。

在一个可能的实现方式中，根据预设数量的样本对应的期望奖励值更新动作子模型中的参数，包括：

对预设数量的样本的期望奖励值进行求和，将求和后平均值的负值作为动作子模型的目标函数；

以最小化动作子模型的目标函数为目标，更新动作子模型中的参数，获得本次迭代后的动作子模型的参数。

在一个可能的实现方式中，根据预设数量的样本中的奖励值和对应时刻的期望奖励值更新评价子模型中的参数，包括：

根据每个样本的状态值和动作值确定每个样本对应时刻的下一时刻的状态值和动作值，将每个样本对应时刻的下一时刻的状态值和动作值输入至当前迭代的评价子网络，获得评价子网络输出的每个样本对应时刻的下一时刻期望奖励值；

根据每个样本中包括的奖励值以及每个样本对应时刻的下一时刻期望奖励值求和，获得累计奖励，计算累加奖励与样本对应时刻的期望奖励值的差值的平方，作为每个样本的期望偏差；

根据预设数量的样本的期望偏差的平均值，获得评价子模型的目标函数；

以最小化评价子模型的目标函数为目标，更新评价子模型中的参数，获得本次迭代后的评价子模型的参数。

在一个可能的实现方式中，通过DDPG深度确定性策略梯度算法对网络覆盖优化模型进行迭代训练，还包括：

对于任意一次迭代，将上一次迭代的初始状态值作为当前迭代的初始状态值；将上一次迭代后更新的网络覆盖优化模型的参数作为当前迭代的网络覆盖优化模型的待训练的参数；或者

对于任意一次迭代，将上一次迭代调整后的状态值作为本次迭代的初始状态值，将上一次迭代后更新的网络覆盖优化模型的参数作为当前迭代的网络覆盖优化模型的待训练的参数。

在一个可能的实现方式中，将对应时刻的状态值输入至当前迭代的动作子模型，获得动作子模型输出的原始动作值；

将原始动作值作为本次迭代的均值；减小上一次迭代采用的方差，获得本次迭代采用的方差；

根据本次迭代的均值和方差，利用高斯分布进行随机采样，将采样结果作为对应时刻的动作值。

在一个可能的实现方式中，将天馈参数输入至预先训练的网络覆盖优化模型，之前还包括：

对天馈参数进行归一化处理。

在一个可能的实现方式中，根据天馈参数的增量对天馈参数进行调整，包括：

根据天馈参数的增量对天馈参数进行调整，获得初步调整后的天馈参数；

若确定初步调整后的天馈参数超过预设范围，则根据初步调整后的天馈参数超出预设范围的部分，将初步调整后的天馈参数调整至预设范围内，获得最终调整后的天馈参数；

若确定初步调整后的天馈参数未超过预设范围，则将初步调整后的天馈参数作为最终调整后的天馈参数。

在一个可能的实现方式中，网络覆盖质量根据至少一个样本小区中用户终端的信噪比和参考信号接收功率获得。

在一个可能的实现方式中，网络覆盖质量的获取方法包括：

确定至少一个样本小区中用户终端的信噪比的最大值和最小值以及参考信号接收功率的最大值和最小值；

根据信噪比和参考信号接收功率的最大值和最小值，确定信噪比范围和参考信号接收功率的范围；

计算至少一个样本小区中每个用户终端的信噪比与信噪比最小值的差值，结合信噪比范围进行加权求和，获得第一网络覆盖质量分量；计算至少一个样本小区中每个用户终端的参考信号接收功率与参考信号接收功率最小值的差值，结合参考信号接收功率范围进行加权求和，获得第二网络覆盖质量分量；

根据第一网络覆盖质量分量和第二网络覆盖质量分量获得网络覆盖质量。

第二方面，提供了一种网络覆盖优化装置，其特征在于，包括：

天馈参数获取模块，用于获取至少一个小区的天馈参数；

增量获取模块，用于将天馈参数输入至预先训练的网络覆盖优化模型，获得网络覆盖优化模型输出的天馈参数的增量；

调整模块，用于根据天馈参数的增量对天馈参数进行调整；

网络覆盖优化装置还包括用于通过DDPG深度确定性策略梯度算法对网络覆盖优化模型进行迭代训练的模型训练模块；

模型训练模块包括：

样本生成子模块，用于对于任意一次迭代，获取当前时刻的初始状态值，根据初始状态值生成预设数量的样本，每个样本包括对应时刻的状态值、动作值、奖励值以及对应时刻的下一时刻的状态值；对应时刻的动作值由将对应时刻的状态值输入至当前迭代的动作子模型后，动作子模型的输出获得；对应时刻的下一时刻的状态值为根据对应时刻的动作值调整对应时刻的状态值后的状态值；对应时刻的奖励值为将对应时刻的下一时刻的状态值输入至环境仿真平台后，环境仿真平台的输出；

期望奖励值获取子模块，用于将预设数量的样本中每个样本包括的状态值和动作值输入至当前迭代的评价子网络，获得评价子网络输出的每个时刻的期望奖励值；

参数调整子模块，用于根据预设数量的样本对应的期望奖励值更新动作子模型中的参数，根据预设数量的样本中的奖励值和对应时刻的期望奖励值更新评价子模型中的参数，直至迭代次数达到预设阈值或网络覆盖优化模型中的参数迭代至收敛；

模型保留模块，用于保留训练完成后的网络覆盖优化模型中的动作子模型，作为预先训练的网络覆盖优化模型。

在一个可能的实现方式中，参数调整子模块包括用于更新动作子模型中的参数的动作参数更新单元，动作参数更新单元包括：

第一目标函数构建单元，用于对预设数量的样本的期望奖励值进行求和，将求和后平均值的负值作为动作子模型的目标函数；

第一更新单元，用于以最小化动作子模型的目标函数为目标，更新动作子模型中的参数，获得本次迭代后的动作子模型的参数。

在一个可能的实现方式中，参数调整子模块包括用于更新评价子模型中的参数的评价参数更新单元，评价参数更新单元包括：

下时刻期望奖励计算单元，用于根据每个样本的状态值和动作值确定每个样本对应时刻的下一时刻的状态值和动作值，将每个样本对应时刻的下一时刻的状态值和动作值输入至当前迭代的评价子网络，获得评价子网络输出的每个样本对应时刻的下一时刻期望奖励值；

期望偏差计算单元，用于根据每个样本中包括的奖励值以及每个样本对应时刻的下一时刻期望奖励值求和，获得累计奖励，计算累加奖励与样本对应时刻的期望奖励值的差值的平方，作为每个样本的期望偏差；

第二目标函数构建单元，用于根据预设数量的样本的期望偏差的平均值，获得评价子模型的目标函数；

第二更新单元，用于以最小化评价子模型的目标函数为目标，更新评价子模型中的参数，获得本次迭代后的评价子模型的参数。

在一个可能的实现方式中，模型训练模块包括准备模块，准备模块具体用于：

在一个可能的实现方式中，样本生成子模块还包括用于获得对应时刻的动作值的动作值获取单元，动作值获取单元包括：

原始动作值获取单元，用于将对应时刻的状态值输入至当前迭代的动作子模型，获得动作子模型输出的原始动作值；

均值方差确定单元，用于将原始动作值作为本次迭代的均值；减小上一次迭代采用的方差，获得本次迭代采用的方差；

采样单元，用于根据本次迭代的均值和方差，利用高斯分布进行随机采样，将采样结果作为对应时刻的动作值。

在一个可能的实现方式中，网络覆盖优化装置还包括：

归一化处理模块，用于在将天馈参数输入至预先训练的网络覆盖优化模型之前，对天馈参数进行归一化处理。

在一个可能的实现方式中，调整模块包括：

初步调整子模块，用于根据天馈参数的增量对天馈参数进行调整，获得初步调整后的天馈参数；

最终调整子模块，用于若确定初步调整后的天馈参数超过预设范围，则根据初步调整后的天馈参数超出预设范围的部分，将初步调整后的天馈参数调整至预设范围内，获得最终调整后的天馈参数；若确定初步调整后的天馈参数未超过预设范围，则将初步调整后的天馈参数作为最终调整后的天馈参数。

在一个可能的实现方式中，网络覆盖优化装置还包括：用于获取网络覆盖质量的的网络覆盖获取模块；网络覆盖获取模块包括：

极值确定子模块，用于确定至少一个样本小区中用户终端的信噪比的最大值和最小值以及参考信号接收功率的最大值和最小值；

范围确定子模块，用于根据信噪比和参考信号接收功率的最大值和最小值，确定信噪比范围和参考信号接收功率的范围；

质量分量获取子模块，用于计算至少一个样本小区中每个用户终端的信噪比与信噪比最小值的差值，结合信噪比范围进行加权求和，获得第一网络覆盖质量分量；计算至少一个样本小区中每个用户终端的参考信号接收功率与参考信号接收功率最小值的差值，结合参考信号接收功率范围进行加权求和，获得第二网络覆盖质量分量；

汇总模块，用于根据第一网络覆盖质量分量和第二网络覆盖质量分量获得网络覆盖质量。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

第五方面，本发明实施例提供一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，当计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行实现如第一方面所提供的方法的步骤。

本发明实施例提供的网络覆盖优化方法、装置、电子设备及存储介质，通过DDPG算法确定小区的天馈参数的增量，并根据增量对天馈参数进行调整，实现网络覆盖优化，和现有技术相比，不需要对天馈参数进行离散化预处理，模型可直接输出连续的增量(动作)，并且输出动作对应每个小区的每个天馈参数，复杂度小；并且能够支持多小区多种天馈参数同时调整以达到通信网络最优化，并且通过调整具体的奖励值，即可迅速适应对其他优化问题，例如容量优化、资源配置、调度等问题，具体较高的适应能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的网络覆盖优化方法的应用场景示意图；

图2为本申请实施例提供的网络覆盖优化方法的流程示意图；

图3为本申请实施例提供的DDPG模型的网络结构的结构示意图；

图4为本申请另一个实施例提供的网络覆盖优化方法的流程示意图；

图5为本申请实施例提供的环境模型的结构示意图；

图6为本申请实施例提供的网络覆盖优化模型的训练流程图；

图7为本申请实施例提供的动作子模型的结构示意图；

图8为本申请实施例提供的评价子模型的结构示意图；

图9为本申请实施例提供的一种网络覆盖优化装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本申请提供的网络覆盖优化方法、装置、电子设备及存储介质，旨在解决现有技术的如上技术问题。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍。

DDPG(深度确定性策略梯度，Deep Deterministic Policy Gradient)算法，DDPG算法由两部分组成：

环境(environment)，指的是智能体执行动作时所处的场景，在本申请实施例中，环境是指环境仿真平台，环境仿真平台能够仿真出网络覆盖范围内多个小区的工作状态以及用户终端在小区内的通信质量。

智能体(agent)，表示执行DDPG算法的装置，在本申请实施例中，是指网络覆盖优化模型，智能体用于不断更新可调工参，以找到能够使区域网络干扰和覆盖最优化的可调工参。

环境首先向智能体发送一个状态，然后智能体基于其知识采取动作来响应该状态。之后，环境发送下一个状态，并把奖励返回给智能体。智能体用环境所返回的奖励来更新其知识，对上一个动作进行评估。这个循环一直持续，直到环境发送终止状态来结束这个事件。

动作(A)：智能体可以采取的所有可能的行动，在本申请实施例中是指小区的天馈参数的增量。

状态(S)：环境返回的当前情况，在本申请实施例中是指小区的天馈参数，例如方向角、功率等等。

奖励(R)：环境的即时返回值，以评估智能体的上一个动作，本申请实施例中是指在根据增量调整小区的天馈参数后，小区内的网络覆盖质量。

策略(π)：智能体根据当前状态决定下一步动作的策略。

价值(V)：折扣(discount)下的长期期望返回，与R代表的短期返回相区分。Vπ(s)则被定义为策略π下当前状态s的期望长期返回值。

Q值或行动值(Q)：Q值与价值相似，不同点在于它还多一个参数，也就是当前动作a。Qπ(s,a)指当前状态s在策略π下采取动作a的长期回报。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供一种网络覆盖优化方法，该方法适用于4G(the 4thgeneration mobile communication technology，第四代移动通信技术)或5G(5thgeneration wireless systems，第五代移动通信技术)的无线网络环境，并且可预见同样适用于6G(6th generation mobile networks)无线网络环境。需要注意的是，由于5G系统中的基站要远远多于4G系统中的基站，基站覆盖的小区更加复杂，对于网络覆盖优化的控制难度更高，因此本申请实施例在5G无线网络环境下具有更高的实用性。

请参阅图1，其示例性地示出了本申请实施例提供的网络覆盖优化方法的应用场景示意图，如图1，该应用场景包括服务器100、多个基站200以及多个终端300。

终端300是指用户使用的终端设备，终端设备可以是各种能够连接网络通信的电子设备，包括但不限于智能手机、平板电脑、便携式计算机、可穿戴设备等等。终端300处于基站200所覆盖的区域(也成为小区或者蜂窝小区，下同)，通过无线信道可靠地与基站200进行通信。

基站200采集小区的天馈参数发送至服务器100。本申请实施例的基站包括但不限于4G基站、5G基站和6G基站。

服务器100用于指向本申请实施例的网络覆盖优化方法，确定小区的天馈参数的增量，并将天馈参数的增量反馈给基站200，以使得基站200根据天馈参数的增量对天馈参数进行调整，实现网络覆盖的优化。

可选的，本申请实施例的服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器等。除此以外，本申请实施例的服务器还可以作为基站的一个模块或者组件，从而具有直接对天馈参数进行调整的能力。

由此可见，本申请实施例的服务器还能够获取网络覆盖范围内的至少一个小区的天馈参数；将天馈参数输入至预先训练的网络覆盖优化模型，获得网络覆盖优化模型输出的天馈参数的增量；根据天馈参数的增量对天馈参数进行调整。

请参阅图2，其示例性地示出了本申请实施例提供的网络覆盖优化方法的流程示意图，如图2所示，包括：

S101、获取至少一个小区的天馈参数。

天馈参数即可以调节的天馈参数，天馈参数是指天馈系统的性能参数，天馈系统是指天线向周围空间辐射电磁波。天馈参数主要分为固定天馈参数(例如天线挂高)和天馈参数，本申请实施例的天馈参数包括但不限于天线下倾角、天线方向角以及发射功率。

本申请实施例通过获取至少一个小区的天馈参数，为后续实现多小区多天馈参数同时进行调整以达到网络覆盖最优化提供了基础。

S102、将天馈参数输入至预先训练的网络覆盖优化模型，获得网络覆盖优化模型输出的天馈参数的增量。

本申请实施例的网络覆盖优化模型通过DDPG深度确定性策略梯度算法训练的，在训练过程中，本申请实施例以至少一个样本小区的天馈参数作为状态值、以至少一个样本小区的天馈参数的增量作为动作值以及以网络覆盖质量为奖励值训练而成，网络覆盖质量为利用动作值调整状态值后，至少一个小区的网络覆盖质量。

请参阅图3，其示例性地示出了本申请实施例的DDPG模型的网络结构的结构示意图，如图3所示，DDPG模型包括Actor网络和Critic网络，Actor网络和Critic网络都包含两个子网：在线网络和目标网络，它们的结构是相同的，整体工作流程如下：

首先当前在线网络通过环境得到当前的策略，加上噪声后得到当前的动作；将该动作作用于环境后，得到下一时刻的状态与当前的奖励，并与该时刻的动作与状态打包成一个集合存储于回放存储中；如果存储已满，则开始训练DDPG网络。

训练时，首先通过小批量的集合取出对应的状态，然后用Actor目标网络生成一个动作，然后优化Critic在线网络；之后Critic的在线网络将动作的梯度传递给Actor在线网络，并更新Actor在线网络。最后两个网络的目标网络对自身进行软更新。

本申请的网络覆盖优化模型利用了上述DDPG模型的训练流程，将状态具体为至少一个样本小的天馈参数，将天馈参数的增量作为动作，将网络覆盖指令作为奖励。

S103、根据天馈参数的增量对天馈参数进行调整。

本申请实施例的网络覆盖优化方法，通过DDPG算法确定小区的天馈参数的增量，并根据增量对天馈参数进行调整，实现网络覆盖优化，和现有技术相比，不需要对天馈参数进行离散化预处理，模型可直接输出连续的增量(动作)，并且输出动作对应每个小区的每个天馈参数，复杂度小；并且能够支持多小区多种天馈参数同时调整以达到通信网络最优化，并且通过调整具体的奖励值，即可迅速适应对其他优化问题，例如容量优化、资源配置、调度等问题，具体较高的适应能力。

请参阅图4，其示例性地示出了本申请另一个实施例提供的网络覆盖优化方法的流程示意图，如图所示，该方法包括以下五个步骤：

步骤一：环境构建

环境是指智能体所能感知到的所有小区的状态，可用小区的各天馈参数表示，天馈参数中可以分为可调的天馈参数和固定的天馈参数的综合，也可以是仅是可调天馈参数的总体。

请参阅图5，其示例性地示出了本申请实施例提供的环境模型的结构示意图，如图所示，环境模型包括两个部分，其中部分1为环境仿真平台的初始化阶段，在此阶段需要确定小区的初始状态，以及移动终端的位置；部分2是智能体与环境交互的部分，在这一部分中，智能体将产生的动作，也即天馈参数的增量输入到环境仿真平台中，环境仿真平台中的环境会发生改变，并进一步计算出状态改变后的奖励值。

步骤二：确定状态空间和工作空间

本申请实施例的状态空间可以是所有小区的可调天馈参数的取值组合而成，如方向角(0～359度)，功率(40～50dbm)等；亦可以是所有小区的固定参数和可调工参的取值组合而成，如小区天线挂高一般是固定值，发射功率、方向角等是可调工参。

动作空间可以是所有小区的可调天馈参数的增量，可通过将各小区的天馈参数输入到动作子模型中，并经由双曲正切激活函数或者周期性三角激活函数等处理得到，这一部分在步骤四中将会详细阐述。

步骤三、确定奖励函数

当智能体生成一组动作之后，这组动作会作用到环境中，具体表现为环境状态会发生变化。动作在当前的单次调整中的优秀程度通过奖励函数输出值衡量。也即动作作用到环境之后，环境会反馈给智能体一个奖励，奖励的大小证明此次调整的优秀程度。

步骤四：构建智能体

智能体即为整个模型的大脑，由其生成动作，并通过环境给出的反馈判断当前生成动作的优劣，并通过不断试错，不断调整，不断最大化收益值，一直达到稳定。总共包括两部分：Actor，也称之为动作子模型，负责生成动作；Critic，也称之为评价子模型，负责判断动作的优秀程度。

步骤五、训练智能体

智能体的训练的过程，也即智能体与环境不断交互的过程。训练过程可参见图3所示实施例的训练流程，在此不再赘述。

步骤六、小区参数配置输出

经过步骤五中智能体的不断试错训练，最终模型达到稳定时的环境状态即为小区的最佳参数配置方式。模型预训练完成后，可保存模型中的参数值，当环境发生改动时，如无线环境中终端分布发生很大的改变，保存的参数值可作为神经网络的初始值，经过简单的微调即可完成训练任务。，并输出小区的最佳天馈参数配置。

请参阅图6，其示例性地示出了本申请实施例提供的网络覆盖优化模型的训练流程图，如图6所示，该模型(也称之为智能体)在训练完成前包括动作子模型(A)和评价子模型(C)，该流程可以表述为以下几个步骤：

1、无线通信环境以当前时刻的天馈参数组成状态S输入到网络覆盖优化模型中的动作子模型和评价子模型；

2、动作子模型通过策略，输出动作值a；

3、无线通信环境根据动作值a对当前时刻的天馈参数进行调整，产生新的状态；

4、无线通信环境根据新的状态给出奖励值r，奖励值将会反馈给智能体用来衡量给出动作的优秀程度；

5、评价子模型根据当前时刻的状态S和动作值a输出期望奖励值Q；评价子网络则根据期望奖励值Q以及奖励值r对自身的参数进行更新；

6、动作子模型根据期望奖励值Q生成目标函数，以对自身的参数进行更新。

在上述各实施例的基础上，作为一种可选实施例，网络覆盖优化模型的训练方法包括，通过DDPG深度确定性策略梯度算法对网络覆盖优化模型进行迭代训练：

S201、获取当前时刻的初始状态值，根据初始状态值生成样本集，样本集中的每个样本包括对应时刻的状态值、动作值、奖励值以及对应时刻的下一时刻的状态值；对应时刻的动作值由将对应时刻的状态值输入至当前迭代的动作子模型后，动作子模型的输出获得；对应时刻的下一时刻的状态值为根据对应时刻的动作值调整对应时刻的状态值后的状态值；对应时刻的奖励值为将对应时刻的下一时刻的状态值输入至环境仿真平台后，环境仿真平台的输出。

具体地，若当前时刻的状态值即为S1，则将动作子模型根据状态S1输出的动作即为动作A1，也即对应时刻1的动作，通过动作A1调整状态值S1，即可获得下一时刻的状态S2，也即对应时刻2的状态，通过将S2输入环境仿真平台，即可获得对应的奖励值R1，也即对应时刻1的奖励值，从而可以获得一个记录S1、A1、R1和S2的样本。

通过将S2作为当前时刻的状态值，重复执行上述步骤，即可获得记录S2、A2、R2和S3的样本。从而，本申请通过不断生成样本并存在预设的样本存储区中，当样本存储区中样本的数量达到预设数目时，即可执行后续的步骤。请参阅图7，其示例性地示出了本申请实施例的动作子模型的结构示意图，如图7所示，动作子模型采用全连接神经网络(FullyConnected Neural Network)，全连接神经网络包括：

输入层：由至少一个小区的天馈参数组成，也即状态值S，状态值S也称之为状态向量，向量长度为n×p，其中n为小区的个数，p为天馈参数的个数；

隐层一：由l₁个神经元组成，每个神经元的激活函数为ReLu函数，ReLu函数表示如下：

隐层二：由l₂个神经元组成，每个神经元的激活函数为ReLu函数；

输出层：输出层表示动作子模型给出的动作值，动作值也称之为动作向量，向量的长度为n×p，是每个小区的天馈参数的增量。

动作子模型中的输入层到输出层，层与层之间均进行全连接。最终输出层经过激活函数处理变换到[-1,1]数值范围内，其需要乘以动作约束范围A_bound，这样，动作子模型的动值均落在[-A_bound,A_bound]之间。

可选的，本申请实施例的动作子模型激活函数可以是双曲正切函数或者是周期性激活函数等等。

由于动作值表示天馈参数的增量，因此将增量与对应的天馈参数相加，即可获得调整后的天馈参数，也即调整后的状态值，环境仿真平台能够根据天馈参数模拟出小区的网络覆盖质量，从而利用环境仿真平台根据调整后的状态值进行仿真，模拟出小区的网络覆盖质量，作为奖励值。

S202、将预设数量的样本中每个样本包括的状态值和动作值输入至当前迭代的评价子网络，获得评价子网络输出的每个样本对应时刻的期望奖励值；期望奖励值用于表征至少一个样本小区对动作值调整状态值的评价。

请参阅图8，其示例性地示出了本申请实施例的评价子模型的结构示意图，如图8所示，评价子模型涉及两个输入，分布为当前状态S和对于当前状态S给出的调整值：动作a，输出的是关于当前状态S，采取动作a直到整个过程调整结束能获取的期望奖励值Q，本申请实施例的期望奖励值也称之为期望奖励向量，长度为其长度为n×p。向量中的元素Q_i×j，1≤i≤n，1≤j≤p，表示对第i个小区的第j个天馈参数进行调整的评价，数值的大小反映调整动作的优劣。

评价子网络的网络结构中的N_i表示对应层的神经元个数。整个网络初始分为两部分，第一部分输入状态，第二部分输入动作值，经过神经网络处理后两部分相加，然后经过两层全连接神经网络，得到输出期望奖励值。

S204、根据预设数量的样本对应的期望奖励值更新动作子模型中的参数，根据预设数量的样本中的奖励值和对应时刻的期望奖励值更新评价子模型中的参数，直至迭代次数达到预设阈值或网络覆盖优化模型中的参数迭代至收敛；

S204、保留训练完成后的网络覆盖优化模型中的动作子模型，作为预先训练的网络覆盖优化模型。

本申请实施例根据预设数量的样本对应的期望奖励值更新动作子模型中的参数，包括：

对预设数量的样本的期望奖励值进行求和，将求和后平均值的负值作为动作子模型的目标函数，具体的，动作子模型的目标函数可以表示为：

其中，θ表示动作子网络的参数，K表示从样本集中选取的样本的数量，Q_j(s_t,a_t,w)表示评价子网络根据参数w对抽取的第j个样本中包括的时刻t的状态s_t和动作a_t输出的期望奖励值。

在上述各实施例的基础上，作为一种可选实施例，将预设数量的样本中包括的状态值和动作值输入至当前迭代的评价子网络，获得评价子网络输出的样本对应时刻的期望奖励值，包括：

S301、根据每个样本包括的状态值和动作值输入至当前迭代的评价子网络，获得评价子网络输出的每个样本对应时刻的期望奖励值。

本申请实施例从样本集中随机选择了一定数量的样本，对于每个样本，本申请需要根据样本中包括的状态值和动作值获得期望奖励值，例如获取的样本中记录的状态为S₂₀和A₂₀，意味这该样本记录的是第20个时刻的状态和动作，通过将S₂₀和A₂₀输入评价子网络，即可获得评价子网络输入的针对第20个时刻的状态和动作输出的期望奖励值Q₂₀。

S302、根据每个样本的状态值和动作值确定每个样本对应时刻的下一时刻的状态值和动作值，将每个样本对应时刻的下一时刻的状态值和动作值输入至当前迭代的评价子网络，获得评价子网络输出的每个样本对应时刻的下一时刻期望奖励值。

继续以上述的样本为例，根据A₂₀调整S₂₀即可获得调整后的、也即第21个时刻的状态S₂₁，将状态S₂₁输入至动作子网络，即可获得响应的动作A₂₁,再将状态S₂₁和状态S₂₁输入至评价子网络，可获得第21时刻的期望奖励值Q₂₁。

S303、根据每个样本中包括的奖励值以及每个样本对应时刻的下一时刻期望奖励值求和，获得累计奖励，计算累加奖励与样本对应时刻的期望奖励值的差值的平方，作为每个样本的期望偏差；

继续以上述的样本为了，通过将样本中的奖励值R₂₀与Q₂₁求和，即可获得理解奖励，在进一步计算求和结果与Q₂₀的差值的评分，即可获得该样本的期望偏差。

S304、根据预设数量的样本的期望偏差的平均值，获得评价子模型的目标函数；

具体的，评价子模型的目标函数可以表示为：

其中，γ为折扣因子，取值0～1，K为从样本集中选取的样本的数量，Q_j(s_t,a_t,w)表示评价子网络根据参数w对抽取的第j个样本中包括的时刻t的状态s_t和动作a_t输出的期望奖励值，Q_j(s_t+1,a_t+1,w)表示评价子网络根据参数w对抽取的第j个样本获得时刻t+1的状态s_t+1和动作a_t+1输出的期望奖励值,r_t表示抽取的第j个样本中包括的时刻t的奖励值。

S305、以最小化评价子模型的目标函数为目标，更新评价子模型中的参数，获得本次迭代后的评价子模型的参数；

在上述各实施例的基础上，本申请实施例提供了两种通过DDPG深度确定性策略梯度算法对网络覆盖优化模型进行迭代训练的方式：

方式一：对于任意一次迭代，将上一次迭代的初始状态值作为当前迭代的初始状态值；将上一次迭代后更新的网络覆盖优化模型的参数作为当前迭代的网络覆盖优化模型的待训练的参数。

方式二：对于任意一次迭代，将上一次迭代调整后的状态值作为本次迭代的初始状态值，将上一次迭代后更新的网络覆盖优化模型的参数作为当前迭代的网络覆盖优化模型的待训练的参数。

两种方式的区别在于，每次迭代的使用的状态值不同，第一种方式相当于每一次迭代都使用与上一次迭代所采用的状态值，即每次迭代开始时，对状态值进行初始化，而第二种方式相当于是将上一次迭代过程中最后生成的调整后的状态值作为本次迭代使用的状态值序列，

为了使得本申请实施例的网络覆盖优化模型在初始训练阶段具有对未知环境的探索能力，本申请实施例根据动作值调整当前迭代的状态值，包括：

S401、将对应时刻的状态值输入至当前迭代的动作子模型，获得动作子模型输出的原始动作值；

S402、将原始动作值作为本次迭代的均值；减小上一次迭代采用的方差，获得本次迭代采用的方差；

S403、根据本次迭代的均值和方差，利用高斯分布进行随机采样，将采样结果作为对应时刻的动作值。

本申请通过使用基于高斯分布的随机采样实现实际执行的动作会随着训练次数的增加向着动作子模型产生的动作靠近，降低在训练后期智能体探索的概率，使得动作子模型产生的动作能够作为准确的动作进行天馈参数的调整。

具体的，高斯分布随机采样的公式为：

其中，x表示通过随机采样获得的实际执行的动作值，a_i表示动作子模型输出的第i个天馈参数的增量，也作为高斯分布随机采样的均值，σ表示方差。在本申请实施例中，方差随着迭代次数逐渐衰减，本申请实施例对于方差σ衰减的方式不作具体的限定，例如可以是指数衰减。

在上述各实施例的基础上，作为一种可选实施例，天馈参数输入至预先训练的网络覆盖优化模型，之前还包括：

对天馈参数进行归一化处理。

具体的，对于每一种天馈参数，可以根据各小区中该天馈参数的最大值进行归一化处理。

应当理解的是，本申请实施例除了在应用网络覆盖优化模型预测天馈参数的增量时需要进行归一化处理，在利用样本小区的天馈参数训练网络覆盖优化模型时，也需要将样本小区的天馈参数进行归一化处理。

在上述各实施例的基础上，作为一种可选实施例，根据天馈参数的增量对天馈参数进行调整，包括：

本申请实施例预先对每种天馈参数设定了预设范围，以将天馈参数的调整限定在预设范围内。以方向角为例，方向角的预设范围为[0°，360°]，若调整前的方向角为355°，增量为10°，初步调整后的方向角为265°，显然超过了方向角的预设范围，针对超出的部分，本申请可以采用两种方式进行处理：

方式1、将超过的部分直接清零，假设天馈参数s的预设范围为[bound₁,bound₂]，则用公式表示为：

也就是说，当初步调整后的天馈参数小于预设范围的下限，那么将最终调整后的天馈参数设置为预设范围的下限，当初步调整后的天馈参数大于预设范围的上限，那么将最终调整后的天馈参数设置为预设范围的上限，若初步调整后的天馈参数处于预设范围内，则将初步调整后的天馈参数作为最终调整后的天馈参数。

方式2：对天馈参数进行循环调整，以上述方向角为例，当初步调整后的方向角为365°，则以360°作为周期取余，也即5°。

在上述各实施例的基础上，作为一种可选实施例，本申请实施例的网络覆盖指令可以根据小区的测量数据获得。测量数据为MR(Measurement Report，测量报告)或MDT(MinimizationDrive Test，最小化路测)测量数据；

测量数据可以包括：每个小区终端上报的小区的CSI RS(ChannelStateInformation Reference Signal，信道状态信息参考信号)的SINR(SignaltoInterference plus Noise Ratio，噪声比)、小区的SINR、RSRP(ReferenceSignalReceiving Power，参考信号接收功率)和邻区的RSRP等等。

本申请实施例具体根据小区中用户终端的信噪比和参考信号接收功率获得。

具体的，本申请实施例的网络覆盖质量的获取方法包括：

S501、确定至少一个样本小区中用户终端的信噪比的最大值和最小值以及参考信号接收功率的最大值和最小值；

S502、根据信噪比和参考信号接收功率的最大值和最小值，确定信噪比范围和参考信号接收功率的范围。

具体地，本申请实施例的信噪比范围为信噪比的最大值和最小值间的差值，参考信号接收功率的范围为参考信号接收功率的最大值和最小值间的差值。

S503、计算至少一个样本小区中每个用户终端的信噪比与信噪比最小值的差值，结合信噪比范围进行加权求和，获得第一网络覆盖质量分量；

第二网络覆盖质量分量R₁的计算公式为：

其中，m表示样本小区内用户终端的个数，SINR_i表示第i个用户终端的信噪比，min(SINR)表示参考信号接收功率最小值，max(SINR)表示参考信号接收功率最大值。

计算至少一个样本小区中每个用户终端的参考信号接收功率与参考信号接收功率最小值的差值，结合参考信号接收功率范围进行加权求和，获得第二网络覆盖质量分量；

第二网络覆盖质量分量R₂的计算公式为：

其中，m表示样本小区内用户终端的个数，RSRP_i表示第i个用户终端的参考信号接收功率，min(RSRP)表示参考信号接收功率最小值，max(RSRP)表示参考信号接收功率最大值。

S504、根据第一网络覆盖质量分量和第二网络覆盖质量分量获得网络覆盖质量。

具体地，本申请实施例可以对第一网络覆盖指令分量和第二网络覆盖质量分量进行加权求和，获得网络覆盖指令。

本申请实施例提供了一种网络覆盖优化装置，如图9所示，该装置可以包括：天馈参数获取模块101、增量获取模块102和调整模块103，具体地：

天馈参数获取模块101，用于获取至少一个小区的天馈参数；

增量获取模块102，用于将天馈参数输入至预先训练的网络覆盖优化模型，获得网络覆盖优化模型输出的天馈参数的增量；

调整模块103，用于根据天馈参数的增量对天馈参数进行调整；

本发明实施例提供的网络覆盖优化装置，具体执行上述方法实施例流程，具体请详见上述网络覆盖优化方法实施例的内容，在此不再赘述。本发明实施例提供的网络覆盖优化装置，通过DDPG算法确定小区的天馈参数的增量，并根据增量对天馈参数进行调整，实现网络覆盖优化，和现有技术相比，不需要对天馈参数进行离散化预处理，模型可直接输出连续的增量(动作)，并且输出动作对应每个小区的每个天馈参数，复杂度小；并且能够支持多小区多种天馈参数同时调整以达到通信网络最优化，并且通过调整具体的奖励值，即可迅速适应对其他优化问题，例如容量优化、资源配置、调度等问题，具体较高的适应能力。

在上述各实施例的基础上，作为一种可选实施例，参数调整子模块包括用于更新动作子模型中的参数的动作参数更新单元，动作参数更新单元包括：

在上述各实施例的基础上，作为一种可选实施例，参数调整子模块包括用于更新评价子模型中的参数的评价参数更新单元，评价参数更新单元包括：

在上述各实施例的基础上，作为一种可选实施例，模型训练模块包括准备模块，准备模块具体用于：

在上述各实施例的基础上，作为一种可选实施例，样本生成子模块还包括用于获得对应时刻的动作值的动作值获取单元，动作值获取单元包括：

在上述各实施例的基础上，作为一种可选实施例，网络覆盖优化装置还包括：

在上述各实施例的基础上，作为一种可选实施例，调整模块包括：

在上述各实施例的基础上，作为一种可选实施例，网络覆盖质量根据至少一个样本小区中用户终端的信噪比和参考信号接收功率获得。

在上述各实施例的基础上，作为一种可选实施例，网络覆盖优化装置还包括：用于获取网络覆盖质量的的网络覆盖获取模块；网络覆盖获取模块包括：

本申请实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：通过DDPG算法确定小区的天馈参数的增量，并根据增量对天馈参数进行调整，实现网络覆盖优化，和现有技术相比，不需要对天馈参数进行离散化预处理，模型可直接输出连续的增量(动作)，并且输出动作对应每个小区的每个天馈参数，复杂度小；并且能够支持多小区多种天馈参数同时调整以达到通信网络最优化，并且通过调整具体的奖励值，即可迅速适应对其他优化问题，例如容量优化、资源配置、调度等问题，具体较高的适应能力。

在一个可选实施例中提供了一种电子设备，如图10所示，图10所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(FieldProgrammable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscReadOnly Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，通过DDPG算法确定小区的天馈参数的增量，并根据增量对天馈参数进行调整，实现网络覆盖优化，和现有技术相比，不需要对天馈参数进行离散化预处理，模型可直接输出连续的增量(动作)，并且输出动作对应每个小区的每个天馈参数，复杂度小；并且能够支持多小区多种天馈参数同时调整以达到通信网络最优化，并且通过调整具体的奖励值，即可迅速适应对其他优化问题，例如容量优化、资源配置、调度等问题，具体较高的适应能力。

本申请实施例提供了一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，当计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如前述方法实施例所示的内容。与现有技术相比，通过DDPG算法确定小区的天馈参数的增量，并根据增量对天馈参数进行调整，实现网络覆盖优化，和现有技术相比，不需要对天馈参数进行离散化预处理，模型可直接输出连续的增量(动作)，并且输出动作对应每个小区的每个天馈参数，复杂度小；并且能够支持多小区多种天馈参数同时调整以达到通信网络最优化，并且通过调整具体的奖励值，即可迅速适应对其他优化问题，例如容量优化、资源配置、调度等问题，具体较高的适应能力。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种网络覆盖优化方法，其特征在于，包括：

获取至少一个小区的天馈参数；

将所述天馈参数输入至预先训练的网络覆盖优化模型，获得所述网络覆盖优化模型输出的所述天馈参数的增量；

根据所述天馈参数的增量对所述天馈参数进行调整；

其中，所述网络覆盖优化模型通过DDPG深度确定性策略梯度算法，以至少一个样本小区的天馈参数作为状态值、以所述至少一个样本小区的天馈参数的增量作为动作值以及以网络覆盖质量为奖励值训练而成，所述网络覆盖质量为利用所述动作值调整所述状态值后，所述至少一个小区的网络覆盖质量；

其中，训练完成前的网络覆盖优化模型包括动作子模型和评价子模型；

所述网络覆盖优化模型的训练方法包括，通过DDPG深度确定性策略梯度算法对所述网络覆盖优化模型进行迭代训练：

对于任意一次迭代，获取当前时刻的初始状态值，根据所述初始状态值生成样本集，所述样本集中的每个样本包括对应时刻的状态值、动作值、奖励值以及对应时刻的下一时刻的状态值；

将预设数量的样本中包括的状态值和动作值输入至当前迭代的评价子网络，获得所述评价子网络输出的样本对应时刻的期望奖励值；

根据所述预设数量的样本对应的期望奖励值更新所述动作子模型中的参数，根据所述预设数量的样本中的奖励值和对应时刻的期望奖励值更新所述评价子模型中的参数，直至迭代次数达到预设阈值或所述网络覆盖优化模型中的参数迭代至收敛；

保留训练完成后的所述网络覆盖优化模型中的动作子模型，作为所述预先训练的网络覆盖优化模型；

其中，对应时刻的动作值由将所述对应时刻的状态值输入至当前迭代的所述动作子模型后，所述动作子模型的输出获得；对应时刻的下一时刻的状态值为根据对应时刻的动作值调整对应时刻的状态值后的状态值；对应时刻的奖励值为将对应时刻的下一时刻的状态值输入至环境仿真平台后，所述环境仿真平台的输出。

2.根据权利要求1所述的网络覆盖优化方法，其特征在于，所述根据所述预设数量的样本对应的期望奖励值更新所述动作子模型中的参数，包括：

对所述预设数量的样本的期望奖励值进行求和，将求和后平均值的负值作为所述动作子模型的目标函数；

以最小化所述动作子模型的目标函数为目标，更新所述动作子模型中的参数，获得本次迭代后的动作子模型的参数。

3.根据权利要求1所述的网络覆盖优化方法，其特征在于，所述将所述根据所述预设数量的样本中的奖励值和对应时刻的期望奖励值更新所述评价子模型中的参数，包括：

根据每个样本的状态值和动作值确定每个样本对应时刻的下一时刻的状态值和动作值，将所述每个样本对应时刻的下一时刻的状态值和动作值输入至当前迭代的评价子网络，获得所述评价子网络输出的每个样本对应时刻的下一时刻期望奖励值；

根据所述每个样本中包括的奖励值以及所述每个样本对应时刻的下一时刻期望奖励值求和，获得累计奖励，计算所述累计奖励与所述样本对应时刻的期望奖励值的差值的平方，作为所述每个样本的期望偏差；

根据所述预设数量的样本的期望偏差的平均值，获得所述评价子模型的目标函数；

以最小化所述评价子模型的目标函数为目标，更新所述评价子模型中的参数，获得本次迭代后的评价子模型的参数。

4.根据权利要求1所述的网络覆盖优化方法，其特征在于，所述通过DDPG深度确定性策略梯度算法对所述网络覆盖优化模型进行迭代训练，还包括：

5.根据权利要求1所述的网络覆盖优化方法，其特征在于，所述对应时刻的动作值的获取方法包括，包括：

将对应时刻的状态值输入至当前迭代的所述动作子模型，获得所述动作子模型输出的原始动作值；

将所述原始动作值作为本次迭代的均值；减小上一次迭代采用的方差，获得本次迭代采用的方差；

6.根据权利要求1所述的网络覆盖优化方法，其特征在于，所述将所述天馈参数输入至预先训练的网络覆盖优化模型，之前还包括：

对所述天馈参数进行归一化处理。

7.根据权利要求1所述的网络覆盖优化方法，其特征在于，所述根据所述天馈参数的增量对所述天馈参数进行调整，包括：

根据所述天馈参数的增量对所述天馈参数进行调整，获得初步调整后的天馈参数；

若确定初步调整后的天馈参数超过预设范围，则根据所述初步调整后的天馈参数超出所述预设范围的部分，将所述初步调整后的天馈参数调整至所述预设范围内，获得最终调整后的天馈参数；

若确定初步调整后的天馈参数未超过预设范围，则将所述初步调整后的天馈参数作为最终调整后的天馈参数。

8.根据权利要求1所述的网络覆盖优化方法，其特征在于，所述网络覆盖质量根据所述至少一个样本小区中用户终端的信噪比和参考信号接收功率获得。

9.根据权利要求8所述的网络覆盖优化方法，其特征在于，所述网络覆盖质量的获取方法包括：

确定所述至少一个样本小区中用户终端的信噪比的最大值和最小值以及参考信号接收功率的最大值和最小值；

根据所述信噪比和参考信号接收功率的最大值和最小值，确定信噪比范围和参考信号接收功率的范围；

计算所述至少一个样本小区中每个用户终端的信噪比与信噪比最小值的差值，结合所述信噪比范围进行加权求和，获得第一网络覆盖质量分量；计算所述至少一个样本小区中每个用户终端的参考信号接收功率与参考信号接收功率最小值的差值，结合所述参考信号接收功率范围进行加权求和，获得第二网络覆盖质量分量；

根据第一网络覆盖质量分量和第二网络覆盖质量分量获得所述网络覆盖质量。

10.一种网络覆盖优化装置，其特征在于，包括：

天馈参数获取模块，用于获取至少一个小区的天馈参数；

增量获取模块，用于将所述天馈参数输入至预先训练的网络覆盖优化模型，获得所述网络覆盖优化模型输出的所述天馈参数的增量；

调整模块，用于根据所述天馈参数的增量对所述天馈参数进行调整；

训练完成前的网络覆盖优化模型包括动作子模型和评价子模型；

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述网络覆盖优化方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至9中任意一项所述网络覆盖优化方法的步骤。