CN111050330A

CN111050330A - 移动网络自优化方法、系统、终端及计算机可读存储介质

Info

Publication number: CN111050330A
Application number: CN201811192207.8A
Authority: CN
Inventors: 杨治国
Original assignee: ZTE Corp
Current assignee: Changsha Zhongxing Software Co ltd
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2020-04-21
Anticipated expiration: 2038-10-12
Also published as: WO2020073870A1; CN111050330B

Abstract

本发明实施例公开了一种移动网络自优化方法、系统、终端及计算机可读存储介质，涉及通信技术领域。其中方法包括：获取移动网络中小区智能体的环境状态观测值；将环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor，获取与环境状态观测值对应的网络配置策略；根据网络配置策略生成相应的控制指令，将控制指令下发至对应的小区，指示小区根据网络配置策略进行网络参数配置；根据环境状态观测值和网络配置策略生成新的样本数据，将新的样本数据存储至样本池，供强化训练学习优化模型Actor使用。本发明实施例能够根据环境状态的变化自适应调整小区的网络配置参数，无需网优专家参与，极大地减少了运营商的运维成本。

Description

移动网络自优化方法、系统、终端及计算机可读存储介质

技术领域

本发明涉及通信技术领域，特别涉及一种移动网络自优化方法、系统、终端及计算机可读存储介质。

背景技术

目前，长期演进技术(Long Term Evolution，LTE)自组织网络(SelfOrganizationNetwork，SON)算法，例如：覆盖于容量自优化(Coverage and CapacityOptimisation，CCO)算法、移动负载均衡(Mobility LoadBalance，MLB)算法，移动健壮性优化(Mobility Robustness Optimisation，MRO)算法以及随机接入信道(Random AccessChannel，RACH)优化算法等，都是基于一些既定的人工经验规则控制网络中用户在小区间的迁移来达到小区间的负载均衡或减少干扰，来实现网络自优化的目的。这些传统的网络自优化算法存在以下缺陷：

1)传统的网络自优化算法无法根据小区本身性能或者环境的变化自动调整或者盖板策略以适应新的环境；

2)小区所处环境以及基站本身的性能差异导致不同小区需要不同的配置参数进行控制，因此传统的网络自优化算法需要网优专家针对各个小区单独设置参数进行调优，工作量巨大。

发明内容

有鉴于此，本发明实施例的目的在于提供一种移动网络自优化方法、系统、终端及计算机可读存储介质，以上述传统的网络自由化算法无法根据小区本身性能或者环境的变化自动调整或者盖板策略以适应新的环境以及需要网优专家针对各个小区单独设置参数进行调优，导致工作量巨大的问题。

本发明解决上述技术问题所采用的技术方案如下：

根据本发明实施例的一个方面，提供一种移动网络自优化方法，该方法包括：

获取移动网络中小区智能体的环境状态观测值；

将所述环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor，获取与所述环境状态观测值对应的网络配置策略；

根据所述网络配置策略生成相应的控制指令，将所述控制指令下发至对应的小区，指示所述小区根据所述网络配置策略进行网络参数配置。

根据本发明实施例的又一个方面，提供一种移动网络自优化终端，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，该所述计算机程序被所述处理器执行时，实现上述移动网络自优化方法的步骤。

根据本发明实施例的再一个方面，提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述移动网络自优化方法的步骤。

本发明实施例提供的移动网络自优化方法、系统、终端及计算机可读存储介质，由于将强化学习与移动网络自优化技术结合到一起，利用强化学习从小区的环境状态信息中总结规则，并在人为设定的目标奖赏的指导下做出适合于当前环境状态信息的网络参数配置决策，形成了端到端的完整优化环，相较传统的网络自优化方法，该移动网络自优化方法终生在线学习，能够适应环境的变化，待模型收敛后无需网优专家干预可以自适应运行，能够真正做到无人值守，自驱动，极大地减少了运营商的运维成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的移动网络自优化方法的实现流程示意图；

图2是本发明实施例二提供的移动网络自优化方法的实现流程示意图；

图3是本发明实施例二提供的移动网络自优化方法中离线强化训练学习逻辑示意图；

图4是本发明实施例二提供的移动网络自优化方法中针对某一具体优化目标进行基于确定性策略梯度的强化学习训练过程的示意图；

图5是本发明实施例三提供的移动网络自优化系统的结构示意图；

图6是本发明实施例四提高的移动网络自优化终端的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅以解释本发明，并不用于限定本发明。

实施例一

图1是本发明实施例一提供的移动网络自优化方法的实现流程示意图，该方法的执行主体为本发明实施例中所述的移动网络自优化系统/终端。参见图1所示，本实施例提供的移动网络自优化方法包括以下步骤：

步骤S101，获取移动网络中小区智能体的环境状态观测值。

其中，所述小区智能体包括单个或多个小区。针对不同的优化目标对应的小区智能体的划分方式不同。例如：

移动性负载均衡自优化是将一个小区的用户指向性的迁移到邻区区，因此在移动性负载均衡自优化场景下所述小区智能体定义为一对小区；

而覆盖与容量自优化是指每一个小区都有其个体的覆盖范围，通过调整小区的覆盖范围，达到优化小区容量与小区间干扰的目的，因此在覆盖容量自由化场景中，选择单个小区作为小区智能体。

其中，针对不同的优化目标对应监测的小区智能体的环境状态观测值也不相同。例如：

移动性负载均衡自优化场景下，负载均衡重点关注和平衡小区间的负荷问题，所以实现移动性负载均衡选用能代表小区负荷的指标表征小区所处的环境。具体选用的指标有RRC用户数(rrc)、PRB利用率(prb)，小区下行速率(down_speed)、小区下行吞吐率(down_throught)、小区下行丢包率(down_lost)、小区下行弃包率(down_drop)、小区下行时延(down_delay)、Ocn配置(Ocn)、带宽(bandwidth)、频点(freq)，其中RRC、PRB、下行速率、下行吞吐率、下行丢包率、下行弃包率、下行时延、带宽、Ocn配置都将进行归一化到[0,1]区间。频点将根据800/1800/2100分别取0.1,0.2,0.3等值。同时为了兼顾考虑时分特性，将小区前后指标变化的差值考虑进来，所环境状态观测值还需要包括Δrrc/Δprb/Δdown_speed/Δdown_throught/Δdown_lost/Δdown_drop/Δdown_delay/Δocn前述这些指标两个小区各有一份。小区对间的重叠覆盖度关系到可迁移用户的数量和质量，所以在前述特征后再增加重叠覆盖度这个特征。同时为了解决小区环境的部分观测问题，利用LSTM对部分指标进行预测的输出值作为补充特征，最终形成如下的状态形式：

覆盖与容量自优化场景下，由于容量与覆盖优化关注小区的负荷与Qos指标以及用户的体验，所以实现容量与覆盖优化功能将选用能代表小区负荷与Qos的指标以及用户的体验指标表征小区所处的环境。具体选用的指标有RRC用户数(rrc)、小区下行速率(down_speed)、小区下行吞吐率(down_throught)、小区下行丢包率(down_lost)、小区下行弃包率(down_drop)、小区下行时延(down_delay)、物理下倾角(Downtilt)、带宽(bandwidth)、用户平均下行速率(user_speed)、用户平均下行吞吐量(user_throught)、边缘用户占比(edge_user)，其中RRC、PRB、下行速率、下行吞吐率、下行丢包率、下行弃包率、下行时延、带宽、下倾角配置、用户下行速率、用户下行吞吐量都将进行归一化到[0,1]区间。同时为了兼顾考虑时分特性，将小区前后指标变化的差值考虑进来，所以环境状态观测值还需包括Δrrc/Δprb/Δdown_speed/Δdown_throught/Δdown_lost/Δdown_drop/Δdown_delay/Δuser_speed/Δuser_throught/Δedge_user/Δdowntilt。为了解决小区环境的部分观测问题，利用LSTM对部分指标进行预测的输出值作为补充特征，最终形成如下的状态形式：

步骤S102，将所述环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor，获取与所述环境状态观测值对应的网络配置策略。

在本实施例中，步骤S102具体包括：将所述环境状态观测值输入到基于强化训练学习获取的与当前应用场景对应的现实网络配置策略模型Actor，获取模型Actor输出的与所述环境状态观测值对应的网络配置策略。针对不同的优化目标应用场景均对应有唯一的模型Actor。

其中，所述网络配置策略是指在当前环境状态观测值下，所述小区智能体调整对象所对应执行的调整动作，针对不同的优化目标对应的调整动作不同。例如：

在移动性负载均衡自优化场景下，调整对象为主邻小区，为防止乒乓效应的产生，调整动作为主邻各自指向对方的小区个体偏移Ocn配置[Ocn_A→B,Ocn_B→A]；

在覆盖与容量自优化场景下，实现容量与覆盖的调整主要通过调节小区的参考信号功率或者小区的物理下倾角与方位角实现，在本实现中通过调整小区的物理下倾角方式实现，所以调整动作定义为下倾角[downtilt]。

步骤S103，根据所述网络配置策略生成相应的控制指令，将所述控制指令下发至对应的小区，指示所述小区根据所述网络配置策略进行网络参数配置。

在本实施例中，步骤S103包括：根据多个不同的优化目标对应的网络配置策略生成所述控制指令，并将所述控制指令下发至对应的小区，使移动网络中的小区根据所述多个网络配置策略针对多个不同的优化目标进行网络参数配置。

优选的，在本实施例中，在步骤S103之前还可以包括：

对所述模型Actor输出的动作进行方向性的约束，在实时控制时，对于不满足约束条件的动作在下发控制指令前进行剔除。例如：

在移动性负载均衡自优化场景下，为了保证后续结果的可靠性，防止算法进行不必要的试错，对所述模型Actor输出的动作进行方向性的约束，譬如如果小区A的负荷压力明显高于小区B，那么下发的参数必须满足是将用户从小区A迁入到小区B，对于不满足该约束条件的动作将在下发控制前进行剔除；

在覆盖与容量自优化场景下，为避免过于精细的调整影响收敛，对所述模型Actor输出动作进行约束，保证下倾角可调整范围为[0,15]度，最小粒度为0.2度，对于不满足该约束条件的动作将在下发控制前进行剔除。

可选的，在本实施例中，在步骤S103之后还可以包括：

步骤S104，根据所述环境状态观测值和所述网络配置策略生成新的样本数据，将所述新的样本数据存储至样本池，供强化训练学习优化模型Actor使用。

其中，所述根据所述环境状态观测值和所述网络配置策略生成新的样本数据包括：

根据当前环境状态观测值和下一时刻的环境状态观测值计算在当前时刻的环境状态观测值下执行对应的调整动作转移到下一时刻的环境状态观测值所产生的收益值，将当前环境状态观测值、所述收益值、下一时刻的环境状态观测值及在当前时刻环境状态观测值下对应执行的调整动作组装成新的样本数据。

其中，所述收益值是指当前时刻的环境状态观测值下执行对应的调整动作转移到下一时刻的环境状态观测值所产生的全局收益值。由于对小区的调整影响范围区域是有限区域，而非整个大网络，所以在计算全局收益时，非常有必要限定全局的范畴。在本实施例中，针对每一个小区全局我们定义为与小区重叠覆盖度超过一定阈值的小区作为关联影响小区，用于计算全局收益。针对不同的优化目标，对应的全局收益的计算方式不同。例如：

在移动性负载均衡自优化场景下，小区A和小区B间的调整应该由A、B各自的收益计算得到，同时小区的调整应该带来全局的改善，所以A、B间的调整应该由3项构成R_A,B＝αR_A+βR_B+γR_global，其中R_A表示的是小区A的收益，R_B表示的是小区B的收益，R_global为所有调整小区回报的平均值，单个小区回报定义如下：

其中：W为每一个奖赏考量指标的权重，x_base表示指标x必须达到的条件，此处公式设计上取指数起到放大奖赏和惩罚的目的，奖赏具体选用哪些指标可以根据客户待优化的目标而确定。

在覆盖与容量自优化场景下，容量与覆盖优化只需考虑小区本身与全局指标的提升效果，所以全局收益值定义为：reward＝αR_station+βR_global，其中：R_station的定义与移动性负载均衡的定义一致，R_global为所有调整小区回报的平均值。

以上可以看出，本实施例提供的移动网络自优化方法由于将强化学习与移动网络自优化技术结合到一起，利用强化学习从小区的环境状态信息中总结规则，并在人为设定的目标奖赏的指导下做出适合于当前环境状态信息的网络参数配置决策，形成了端到端的完整优化环，相较传统的网络自优化方法，该移动网络自优化方法终生在线学习，能够适应环境的变化，待模型收敛后无需网优专家干预可以自适应运行，能够真正做到无人值守，自驱动，极大地减少了运营商的运维成本。

图2是本发明实施例二提供的移动网络自优化方法的实现流程示意图。该方法的执行主体为本发明实施例中所述的移动网络自优化系统/终端。参见图2所示，本实施例提供的移动网络自优化方法包括以下步骤：

步骤S201，获取所述小区智能体网络配置策略的初始样本数据，将所述初始样本数据存储至所述样本池。

在本实施例中，所述初始样本数据可以是专家手动调整收集的对应天使样本数据，也可以是已有成熟但不完善的自优化算法产生的天使样本数据，从测试中可以发现基于天使样本的模型比在环境中直接学习的模型具有更快的收敛特性和鲁棒性，解决了算法在调整中随机的试错导致现网指标剧烈波动的问题。

优选的，在本实施例中，在步骤S201之后还可以包括：

记录所述小区智能体的历史环境状态信息，采用采用长短期记忆网络((LongShort-Term Memory，LSTM)算法预测的未来值作为所述小区智能体环境状态的补充特征。

由于小区所处环境的部分可见问题，导致小区的序列决策呈现出非马尔科夫性。因此，在本实施例中，针对小区的部分特征值引入了历史信息以及采用LSTM预测的未来值作为补充状态特征，可以将非马尔科夫问题转换成马尔科夫问题。

步骤S202，对所述样本池中的初始样本数据进行抽样强化训练学习，获取所述现实网络配置策略模型。

参见图3所示，在本实施例中，该离线强化训练学习过程是在独立的进程中运行，其只与样本池对接，其每次从样本池中捞取一个批次的样本数据用于模型训练，如此周而复始，并且其每隔一段时间输出一次模型持久化到磁盘上，以便进程终止后再次加载继续训练，同时输出模型将用于在线推理进程加载用于推演。为了保证训练的稳定性，使用目标网络计算估计值作为现实网络的已知值，每一轮训练后将参数以极小的权重λ更新目标网络，当绝对收敛后两个网络的参数应该是保持一致的。进一步的，步骤S202具体包括：

对所述样本池中的初始样本数据进行归一化处理，形成表征所述小区智能体各优化目标网络配置策略的样本数据；

分别对所述小区智能体各优化目标网络配置策略的样本数据进行离线强化训练学习，得到与所述小区智能体各优化目标一一对应的现实网络配置策略模型。

其中，样本池中存储的所述样本数据的格式为(S_t,R_t,S_t+1,A_t)，其中S_t表示t时刻归一化之后某指标的状态向量，A_t表示在状态S_t下所执行的动作向量，S_t+1表示在状态S_t下执行动作A_t转移到的下一个时刻的状态向量，R_t表示在状态S_t下执行动作A_t转移到S_t+1所产生的收益值，样本池用于数据抽样训练强化学习模型。

优选的，参见图4所示，在本实施例中，对所述小区智能体各优化目标网络配置策略的样本数据进行离线强化训练学习，得到与所述各优化目标对应的现实网络配置策略模型包括：

周期性的从所述样本池中取得样本数据(S_t,A_t,R_t,S_t+1)，将S_t+1输入到目标网络配置策略模型Actor-target输出估计动作A_t+1；

将(S_t+1,A_t+1)输入到目标评价网络模型Critic-target，输出状态-动作(S_t+1,A_t+1)对应的目标评价值Q(S_t+1,A_t+1)；

将样本数据中已经发生的(S_t,A_t)输入到现实评价模型Critic，获取状态-动作(S_t,A_t)对应的现实评价值

根据公式Q(S_t,A_t)＝R_t+γ*Q(S_t+1,A_t+1)计算得到状态-动作(S_t,A_t)对应的目标评价值Q(S_t,A_t)，其中，γ为预设权重；

通过最小化

来优化模型Critic，根据优化后的模型Critic更新模型Critic-target，其中Loss为损失函数；

将状态S_t输入到所述模型Actor中，输出当前策略下的动作A′_t，将状态-动作(S_t,A′_t)输入到所述模型Critic，得到对应的评价输出Q(S_t,A′_t)；

根据策略梯度公式▽Q(S_t，A′_t)S_t,A′_t＝μ(S_t)，将最小化Q(S_t,A′_t)作为所述模型Actor的损失函数对所述模型Actor进行优化。

为了使得算法能够从以往收益值高的尝试中学到经验，本实施例中使用优先级队列样本池，在强化训练学习时，从样本池中抽取数据优先选择拟合误差比较的样本进行训练，这样可以保证算法能够更好的学习到过往好的经历。另外，在本实施例中，从样本池中取数据时，需要样本池中的样本达到一定数量后方可触发训练流程，否则数据量过少会造成过拟合的问题。

步骤S203，获取移动网络中小区智能体的环境状态观测值。

步骤S204，将所述环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor，获取与所述环境状态观测值对应的网络配置策略。

优选的，在本实施例中，步骤S204具体包括：

对所述环境状态观测值进行归一化处理，形成表征所述小区智能体各优化目标的状态观测值；

根据所述各优化目标的状态观测值对应派生出多个子进程，分别加载离线强化训练学习产生的所述模型Actor进行数据推理，生成与所述各优化目标的状态观测值对应的网络配置策略。

步骤S205，根据所述网络配置策略生成相应的控制指令，将所述控制指令下发至对应的小区，指示所述小区根据所述网络配置策略进行网络参数配置。

步骤S206，根据所述环境状态观测值和所述网络配置策略生成新的样本数据，将所述新的样本数据存储至样本池，供强化训练学习优化模型Actor使用。

需要说明的是，本实施例中，步骤S203～步骤S206的具体实现方式由于分别与上一实施例中步骤S101～步骤S104的实现方式相同，因此，在此不再赘述。

以上可以看出，本实施例提供的移动网络自优化方法同样可以根据小区环境状态的变化，自适应调整小区的网络配置参数，且无需网优专家干预，极大地减少了运营商的运维成本。

实施例三

图5是本发明实施例三提供的移动网络自优化系统的结构示意图。为了便于说明仅仅示出了与本实施例相关的部分。

参见图5所示，本实施例提供的移动网络自优化系统5包括：

环境监测单元51，用于获取移动网络中小区智能体的环境状态观测值；

配置策略获取单元52，用于将所述环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor，获取与所述环境状态观测值对应的网络配置策略；

控制指令下发单元53，用于根据所述网络配置策略生成相应的控制指令，将所述控制指令下发至对应的小区，指示所述小区根据所述网络配置策略进行网络参数配置；

样本池重放单元54，用于根据所述环境状态观测值和所述网络配置策略生成新的样本数据，将所述新的样本数据存储至样本池，供强化训练学习优化模型Actor使用。

本发明实施例的系统由于与上述实施例一或实施例二的移动网络自优化方法属于同一构思，其具体实现过程详细见对应的方法实施例，且方法实施例中的技术特征在本设备实施例中均对应适用，这里不再赘述。

本领域普通技术人员可以理解，本实施例所公开方法中的全部或某些步骤、可以被实施为软件、固件、硬件及其适当的组合。

实施例四

图6是本发明实施例四提供的移动网络自优化终端的结构示意图。为了便于说明仅仅示出了与本实施例相关的部分。

参见图6所示，本实施例提供的移动网络自优化终端6包括存储器61、处理器62及存储在所述存储器61上并可在所述处理器62上运行的计算机程序，该所述计算机程序被所述处理器62执行时，实现如上述实施例一或实施例二所述的移动网络自优化方法的步骤。

本发明实施例的终端由于与上述实施例一或实施例二的移动网络自优化方法属于同一构思，其具体实现过程详细见对应的方法实施例，且方法实施例中的技术特征在本设备实施例中均对应适用，这里不再赘述。

实施例五

本发明实施例五提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述实施例一或实施例二所述的移动网络自优化方法的步骤。

本发明实施例的计算机可读存储介质由于与上述实施例一或实施例二的移动网络自优化方法属于同一构思，其具体实现过程详细见对应的方法实施例，且方法实施例中的技术特征在本设备实施例中均对应适用，这里不再赘述。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种移动网络自优化方法，其特征在于，包括：

获取移动网络中小区智能体的环境状态观测值；

2.如权利要求1所述的移动网络自优化方法，其特征在于，所述根据所述网络配置策略生成相应的控制指令，将所述控制指令下发至对应的小区，指示所述小区根据所述网络配置策略进行网络参数配置之后还包括：

根据所述环境状态观测值和所述网络配置策略生成新的样本数据，将所述新的样本数据存储至样本池，供强化训练学习优化模型Actor使用。

3.如权利要求1所述的移动网络自优化方法，其特征在于，所述实时监测小区智能体的环境状态观测值之前还包括：

获取所述小区智能体网络配置策略的初始样本数据，将所述初始样本数据存储至所述样本池；

对所述样本池中的初始样本数据进行抽样强化训练学习，获取所述现实网络配置策略模型。

4.如权利要求3所述的移动网络自优化方法，其特征在于，所述获取所述小区智能体网络配置策略的初始样本数据，将所述初始样本数据存储至所述样本池之后包括：

记录所述小区智能体的历史环境状态信息，采用长短期记忆网络LSTM算法预测的未来值作为所述小区智能体环境状态的补充特征。

5.如权利要求3所述的移动网络自优化方法，其特征在于，所述对所述样本池中的初始样本数据进行抽样强化训练学习，获取所述网络配置策略模型包括：

对所述初始样本数据进行归一化处理，形成表征所述小区智能体各优化目标网络配置策略的样本数据；

6.如权利要求5所述的移动网络自优化方法，其特征在于，所述将所述环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor，获取与所述环境状态观测值对应的网络配置策略包括：

7.如权利要求5所述的移动网络自优化方法，其特征在于，所述样本数据的格式为(S_t,R_t,S_t+1,A_t)，其中S_t表示t时刻归一化之后某指标的状态向量，A_t表示在状态S_t下所执行的动作向量，S_t+1表示在状态S_t下执行动作A_t转移到的下一个时刻的状态向量，R_t表示在状态S_t下执行动作A_t转移到S_t+1所产生的收益值；

对所述小区智能体各优化目标网络配置策略的样本数据进行离线强化训练学习，得到与所述各优化目标对应的现实网络配置策略模型包括：

通过最小化

根据策略梯度公式，将最小化Q(S_t,A′_t)作为所述模型Actor的损失函数对所述模型Actor进行优化。

8.如权利要求1所述的移动网络自优化方法，其特征在于，所述方法还包括：

对所述模型Actor输出的动作进行方向性的约束，在实时控制时，对于不满足约束条件的动作在下发控制指令前进行剔除。

9.一种移动网络自优化终端，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，该所述计算机程序被所述处理器执行时，实现如权利要求1至8中任一项所述的移动网络自优化方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至8中任一项所述的移动网络自优化方法的步骤。