CN111050330A - 移动网络自优化方法、系统、终端及计算机可读存储介质 - Google Patents

移动网络自优化方法、系统、终端及计算机可读存储介质 Download PDF

Info

Publication number
CN111050330A
CN111050330A CN201811192207.8A CN201811192207A CN111050330A CN 111050330 A CN111050330 A CN 111050330A CN 201811192207 A CN201811192207 A CN 201811192207A CN 111050330 A CN111050330 A CN 111050330A
Authority
CN
China
Prior art keywords
network configuration
cell
optimization
model
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811192207.8A
Other languages
English (en)
Other versions
CN111050330B (zh
Inventor
杨治国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Zhongxing Software Co ltd
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201811192207.8A priority Critical patent/CN111050330B/zh
Priority to PCT/CN2019/109437 priority patent/WO2020073870A1/zh
Publication of CN111050330A publication Critical patent/CN111050330A/zh
Application granted granted Critical
Publication of CN111050330B publication Critical patent/CN111050330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明实施例公开了一种移动网络自优化方法、系统、终端及计算机可读存储介质,涉及通信技术领域。其中方法包括:获取移动网络中小区智能体的环境状态观测值;将环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor,获取与环境状态观测值对应的网络配置策略;根据网络配置策略生成相应的控制指令,将控制指令下发至对应的小区,指示小区根据网络配置策略进行网络参数配置;根据环境状态观测值和网络配置策略生成新的样本数据,将新的样本数据存储至样本池,供强化训练学习优化模型Actor使用。本发明实施例能够根据环境状态的变化自适应调整小区的网络配置参数,无需网优专家参与,极大地减少了运营商的运维成本。

Description

移动网络自优化方法、系统、终端及计算机可读存储介质
技术领域
本发明涉及通信技术领域,特别涉及一种移动网络自优化方法、系统、终端及计算机可读存储介质。
背景技术
目前,长期演进技术(Long Term Evolution,LTE)自组织网络(SelfOrganizationNetwork,SON)算法,例如:覆盖于容量自优化(Coverage and CapacityOptimisation,CCO)算法、移动负载均衡(Mobility LoadBalance,MLB)算法,移动健壮性优化(Mobility Robustness Optimisation,MRO)算法以及随机接入信道(Random AccessChannel,RACH)优化算法等,都是基于一些既定的人工经验规则控制网络中用户在小区间的迁移来达到小区间的负载均衡或减少干扰,来实现网络自优化的目的。这些传统的网络自优化算法存在以下缺陷:
1)传统的网络自优化算法无法根据小区本身性能或者环境的变化自动调整或者盖板策略以适应新的环境;
2)小区所处环境以及基站本身的性能差异导致不同小区需要不同的配置参数进行控制,因此传统的网络自优化算法需要网优专家针对各个小区单独设置参数进行调优,工作量巨大。
发明内容
有鉴于此,本发明实施例的目的在于提供一种移动网络自优化方法、系统、终端及计算机可读存储介质,以上述传统的网络自由化算法无法根据小区本身性能或者环境的变化自动调整或者盖板策略以适应新的环境以及需要网优专家针对各个小区单独设置参数进行调优,导致工作量巨大的问题。
本发明解决上述技术问题所采用的技术方案如下:
根据本发明实施例的一个方面,提供一种移动网络自优化方法,该方法包括:
获取移动网络中小区智能体的环境状态观测值;
将所述环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor,获取与所述环境状态观测值对应的网络配置策略;
根据所述网络配置策略生成相应的控制指令,将所述控制指令下发至对应的小区,指示所述小区根据所述网络配置策略进行网络参数配置。
根据本发明实施例的又一个方面,提供一种移动网络自优化终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,该所述计算机程序被所述处理器执行时,实现上述移动网络自优化方法的步骤。
根据本发明实施例的再一个方面,提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述移动网络自优化方法的步骤。
本发明实施例提供的移动网络自优化方法、系统、终端及计算机可读存储介质,由于将强化学习与移动网络自优化技术结合到一起,利用强化学习从小区的环境状态信息中总结规则,并在人为设定的目标奖赏的指导下做出适合于当前环境状态信息的网络参数配置决策,形成了端到端的完整优化环,相较传统的网络自优化方法,该移动网络自优化方法终生在线学习,能够适应环境的变化,待模型收敛后无需网优专家干预可以自适应运行,能够真正做到无人值守,自驱动,极大地减少了运营商的运维成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的移动网络自优化方法的实现流程示意图;
图2是本发明实施例二提供的移动网络自优化方法的实现流程示意图;
图3是本发明实施例二提供的移动网络自优化方法中离线强化训练学习逻辑示意图;
图4是本发明实施例二提供的移动网络自优化方法中针对某一具体优化目标进行基于确定性策略梯度的强化学习训练过程的示意图;
图5是本发明实施例三提供的移动网络自优化系统的结构示意图;
图6是本发明实施例四提高的移动网络自优化终端的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅以解释本发明,并不用于限定本发明。
实施例一
图1是本发明实施例一提供的移动网络自优化方法的实现流程示意图,该方法的执行主体为本发明实施例中所述的移动网络自优化系统/终端。参见图1所示,本实施例提供的移动网络自优化方法包括以下步骤:
步骤S101,获取移动网络中小区智能体的环境状态观测值。
其中,所述小区智能体包括单个或多个小区。针对不同的优化目标对应的小区智能体的划分方式不同。例如:
移动性负载均衡自优化是将一个小区的用户指向性的迁移到邻区区,因此在移动性负载均衡自优化场景下所述小区智能体定义为一对小区;
而覆盖与容量自优化是指每一个小区都有其个体的覆盖范围,通过调整小区的覆盖范围,达到优化小区容量与小区间干扰的目的,因此在覆盖容量自由化场景中,选择单个小区作为小区智能体。
其中,针对不同的优化目标对应监测的小区智能体的环境状态观测值也不相同。例如:
移动性负载均衡自优化场景下,负载均衡重点关注和平衡小区间的负荷问题,所以实现移动性负载均衡选用能代表小区负荷的指标表征小区所处的环境。具体选用的指标有RRC用户数(rrc)、PRB利用率(prb),小区下行速率(down_speed)、小区下行吞吐率(down_throught)、小区下行丢包率(down_lost)、小区下行弃包率(down_drop)、小区下行时延(down_delay)、Ocn配置(Ocn)、带宽(bandwidth)、频点(freq),其中RRC、PRB、下行速率、下行吞吐率、下行丢包率、下行弃包率、下行时延、带宽、Ocn配置都将进行归一化到[0,1]区间。频点将根据800/1800/2100分别取0.1,0.2,0.3等值。同时为了兼顾考虑时分特性,将小区前后指标变化的差值考虑进来,所环境状态观测值还需要包括Δrrc/Δprb/Δdown_speed/Δdown_throught/Δdown_lost/Δdown_drop/Δdown_delay/Δocn前述这些指标两个小区各有一份。小区对间的重叠覆盖度关系到可迁移用户的数量和质量,所以在前述特征后再增加重叠覆盖度这个特征。同时为了解决小区环境的部分观测问题,利用LSTM对部分指标进行预测的输出值作为补充特征,最终形成如下的状态形式:
Figure BDA0001827789380000041
覆盖与容量自优化场景下,由于容量与覆盖优化关注小区的负荷与Qos指标以及用户的体验,所以实现容量与覆盖优化功能将选用能代表小区负荷与Qos的指标以及用户的体验指标表征小区所处的环境。具体选用的指标有RRC用户数(rrc)、小区下行速率(down_speed)、小区下行吞吐率(down_throught)、小区下行丢包率(down_lost)、小区下行弃包率(down_drop)、小区下行时延(down_delay)、物理下倾角(Downtilt)、带宽(bandwidth)、用户平均下行速率(user_speed)、用户平均下行吞吐量(user_throught)、边缘用户占比(edge_user),其中RRC、PRB、下行速率、下行吞吐率、下行丢包率、下行弃包率、下行时延、带宽、下倾角配置、用户下行速率、用户下行吞吐量都将进行归一化到[0,1]区间。同时为了兼顾考虑时分特性,将小区前后指标变化的差值考虑进来,所以环境状态观测值还需包括Δrrc/Δprb/Δdown_speed/Δdown_throught/Δdown_lost/Δdown_drop/Δdown_delay/Δuser_speed/Δuser_throught/Δedge_user/Δdowntilt。为了解决小区环境的部分观测问题,利用LSTM对部分指标进行预测的输出值作为补充特征,最终形成如下的状态形式:
Figure BDA0001827789380000042
步骤S102,将所述环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor,获取与所述环境状态观测值对应的网络配置策略。
在本实施例中,步骤S102具体包括:将所述环境状态观测值输入到基于强化训练学习获取的与当前应用场景对应的现实网络配置策略模型Actor,获取模型Actor输出的与所述环境状态观测值对应的网络配置策略。针对不同的优化目标应用场景均对应有唯一的模型Actor。
其中,所述网络配置策略是指在当前环境状态观测值下,所述小区智能体调整对象所对应执行的调整动作,针对不同的优化目标对应的调整动作不同。例如:
在移动性负载均衡自优化场景下,调整对象为主邻小区,为防止乒乓效应的产生,调整动作为主邻各自指向对方的小区个体偏移Ocn配置[OcnA→B,OcnB→A];
在覆盖与容量自优化场景下,实现容量与覆盖的调整主要通过调节小区的参考信号功率或者小区的物理下倾角与方位角实现,在本实现中通过调整小区的物理下倾角方式实现,所以调整动作定义为下倾角[downtilt]。
步骤S103,根据所述网络配置策略生成相应的控制指令,将所述控制指令下发至对应的小区,指示所述小区根据所述网络配置策略进行网络参数配置。
在本实施例中,步骤S103包括:根据多个不同的优化目标对应的网络配置策略生成所述控制指令,并将所述控制指令下发至对应的小区,使移动网络中的小区根据所述多个网络配置策略针对多个不同的优化目标进行网络参数配置。
优选的,在本实施例中,在步骤S103之前还可以包括:
对所述模型Actor输出的动作进行方向性的约束,在实时控制时,对于不满足约束条件的动作在下发控制指令前进行剔除。例如:
在移动性负载均衡自优化场景下,为了保证后续结果的可靠性,防止算法进行不必要的试错,对所述模型Actor输出的动作进行方向性的约束,譬如如果小区A的负荷压力明显高于小区B,那么下发的参数必须满足是将用户从小区A迁入到小区B,对于不满足该约束条件的动作将在下发控制前进行剔除;
在覆盖与容量自优化场景下,为避免过于精细的调整影响收敛,对所述模型Actor输出动作进行约束,保证下倾角可调整范围为[0,15]度,最小粒度为0.2度,对于不满足该约束条件的动作将在下发控制前进行剔除。
可选的,在本实施例中,在步骤S103之后还可以包括:
步骤S104,根据所述环境状态观测值和所述网络配置策略生成新的样本数据,将所述新的样本数据存储至样本池,供强化训练学习优化模型Actor使用。
其中,所述根据所述环境状态观测值和所述网络配置策略生成新的样本数据包括:
根据当前环境状态观测值和下一时刻的环境状态观测值计算在当前时刻的环境状态观测值下执行对应的调整动作转移到下一时刻的环境状态观测值所产生的收益值,将当前环境状态观测值、所述收益值、下一时刻的环境状态观测值及在当前时刻环境状态观测值下对应执行的调整动作组装成新的样本数据。
其中,所述收益值是指当前时刻的环境状态观测值下执行对应的调整动作转移到下一时刻的环境状态观测值所产生的全局收益值。由于对小区的调整影响范围区域是有限区域,而非整个大网络,所以在计算全局收益时,非常有必要限定全局的范畴。在本实施例中,针对每一个小区全局我们定义为与小区重叠覆盖度超过一定阈值的小区作为关联影响小区,用于计算全局收益。针对不同的优化目标,对应的全局收益的计算方式不同。例如:
在移动性负载均衡自优化场景下,小区A和小区B间的调整应该由A、B各自的收益计算得到,同时小区的调整应该带来全局的改善,所以A、B间的调整应该由3项构成RA,B=αRA+βRB+γRglobal,其中RA表示的是小区A的收益,RB表示的是小区B的收益,Rglobal为所有调整小区回报的平均值,单个小区回报定义如下:
Figure BDA0001827789380000061
其中:W为每一个奖赏考量指标的权重,xbase表示指标x必须达到的条件,此处公式设计上取指数起到放大奖赏和惩罚的目的,奖赏具体选用哪些指标可以根据客户待优化的目标而确定。
在覆盖与容量自优化场景下,容量与覆盖优化只需考虑小区本身与全局指标的提升效果,所以全局收益值定义为:reward=αRstation+βRglobal,其中:Rstation的定义与移动性负载均衡的定义一致,Rglobal为所有调整小区回报的平均值。
以上可以看出,本实施例提供的移动网络自优化方法由于将强化学习与移动网络自优化技术结合到一起,利用强化学习从小区的环境状态信息中总结规则,并在人为设定的目标奖赏的指导下做出适合于当前环境状态信息的网络参数配置决策,形成了端到端的完整优化环,相较传统的网络自优化方法,该移动网络自优化方法终生在线学习,能够适应环境的变化,待模型收敛后无需网优专家干预可以自适应运行,能够真正做到无人值守,自驱动,极大地减少了运营商的运维成本。
图2是本发明实施例二提供的移动网络自优化方法的实现流程示意图。该方法的执行主体为本发明实施例中所述的移动网络自优化系统/终端。参见图2所示,本实施例提供的移动网络自优化方法包括以下步骤:
步骤S201,获取所述小区智能体网络配置策略的初始样本数据,将所述初始样本数据存储至所述样本池。
在本实施例中,所述初始样本数据可以是专家手动调整收集的对应天使样本数据,也可以是已有成熟但不完善的自优化算法产生的天使样本数据,从测试中可以发现基于天使样本的模型比在环境中直接学习的模型具有更快的收敛特性和鲁棒性,解决了算法在调整中随机的试错导致现网指标剧烈波动的问题。
优选的,在本实施例中,在步骤S201之后还可以包括:
记录所述小区智能体的历史环境状态信息,采用采用长短期记忆网络((LongShort-Term Memory,LSTM)算法预测的未来值作为所述小区智能体环境状态的补充特征。
由于小区所处环境的部分可见问题,导致小区的序列决策呈现出非马尔科夫性。因此,在本实施例中,针对小区的部分特征值引入了历史信息以及采用LSTM预测的未来值作为补充状态特征,可以将非马尔科夫问题转换成马尔科夫问题。
步骤S202,对所述样本池中的初始样本数据进行抽样强化训练学习,获取所述现实网络配置策略模型。
参见图3所示,在本实施例中,该离线强化训练学习过程是在独立的进程中运行,其只与样本池对接,其每次从样本池中捞取一个批次的样本数据用于模型训练,如此周而复始,并且其每隔一段时间输出一次模型持久化到磁盘上,以便进程终止后再次加载继续训练,同时输出模型将用于在线推理进程加载用于推演。为了保证训练的稳定性,使用目标网络计算估计值作为现实网络的已知值,每一轮训练后将参数以极小的权重λ更新目标网络,当绝对收敛后两个网络的参数应该是保持一致的。进一步的,步骤S202具体包括:
对所述样本池中的初始样本数据进行归一化处理,形成表征所述小区智能体各优化目标网络配置策略的样本数据;
分别对所述小区智能体各优化目标网络配置策略的样本数据进行离线强化训练学习,得到与所述小区智能体各优化目标一一对应的现实网络配置策略模型。
其中,样本池中存储的所述样本数据的格式为(St,Rt,St+1,At),其中St表示t时刻归一化之后某指标的状态向量,At表示在状态St下所执行的动作向量,St+1表示在状态St下执行动作At转移到的下一个时刻的状态向量,Rt表示在状态St下执行动作At转移到St+1所产生的收益值,样本池用于数据抽样训练强化学习模型。
优选的,参见图4所示,在本实施例中,对所述小区智能体各优化目标网络配置策略的样本数据进行离线强化训练学习,得到与所述各优化目标对应的现实网络配置策略模型包括:
周期性的从所述样本池中取得样本数据(St,At,Rt,St+1),将St+1输入到目标网络配置策略模型Actor-target输出估计动作At+1
将(St+1,At+1)输入到目标评价网络模型Critic-target,输出状态-动作(St+1,At+1)对应的目标评价值Q(St+1,At+1);
将样本数据中已经发生的(St,At)输入到现实评价模型Critic,获取状态-动作(St,At)对应的现实评价值
Figure BDA0001827789380000081
根据公式Q(St,At)=Rt+γ*Q(St+1,At+1)计算得到状态-动作(St,At)对应的目标评价值Q(St,At),其中,γ为预设权重;
通过最小化
Figure BDA0001827789380000082
来优化模型Critic,根据优化后的模型Critic更新模型Critic-target,其中Loss为损失函数;
将状态St输入到所述模型Actor中,输出当前策略下的动作A′t,将状态-动作(St,A′t)输入到所述模型Critic,得到对应的评价输出Q(St,A′t);
根据策略梯度公式▽Q(St,A′t)St,A′t=μ(St),将最小化Q(St,A′t)作为所述模型Actor的损失函数对所述模型Actor进行优化。
为了使得算法能够从以往收益值高的尝试中学到经验,本实施例中使用优先级队列样本池,在强化训练学习时,从样本池中抽取数据优先选择拟合误差比较的样本进行训练,这样可以保证算法能够更好的学习到过往好的经历。另外,在本实施例中,从样本池中取数据时,需要样本池中的样本达到一定数量后方可触发训练流程,否则数据量过少会造成过拟合的问题。
步骤S203,获取移动网络中小区智能体的环境状态观测值。
步骤S204,将所述环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor,获取与所述环境状态观测值对应的网络配置策略。
优选的,在本实施例中,步骤S204具体包括:
对所述环境状态观测值进行归一化处理,形成表征所述小区智能体各优化目标的状态观测值;
根据所述各优化目标的状态观测值对应派生出多个子进程,分别加载离线强化训练学习产生的所述模型Actor进行数据推理,生成与所述各优化目标的状态观测值对应的网络配置策略。
步骤S205,根据所述网络配置策略生成相应的控制指令,将所述控制指令下发至对应的小区,指示所述小区根据所述网络配置策略进行网络参数配置。
步骤S206,根据所述环境状态观测值和所述网络配置策略生成新的样本数据,将所述新的样本数据存储至样本池,供强化训练学习优化模型Actor使用。
需要说明的是,本实施例中,步骤S203~步骤S206的具体实现方式由于分别与上一实施例中步骤S101~步骤S104的实现方式相同,因此,在此不再赘述。
以上可以看出,本实施例提供的移动网络自优化方法同样可以根据小区环境状态的变化,自适应调整小区的网络配置参数,且无需网优专家干预,极大地减少了运营商的运维成本。
实施例三
图5是本发明实施例三提供的移动网络自优化系统的结构示意图。为了便于说明仅仅示出了与本实施例相关的部分。
参见图5所示,本实施例提供的移动网络自优化系统5包括:
环境监测单元51,用于获取移动网络中小区智能体的环境状态观测值;
配置策略获取单元52,用于将所述环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor,获取与所述环境状态观测值对应的网络配置策略;
控制指令下发单元53,用于根据所述网络配置策略生成相应的控制指令,将所述控制指令下发至对应的小区,指示所述小区根据所述网络配置策略进行网络参数配置;
样本池重放单元54,用于根据所述环境状态观测值和所述网络配置策略生成新的样本数据,将所述新的样本数据存储至样本池,供强化训练学习优化模型Actor使用。
本发明实施例的系统由于与上述实施例一或实施例二的移动网络自优化方法属于同一构思,其具体实现过程详细见对应的方法实施例,且方法实施例中的技术特征在本设备实施例中均对应适用,这里不再赘述。
本领域普通技术人员可以理解,本实施例所公开方法中的全部或某些步骤、可以被实施为软件、固件、硬件及其适当的组合。
实施例四
图6是本发明实施例四提供的移动网络自优化终端的结构示意图。为了便于说明仅仅示出了与本实施例相关的部分。
参见图6所示,本实施例提供的移动网络自优化终端6包括存储器61、处理器62及存储在所述存储器61上并可在所述处理器62上运行的计算机程序,该所述计算机程序被所述处理器62执行时,实现如上述实施例一或实施例二所述的移动网络自优化方法的步骤。
本发明实施例的终端由于与上述实施例一或实施例二的移动网络自优化方法属于同一构思,其具体实现过程详细见对应的方法实施例,且方法实施例中的技术特征在本设备实施例中均对应适用,这里不再赘述。
本领域普通技术人员可以理解,本实施例所公开方法中的全部或某些步骤、可以被实施为软件、固件、硬件及其适当的组合。
实施例五
本发明实施例五提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述实施例一或实施例二所述的移动网络自优化方法的步骤。
本发明实施例的计算机可读存储介质由于与上述实施例一或实施例二的移动网络自优化方法属于同一构思,其具体实现过程详细见对应的方法实施例,且方法实施例中的技术特征在本设备实施例中均对应适用,这里不再赘述。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

Claims (10)

1.一种移动网络自优化方法,其特征在于,包括:
获取移动网络中小区智能体的环境状态观测值;
将所述环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor,获取与所述环境状态观测值对应的网络配置策略;
根据所述网络配置策略生成相应的控制指令,将所述控制指令下发至对应的小区,指示所述小区根据所述网络配置策略进行网络参数配置。
2.如权利要求1所述的移动网络自优化方法,其特征在于,所述根据所述网络配置策略生成相应的控制指令,将所述控制指令下发至对应的小区,指示所述小区根据所述网络配置策略进行网络参数配置之后还包括:
根据所述环境状态观测值和所述网络配置策略生成新的样本数据,将所述新的样本数据存储至样本池,供强化训练学习优化模型Actor使用。
3.如权利要求1所述的移动网络自优化方法,其特征在于,所述实时监测小区智能体的环境状态观测值之前还包括:
获取所述小区智能体网络配置策略的初始样本数据,将所述初始样本数据存储至所述样本池;
对所述样本池中的初始样本数据进行抽样强化训练学习,获取所述现实网络配置策略模型。
4.如权利要求3所述的移动网络自优化方法,其特征在于,所述获取所述小区智能体网络配置策略的初始样本数据,将所述初始样本数据存储至所述样本池之后包括:
记录所述小区智能体的历史环境状态信息,采用长短期记忆网络LSTM算法预测的未来值作为所述小区智能体环境状态的补充特征。
5.如权利要求3所述的移动网络自优化方法,其特征在于,所述对所述样本池中的初始样本数据进行抽样强化训练学习,获取所述网络配置策略模型包括:
对所述初始样本数据进行归一化处理,形成表征所述小区智能体各优化目标网络配置策略的样本数据;
分别对所述小区智能体各优化目标网络配置策略的样本数据进行离线强化训练学习,得到与所述小区智能体各优化目标一一对应的现实网络配置策略模型。
6.如权利要求5所述的移动网络自优化方法,其特征在于,所述将所述环境状态观测值输入到基于强化训练学习获取的现实网络配置策略模型Actor,获取与所述环境状态观测值对应的网络配置策略包括:
对所述环境状态观测值进行归一化处理,形成表征所述小区智能体各优化目标的状态观测值;
根据所述各优化目标的状态观测值对应派生出多个子进程,分别加载离线强化训练学习产生的所述模型Actor进行数据推理,生成与所述各优化目标的状态观测值对应的网络配置策略。
7.如权利要求5所述的移动网络自优化方法,其特征在于,所述样本数据的格式为(St,Rt,St+1,At),其中St表示t时刻归一化之后某指标的状态向量,At表示在状态St下所执行的动作向量,St+1表示在状态St下执行动作At转移到的下一个时刻的状态向量,Rt表示在状态St下执行动作At转移到St+1所产生的收益值;
对所述小区智能体各优化目标网络配置策略的样本数据进行离线强化训练学习,得到与所述各优化目标对应的现实网络配置策略模型包括:
周期性的从所述样本池中取得样本数据(St,At,Rt,St+1),将St+1输入到目标网络配置策略模型Actor-target输出估计动作At+1
将(St+1,At+1)输入到目标评价网络模型Critic-target,输出状态-动作(St+1,At+1)对应的目标评价值Q(St+1,At+1);
将样本数据中已经发生的(St,At)输入到现实评价模型Critic,获取状态-动作(St,At)对应的现实评价值
Figure FDA0001827789370000021
根据公式Q(St,At)=Rt+γ*Q(St+1,At+1)计算得到状态-动作(St,At)对应的目标评价值Q(St,At),其中,γ为预设权重;
通过最小化
Figure FDA0001827789370000022
来优化模型Critic,根据优化后的模型Critic更新模型Critic-target,其中Loss为损失函数;
将状态St输入到所述模型Actor中,输出当前策略下的动作A′t,将状态-动作(St,A′t)输入到所述模型Critic,得到对应的评价输出Q(St,A′t);
根据策略梯度公式,将最小化Q(St,A′t)作为所述模型Actor的损失函数对所述模型Actor进行优化。
8.如权利要求1所述的移动网络自优化方法,其特征在于,所述方法还包括:
对所述模型Actor输出的动作进行方向性的约束,在实时控制时,对于不满足约束条件的动作在下发控制指令前进行剔除。
9.一种移动网络自优化终端,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,该所述计算机程序被所述处理器执行时,实现如权利要求1至8中任一项所述的移动网络自优化方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的移动网络自优化方法的步骤。
CN201811192207.8A 2018-10-12 2018-10-12 移动网络自优化方法、系统、终端及计算机可读存储介质 Active CN111050330B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811192207.8A CN111050330B (zh) 2018-10-12 2018-10-12 移动网络自优化方法、系统、终端及计算机可读存储介质
PCT/CN2019/109437 WO2020073870A1 (zh) 2018-10-12 2019-09-30 移动网络自优化方法、系统、终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811192207.8A CN111050330B (zh) 2018-10-12 2018-10-12 移动网络自优化方法、系统、终端及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111050330A true CN111050330A (zh) 2020-04-21
CN111050330B CN111050330B (zh) 2023-04-28

Family

ID=70164844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811192207.8A Active CN111050330B (zh) 2018-10-12 2018-10-12 移动网络自优化方法、系统、终端及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN111050330B (zh)
WO (1) WO2020073870A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113133058A (zh) * 2021-04-07 2021-07-16 中国移动通信集团陕西有限公司 负载均衡方法、装置及系统
CN114205832A (zh) * 2020-09-17 2022-03-18 中兴通讯股份有限公司 无线网络优化方法、网络设备及计算机可读存储介质
CN114520985A (zh) * 2020-11-20 2022-05-20 大唐移动通信设备有限公司 一种网络覆盖容量优化的方法、装置及存储介质
CN114828045A (zh) * 2022-04-12 2022-07-29 亚信科技(中国)有限公司 网络优化方法、装置、电子设备及计算机可读存储介质
WO2022184125A1 (zh) * 2021-03-05 2022-09-09 华为技术有限公司 一种负载均衡方法,装置及可读存储介质
CN116996919A (zh) * 2023-09-26 2023-11-03 中南大学 一种基于强化学习的单节点多域抗干扰方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612126B (zh) * 2020-04-18 2024-06-21 华为技术有限公司 强化学习的方法和装置
CN113543065B (zh) * 2021-05-31 2024-02-02 北京邮电大学 一种基于强化学习的通信资源分配方法及其相关设备
CN113821903B (zh) * 2021-07-09 2024-02-06 腾讯科技(深圳)有限公司 温度控制方法和设备、模块化数据中心及存储介质
CN113744719B (zh) * 2021-09-03 2024-08-06 清华大学 一种语音提取方法、装置及设备
CN114051256B (zh) * 2021-11-22 2024-07-09 广州捷锐企业管理有限公司 一种择优近端策略优化方法
CN114115157B (zh) * 2021-11-26 2024-03-08 厦门大学 针对智能体集群不确定丢包的优化控制方法、系统和装置
CN115150448B (zh) * 2022-06-14 2023-08-25 北京车网科技发展有限公司 一种会话数据处理方法、系统、存储介质和电子设备
CN114968596A (zh) * 2022-06-17 2022-08-30 长沙理工大学 基于时序分割与模型混合并行优化的网格负载均衡调度方法
CN115314963B (zh) * 2022-08-05 2024-06-11 厦门大学 基于无线接入网智能控制器的移动切换优化方法及装置
CN117613421B (zh) * 2023-11-23 2024-06-21 北京中铁建电气化设计研究院有限公司 一种基于神经网络的储能电池组管理系统的均衡方法及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101132363A (zh) * 2007-08-10 2008-02-27 北京邮电大学 基于强化学习的自主联合无线资源管理系统和方法
CN103548375A (zh) * 2010-12-03 2014-01-29 华为技术有限公司 通信方法及装置
CN104618149A (zh) * 2015-01-08 2015-05-13 西安电子科技大学 一种异构网络son智能运维管理方法
CN105578486A (zh) * 2016-02-29 2016-05-11 重庆邮电大学 一种异构密集网络中容量与覆盖联合优化方法
CN108401254A (zh) * 2018-02-27 2018-08-14 苏州经贸职业技术学院 一种基于强化学习的无线网络资源分配方法
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
US20180284757A1 (en) * 2016-05-09 2018-10-04 StrongForce IoT Portfolio 2016, LLC Methods and systems for industrial internet of things data collection in a network sensitive mining environment

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090234937A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Optimization in a communication system
CN102364893A (zh) * 2011-10-21 2012-02-29 南京邮电大学 一种基于认知网络的重配置管理平面及重配置方法
CN103888285A (zh) * 2013-12-02 2014-06-25 江苏达科信息科技有限公司 一种认知网络资源智能管理方法
CN105101358A (zh) * 2015-07-02 2015-11-25 哈尔滨工程大学 一种面向认知网络接入选择的自适应跨层感知装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101132363A (zh) * 2007-08-10 2008-02-27 北京邮电大学 基于强化学习的自主联合无线资源管理系统和方法
CN103548375A (zh) * 2010-12-03 2014-01-29 华为技术有限公司 通信方法及装置
CN104618149A (zh) * 2015-01-08 2015-05-13 西安电子科技大学 一种异构网络son智能运维管理方法
CN105578486A (zh) * 2016-02-29 2016-05-11 重庆邮电大学 一种异构密集网络中容量与覆盖联合优化方法
US20180284757A1 (en) * 2016-05-09 2018-10-04 StrongForce IoT Portfolio 2016, LLC Methods and systems for industrial internet of things data collection in a network sensitive mining environment
CN108401254A (zh) * 2018-02-27 2018-08-14 苏州经贸职业技术学院 一种基于强化学习的无线网络资源分配方法
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205832A (zh) * 2020-09-17 2022-03-18 中兴通讯股份有限公司 无线网络优化方法、网络设备及计算机可读存储介质
CN114520985A (zh) * 2020-11-20 2022-05-20 大唐移动通信设备有限公司 一种网络覆盖容量优化的方法、装置及存储介质
WO2022184125A1 (zh) * 2021-03-05 2022-09-09 华为技术有限公司 一种负载均衡方法,装置及可读存储介质
CN113133058A (zh) * 2021-04-07 2021-07-16 中国移动通信集团陕西有限公司 负载均衡方法、装置及系统
CN114828045A (zh) * 2022-04-12 2022-07-29 亚信科技(中国)有限公司 网络优化方法、装置、电子设备及计算机可读存储介质
CN116996919A (zh) * 2023-09-26 2023-11-03 中南大学 一种基于强化学习的单节点多域抗干扰方法
CN116996919B (zh) * 2023-09-26 2023-12-05 中南大学 一种基于强化学习的单节点多域抗干扰方法

Also Published As

Publication number Publication date
WO2020073870A1 (zh) 2020-04-16
CN111050330B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN111050330B (zh) 移动网络自优化方法、系统、终端及计算机可读存储介质
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN109845310B (zh) 利用强化学习进行无线资源管理的方法和单元
US9002757B2 (en) Parameter setting apparatus, non-transitory medium storing computer program, and parameter setting method
US20220248237A1 (en) Neural network circuit remote electrical tilt antenna infrastructure management based on probability of actions
CN113365312B (zh) 强化学习和监督学习相结合的移动负载均衡方法
CN108075975B (zh) 一种物联网环境中的路由传输路径的确定方法及确定系统
Attiah et al. Load balancing in cellular networks: A reinforcement learning approach
EP3979685B1 (en) Network optimization method, device, and storage medium
US20230216737A1 (en) Network performance assessment
Fragkos et al. Artificial intelligence enabled distributed edge computing for Internet of Things applications
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
WO2022028926A1 (en) Offline simulation-to-reality transfer for reinforcement learning
CN117580105B (zh) 一种面向电网巡检的无人机任务卸载优化方法
Li et al. Multi-agent DRL for user association and power control in terrestrial-satellite network
EP4315932A1 (en) Adaptive learning in distribution shift for ran ai/ml models
CN117202265A (zh) 边缘环境下基于dqn的服务迁移方法
CN110224861A (zh) 基于学习的自适应动态异构网络选择策略的实现方法
CN116801367A (zh) 一种交叉链路干扰抑制方法、网络节点及存储介质
EP4241503A1 (en) Ml model based power management in a wireless communication network
Zhang et al. Adaptive Frame Rate Optimization Based on Particle Swarm and Neural Network for Industrial Video Stream
US12133097B2 (en) Network optimization method, device, and storage medium
US20230084465A1 (en) Communication load balancing via meta multi-objective reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231016

Address after: Building 8, ZTE Changsha R&D and Production Base, No. 103, Wanglong Road, High tech Development Zone, Changsha, Hunan 410000

Patentee after: Changsha Zhongxing Software Co.,Ltd.

Address before: 518000 Zhongnan communication tower, South China Road, Nanshan District high tech Industrial Park, Shenzhen, Guangdong

Patentee before: ZTE Corp.