CN112866021B

CN112866021B - 基于深度强化学习的ai智慧节能动态控制方法

Info

Publication number: CN112866021B
Application number: CN202110037945.0A
Authority: CN
Inventors: 郭洋; 王倩; 华奇兵
Original assignee: Donglian Information Technology Co ltd; China Mobile Chengdu ICT Co Ltd
Current assignee: Donglian Information Technology Co ltd; China Mobile Chengdu ICT Co Ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-11-09
Anticipated expiration: 2041-01-12
Also published as: CN112866021A

Abstract

本发明涉及5G节能领域，具体涉及一种基于深度强化学习的AI智慧节能动态控制方法，极大地降低了对人工运维以及人工经验分析的依赖，提高了自动化节能的控制。技术方案概括为，获取环境状态信息，所述环境状态信息包括4G状态指标以及5G状态指标；根据环境状态信息建立环境模型；在环境模型中加入双网络DQN算法，通过双网络DQN算法获取节能控制策略；通过节能控制策略生成对应的节能控制指令，并通过节能控制指令进行节能动态控制。本发明适用于5G基站的节能控制。

Description

基于深度强化学习的AI智慧节能动态控制方法

技术领域

本发明涉及5G节能领域，具体涉及一种基于深度强化学习的AI智慧节能动态控制方法。

背景技术

在工业互联网领域，实现工业设备的节能降耗目标，实现绿色发展，降本增效，是企业发展的重点方向。

对于列入国家新基建反范畴的运营商网络，对于其运营，如何平衡网络性能/用户感知与网络能耗，将影响网络长期的运营效果。

目前现有的技术，关于节能控制，一方面是是单纯从网络负荷的均衡性出发开展网络流量的迁移/切换控制；另一方面迁移的方向是由运维网优人员通过软件参数进行控制，持续性及准确性难以保证。

而现有的4G,5G小区节能技术，更多的是监测本小区的业务流量，从而进行节能操作，缺失区域内的各小区间整体网络业务量的监控，而对于节能时段和节能触发门限的控制，也是由人员来设定，人员的数据分析能力及运维技能及经验在工作中占了比较大的比重。

上述技术的缺陷为：

(1)单纯从网络负荷的均衡性出发开展网络流量的迁移/切换控制，无法保证实时性；

(2)由运维网优人员通过软件参数进行控制，持续性及准确性难以保证；

(3)由于缺乏统计学方法，门限控制等一些重要参数均由人员设置，人工的数据分析能力及运维技能及经验在工作中占了比较大的比重。

发明内容

本发明的目的是提供一种基于深度强化学习的AI智慧节能动态控制方法，极大地降低了对人工运维以及人工经验分析的依赖，提高了自动化节能的控制。

本发明采取如下技术方案实现上述目的，基于深度强化学习的AI智慧节能动态控制方法，包括：

步骤(1)、获取环境状态信息，所述环境状态信息包括4G状态指标以及5G状态指标；

步骤(2)、根据环境状态信息建立环境模型；

步骤(3)、在环境模型中加入双网络DQN算法，通过双网络DQN算法获取节能控制策略；

步骤(4)、通过节能控制策略生成对应的节能控制指令，并通过节能控制指令进行节能动态控制。

进一步的是，在步骤(1)中，所述4G状态指标包括：MR指标，保持性指标，接入性指标，业务量迁移比，资源利用率指标以及信令连接比指标。

进一步的是，在步骤(1)中，所述5G状态指标包括：双连接用户数，双连接终端数，双连接添加尝试次数，5G在服比、5G KPI达标率、以及业务量迁移比。

进一步的是，在步骤(1)中，所述环境状态信息还包括：话务量数据信息、投诉万投比以及外部气象因素。

进一步的是，在步骤(2)中，根据环境状态信息建立环境模型包括：将节能控制问题建模为马尔科夫决策过程模型，并定义其中的状态，动作以及奖赏函数。

进一步的是，所述定义状态的具体方法包括：

选择投诉万投比、接入性指标、5G在服比指标以及话务量数据信息为环境状态信息；

设t时刻，投诉万投比为Mt、接入性指标为Mj、5G在服比指标为Mz，此时话务量数据信息为Mh，则状态St＝(Mt，Mj，Mz，Mh)。

进一步的是，所述定义动作的具体方法包括：

设置4G增容层业务量权重值为θ_Z、4G覆盖层业务量权重值为θ_f、4G转5G预测业务量权重值为θ_C、5G SA预测业务量权重值为θ_S、5G NSA预测业务量权重值为θ_N以及4G峰值业务量权重值为θ_m；

若t时刻采取的动作为调高或调低业务量的权重值，则其动作a的集合为，a＝{[θ_Z0，θ_f0，θ_C0，θ_S0，θ_N0，θ_m0]，[θ_Z1，θ_f1，θ_C1，θ_S1，θ_N1，θ_m1]，...，[θ_Zn，θ_fn，θ_Cn，θ_Sn，θ_Nn，θ_mn]}。

进一步的是，所述定义奖赏函数的具体方法包括：

选择5G KPI达标率K以及投诉万投比T作为评测指标；

若K＜90％或者T＞100，则设置奖赏函数r＝-1；

若K＞90％，并且T＜100，则奖赏函数r＝W1(E_reward)+W2(K_reward)+W3(T_reward)，

W1、W2以及W3分别表示权重参数，E_reward表示节能奖励参数，K_reward表示KPI奖励参数，T_reward表示投诉比奖励参数，E_max表示基站站点最大能耗，E_t表示t时刻基站站点能耗。

进一步的是，在步骤(2)中，根据环境状态信息建立环境模型还包括建立价值函数回报模型，所述建立价值函数回报模型的具体方法包括：

设G(S，a)表示在状态S下采用动作a的回报值，则

λ是折扣因子，则价值函数Q(S，a)＝E[G(S，a)]，表示价值函数Q(S，a)为G(S，a)的期望。

进一步的是，在步骤(3)中，通过双网络DQN算法获取节能控制策略的方法包括：

初始化记忆单元、当前估值网络以及目标网络TargetQ，随机初始化权重参数θ，初始化权重θ'与估值网络相同；

将环境状态信息建模，再通过DQN算法计算出奖励r后，得到任意状态S_t下的Q(S_t，a)，然后使用ε-greedy策略执行动作A，得到下一时刻S_t+1的状态值，并将每个时间步得到的数据(S_t，a，r，S_t+1)存入记忆单元；

建立损失函数，损失函数L(θ)＝E[(TargetQ-Q(S_t,a；θ))]²，

r为当前状态转移到下一个状态的即时奖励，γ为折扣因子；

记忆单元存储设定量数据后，随机选择一个数据(S_t，a，r，S_t+1)，并将(S_t，a)、S_t+1以及r的值分别传递给估值网络、目标网络以及损失函数L(W)，并对损失函数的W使用梯度下降法进行更新，获取节能控制策略。

本发明对4G，5G环境状态信息进行采样建模，在模型中加入DQN算法，通过DQN算法获取节能控制策略，避免了通过人工进行参数设置以及通过人工经验进行分析；并且在建模过程中，将节能控制问题建模为马尔科夫决策过程模型，结合4G，5G的状态指标，定义其中的状态、动作以及鉴赏函数，保证了KPI达标率以及投诉万投比在符合要求的同时进行节能策略计算；并且还建立了损失函数，对损失函数的自变量采用梯度下降法进行更新，保证了节能策略的实时性与准确性。

附图说明

图1是本发明基于深度强化学习的AI智慧节能动态控制的方法流程图。

具体实施方式

本发明基于深度强化学习的AI智慧节能动态控制方法，其方法流程图如图1，包括：

步骤101、获取环境状态信息，所述环境状态信息包括4G状态指标以及5G状态指标；

步骤102、根据环境状态信息建立环境模型；

步骤103、在环境模型中加入双网络DQN算法，通过双网络DQN算法获取节能控制策略；

步骤104、通过节能控制策略生成对应的节能控制指令，并通过节能控制指令进行节能动态控制。

在步骤101中，所述4G状态指标包括：MR指标，保持性指标，接入性指标，业务量迁移比，资源利用率指标以及信令连接比指标。

在步骤101中，所述5G状态指标包括：双连接用户数，双连接终端数，双连接添加尝试次数，5G在服比、5G KPI达标率、以及业务量迁移比。

在步骤101中，所述环境状态信息还包括：话务量数据信息、投诉万投比以及外部气象因素。

在步骤102中，根据环境状态信息建立环境模型包括：将节能控制问题建模为马尔科夫决策过程模型，并定义其中的状态，动作以及奖赏函数。

其中定义状态的具体方法包括：

定义动作的具体方法包括：

定义奖赏函数的具体方法包括：

选择5G KPI达标率K以及投诉万投比T作为评测指标；

若K＜90％或者T＞100，则设置奖赏函数r＝-1；

鉴赏函数与评测指标有关，节能目标是在保障评测指标达标的情况下，达到能耗最低，其中5G KPI达标率(指标要求＞90％，即保障KPI达标率90％以上)，投诉万投比(指标要求<100,即当月投诉客户总量/当月收费客户总量×10000<100)。

奖赏值r值作为模型最终评价标准，是能耗参数，KPI达标率，投诉万投比的加权值，当三个相关参数越大时，r的值就越大，模型需要的就是尽可能大的r值。也就是说，当KPI达标率越接近100％，投诉万投比越接近0，能耗值越低时，模型获得的r值就越大；反之则模型获得的r值就越小。当然，首先需要考虑的是站点评测指标达标，若因为节能，使相关指标没有达到运营要求，r就会给一个负反馈值-1。这便是控制器要达到的最终目的——在不影响站点正常运营的条件下达到节能的目的。

在步骤102中，根据环境状态信息建立环境模型还包括建立价值函数回报模型，所述建立价值函数回报模型的具体方法包括：

设G(S，a)表示在状态S下采用动作a的回报值，则

在步骤103中，通过双网络DQN算法获取节能控制策略的方法包括：

建立损失函数，损失函数L(θ)＝E[(TargetQ-Q(S_t,a；θ))]²，

r为当前状态转移到下一个状态的即时奖励，γ为折扣因子；

双网络DQN算法更新值函数的方式如下：

Q(S_t,a)←Q(S_t,a)+β[r+λmaxa_t+1Q(S_t+1,a_t+1)-Q(S_t,a)]；其中β为学习率，λ为折扣因子，根据实际收敛情况调整，每多次迭代后更新目标值网络的参数为估值网络的参数。

综上所述，本发明极大地降低了对人工运维以及人工经验分析的依赖，提高了自动化节能的控制，还保证了节能策略的实时性与准确性。

Claims

1.基于深度强化学习的AI智慧节能动态控制方法，其特征在于，包括：

步骤(1)、获取环境状态信息，所述环境状态信息包括4G状态指标、5G状态指标、话务量数据信息以及投诉万投比；4G状态指标包括接入性指标，5G状态指标包括5G在服比；

步骤(2)、根据环境状态信息建立环境模型，包括：将节能控制问题建模为马尔科夫决策过程模型，并定义其中的状态，动作以及奖赏函数；

所述定义状态的具体方法包括：

设t时刻，投诉万投比为M_t、接入性指标为M_j、5G在服比指标为M_z，此时话务量数据信息为M_h，则状态S_t＝(M_t，M_j，M_z，M_h)；

2.根据权利要求1所述的基于深度强化学习的AI智慧节能动态控制方法，其特征在于，在步骤(1)中，所述4G状态指标包括：MR指标，保持性指标，业务量迁移比，资源利用率指标以及信令连接比指标。

3.根据权利要求2所述的基于深度强化学习的AI智慧节能动态控制方法，其特征在于，在步骤(1)中，所述5G状态指标包括：双连接用户数，双连接终端数，双连接添加尝试次数，5G KPI达标率、以及业务量迁移比。

4.根据权利要求3所述的基于深度强化学习的AI智慧节能动态控制方法，其特征在于，在步骤(1)中，所述环境状态信息还包括：外部气象因素。

5.根据权利要求4所述的基于深度强化学习的AI智慧节能动态控制方法，其特征在于，所述定义动作的具体方法包括：

6.根据权利要求5所述的基于深度强化学习的AI智慧节能动态控制方法，其特征在于，所述定义奖赏函数的具体方法包括：

选择5G KPI达标率K以及投诉万投比T作为评测指标；

若K＜90％或者T＞100，则设置奖赏函数r＝-1；

7.根据权利要求6所述的基于深度强化学习的AI智慧节能动态控制方法，其特征在于，在步骤(2)中，根据环境状态信息建立环境模型还包括建立价值函数回报模型，所述建立价值函数回报模型的具体方法包括：

设G(S，a)表示在状态S下采用动作a的回报值，则

8.根据权利要求7所述的基于深度强化学习的AI智慧节能动态控制方法，其特征在于，在步骤(3)中，通过双网络DQN算法获取节能控制策略的方法包括：

建立损失函数，损失函数L(θ)＝E[(TargetQ-Q(S_t,a；θ))]²，

r为当前状态转移到下一个状态的即时奖励，γ为折扣因子；