CN111010294B

CN111010294B - 一种基于深度强化学习的电力通信网路由方法

Info

Publication number: CN111010294B
Application number: CN201911192806.4A
Authority: CN
Inventors: 袁晖; 赵博; 白万荣; 宋曦; 赵金雄; 李志茹; 高丽娜; 龚波; 王晶; 杨凡
Original assignee: STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE; State Grid Corp of China SGCC; State Grid Gansu Electric Power Co Ltd
Current assignee: STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE; State Grid Corp of China SGCC; State Grid Gansu Electric Power Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2022-07-12
Anticipated expiration: 2039-11-28
Also published as: CN111010294A

Abstract

本发明公开了一种基于深度强化学习的电力通信网路由方法。该方法是针对基于SDN架构的电力通信网路由选择策略；分析了基于SDN的电力通信网体系结构；并设计基于深度强化学习DDPG(Deep Deterministic Policy Gradient)的路由方法，以业务带宽、时延和丢包率要求为奖励值，反复训练深度强化学习模块，实现路由策略优化。

Description

一种基于深度强化学习的电力通信网路由方法

技术领域

本发明属于电力通信领域，尤其涉及一种基于深度强化学习的电力通信网路由方法。

背景技术

近年来，智能电网和SDN(软件定义网络，Software-Defined Networks)技术不断发展；智能电网依赖于电力通信网进行高效的信息传输和交互，而SDN技术数据平面和控制平面解耦的特性可以简化网络配置与管理，进行灵活的流量控制；SDN控制器拥有全局网络视图，可根据业务需求合理分配传输资源，因此，构建基于SDN的电力通信网是未来的发展趋势；而传统静态路由算法收敛速度慢等弊端不适用于基于SDN架构的电力通信网，需要采用新技术来改善路由方法。

基于SDN架构的电力通信网通过控制器集中管控全局网络，由于网络规模庞大，需要多控制器共同协作管理网络；业务传输请求提交后，控制器根据业务服务质量(Qualityof Service，QoS)需求指标选择高效合理的传输路径，并通过流表下发给数据传输层网络设备。

现有的研究中，利用深度强化学习优化流量调度控制策略的较多，但针对基于SDN架构的电力通信网业务路由方法的研究较少；有的研究利用深度强化学习直接从经验控制多媒体流量；有的研究利用深度强化学习在拥堵网络中选择路由器，减少网络拥塞和数据传输路径的长度，实现更高的网络吞吐量；还有的研究出利用多智能体强化学习解决节点数据缓冲队列的拥堵情况。然而以上的研究均没有考虑电力通信业务传输带宽、时延和可靠性需求的特殊性，不能满足基于SDN架构的电力通信网业务传输需求。

发明内容

(一)要解决的技术问题

为了满足基于SDN架构的电力通信网业务传输QoS要求，本发明公开了一种基于深度强化学习DDPG的电力通信网路由方法。

(二)技术方案

为解决上述技术问题，本发明公开了一种基于深度强化学习DDPG的电力通信网路由方法，包括如下步骤：

步骤A，基于SDN架构的电力通信网路由策略，确定路由策略部署位置，将网络体系结构分为控制器集群模块、业务模块、数据转发模块和调度控制中心，控制器集群负责全局网络的管理，根据业务需求下发流表于数据转发层，在每个控制器中添加基于深度强化学习的路由选择模块，每个控制器相当于一个智能体；

步骤B，建立基于深度强化学习DDPG的路由策略算法框架，包括深度强化学习智能体与网络环境两大模块，并设计各个模块交互内容及其规则；

步骤C，设计深度强化学习算法训练策略，以时延、带宽利用率和业务丢包率为参数构造奖励函数，智能体与网络环境进行动作执行和奖励反馈等内容交互，直到最大训练次数，得到最优传输路径；

其中，步骤A具体包括：

A1，分析电网业务及其带宽、时延和可靠性需求；

A2，构建基于SDN的电力通信网络体系结构，将其分为控制器集群模块、业务模块、数据转发模块和调度控制中心，采用多控制器互相协调工作，通过下发流表给数据转发层提供转发策略。

其中，步骤B具体包括：

B1，抽象路由算法框架环境模块为电力通信业务类型、传输网拓扑结构和调度中心的组合；

B2，设计深度强化学习智能体训练模块，DDPG算法采用Actor-Critic架构，Actor网络根据Critic网络Q值反馈进行动作策略更新，Critic网络根据智能体采取的动作计算Q值评估动作策略优劣，并设置经验回放存储器，存储Actor网络与环境交互后的状态转换过程(s_t,a_t,r_t,s_t+1)，训练网络随机采样进行训练；

B3，智能体对网络环境采取路由选择动作时，加入随机噪声，降低状态转换过程之间的相关性，使智能体进行探索性交互；

其中，步骤C具体包括：

C1，在Actor模块策略网络中，采用off-policy训练方法，策略梯度采用

最优策略函数为μ＝argmaxJ(μ)，其中N表示随即采样状态转换过程数量，s表示环境状态，即业务及其需求和传输网状态，θ表示神经网络参数，μ表示动作策略函数，a表示路由动作；

C2，在Critic模块Q网络中，采用DQN方法对actor模块采取的行为进行评估，采用卷积神经网络网络模拟Q函数Q^μ(s_t,a_t)＝E[r(s_t,a_t)+γQ_μ(s_t+1,μ(s_t+1))]，损失函数定义为

其中，y_i是基于下一状态s_i+1和下一个动作a_i+1的目标网络Q值，y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)，γ表示衰减因子，r表示奖励函数；

C3，智能体每次采取路由动作后获得奖励与业务的QoS相关，将其表示为

其中，BWR表示业务带宽利用率，Delay表示业务时延，PLR表示业务丢包率，λ为其它影响因素，a、b、c为权重参数，不同业务具有不同的参数值，r越大，表明路由策略效果越好；

C4，执行训练。初始化训练参数和网络状态，智能体根据奖励值不断调整路由动作，更新Actor网络和Critic网络目标函数，最后获得最优传输路径。

(三)有益效果

本发明通过分析电力通信业务的带宽、时延和可靠性需求，在基于SDN架构的智能电网通信网中采用基于深度强化学习DDPG路由方法，以电力通信业务QoS指标为奖励函数，训练路由算法神经网络，选择最优传输路径，实现路由策略的优化，改善电力通信网网络性能，减少业务延迟，提高带宽利用率。

附图说明

图1本发明实施例的方法流程图；

图2本发明实施例的方法基于SDN的电力通信网架构构建流程；

图3本发明实施例的方法中基于DDPG的路由方法框架构建流程图；

图4本发明实施例的方法中路由算法详细设计流程图；

图5本发明中基于SDN的电力通信网体系结构图；

图6本发明中基于深度强化学习DDPG的路由算法框架图。

具体实施方式

为了满足基于SDN架构的电力通信网业务传输QoS要求，本发明公开了一种基于深度强化学习DDPG的电力通信网路由方法。发明人考虑到，DDPG(深度确定性策略梯度，DeepDeterministic Policy Gradient)相较于传统深度强化学习拥有更快的收敛速度，可与全局网络环境进行交互训练。因此，本发明采用基于SDN架构的电力通信网络，模拟电力通信业务实际QoS需求，数据转发层使用OpenFlow交换机，在SDN控制器中添加基于深度强化学习DDPG的路由算法模块，通过训练路由算法，为业务选择最佳传输路径。

如图1所示，本发明提出了一种基于深度强化学习DDPG的电力通信网路由方法，包括如下步骤：

下面结合附图和具体实施方式，对本发明做进一步说明。

如图2所示，基于SDN的电力通信网体系结构研究的具体步骤如下：

A1，分析电网业务及其带宽、时延和可靠性需求；

A2，设计基于SDN的电力通信网络体系结构，将其分为控制器集群模块、业务模块、数据转发模块和调度控制中心，采用多控制器互相协调工作，通过下发流表给数据转发层提供转发策略；采用Ryu控制器，数据转发层采用OpenFlow交换机，具体架构如图3所示；SDN控制器感知业务和网络状态，通过路由算法为传输业务选择转发路径，将数据传输到电力调度控制中心，控制中心将业务的实际QoS反馈于控制器路由模块，进行传输更新。

基于深度强化学习的路由策略框架构建流程如图4所示，具体步骤如下：

B1，抽象路由算法框架环境模块为电力通信业务类型、传输网拓扑结构和调度中心的组合，环境状态包括业务带宽、时延和丢包率要求，传输网链路和节点资源使用及剩余状态，s_t表示当前环境状态，s_t+1表示采取路由动作后下一环境状态；

B2，设计深度强化学习智能体训练模块，DDPG算法采用Actor-Critic架构，Actor和Critic网络中都包含优化器、在线策略网络和目标策略网络三个模块，通过SGA/SGD算法更新在线网络参数，软更新算法更新目标策略网络参数；Actor网络根据Critic网络Q值反馈进行动作策略更新，Critic网络根据智能体采取的动作计算Q值评估动作策略优劣；并设置经验回放存储器，存储Actor网络与环境交互后的状态转换过程(s_t,a_t,r_t,s_t+1)，训练网络随机采样进行训练；

B3，智能体根据动作策略μ(s_t)对网络环境采取传输路径选择动作a_t时，加入随机噪声，降低状态转换过程之间的相关性，使智能体与环境进行探索性交互，避免出现局部最优解情况，具体架构见图5；

根据环境奖励反馈，选择最优传输路径，如图6所示，具体步骤如下：

最优策略函数为求解μ＝argmaxJ(μ)；

其中，y_i是基于下一状态s_i+1和下一个动作a_i+1的目标网络Q值，y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)；

r越大，动作策略越优良，链路带宽利用率越高，业务传输时延越小，丢包率越低，表明路由策略效果越好；

C4，执行训练。初始化训练参数和网络状态，智能体为业务随机选择一条传输路径，然后根据奖励值不断调整路由动作，将状态转换过程存储到回放存储器当中，以供训练网路随机选取训练数据；更新Actor网络，最小化Q网络函数Loss，更新Critic网络，最大化目标函数J(μ)，最后获得最优传输路径。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种基于深度强化学习的电力通信网路由方法，其特征在于，包括如下步骤：

步骤C，设计深度强化学习算法训练策略，以时延、带宽利用率和业务丢包率为参数构造奖励函数，智能体与网络环境进行动作执行和奖励反馈内容交互，直到最大训练次数，得到最优传输路径；

其中，步骤A具体包括：

A1，分析电网业务及其带宽、时延和可靠性需求；

A2，构建基于SDN的电力通信网络体系结构，将其分为控制器集群模块、业务模块、数据转发模块和调度控制中心，采用多控制器互相协调工作，通过下发流表给数据转发层提供转发策略；

其中，步骤B具体包括：

其中，步骤C具体包括：

C1，在Actor模块策略网络中，采用off-policy训练方法，策略梯度表示为

最优策略函数为μ＝arg max J(μ)；

其中N表示随即采样状态转换过程数量，s表示环境状态，即业务及其需求和传输网状态，θ表示神经网络参数，μ表示动作策略函数，a表示路由动作，即传输路径的选择；

C2，在Critic模块Q网络中，采用DQN方法对actor模块采取的行为进行评估，采用卷积神经网络模拟Q函数Q^μ(s_t,a_t)＝Ε[r(s_t,a_t)+γQ_μ(s_t+1,μ(s_t+1))]，损失函数定义为

C4，执行训练，初始化训练参数和网络状态，智能体根据奖励回馈不断调整路由动作，更新Actor网络和Critic网络目标函数，最后获得最优传输路径。