CN111191918A

CN111191918A - 一种智能电网通信网的业务路由规划方法及装置

Info

Publication number: CN111191918A
Application number: CN201911378845.3A
Authority: CN
Inventors: 郭波; 丁士长; 吴海洋; 李霁轩; 蔺鹏
Original assignee: Beijing Vectinfo Technologies Co ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Beijing Vectinfo Technologies Co ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-22

Abstract

本发明实施例提供一种智能电网通信网的业务路由规划方法及装置，该方法包括：获取业务信息，并根据预设综合风险评估模型得到奖励函数信息；将所述业务信息输入业务路由规划模型，得到最优路由规划路径信息；所述业务路由规划模型，是根据所述奖励函数信息结合马尔科夫决策过程建模得到的。通过以站点负载均衡度、链路负载均衡度和业务平均通信时延作为指标建立综合风险评估模型，并利用深度强化学习的方法，以综合风险值作为奖励值寻找最优的路由规划方案，利用深度强化学习算法，找到了最优的路由规划方案使得系统的综合风险值最小。

Description

一种智能电网通信网的业务路由规划方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种智能电网通信网的业务路由规划方法及装置。

背景技术

信息物理融合系统(Cyber-Physical Systems；CPS)是将计算、网络和物理环境有机结合在一起的多维系统，它有效协调计算资源和物理资源，为大型工程系统提供试探感知、动态控制和信息服务。现代的智能电网就是一种典型的CPS，它由物理网络和信息网络组成，物理网络包括发电机、传输线和负载，信息网络包括各类计算设备和通信设备。信息网络和物理网络是有机结合的，信息网络的可靠性和安全性可能引起物理网络的各类操作风险。随着智能电网的深入发展，它们之间联系的紧密程度也会越来越深。

CPS的信息网络上承载了各类电力通信业务，它们在电力系统中各有各的功能，是实现电力系统实时性、可靠性、安全性的重要保障。其中主要有继电保护业务、安全稳定控制业务、调度自动化业务和视频会议。继电保护业务的作用是在电网发生故障时，及时将故障设备从电力系统中断开，安全稳定控制业务是实现对负载的控制，防止出现设备过载。调度自动化业务是实现对电网运行数据自动采集，实现仿真调整校验的自动化。视频会议是在电网系统的各站点使用综合数据网进行传输。信息网络的通信链路上承载着这些业务，如果某条承载关键业务的链路发生中断，那将会对电网造成巨大损坏。因此在进行业务路由规划时，要综合考虑各类风险。

因此，如何在信息物理融合系统中更有效的进行业务路由规划已经成为业界亟待解决的问题。

发明内容

本发明实施例提供一种智能电网通信网的业务路由规划方法及装置，用以解决上述背景技术中提出的技术问题，或至少部分解决上述背景技术中提出的技术问题。

第一方面，本发明实施例提供一种智能电网通信网的业务路由规划方法，包括：

获取业务信息，并根据预设综合风险评估模型得到奖励函数信息；

将所述业务信息输入业务路由规划模型，得到最优路由规划路径信息；

其中，所述预设综合风险评估模型是由电网站点风险影响指标信息、网络业务平均通信时延信息和业务风险均衡度信息加权得到的，所述业务路由规划模型，是根据所述奖励函数信息结合马尔科夫决策过程建模得到的。

更具体的，在所述获取业务信息的步骤之前，所述方法还包括：

根据业务节点数信息和业务节点负荷压力值信息，得到站点负荷压力影响值信息；

根据所有业务站点的站点负荷压力影响值信息之和，得到电网站点风险影响指标信息。

获取业务数量信息和各业务时延信息；

根据所述业务数量信息和各业务时延信息得到网络业务平均通信时延信息。

获取网络中的链路数量信息和链路平均承载业务数量信息得到各链路上承载的业务数量信息；

根据所述各链路上承载的业务数量信息得到各链路上承载的业务数量信息。

更具体的，所述预设综合风险评估模型，具体为：

F＝min U＝α·β·min(a₁P₁+a₂P₂+a₃P₃)

其中，T_i是单一业务的最大时延上限，L_i是单条链路承载最大业务上限，C_i是单个业务经过的站点负荷压力总和上限，P₁为电网站点风险影响指标信息，P₂为网络业务平均通信时延信息，P₃为业务风险均衡度信息，a₁,a₂和a₃是对应的三种风险影响值的权值系数。α为跨空间风险传递概率，β为通信链路中断概率。

更具体的，所述将所述业务信息输入业务路由规划模型的步骤之前，所述方法还包括：

获取随机初始化状态信息和初始化记忆池信息；

根据所述随机初始化状态信息进行马尔科夫决策，得到动作信息、奖励值信息和转移状态信息；

将所述初始化状态信息、动作信息、奖励值信息和转移状态信息作为一个样本，存储到记忆池中，根据转移状态信息进行马尔科夫决策，循环处理，直至记忆池中的样本超过预设观测值，得到训练好的记忆池；

从所述训练好的记忆池中随机获取部分样本，根据梯度下降算法更新神经网络参数，得到业务路由规划模型。

第二方面，本发明实施例提供一种智能电网通信网的业务路由规划装置，包括：

获取模块，用于获取业务信息，并根据预设综合风险评估模型得到奖励函数信息

规划模块，用于将所述业务信息输入业务路由规划模型，得到最优路由规划路径信息；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述智能电网通信网的业务路由规划方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述智能电网通信网的业务路由规划方法的步骤。

本发明实施例提供的一种智能电网通信网的业务路由规划方法及装置，通过以站点负载均衡度、链路负载均衡度和业务平均通信时延作为指标建立综合风险评估模型，并利用深度强化学习的方法，以综合风险值作为奖励值寻找最优的路由规划方案，利用深度强化学习算法，找到了最优的路由规划方案使得系统的综合风险值最小。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中所描述的智能电网通信网的业务路由规划方法流程示意图；

图2为本发明一实施例所描述的仿真场景示意图；

图3为本发明一实施例所描述的路径选择对比图；

图4为本发明一实施例中三种算法对应的评估指标柱状图；

图5为本发明一实施例所描述的训练损失值收敛图；

图6为本发明一实施例所描述的智能电网通信网的业务路由规划装置示意图；

图7为本发明一实施例所描述的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例中所描述的智能电网通信网的业务路由规划方法流程示意图，如图1所示，包括：

步骤S1，获取业务信息，并根据预设综合风险评估模型得到奖励函数信息

步骤S2，将所述业务信息输入业务路由规划模型，得到最优路由规划路径信息；

具体的，本发明实施例中所描述的预设综合风险评估模型用作马尔科夫决策过程的奖励函数部分，本发明实施例中所描述的预设综合风险评估模型兼顾考虑电网站点风险影响指标信息、网络业务平均通信时延信息和业务风险均衡度信息。

本发明实施例中所描述的额预设综合风险评估模型具体为：

F＝min U＝α·β·min(a₁P₁+a₂P₂+a₃P₃)

使用强化学习方法解决路由选择问题，需要将路由选择问题建模为马尔可夫决策过程。马尔可夫决策过程是包含奖励和决策的马尔可夫过程，该决策过程可以用一个四元组<S,A,J,R>表示，具体为：

S表示所有状态的集合。A表示所有动作的集合，即电网中的所有链路；J表示状态转移概率矩阵，传输本身是一个确定的过程；R(s,a,s′)表示，在状态s下，执行动作a后，转换成状态s′的情况下所收获的奖励。

具体的，令D_t＝{D_1,t,…,D_|V|,t}表示每个节点在t时隙所承载的业务数量，这里的t时隙指的是算法迭代过程中的第t步，B_t＝{B_1,t,…,B_|W|,t}表示每条链路在t时隙所承载的业务数量，整个网络的状态被定义成(D_t,B_t)。除了当前网络的状态以外，对于每一条业务，在选择下一跳节点的时，其当前所处的位置也将影响下一跳节点的选择。因为对于传输任务来说，并不是所有的链路都可以被选择，只能选择连接当前业务所在位置的链路作为有效动作，有效动作集合会随着数据分组位置的转移而改变。因此，用一个长度为V的向量H_t表示t时隙该业务所处的节点。当该业务在节点i时，向量的第i个元素为1，其余元素均为0，即用独热编码表示业务的位置信息。对于每条业务来说，其状态可以表示为当前业务的位置信息和网络的状态的和，即S_t＝(D_t,B_t,H_t)。

奖励函数是对每个状态下执行动作的量化评估。由于算法的目的是让整个电网的综合风险度最低，因此奖励函数的设计既要考虑降低业务的通信时延，也要保证网络的抗风险能力较高。所以，可以把网络风险影响值作为奖励函数。

同时，由于在实际的电力生产过程中需要对指标有所要求，所以需要设置对每项指标的约束条件。为此构建强化学习的奖励函数：

其中，r_c是当选择动作a后不满足约束条件时获得的奖励，r_e是当动作a是无效动作时获得的奖励。r_c和r_e均是绝对值较大的负数。θ是用来记录业务在网络中的跳转次数。U是综合风险影响值。

价值函数是用来量化每个状态的价值，强化学习算法的目标是寻找一种策略能够最大化价值。此外，价值函数还有一种形式被称为动作状态价值函数。动作状态价值函数用于衡量在状态s下每个动作的价值，即在状态s下执行动作a所获得的累积衰减奖励的期望。定义如下：

Q_π(s,a)＝E_π[G_t|S_t＝s,A_t＝a]

其中，G表示在t时隙的累积衰减奖励，T为终止步数，γ为折扣系数。Q_π(s,a)为动作状态价值函数，π为最优动作选择策略。

DQN借助神经网络来表示动作状态价值函数，使得DQN能够应用于状态空间或动作空间更复杂的场景。此外，它还用一个记忆库存储之前的经历，采用随机抽取的方式进行学习，这样打乱了经历之间的相关性，使得神经网络的更新更有效率。

令θ表示神经网络的参数，则动作状态价值函数可以表示为Q(s,a；θ)。神经网络的输入为状态s_t，输出为当前状态s_t下每个动作的价值。在得到当前状态s_t下所有可选动作的价值后，根据ε贪心策略来选择其中的某一个动作。这意味着有ε的概率会从中随机选择一个动作来执行，有1-ε概率会选择价值最大的概率来执行。执行选择的动作a_t后，得到奖励r_t，和下一时刻的状态s_t+1。现在得到了(s_t,a_t,r_t,s_t+1),将其视为一个样本，并且放入记忆池D中。让神经网络从记忆池中随机取样来训练。

DQN采用自举法产生训练目标，即优化R_t+γmax_aQ(s_t+1,a；θ)和Q(s_t,a_t；θ)之间的误差。因此，损失函数的定义为：

L(θ)＝[R_t+γmax_aQ(s_t+1,a；θ)-Q(s_t,a_t；θ)]²

本发明实施例通过以站点负载均衡度、链路负载均衡度和业务平均通信时延作为指标建立综合风险评估模型，并利用深度强化学习的方法，以综合风险值作为奖励值寻找最优的路由规划方案，利用深度强化学习算法，找到了最优的路由规划方案使得系统的综合风险值最小。

在上述实施例的基础上，在所述获取业务信息的步骤之前，所述方法还包括：

电力通信专网的站点是网络中的重要组成部分，本文将电网拓扑中的实际站点视为节点，如500kV变电站、220kV变电站、调度中心等。其不同站点对于通信指标的要求不同，在电力系统中承担的功能也不同，若发生故障后产生的风险与影响也不同。电网负荷压力是电网中业务经过的所有站点负荷压力的累计值，它表征了业务对电网负荷的压力，压力值越大表明业务节点分布越不均衡。电网站点风险影响指标信息的具体定义如下式：

其中，V_k是业务k经过的节点数，

是业务k路由节点i的负荷压力值，L_k是业务k的站点负荷压力影响值，P₁是网络中所有业务的站点负荷压力风险影响值之和。

获取业务数量信息和各业务时延信息；

电网系统中的某些业务例如继电保护业务等对通信时延有很高的要求，过长的时延会让这些业务无法在规定时间内完成，这可能会引起系统的故障，因此通信时延是一个非常重要的风险评估指标。网络业务平均通信时延具体为：

其中，|T|为网络中承载的所有业务数目，C_k是第k条业务的时延，P₂是通信链路中断对网络业务的平均通信时延影响风险值。

具体的，为了反映电网中各业务路由路径所承载的业务分布情况，引入了业务风险均衡度。业务风险度能反映网络中业务的分布情况，该指标的值越高，意味着业务分布越不均衡，即出现个别链路上承载的业务数过多或者过少；该值越小，当趋近于0时，代表网络中的业务分布趋于均衡，此时全网的风险较小。全网业务风险均衡度具体为：

其中，N_i为第i条链路上承载的业务数目，|W|为网络中的链路数，

为链路的平均承载业务数。P₃是通信链路中断对网络业务风险均衡度的影响风险值。

本发明实施例通过在建立风险评估模型时，综合考虑了节点负载均衡度，业务通信时延和链路负载均衡度。这样在对业务进行路由规划时，即考虑了业务的通信时延，也考虑了业务在节点或链路上分布的均衡度。然后对它们进行加权，得到综合风险评价指标，并以该综合指标作为目标进行路由规划。这样得到的路径在业务时延、节点和链路分布均衡度上都表现较好，且此时系统的综合风险值最小，当链路发生中断时，对系统的影响也最小。

在上述实施例的基础上，获取随机初始化状态信息和初始化记忆池信息；

具体的，本发明实施例随机选择一个初始化状态s,初始化记忆池d，并设置观察值；根据当前状态s,以ε贪心策略选择一个动作a，获取相应的奖励值r，以及执行完动作后的转移状态s′,将参数(s,a,r,s′)作为一个样本保存到记忆池；判断记忆池中的样本数是否超过预设观测值，若为超过预设观测值，判断查找过程是否结束，若到达目的节点，随机重置初始状态s，若未达到目的节点，将当前状态s更新为s′；根据跟新后的状态s′，重新以ε贪心策略选择一个动作a，获取相应的奖励值r，以及执行完动作后的转移状态s″,将参数(s′,a,r,s″,)作为一个样本保存到记忆池，直至记忆池中的样本超过预设观测值，得到训练好的记忆池。

若记忆池中的样本数超过预设观测值，则从记忆池中随机挑选一部分样本进行训练；使用梯度下降算法更新神经网络的参数，损失函数为：

loss＝(r_t+γmax_a′Q(s_t+1,a′；θ)-Q(s_t,a_t；θ))²；

最终得到业务路由规划模型。

在本发明另一实施例中，图2为本发明一实施例所描述的仿真场景示意图，如图2所示，该电力通信系统共有17个节点，15条通信链路。此通信网络上总共有6条业务，分别是{[0,10],[0,15],[1,15],[2,12],[3,7],[4,14]}。网络中的节点包括：中调节点{2}，500kV变电站节点{0,1,3,4,5,7,9,11,13,16}，地调节点{12}，220kV节点{6,8,10,14,15}。

算法中的参数实际取值如下表1所示：

表1算法中使用的参数取值

参数	参数值
		风险指标权值a<sub>1</sub>,a<sub>2</sub>和a<sub>3</sub>	0.5696,0.0974,0.3330
学习率lr	0.0005
		折扣因子γ	0.0001
贪婪值∈	0.9
		记忆库更新迭代次数t	80
观察步数s	50
		记忆库大小D	400
训练回合数e	10

通过本文所提出的基于DQN的路由规划算法，基于tensorflow框架，计算出每条业务的路径如下表所示。并通过不考虑约束的Dijkstra算法，考虑约束条件的Constraint-Dijkstra算法(C-Dijkstra)进行对比实验。实验结果如下表2所示：

表2各业务在三种算法下对应的路径

图3为本发明一实施例所描述的路径选择对比图，如图3所示，为了进一步比较这三种算法的表现，计算它们的4种评估指标:站点负载均衡度,业务平均通信时延,链路负载均衡度和综合风险值。站点负载均衡度用来度量业务在站点上分布情况，其值越小代表业务的分布越均衡。业务平均通信时延表示业务平均通信时延。链路负载均衡度用来衡量业务在链路上的分布情况，其值越小代表链路承载的业务越均匀。综合风险值表示电网通信系统的综合风险值，其值越小代表电力通信网对抗链路或节点中断的风险能力越强。图4为本发明一实施例中三种算法对应的评估指标柱状图，如图4所示，本发明实施例提供的技术方案在时延指标方面不如单一考虑时延的Dijkstra算法，但是在链路平衡风险度和最终的电力系统综合风险度上都比前两种算法强。

图5为本发明一实施例所描述的训练损失值收敛图，如图5所示，从训练损失值的收敛曲线图可以发现，训练的步数和业务通信源节点到目的节点的距离有关。这是因为当源节点和目的节点越接近时，强化学习智能体探索的可选路径相对来说较少，所以训练的步数较低；而当源节点距目的节点教远时，智能体往往需要探索很多条路径，此时的动作空间相对较大，所以需要训练的步数较多。例如其中T0和T3,它们的源节点和目的节点较接近，因此训练350次左右时神经网络就收敛了，而对于其余路径较长的任务来说，要训练800次到950次左右才会收敛。

表3三种算法的时间与空间复杂度表

	Dijkstra算法	C-Dijkstra算法	DQN-based算法
				时间复杂度	O(\|T\|*\|V\|2)	O(k*\|V\|2)	O(Sn\|W\|*\|V\|)
空间复杂度	O(1)	O(1)	O(\|V\|*\|W\|+N)

如表3所示，n是神经网络中隐藏层节点的数量,S是训练神经网络的需要迭代的次数。其中Dijkstra算法和C-Dijkstra算法的时间复杂度和空间复杂度是相同数量级的，它们的空间复杂度是常数，这是因为主要内存消耗用于存储邻接矩阵。而本发明实施例方案的空间复杂度主要是记忆库和神经网络的参数所消耗的内存。对于时间复杂度，提出的算法要高于前两种算法，这是因为神经网络需要大量的训练才能收敛。

图6为本发明一实施例所描述的智能电网通信网的业务路由规划装置示意图，如图6所示，包括：获取模块610和规划模块620；其中，获取模块610用于获取业务信息，并根据预设综合风险评估模型得到奖励函数信息；其中，规划模块620用于将所述业务信息输入业务路由规划模型，得到最优路由规划路径信息；其中，所述预设综合风险评估模型是由电网站点风险影响指标信息、网络业务平均通信时延信息和业务风险均衡度信息加权得到的，所述业务路由规划模型，是根据所述奖励函数信息结合马尔科夫决策过程建模得到的。

本发明实施例提供的装置是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图7为本发明一实施例所描述的电子设备结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行如下方法：获取业务信息，并根据预设综合风险评估模型得到奖励函数信息；将所述业务信息输入业务路由规划模型，得到最优路由规划路径信息；其中，所述预设综合风险评估模型是由电网站点风险影响指标信息、网络业务平均通信时延信息和业务风险均衡度信息加权得到的，所述业务路由规划模型，是根据所述奖励函数信息结合马尔科夫决策过程建模得到的。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取业务信息，并根据预设综合风险评估模型得到奖励函数信息；将所述业务信息输入业务路由规划模型，得到最优路由规划路径信息；其中，所述预设综合风险评估模型是由电网站点风险影响指标信息、网络业务平均通信时延信息和业务风险均衡度信息加权得到的，所述业务路由规划模型，是根据所述奖励函数信息结合马尔科夫决策过程建模得到的。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法，例如包括：获取业务信息，并根据预设综合风险评估模型得到奖励函数信息；将所述业务信息输入业务路由规划模型，得到最优路由规划路径信息；其中，所述预设综合风险评估模型是由电网站点风险影响指标信息、网络业务平均通信时延信息和业务风险均衡度信息加权得到的，所述业务路由规划模型，是根据所述奖励函数信息结合马尔科夫决策过程建模得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种智能电网通信网的业务路由规划方法，其特征在于，包括：

2.根据权利要求1所述智能电网通信网的业务路由规划方法，其特征在于，在所述获取业务信息的步骤之前，所述方法还包括：

3.根据权利要求1所述智能电网通信网的业务路由规划方法，其特征在于，在所述获取业务信息的步骤之前，所述方法还包括：

获取业务数量信息和各业务时延信息；

4.根据权利要求1所述智能电网通信网的业务路由规划方法，其特征在于，在所述获取业务信息的步骤之前，所述方法还包括：

5.根据权利要求1所述智能电网通信网的业务路由规划方法，其特征在于，所述预设综合风险评估模型，具体为：

F＝minU＝α·β·min(a₁P₁+a₂P₂+a₃P₃)

其中，T_i是单一业务的最大时延上限，L_i是单条链路承载最大业务上限，C_i是单个业务经过的站点负荷压力总和上限，P₁为电网站点风险影响指标信息，P₂为网络业务平均通信时延信息，P₃为业务风险均衡度信息，a₁，a₂和a₃是对应的三种风险影响值的权值系数，α为跨空间风险传递概率，β为通信链路中断概率。

6.根据权利要求1所述智能电网通信网的业务路由规划方法，其特征在于，所述将所述业务信息输入业务路由规划模型的步骤之前，所述方法还包括：

获取随机初始化状态信息和初始化记忆池信息；

7.一种智能电网通信网的业务路由规划装置，其特征在于，包括：

获取模块，用于获取业务信息，并根据预设综合风险评估模型得到奖励函数信息；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述智能电网通信网的业务路由规划方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述智能电网通信网的业务路由规划方法的步骤。