CN113225759B

CN113225759B - 一种面向于5g智能电网的网络切片安全与决策管理方法

Info

Publication number: CN113225759B
Application number: CN202110594857.0A
Authority: CN
Inventors: 凌雨诗; 王莉; 孙磊; 王维; 王浩; 李锦煊; 陈永涛; 陈文文; 朱海龙; 张国翊
Original assignee: China Southern Power Grid Co Ltd; Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: China Southern Power Grid Co Ltd; Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-04-15
Anticipated expiration: 2041-05-28
Also published as: CN113225759A

Abstract

本发明涉及一种面向于5G智能电网的网络切片安全与决策管理方法，包括如下步骤：步骤A，将同一网络下的使用主体分别划分至第一切片群组、第二切片群组和第三切片群组中，其中第一切片群组的主体为管理者，包括第一管理员和第二管理员；第二切片群组的主体为协助者，第三切片群组的主体为申请者；步骤B，构建智能体与环境的数据交互模型；步骤C，离线训练数据交互模型，输出累积期望折扣奖赏值。本发明实现了网络切片的高效动态管理，以满足当前电网行业对网络资源的差异化需求。

Description

一种面向于5G智能电网的网络切片安全与决策管理方法

技术领域

本发明涉及电网管理技术领域，具体涉及一种面向于5G智能电网的网络切片安全与决策管理方法。

背景技术

随着5G+垂直行业的应用，服务对象和业务场景呈多样化发展，在传统移动通信网络中，面对不同的垂直行业应用需要为每一个业务或服务建设专用的方案，因而造成网络资源浪费以及部分网络需求无法满足的现象，高额的成本和极低的资源利用率使其显得极不现实。5G网络切片技术则为现有网络应用供需不平衡提供了新颖的解决方案,成为5G赋能垂直行业的重要利器。它将5G网络资源进行科学合理地分配，虚拟出多个不同的逻辑子网，以供不同需求的客户进行使用。5G网络切片，通过对协议栈功能模块化分离以及时频资源的切分可以有效提升部分子网络的实时业务处理能力，进而在整体上优化网络资源分配，实现最大成本效率，满足多元5G新业务的需求。

目前，针对电网行业中的5G网络切片资源管理过程中仍然存在一些问题。首先，分配给电网行业客户的逻辑网络仍然是一个主体网络，这样会面临用户数据信息存在泄露的可能性，进而造成损失，提出了设计一套拥有密钥安全隔离机制的5G智能电网网络切片安全管理算法的需求；其次，需要高效动态地管理网络切片，降低运维复杂度和成本，对网络切片的服务等级进行差异化分配，引入服务质量监督反馈，对用户要求的切片服务等级进行全面保障，则需要用于5G智能电网的网络切片管理系统还应具备网络自感知、自调整等智能化、多标准决策闭环保障能力；最后，系统的吞吐量和利用率仍然不足，需要根据电网的实际业务的综合要求，降低传输时延，提高系统吞吐量和资源利用率，促进网络切片按需分配，实现资源的可持续发展。

发明内容

本发明的目的在于针对现有技术中的不足之处，提供一种面向于5G智能电网的网络切片安全与决策管理方法。

为达此目的，本发明采用以下技术方案：

一种面向于5G智能电网的网络切片安全与决策管理方法，包括如下步骤：

步骤A，将同一网络下的使用主体分别划分至第一切片群组、第二切片群组和第三切片群组中，其中第一切片群组的主体为管理者，包括第一管理员和第二管理员；第二切片群组的主体为协助者，第三切片群组的主体为申请者；接收申请者的申请指令，发送申请指令至第一管理员；接收第一管理员的审核指令，打开并跟踪第二管理员的群签名，接收第二管理员的秘钥并发送至协助者，接收协助者的秘钥并传递给申请者；

步骤B，构建智能体与环境的数据交互模型，环境发送状态给智能体，智能体采取对应的动作响应，环境发送奖励及下一个状态给智能体，智能体根据奖励更新知识，对上一个动作进行评估，智能体持续接受环境发送的奖励和状态直至接收到终止命令；

步骤C，离线训练数据交互模型，输出累积期望折扣奖赏值。

更近一步的说明，所述环境包括控制器、网络切片和数据中心；所述智能体包括演员和评论家；所述演员包括动作网络和产生目标网络，所述评论家包括值网络和评价目标网络；

所述控制器发送状态给动作网络，动作网络产生当前状态，产生目标网络生成策略动作并发送至数据中心；

所述值网络评估当前环境状态采取当前智能体动作的价值，评价目标网络评估下一时刻环境状态采取智能体动作的价值。

更近一步的说明，离线训练数据交互模型的算法如下：

步骤C1，初始化决策模型算法的参数，包括随机初始化演员网络μ(s|θ^μ)和评论家网络Q(s,a|θ^Q)，其中θ^μ、θ^Q分别为两者的权重数值；初始化目标网络Q'和μ'，权重分别为θ^Q′、θ^μ′；初始化一个重放缓冲池R，用来存放当前状态、动作、下一时刻状态和反馈；初始化动作探索概率ε，探索概率缩减因子Δ，累计奖赏折扣因子λ；

步骤C2，采用结合了动态规划和蒙特卡洛方法的多时序差分的学习方法来训练决策模型。训练方法整体上利用回合的方式进行训练，每一个回合先随机生成所有的环境中同类型数据到网络切片的映射f和所有的动态网络切片l，依据f和l得到当前回合环境的起始状态s，其表示环境从状态s出发；然后完成每个回合里的T步操作处理，其表示在每一个回合里都需历经T次与智能体的交互；

步骤C3，在每一个回合的T步里，首先得到环境t时刻的当前状态s_t，并由演员的动作网络产生动作a_t，进一步产生下一时刻环境的状态s_t+1；接着计算单步奖赏值r_t并将相关计算结果存储到缓冲池R中；随后每次从缓冲池R中随机采样抽取得到N条记录，其每一条记录均代表环境与智能体的一次交互，第i条记录按如下表达式更新中间变量y_i：

y_i←r_i+λQ'(s_i+1,u(s_i+1|θ^u′)|θ^Q′)

步骤C4，按如下表达式计算损失函数，并以此来更新评论家网络；

步骤C5，判断重放缓冲池是否存储满数据，如果否，直接将此次的训练结果计算输出；如果是，则进行更新演员动作网络参数，其采用反向梯度限定机计算方法，用如下更新表达式进行说明：

其中∑_iinv_grad(w)表示为对w取反向梯度之和，而

按如下表达式进行更新动作目标网络参数：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θμ′←τθ^μ+(1-τ)θ^μ′

减少动作的探索概率，按如下表达式进行更新动作探索概率：

ε←ε·Δ，直到小于设定探索概率ε_min；

当前回合的一个阶段执行结束，判断是否超过设定的训练回合次数，如果未超过，则训练环境切换到下一时刻状态，继续下一回合执行；

优化最大化期望累积折扣奖赏，实现如下表达式：

上述技术方案可以带来以下有益效果：

1.本专利设计的基于密钥安全隔离机制的5G网络切片安全管理算法首先在分配给用户使用的主体网络上进行处理，通过使用不同的数据密钥形式、拆分为切片群组的形式，密钥隔离与群签名相结合，对不同用户直接的网络权限进行科学合理划分，形成有效的切片安全机制隔离网，从而高效避免电网用电客户数据信息泄露问题的发生。

2.本专利设计的基于服务质量保障的5G网络切片管理算法能有效解决逐步增多的应用场景及其差异性对切片针对性地提出了差异化的服务等级需求，在能快速生成5G网络切片的同时，组合设计和部署不同的网络切片，设计对应切片的服务等级参数。同时并着重提升网络切片服务质量的保障，在能力保障、差异化服务、预测预警三方面分别基于多样化的数据引入AI进行智能分析和高效评估，最后形成最佳的服务质量保障参数集，以进行最佳决策和控制，这样能够有效满足各类5G智能电网业务场景应用所需。

3.本专利设计的基于AI训练的智能5G电网的网络切片的高效管理策略算法，通过引入AI训练进度深度强化学习，基于时间、位置和移动特性，结合电网网络中流量、拥塞级别、负载状态等综合数据进行智能训练，同时针对当前实时的和历史的一些数据进行闭环反馈和智能评估，从而有效实现电网业务的5G网络切片动态闭环优化。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的一个实施例的整体示意图；

图2是本发明的一个实施例的切片秘钥隔离方案；

图3是本发明的一个实施例强化学习示意图；

图4是本发明的一个实施例的网络切片数据与智能体的数据交互示意图；

图5是本发明的一个实施例的离线训练算法流程图；

图6是本发明的一个实施例的整体模型示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

如图1-图6所示，一种面向于5G智能电网的网络切片安全与决策管理方法，包括如下步骤：

步骤C，离线训练数据交互模型，输出累积期望折扣奖赏值。

用户只能申请切片，不能提供签名，签名是群组管理员负责完成的，群组管理员有两个，一个可以负责审核用户申请切片的需求，另一个群管理员主要是负责整体群签名的打开与跟踪。加入协助者因为密钥需要不断地且随机地更新，即用户刚开始申请成为群成员时，也就意味着之后其在随机时间内的密钥都要与切片群管理者(S-GM2)联系；借助协助者，可以理解成更新者，也可以理解成一个传递桥梁，进而在随机时间内将密钥更新信息(随机密钥更新)传递给两者，这随机密钥更新是用上一个时间片的密钥加上协助者(helper)发出的部分密钥得到当前时间片的用户临时密钥，这样协助者(helper)能够在随机时间内保持更新密钥，可以理解成这是密钥隔离系统的安全通道，这样就可以提高安全性。管理者设置两个，它们职能是不同的，也是为提高完成切片群组密钥管理安全性设置的，在相应的时间内，切片管理员S-GM1主要负责群成员的加入，S-GM2负责群签名的打开与跟踪，因为S-GM2需要实时地保持与协助者通信，而S-GM1则在需要给申请切片的用户时完成其任务，这两者是分工明确的，同时，S-GM1在负责群成员加入的过程中，需要记录用户身份ID等信息。采用群签名的方式，实现申请切片的客户与已有切片群组成员之间的密钥隔离；同时两个管理员的明确分工，采用平行的切片群管理方式，一者完成其实时动态切片申请的需求，另一者主要是实时保持与客户的密钥更新；在申请前审核和申请后密钥时刻更新具有保持较高的效率，不至于单一的管理员一边需要完成审核，另一边又需要完成密钥更新过程中冗繁的任务，因此这样的群管理方式具有更高的签名效率。

更进一步的说明，所述环境包括控制器、网络切片和数据中心；所述智能体包括演员和评论家；所述演员包括动作网络和产生目标网络，所述评论家包括值网络和评价目标网络；

演员和评论家是DDPG算法的两部分，其中，演员是负责观察环境状态并产生的相应的动作，而评论家则是用于评估演员动作作用下当前环境状态的价值。当前环境状态的动作价值的含义是数据中心在当前时刻执行演员给出的策略动作后得到所对应的期望累积折扣奖赏。

状态(state)St：是指在这个模型中的智能体在环境中的客观存在各种表示，比如电网网络中的流量、拥塞状况、网络切片的各种有关数据的表现形式等，可以将其理解成一个智能体整体状态的集合表示。

奖赏(reward)Rt：首先它是强化学习模型的目的，智能体在t时刻执行一个动作之后就可以获得一个奖赏值，它可以告诉智能体这个动作是好是坏，智能体的目的就是使得在每个动作之后奖赏累积值最大，也就是说奖赏最大化，也就是深度强化学习训练的目标。

动作(action)at：首先，直观上是智能体和环境之间的一个交互过程，或者是智能体实际在客观环境的一个过程体现，在这里体现就是智能体输出一个当前的质量服务参数和动态网络切片管理策略，然后又可以得到当前的奖赏值，这样反复训练，优化最大化奖赏值，可以基于环境的状态集合得到最佳的高质量服务保障参数集合动态网络切片管理策略。

本专利设计的基于深度强化学习算法的应用阶段框图如图6所示，智能体中的演员动作网络根据5G智能电网网络切片数据中心的状态实时计算出最佳的质量服务保障参数集和动态切片管理的决策策略，然后交付给5G智能电网网络切片管理中心负责实施与控制，同时根据数据流实现切片闭环，并达到加快从多样化数据到质量服务保障模型和动态切片管理的收敛性能的效果。图6代表最佳的策略都是主要用于智能电网网络切片服务的几个方面，也就是说得到的最佳的质量服务保障策略最后是主要应用于智能5G电网的切片的能力保障、差异化、预测预警三个方面，而最佳的动态管理策略是针对电网中动态网络切片的，最后这些将会通过数据流的方式反馈，也就是可以实现切片闭环。能力保障：能力保障就是在5G智能电网中，根据得到最佳的服务保障参数集，在电网的海量业务数据(如业务类型、时间需求等)、网络数据(连接数、负载、时延等)和用户数据(通信习惯、时间、客户等级等)方面实现智能分析和评判，赋予最佳的服务业务体验，实现最佳的决策和控制差异化：差异化也就是根据最佳的服务保障参数，在用户访问业务、通信习惯、网络实时负荷、时间、位置等差异化需求方面提供给客户的实时差异性服务。预测预警：根据最佳的服务保障参数集，能够分析切片告警中时间、地点、事件描述等多维度特征，找出根因自动修复或者提示运维人员修复。

更进一步的说明，离线训练数据交互模型的算法如下：

y_i←r_i+λQ'(s_i+1,u(s_i+1|θ^u′)|θ^Q′)

其中∑_iinv_grad(w)表示为对w取反向梯度之和，而

按如下表达式进行更新动作目标网络参数：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

ε←ε·Δ，直到小于设定探索概率ε_min；

优化最大化期望累积折扣奖赏，实现如下表达式：

训练的结果是实现优化最大化期望累积折扣奖赏值时所对应的最佳质量服务保障参数集合动态切片管理策略。当根据不同的环境状态训练，可以得到不同的累积期望折扣奖赏值，此时也会也对应最佳的策略以应对5G智能电网的网络切片服务和分配需求。

以上内容仅为本发明的较佳实施例，对于本领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向于5G智能电网的网络切片安全与决策管理方法，其特征在于，包括如下步骤：

步骤C，离线训练数据交互模型，输出累积期望折扣奖赏值。

2.根据权利要求1所述的一种面向于5G智能电网的网络切片安全与决策管理方法，其特征在于：所述环境包括控制器、网络切片和数据中心；所述智能体包括演员和评论家；所述演员包括动作网络和产生目标网络，所述评论家包括值网络和评价目标网络；

3.根据权利要求2所述的一种面向于5G智能电网的网络切片安全与决策管理方法，其特征在于，离线训练数据交互模型的算法如下：

步骤C1，初始化决策模型算法的参数，包括随机初始化演员网络μ(s|θ^μ)和评论家网络Q(s,a|θ^Q)，其中θ^μ、θ^Q分别为两者的权重数值；初始化目标网络Q'和μ'，权重分别为θ^Q’、θ^μ’；初始化一个重放缓冲池R，用来存放当前状态、动作、下一时刻状态和反馈；初始化动作探索概率ε，探索概率缩减因子Δ，累计奖赏折扣因子λ；

步骤C2，采用结合了动态规划和蒙特卡洛方法的多时序差分的学习方法来训练决策模型；训练方法整体上利用回合的方式进行训练，每一个回合先随机生成所有的环境中同类型数据到网络切片的映射f和所有的动态网络切片l，依据f和l得到当前回合环境的起始状态s，其表示环境从状态s出发；然后完成每个回合里的T步操作处理，其表示在每一个回合里都需历经T次与智能体的交互；

y_i←r_i+λQ'(s_i+1,u(s_i+1|θ^u)|θ^Q’)

其中∑_iinv_grad(w)表示为对w取反向梯度之和，而

按如下表达式进行更新动作目标网络参数：

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ’

ε←ε·Δ，直到小于设定探索概率ε_min；

优化最大化期望累积折扣奖赏，实现如下表达式：