CN113037546A

CN113037546A - 基于深度强化学习的安全性虚拟网络映射方法

Info

Publication number: CN113037546A
Application number: CN202110232531.3A
Authority: CN
Inventors: 张培颖; 王超
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-25

Abstract

一种基于深度强化学习的安全性虚拟网络映射方法，属于网络技术与人工智能网络领域。基于虚拟网络架构的网络资源分配面临一系列的安全挑战与危机，所提出的安全性虚拟网络映射方法从资源分配的角度出发，通过网络建模，属性设置，属性提取，策略网络模型搭建以及深度强化学习代理训练与测试等关键步骤完成整个虚拟网络映射过程，即网络资源的分配过程。该过程重点提取了网络的安全属性进行训练，在满足用户安全需求的基础上进行网络资源的分配。与其他安全性虚拟网络映射方法相比，本发明方法具有更好的虚拟网络映射收益，收益消耗比和虚拟网络请求接受率等性能。

Description

基于深度强化学习的安全性虚拟网络映射方法

技术领域

本发明属于计算机网络与人工智能领域，特别是一种应用深度强化学习技术保障虚拟网络资源分配安全性的方法。

背景技术

在过去几十年中，Internet支持了大量的网络技术和分布式应用，为人类社会的发展做出巨大贡献。但是随着网络科技的迅速发展与网络用户的爆发式增长，传统的Internet架构在服务交付过程中面临巨大压力。加上人工智能产业的大规模部署与应用，更是给Internet架构带来了严峻挑战，尤其是在网络资源分配方面。传统的Internet架构采用“尽力而为”的服务交付模式，在新技术、新协议的部署以及服务人工智能应用方面开始变得逐步僵化。网络安全是网络技术发展面临的一个关键问题，特别是在网络资源分配时，更容易受到黑客或恶意软件的威胁与攻击。

网络虚拟化(Network Virtualization,NV)是近几年发展起来的一项具有广泛应用前景的技术。它的核心思想是在底层物理网络上抽象出多个逻辑上的虚拟网络，各个虚拟网络的拓扑结构和使用的路由算法可能不同，同时它们可以共享底层网络资源并使用相互独立的协议体系。虚拟网络功能的实现不再依赖于特定的硬件(路由，交换，防火墙等)，而是依靠软件编程的方式实现特定的网络功能。因此，网络虚拟化被认为是解决Internet架构僵化的有效途径。虚拟网络映射(Virtual Network Embedding,VNE)是网络虚拟化最关注的问题之一。虚拟网络映射主要是指根据用户的差异化网络功能需求，在满足底层网络资源，位置和控制访问等约束的条件下，合理高效地为用户功能分配网络资源，尽可能多地满足虚拟网络请求的网络资源。因此，虚拟网络映射本质上就是虚拟网络资源的分配问题。

不可忽视的是网络虚拟化在为网络架构带来灵活性的同时，也给数据中心和用户网络带来了新的安全问题与挑战。一方面，传统的安全产品和安全解决方案不适用于虚拟网络架构下产生的新的安全问题。另一方面，网络虚拟化自身也面临一些安全问题，尤其是在网络资源分配过程中并没有专门的安全机制保障。网络虚拟化面临的典型安全挑战还有安全策略难以迁移，网络流量不可见，控制器单点失效和控制信息难以验证等。本方法从虚拟资源分配的角度出发，设计安全性的虚拟网络映射算法来应对网络虚拟化面临的安全挑战。

近年来随着人工智能，云计算和物联网等领域的兴起，利用智能学习算法来解决生产生活中面临的现实问题已成为一种趋势。深度学习(Deep Learning,DL)和强化学习(Reinforcement Learning,RL)作为智能学习算法的优秀代表，它们的应用前景也更加广泛。深度学习主要是将神经网络作为训练模型，通过学习数据样本的内在规律和表示层次来使计算机拥有像人一样甚至超越人类的信息处理和分析学习能力。强化学习主要是指一个智能体不断地与环境进行交互来累积奖励的过程的学习方式。智能体通过对环境施加一定的动作来改变环境状态，并获得环境返回的一个奖励信号，智能体的最终目的是最大化该奖励。因此可以将深度学习的感知能力与强化学习的决策能力进行结合，利用深度强化学习(Deep Reinforcement Learning,DRL)来解决安全性的虚拟网络映射问题。

综上所述，为了克服传统Internet的固有弊端，有必要发展和应用以虚拟网络为基础的新型网络架构。同时为了应对虚拟网络架构可能面临的一系列安全问题，设计安全性能更好的VNE算法可以有效维护虚拟网络资源分配的安全，进而为虚拟网络架构的使用提供安全性保障。

发明内容

本发明的目的是提供一种效率更高，性能更好的安全性虚拟网络资源分配方法，即基于深度强化学习的安全性虚拟网络映射算法。该方法能够充分利用深度强化学习的优异性能，在为虚拟网络请求合理分配底层资源的基础上，提升虚拟网络映射算法效率，保障网络资源分配与调度的安全性。

为了实现上述技术方法，本发明拟采用如下技术方案：编程生成一个底层物理网络与若干虚拟网络请求，用文档形式进行保存，并采用图的形式为物理网络和虚拟网络请求建立数学模型。根据安全性虚拟网络映射算法的实现需求以及现实的网络情况，为网络节点和链路设置合理的网络属性。采用神经网络的基本元素搭建策略网络作为深度强化学习代理参与训练。实现阶段分为训练与测试两步，为每个物理节点提取适当的若干个网络属性组成特征向量，将所有物理节点的特征向量串联后组成特征矩阵，该特征矩阵用于策略网络的输入来训练深度强化学习代理，在保证安全性的同时，最终形成完整的虚拟网络映射策略。通过设立的虚拟网络映射评价指标来评定所提方法的性能。

所述底层物理网络与若干虚拟网络请求生成方法，通过C语言编程生成.txt文件的形式来保存物理网络和虚拟网络。文档中包含的信息有：物理/虚拟网络节点编号，物理/虚拟网络节点坐标，物理/虚拟链路两端节点编号，物理/虚拟节点属性(CPU，安全等级)，物理/虚拟链路属性(带宽,时延)。生成底层物理网络文件数目为1个，虚拟网络文件数目为2000个。

所述物理网络和虚拟网络请求建立模型方法，物理网络和虚拟网络建模为无向带权图的形式，用图中的顶点代表网络节点，图中的边代表网络链路。为顶点与边添加网络属性，权值代表所需的链路属性。

所述网络属性的设置，根据安全性的虚拟网络映射方法需求以及网络资源的现实需求情况，为物理节点设置的属性包括可用CPU资源量和安全等级，为物理链路设置的属性包括可用带宽资源量；为虚拟节点设置的属性包括CPU资源需求量和安全需求等级，为虚拟链路设置的属性包括带宽资源需求量。设置物理节点和物理链路的可用CPU资源量和可用带宽资源量在[50,100]之间均匀分布，设置虚拟节点和虚拟链路的CPU资源需求量和带宽资源需求量在[0,50]之间均匀分布，设置安全等级和安全需求等级在[0,3]之间均匀分布。

所述物理节点属性的提取，依据安全性虚拟网络映射方法目的，为了保证网络资源分配的安全性，需要将代理放在尽可能接近真实的网络环境中训练。提取每个物理节点的可用CPU资源，度，连接到该节点的带宽和，已被映射节点到该节点平均距离和安全等级这五个属性组成特征向量。为每个物理节点提取上述五个属性组成特征向量之后再将所有特征向量组合成一个五维特征矩阵，将该矩阵作为代理训练的环境，代理在训练过程中从特征矩阵学习底层资源的变化情况。

所述策略网络的搭建，采用神经网络的基本元素自主搭建一个四层策略网络，分别是输入层，卷积层，softmax层和输出层。输入层用于接收特征矩阵并将其传送到卷积层；卷积层对特征矩阵进行卷积运算，经过卷积运算之后得到每个物理节点的可用资源向量形式；softmax层利用逻辑回归的softmax函数根据每个物理节点的可用资源向量为每个物理节点生成一个映射概率，虚拟节点可以根据该概率的大小进行映射；输出层负责筛选出那些资源量足够丰富的物理节点进行输出，可以避免因为资源不足而映射失败的情况。

所述深度强化学习代理的训练与测试，前文所述生成2000个虚拟网络文件，其中1000个作为训练集使用，另外1000个作为测试集使用。训练的最终目的是推导出物理节点被映射的概率，并依据此概率将物理节点进行排序。在测试阶段按照概率大小依次进行虚拟节点和虚拟链路的映射过程。

所述虚拟网络资源分配方法的性能评价，为了评价提出的基于深度强化学习的安全性虚拟网络映射方法性能，采用虚拟网络映射的平均收益，虚拟网络映射的收益消耗比和虚拟网络请求接受率三个指标来评价该方法。

本发明与现有技术方法相比，优势为：(1)采用了先进的深度强化学习方法来辅助完成虚拟网络映射过程，现有结果证明基于启发式或最优化方法的虚拟网络映射方法性能和效率远不如机器学习方法，利用机器学习方法解决网络资源分配问题也是未来一大趋势；(2)通过提取网络属性的方式来训练代理，这样代理可以学习到最真实的底层网络的资源情况，进而做出最优的资源分配策略。(3)相比于其他安全性的虚拟网络映射方法，本发明具有更好的资源分配收益，更高的收益消耗比和虚拟网络请求接受率。

附图说明

图1是虚拟网络请求和底层物理网络示意图。

图中(a)代表一个虚拟网络请求，(b)代表物理网络，圆形代表物理/虚拟节点，圆形之间连线代表物理/虚拟链路，虚拟节点旁边括号中的数字依次代表CPU资源需求量和安全需求等级，虚拟链路上的数字代表带宽资源需求量，物理节点旁边括号中的数字依次代表可用CPU资源量和安全等级，物理链路上的数字代表可用带宽资源量。

图2是四层策略网络示意图。

图中(a)是输入层，(b)是卷积层，(c)是softmax层，(d)是输出层。

具体实施方式

下面结合附图和具体示例对本发明做进一步的详细说明。

如图1所示的一个(a)虚拟网络请求向底层物理网络网络(b)请求网络资源，同时需要保障资源分配的安全性。虚拟网络映射的约束条件为：(1)物理节点的可用CPU资源量大于等于虚拟节点的CPU资源需求量；(2)物理链路的可用带宽资源量大于等于虚拟链路的带宽资源需求量；(3)物理节点的安全等级大于等于虚拟节点的安全需求等级；(4)对于同一个虚拟网络请求来说，一个虚拟节点只能映射一个物理节点上，一条虚拟链路可以映射到一条或多条虚拟链路上。比如虚拟节点a映射到物理节点C上，虚拟节点b映射到物理节点B上，虚拟节点c映射带物理节点G上，它们之间的虚拟链路也映射到各物理节点之间的物理链路上，这就是一种可能的映射情况。

所述为物理网络和虚拟网络映射请求建立数学模型，以及必要网络属性的设置方法，物理网络建模为一个无向带权图G^S＝{N^S,L^S}。其中N^S代表全体物理节点的集合，L^S代表全体物理链路的集合。物理节点n^s∈N^S，其属性用可用CPU资源CPU(n^s)和安全等级sl(n^s)表示。物理链路l^s∈L^S,其属性用可用带宽资源BW(l^s)表示。同样使用无向带权图G^V＝{N^V,L^V}来给虚拟网络请求建模，其中N^V和L^V分别表示虚拟网络中的节点集合和链路集合。虚拟节点n^v∈N^V，其属性用CPU资源需求CPU(n^v)和安全需求等级sr(n^v)表示。虚拟链路l^v∈L^V，其属性用带宽资源需求BW(l^v)表示。各网络属性的参数取值如表1所示。

表1网络属性参数设置

所述物理节点的属性提取，由于底层物理节点属性众多，若将其一一提取出来将会增加计算复杂度。因此提取如下五个属性来表征物理节点，以此作为策略网络的输入。

(1)节点计算能力(CPU)：节点计算能力是表征节点最重要的属性之一。节点计算能力越强，说明该物理节点接收虚拟节点的概率越大。CPU可表示如下：

其中CPU(n^s)'表示物理节点的剩余计算能力，CPU(n^s)表示物理节点的初始计算能力，

表示所有虚拟节点映射到n^s所消耗的计算资源之和。

(2)度(DEG)：与物理节点相连物理链路的数目叫做度。一个节点的度越大，说明与该节点相连的节点越多。DEG可表示为：

若n^s与n_i相连，则Link(n^s,n_i)＝1，若不相连则为0。

(3)带宽和(SUM_BW)：与某一物理节点相连所有链路的带宽和。节点带宽和越大说明映射到该物理节点的虚拟节点将有更多种链路选择，将产生更好的映射效果。SUM_BW可表示为：

其中，

表示连接到节点n^s的底层链路，l^s表示其中一个

(4)已被映射节点与该节点平均距离(AVG_DST)：将这一属性列入考虑范围是为了链路映射阶段考虑的。以上几个属性考虑了节点的局部重要性，该属性考虑了节点的全局重要性。该属性刻画了与被映射节点之间的平均距离，因此该属性越小的物理节点被映射的概率应该越大。最终使用基于广度优先遍历的最短路径算法映射链路。AVG_DST可表示为：

其中

表示n^s到已被映射节点的距离。Count表示已被映射的节点个数，加1是防止分母为0的情况。

(5)安全等级(SL)：物理节点的安全等级越高证明映射到该节点就越安全。虚拟节点只能映射到比安全需求等级高的物理节点上。

将第i个物理节点的上述属性表征为一个5维向量v_i，如下所示：

将所有物理节点的属性向量组合成一个特征矩阵M_f，如下所示。之后将该特征矩阵作为策略网络的输入。

M_f＝(v₁,v₂···v_n)^T

该特征矩阵具体表示形式如下：

所述策略网络的搭建，利用神经网络的基本元素搭建如图2所示的一个四层策略网络，各层的具体功能如下。输入层用于接收特征矩阵并将其传送到卷积层；卷积层对特征矩阵进行卷积运算，经过卷积运算之后得到每个物理节点的可用资源向量形式；softmax层利用逻辑回归的softmax函数根据每个物理节点的可用资源向量为每个物理节点生成一个映射概率，虚拟节点可以根据该概率的大小进行映射；输出层负责筛选出那些资源量足够丰富的物理节点进行输出。

所述深度强化学习代理的训练与测试，将策略网络作为学习代理。具体训练步骤为，

步骤1：初始化策略网络，使之处于未学习状态。待特征矩阵进行输入以后，将特征矩阵作为代理的学习环境。

步骤2：代理通过对特征矩阵中的每个节点属性进行充分的学习，选择出那些既满足虚拟节点计算资源需求又满足安全性能需求的物理节点。最终策略网络要输出一组可用的底层节点以及虚拟节点映射到它们的概率。

步骤3：得到每个物理节点的概率后运用概率分布模型，从物理网络集合中生成一个样本，从中选择一个物理节点作为待映射的节点。

步骤4：重复这个过程，直到分配完所有虚拟节点或因为底层节点资源不足而终止虚拟网络嵌入。若所有的虚拟节点映射成功则继续进行链路映射。

在强化学习中学习效果是由学习代理所采取的动作决定的，需要给学习代理制定一个奖励标准。若代理当前的行为可以使虚拟网络映射算法取得较大收益或结果较优时，那么就应该鼓励代理继续采取当前的动作以获得奖励的累计。若代理当前的动作所产生的结果收益较小或有害时，奖励信号就会变小甚至消失，代理就会停止当前动作，转而去采取新的动作。在虚拟网络嵌入问题中，将长期收益消耗比作为奖励信号。该指标充分体现了底层资源的利用情况。若代理当前的动作可以产生较高的收益消耗比，那么代理就会收到一个较大的奖励信号，继续探寻产生更大收益消耗比的动作。反之代理则停止它的动作，然后采取新的动作。

在测试阶段，直接选择概率最大的节点作为映射节点。虚拟节点映射阶段结束之后，使用广度优先搜索策略完成虚拟链路的映射。

所述虚拟网络资源分配方法的性能评价，从虚拟网络映射的长期平均收益、长期收入消耗比和虚拟网络请求接受率三个方面来评价基于深度强化学习的安全感知虚拟网络嵌入方法的性能。

虚拟网络映射收益用R(G^V,t,t_d)表示，其中t_d表示虚拟网络请求持续到达的时间。虚拟网络映射收益是根据节点计算资源消耗CPU(n^v)和链路带宽资源消耗BW(l^v)来计算的。表示方法如下，

虚拟网络映射的消耗用C(G^V,t,t_d)表示，它是根据节点CPU消耗CPU(n^v)和映射多条物理链路的带宽资源总消耗

来计算的，

那么虚拟网络映射的长期平均收益如下式所示，

虚拟网络映射的长期收入消耗比如下式所示，

虚拟网络请求接受率表示如下，

其中，A(G^V,t,t_d)表示在时间范围t_d内接受的虚拟网络请求的数量，All代表在时间范围t_d内到达的虚拟网络请求总数。

利用上述三个评价指标来评定基于深度强化学习的安全性虚拟网络映射方法的性能。由于充分考虑了底层物理网络资源的使用情况，并且使用了高效的深度强化学习代理参与训练，代理可以有效感知底层物理网络资源的变化情况。更重要的是将安全属性作为虚拟网络映射条件，只有符合虚拟网络请求安全需求的网络资源才可以被分配，由此达到了网络资源安全分配的目的。同时，在保证方法安全性的基础上了，获得了较其他安全性虚拟网络映射方法更好的虚拟网络映射长期平均收益、长期收入消耗比和虚拟网络请求接受率。

Claims

1.一种基于深度强化学习的安全性虚拟网络映射方法，其特征在于：通过编程方式生成一个底层物理网络与若干虚拟网络请求，并用文档形式进行保存；采用无向带权图的形式为物理网络和虚拟网络请求建立数学模型；根据安全性虚拟网络映射算法的实现需求以及现实的网络情况，为网络节点和链路设置合理的网络属性；采用神经网络的基本元素搭建策略网络作为深度强化学习代理参与训练；为使深度强化学习代理在尽可能真实的网络环境下训练，为每个物理节点提取5个网络属性组成特征向量；实现阶段分为训练与测试两步，将所有物理节点的特征向量串联后组成特征矩阵，该特征矩阵用于策略网络的输入来训练深度强化学习代理，在保证安全性的同时，最终形成完整的虚拟网络映射策略。通过设立的虚拟网络映射评价指标来评定所提方法的性能。

所述底层物理网络与若干虚拟网络请求生成方法，通过C语言编程生成.txt文件的形式来保存物理网络和虚拟网络。文档中包含的信息有：物理/虚拟网络节点编号，物理/虚拟网络节点坐标，物理/虚拟链路两端节点编号，物理/虚拟节点属性(CPU，安全等级)，物理/虚拟链路属性(带宽,时延)。

所述网络属性的设置，根据安全性的虚拟网络映射方法需求以及网络资源的现实需求情况，为物理节点设置的属性包括可用CPU资源量和安全等级，为物理链路设置的属性包括可用带宽资源量；为虚拟节点设置的属性包括CPU资源需求量和安全需求等级，为虚拟链路设置的属性包括带宽资源需求量。

所述物理节点属性的提取，依据安全性虚拟网络映射方法目的，为了保证网络资源分配的安全性，提取每个物理节点的可用CPU资源，度，连接到该节点的带宽和，已被映射节点到该节点平均距离和安全等级这五个属性组成特征向量；为每个物理节点提取上述五个属性组成特征向量之后再将所有特征向量组合成一个五维特征矩阵，将该矩阵作为代理训练的环境，代理在训练过程中从特征矩阵学习底层资源的变化情况。

所述深度强化学习代理的训练与测试，前文所述生成2000个虚拟网络文件，其中1000个作为训练集使用，另外1000个作为测试集使用；训练的最终目的是推导出物理节点被映射的概率，并依据此概率将物理节点进行排序；在测试阶段按照概率大小依次进行虚拟节点和虚拟链路的映射过程。

2.根据权利要求1所述的底层物理网络与若干虚拟网络请求生成方法，其特征在于：用C语言编程生成.txt文件的形式来保存物理网络和虚拟网络，并给物理网络和虚拟网络设置相关属性。

3.根据权利要求1所述的物理网络和虚拟网络请求建立模型方法，其特征在于：用无向带权图为物理网络和虚拟网络建模，用图中的顶点代表网络节点，图中的边代表网络链路。

4.根据权利要求1所述的网络属性的设置，其特征在于：为物理节点设置的属性包括可用CPU资源量和安全等级，为物理链路设置的属性包括可用带宽资源量；为虚拟节点设置的属性包括CPU资源需求量和安全需求等级，为虚拟链路设置的属性包括带宽资源需求量。

5.根据权利要求1所述的物理节点属性的提取，其特征在于：提取每个物理节点的可用CPU资源，度，连接到该节点的带宽和，已被映射节点到该节点平均距离和安全等级这5个属性组成特征向量；为每个物理节点提取上述五个属性组成特征向量之后再将所有特征向量组合成一个五维特征矩阵，将该矩阵作为代理训练的环境，代理在训练过程中从特征矩阵学习底层资源的变化情况。

6.根据权利要求1所述的策略网络的搭建，其特征在于：采用神经网络的基本元素自主搭建一个四层策略网络，分别是输入层，卷积层，softmax层和输出层，各层具体作用为：

(1)输入层用于接收特征矩阵并将其传送到卷积层；

(2)卷积层对特征矩阵进行卷积运算，经过卷积运算之后得到每个物理节点的可用资源向量形式；

(3)softmax层利用逻辑回归的softmax函数根据每个物理节点的可用资源向量为每个物理节点生成一个映射概率，虚拟节点可以根据该概率的大小进行映射；

(4)输出层负责筛选出那些资源量足够丰富的物理节点进行输出，可以避免因为资源不足而映射失败的情况。

7.根据权利要求1所述的虚拟网络资源分配方法的性能评价指标，其特征在于，采用虚拟网络映射的平均收益，虚拟网络映射的收益消耗比和虚拟网络请求接受率3个指标来评价该方法。