CN115622889B

CN115622889B - 一种容器化网络架构及网络功能部署方法

Info

Publication number: CN115622889B
Application number: CN202211634991.XA
Authority: CN
Inventors: 徐博; 彭凯; 王良源; 徐晓慧; 邓天平; 陆通; 彭聪
Original assignee: Hubei Chutianyun Co ltd; Huazhong University of Science and Technology
Current assignee: Hubei Chutianyun Co ltd; Huazhong University of Science and Technology
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-05-09
Anticipated expiration: 2042-12-19
Also published as: CN115622889A

Abstract

本发明提供一种容器化网络架构及网络功能部署方法，采用一种联合优化的方式同时解决网络性能问题和资源部署问题，具体而言，本发明以容器化网络中服务功能的排队网络模型构建为前提，通过引入马尔可夫决策过程来描述动态的网络资源状态转换过程，设计深度强化学习算法来智能高效地解决部署问题。将综合考虑电信网络对低时延、高吞吐、高可靠的要求以及三者之间相互竞争资源的矛盾性，合理设置分段多维奖励函数，以期获得最佳的容器化网络功能联合多目标优化部署策略，取得吞吐量和可靠性以及通信时延（端到端时延）联合最优。

Description

一种容器化网络架构及网络功能部署方法

技术领域

本发明涉及网络功能部署领域，更具体地，涉及一种容器化网络架构及网络功能部署方法。

背景技术

第五代移动通信技术（5G）作为最新一代的信息通信技术，可有效满足增强型移动宽带、大规模物联网和超高可靠低时延通信三大应用场景的信息传输需求。在当今的通讯网络中，数据的消耗呈指数增长，这种不可逆转的趋势是由终端用户的增加和新移动设备（智能手机、可穿戴设备、传感器等）的广泛渗透推动的。大多数物联网设备其实并不需要连续的、长时间的网络服务，导致了海量且高并发的网络服务请求，加剧网络的波动。由于传统的基于虚拟机的虚拟网络功能存在启动慢、损耗大以及不易扩展等问题，难以承担变化如此大的动态网络，所以使得虚拟网络功能在电信云中落地进展较慢。容器化虚拟网络功能受益于容器的轻量化以及容器化网络功能架构，可以快捷地部署和销毁，实现更细粒度的创建和分配，将会为万物互联时代提供高效、动态、细粒度的网络服务。

目前没有相关工作对容器化网络的网络功能实例部署的详细研究。部分研究工作考虑粗粒度的资源分配，如以处理器作为最小计算资源单位，这种部署方式可能造成大量的资源浪费。还有研究忽略了容器化网络功能之间的通信时延，只考虑计算资源带来的时间消耗，但实际上，将具有依赖关系的容器化网络功能部署在同一处理器上能极大地降低网络拥塞概率，极大地提高用户服务体验。

发明内容

本发明针对现有技术中存在的技术问题，提供一种容器化网络架构及网络功能部署方法。

根据本发明的第一方面，提供了一种容器化网络架构，包括若干个物理网络拓扑，每个物理网络拓扑被称为一层，相邻层之间通过层间节点和层间链路连接，同一层中的链路被称为层内链路，相邻两层间用来连接功能节点的链路和节点分别被称为层间链路和层间节点；多种容器化网络功能部署在物理网络拓扑层中的多核处理器上，不同容器化网络功能的组合构成具有不同功能的用户请求链，每个容器化网络功能具有多个实例，每一类用户请求对应一种用户请求链；

基于深度强化学习的容器化网络功能部署策略，得到最优容器化网络功能部署方案，所述容器化网络功能部署策略包括确定在容器化网络的多核处理器上部署的容器化网络功能实例的具体数目以及各个容器化网络功能实例在多核处理器上的部署位置。

根据本发明的第二方面，提供一种基于容器化网络架构的网络功能部署方法，其特征在于，包括：

本发明提供的一种容器化网络架构及网络功能部署方法，采用一种联合优化的方式同时解决网络性能问题和资源部署问题，具体而言，本发明以容器化网络中服务功能的排队网络模型构建为前提，通过引入马尔可夫决策过程来描述动态的网络资源状态转换过程，设计深度强化学习算法来智能高效地解决部署问题。将综合考虑电信网络对低时延、高吞吐、高可靠的要求以及三者之间相互竞争资源的矛盾性，合理设置分段多维奖励函数，以期获得最佳的容器化网络功能联合多目标优化部署策略，取得吞吐量和可靠性以及通信时延（端到端时延）联合最优。

附图说明

图1为本发明提供的一种容器化网络架构的结构示意图；

图2为本发明提供的基于容器化架构的网络功能部署方法流程图；

图3为容器化网络功能及其在多核处理器上的部署示意图；

图4为容器化网络功能部署算法得到最优容器化网络功能部署方案的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合，以形成可行的技术方案，这种结合不受步骤先后次序和/或结构组成模式的约束，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

图1为本发明提供的一种容器化网络架构，该容器化网络架构由若干个物理网络拓扑组成，每个物理网络拓扑被称为一层，相邻层之间通过层间节点和层间链路连接，同一层中的链路被称为层内链路，相邻两层间用来连接功能节点的链路和节点分别被称为层间链路和层间节点；多种容器化网络功能部署在物理网络拓扑层中的多核处理器上，不同容器化网络功能的组合构成具有不同功能的用户请求链，每个容器化网络功能具有多个实例，每一类用户请求对应一种用户请求链。

可理解的是，容器化网络功能与传统服务的区别在于，容器化网络功能将应用程序划分为多个具有特定功能的模块，模块之间相互协作共同完成用户请求。为了保证服务质量，每种容器化网络功能具有多个实例，用户请求可在多个实例中进行选择以完成自身需求。多个容器化网络功能实例按照一定的顺序组合成一个线性链，即用户请求链，一种用户请求链对应一种用户请求。用户请求到达系统后，由层间链路和处理器协同将请求根据对应用户请求链上的容器化网络功能顺序依次处理以完成用户需求。具体过程如下：当用户请求到达容器化网络的入口节点，入口节点通过查表得到请求的第一个容器化网络功能的实例部署位置，根据实例当前的状态为请求选择一个时延较低的实例，待第一个容器化网络功能完成，选择第二个容器化网络功能的实例。以此类推，当链上的每个容器化网络功能执行完毕，最终将结果返回给用户。

本发明为了降低多容器化网络功能实例可能带来的部署负责问题，从将容器化网络功能节点构建为多层图下的排队网络模型出发，综合考虑计算时延与通信时延，量化分析海量请求下的排队性能指标，之后结合网络的性能指标和资源需求，通过深度强化学习进行多目标联合优化，在满足资源约束的条件下，求解最佳容器化网络功能部署方案。其中，容器化网络功能部署策略包括确定在容器化网络的多核处理器上部署的容器化网络功能实例的具体数目以及各个容器化网络功能实例在多核处理器上的部署位置。

参见图2，为本发明提供的一种基于容器化网络架构的网络功能部署方法，基于上述实施例提供的容器化网络架构，设计支持多种用户请求链的容器化网络功能实例部署算法，算法基于深度强化学习进行改进，将各种容器化网络功能的多个实例动态部署到网络中，本发明采用一种优化的方式解决容器化网络功能部署问题，具体而言，本发明以容器化网络功能的排队网络模型构建为前提，采用一种联合优化的方式同时解决网络性能问题和资源部署问题，通过引入马尔可夫决策过程来描述动态的网络资源状态转换过程，设计深度强化学习算法来智能高效地解决部署问题。将综合考虑电信网络对低时延、高吞吐、高可靠的要求以及三者之间相互竞争资源的矛盾性，合理设置分段多维奖励函数，以期获得最佳的容器化网络功能联合多目标优化部署策略，取得吞吐量和可靠性以及通信时延（端到端时延）联合最优。

作为实施例，基于深度强化学习的容器化网络功能部署策略，得到最优容器化网络功能部署方案，所述容器化网络功能部署策略包括确定在容器化网络的多核处理器上部署的容器化网络功能实例的具体数目以及各个容器化网络功能实例在多核处理器上的部署位置。

可以理解的是，基于该网络架构建立资源约束的排队网络模型；每个容器化网络功能具有多个实例（镜像），容器化网络功能部署策略包括确定在容器化网络的处理器上部署的网络功能实例的具体数目以及各个网络功能实例在处理器上的部署位置，可参见图3，为容器化网络功能在处理器上的部署示意图；容器化网络功能实例部署将综合考虑电信网络对低时延、高吞吐、高可靠的要求以及三者之间相互竞争资源的矛盾性，合理设置分段多维奖励函数，以期获得最佳的容器化网络功能联合多目标优化部署策略，取得吞吐量和可靠性以及通信时延（端到端时延）联合最优。

其中，基于双深度Q网络的细粒度部署方案来对容器化网络功能进行部署。作为实施例，所述基于深度强化学习的容器化网络功能部署策略，得到最优容器化网络功能部署方案，包括：将整个容器化网络划分为多个网络域，每个网络域包含本域中的网络节点、链路以及部署的容器化网络功能实例；根据初始容器化网络功能部署矩阵P（即初始部署策略）和用户请求集合，确定各用户请求的路由路径；根据每一个网络域的网络资源状态和各容器化网络功能节点的服务强度，定义状态空间S；定义动作空间A，所述动作空间A包括多个动作a，每一个动作a表示在相应网络域内的容器化网络功能节点进行容器化网络功能的优化部署；在所述状态空间S中选择当前状态S_t，以及从所述动作空间A中选择当前动作a_t，更新容器化网络功能部署矩阵P和路由路径，计算当前动作a_t的奖励R_t，以及执行当前动作a_t对应的下一个状态S_t+1；根据当前状态S_t、当前动作a_t、奖励R_t和下一个状态S_t+1，基于双深度Q网络获取最优动作，所述最优动作即最优容器化网络功能部署方案。

可理解的是，状态空间S的表示，包括：将整个网络拓扑划分成个网络域，其中，每个网络域包含本域中的网络节点、链路以及部署的容器化网络功能实例。因为网络资源状态是进行容器化网络功能部署与调整的重要网络信息，也是双深度Q网络模型中不可或缺的输入信息，除此之外，各容器化网络功能节点的服务强度也是重要的指标，DDQN 模型的输入可以尝试用向量形式表示。

；

其中，分别表示第n个网络域中带宽、缓存和多核处理器的平均可用率, 表示第n个网络域中第p类容器化网络功能的平均CPU可用率, 表示第n个网络域中第p类容器化网络功能节点的平均服务强度。其中：

；

其中，n=1，2，....，N表示第个网络域；表示第n个网络域中的物理链路集合；表示第n个网络域中的物理节点集合；表示第n个网络域中的容器化网络功能集合；表示第n个网络域中p类容器化网络功能需要占用的核心数；表示物理节点中处理器核心的数量；表示容器化网络功能部署指示变量，1表示部署，0表示未部署；表示容器化网络功能是否属于第p类，1表示属于，0表示不属于；第x条请求链上容器化网络功能实例i的到达率；表示单个核心服务处理能力；第x条请求链上容器化网络功能实例i的核心数。

动作空间A可以理解为容器化网络功能的部署策略，其中，动作空间A的表示为：在t 时隙定义动作空间，动作a(t)表示一种网络域的组合，如果一种动作被选中，则意味着需要根据该动作对相应网络域内的功能节点进行容器化网络功能的优化部署。例如有两个网络域：网络域 A 和B，则两个网络域总共可以组合出四种网络域集合，表示该场景下智能体总共有4个可执行的动作。如果网络域集合被选中，这表示需要对网络域 A 和 B 中的功能节点执行容器化网络功能的部署优化操作。

当选中了某一个动作后，对应分配一个奖励R，具体的，奖励R的表示为：定义表示当前执行部署容器化网络功能动作后所获得的即时奖励,模型的优化目标是最小化容器化网络功能部署代价、容器化网络功能实例运行代价、用户请求链路由总代价、网络阻塞代价和端到端路径时延加权和,基于r(t)的定义,对有助于降低模型优化目标的动作而言,将对应的回报值设置为一个较大值,而对于导致优化目标产生较大代价的动作而言,则将对应的回报值设置为一个较小值,根据上述描述,将设计如下:

，；

其中，D为容器化网络功能部署代价，F为容器化网络功能实例运行时间,U为用户请求链服务失败惩罚,B为网络阻塞代价,T为用户请求链的端到端时延，分别代表五种指标的权重因子。

除了考虑当时的奖励,在强化学习中还需要考虑长期累计的收益，其表达式如下:

；

其中，是折扣因子,，h代表迭代次数,考虑到迭代次数越多,当前的行为对未来收益越小,所以需要对未来的收益采取一定的折扣。

作为实施例，根据当前状态S_t、当前动作a_t、奖励R_t和下一个状态S_t+1，基于双深度Q网络获取最优动作，包括：根据当前状态S_t对应的特征向量、当前动作a_t、奖励R_t和下一个状态S_t+1对应的特征向量以及对应的迭代终止状态is_end 组成五元组；获取训练样本集，所述训练样本集包括多个训练样本，每一个训练样本包括一个五元组和对应的Q值；基于所述训练样本集对所述双深度Q网络进行训练；基于训练后的所述双深度Q网络输出所述动作空间A中每一个动作对应的Q值，将最大Q值对应的动作作为最优动作。

其中，基于所述训练样本集对双深度Q网络进行训练，包括：

对于每一五元组样本，计算目标Q值：

；

其中，为第j个五元组的Q值，Q’为目标Q网络的Q值，为Q网络的模型参数，为目标Q网络的模型参数，为第j个状态的特征向量，表示奖励损失系数。

采用梯度下降法更新Q网络的参数，Q网络的损失函数为：

；

每经过m次迭代，将Q网络的模型参数复制到目标Q网络，以更新目标Q网络的模型参数，将容器化网络更新到新的状态；

基于损失函数迭代更新Q网络的模型参数，若迭代达到T次，则结束迭代过程，获得训练后的Q网络。

可理解的是，针对容器化网络功能的部署问题，本发明采用改进基于双深度 Q 网络算法得到对应的解决方案，其中，可参见图4，双深度Q网络包括Q网络和目标Q网络两个网络，在对双深度Q网络进行训练时，两个网络联合训练。其中，获取m个样本，每个样本包括一个五元组和对应的Q值，Q值为Q网络的输出。利用m个样本对Q网络进行迭代训练，当训练d次后，更新Q网络的模型参数，此时，Q网络将模型参数传递给目标Q网络，目标Q网络计算Q网络的损失函数，基于损失函数调整Q网络的模型参数，继续进行训练，直到迭代次数达到最大次数。

基于双深度Q网络进行容器化网络功能实例部署算法流程如下：

输入：迭代轮数T,状态特征维度n,动作集A,步长,衰减因子,探索率,当前网络Q,目标网络Q’,批量梯度下降的样本数m,目标Q网络参数更新频率C。

输出：Q网络参数。

1、随机初始化所有的状态和动作对应的价值Q,随机初始化当前Q网络的所有参数，初始化目标Q网络Q’的参数,清空经验回放的集合D

2、for 回合数=1 to T；

3、初始化s_t为当前状态序列的第一个状态,拿到其特征向量；

4、在Q网络中使用作为输入,得到Q网络的所有动作对应的Q值输出，用贪婪法在当前Q值输出中选择对应的动作a_t；

5、在状态s_t执行当前动作a_t,得到新状态s_t+1对应的特征向量和奖励R_t,是否终止状态is_end；

6、将这个五元组存入经验回放集合D；

7、将当前状态更新为下一个状态；

8、从经验回放D中采样m个五元组样本，计算当前目标Q值；

9、使用均方差损失函数，通过神经网络的梯度反向传播来更新Q网络的所有参数；

10、；

11、更新目标Q网络参数；

12、if S’是终止状态 then；

13、当前轮迭代完毕；

14、else。

该算法的具体流程如下：

1、在样本中，将当前的下一个状态S_t+1数据分别输入Q网络和目标Q网络两个神经网络中，得到Q值表和目标Q值表；

2、获取样本中Q值表最大Q值的索引，再利用该索引检索目标Q值表，得到对应动作目标Q值；

3、创建可存储多条样本Q值数据的列表，每条样本数据根据公式分别计算对应Q值并载入列表，用于后续损失函数计算；

4、通过正向传播，将多条样本数据中的S输入神经网络，得到当前状态<S,A>的Q值，同时将多条样本所得Q值存入列表，用于损失计算；

5、通过反向传播，按照设定的固定步长对Loss进行最小化收敛，经过多次迭代得到最适配模型；

6、更新目标Q网络。

对双深度Q网络进行训练后，对于动作空间A中的所有动作，基于训练后的双深度Q网络计算每一个动作对应的Q值，将最大Q值对应的动作作为最优动作，即最优容器化网络功能部署方案。

本发明采用一种联合优化的方式同时解决网络性能问题和资源部署问题，具体而言，本专利以容器化网络功能的排队网络模型构建为前提，通过引入马尔可夫决策过程来描述动态的网络资源状态转换过程，设计深度强化学习算法来智能高效地解决部署问题。将综合考虑电信网络对低时延、高吞吐、高可靠的要求以及三者之间相互竞争资源的矛盾性，合理设置分段多维奖励函数，以期获得最佳的容器化网络功能联合多目标优化部署策略，取得吞吐量和可靠性以及通信时延（端到端时延）联合最优。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种容器化网络系统，其特征在于，所述容器化网络系统包括若干个物理网络拓扑，每个物理网络拓扑被称为一层，相邻层之间通过层间节点和层间链路连接，同一层中的链路被称为层内链路，相邻两层间用来连接功能节点的链路和节点分别被称为层间链路和层间节点；多种容器化网络功能部署在物理网络拓扑层中的多核处理器上，不同容器化网络功能的组合构成具有不同功能的用户请求链，每个容器化网络功能具有多个实例，每一类用户请求对应一种用户请求链；

基于深度强化学习的容器化网络功能部署策略，得到最优容器化网络功能部署方案，所述容器化网络功能部署策略包括确定在容器化网络的多核处理器上部署的容器化网络功能实例的具体数目以及各个容器化网络功能实例在多核处理器上的部署位置；

所述基于深度强化学习的容器化网络功能部署策略，得到最优容器化网络功能部署方案，包括：

将整个容器化网络划分为多个网络域，每个网络域包含本域中的网络节点、链路以及部署的容器化网络功能实例；

根据初始容器化网络功能部署矩阵P和用户请求集合，确定各用户请求的路由路径；

根据每一个网络域的网络资源状态和各容器化网络功能节点的服务强度，定义状态空间S；

定义动作空间A，所述动作空间A包括多个动作a，每一个动作a表示在相应网络域内的容器化网络功能节点进行容器化网络功能的优化部署；

在所述状态空间S中选择当前状态S_t，以及从所述动作空间A中选择当前动作a_t，更新容器化网络功能部署矩阵P和路由路径，计算当前动作a_t的奖励R_t，以及执行当前动作a_t对应的下一个状态S_t+1；

根据当前状态S_t、当前动作a_t、奖励R_t和下一个状态S_t+1，基于双深度Q网络获取最优动作，所述最优动作即最优容器化网络功能部署方案。

2.一种基于容器化网络系统的网络功能部署方法，其特征在于，包括：

3.根据权利要求2所述的网络功能部署方法，其特征在于，所述根据每一个网络域的网络资源状态和各容器化网络功能节点的服务强度，定义状态空间S，包括：

用向量形式表示状态空间S：

；

其中，分别表示第n个网络域中带宽、缓存和多核处理器的平均可用率,表示第n个网络域中第p类容器化网络功能的平均CPU可用率, 表示第n个网络域中第p类容器化网络功能节点的平均服务强度；其中：

；

4.根据权利要求2所述的网络功能部署方法，其特征在于，定义动作空间A，包括：

在t时隙定义动作空间，动作a(t)表示网络域组合，如果动作被选中，则表示需要根据该动作对相应网络域内的功能节点进行容器化网络功能的优化部署。

5.根据权利要求2所述的网络功能部署方法，其特征在于，计算当前动作a_t的奖励R_t，包括：

根据动作对应的容器化网络功能部署代价、容器化网络功能实例运行代价、用户请求链路由总代价、网络阻塞代价和端到端路径时延进行加权求和计算，获取当前执行部署容器化网络功能动作后所获得的即时奖励；

基于所述即时奖励，长期累计的奖励。

6.根据权利要求5所述的网络功能部署方法，其特征在于，其特征在于，所述即时奖励的计算公式为：

，；

其中，D为容器化网络功能部署代价，F为容器化网络功能实例运行时间, U为用户请求链服务失败惩罚, B为网络阻塞代价,T为用户请求链的端到端时延，分别代表五种指标的权重因子；

所述长期累计的奖励的表达式如下：

；

其中，是折扣因子, ，h代表迭代次数。

7.根据权利要求2所述的网络功能部署方法，其特征在于，所述根据当前状态S_t、当前动作a_t、奖励R_t和下一个状态S_t+1，基于双深度Q网络获取最优动作，包括：

根据当前状态S_t对应的特征向量、当前动作a_t、奖励R_t和下一个状态S_t+1对应的特征向量以及对应的迭代终止状态is_end 组成五元组；

获取训练样本集，所述训练样本集包括多个训练样本，每一个训练样本包括一个五元组和对应的Q值；

基于所述训练样本集对所述双深度Q网络进行训练；

基于训练后的所述双深度Q网络输出所述动作空间A中每一个动作对应的Q值，将最大Q值对应的动作作为最优动作。

8.根据权利要求7所述的网络功能部署方法，其特征在于，所述基于所述训练样本集对所述双深度Q网络进行训练，包括：

对于每一五元组样本，计算目标Q值：

；

其中，为第j个五元组的Q值，Q’为目标Q网络的Q值，为Q网络的模型参数，为目标Q网络的模型参数，为第j个状态的特征向量，表示奖励损失系数；

采用梯度下降法更新Q网络的参数，Q网络的损失函数为：

；