CN113507412B

CN113507412B - 网络互联中的SRv6路由器渐进部署方法、系统和存储介质

Info

Publication number: CN113507412B
Application number: CN202110775065.3A
Authority: CN
Inventors: 郭得科; 任棒棒; 罗来龙; 符鹏涛; 胡煜晗
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2022-04-19
Anticipated expiration: 2041-07-08
Also published as: CN113507412A

Abstract

本申请涉及一种网络互联中的SRv6路由器渐进部署方法、系统和存储介质。该方法包括：获取不同区域网络的路由路径，对所述路由路径用整数规划来进行建模，得到渐进部署问题；将所述渐进部署问题转化为图模型，根据所述图模型分别进行不同偏好收益的源路由协议的设计；基于短期效益影响，对所述图模型通过偏好短期效益的贪婪算法求解；基于长期效益影响，对所述图模型通过偏好长期效益的贪婪算法求解；通过强化学习的框架和贪婪算法的求解结果，对所述路由路径进行小规模的问题示例，使得不同区域网络的最大链路使用率最小化。结果表明短期效益的贪婪算法和长期效益的贪婪算法均可有效减少最大链路使用率，提高了网络数据流传递效率。

Description

网络互联中的SRv6路由器渐进部署方法、系统和存储介质

技术领域

本申请涉及通信领域，特别是涉及一种网络互联中的SRv6路由器渐进部署方法、系统和存储介质。

背景技术

当前越来越多的组织在不同地方设有分部，且每个分部会独立建设自己的局域网。为了在这些分部之间共享信息，需要将这些分部的局域网连在一起。实现这一目标的最简单方式就是将这些局域网都连接到公共的因特网上。但是，一些特殊部门，如国防和银行部门，有特殊的安全需求，希望能够将它们的数据在公网上隔离传输。为了解决这一问题，互联网服务提供商(ISP)提供了许多方法。

第一种方法是使用物理专线将这些分部的局域网直接连起来。尽管这种方法可以提供最高等级的安全和性能，但是租用物理专线的成本太高，有相当多的组织承受不了。第二种方法是是使用网络技术在公网上搭建一条虚拟电路。例如，ISP通常使用MPLS技术来在公网上搭建VPN。尽管MPLS技术比租用物理专线要便宜且能通过流量工程来提供不错性能，但是其需要在众多交换设备中进行标签分配且需要对诸多状态变量进行管理。最后一种方法是使用封装技术，，对来自客户的负载添加一个包头，之后这些被封装的数据包就可以在公网上进行传输。与MPLS相比，封装技术不需要管理网络中的状态且便于实现。但是这种封装技术在传输数据包时通常是使用尽力而为的网络层路由协议，并不支持流量工程。

发明内容

基于此，有必要针对上述技术问题，提供一种网络互联中的SRv6路由器渐进部署方法、系统和存储介质。

第一方面，本发明实施例提供了一种网络互联中的SRv6路由器渐进部署方法，包括以下步骤：

获取不同区域网络的路由路径，对所述路由路径用整数规划来进行建模，得到渐进部署问题；

将所述渐进部署问题转化为图模型，根据所述图模型分别进行不同偏好收益的源路由协议的设计；

基于短期效益影响，对所述图模型通过偏好短期效益的贪婪算法求解；

基于长期效益影响，对所述图模型通过偏好长期效益的贪婪算法求解；

通过强化学习的框架和贪婪算法的求解结果，对所述路由路径进行小规模的问题示例，使得不同区域网络的最大链路使用率最小化。

进一步的，所述获取不同区域网络的路由路径，对所述路由路径用整数规划来进行建模，得到渐进部署问题，包括：

根据不同区域网路的路由器数量和网路数据流向，进行网路源节点、目的节点和数据流大小构建三元组；

根据升级路由器的数量和位置，得到渐进部署问题的整数线性规划模型；

对所述渐进部署问题进行复杂化分析，证明所述渐进部署问题是NP-hard。

进一步的，所述基于短期效益影响，对所述图模型通过偏好短期效益的贪婪算法求解；包括：

将所述图模型从图论中进行审视，将图论中n个节点表示n条流的源节点；

获取图论中待决策的候选路由器和虚拟路由器的数量和位置；

寻找一个子图来满足每个源节点的度都恰好为1，候选路由器被子图覆盖和所有边的向量和的无穷范数最小。

进一步的，所述基于长期效益影响，对所述图模型通过偏好长期效益的贪婪算法求解，包括：

对于所述图模型，获取基于平均场变分推理的网络嵌入和状态表达；

在强化学习框架中，通过状态值函数来评估动作的长期回报；

使用神经网络来近似Q函数，通过一轮智能体找到渐进部署问题实例的一个解，再通过一步对应智能体的一个动作；

通过在每轮中的每步利用梯度下降法更新权重来最小化损失函数。

另一方面，本发明实施例还提供了一种网络互联中的SRv6路由器渐进部署系统，包括：

部署问题建模模块，用于获取不同区域网络的路由路径，对所述路由路径用整数规划来进行建模，得到渐进部署问题；

图模型转化模块，用于将所述渐进部署问题转化为图模型，根据所述图模型分别进行不同偏好收益的源路由协议的设计；

短期收益模块，用于基于短期效益影响，对所述图模型通过偏好短期效益的贪婪算法求解；

长期收益模块，用于基于长期效益影响，对所述图模型通过偏好长期效益的贪婪算法求解；

部署解决模块，用于通过强化学习的框架和贪婪算法的求解结果，对所述路由路径进行小规模的问题示例，使得不同区域网络的最大链路使用率最小化。

进一步的，所述部署问题建模模块包括部署分析单元，所述部署分析单元用于：

进一步的，所述短期收益模块包括短期贪婪算法单元，所述短期贪婪算法单元用于：

进一步的，所述长期收益模块包括强化学习单元，所述强化学习单元用于：

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本申请的有益效果是：本发明实施例公开了一种网络互联中的SRv6路由器渐进部署方法、系统和存储介质，首先，用整数规划正式给出了渐进部署问题的定义。然后将这一整数规划模型转化为图模型。为了有效解决这个问题，通过设计了两种贪婪方法，分别是短期效益的贪婪算法和长期效益的贪婪算法。短期效益的贪婪算法在扩展部分解的过程中偏好选择那些当前增加目标值最小的路由器来升级。而长期效益的贪婪算法更偏好那些具有长期回报的路由器来升级。结果表明短期效益的贪婪算法和长期效益的贪婪算法均可有效减少最大链路使用率，提高了网络数据流传递效率。

附图说明

图1为一个实施例中公开的一种网络互联中的SRv6路由器渐进部署方法的流程示意图；

图2为一个实施例中公开的从子集合问题到渐进部署问题的归约示例图；

图3为一个实施例中公开的图模型的结构示意图；

图4为一个实施例中公开的分析网络路由渐进部署问题的流程示意图；

图5为一个实施例中公开的通过短期效益的贪婪算法求解模型的流程示意图；

图6为一个实施例中公开的通过长期效益的贪婪算法求解模型的流程示意图；

图7为一个实施例中网络互联中的SRv6路由器渐进部署系统的结构框图。

具体实施方式

随着IPv6在全球的部署，前述的互联互通技术都需要适应这种新的数据平面，如MPLSv6和IPSecv6。另一方面，新的数据平面也召唤着新的互联互通技术，SRv6(SegmentRouting over IPv6)即是在这一背景下诞生。Segment routing技术，即段路由技术的关键想法就是将一条路由路径拆分为多段来更好的使用网络。在段路由中，每段路径可以用一个标签来表示，并且可以被添加在包头。使用SRv6技术，来自站点A的数据包会在路由器1封装两种类型的包头，即段列表和IPv6包头。注意到，采用这种封装的包因为有IPv6头进而可以被普通的IPv6路由器转发，也即意味着这种封装手段可以完成互联互通服务。与传统封装技术相比，SRv6最大的优势在于其支持流量工程。虽然SRv6-BE策略，即按照尽力而为的方式来传送数据包可以完成互联互通的任务，但是在网络出现拥塞时，我们还是希望能对流进行路径规划以减轻拥塞。

SRv6的一个好处就是我们可以很容易的通过组合一些段来形成新的路径，这种技术被称为SRv6-TE(SRv6-Traffic Engineering)。既然只有支持SRv6的路由器才能解析段列表，则ISP需要对他们的路由器进行升级。但是，因为网络含有巨量的路由器，将所有的路由器同时升级几乎是不可能的。因此，网络需要进行“软”升级，也即升级部分路由器。在限定最大可升级路由器数量的条件下，如何渐进部署SRv6网络仍然是一个开放的问题。在本文，我们即对这种“软”升级问题，也就是SRv6渐进部署(SRv6 Incremental Deploymentproblem,SRID)问题进行了研究。具体来说，给定候选升级的路由器集合和允许升级的最大数量，我们需要决定升级哪些路由器以实现最优的流量工程目标。在对相关路由器完成升级后，我们需要决定如何为这些流进行路径分配。

在一个实施例中，如图1所示，提供了一种网络互联中的SRv6路由器渐进部署方法，包括以下步骤：

步骤101，获取不同区域网络的路由路径，对所述路由路径用整数规划来进行建模，得到渐进部署问题；

步骤102，将所述渐进部署问题转化为图模型，根据所述图模型分别进行不同偏好收益的源路由协议的设计；

步骤103，基于短期效益影响，对所述图模型通过偏好短期效益的贪婪算法求解；

步骤104，基于长期效益影响，对所述图模型通过偏好长期效益的贪婪算法求解；

步骤105，通过强化学习的框架和贪婪算法的求解结果，对所述路由路径进行小规模的问题示例，使得不同区域网络的最大链路使用率最小化。

具体地，在不同区域的网络路由部署中，为了使得不同区域网络的最大链路使用率最小化，本实施例通过定义渐进部署问题并用整数规划来对其进行建模，进而证明了渐进部署问题是NP-hard的，然后将渐进部署问题转化为图模型，并设计了两种方法来解决渐进部署问题，分别是偏好短期效益的贪婪算法和偏好长期效益的贪婪算法。最后设计了一个强化学习的框架来端到端的解决渐进部署问题。这种框架可以用小规模的问题示例来进行训练，然后用于解决大规模问题实例。

其中，用整数规划正式给出了渐进部署问题的定义，然后将这一整数规划模型转化为图模型。为了有效解决这个问题，通过设计了两种贪婪方法，分别是短期效益的贪婪算法和长期效益的贪婪算法。短期效益的贪婪算法在扩展部分解的过程中偏好选择那些当前增加目标值最小的路由器来升级。而长期效益的贪婪算法更偏好那些具有长期回报的路由器来升级。结果表明短期效益的贪婪算法和长期效益的贪婪算法均可有效减少最大链路使用率，提高了网络数据流传递效率。

在一个实施例中，如图4所示，将网络路由的渐进部署问题转化为模型的流程包括：

步骤201，根据不同区域网路的路由器数量和网路数据流向，进行网路源节点、目的节点和数据流大小构建三元组；

步骤202，根据升级路由器的数量和位置，得到渐进部署问题的整数线性规划模型；

步骤203，对所述渐进部署问题进行复杂化分析，证明所述渐进部署问题是NP-hard。

具体地，假设有一个子集合问题实例，例如W＝{w₁，w₂，...，w_n}，我们可以由这个问题实例构造出渐进部署问题的实例。如图2所示，网络中有9个节点。与节点M相连的边是双向边，其余边是单向边。每条边有个二元属性，即权重和容量，其中M>>∑W。假设有k条流，分别是：

(A，G，w₁)，(A，G，w₂)，…，(A，G，w_k)；

需要从节点A传输至G。有n-k条流需要从B传至II，分别是(B，II，w_k+1)，(B，H，w_n+2)，…，(B，H，w_n)。另外，节点G和节点H上的路由器可以被升级为SRv6路由器。这意味着到达G的流可以先被路由至H，反之亦然。最初，所有的流都会沿着各自的最短路传输。因此，所有来自于A的流都会沿着路径A→C→E→G传输，所有来自于B的流都会沿着路径B→D→F→H传输。

如果我们让G和H全部升级为SRv6路由器，则我们可以将来自A的流通过2-SR路由先到达H，即其路径为A→D→F→H→M→G。类似的，来自B的流可以通过2-SR路由先到达G。最终，如果我们可以找到渐进部署问题的最优解，则我们也就可以解决子集合问题。如果边e_CE和e_DF的利用率皆为50％，则说明子集合问题的判定答案即为是，否则为否。因为子集合问题是NPC的，所以渐进部署问题是NP-hard的。

上述渐进部署问题可以从图论的角度来进行审视。如图3所示，即为该图模型，其中，上方的n个节点表示n条流的源节点，下方的|H|＝l-1个节点表示待决策的候选路由器，O_l表示虚拟路由器。每条边都有个权重

表示当流f_i经过O_k中转时所有边的利用率。我们可以通过寻找一个子图来解决渐进部署问题，只要该子图满足如下三个条件：上方的每个源节点的度都恰好为1。下方至多有γ个候选路由器被子图覆盖。子图中的所有边的向量和的无穷范数最小。对于任意一个渐进部署问题的实例，我们都可以将其转化为图3所示的图模型。

其中，在一个实施例中，如图5所示，通过短期效益的贪婪算法求解模型的流程包括以下步骤：

步骤301，将所述图模型从图论中进行审视，将图论中n个节点表示n条流的源节点；

步骤302，获取图论中待决策的候选路由器和虚拟路由器的数量和位置；

步骤303，寻找一个子图来满足每个源节点的度都恰好为1，候选路由器被子图覆盖和所有边的向量和的无穷范数最小。

具体地，对于图模型，我们可以很容易找到一个贪婪算法。初始时，我们将解设为空集即

对应渐进部署问题。我们的目标是最小化无穷范数，可以在每次选择边时，选择那些使得无穷范数增量最小的边，即我们将边e_ik加入到M中只要其权重满足预设条件，一旦我们选中了一条边，我们即把其在网络拓扑中所有的邻边都删除以确保上方的每个节点的度为1。重复上述步骤，直到子图M把上方所有的节点都覆盖。与此同时，我们还需要确保生成的子图至多只能覆盖γ个候选路由器。一旦有γ个候选路由器被覆盖，则所有与未覆盖的候选路由器相连的边都要被删除。因为这种算法每次都是选择当前增加目标值最小的边，因此我们将其命名为偏好短期效益的贪婪算法。

在一个实施例中，如图6所示，通过长期效益的贪婪算法求解模型的流程包括：

步骤401，对于所述图模型，获取基于平均场变分推理的网络嵌入和状态表达；

步骤402，在强化学习框架中，通过状态值函数来评估动作的长期回报；

步骤403，使用神经网络来近似Q函数，通过一轮智能体找到渐进部署问题实例的一个解，再通过一步对应智能体的一个动作；

步骤404，通过在每轮中的每步利用梯度下降法更新权重来最小化损失函数。

具体地，在强化学习理论框架中，训练的智能体会基于长期影响进行决策。因此，本实施例中所提的偏好长期效益的贪婪算法是基于强化学习的。另一方面，我们希望能够训练出一个智能体能解决渐进部署问题的不同实例。这种具有泛化能力的智能体有很大好处，因为在不同ISP网络中，其面临的渐进部署问题实例是不一样的。基于此，我们有如下问题：给定渐进部署问题P和一系列问题实例{P_1,P_2,…,P_n}，是否能训练出一个智能体在面对新的P问题实例时依然能给出较好的解？实验结果表明对于最小点覆盖问题和最大割问题，可以训练出通用智能体。本实施例中长期效益的贪婪算法方法包括状态表达，行动和奖励函数设计，状态行动值函数近似和Q学习。

在贪婪算法中，根据部分解M和图模型本身贪婪选择边来加入M中。因此，选择原始图和当前部分解的结合来表示智能体的状态S。将每一步边的选择视为智能体的动作。但是，图模型中有n×l条边，这会导致状态空间有高达2^(n×l)个状态。此外，具有泛化能力的智能体也要求有一个更一般的状态表示方法来覆盖所有问题实例。上述直接用边是否被包含在M来表示状态不能满足上述要求，且其不反应图模型中解的潜在结构。通过该框架仿照图模型推理方法通过一系列函数映射来提取特征。具体来说，该框架将隐变量模型引入到特征空间中，通过判别信息来学得特征。

本实施例中通过端到端地学习上述参数，我们综合使用n步Q学习和迭代拟合技术。在Q学习中有两个术语，一轮和一步。在一轮中，智能体可以找到渐进部署问题实例的一个解，而一步则对应的是智能体的一个动作。n步Q学习在每轮中的每步利用梯度下降法更新权重来最小化损失函数。我们使用算法来嵌入整个网络，然后来计算所有动作的Q值。接下来，我们选择具有最大Q值的动作并对相应的部分解进行扩充。重复上述步骤，直到终止条件触发得到最终解。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，网络互联中的SRv6路由器渐进部署系统，包括：

部署问题建模模块501，用于获取不同区域网络的路由路径，对所述路由路径用整数规划来进行建模，得到渐进部署问题；

图模型转化模块502，用于将所述渐进部署问题转化为图模型，根据所述图模型分别进行不同偏好收益的源路由协议的设计；

短期收益模块503，用于基于短期效益影响，对所述图模型通过偏好短期效益的贪婪算法求解；

长期收益模块504，用于基于长期效益影响，对所述图模型通过偏好长期效益的贪婪算法求解；

部署解决模块505，用于通过强化学习的框架和贪婪算法的求解结果，对所述路由路径进行小规模的问题示例，使得不同区域网络的最大链路使用率最小化。

在一个实施例中，所述部署问题建模模块501包括部署分析单元，所述部署分析单元用于：

在一个实施例中，所述短期收益模块503包括短期贪婪算法单元，所述短期贪婪算法单元用于：

在一个实施例中，所述长期收益模块504包括强化学习单元，所述强化学习单元用于：

关于网络互联中的SRv6路由器渐进部署系统的具体限定可以参见上文中对于网络互联中的SRv6路由器渐进部署方法的限定，在此不再赘述。上述网络互联中的SRv6路由器渐进部署系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种网络互联中的SRv6路由器渐进部署方法，其特征在于，包括以下步骤：

基于短期效益影响，对所述图模型通过偏好短期效益的贪婪算法求解；包括：将所述图模型从图论中进行审视，将图论中n个节点表示n条流的源节点；获取图论中待决策的候选路由器和虚拟路由器的数量和位置；寻找一个子图来满足每个源节点的度都恰好为1，候选路由器被子图覆盖和所有边的向量和的无穷范数最小；

基于长期效益影响，对所述图模型通过偏好长期效益的贪婪算法求解；包括：对于所述图模型，获取基于平均场变分推理的网络嵌入和状态表达；在强化学习框架中，通过状态值函数来评估动作的长期回报；使用神经网络来近似Q函数，通过一轮智能体找到渐进部署问题实例的一个解，再通过一步对应智能体的一个动作；通过在每轮中的每步利用梯度下降法更新权重来最小化损失函数；

2.根据权利要求1所述的网络互联中的SRv6路由器渐进部署方法，其特征在于，所述获取不同区域网络的路由路径，对所述路由路径用整数规划来进行建模，得到渐进部署问题，包括：

3.一种网络互联中的SRv6路由器渐进部署系统，其特征在于，包括：

短期收益模块，用于基于短期效益影响，对所述图模型通过偏好短期效益的贪婪算法求解；所述短期收益模块包括短期贪婪算法单元，所述短期贪婪算法单元用于：将所述图模型从图论中进行审视，将图论中n个节点表示n条流的源节点；获取图论中待决策的候选路由器和虚拟路由器的数量和位置；寻找一个子图来满足每个源节点的度都恰好为1，候选路由器被子图覆盖和所有边的向量和的无穷范数最小；

长期收益模块，用于基于长期效益影响，对所述图模型通过偏好长期效益的贪婪算法求解；所述长期收益模块包括强化学习单元，所述强化学习单元用于：对于所述图模型，获取基于平均场变分推理的网络嵌入和状态表达；在强化学习框架中，通过状态值函数来评估动作的长期回报；使用神经网络来近似Q函数，通过一轮智能体找到渐进部署问题实例的一个解，再通过一步对应智能体的一个动作；通过在每轮中的每步利用梯度下降法更新权重来最小化损失函数；

4.根据权利要求3所述的网络互联中的SRv6路由器渐进部署系统，其特征在于，所述部署问题建模模块包括部署分析单元，所述部署分析单元用于：

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的方法的步骤。