CN115473854B

CN115473854B - 一种多模态网络的流量智能控制方法

Info

Publication number: CN115473854B
Application number: CN202211012251.2A
Authority: CN
Inventors: 王雄; 覃光怡; 余宏志; 钱兴新; 任婧; 徐世中
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2023-10-24
Anticipated expiration: 2042-08-23
Also published as: CN115473854A

Abstract

本发明公开了一种多模态网络的流量智能控制方法，基于深度强化学习(Deep Reinforcement Learning，DRL)，通过提取访问内容大小、链路带宽等特征，综合考虑网络负载均衡、业务时延等指标来进行网络流量分配。此外，为了缩短用户请求内容的时间，本发明利用多模态网络的架构优势(ICN网络节点可以缓存数据)，基于多模态网络的缓存特性提出了考虑代价和收益的缓存算法，在网络节点中对流行度较高的内容进行缓存。这样本发明通过基于深度强化学习的路由策略以及考虑替换收益的动态缓存策略，降低了多模态网络时延，实现了多模态负载均衡，并提高了多模态网络的性能。

Description

一种多模态网络的流量智能控制方法

技术领域

本发明属于网络管理技术领域，更为具体地讲，涉及一种多模态网络的流量智能控制方法。

背景技术

为了保证网络正常运行和满足网络应用的传输性能要求，网络管理系统需要及时、准确和全面地了解网络内部的运行状态，并及时排查网络故障。细粒度的网络链路性能指标能够真实反映网络内部的运行状态，因此基于网络链路性能指标的测量可以获取网络内部的运行状态。

流量控制是指根据各种数据业务流量的特性选取传输路径的处理过程，主要用于平衡网络中的交换机、路由器以及链路之间的负载。在复杂的网络环境中，需要控制不同的业务流走不同的路径，关键的业务走可靠的路径并保证服务质量，并且在某段网络拥塞的情况下，动态调整路由，整个网络如同一个“可控的城市交通系统”。具体来说，流量控制可以处理网络流量突发性以提高资源利用率并找到最佳路由以减少内容检索延迟。在通信网络中，流量控制解决最优流量分配的大规模在线决策问题，它对提高网络性能起着至关重要的作用。

随着算力网络的到来，传统的基于TCP/IP体系的端到端的网络架构已远远不能满足云计算、分布式计算、边缘计算等服务的需求，网络架构正在从传统的刚性架构逐步向多模态网络架构转变。多模态网络支持寻址和路由、交换模式、互连模式、网元、传输协议、服务属性等的全维定义和多态呈现，支持互联网的渐进式发展，从根本上满足网络智能化、多样化、个性化、高健壮性和高效率的业务需求。多模态网络包括移动优先(MobilityFirst)、信息中心网络(Information-Centric Networking,ICN)、命名数据网络(NamedData Networking，NDN)等，网络更关注内容信息而不是端到端的连接，关注为内容分配名称和网络内缓存，这样的特性使多模态网络不仅可以通过路由来进行流量控制，还可以通过缓存策略来进行流量控制。多模态网络作为未来网络的发展方向，正引起各国研究者的关注。

由于内容可以在多模态网络交换机中动态缓存和逐出，内容请求会被转发到多个网络内缓存。内容分发涉及多个网络缓存节点，这是一个高度动态和随机的过程，与不同缓存节点的交互意味着流量模式将更加复杂。传统的流量工程算法假设网络条件和流量需求可以被很好的模型化，然而由于多模态网络动态变化的特性，基于模型的传统流量工程算法显然不再适用。

发明内容

本发明的目的在于克服现有技术的不足，提供一种多模态网络的流量智能控制方法，以降低多模态网络时延，实现多模态网络负载均衡，并提高多模态网络的性能。

为实现上述发明目的，本发明多模态网络的流量智能控制方法，其特征在于，包括以下步骤：

(1)、构建深度强化学习的状态

对于多模态网络，当一个业务到达时，构建深度强化学习的一组状态：

state＝(src，dst，avail，size_level)

其中，src代表发送内容请求的源节点，为长度为N的one-hot编码，即值为1的位置对应于源节点编号，N为多模态网络中的网络节点数量；

dst代表存储有相应内容的目的节点，为长度为N的one-hot编码，即值为1的位置对应的目的节点存有相应内容；

avail＝(b₁,b₂,…,b_K)，表示多模态网络中所有K条链路的链路利用率；

size_Level代表到达业务即请求业务的大小分类；

(2)、输出每条链路的边权

将状态state输入智能体的动作神经网络，通过动作神经网络输出一个多维向量即深度强化学习的动作，用action＝(ω₁,ω₂,…,ω_K)来表示，其中，ω_k代表第k条链路的边权，k＝1,2,…,K，该向量表示每条链路的边权并作为智能体输出送入多模态网络中；

(3)、根据每条链路的边权进行路由

将多模态网络作为深度强化学习的环境，根据智能体输出的每条链路的边权，采用最短路算法，计算请求业务从源节点到达目的节点的最短路，由于多模态网络的缓存特性，一个业务可能存在多个目的节点，则再从多个目的节点的最短路中，选取距源节点最短的那条路作为请求业务的最优路由，请求业务根据最优路由从源节点到达目的节点；

(4)、考虑替换损益比进行动态缓存

除内容服务器外，每个网络节点维护两张表，一张表是历史请求记录表，里面记录着每个内容请求经过该网络节点的次数即历史请求次数，包括两种情况，一是用户直接在该网络节点的内容请求，二是在从其他网络节点取得、路径上经过了该网络节点的内容请求；另一张表是网络节点的内容缓存表，里面是该网络节点当前缓存的内容，它采用队列结构，表满时，在损益比相同情况下会优先剔除最开始进入队列的内容，方便其他网络节点直接在该网络节点取得已缓存的内容，每个网络节点都有自己的缓存容量C_n(n＝1,2,3…,N)；

源节点为网络节点e_s，请求业务的请求内容为O_req，并且经过路径path＝(e_s,e₁,e₂…,e_p,e_d)才在目的节点e_d成功取得请求内容O_req，其中，p为经过网络节点的数量；从路径终点即目的节点e_d前一个网络节点，即网络节点e_p开始沿着路径反向依次在各个网络节点应用考虑替换损益比的动态缓存：如果网络节点的存储空间未满，则直接存储新请求内容O_req到队尾，如果网络节点已满，则：

4.1)、计算缓存请求内容O_req的收益G

具体为请求内容O_req在该网络节点的历史请求次数t_req与收益跳数g之积，即G＝g·t_req，其中，收益跳数g为在路径path上，该网络节点距离最近存储请求内容O_req的网络节点的跳数，g初始值为1；

4.2)、计算删除该网络节点已缓存内容中的最小损失L_min

对于该网络节点上已缓存内容O_i，对应历史请求次数为t_i，则缓存内容O_i的删除代价为L_i＝l_i·t_i，其中，l_i为该网络节点距离最近的存有缓存内容O_i的服务器的跳数，其中，i为缓存内容的编号，在所有删除代价中找到最小的删除代价，记为L_min，其对应的缓存内容记为O_min；

4.3)、计算该网络节点的替换损益比r＝L_min/G，如果r>R则不执行缓存替换，此时需要更新收益跳数g＝g+1，否则用请求内容O_req替换缓存内容O_min，更新收益跳数g＝1，其中，R为预先设定的替换损益比阈值；

(5)、计算强化学习的奖励

5.1)、计算负载均衡奖励：

reward_utilization＝-(a*U_max)²+b

其中，U_max代表多模态网络中的最大链路利用率，a，b均为常数项；

5.2)、计算用户时延奖励：

rewar_delay＝-C₁*delay_network+C₂

其中，C₁，C₂为常数项，delay_network为多模态网络中每个业务的平均时延，其值为：

其中，M为当前时刻多模态网络中的业务个数，delay_flow(m)为多模态网络中第m个业务时延，其值为第m个业务的路径上所有链路的时延D_k之和，其中第k条链路的时延为：

其中，μ_k为第k条链路的服务速率，λ_k为在第k条链路上包的到达率；

5.3)、计算总的奖励：

reward＝η₁reward_utilization+η₂·reward_delay

其中，η₁，η₂为加权参数；

将总的奖励reward作为强化学习的奖励；

(6)、先更新评价神经网络参数、再更新动作神经网络参数

将总的奖励reward返回智能体的评价神经网络，根据状态state和总的奖励reward更新其神经网络参数，再根据评价神经网络输出的价值更新动作神经网络参数；

(7)、下一个业务到达时，再次从环境中获取新的状态信息即构建强化学习的一组状态，返回步骤(2)，这样不断更新链路的边权以及缓存内容。

本发明的发明目的是这样实现的：

本发明多模态网络的流量智能控制方法，基于深度强化学习(Deep ReinforcementLearning，DRL)，通过提取访问内容大小、链路带宽等特征，综合考虑网络负载均衡、业务时延等指标来进行网络流量分配。此外，为了缩短用户请求内容的时间，本发明利用多模态网络的架构优势(ICN网络节点可以缓存数据)，基于多模态网络的缓存特性提出了考虑代价和收益的缓存算法，在网络节点中对流行度较高的内容进行缓存。这样本发明通过基于深度强化学习的路由策略以及考虑替换收益的动态缓存策略，降低了多模态网络时延，实现了多模态负载均衡，并提高了多模态网络的性能。

附图说明

图1是本发明多模态网络的流量智能控制方法的原理示意图；

图2是本发明多模态网络的流量智能控制方法一种具体实施方式的流程图；

图3是本发明多模态网络的流量智能控制方法中深度强化学习的原理示意图；

图4是本发明多模态网络的流量智能控制方法中考虑替换损益比的动态缓存策略流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

如前所说，现有传统的流量控制方法存在一定局限性，仅适用于网络条件和流量需求可模型化的情况，随着NDN、CCN等具有高度动态性的网络架构出现，传统的流量控制方法已不在适用。随着人工智能技术的突破，深度强化学习已被证明在处理复杂非线性建模和控制问题具有高度适应性和准确性，深可以处理高度动态和随机的过程。因此，本发明提出了一种基于终端和网络节点协作的多模态网络的流量智能控制方法，构建深度强化学习模型，利用网络节点的存储资源协助终端路由，以降低多模态网络时延，实现多模态网络负载均衡，并提高多模态网络的性能。

在多模态网络架构下，本发明根据内容寻址的方式来对网络进行流量控制。当用户通过终端节点针对某项特定内容(请求内容)向多模态网络发起业务请求，多模态网络根据请求内容，在考虑网络负载均衡等情况下，从包含该请求内容的多个目的节点中为业务安排路由策略。传统路由方法基于最短路径原理进行数据传输，如Dijkstra,Bellman-Ford等启发式算法，而传统的启发式路由算法考虑的优化指标较为单一，且在进行网络流量控制时，仅能选取当前时刻利益最大的路由方案，无法从长远的角度对网络进行流量分配。因此本发明基于深度强化学习(Deep Reinforcement Learning，DRL)设计了一种网络流量智能控制方法，通过提取访问内容大小、链路带宽等特征，综合考虑网络负载均衡、业务时延等指标来进行网络流量分配。

此外，为了缩短用户请求内容的时间，网络节点会根据请求的内容特征选择性地存储服务器的内容到本地，方便以后的内容访问，由于网络节点的存储资源是有限的，而向网络节点发起的内容请求是源源不断的，所以网络节点的存储空间一旦存满就需要进行网络节点的本地内容存储的替换，常规的替换策略有LRU、2Q、LFU算法等，本发明提出了一种基于历史内容访问频次和网络拓扑及内容分布特点的替换算法，它会利用网络节点上当前内容的请求频次来计算存储这个内容会带来的收益，然后根据网络节点与最近的服务器的距离以及待替换的内容的请求频次来计算更换这个内容的代价，并通过收益和代价的比较最终确定是否替换以及被替换的内容。

本发明相比于传统流量控制算法，具有如下特点：

(1)使用深度强化学习算法来为网络业务安排路由策略；

(2)网络节点采用考虑替换损益比的替换算法进行内容缓存。

主要包括以下内容：

(1)基于深度强化学习的路由策略

(1.1)基于访问业务的大小、源目的节点的状态设计；

(1.2)基于网络各链路边权的动作设计；

(1.3)基于最大链路利用率的奖励设计；

(2)考虑替换损益比的动态缓存策略

图1是本发明多模态网络的流量智能控制方法示意图。

如图1所示，本发明创新部分主要分为两个部分，其功能划分如下：

1、路由策略

收集多模态网络的流量信息，如链路带宽、业务带宽等；并采用深度强化学习算法，在考虑负载均衡、时延等指标情况下，为业务进行路由决策。

2、缓存策略

根据ICN中内容的路由情况在每个节点维护的缓存表和历史内容访问频次表，评估替换新内容的收益和替换旧内容的损失，综合利弊做出缓存的替换决策。

在图1的示意图中，给出了7个网络节点的多模态网络，其中，三个网络节点为可缓存节点，缓存有右上角两个网络节点连接的内容服务器UESTC的内容。如图1所示，具体分为三个大步骤：

①、终端节点针对特定内容(用户所需请求内容)发起业务请求；

②、DRL(深度强化学习)计算多模态网络中各链路的边权，根据边权确

定路由路径；

③、根据考虑替换损益比来决定是否要缓存该内容。

图2是本发明多模态网络的流量智能控制方法一种具体实施方式的流程图。

在本实施例中，如图2所示，本发明多模态网络的流量智能控制方法包括以下步骤：

步骤S1：构建深度强化学习的状态

深度强化学习算法包含智能体和环境两部分，智能体通过和环境的交互来进行状态价值的拟合。智能体的优化目标为最大化状态的价值，即状态的价值越高则越接近于问题的最优解。智能体采集的状态组越多，则神经网络对其状态价值的拟合越精确。深度强化学习算法属于现有技术，在此不再赘述。

在本发明中，如图3所示，智能体首先在环境中获取每项业务的源节点、目的节点和业务大小分类以及多模态网络中每条链路的链路利用率，将这四项数据作为一组状态。具体为：

state＝(src，dst，avail，size_level)

size_Level代表到达业务即请求业务的大小分类。

在本实施例中，请求业务的大小分类取值为1、2、3，size_Level＝1代表请求该业务大小为1～5M，size_Level＝2代表该请求业务大小为5～15M，size_Level＝3代表该请求业务大小为15～30M。

步骤S2：输出每条链路的边权

如图3所示，将状态state输入智能体的动作神经网络，通过动作神经网络输出一个多维向量即深度强化学习的动作，用action＝(ω₁,ω₂,…,ω_K)来表示，其中，ω_k代表第k条链路的边权，k＝1,2,…,K。该向量表示每条链路的边权并作为智能体输出送入多模态网络中。

步骤S3：根据每条链路的边权进行路由

如图3所示，将多模态网络作为深度强化学习的环境，根据智能体输出的每条链路的边权，采用最短路算法，计算请求业务从源节点到达目的节点的最短路，由于多模态网络的缓存特性，一个业务可能存在多个目的节点，则再从多个目的节点的最短路中，选取距源节点最短的那条路作为请求业务的最优路由，请求业务根据最优路由从源节点到达目的节点。

步骤S4：考虑替换损益比进行动态缓存

本发明基于历史内容请求频次和网络内容分布特点计算替换损益比进行动态缓存，具体为：

除内容服务器外，每个网络节点维护两张表，一张表是历史请求记录表，里面记录着每个内容请求经过该网络节点的次数即历史请求次数，包括两种情况，一是用户直接在该网络节点的内容请求，二是在从其他网络节点取得、路径上经过了该网络节点的内容请求；另一张表是网络节点的内容缓存表，里面是该网络节点当前缓存的内容，它采用队列结构，表满时，在损益比相同情况下会优先剔除最开始进入队列的内容，方便其他网络节点直接在该网络节点取得已缓存的内容，每个网络节点都有自己的缓存容量C_n(n＝1,2,3…,N)。

源节点为网络节点e_s，请求业务的请求内容为O_req，并且经过路径path＝(e_s,e₁,e₂…,e_p,e_d)才在目的节点e_d成功取得请求内容O_req，其中，p为经过网络节点的数量；从路径终点即目的节点e_d前一个网络节点，即网络节点e_p开始沿着路径反向依次在各个网络节点应用考虑替换损益比的动态缓存：如果网络节点的存储空间未满，则直接存储新请求内容O_req到队尾，如果网络节点已满，如图4所示，则：

步骤S4.1：计算缓存请求内容O_req的收益G，具体为请求内容O_req在该网络节点的历史请求次数t_req与收益跳数g之积，即G＝g·t_req，其中，收益跳数g为在路径path上，该网络节点距离最近存储请求内容O_req的网络节点的跳数，g初始值为1。

步骤S4.2：计算删除该网络节点已缓存内容中的最小损失L_min：对于该网络节点上已缓存内容O_i，对应历史请求次数为t_i，则缓存内容O_i的删除代价为L_i＝l_i·t_i，其中，l_i为该网络节点距离最近的存有缓存内容O_i的服务器的跳数，其中，i为缓存内容的编号，在所有删除代价中找到最小的删除代价，记为L_min，其对应的缓存内容记为O_min。

步骤S4.3：计算该网络节点的替换损益比r＝L_min/G，如果r>R则不执行缓存替换，此时需要更新收益跳数g＝g+1，否则用请求内容O_req替换缓存内容O_min，更新收益跳数g＝1，其中，R为预先设定的替换损益比阈值。在本实施例中，替换损益比阈值R取值为1.5。

采用这种缓存策略可以优化多模态网络中的内容分布，让那些热门的内容缓存在更加靠近请求用户的节点，由此改变上面深度强化学习的状态state中dst来优化路径选择，降低整体延迟，优化流量控制，提升网络性能。

步骤S5：计算强化学习的奖励

步骤S5.1：计算负载均衡奖励：

reward_utilization＝-(a*U_max)²+b

其中，U_max代表多模态网络中的最大链路利用率，a,b均为常数项。

步骤S5.2：计算用户时延奖励：

reward_delay＝-C₁*delay_network+C₂

其中，C₁,C₂为常数项，delay_network为多模态网络中每个业务的平均时延，其值为：

其中，μ_k为第k条链路的服务速率，λ_k为在第k条链路上包的到达率，其中，服务速率μ_k为：

μ_k＝c_k/P_size

其中，c_k为第k条链路的链路容量，P_size代表IP包大小。

采用平均链路利用率，拟合瞬时链路利用率：

则：

步骤S5.3：计算总的奖励：

reward＝η₁·reward_utilization+η₂·reward_delay

其中，η₁，η₂为加权参数；

如图3所示，将总的奖励reward作为强化学习的奖励；

步骤S6：先更新评价神经网络参数、再更新动作神经网络参数

如图3所示，将总的奖励reward返回智能体的评价神经网络，根据状态state和总的奖励reward更新其神经网络参数，再根据评价神经网络输出的价值更新动作神经网络参数。

步骤S7：构建一组新的强化学习状态返回步骤S2

下一个业务到达时，再次从环境中获取新的状态信息即构建强化学习的一组状态，返回步骤S2，这样不断更新链路的边权以及缓存内容。

本发明利用多模态网络的架构优势即其中的ICN网络节点可以缓存数据，使用深度强化学习算法进行网络的智能流量控制。对用户发起的业务进行路由策略的计算，考虑网络负载均衡、时延等指标，并基于多模态网络的缓存特性，本发明提出了考虑代价和收益的缓存算法，在网络节点中对流行度较高的内容进行缓存，这样降低了多模态网络时延，实现了多模态网络负载均衡，并提高了多模态网络的性能。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种多模态网络的流量智能控制方法，其特征在于，包括以下步骤：

(1)、构建深度强化学习的状态

state＝(src，dst，avail，size_level)

avail＝(b₁，b₂，…，b_K)，表示多模态网络中所有K条链路的链路利用率；

size_Level代表到达业务即请求业务的大小分类；

(2)、输出每条链路的边权

将状态state输入智能体的动作神经网络，通过动作神经网络输出一个多维向量即深度强化学习的动作，用action＝(ω₁，ω₂，…，ω_K)来表示，其中，ω_k代表第k条链路的边权，k＝1，2，…，K，该向量表示每条链路的边权并作为智能体输出送入多模态网络中；

(3)、根据每条链路的边权进行路由

(4)、考虑替换损益比进行动态缓存

除内容服务器外，每个网络节点维护两张表，一张表是历史请求记录表，里面记录着每个内容请求经过该网络节点的次数即历史请求次数，包括两种情况，一是用户直接在该网络节点的内容请求，二是在从其他网络节点取得、路径上经过了该网络节点的内容请求；另一张表是网络节点的内容缓存表，里面是该网络节点当前缓存的内容，它采用队列结构，表满时，在损益比相同情况下会优先剔除最开始进入队列的内容，方便其他网络节点直接在该网络节点取得已缓存的内容，每个网络节点都有自己的缓存容量C_n(n＝1，2，3...，N)；

源节点为网络节点e_s，请求业务的请求内容为O_req，并且经过路径path＝(e_s，e₁，e₂...，e_p，e_d)才在目的节点e_d成功取得请求内容O_req，其中，p为经过网络节点的数量；从路径终点即目的节点e_d前一个网络节点，即网络节点e_p开始沿着路径反向依次在各个网络节点应用考虑替换损益比的动态缓存：如果网络节点的存储空间未满，则直接存储新请求内容O_req到队尾，如果网络节点已满，则：

4.1)、计算缓存请求内容O_req的收益G

4.2)、计算删除该网络节点已缓存内容中的最小损失L_min

4.3)、计算该网络节点的替换损益比r＝L_min/G，如果r＞R则不执行缓存替换，此时需要更新收益跳数g＝g+1，否则用请求内容O_req替换缓存内容O_min，更新收益跳数g＝1，其中，R为预先设定的替换损益比阈值；

(5)、计算强化学习的奖励

5.1)、计算负载均衡奖励：

reward_utilization＝-(a*U_max)²+b

5.2)、计算用户时延奖励：

reward_delay＝-C₁*delay_network+C₂

5.3)、计算总的奖励：

reward＝η₁·reward_utilization+η₂·reward_delay

其中，η₁，η₂为加权参数；

将总的奖励reward作为强化学习的奖励；

(6)、先更新评价神经网络参数、再更新动作神经网络参数