CN115473854A - 一种多模态网络的流量智能控制方法 - Google Patents
一种多模态网络的流量智能控制方法 Download PDFInfo
- Publication number
- CN115473854A CN115473854A CN202211012251.2A CN202211012251A CN115473854A CN 115473854 A CN115473854 A CN 115473854A CN 202211012251 A CN202211012251 A CN 202211012251A CN 115473854 A CN115473854 A CN 115473854A
- Authority
- CN
- China
- Prior art keywords
- network
- content
- cache
- request
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000002787 reinforcement Effects 0.000 claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 230000009471 action Effects 0.000 claims description 19
- 239000003795 chemical substances by application Substances 0.000 claims description 17
- 238000012217 deletion Methods 0.000 claims description 9
- 230000037430 deletion Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 9
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 11
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
- H04L47/125—Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/17—Interaction among intermediate nodes, e.g. hop by hop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/50—Queue scheduling
- H04L47/56—Queue scheduling implementing delay-aware scheduling
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种多模态网络的流量智能控制方法,基于深度强化学习(Deep Reinforcement Learning,DRL),通过提取访问内容大小、链路带宽等特征,综合考虑网络负载均衡、业务时延等指标来进行网络流量分配。此外,为了缩短用户请求内容的时间,本发明利用多模态网络的架构优势(ICN网络节点可以缓存数据),基于多模态网络的缓存特性提出了考虑代价和收益的缓存算法,在网络节点中对流行度较高的内容进行缓存。这样本发明通过基于深度强化学习的路由策略以及考虑替换收益的动态缓存策略,降低了多模态网络时延,实现了多模态负载均衡,并提高了多模态网络的性能。
Description
技术领域
本发明属于网络管理技术领域,更为具体地讲,涉及一种多模态网络的流量智能控制方法。
背景技术
为了保证网络正常运行和满足网络应用的传输性能要求,网络管理系统需要及时、准确和全面地了解网络内部的运行状态,并及时排查网络故障。细粒度的网络链路性能指标能够真实反映网络内部的运行状态,因此基于网络链路性能指标的测量可以获取网络内部的运行状态。
流量控制是指根据各种数据业务流量的特性选取传输路径的处理过程,主要用于平衡网络中的交换机、路由器以及链路之间的负载。在复杂的网络环境中,需要控制不同的业务流走不同的路径,关键的业务走可靠的路径并保证服务质量,并且在某段网络拥塞的情况下,动态调整路由,整个网络如同一个“可控的城市交通系统”。具体来说,流量控制可以处理网络流量突发性以提高资源利用率并找到最佳路由以减少内容检索延迟。在通信网络中,流量控制解决最优流量分配的大规模在线决策问题,它对提高网络性能起着至关重要的作用。
随着算力网络的到来,传统的基于TCP/IP体系的端到端的网络架构已远远不能满足云计算、分布式计算、边缘计算等服务的需求,网络架构正在从传统的刚性架构逐步向多模态网络架构转变。多模态网络支持寻址和路由、交换模式、互连模式、网元、传输协议、服务属性等的全维定义和多态呈现,支持互联网的渐进式发展,从根本上满足网络智能化、多样化、个性化、高健壮性和高效率的业务需求。多模态网络包括移动优先(MobilityFirst)、信息中心网络(Information-Centric Networking,ICN)、命名数据网络(NamedData Networking,NDN)等,网络更关注内容信息而不是端到端的连接,关注为内容分配名称和网络内缓存,这样的特性使多模态网络不仅可以通过路由来进行流量控制,还可以通过缓存策略来进行流量控制。多模态网络作为未来网络的发展方向,正引起各国研究者的关注。
由于内容可以在多模态网络交换机中动态缓存和逐出,内容请求会被转发到多个网络内缓存。内容分发涉及多个网络缓存节点,这是一个高度动态和随机的过程,与不同缓存节点的交互意味着流量模式将更加复杂。传统的流量工程算法假设网络条件和流量需求可以被很好的模型化,然而由于多模态网络动态变化的特性,基于模型的传统流量工程算法显然不再适用。
发明内容
本发明的目的在于克服现有技术的不足,提供一种多模态网络的流量智能控制方法,以降低多模态网络时延,实现多模态网络负载均衡,并提高多模态网络的性能。
为实现上述发明目的,本发明多模态网络的流量智能控制方法,其特征在于,包括以下步骤:
(1)、构建深度强化学习的状态
对于多模态网络,当一个业务到达时,构建深度强化学习的一组状态:
state=(src,dst,avail,sizelevel)
其中,src代表发送内容请求的源节点,为长度为N的one-hot编码,即值为1的位置对应于源节点编号,N为多模态网络中的网络节点数量;
dst代表存储有相应内容的目的节点,为长度为N的one-hot编码,即值为1的位置对应的目的节点存有相应内容;
avail=(b1,b2,…,bK),表示多模态网络中所有K条链路的链路利用率;
sizeLevel代表到达业务即请求业务的大小分类;
(2)、输出每条链路的边权
将状态state输入智能体的动作神经网络,通过动作神经网络输出一个多维向量即深度强化学习的动作,用action=(ω1,ω2,…,ωK)来表示,其中,ωk代表第k条链路的边权,k=1,2,…,K,该向量表示每条链路的边权并作为智能体输出送入多模态网络中;
(3)、根据每条链路的边权进行路由
将多模态网络作为深度强化学习的环境,根据智能体输出的每条链路的边权,采用最短路算法,计算请求业务从源节点到达目的节点的最短路,由于多模态网络的缓存特性,一个业务可能存在多个目的节点,则再从多个目的节点的最短路中,选取距源节点最短的那条路作为请求业务的最优路由,请求业务根据最优路由从源节点到达目的节点;
(4)、考虑替换损益比进行动态缓存
除内容服务器外,每个网络节点维护两张表,一张表是历史请求记录表,里面记录着每个内容请求经过该网络节点的次数即历史请求次数,包括两种情况,一是用户直接在该网络节点的内容请求,二是在从其他网络节点取得、路径上经过了该网络节点的内容请求;另一张表是网络节点的内容缓存表,里面是该网络节点当前缓存的内容,它采用队列结构,表满时,在损益比相同情况下会优先剔除最开始进入队列的内容,方便其他网络节点直接在该网络节点取得已缓存的内容,每个网络节点都有自己的缓存容量Cn(n=1,2,3…,N);
源节点为网络节点es,请求业务的请求内容为Oreq,并且经过路径path=(es,e1,e2…,ep,ed)才在目的节点ed成功取得请求内容Oreq,其中,p为经过网络节点的数量;从路径终点即目的节点ed前一个网络节点,即网络节点ep开始沿着路径反向依次在各个网络节点应用考虑替换损益比的动态缓存:如果网络节点的存储空间未满,则直接存储新请求内容Oreq到队尾,如果网络节点已满,则:
4.1)、计算缓存请求内容Oreq的收益G
具体为请求内容Oreq在该网络节点的历史请求次数treq与收益跳数g之积,即G=g·treq,其中,收益跳数g为在路径path上,该网络节点距离最近存储请求内容Oreq的网络节点的跳数,g初始值为1;
4.2)、计算删除该网络节点已缓存内容中的最小损失Lmin
对于该网络节点上已缓存内容Oi,对应历史请求次数为ti,则缓存内容Oi的删除代价为Li=li·ti,其中,li为该网络节点距离最近的存有缓存内容Oi的服务器的跳数,其中,i为缓存内容的编号,在所有删除代价中找到最小的删除代价,记为Lmin,其对应的缓存内容记为Omin;
4.3)、计算该网络节点的替换损益比r=Lmin/G,如果r>R则不执行缓存替换,此时需要更新收益跳数g=g+1,否则用请求内容Oreq替换缓存内容Omin,更新收益跳数g=1,其中,R为预先设定的替换损益比阈值;
(5)、计算强化学习的奖励
5.1)、计算负载均衡奖励:
rewardutilization=-(a*Umax)2+b
其中,Umax代表多模态网络中的最大链路利用率,a,b均为常数项;
5.2)、计算用户时延奖励:
rewardelay=-C1*delaynetwork+C2
其中,C1,C2为常数项,delaynetwork为多模态网络中每个业务的平均时延,其值为:
其中,M为当前时刻多模态网络中的业务个数,delay_flow(m)为多模态网络中第m个业务时延,其值为第m个业务的路径上所有链路的时延Dk之和,其中第k条链路的时延为:
其中,μk为第k条链路的服务速率,λk为在第k条链路上包的到达率;
5.3)、计算总的奖励:
reward=η1rewardutilization+η2·rewarddelay
其中,η1,η2为加权参数;
将总的奖励reward作为强化学习的奖励;
(6)、先更新评价神经网络参数、再更新动作神经网络参数
将总的奖励reward返回智能体的评价神经网络,根据状态state和总的奖励reward更新其神经网络参数,再根据评价神经网络输出的价值更新动作神经网络参数;
(7)、下一个业务到达时,再次从环境中获取新的状态信息即构建强化学习的一组状态,返回步骤(2),这样不断更新链路的边权以及缓存内容。
本发明的发明目的是这样实现的:
本发明多模态网络的流量智能控制方法,基于深度强化学习(DeepReinforcement Learning,DRL),通过提取访问内容大小、链路带宽等特征,综合考虑网络负载均衡、业务时延等指标来进行网络流量分配。此外,为了缩短用户请求内容的时间,本发明利用多模态网络的架构优势(ICN网络节点可以缓存数据),基于多模态网络的缓存特性提出了考虑代价和收益的缓存算法,在网络节点中对流行度较高的内容进行缓存。这样本发明通过基于深度强化学习的路由策略以及考虑替换收益的动态缓存策略,降低了多模态网络时延,实现了多模态负载均衡,并提高了多模态网络的性能。
附图说明
图1是本发明多模态网络的流量智能控制方法的原理示意图;
图2是本发明多模态网络的流量智能控制方法一种具体实施方式的流程图;
图3是本发明多模态网络的流量智能控制方法中深度强化学习的原理示意图;
图4是本发明多模态网络的流量智能控制方法中考虑替换损益比的动态缓存策略流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
如前所说,现有传统的流量控制方法存在一定局限性,仅适用于网络条件和流量需求可模型化的情况,随着NDN、CCN等具有高度动态性的网络架构出现,传统的流量控制方法已不在适用。随着人工智能技术的突破,深度强化学习已被证明在处理复杂非线性建模和控制问题具有高度适应性和准确性,深可以处理高度动态和随机的过程。因此,本发明提出了一种基于终端和网络节点协作的多模态网络的流量智能控制方法,构建深度强化学习模型,利用网络节点的存储资源协助终端路由,以降低多模态网络时延,实现多模态网络负载均衡,并提高多模态网络的性能。
在多模态网络架构下,本发明根据内容寻址的方式来对网络进行流量控制。当用户通过终端节点针对某项特定内容(请求内容)向多模态网络发起业务请求,多模态网络根据请求内容,在考虑网络负载均衡等情况下,从包含该请求内容的多个目的节点中为业务安排路由策略。传统路由方法基于最短路径原理进行数据传输,如Dijkstra,Bellman-Ford等启发式算法,而传统的启发式路由算法考虑的优化指标较为单一,且在进行网络流量控制时,仅能选取当前时刻利益最大的路由方案,无法从长远的角度对网络进行流量分配。因此本发明基于深度强化学习(Deep Reinforcement Learning,DRL)设计了一种网络流量智能控制方法,通过提取访问内容大小、链路带宽等特征,综合考虑网络负载均衡、业务时延等指标来进行网络流量分配。
此外,为了缩短用户请求内容的时间,网络节点会根据请求的内容特征选择性地存储服务器的内容到本地,方便以后的内容访问,由于网络节点的存储资源是有限的,而向网络节点发起的内容请求是源源不断的,所以网络节点的存储空间一旦存满就需要进行网络节点的本地内容存储的替换,常规的替换策略有LRU、2Q、LFU算法等,本发明提出了一种基于历史内容访问频次和网络拓扑及内容分布特点的替换算法,它会利用网络节点上当前内容的请求频次来计算存储这个内容会带来的收益,然后根据网络节点与最近的服务器的距离以及待替换的内容的请求频次来计算更换这个内容的代价,并通过收益和代价的比较最终确定是否替换以及被替换的内容。
本发明相比于传统流量控制算法,具有如下特点:
(1)使用深度强化学习算法来为网络业务安排路由策略;
(2)网络节点采用考虑替换损益比的替换算法进行内容缓存。
主要包括以下内容:
(1)基于深度强化学习的路由策略
(1.1)基于访问业务的大小、源目的节点的状态设计;
(1.2)基于网络各链路边权的动作设计;
(1.3)基于最大链路利用率的奖励设计;
(2)考虑替换损益比的动态缓存策略
图1是本发明多模态网络的流量智能控制方法示意图。
如图1所示,本发明创新部分主要分为两个部分,其功能划分如下:
1、路由策略
收集多模态网络的流量信息,如链路带宽、业务带宽等;并采用深度强化学习算法,在考虑负载均衡、时延等指标情况下,为业务进行路由决策。
2、缓存策略
根据ICN中内容的路由情况在每个节点维护的缓存表和历史内容访问频次表,评估替换新内容的收益和替换旧内容的损失,综合利弊做出缓存的替换决策。
在图1的示意图中,给出了7个网络节点的多模态网络,其中,三个网络节点为可缓存节点,缓存有右上角两个网络节点连接的内容服务器UESTC的内容。如图1所示,具体分为三个大步骤:
①、终端节点针对特定内容(用户所需请求内容)发起业务请求;
②、DRL(深度强化学习)计算多模态网络中各链路的边权,根据边权确
定路由路径;
③、根据考虑替换损益比来决定是否要缓存该内容。
图2是本发明多模态网络的流量智能控制方法一种具体实施方式的流程图。
在本实施例中,如图2所示,本发明多模态网络的流量智能控制方法包括以下步骤:
步骤S1:构建深度强化学习的状态
深度强化学习算法包含智能体和环境两部分,智能体通过和环境的交互来进行状态价值的拟合。智能体的优化目标为最大化状态的价值,即状态的价值越高则越接近于问题的最优解。智能体采集的状态组越多,则神经网络对其状态价值的拟合越精确。深度强化学习算法属于现有技术,在此不再赘述。
在本发明中,如图3所示,智能体首先在环境中获取每项业务的源节点、目的节点和业务大小分类以及多模态网络中每条链路的链路利用率,将这四项数据作为一组状态。具体为:
对于多模态网络,当一个业务到达时,构建深度强化学习的一组状态:
state=(src,dst,avail,sizelevel)
其中,src代表发送内容请求的源节点,为长度为N的one-hot编码,即值为1的位置对应于源节点编号,N为多模态网络中的网络节点数量;
dst代表存储有相应内容的目的节点,为长度为N的one-hot编码,即值为1的位置对应的目的节点存有相应内容;
avail=(b1,b2,…,bK),表示多模态网络中所有K条链路的链路利用率;
sizeLevel代表到达业务即请求业务的大小分类。
在本实施例中,请求业务的大小分类取值为1、2、3,sizeLevel=1代表请求该业务大小为1~5M,sizeLevel=2代表该请求业务大小为5~15M,sizeLevel=3代表该请求业务大小为15~30M。
步骤S2:输出每条链路的边权
如图3所示,将状态state输入智能体的动作神经网络,通过动作神经网络输出一个多维向量即深度强化学习的动作,用action=(ω1,ω2,…,ωK)来表示,其中,ωk代表第k条链路的边权,k=1,2,…,K。该向量表示每条链路的边权并作为智能体输出送入多模态网络中。
步骤S3:根据每条链路的边权进行路由
如图3所示,将多模态网络作为深度强化学习的环境,根据智能体输出的每条链路的边权,采用最短路算法,计算请求业务从源节点到达目的节点的最短路,由于多模态网络的缓存特性,一个业务可能存在多个目的节点,则再从多个目的节点的最短路中,选取距源节点最短的那条路作为请求业务的最优路由,请求业务根据最优路由从源节点到达目的节点。
步骤S4:考虑替换损益比进行动态缓存
本发明基于历史内容请求频次和网络内容分布特点计算替换损益比进行动态缓存,具体为:
除内容服务器外,每个网络节点维护两张表,一张表是历史请求记录表,里面记录着每个内容请求经过该网络节点的次数即历史请求次数,包括两种情况,一是用户直接在该网络节点的内容请求,二是在从其他网络节点取得、路径上经过了该网络节点的内容请求;另一张表是网络节点的内容缓存表,里面是该网络节点当前缓存的内容,它采用队列结构,表满时,在损益比相同情况下会优先剔除最开始进入队列的内容,方便其他网络节点直接在该网络节点取得已缓存的内容,每个网络节点都有自己的缓存容量Cn(n=1,2,3…,N)。
源节点为网络节点es,请求业务的请求内容为Oreq,并且经过路径path=(es,e1,e2…,ep,ed)才在目的节点ed成功取得请求内容Oreq,其中,p为经过网络节点的数量;从路径终点即目的节点ed前一个网络节点,即网络节点ep开始沿着路径反向依次在各个网络节点应用考虑替换损益比的动态缓存:如果网络节点的存储空间未满,则直接存储新请求内容Oreq到队尾,如果网络节点已满,如图4所示,则:
步骤S4.1:计算缓存请求内容Oreq的收益G,具体为请求内容Oreq在该网络节点的历史请求次数treq与收益跳数g之积,即G=g·treq,其中,收益跳数g为在路径path上,该网络节点距离最近存储请求内容Oreq的网络节点的跳数,g初始值为1。
步骤S4.2:计算删除该网络节点已缓存内容中的最小损失Lmin:对于该网络节点上已缓存内容Oi,对应历史请求次数为ti,则缓存内容Oi的删除代价为Li=li·ti,其中,li为该网络节点距离最近的存有缓存内容Oi的服务器的跳数,其中,i为缓存内容的编号,在所有删除代价中找到最小的删除代价,记为Lmin,其对应的缓存内容记为Omin。
步骤S4.3:计算该网络节点的替换损益比r=Lmin/G,如果r>R则不执行缓存替换,此时需要更新收益跳数g=g+1,否则用请求内容Oreq替换缓存内容Omin,更新收益跳数g=1,其中,R为预先设定的替换损益比阈值。在本实施例中,替换损益比阈值R取值为1.5。
采用这种缓存策略可以优化多模态网络中的内容分布,让那些热门的内容缓存在更加靠近请求用户的节点,由此改变上面深度强化学习的状态state中dst来优化路径选择,降低整体延迟,优化流量控制,提升网络性能。
步骤S5:计算强化学习的奖励
步骤S5.1:计算负载均衡奖励:
rewardutilization=-(a*Umax)2+b
其中,Umax代表多模态网络中的最大链路利用率,a,b均为常数项。
步骤S5.2:计算用户时延奖励:
rewarddelay=-C1*delaynetwork+C2
其中,C1,C2为常数项,delaynetwork为多模态网络中每个业务的平均时延,其值为:
其中,M为当前时刻多模态网络中的业务个数,delay_flow(m)为多模态网络中第m个业务时延,其值为第m个业务的路径上所有链路的时延Dk之和,其中第k条链路的时延为:
其中,μk为第k条链路的服务速率,λk为在第k条链路上包的到达率,其中,服务速率μk为:
μk=ck/P_size
其中,ck为第k条链路的链路容量,P_size代表IP包大小。
采用平均链路利用率,拟合瞬时链路利用率:
则:
步骤S5.3:计算总的奖励:
reward=η1·rewardutilization+η2·rewarddelay
其中,η1,η2为加权参数;
如图3所示,将总的奖励reward作为强化学习的奖励;
步骤S6:先更新评价神经网络参数、再更新动作神经网络参数
如图3所示,将总的奖励reward返回智能体的评价神经网络,根据状态state和总的奖励reward更新其神经网络参数,再根据评价神经网络输出的价值更新动作神经网络参数。
步骤S7:构建一组新的强化学习状态返回步骤S2
下一个业务到达时,再次从环境中获取新的状态信息即构建强化学习的一组状态,返回步骤S2,这样不断更新链路的边权以及缓存内容。
本发明利用多模态网络的架构优势即其中的ICN网络节点可以缓存数据,使用深度强化学习算法进行网络的智能流量控制。对用户发起的业务进行路由策略的计算,考虑网络负载均衡、时延等指标,并基于多模态网络的缓存特性,本发明提出了考虑代价和收益的缓存算法,在网络节点中对流行度较高的内容进行缓存,这样降低了多模态网络时延,实现了多模态网络负载均衡,并提高了多模态网络的性能。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种多模态网络的流量智能控制方法,其特征在于,包括以下步骤:
(1)、构建深度强化学习的状态
对于多模态网络,当一个业务到达时,构建深度强化学习的一组状态:
state=(src,dst,avail,sizelevel)
其中,src代表发送内容请求的源节点,为长度为N的one-hot编码,即值为1的位置对应于源节点编号,N为多模态网络中的网络节点数量;
dst代表存储有相应内容的目的节点,为长度为N的one-hot编码,即值为1的位置对应的目的节点存有相应内容;
avail=(b1,b2,…,bK),表示多模态网络中所有K条链路的链路利用率;
sizeLevel代表到达业务即请求业务的大小分类;
(2)、输出每条链路的边权
将状态state输入智能体的动作神经网络,通过动作神经网络输出一个多维向量即深度强化学习的动作,用action=(ω1,ω2,…,ωK)来表示,其中,ωk代表第k条链路的边权,k=1,2,…,K,该向量表示每条链路的边权并作为智能体输出送入多模态网络中;
(3)、根据每条链路的边权进行路由
将多模态网络作为深度强化学习的环境,根据智能体输出的每条链路的边权,采用最短路算法,计算请求业务从源节点到达目的节点的最短路,由于多模态网络的缓存特性,一个业务可能存在多个目的节点,则再从多个目的节点的最短路中,选取距源节点最短的那条路作为请求业务的最优路由,请求业务根据最优路由从源节点到达目的节点;
(4)、考虑替换损益比进行动态缓存
除内容服务器外,每个网络节点维护两张表,一张表是历史请求记录表,里面记录着每个内容请求经过该网络节点的次数即历史请求次数,包括两种情况,一是用户直接在该网络节点的内容请求,二是在从其他网络节点取得、路径上经过了该网络节点的内容请求;另一张表是网络节点的内容缓存表,里面是该网络节点当前缓存的内容,它采用队列结构,表满时,在损益比相同情况下会优先剔除最开始进入队列的内容,方便其他网络节点直接在该网络节点取得已缓存的内容,每个网络节点都有自己的缓存容量Cn(n=1,2,3...,N);
源节点为网络节点es,请求业务的请求内容为Oreq,并且经过路径path=(es,e1,e2...,ep,ed)才在目的节点ed成功取得请求内容Oreq,其中,p为经过网络节点的数量;从路径终点即目的节点ed前一个网络节点,即网络节点ep开始沿着路径反向依次在各个网络节点应用考虑替换损益比的动态缓存:如果网络节点的存储空间未满,则直接存储新请求内容Oreq到队尾,如果网络节点已满,则:
4.1)、计算缓存请求内容Oreq的收益G
具体为请求内容Oreq在该网络节点的历史请求次数treq与收益跳数g之积,即G=g·treq,其中,收益跳数g为在路径path上,该网络节点距离最近存储请求内容Oreq的网络节点的跳数,g初始值为1;
4.2)、计算删除该网络节点已缓存内容中的最小损失Lmin
对于该网络节点上已缓存内容Oi,对应历史请求次数为ti,则缓存内容Oi的删除代价为Li=li·ti,其中,li为该网络节点距离最近的存有缓存内容Oi的服务器的跳数,其中,i为缓存内容的编号,在所有删除代价中找到最小的删除代价,记为Lmin,其对应的缓存内容记为Omin;
4.3)、计算该网络节点的替换损益比r=Lmin/G,如果r>R则不执行缓存替换,此时需要更新收益跳数g=g+1,否则用请求内容Oreq替换缓存内容Omin,更新收益跳数g=1,其中,R为预先设定的替换损益比阈值;
(5)、计算强化学习的奖励
5.1)、计算负载均衡奖励:
rewardutilization=-(a*Umax)2+b
其中,Umax代表多模态网络中的最大链路利用率,a,b均为常数项;
5.2)、计算用户时延奖励:
rewarddelay=-C1*delaynetwork+C2
其中,C1,C2为常数项,delaynetwork为多模态网络中每个业务的平均时延,其值为:
其中,M为当前时刻多模态网络中的业务个数,delay_flow(m)为多模态网络中第m个业务时延,其值为第m个业务的路径上所有链路的时延Dk之和,其中第k条链路的时延为:
其中,μk为第k条链路的服务速率,λk为在第k条链路上包的到达率;
5.3)、计算总的奖励:
reward=η1·rewardutilization+η2·rewarddelay
其中,η1,η2为加权参数;
将总的奖励reward作为强化学习的奖励;
(6)、先更新评价神经网络参数、再更新动作神经网络参数
将总的奖励reward返回智能体的评价神经网络,根据状态state和总的奖励reward更新其神经网络参数,再根据评价神经网络输出的价值更新动作神经网络参数;
(7)、下一个业务到达时,再次从环境中获取新的状态信息即构建强化学习的一组状态,返回步骤(2),这样不断更新链路的边权以及缓存内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211012251.2A CN115473854B (zh) | 2022-08-23 | 2022-08-23 | 一种多模态网络的流量智能控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211012251.2A CN115473854B (zh) | 2022-08-23 | 2022-08-23 | 一种多模态网络的流量智能控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115473854A true CN115473854A (zh) | 2022-12-13 |
CN115473854B CN115473854B (zh) | 2023-10-24 |
Family
ID=84365899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211012251.2A Active CN115473854B (zh) | 2022-08-23 | 2022-08-23 | 一种多模态网络的流量智能控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115473854B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033005A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种无死锁路由方法、装置、存储介质及电子设备 |
CN118158451A (zh) * | 2024-04-12 | 2024-06-07 | 深圳市光网世纪科技有限公司 | 一种基于云网互联的在线直播方法、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102595548A (zh) * | 2012-03-26 | 2012-07-18 | 中南大学 | 一种认知无线Mesh网络中的最小花费组播路由方法 |
EP3506095A2 (en) * | 2017-12-29 | 2019-07-03 | INTEL Corporation | Communication optimizations for distributed machine learning |
KR102062657B1 (ko) * | 2018-07-24 | 2020-01-06 | 경희대학교 산학협력단 | 가상 이동통신망 사업자를 위한 지능형 캐시 관리 방법 및 네트워크 시스템 |
US20200242383A1 (en) * | 2010-06-07 | 2020-07-30 | Affectiva, Inc. | Multimodal machine learning for vehicle manipulation |
CN112565094A (zh) * | 2020-12-09 | 2021-03-26 | 之江实验室 | 一种多模态网络拓扑结构 |
CN113259440A (zh) * | 2021-05-18 | 2021-08-13 | 重庆邮电大学 | 一种基于负载均衡的虚拟网络功能动态部署方法及系统 |
CN113676407A (zh) * | 2021-07-15 | 2021-11-19 | 东北大学 | 一种通信网的深度学习驱动的流量优化机制 |
-
2022
- 2022-08-23 CN CN202211012251.2A patent/CN115473854B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200242383A1 (en) * | 2010-06-07 | 2020-07-30 | Affectiva, Inc. | Multimodal machine learning for vehicle manipulation |
CN102595548A (zh) * | 2012-03-26 | 2012-07-18 | 中南大学 | 一种认知无线Mesh网络中的最小花费组播路由方法 |
EP3506095A2 (en) * | 2017-12-29 | 2019-07-03 | INTEL Corporation | Communication optimizations for distributed machine learning |
KR102062657B1 (ko) * | 2018-07-24 | 2020-01-06 | 경희대학교 산학협력단 | 가상 이동통신망 사업자를 위한 지능형 캐시 관리 방법 및 네트워크 시스템 |
CN112565094A (zh) * | 2020-12-09 | 2021-03-26 | 之江实验室 | 一种多模态网络拓扑结构 |
CN113259440A (zh) * | 2021-05-18 | 2021-08-13 | 重庆邮电大学 | 一种基于负载均衡的虚拟网络功能动态部署方法及系统 |
CN113676407A (zh) * | 2021-07-15 | 2021-11-19 | 东北大学 | 一种通信网的深度学习驱动的流量优化机制 |
Non-Patent Citations (2)
Title |
---|
肖扬;吴家威;李鉴学;刘军;: "一种基于深度强化学习的动态路由算法", 信息通信技术与政策, no. 09 * |
马庆刘;喻鹏;吴佳慧;熊翱;颜拥;: "基于深度强化学习的综合能源业务通道优化机制", 北京邮电大学学报, no. 02 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033005A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种无死锁路由方法、装置、存储介质及电子设备 |
CN117033005B (zh) * | 2023-10-07 | 2024-01-26 | 之江实验室 | 一种无死锁路由方法、装置、存储介质及电子设备 |
CN118158451A (zh) * | 2024-04-12 | 2024-06-07 | 深圳市光网世纪科技有限公司 | 一种基于云网互联的在线直播方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115473854B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115473854B (zh) | 一种多模态网络的流量智能控制方法 | |
CN112491714B (zh) | SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 | |
CN110557732B (zh) | 一种车辆边缘计算网络任务卸载负载均衡系统及均衡方法 | |
CN106789648B (zh) | 基于内容存储与网络状况的软件定义网络路由决策方法 | |
AU2020103384A4 (en) | Method for Constructing Energy-efficient Network Content Distribution Mechanism Based on Edge Intelligent Caches | |
CN114697229A (zh) | 一种分布式路由规划模型的构建方法及应用 | |
CN108366089B (zh) | 一种基于内容流行度和节点重要度的ccn缓存方法 | |
CN109379230B (zh) | 一种基于广度优先搜索的服务功能链部署方法 | |
CN114328291A (zh) | 一种工业互联网边缘服务缓存决策方法及系统 | |
Huang et al. | Intelligent routing method based on Dueling DQN reinforcement learning and network traffic state prediction in SDN | |
CN108900599B (zh) | 一种软件定义的内容中心网络装置及其聚类缓存决策方法 | |
CN112399485A (zh) | 一种6g中基于ccn的新节点价值和内容流行度缓存方法 | |
CN114513426B (zh) | 基于节点相似度和影响力的ccn社区划分方法 | |
CN116938810A (zh) | 一种基于图神经网络的深度强化学习sdn智能路由优化方法 | |
Khodaparas et al. | A multi criteria cooperative caching scheme for internet of things | |
Domingues et al. | Enabling opportunistic search and placement in cache networks | |
CN117294643B (zh) | 一种基于SDN架构的网络QoS保障路由方法 | |
Nayyer et al. | Learning-based hybrid routing for scalability in software defined networks | |
CN117478518A (zh) | 一种图卷积神经网络辅助的大数据存储转发调度方法 | |
CN113676407A (zh) | 一种通信网的深度学习驱动的流量优化机制 | |
CN116847425A (zh) | 一种基于高维数据联合优化的多资源路由优化方法 | |
CN116389347A (zh) | 一种基于强化学习的动态sdn路由优化算法 | |
Kumar et al. | Confidence-based q-routing: An on-line adaptive network routing algorithm | |
Rao et al. | A deep learning-based constrained intelligent routing method | |
CN113766540B (zh) | 低时延的网络内容传输方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |