CN108924051A - 基于增强学习的信息中心网络兴趣包转发方法 - Google Patents
基于增强学习的信息中心网络兴趣包转发方法 Download PDFInfo
- Publication number
- CN108924051A CN108924051A CN201810726056.3A CN201810726056A CN108924051A CN 108924051 A CN108924051 A CN 108924051A CN 201810726056 A CN201810726056 A CN 201810726056A CN 108924051 A CN108924051 A CN 108924051A
- Authority
- CN
- China
- Prior art keywords
- value
- formula
- packet
- stage
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
- H04L45/08—Learning-based routing, e.g. using neural networks or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/14—Routing performance; Theoretical aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了基于增强学习的信息中心网络兴趣包转发方法,包括探索阶段和利用阶段,探索阶段在转发信息表中增加Q值,并根据最长前缀匹配来获取候选端口列表,在数据包中增加离开时间和最小Q值,并通过数据包中所携带的信息计算数据包端口数据流的Q值,转发N 1个兴趣包后进入利用阶段;智能体转发兴趣包时还依据概率选择转发最佳端口,当满足概率计算公式或是发送了N 2个兴趣包时,结束利用阶段,重新开始进入探索阶段。本发明将兴趣包的转发过程转换为路径优化问题,从而有效地解决网络中的拥塞问题。
Description
技术领域
本发明涉及信息中心网络技术领域,具体涉及基于增强学习的信息中心网络兴趣包转发方法。
背景技术
随着海量流媒体业务的广泛应用,当前TCP/IP网络在数据的移动性、安全性等方面逐渐趋于极限。传统网络采用以“推”为主的通讯方式获取内容,这种方式导致内容提供端的瓶颈,网络容易出现拥塞现象。为了解决这类问题,信息中心网络(Information-Centric Networking,ICN)应运而生。ICN是一中新型的网络架构,采用面向信息的通信模型取代传统面向主机的通信模型。虽然ICN为用户获取海量、异质信息带来了希望,但是网络的拥塞都是亟待解决的一大难题。然而,ICN具有独特的特性,传统网络的拥塞控制策略并不能直接地应用于ICN中。
ICN采用信息缓存机制,有效地缓解了业务量几层出现的拥塞问题,但是拥塞依然是不可避免。当ICN发生拥塞时,网络的整体性能下降,降低了用户的服务质量。如果数据在进行通信的过程中能主动地避开拥塞的链路,那么网络的拥塞问题在一定程度上就可以得到缓解甚至是避免。传统网络在通讯时,数据的转发是根据路由表中的信息进行的。在ICN中,对数据转发不仅会参考一个类似IP路由表的转发信息表,同时还会考虑当前的网络环境以及节点的可用通信接口等因素。
发明内容
为解决上述问题,本发明提供基于增强学习的信息中心网络兴趣包转发方法,采用增强学习算法,将网络中的每个路由节点看成是智能化节点,并将兴趣包的转发过程转换为路径优化问题,路由节点能够实时地做出相应的转发决策,从而有效地解决网络中的拥塞问题。
为了实现上述目的,本发明采用的技术方案为:
基于增强学习的信息中心网络兴趣包转发方法,包括探索阶段和利用阶段,其特征在于:具体步骤为:
步骤一、探索阶段的具体步骤为:
(1)智能体收到n个兴趣包时,先查询转发信息表,在转发信息表中添加一个Q值,Q值用于计算前缀端口对,并根据最长前缀匹配来获取候选端口列表,最后通过候选端口转发兴趣包;
(2)数据包中添加离开时间和最小Q值两个属性,智能体收到数据包时,通过数据包中所携带的信息计算数据包端口数据流的Q值,并将Q值添加到转发信息表中,其中,Q值的计算公式为公式四:
式中,ω(t)为学习率,为智能体v到i的时间,为从智能体v到d端的最短时间;
(3)智能体转发N1个兴趣包后,结束当前的探索阶段,开始进入利用阶段;步骤二、利用阶段的具体步骤为:
a.智能体转发兴趣包时依据概率选择转发最佳端口,概率的计算公式为公式二:
式中,为在端口j上前缀f的兴趣包的转发概率,为在端口j上前缀f的数据流的Q值,k为常量,k>0;
b.当满足公式五的条件或是发送了N2个兴趣包时,结束利用阶段,重新开始进入探索阶段;
c.智能体代理接收到m个数据包时,根据包所携带的信息计算Q值,Q值的计算公式为公式四,并同时更新FIB、Data包中的Q值。
进一步的,步骤一中还在Q值的学习算法中加入具有启发知识的函数H:S×A→R来影响学习过程中智能体动作选择。
进一步的,设S为智能体代理有状态集合,A为动作集合,启发式函数的在t时刻的动作选择规则如公式一所示:
式中,δ为常量,S和A为有限集,s∈S,a∈A,st为在t时刻的状态,at为在t时刻的动作;
在执行选择动作的同时观察下一个状态并接收强化信息r(s,a),Q值的更新公式如下所示:
式中,γ为常量且0≤γ<1,s和a为第n次循环中更新的状态和动作,kn(s,a)是状态s和动作a在这n次循环内被访问的总次数。
进一步的,所述转发信息表包括名字前缀、陈旧时间、端口号和Q值。
进一步的,数据表信息包括数据、元消息、数据内容、数据签名、离开时间和最小Q值。
本发明的有益效果为:本发明采用增强学习算法,设计出一个基于增强学习的兴趣包转发策略,该策略将网络中的每个路由节点看成是智能化代理节点,并将兴趣包的转发过程转换为一个路径优化问题:也就是网络在进行通讯时选择最佳的下一跳节点,并使得整个过程的往返时延最小,本发明将路径优化的过程看作是一个多阶段决策过程,并分为探索阶段和利用阶段这两个阶段。
附图说明
图1为探索阶段的流程图。
具体实施方式
为了本领域的技术人员能够更好地理解本发明所提供的技术方案,下面结合具体实施例进项阐述。
本案将可由以下的实施例说明而得到充分了解,使得熟悉本技艺之人士可以据以完成,然本案之实施例并非可由下列而被限制其实施形态。
图1为探索(Exploration)阶段的流程图,具体步骤为:
(1)、智能体收到n个兴趣包时,先查询转发信息表(Forwarding Information Base,FIB),在FIB表中添加了一个新的属性-Q值,用于计算前缀-端口对,依据最长前缀匹配来获取候选端口列表,最后通过所有候选端口转发兴趣包。这里,将Q学习算法中加入具有启发知识的函数H:S×A→R来影响学习过程中智能体动作选择。其中,S为智能体代理(Agent)有状态集合,A为动作集合,启发式函数的在t时刻的动作选择规则如公式一所示:
式中,δ为常量,S和A为有限集,s∈S,a∈A,st为在t时刻的状态,at为在t时刻的动作;
在执行选择动作的同时观察下一个状态并接收强化信息r(s,a),Q值的更新公式如下所示:
式中,γ为常量且0≤γ<1,s和a为第n次循环中更新的状态和动作,kn(s,a)是状态s和动作a在这n次循环内被访问的总次数。
(2)、与此同时,数据包也添加了两个属性:离开时间和最小Q值,智能体每收到一个数据包时,通过包中所携带的相关信息计算该端口相应数据流的Q值。该过程中,智能体会不断地收集周围环境的信息。其中,在t时刻Q值的计算公式如公式四所示:
式中,ω(t)是学习率,是智能体v到智能体i的时间,是从智能体v到智能体d端的最短时间。
(3)、智能体转发完N1个兴趣包时,就结束当前的Exploration阶段,开始进入利用(Exploitation)阶段。
Exploitation阶段具体步骤为:
(4)、智能体转发兴趣包时,只依据概率选择转发最佳端口,概率的计算公式如下:
式中,为在端口j上前缀f的兴趣包的转发概率,为在端口j上前缀f的数据流的Q值,k为常量,k>0。
(5)、当满足公式五的条件或是发送了N2个兴趣包时,结束Exploitation阶段,重新开始进入Exploration阶段。
(6)、智能体Agent接收到m个数据包(Data包)时,根据包所携带的信息计算Q值。Q值的计算公式如公式四。与此同时也会更新FIB、Data包中的Q值。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (5)
1.基于增强学习的信息中心网络兴趣包转发方法,包括探索阶段和利用阶段,其特征在于:具体步骤为:
步骤一、探索阶段的具体步骤为:
(1)智能体收到n个兴趣包时,先查询转发信息表,在转发信息表中添加一个Q值,Q值用于计算前缀端口对,并根据最长前缀匹配来获取候选端口列表,最后通过候选端口转发兴趣包;
(2)数据包中添加离开时间和最小Q值两个属性,智能体收到数据包时,通过数据包中所携带的信息计算数据包端口数据流的Q值,并将Q值添加到转发信息表中,其中,Q值的计算公式为公式四:
式中,ω(t)为学习率,为智能体v到i的时间,为从智能体v到d端的最短时间;
(3)智能体转发N1个兴趣包后,结束当前的探索阶段,开始进入利用阶段;步骤二、利用阶段的具体步骤为:
a.智能体转发兴趣包时依据概率选择转发最佳端口,概率的计算公式为公式二:
式中,为在端口j上前缀f的兴趣包的转发概率,为在端口j上前缀f的数据流的Q值,k为常量,k>0;
b.当满足公式五的条件或是发送了N2个兴趣包时,结束利用阶段,重新开始进入探索阶段;
c.智能体代理接收到m个数据包时,根据包所携带的信息计算Q值,Q值的计算公式为公式四,并同时更新FIB、Data包中的Q值。
2.根据权利要求1所述的基于增强学习的信息中心网络兴趣包转发方法,其特征在于:步骤一中还在Q值的学习算法中加入具有启发知识的函数H:S×A→R来影响学习过程中智能体动作选择。
3.根据权利要求2所述的基于增强学习的信息中心网络兴趣包转发方法,其特征在于:设S为智能体代理有状态集合,A为动作集合,启发式函数的在t时刻的动作选择规则如公式一所示:
式中,δ为常量,S和A为有限集,s∈S,a∈A,st为在t时刻的状态,at为在t时刻的动作;
在执行选择动作的同时观察下一个状态并接收强化信息r(s,a),Q值的更新公式如下所示:
式中,γ为常量且0≤γ<1,s和a为第n次循环中更新的状态和动作,kn(s,a)是状态s和动作a在这n次循环内被访问的总次数。
4.根据权利要求1所述的基于增强学习的信息中心网络兴趣包转发方法,其特征在于:所述转发信息表包括名字前缀、陈旧时间、端口号和Q值。
5.根据权利要求1所述的基于增强学习的信息中心网络兴趣包转发方法,其特征在于:数据表信息包括数据、元消息、数据内容、数据签名、离开时间和最小Q值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810726056.3A CN108924051B (zh) | 2018-07-04 | 2018-07-04 | 基于增强学习的信息中心网络兴趣包转发方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810726056.3A CN108924051B (zh) | 2018-07-04 | 2018-07-04 | 基于增强学习的信息中心网络兴趣包转发方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108924051A true CN108924051A (zh) | 2018-11-30 |
CN108924051B CN108924051B (zh) | 2021-03-16 |
Family
ID=64425066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810726056.3A Active CN108924051B (zh) | 2018-07-04 | 2018-07-04 | 基于增强学习的信息中心网络兴趣包转发方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108924051B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113162863A (zh) * | 2021-04-12 | 2021-07-23 | 河南科技大学 | 基于轮盘算法的公平多路径路由策略 |
CN114710452A (zh) * | 2021-11-29 | 2022-07-05 | 河南科技大学 | 一种多节点协商的信息中心网络流量优化控制系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101835239A (zh) * | 2010-03-09 | 2010-09-15 | 西安电子科技大学 | 认知网络多路径时延感知最佳路由选择方法 |
CN102571570A (zh) * | 2011-12-27 | 2012-07-11 | 广东电网公司电力科学研究院 | 一种基于强化学习的网络流量负载均衡控制方法 |
CN104640168A (zh) * | 2014-12-04 | 2015-05-20 | 北京理工大学 | 基于q学习的车载自组织网络路由方法 |
US9191304B1 (en) * | 2013-08-12 | 2015-11-17 | The United States Of America As Represented By The Secretary Of The Navy | Reinforcement learning-based distributed network routing method utilizing integrated tracking and selective sweeping |
US20160156737A1 (en) * | 2013-08-05 | 2016-06-02 | Diego Perino | Dynamic interest forwarding mechanism for information centric networking |
US20170105163A1 (en) * | 2015-10-13 | 2017-04-13 | The Board Of Trustees Of The University Of Alabama | Artificial intelligence-augmented, ripple-diamond-chain shaped rateless routing in wireless mesh networks with multi-beam directional antennas |
-
2018
- 2018-07-04 CN CN201810726056.3A patent/CN108924051B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101835239A (zh) * | 2010-03-09 | 2010-09-15 | 西安电子科技大学 | 认知网络多路径时延感知最佳路由选择方法 |
CN102571570A (zh) * | 2011-12-27 | 2012-07-11 | 广东电网公司电力科学研究院 | 一种基于强化学习的网络流量负载均衡控制方法 |
US20160156737A1 (en) * | 2013-08-05 | 2016-06-02 | Diego Perino | Dynamic interest forwarding mechanism for information centric networking |
US9191304B1 (en) * | 2013-08-12 | 2015-11-17 | The United States Of America As Represented By The Secretary Of The Navy | Reinforcement learning-based distributed network routing method utilizing integrated tracking and selective sweeping |
CN104640168A (zh) * | 2014-12-04 | 2015-05-20 | 北京理工大学 | 基于q学习的车载自组织网络路由方法 |
US20170105163A1 (en) * | 2015-10-13 | 2017-04-13 | The Board Of Trustees Of The University Of Alabama | Artificial intelligence-augmented, ripple-diamond-chain shaped rateless routing in wireless mesh networks with multi-beam directional antennas |
Non-Patent Citations (2)
Title |
---|
F.L.LEWIS,ETC: "Reinforcement Learning for Partially Observable Dynamic Processes: Adaptive Dynamic Programming Using Measured Output Data", 《IEEE》 * |
KAIYANG GUO,ETC: "Caching in Base Station with Recommendation via Q-Learning", 《IEEE》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113162863A (zh) * | 2021-04-12 | 2021-07-23 | 河南科技大学 | 基于轮盘算法的公平多路径路由策略 |
CN113162863B (zh) * | 2021-04-12 | 2022-08-02 | 河南科技大学 | 基于轮盘算法的公平多路径路由方法 |
CN114710452A (zh) * | 2021-11-29 | 2022-07-05 | 河南科技大学 | 一种多节点协商的信息中心网络流量优化控制系统及方法 |
CN114710452B (zh) * | 2021-11-29 | 2023-09-08 | 河南科技大学 | 一种多节点协商的信息中心网络流量优化控制系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108924051B (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110986979B (zh) | 一种基于强化学习的sdn多路径路由规划方法 | |
US8194664B2 (en) | Two-level load-balancing of network traffic over an MPLS network | |
US8189585B2 (en) | Techniques for virtual private network fast convergence | |
JP5975083B2 (ja) | 通信システム、制御装置、パケット転送経路の制御方法およびプログラム | |
WO2017032253A1 (zh) | 一种数据传输方法、使用该方法的交换机以及网络控制系统 | |
CN102792646B (zh) | 通信系统、控制装置、通信方法 | |
US20050086367A1 (en) | Methods and apparatus for implementing multiple types of network tunneling in a uniform manner | |
CN103905315B (zh) | 传送网络中所用的路由信息的虚拟化和分发的方法、设备和系统 | |
CN108989212A (zh) | 多个下一跳的路由协议信令及其关系 | |
CN106789648A (zh) | 基于内容存储与网络状况的软件定义网络路由决策方法 | |
US20160261486A1 (en) | Symmetric routing enforcement | |
WO2011030462A1 (ja) | 通信システム、ノード、制御サーバ、通信方法およびプログラム | |
EP2820808B1 (en) | Compound masking and entropy for data packet classification using tree-based binary pattern matching | |
WO2015043327A1 (zh) | 路由方法、设备和系统 | |
CN104468351B (zh) | 基于sdn辅助ccn路由的管理方法、ccn转发装置及网络控制器 | |
CN109413707B (zh) | 无线网络环境下基于深度强化学习技术的智能路由方法 | |
CN106973013A (zh) | 用于基于互联网协议的内容路由器的方法和装置 | |
WO2017107814A1 (zh) | 一种传播QoS策略的方法、装置及系统 | |
JP5888338B2 (ja) | 通信システムおよび通信方法 | |
US11632322B2 (en) | Preferred path route graphs in a network | |
CN104580165B (zh) | 智慧协同网络中的一种协作缓存方法 | |
CN106656793B (zh) | 一种sdn网络与ip网络的数据交互方法 | |
CN103348639A (zh) | 路径选择方法以及控制服务器 | |
CN105681438A (zh) | 内容中心网络中一种集中式的缓存决策策略 | |
CN108924051A (zh) | 基于增强学习的信息中心网络兴趣包转发方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |