CN108924051A

CN108924051A - 基于增强学习的信息中心网络兴趣包转发方法

Info

Publication number: CN108924051A
Application number: CN201810726056.3A
Authority: CN
Inventors: 张明川; 吴庆涛; 朱军龙; 郑瑞娟; 刘婷婷; 王鑫露; 陈亚明; 张风华; 陈军亚; 孟维鸣
Original assignee: Henan University of Science and Technology
Current assignee: Henan University of Science and Technology
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2018-11-30
Anticipated expiration: 2038-07-04
Also published as: CN108924051B

Abstract

本发明提供了基于增强学习的信息中心网络兴趣包转发方法，包括探索阶段和利用阶段，探索阶段在转发信息表中增加Q值，并根据最长前缀匹配来获取候选端口列表，在数据包中增加离开时间和最小Q值，并通过数据包中所携带的信息计算数据包端口数据流的Q值，转发N ₁个兴趣包后进入利用阶段；智能体转发兴趣包时还依据概率选择转发最佳端口，当满足概率计算公式或是发送了N ₂个兴趣包时，结束利用阶段，重新开始进入探索阶段。本发明将兴趣包的转发过程转换为路径优化问题，从而有效地解决网络中的拥塞问题。

Description

基于增强学习的信息中心网络兴趣包转发方法

技术领域

本发明涉及信息中心网络技术领域，具体涉及基于增强学习的信息中心网络兴趣包转发方法。

背景技术

随着海量流媒体业务的广泛应用，当前TCP/IP网络在数据的移动性、安全性等方面逐渐趋于极限。传统网络采用以“推”为主的通讯方式获取内容，这种方式导致内容提供端的瓶颈，网络容易出现拥塞现象。为了解决这类问题，信息中心网络(Information-Centric Networking，ICN)应运而生。ICN是一中新型的网络架构，采用面向信息的通信模型取代传统面向主机的通信模型。虽然ICN为用户获取海量、异质信息带来了希望，但是网络的拥塞都是亟待解决的一大难题。然而，ICN具有独特的特性，传统网络的拥塞控制策略并不能直接地应用于ICN中。

ICN采用信息缓存机制，有效地缓解了业务量几层出现的拥塞问题，但是拥塞依然是不可避免。当ICN发生拥塞时，网络的整体性能下降，降低了用户的服务质量。如果数据在进行通信的过程中能主动地避开拥塞的链路，那么网络的拥塞问题在一定程度上就可以得到缓解甚至是避免。传统网络在通讯时，数据的转发是根据路由表中的信息进行的。在ICN中，对数据转发不仅会参考一个类似IP路由表的转发信息表，同时还会考虑当前的网络环境以及节点的可用通信接口等因素。

发明内容

为解决上述问题，本发明提供基于增强学习的信息中心网络兴趣包转发方法，采用增强学习算法，将网络中的每个路由节点看成是智能化节点，并将兴趣包的转发过程转换为路径优化问题，路由节点能够实时地做出相应的转发决策，从而有效地解决网络中的拥塞问题。

为了实现上述目的，本发明采用的技术方案为：

基于增强学习的信息中心网络兴趣包转发方法，包括探索阶段和利用阶段，其特征在于：具体步骤为：

步骤一、探索阶段的具体步骤为：

(1)智能体收到n个兴趣包时，先查询转发信息表，在转发信息表中添加一个Q值，Q值用于计算前缀端口对，并根据最长前缀匹配来获取候选端口列表，最后通过候选端口转发兴趣包；

(2)数据包中添加离开时间和最小Q值两个属性，智能体收到数据包时，通过数据包中所携带的信息计算数据包端口数据流的Q值，并将Q值添加到转发信息表中，其中，Q值的计算公式为公式四：

式中，ω(t)为学习率，为智能体v到i的时间，为从智能体v到d端的最短时间；

(3)智能体转发N₁个兴趣包后，结束当前的探索阶段，开始进入利用阶段；步骤二、利用阶段的具体步骤为：

a.智能体转发兴趣包时依据概率选择转发最佳端口，概率的计算公式为公式二：

式中，为在端口j上前缀f的兴趣包的转发概率，为在端口j上前缀f的数据流的Q值，k为常量，k＞0；

b.当满足公式五的条件或是发送了N₂个兴趣包时，结束利用阶段，重新开始进入探索阶段；

c.智能体代理接收到m个数据包时，根据包所携带的信息计算Q值，Q值的计算公式为公式四，并同时更新FIB、Data包中的Q值。

进一步的，步骤一中还在Q值的学习算法中加入具有启发知识的函数H:S×A→R来影响学习过程中智能体动作选择。

进一步的，设S为智能体代理有状态集合，A为动作集合，启发式函数的在t时刻的动作选择规则如公式一所示：

式中，δ为常量，S和A为有限集，s∈S,a∈A，s_t为在t时刻的状态，a_t为在t时刻的动作；

在执行选择动作的同时观察下一个状态并接收强化信息r(s,a)，Q值的更新公式如下所示：

式中，γ为常量且0≤γ＜1，s和a为第n次循环中更新的状态和动作，k_n(s,a)是状态s和动作a在这n次循环内被访问的总次数。

进一步的，所述转发信息表包括名字前缀、陈旧时间、端口号和Q值。

进一步的，数据表信息包括数据、元消息、数据内容、数据签名、离开时间和最小Q值。

本发明的有益效果为：本发明采用增强学习算法，设计出一个基于增强学习的兴趣包转发策略，该策略将网络中的每个路由节点看成是智能化代理节点，并将兴趣包的转发过程转换为一个路径优化问题：也就是网络在进行通讯时选择最佳的下一跳节点，并使得整个过程的往返时延最小，本发明将路径优化的过程看作是一个多阶段决策过程，并分为探索阶段和利用阶段这两个阶段。

附图说明

图1为探索阶段的流程图。

具体实施方式

为了本领域的技术人员能够更好地理解本发明所提供的技术方案，下面结合具体实施例进项阐述。

本案将可由以下的实施例说明而得到充分了解，使得熟悉本技艺之人士可以据以完成，然本案之实施例并非可由下列而被限制其实施形态。

图1为探索(Exploration)阶段的流程图，具体步骤为：

(1)、智能体收到n个兴趣包时，先查询转发信息表(Forwarding Information Base,FIB)，在FIB表中添加了一个新的属性-Q值，用于计算前缀-端口对，依据最长前缀匹配来获取候选端口列表，最后通过所有候选端口转发兴趣包。这里，将Q学习算法中加入具有启发知识的函数H:S×A→R来影响学习过程中智能体动作选择。其中，S为智能体代理(Agent)有状态集合，A为动作集合，启发式函数的在t时刻的动作选择规则如公式一所示：

(2)、与此同时，数据包也添加了两个属性：离开时间和最小Q值，智能体每收到一个数据包时，通过包中所携带的相关信息计算该端口相应数据流的Q值。该过程中，智能体会不断地收集周围环境的信息。其中，在t时刻Q值的计算公式如公式四所示：

式中，ω(t)是学习率，是智能体v到智能体i的时间，是从智能体v到智能体d端的最短时间。

(3)、智能体转发完N₁个兴趣包时，就结束当前的Exploration阶段，开始进入利用(Exploitation)阶段。

Exploitation阶段具体步骤为：

(4)、智能体转发兴趣包时，只依据概率选择转发最佳端口，概率的计算公式如下：

式中，为在端口j上前缀f的兴趣包的转发概率，为在端口j上前缀f的数据流的Q值，k为常量，k＞0。

(5)、当满足公式五的条件或是发送了N₂个兴趣包时，结束Exploitation阶段，重新开始进入Exploration阶段。

(6)、智能体Agent接收到m个数据包(Data包)时，根据包所携带的信息计算Q值。Q值的计算公式如公式四。与此同时也会更新FIB、Data包中的Q值。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于增强学习的信息中心网络兴趣包转发方法，包括探索阶段和利用阶段，其特征在于：具体步骤为：

步骤一、探索阶段的具体步骤为：

2.根据权利要求1所述的基于增强学习的信息中心网络兴趣包转发方法，其特征在于：步骤一中还在Q值的学习算法中加入具有启发知识的函数H:S×A→R来影响学习过程中智能体动作选择。

3.根据权利要求2所述的基于增强学习的信息中心网络兴趣包转发方法，其特征在于：设S为智能体代理有状态集合，A为动作集合，启发式函数的在t时刻的动作选择规则如公式一所示：

4.根据权利要求1所述的基于增强学习的信息中心网络兴趣包转发方法，其特征在于：所述转发信息表包括名字前缀、陈旧时间、端口号和Q值。

5.根据权利要求1所述的基于增强学习的信息中心网络兴趣包转发方法，其特征在于：数据表信息包括数据、元消息、数据内容、数据签名、离开时间和最小Q值。