CN104035889B

CN104035889B - 一种多态路由派生方法及系统

Info

Publication number: CN104035889B
Application number: CN201410272550.9A
Authority: CN
Inventors: 伊鹏; 胡宇翔; 王鹏; 申涓; 张岩; 于婧; 赵靓; 卜佑军
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2014-06-18
Filing date: 2014-06-18
Publication date: 2017-02-22
Anticipated expiration: 2034-06-18
Also published as: CN104035889A

Abstract

本申请公开了一种多态路由派生方法及系统，该方法包括：对路由服务需求进行规范和描述，得到路由服务需求描述，根据路由服务需求描述，建立马尔科夫决策过程模型，其中每个决策阶段对应多态路由派生过程中基本路由功能单元的选择决策，然后求解马尔科夫决策过程模型，得到多态路由派生策略，根据多态路由派生策略组合基本路由功能单元，得到多态路由协议。本申请的方法实现了对不同的路由服务需求按照不同的路由派生策略，提供不同的路由协议，满足了多样化业务对网路路由功能的要求。

Description

一种多态路由派生方法及系统

技术领域

本申请涉及计算机网络技术领域，更具体地说，涉及一种多态路由派生方法及系统。

背景技术

随着IP网络业务形态的不断丰富，业务对网络的需求也变得越来越多样化。而IP网络的服务能力却是有限和确定的，这就直接导致了业务需求与网络固有能力之间的差距日益扩大，最终将使得网络难以支持多样化的业务。同时，信息网络所依赖的基础互联传输和路由结构过于简单，且长期不变。大量实践已经证明，现有的信息基础网络路由结构难以满足多样化业务对网络的高等级需求。

因此，现有技术缺乏一种方案，来解决现有路由结构过于简单而造成的无法满足多样化业务的需求的问题。

发明内容

有鉴于此，本申请提供了一种多态路由派生方法及系统，用于解决现有的路由结构过于简单而造成的无法满足多样化业务需求的问题。

为了实现上述目的，现提出的方案如下：

一种多态路由派生方法，包括：

对路由服务需求进行规范和描述，得到路由服务需求描述；

根据所述路由服务需求描述，建立马尔科夫决策过程模型，其中每个决策阶段对应多态路由派生过程中基本路由功能单元的选择决策；

求解所述马尔科夫决策过程模型，得到多态路由派生策略；

根据所述多态路由派生策略组合基本路由功能单元，得到多态路由协议。

优选地，所述对路由服务需求进行规范和描述，得到路由服务需求描述，包括：

将路由服务需求划分为由安全服务描述、性能服务描述和功能服务描述组成的路由服务需求描述，其中：

所述安全服务描述包括安全等级和安全种类；

所述性能服务描述包括优先级要求、带宽要求、时延要求和丢包要求；

所述功能服务描述包括通信模式、路由类型、路由标识和通信主体。

优选地，所述根据所述路由服务需求描述，建立马尔科夫决策过程模型，包括：

定义系统状态：

系统状态s定义为路由基本功能单元类；

定义系统的状态空间：

路由基本功能单元类的集合构成系统的状态空间S＝{s₁，s₂，s₃…，s_m}；

定义系统的动作空间：

动作空间A(s)是当前状态所对应的路由基本功能单元类所有基本路由功能单元的集合；

定义转移概率：

定义匹配度，匹配度MD表示所选择的路由基本功能单元与路由服务描述的匹配程度，转移概率为所选择的路由基本功能单元的匹配度与当前状态所对应的类中所有基本路由功能单元的匹配度总和之比，在系统所处的状态为s_n，转移概率p(s_n+1|s_n,a)表示执行动作a(s_n)到达状态s_n+1的概率；

定义奖赏函数：

奖赏函数r(s,a)表示在状态s时执行动作a获得的奖励，奖赏函数r(s,a)定义为:

r(s，a)＝ω₁·f_s(s，a)+ω₂·f_p(s，a)+ω₃·f_o(s，a)，其中f_s(s,a)、f_p(s,a)和f_o(s,a)分别表示安全利益函数、性能利益函数和功能利益函数，w₁、w₂和w₃分别表示权重因子。

优选地，所述求解所述马尔科夫决策过程模型，得到多态路由派生策略，包括：

使用增强学习方法求解所述马尔科夫决策过程模型，得到多态路由派生策略。

优选地，所述增强学习方法为：

步骤S1、初始化Q学习矩阵；

步骤S2、设置学习周期；

步骤S3、设置初始状态s₀和终止状态s_r；

步骤S4、基于贪婪策略，从动作空间A(s)中选择并执行相应的动作a(s)；

步骤S5、根据Q矩阵的定义更新Q矩阵；

步骤S6、更新当前状态，判断当前状态是否为终止状态s_r，如果是，执行步骤S7，否则执行步骤S4；

步骤S7、判断是否达到设定的学习周期数，如果达到，则执行步骤S8，否则执行步骤S3；

步骤S8、输出多态路由派生策略。

一种多态路由派生系统，包括：

规范描述单元，用于对路由服务需求进行规范和描述，得到路由服务需求描述；

模型建立单元，用于根据所述路由服务需求描述，建立马尔科夫决策过程模型，其中每个决策阶段对应多态路由派生过程中基本路由功能单元的选择决策；

模型求解单元，用于求解所述马尔科夫决策过程模型，得到多态路由派生策略；

组合单元，用于根据所述多态路由派生策略组合基本路由功能单元，得到多态路由协议。

优选地，所述规范描述单元包括划分单元，用于将路由服务需求划分为由安全服务描述、性能服务描述和功能服务描述组成的路由服务需求描述，其中：

所述安全服务描述包括安全等级和安全种类；

优选地，所述模型建立单元包括：

系统状态定义单元，用于定义系统状态，系统状态s定义为路由基本功能单元类；

状态空间定义单元，用于定义系统的状态空间：路由基本功能单元类的集合构成系统的状态空间S＝{s₁，s₂，s₃…，s_m}；

动作空间定义单元，用于定义系统的动作空间：动作空间A(s)是当前状态所对应的路由基本功能单元类所有基本路由功能单元的集合；

转移概率定义单元，用于定义转移概率：定义匹配度，匹配度MD表示所选择的路由基本功能单元与路由服务描述的匹配程度，转移概率为所选择的路由基本功能单元的匹配度与当前状态所对应的类中所有基本路由功能单元的匹配度总和之比，在系统所处的状态为s_n，转移概率p(s_n+1|s_n,a)表示执行动作a(s_n)到达状态s_n+1的概率；

奖赏函数定义单元，用于定义奖赏函数：奖赏函数r(s,a)表示在状态s时执行动作a获得的奖励，奖赏函数r(s,a)定义为:

r(s，a0＝ω₁·f_s(s，a)+ω₂·f_p(s，a)+ω₃·f_o(s，a)，其中f_s(s,a)、f_p(s,a)和f_o(s,a)分别表示安全利益函数、性能利益函数和功能利益函数，w₁、w₂和w₃分别表示权重因子。

优选地，所述模型求解单元包括：

增强学习子单元，用于使用增强学习方法求解所述马尔科夫决策过程模型，得到多态路由派生策略。

优选地，所述增强学习子单元包括：

初始化单元，用于初始化Q学习矩阵；

第一设置单元，用于设置学习周期；

第二设置单元，用于设置初始化状态s₀和终止状态s_r；

动作执行单元，用于基于贪婪策略，从动作空间A(s)中选择并执行相应的动作a(s)；

Q矩阵更新单元，用于根据Q矩阵的定义更新Q矩阵；

状态更新单元，用于更新当前状态，并判断当前状态是否为终止状态s_r，在判断结果为非终止状态时，返回所述动作执行单元；

学习周期判断单元，用于在所述状态更新单元判断当前状态为终止状态时，判断是否达到设定的学习周期数，在判断结果为未达到设定的学习周期数时，返回所述第二设置单元；

输出单元，用于在所述学习周期判断单元判断达到设定的学习周期数时，输出多态路由派生策略。

从上述的技术方案可以看出，本申请公开的多态路由派生方法，通过对路由服务需求进行规范和描述，得到路由服务需求描述，根据路由服务需求描述，建立马尔科夫决策过程模型，其中每个决策阶段对应多态路由派生过程中基本路由功能单元的选择决策，然后求解马尔科夫决策过程模型，得到多态路由派生策略，根据多态路由派生策略组合基本路由功能单元，得到多态路由协议。本申请的方法实现了对不同的路由服务需求按照不同的路由派生策略，提供不同的路由协议，满足了多样化业务对网路路由功能的要求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例公开的多态路由派生模型示意图；

图2为本申请实施例公开的一种多态路由派生方法流程图；

图3为本申请实施例公开的一种多态路由服务需求描述过程示意图；

图4为本申请实施例公开的一种利用增强学习方法求解马尔科夫决策过程模型的方法流程图；

图5为本申请实施例公开的一种多态路由派生系统结构示意图；

图6为本申请实施例公开的一种规范描述单元的结构示意图；

图7为本申请实施例公开的一种模型建立单元的结构示意图；

图8为本申请实施例公开的一种模型求解单元的结构示意图；

图9为本申请实施例公开的一种增强学习子单元的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本申请提供了一种多态路由派生方案。参照图1所示，图1为本申请实施例公开的多态路由派生模型示意图。

如图1所示，基态路由是路由基本功能单元的库，通过本申请提供的多态路由派生方法，通过对不同路由基本功能单元的组合，可以派生出IPv4路由协议、IPv6路由协议、以内容为标识的路由协议、以服务为标识的路由协议以及其他的满足业务需求的多态路由协议。当然，图1中只给出了几种常见的多态路由协议实例，对于业务新的需求或未来出现新的地址标识也可以用本方法进行派生。

参见图2，图2为本申请实施例公开的一种多态路由派生方法流程图。

如图2所示，该方法包括：

步骤101：对路由服务需求进行规范和描述，得到路由服务需求描述；

具体的，由于多态路由的派生是由路由服务需求触发的，因此，在本申请的实现过程中，要首先对多态路由的服务需求进行规范和描述。本申请提供了一种多态路由服务需求的描述方法，具体描述过程如图3所示：

路由服务需求描述分为安全服务描述、性能服务描述和功能服务描述。

安全服务描述包括安全等级SL和安全种类C。

性能服务描述包括优先级要求Q，带宽要求B、时延要求D和丢包要求L。

功能服务描述包括通信模式M、路由类型T、路由标识I、通信主体H。

步骤102：根据所述路由服务需求描述，建立马尔科夫决策过程模型，其中每个决策阶段对应多态路由派生过程中基本路由功能单元的选择决策；

具体的，据马尔科夫决策过程的定义，多态路由的派生过程可以自然地分为几个决策阶段，每个决策阶段对应多态派生过程中基本路由功能单元的选择决策，也就是要做出选择哪一个基本路由功能单元的决定。

步骤103：求解所述马尔科夫决策过程模型，得到多态路由派生策略；

经过上一步骤的模型建立，我们再对建立的模型进行求解，得到多态路由派生策略，即给出不同的基本路由功能单元的组合方式。

步骤104：根据所述多态路由派生策略组合基本路由功能单元，得到多态路由协议。

不同的基本路由功能单元按照一定的方式进行组合后，可以实现不同状态的路由协议，为不同的路由服务需求提供对应的路由协议。

本申请实施例公开的多态路由派生方法，通过对路由服务需求进行规范和描述，得到路由服务需求描述，根据路由服务需求描述，建立马尔科夫决策过程模型，其中每个决策阶段对应多态路由派生过程中基本路由功能单元的选择决策，然后求解马尔科夫决策过程模型，得到多态路由派生策略，根据多态路由派生策略组合基本路由功能单元，得到多态路由协议。本申请的方法实现了对不同的路由服务需求按照不同的路由派生策略，提供不同的路由协议，满足了多样化业务对网路路由功能的要求。

其中，建立马尔科夫决策过程模型的过程可以参见下文：

定义系统状态：

系统状态s定义为路由基本功能单元类。

定义系统的状态空间：

路由基本功能单元类的集合构成系统的状态空间S＝{s₁，s₂，s₃…，s_m}。

定义系统的动作空间：

动作空间A(s)是当前状态所对应的路由基本功能单元类所有基本路由功能单元的集合。

策略π代表当前状态到动作的映射，也就是在当前状态执行哪一个动作。

定义转移概率：

首先，定义匹配度。在多态派生的过程中，在同一类路由基本功能单元中，存在多个不同等级的路由基本功能单元，并不是每个路由基本功能单元都是满足应用要求的最优或近似最优选择，匹配度MD表示所选择的路由基本功能单元与路由服务描述的匹配程度，匹配度越高，说明所选择的路由基本功能单元越能满足应用需求。基于匹配度的定义，转移概率可以定义所选择的路由基本功能单元的匹配度与当前状态所对应的类中所有基本路由功能单元的匹配度总和之比，在系统所处的状态为s_n，转移概率p(s_n+1|s_n,a)表示执行动作a(s_n)到达状态s_n+1的概率。马尔科夫决策过程中转移概率的定义必须具有马尔科夫链的特性，即到达某一状态的转移概率仅仅与当前状态和所执行的动作有关，而与历史状态无关。转移概率的定义使得马尔科夫决策过程可以模拟和推理非确定性的动作。

定义奖赏函数：

奖赏函数r(s,a)表示在状态s时执行动作a获得的奖励。在多态路由的派生模型中，多态路由的派生是由路由服务需求描述触发的，因此，派生模型奖赏函数的定义也基于业务的路由服务需求描述。奖赏函数r(s,a)定义为:

r(s，a)＝ω₁·f_s(s，a)+ω₂·f_p(s，a)+ω₃·f_o(s，a)，其中f_s(s,a)、f_p(s,a)和f_o(s,a)分别表示安全利益函数、性能利益函数和功能利益函数，w₁、w₂和w₃分别表示权重因子。可以根据需要调整三个利益函数在奖赏函数中所占的比重。

对多态路由派生过程进行马尔科夫建模后，接下来就是模型的求解过程，即计算得到路由功能组合策略，最后形成满足需求的多态路由协议。我们可以选择使用增强学习(Q-learning)方法来进行模型的求解。

在增强学习中，决策的目标是学习一个最优的策略使得期望得到的奖赏值最大化，这一过程是一个不断试错的过程。具体流程如图4所示：

步骤S1、初始化Q学习矩阵；

步骤S2、设置学习周期；

步骤S3、设置初始状态s₀和终止状态s_r；

步骤S5、根据Q矩阵的定义更新Q矩阵；

步骤S8、输出多态路由派生策略。

下面对本申请实施例提供的多态路由派生系统进行描述，下文描述的多态路由派生系统与上文描述的多态路由派生方法可相互对应参照。

参见图5，图5为本申请实施例公开的一种多态路由派生系统结构示意图。

如图5所示，该系统包括：

规范描述单元51，用于对路由服务需求进行规范和描述，得到路由服务需求描述；

模型建立单元52，用于根据所述路由服务需求描述，建立马尔科夫决策过程模型，其中每个决策阶段对应多态路由派生过程中基本路由功能单元的选择决策；

模型求解单元53，用于求解所述马尔科夫决策过程模型，得到多态路由派生策略；

组合单元54，用于根据所述多态路由派生策略组合基本路由功能单元，得到多态路由协议。

可选的，图6示出了本申请实施例提供的规范描述单元的一种可选结构，如图6所示，规范描述单元51包括：划分单元511，用于将路由服务需求划分为由安全服务描述、性能服务描述和功能服务描述组成的路由服务需求描述，其中：

所述安全服务描述包括安全等级和安全种类；

可选的，图7示出了本申请实施例提供的模型建立单元的一种可选结构，如图7所示，模型建立单元52包括：

系统状态定义单元521，用于定义系统状态，系统状态s定义为路由基本功能单元类；

状态空间定义单元522，用于定义系统的状态空间：路由基本功能单元类的集合构成系统的状态空间S＝{s₁，s₂，s₃…，s_m}；

动作空间定义单元523，用于定义系统的动作空间：动作空间A(s)是当前状态所对应的路由基本功能单元类所有基本路由功能单元的集合；

转移概率定义单元524，用于定义转移概率：首先，定义匹配度，匹配度MD表示所选择的路由基本功能单元与路由服务描述的匹配程度，转移概率为所选择的路由基本功能单元的匹配度与当前状态所对应的类中所有基本路由功能单元的匹配度总和之比，在系统所处的状态为s_n，转移概率p(s_n+1|s_n,a)表示执行动作a(s_n)到达状态s_n+1的概率；

奖赏函数定义单元525，用于定义奖赏函数：奖赏函数r(s,a)表示在状态s时执行动作a获得的奖励，奖赏函数r(s,a)定义为:

可选的，图8示出了本申请实施例提供的模型求解单元的一种可选结构，如图8所示，模型求解单元53包括：增强学习子单元531，用于使用增强学习方法求解所述马尔科夫决策过程模型，得到多态路由派生策略。

进一步的，如图9所示，所述增强学习子单元531包括：

初始化单元91，用于初始化Q学习矩阵；

第一设置单元92，用于设置学习周期；

第二设置单元93，用于设置初始化状态s₀和终止状态s_r；

动作执行单元94，用于基于贪婪策略，从动作空间A(s)中选择并执行相应的动作a(s)；

矩阵更新单元95，用于根据Q矩阵的定义：

更新Q矩阵；

状态更新单元96，用于更新当前状态，并判断当前状态是否为终止状态s_r，在判断结果为非终止状态时，返回所述动作执行单元94；

学习周期判断单元97，用于在所述状态更新单元96判断当前状态为终止状态时，判断是否达到设定的学习周期数，在判断结果为未达到设定的学习周期数时，返回所述第二设置单元93；

输出单元98，用于在所述学习周期判断单元97判断达到设定的学习周期数时，输出多态路由派生策略。

上述各个单元的工作流程可以参见相关方法部分的描述，在此不再赘述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多态路由派生方法，其特征在于，包括：

对路由服务需求进行规范和描述，得到路由服务需求描述；

求解所述马尔科夫决策过程模型，得到多态路由派生策略；

根据所述多态路由派生策略组合基本路由功能单元，得到多态路由协议；

所述根据所述路由服务需求描述，建立马尔科夫决策过程模型，包括：

定义系统状态：

系统状态s定义为路由基本功能单元类；

定义系统的状态空间：

路由基本功能单元类的集合构成系统的状态空间S＝{s₁，s₂，s₃...，s_m}；

定义系统的动作空间：

定义转移概率：

定义奖赏函数：

r(s，a)＝ω₁·f_s(s，a)+ω₂·f_p(s，a)+ω₃·f_o(s，a)，其中f_s(s,a)、f_p(s,a)和f_o(s,a)分别表示安全利益函数、性能利益函数和功能利益函数，w₁、w₂和w₃分别表示权重因子；

所述求解所述马尔科夫决策过程模型，得到多态路由派生策略，包括：

使用增强学习方法求解所述马尔科夫决策过程模型，得到多态路由派生策略；

所述增强学习方法为：

步骤S1、初始化Q学习矩阵；

步骤S2、设置学习周期；

步骤S3、设置初始状态s₀和终止状态s_r；

步骤S5、根据Q矩阵的定义更新Q矩阵；

步骤S8、输出多态路由派生策略。

2.根据权利要求1所述的多态路由派生方法，其特征在于，所述对路由服务需求进行规范和描述，得到路由服务需求描述，包括：

所述安全服务描述包括安全等级和安全种类；

3.一种多态路由派生系统，其特征在于，包括：

组合单元，用于根据所述多态路由派生策略组合基本路由功能单元，得到多态路由协议；

所述模型建立单元包括：

状态空间定义单元，用于定义系统的状态空间：路由基本功能单元类的集合构成系统的状态空间S＝{s₁，s₂，s₃...，s_m}；

所述模型求解单元包括：

增强学习子单元，用于使用增强学习方法求解所述马尔科夫决策过程模型，得到多态路由派生策略；

所述增强学习子单元包括：

初始化单元，用于初始化Q学习矩阵；

第一设置单元，用于设置学习周期；

第二设置单元，用于设置初始化状态s₀和终止状态s_r；

Q矩阵更新单元，用于根据Q矩阵的定义更新Q矩阵；

4.根据权利要求3所述的多态路由派生系统，其特征在于，所述规范描述单元包括划分单元，用于将路由服务需求划分为由安全服务描述、性能服务描述和功能服务描述组成的路由服务需求描述，其中：

所述安全服务描述包括安全等级和安全种类；