CN115714741A

CN115714741A - 一种基于协同多智能体强化学习的路由决策方法及系统

Info

Publication number: CN115714741A
Application number: CN202211378137.1A
Authority: CN
Inventors: 周旭; 李琢; 宋俊平; 任勇毛; 覃毅芳
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-02-24

Abstract

本发明提供了一种基于协同多智能体强化学习的路由决策方法及系统，方法包括离线训练和在线决策两部分，离线训练通过采集域间路由中过去一段时间内的公共信息，包括域间链路信息和历史路由信息，然后使用协同多智能体强化学习进行离线的智能路由决策模型训练，并将训练好的模型下发到各个域中的控制模块。在线决策过程中，对于请求域间路由的流量需求，使用决策模型生成每一条流的端到端的域间路径，将端到端路径发送到域间中的各个控制模块，并将其拆分为不同域中的多个本地路径，所有本地路径构成一个端到端的域间路径。本发明在去中心化域间场景中进行有效的域间协作，实现端到端协同保障传递成功率的显著提高，从而提供端到端的通信服务保障。

Description

一种基于协同多智能体强化学习的路由决策方法及系统

技术领域

本发明属于网络通信技术领域，具体而言，本发明涉及一种基于协同多智能体强化学习的智能路由决策方法及系统。

背景技术

在互联网的跨域路由场景中，要解决跨域的数据传输问题，目前主要有基于传统网络协议的路由决策和基于集中式控制器的路由决策。传统的边界网关协议(BorderGateway Protocol，BGP)是最具代表性的域间路由协议，然而随着网络规模的不断增长和用户需求的多样化，以BGP为代表的基于传统网络协议的路由决策方法存在以下不足：

(1)BGP在路由选择过程中不考虑链路状态，当域间路由环境面临突发性事件时，很容易造成链路故障的持续传播，造成大规模的网络断线。

(2)BGP缺乏面向业务的诸如低时延之类的服务质量指标，无法保证跨域业务的端到端质量。

随着新型网络创新架构的出现，以软件定义网络(Software Defined Network，SDN)为代表的集中式管理架构通过集中化面板控制复杂网络拓扑中的网络流量，集中式控制器可以收集各自治域的所有信息使用最短路径算法计算域间路由，通过将域间信息进行抽象，将跨域的拓扑转换为虚拟拓扑，并使用抽象信息计算端到端的域间路径。然而基于集中式控制器的路由决策方法也存在着很大的局限性，固定的控制器策略导致网络一旦遇到突发性故障则会导致整个系统效率断崖式下降。此外基于SDN的域间路由策略更适用于域内路由，当遇到跨域路由场景时，集中式控制所带来的信令交互使网络处理效率降低、性能下降。

强化学习在解决路由优化问题中已得到很多研究，当单智能体强化学习应用到路由优化问题中，将每个路由器都看做一个独立的代理，各个路由器都理所应当的追求自身利益最大化，没有协同的单智能体强化学习无法满足域间路由环境中的跨域合作任务的需求，分布式的多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)成为破解难题的关键方法。

发明内容

本发明的目的在于针对上述现有跨域数据传输方法的不足，提出一种基于协同多智能体强化学习的智能路由决策方法及系统。

本发明将跨域路由决策过程建模为一个部分可观察马尔可夫过程决策过程(Partially Observable Markov Decision Process，POMDP)，然后对跨域路由环境进行学习，借助加装协同信息模块的多智能强化学习方法，使用历史路由数据中心化训练生成路由决策模型，最终达到在线对路由转发，实现去中心化路由决策的效果，将使最少跳数、传输时延和网络吞吐量的综合指标得到大幅度的提高。

本发明的本质是通过对互联网路由历史数据的挖掘来学习“隐式”的路由决策依据，以优化路由控制，基于机器学习的准确建模能力和快速推理能力来设计智能路由技术，从而实现较高的传输成功率和较小的传输延迟等用户多样化优化目标。

为实现上述目的，一方面，本发明提供了一种基于协同多智能体强化学习的智能路由决策方法，该方法应用在不同的自治域中进行互相通信或跨网传输，包括离线训练步骤和在线决策步骤；

所述离线训练步骤，通过采集域间路由中过去一段时间内的公共信息，包括域间链路信息和历史路由信息，然后使用协同多智能体强化学习进行离线的智能路由决策模型训练，并将训练好的模型下发到各个域中的控制模块；

所述线决策步骤，对于请求域间路由的流量需求，使用决策模型生成每一条流的端到端的域间路径，将端到端路径发送到域间中的各个控制模块，并将其拆分为不同域中的多个本地路径，所有本地路径构成一个端到端的域间路径。

另一方面，本发明提供了一种基于协同多智能体强化学习的智能路由决策系统，该系统包括离线训练模块和在线决策模块；

离线训练模块，用于通过采集域间路由中过去一段时间内的公共信息，包括域间链路信息和历史路由信息，然后使用协同多智能体强化学习进行离线的智能路由决策模型训练，并将训练好的模型下发到各个域中的控制模块；

在线决策模块，用于对于请求域间路由的流量需求，使用决策模型生成每一条流的端到端的域间路径，将端到端路径发送到域间中的各个控制模块，并将其拆分为不同域中的多个本地路径，所有本地路径构成一个端到端的域间路径。

本发明的有益效果是，在满足用户多样化传输需求的情况下，降低跨域传输所需的数据交换量和传输时延，并实现最佳的跨域路由决策。本发明还满足域间路由系统在面临部分链路突发中断和突发性请求等场景中的路由保障，强化学习所赋予的灵活学习机制能够应对广泛的传输任务需求，显著改善高时延和灵活性不足等问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所述跨域场景下协同路由总体架构示意图；

图2是本发明实施例提供的一种基于协同多智能体强化学习的智能路由决策方法的流程示意图；

图3是本发明所述离线训练中CMADDPG算法结构示意图；

图4是本发明实施例提供的一种基于协同多智能体强化学习的智能路由决策系统结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与效果。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

参照图1，本发明所述的一种基于协同多智能体强化学习的智能路由决策方法，具体实现步骤如下：

步骤一：跨域场景中的智能路由决策

在多个自治域(如图1中自治域1、自治域2和自治域3)互联互通的跨域环境中，域间路由旨在寻找将数据包从源节点发送到目的节点的一系列中间节点所组成的路径，本发明实施例的典型应用场景为跨域的路由业务，本发明实施例的目标旨在最大化利用现有的通信路径的同时最小化平均数据包交付时间，包括传输时延和排队时延。

步骤二：加装多智能体强化学习框架

在每个自治域中都维护一个智能体，在域间路由环境中维护多个智能体，定义智能体能够在所在的自治域中执行以下三项功能：

2.1感知域间路由环境中的网络状态、通信资源等动态条件；

2.2根据感知信息，求解路由问题，决定路由策略；

2.3执行路由动作，影响域间路由环境。

步骤三：多智能体强化学习建模

在域间路由环境中，智能体所在的自治域是有限的状态集合，所做出的路由动作是有限的路由转发动作集合，所观察到的其他自治域是有限的观测集合，因此将域间路由转发过程建模为一个多智能体框架下的POMDP，其中的定义如下：

3.1域间路由状态：定义为为缓冲区第一个数据包的目的地；

3.2域间路由动作：定义为域间路由转发路径；

3.3奖励函数：定义为域间路由的平均数据包交付时间的相反数，即交付时间越长，所得到的奖励越小；

3.4目标函数：最大化期望累积奖励

相应的智能体选择最大化期望累积奖励的行动。

其中奖励r_i ^t表示执行相应动作后的反馈值，用于衡量智能体i在时刻t所表现的好坏程度，参数γ^t∈[0,1]表示在时刻t的折扣因子，当γ^t＝0时，表示最大的预期即时奖励，当γ^t＝1时，表示最大化累计奖励的预期总和。

具体来讲，智能体在进行域间路由任务时，首先与域间路由环境进行交互，产生新的状态，同时环境给出奖励，如此循环下去，智能体和域间路由不断交互产生更多新的数据，再利用新的数据去修改自身的路由策略，经过数次迭代后，智能体就能得到完成端到端任务所需要的最佳路由策略。

步骤四：将各智能体的关系定义为完全合作关系(Full Cooperative Setting)，旨在合作去获取共同的回报，这代表着所有智能体的利益是一致的，具有相同的奖励和相同的回报，在策略学习下所有智能体都有一个共同目标函数，在所有智能体的目的是一致的前提下，改进自己的策略网络参数。其中的策略学习让各个智能体做策略梯度上升，使得目标函数不断增长，判断策略学习收敛的标准是当平均回报不再增长。

步骤五：在域间路由场景中，所有的路由动作皆为离散的控制转发操作，所有动作空间组成的是一个离散集合，分别对策略网络和价值网络进行训练，其中的策略网络和价值网络是强化学习模型训练的组成部分，分别是策略函数和价值函数的近似表示，策略网络是以参数化的深度神经网络为代表的动作策略，价值网络是以神经网络为代表的状态动作值函数。

常见的多智能体强化学习中，由于每个智能体只可观测到其所负责区域的网络状态，无法获得全局状态，尽管可以在各个智能体之间共享观察结果，但这需要在智能体之间通信，每个智能体才能把自己的观察结果传输给其他智能体，使得每个智能体都有全局的状态，然而通信造成的延时也让训练和决策的速度变得很慢。另外一种办法是对策略网络和价值函数做近似处理，但此时不完整的信息也容易造成训练不收敛。本发明实施例采用多智能体强化学习方法中的中心化训练和去中心化决策(Centralized Training andDecentralized Execution，CTDE)框架，介于完全中心化方法和完全去中心化方法之间。

进一步地，在CTDE框架下的算法可以根据训练与决策方式的不同分为基于演员-评论员(Actor-Critic)的算法与基于价值(Value Based)的算法，本方法采用基于演员-评论员的算法。

进一步地，参考图2和图3，上述步骤五的中心化训练和去中心化决策通过以下子步骤来实现：

5.1本发明实施例在多智能体深度确定性梯度策略梯度(Multi-Agent DeepDeterministic Policy Gradient,MADDPG)的基础上，在智能体的Critic与Actor部分引入了协同信息组织模块，设计强化学习算法(Collaborative Multi-Agent DeepDeterministic Policy Gradient,CMADDPG)。

所述的CMADDPG算法将Actor-Critic作为智能体的底层框架，对每个自治域中的智能体的Actor和Critic进行了设计，具体来讲，使用信息共享的方式在智能体的Critic与Actor部分引入了协同信息组织模块(Collaborative Information Module)，相对于其他基线算法，CMADDPG有着更快的收敛速度与决策能力。

5.2离线训练时采用中心化训练，使用全局路由状态信息作为训练数据，从而达到更好的训练效果，通过采集域间路由中过去一段时间内的公共信息，包括域间链路信息和历史路由信息，然后使用协同多智能体强化学习进行离线的智能路由决策模型训练，并将训练好的模型下发到各个域中的控制模块；

5.3在线决策时采用去中心化决策，不再使用全局路由状态信息，每个智能体根据自身的策略直接决策，达到去中心化路由转发的效果，具体来讲，在线决策过程中，对于请求域间路由的流量需求，使用决策模型生成每一条流的端到端的域间路径，将端到端路径发送到域间中的各个控制模块，并将其拆分为不同域中的多个本地路径，所有本地路径构成一个端到端的域间路径。

进一步地，参考图3，所述的CMADDPG算法流程如下：

(1)随机初始化N个智能体的Critic网络和Actor网络；

(2)在训练次数内，循环执行流程(3)(4)；

(3)初始化一个随机过程SP用于路由动作探索，并获取所有域间路由中智能体的初始观测O；

(4)在执行时间内，循环执行流程(5)(6)(7)(8)；

(5)对于每个智能体A_i，用当前的路由策略为转发任务生成转发路径，下发路由表，执行一个新的路由动作a；

(6)获得新的奖励r和观测值O′，与初始观测O和路由动作a一同放入经验回放池B中；

(7)从经验回放池B中随机采样一些数据，这些训练数据包括初始域间状态O，路由动作a，新的域间路由状态O′和执行动作后的奖励r；

(8)对于每个智能体，利用协同信息中心化训练各个智能体共享的Critic网络，训练自身的Actor网络，更新目标Actor网络和目标Critic网络。

步骤六：在线决策：

在完成离线训练后，不再需要中央控制器和价值网络，本发明将采用中心化训练去中心化执行的方式，智能体各有各的策略网络，在模型训练时设置中央控制器，中央控制器统一收集信息帮助智能体训练，训练结束后就由各自的策略网络作决策，不再需要中央控制器，只基于各智能体的局部观测与本地部署的策略网络来做出去中心化路由决策，决策过程无需通信，可以做到实时决策。相应地，本发明实施例提供了一种基于协同多智能体强化学习的智能路由决策系统，该系统包括离线训练模块410和在线决策模块420；

离线训练模块410，用于通过采集域间路由中过去一段时间内的公共信息，包括域间链路信息和历史路由信息，然后使用协同多智能体强化学习进行离线的智能路由决策模型训练，并将训练好的模型下发到各个域中的控制模块；

在线决策模块420，用于对于请求域间路由的流量需求，使用决策模型生成每一条流的端到端的域间路径，将端到端路径发送到域间中的各个控制模块，并将其拆分为不同域中的多个本地路径，所有本地路径构成一个端到端的域间路径。

本发明实施例的有益效果是，在满足用户多样化传输需求的情况下，降低跨域传输所需的数据交换量和传输时延，并实现最佳的跨域路由决策。本发明还满足域间路由系统在面临部分链路突发中断和突发性请求等场景中的路由保障，强化学习所赋予的灵活学习机制能够应对广泛的传输任务需求，显著改善高时延和灵活性不足等问题。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于协同多智能体强化学习的智能路由决策方法，该方法应用在不同的自治域中进行互相通信或跨网传输，其特征在于，包括离线训练步骤和在线决策步骤；

2.根据权利要求1所述的方法，其特征在于，在每个自治域中都维护一个智能体，在域间路由环境中维护多个智能体；智能体所在的自治域是有限的状态集合，所做出的路由动作是有限的路由转发动作集合，所观察到的其他自治域是有限的观测集合，因此将域间路由转发过程建模为一个多智能体框架下的部分可观察马尔可夫过程决策过程POMDP。

3.根据权利要求1所述的方法，其特征在于，定义智能体能够在所在的自治域中执行以下功能：

感知域间路由环境中的网络状态和通信资源；

根据感知信息，求解路由问题，决定路由策略；

执行路由动作，影响域间路由环境。

4.根据权利要求3所述的方法，其特征在于，智能体在进行域间路由任务时，首先与域间路由环境进行交互，产生新的状态，同时环境给出奖励，如此循环下去，智能体和域间路由环境不断交互产生更多新的数据，再利用新的数据去修改自身的路由策略，经过数次迭代后，智能体就能得到完成端到端任务所需要的最佳路由策略。

5.根据权利要求1所述的方法，其特征在于，将各智能体的关系定义为完全合作关系，旨在合作去获取共同的回报，这代表着所有智能体的利益是一致的，具有相同的奖励和相同的回报，在策略学习下所有智能体都有一个共同目标函数，在所有智能体的目的是一致的前提下，改进自己的策略网络参数；其中的策略学习让各个智能体做策略梯度上升，使得目标函数不断增长，判断策略学习收敛的标准是当平均回报不再增长。

6.根据权利要求1所述的方法，其特征在于，在域间路由场景中，所有的路由动作皆为离散的控制转发操作，所有动作空间组成的是一个离散集合，分别对策略网络和价值网络进行训练。

7.根据权利要求1所述的方法，其特征在于，采用多智能体强化学习方法中的中心化训练和去中心化决策CTDE框架，在CTDE框架下采用基于演员-评论员的算法；

在多智能体深度确定性梯度策略梯度MADDPG的基础上，在智能体的Critic与Actor部分引入了协同信息组织模块，设计强化学习算法CMADDPG；所述CMADDPG算法将Actor-Critic作为智能体的底层框架，对每个自治域中的智能体的Actor和Critic进行了设计；使用信息共享的方式在智能体的Critic与Actor部分引入了协同信息组织模块，相对于其他基线算法，CMADDPG有着更快的收敛速度与决策能力。

8.一种基于协同多智能体强化学习的智能路由决策系统，该系统包括离线训练模块和在线决策模块；

9.根据权利要求8所述的系统，其特征在于，在每个自治域中都维护一个智能体，在域间路由环境中维护多个智能体；智能体所在的自治域是有限的状态集合，所做出的路由动作是有限的路由转发动作集合，所观察到的其他自治域是有限的观测集合，因此将域间路由转发过程建模为一个多智能体框架下的部分可观察马尔可夫过程决策过程POMDP。

10.根据权利要求8所述的系统，其特征在于，采用多智能体强化学习方法中的中心化训练和去中心化决策CTDE框架，在CTDE框架下采用基于演员-评论员的算法；在多智能体深度确定性梯度策略梯度MADDPG的基础上，在智能体的Critic与Actor部分引入了协同信息组织模块，设计强化学习算法CMADDPG；所述CMADDPG算法将Actor-Critic作为智能体的底层框架，对每个自治域中的智能体的Actor和Critic进行了设计；使用信息共享的方式在智能体的Critic与Actor部分引入了协同信息组织模块，相对于其他基线算法，CMADDPG有着更快的收敛速度与决策能力。