CN111083051B

CN111083051B - 一种基于多智能体的路径规划方法、装置及电子设备

Info

Publication number: CN111083051B
Application number: CN201911328182.4A
Authority: CN
Inventors: 谢坤; 黄小红; 马严; 王唯读
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-12-25
Anticipated expiration: 2039-12-20
Also published as: CN111083051A

Abstract

本发明提供了一种基于多智能体的路径规划方法、装置及电子设备，该方法包括：首先计算各个业务服务的第i+1次训练的权重信息，然后经过多个计算过程得到所有业务服务的第i+1次训练的质量综合值；在所有业务服务的前i+1次训练的连续多个质量综合值中至少一个质量综合值小于预设质量综合值时，更新得到各个业务服务第i+1次训练得到的行动网络模型。在所有业务服务的前i+1次训练的连续多个质量综合值均大于或等于预设质量综合值时，采用该第i次训练得到的各个业务服务的行动网络模型，规划各个对应的业务服务的路径。从而可以实现综合考虑多个业务服务的服务质量要求，规划出满足所有业务服务的全局最优路径。

Description

一种基于多智能体的路径规划方法、装置及电子设备

技术领域

本发明涉及通信技术领域，特别是涉及一种基于多智能体的路径规划方法、装置及电子设备。

背景技术

随着互联网技术的发展，各种各样的业务服务层出不穷，从而为用户提供了丰富多彩的体验。为了提高用户体验，网络提供商或应用提供商会在多个方面对业务服务的过程进行优化，例如，在网络环境、路由路径等方面进行优化。

影响服务质量的因素通常包括网络带宽、网络时延、网络抖动以及网络丢包率等。目前在进行路径规划时，针对不同的业务服务时，通常会侧重不同的服务质量指标，采用不同的路径规划方式进行优化计算。例如，对于游戏应用，由于对网络时延具有较高要求，因此，规划出的路径为时延最小的路径，对于视频应用而言，由于对网络带宽具有较高的要求，因此，规划出的路径往往是网络带宽最大的路径。

在实际的互联网络中，多类业务服务往往同时存在。现有的路径规划技术，多数不考虑业务类型，其中考虑业务类型的，多采用串行方式，即在为一类业务服务规划出最佳路径后，再处理其他类型。串行方式下，优先处理的业务服务很可能会对次优先的业务服务的路径规划带来影响，使得后者规划出的路径较差，从而降低用户对这些业务服务的使用体验。也就是说，此类方法规划出的路径往往是各个业务服务的局部最优路径，并不能得到满足所有业务服务的全局最优路径。

发明内容

本发明实施例的目的在于提供一种基于多智能体的路径规划方法、装置及电子设备，以实现综合考虑多个业务服务的服务质量要求，规划出满足所有业务服务的全局最优路径。具体技术方案如下：

第一方面，本发明实施例提供了一种基于多智能体的路径规划方法，该方法包括：

将待规划路径的网络拓扑中的历史网络信息以及各个业务服务第i+1次训练的历史服务信息，输入至各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练的权重信息，其中，第i+1次训练的历史服务信息包括：各个业务服务第i+1次训练的历史服务矩阵，历史服务矩阵为：每个业务服务在网络拓扑中每两个节点之间的数据流数量，历史网络信息包括：历史网络带宽、历史网络时延、历史网络抖动和/或历史网络丢包率，每个业务服务对应的第i+1次训练的权重信息包括该业务服务的带宽权重以及与该业务服务对应的网络拓扑中每两个节点之间的链路权重，i大于或等于0，当i＝0时，第i次训练得到的各个业务服务对应的行动网络模型为预设行动网络模型；

基于各个业务服务对应的第i+1次训练的权重信息，确定各个业务服务第i+1次训练的带宽信息和第i+1次训练的最短路径；

将各个业务服务第i+1次训练的带宽信息以及各个业务服务对应的第i+1次训练的最短路径输入试验网络拓扑，得到各个业务服务对应的第i+1次训练的服务质量值；

将各个业务服务对应的第i+1次训练的服务质量值，输入至预设转换模型，得到各个业务服务对应的第i+1次训练的体验质量值，其中，转换模型用于将服务质量值转换为体验质量值，转换模型为采用多个业务服务的服务质量值样本和对应的体验质量值样本，对预设的转换模型进行训练得到的；

将各个业务服务对应的第i+1次训练的体验质量值、第i+1次训练的历史服务信息、第i+1次训练的权重信息、以及第i次训练的权重信息作为第i+1次训练的四元数组存储到各个业务服务对应的经验回放池中，其中，经验回放池中还存储有前i次训练使用的四元数组；

获取预先设置的各个业务服务的质量权值，并基于预先设置的各个业务服务的质量权值和各个业务服务对应的第i+1次训练的体验质量值，计算所有业务服务的第i+1次训练的质量综合值；

在所有业务服务的前i+1次训练的连续多个质量综合值中至少一个质量综合值小于预设质量综合值时，从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练得到的行动网络模型；

将各个业务服务对应的第i+1次训练得到的行动网络模型作为对应的第i次训练得到的行动网络模型，并执行将待规划路径的网络拓扑中的历史网络信息以及各个业务服务在网络拓扑中的历史服务信息，输入至各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练的权重信息的步骤；

在所有业务服务的前i+1次训练的连续多个质量综合值均大于或等于预设质量综合值时，将第i次训练得到的各个业务服务对应的行动网络模型作为各个业务服务对应的训练完成的行动网络模型；

将待规划路径的网络拓扑中当前网络信息和各个业务服务的当前服务信息，输入各个业务服务对应的训练完成的行动网络模型，得到各个业务服务对应的当前路径。

可选的，历史服务信息还包括：无法识别业务服务的数据流。

可选的，各个业务服务在网络拓扑中的历史服务信息，还包括：除该业务服务之外的其他业务服务在第i次训练时的权重信息。

可选的，基于各个业务服务对应的第i+1次训练的权重信息，确定各个业务服务第i+1次训练的带宽信息和第i+1次训练的最短路径，包括：

基于各个业务服务第i+1次训练的带宽权重以及各个业务服务的预设最大带宽，确定各个业务服务第i+1次训练的带宽信息；

基于各个业务服务对应的第i+1次训练的链路权重信息，采用路由路径算法，确定各个业务服务对应的第i+1次训练的最短路径。

可选的，所述预设转换模型为采用多个所述业务服务的服务质量值样本和对应的体验质量值样本，对预设的转换模型进行训练得到的。

可选的，行动网络模型包括：在线行动网络模型和离线行动网络模型；

从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练得到的行动网络模型，包括：

从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新各个业务服务对应的第i次训练得到的在线行动网络模型，得到各个业务服务对应的第i+1次训练得到的在线行动网络模型；

获取各个业务服务对应第i次训练得到的离线行动网络模型的第一参数和各个业务服务对应第i+1次训练得到的在线行动网络模型的第二参数；

基于第一参数和第二参数以及预设平衡因子τ，通过以下公式：

计算各个业务服务对应第i+1次训练得到的离线行动网络模型的参数；其中，

为第n个业务服务对应第i+1次训练得到的离线行动网络模型的参数，

为第n个业务服务对应第i+1次训练得到的在线行动网络模型的参数，

为第n个业务服务对应第i次训练得到的离线行动网络模型的参数；

将各个业务服务对应第i+1次训练得到的离线行动网络模型的参数，添加至对应的第i+1次训练得到的离线行动网络模型，得到各个业务服务对应第i+1次训练得到的离线行动网络模型；

将第i次训练得到的各个业务服务对应的行动网络模型作为各个业务服务对应的训练完成的行动网络模型，包括：

将第i次训练得到的各个业务服务对应的离线行动网络模型作为各个业务服务对应的训练完成的行动网络模型。

可选的，在从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练得到的行动网络模型之前，该方法还包括：

获取预设最大迭代次数，判断i+1是否大于预设最大迭代次数；

当i+1小于或等于预设最大迭代次数；则执行从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练得到的行动网络模型的步骤；

否则，执行将第i次训练得到的各个业务服务对应的行动网络模型作为各个业务服务对应的训练完成的行动网络模型的步骤。

第二方面，本发明实施例还提供了一种基于多智能体的路径规划装置，该装置包括：

权重信息计算模块，用于将待规划路径的网络拓扑中的历史网络信息以及各个业务服务第i+1次训练的历史服务信息，输入至各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练的权重信息，其中，第i+1次训练的历史服务信息包括：各个业务服务第i+1次训练的历史服务矩阵，历史服务矩阵为：每个业务服务在网络拓扑中每两个节点之间的数据流数量，历史网络信息包括：历史网络带宽、历史网络时延、历史网络抖动和/或历史网络丢包率，每个业务服务对应的第i+1次训练的权重信息包括该业务服务的带宽权重以及与该业务服务对应的网络拓扑中每两个节点之间的链路权重，i大于或等于0，当i＝0时，第i次训练得到的各个业务服务对应的行动网络模型为预设行动网络模型；

带宽及路径计算模块，用于基于各个业务服务对应的第i+1次训练的权重信息，确定各个业务服务第i+1次训练的带宽信息和第i+1次训练的最短路径；

服务质量值计算模块，用于将各个业务服务第i+1次训练的带宽信息以及各个业务服务对应的第i+1次训练的最短路径输入试验网络拓扑，得到各个业务服务对应的第i+1次训练的服务质量值；

体验质量值计算模块，用于将各个业务服务第i+1次训练的服务质量值输入至预设转换模型，得到各个业务服务对应的第i+1次训练的体验质量值，其中，预设转换模型用于将服务质量值转换为体验质量值；

放回模块，用于将各个业务服务对应的第i+1次训练的体验质量值、第i+1次训练的历史服务信息、第i+1次训练的权重信息、以及第i次训练的权重信息作为第i+1次训练的四元数组存储到各个业务服务对应的经验回放池中，其中，经验回放池中还存储有前i次训练使用的四元数组；

质量综合值计算模块，用于获取预先设置的各个业务服务的质量权值，并基于预先设置的各个业务服务的质量权值和各个业务服务对应的第i+1次训练的体验质量值，计算所有业务服务的第i+1次训练的质量综合值；

更新模块，用于在所有业务服务的前i+1次训练的连续多个质量综合值中至少一个质量综合值小于预设质量综合值时，从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练得到的行动网络模型；

迭代模块，用于将各个业务服务对应的第i+1次训练得到的行动网络模型作为对应的第i次训练得到的行动网络模型，并触发权重信息计算模块；

路径规划模型获取模块，用于在所有业务服务的前i+1次训练的连续多个质量综合值均大于或等于预设质量综合值时，将第i次训练得到的各个业务服务对应的行动网络模型作为各个业务服务对应的训练完成的行动网络模型；

路径规划模块，用于将待规划路径的网络拓扑中当前网络信息和各个业务服务的当前服务信息，输入各个业务服务对应的训练完成的行动网络模型，得到各个业务服务对应的当前路径。

可选的，带宽及路径计算模块，具体用于：

可选的，行动网络模型包括：在线行动网络模型和离线行动网络模型；更新模块，包括：

在线行动网络模块更新子模块，用于从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新各个业务服务对应的第i次训练得到的在线行动网络模型，得到各个业务服务对应的第i+1次训练得到的在线行动网络模型；

参数获取子模块，用于获取各个业务服务对应第i次训练得到的离线行动网络模型的第一参数和各个业务服务对应第i+1次训练得到的在线行动网络模型的第二参数；

离线行动网络模型参数计算子模块，用于基于第一参数和第二参数以及预设平衡因子τ，通过以下公式：

离线行动网络模型更新子模块，用于将各个业务服务对应第i+1次训练得到的离线行动网络模型的参数，添加至对应的第i+1次训练得到的离线行动网络模型，得到各个业务服务对应第i+1次训练得到的离线行动网络模型；

迭代模块，具体用于：

可选的，该装置还包括：

迭代次数判断模块，用于获取预设最大迭代次数，判断i+1是否大于预设最大迭代次数；当i+1小于或等于预设最大迭代次数；触发更新模块；否则触发路径规划模块获取模块。

第三方面，本发明实施例还提供了一种电子设备，包括处理器和机器可读存储介质，机器可读存储介质存储有能够被处理器执行的机器可执行指令，处理器被机器可执行指令促使：实现上述第一方面提供的一种基于多智能体的路径规划方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时，实现上述第一方面提供的一种基于多智能体的路径规划方法的步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面提供的一种基于多智能体的路径规划方法的步骤。

第六方面，本发明实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面提供的一种基于多智能体的路径规划方法的步骤。

本发明实施例提供的一种基于多智能体的路径规划方法、装置及电子设备，通过将待规划路径的网络拓扑中的历史网络信息以及各个业务服务的历史服务信息，输入至各个业务服务对应的行动网络模型，得到各个业务服务对应的权重信息，然后基于各个业务服务对应的权重信息，确定对应的带宽信息和最短路径；在得到各个业务服务对应的带宽信息和最短路径后，可以将各个业务服务对应的带宽信息和最短路径输入试验网络拓扑，得到各个业务服务对应的服务质量值；在得到各个业务服务的服务质量值后，可以将各个服务业务的服务质量值输入至预设转换模型，得到各个业务服务的体验质量值；然后可以将各个业务服务对应的体验质量值、历史服务信息、权重信息存储到各个业务服务对应的经验回放池中；再基于预先设置的各个业务服务的质量权值和各个业务服务对应的体验质量值，计算所有业务服务的质量综合值，这样，可以在所有业务服务的前i+1次训练的连续多个质量综合值中至少一个质量综合值小于预设质量综合值时，从经验回放池中获取个业务服务对应的体验质量值、历史服务信息、权重信息；更新各个业务服务对应的行动网络模型，并对更新后的行动网络模型重复执行将待规划路径的网络拓扑中的历史网络信息以及各个业务服务在网络拓扑中的历史服务信息，输入至各个业务服务行动网络模型，得到各个业务服务对应的权重信息的步骤；在所有业务服务的前i+1次训练的连续多个质量综合值均大于或等于预设质量综合值时，将第i次训练得到的各个业务服务对应的行动网络模型作为各个业务服务对应的训练完成的行动网络模型；将待规划路径的网络拓扑中当前网络信息和各个业务服务的当前服务信息，输入各个业务服务对应的训练完成的行动网络模型，得到各个业务服务对应的当前路径。

这样，可以使用从经验回放池中获取各个业务服务对应的服务质量值、历史服务信息、权重信息，同时对所有业务服务对应的行动网络模型进行训练，使得在训练过程中，各个行动网络模型的参数更新能够相互约束，所以，训练完成的行动网络模型是近似全局最优的网络模型，然后基于该近似全局最优的网络模型进行路径规划时，规划出的路径是满足所有业务服务的近似全局最优路径。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种基于多智能体的路径规划方法第一种实施方式的流程图；

图2为本发明实施例的一种基于多智能体的路径规划方法训练过程中的网络模型系统结构图；

图3为本发明实施例的一种基于多智能体的路径规划方法第二种实施方式的流程图；

图4为本发明实施例的一种基于多智能体的路径规划装置的结构示意图；

图5为本发明实施例的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术存在的问题，本发明实施例提供了一种基于多智能体的路径规划方法、装置及电子设备，以实现综合考虑多个业务服务的服务质量要求，规划出满足所有业务服务的全局最优路径。

下面，首先对本发明实施例的一种基于多智能体的路径规划方法进行介绍，如图1所示，为本发明实施例的一种多智能体的路径规划方法第一种实施方式的流程图，该方法可以包括：

S101，将待规划路径的网络拓扑中的历史网络信息以及各个业务服务第i+1次训练的历史服务信息，输入至各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练的权重信息。

其中，第i+1次训练的历史服务信息包括：各个业务服务第i+1次训练的历史服务矩阵，历史服务矩阵为：每个业务服务在网络拓扑中每两个节点之间的数据流数量，历史网络信息包括：历史网络带宽、历史网络时延、历史网络抖动和/或历史网络丢包率，每个业务服务对应的第i+1次训练的权重信息包括该业务服务的带宽权重以及与该业务服务对应的网络拓扑中每两个节点之间的链路权重，i大于或等于0，当i＝0时，第i次训练得到的各个业务服务对应的行动网络模型为预设行动网络模型。

在一些示例中，在采用本发明实施例的一种基于多智能体的路径规划方法为多个业务服务规划路径时，可以首先训练得到一个训练完成的路径规划模型。该训练完成的路径规划模型可以是训练完成的行动网络模型。

在又一些示例中，该方法可以应用于一个网络拓扑中，该网络拓扑中可以包括多个使用不同业务服务的用户节点和提供不同业务服务的服务节点。

在又一些示例中，在第一次对该路径规划模型进行训练时，上述的各个业务服务第i+1次训练的历史服务信息为预先设置的历史服务信息，该历史服务信息可以为0。第i次训练得到的各个业务服务对应的行动网络模型为预设行动网络模型，该预设行动网络模型中的参数可以是随机设置的参数。

这样，可以使得该各个业务服务对应的第i次训练得到的行动网络模型，基于待规划路径的网络拓扑中的历史网络信息以及各个业务服务第i+1次训练的历史服务信息，输出各个业务服务对应的第i+1次训练的权重信息。

在又一些示例中，该权重信息为一个浮点型数组，该权重信息中的每个元素的值介于0～1之间。该权重信息中的第一个元素表示带宽权重，该权重信息中的其他元素用于表示该网络拓扑中每两个节点之间的权重值。

在又一些示例中，在实际的网络拓扑中，可能存在无法识别业务服务的数据流。为了使得训练得到的路径规划模型能够更接近实际应用，上述的历史服务信息还可以包括无法识别业务服务的数据流。每个数据流表示一个用户节点与服务节点之间的数据传输带宽。

在又一些示例中，为了使得对一个业务服务的路径规划模型进行训练的过程中，能够借鉴其他业务服务所采取的行动，这里，该业务服务第i+1次训练的历史服务信息还可以包括除该业务服务之外的其他业务服务在第i次训练时的权重信息。

S102，基于各个业务服务对应的第i+1次训练的权重信息，确定各个业务服务第i+1次训练的带宽信息和第i+1次训练的最短路径。

在得到各个业务服务对应的第i+1次训练的权重信息后，可以基于各个业务服务对应的第i+1次训练的权重信息，确定各个业务服务第i+1次训练的带宽信息和第i+1次训练的最短路径。

在一些示例中，可以基于各个业务服务第i+1次训练的带宽权重以及各个业务服务的预设最大带宽，确定各个业务服务第i+1次训练的带宽信息；

在又一些示例中，可以将每个业务服务的第i+1次训练的带宽权重与该业务服务的预设最大带宽相乘，得到该业务服务第i+1次训练的带宽值。

可以基于各个业务服务对应的第i+1次训练的链路权重信息，采用路由路径算法，确定各个业务服务对应的第i+1次训练的最短路径。该路由路径算法可以是Dijkstra算法。

在又一些示例中，可以对每个业务服务对应的第i+1次训练的链路权重信息进行归一化，然后采用归一化后的链路权重信息，确定该业务服务对应的第i+1次训练的最短路径。例如可以采用softmax算法进行归一化。

S103，将各个业务服务第i+1次训练的带宽信息以及各个业务服务对应的第i+1次训练的最短路径输入试验网络拓扑，得到各个业务服务对应的第i+1次训练的服务质量值。

在得到各个业务服务第i+1次训练的带宽信息和第i+1次训练的最短路径后，为了量化该第i+1次训练的带宽信息和第i+1次训练的最短路径，可以将该各个业务服务第i+1次训练的带宽信息以及各个业务服务对应的第i+1次训练的最短路径输入试验网络拓扑。

该试验网络拓扑可以基于各个业务服务第i+1次训练的带宽信息和第i+1次训练的最短路径，模拟业务服务在实际网络拓扑中的执行过程，从而输出各个业务服务对应的第i+1次训练的服务质量值。该服务质量值可以用于评价各个业务服务的好坏。

S104，将各个业务服务对应的第i+1次训练的服务质量值，输入至预设转换模型，得到各个业务服务对应的第i+1次训练的体验质量值。

其中，该预设转换模型用于将服务质量值转换为体验质量值。

在一些示例中，在通过步骤S103得到第i+1次训练的服务质量值后，该服务质量值可以用于表征评价各个业务服务的好坏，也即，该服务质量值可以反映业务服务提供方服务的好坏，但是并不能反映出用户对各个业务服务的评价，对此，可以将得到的各个业务服务对应的第i+1次训练的服务质量值，输入至预设转换模型中，该预设转换模型是采用多个业务服务的服务质量值样本和对应的体验质量值样本，对预设的转换模型进行训练得到的，可以用于将服务质量值转换为体验质量值。然后再基于预先设置的各个业务服务的质量权值和各个业务服务对应的第i+1次训练的体验质量值，计算所有业务服务的第i+1次训练的质量综合值。

在一些示例中，该预设转换模型为采用多个业务服务的服务质量值样本和对应的体验质量值样本，对预设的转换模型进行训练得到的；

在又一些示例中，该预设转换模型也可以是采用转换公式进行转换计算的公式，例如，可以是通过服务质量值计算体验质量值的公式。

这样，可以从用户体验的角度来评价各个业务服务第i+1次训练的带宽信息以及各个业务服务对应的第i+1次训练的最短路径，在上述的试验网络拓扑中的运行情况。从而使得采用训练完成的行动网络模型规划出的路径，可以更好的符合用户体验，从而可以提高用户体验度。

S105，将各个业务服务对应的第i+1次训练的体验质量值、第i+1次训练的历史服务信息、第i+1次训练的权重信息、以及第i次训练的权重信息作为第i+1次训练的四元数组存储到各个业务服务对应的经验回放池中。

其中，经验回放池中还存储有前i次训练使用的四元数组。

在得到各个业务服务对应的第i+1次训练的体验质量值后，为了使得在对路径规划模型进行第i+1次训练时，能够使用到第i+1次之前的前i次训练过程中的数据，可以将将各个业务服务对应的第i+1次训练的体验质量值、第i+1次训练的历史服务信息、第i+1次训练的权重信息、以及第i次训练的权重信息作为第i+1次训练的四元数组存储到各个业务服务对应的经验回放池中。

S106，获取预先设置的各个业务服务的质量权值，并基于预先设置的各个业务服务的质量权值和各个业务服务对应的第i+1次训练的体验质量值，计算所有业务服务的第i+1次训练的质量综合值。

S107，判断所有业务服务的前i+1次训练的连续多个质量综合值是否均大于或等于预设质量综合值。如果是，执行步骤S110，如果否，执行步骤S108；

S108，从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练得到的行动网络模型。

S109，将各个业务服务对应的第i+1次训练得到的行动网络模型作为对应的第i次训练得到的行动网络模型，并执行步骤S101。

S110，将第i次训练得到的各个业务服务对应的行动网络模型作为各个业务服务对应的训练完成的行动网络模型。

S111，将待规划路径的网络拓扑中当前网络信息和各个业务服务的当前服务信息，输入各个业务服务对应的训练完成的行动网络模型，得到各个业务服务对应的当前路径。

在又一些示例中，在得到各个业务服务对应的第i+1次训练的服务质量值后，为了确定第i次训练得到的行动网络模型是否可以作为路径规划模型，可以基于预先设置的各个业务服务的质量权值和各个业务服务对应的第i+1次训练的服务质量值，计算所有业务服务的第i+1次训练的质量综合值。然后可以基于该第i+1次训练的质量综合值，来确定第i次训练得到的行动网络模型是否可以作为路径规划模型。

具体的，可以将第i+1次训练的质量综合值与预设质量综合值进行对比，如果所有业务服务的第i+1次训练的质量综合值小于预设质量综合值，则说明该第i次训练得到的行动网络模型不能作为最终实际使用的路径规划模型，对此，可以从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练得到的行动网络模型，在更新完成后，为了判断该更新后的第i+1次训练得到的行动网络模型是否可以作为最终训练完成的行动网络模型，也即是否可以作为路径规划模型，可以将将各个业务服务对应的第i+1次训练得到的行动网络模型作为对应的第i次训练得到的行动网络模型，并执行步骤S101。

如果所有业务服务的第i+1次训练的质量综合值大于或等于预设质量综合值，且第i+1次训练前的连续若干次训练所得到的质量综合值均大于或等于预设质量综合值，则可以说明该第i次训练得到的行动网络模型可以作为最终实际使用的路径规划模型，则可以将待规划路径的网络拓扑中当前网络信息和各个业务服务的当前服务信息，输入各个业务服务对应的训练完成的行动网络模型。每个业务服务对应的训练完成的行动网络模型，可以基于该业务服务的当前服务信息以及网络拓扑中的当前网络信息，输出该业务服务对应的当前路径。

在又一些示例中，在实际训练过程中，该训练过程可能会陷入无限循环，为了避免实际训练过程过多，可以预先设置一个最大训练次数，也即最大迭代次数。

在所有业务服务的第i+1次训练的质量综合值小于预设质量综合值，可以先判断该i+1是否大于预设最大迭代次数；如果不大于，则可以从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练得到的行动网络模型的步骤；

当该i+1大于预设最大迭代次数时，则可以说明训练次数过多，可以停止训练，此时，可以将第i次训练得到的各个业务服务对应的行动网络模型作为各个业务服务对应的训练完成的行动网络模型，然后执行步骤S110。

本发明实施例提供的一种基于多智能体的路径规划方法，通过将待规划路径的网络拓扑中的历史网络信息以及各个业务服务的历史服务信息，输入至各个业务服务对应的行动网络模型，得到各个业务服务对应的权重信息，然后基于各个业务服务对应的权重信息，确定对应的带宽信息和最短路径；在得到各个业务服务对应的带宽信息和最短路径后，可以将各个业务服务对应的带宽信息和最短路径输入试验网络拓扑，得到各个业务服务对应的服务质量值；在得到各个业务服务的服务质量值后，可以将各个服务业务的服务质量值输入至预设转换模型，得到各个业务服务的体验质量值；然后可以将各个业务服务对应的体验质量值、历史服务信息、权重信息存储到各个业务服务对应的经验回放池中；再基于预先设置的各个业务服务的质量权值和各个业务服务对应的体验质量值，计算所有业务服务的质量综合值，这样，可以在所有业务服务的前i+1次训练的连续多个质量综合值中至少一个质量综合值小于预设质量综合值时，从经验回放池中获取个业务服务对应的体验质量值、历史服务信息、权重信息；更新各个业务服务对应的行动网络模型，并对更新后的行动网络模型重复执行将待规划路径的网络拓扑中的历史网络信息以及各个业务服务在网络拓扑中的历史服务信息，输入至各个业务服务行动网络模型，得到各个业务服务对应的权重信息的步骤；在所有业务服务的前i+1次训练的连续多个质量综合值均大于或等于预设质量综合值时时，将第i次训练得到的各个业务服务对应的行动网络模型作为各个业务服务对应的训练完成的行动网络模型；将待规划路径的网络拓扑中当前网络信息和各个业务服务的当前服务信息，输入各个业务服务对应的训练完成的行动网络模型，得到各个业务服务对应的当前路径。

这样，可以使用从经验回放池中获取个业务服务对应的体验质量值、历史服务信息、权重信息，同时对所有业务服务对应的行动网络模型进行训练，使得在训练过程中，各个行动网络模型的参数更新能够相互约束，所以，训练完成的行动网络模型是近似全局最优的网络模型，然后基于该近似全局最优的网络模型进行路径规划时，规划出的路径是满足所有业务服务的近似全局最优路径。

在又一些示例中，由于在训练过程中，最新的历史网络信息和最新历史服务信息对模型的训练结果影响比较大，为了减少最新的历史网络信息和最新历史服务信息对模型训练结果的影响，这里可以设置两个行动网络模型，也即在线行动网络模型和离线行动网络模型；

则从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组后，可以基于该多个四元数组，更新各个业务服务对应的第i次训练得到的在线行动网络模型，得到各个业务服务对应的第i+1次训练得到的在线行动网络模型；

然后采用各个业务服务对应第i次训练得到的离线行动网络模型的第一参数和各个业务服务对应第i+1次训练得到的在线行动网络模型的第二参数，通过以下公式：

为第n个业务服务对应第i次训练得到的离线行动网络模型的参数，τ为预设平衡因子；

在又一些示例中，在所有业务服务的前i+1次训练的连续多个质量综合值均大于或等于所述预设质量综合值时，可以将第i次训练得到的各个业务服务对应的离线行动网络模型作为各个业务服务对应的训练完成的行动网络模型，然后采用该各个业务服务对应的训练完成的行动网络模型为对应的业务服务规划路径。

这样，可以使得各个业务服务对应第i+1次训练得到的离线行动网络模型的参数，是各个业务服务对应第i次训练得到的离线行动网络模型的参数和各个业务服务对应第i+1次训练得到的在线行动网络模型的参数的综合，可以一定程度上减少最新的历史网络信息和最新历史服务信息对模型的训练结果影响。

为了更清楚的说明本发明实施例，这里结合图2和图3对本发明实施例的一种基于多智能体的路径规划方法进行介绍，如图2所示，为本发明实施例的一种基于多智能体的路径规划方法训练过程中的网络模型结构图；该网络模型系统可以包括：一个评价网络模型、多个智能体、一个试验网络拓扑以及一个转换模型；其中，每个智能体包括一个在线行动网络模型和一个离线行动网络模型以及一个经验回放池。每个待规划路径的业务服务对应一个行动网络模型、一个离线行动网络模型和一个经验回放池；图3为本发明实施例的一种基于多智能体的路径规划方法第二种实施方式的流程图。

在进行训练前，可以执行步骤S301～S302，以便做好训练前的准备工作。

S301，读取待规划路径的网络拓扑中的历史网络信息和各个待规划路径的业务服务；

S302，设置最大迭代次数、初次迭代次数为i＝0以及预设质量综合值，并初始化各个业务服务对应的智能体以及第一次迭代时的历史服务信息；

在执行完S302后，可以开始训练。具体的，在第一次训练时，各个业务服务第1次训练的历史服务信息可以是第一次迭代时的历史服务信息。然后，可以将待规划路径的网络拓扑中的历史网络信息以及各个业务服务第1次训练的历史服务信息，输入至初始化的各个业务服务对应的智能体中的在线行动网络模型，得到各个业务服务对应的第1次训练的权重信息，然后基于各个业务服务对应的第1次训练的权重信息，确定各个业务服务的第1次训练的带宽信息和第1次训练的最短路径。然后将各个业务服务的第1次训练的带宽信息以及各个业务服务对应的第1次训练的最短路径输入试验网络拓扑，得到各个业务服务对应的第1次训练的服务质量值。

再将各个业务服务对应的第1次训练的服务质量值、第1次训练的历史服务信息、第1次训练的权重信息、以及初始设置的权重信息作为第1次训练的四元数组存储到各个业务服务对应的经验回放池中。其中，该初始设置的权重信息为0。

继而，可以将各个业务服务对应的第1次训练的服务质量值，输入至预设转换模型，得到各个业务服务对应的第1次训练的体验质量值，基于预先设置的各个业务服务的质量权值和各个业务服务对应的第1次训练的体验质量值，计算所有业务服务的第1次训练的质量综合值，再判断判断所有业务服务的第1次训练的质量综合值是否小于预设质量综合值。

如果是，则可以从经验回放池中获取第1次训练的四元数组中获取多个四元数组；更新各个业务服务对应的初始化的在线行动网络模型，得到各个业务服务对应的第1次训练得到的在线行动网络模型。

然后可以获取各个业务服务对应初始化的离线行动网络模型的参数，并基于各个业务服务对应的初始化的离线行动网络模型的参数和各个业务服务对应的第1次训练得到的在线行动网络模型的参数，计算各个业务服务对应的第1次训练得到的离线行动网络模型的参数。

将各个业务服务对应的第1次训练得到的在线行动网络模型作为对应的初始化的在线行动网络模型，也即执行对加1，以使得可以进行迭代训练。

当i不等于0时，也即当不是第一次训练时，可以从步骤S303开始执行；

S303，获取待规划路径的网络拓扑中的历史网络信息以及各个业务服务第i次训练的历史服务信息；

S304，将待规划路径的网络拓扑中的历史网络信息以及各个业务服务第i+1次训练的历史服务信息，输入至各个业务服务对应的智能体中的第i次训练得到的在线行动网络模型，得到各个业务服务对应的第i+1次训练的权重信息；

S305，基于各个业务服务对应的第i+1次训练的权重信息，确定各个业务服务的第i+1次训练的带宽信息和第i+1次训练的最短路径；

S306，将各个业务服务的第i+1次训练的带宽信息以及各个业务服务对应的第i+1次训练的最短路径输入试验网络拓扑，得到各个业务服务对应的第i+1次训练的服务质量值；

S307，将各个业务服务对应的第i+1次训练的服务质量值，输入至预先训练得到的转换模型，得到各个业务服务对应的第i+1次训练的体验质量值；

S308，将各个业务服务对应的第i+1次训练的体验质量值、第i+1次训练的历史服务信息、第i+1次训练的权重信息、以及第i次训练的权重信息作为第i+1次训练的四元数组存储到各个业务服务对应的经验回放池中；

S309，获取预先设置的各个业务服务的质量权值，并基于预先设置的各个业务服务的质量权值和各个业务服务对应的第i+1次训练的体验质量值，计算所有业务服务的第i+1次训练的质量综合值；

在一些示例中，步骤S308与步骤S309可以同时执行，也可以不同时执行，这里不做限制。

在通过步骤S309得到所有业务服务的第i+1次训练的质量综合值后，可以执行步骤S310，以判断是否可以将第i次训练得到的离线行动网络模型作为训练完成的行动网络模型并用于进行路径规划。

S310，判断所有业务服务的前i+1次训练的连续多个质量综合值是否均大于或等于预设质量综合值；如果是，则执行步骤S315，如果否，则执行步骤S311。

S311，判断i+1是否大于最大迭代次数，如果是，则执行步骤S315，否则执行步骤S315。

S312，从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组，基于该多个四元数组，更新各个业务服务对应的第i次训练得到的在线行动网络模型，得到各个业务服务对应的第i+1次训练得到的在线行动网络模型；

S313，获取各个业务服务对应的第i次训练得到的离线行动网络模型的参数，并基于各个业务服务对应的第i次训练得到的离线行动网络模型的参数和各个业务服务对应的第i+1次训练得到的在线行动网络模型的参数，计算各个业务服务对应的第i+1次训练得到的离线行动网络模型的参数；

S314，将各个业务服务对应的第i+1次训练得到的在线行动网络模型作为对应的第i次训练得到的在线行动网络模型，并返回执行步骤S303；

当所有业务服务的前i+1次训练的连续多个质量综合值中至少一个质量综合值小于预设质量综合值时，则可以说明不能将第i次训练得到的离线行动网络模型作为训练完成的行动网络模型。然而，为了避免训练过程陷入无限循环，则可以执行步骤S311，也即判断判断i+1是否大于最大迭代次数。当i+1小于或等于最大迭代次数，则说明迭代次数还比较少，则可以继续执行步骤S312～S313。以便通过后续步骤继续进行判断。

当i+1大于最大迭代次数时，则说明迭代循环的次数比较多，可能陷入了无限循环，则可以执行步骤S315，将第i次训练得到的各个业务服务对应的离线行动网络模型作为各个业务服务对应的训练完成的行动网络模型。

当所有业务服务的前i+1次训练的连续多个质量综合值均大于或等于预设质量综合值时，则可以说明可以将第i次训练得到的离线行动网络模型作为训练完成的离线行动网络模型，因此，可以执行步骤S315。得到训练完成的行动网络模型，然后可以执行步骤S316，对各个业务服务进行路径规划。

可见，通过本发明实施例，可以使用从经验回放池中获取个业务服务对应的服务质量值、历史服务信息、权重信息，同时对所有业务服务对应的行动网络模型进行训练，使得在训练过程中，各个行动网络模型的参数更新能够相互约束，所以，训练完成的行动网络模型是近似全局最优的网络模型，然后基于该近似全局最优的网络模型进行路径规划时，规划出的路径是满足所有业务服务的近似全局最优路径。

相应于上述的方法实施例，本发明实施例还提供了一种基于多智能体的路径规划装置，如图4所示，该装置可以包括：

权重信息计算模块401，用于将待规划路径的网络拓扑中的历史网络信息以及各个业务服务第i+1次训练的历史服务信息，输入至各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练的权重信息，其中，第i+1次训练的历史服务信息包括：各个业务服务第i+1次训练的历史服务矩阵，历史服务矩阵为：每个业务服务在网络拓扑中每两个节点之间的数据流数量，历史网络信息包括：历史网络带宽、历史网络时延、历史网络抖动和/或历史网络丢包率，每个业务服务对应的第i+1次训练的权重信息包括该业务服务的带宽权重以及与该业务服务对应的网络拓扑中每两个节点之间的链路权重，i大于或等于0，当i＝0时，第i次训练得到的各个业务服务对应的行动网络模型为预设行动网络模型；

带宽及路径计算模块402，用于基于各个业务服务对应的第i+1次训练的权重信息，确定各个业务服务第i+1次训练的带宽信息和第i+1次训练的最短路径；

服务质量值计算模块403，用于将各个业务服务第i+1次训练的带宽信息以及各个业务服务对应的第i+1次训练的最短路径输入试验网络拓扑，得到各个业务服务对应的第i+1次训练的服务质量值；

体验质量值计算模块404，用于将各个业务服务第i+1次训练的服务质量值输入至预设转换模型，得到各个业务服务对应的第i+1次训练的体验质量值，其中，预设转换模型用于将服务质量值转换为体验质量值；

放回模块405，用于将各个业务服务对应的第i+1次训练的体验质量值、第i+1次训练的历史服务信息、第i+1次训练的权重信息、以及第i次训练的权重信息作为第i+1次训练的四元数组存储到各个业务服务对应的经验回放池中，其中，经验回放池中还存储有前i次训练使用的四元数组；

质量综合值计算模块406，用于获取预先设置的各个业务服务的质量权值，并基于预先设置的各个业务服务的质量权值和各个业务服务对应的第i+1次训练的体验质量值，计算所有业务服务的第i+1次训练的质量综合值；

更新模块407，用于在所有业务服务的前i+1次训练的连续多个质量综合值中至少一个质量综合值小于预设质量综合值时，从经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新各个业务服务对应的第i次训练得到的行动网络模型，得到各个业务服务对应的第i+1次训练得到的行动网络模型；

迭代模块408，用于将各个业务服务对应的第i+1次训练得到的行动网络模型作为对应的第i次训练得到的行动网络模型，并触发权重信息计算模块；

路径规划模型获取模块409，用于在所有业务服务的前i+1次训练的连续多个质量综合值均大于或等于预设质量综合值时，将第i次训练得到的各个业务服务对应的行动网络模型作为各个业务服务对应的训练完成的行动网络模型；

路径规划模块410，用于将待规划路径的网络拓扑中当前网络信息和各个业务服务的当前服务信息，输入各个业务服务对应的训练完成的行动网络模型，得到各个业务服务对应的当前路径。

本发明实施例提供的一种基于多智能体的路径规划装置，通过将待规划路径的网络拓扑中的历史网络信息以及各个业务服务的历史服务信息，输入至各个业务服务对应的行动网络模型，得到各个业务服务对应的权重信息，然后基于各个业务服务对应的权重信息，确定对应的带宽信息和最短路径；在得到各个业务服务对应的带宽信息和最短路径后，可以将各个业务服务对应的带宽信息和最短路径输入试验网络拓扑，得到各个业务服务对应的服务质量值；在得到各个业务服务的服务质量值后，可以将各个服务业务的服务质量值输入至预设转换模型，得到各个业务服务的体验质量值；然后可以将各个业务服务对应的体验质量值、历史服务信息、权重信息存储到各个业务服务对应的经验回放池中；再基于预先设置的各个业务服务的质量权值和各个业务服务对应的体验质量值，计算所有业务服务的质量综合值，这样，可以在所有业务服务的前i+1次训练的连续多个质量综合值中至少一个质量综合值小于预设质量综合值时，从经验回放池中获取个业务服务对应的体验质量值、历史服务信息、权重信息；更新各个业务服务对应的行动网络模型，并对更新后的行动网络模型重复执行将待规划路径的网络拓扑中的历史网络信息以及各个业务服务在网络拓扑中的历史服务信息，输入至各个业务服务行动网络模型，得到各个业务服务对应的权重信息的步骤；在所有业务服务的前i+1次训练的连续多个质量综合值均大于或等于预设质量综合值时，将第i次训练得到的各个业务服务对应的行动网络模型作为各个业务服务对应的训练完成的行动网络模型；将待规划路径的网络拓扑中当前网络信息和各个业务服务的当前服务信息，输入各个业务服务对应的训练完成的行动网络模型，得到各个业务服务对应的当前路径。

这样，可以使用从经验回放池中获取各个业务服务对应的服务质量值、历史服务信息、权重信息，同时对所有业务服务对应的行动网络模型进行训练，使得在训练过程中，各个行动网络模型的参数更新能够相互约束，所以，训练完成的行动网络模型是近似全局最优的网络模型，然后基于该近似全局最优的网络模型进行路径规划时，规划出的路径是满足所有业务服务的近似全局最优路径。

在一些示例中，历史服务信息还包括：无法识别业务服务的数据流。

在又一些示例中，各个业务服务在网络拓扑中的历史服务信息，还包括：除该业务服务之外的其他业务服务在第i次训练时的权重信息。

在一些示例中，带宽及路径计算模块402，具体用于：

质量综合值计算模块406，具体用于

获取预先设置的各个业务服务的质量权值，并基于预先设置的各个业务服务的质量权值和各个业务服务对应的第i+1次训练的体验质量值，计算所有业务服务的第i+1次训练的质量综合值。

在一些示例中，所述预设转换模型为采用多个所述业务服务的服务质量值样本和对应的体验质量值样本，对预设的转换模型进行训练得到的。

在一些示例中，行动网络模型包括：在线行动网络模型和离线行动网络模型；更新模块407，包括：

迭代模块408，具体用于：

在一些示例中，该装置还包括：

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

将各个业务服务对应的第i+1次训练的服务质量值，输入至预设转换模型，得到各个业务服务对应的第i+1次训练的体验质量值，其中，预设转换模型用于将服务质量值转换为体验质量值；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例所述的基于多智能体的路径规划方法的步骤。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一实施例所述的基于多智能体的路径规划方法的步骤。

本发明实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述任一实施例所述的基于多智能体的路径规划方法的步骤。

本发明实施例提供的一种电子设备、计算机可读存储介质、包含指令的计算机程序产品以及计算机程序，通过将待规划路径的网络拓扑中的历史网络信息以及各个业务服务的历史服务信息，输入至各个业务服务对应的行动网络模型，得到各个业务服务对应的权重信息，然后基于各个业务服务对应的权重信息，确定对应的带宽信息和最短路径；在得到各个业务服务对应的带宽信息和最短路径后，可以将各个业务服务对应的带宽信息和最短路径输入试验网络拓扑，得到各个业务服务对应的服务质量值；在得到各个业务服务的服务质量值后，可以将各个服务业务的服务质量值输入至预设转换模型，得到各个业务服务的体验质量值；然后可以将各个业务服务对应的体验质量值、历史服务信息、权重信息存储到各个业务服务对应的经验回放池中；再基于预先设置的各个业务服务的质量权值和各个业务服务对应的体验质量值，计算所有业务服务的质量综合值，这样，可以在所有业务服务的前i+1次训练的连续多个质量综合值中至少一个质量综合值小于预设质量综合值时，从经验回放池中获取个业务服务对应的体验质量值、历史服务信息、权重信息；更新各个业务服务对应的行动网络模型，并对更新后的行动网络模型重复执行将待规划路径的网络拓扑中的历史网络信息以及各个业务服务在网络拓扑中的历史服务信息，输入至各个业务服务行动网络模型，得到各个业务服务对应的权重信息的步骤；在所有业务服务的前i+1次训练的连续多个质量综合值均大于或等于预设质量综合值时，将第i次训练得到的各个业务服务对应的行动网络模型作为各个业务服务对应的训练完成的行动网络模型；将待规划路径的网络拓扑中当前网络信息和各个业务服务的当前服务信息，输入各个业务服务对应的训练完成的行动网络模型，得到各个业务服务对应的当前路径。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备等实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于多智能体的路径规划方法，其特征在于，所述方法包括：

将待规划路径的网络拓扑中的历史网络信息以及各个业务服务第i+1次训练的历史服务信息，输入至各个所述业务服务对应的第i次训练得到的行动网络模型，得到各个所述业务服务对应的第i+1次训练的权重信息，其中，所述第i+1次训练的历史服务信息包括：各个所述业务服务第i+1次训练的历史服务矩阵，所述历史服务矩阵为：每个业务服务在所述网络拓扑中每两个节点之间的数据流数量，所述历史网络信息包括：历史网络带宽、历史网络时延、历史网络抖动和/或历史网络丢包率，每个所述业务服务对应的第i+1次训练的权重信息包括该业务服务的带宽权重以及与该业务服务对应的所述网络拓扑中每两个节点之间的链路权重，所述i大于或等于0，当所述i＝0时，所述第i次训练得到的各个所述业务服务对应的行动网络模型为预设行动网络模型；

基于所述各个所述业务服务对应的第i+1次训练的权重信息，确定各个所述业务服务第i+1次训练的带宽信息和第i+1次训练的最短路径；

将所述各个所述业务服务第i+1次训练的带宽信息以及所述各个所述业务服务对应的第i+1次训练的最短路径输入试验网络拓扑，得到各个所述业务服务对应的第i+1次训练的服务质量值；

将各个所述业务服务对应的第i+1次训练的服务质量值，输入至预设转换模型，得到各个所述业务服务对应的第i+1次训练的体验质量值，其中，所述预设转换模型用于将服务质量值转换为体验质量值；

将各个所述业务服务对应的第i+1次训练的体验质量值、第i+1次训练的历史服务信息、第i+1次训练的权重信息、以及第i次训练的权重信息作为第i+1次训练的四元数组存储到各个所述业务服务对应的经验回放池中，其中，所述经验回放池中还存储有前i次训练使用的四元数组；

获取预先设置的各个所述业务服务的质量权值，并基于所述预先设置的各个所述业务服务的质量权值和各个所述业务服务对应的第i+1次训练的体验质量值，计算所有业务服务的第i+1次训练的质量综合值；

在所述所有业务服务的前i+1次训练的连续多个质量综合值中至少一个质量综合值小于预设质量综合值时，从所述经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新所述各个所述业务服务对应的第i次训练得到的行动网络模型，得到各个所述业务服务对应的第i+1次训练得到的行动网络模型；

将所述各个所述业务服务对应的第i+1次训练得到的行动网络模型作为对应的第i次训练得到的行动网络模型，并执行所述将待规划路径的网络拓扑中的历史网络信息以及各个所述业务服务在所述网络拓扑中的历史服务信息，输入至各个所述业务服务对应的第i次训练得到的行动网络模型，得到各个所述业务服务对应的第i+1次训练的权重信息的步骤；

在所述所有业务服务的前i+1次训练的连续多个质量综合值均大于或等于所述预设质量综合值时，将所述第i次训练得到的各个所述业务服务对应的行动网络模型作为各个所述业务服务对应的训练完成的行动网络模型；

将所述待规划路径的网络拓扑中当前网络信息和各个所述业务服务的当前服务信息，输入各个所述业务服务对应的训练完成的行动网络模型，得到各个所述业务服务对应的当前路径。

2.根据权利要求1所述的方法，其特征在于，所述历史服务信息还包括：无法识别业务服务的数据流。

3.根据权利要求2所述的方法，其特征在于，所述各个所述业务服务在所述网络拓扑中的历史服务信息，还包括：除该业务服务之外的其他业务服务在第i次训练时的权重信息。

4.根据权利要求3所述的方法，其特征在于，所述基于所述各个所述业务服务对应的第i+1次训练的权重信息，确定各个所述业务服务第i+1次训练的带宽信息和第i+1次训练的最短路径，包括：

基于各个所述业务服务第i+1次训练的带宽权重以及各个所述业务服务的预设最大带宽，确定各个所述业务服务第i+1次训练的带宽信息；

基于各个所述业务服务对应的第i+1次训练的链路权重信息，采用路由路径算法，确定各个业务服务对应的第i+1次训练的最短路径。

5.根据权利要求4所述的方法，其特征在于，所述预设转换模型为采用多个所述业务服务的服务质量值样本和对应的体验质量值样本，对预设的转换模型进行训练得到的。

6.根据权利要求5所述的方法，其特征在于，所述行动网络模型包括：在线行动网络模型和离线行动网络模型；

所述从所述经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新所述各个所述业务服务对应的第i次训练得到的行动网络模型，得到各个所述业务服务对应的第i+1次训练得到的行动网络模型，包括：

从所述经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新所述各个所述业务服务对应的第i次训练得到的在线行动网络模型，得到各个所述业务服务对应的第i+1次训练得到的在线行动网络模型；

获取各个所述业务服务对应第i次训练得到的离线行动网络模型的第一参数和各个所述业务服务对应第i+1次训练得到的在线行动网络模型的第二参数；

基于所述第一参数和第二参数以及预设平衡因子τ，通过以下公式：

计算各个所述业务服务对应第i+1次训练得到的离线行动网络模型的参数；其中，所述

为第n个业务服务对应第i+1次训练得到的离线行动网络模型的参数，所述

为第n个业务服务对应第i+1次训练得到的在线行动网络模型的参数，所述

将所述各个所述业务服务对应第i+1次训练得到的离线行动网络模型的参数，添加至对应的第i+1次训练得到的离线行动网络模型，得到各个所述业务服务对应第i+1次训练得到的离线行动网络模型；

所述将所述第i次训练得到的各个所述业务服务对应的行动网络模型作为各个所述业务服务对应的训练完成的行动网络模型，包括：

将所述第i次训练得到的各个所述业务服务对应的离线行动网络模型作为各个所述业务服务对应的训练完成的行动网络模型。

7.根据权利要求1所述的方法，其特征在于，在所述从所述经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新所述各个所述业务服务对应的第i次训练得到的行动网络模型，得到各个所述业务服务对应的第i+1次训练得到的行动网络模型之前，所述方法还包括：

获取预设最大迭代次数，判断所述i+1是否大于所述预设最大迭代次数；

当所述i+1小于或等于所述预设最大迭代次数；则执行所述从所述经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新所述各个所述业务服务对应的第i次训练得到的行动网络模型，得到各个所述业务服务对应的第i+1次训练得到的行动网络模型的步骤；

否则，执行所述将所述第i次训练得到的各个所述业务服务对应的行动网络模型作为各个所述业务服务对应的训练完成的行动网络模型的步骤。

8.一种基于多智能体的路径规划装置，其特征在于，所述装置包括：

权重信息计算模块，用于将待规划路径的网络拓扑中的历史网络信息以及各个业务服务第i+1次训练的历史服务信息，输入至各个所述业务服务对应的第i次训练得到的行动网络模型，得到各个所述业务服务对应的第i+1次训练的权重信息，其中，所述第i+1次训练的历史服务信息包括：各个所述业务服务第i+1次训练的历史服务矩阵，所述历史服务矩阵为：每个业务服务在所述网络拓扑中每两个节点之间的数据流数量，所述历史网络信息包括：历史网络带宽、历史网络时延、历史网络抖动和/或历史网络丢包率，每个所述业务服务对应的第i+1次训练的权重信息包括该业务服务的带宽权重以及与该业务服务对应的所述网络拓扑中每两个节点之间的链路权重，所述i大于或等于0，当所述i＝0时，所述第i次训练得到的各个所述业务服务对应的行动网络模型为预设行动网络模型；

带宽及路径计算模块，用于基于所述各个所述业务服务对应的第i+1次训练的权重信息，确定各个所述业务服务第i+1次训练的带宽信息和第i+1次训练的最短路径；

服务质量值计算模块，用于将所述各个所述业务服务第i+1次训练的带宽信息以及所述各个所述业务服务对应的第i+1次训练的最短路径输入试验网络拓扑，得到各个所述业务服务对应的第i+1次训练的服务质量值；

体验质量值计算模块，用于将所述各个所述业务服务第i+1次训练的服务质量值输入至预设转换模型，得到各个业务服务对应的第i+1次训练的体验质量值，其中，预设转换模型用于将服务质量值转换为体验质量值；

放回模块，用于将各个所述业务服务对应的第i+1次训练的体验质量值、第i+1次训练的历史服务信息、第i+1次训练的权重信息、以及第i次训练的权重信息作为第i+1次训练的四元数组存储到各个所述业务服务对应的经验回放池中，其中，所述经验回放池中还存储有前i次训练使用的四元数组；

质量综合值计算模块，用于获取预先设置的各个所述业务服务的质量权值，并基于所述预先设置的各个所述业务服务的质量权值和各个所述业务服务对应的第i+1次训练的体验质量值，计算所有业务服务的第i+1次训练的质量综合值；

更新模块，用于在所述所有业务服务的前i+1次训练的连续多个质量综合值中至少一个质量综合值小于预设质量综合值时，从所述经验回放池中获取前i+1次训练的四元数组中获取多个四元数组；更新所述各个所述业务服务对应的第i次训练得到的行动网络模型，得到各个所述业务服务对应的第i+1次训练得到的行动网络模型；

迭代模块，用于将所述各个所述业务服务对应的第i+1次训练得到的行动网络模型作为对应的第i次训练得到的行动网络模型，并触发所述权重信息计算模块；

路径规划模型获取模块，用于在所述所有业务服务的前i+1次训练的连续多个质量综合值均大于或等于所述预设质量综合值时，将所述第i次训练得到的各个所述业务服务对应的行动网络模型作为各个所述业务服务对应的训练完成的行动网络模型；

路径规划模块，用于将所述待规划路径的网络拓扑中当前网络信息和各个所述业务服务的当前服务信息，输入各个所述业务服务对应的训练完成的行动网络模型，得到各个所述业务服务对应的当前路径。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。