CN116614377B

CN116614377B - 无人机集群服务功能链动态配置方法和装置

Info

Publication number: CN116614377B
Application number: CN202310890312.3A
Authority: CN
Inventors: 姚海鹏; 李群; 买天乐; 忻向军; 张尼; 葛洪武; 袁莞迈; 吴巍
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-09-19
Anticipated expiration: 2043-07-20
Also published as: CN116614377A

Abstract

本发明提供了一种无人机集群服务功能链动态配置方法和装置，涉及无人机通信技术领域，本发明所使用的目标神经网络模型采用按需协作通信方式进行服务功能链动态部署，对不同队友建立不同队友模型，相比于现有的广播式通信算法或点对点式通信方式，按需通信的方式下，无人机之间传送不同的激励信息，且每个无人机的Q值都要加入其他无人机发送的激励信息，也即，每个无人机在动作选取时都受其余无人机的激励信息影响，并且按需通信还能减少信令的开销，因此，在利用本发明方法对服务功能链进行动态配置时可以加快收敛速度，提高算法收敛性，使无人机集群网络延迟保持在较低水平。

Description

无人机集群服务功能链动态配置方法和装置

技术领域

本发明涉及无人机通信技术领域，尤其是涉及一种无人机集群服务功能链动态配置方法和装置。

背景技术

NFV(network function virtualization，网络功能虚拟化)是一种网络概念，基于虚拟化技术，将网络功能（如：防火墙、路由器、负载均衡器等）从专用硬件中解耦出来，以软件的形式运行在通用服务器上，SFC（Service Function Chain，服务功能链）是在此架构下的网络组链技术，通过将多个虚拟化的网络功能按照一定的顺序组成服务链并部署在物理网络中，从而实现更加灵活的网络服务，比如将防火墙、入侵检测系统、负载均衡器等功能按照一定的顺序组成服务链，实现特定的业务需求。

现有的一些基于数学优化的服务功能链动态部署方式主要有混合二次约束（ILP）、混合整数线性规划等（MILP）等，在此基础上为降低时间复杂度提出了在边缘云和公共云中存放VNF的方式，从而根据动态变化的网络业务需求形成SFC。除此之外还有一些基于启发式和元启发式算法。但是，基于数学优化的部署方式很难很好地扩展，特别是当问题规模增加时，算法执行效率较低，不能保证执行时间能满足业务需求；启发式算法会导致结果陷入局部最优的情况，而虽然元启发式可以最大程度的逼近最优解，但结果的收敛性不足以达到理想水平。

发明内容

本发明的目的在于提供一种无人机集群服务功能链动态配置方法和装置，以加快对服务功能链进行动态配置时的收敛速度，提高收敛性，使无人机集群网络延迟保持在较低水平。

第一方面，本发明提供一种无人机集群服务功能链动态配置方法，应用于目标神经网络模型，包括：步骤1，判断服务功能链的当前配置轮次是否达到预设轮次；若未达到预设轮次，则执行步骤2；若达到预设轮次，则结束服务功能链动态配置流程；步骤2，判断服务功能链的当前配置次数是否达到单轮最大配置次数；其中，每个轮次设有单轮最大配置次数；若未达到单轮最大配置次数，则执行步骤3；若达到单轮最大配置次数，则执行步骤6；步骤3，在所述无人机集群中随机部署服务功能链，以得到所述无人机集群中所有无人机的状态信息和动作；其中，无人机的状态信息包括无人机的计算资源信息和内存资源信息，无人机的动作包括以下其中之一：有VNF部署，无VNF部署；步骤4，基于所有无人机的状态信息为每个无人机构建相应的队友模型，并基于每个无人机的状态信息和相应的队友模型确定所述无人机集群中无人机之间发送的激励信息，以及，更新所述无人机集群中所有无人机的状态信息和动作；步骤5，判断当前状态下，所述无人机集群中非满负荷的无人机数量是否小于预设阈值；如果小于，则执行步骤6；如果大于或等于，则返回步骤2；步骤6，计算所述无人机集群的全局Q值，并基于所述全局Q值优化所述目标神经网络模型的网络参数，并返回步骤1；其中，目标无人机的全局Q值是所述目标无人机自身的Q值和其他无人机发送给所述目标无人机的激励信息之和；所述目标无人机表示所述无人机集群中的任一无人机。

在可选的实施方式中，基于所有无人机的状态信息为每个无人机构建相应的队友模型，包括：利用高斯编码模型对所述目标无人机的状态信息和指定无人机的编号进行处理，得到所述目标无人机对所述指定无人机的高斯编码；其中，所述指定无人机表示所述无人机集群中除所述目标无人机之外的任一无人机；对所述高斯编码进行随机采样，得到所述目标无人机对所述指定无人机的队友模型。

在可选的实施方式中，基于每个无人机的状态信息和相应的队友模型确定所述无人机集群中无人机之间发送的激励信息，包括：基于所述目标无人机的状态信息和目标队友模型确定所述目标无人机向所述指定无人机发送的定制化信息；其中，所述目标队友模型表示所述目标无人机对所述指定无人机的队友模型；基于所述目标无人机的状态信息和所述目标无人机的所有队友模型，确定所述目标无人机与所述指定无人机的通信程度；基于所述目标无人机向所述指定无人机发送的定制化信息，和所述目标无人机与所述指定无人机的通信程度，确定所述目标无人机向所述指定无人机发送的激励信息。

在可选的实施方式中，更新所述无人机集群中所有无人机的状态信息和动作，包括：利用categorical函数和贪婪策略对所述无人机集群中所有无人机之间的通信程度进行处理，得到所述无人机集群中每个无人机的下一动作；根据每个无人机的下一动作更新自身的状态信息。

在可选的实施方式中，所述目标神经网络模型的损失函数表示为：；其中，/>，y表示预设优化目标，/>表示所述无人机集群的全局Q值，/>表示无人机的当前状态，/>表示无人机的动作，/>表示奖励，/>表示无人机的下一状态，/>表示关于Q值的网络参数；/>，/>表示目标无人机i对指定无人机j的队友模型，/>表示目标无人机i的状态信息，/>表示指定无人机j的编号，/>表示指定无人机j的动作，D表示经验重放缓冲区，KL表示散度，/>表示变分分布，/>表示条件分布；，/>表示目标无人机i与指定无人机j的通信程度，n表示所述无人机集群中无人机的总数；/>表示队友建模损失的可调超参数，/>表示稀疏正则化的可调超参数，/>表示关于队友模型的网络参数，/>表示关于激励信息的网络参数。

第二方面，本发明提供一种无人机集群服务功能链动态配置装置，应用于目标神经网络模型，包括：第一判断模块，用于判断服务功能链的当前配置轮次是否达到预设轮次；若未达到预设轮次，则调用第二判断模块；若达到预设轮次，则结束服务功能链动态配置流程；第二判断模块，用于判断服务功能链的当前配置次数是否达到单轮最大配置次数；其中，每个轮次设有单轮最大配置次数；若未达到单轮最大配置次数，则调用部署模块；若达到单轮最大配置次数，则调用计算和优化模块；部署模块，用于在所述无人机集群中随机部署服务功能链，以得到所述无人机集群中所有无人机的状态信息和动作；其中，无人机的状态信息包括无人机的计算资源信息和内存资源信息，无人机的动作包括以下其中之一：有VNF部署，无VNF部署；构建和确定模块，用于基于所有无人机的状态信息为每个无人机构建相应的队友模型，并基于每个无人机的状态信息和相应的队友模型确定所述无人机集群中无人机之间发送的激励信息，以及，更新所述无人机集群中所有无人机的状态信息和动作；第三判断模块，用于判断当前状态下，所述无人机集群中非满负荷的无人机数量是否小于预设阈值；如果小于，则调用计算和优化模块；如果大于或等于，则调用第二判断模块；计算和优化模块，用于计算所述无人机集群的全局Q值，并基于所述全局Q值优化所述目标神经网络模型的网络参数，并调用第一判断模块；其中，目标无人机的全局Q值是所述目标无人机自身的Q值和其他无人机发送给所述目标无人机的激励信息之和；所述目标无人机表示所述无人机集群中的任一无人机。

在可选的实施方式中，所述构建和确定模块具体用于：利用高斯编码模型对所述目标无人机的状态信息和指定无人机的编号进行处理，得到所述目标无人机对所述指定无人机的高斯编码；其中，所述指定无人机表示所述无人机集群中除所述目标无人机之外的任一无人机；对所述高斯编码进行随机采样，得到所述目标无人机对所述指定无人机的队友模型。

在可选的实施方式中，所述构建和确定模块还用于：基于所述目标无人机的状态信息和目标队友模型确定所述目标无人机向所述指定无人机发送的定制化信息；其中，所述目标队友模型表示所述目标无人机对所述指定无人机的队友模型；基于所述目标无人机的状态信息和所述目标无人机的所有队友模型，确定所述目标无人机与所述指定无人机的通信程度；基于所述目标无人机向所述指定无人机发送的定制化信息，和所述目标无人机与所述指定无人机的通信程度，确定所述目标无人机向所述指定无人机发送的激励信息。

第三方面，本发明提供一种电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述实施方式中任一项所述的无人机集群服务功能链动态配置方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现前述实施方式中任一项所述的无人机集群服务功能链动态配置方法。

本发明所使用的目标神经网络模型采用按需协作通信方式进行服务功能链动态部署，对不同队友建立不同队友模型，相比于现有的广播式通信算法或点对点式通信方式，按需通信的方式下，无人机之间传送不同的激励信息，且每个无人机的Q值都要加入其他无人机发送的激励信息，也即，每个无人机在动作选取时都受其余无人机的激励信息影响，并且按需通信还能减少信令的开销，因此，在利用本发明方法对服务功能链进行动态配置时可以加快收敛速度，提高算法收敛性，使无人机集群网络延迟保持在较低水平。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种无人机集群服务功能链动态配置方法的流程图；

图2为一种服务功能链映像关系示意图；

图3为本发明实施例提供的另一种无人机集群服务功能链动态配置方法流程图；

图4为多种算法的性能指标结果对比图；

图5为多种算法的奖励曲线对比图；

图6为本发明实施例提供的一种无人机集群服务功能链动态配置装置的功能模块图；

图7为本发明实施例提供的一种电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

现有的服务功能链动态部署方法包括：数学优化算法，启发式算法，元启发式算法，但是，数学优化算法扩展难度较大，当问题规模增加时，算法执行效率较低，无法保证执行时间能够满足业务需求；启发式算法存在局部最优解的问题，无法保证配置结果的指标性能；元启发式算法虽然可以最大程度的逼近最优解，但结果的收敛性不足以达到理想水平。有鉴于此，本发明实施例提供一种无人机集群服务功能链动态配置方法，用以缓解上文中所涉及的技术问题。

实施例一

本发明实施例提供了一种无人机集群服务功能链动态配置方法，应用于目标神经网络模型，图1为本发明实施例提供的一种无人机集群服务功能链动态配置方法的流程图，如图1所示，该方法具体包括如下步骤：

步骤1，判断服务功能链的当前配置轮次是否达到预设轮次。

若未达到预设轮次，则执行步骤2；若达到预设轮次，则结束服务功能链动态配置流程。

步骤2，判断服务功能链的当前配置次数是否达到单轮最大配置次数。

其中，每个轮次设有单轮最大配置次数。

若未达到单轮最大配置次数，则执行步骤3；若达到单轮最大配置次数，则执行步骤6。

步骤3，在无人机集群中随机部署服务功能链，以得到无人机集群中所有无人机的状态信息和动作。

其中，无人机的状态信息包括无人机的计算资源信息和内存资源信息，无人机的动作包括以下其中之一：有VNF部署，无VNF部署。

步骤4，基于所有无人机的状态信息为每个无人机构建相应的队友模型，并基于每个无人机的状态信息和相应的队友模型确定无人机集群中无人机之间发送的激励信息，以及，更新无人机集群中所有无人机的状态信息和动作。

步骤5，判断当前状态下，无人机集群中非满负荷的无人机数量是否小于预设阈值。

如果小于，则执行步骤6；如果大于或等于，则返回步骤2。

步骤6，计算无人机集群的全局Q值，并基于全局Q值优化目标神经网络模型的网络参数，并返回步骤1。

其中，目标无人机的全局Q值是目标无人机自身的Q值和其他无人机发送给目标无人机的激励信息之和；目标无人机表示无人机集群中的任一无人机。

具体的，本发明实施例所提供的无人机集群服务功能链动态配置方法应用于目标神经网络模型，该网络模型的数据处理流程实质是按需协作通信的多智能体强化学习算法流程，在应用该算法时，将无人机集群中的每个无人机视为一个智能体，进而通过强化学习的方式实现无人机集群服务功能链的动态配置，也就是说，随着时间的推进，服务功能链的配置是动态变化的。下面对动态配置的流程进行详细的介绍。

方法执行之初，需要对运行环境以及目标神经网络模型的网络参数进行初始化，本发明实施例不对初始化的方法进行具体限定，用户可根据实际需求进行选择，例如，随机初始化。初始化结束即正式进入到服务功能链的动态配置流程，本发明实施例中涉及到服务功能链的配置轮次episode和单轮配置次数step的概念，其中，服务功能链的配置轮次不能超过预设轮次（例如10000轮），且每个轮次设有单轮最大配置次数，也即，每一个配置轮次中不能超过X个配置次数，X表示单轮最大配置次数（例如200次），换句话说，每个episode内至多有X个step。

因此，进入到服务功能链的动态配置流程之后，首先判断服务功能链的当前配置轮次是否达到预设轮次，如果达到了预设轮次，则结束服务功能链动态配置流程；如果没有达到预设轮次，则将进入该轮次的配置，判断服务功能链的当前配置次数是否达到单轮最大配置次数。初次进入该判断步骤时，当前配置次数即为1；后续每一次返回执行该步骤时，当前配置次数应累加1，然后再执行该步骤中的判断流程。

如果当前配置次数达到单轮最大配置次数，则说明本轮训练中所部署的服务功能链均不能触发单步结束训练条件，其中，单步结束训练条件为：除去满负荷的无人机外，剩余无人机无法继续承载服务功能链。为了便于理解，下面举例说明：假设当前step有10个无人机，且设定SFC的长度范围是3~6，这个长度范围意思是设定SFC必须由3~6个VNF组成，因为每个VNF只能部署在一个无人机上，如果当前状态下，10个无人机中有5个无人机满负荷（即无人机的内存爆满），满负荷时cpu无法承担更多计算，进而无法继续提供网络服务。因此无人机集群中还剩余5个可用无人机，而由于最大组链长度为6，5<6，所以无法继续提供服务。

这种情况下，需要计算出当前无人机集群的全局Q值，进而基于全局Q值去优化目标神经网络模型的网络参数，优化完毕，则进入下一轮次的训练，返回执行步骤1中的内容。下文中将对计算无人机集群全局Q值的方法进行详细介绍。

可选地，每轮进行服务功能链的配置时，根据无人机的连接度预先在无人机集群中选择一定数量的无人机（主用无人机）作为server用于每步训练时承载VNF。未被选择的无人机即成为备用无人机，当主用无人机需休整时，备用无人机进行替换使用。已知无人机有通信范围限制，假设500m内的无人机可以进行连接形成通信链路，那么若一个无人机和其余3个无人机相互连接，则可以确定该无人机的连接度为3。

如果当前配置次数尚未达到单轮最大配置次数，在此情况下，则需要在无人机集群中随机部署一个服务功能链以得到所有无人机（也即，智能体）的初始状态和动作，初始状态包括无人机的计算资源情况和内存情况，也即，无人机的状态信息包括无人机的计算资源信息和内存资源信息，无人机的动作包括以下其中之一：有VNF部署，无VNF部署。本发明实施例中，无人机的可用动作使用二进制变量进行表示，也即，每个无人机有1和0两种动作可选择，1表示将VNF部署在该无人机，0表示不部署。本发明实施例中，所有智能体可用动作都是[1，0]，即无人机根据算法可以选择部署或不部署。

图2为一种服务功能链映像关系示意图，如图2所示，一个服务功能链由多个虚拟网络函数（也即，VNF，比如防火墙、路由等）组链而成，组链完成后将每个虚拟网络函数映射在相应的无人机，注意每个VNF只能映射在一个无人机中，并且当VNF映射在对应的无人机时会消耗当前无人机的计算资源（CPU）、缓存资源（mem）以及链路资源。

为了解决现有方法在对服务功能链进行动态配置时存在的收敛速度慢，收敛性不佳等问题，本发明实施例提出一种按需协作通信的多智能体强化学习算法，按需协作通信的算法是基于“集中式学习-分布式执行”的框架，该算法与现有技术不同的是由广播通信变为按需通信，并且对不同智能体有不同的通信信息从而消除冗余信息。该算法中设定每个无人机为一个智能体，且当前智能体对每个队友有不同的模型，利用不同的队友模型对不同的队友生成不同的激励信息，从而直接作用在队友的select action上，基于此可以更加高效的收敛到理想结果。假设共有10个智能体，编号为1~10，如果选中3号智能体为当前智能体，那么其余9个智能体均称为3号智能体的队友，且每个智能体均有9个队友模型。

具体的，在得到所有无人机的状态信息之后，即进入构建队友模型的步骤，本发明实施例利用高斯分布去采样得到的智能体i对智能体j的队友模型。得到队友模型之后，将其发送到消息生成器内，消息生成器对每个智能体的状态信息/>和队友模型/>进行处理，可得到智能体i与智能体j之间的通信程度，以及智能体i对智能体j发送的激励信息/>。

智能体之间的通信程度确定之后，通过对通信程度进行一系列处理，可得到无人机集群中每个无人机的动作，例如，若无人机集群的下一动作编排为：[1，0，1，0，1]，表示无人机集群共有5个无人机，若编号依次为1~5，则编号为1，3，5的无人机有VNF部署，编号为2，4的无人机无VNF部署。每个无人机的下一动作确定之后，即可根据具体的部署情况更新各自的内存与计算资源的情况，进而得到更新后的无人机的状态信息。

无人机集群的动作编排确定之后，即可计算相应的性能指标和奖励，本发明实施例中，性能指标包括：时延和资源利用率（包括：计算资源利用率和内存资源利用率），本实施例不对奖励的计算方法进行具体的限定，只要确保奖励与时延成反比，与资源利用率成正比即可。也即，时延越小，奖励越大；资源利用率越高，奖励越大。奖励值影响智能体下一动作的选择。

无人机集群的动作编排确定之后，本发明实施例还需要判断当前状态下，满负载server数量是否满足step内终止条件，终止条件具体为：无人机集群中非满负荷的无人机数量小于预设阈值，预设阈值表示预先设定的服务功能链的最大组链长度。如果不满足终止条件，那么就需要进入到本轮的下一step，返回执行步骤2的方法流程。

如果满足终止条件，则需要终止本轮次的服务功能链配置，并利用多层感知神经网络MLP计算目标智能体（也即，目标无人机）的Q值，然后与集群中其他智能体发送给目标智能体的激励信息求和，进而得到目标智能体的全局Q值。也即，。其中，/>表示目标智能体i的状态信息，/>表示目标智能体i的动作，/>表示目标智能体i根据其自身状态和动作确定的Q值，/>表示集群中智能体j向目标智能体i发送的激励信息，/>表示目标智能体i的全局Q值。接下来，利用混合网络（例如QMIX算法）对所有智能体的全局Q值进行处理，得到无人机集群的全局Q值，最后基于无人机集群的全局Q值对目标神经网络模型的网络参数进行优化，并返回步骤1的方法流程，直至达到预设轮次。

本发明实施例所使用的目标神经网络模型采用按需协作通信方式进行服务功能链动态部署，对不同队友建立不同队友模型，相比于现有的广播式通信算法或点对点式通信方式，按需通信的方式下，无人机之间传送不同的激励信息，且每个无人机的Q值都要加入其他无人机发送的激励信息，也即，每个无人机在动作选取时都受其余无人机的激励信息影响，并且按需通信还能减少信令的开销，因此，在利用本发明方法对服务功能链进行动态配置时可以加快收敛速度，提高算法收敛性，使无人机集群网络延迟保持在较低水平。

在一个可选的实施方式中，上述步骤4中，基于所有无人机的状态信息为每个无人机构建相应的队友模型，具体包括如下步骤：

步骤S11，利用高斯编码模型对目标无人机的状态信息和指定无人机的编号进行处理，得到目标无人机对指定无人机的高斯编码。

其中，指定无人机表示无人机集群中除目标无人机之外的任一无人机。

步骤S12，对高斯编码进行随机采样，得到目标无人机对指定无人机的队友模型。

本发明实施例学习队友的modeling是通过高斯分布去建模每个队友的模型，具体的，利用目标智能体（也即，目标无人机）i的观测（也即，状态信息）和智能体j（也即，指定无人机）的编号作为输入，经过一个高斯编码模型（神经网络）实现高斯编码，之后从高斯编码中采样，即可得到目标无人机i对指定无人机j的队友模型。

其中，队友建模的损失函数为：，也即，分布p和/>的变量从经验重放缓冲区D采样，在最小化队友模型的不确定性时，会用到互信息，而互信息很难直接计算，因此使用/>作为变分分布来近似条件分布p。

在一个可选的实施方式中，上述步骤4中，基于每个无人机的状态信息和相应的队友模型确定无人机集群中无人机之间发送的激励信息，具体包括如下步骤：

步骤S21，基于目标无人机的状态信息和目标队友模型确定目标无人机向指定无人机发送的定制化信息。

其中，目标队友模型表示目标无人机对指定无人机的队友模型。

步骤S22，基于目标无人机的状态信息和目标无人机的所有队友模型，确定目标无人机与指定无人机的通信程度。

步骤S23，基于目标无人机向指定无人机发送的定制化信息，和目标无人机与指定无人机的通信程度，确定目标无人机向指定无人机发送的激励信息。

在得到目标无人机i对指定无人机j的队友模型（也即，目标队友模型）之后，将其发送到消息生成器内，消息生成器可将目标无人机i的状态信息/>和目标队友模型/>进行结合，生成目标无人机i向指定无人机j发送的定制化信息/>。同时经过激活函数可得到目标无人机i与指定无人机j之间的通信程度/>，其中，通信程度由下式计算：。其中，/>，/>表示记录信息，是目标无人机i的状态信息经过线性函数计算得到的参量，/>表示关键信息，是目标队友模型/>经过线性函数变化得到的参量，/>表示队友模型/>经过线性函数变化得到的参量，队友模型/>表示目标无人机i对无人机集群中无人机g的队友模型，其中，/>，exp表示取指数。也就是说，通过消息生成器能够得到目标无人机i与无人机集群中各队友无人机之间的通信程度。

在得到目标无人机i向指定无人机j发送的定制化信息，目标无人机i与指定无人机j之间的通信程度/>之后，在消息生成器内，定义/>，/>表示目标无人机i向指定无人机j发送的激励信息。其中，若/>为0，则表示目标无人机i与指定无人机j不进行通信。

在本发明实施例中，消息生成器的损失函数表示为：。上述公式是为了更加有效的通信，进一步引入了稀疏正则化，它优化了由通信权重形成的类别分布的熵，通过最小化这种熵损失，可以获得具有较低不确定性的通信权重，/>表示上述消息生成器的参数。

在一个可选的实施方式中，上述步骤4中，更新无人机集群中所有无人机的状态信息和动作，具体包括如下步骤：

步骤S31，利用categorical函数和贪婪策略对无人机集群中所有无人机之间的通信程度进行处理，得到无人机集群中每个无人机的下一动作。

步骤S32，根据每个无人机的下一动作更新自身的状态信息。

无人机集群中无人机之间的通信程度确定之后，利用categorical（分类）函数和贪婪策略对无人机集群中所有的通信程度进行一系列处理，即可得到无人机集群中每个无人机的下一动作，进而根据各个无人机有无VNF部署的具体情况，更新各自的内存与计算资源的情况，进而得到更新后的无人机的状态信息。

在一个可选的实施方式中，目标神经网络模型的损失函数表示为：；其中，/>，y表示预设优化目标，/>表示无人机集群的全局Q值，/>表示无人机的当前状态，/>表示无人机的动作，/>表示奖励，/>表示无人机的下一状态，/>表示关于Q值的网络参数，E表示期望；/>，/>表示目标无人机i对指定无人机j的队友模型，/>表示目标无人机i的状态信息，/>表示指定无人机j的编号，/>表示指定无人机j的动作，D表示经验重放缓冲区，KL表示散度，/>表示变分分布，/>表示条件分布；/>，/>表示目标无人机i与指定无人机j的通信程度，n表示无人机集群中无人机的总数；/>表示队友建模损失的可调超参数，/>表示稀疏正则化的可调超参数，/>表示关于队友模型的网络参数，/>表示关于激励信息的网络参数。

图3为本发明实施例提供的另一种无人机集群服务功能链动态配置方法流程图，通过图3及损失函数的表达式可知，目标神经网络模型的网络参数，每一轮次对目标神经网络模型的网络参数进行优化时，实质包括：队友模型的优化，消息生成器的优化和混合网络的优化。

发明人对本发明实施例所提供的方法进行了验证，设定训练episode为2000步，将训练后的数据分为30组做出实验结果图，图4为多种算法的性能指标结果对比图，图5为多种算法的奖励曲线对比图。

MAPPO算法是一种policy-based方法，其摒弃了这种Q值的思想，转而输出当前状态可以采取的所有动作的概率，通过更新策略参数θ来使获得的收益(Reward)最大化。并且MAPPO算法同样属于CTDE框架，通过一个全局的值函数来使得各个单个的PPO智能体相互配合。每个智能体有单独的actor-critic网络，训练时智能体自己的actor网络要接受每个critic的打分。

遗传算法（Genetic Algorithms，GA）是一种启发式算法，借鉴了生物进化中的一些概念和方法。它主要应用于求解复杂的优化问题，如函数最大化、最小化、组合优化等。遗传算法通过从群体中选择最优个体、进行遗传、变异等操作来生成新的个体，并逐代进行优胜劣汰的选择过程，从而使得群体中的个体逐步趋向于优化目标。

图4中maic即本发明实施例提出的方法，通过图4可知，随着配置次数的增加，无人机集群网络时延在逐渐减小，但相比其他两种方法，本实施例方法可以使得时延以更快速度收敛到最小值附近，同样针对剩余资源情况，多智能体强化学习算法（本实施例应用的算法）相比元启发式算法具有更好的性能，可以收敛到理想值附近，本实施例方法同样可以提高收敛速度，使网络的收益最大化。

图5中奖励出现负数原因是由于前期训练不足，强化学习给出的无人机编排数量不足以服务功能链的部署，此时将返回一个负的奖励值，随着训练进行，曲线呈现上升状态，并且本实施例方法是三个算法中收敛速度最快，收敛值最大的。

综上所述，本发明实施例采用按需协作通信方式进行服务功能链动态部署，因此较传统强化学习方法具备减少信令的开销，提高组链速度优点，从而收敛速度快，使无人机集群网络延迟保持在较低水平。且利用不同的模型对不同的队友生成不同的激励信息，从而直接作用在队友的动作选取上，基于此，无人机可以协同找到一个共享联合策略提高通信效率并使收益最大化，从而更加高效的收敛到理想结果。并且，本发明实施例在无人机集群网络中动态选取无人机作为server来承载服务功能链的部署，提高了无人机集群网络的资源利用率。

实施例二

本发明实施例还提供了一种无人机集群服务功能链动态配置装置，应用于目标神经网络模型，该无人机集群服务功能链动态配置装置主要用于执行上述实施例一所提供的无人机集群服务功能链动态配置方法，以下对本发明实施例提供的无人机集群服务功能链动态配置装置做具体介绍。

图6是本发明实施例提供的一种无人机集群服务功能链动态配置装置的功能模块图，如图6所示，该装置主要包括：第一判断模块11，第二判断模块12，部署模块13，构建和确定模块14，第三判断模块15，计算和优化模块16，其中：

第一判断模块11，用于判断服务功能链的当前配置轮次是否达到预设轮次；若未达到预设轮次，则调用第二判断模块；若达到预设轮次，则结束服务功能链动态配置流程。

第二判断模块12，用于判断服务功能链的当前配置次数是否达到单轮最大配置次数；其中，每个轮次设有单轮最大配置次数；若未达到单轮最大配置次数，则调用部署模块；若达到单轮最大配置次数，则调用计算和优化模块。

部署模块13，用于在无人机集群中随机部署服务功能链，以得到无人机集群中所有无人机的状态信息和动作；其中，无人机的状态信息包括无人机的计算资源信息和内存资源信息，无人机的动作包括以下其中之一：有VNF部署，无VNF部署。

构建和确定模块14，用于基于所有无人机的状态信息为每个无人机构建相应的队友模型，并基于每个无人机的状态信息和相应的队友模型确定无人机集群中无人机之间发送的激励信息，以及，更新无人机集群中所有无人机的状态信息和动作。

第三判断模块15，用于判断当前状态下，无人机集群中非满负荷的无人机数量是否小于预设阈值；如果小于，则调用计算和优化模块；如果大于或等于，则调用第二判断模块。

计算和优化模块16，用于计算无人机集群的全局Q值，并基于全局Q值优化目标神经网络模型的网络参数，并调用第一判断模块；其中，目标无人机的全局Q值是目标无人机自身的Q值和其他无人机发送给目标无人机的激励信息之和；目标无人机表示无人机集群中的任一无人机。

本发明实施例所使用的目标神经网络模型采用按需协作通信方式进行服务功能链动态部署，对不同队友建立不同队友模型，相比于现有的广播式通信算法或点对点式通信方式，按需通信的方式下，无人机之间传送不同的激励信息，且每个无人机的Q值都要加入其他无人机发送的激励信息，也即，每个无人机在动作选取时都受其余无人机的激励信息影响，并且按需通信还能减少信令的开销，因此，在利用本发明装置对服务功能链进行动态配置时可以加快收敛速度，提高算法收敛性，使无人机集群网络延迟保持在较低水平。

可选地，构建和确定模块14具体用于：

利用高斯编码模型对目标无人机的状态信息和指定无人机的编号进行处理，得到目标无人机对指定无人机的高斯编码；其中，指定无人机表示无人机集群中除目标无人机之外的任一无人机。

对高斯编码进行随机采样，得到目标无人机对指定无人机的队友模型。

可选地，构建和确定模块14还用于：

基于目标无人机的状态信息和目标队友模型确定目标无人机向指定无人机发送的定制化信息；其中，目标队友模型表示目标无人机对指定无人机的队友模型。

基于目标无人机的状态信息和目标无人机的所有队友模型，确定目标无人机与指定无人机的通信程度。

基于目标无人机向指定无人机发送的定制化信息，和目标无人机与指定无人机的通信程度，确定目标无人机向指定无人机发送的激励信息。

可选地，构建和确定模块14还用于：

利用categorical函数和贪婪策略对无人机集群中所有无人机之间的通信程度进行处理，得到无人机集群中每个无人机的下一动作。

根据每个无人机的下一动作更新自身的状态信息。

可选地，目标神经网络模型的损失函数表示为：；其中，/>，y表示预设优化目标，/>表示无人机集群的全局Q值，/>表示无人机的当前状态，/>表示无人机的动作，/>表示奖励，/>表示无人机的下一状态，/>表示关于Q值的网络参数；，/>表示目标无人机i对指定无人机j的队友模型，/>表示目标无人机i的状态信息，/>表示指定无人机j的编号，/>表示指定无人机j的动作，D表示经验重放缓冲区，KL表示散度，/>表示变分分布，/>表示条件分布；，/>表示目标无人机i与指定无人机j的通信程度，n表示无人机集群中无人机的总数；/>表示队友建模损失的可调超参数，/>表示稀疏正则化的可调超参数，表示关于队友模型的网络参数，/>表示关于激励信息的网络参数。

实施例三

参见图7，本发明实施例提供了一种电子设备，该电子设备包括：处理器60，存储器61，总线62和通信接口63，所述处理器60、通信接口63和存储器61通过总线62连接；处理器60用于执行存储器61中存储的可执行模块，例如计算机程序。

其中，存储器61可能包含高速随机存取存储器（RAM，Random Access Memory），也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口63（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器61用于存储程序，所述处理器60在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器60中，或者由处理器60实现。

处理器60可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61，处理器60读取存储器61中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的一种无人机集群服务功能链动态配置方法和装置的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种无人机集群服务功能链动态配置方法，其特征在于，应用于目标神经网络模型，包括：

步骤1，判断服务功能链的当前配置轮次是否达到预设轮次；

若未达到预设轮次，则执行步骤2；若达到预设轮次，则结束服务功能链动态配置流程；

步骤2，判断服务功能链的当前配置次数是否达到单轮最大配置次数；其中，每个轮次设有单轮最大配置次数；

若未达到单轮最大配置次数，则执行步骤3；若达到单轮最大配置次数，则执行步骤6；

步骤3，在所述无人机集群中随机部署服务功能链，以得到所述无人机集群中所有无人机的状态信息和动作；其中，无人机的状态信息包括无人机的计算资源信息和内存资源信息，无人机的动作包括以下其中之一：有VNF部署，无VNF部署；

步骤4，基于所有无人机的状态信息为每个无人机构建相应的队友模型，并基于每个无人机的状态信息和相应的队友模型确定所述无人机集群中无人机之间发送的激励信息，以及，更新所述无人机集群中所有无人机的状态信息和动作；

步骤5，判断当前状态下，所述无人机集群中非满负荷的无人机数量是否小于预设阈值；

如果小于，则执行步骤6；如果大于或等于，则返回步骤2；

步骤6，计算所述无人机集群的全局Q值，并基于所述全局Q值优化所述目标神经网络模型的网络参数，并返回步骤1；其中，目标无人机的全局Q值是所述目标无人机自身的Q值和其他无人机发送给所述目标无人机的激励信息之和；所述目标无人机表示所述无人机集群中的任一无人机。

2.根据权利要求1所述的无人机集群服务功能链动态配置方法，其特征在于，基于所有无人机的状态信息为每个无人机构建相应的队友模型，包括：

利用高斯编码模型对所述目标无人机的状态信息和指定无人机的编号进行处理，得到所述目标无人机对所述指定无人机的高斯编码；其中，所述指定无人机表示所述无人机集群中除所述目标无人机之外的任一无人机；

对所述高斯编码进行随机采样，得到所述目标无人机对所述指定无人机的队友模型。

3.根据权利要求2所述的无人机集群服务功能链动态配置方法，其特征在于，基于每个无人机的状态信息和相应的队友模型确定所述无人机集群中无人机之间发送的激励信息，包括：

基于所述目标无人机的状态信息和目标队友模型确定所述目标无人机向所述指定无人机发送的定制化信息；其中，所述目标队友模型表示所述目标无人机对所述指定无人机的队友模型；

基于所述目标无人机的状态信息和所述目标无人机的所有队友模型，确定所述目标无人机与所述指定无人机的通信程度；

基于所述目标无人机向所述指定无人机发送的定制化信息，和所述目标无人机与所述指定无人机的通信程度，确定所述目标无人机向所述指定无人机发送的激励信息。

4.根据权利要求3所述的无人机集群服务功能链动态配置方法，其特征在于，更新所述无人机集群中所有无人机的状态信息和动作，包括：

利用categorical函数和贪婪策略对所述无人机集群中所有无人机之间的通信程度进行处理，得到所述无人机集群中每个无人机的下一动作；

根据每个无人机的下一动作更新自身的状态信息。

5.根据权利要求1所述的无人机集群服务功能链动态配置方法，其特征在于，所述目标神经网络模型的损失函数表示为：；其中，，y表示预设优化目标，/>表示所述无人机集群的全局Q值，/>表示无人机的当前状态，/>表示无人机的动作，/>表示奖励，/>表示无人机的下一状态，/>表示关于Q值的网络参数；，/>表示目标无人机i对指定无人机j的队友模型，/>表示目标无人机i的状态信息，/>表示指定无人机j的编号，/>表示指定无人机j的动作，D表示经验重放缓冲区，KL表示散度，/>表示变分分布，/>表示条件分布；，/>表示目标无人机i与指定无人机j的通信程度，n表示所述无人机集群中无人机的总数；/>表示队友建模损失的可调超参数，/>表示稀疏正则化的可调超参数，/>表示关于队友模型的网络参数，/>表示关于激励信息的网络参数。

6.一种无人机集群服务功能链动态配置装置，其特征在于，应用于目标神经网络模型，包括：

第一判断模块，用于判断服务功能链的当前配置轮次是否达到预设轮次；若未达到预设轮次，则调用第二判断模块；若达到预设轮次，则结束服务功能链动态配置流程；

第二判断模块，用于判断服务功能链的当前配置次数是否达到单轮最大配置次数；其中，每个轮次设有单轮最大配置次数；若未达到单轮最大配置次数，则调用部署模块；若达到单轮最大配置次数，则调用计算和优化模块；

部署模块，用于在所述无人机集群中随机部署服务功能链，以得到所述无人机集群中所有无人机的状态信息和动作；其中，无人机的状态信息包括无人机的计算资源信息和内存资源信息，无人机的动作包括以下其中之一：有VNF部署，无VNF部署；

构建和确定模块，用于基于所有无人机的状态信息为每个无人机构建相应的队友模型，并基于每个无人机的状态信息和相应的队友模型确定所述无人机集群中无人机之间发送的激励信息，以及，更新所述无人机集群中所有无人机的状态信息和动作；

第三判断模块，用于判断当前状态下，所述无人机集群中非满负荷的无人机数量是否小于预设阈值；如果小于，则调用计算和优化模块；如果大于或等于，则调用第二判断模块；

计算和优化模块，用于计算所述无人机集群的全局Q值，并基于所述全局Q值优化所述目标神经网络模型的网络参数，并调用第一判断模块；其中，目标无人机的全局Q值是所述目标无人机自身的Q值和其他无人机发送给所述目标无人机的激励信息之和；所述目标无人机表示所述无人机集群中的任一无人机。

7.根据权利要求6所述的无人机集群服务功能链动态配置装置，其特征在于，所述构建和确定模块具体用于：

8.根据权利要求7所述的无人机集群服务功能链动态配置装置，其特征在于，所述构建和确定模块还用于：

9.一种电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的无人机集群服务功能链动态配置方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现权利要求1至5中任一项所述的无人机集群服务功能链动态配置方法。