CN113341712A

CN113341712A - 无人机自主控制系统智能分层递阶控制选择方法

Info

Publication number: CN113341712A
Application number: CN202110596446.5A
Authority: CN
Inventors: 伍元胜; 杜俊逸; 倪大冬; 肖磊; 杨佩彤
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-03
Anticipated expiration: 2041-05-31
Also published as: CN113341712B

Abstract

本发明公开的一种无人机自主控制系统智能分层递阶控制选择方法，能够缩短控制器控制MANET网络的时延，提高MANET网络对动态环境的适应能力。本发明通过下述技术方案实现：在分层结构中，构建无人机自组织网络模型；各个簇内部的交互为SDN网络的第一层，簇间节点的交互为网络的第二层，并将分层结构再细分为单频分层和多频分层两种结构，基于图神经网络GNN为每一个子网选择选择一个控制节点用于部署SDN控制器来管理网络，动态调整分层MANET网络控制节点，通过SDN控制器选举，将选举结果分发给MANET网络的所有节点，求解关于包含了若干个SDN控制器节点无向图G，选出最终解的一个节点，经过N次迭代获得最终解。

Description

无人机自主控制系统智能分层递阶控制选择方法

技术领域

本发明涉及无人机自组织网络领域，具体地，涉及一种基于图神经网络的SDN控制器选举技术，尤其是无人机自主控制系统智能分层递阶控制选择方法。

背景技术

移动无线通信网络根据网络使用方式分为两类：一是具备通信设施的移动通信网络，如无线局域网等。二是无基础设施的移动网络，如无线传感器网等。在环境作业、紧急情况救援(如自然灾害)、野外探险、临时会议等特殊场合下，因情况紧急网络通信需具备实时性，故需要一种能快速自组织的网络技术，该技术称为无线自组织网络通信技术，又称移动MANET网(MANET)通信技术。

MANET是一种完全去中心化系统，具有自组织能力，因此可以提供所需的稳健性和扩展性。不过，当前在边缘部署的MANET，仅具备基本功能，深受由于网络拓扑变化而带来的配置需求复杂和协议开销大等问题的困扰。MANET的主要挑战之一是如何实现高效路由，已提出了优化链路状态路由(OLSR)等多种协议解决这一问题。由于网络拓扑频繁变化，这些方案可能造成连接断续或长时间断开，甚至产生过高的协议开销。这些协议也不够灵活。从某种程度上说，MANET的完全去中心化体系是其未能普遍使用的一个主要原因，而SDN则可以提供集中控制和全网视图从而改进MANE，TSDN有助于实现灵活路由和动态传输级决策，实现基于特定任务标准和NTK限制的信息流转。MANET网络中各网络节点通过路由转发功能进行信息交互与服务共享，该网络不同于传统网络的最大特点是不需要任何基础设施的支持，就能实现网络通信，因其自身优势，使得在未来各领域中的应用需求日益增大，可以在紧急情况下通过临时组网来实现各网络节点之间多种数据类型(如图形、图像和数据等)的网络通信，应用范围逐步扩展到家庭、工业、医疗等众多场合。

MANET网络的组网方式可以分为两种：一种是一级平面组网方式，这种网络结构简单，其中所有的节点地位平等，共同分担网络负荷，在每对源节点和目的节点之间的数据传输路径可能不止一条，这种结构的缺点在于可扩展性差，如果网络规模不断增大、每个节点的移动性增强，那么维护动态路由就需要耗费大量控制信息，因此这种结构只适应于小规模 MANET网络。另外一种是分层组网方式在软件定义网络SDN(Software DefinedNetwork)，是Emulex网络一种新型网络创新架构，是网络虚拟化的一种实现方式，其核心技术 OpenFlow通过将网络设备控制面与数据面分离开来，从而实现了网络流量的灵活控制，使网络作为管道变得更加智能。SDN给网络设计规划与管理提供了极大的灵活性，可以选择集中式或是分布式的控制，对微量流或是聚合流(如主干网的流)进行转发时的流表项匹配，可以选择虚拟实现或是物理实现。传统IT架构中的网络，根据业务需求部署上线以后，如果业务需求发生变动，重新修改相应网络设备(路由器、交换机、防火墙)上的配置是一件非常繁琐的事情。在互联网/移动互联网瞬息万变的业务环境下，网络的高稳定与高性能还不足以满足业务需求，灵活性和敏捷性反而更为关键。SDN所做的事是将网络设备上的控制权分离出来，由集中的控制器管理，无须依赖底层网络设备(路由器、交换机、防火墙)，屏蔽了来自底层网络设备的差异。在SDN网络中控制器作为统一的控制平面，承担着整个网络的大脑的作用。一旦SDN控制器出现故障，将会使整个网络的控制平面瘫痪，引发整网中断事故。软件定义网络SDN是一种新型的网络架构，它将网络的控制平面与数据平面分离，逻辑上集中式的控制平面使网络变的可编程、易管理。控制器在SDN网络中是中枢系统，它的性能对网络的性能有着重要的影响。SDN控制器实际上是一个软件，安装到服务器上就可以运行，控制器与网络设备之间通过OpenFlow协议进行交互，完成各种转发流表的下发和撤销。为了使SDN网络更好的普及，用户能够真正体会到SDN网络所带来的好处，就需要保证SDN控制器的可靠性进行保证，其中分布式集群技术是解决SDN控制器可靠性的一种成熟方案。当集群Leader出现网络中断、崩溃退出和重启等异常情况时， Zookeeper集群进入崩溃恢复模式。此时剩余仍然存活的成员设备开始进行Leader的重新选举，集群Leader选举成功并且整个集群中超过半数集群成员设备完成数据同步后，标志着集群退出崩溃恢复模式。集群每新选举一个Leader后，会以当前Leader保存的ZXID中的 counter值加1作为当前集群Leader周期编号，我们称之为epoch。同时将counter字段置0，形成新的ZXID以避免Leader错误使用相同ZXID编号提出不同Proposal的异常情况。当 Leader选举成功后，集群会以Leader为准开始同步数据，Leader为每一个Follower准备一个队列，通过这些队列将没有被同步的Proposal逐个发送给所有Follower，并在Proposal发送后再发送一个Commit消息以表示该事物已经被提交。等到Follower将所有Proposal同步完成并写入内存数据库中后，Leader就会将Follower加入可用列表，并开始之后的其他流程。 Zookeeper集群在Leader选举和数据同步都完成后，退出崩溃恢复模式，进入消息广播模式。消息广播模式是一个原子广播协议，Leader将所有Proposal按照FIFO原则通过队列广播至每一个Follower。Follower收到Proposal后，先将Proposal写入本地磁盘，成功后反馈给 Leader一个ACK响应，当Leader收到ACK后会发送Commit消息通知Follower提交 Proposal将数据写入本地数据库，同时Leader控制器自己也会提交该Proposal写入本地数据库。由于网络规模的不确定性，集中式的控制器已不能满足变化迅速的网络需求，分布式 SDN控制器成为一种必然的发展趋势。分布式SDN控制器需要具有高可用性，在控制面内的某一控制器实例发生故障时，不应该被转发面的网络设备感知，实现对底层网络设备的故障透明，保证网络的正常运行。由于本地控制器可能做出的是对于本地最优但对于全局却低效的决策，会带来本地与全局不一致的问题。因此，需要寻求一个能确保在不同目标间合理权衡的控制器位置。将控制器放置在移动节点上(即一种多层次结构无人机的控制设备上)，增强基础设施出现链路故障时的自适应能力和稳健性。这一选择已经过实验验证，在技术上是可行的，不过会造成很大开销，对于资源有限的设备而言受到一定限制。由于 SDN控制器和各个交换机的通信延时，控制平面的拥塞状况，交换机CPU的负载不同， SDN控制器发给各个交换机的Flow_Mod会无序的生效。在流表被更新的这段时间，网络便处于一个完全无法描述的状态。拥塞丢包，路由黑洞都可能在这段时间发生。如果这段时间足够的短，整个网络马上从上一个稳定的状态进入到下一个稳定的状态。但是如果由于某些原因，这次状态变化失败，是否允许网络处于一个未知的中间状态，是否需要像数据库那样支持网络状态的回滚，要维持SDN控制器和网络中所有交换机的状态保持同步是一件非常困难的事情。这个问题是SDN中最难也是最容易被忽略的一个问题。

就数据面而言有两个重要问题。一是SDN网络尤其是联合网络经常由大量异构网络单元组成，SDN数据面节点与使用非SDN路由协议的传统节点共存。要解决的一个关键技术问题是确定在何处部署SDN转发单元以及如何使用这些转发单元。二是当前提出的SDN方案依靠中心控制器更新数据面节点的所有转发规则。而SDN网动态性高，网络故障频繁，却又需要快速响应能力。这种集中化控制模式下，控制器安装所有转发规则，导致网络策略更新速度过慢，控制器开销大，因此要解决的第二个问题是如何使数据面节点自动响应网络变化，同时又能保持集中控制的优势。每一SDN部署决策不仅影响节点本身(正在升级的节点)，还会影响相邻一跳的邻居节点甚至更远距离的节点。可以借鉴ISP骨干网中SDN部署研究的相关成果。最近的研究提出采用基于贪婪的逼近算法，使可动态选择的通过SDN 节点的路由路径数量最大化，但这也仅仅是解决SDN部署问题的一小步。对于第二个问题，有两种方式可以考虑。一是使用分布式MANET协议作为SDN控制的备用方案。检测到链路故障后，数据面节点可运行传统MANET协议，通过迂回路径重新选择业务路由。而复杂的网络应用仍由SDN控制器管理，MANET协议作为补充，确保可以恢复基本连接。第二种方式是将一定的控制功能分配给数据面节点。实现方法是预先计算出可在本地执行的实现控制功能的代码块，并将其推送至数据面节点。如果数据面节点能够执行带状态转发，这些控制功能可采取状态相关转发规则的形式。SDN控制器提前计算并在某节点安装状态相关转发规则，克服该节点到另一节点的故障。实际上，常用的SDN编程语言也在推广这类带状态数据面行为。实现第一种方式非常简单，但实际应用中MANET协议会聚可能耗费很长时间，并且因为过于简单无法支持复杂任务应用。第二种方式可对链路故障作出即时响应，但需要计算代码块，这一问题可能会比较复杂，尤其是在策略复杂的大型网络中。另外，还需要所有数据面节点采用通用代码执行平台。总之，开发轻量级、灵活方法响应网络变化仍是一个开放研究问题。部署SMANET系统，混合SDN网络将是不可避免的中间一步。目前已有一些实验和理论研究成果，但仍面临很多开放挑战。如，安全问题，SDN控制器和数据面节点可能受到服务拒绝攻击(DoS)。此外，还需要进行广泛的测试评估，明确实现此类系统要做出的各种权衡以及系统的性能局限。控制器的选择要适应高动态网络的各种突发情况，比如某节点不适合作为控制器的节点、选择的节点宕机后要有备用控制器接管簇的管理任务等。虽然可以通过改变贪婪算法来实现。但在选择控制器节点时，不一定要选择价值最大的节点，应该综合考虑其他限制，如某个节点存在宕机风险，则那么无论其价值多么大，都不会选择它。

分层递阶是分析和组织复杂系统的一种常用方法。无论是信息分析还是行为控制，都有其层次性，在高层负责宏观的信息和决策，在低层负责具体的数据和控制。执行级一般由多个硬件控制器所组成，负责具体的过程控制。根据控制目的获得任务序列的过程，选择最有利的任务序列，根据任务的执行情况，对控制进行评估，并更新机器学习算法。根据任务执行产生的经验，不断减小决策的不确定性，改进任务分配的能力。传统控制方法研究的主要目标是被控对象，而智能控制研究的主要目标是控制器本身。智能控制的研究重点不在控制对象的数学模型分析，而在于智能控制器模型的建立，控制对象和控制性能。智能控制是自动控制与人工智能的结合，它可以自动测量被控对象的被控制量，并求出与期望值的偏差，同时采集输入环境信息，进而根据采集的输入信息和已有的知识进行“推理思考”，得到对被控对象的输出控制量，使偏差尽可能减小或消除。图神经网络(Graph NeuralNetwork,GNN)是一种直接在图结构上运行的神经网络，本质上是一类神经网络框架，其定义了一类非线性函数，并在无向图的结构上进行关系推理，通过这种关系推理，GNN可以有效挖掘图的结构信息，获得比现有算法更复杂准确的全局信息。无向图(Graph)是一种由节点(vertex)和边(edge)构成的数据结构，节点和边被称为图的结构。

机器学习中强化学习(Reinforcement Learning，RL)是一种有效解决这类随机优化问题的方式，其求解基于马尔科夫决策过程(MDP)，在该过程中，决策体与环境进行交互，采取每个行动后可以获得一定奖励，然后根据奖励调整后续决策。决策体通过不断重复这一过程以获得最大的长期累加回报。当状态空间和样本空间维度较高时往往无法表达。深度神经网络是天然的函数逼近器，Mnih等人在2013年提出了DQN算法。DQN算法直接将视频游戏中的原始图像作为输入，利用深度神经网络自动提取特征并估计Q函数，远比手动提取特征、手动设计状态的传统算法方便。2015年，Mnih等引入目标Q网络机制，进一步完善了DQN算法。DQN算法的成功离不开两项关键技术，一是经验回放机制，二是目标Q网络机制。经验回放机制是指，将智能体与环境交互产生的经验数据依次存储到固定大小的经验池 D中，经验池存满后再逐渐删除最早存进来的数据，值得注意的是，两个Q网络的结构相同，但参数不相同，每隔C次迭代后将现实Q网络的参数赋值给对应的目标Q网络。

发明内容

本发明的目的是针对现有技术存在问题，提供一种能够缩短控制器控制MANET网络的时延，提高MANET网络对动态环境的适应能力的无人机自主控制系统智能分层递阶控制选择方法，以解决现有技术中性能不佳的问题。

为实现上述发明目的，本发明提供了一种无人机自主控制系统智能分层递阶控制选择方法，其特征在于：在分层结构中，整个无人机网络按照簇算法分簇规则划分为多个簇，即若干个子网，然后再按照簇算法规则在每个簇中选出簇头节点，除簇头以外的节点则为成员节点，构建无人机自组织网络模型；无人机自组织网络模型将各个簇内部的交互为SDN网络的第一层，簇间节点的交互为网络的第二层，并将分层结构再细分为单频分层和多频分层两种结构，对于不同层的节点采用多个频率进行通信，簇头节点和簇内节点进行内部通信时使用频率f₁，簇头节点之间形成的高一层网络之间进行通信时使用频率f₂；基于图神经网络 GNN为每一个子网选择选择一个控制节点用于部署SDN控制器来管理网络，动态调整分层 MANET网络的控制节点，离线训练GNN网络设定一个受信任的节点，收集整个MANET网络所有节点的信息；在线簇头选举中，受信任节点将整个网络的信息输入训练好的GNN网络，根据GNN网络的输出结果，通过SDN控制器选举，分解为控制器可执行的控制序列，将SDN控制器选举结果分发给MANET网络的所有节点，深度强化学习训练出状态值函数，结合图神经网络和强化学习进行求解关于包含了若干个SDN控制器节点无向图G，在每一次迭代中进行线簇头选举，选出最终解的一个节点，经过N次迭代获得最终解。

本发明相比于现有技术具有如下有益效果：

本发明基于图神经网络的MANET网络的分层控制器选择技术，在移动自组织网络MANET在分层结构中，将整个无人机网络按照簇算法分簇规则划分为多个簇，即若干个子网，然后再按照簇算法规则在每个簇中选出簇头节点，除簇头以外的节点则为成员节点，构建无人机自组织网络模型；从物理结构上改变网络形态。这种采用人工智能技术(Artificial Intelligence， AI)引入一定的机器学习手段来为MANET网络设计高效的控制器选择算法。通过分层组网方式动态调整分层MANET网络的控制节点选择方案，从而缩短控制器控制MANET网络的时延，提高MANET网络对动态环境的适应能力。

本发明采用无人机自组织网络模型将各个簇内部的交互为SDN网络的第一层，簇间节点的交互为网络的第二层，并将分层结构再细分为单频分层和多频分层两种结构，对于不同层的节点采用多个频率进行通信，簇头节点和簇内节点进行内部通信时使用频率f₁，簇头节点之间形成的高一层网络之间进行通信时使用频率f₂；在这种结构下，网络的规模并不会受到限制，簇内的其他节点不需要考虑簇之间的通信和簇内部的信息维护，因此会少掉很多路由维护的开销，扩展性强。

本发明基于图神经网络GNN为每一个子网选择选择一个控制节点用于部署SDN控制器来管理网络，态调整分层MANET网络的控制节点，离线训练GNN网络用于在线簇头选举，设定一个受信任的节点收集整个MANET网络所有节点的信息，受信任节点将整个网络的信息输入训练好的GNN网络，根据GNN网络的输出结果SDN控制器选举，将SDN控制器选举结果分发给MANET网络的所有节点，深度强化学习训练出状态值函数，结合图神经网络和强化学习进行求解关于包含了若干个SDN控制器节点无向图G，在每一次迭代中进行线簇头选举，选出最终解的一个节点，经过N次迭代获得最终解。能够通过不断优化控制参数和寻找控制器的最佳结构形式，获得整体最优的控制性能。当出现多目标冲突时，可以在任务要求的范围内自行决策，主动采取行动。无需对网络中每个节点的路由器反复进行配置，网络中的设备本身就是自动化连通的。只需要在使用时定义好简单的网络规则即可。如果不喜欢路由器自身内置的协议，可以通过编程的方式对其进行修改，以实现更好的数据交换性能。这种方式打破了原本序列数据的强相关性，体现了“智能递增，精度递减”的原理，提高了数据的利用效率，解决了现有技术中性能不佳的问题，并且提高了无人机控制系统的稳定性，。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1是本发明无人机自主控制系统智能分层递阶控制选择框架示意图。

图2是图1的实施流程图。

具体实施方式

参阅图1。根据本发明，在移动自组织网络MANET的分层结构中，整个无人机网络按照簇算法分簇规则划分为多个簇，即若干个子网，然后再按照簇算法规则在每个簇中选出簇头节点，除簇头以外的节点则为成员节点，构建无人机自组织网络模型；无人机自组织网络模型将各个簇内部的交互为SDN网络的第一层，簇间节点的交互为网络的第二层，并将分层结构再细分为单频分层和多频分层两种结构，对于不同层的节点采用多个频率进行通信，簇头节点和簇内节点进行内部通信时使用频率f₁，簇头节点之间形成的高一层网络之间进行通信时使用频率f₂；基于图神经网络GNN为每一个子网选择选择一个控制节点用于部署SDN控制器来管理网络，动态调整分层MANET网络的控制节点，离线训练GNN网络设定一个受信任的节点，收集整个MANET网络所有节点的信息；在线簇头选举中，受信任节点将整个网络的信息输入训练好的GNN网络，根据GNN网络的输出结果，通过SDN控制器选举，将SDN控制器选举结果分发给MANET网络的所有节点，深度强化学习训练出状态值函数，结合图神经网络和强化学习进行求解关于包含了若干个SDN控制器节点无向图G，在每一次迭代中进行线簇头选举，选出最终解的一个节点，经过N次迭代获得最终解。

参阅图2。在线簇头选举中，离线训练GNN网络设定一个受信任的节点，收集整个MANET网络所有节点的信息，在每一次迭代将整个网络的状态为输入进行图嵌入，经过N 轮图嵌入后，网络中节点的信息和边的信息将聚合到各个节点上，为节点生成一个特征向量，然后将图神经网络的状态S聚合到每个节点上，用各个节点的特征向量及整个网络的特征向量得到状态值函数，供控制器节点的选择；受信任节点将整个网络的状态信息输入到训练好的GNN网络，根据GNN网络输出结果，将控制器选举结果分发给MANET网络的所有节点。

，在MANET网络的分层中，无人机自组织网络模型根据MANET网络的M个无人机节点N间的通信时延E，将实际无人机网络建模成一个无向图G＝(N,E)，将此无人机网络划分为各个簇不交叉的K个簇p，在每个簇内选择一个节点作为管理簇内成员的控制器节点；受信任节点根据GNN网络控制器选举的输出结果，深度强化学习训练出状态值函数，结合图神经网络和强化学习进行求解关于图的包含若干个控制器节点，在每一次迭代中进行线簇头选举，选出最终解的一个节点，经过N次迭代获得最终解。

在可选的实施例中，M个无人机节点N＝{n₁,n₂,...,n_M}和表示节点n_i和节点n_j间的通信时延E＝{e_ij}组成无人机自组织网络模型，可建模成一个无向图G＝(N,E)，并按照被控量偏差和偏差变化率的大小进行分层递阶控制。

由于SDN控制器要负责切片管理、路由寻址等工作需要掌握全局信息，通信时延E＝{e_ij}包括：SDN控制器与其管理的簇内节点的通信时延D₁(L)和控制器之间同步全局信息、同步控制信息的时延D₂(L),即

SDN控制器选取的时延整体最小minD(L)＝D₁(L)+βD₂(L)

其中，D₁表示簇内节点的通信时延，D₂表示控制器之间同步全局信息、同步控制信息的时延，L表示选择的控制节点，p_i表示第i个簇的节点集合，f_ij表示节点i和节点j发生通信业务需求的概率，e_ji表示节点i和节点j的通信时延，

表示簇i的控制器和簇j的控制器发生通信的概率，f_mn表示节点m和节点n发生通信的概率，m表示簇i内的一个节点， n表示簇j内的一个节点，β为控制器间延迟和簇内延迟的比例系数。

无人机自组织网络模型将无人机网络划分为K个簇P＝{p₁,p₂,...,p_k}，且各个簇不交叉，在每个簇内选择一个节点作为管理簇内成员、分配通信资源的SDN控制器节点，并设 SDN控制器节点为L＝{l₁,l₂,...,l_k}，各个节点之间存在通信的可能为F＝{f_ij},结合图神经网络和强化学习对要求求解关于无向图的优化问题。

图神经网络将网络的状态S聚合到每个节点上，然后用各个节点的特征向量及整个网络的特征向量，在当前状态下选择各个节点被选择控制器节点时的价值，深度强化学习训练出适应不同网络的模型，得到用于控制器节点选择的状态值函数。

在求解关于无向图的优化问题时，首先将整个网络的状态作为输入进行图嵌入，经过N轮图嵌入后，网络中节点的信息和边的信息将聚合到各个节点上，即为节点生成一个特征向量，然后以整张图的所有节点的特征向量作为状态值函数的输入，在每一次迭代中，只选出若干个控制器节点最终解包的一个节点，经过N次迭代获得最终解得到各个节点的价值。

本实施例接着对GNN的建模。在图神经网络GNN的建模中，无人机自组织网络模型依据无向图图G的全局属性μ、规模为N^V的节点集合V＝{v_i}，i＝1：N^V和规模为N^E的边的集合E＝{(e_k,r_k,s_k)}，k＝1：N^E，定义3个更新函数φ和三个聚合函数ρ组成的图神经网络 GNN模块和无向图(Graph)为G(μ，V,E)，利用三个聚合函数对图的结构属性进行计算，可以获得节点、边和无向图G的属性和用向量或张量列表进行表示的全局图信息，其中，s_k、 r_k是无向图G边的端点，e_k是无向图G边的属性。

图神经网络关注图的节点属、图的边属性以及图的全局属性，通过六个函数 e′_k＝φ^e(e_k,v_rk,v_sk,u)、

和

更新这三个属性。根据所应对任务的不同定制化地选取不同的图神经网络GNN模块[1]函数，关注边的任务将选择边φ^e、φ^u处理数据，关注节点的任务将选择φ^v、φ^u处理数据，本方法关注节点的选择，选择φ^v、φ^u处理数据，将边的特征聚集到节点和全局属性上。

本实施例采用一个叫Structure2Vec的图嵌入(graph embedding)神经网络GNN处理无人机网络，该图嵌入神经网络GNN结合当前的部分解、图中节点与边的属性，为图中每一个节点计算一个p维的特征嵌入μ_v。更具体的，Structure2Vec的图嵌入神经网络GNN处理无人机网络构建对无向图G计算的图形化判断模，根据无向图G的结构递归的定义网络的结构，对无向图G计算图形化判断模型根据无向图G的结构递归的聚合特定节点的标签或特征，经过几轮的迭代，结合节点的特征和节点间的特征，为每个节点产生一个嵌入：

通过合并任何其他有用的节点信息，可以很容易地将x_v扩展为矢量表示，为了使非线性变换更强大，可以在合并相邻的嵌入之前添加更多的线性整流单元relu层，

其中，F为通用非线性映射，t表示迭代的轮次，

为节点v的邻居节点，w(v,u)表示节点u和节点v之间边的权值，Θ为函数的参数。这是公式说明，图嵌入t+1轮得到的特征向量

取决于t轮的特征向量

节点邻居的特征向量

节点与其邻居的边的权值

以及当前节点是否加入部分解二进制标量x_v，x_v是二进制标量用于标识节点，v是否加入部分解。

仿真中具体的嵌入t+1轮得到的特征向量

公式为：

其中，relu是线性整流单元，

为模型参数。

仿真中，节点的信息为节点所属簇的信息，使用一个M维二进制向量x_v表示，M为分簇的数量，比如一个所属簇为簇一的节点v的节点特征为[1,0,0,...,0]，将该M维的向量尾部补零扩充维p维，作为节点的初始图嵌入特征向量

边的信息为两个节点间通信的延迟，是一个标量，通过与p维参数θ₄相乘转换为p维；当前部分解的信息x_v也是标量，通过与p维参数θ₁相乘转换为p维。

一旦每个节点的嵌入迭代了T次，就可以用它来定义

表示在状态S下采取动作v获得的价值，当前网络状态S经过图嵌入过程，会将信息嵌入到每个节点的特征向量中，因此可以用每个节点的嵌入

和整个图的嵌入池

来分别替换要选择的节点v和当前网络的状态S，得到以下公式：

接着由五元组

对控制器选举的过程进行一个完整的MDP建模，包括网络的分簇情况、网络的节点间通信时延、节点间的通信需求、当前被选为控制器的节点信息，动作空间为下一个选控制器的簇中的所有节点，即簇中的每一个节点都有可能被选为控制器,

其中，

表示动作空间，

表示状态转移概率，Θ为网络的参数。

本场景中一次完整的控制器选举过程会在很短的时间内完成，那么

中发生变化的只有当前被选为控制器的节点信息，那么在采取动作a时此状态转移概率为1的指向下一个状态。γ(γ∈(0，1])：回报折扣因子。该元素主要用于降低未来发生的状态-动作对产生的奖励值，使得未来状态对现在的影响变小。

即奖励函数与t时刻的网络状态和决策主体采取的动作的组合有关。具体的奖励函数为当前状态

下采取动作a后网络通信增加的延时，因为延时越小越好，所以要对其取负。这部分时延建模也包含两部分，即控制器间通信的时延以及控制器和簇内节点的通信的时延，即

接着对DQN的求解，Q-Learning算法利用二维表格来表达动作值函数，DQN算法将即时奖励r与下一状态目标Q网络估计的最大Q值之和作为目标Q值： y＝r+γmax_a′Q(s′，a′；θ^-)，定义损失函数的梯度为：

推导出损失函数的梯度：

每次迭代时从经验池中随机抽取一个小批量的数据来学习，实现Q网络估计的Q值Q(s，a；θ)。

DQN算法将即时奖励r与下一状态目标Q网络估计的最大Q值之和作为目标Q值： y＝r+γmax_a′Q(s′,a′；θ^-)，定义损失函数的梯度为：

推导出损失函数的梯度：

每次迭代时从经验池中随机抽取一个小批量的数据来学习，实现Q网络估计的Q值Q(s,a；θ)。

目标Q网络机制是指，存在目标Q网络和现实Q网络两个参数模型，用目标Q网络和即时奖励来估算目标Q值，用现实Q网络来估算现实Q值，这样能有效切断两个Q值的相关性，进一步提高了算法的性能。值得注意的是，两个Q网络的结构相同，但参数不相同，每隔C次迭代后将现实Q网络的参数赋值给对应的目标Q网络。此外，DQN算法也沿用了-greedy策略来提高模型的探索能力。具体的算法流程如下所示。算法1 DQN算法，初始化经验池的大小为N，目标Q网络的更新间隔为C，随机初始化Q网络的参数为，目标 Q网络的参数θ^-＝θ

本发明实施例最后对仿真结果进行介绍：使用pytorch进行算法仿真分析。根据前文描述算法，设计了如下仿真参数：节点数量12、分簇数量4，区域大小500km×500km，节点位置，在场景内随机均匀生成，节点通信概率，0-1之间随机生成。仿真结果显示，本算法收敛性良好，性能好于贪心算法且接近最优解，并对网络规模有良好的适应性，少量节点的加入或宕机不会对训练好的模型有较大的影响。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种无人机自主控制系统智能分层递阶控制选择方法，其特征在于：在移动自组织网络MANET的分层结构中，整个无人机网络按照簇算法分簇规则划分为多个簇，即若干个子网，然后再按照簇算法规则在每个簇中选出簇头节点，除簇头以外的节点则为成员节点，构建无人机自组织网络模型；无人机自组织网络模型将各个簇内部的交互为SDN网络的第一层，簇间节点的交互为网络的第二层，并将分层结构再细分为单频分层和多频分层两种结构，对于不同层的节点采用多个频率进行通信，簇头节点和簇内节点进行内部通信时使用频率f₁，簇头节点之间形成的高一层网络之间进行通信时使用频率f₂；基于图神经网络GNN为每一个子网选择选择一个控制节点用于部署SDN控制器来管理网络，动态调整分层MANET网络的控制节点，，离线训练GNN网络设定一个受信任的节点，收集整个MANET网络所有节点的信息；在线簇头选举中，受信任节点将整个网络的信息输入训练好的GNN网络，根据GNN网络的输出结果，通过SDN控制器选举，分解为控制器可执行的控制序列，将SDN控制器选举结果分发给MANET网络的所有节点，深度强化学习训练出状态值函数，结合图神经网络和强化学习进行求解关于包含了若干个SDN控制器节点无向图G，在每一次迭代中进行线簇头选举，选出最终解的一个节点，经过N次迭代获得最终解。

2.如权利要求所述的无人机自主控制系统智能分层递阶控制选择方法，其特征在于：在线簇头选举中，离线训练GNN网络设定一个受信任的节点，收集整个MANET网络所有节点的信息，在每一次迭代将整个网络的状态为输入进行图嵌入，经过N轮图嵌入后，网络中节点的信息和边的信息将聚合到各个节点上，为节点生成一个特征向量，然后将图神经网络的状态S聚合到每个节点上，用各个节点的特征向量及整个网络的特征向量得到状态值函数，供控制器节点的选择；受信任节点将整个网络的状态信息输入到训练好的GNN网络，根据GNN网络输出结果，将控制器选举结果分发给MANET网络的所有节点。

3.如权利要求1所述的无人机自主控制系统智能分层递阶控制选择方法，其特征在于：在移动自组织网络MANET的分层中，无人机自组织网络模型根据MANET网络的M个无人机节点N间的通信时延E，将实际无人机网络建模成一个无向图G＝(N，E)，将此无人机网络划分为各个簇不交叉的K个簇p，在每个簇内选择一个节点作为管理簇内成员的控制器节点；受信任节点根据GNN网络控制器选举的输出结果，深度强化学习训练出状态值函数，结合图神经网络和强化学习进行求解关于图的包含若干个控制器节点，在每一次迭代中进行线簇头选举，选出最终解的一个节点，经过N次迭代获得最终解。

4.如权利要求3所述的无人机自主控制系统智能分层递阶控制选择方法，其特征在于：M个无人机节点N＝{n₁，n₂，...，n_M}和表示节点n_i和节点n_j间的通信时延E＝{e_ij}组成无人机自组织网络模型，建模成一个无向图G＝(N，E)，并按照被控量偏差和偏差变化率的大小进行分层递阶控制。

5.如权利要求3所述的无人机自主控制系统智能分层递阶控制选择方法，其特征在于：通信时延E＝{e_ij}包括：SDN控制器与其管理的簇内节点的通信时延D₁(L)和控制器之间同步全局信息、同步控制信息的时延D₂(L)，即

SDN控制器选取的时延整体最小minD(L)＝D₁(L)+βD₂(L)

表示簇i的控制器和簇j的控制器发生通信的概率，f_mn表示节点m和节点n发生通信的概率，m表示簇i内的一个节点，n表示簇j内的一个节点，β为控制器间延迟和簇内延迟的比例系数。

6.如权利要求1所述的无人机自主控制系统智能分层递阶控制选择方法，其特征在于：无人机自组织网络模型将无人机网络划分为各个簇不交叉的K个簇P＝{p₁，p₂，...，p_k}，在每个簇内选择一个节点作为管理簇内成员、分配通信资源的SDN控制器节点，并设SDN控制器节点为L＝{l₁，l₂，...，l_k}，各个节点之间存在通信的可能为F＝{f_ij}，结合图神经网络和强化学习对要求求解关于无向图的优化问题；图神经网络将网络的状态S聚合到每个节点上，然后用各个节点的特征向量及整个网络的特征向量，在当前状态下选择各个节点被选择控制器节点时的价值，深度强化学习训练出适应不同网络的模型，得到用于控制器节点选择的状态值函数。

7.如权利要求6所述的无人机自主控制系统智能分层递阶控制选择方法，其特征在于：在求解关于无向图的优化问题时，首先将整个网络的状态作为输入进行图嵌入，经过N轮图嵌入后，网络中节点的信息和边的信息将聚合到各个节点上，即为节点生成一个特征向量，然后以整张图的所有节点的特征向量作为状态值函数的输入，在每一次迭代中，只选出若干个控制器节点最终解包的一个节点，经过N次迭代获得最终解得到各个节点的价值。

8.如权利要求1所述的无人机自主控制系统智能分层递阶控制选择方法，其特征在于：在图神经网络GNN的建模中，无人机自组织网络模型依据无向图图G的全局属性μ、规模为N^V的节点集合V＝{v_i}，i＝1：N^V和规模为N^E的边的集合E＝{(e_k，r_k，s_k)}，k＝1：N^E，定义3个更新函数φ和三个聚合函数ρ组成的图神经网络GNN模块和无向图(Graph)为G(μ，V，E)，利用三个聚合函数对图的结构属性进行计算，可以获得节点、边和无向图G的属性和用向量或张量列表进行表示的全局图信息，其中，s_k、r_k是无向图G边的端点，e_k是无向图G边的属性。

9.如权利要求8所述的无人机自主控制系统智能分层递阶控制选择方法，其特征在于：图神经网络关注图的节点属、图的边属性以及图的全局属性，通过六个函数e′_k＝φ^e(e_k，v_rk，v_sk，u)、

和

10.如权利要求9所述的无人机自主控制系统智能分层递阶控制选择方法，其特征在于：图嵌入神经网络GNN结合当前的部分解、图中节点与边的属性，为图中每一个节点计算一个p维的特征嵌入μ_v，；Structure2Vec的图嵌入神经网络GNN处理无人机网络，构建对无向图G计算的图形化判断模，根据无向图G的结构递归的定义网络的结构，图形化判断模型根据无向图G的结构递归的聚合特定节点的标签或特征，经过几轮的迭代，结合节点的特征和节点间的特征，为每个节点产生一个嵌入：

通过合并任何其他有用的节点信息，将x_v扩展为矢量表示，为了使非线性变换更强大，在合并相邻的嵌入之前添加更多的线性整流单元relu层，

其中，F为通用非线性映射，t表示迭代的轮次，

为节点v的邻居节点，w(v，u)表示节点u和节点v之间边的权值，Θ为函数的参数。这是公式说明，图嵌入t+1轮得到的特征向量

取决于t轮的特征向量

节点邻居的特征向量

节点与其邻居的边的权值