CN114415735B - 面向动态环境的多无人机分布式智能任务分配方法 - Google Patents
面向动态环境的多无人机分布式智能任务分配方法 Download PDFInfo
- Publication number
- CN114415735B CN114415735B CN202210329745.7A CN202210329745A CN114415735B CN 114415735 B CN114415735 B CN 114415735B CN 202210329745 A CN202210329745 A CN 202210329745A CN 114415735 B CN114415735 B CN 114415735B
- Authority
- CN
- China
- Prior art keywords
- network
- unmanned aerial
- task
- aerial vehicle
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000004044 response Effects 0.000 claims abstract description 53
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 24
- 238000011156 evaluation Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 18
- 239000000126 substance Substances 0.000 claims description 18
- 230000008901 benefit Effects 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 11
- 239000000446 fuel Substances 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000011835 investigation Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 abstract description 4
- 230000007787 long-term memory Effects 0.000 abstract description 3
- 238000004088 simulation Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000002787 reinforcement Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了面向动态环境的多无人机分布式智能任务分配方法,包括:建立动态任务分配模型,基于无人机的请求策略建立随机博弈模型,基于无人机的应答策略建立马尔科夫决策模型,实现动态任务分配态势的实时表达;根据动态任务分配模型搭建请求网络与应答网络;在Actor‑Critic框架下搭建基于深度长短期记忆网络的无人机的请求网络,基于深度Q网络搭建无人机的应答网络;基于优先经验回放方法从经验数据库收取数据,通过反向传播算法对请求网络与应答网络进行权值更新;基于请求网络和应答网络对动态环境下的任务实时分配。本发明采用上述方法,具有较好的实时决策能力,在无人机种类和数量上具有较高的可扩展性,可适用于更大规模的无人机集群。
Description
技术领域
本发明涉及无人机技术领域,尤其是涉及一种面向动态环境的多无人机分布式智能任务分配方法。
背景技术
随着无人机技术的快速发展,大规模无人机集群逐渐成为了重要的研究方向,旨在促进多无人机系统在不确定、危险的环境中协同完成各种任务的能力。其中,任务分配方法对无人机集群能否高效完成任务起到了关键性的作用。
多无人机系统的任务分配本质上是一个组合优化问题,其存在以下约束条件:异构无人机存在不同的能力;不同任务由不同无人机执行会产生不同成本或者收益;新增任务时间存在不确定性;任务需要不同能力的无人机合作完成。因此,在多无人机系统中如何快速、高效的完成任务分配是一个具有挑战性的工作。目前解决任务分配的方法主要有两种:集中式的和分布式。
集中式任务分配方法中,无人机集群的信息交流、信号传输和控制指令都是由一个控制中心发出的,使大量的计算任务都由地面站来完成,无人机只需进行轻量化设计。但是,集中式方法在进行任务分配时需要感知全局信息,在动态的战场环境中获取全局信息难度较高,并且随着无人机数量增多,任务分配的实时性也会下降。此外,集中式方法对地面战的依赖过于严重,一旦地面站遭受破坏,任务便无法继续进行。
分布式任务分配方法相对于集中式方法来讲,可以适应于更大规模的无人机集群,在实时性上有更好的优势。此外,基于分布式任务分配的多无人机系统由于不依赖地面站,对于任务场景的适应性更强。在执行任务的过程中,无人机可以根据自身状态与其他无人机通信进行决策,使得整个系统鲁棒性更强。目前,分布式任务分配方法中,基于一致性包分配算法为无人机任务分配提供了一种可行的方案,但是在处理动态任务的过程中需要重新进行任务分配,忽略了前期任务分配方案已达到无冲突的情况,浪费了之前的计算和通信资源。基于博弈论的方法,为无人集群的任务分配问题提供了一种自主决策框架,使得部分无人机可以适应于新增任务,其他无人机无需重新更换任务,可以适应于大规模无人机系统,但是仍然需要依赖全局无人机的通信。
因此,目前的分布式任务分配算法中存在以下问题:1)在任务重分配前忽略了无人机之间的无冲突状态,导致计算资源与通信资源的浪费;2)基于拍卖和博弈的动态任务分配方法仍然需要所有无人机全局通信,导致系统需要承担较大的通信负载。
发明内容
为了能够解决以上问题,本发明基于深度强化学习设计了双向请求动态任务分配方法,使得多无人机系统在只需局部通信的条件下重新分配部分无人机来满足动态任务需求,提高动态任务重分配的实时性,更好的利用无人机集群的现有资源。
为实现上述目的,本发明提供了如下技术方案:
面向动态环境的多无人机分布式智能任务分配方法,操作如下:
建立动态任务分配模型;基于无人机的请求策略建立随机博弈模型,基于无人机的应答策略建立马尔科夫决策模型,实现动态任务分配态势的实时表达;
根据动态任务分配模型搭建请求网络与应答网络;在Actor-Critic框架下搭建基于深度长短期记忆网络的无人机的请求网络,基于深度Q网络搭建无人机的应答网络;
训练请求网络与应答网络;基于优先经验回放方法从经验数据库收取数据,并使用时序差分误差来衡量经验的学习价值,然后通过反向传播算法对请求网络与应答网络进行权值更新;
基于请求网络和应答网络对动态环境下的任务实时分配。
优选的,所述无人机在执行新增任务需要满足如下约束条件和性能指标,
性能指标:
其中,表示参与新增任务的无人机数量,、、、分别表示第架无人机的打击能力、侦查能力、抗干扰能力、通讯能力,、、、分别表示新增任务所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力,表示第架无人机到达新增任务的距离,表示执行新增任务的无人机集群的各项总能力与新增任务所需的各项总能力的差值,为预设阈值。
状态空间:
立即收益:
状态空间:
其中,、、、分别表示第架无人机当前任务所需要的打击能力、侦察能力、抗干扰能力与通信能力,、分别表示新增任务和当前任务的重要程度/紧急性信息,表示无人机参与到新增任务中所需要的燃油消耗,表示无人机选择重要程度较高的任务时会获得奖励,为经验系数。
优选的,所述请求网络细分为决策网络和评价网络,二者均由双向LSTM网络和一个全连接层网络组成,均包括一层双向LSTM网络层、两层全连接层、一层输出层构成;决策网络的输入为状态空间,输出为是否向无人机发送任务请求;评价网络的输入为状态空间、动作空间,输出为获得的期望回报总收益;
所述应答网络为全连接网络,包括一层输入层、三层隐藏层和一层输出层,应答网络输入为新增任务的任务需求、当前任务的任务需求、无人机自身能力、任务的重要程度/紧急性、燃油消耗,输出为参与到新增任务所获得期望收益,根据贪婪策略决策是否参与新增任务;
所述请求网络和所述应答网络的隐藏层均采用非线性激活函数ReLu函数。
优选的,所述请求网络中,每个LSTM单元对应一个无人机,网络的不同节点参数共享,使得相邻无人机之间信息共享。
优选的,所述决策网络通过随时间反向传播的梯度下降方法最小化梯度更新决策网络的权值参数,评价网络采用差分误差作为损失函数。
优选的,所述请求网络训练过程中,使用重要性采样方法来修正优先经验回放方法带来的偏差。
本发明的面向动态环境的多无人机分布式智能任务分配方法,将前沿的智能方法与动态环境中的任务分配结合起来,具备如下优势:
(1)解决了基于博弈论等任务分配算法需要全局通信的问题。在动态任务的需求下,请求无人机只需要根据任务需求定向发布任务请求,无需向全局无人机发送任务请求,减少了通讯资源浪费;
(2)具有较高的实时性与可扩展性。请求网络基于长短期记忆网络设计,不仅为无人机提供信息交流的通道,而且能够在无人机数量变化的情况下定向对其他无人机发送任务请求;应答网络采用共享参数的方法,提高了应答策略的可扩展性。此外,请求-应答网络是根据经验数据进行端到端的学习和训练,动态环境下在线任务分配时,神经网络仅需要前向计算,具有较高的实时性;
(3)本发明在设计基于多无人机强化学习的请求策略时,使用经验的差分误差作为衡量经验数据质量的指标,差分误差较大的经验数据代表此类经验数据价值更高,需要无人机去学习,采用优先经验回放的方法优先提取这些数据进行训练,提高了算法的收敛速度。
附图说明
图1为本发明实施例的总体流程图;
图2为本发明实施例中任务分配总体流程图;
图3为本发明实施例中请求无人机决策网络结构;
图4为本发明实施例中请求无人机评价网络结构;
图5为本发明实施例中长短期记忆神经网络结构图;
图6为本发明实施例中ReLu函数示意图;
图7为本发明实施例中应答网络结构图;
图8为本发明实施例中迭代训练环节每个回合总收益变化过程;
图9为本发明实施例中平均收益随无人机规模变化图;
图10为本发明实施例中不同无人机规模下的任务决策结果的适应度值。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步说明。
无人机集群在城市上空针对固定目标执行任务,如打击与侦察等等。每个任务需要无人机具有对应的能力,并且能够独立执行。无人机集群进行初始分配之后出现了新增任务(动态任务),无人机集群中的一部分无人机需要到达新增任务地点,完成该任务。任务流程如下所示:
1)任务请求:在分布式的无人机空战中,发现新增任务的无人机为请求无人机,该无人机针对新增任务信息,向其他无人机(应答无人机)定向发送任务信息;
2)任务应答:应答无人机针对收到任务信息的重要性/紧急性、燃油消耗等信息,对新旧任务进行评估,然后向请求无人机发送应答信息(是否参与到新增任务中去);
3)任务决策:考虑燃料消耗为主要指标,请求无人机基于接收到应答信息决策参与到新增任务的无人机序列。
以上三个部分不断迭代,直到不再产生新增任务。
基于上述任务分配流程,本实施例中提供面向动态环境的多无人机分布式智能任务分配方法,具体操作详见下文。
定义无人机所需要的变量并描述约束条件、性能指标。
1、定义变量。
定义是区域内初始任务目标,其中表示该区域内第个任务并被异构无人机群执行。不同的任务具有的任务属性不同,以任务目标为例,分别表示完成任务目标所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力。定义为在该区域内新增任务目标,需要注意的是在复杂不确定动态博弈环境中,新增任务的重要程度/紧急性、任务位置和任务需求都是随机的。
定义表示该区域内共有架种类型的无人机,每种类型无人机都是由i架同类型的无人机组成,即。每种类型的无人机都具备不同的能力属性,表示第类无人机的打击能力、侦查能力、抗干扰能力以及通讯能力。不同能力的无人机构成了异构无人机集群多样性,也增加了任务分配的复杂性,如异构无人机群可能由无人机组成。在动态环境中需求发生变化或者出现新增任务后,定义请求无人机为,收到请求后的应答无人机为,应答回复为,其中,表示第架应答无人机不同意执行该新增任务,表示第架应答无人机同意执行该新增任务。
2、约束条件。
在满足现有任务需求外,要求对需求发生变化或者新增任务,执行此任务的异构无人机群具备的总打击能力、总侦查能力、总抗干扰能力以及总通讯能力均要大于完成该任务所需的各项能力,为了避免无人机在飞往任务目标过程中耗费过多燃料,执行任务的无人机与任务目标的距离需要尽量小,即:
3、性能指标。
在此基础上,考虑到区域内的无人机总数是不变的,可以执行任务的无人机资源是有限的,为了防止执行新增任务的无人机出现资源浪费的情况,建立如下性能指标函数。针对新增任务需求,要求执行该任务的异构无人机集群的各项总能力与执行该新增任务所需的各项总能力的差值必须小于某一阈值,以防止执行该任务的无人机发生资源浪费的情况,即:
建立动态任务分配模型。
针对基于多无人机强化学习算法的请求策略建立随机博弈模型,然后针对无人机的应答策略建立马尔科夫决策模型,实现动态任务分配态势的实时表达。
1.建立请求无人机的随机博弈模型。
状态空间主要包括新增任务对于无人机能力需求与当前无人机的总能力。
请求无人机的动作为是否向某个无人机发送任务请求,定义如下:
折扣因子是用来衡量未来收益对于当前累计收益的重要程度的,当时,意味着只考虑当前回报收益而不考虑未来回报收益,时,意味着未来回报收益和当前回报收益的重要程度相同。在新增任务分配中,我们期望尽可能单步完成向其他无人机的任务请求,因此本发明中。
通过以上对请求无人机的随即博弈模型描述,定义了状态集、动作集、立即收益以及状态转移概率和折扣因子,因此请求无人机的请求策略可以描述为在新增动态任务时,动态任务的总需求为,请求无人机通过请求网络计算最优的请求对象,向请求对象发送任务请求,并获得立即收益,应答无人机进行应答后,此时动态任务的需求发生变化,请求无人机根据新的总需求以及其他无人机的总能力,再一次决策最优请求对象,直到满足新增任务需求。
2.建立马尔可夫决策模型。
应答无人机的状态空间主要包括新增任务的任务需求、当前任务的任务需求、无人机自身能力、任务的重要程度/紧急性、燃油消耗等因素。
其中,表示新增任务所需要的各项能力要求,表示无人机正在执行的任务所需要的各项能力要求,表示无人机具有的各项能力。分别表示新增任务和当前任务的重要程度/紧急性信息,表示应答无人机参与到新增任务中所需要的燃油消耗。
应答无人机的动作为是否接受请求无人机的任务请求,可以表示为:
为了让应答无人机能够优先执行重要程度更高的任务,因此应答无人机的奖励函数定义如下:
其中,表示应答无人机选择重要程度较高的任务时会获得奖励,为根据专家经验设计的经验系数,当应答无人机满足请求无人机的新增任务时获得的奖励,即无人机选择任务紧急性更高、距离更近的任务会收到更高的奖励,若不满足以上条件则获得-1的奖励。
通过以上对应答无人机的马尔科夫决策关键要素的定义,应答无人机的任务决策过程可以描述为应答无人机在接受到请求无人机的任务请求时,根据无人机自身能力、当前任务、新增任务的任务需求、重要程度以及参与到新增任务的距离成本等状态信息,决策是否加入到新增任务中去,并获得立即收益,并且根据后续任务分配结果,获得应答无人机的下一个状态。
搭建请求网络与应答网络。
请求网络用来计算动态任务到达后,请求无人机的最优请求对象;应答网络用来计算应答无人机是否加入到新增任务中去。
1.请求网络建立。
请求网络中的Actor网络与Critic网络设计如图3、图4所示。在Actor-Critic框架下搭建基于深度长短期记忆网络的请求模型,其中的双向长短期记忆网络如图5所示。每个LSTM单元对应一个无人机,网络的不同节点参数共享,这样不仅提高训练速度,也使得相邻无人机之间的信息共享,为多无人机的信息融合提供了通道,并且模型能够在小规模无人机集群中进行训练,即便请求无人机周围的无人机数目发生变化,也不影响无人机决策结果。
决策网络(Actor网络)与评价网络(Critic网络)均由一层双向LSTM网络层、两层全连接层、一层输出层构成。决策网络的输入为状态,输出为是否向该无人机发送任务请求。评价网络的输入为状态、动作,输出为获得的期望回报总收益,因此输出维度为1。
上述决策网络及评价网络的隐藏层中均采用非线性激活函数ReLu函数,如图6所示,使得网络可以更好的拟合输入与输出的关系。
其中,分别为网络权重、偏差,相比于sigmoid函数和tanh函数等传统的网络激活函数,ReLu函数具备以下几方面的优势:1)具备相应的类脑仿生物学原理,关于大脑方面的相关研究表明生物神经元的信息编码通常是分散及稀疏的。这说明通常情况下在同一时间内,大脑中约有1%到4%的神经元处于活跃状态。而ReLu函数可以对神经网络中神经元的活跃度(即输出为正值)进行调试,使其符合实际生物学对模拟神经网络的要求;2)实现了更高效率的梯度下降及反向传播,有效避免了梯度爆炸和梯度消失问题;3)形式简单,使得神经网络的整体计算成本下降。
2.应答网络建立。
在请求无人机发出任务请求后,接受到请求的无人机根据自身状态与任务信息决策是否参与到新增任务中去。应答网络结构设计如图7所示,借鉴DQN算法的思想采用全连接神经网络拟合动作评价函数,该网络输入新增任务的任务需求、应答无人机当前任务的任务需求、应答无人机自身能力、任务的重要程度/紧急性、燃油消耗等信息,输出参与到新增任务所获得期望收益,根据贪婪策略决策是否参与到新增任务中去。
由于应答网络的任务是拟合在状态下,未来所有动作所获得期望收益值,因此采用全连接网络进行设计,第一层为输入层,其次为3层隐藏层,最后一层为输出层。输入层的维度与状态的维度保持一致;输出层的维度为2,即是否同意参与执行新增任务的两个动作的值。
网络中隐藏层和输出层均采用ReLu非线性激活函数,使得网络可以更好的拟合输入与输出的关系。
请求网络与应答网络离线训练。
完成请求网络与应答网络的结构设计之后,需要设计反向传播算法对两个网络进行权值更新。
1.请求网络的离线训练。
1)决策网络权值训练更新
采用深度强化学习对请求网络进行训练,其目标是学习到请求无人机向其它无人机发送任务请求的最佳请求策略,使请求无人机的累积回报最大化,其表达式如下:
2)评价网络权值训练更新
评价网络采用差分误差作为损失函数,这样可以学习经验数据的一部分,而无需使用整个回合的数据作为更新训练的样本。损失函数表达式如下:
评价网络用来评估策略网络的请求策略获得的累计期望收益值。
在训练策略网络与评价网络的过程中,需要不断的从经验数据库中获得历史数据。传统的强化学习一般采用随机经验回放方式提取数据,这样能够有效打破数据的相关性,但是不同的经验数据用于训练模型得到的效果是不一样的,有的经验数据具有更高的学习价值,因此采用优先经验回放方法对重要的经验样本优先提取,并训练模型,使得请求无人机在学习的过程中优先学习具有较高价值的历史数据,来提高学习速度。
在经验回放中,差分误差可以用来衡量经验数据的优先级。经验样本被采样的概率表达式如下:
当采用优先经验回放更新决策网络和评价网络时,评价网络准确估计Q值依赖于经验的正态分布,而优先经验回放打破了这种分布,带了偏差。因此,采用重要性采样方法来修正优先经验回放带来的偏差,其表达式如下:
2.应答无人机离线训练。
基于建立的应答无人机与任务交互的MDP(马尔科夫决策模型)和应答网络,在与仿真环境交互的过程中,将交互得到的经验数据存储到经验数据库中,并通过优先经验回放的经验数据提取方式对应答网络参数进行更新迭代。更新过程中,采用应答网络的输出值近似目标,需满足
最小。根据贝尔曼最优方程
可得到应答无人机应答网络的参数更新公式:
模型评估。
为了验证本发明提出的异构无人机动态任务分配算法的收敛性与有效性,本部分首先给出了本发明所使用的仿真环境与参数,然后比较了采用优先经验回放和不采用优先经验回放机制对于网络的收敛性能影响,最后通过对比联盟博弈任务分配算法与本发明方法,验证了本发明对于异构大规模无人集群动态任务分配的有效性。
1.仿真参数环境与参数。
该仿真是在Windows操作平台下进行,其中任务决策算法采用python语言和Facebook开发的Pytorch工具包实现编写。任务决策算法中请求无人机决策网络及评价网络由双向LSTM网络和一个全连接层网络组成,包含隐藏层2层,每个隐藏层节点数为100;应答无人机评价网络由全连接层网络组成,包含隐藏层3层,每个隐藏层节点数为100。在训练过程中,定义折扣因子,网络的学习率为,目标网络的软更新率为;经验数据库的大小为,同时每50时间步从经验数据库批量提取64条的数据用于网络训练。
表1 无人机的能力
在仿真实验中,假设区域内存在5种不同类型的任务无人机,每类无人机具备的打击能力、侦查能力、抗干扰能力以及通讯能力如表1所示。为了模拟动态环境不确定对无人机执行任务效率的影响,假设不同无人机执行任务的效率满足正态分布的随机变量。为了评估任务决策的效能,式(3)中的阈值设为45,表明在新任务执行的过程中,允许分配一个冗余的无人机,这一参数的设定即保证了新增任务的执行,又可以有效避免无人机资源的浪费。如果满足这一要求,则判定任务决策结果有效。
在仿真初始化阶段,假设区域内存在10个任务目标,任务目标所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力在范围内随机生成,任务重要程度在范围内随机生成,初始任务决策采用粒子群方法,并假设每项任务已经执行了一段时间(执行任务的无人机数量产生冗余)。设定新增任务所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力在范围内随机生成,任务重要程度在范围内随机生成。
2. 验证迭代训练环节。
根据上面所描述的动态环境中任务决策场景,为了显示迭代训练环节的有效性,图8给出了迭代训练环节每个回合总收益变化过程。如图所示,在4000回合之前,我们可以看到迭代训练过程中每回合获得的总收益随着训练回合数的增加持续上升,表明任务分配效果持续变好;在4000回合之后,每回合总收益保持稳定,表明任务分配的策略已经趋于稳定。同时,图8还与随机经验回放迭代更新算法进行了对比,可以看出,由于提高了对价值高的经验的利用效率,采用优先经验回放方法的迭代更新算法比采用随机经验回放方法的迭代更新算法的收敛速度更快。
3.验证在线决策环节。
为了验证所提分布式大规模异构无人集群任务决策方法的有效性,在上述仿真场景,将训练好的请求无人机请求网络和应答无人机应答网络用于在线任务决策当中,随机给定新增任务属性并且持续增加区域内无人机的规模,仿真结果如图9所示。
由式(6)可知,在请求无人机进行任务决策的过程中,请求无人机更希望请求距离更近且能力与任务需求相适应的无人机来执行任务,若出现向能力与任务需求不相适应的无人机发送任务请求,那么请求无人机将获得-10的立即回报收益值,表明该决策是不正确的。由式(10)可知,接受到请求的应答无人机,若新增任务的重要程度大于当前任务,那么执行新增任务将会获得的正回报收益值,反之回报收益值为负。若最终的大规模异构无人机集群任务决策结果满足式(3),那么请求无人机与应答无人机都会获得15的立即回报收益值。由于本方案是一种分布式任务决策方法,因此在图9中,采用平均收益值来衡量任务决策算法的好坏。从图中可以看出,整个过程平均收益值范围在50-80之间。说明对于大规模的无人机集群,该方法可给出合理有效的任务决策方案,证明了该方法的有效性。
为了进一步验证所提算法的优势,将基于联盟博弈任务决策方法作为对照组,进行仿真对比试验。在任务决策方法中过,基于约束与性能指标函数的适应度值(Fitness)通常用于描述决策结果的有效性,因此这里也采用适应度值对两种方法的任务决策结果进行评估。基于式(1)-(2)的约束条件和式(3)性能指标函数,定义适应度值为:
其中,是各个任务对应的性能指标函数的权值,可以根据任务的重要程度进行调整,则是每项任务需求对应的罚函数权值。这里,的值设置为任务的重要程度,的值设置为。根据适应度式(22)和临界值的大小,可获得FIT值的范围,为[-28,0]。
同样,假设区域内存在10个任务目标,并且在执行一段时间后,区域内新增任务。图10给出FIT值随无人机数量增加的散点图。从图中可已看出,本发明分布式智能任务决策方法与联盟博弈任务决策方法均能获得较为满意的任务决策结果,但随着无人机数量的增加,联盟博弈任务决策方法会出现任务决策结果无法满足约束条件,而分布式智能任务决策方法能够对大规模无人机集群进行满意的任务决策。给出了两种方法的实时性对比,如表2所示,得益于分布式任务决策架构,本发明的分布式智能任务决策方法具有较好的实时决策能力。因此,分布式智能任务决策方法要比联盟博弈任务决策方法更好,验证了所提方法的有效性。
表 2 不同无人机规模下的任务决策花费时间(单位:s)
以上是本发明的具体实施方式,但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求书所限定的保护范围为准。
Claims (5)
1.面向动态环境的多无人机分布式智能任务分配方法,其特征在于:
建立动态任务分配模型;基于无人机的请求策略建立随机博弈模型,基于无人机的应答策略建立马尔科夫决策模型,实现动态任务分配态势的实时表达;
根据动态任务分配模型搭建请求网络与应答网络;在Actor-Critic框架下搭建基于深度长短期记忆网络的无人机的请求网络,基于深度Q网络搭建无人机的应答网络;
训练请求网络与应答网络;基于优先经验回放方法从经验数据库收取数据,并使用时序差分误差来衡量经验的学习价值,然后通过反向传播算法对请求网络与应答网络进行权值更新;
基于请求网络和应答网络对动态环境下的任务实时分配;
所述无人机在执行新增任务需要满足如下约束条件和性能指标,
其中,表示参与新增任务的无人机数量,、、、分别表示第架无人机的打击能力、侦查能力、抗干扰能力、通讯能力,、、、分别表示新增任务所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力,表示第架无人机到达新增任务的距离,表示执行新增任务的无人机集群的各项总能力与新增任务所需的各项总能力的差值,为预设阈值;
2.根据权利要求1所述的智能任务分配方法,其特征在于:所述请求网络细分为决策网络和评价网络,二者均由双向LSTM网络和一个全连接层网络组成,均包括一层双向LSTM网络层、两层全连接层、一层输出层构成;决策网络的输入为状态空间,输出为是否向无人机发送任务请求;评价网络的输入为状态空间、动作空间,输出为获得的期望回报总收益;
3.根据权利要求2所述的智能任务分配方法,其特征在于:所述请求网络中,每个LSTM单元对应一个无人机,网络的不同节点参数共享,使得相邻无人机之间信息共享。
4.根据权利要求2所述的智能任务分配方法,其特征在于:所述决策网络通过随时间反向传播的梯度下降方法最小化梯度更新决策网络的权值参数,评价网络采用差分误差作为损失函数。
5.根据权利要求1所述的智能任务分配方法,其特征在于:所述请求网络训练过程中,使用重要性采样方法来修正优先经验回放方法带来的偏差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210329745.7A CN114415735B (zh) | 2022-03-31 | 2022-03-31 | 面向动态环境的多无人机分布式智能任务分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210329745.7A CN114415735B (zh) | 2022-03-31 | 2022-03-31 | 面向动态环境的多无人机分布式智能任务分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114415735A CN114415735A (zh) | 2022-04-29 |
CN114415735B true CN114415735B (zh) | 2022-06-14 |
Family
ID=81263229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210329745.7A Active CN114415735B (zh) | 2022-03-31 | 2022-03-31 | 面向动态环境的多无人机分布式智能任务分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114415735B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113934224B (zh) * | 2021-10-19 | 2024-01-23 | 西北工业大学 | 一种基于异构博弈方法的无人机弹性策略设计方法及系统 |
CN115016533B (zh) * | 2022-05-31 | 2023-03-24 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种无人机多机协同任务分配控制系统及其方法 |
CN116090342B (zh) * | 2023-01-06 | 2023-09-01 | 天津大学 | 基于联盟形成博弈的大规模无人机分布式任务分配方法 |
CN116501086B (zh) * | 2023-04-27 | 2024-03-26 | 天津大学 | 一种基于强化学习的飞行器自主规避决策方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852486A (zh) * | 2019-10-16 | 2020-02-28 | 中国人民解放军国防科技大学 | 一种无人机集群自主协同的任务规划方法 |
CN111049903A (zh) * | 2019-12-12 | 2020-04-21 | 大连理工大学 | 一种基于应用感知预测的边缘网络负载分配算法 |
CN111142553A (zh) * | 2019-12-11 | 2020-05-12 | 北京航空航天大学 | 基于生物捕食能量模型的无人机集群自主任务分配方法 |
CN111770454A (zh) * | 2020-07-03 | 2020-10-13 | 南京工业大学 | 移动群智感知中位置隐私保护与平台任务分配的博弈方法 |
CN112947575A (zh) * | 2021-03-17 | 2021-06-11 | 中国人民解放军国防科技大学 | 基于深度强化学习的无人机集群多目标搜索方法及系统 |
CN113329428A (zh) * | 2021-06-07 | 2021-08-31 | 大连理工大学 | 一种无人机辅助的移动边缘网络的请求调度方法 |
CN113900445A (zh) * | 2021-10-13 | 2022-01-07 | 厦门渊亭信息科技有限公司 | 基于多智能体强化学习的无人机协同控制训练方法及系统 |
CN113934228A (zh) * | 2021-10-18 | 2022-01-14 | 天津大学 | 基于协商共识的集群四旋翼无人机任务规划方法 |
-
2022
- 2022-03-31 CN CN202210329745.7A patent/CN114415735B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852486A (zh) * | 2019-10-16 | 2020-02-28 | 中国人民解放军国防科技大学 | 一种无人机集群自主协同的任务规划方法 |
CN111142553A (zh) * | 2019-12-11 | 2020-05-12 | 北京航空航天大学 | 基于生物捕食能量模型的无人机集群自主任务分配方法 |
CN111049903A (zh) * | 2019-12-12 | 2020-04-21 | 大连理工大学 | 一种基于应用感知预测的边缘网络负载分配算法 |
CN111770454A (zh) * | 2020-07-03 | 2020-10-13 | 南京工业大学 | 移动群智感知中位置隐私保护与平台任务分配的博弈方法 |
CN112947575A (zh) * | 2021-03-17 | 2021-06-11 | 中国人民解放军国防科技大学 | 基于深度强化学习的无人机集群多目标搜索方法及系统 |
CN113329428A (zh) * | 2021-06-07 | 2021-08-31 | 大连理工大学 | 一种无人机辅助的移动边缘网络的请求调度方法 |
CN113900445A (zh) * | 2021-10-13 | 2022-01-07 | 厦门渊亭信息科技有限公司 | 基于多智能体强化学习的无人机协同控制训练方法及系统 |
CN113934228A (zh) * | 2021-10-18 | 2022-01-14 | 天津大学 | 基于协商共识的集群四旋翼无人机任务规划方法 |
Non-Patent Citations (3)
Title |
---|
Liqian Dou 等.Distributed Finite-time Formation Control for Quadrotors Based on Adaptive State Observer.《Proceedings of the 38th Chinese Control Conference》.2019, * |
卢燕梅 等.集群无人机队形重构及虚拟仿真验证.《航空学报》.2020, * |
赵欣怡 等.类脑智能技术在无人系统上的应用.《控制理论与应用》.2019, * |
Also Published As
Publication number | Publication date |
---|---|
CN114415735A (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114415735B (zh) | 面向动态环境的多无人机分布式智能任务分配方法 | |
WO2021135554A1 (zh) | 一种无人车全局路径规划方法和装置 | |
CN112465151A (zh) | 一种基于深度强化学习的多智能体联邦协作方法 | |
EP3340121A1 (en) | Network traversal using neuromorphic instantiations of spike-time-dependent plasticity | |
AlMahamid et al. | Autonomous unmanned aerial vehicle navigation using reinforcement learning: A systematic review | |
CN114741886B (zh) | 一种基于贡献度评价的无人机集群多任务训练方法及系统 | |
CN114003059B (zh) | 运动学约束条件下基于深度强化学习的uav路径规划方法 | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
CN114510072B (zh) | 基于进化迁移优化的多无人机路径规划方法、终端及介质 | |
Liu et al. | Multi-agent reinforcement learning-based coordinated dynamic task allocation for heterogenous UAVs | |
CN115511109A (zh) | 一种高泛化性的个性化联邦学习实现方法 | |
CN116187787A (zh) | 作战资源跨域调配问题的智能规划方法 | |
CN113205220A (zh) | 一种面向实时订单数据的无人机物流配送全局规划方法 | |
Cao et al. | Autonomous maneuver decision of UCAV air combat based on double deep Q network algorithm and stochastic game theory | |
CN115481779A (zh) | 一种基于联邦强化学习的卫星资源调度优化方法 | |
Zhao et al. | Adaptive swarm intelligent offloading based on digital twin-assisted prediction in VEC | |
Zhao et al. | Learning transformer-based cooperation for networked traffic signal control | |
Akselrod et al. | Information flow control for collaborative distributed data fusion and multisensor multitarget tracking | |
CN110851911A (zh) | 终端状态计算模型训练方法、控制序列搜索方法及装置 | |
Zhou et al. | A novel mission planning method for UAVs’ course of action | |
Dong et al. | Multi-target dynamic hunting strategy based on improved k-means and auction algorithm | |
CN115329985B (zh) | 无人集群智能模型训练方法、装置和电子设备 | |
CN115963724A (zh) | 一种基于群智激发联盟博弈的无人机集群任务分配方法 | |
CN114401192B (zh) | 一种多sdn控制器协同训练方法 | |
CN115334165A (zh) | 一种基于深度强化学习的水下多无人平台调度方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |