CN114415735B - 面向动态环境的多无人机分布式智能任务分配方法 - Google Patents

面向动态环境的多无人机分布式智能任务分配方法 Download PDF

Info

Publication number
CN114415735B
CN114415735B CN202210329745.7A CN202210329745A CN114415735B CN 114415735 B CN114415735 B CN 114415735B CN 202210329745 A CN202210329745 A CN 202210329745A CN 114415735 B CN114415735 B CN 114415735B
Authority
CN
China
Prior art keywords
network
unmanned aerial
task
aerial vehicle
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210329745.7A
Other languages
English (en)
Other versions
CN114415735A (zh
Inventor
窦立谦
刘达
张睿隆
张哲宇
张秀云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210329745.7A priority Critical patent/CN114415735B/zh
Publication of CN114415735A publication Critical patent/CN114415735A/zh
Application granted granted Critical
Publication of CN114415735B publication Critical patent/CN114415735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了面向动态环境的多无人机分布式智能任务分配方法,包括:建立动态任务分配模型,基于无人机的请求策略建立随机博弈模型,基于无人机的应答策略建立马尔科夫决策模型,实现动态任务分配态势的实时表达;根据动态任务分配模型搭建请求网络与应答网络;在Actor‑Critic框架下搭建基于深度长短期记忆网络的无人机的请求网络,基于深度Q网络搭建无人机的应答网络;基于优先经验回放方法从经验数据库收取数据,通过反向传播算法对请求网络与应答网络进行权值更新;基于请求网络和应答网络对动态环境下的任务实时分配。本发明采用上述方法,具有较好的实时决策能力,在无人机种类和数量上具有较高的可扩展性,可适用于更大规模的无人机集群。

Description

面向动态环境的多无人机分布式智能任务分配方法
技术领域
本发明涉及无人机技术领域,尤其是涉及一种面向动态环境的多无人机分布式智能任务分配方法。
背景技术
随着无人机技术的快速发展,大规模无人机集群逐渐成为了重要的研究方向,旨在促进多无人机系统在不确定、危险的环境中协同完成各种任务的能力。其中,任务分配方法对无人机集群能否高效完成任务起到了关键性的作用。
多无人机系统的任务分配本质上是一个组合优化问题,其存在以下约束条件:异构无人机存在不同的能力;不同任务由不同无人机执行会产生不同成本或者收益;新增任务时间存在不确定性;任务需要不同能力的无人机合作完成。因此,在多无人机系统中如何快速、高效的完成任务分配是一个具有挑战性的工作。目前解决任务分配的方法主要有两种:集中式的和分布式。
集中式任务分配方法中,无人机集群的信息交流、信号传输和控制指令都是由一个控制中心发出的,使大量的计算任务都由地面站来完成,无人机只需进行轻量化设计。但是,集中式方法在进行任务分配时需要感知全局信息,在动态的战场环境中获取全局信息难度较高,并且随着无人机数量增多,任务分配的实时性也会下降。此外,集中式方法对地面战的依赖过于严重,一旦地面站遭受破坏,任务便无法继续进行。
分布式任务分配方法相对于集中式方法来讲,可以适应于更大规模的无人机集群,在实时性上有更好的优势。此外,基于分布式任务分配的多无人机系统由于不依赖地面站,对于任务场景的适应性更强。在执行任务的过程中,无人机可以根据自身状态与其他无人机通信进行决策,使得整个系统鲁棒性更强。目前,分布式任务分配方法中,基于一致性包分配算法为无人机任务分配提供了一种可行的方案,但是在处理动态任务的过程中需要重新进行任务分配,忽略了前期任务分配方案已达到无冲突的情况,浪费了之前的计算和通信资源。基于博弈论的方法,为无人集群的任务分配问题提供了一种自主决策框架,使得部分无人机可以适应于新增任务,其他无人机无需重新更换任务,可以适应于大规模无人机系统,但是仍然需要依赖全局无人机的通信。
因此,目前的分布式任务分配算法中存在以下问题:1)在任务重分配前忽略了无人机之间的无冲突状态,导致计算资源与通信资源的浪费;2)基于拍卖和博弈的动态任务分配方法仍然需要所有无人机全局通信,导致系统需要承担较大的通信负载。
发明内容
为了能够解决以上问题,本发明基于深度强化学习设计了双向请求动态任务分配方法,使得多无人机系统在只需局部通信的条件下重新分配部分无人机来满足动态任务需求,提高动态任务重分配的实时性,更好的利用无人机集群的现有资源。
为实现上述目的,本发明提供了如下技术方案:
面向动态环境的多无人机分布式智能任务分配方法,操作如下:
建立动态任务分配模型;基于无人机的请求策略建立随机博弈模型,基于无人机的应答策略建立马尔科夫决策模型,实现动态任务分配态势的实时表达;
根据动态任务分配模型搭建请求网络与应答网络;在Actor-Critic框架下搭建基于深度长短期记忆网络的无人机的请求网络,基于深度Q网络搭建无人机的应答网络;
训练请求网络与应答网络;基于优先经验回放方法从经验数据库收取数据,并使用时序差分误差来衡量经验的学习价值,然后通过反向传播算法对请求网络与应答网络进行权值更新;
基于请求网络和应答网络对动态环境下的任务实时分配。
优选的,所述无人机在执行新增任务需要满足如下约束条件和性能指标,
约束条件一:
Figure DEST_PATH_IMAGE002
约束条件二:
Figure DEST_PATH_IMAGE004
性能指标:
Figure DEST_PATH_IMAGE005
其中,
Figure DEST_PATH_IMAGE006
表示参与新增任务的无人机数量,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
分别表示第
Figure DEST_PATH_IMAGE015
架无人机的打击能力、侦查能力、抗干扰能力、通讯能力,
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE023
分别表示新增任务
Figure DEST_PATH_IMAGE025
所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力,
Figure DEST_PATH_IMAGE027
表示第
Figure DEST_PATH_IMAGE028
架无人机到达新增任务的距离,
Figure DEST_PATH_IMAGE029
表示执行新增任务的无人机集群的各项总能力与新增任务所需的各项总能力的差值,
Figure DEST_PATH_IMAGE030
为预设阈值。
优选的,所述随机博弈模型中,针对请求无人机定义了状态集
Figure DEST_PATH_IMAGE031
、动作集
Figure DEST_PATH_IMAGE032
、立即收益
Figure DEST_PATH_IMAGE033
、状态转移概率
Figure DEST_PATH_IMAGE034
和折扣因子
Figure DEST_PATH_IMAGE035
,请求无人机需满足如下条件:
状态空间:
Figure DEST_PATH_IMAGE036
动作空间:
Figure DEST_PATH_IMAGE038
立即收益:
Figure DEST_PATH_IMAGE039
状态转移概率:
Figure DEST_PATH_IMAGE041
折扣因子:
Figure DEST_PATH_IMAGE043
其中,
Figure DEST_PATH_IMAGE045
表示是否向第
Figure DEST_PATH_IMAGE046
架应答无人机发送任务请求--是代表
Figure DEST_PATH_IMAGE048
、否代表
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE051
为奖励值,
Figure DEST_PATH_IMAGE052
为距离系数,
Figure DEST_PATH_IMAGE054
为第
Figure DEST_PATH_IMAGE055
架无人机完成新增任务的概率。
优选的,所述马尔科夫决策模型中,针对应答无人机定义了状态集
Figure DEST_PATH_IMAGE056
、动作集
Figure DEST_PATH_IMAGE058
、立即收益
Figure DEST_PATH_IMAGE059
、状态转移概率
Figure DEST_PATH_IMAGE061
和折扣因子
Figure DEST_PATH_IMAGE062
,请求无人机需满足如下条件:
状态空间:
Figure DEST_PATH_IMAGE063
动作空间:
Figure DEST_PATH_IMAGE065
立即收益:
Figure DEST_PATH_IMAGE067
状态转移概率:
Figure DEST_PATH_IMAGE069
折扣因子:
Figure DEST_PATH_IMAGE071
其中,
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE074
Figure DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE078
分别表示第
Figure DEST_PATH_IMAGE079
架无人机当前任务所需要的打击能力、侦察能力、抗干扰能力与通信能力,
Figure DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE082
分别表示新增任务和当前任务的重要程度/紧急性信息,
Figure DEST_PATH_IMAGE084
表示无人机参与到新增任务中所需要的燃油消耗,
Figure DEST_PATH_IMAGE085
表示无人机选择重要程度较高的任务时会获得奖励,
Figure DEST_PATH_IMAGE086
为经验系数。
优选的,所述请求网络细分为决策网络和评价网络,二者均由双向LSTM网络和一个全连接层网络组成,均包括一层双向LSTM网络层、两层全连接层、一层输出层构成;决策网络的输入为状态空间
Figure DEST_PATH_IMAGE087
,输出为是否向无人机发送任务请求;评价网络的输入为状态空间
Figure DEST_PATH_IMAGE088
、动作空间
Figure DEST_PATH_IMAGE089
,输出为获得的期望回报总收益
Figure DEST_PATH_IMAGE090
所述应答网络为全连接网络,包括一层输入层、三层隐藏层和一层输出层,应答网络输入为新增任务的任务需求、当前任务的任务需求、无人机自身能力、任务的重要程度/紧急性、燃油消耗,输出为参与到新增任务所获得期望收益
Figure DEST_PATH_IMAGE091
,根据贪婪策略决策是否参与新增任务;
所述请求网络和所述应答网络的隐藏层均采用非线性激活函数ReLu函数。
优选的,所述请求网络中,每个LSTM单元对应一个无人机,网络的不同节点参数共享,使得相邻无人机之间信息共享。
优选的,所述决策网络通过随时间反向传播的梯度下降方法最小化梯度更新决策网络的权值参数,评价网络采用差分误差作为损失函数。
优选的,所述请求网络训练过程中,使用重要性采样方法来修正优先经验回放方法带来的偏差。
本发明的面向动态环境的多无人机分布式智能任务分配方法,将前沿的智能方法与动态环境中的任务分配结合起来,具备如下优势:
(1)解决了基于博弈论等任务分配算法需要全局通信的问题。在动态任务的需求下,请求无人机只需要根据任务需求定向发布任务请求,无需向全局无人机发送任务请求,减少了通讯资源浪费;
(2)具有较高的实时性与可扩展性。请求网络基于长短期记忆网络设计,不仅为无人机提供信息交流的通道,而且能够在无人机数量变化的情况下定向对其他无人机发送任务请求;应答网络采用共享参数的方法,提高了应答策略的可扩展性。此外,请求-应答网络是根据经验数据进行端到端的学习和训练,动态环境下在线任务分配时,神经网络仅需要前向计算,具有较高的实时性;
(3)本发明在设计基于多无人机强化学习的请求策略时,使用经验的差分误差作为衡量经验数据质量的指标,差分误差较大的经验数据代表此类经验数据价值更高,需要无人机去学习,采用优先经验回放的方法优先提取这些数据进行训练,提高了算法的收敛速度。
附图说明
图1为本发明实施例的总体流程图;
图2为本发明实施例中任务分配总体流程图;
图3为本发明实施例中请求无人机决策网络结构;
图4为本发明实施例中请求无人机评价网络结构;
图5为本发明实施例中长短期记忆神经网络结构图;
图6为本发明实施例中ReLu函数示意图;
图7为本发明实施例中应答网络结构图;
图8为本发明实施例中迭代训练环节每个回合总收益变化过程;
图9为本发明实施例中平均收益随无人机规模变化图;
图10为本发明实施例中不同无人机规模下的任务决策结果的适应度值。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步说明。
无人机集群在城市上空针对固定目标执行任务,如打击与侦察等等。每个任务需要无人机具有对应的能力,并且能够独立执行。无人机集群进行初始分配之后出现了新增任务(动态任务),无人机集群中的一部分无人机需要到达新增任务地点,完成该任务。任务流程如下所示:
1)任务请求:在分布式的无人机空战中,发现新增任务的无人机为请求无人机,该无人机针对新增任务信息,向其他无人机(应答无人机)定向发送任务信息;
2)任务应答:应答无人机针对收到任务信息的重要性/紧急性、燃油消耗等信息,对新旧任务进行评估,然后向请求无人机发送应答信息(是否参与到新增任务中去);
3)任务决策:考虑燃料消耗为主要指标,请求无人机基于接收到应答信息决策参与到新增任务的无人机序列。
以上三个部分不断迭代,直到不再产生新增任务。
基于上述任务分配流程,本实施例中提供面向动态环境的多无人机分布式智能任务分配方法,具体操作详见下文。
定义无人机所需要的变量并描述约束条件、性能指标。
1、定义变量。
定义
Figure DEST_PATH_IMAGE092
是区域内初始任务目标,其中
Figure DEST_PATH_IMAGE093
表示该区域内第
Figure DEST_PATH_IMAGE094
个任务并被异构无人机群
Figure DEST_PATH_IMAGE096
执行。不同的任务具有的任务属性不同,以任务目标
Figure DEST_PATH_IMAGE098
为例,
Figure DEST_PATH_IMAGE100
分别表示完成任务目标
Figure DEST_PATH_IMAGE102
所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力。定义
Figure DEST_PATH_IMAGE103
为在该区域内新增任务目标,需要注意的是在复杂不确定动态博弈环境中,新增任务的重要程度/紧急性、任务位置和任务需求都是随机的。
定义
Figure DEST_PATH_IMAGE105
表示该区域内共有
Figure DEST_PATH_IMAGE106
Figure DEST_PATH_IMAGE107
种类型的无人机,每种类型无人机都是由i架同类型的无人机组成,即
Figure DEST_PATH_IMAGE109
。每种类型的无人机都具备不同的能力属性,
Figure DEST_PATH_IMAGE111
表示第
Figure DEST_PATH_IMAGE112
类无人机的打击能力、侦查能力、抗干扰能力以及通讯能力。不同能力的无人机构成了异构无人机集群多样性,也增加了任务分配的复杂性,如异构无人机群
Figure DEST_PATH_IMAGE114
可能由无人机
Figure DEST_PATH_IMAGE116
组成。在动态环境中需求发生变化或者出现新增任务
Figure DEST_PATH_IMAGE117
后,定义请求无人机为
Figure DEST_PATH_IMAGE119
,收到请求后的应答无人机为
Figure DEST_PATH_IMAGE121
,应答回复为
Figure DEST_PATH_IMAGE123
,其中
Figure DEST_PATH_IMAGE125
Figure DEST_PATH_IMAGE126
表示第
Figure DEST_PATH_IMAGE127
架应答无人机不同意执行该新增任务,
Figure DEST_PATH_IMAGE128
表示第
Figure DEST_PATH_IMAGE129
架应答无人机同意执行该新增任务。
2、约束条件。
在满足现有任务需求外,要求对需求发生变化或者新增任务,执行此任务的异构无人机群具备的总打击能力、总侦查能力、总抗干扰能力以及总通讯能力均要大于完成该任务所需的各项能力,为了避免无人机在飞往任务目标过程中耗费过多燃料,执行任务的无人机与任务目标的距离需要尽量小,即:
Figure DEST_PATH_IMAGE131
(1)
Figure DEST_PATH_IMAGE133
(2)
其中,
Figure DEST_PATH_IMAGE134
表示参与新增任务的无人机数量,
Figure DEST_PATH_IMAGE136
表示第
Figure DEST_PATH_IMAGE137
架无人机与新增任务之间的距离。
3、性能指标。
在此基础上,考虑到区域内的无人机总数是不变的,可以执行任务的无人机资源是有限的,为了防止执行新增任务的无人机出现资源浪费的情况,建立如下性能指标函数。针对新增任务需求,要求执行该任务的异构无人机集群的各项总能力与执行该新增任务所需的各项总能力的差值必须小于某一阈值,以防止执行该任务的无人机发生资源浪费的情况,即:
Figure DEST_PATH_IMAGE138
(3)
其中,
Figure DEST_PATH_IMAGE140
为定义的预设阈值,具体
Figure DEST_PATH_IMAGE142
设定可以根据任务的具体需求进行调整。
建立动态任务分配模型。
针对基于多无人机强化学习算法的请求策略建立随机博弈模型,然后针对无人机的应答策略建立马尔科夫决策模型,实现动态任务分配态势的实时表达。
1.建立请求无人机的随机博弈模型。
1)状态空间
Figure DEST_PATH_IMAGE143
状态空间主要包括新增任务对于无人机能力需求与当前无人机的总能力。
Figure DEST_PATH_IMAGE145
(4)
其中,
Figure DEST_PATH_IMAGE147
代表动态任务所需的总打击能力、总侦察能力、总干扰能力、总通信能力,
Figure DEST_PATH_IMAGE149
代表各个无人机的打击能力、侦察能力、抗干扰能力、通信能力。
2)动作空间
Figure DEST_PATH_IMAGE150
请求无人机的动作为是否向某个无人机发送任务请求,定义如下:
Figure DEST_PATH_IMAGE152
(5)
其中,
Figure DEST_PATH_IMAGE154
表示是否向第
Figure DEST_PATH_IMAGE155
个无人机发送任务请求,如果向第
Figure DEST_PATH_IMAGE156
个无人机发送任务请求则
Figure DEST_PATH_IMAGE158
,反之
Figure DEST_PATH_IMAGE160
3)立即收益
Figure DEST_PATH_IMAGE161
Figure DEST_PATH_IMAGE163
(6)
其中,
Figure DEST_PATH_IMAGE164
为训练过程中根据专家经验设置的奖励值,
Figure DEST_PATH_IMAGE166
为所有待应答无人机到达动态任务的距离之和,
Figure DEST_PATH_IMAGE167
为距离系数。
4)状态转移概率
Figure DEST_PATH_IMAGE168
状态转移概率
Figure 760861DEST_PATH_IMAGE168
的定义为无人机在状态
Figure DEST_PATH_IMAGE169
下执行动作
Figure DEST_PATH_IMAGE170
到达状态
Figure DEST_PATH_IMAGE171
的概率,公式如下:
Figure DEST_PATH_IMAGE172
(7)
其中,
Figure DEST_PATH_IMAGE174
为所请求的第
Figure DEST_PATH_IMAGE175
个无人机完成新增任务的概率。
5)折扣因子
Figure DEST_PATH_IMAGE176
折扣因子是用来衡量未来收益对于当前累计收益的重要程度的,当
Figure DEST_PATH_IMAGE177
时,意味着只考虑当前回报收益而不考虑未来回报收益,
Figure DEST_PATH_IMAGE178
时,意味着未来回报收益和当前回报收益的重要程度相同。在新增任务分配中,我们期望尽可能单步完成向其他无人机的任务请求,因此本发明中
Figure DEST_PATH_IMAGE179
通过以上对请求无人机的随即博弈模型描述,定义了状态集、动作集、立即收益以及状态转移概率和折扣因子,因此请求无人机的请求策略可以描述为在新增动态任务时,动态任务的总需求为
Figure DEST_PATH_IMAGE180
,请求无人机通过请求网络计算最优的请求对象
Figure DEST_PATH_IMAGE181
,向请求对象发送任务请求,并获得立即收益
Figure DEST_PATH_IMAGE182
,应答无人机进行应答后,此时动态任务的需求发生变化,请求无人机根据新的总需求以及其他无人机的总能力,再一次决策最优请求对象,直到满足新增任务需求。
2.建立马尔可夫决策模型。
1)状态空间
Figure DEST_PATH_IMAGE183
应答无人机的状态空间主要包括新增任务的任务需求、当前任务的任务需求、无人机自身能力、任务的重要程度/紧急性、燃油消耗等因素。
Figure DEST_PATH_IMAGE184
架无人机的状态可以表示为:
Figure DEST_PATH_IMAGE186
Figure DEST_PATH_IMAGE188
Figure DEST_PATH_IMAGE190
(8)
其中,
Figure DEST_PATH_IMAGE191
表示新增任务所需要的各项能力要求,
Figure DEST_PATH_IMAGE193
表示无人机
Figure DEST_PATH_IMAGE194
正在执行的任务所需要的各项能力要求,
Figure DEST_PATH_IMAGE196
表示无人机
Figure 317482DEST_PATH_IMAGE194
具有的各项能力。
Figure DEST_PATH_IMAGE197
分别表示新增任务和当前任务的重要程度/紧急性信息,
Figure DEST_PATH_IMAGE198
表示应答无人机参与到新增任务中所需要的燃油消耗。
2)动作空间
Figure DEST_PATH_IMAGE199
应答无人机的动作为是否接受请求无人机的任务请求,可以表示为:
Figure DEST_PATH_IMAGE201
(9)
其中,
Figure DEST_PATH_IMAGE202
表示拒绝新增任务,
Figure DEST_PATH_IMAGE203
表示接受新增任务。
3)立即收益
Figure DEST_PATH_IMAGE204
为了让应答无人机能够优先执行重要程度更高的任务,因此应答无人机的奖励函数定义如下:
Figure DEST_PATH_IMAGE206
(10)
其中,
Figure DEST_PATH_IMAGE207
表示应答无人机选择重要程度较高的任务时会获得奖励,
Figure DEST_PATH_IMAGE208
为根据专家经验设计的经验系数,当应答无人机满足请求无人机的新增任务时获得
Figure DEST_PATH_IMAGE210
的奖励,即无人机选择任务紧急性更高、距离更近的任务会收到更高的奖励,若不满足以上条件则获得-1的奖励。
4)状态转移概率
Figure DEST_PATH_IMAGE211
将应答无人机实际完成动态任务和当前任务的效率
Figure DEST_PATH_IMAGE213
作为状态转移概率
Figure DEST_PATH_IMAGE214
,即:
Figure DEST_PATH_IMAGE216
(11)
5)折扣因子
Figure DEST_PATH_IMAGE217
与请求无人机类似,折扣因子
Figure DEST_PATH_IMAGE219
通过以上对应答无人机的马尔科夫决策关键要素的定义,应答无人机的任务决策过程可以描述为应答无人机
Figure DEST_PATH_IMAGE220
在接受到请求无人机的任务请求时,根据无人机自身能力、当前任务、新增任务的任务需求、重要程度以及参与到新增任务的距离成本等状态信息,决策是否加入到新增任务中去,并获得立即收益
Figure DEST_PATH_IMAGE221
,并且根据后续任务分配结果,获得应答无人机的下一个状态。
搭建请求网络与应答网络。
请求网络用来计算动态任务到达后,请求无人机的最优请求对象;应答网络用来计算应答无人机是否加入到新增任务中去。
1.请求网络建立。
请求网络中的Actor网络与Critic网络设计如图3、图4所示。在Actor-Critic框架下搭建基于深度长短期记忆网络的请求模型,其中的双向长短期记忆网络如图5所示。每个LSTM单元对应一个无人机,网络的不同节点参数共享,这样不仅提高训练速度,也使得相邻无人机之间的信息共享,为多无人机的信息融合提供了通道,并且模型能够在小规模无人机集群中进行训练,即便请求无人机周围的无人机数目发生变化,也不影响无人机决策结果。
决策网络(Actor网络)与评价网络(Critic网络)均由一层双向LSTM网络层、两层全连接层、一层输出层构成。决策网络的输入为状态
Figure DEST_PATH_IMAGE222
,输出为是否向该无人机发送任务请求。评价网络的输入为状态
Figure DEST_PATH_IMAGE223
、动作
Figure DEST_PATH_IMAGE224
,输出为获得的期望回报总收益
Figure DEST_PATH_IMAGE225
,因此输出维度为1。
上述决策网络及评价网络的隐藏层中均采用非线性激活函数ReLu函数,如图6所示,使得网络可以更好的拟合输入与输出的关系。
Figure DEST_PATH_IMAGE227
(12)
其中,
Figure DEST_PATH_IMAGE228
分别为网络权重、偏差,相比于sigmoid函数和tanh函数等传统的网络激活函数,ReLu函数具备以下几方面的优势:1)具备相应的类脑仿生物学原理,关于大脑方面的相关研究表明生物神经元的信息编码通常是分散及稀疏的。这说明通常情况下在同一时间内,大脑中约有1%到4%的神经元处于活跃状态。而ReLu函数可以对神经网络中神经元的活跃度(即输出为正值)进行调试,使其符合实际生物学对模拟神经网络的要求;2)实现了更高效率的梯度下降及反向传播,有效避免了梯度爆炸和梯度消失问题;3)形式简单,使得神经网络的整体计算成本下降。
决策网络的输出层采用softmax函数,以概率的方式将多个神经元的输出映射到
Figure DEST_PATH_IMAGE229
区间内,从而进行决策。评价网络输出层采用线性函数。
2.应答网络建立。
在请求无人机发出任务请求后,接受到请求的无人机根据自身状态与任务信息决策是否参与到新增任务中去。应答网络结构设计如图7所示,借鉴DQN算法的思想采用全连接神经网络拟合动作评价函数,该网络输入新增任务的任务需求、应答无人机当前任务的任务需求、应答无人机自身能力、任务的重要程度/紧急性、燃油消耗等信息,输出参与到新增任务所获得期望收益,根据贪婪策略决策是否参与到新增任务中去。
由于应答网络的任务是拟合在状态
Figure DEST_PATH_IMAGE230
下,未来所有动作所获得期望收益值,因此采用全连接网络进行设计,第一层为输入层,其次为3层隐藏层,最后一层为输出层。输入层的维度与状态
Figure DEST_PATH_IMAGE231
的维度保持一致;输出层的维度为2,即是否同意参与执行新增任务的两个动作的
Figure DEST_PATH_IMAGE232
值。
网络中隐藏层和输出层均采用ReLu非线性激活函数,使得网络可以更好的拟合输入与输出的关系。
请求网络与应答网络离线训练。
完成请求网络与应答网络的结构设计之后,需要设计反向传播算法对两个网络进行权值更新。
1.请求网络的离线训练。
1)决策网络权值训练更新
采用深度强化学习对请求网络进行训练,其目标是学习到请求无人机向其它无人机发送任务请求的最佳请求策略,使请求无人机的累积回报最大化,其表达式如下:
Figure DEST_PATH_IMAGE234
(13)
其中,
Figure DEST_PATH_IMAGE236
表示请求无人机网络权值,可以通过随时间反向传播的梯度下降方法最小化梯度
Figure DEST_PATH_IMAGE238
更新决策网络的权值参数,梯度
Figure DEST_PATH_IMAGE240
表达式如下:
Figure DEST_PATH_IMAGE242
(14)
其中,
Figure DEST_PATH_IMAGE244
为评价网络的
Figure DEST_PATH_IMAGE246
值。
2)评价网络权值训练更新
评价网络采用差分误差作为损失函数,这样可以学习经验数据的一部分,而无需使用整个回合的数据作为更新训练的样本。损失函数表达式如下:
Figure DEST_PATH_IMAGE248
(15)
其中,
Figure DEST_PATH_IMAGE250
为评价网络近似得到的累计期望收益值,
Figure DEST_PATH_IMAGE251
为请求无人机获得的立即收益。
评价网络用来评估策略网络的请求策略获得的累计期望收益值。
在训练策略网络与评价网络的过程中,需要不断的从经验数据库中获得历史数据。传统的强化学习一般采用随机经验回放方式提取数据,这样能够有效打破数据的相关性,但是不同的经验数据用于训练模型得到的效果是不一样的,有的经验数据具有更高的学习价值,因此采用优先经验回放方法对重要的经验样本优先提取,并训练模型,使得请求无人机在学习的过程中优先学习具有较高价值的历史数据,来提高学习速度。
在经验回放中,差分误差可以用来衡量经验数据的优先级。经验样本被采样的概率表达式如下:
Figure DEST_PATH_IMAGE253
(16)
其中,
Figure DEST_PATH_IMAGE255
为经验数据的优先级,
Figure DEST_PATH_IMAGE257
对应于采用多少的经验回放,
Figure DEST_PATH_IMAGE259
表示采用随机采样,
Figure DEST_PATH_IMAGE261
趋近于1时,表示差分误差较大的经验数据被采集的概率增加,
Figure DEST_PATH_IMAGE263
表示TD误差,
Figure DEST_PATH_IMAGE264
为一个很小的正数,避免TD误差为零的情况。
当采用优先经验回放更新决策网络和评价网络时,评价网络准确估计Q值依赖于经验的正态分布,而优先经验回放打破了这种分布,带了偏差。因此,采用重要性采样方法来修正优先经验回放带来的偏差,其表达式如下:
Figure DEST_PATH_IMAGE266
(17)
其中,
Figure DEST_PATH_IMAGE267
代表无人机总数,
Figure DEST_PATH_IMAGE268
时能够完全补偿优先经验回放带来的偏差。
2.应答无人机离线训练。
基于建立的应答无人机与任务交互的MDP(马尔科夫决策模型)和应答网络,在与仿真环境交互的过程中,将交互得到的经验数据存储到经验数据库中,并通过优先经验回放的经验数据提取方式对应答网络参数进行更新迭代。更新过程中,采用应答网络的输出值
Figure DEST_PATH_IMAGE270
近似目标
Figure DEST_PATH_IMAGE272
,需满足
Figure DEST_PATH_IMAGE274
(18)
最小。根据贝尔曼最优方程
Figure DEST_PATH_IMAGE276
(19)
可得到应答无人机应答网络的参数更新公式:
Figure DEST_PATH_IMAGE278
(20)
其中,
Figure DEST_PATH_IMAGE279
表示学习率,
Figure DEST_PATH_IMAGE281
为目标
Figure DEST_PATH_IMAGE282
值,
Figure DEST_PATH_IMAGE284
为神经网络输出
Figure DEST_PATH_IMAGE285
值。
考虑到训练网络所用的经验数据之间具有相关性,为了防止网络训练过程收敛不平稳,设计目标决策网络和目标评价网络,用来输出目标
Figure DEST_PATH_IMAGE286
值。
Figure DEST_PATH_IMAGE287
(21)
其中,时序差分误差
Figure DEST_PATH_IMAGE289
,采用Double Q-Learning的网络更新方法, 避免
Figure DEST_PATH_IMAGE290
值的过估计。
模型评估。
为了验证本发明提出的异构无人机动态任务分配算法的收敛性与有效性,本部分首先给出了本发明所使用的仿真环境与参数,然后比较了采用优先经验回放和不采用优先经验回放机制对于网络的收敛性能影响,最后通过对比联盟博弈任务分配算法与本发明方法,验证了本发明对于异构大规模无人集群动态任务分配的有效性。
1.仿真参数环境与参数。
该仿真是在Windows操作平台下进行,其中任务决策算法采用python语言和Facebook开发的Pytorch工具包实现编写。任务决策算法中请求无人机决策网络及评价网络由双向LSTM网络和一个全连接层网络组成,包含隐藏层2层,每个隐藏层节点数为100;应答无人机评价网络由全连接层网络组成,包含隐藏层3层,每个隐藏层节点数为100。在训练过程中,定义折扣因子
Figure DEST_PATH_IMAGE292
,网络的学习率为
Figure DEST_PATH_IMAGE294
,目标网络的软更新率为
Figure DEST_PATH_IMAGE296
;经验数据库
Figure DEST_PATH_IMAGE297
的大小为
Figure DEST_PATH_IMAGE299
,同时每50时间步从经验数据库
Figure 272054DEST_PATH_IMAGE297
批量提取64条的数据用于网络训练。
表1 无人机的能力
Figure DEST_PATH_IMAGE301
在仿真实验中,假设区域内存在5种不同类型的任务无人机,每类无人机具备的打击能力、侦查能力、抗干扰能力以及通讯能力如表1所示。为了模拟动态环境不确定对无人机执行任务效率的影响,假设不同无人机执行任务的效率
Figure DEST_PATH_IMAGE303
满足正态分布
Figure DEST_PATH_IMAGE305
的随机变量。为了评估任务决策的效能,式(3)中的阈值
Figure DEST_PATH_IMAGE307
设为45,表明在新任务执行的过程中,允许分配一个冗余的无人机,这一参数的设定即保证了新增任务的执行,又可以有效避免无人机资源的浪费。如果满足这一要求,则判定任务决策结果有效。
在仿真初始化阶段,假设区域内存在10个任务目标,任务目标所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力在
Figure DEST_PATH_IMAGE308
范围内随机生成,任务重要程度在
Figure DEST_PATH_IMAGE309
范围内随机生成,初始任务决策采用粒子群方法,并假设每项任务已经执行了一段时间(执行任务的无人机数量产生冗余)。设定新增任务
Figure DEST_PATH_IMAGE310
所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力在
Figure DEST_PATH_IMAGE311
范围内随机生成,任务重要程度在
Figure 713269DEST_PATH_IMAGE309
范围内随机生成。
2. 验证迭代训练环节。
根据上面所描述的动态环境中任务决策场景,为了显示迭代训练环节的有效性,图8给出了迭代训练环节每个回合总收益变化过程。如图所示,在4000回合之前,我们可以看到迭代训练过程中每回合获得的总收益随着训练回合数的增加持续上升,表明任务分配效果持续变好;在4000回合之后,每回合总收益保持稳定,表明任务分配的策略已经趋于稳定。同时,图8还与随机经验回放迭代更新算法进行了对比,可以看出,由于提高了对价值高的经验的利用效率,采用优先经验回放方法的迭代更新算法比采用随机经验回放方法的迭代更新算法的收敛速度更快。
3.验证在线决策环节。
为了验证所提分布式大规模异构无人集群任务决策方法的有效性,在上述仿真场景,将训练好的请求无人机请求网络和应答无人机应答网络用于在线任务决策当中,随机给定新增任务属性并且持续增加区域内无人机的规模,仿真结果如图9所示。
由式(6)可知,在请求无人机进行任务决策的过程中,请求无人机更希望请求距离更近且能力与任务需求相适应的无人机来执行任务,若出现向能力与任务需求不相适应的无人机发送任务请求,那么请求无人机将获得-10的立即回报收益值,表明该决策是不正确的。由式(10)可知,接受到请求的应答无人机,若新增任务的重要程度大于当前任务,那么执行新增任务将会获得
Figure DEST_PATH_IMAGE313
的正回报收益值,反之回报收益值为负。若最终的大规模异构无人机集群任务决策结果满足式(3),那么请求无人机与应答无人机都会获得15的立即回报收益值。由于本方案是一种分布式任务决策方法,因此在图9中,采用平均收益值来衡量任务决策算法的好坏。从图中可以看出,整个过程平均收益值范围在50-80之间。说明对于大规模的无人机集群,该方法可给出合理有效的任务决策方案,证明了该方法的有效性。
为了进一步验证所提算法的优势,将基于联盟博弈任务决策方法作为对照组,进行仿真对比试验。在任务决策方法中过,基于约束与性能指标函数的适应度值(Fitness)通常用于描述决策结果的有效性,因此这里也采用适应度值对两种方法的任务决策结果进行评估。基于式(1)-(2)的约束条件和式(3)性能指标函数,定义适应度值为:
Figure DEST_PATH_IMAGE314
(22)
其中,
Figure DEST_PATH_IMAGE315
表示评估第
Figure DEST_PATH_IMAGE316
个任务决策结果的性能指标函数,
Figure DEST_PATH_IMAGE317
Figure DEST_PATH_IMAGE318
Figure DEST_PATH_IMAGE319
Figure DEST_PATH_IMAGE320
为罚函数,定义如下:
Figure DEST_PATH_IMAGE322
Figure DEST_PATH_IMAGE324
Figure DEST_PATH_IMAGE326
Figure DEST_PATH_IMAGE328
其中,
Figure DEST_PATH_IMAGE329
是各个任务对应的性能指标函数的权值,可以根据任务的重要程度进行调整,
Figure DEST_PATH_IMAGE330
则是每项任务需求对应的罚函数权值。这里,
Figure 144950DEST_PATH_IMAGE329
的值设置为任务的重要程度
Figure DEST_PATH_IMAGE331
Figure 764151DEST_PATH_IMAGE330
的值设置为
Figure DEST_PATH_IMAGE333
。根据适应度式(22)和临界值
Figure DEST_PATH_IMAGE334
的大小,可获得FIT值的范围,为[-28,0]。
同样,假设区域内存在10个任务目标,并且在执行一段时间后,区域内新增任务
Figure DEST_PATH_IMAGE335
。图10给出FIT值随无人机数量增加的散点图。从图中可已看出,本发明分布式智能任务决策方法与联盟博弈任务决策方法均能获得较为满意的任务决策结果,但随着无人机数量的增加,联盟博弈任务决策方法会出现任务决策结果无法满足约束条件,而分布式智能任务决策方法能够对大规模无人机集群进行满意的任务决策。给出了两种方法的实时性对比,如表2所示,得益于分布式任务决策架构,本发明的分布式智能任务决策方法具有较好的实时决策能力。因此,分布式智能任务决策方法要比联盟博弈任务决策方法更好,验证了所提方法的有效性。
表 2 不同无人机规模下的任务决策花费时间(单位:s)
Figure DEST_PATH_IMAGE336
以上是本发明的具体实施方式,但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求书所限定的保护范围为准。

Claims (5)

1.面向动态环境的多无人机分布式智能任务分配方法,其特征在于:
建立动态任务分配模型;基于无人机的请求策略建立随机博弈模型,基于无人机的应答策略建立马尔科夫决策模型,实现动态任务分配态势的实时表达;
根据动态任务分配模型搭建请求网络与应答网络;在Actor-Critic框架下搭建基于深度长短期记忆网络的无人机的请求网络,基于深度Q网络搭建无人机的应答网络;
训练请求网络与应答网络;基于优先经验回放方法从经验数据库收取数据,并使用时序差分误差来衡量经验的学习价值,然后通过反向传播算法对请求网络与应答网络进行权值更新;
基于请求网络和应答网络对动态环境下的任务实时分配;
所述无人机在执行新增任务需要满足如下约束条件和性能指标,
约束条件一:
Figure 185844DEST_PATH_IMAGE001
(1)
约束条件二:
Figure 907812DEST_PATH_IMAGE002
(2)
性能指标:
Figure 194437DEST_PATH_IMAGE003
(3)
其中,
Figure 583830DEST_PATH_IMAGE004
表示参与新增任务的无人机数量,
Figure 163454DEST_PATH_IMAGE005
Figure 372718DEST_PATH_IMAGE006
Figure 322088DEST_PATH_IMAGE007
Figure 67453DEST_PATH_IMAGE008
分别表示第
Figure 319443DEST_PATH_IMAGE009
架无人机的打击能力、侦查能力、抗干扰能力、通讯能力,
Figure 281582DEST_PATH_IMAGE010
Figure 644431DEST_PATH_IMAGE011
Figure 993371DEST_PATH_IMAGE012
Figure 681841DEST_PATH_IMAGE013
分别表示新增任务
Figure 724752DEST_PATH_IMAGE014
所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力,
Figure 392756DEST_PATH_IMAGE015
表示第
Figure 611248DEST_PATH_IMAGE016
架无人机到达新增任务的距离,
Figure 205040DEST_PATH_IMAGE017
表示执行新增任务的无人机集群的各项总能力与新增任务所需的各项总能力的差值,
Figure 876193DEST_PATH_IMAGE018
为预设阈值;
所述随机博弈模型中,针对请求无人机定义了状态集
Figure 79379DEST_PATH_IMAGE019
、动作集
Figure 152377DEST_PATH_IMAGE020
、立即收益
Figure 41705DEST_PATH_IMAGE021
、状态转移概率
Figure 701618DEST_PATH_IMAGE022
和折扣因子
Figure 209960DEST_PATH_IMAGE023
,请求无人机需满足如下条件:
状态空间:
Figure 403044DEST_PATH_IMAGE024
动作空间:
Figure 338639DEST_PATH_IMAGE025
立即收益:
Figure 223199DEST_PATH_IMAGE026
状态转移概率:
Figure 535232DEST_PATH_IMAGE027
折扣因子:
Figure 441877DEST_PATH_IMAGE028
其中,
Figure 315417DEST_PATH_IMAGE029
表示是否向第
Figure 182879DEST_PATH_IMAGE030
架应答无人机发送任务请求,其中
Figure 33024DEST_PATH_IMAGE031
代表是,
Figure 935121DEST_PATH_IMAGE032
代表否,
Figure 711053DEST_PATH_IMAGE033
为奖励值,
Figure 331390DEST_PATH_IMAGE034
为距离系数,
Figure 719646DEST_PATH_IMAGE035
为第
Figure 102349DEST_PATH_IMAGE036
架无人机完成新增任务的概率;
所述马尔科夫决策模型中,针对应答无人机定义了状态集
Figure 816227DEST_PATH_IMAGE037
、动作集
Figure 392701DEST_PATH_IMAGE038
、立即收益
Figure 850228DEST_PATH_IMAGE039
、状态转移概率
Figure 954013DEST_PATH_IMAGE040
和折扣因子
Figure 573213DEST_PATH_IMAGE041
,请求无人机需满足如下条件:
状态空间:
Figure 902564DEST_PATH_IMAGE042
动作空间:
Figure 524300DEST_PATH_IMAGE043
立即收益:
Figure 255496DEST_PATH_IMAGE044
状态转移概率:
Figure 45597DEST_PATH_IMAGE045
折扣因子:
Figure 862243DEST_PATH_IMAGE046
其中,
Figure 160107DEST_PATH_IMAGE047
Figure 745809DEST_PATH_IMAGE048
Figure 706812DEST_PATH_IMAGE049
Figure 10755DEST_PATH_IMAGE050
分别表示第
Figure 115239DEST_PATH_IMAGE051
架无人机当前任务所需要的打击能力、侦察能力、抗干扰能力与通信能力,
Figure 414502DEST_PATH_IMAGE052
Figure 77565DEST_PATH_IMAGE053
分别表示新增任务和当前任务的重要程度,
Figure 842039DEST_PATH_IMAGE054
表示无人机参与到新增任务中所需要的燃油消耗,
Figure 248750DEST_PATH_IMAGE055
表示无人机选择重要程度较高的任务时获得的奖励值,
Figure 277886DEST_PATH_IMAGE056
为经验系数。
2.根据权利要求1所述的智能任务分配方法,其特征在于:所述请求网络细分为决策网络和评价网络,二者均由双向LSTM网络和一个全连接层网络组成,均包括一层双向LSTM网络层、两层全连接层、一层输出层构成;决策网络的输入为状态空间
Figure 111850DEST_PATH_IMAGE057
,输出为是否向无人机发送任务请求;评价网络的输入为状态空间
Figure 360691DEST_PATH_IMAGE058
、动作空间
Figure 305513DEST_PATH_IMAGE059
,输出为获得的期望回报总收益
Figure 579368DEST_PATH_IMAGE060
所述应答网络为全连接网络,包括一层输入层、三层隐藏层和一层输出层,应答网络输入为新增任务的任务需求、当前任务的任务需求、无人机自身能力、任务的重要程度、燃油消耗,输出为参与到新增任务所获得期望收益
Figure 82769DEST_PATH_IMAGE061
,根据贪婪策略决策是否参与新增任务;所述请求网络和所述应答网络的隐藏层均采用非线性激活函数ReLu函数。
3.根据权利要求2所述的智能任务分配方法,其特征在于:所述请求网络中,每个LSTM单元对应一个无人机,网络的不同节点参数共享,使得相邻无人机之间信息共享。
4.根据权利要求2所述的智能任务分配方法,其特征在于:所述决策网络通过随时间反向传播的梯度下降方法最小化梯度更新决策网络的权值参数,评价网络采用差分误差作为损失函数。
5.根据权利要求1所述的智能任务分配方法,其特征在于:所述请求网络训练过程中,使用重要性采样方法来修正优先经验回放方法带来的偏差。
CN202210329745.7A 2022-03-31 2022-03-31 面向动态环境的多无人机分布式智能任务分配方法 Active CN114415735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210329745.7A CN114415735B (zh) 2022-03-31 2022-03-31 面向动态环境的多无人机分布式智能任务分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210329745.7A CN114415735B (zh) 2022-03-31 2022-03-31 面向动态环境的多无人机分布式智能任务分配方法

Publications (2)

Publication Number Publication Date
CN114415735A CN114415735A (zh) 2022-04-29
CN114415735B true CN114415735B (zh) 2022-06-14

Family

ID=81263229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210329745.7A Active CN114415735B (zh) 2022-03-31 2022-03-31 面向动态环境的多无人机分布式智能任务分配方法

Country Status (1)

Country Link
CN (1) CN114415735B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113934224B (zh) * 2021-10-19 2024-01-23 西北工业大学 一种基于异构博弈方法的无人机弹性策略设计方法及系统
CN115016533B (zh) * 2022-05-31 2023-03-24 中国航空工业集团公司沈阳飞机设计研究所 一种无人机多机协同任务分配控制系统及其方法
CN116090342B (zh) * 2023-01-06 2023-09-01 天津大学 基于联盟形成博弈的大规模无人机分布式任务分配方法
CN116501086B (zh) * 2023-04-27 2024-03-26 天津大学 一种基于强化学习的飞行器自主规避决策方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852486A (zh) * 2019-10-16 2020-02-28 中国人民解放军国防科技大学 一种无人机集群自主协同的任务规划方法
CN111049903A (zh) * 2019-12-12 2020-04-21 大连理工大学 一种基于应用感知预测的边缘网络负载分配算法
CN111142553A (zh) * 2019-12-11 2020-05-12 北京航空航天大学 基于生物捕食能量模型的无人机集群自主任务分配方法
CN111770454A (zh) * 2020-07-03 2020-10-13 南京工业大学 移动群智感知中位置隐私保护与平台任务分配的博弈方法
CN112947575A (zh) * 2021-03-17 2021-06-11 中国人民解放军国防科技大学 基于深度强化学习的无人机集群多目标搜索方法及系统
CN113329428A (zh) * 2021-06-07 2021-08-31 大连理工大学 一种无人机辅助的移动边缘网络的请求调度方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN113934228A (zh) * 2021-10-18 2022-01-14 天津大学 基于协商共识的集群四旋翼无人机任务规划方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852486A (zh) * 2019-10-16 2020-02-28 中国人民解放军国防科技大学 一种无人机集群自主协同的任务规划方法
CN111142553A (zh) * 2019-12-11 2020-05-12 北京航空航天大学 基于生物捕食能量模型的无人机集群自主任务分配方法
CN111049903A (zh) * 2019-12-12 2020-04-21 大连理工大学 一种基于应用感知预测的边缘网络负载分配算法
CN111770454A (zh) * 2020-07-03 2020-10-13 南京工业大学 移动群智感知中位置隐私保护与平台任务分配的博弈方法
CN112947575A (zh) * 2021-03-17 2021-06-11 中国人民解放军国防科技大学 基于深度强化学习的无人机集群多目标搜索方法及系统
CN113329428A (zh) * 2021-06-07 2021-08-31 大连理工大学 一种无人机辅助的移动边缘网络的请求调度方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN113934228A (zh) * 2021-10-18 2022-01-14 天津大学 基于协商共识的集群四旋翼无人机任务规划方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Liqian Dou 等.Distributed Finite-time Formation Control for Quadrotors Based on Adaptive State Observer.《Proceedings of the 38th Chinese Control Conference》.2019, *
卢燕梅 等.集群无人机队形重构及虚拟仿真验证.《航空学报》.2020, *
赵欣怡 等.类脑智能技术在无人系统上的应用.《控制理论与应用》.2019, *

Also Published As

Publication number Publication date
CN114415735A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
WO2021135554A1 (zh) 一种无人车全局路径规划方法和装置
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
EP3340121A1 (en) Network traversal using neuromorphic instantiations of spike-time-dependent plasticity
AlMahamid et al. Autonomous unmanned aerial vehicle navigation using reinforcement learning: A systematic review
CN114741886B (zh) 一种基于贡献度评价的无人机集群多任务训练方法及系统
CN114003059B (zh) 运动学约束条件下基于深度强化学习的uav路径规划方法
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
CN114510072B (zh) 基于进化迁移优化的多无人机路径规划方法、终端及介质
Liu et al. Multi-agent reinforcement learning-based coordinated dynamic task allocation for heterogenous UAVs
CN115511109A (zh) 一种高泛化性的个性化联邦学习实现方法
CN116187787A (zh) 作战资源跨域调配问题的智能规划方法
CN113205220A (zh) 一种面向实时订单数据的无人机物流配送全局规划方法
Cao et al. Autonomous maneuver decision of UCAV air combat based on double deep Q network algorithm and stochastic game theory
CN115481779A (zh) 一种基于联邦强化学习的卫星资源调度优化方法
Zhao et al. Adaptive swarm intelligent offloading based on digital twin-assisted prediction in VEC
Zhao et al. Learning transformer-based cooperation for networked traffic signal control
Akselrod et al. Information flow control for collaborative distributed data fusion and multisensor multitarget tracking
CN110851911A (zh) 终端状态计算模型训练方法、控制序列搜索方法及装置
Zhou et al. A novel mission planning method for UAVs’ course of action
Dong et al. Multi-target dynamic hunting strategy based on improved k-means and auction algorithm
CN115329985B (zh) 无人集群智能模型训练方法、装置和电子设备
CN115963724A (zh) 一种基于群智激发联盟博弈的无人机集群任务分配方法
CN114401192B (zh) 一种多sdn控制器协同训练方法
CN115334165A (zh) 一种基于深度强化学习的水下多无人平台调度方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant