CN114741886B - 一种基于贡献度评价的无人机集群多任务训练方法及系统 - Google Patents
一种基于贡献度评价的无人机集群多任务训练方法及系统 Download PDFInfo
- Publication number
- CN114741886B CN114741886B CN202210404223.9A CN202210404223A CN114741886B CN 114741886 B CN114741886 B CN 114741886B CN 202210404223 A CN202210404223 A CN 202210404223A CN 114741886 B CN114741886 B CN 114741886B
- Authority
- CN
- China
- Prior art keywords
- network
- unmanned aerial
- aerial vehicle
- training
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 200
- 238000011156 evaluation Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000006870 function Effects 0.000 claims abstract description 140
- 230000009471 action Effects 0.000 claims abstract description 92
- 239000003795 chemical substances by application Substances 0.000 claims description 130
- 238000013528 artificial neural network Methods 0.000 claims description 37
- 230000003993 interaction Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 19
- 230000002787 reinforcement Effects 0.000 claims description 19
- 230000009916 joint effect Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 15
- 230000003321 amplification Effects 0.000 claims description 13
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 13
- 238000004088 simulation Methods 0.000 claims description 13
- 230000007613 environmental effect Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 11
- 230000008901 benefit Effects 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000006378 damage Effects 0.000 claims description 3
- DZCCLNYLUGNUKQ-UHFFFAOYSA-N n-(4-nitrosophenyl)hydroxylamine Chemical compound ONC1=CC=C(N=O)C=C1 DZCCLNYLUGNUKQ-UHFFFAOYSA-N 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 241000287196 Asthenes Species 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000003416 augmentation Effects 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000001276 controlling effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000009891 weiqi Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于贡献度评价的无人机集群多任务训练方法及系统,该方法使用两阶段的课程学习,在第一阶段进行单无人机训练,此时只有一架无人机执行任务来摧毁一个随机目标,最终得到一个演员网络和评论家网络,评论家网络表示状态—动作价值函数,该网络可用于在第二阶段构建贡献度评价函数网络。然后在第二阶段进行无人机集群的训练,使用第一阶段训练得来的演员网络和评论家网络,利用函数扩增的方式来初始化无人机集群中所有无人机的各个网络。本发明使得无人机集群中的各个无人机之间无需交换数据就能自行计算获得待执行的动作,各个无人机可以学得合作型策略,利于任务的完成;加快了贡献度评价函数网络和多智能体主演员网络的训练。
Description
技术领域
本发明涉及模拟仿真领域,特别的,涉及一种基于贡献度评价的无人机集群多任务训练方法,根据贡献度函数,使用多智能体强化学习对无人机集群进行训练,使得每架无人机学习各自的执行策略,并通过互相合作,更好地完成给定的任务。
背景技术
随着无人化、智能化技术的发展,如何通过无人机高效完成相关任务,已经成为一个极具现实意义的重要课题。无人机集群现有主流控制方式是由“主机”收集所有无人机的信息,经算法处理计算后将指令分发给各无人机。这种集中式处理方法所耗费的时间随着无人机数量的增多而增长,从而使得指令下发延迟较大,最终将导致无人机任务完成效果不佳等严重后果。
近年来,随着深度Q学习(Deep Q-Learning)的快速发展,深度强化学习技术取得较大的进步和突破,在如机械臂和机器人的控制领域、雅达利游戏和围棋的游戏领域、多轮对话系统、推荐系统等领域都进行了广泛的探索和应用。深度强化学习技术以试错和奖励训练出具有自主连续决策能力的智能体,因此使用深度强化学习技术中的多智能体强化学习算法训练无人机集群的各个无人机,实现各个无人机的自主控制以在模拟仿真中完成给定任务。
现有的多智能体强化学习算法通常是集中式训练、分散式执行的多智能体演员—评论家算法。在完成给定任务的模拟仿真中,无人机集群是由多个具备合作“意愿”的无人机组成,共同合作以完成给定任务,如:摧毁敌方防控阵地上的多个目标,包括预警雷达、制导雷达等。将该算法应用于无人机集群控制时,由于集中式训练导致无法判断各个无人机之间的互相影响,使得无人机难以学到合作型的策略来更高效的完成任务。
因此,如何提高深度学习中无人机的学习效率以及策略,使得无人机更高效的完成任务成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种基于贡献度评价的无人机集群多任务训练方法及系统,采用两阶段的课程训练:在第一阶段进行简化输入信息的单无人机训练,输入简化了与其它无人机相关联的信息,只输入单个无人机的相关信息,使用单智能体的演员—评论家算法进行训练;在第二阶段利用第一阶段训练得到的神经网络,使用函数扩增的方式构建无人机集群训练所需的各个神经网络,包括多智能体主演员网络、全局主Q网络以及贡献度评价函数网络,并使用基于贡献度评价函数的多智能体演员—评论家训练,进行多智能体训练,最终对多智能体主演员网络的性能进行评价,并根据评价的结果结束训练或者再次进行训练。
为达此目的,本发明采用以下技术方案:
一种基于贡献度评价的无人机集群多任务训练方法,包括如下步骤:
环境构建步骤S110:
单无人机训练初始化步骤S120:
初始化单无人机的演员—评论家网络模型,其中演员网络表示策略,输入为无人机m的局部观察om与无人机需要完成的任务d,输出为无人机需要执行的动作am,评论家网络表示状态—动作价值函数,输入为独立于无人机的环境状态信息senv、无人机的坐标sm、无人机的动作am以及无人机需要完成的任务d得到对应状态—动作对的状态—动作价值函数辅助演员网络的训练,最后初始化超参数:包括探索参数∈和训练间隔Etrain;
单无人机采样训练步骤S130:
通过单个无人机与环境不断交互,采集并存储交互产生的样本,用于单无人机网络的训练,交互的方式为在每个离散的时刻t,无人机m根据该时刻的观察信息执行动作随后环境信息在动作的影响下发生变化并反馈给无人机奖励采集的每个样本包括简化后的状态无人机m的观察任务d、动作奖励下一时刻简化后的状态以及下一时刻无人机的观察
单无人机训练网络训练步骤S140:
重复执行多次步骤S130以获得训练数据,随后从缓存β中随机采集样本来执行多轮网络更新:对采集的每个样本i,首先更新主评论家网络Q1,输入为来源于样本的简化后的状态无人机m的动作以及任务di,训练标签由目标评论家根据来源于样本的奖励和下一时刻简化后的状态以及任务di计算得到;随后更新主演员网络π1,其输入为来源于样本的局部观察和任务di,训练标签由主演员网络π1和主评论家网络Q1共同计算获得,最后更新目标网络的参数;
无人机集群各无人机网络构建步骤S150:
采样函数扩增的方式,在单无人机训练得到的主评论家网络和主演员网络的基础上来构建无人机集群训练阶段的三个网络,包括多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc,多智能体主演员网络π使用主演员网络构建π1和前馈神经网络扩增构建,全局主Q网络Qg以及贡献度评价函数网络Qc也分别使用主评论家网络Q1和和前馈神经网络扩增构建;
无人机集群训练初始化步骤S160:
初始化训练超参数,包括探索参数∈、无人机训练间隔为Etrain,以及最小探索参数∈end并初始化用于无人机集群训练的多任务多智能体演员—评论家网络π,贡献度评价函数网络Qc,由于所有无人机共用一套网络,所以初始化一个多智能体主演员网络π、一个全局主Q网络Qg、一个贡献度评价函数网络Qc以及对应的三个目标网络共六个网络;
无人机集群训练采样步骤S170:
通过无人机集群与环境不断交互,采集并存储交互产生的样本,用于步骤S160所初始化的无人机集群网络训练,交互的方式为在每个离散的时刻t,所有无人机根据该时刻各自的观察信息执行动作,随后环境信息由于所有无人机的联合动作ct而发生变化并反馈给各个无人机各自的奖励存储的每个训练样本包含的信息有状态st、所有无人机的联合观察ot、所有无人机的联合任务jt、所有无人机的联合动作ct、所有无人机得到的奖励集合下一时刻状态st+1以及下一时刻联合观察ot+1;
无人机集群训练步骤S180:
重复执行多次步骤S170以获得无人机集群与环境交互的数据,随后从缓存中随机采集样本i来执行多轮网络更新:首先利用目标全局主Q网络Qg计算得来的目标值来计算损失使用梯度下降更新全局主Q网络Qg,其输出用于计算优势函数来辅助多智能体主演员网络π的更新;然后利用目标贡献度评价函数网络Qc计算得来的目标值来计算损失使用梯度下降更新贡献度评价函数网络Qc,其输出用于计算优势函数;随后利用全局主Q网络Qg和贡献度评价函数网络Qc计算优势函数使用该优势函数计算多智能体主演员网络更新梯度,即多任务多智能体强化学习策略梯度,并使用梯度上升更新多智能体主演员网络π;最后更新三个目标网络的参数;
评估步骤S190:
使用多智能体主演员网络π控制无人机集群在仿真环境中多次执行摧毁任务,评判标准为摧毁任务的完成次数,如不满足要求则重新训练;如满足要求则退出训练,保存多智能体主演网络。
本发明进一步公开了一种基于贡献度评价的无人机集群多任务训练方法,包括存储介质和处理器,
所述存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的基于贡献度评价的无人机集群多任务训练方法。
本发明具有如下优点:
(1)使用集中式训练、分散式执行的多智能体强化学习技术进行无人机集群的训练,集中式训练指在训练时利用全局信息得到的全局主Q函数可以加快多智能体主演员网络的训练,而分散式执行指在获得各个无人机的动作时只需输入该无人机自身的观察信息,使得无人机集群中的各个无人机之间无需交换数据就能自行计算获得待执行的动作;
(2)使用贡献度评价函数解决贡献度分配问题,评估无人机集群中各个无人机对其它无人机完成任务的贡献,提高贡献度大的动作被选择的概率,使得各个无人机可以学得合作型策略,利于任务的完成;
(3)使用两阶段的课程训练。不直接对贡献度评价函数网络和多智能体主演员网络进行训练,而是先在第一阶段训练得到单无人机的演员—评论家网络,然后在第二阶段利用该演员—评论家网络构建的多智能体主演员网络、全局主Q网络和贡献度评价函数网络的基础上进行无人机集群的训练,从而加快贡献度评价函数网络和多智能体主演员网络的训练。
附图说明
图1是根据本发明具体实施例的基于贡献度评价的无人机集群多任务训练方法的流程图;
图2是根据本发明具体实施例的多智能体主演员网络的构造示意图;
图3是根据本发明具体实施例的全局主Q网络训练示意图;
图4是根据本发明具体实施例的贡献度评价函数网络训练示意图;
图5是根据本发明具体实施例的多智能体主演员网络训练示意图;
图6是根据本发明具体实施例的无人机集群摧毁敌方雷达阵地示意。
具体实施方式
下面对本发明涉及到的相关术语进行如下介绍:
1.多任务马尔可夫博弈
多任务马尔可夫博弈是基于马尔科夫决策过程的描述多任务多智能体强化学习的一个理想数学形式,可以用一个元组来描述:其中有N个由n∈[N]标注的智能体。在每个情节,每个智能体n有一个固定的任务且只有该智能体自己知道。在时刻t,全局状态每个智能体n接收观察并选择动作环境由于联合动作根据转移概率P(st+1|st,ct)转移到st+1。每个智能体收到一个单独的奖励学习任务就是去找到一个随机分散策略仅以局部观察和任务为条件,来最大化其中,γ∈(0,1),且由于分散策略,联合策略Π分解为使用a-n和d-n表示除智能体n以外的其它所有智能体的动作和任务。使用c和j表示联合动作和联合任务。使用Π表示联合策略。
2.集中式训练、分散式执行的演员—评论家算法
演员—评论家算法是一种强化学习算法,分为演员和评论家两部分,分别可用一个神经网络来表示。演员表示智能体的策略,负责输出动作用于智能体执行,评论家负责评判演员输出动作的好坏,用于辅助演员的训练。由于神经网络训练的标签也有该神经网络计算得来,导致随着神经网络的更新,其标签的不断变化使得训练不稳定。因此在实际训练时,除演员网络和评论家网络外,额外使用两个目标网络来计算标签,目标网络的结构分别与演员网络和评论家网络相同,其参数每隔一段时间以软更新的方式更新:θ′←τθ+(1-τ)θ′。其中θ′表示目标网络参数,θ表示演员(评论家)网络参数,τ为控制更新步长的超参数。
集中式训练和分散式执行指当把演员—评论家算法用于多智能体强化学习时,评论家接受完整的状态—动作信息,演员根据局部信息输出动作。接收完整的状态—动作信息的集中式评论家可以加快只接收局部信息的分散演员的训练。虽然集中式训练意味着输入空间会随智能体数量增加而线性扩展,但在许多只包含局部合作的实际推演仿真环境中,通常只涉及智能体之间少量的局部交互,因而允许使用少量智能体进行集中式训练,同时保持在大规模测试时分散执行的性能。
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明主要在于:提出一种贡献度评价函数,由贡献度评价函数网络表示,实现多任务多智能体演员—评论家算法中的贡献度分配,作用于多任务多智能体的策略梯度计算,使得无人机集群中的各个无人机学得具有合作性的策略,实现全局收益最大化;使用两阶段的课程学习,在第一阶段进行单无人机训练,此时只有一架无人机执行任务来摧毁一个随机目标,最终得到一个演员网络和评论家网络,评论家网络表示状态—动作价值函数,该网络可用于在第二阶段构建贡献度评价函数网络。然后在第二阶段进行无人机集群的训练,使用第一阶段训练得来的演员网络和评论家网络,利用函数扩增的方式来初始化无人机集群中所有无人机的各个网络。这种先进行单无人机训练,并利用函数扩增来衔接第一、二阶段的方式可以加速无人机集群的训练。
课程学习是一种训练深度学习模型的思想,将模型训练分为多个阶段,按照从易到难的顺序训练模型,可以通过在不同阶段简化模型结构或是选取特定训练样本来实现这种循序渐进的训练。
本发明采用两阶段的课程训练,在第一阶段,只针对一个无人机进行训练。在第二阶段,使用第一阶段的演员网络和评论家网络来构建无人机集群中N个无人机的网络,由于N个无人机都是同类实体,则N个无人机可以共享网络参数。使用两阶段课程学习的关键思想是,对于已经可以在单智能体情况下独自完成单个任务的智能体,其在多智能体环境中可以更好地通过额外探索发现和其它智能体合作完成任务的方案。
实现两个阶段课程学习的方式为简化第一阶段输入的维度,使用其它神经网络处理其它维度的输入并与第一阶段网络共同构成第二阶段训练的网络。具体操作为将无人机的观测信息分解为其中捕获无人机自身的属性,该属性必须是无人机可观察的,以进行闭环控制,而是其他无人机以自我为中心对该无人机的观测。以自我为中心的观测是私密的,其他无人机无法访问。类似地,全局状态s分解为s=(senv,sn,s-n),senv是不特定于任何无人机的环境信息,sn捕获无人机n的信息,s-n是除无人机n以外的其它无人机的信息。在第一阶段,由于单无人机的训练不需要处理和s-n的能力,因此减少策略和值函数的输入空间,从而减少可训练参数的数量,降低计算成本。在第二阶段,使用函数扩增的方式恢复第1阶段的参数并激活新模块以处理额外的输入和s-n,恢复的方式示例性的,如以下方案的在步骤S150中描述。
参见图1,示出了根据本发明具体实施例的基于贡献度评价的无人机集群多任务训练方法的流程图。
该方法,包括如下步骤:
环境构建步骤S110:
该步骤目的为:构建用于使用强化学习算法对无人机进行单无人机训练以及无人机集群训练的仿真环境。其中,单无人机训练的观测信息与状态信息与无人机集群训练的观测信息与状态信息应做区分以适应两阶段的课程学习。
具体的,以图6为例,无人机集群从起始点出发,互相合作飞往地方雷达阵地并在飞行期间保持合理的阵型,合理的阵型可以是风阻最小的阵型、雷达反射面最小的阵型等。在到达雷达阵地后,无人机集群中的各个无人机根据自己被分配的任务分散摧毁阵地上的目标,任务使用d来表示,取值为待摧毁目标的坐标位置(xd,yd,zd)。
显然,本领域技术人员知道,图6仅仅是一个示例,本发明的任务d能够包括分散摧毁阵地上的目标以外的其他目的,相应的坐标位置(xd,yd,zd)也不仅仅包含待摧毁的目标,可以为其它任务的目标地坐标。
该步骤为:设定无人机的任务d,取值为目标的坐标位置(xd,yd,zd),对于无人机集群中的任意无人机n,其观测空间为其中表示无人机n自身的坐标位置 表示其它所有无人机与无人机n的相对位置N为无人机的数量;状态信息为s=(senv,sn,s-n),其中senv表示所有目标的坐标位置sn为无人机n自身的坐标位置s-n为其它所有无人机的坐标位置
无人机的动作空间简化为前、后、上、下移动和左偏转、右偏转的6个离散动作;
单无人机训练初始化步骤S120:
该步骤包括:初始化单无人机的演员—评论家网络Q1,输入相比无人机集群训练的输入做了简化,其中演员网络表示策略,其输入是无人机m的局部观察om与无人机需要完成的任务d,输出是无人机m需要执行的动作am,评论家网络表示状态—动作价值函数,其输入是独立于无人机的环境状态信息senv、无人机的坐标sm、无人机的动作am以及无人机需要完成的任务d得到对应状态—动作对的状态—动作价值函数辅助演员网络的训练,最后初始化超参数:包括探索参数∈和训练间隔Etrain。
单无人机训练为课程训练第一阶段,该步骤目的为:初始化训练所需神经网络以及各个超参数。具体的,初始化在第一阶段训练所需的各个神经网络以及部分超参数。第一阶段训练为单无人机训练,所以共有两个主要网络以及辅助主要网络进行训练的目标网络。
具体的,该步骤包括如下子步骤:
(3)课程训练第一阶段是单无人机训练,对所有网络的输入进行简化,主评论家网络Q1与目标评论家网络输入为独立于无人机的环境状态信息senv、无人机m的信息sm、无人机m的动作am以及无人机m需完成的任务d,得到状态s1和动作am的状态—动作价值函数其中s1是简化后的状态信息,除去与其它无人机无关的部分,即s1=(senv,sm);主演员网络π1和目标演员网络输入为无人机m的局部观察以及无人机m需要完成的任务d,输出为所有可选动作的概率分布;初始化探索参数∈=∈start、探索参数下降速率∈step以及最小探索参数∈end并清空缓存β,初始化智能体训练间隔为Etrain。
单无人机采样训练步骤S130:
该步骤包括:通过单个无人机与环境不断交互,采集并存储交互产生的样本,用于单无人机网络的训练,交互的方式为在每个离散的时刻t,无人机m根据该时刻的观察信息执行动作随后环境信息在动作的影响下发生变化并反馈给无人机奖励采集的每个样本包括简化后的状态无人机m的观察任务d、动作奖励下一时刻简化后的状态以及下一时刻无人机的观察
本步骤用于采集并存储样本用于在步骤S120初始化的网络的训练。
具体的,随机分配一个任务d给无人机m,并初始化简化后的状态和观察为和接下来重复执行T步以下的交互,具体在每个时间步t,将无人机m的观察和任务d输入主演员网络π1,根据输出的动作概率分布采样动作执行动作环境信息发生变化,无人机m获得环境(仿真系统)反馈的奖励下一时刻状态以及下一时刻观察以转移元组的形式将每个时间步t获得的样本存入缓存β,转移元组为
单无人机训练网络训练步骤S140:
该步骤包括:首先重复执行多次步骤S130以获得训练数据,随后从缓存β中随机采集样本来执行多轮网络更新:对于采集的每个样本i,首先更新主评论家网络Q1,输入为来源于样本的简化后的状态无人机m的动作以及任务di,训练标签由目标评论家根据来源于样本的奖励和下一时刻简化后的状态以及任务di计算得到;随后更新主演员网络π1,其输入为来源于样本的局部观察和任务di,训练标签由主演员网络π1和主评论家网络Q1共同计算获得;最后更新目标网络的参数。
该步骤主要为对步骤S120初始化的网络进行单无人机的训练,采用一般的单智能体强化学习算法,这里使用的是基于策略梯度的演员—评论家算法。
该步骤的具体过程为:重复执行步骤130共E次,如果∈>∈end,每次衰减探索参数∈←∈-∈step,期间每隔Etrain次便执行一次智能体训练过程,每次训练过程执行K轮更新,每轮更新执行以下步骤:
(6).更新所有目标网络参数θ′←τθ+(1-τ)θ′,其中θ表示任意的主网络参数,θ′表示与之对应的目标网络参数,τ是人为设定的超参数,控制更新的幅度。
该步骤为对步骤S120初始化的网络进行单无人机的训练。强化学习训练过程是一个交叉逼近的过程,即训练样本由无人机与环境交互获得(演员网络输出动作使智能体执行),重复执行步骤S130使得性能更好的无人机能够获得更优质的样本,而更优质的样本反过来促进无人机训练得更好。衰减探索参数∈使得演员网络(也即策略网络)最终收敛到最优。
本发明的课程训练的核心就是通过将模型训练分为多个阶段,按照从易到难的顺序训练模型,从而简化训练难度。通过步骤S110-S140完成了分阶段学习的第一阶段,对单无人机网络演员—评论家网络进行了构建和训练,且已经能指导单无人机基本完成其任务。接下来将进入第二阶段,即无人机集群训练阶段的网络模型是本实例最终需要得到的网络模型,使用函数扩增的方式利用第一阶段得到的网络模型构建无人机集群训练所需的网络模型,使得第二阶段训练可以更加容易。
无人机集群各无人机网络构建步骤S150:
该步骤用于构建第二阶段训练所需的三个神经网络。
在该步骤中,除构建基本的多任务多智能体演员—评论家网络模型以外,还额外构建了本发明所提出的贡献度评价函数网络Qc。贡献度评价函数网络表示贡献度评价函数,目的是为解决无人机集群中各无人机之间的贡献度分配问题。对于n,m∈[N],对任务dn和无人机m的动作的贡献度评价函数为
表示无人机m对于其它无人机n完成其任务dn所做的贡献大小,该贡献度评价函数会在步骤S180结合到多智能体主演员网络的更新梯度计算中,使得训练得到的多智能体主演员网络能够指导各无人机执行更具合作性的行为,使得全局收益最大化,贡献度评价函数中的Π表示所有无人机策略的联合策略。
该步骤包括:采样函数扩增的方式,在单无人机训练得到的主评论家网络和主演员网络的基础上来构建无人机集群训练阶段的三个网络,包括多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc,多智能体主演员网络π使用主演员网络构建π1和前馈神经网络扩增构建,全局主Q网络Qg以及贡献度评价函数网络Qc也分别使用主评论家网络Q1和和前馈神经网络扩增构建。
具体过程为:
为无人机集群的N个无人机初始化三个网络,分别为多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc。
其中,所述多智能体主演员网络π由两个神经网络π1,π2构成,π1是单无人机训练得到的主演员网络,π2是一个新初始化的隐藏层数量为2的前馈神经网络,π2的输入为输出层直接与π1的最后一层隐藏层相连,因此多智能体主演员网络π的输入由π1的输入和π2的输入构成,即全局观察和无人机n的任务dn,输出为π1的输出,即无人机n可执行动作的概率分布。
所述全局主Q网络Qg由两个前馈神经网络Q1,构成,其中Q1是单无人机训练得来的主评论家网络,是新初始化的一个隐藏层数量为2的前馈神经网络,输入为(s-n,a-n),其输出层与Q1的最后一层隐藏层相连,因此全局主Q网络Qg的输入为Q1,输入的联合,即全局状态s=(senv,sn,s-n),N个智能体的联合动作c=(an,a-n)、以及无人机n的任务dn,输出由网络Q1完成,表示在全局状态s下,当其它无人机联合动作为a-n,无人机n的动作为an时的状态—动作价值
所述贡献度评价函数网络Qc的输入为全局状态s=(senv,sn,s-n),任意无人机m的动作am以及无人机n的任务dn,输出为贡献度评价函数所以构建课程训练第二阶段贡献度评价函数网络Qc的方式也与上述构建多智能体主演员网络π的方式类似。贡献度评价函数网络Qc由两个前馈神经网络构成Q1,其中Q1是单无人机训练得来的主评论家网络,是新初始化的一个隐藏层数量为2的前馈神经网络,其输入为s-n,其输出层与Q1的最后一层隐藏层相连。贡献度评价函数网络Qc的输入为Q1,输入的联合,即全局状态s=(senv,sn,s-n),任意无人机m的动作am以及无人机n的任务dn,输出由网络Q1完成,表示无人机m关于无人机n的贡献度评价函数
在该步骤中,由于第二阶段训练所需的三个神经网络与第一阶段的两个神经网络相比只是具有额外的输入维度,因此构建的方式为使用额外的神经网络处理这些额外的输入并使其输出与第一阶段的神经网络的最后一层隐藏层相连。这样便保留了第一阶段训练的结果,从而加速第二阶段的训练。
无人机集群训练初始化步骤S160:
该步骤的目的为初始化无人机集群训练所需的各个神经网络以及部分超参数。
无人机集群训练为课程训练第二阶段,由于N个无人机为同质智能体,所以可以共用一套网络,通过输入任务的不同来区分不同的无人机。分别初始化在步骤S150所构建的三个网络的参数,包括多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc并初始化三个网络的目标网络。最后初始化训练所需的各个超参数。
该步骤包括:初始化训练超参数,包括探索参数∈、无人机训练间隔为Etrain,以及最小探索参数∈end并初始化用于无人机集群训练的多任务多智能体演员—评论家网络π,贡献度评价函数网络Qc。由于所有无人机共用一套网络,所以初始化一个多智能体主演员网络π、一个全局主Q网络Qg、一个贡献度评价函数网络Qc以及对应的三个目标网络共六个网络。
具体过程为:为N个无人机初始化一个多智能体主演员网络π、一个全局主Q网络Qg、一个贡献度评价函数网络Qc,参数分别为θπ,分别为N个无人机的三个网络初始化三个目标网络,其结构与这三个网络相同,参数分别为θ′π,共6个网络,N个无人机共用这6个网络。初始化探索参数∈=∈start、探索参数下降速率∈step以及最小探索参数∈end并清空缓存β,初始化无人机训练间隔为Etrain。
该步骤的目的与步骤S120类似,初始化训练所需的各个神经网络以及部分超参数。第二阶段为无人机集群训练,共N个无人机,但由于这N个无人机为同质实体,因此共享一个神经网络,根据输入任务的不同来区分不同的无人机。相比课程训练第一阶段,除了处理更多维度的输入以外,还需训练一个额外的贡献度评价函数网络,该贡献度评价函数网络解决了本发明提出的多智能体训练的贡献度分配问题。
无人机集群训练采样步骤S170:
该步骤用于:采集并存储样本用于步骤S160初始化网络的训练。
该步骤包括:通过无人机集群与环境不断交互,采集并存储交互产生的样本,用于步骤S160所初始化的无人机集群网络训练,交互的方式为在每个离散的时刻,所有无人机根据该时刻各自的观察信息执行动作,随后环境信息由于所有无人机的联合动作ct而发生变化并反馈给各个无人机各自的奖励存储的每个训练样本包含的信息有状态st、所有无人机的联合观察ot、所有无人机的联合任务jt、所有无人机的联合动作ct、所有无人机得到的奖励集合下一时刻状态st+1以及下一时刻联合观察ot+1。
具体的:为每个无人机n随机分配一个任务dn,并初始化状态和观察为s1和接下来重复执行T步,在每个时间步t,对于每个无人机n,将其观察和dn输入多智能体主演员网络π,根据输出的动作概率分布采样动作N个无人机的动作构成联合动作ct,执行动作ct,环境信息由于动作的执行而改变并反馈奖励下一时刻状态st+1以及下一时刻联合观察ot+1并将所有信息组织成转移元组的形式存入缓存β,其中jt={d1,d2,...,dN}是所有无人机的任务的集合,是所有无人机执行的动作的集合,是所有无人机观察的集合。
无人机集群训练步骤S180:
该步骤目的为:从缓存中采集样本用于多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc的更新。
对于本发明而言,多智能体主演员网络π是本发明最终需要的网络,其作用为输出无人机需要执行的动作。全局主Q网络Qg输出全局状态与所有无人机联合动作的状态—动作价值函数。贡献度评价函数网络Qc输出为贡献度评价函数,与全局主Q网络表示的状态—动作价值函数结合可得到基于贡献度评价函数的多任务多智能体强化学习策略梯度:
贡献度评价函数改进优势函数的计算,其中Π表示联合策略,πm(am|om,dm)表示无人机m执行动作am的概率,由多智能体主演员网络输出,是由全局主Q网络输出的状态—动作价值函数,表示非实际执行的动作,即无人机m除动作am外的所有其它动作。是优势函数,表示当前执行的动作相比其它任一未执行的动作好坏程度,通常情况下第二项也为状态—动作价值函数,这里替换为贡献度评价函数,实现了作用于多智能体主演员网络更新的贡献度分配。即贡献度评价函数评估无人机m非实际执行的动作对无人机n的任务完成的贡献大小,并作用于优势函数影响多智能体主演员网络的梯度的计算,贡献度越大,则相应实际执行的动作am的贡献度就越小,因此越小,使得梯度变小,从而相对减小了实际执行的动作am被执行的概率。在贡献度价值函数的影响下,各个无人机学习的策略会更多考虑到对无人机集群中其它所有无人机完成任务的影响,从而学得更具有合作性的策略。
该步骤包括:重复执行多次步骤S170以获得足够多的无人机集群与环境交互的数据,随后从缓存中随机采集样本i来执行多轮网络更新:首先利用目标全局主Q网络Qg计算得来的目标值来计算损失使用梯度下降更新全局主Q网络Qg,该全局主Q网络Qg具有评价各无人机集群所做动作好坏的作用,其输出用于计算优势函数来辅助多智能体主演员网络π的更新;然后利用目标贡献度评价函数网络Qc计算得来的目标值来计算损失使用梯度下降更新贡献度评价函数网络Qc,其输出也用于计算优势函数;随后利用全局主Q网络Qg和贡献度评价函数网络Qc计算优势函数使用该优势函数计算多智能体主演员网络更新梯度,即多任务多智能体强化学习策略梯度,并使用梯度上升更新多智能体主演员网络π;最后更新三个目标网络的参数。
具体过程为:重复执行步骤S170共E次,如果∈>∈end,每次衰减探索参数∈←∈-∈step,期间每隔Etrain次便执行一次智能体训练过程。每次训练过程执行K轮更新,每轮更新执行以下步骤:
2.更新全局主Q网络Qg参数,具体如图3所示,包括:
6.计算优势函数,具体如图5所示:
对于每个样本i,利用全局主Q网络Qg计算得到状态—动作价值函数,对于任意无人机m∈[N],利用贡献度评价函数网络Qc计算得到无人机m的非实际执行的动作关于无人机n任务完成的贡献度评价函数,通过如下公式,计算得到关于无人机n的优势函数:
是通过不同无人机m的贡献度评价函数获得不同无人机对该联合动作评估的贡献,是无人机m的非实际执行动作,即除无人机m事实上执行了的被包含在联合动作ci中的动作am以外的其它任意可执行动作,即假如am为左偏转,则表示前、后、上、下移动和右偏转中的任意动作。因此表示无人机m所做的实际动作am相比于无人机m其它可能动作对无人机n的任务实现所做的贡献大小,通过其它非实际执行动作的贡献来衰减最终其所做的真实动作的价值。
7.计算多任务多智能体主演员网络梯度,并更新多智能体主演员网络参数,具体如图5所示:如;
使用多智能体主演员网络π计算样本i中各个动作执行的概率值其输入为然后与子步骤(6)计算得到的优势函数计算多任务多智能体主演员网络更新梯度 并利用该梯度更新多智能体主演员网络参数,多智能体主演员网络π更新梯度即为基于贡献度评价函数的多任务多智能体强化学习策略梯度,是在贡献度评价函数和已有的多智能体强化学习策略梯度基础上推导获得的,越大,表明无人机m所做贡献越大,因此网络更新后无人机m对应动作被选择概率会提升;
8.更新所有目标网络参数θ′←τθ+(1-τ)θ′。
评估步骤S190:
该步骤的目的为:步骤S180结束后,会得到一个训练完成的多智能体主演员网络π,该网络是最终用于控制无人机集群各无人机的网络,由于强化学习训练的不稳定特性,需对训练后的由多智能体主演网络所控制的无人机集群性能进行评估。
该步骤包括:使用多智能体主演员网络π控制无人机集群在仿真环境中多次执行摧毁任务,评判标准为摧毁任务的完成次数,如不满足要求则重新训练;如满足要求则退出训练,保存多智能体主演网络。
具体为:在无人机集群中,不同的无人机具有不同的任务,多智能体主演员网络π的输入为无人机m的观察与任务,因此通过输入任务的不同控制不同的无人机。在仿真环境中,使用由多智能体主演网络π控制的无人机集群执行目标摧毁任务以对网络性能进行评估,共执行100轮评估,每轮评估每个无人机随机初始化一个任务,在每个离散的时刻,所有无人机根据该时刻各自的观察信息,将其输入多智能体主演员网络π,根据输出的动作的概率分布获得一个动作并执行,随后环境信息由于所有无人机的联合动作而发生变化,反馈给各无人机新的观察信息,重复上述过程直到所有无人机任务完成或时间耗尽。如果每个无人机完成其任务,即摧毁所有目标,则表明此轮评估无人机集群成功完成摧毁任务。如果100轮评估结实时成功率达到成功率阈值,例如90%,则退出训练;如果成功率不到成功率阈值,则继续执行步骤S110-S190。
综上,本发明的优点为:
(1)使用集中式训练、分散式执行的多智能体强化学习技术进行无人机集群的训练,集中式训练指在训练时利用全局信息得到的全局主Q函数可以加快多智能体主演员网络的训练,而分散式执行指在获得各个无人机的动作时只需输入该无人机自身的观察信息,使得无人机集群中的各个无人机之间无需交换数据就能自行计算获得待执行的动作;
(2)使用贡献度评价函数解决贡献度分配问题,评估无人机集群中各个无人机对其它无人机完成任务的贡献,提高贡献度大的动作被选择的概率,使得各个无人机可以学得合作型策略,利于任务的完成;
(3)使用两阶段的课程训练。不直接对贡献度评价函数网络和多智能体主演员网络进行训练,而是先在第一阶段训练得到单无人机的演员—评论家网络,然后在第二阶段利用该演员—评论家网络构建的多智能体主演员网络、全局主Q网络和贡献度评价函数网络的基础上进行无人机集群的训练,从而加快贡献度评价函数网络和多智能体主演员网络的训练。
本发明进一步公开了一种基于贡献度评价的无人机集群多任务训练系统,包括存储介质和处理器,
所述存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的基于贡献度评价的无人机集群多任务训练。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。
Claims (8)
1.一种基于贡献度评价的无人机集群多任务训练方法,其特征在于,包括如下步骤:
环境构建步骤S110:
单无人机训练初始化步骤S120:
初始化单无人机的演员—评论家网络模型,其中演员网络表示策略,输入为无人机m的局部观察om与无人机需要完成的任务d,输出为无人机需要执行的动作am,评论家网络的输入为独立于无人机的环境状态信息senv、无人机的坐标sm、无人机的动作am以及无人机需要完成的任务d,输出为状态—动作价值函数其中s1=(senv,sm),最后初始化超参数:包括探索参数∈和训练间隔Etrain;
单无人机采样训练步骤S130:
通过单个无人机与环境不断交互,采集并存储交互产生的样本,用于单无人机网络的训练,交互的方式为在每个离散的时刻t,无人机m根据该时刻的观察信息执行动作随后环境信息在动作的影响下发生变化并反馈给无人机奖励函数采集的每个样本包括简化后的状态无人机m的观察任务d、动作奖励函数下一时刻简化后的状态以及下一时刻无人机的观察
单无人机训练网络训练步骤S140:
重复执行多次步骤S130以获得训练数据,随后从缓存β中随机采集样本来执行多轮网络更新:对采集的每个样本i,首先更新主评论家网络Q1,输入为来源于样本的简化后的状态无人机m的动作以及任务di,训练标签由目标评论家根据来源于样本的奖励函数和下一时刻简化后的状态以及任务di计算得到;随后更新主演员网络π1,其输入为来源于样本的局部观察和任务di,训练标签由主演员网络π1和主评论家网络Q1共同计算获得,最后更新目标网络的参数;
无人机集群各无人机网络构建步骤S150:
采样函数扩增的方式,在单无人机训练得到的主评论家网络和主演员网络的基础上来构建无人机集群训练阶段的三个网络,包括多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc,多智能体主演员网络π使用主演员网络构建π1和前馈神经网络扩增构建,全局主Q网络Qg以及贡献度评价函数网络Qc也分别使用主评论家网络Q1和前馈神经网络扩增构建;
无人机集群训练初始化步骤S160:
初始化训练超参数,包括探索参数∈、无人机训练间隔为Etrain,以及最小探索参数∈end并初始化用于无人机集群训练的多任务多智能体演员—评论家网络π,贡献度评价函数网络Qc,由于所有无人机共用一套网络,所以初始化一个多智能体主演员网络π、一个全局主Q网络Qg、一个贡献度评价函数网络Qc以及对应的三个目标网络共六个网络;
无人机集群训练采样步骤S170:
通过无人机集群与环境不断交互,采集并存储交互产生的样本,用于步骤S160所初始化的无人机集群网络训练,交互的方式为在每个离散的时刻t,所有无人机根据该时刻各自的观察信息执行动作,随后环境信息由于所有无人机的联合动作ct而发生变化并反馈给各个无人机各自的奖励函数存储的每个训练样本包含的信息有状态st、所有无人机的联合观察ot、所有无人机的联合任务jt、所有无人机的联合动作ct、所有无人机得到的奖励集合下一时刻状态st+1以及下一时刻联合观察ot+1;
无人机集群训练步骤S180:
重复执行多次步骤S170以获得无人机集群与环境交互的数据,随后从缓存中随机采集样本i来执行多轮网络更新:首先利用目标全局主Q网络Qg′计算得来的目标值来计算损失使用梯度下降更新全局主Q网络Qg,其输出用于计算优势函数来辅助多智能体主演员网络π的更新;然后利用目标贡献度评价函数网络Qc′计算得来的目标值来计算损失使用梯度下降更新贡献度评价函数网络Qc,其输出用于计算优势函数;随后利用全局主Q网络Qg和贡献度评价函数网络Qc计算优势函数使用该优势函数计算多智能体主演员网络更新梯度,即多任务多智能体强化学习策略梯度,并使用梯度上升更新多智能体主演员网络π;最后更新三个目标网络的参数;
评估步骤S190:
使用多智能体主演员网络π控制无人机集群在仿真环境中多次执行摧毁任务,评判标准为摧毁任务的完成次数,如不满足要求则重新训练;如满足要求则退出训练,保存多智能体主演网络;
其中,所述无人机集群各无人机网络构建步骤S150具体为:
为无人机集群的N个无人机初始化三个网络,分别为多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc;
其中,所述多智能体主演员网络π由两个神经网络π1,π2构成,π1是单无人机训练得到的主演员网络,π2是一个新初始化的隐藏层数量为2的前馈神经网络,π2的输入为输出层直接与π1的最后一层隐藏层相连,因此多智能体主演员网络π的输入由π1的输入和π2的输入构成,即全局观察和无人机n的任务dn,输出为π1的输出,即无人机n可执行动作的概率分布;
所述全局主Q网络Qg由两个前馈神经网络Q1,构成,其中Q1是单无人机训练得来的主评论家网络,是新初始化的一个隐藏层数量为2的前馈神经网络,输入为(s-n,a-n),其输出层与Q1的最后一层隐藏层相连,因此全局主Q网络Qg的输入为Q1,输入的联合,即全局状态s=(senv,sn,s-n),N个智能体的联合动作c=(an,a-n)、以及无人机n的任务dn,输出由网络Q1完成,表示在全局状态s下,当其它无人机联合动作为a-n,无人机n的动作为an时的状态—动作价值
所述贡献度评价函数网络Qc的输入为全局状态s=(senv,sn,s-n),任意无人机m的动作am以及无人机n的任务dn,输出为贡献度评价函数贡献度评价函数网络Qc由两个前馈神经网络构成Q1,其中Q1是单无人机训练得来的主评论家网络,是新初始化的一个隐藏层数量为2的前馈神经网络,其输入为s-n,其输出层与Q1的最后一层隐藏层相连,贡献度评价函数网络Qc的输入为Q1,输入的联合,即全局状态s=(senv,sn,s-n),任意无人机m的动作am以及无人机n的任务dn,输出由网络Q1完成,表示无人机m关于无人机n的贡献度评价函数
所述无人机集群训练初始化步骤S160具体为:为N个无人机初始化一个多智能体主演员网络π、一个全局主Q网络Qg、一个贡献度评价函数网络Qc,参数分别为分别为N个无人机的三个网络初始化三个目标网络,其结构与这三个网络相同,参数分别为θ′π,共6个网络,N个无人机共用这6个网络,初始化探索参数∈=∈start、探索参数下降速率∈step以及最小探索参数∈end并清空缓存β,初始化无人机训练间隔为Etrain;
无人机集群训练步骤S180具体为:
重复执行步骤S170共E次,如果∈>∈end,每次衰减探索参数∈←∈-∈step,期间每隔Etrain次便执行一次智能体训练过程,每次训练过程执行K轮更新,每轮更新执行以下步骤:
(2).更新全局主Q网络Qg参数,包括:对于每个转移元组i,以及每个无人机n,使用目标全局主Q网络Qg′计算目标值 其中γ为折扣率,由多智能体目标演员网络π获得,对于得到的每个动作对应的多智能体目标演员网络π输入为
(6).计算优势函数,对于每个样本i,利用全局主Q网络Qg计算得到状态—动作价值函数,对于任意无人机m∈[N],利用贡献度评价函数网络Qc计算得到无人机m的非实际执行的动作关于无人机n任务完成的贡献度评价函数,通过如下公式,计算得到关于无人机n的优势函数:
(7).计算多任务多智能体主演员网络梯度,并更新多智能体主演员网络参数,使用多智能体主演员网络π计算样本i中各个动作执行的概率值其输入为然后与子步骤(6)计算得到的优势函数计算多任务多智能体主演员网络更新梯度并利用该梯度更新多智能体主演员网络参数,多智能体主演员网络π更新梯度即为基于贡献度评价函数的多任务多智能体强化学习策略梯度;
(8).更新所有目标网络参数θ′←τθ+(1-τ)θ′。
2.根据权利要求1所述的多任务训练方法,其特征在于,
所述环境构建步骤S110具体为:
设定无人机的任务d,任务d取值为目标的坐标位置(xd,yd,zd),对于无人机集群中的任意无人机n,无人机的观察信息为 其中表示无人机n自身的坐标位置 表示其它所有无人机与无人机n的相对位置N为无人机的数量;状态信息为s=(senv,sn,s-n),其中senv表示所有目标的坐标位置sn为无人机n自身的坐标位置s-n为其它所有无人机的坐标位置
无人机的动作空间简化为前、后、上、下移动和左偏转、右偏转的6个离散动作;
3.根据权利要求2所述的多任务训练方法,其特征在于,
单无人机训练初始化步骤S120具体包括如下子步骤:
5.根据权利要求4所述的多任务训练方法,其特征在于,
所述单无人机训练网络训练步骤S140具体为:
重复执行步骤130共E次,如果∈>∈end,每次衰减探索参数∈←∈-∈step,期间每隔Etrain次便执行一次智能体训练过程,每次训练过程执行K轮更新,每轮更新执行以下步骤:
(6).更新所有目标网络参数θ′←τθ+(1-τ)θ′,其中θ表示任意的主网络参数,θ′表示与之对应的目标网络参数,τ是人为设定的超参数,控制更新的幅度。
7.根据权利要求6所述的多任务训练方法,其特征在于,
所述评估步骤S190具体为:
使用由多智能体主演网络π控制的无人机集群执行目标摧毁任务以对网络性能进行评估,共执行100轮评估,每轮评估每个无人机随机初始化一个任务,在每个离散的时刻,所有无人机根据该时刻各自的观察信息,将其输入多智能体主演员网络π,根据输出的动作的概率分布获得一个动作并执行,随后环境信息由于所有无人机的联合动作而发生变化,反馈给各无人机新的观察信息,重复上述过程直到所有无人机任务完成或时间耗尽;如果每个无人机完成其任务,即摧毁所有目标,则表明此轮评估无人机集群成功完成摧毁任务,如果100轮评估结束时成功率达到成功率阈值,则退出训练;如果成功率不到成功率阈值,则继续执行步骤S110-S190。
8.一种基于贡献度评价的无人机集群多任务训练系统,包括存储介质和处理器,
所述存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行权利要求1-7中任意一项所述的基于贡献度评价的无人机集群多任务训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404223.9A CN114741886B (zh) | 2022-04-18 | 2022-04-18 | 一种基于贡献度评价的无人机集群多任务训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404223.9A CN114741886B (zh) | 2022-04-18 | 2022-04-18 | 一种基于贡献度评价的无人机集群多任务训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114741886A CN114741886A (zh) | 2022-07-12 |
CN114741886B true CN114741886B (zh) | 2022-11-22 |
Family
ID=82281875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210404223.9A Active CN114741886B (zh) | 2022-04-18 | 2022-04-18 | 一种基于贡献度评价的无人机集群多任务训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114741886B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115454096B (zh) * | 2022-10-09 | 2024-07-19 | 哈尔滨工业大学 | 一种基于课程强化学习的机器人策略训练系统及训练方法 |
CN115470894B (zh) * | 2022-10-31 | 2023-01-31 | 中国人民解放军国防科技大学 | 基于强化学习的无人机知识模型分时调用方法及装置 |
CN116488154B (zh) * | 2023-04-17 | 2024-07-26 | 海南大学 | 基于微电网的能源调度方法、系统、计算机设备及介质 |
CN116430754B (zh) * | 2023-06-09 | 2023-09-12 | 北京中兵天工防务技术有限公司 | 一种无人机集群多任务控制半实物仿真方法 |
CN116629461B (zh) * | 2023-07-25 | 2023-10-17 | 山东大学 | 一种主动配电网分布式优化方法、系统、设备及存储介质 |
CN118276454B (zh) * | 2024-06-04 | 2024-07-26 | 中国人民解放军国防科技大学 | 多任务风险泛化的分布式多无人机策略获取方法及装置 |
CN118707914A (zh) * | 2024-08-29 | 2024-09-27 | 苏州蓝灵智能制造科技有限公司 | 一种基于分布控制的车间生产设备运行监控系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN111260031A (zh) * | 2020-01-14 | 2020-06-09 | 西北工业大学 | 一种基于深度强化学习的无人机集群目标防卫方法 |
CN112633415A (zh) * | 2021-01-11 | 2021-04-09 | 中国人民解放军国防科技大学 | 基于规则约束训练的无人机集群智能任务执行方法和装置 |
CN112966816A (zh) * | 2021-03-31 | 2021-06-15 | 东南大学 | 一种编队包围的多智能体强化学习方法 |
CN113033118A (zh) * | 2021-03-10 | 2021-06-25 | 山东大学 | 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法 |
CN113033119A (zh) * | 2021-03-11 | 2021-06-25 | 山东大学 | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 |
WO2021156441A1 (en) * | 2020-02-07 | 2021-08-12 | Deepmind Technologies Limited | Learning machine learning incentives by gradient descent for agent cooperation in a distributed multi-agent system |
CN114065929A (zh) * | 2021-07-26 | 2022-02-18 | 成都蓉奥科技有限公司 | 一种深度强化学习模型的训练方法、装置及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111417964B (zh) * | 2018-02-05 | 2024-04-19 | 渊慧科技有限公司 | 异策略行动者-评价者强化学习方法和系统 |
CN109635917B (zh) * | 2018-10-17 | 2020-08-25 | 北京大学 | 一种多智能体合作决策及训练方法 |
US20220067504A1 (en) * | 2020-08-26 | 2022-03-03 | Sony Corporation | Training actor-critic algorithms in laboratory settings |
-
2022
- 2022-04-18 CN CN202210404223.9A patent/CN114741886B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN111260031A (zh) * | 2020-01-14 | 2020-06-09 | 西北工业大学 | 一种基于深度强化学习的无人机集群目标防卫方法 |
WO2021156441A1 (en) * | 2020-02-07 | 2021-08-12 | Deepmind Technologies Limited | Learning machine learning incentives by gradient descent for agent cooperation in a distributed multi-agent system |
CN112633415A (zh) * | 2021-01-11 | 2021-04-09 | 中国人民解放军国防科技大学 | 基于规则约束训练的无人机集群智能任务执行方法和装置 |
CN113033118A (zh) * | 2021-03-10 | 2021-06-25 | 山东大学 | 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法 |
CN113033119A (zh) * | 2021-03-11 | 2021-06-25 | 山东大学 | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 |
CN112966816A (zh) * | 2021-03-31 | 2021-06-15 | 东南大学 | 一种编队包围的多智能体强化学习方法 |
CN114065929A (zh) * | 2021-07-26 | 2022-02-18 | 成都蓉奥科技有限公司 | 一种深度强化学习模型的训练方法、装置及存储介质 |
Non-Patent Citations (4)
Title |
---|
"Actor-Critic Deep Reinforcement Learning for Energy Minimization in UAV-Aided Networks";Yaxiong Yuan 等;《2020 European Conference on Networks and Communications (EuCNC)》;20200921;第348-352页 * |
"Deep Reinforcement Learning for Mapless Navigation of Unmanned Aerial Vehicles";Ricardo B. Grando;《2020 Latin American Robotics Symposium (LARS), 2020 Brazilian Symposium on Robotics (SBR) and 2020 Workshop on Robotics in Education (WRE)》;20210107;第1-6页 * |
"基于DDPG算法的无人机集群追击任务";张耀中 等;《航空学报》;20200615;第41卷(第10期);第1-13页 * |
"基于深度强化学习的无人机对战战术决策的研究";胡真财;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20210215(第02期);C032-2 * |
Also Published As
Publication number | Publication date |
---|---|
CN114741886A (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114741886B (zh) | 一种基于贡献度评价的无人机集群多任务训练方法及系统 | |
Nguyen et al. | Deep reinforcement learning for multiagent systems: A review of challenges, solutions, and applications | |
Jiang et al. | Learning attentional communication for multi-agent cooperation | |
Pascanu et al. | Learning model-based planning from scratch | |
Russell et al. | Q-decomposition for reinforcement learning agents | |
CN111240356B (zh) | 一种基于深度强化学习的无人机集群会合方法 | |
Zhang et al. | A collaborative multiagent reinforcement learning method based on policy gradient potential | |
Schwarting et al. | Deep latent competition: Learning to race using visual control policies in latent space | |
CN116679719A (zh) | 基于动态窗口法与近端策略的无人车自适应路径规划方法 | |
CN116663416A (zh) | 一种基于行为树的cgf决策行为仿真方法 | |
CN116430888A (zh) | 多无人机空战策略生成方法、装置和计算机设备 | |
Chen et al. | Policy gradient from demonstration and curiosity | |
Liang et al. | Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network | |
Sumiea et al. | Enhanced deep deterministic policy gradient algorithm using grey wolf optimizer for continuous control tasks | |
Zha et al. | Evaluate, explain, and explore the state more exactly: an improved Actor-Critic algorithm for complex environment | |
Kong et al. | Multi-UAV simultaneous target assignment and path planning based on deep reinforcement learning in dynamic multiple obstacles environments | |
CN118153621A (zh) | 一种基于双层图注意力强化学习的多智能体围捕方法 | |
Ejaz et al. | Autonomous visual navigation using deep reinforcement learning: An overview | |
Messikommer et al. | Contrastive initial state buffer for reinforcement learning | |
CN117908565A (zh) | 基于最大熵多智能体强化学习的无人机安全路径规划方法 | |
Chen et al. | Survey of multi-agent strategy based on reinforcement learning | |
Fang et al. | Quadrotor navigation in dynamic environments with deep reinforcement learning | |
Huang et al. | A deep reinforcement learning approach to preserve connectivity for multi-robot systems | |
CN114818124B (zh) | 一种基于dppo的虚实融合栅格舵模型参数优化方法 | |
CN111783983A (zh) | 用于实现导航的可迁移的元学习的无监督dqn强化学习 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |