CN114741886B - 一种基于贡献度评价的无人机集群多任务训练方法及系统 - Google Patents

一种基于贡献度评价的无人机集群多任务训练方法及系统 Download PDF

Info

Publication number
CN114741886B
CN114741886B CN202210404223.9A CN202210404223A CN114741886B CN 114741886 B CN114741886 B CN 114741886B CN 202210404223 A CN202210404223 A CN 202210404223A CN 114741886 B CN114741886 B CN 114741886B
Authority
CN
China
Prior art keywords
network
unmanned aerial
aerial vehicle
training
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210404223.9A
Other languages
English (en)
Other versions
CN114741886A (zh
Inventor
林旺群
徐菁
李妍
田成平
王伟
刘波
王锐华
孙鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Original Assignee
Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences filed Critical Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Priority to CN202210404223.9A priority Critical patent/CN114741886B/zh
Publication of CN114741886A publication Critical patent/CN114741886A/zh
Application granted granted Critical
Publication of CN114741886B publication Critical patent/CN114741886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于贡献度评价的无人机集群多任务训练方法及系统,该方法使用两阶段的课程学习,在第一阶段进行单无人机训练,此时只有一架无人机执行任务来摧毁一个随机目标,最终得到一个演员网络和评论家网络,评论家网络表示状态—动作价值函数,该网络可用于在第二阶段构建贡献度评价函数网络。然后在第二阶段进行无人机集群的训练,使用第一阶段训练得来的演员网络和评论家网络,利用函数扩增的方式来初始化无人机集群中所有无人机的各个网络。本发明使得无人机集群中的各个无人机之间无需交换数据就能自行计算获得待执行的动作,各个无人机可以学得合作型策略,利于任务的完成;加快了贡献度评价函数网络和多智能体主演员网络的训练。

Description

一种基于贡献度评价的无人机集群多任务训练方法及系统
技术领域
本发明涉及模拟仿真领域,特别的,涉及一种基于贡献度评价的无人机集群多任务训练方法,根据贡献度函数,使用多智能体强化学习对无人机集群进行训练,使得每架无人机学习各自的执行策略,并通过互相合作,更好地完成给定的任务。
背景技术
随着无人化、智能化技术的发展,如何通过无人机高效完成相关任务,已经成为一个极具现实意义的重要课题。无人机集群现有主流控制方式是由“主机”收集所有无人机的信息,经算法处理计算后将指令分发给各无人机。这种集中式处理方法所耗费的时间随着无人机数量的增多而增长,从而使得指令下发延迟较大,最终将导致无人机任务完成效果不佳等严重后果。
近年来,随着深度Q学习(Deep Q-Learning)的快速发展,深度强化学习技术取得较大的进步和突破,在如机械臂和机器人的控制领域、雅达利游戏和围棋的游戏领域、多轮对话系统、推荐系统等领域都进行了广泛的探索和应用。深度强化学习技术以试错和奖励训练出具有自主连续决策能力的智能体,因此使用深度强化学习技术中的多智能体强化学习算法训练无人机集群的各个无人机,实现各个无人机的自主控制以在模拟仿真中完成给定任务。
现有的多智能体强化学习算法通常是集中式训练、分散式执行的多智能体演员—评论家算法。在完成给定任务的模拟仿真中,无人机集群是由多个具备合作“意愿”的无人机组成,共同合作以完成给定任务,如:摧毁敌方防控阵地上的多个目标,包括预警雷达、制导雷达等。将该算法应用于无人机集群控制时,由于集中式训练导致无法判断各个无人机之间的互相影响,使得无人机难以学到合作型的策略来更高效的完成任务。
因此,如何提高深度学习中无人机的学习效率以及策略,使得无人机更高效的完成任务成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种基于贡献度评价的无人机集群多任务训练方法及系统,采用两阶段的课程训练:在第一阶段进行简化输入信息的单无人机训练,输入简化了与其它无人机相关联的信息,只输入单个无人机的相关信息,使用单智能体的演员—评论家算法进行训练;在第二阶段利用第一阶段训练得到的神经网络,使用函数扩增的方式构建无人机集群训练所需的各个神经网络,包括多智能体主演员网络、全局主Q网络以及贡献度评价函数网络,并使用基于贡献度评价函数的多智能体演员—评论家训练,进行多智能体训练,最终对多智能体主演员网络的性能进行评价,并根据评价的结果结束训练或者再次进行训练。
为达此目的,本发明采用以下技术方案:
一种基于贡献度评价的无人机集群多任务训练方法,包括如下步骤:
环境构建步骤S110:
该步骤包括:构建无人机军事仿真环境,包括需要完成的任务d、任意无人机n的观测信息on、整个环境的状态信息s、无人机的动作空间以及奖励函数
Figure BDA0003601620260000031
单无人机训练初始化步骤S120:
初始化单无人机的演员—评论家网络模型,其中演员网络表示策略,输入为无人机m的局部观察om与无人机需要完成的任务d,输出为无人机需要执行的动作am,评论家网络表示状态—动作价值函数,输入为独立于无人机的环境状态信息senv、无人机的坐标sm、无人机的动作am以及无人机需要完成的任务d得到对应状态—动作对的状态—动作价值函数辅助演员网络的训练,最后初始化超参数:包括探索参数∈和训练间隔Etrain
单无人机采样训练步骤S130:
通过单个无人机与环境不断交互,采集并存储交互产生的样本,用于单无人机网络的训练,交互的方式为在每个离散的时刻t,无人机m根据该时刻的观察信息
Figure BDA0003601620260000032
执行动作
Figure BDA0003601620260000033
随后环境信息在动作的影响下发生变化并反馈给无人机奖励
Figure BDA0003601620260000034
采集的每个样本包括简化后的状态
Figure BDA0003601620260000035
无人机m的观察
Figure BDA0003601620260000036
任务d、动作
Figure BDA0003601620260000037
奖励
Figure BDA0003601620260000038
下一时刻简化后的状态
Figure BDA0003601620260000039
以及下一时刻无人机的观察
Figure BDA00036016202600000310
单无人机训练网络训练步骤S140:
重复执行多次步骤S130以获得训练数据,随后从缓存β中随机采集样本来执行多轮网络更新:对采集的每个样本i,首先更新主评论家网络Q1,输入为来源于样本的简化后的状态
Figure BDA0003601620260000041
无人机m的动作
Figure BDA0003601620260000042
以及任务di,训练标签
Figure BDA0003601620260000043
由目标评论家根据来源于样本的奖励
Figure BDA0003601620260000044
和下一时刻简化后的状态
Figure BDA0003601620260000045
以及任务di计算得到;随后更新主演员网络π1,其输入为来源于样本的局部观察
Figure BDA0003601620260000046
和任务di,训练标签
Figure BDA0003601620260000047
由主演员网络π1和主评论家网络Q1共同计算获得,最后更新目标网络的参数;
无人机集群各无人机网络构建步骤S150:
采样函数扩增的方式,在单无人机训练得到的主评论家网络和主演员网络的基础上来构建无人机集群训练阶段的三个网络,包括多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc,多智能体主演员网络π使用主演员网络构建π1和前馈神经网络扩增构建,全局主Q网络Qg以及贡献度评价函数网络Qc也分别使用主评论家网络Q1和和前馈神经网络扩增构建;
无人机集群训练初始化步骤S160:
初始化训练超参数,包括探索参数∈、无人机训练间隔为Etrain,以及最小探索参数∈end并初始化用于无人机集群训练的多任务多智能体演员—评论家网络π,贡献度评价函数网络Qc,由于所有无人机共用一套网络,所以初始化一个多智能体主演员网络π、一个全局主Q网络Qg、一个贡献度评价函数网络Qc以及对应的三个目标网络共六个网络;
无人机集群训练采样步骤S170:
通过无人机集群与环境不断交互,采集并存储交互产生的样本,用于步骤S160所初始化的无人机集群网络训练,交互的方式为在每个离散的时刻t,所有无人机根据该时刻各自的观察信息执行动作,随后环境信息由于所有无人机的联合动作ct而发生变化并反馈给各个无人机各自的奖励
Figure BDA0003601620260000051
存储的每个训练样本包含的信息有状态st、所有无人机的联合观察ot、所有无人机的联合任务jt、所有无人机的联合动作ct、所有无人机得到的奖励集合
Figure BDA0003601620260000052
下一时刻状态st+1以及下一时刻联合观察ot+1
无人机集群训练步骤S180:
重复执行多次步骤S170以获得无人机集群与环境交互的数据,随后从缓存中随机采集样本i来执行多轮网络更新:首先利用目标全局主Q网络Qg计算得来的目标值
Figure BDA0003601620260000053
来计算损失
Figure BDA0003601620260000054
使用梯度下降更新全局主Q网络Qg,其输出用于计算优势函数来辅助多智能体主演员网络π的更新;然后利用目标贡献度评价函数网络Qc计算得来的目标值
Figure BDA0003601620260000055
来计算损失
Figure BDA0003601620260000056
使用梯度下降更新贡献度评价函数网络Qc,其输出用于计算优势函数;随后利用全局主Q网络Qg和贡献度评价函数网络Qc计算优势函数
Figure BDA0003601620260000057
使用该优势函数计算多智能体主演员网络更新梯度,即多任务多智能体强化学习策略梯度,并使用梯度上升更新多智能体主演员网络π;最后更新三个目标网络的参数;
评估步骤S190:
使用多智能体主演员网络π控制无人机集群在仿真环境中多次执行摧毁任务,评判标准为摧毁任务的完成次数,如不满足要求则重新训练;如满足要求则退出训练,保存多智能体主演网络。
本发明进一步公开了一种基于贡献度评价的无人机集群多任务训练方法,包括存储介质和处理器,
所述存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的基于贡献度评价的无人机集群多任务训练方法。
本发明具有如下优点:
(1)使用集中式训练、分散式执行的多智能体强化学习技术进行无人机集群的训练,集中式训练指在训练时利用全局信息得到的全局主Q函数可以加快多智能体主演员网络的训练,而分散式执行指在获得各个无人机的动作时只需输入该无人机自身的观察信息,使得无人机集群中的各个无人机之间无需交换数据就能自行计算获得待执行的动作;
(2)使用贡献度评价函数解决贡献度分配问题,评估无人机集群中各个无人机对其它无人机完成任务的贡献,提高贡献度大的动作被选择的概率,使得各个无人机可以学得合作型策略,利于任务的完成;
(3)使用两阶段的课程训练。不直接对贡献度评价函数网络和多智能体主演员网络进行训练,而是先在第一阶段训练得到单无人机的演员—评论家网络,然后在第二阶段利用该演员—评论家网络构建的多智能体主演员网络、全局主Q网络和贡献度评价函数网络的基础上进行无人机集群的训练,从而加快贡献度评价函数网络和多智能体主演员网络的训练。
附图说明
图1是根据本发明具体实施例的基于贡献度评价的无人机集群多任务训练方法的流程图;
图2是根据本发明具体实施例的多智能体主演员网络的构造示意图;
图3是根据本发明具体实施例的全局主Q网络训练示意图;
图4是根据本发明具体实施例的贡献度评价函数网络训练示意图;
图5是根据本发明具体实施例的多智能体主演员网络训练示意图;
图6是根据本发明具体实施例的无人机集群摧毁敌方雷达阵地示意。
具体实施方式
下面对本发明涉及到的相关术语进行如下介绍:
1.多任务马尔可夫博弈
多任务马尔可夫博弈是基于马尔科夫决策过程的描述多任务多智能体强化学习的一个理想数学形式,可以用一个元组来描述:
Figure BDA0003601620260000071
其中有N个由n∈[N]标注的智能体。在每个情节,每个智能体n有一个固定的任务
Figure BDA0003601620260000072
且只有该智能体自己知道。在时刻t,全局状态
Figure BDA0003601620260000073
每个智能体n接收观察
Figure BDA0003601620260000074
并选择动作
Figure BDA0003601620260000075
环境由于联合动作
Figure BDA0003601620260000076
根据转移概率P(st+1|st,ct)转移到st+1。每个智能体收到一个单独的奖励
Figure BDA0003601620260000081
学习任务就是去找到一个随机分散策略
Figure BDA0003601620260000082
仅以局部观察和任务为条件,来最大化
Figure BDA0003601620260000083
其中,γ∈(0,1),且由于分散策略,联合策略Π分解为
Figure BDA0003601620260000084
使用a-n和d-n表示除智能体n以外的其它所有智能体的动作和任务。使用c和j表示联合动作和联合任务。使用Π表示联合策略。
2.集中式训练、分散式执行的演员—评论家算法
演员—评论家算法是一种强化学习算法,分为演员和评论家两部分,分别可用一个神经网络来表示。演员表示智能体的策略,负责输出动作用于智能体执行,评论家负责评判演员输出动作的好坏,用于辅助演员的训练。由于神经网络训练的标签也有该神经网络计算得来,导致随着神经网络的更新,其标签的不断变化使得训练不稳定。因此在实际训练时,除演员网络和评论家网络外,额外使用两个目标网络来计算标签,目标网络的结构分别与演员网络和评论家网络相同,其参数每隔一段时间以软更新的方式更新:θ′←τθ+(1-τ)θ′。其中θ′表示目标网络参数,θ表示演员(评论家)网络参数,τ为控制更新步长的超参数。
集中式训练和分散式执行指当把演员—评论家算法用于多智能体强化学习时,评论家接受完整的状态—动作信息,演员根据局部信息输出动作。接收完整的状态—动作信息的集中式评论家可以加快只接收局部信息的分散演员的训练。虽然集中式训练意味着输入空间会随智能体数量增加而线性扩展,但在许多只包含局部合作的实际推演仿真环境中,通常只涉及智能体之间少量的局部交互,因而允许使用少量智能体进行集中式训练,同时保持在大规模测试时分散执行的性能。
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明主要在于:提出一种贡献度评价函数,由贡献度评价函数网络表示,实现多任务多智能体演员—评论家算法中的贡献度分配,作用于多任务多智能体的策略梯度计算,使得无人机集群中的各个无人机学得具有合作性的策略,实现全局收益最大化;使用两阶段的课程学习,在第一阶段进行单无人机训练,此时只有一架无人机执行任务来摧毁一个随机目标,最终得到一个演员网络和评论家网络,评论家网络表示状态—动作价值函数,该网络可用于在第二阶段构建贡献度评价函数网络。然后在第二阶段进行无人机集群的训练,使用第一阶段训练得来的演员网络和评论家网络,利用函数扩增的方式来初始化无人机集群中所有无人机的各个网络。这种先进行单无人机训练,并利用函数扩增来衔接第一、二阶段的方式可以加速无人机集群的训练。
课程学习是一种训练深度学习模型的思想,将模型训练分为多个阶段,按照从易到难的顺序训练模型,可以通过在不同阶段简化模型结构或是选取特定训练样本来实现这种循序渐进的训练。
本发明采用两阶段的课程训练,在第一阶段,只针对一个无人机进行训练。在第二阶段,使用第一阶段的演员网络和评论家网络来构建无人机集群中N个无人机的网络,由于N个无人机都是同类实体,则N个无人机可以共享网络参数。使用两阶段课程学习的关键思想是,对于已经可以在单智能体情况下独自完成单个任务的智能体,其在多智能体环境中可以更好地通过额外探索发现和其它智能体合作完成任务的方案。
实现两个阶段课程学习的方式为简化第一阶段输入的维度,使用其它神经网络处理其它维度的输入并与第一阶段网络共同构成第二阶段训练的网络。具体操作为将无人机的观测信息分解为
Figure BDA0003601620260000101
其中
Figure BDA0003601620260000102
捕获无人机自身的属性,该属性必须是无人机可观察的,以进行闭环控制,而
Figure BDA0003601620260000103
是其他无人机以自我为中心对该无人机的观测。以自我为中心的观测是私密的,其他无人机无法访问。类似地,全局状态s分解为s=(senv,sn,s-n),senv是不特定于任何无人机的环境信息,sn捕获无人机n的信息,s-n是除无人机n以外的其它无人机的信息。在第一阶段,由于单无人机的训练不需要处理
Figure BDA0003601620260000104
和s-n的能力,因此减少策略和值函数的输入空间,从而减少可训练参数的数量,降低计算成本。在第二阶段,使用函数扩增的方式恢复第1阶段的参数并激活新模块以处理额外的输入
Figure BDA0003601620260000105
和s-n,恢复的方式示例性的,如以下方案的在步骤S150中描述。
参见图1,示出了根据本发明具体实施例的基于贡献度评价的无人机集群多任务训练方法的流程图。
该方法,包括如下步骤:
环境构建步骤S110:
该步骤包括:构建无人机军事仿真环境,包括需要完成的任务d、任意无人机的观测信息on、整个环境的状态信息s、无人机的动作空间以及奖励函数
Figure BDA0003601620260000111
该步骤目的为:构建用于使用强化学习算法对无人机进行单无人机训练以及无人机集群训练的仿真环境。其中,单无人机训练的观测信息与状态信息与无人机集群训练的观测信息与状态信息应做区分以适应两阶段的课程学习。
具体的,以图6为例,无人机集群从起始点出发,互相合作飞往地方雷达阵地并在飞行期间保持合理的阵型,合理的阵型可以是风阻最小的阵型、雷达反射面最小的阵型等。在到达雷达阵地后,无人机集群中的各个无人机根据自己被分配的任务分散摧毁阵地上的目标,任务使用d来表示,取值为待摧毁目标的坐标位置(xd,yd,zd)。
显然,本领域技术人员知道,图6仅仅是一个示例,本发明的任务d能够包括分散摧毁阵地上的目标以外的其他目的,相应的坐标位置(xd,yd,zd)也不仅仅包含待摧毁的目标,可以为其它任务的目标地坐标。
该步骤为:设定无人机的任务d,取值为目标的坐标位置(xd,yd,zd),对于无人机集群中的任意无人机n,其观测空间为
Figure BDA0003601620260000112
其中
Figure BDA0003601620260000113
表示无人机n自身的坐标位置
Figure BDA0003601620260000114
Figure BDA0003601620260000115
表示其它所有无人机与无人机n的相对位置
Figure BDA0003601620260000121
N为无人机的数量;状态信息为s=(senv,sn,s-n),其中senv表示所有目标的坐标位置
Figure BDA0003601620260000122
sn为无人机n自身的坐标位置
Figure BDA0003601620260000123
s-n为其它所有无人机的坐标位置
Figure BDA0003601620260000124
无人机的动作空间简化为前、后、上、下移动和左偏转、右偏转的6个离散动作;
无人机的奖励函数
Figure BDA0003601620260000125
分为两部分,一部分为步数惩罚奖励,即无人机每执行一次动作都会获得-0.1的奖励,另一部分为任务完成奖励,即任务完成获得+100的奖励,任务未完成则获得-100的奖励。
单无人机训练初始化步骤S120:
该步骤包括:初始化单无人机的演员—评论家网络Q1,输入相比无人机集群训练的输入做了简化,其中演员网络表示策略,其输入是无人机m的局部观察om与无人机需要完成的任务d,输出是无人机m需要执行的动作am,评论家网络表示状态—动作价值函数,其输入是独立于无人机的环境状态信息senv、无人机的坐标sm、无人机的动作am以及无人机需要完成的任务d得到对应状态—动作对的状态—动作价值函数辅助演员网络的训练,最后初始化超参数:包括探索参数∈和训练间隔Etrain
单无人机训练为课程训练第一阶段,该步骤目的为:初始化训练所需神经网络以及各个超参数。具体的,初始化在第一阶段训练所需的各个神经网络以及部分超参数。第一阶段训练为单无人机训练,所以共有两个主要网络以及辅助主要网络进行训练的目标网络。
具体的,该步骤包括如下子步骤:
(1)初始化第一阶段无人机m的主评论家网络Q1,主演员网络π1,参数分别为
Figure BDA0003601620260000131
(2)初始化第一阶段目标评论家网络与目标演员网络,其结构分别与主评论家网络和主演员网络相同,参数分别为
Figure BDA0003601620260000132
(3)课程训练第一阶段是单无人机训练,对所有网络的输入进行简化,主评论家网络Q1与目标评论家网络输入为独立于无人机的环境状态信息senv、无人机m的信息sm、无人机m的动作am以及无人机m需完成的任务d,得到状态s1和动作am的状态—动作价值函数
Figure BDA0003601620260000133
其中s1是简化后的状态信息,除去与其它无人机无关的部分,即s1=(senv,sm);主演员网络π1和目标演员网络输入为无人机m的局部观察
Figure BDA0003601620260000134
以及无人机m需要完成的任务d,输出为所有可选动作的概率分布;初始化探索参数∈=∈start、探索参数下降速率∈step以及最小探索参数∈end并清空缓存β,初始化智能体训练间隔为Etrain
单无人机采样训练步骤S130:
该步骤包括:通过单个无人机与环境不断交互,采集并存储交互产生的样本,用于单无人机网络的训练,交互的方式为在每个离散的时刻t,无人机m根据该时刻的观察信息
Figure BDA0003601620260000135
执行动作
Figure BDA0003601620260000136
随后环境信息在动作的影响下发生变化并反馈给无人机奖励
Figure BDA0003601620260000137
采集的每个样本包括简化后的状态
Figure BDA0003601620260000138
无人机m的观察
Figure BDA0003601620260000139
任务d、动作
Figure BDA00036016202600001310
奖励
Figure BDA0003601620260000141
下一时刻简化后的状态
Figure BDA0003601620260000142
以及下一时刻无人机的观察
Figure BDA0003601620260000143
本步骤用于采集并存储样本用于在步骤S120初始化的网络的训练。
具体的,随机分配一个任务d给无人机m,并初始化简化后的状态和观察为
Figure BDA0003601620260000144
Figure BDA0003601620260000145
接下来重复执行T步以下的交互,具体在每个时间步t,将无人机m的观察
Figure BDA0003601620260000146
和任务d输入主演员网络π1,根据输出的动作概率分布采样动作
Figure BDA0003601620260000147
执行动作
Figure BDA0003601620260000148
环境信息发生变化,无人机m获得环境(仿真系统)反馈的奖励
Figure BDA0003601620260000149
下一时刻状态
Figure BDA00036016202600001410
以及下一时刻观察
Figure BDA00036016202600001411
以转移元组的形式将每个时间步t获得的样本存入缓存β,转移元组为
Figure BDA00036016202600001412
单无人机训练网络训练步骤S140:
该步骤包括:首先重复执行多次步骤S130以获得训练数据,随后从缓存β中随机采集样本来执行多轮网络更新:对于采集的每个样本i,首先更新主评论家网络Q1,输入为来源于样本的简化后的状态
Figure BDA00036016202600001413
无人机m的动作
Figure BDA00036016202600001414
以及任务di,训练标签
Figure BDA00036016202600001415
由目标评论家根据来源于样本的奖励
Figure BDA00036016202600001416
和下一时刻简化后的状态
Figure BDA00036016202600001417
以及任务di计算得到;随后更新主演员网络π1,其输入为来源于样本的局部观察
Figure BDA00036016202600001418
和任务di,训练标签
Figure BDA00036016202600001419
由主演员网络π1和主评论家网络Q1共同计算获得;最后更新目标网络的参数。
该步骤主要为对步骤S120初始化的网络进行单无人机的训练,采用一般的单智能体强化学习算法,这里使用的是基于策略梯度的演员—评论家算法。
该步骤的具体过程为:重复执行步骤130共E次,如果∈>∈end,每次衰减探索参数∈←∈-∈step,期间每隔Etrain次便执行一次智能体训练过程,每次训练过程执行K轮更新,每轮更新执行以下步骤:
(1).从缓存β中随机采集S个转移元组
Figure BDA0003601620260000151
(2).使用目标评论家网络针对每个样本i计算目标值
Figure BDA0003601620260000152
Figure BDA0003601620260000153
其中γ为折扣率,通常为0.99,
Figure BDA0003601620260000154
为采样得到的转移元组中的数据,
Figure BDA0003601620260000155
由目标评论家网络计算获得,
Figure BDA0003601620260000156
由目标演员网络获得,目标演员网络输入为
Figure BDA0003601620260000157
(3).计算主评论家网络损失
Figure BDA0003601620260000158
并利用梯度下降最小化该损失来更新主评论家网络参数,其中
Figure BDA0003601620260000159
由主评论家网络获得;
(4).使用主评论家网络和主演员网络计算优势函数
Figure BDA00036016202600001510
Figure BDA00036016202600001511
其中
Figure BDA00036016202600001512
表示智能体,也就是无人机m除
Figure BDA00036016202600001513
以外的其它可执行动作;
(5).计算主演员网络更新梯度
Figure BDA00036016202600001514
并利用该梯度更新主演员网络参数;
(6).更新所有目标网络参数θ′←τθ+(1-τ)θ′,其中θ表示任意的主网络参数,θ′表示与之对应的目标网络参数,τ是人为设定的超参数,控制更新的幅度。
该步骤为对步骤S120初始化的网络进行单无人机的训练。强化学习训练过程是一个交叉逼近的过程,即训练样本由无人机与环境交互获得(演员网络输出动作使智能体执行),重复执行步骤S130使得性能更好的无人机能够获得更优质的样本,而更优质的样本反过来促进无人机训练得更好。衰减探索参数∈使得演员网络(也即策略网络)最终收敛到最优。
本发明的课程训练的核心就是通过将模型训练分为多个阶段,按照从易到难的顺序训练模型,从而简化训练难度。通过步骤S110-S140完成了分阶段学习的第一阶段,对单无人机网络演员—评论家网络进行了构建和训练,且已经能指导单无人机基本完成其任务。接下来将进入第二阶段,即无人机集群训练阶段的网络模型是本实例最终需要得到的网络模型,使用函数扩增的方式利用第一阶段得到的网络模型构建无人机集群训练所需的网络模型,使得第二阶段训练可以更加容易。
无人机集群各无人机网络构建步骤S150:
该步骤用于构建第二阶段训练所需的三个神经网络。
在该步骤中,除构建基本的多任务多智能体演员—评论家网络模型以外,还额外构建了本发明所提出的贡献度评价函数网络Qc。贡献度评价函数网络表示贡献度评价函数,目的是为解决无人机集群中各无人机之间的贡献度分配问题。对于n,m∈[N],
Figure BDA0003601620260000161
对任务dn和无人机m的动作
Figure BDA0003601620260000162
的贡献度评价函数为
Figure BDA0003601620260000171
表示无人机m对于其它无人机n完成其任务dn所做的贡献大小,该贡献度评价函数会在步骤S180结合到多智能体主演员网络的更新梯度计算中,使得训练得到的多智能体主演员网络能够指导各无人机执行更具合作性的行为,使得全局收益最大化,贡献度评价函数中的Π表示所有无人机策略的联合策略。
该步骤包括:采样函数扩增的方式,在单无人机训练得到的主评论家网络和主演员网络的基础上来构建无人机集群训练阶段的三个网络,包括多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc,多智能体主演员网络π使用主演员网络构建π1和前馈神经网络扩增构建,全局主Q网络Qg以及贡献度评价函数网络Qc也分别使用主评论家网络Q1和和前馈神经网络扩增构建。
具体过程为:
为无人机集群的N个无人机初始化三个网络,分别为多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc
其中,所述多智能体主演员网络π由两个神经网络π12构成,π1是单无人机训练得到的主演员网络,π2是一个新初始化的隐藏层数量为2的前馈神经网络,π2的输入为
Figure BDA0003601620260000172
输出层直接与π1的最后一层隐藏层
Figure BDA0003601620260000173
相连,因此多智能体主演员网络π的输入由π1的输入和π2的输入构成,即全局观察
Figure BDA0003601620260000174
和无人机n的任务dn,输出为π1的输出,即无人机n可执行动作的概率分布。
所述全局主Q网络Qg由两个前馈神经网络Q1,
Figure BDA0003601620260000181
构成,其中Q1是单无人机训练得来的主评论家网络,
Figure BDA0003601620260000182
是新初始化的一个隐藏层数量为2的前馈神经网络,
Figure BDA0003601620260000183
输入为(s-n,a-n),其输出层与Q1的最后一层隐藏层相连,因此全局主Q网络Qg的输入为Q1,
Figure BDA0003601620260000184
输入的联合,即全局状态s=(senv,sn,s-n),N个智能体的联合动作c=(an,a-n)、以及无人机n的任务dn,输出由网络Q1完成,表示在全局状态s下,当其它无人机联合动作为a-n,无人机n的动作为an时的状态—动作价值
Figure BDA0003601620260000185
所述贡献度评价函数网络Qc的输入为全局状态s=(senv,sn,s-n),任意无人机m的动作am以及无人机n的任务dn,输出为贡献度评价函数
Figure BDA0003601620260000186
所以构建课程训练第二阶段贡献度评价函数网络Qc的方式也与上述构建多智能体主演员网络π的方式类似。贡献度评价函数网络Qc由两个前馈神经网络构成Q1,
Figure BDA0003601620260000187
其中Q1是单无人机训练得来的主评论家网络,
Figure BDA0003601620260000188
是新初始化的一个隐藏层数量为2的前馈神经网络,其输入为s-n,其输出层与Q1的最后一层隐藏层相连。贡献度评价函数网络Qc的输入为Q1,
Figure BDA0003601620260000189
输入的联合,即全局状态s=(senv,sn,s-n),任意无人机m的动作am以及无人机n的任务dn,输出由网络Q1完成,表示无人机m关于无人机n的贡献度评价函数
Figure BDA00036016202600001810
在该步骤中,由于第二阶段训练所需的三个神经网络与第一阶段的两个神经网络相比只是具有额外的输入维度,因此构建的方式为使用额外的神经网络处理这些额外的输入并使其输出与第一阶段的神经网络的最后一层隐藏层相连。这样便保留了第一阶段训练的结果,从而加速第二阶段的训练。
无人机集群训练初始化步骤S160:
该步骤的目的为初始化无人机集群训练所需的各个神经网络以及部分超参数。
无人机集群训练为课程训练第二阶段,由于N个无人机为同质智能体,所以可以共用一套网络,通过输入任务的不同来区分不同的无人机。分别初始化在步骤S150所构建的三个网络的参数,包括多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc并初始化三个网络的目标网络。最后初始化训练所需的各个超参数。
该步骤包括:初始化训练超参数,包括探索参数∈、无人机训练间隔为Etrain,以及最小探索参数∈end并初始化用于无人机集群训练的多任务多智能体演员—评论家网络π,贡献度评价函数网络Qc。由于所有无人机共用一套网络,所以初始化一个多智能体主演员网络π、一个全局主Q网络Qg、一个贡献度评价函数网络Qc以及对应的三个目标网络共六个网络。
具体过程为:为N个无人机初始化一个多智能体主演员网络π、一个全局主Q网络Qg、一个贡献度评价函数网络Qc,参数分别为θπ,
Figure BDA0003601620260000191
分别为N个无人机的三个网络初始化三个目标网络,其结构与这三个网络相同,参数分别为θ′π,
Figure BDA0003601620260000192
共6个网络,N个无人机共用这6个网络。初始化探索参数∈=∈start、探索参数下降速率∈step以及最小探索参数∈end并清空缓存β,初始化无人机训练间隔为Etrain
该步骤的目的与步骤S120类似,初始化训练所需的各个神经网络以及部分超参数。第二阶段为无人机集群训练,共N个无人机,但由于这N个无人机为同质实体,因此共享一个神经网络,根据输入任务的不同来区分不同的无人机。相比课程训练第一阶段,除了处理更多维度的输入以外,还需训练一个额外的贡献度评价函数网络,该贡献度评价函数网络解决了本发明提出的多智能体训练的贡献度分配问题。
无人机集群训练采样步骤S170:
该步骤用于:采集并存储样本用于步骤S160初始化网络的训练。
该步骤包括:通过无人机集群与环境不断交互,采集并存储交互产生的样本,用于步骤S160所初始化的无人机集群网络训练,交互的方式为在每个离散的时刻,所有无人机根据该时刻各自的观察信息执行动作,随后环境信息由于所有无人机的联合动作ct而发生变化并反馈给各个无人机各自的奖励
Figure BDA0003601620260000201
存储的每个训练样本包含的信息有状态st、所有无人机的联合观察ot、所有无人机的联合任务jt、所有无人机的联合动作ct、所有无人机得到的奖励集合
Figure BDA0003601620260000202
下一时刻状态st+1以及下一时刻联合观察ot+1
具体的:为每个无人机n随机分配一个任务dn,并初始化状态和观察为s1
Figure BDA0003601620260000203
接下来重复执行T步,在每个时间步t,对于每个无人机n,将其观察
Figure BDA0003601620260000204
和dn输入多智能体主演员网络π,根据输出的动作概率分布采样动作
Figure BDA0003601620260000205
N个无人机的动作构成联合动作ct,执行动作ct,环境信息由于动作的执行而改变并反馈奖励
Figure BDA0003601620260000211
下一时刻状态st+1以及下一时刻联合观察ot+1并将所有信息组织成转移元组
Figure BDA0003601620260000212
的形式存入缓存β,其中jt={d1,d2,...,dN}是所有无人机的任务的集合,
Figure BDA0003601620260000213
是所有无人机执行的动作的集合,
Figure BDA0003601620260000214
是所有无人机观察的集合。
无人机集群训练步骤S180:
该步骤目的为:从缓存中采集样本用于多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc的更新。
对于本发明而言,多智能体主演员网络π是本发明最终需要的网络,其作用为输出无人机需要执行的动作。全局主Q网络Qg输出全局状态与所有无人机联合动作的状态—动作价值函数。贡献度评价函数网络Qc输出为贡献度评价函数,与全局主Q网络表示的状态—动作价值函数结合可得到基于贡献度评价函数的多任务多智能体强化学习策略梯度:
Figure BDA0003601620260000215
Figure BDA0003601620260000216
贡献度评价函数改进优势函数的计算,其中Π表示联合策略,πm(am|om,dm)表示无人机m执行动作am的概率,由多智能体主演员网络输出,
Figure BDA0003601620260000217
是由全局主Q网络输出的状态—动作价值函数,
Figure BDA0003601620260000218
表示非实际执行的动作,即无人机m除动作am外的所有其它动作。
Figure BDA0003601620260000221
是优势函数,表示当前执行的动作相比其它任一未执行的动作好坏程度,通常情况下第二项也为状态—动作价值函数,这里替换为贡献度评价函数,实现了作用于多智能体主演员网络更新的贡献度分配。即贡献度评价函数评估无人机m非实际执行的动作
Figure BDA0003601620260000222
对无人机n的任务完成的贡献大小,并作用于优势函数影响多智能体主演员网络的梯度的计算,贡献度越大,则相应实际执行的动作am的贡献度就越小,因此
Figure BDA0003601620260000223
越小,使得梯度变小,从而相对减小了实际执行的动作am被执行的概率。在贡献度价值函数的影响下,各个无人机学习的策略会更多考虑到对无人机集群中其它所有无人机完成任务的影响,从而学得更具有合作性的策略。
该步骤包括:重复执行多次步骤S170以获得足够多的无人机集群与环境交互的数据,随后从缓存中随机采集样本i来执行多轮网络更新:首先利用目标全局主Q网络Qg计算得来的目标值
Figure BDA0003601620260000224
来计算损失
Figure BDA0003601620260000225
使用梯度下降更新全局主Q网络Qg,该全局主Q网络Qg具有评价各无人机集群所做动作好坏的作用,其输出用于计算优势函数来辅助多智能体主演员网络π的更新;然后利用目标贡献度评价函数网络Qc计算得来的目标值
Figure BDA0003601620260000226
来计算损失
Figure BDA0003601620260000227
使用梯度下降更新贡献度评价函数网络Qc,其输出也用于计算优势函数;随后利用全局主Q网络Qg和贡献度评价函数网络Qc计算优势函数
Figure BDA0003601620260000228
使用该优势函数计算多智能体主演员网络更新梯度,即多任务多智能体强化学习策略梯度,并使用梯度上升更新多智能体主演员网络π;最后更新三个目标网络的参数。
具体过程为:重复执行步骤S170共E次,如果∈>∈end,每次衰减探索参数∈←∈-∈step,期间每隔Etrain次便执行一次智能体训练过程。每次训练过程执行K轮更新,每轮更新执行以下步骤:
1.从缓存β中随机采集S个转移元组
Figure BDA0003601620260000231
2.更新全局主Q网络Qg参数,具体如图3所示,包括:
对于每个转移元组i,以及每个无人机n(或任务dn),使用目标全局主Q网络Qg计算目标值
Figure BDA0003601620260000232
其中γ为折扣率,通常为0.99,
Figure BDA0003601620260000233
由多智能体目标演员网络π获得,对于获得的每个动作
Figure BDA0003601620260000234
多智能体目标演员网络π输入为
Figure BDA0003601620260000235
3.计算全局主Q网络Qg的损失
Figure BDA0003601620260000236
Figure BDA0003601620260000237
并利用梯度下降最下化该损失来更新全局主Q网络Qg参数;
4.更新贡献度评价函数网络Qc参数,具体如图4所示:对于任意m,n∈[1,N],使用目标贡献度评价函数网络Qc计算
Figure BDA0003601620260000238
Figure BDA0003601620260000239
由多智能体目标演员网络π获得,多智能体目标演员网络输入为
Figure BDA00036016202600002310
5.计算贡献度评价函数网络Qc的损失
Figure BDA00036016202600002311
并利用梯度下降最下化该损失来更新贡献度评价函数网络参数;
6.计算优势函数,具体如图5所示:
对于每个样本i,利用全局主Q网络Qg计算得到状态—动作价值函数,对于任意无人机m∈[N],利用贡献度评价函数网络Qc计算得到无人机m的非实际执行的动作关于无人机n任务完成的贡献度评价函数,通过如下公式,计算得到关于无人机n的优势函数:
Figure BDA0003601620260000241
其中,
Figure BDA0003601620260000242
是由全局主Q网络Qg计算得来的对无人机集群所有无人机所做的联合动作好坏的评估,
Figure BDA0003601620260000243
是通过不同无人机m的贡献度评价函数获得不同无人机对该联合动作评估的贡献,
Figure BDA0003601620260000244
是无人机m的非实际执行动作,即除无人机m事实上执行了的被包含在联合动作ci中的动作am以外的其它任意可执行动作,即假如am为左偏转,则
Figure BDA0003601620260000245
表示前、后、上、下移动和右偏转中的任意动作。因此
Figure BDA0003601620260000246
表示无人机m所做的实际动作am相比于无人机m其它可能动作
Figure BDA0003601620260000247
对无人机n的任务实现所做的贡献大小,通过其它非实际执行动作的贡献来衰减最终其所做的真实动作的价值。
7.计算多任务多智能体主演员网络梯度,并更新多智能体主演员网络参数,具体如图5所示:如;
使用多智能体主演员网络π计算样本i中各个动作
Figure BDA0003601620260000248
执行的概率值
Figure BDA0003601620260000249
其输入为
Figure BDA00036016202600002410
然后与子步骤(6)计算得到的优势函数计算多任务多智能体主演员网络更新梯度
Figure BDA00036016202600002411
Figure BDA00036016202600002412
并利用该梯度更新多智能体主演员网络参数,多智能体主演员网络π更新梯度即为基于贡献度评价函数的多任务多智能体强化学习策略梯度,是在贡献度评价函数和已有的多智能体强化学习策略梯度基础上推导获得的,
Figure BDA0003601620260000251
越大,表明无人机m所做贡献越大,因此网络更新后无人机m对应动作被选择概率会提升;
8.更新所有目标网络参数θ′←τθ+(1-τ)θ′。
评估步骤S190:
该步骤的目的为:步骤S180结束后,会得到一个训练完成的多智能体主演员网络π,该网络是最终用于控制无人机集群各无人机的网络,由于强化学习训练的不稳定特性,需对训练后的由多智能体主演网络所控制的无人机集群性能进行评估。
该步骤包括:使用多智能体主演员网络π控制无人机集群在仿真环境中多次执行摧毁任务,评判标准为摧毁任务的完成次数,如不满足要求则重新训练;如满足要求则退出训练,保存多智能体主演网络。
具体为:在无人机集群中,不同的无人机具有不同的任务,多智能体主演员网络π的输入为无人机m的观察与任务,因此通过输入任务的不同控制不同的无人机。在仿真环境中,使用由多智能体主演网络π控制的无人机集群执行目标摧毁任务以对网络性能进行评估,共执行100轮评估,每轮评估每个无人机随机初始化一个任务,在每个离散的时刻,所有无人机根据该时刻各自的观察信息,将其输入多智能体主演员网络π,根据输出的动作的概率分布获得一个动作并执行,随后环境信息由于所有无人机的联合动作而发生变化,反馈给各无人机新的观察信息,重复上述过程直到所有无人机任务完成或时间耗尽。如果每个无人机完成其任务,即摧毁所有目标,则表明此轮评估无人机集群成功完成摧毁任务。如果100轮评估结实时成功率达到成功率阈值,例如90%,则退出训练;如果成功率不到成功率阈值,则继续执行步骤S110-S190。
综上,本发明的优点为:
(1)使用集中式训练、分散式执行的多智能体强化学习技术进行无人机集群的训练,集中式训练指在训练时利用全局信息得到的全局主Q函数可以加快多智能体主演员网络的训练,而分散式执行指在获得各个无人机的动作时只需输入该无人机自身的观察信息,使得无人机集群中的各个无人机之间无需交换数据就能自行计算获得待执行的动作;
(2)使用贡献度评价函数解决贡献度分配问题,评估无人机集群中各个无人机对其它无人机完成任务的贡献,提高贡献度大的动作被选择的概率,使得各个无人机可以学得合作型策略,利于任务的完成;
(3)使用两阶段的课程训练。不直接对贡献度评价函数网络和多智能体主演员网络进行训练,而是先在第一阶段训练得到单无人机的演员—评论家网络,然后在第二阶段利用该演员—评论家网络构建的多智能体主演员网络、全局主Q网络和贡献度评价函数网络的基础上进行无人机集群的训练,从而加快贡献度评价函数网络和多智能体主演员网络的训练。
本发明进一步公开了一种基于贡献度评价的无人机集群多任务训练系统,包括存储介质和处理器,
所述存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的基于贡献度评价的无人机集群多任务训练。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (8)

1.一种基于贡献度评价的无人机集群多任务训练方法,其特征在于,包括如下步骤:
环境构建步骤S110:
该步骤包括:构建无人机军事仿真环境,包括需要完成的任务d、任意无人机n的观察信息on、整个环境的状态信息s、无人机的动作空间以及奖励函数
Figure FDA0003867388710000011
单无人机训练初始化步骤S120:
初始化单无人机的演员—评论家网络模型,其中演员网络表示策略,输入为无人机m的局部观察om与无人机需要完成的任务d,输出为无人机需要执行的动作am,评论家网络的输入为独立于无人机的环境状态信息senv、无人机的坐标sm、无人机的动作am以及无人机需要完成的任务d,输出为状态—动作价值函数
Figure FDA0003867388710000012
其中s1=(senv,sm),最后初始化超参数:包括探索参数∈和训练间隔Etrain
单无人机采样训练步骤S130:
通过单个无人机与环境不断交互,采集并存储交互产生的样本,用于单无人机网络的训练,交互的方式为在每个离散的时刻t,无人机m根据该时刻的观察信息
Figure FDA0003867388710000013
执行动作
Figure FDA0003867388710000014
随后环境信息在动作的影响下发生变化并反馈给无人机奖励函数
Figure FDA0003867388710000015
采集的每个样本包括简化后的状态
Figure FDA0003867388710000016
无人机m的观察
Figure FDA0003867388710000017
任务d、动作
Figure FDA0003867388710000018
奖励函数
Figure FDA0003867388710000019
下一时刻简化后的状态
Figure FDA00038673887100000110
以及下一时刻无人机的观察
Figure FDA00038673887100000111
单无人机训练网络训练步骤S140:
重复执行多次步骤S130以获得训练数据,随后从缓存β中随机采集样本来执行多轮网络更新:对采集的每个样本i,首先更新主评论家网络Q1,输入为来源于样本的简化后的状态
Figure FDA0003867388710000021
无人机m的动作
Figure FDA0003867388710000022
以及任务di,训练标签
Figure FDA0003867388710000023
由目标评论家根据来源于样本的奖励函数
Figure FDA0003867388710000024
和下一时刻简化后的状态
Figure FDA0003867388710000025
以及任务di计算得到;随后更新主演员网络π1,其输入为来源于样本的局部观察
Figure FDA0003867388710000026
和任务di,训练标签
Figure FDA0003867388710000027
由主演员网络π1和主评论家网络Q1共同计算获得,最后更新目标网络的参数;
无人机集群各无人机网络构建步骤S150:
采样函数扩增的方式,在单无人机训练得到的主评论家网络和主演员网络的基础上来构建无人机集群训练阶段的三个网络,包括多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc,多智能体主演员网络π使用主演员网络构建π1和前馈神经网络扩增构建,全局主Q网络Qg以及贡献度评价函数网络Qc也分别使用主评论家网络Q1和前馈神经网络扩增构建;
无人机集群训练初始化步骤S160:
初始化训练超参数,包括探索参数∈、无人机训练间隔为Etrain,以及最小探索参数∈end并初始化用于无人机集群训练的多任务多智能体演员—评论家网络π,贡献度评价函数网络Qc,由于所有无人机共用一套网络,所以初始化一个多智能体主演员网络π、一个全局主Q网络Qg、一个贡献度评价函数网络Qc以及对应的三个目标网络共六个网络;
无人机集群训练采样步骤S170:
通过无人机集群与环境不断交互,采集并存储交互产生的样本,用于步骤S160所初始化的无人机集群网络训练,交互的方式为在每个离散的时刻t,所有无人机根据该时刻各自的观察信息执行动作,随后环境信息由于所有无人机的联合动作ct而发生变化并反馈给各个无人机各自的奖励函数
Figure FDA0003867388710000031
存储的每个训练样本包含的信息有状态st、所有无人机的联合观察ot、所有无人机的联合任务jt、所有无人机的联合动作ct、所有无人机得到的奖励集合
Figure FDA0003867388710000032
下一时刻状态st+1以及下一时刻联合观察ot+1
无人机集群训练步骤S180:
重复执行多次步骤S170以获得无人机集群与环境交互的数据,随后从缓存中随机采集样本i来执行多轮网络更新:首先利用目标全局主Q网络Qg′计算得来的目标值
Figure FDA0003867388710000033
来计算损失
Figure FDA0003867388710000034
使用梯度下降更新全局主Q网络Qg,其输出用于计算优势函数来辅助多智能体主演员网络π的更新;然后利用目标贡献度评价函数网络Qc′计算得来的目标值
Figure FDA0003867388710000035
来计算损失
Figure FDA0003867388710000036
使用梯度下降更新贡献度评价函数网络Qc,其输出用于计算优势函数;随后利用全局主Q网络Qg和贡献度评价函数网络Qc计算优势函数
Figure FDA0003867388710000037
使用该优势函数计算多智能体主演员网络更新梯度,即多任务多智能体强化学习策略梯度,并使用梯度上升更新多智能体主演员网络π;最后更新三个目标网络的参数;
评估步骤S190:
使用多智能体主演员网络π控制无人机集群在仿真环境中多次执行摧毁任务,评判标准为摧毁任务的完成次数,如不满足要求则重新训练;如满足要求则退出训练,保存多智能体主演网络;
其中,所述无人机集群各无人机网络构建步骤S150具体为:
为无人机集群的N个无人机初始化三个网络,分别为多智能体主演员网络π、全局主Q网络Qg以及贡献度评价函数网络Qc
其中,所述多智能体主演员网络π由两个神经网络π12构成,π1是单无人机训练得到的主演员网络,π2是一个新初始化的隐藏层数量为2的前馈神经网络,π2的输入为
Figure FDA0003867388710000041
输出层直接与π1的最后一层隐藏层
Figure FDA0003867388710000042
相连,因此多智能体主演员网络π的输入由π1的输入和π2的输入构成,即全局观察
Figure FDA0003867388710000043
和无人机n的任务dn,输出为π1的输出,即无人机n可执行动作的概率分布;
所述全局主Q网络Qg由两个前馈神经网络Q1,
Figure FDA0003867388710000044
构成,其中Q1是单无人机训练得来的主评论家网络,
Figure FDA0003867388710000045
是新初始化的一个隐藏层数量为2的前馈神经网络,
Figure FDA0003867388710000046
输入为(s-n,a-n),其输出层与Q1的最后一层隐藏层相连,因此全局主Q网络Qg的输入为Q1,
Figure FDA0003867388710000047
输入的联合,即全局状态s=(senv,sn,s-n),N个智能体的联合动作c=(an,a-n)、以及无人机n的任务dn,输出由网络Q1完成,表示在全局状态s下,当其它无人机联合动作为a-n,无人机n的动作为an时的状态—动作价值
Figure FDA0003867388710000048
所述贡献度评价函数网络Qc的输入为全局状态s=(senv,sn,s-n),任意无人机m的动作am以及无人机n的任务dn,输出为贡献度评价函数
Figure FDA0003867388710000051
贡献度评价函数网络Qc由两个前馈神经网络构成Q1,
Figure FDA0003867388710000052
其中Q1是单无人机训练得来的主评论家网络,
Figure FDA0003867388710000053
是新初始化的一个隐藏层数量为2的前馈神经网络,其输入为s-n,其输出层与Q1的最后一层隐藏层相连,贡献度评价函数网络Qc的输入为Q1,
Figure FDA0003867388710000054
输入的联合,即全局状态s=(senv,sn,s-n),任意无人机m的动作am以及无人机n的任务dn,输出由网络Q1完成,表示无人机m关于无人机n的贡献度评价函数
Figure FDA0003867388710000055
所述无人机集群训练初始化步骤S160具体为:为N个无人机初始化一个多智能体主演员网络π、一个全局主Q网络Qg、一个贡献度评价函数网络Qc,参数分别为
Figure FDA0003867388710000056
分别为N个无人机的三个网络初始化三个目标网络,其结构与这三个网络相同,参数分别为θ′π,
Figure FDA0003867388710000057
共6个网络,N个无人机共用这6个网络,初始化探索参数∈=∈start、探索参数下降速率∈step以及最小探索参数∈end并清空缓存β,初始化无人机训练间隔为Etrain
无人机集群训练步骤S180具体为:
重复执行步骤S170共E次,如果∈>∈end,每次衰减探索参数∈←∈-∈step,期间每隔Etrain次便执行一次智能体训练过程,每次训练过程执行K轮更新,每轮更新执行以下步骤:
(1).从缓存β中随机采集S个转移元组
Figure FDA0003867388710000058
(2).更新全局主Q网络Qg参数,包括:对于每个转移元组i,以及每个无人机n,使用目标全局主Q网络Qg′计算目标值
Figure FDA0003867388710000059
Figure FDA0003867388710000061
其中γ为折扣率,
Figure FDA0003867388710000062
由多智能体目标演员网络π获得,对于得到的每个动作
Figure FDA0003867388710000063
对应的多智能体目标演员网络π输入为
Figure FDA0003867388710000064
(3).计算全局主Q网络Qg的损失
Figure FDA0003867388710000065
Figure FDA0003867388710000066
并利用梯度下降最下化该损失来更新全局主Q网络Qg参数;
(4).更新贡献度评价函数网络Qc参数,对于任意m,n∈[1,N],使用目标贡献度评价函数网络Qc′计算
Figure FDA0003867388710000067
Figure FDA0003867388710000068
由多智能体目标演员网络π获得,多智能体目标演员网络输入为
Figure FDA0003867388710000069
(5).计算贡献度评价函数网络Qc的损失
Figure FDA00038673887100000610
并利用梯度下降最下化该损失来更新贡献度评价函数网络参数;
(6).计算优势函数,对于每个样本i,利用全局主Q网络Qg计算得到状态—动作价值函数,对于任意无人机m∈[N],利用贡献度评价函数网络Qc计算得到无人机m的非实际执行的动作关于无人机n任务完成的贡献度评价函数,通过如下公式,计算得到关于无人机n的优势函数:
Figure FDA00038673887100000611
其中,
Figure FDA00038673887100000612
是由全局主Q网络Qg计算得来的对无人机集群所有无人机所做的联合动作好坏的评估,
Figure FDA00038673887100000613
是通过不同无人机m的贡献度评价函数获得不同无人机对该联合动作评估的贡献,
Figure FDA0003867388710000071
是无人机m的非实际执行动作;
(7).计算多任务多智能体主演员网络梯度,并更新多智能体主演员网络参数,使用多智能体主演员网络π计算样本i中各个动作
Figure FDA0003867388710000072
执行的概率值
Figure FDA0003867388710000073
其输入为
Figure FDA0003867388710000074
然后与子步骤(6)计算得到的优势函数计算多任务多智能体主演员网络更新梯度
Figure FDA0003867388710000075
并利用该梯度更新多智能体主演员网络参数,多智能体主演员网络π更新梯度即为基于贡献度评价函数的多任务多智能体强化学习策略梯度;
(8).更新所有目标网络参数θ′←τθ+(1-τ)θ′。
2.根据权利要求1所述的多任务训练方法,其特征在于,
所述环境构建步骤S110具体为:
设定无人机的任务d,任务d取值为目标的坐标位置(xd,yd,zd),对于无人机集群中的任意无人机n,无人机的观察信息为
Figure FDA0003867388710000076
Figure FDA0003867388710000077
其中
Figure FDA0003867388710000078
表示无人机n自身的坐标位置
Figure FDA0003867388710000079
Figure FDA00038673887100000710
表示其它所有无人机与无人机n的相对位置
Figure FDA00038673887100000711
N为无人机的数量;状态信息为s=(senv,sn,s-n),其中senv表示所有目标的坐标位置
Figure FDA00038673887100000712
sn为无人机n自身的坐标位置
Figure FDA00038673887100000713
s-n为其它所有无人机的坐标位置
Figure FDA00038673887100000714
无人机的动作空间简化为前、后、上、下移动和左偏转、右偏转的6个离散动作;
无人机的奖励函数
Figure FDA00038673887100000715
分为两部分,一部分为步数惩罚奖励,即无人机每执行一次动作都会获得-0.1的奖励,另一部分为任务完成奖励,即任务完成获得+100的奖励,任务未完成则获得-100的奖励。
3.根据权利要求2所述的多任务训练方法,其特征在于,
单无人机训练初始化步骤S120具体包括如下子步骤:
(1)初始化第一阶段无人机m的主评论家网络Q1,主演员网络π1,参数分别为
Figure FDA0003867388710000081
(2)初始化第一阶段目标评论家网络与目标演员网络,其结构分别与主评论家网络和主演员网络相同,参数分别为
Figure FDA0003867388710000082
(3)课程训练第一阶段是单无人机训练,对所有网络的输入进行简化,主评论家网络Q1与目标评论家网络输入为独立于无人机的环境状态信息senv、无人机m的信息sm、无人机m的动作am以及无人机m需完成的任务d,得到状态s1和动作am的状态—动作价值函数
Figure FDA0003867388710000083
其中s1是简化后的状态信息,为除去与其它无人机无关的部分,即s1=(senv,sm);主演员网络π1和目标演员网络输入为无人机m的局部观察
Figure FDA0003867388710000084
以及无人机m需要完成的任务d,输出为所有可选动作的概率分布;初始化探索参数∈=∈start、探索参数下降速率∈step以及最小探索参数∈end并清空缓存β,初始化智能体训练间隔为Etrain
4.根据权利要求3所述的多任务训练方法,其特征在于,
所述单无人机采样训练步骤S130具体为:
随机分配一个任务d给无人机m,并初始化简化后的状态和观察为
Figure FDA0003867388710000085
Figure FDA0003867388710000086
重复执行T步以下的交互,具体在每个时间步t,将无人机m的观察
Figure FDA0003867388710000091
和任务d输入主演员网络π1,根据输出的动作概率分布采样动作
Figure FDA0003867388710000092
执行动作
Figure FDA0003867388710000093
环境信息发生变化,无人机m获得环境反馈的奖励函数
Figure FDA0003867388710000094
下一时刻状态
Figure FDA0003867388710000095
以及下一时刻观察
Figure FDA0003867388710000096
以转移元组的形式将每个时间步t获得的样本存入缓存β,转移元组为
Figure FDA0003867388710000097
5.根据权利要求4所述的多任务训练方法,其特征在于,
所述单无人机训练网络训练步骤S140具体为:
重复执行步骤130共E次,如果∈>∈end,每次衰减探索参数∈←∈-∈step,期间每隔Etrain次便执行一次智能体训练过程,每次训练过程执行K轮更新,每轮更新执行以下步骤:
(1).从缓存β中随机采集S个转移元组
Figure FDA0003867388710000098
(2).使用目标评论家网络针对每个样本i计算目标值
Figure FDA0003867388710000099
Figure FDA00038673887100000910
其中γ为折扣率,取值为0.99,
Figure FDA00038673887100000911
为采样得到的转移元组中的数据,
Figure FDA00038673887100000912
由目标评论家网络计算获得,
Figure FDA00038673887100000913
由目标演员网络获得,目标演员网络输入为
Figure FDA00038673887100000914
(3).计算主评论家网络损失
Figure FDA00038673887100000915
并利用梯度下降最小化该损失来更新主评论家网络参数,其中
Figure FDA00038673887100000916
由主评论家网络获得;
(4).使用主评论家网络和主演员网络计算优势函数
Figure FDA00038673887100000917
Figure FDA00038673887100000918
其中
Figure FDA00038673887100000919
表示智能体,也就是无人机m除
Figure FDA0003867388710000101
以外的其它可执行动作;
(5).计算主演员网络更新梯度
Figure FDA0003867388710000102
并利用该梯度更新主演员网络参数;
(6).更新所有目标网络参数θ′←τθ+(1-τ)θ′,其中θ表示任意的主网络参数,θ′表示与之对应的目标网络参数,τ是人为设定的超参数,控制更新的幅度。
6.根据权利要求5所述的多任务训练方法,其特征在于,
无人机集群训练采样步骤S170具体为:
为每个无人机n随机分配一个任务dn,并初始化状态和观察为s1
Figure FDA0003867388710000103
接下来重复执行T步,在每个时间步t,对于每个无人机n,将其观察
Figure FDA0003867388710000104
和dn输入多智能体主演员网络π,根据输出的动作概率分布采样动作
Figure FDA0003867388710000105
N个无人机的动作构成联合动作ct,执行动作ct,环境信息由于动作的执行而改变并反馈奖励函数
Figure FDA0003867388710000106
下一时刻状态st+1以及下一时刻联合观察ot+1并将所有信息组织成转移元组
Figure FDA0003867388710000107
的形式存入缓存β,其中jt={d1,d2,...,dN}是所有无人机的任务的集合,
Figure FDA0003867388710000108
是所有无人机执行的动作的集合,
Figure FDA0003867388710000109
是所有无人机观察的集合。
7.根据权利要求6所述的多任务训练方法,其特征在于,
所述评估步骤S190具体为:
使用由多智能体主演网络π控制的无人机集群执行目标摧毁任务以对网络性能进行评估,共执行100轮评估,每轮评估每个无人机随机初始化一个任务,在每个离散的时刻,所有无人机根据该时刻各自的观察信息,将其输入多智能体主演员网络π,根据输出的动作的概率分布获得一个动作并执行,随后环境信息由于所有无人机的联合动作而发生变化,反馈给各无人机新的观察信息,重复上述过程直到所有无人机任务完成或时间耗尽;如果每个无人机完成其任务,即摧毁所有目标,则表明此轮评估无人机集群成功完成摧毁任务,如果100轮评估结束时成功率达到成功率阈值,则退出训练;如果成功率不到成功率阈值,则继续执行步骤S110-S190。
8.一种基于贡献度评价的无人机集群多任务训练系统,包括存储介质和处理器,
所述存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行权利要求1-7中任意一项所述的基于贡献度评价的无人机集群多任务训练方法。
CN202210404223.9A 2022-04-18 2022-04-18 一种基于贡献度评价的无人机集群多任务训练方法及系统 Active CN114741886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210404223.9A CN114741886B (zh) 2022-04-18 2022-04-18 一种基于贡献度评价的无人机集群多任务训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210404223.9A CN114741886B (zh) 2022-04-18 2022-04-18 一种基于贡献度评价的无人机集群多任务训练方法及系统

Publications (2)

Publication Number Publication Date
CN114741886A CN114741886A (zh) 2022-07-12
CN114741886B true CN114741886B (zh) 2022-11-22

Family

ID=82281875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210404223.9A Active CN114741886B (zh) 2022-04-18 2022-04-18 一种基于贡献度评价的无人机集群多任务训练方法及系统

Country Status (1)

Country Link
CN (1) CN114741886B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115454096B (zh) * 2022-10-09 2024-07-19 哈尔滨工业大学 一种基于课程强化学习的机器人策略训练系统及训练方法
CN115470894B (zh) * 2022-10-31 2023-01-31 中国人民解放军国防科技大学 基于强化学习的无人机知识模型分时调用方法及装置
CN116488154B (zh) * 2023-04-17 2024-07-26 海南大学 基于微电网的能源调度方法、系统、计算机设备及介质
CN116430754B (zh) * 2023-06-09 2023-09-12 北京中兵天工防务技术有限公司 一种无人机集群多任务控制半实物仿真方法
CN116629461B (zh) * 2023-07-25 2023-10-17 山东大学 一种主动配电网分布式优化方法、系统、设备及存储介质
CN118276454B (zh) * 2024-06-04 2024-07-26 中国人民解放军国防科技大学 多任务风险泛化的分布式多无人机策略获取方法及装置
CN118707914A (zh) * 2024-08-29 2024-09-27 苏州蓝灵智能制造科技有限公司 一种基于分布控制的车间生产设备运行监控系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
CN112633415A (zh) * 2021-01-11 2021-04-09 中国人民解放军国防科技大学 基于规则约束训练的无人机集群智能任务执行方法和装置
CN112966816A (zh) * 2021-03-31 2021-06-15 东南大学 一种编队包围的多智能体强化学习方法
CN113033118A (zh) * 2021-03-10 2021-06-25 山东大学 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法
CN113033119A (zh) * 2021-03-11 2021-06-25 山东大学 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
WO2021156441A1 (en) * 2020-02-07 2021-08-12 Deepmind Technologies Limited Learning machine learning incentives by gradient descent for agent cooperation in a distributed multi-agent system
CN114065929A (zh) * 2021-07-26 2022-02-18 成都蓉奥科技有限公司 一种深度强化学习模型的训练方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111417964B (zh) * 2018-02-05 2024-04-19 渊慧科技有限公司 异策略行动者-评价者强化学习方法和系统
CN109635917B (zh) * 2018-10-17 2020-08-25 北京大学 一种多智能体合作决策及训练方法
US20220067504A1 (en) * 2020-08-26 2022-03-03 Sony Corporation Training actor-critic algorithms in laboratory settings

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
WO2021156441A1 (en) * 2020-02-07 2021-08-12 Deepmind Technologies Limited Learning machine learning incentives by gradient descent for agent cooperation in a distributed multi-agent system
CN112633415A (zh) * 2021-01-11 2021-04-09 中国人民解放军国防科技大学 基于规则约束训练的无人机集群智能任务执行方法和装置
CN113033118A (zh) * 2021-03-10 2021-06-25 山东大学 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法
CN113033119A (zh) * 2021-03-11 2021-06-25 山东大学 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN112966816A (zh) * 2021-03-31 2021-06-15 东南大学 一种编队包围的多智能体强化学习方法
CN114065929A (zh) * 2021-07-26 2022-02-18 成都蓉奥科技有限公司 一种深度强化学习模型的训练方法、装置及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Actor-Critic Deep Reinforcement Learning for Energy Minimization in UAV-Aided Networks";Yaxiong Yuan 等;《2020 European Conference on Networks and Communications (EuCNC)》;20200921;第348-352页 *
"Deep Reinforcement Learning for Mapless Navigation of Unmanned Aerial Vehicles";Ricardo B. Grando;《2020 Latin American Robotics Symposium (LARS), 2020 Brazilian Symposium on Robotics (SBR) and 2020 Workshop on Robotics in Education (WRE)》;20210107;第1-6页 *
"基于DDPG算法的无人机集群追击任务";张耀中 等;《航空学报》;20200615;第41卷(第10期);第1-13页 *
"基于深度强化学习的无人机对战战术决策的研究";胡真财;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20210215(第02期);C032-2 *

Also Published As

Publication number Publication date
CN114741886A (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN114741886B (zh) 一种基于贡献度评价的无人机集群多任务训练方法及系统
Nguyen et al. Deep reinforcement learning for multiagent systems: A review of challenges, solutions, and applications
Jiang et al. Learning attentional communication for multi-agent cooperation
Pascanu et al. Learning model-based planning from scratch
Russell et al. Q-decomposition for reinforcement learning agents
CN111240356B (zh) 一种基于深度强化学习的无人机集群会合方法
Zhang et al. A collaborative multiagent reinforcement learning method based on policy gradient potential
Schwarting et al. Deep latent competition: Learning to race using visual control policies in latent space
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN116663416A (zh) 一种基于行为树的cgf决策行为仿真方法
CN116430888A (zh) 多无人机空战策略生成方法、装置和计算机设备
Chen et al. Policy gradient from demonstration and curiosity
Liang et al. Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network
Sumiea et al. Enhanced deep deterministic policy gradient algorithm using grey wolf optimizer for continuous control tasks
Zha et al. Evaluate, explain, and explore the state more exactly: an improved Actor-Critic algorithm for complex environment
Kong et al. Multi-UAV simultaneous target assignment and path planning based on deep reinforcement learning in dynamic multiple obstacles environments
CN118153621A (zh) 一种基于双层图注意力强化学习的多智能体围捕方法
Ejaz et al. Autonomous visual navigation using deep reinforcement learning: An overview
Messikommer et al. Contrastive initial state buffer for reinforcement learning
CN117908565A (zh) 基于最大熵多智能体强化学习的无人机安全路径规划方法
Chen et al. Survey of multi-agent strategy based on reinforcement learning
Fang et al. Quadrotor navigation in dynamic environments with deep reinforcement learning
Huang et al. A deep reinforcement learning approach to preserve connectivity for multi-robot systems
CN114818124B (zh) 一种基于dppo的虚实融合栅格舵模型参数优化方法
CN111783983A (zh) 用于实现导航的可迁移的元学习的无监督dqn强化学习

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant